CN116563503A - 基于增强现实的显示处理方法、装置、设备及存储介质 - Google Patents

基于增强现实的显示处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116563503A
CN116563503A CN202210101966.9A CN202210101966A CN116563503A CN 116563503 A CN116563503 A CN 116563503A CN 202210101966 A CN202210101966 A CN 202210101966A CN 116563503 A CN116563503 A CN 116563503A
Authority
CN
China
Prior art keywords
size
interaction interface
real
man
machine interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210101966.9A
Other languages
English (en)
Inventor
韩瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210101966.9A priority Critical patent/CN116563503A/zh
Priority to PCT/CN2022/112068 priority patent/WO2023142432A1/zh
Priority to US18/202,561 priority patent/US20230298239A1/en
Publication of CN116563503A publication Critical patent/CN116563503A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种基于增强现实的显示处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,实时画面包括至少一个对象;从至少一个对象中识别出主体对象,其中,主体对象为实时画面中唯一的对象或尺寸最大的对象;在人机交互界面中显示主体对象的至少一个关联信息。通过本申请,能够在增强现实场景中灵活并准确控制关联信息的显示。

Description

基于增强现实的显示处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机应用技术,尤其涉及一种基于增强现实的显示处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着计算机技术的发展,电子设备可以实现更加丰富的和形象的虚拟场景。虚拟场景是指计算机通过数字通讯技术勾勒出的数字化场景,用户可以在虚拟场景中获得视觉、听觉等方面的完全虚拟化的感受(例如虚拟现实)或部分虚拟化的感受(例如增强现实),同时可以与拍摄场景中的各种对象进行交互。
然而,相关技术对于增强现实的显示方式的支持比较局限,例如,通过增强现实的人机交互界面显示拍摄场景的实时画面时,通过额外的显示界面展示实时画面中所有对象的关联信息,这种显示方案的局限性进一步影响了关联信息的显示效果。
发明内容
本申请实施例提供一种基于增强现实的显示处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在增强现实场景中灵活并准确控制关联信息的显示。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于增强现实的显示处理方法,包括:
在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括至少一个对象;
从所述至少一个对象中识别出主体对象,其中,所述主体对象为所述实时画面中唯一的对象或尺寸最大的对象;
在所述人机交互界面中显示所述主体对象的至少一个关联信息。
本申请实施例提供一种基于增强现实的显示处理方法,包括:
在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括多个对象;
针对每个所述对象显示选择标识;
响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象作为主体对象,在所述人机交互界面中显示所述主体对象的至少一个关联信息。
本申请实施例提供一种基于增强现实的显示处理装置,包括:
第一显示模块,用于在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括至少一个对象;
识别模块,用于从所述至少一个对象中识别出主体对象,其中,所述主体对象为所述实时画面中唯一的对象或尺寸最大的对象;
所述第一显示模块,还用于在所述人机交互界面中显示所述主体对象的至少一个关联信息。
上述技术方案中,当所述实时画面中包括多个对象时,所述识别模块还用于确定所述多个对象中尺寸最大的第一对象以及尺寸仅次于所述第一对象的第二对象;
当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值时,将所述第一对象确定为所述主体对象;
其中,所述尺寸差值阈值为所述人机交互界面面积与设定比例的乘积。
上述技术方案中,所述对象的尺寸的类型包括以下之一:成像尺寸、实际尺寸;
其中,所述成像尺寸表示所述对象在所述人机交互界面中未被遮挡的部分的尺寸,所述实际尺寸表示所述对象在所述人机交互界面中未被遮挡的部分以及被遮挡的部分的尺寸总和。
上述技术方案中,所述识别模块还用于当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象位于所述人机交互界面的中心区域时,将所述第一对象确定为所述主体对象。
上述技术方案中,所述识别模块还用于当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象的成像位置的中心不位于所述人机交互界面的中心区域时,对所述多个对象中除所述第一对象的对象进行降序排序处理;
将降序排序结果中首个满足以下条件的对象作为所述主体对象:
所述对象与尺寸仅次于所述对象之间的尺寸差值大于所述尺寸差值阈值;
所述对象的成像位置的中心位于所述人机交互界面的中心区域。
上述技术方案中,所述识别模块还用于当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象位于所述人机交互界面的中心区域时,基于每个所述对象的尺寸以及成像位置,确定每个所述对象的显著程度;
将显著程度最高的对象确定为所述主体对象。
上述技术方案中,在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述识别模块还用于基于所述多个对象的尺寸,对所述多个对象进行降序排序处理;
当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,针对所述任意相邻的两个对象显示选择标识;
其中,所述尺寸差值阈值为所述人机交互界面面积与设定比例的乘积;
响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象确定为所述主体对象。
上述技术方案中,在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述识别模块还用于基于所述多个对象的尺寸,对所述多个对象进行降序排序处理;
当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,基于所述多个对象调用对象偏好模型进行对象偏好预测,得到所述多个对象中的主体对象;
其中,所述尺寸差值阈值为所述人机交互界面的面积与设定比例的乘积,所述对象偏好模型是通过历史画面包括的多个历史对象以及历史主体对象的标注数据训练得到的。
上述技术方案中,所述第一显示模块还用于响应于所述实时画面中所述主体对象的尺寸发生改变,更新显示所述主体对象的至少一个关联信息。
上述技术方案中,所述第一显示模块还用于在所述人机交互界面中显示所述主体对象的至少一个虚拟卡片,其中,每个所述虚拟卡片包括一个所述关联信息;
基于所述主体对象的尺寸的缩放比例,同步缩放所述虚拟卡片的尺寸。
上述技术方案中,所述同步缩放所述虚拟卡片的尺寸之前,所述第一显示模块还用于当所述实时画面中所述主体对象缩放后的尺寸大于第一尺寸阈值、且小于第二尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的中心区域时,确定将执行所述同步缩放所述虚拟卡片的尺寸的操作;
其中,所述第一尺寸阈值小于所述第二尺寸阈值。
上述技术方案中,所述第一显示模块还用于当所述实时画面中所述主体对象缩放后的尺寸大于或者等于第二尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的设定区域时,减少所述虚拟卡片中显示的关联信息的内容,并在所述人机交互界面中显示所述主体对象的新的虚拟卡片,其中,每个所述新的虚拟卡片包括所述主体对象的一个关联信息。
上述技术方案中,所述第一显示模块还用于当所述实时画面中所述主体对象缩放后的尺寸小于或者等于第一尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的中心区域时,从所述实时画面包括的至少一个对象中重新识别出新的主体对象,在所述人机交互界面中显示所述新的主体对象的至少一个关联信息。
上述技术方案中,所述第一显示模块还用于响应于所述实时画面中所述主体对象的尺寸发生改变、且在设定时间内所述主体对象的尺寸保持不变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息。
上述技术方案中,所述人机交互界面的显示模式包括横屏显示模式、竖屏显示模式;所述第一显示模块还用于当在第一显示模式的所述人机交互界面中显示所述主体对象的至少一个关联信息时,响应于针对所述第一显示模式的切换操作,将第一显示模式的所述人机交互界面切换为第二显示模式的所述人机交互界面,并在第二显示模式的所述人机交互界面中的中心区域显示所述主体对象,在所述人机交互界面中避让所述主体对象的位置显示所述至少一个关联信息;
其中,所述第一显示模式是所述横屏显示模式、所述竖屏显示模式中的任意一个,所述第二显示模式是所述横屏显示模式、所述竖屏显示模式中的另一个。
上述技术方案中,所述第一显示模块还用于确定所述实时画面中对应所述至少一个关联信息的背景;
采用区别于所述背景的显示样式显示所述至少一个关联信息;
其中,所述显示样式的参数包括以下至少之一:颜色、形状、输出格式。
上述技术方案中,所述在人机交互界面中显示通过拍摄场景所得到的实时画面之后,所述第一显示模块还用于对所述实时画面进行去噪处理,得到去噪后的所述实时画面;
对去噪后的所述实时画面进行边缘检测处理,得到所述实时画面中的所述至少一个对象的识别结果。
上述技术方案中,所述在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述第一显示模块还用于对所述人机交互界面中的主体对象进行特征提取处理,得到所述主体对象的对象特征;
基于所述主体对象的对象特征,确定所述主体对象的候选关联信息;
基于所述人机交互界面的账号对应的历史行为数据对所述主体对象的候选关联信息进行筛选处理,得到所述主体对象的至少一个关联信息。
本申请实施例提供一种基于增强现实的显示处理装置,包括:
第二显示模块,用于在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括多个对象;针对每个所述对象显示选择标识;
触发模块,用于响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象作为主体对象,在所述人机交互界面中显示所述主体对象的至少一个关联信息。
上述技术方案中,所述触发模块还用于响应于所述实时画面中所述主体对象的尺寸发生改变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息。
本申请实施例提供一种用于显示处理的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于增强现实的显示处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于增强现实的显示处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现本申请实施例提供的基于增强现实的显示处理方法。
本申请实施例具有以下有益效果:
通过识别出实时画面中的主体对象,并针对性地显示主体对象的关联信息,通过识别主体对象灵活控制关联信息的显示,提高了关联信息的准确性,相对于通过额外的界面展示实时画面中所有对象的关联信息这一方案,节约了相关的通信资源和计算资源。
附图说明
图1A-图1B是本申请实施例提供的基于增强现实的显示处理方法的应用模式示意图;
图2是本申请实施例提供的用于显示处理的电子设备的结构示意图;
图3A-图3B是本申请实施例提供的基于增强现实的显示处理方法的流程示意图;
图4A-图4B是本申请实施例提供的主体对象识别的示意图;
图4C是本申请实施例提供的包围框的示意图;
图5A-图5B是本申请实施例提供的基于增强现实的显示处理方法的流程示意图;
图5C是相关技术提供的不同尺寸的屏幕显示示意图;
图6是本申请实施例提供的基于增强现实的显示处理方法的流程示意图;
图7是本申请实施例提供的对象识别的示意图;
图8是本申请实施例提供的主体对象识别的示意图;
图9是本申请实施例提供的多个候选主体对象的示意图;
图10是本申请实施例提供的主体对象识别的示意图;
图11-图13是本申请实施例提供的主体对象的位置匹配的示意图;
图14是本申请实施例提供的主体对象的面积匹配的示意图;
图15是本申请实施例提供的横竖屏切换的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)虚拟场景:利用设备输出的区别于现实世界的场景,通过裸眼或设备的辅助能够形成对虚拟场景的视觉感知,例如通过显示屏幕输出的二维影像,通过立体投影、虚拟现实和增强现实技术等立体显示技术来输出的三维影像;此外,还可以通过各种可能的硬件形成听觉感知、触觉感知、嗅觉感知和运动感知等各种模拟现实世界的感知。
2)响应于:用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
3)客户端:终端中运行的用于提供各种服务的应用程序,例如游戏客户端、短视频客户端等。
4)对象:现实场景中的任意元素或者虚拟场景中的任意元素,例如通过摄像头拍摄的现实场景中的真实对象,例如行走的路人、等;通过摄像头拍摄的虚拟场景的虚拟对象(例如游戏的虚拟对象、视频中的虚拟对象等),虚拟对象是指虚拟场景中可以进行交互的各种人和物的形象,或在虚拟场景中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物等,比如,在虚拟场景中显示的人物、动物、植物、油桶、墙壁、石块等。该虚拟对象可以是该虚拟场景中的一个虚拟的用于代表用户的虚拟形象。虚拟场景中可以包括多个虚拟对象,每个虚拟对象在虚拟场景中具有自身的形状和体积,占据虚拟场景中的一部分空间。
5)关联信息:任何与对象相关的信息,例如针对对象的搜索信息、针对对象的推荐信息(例如广告),其关联信息可以是文本类的信息,也可以是图像类、语音类、视频类等信息。
6)增强现实(AR,Augmented Reality):通过识别当前拍摄环境中的物件、平面等物体,在识别出的物体上叠加虚拟信息,虚拟信息可以是单纯的用户界面(UI,UserInterface),还可以是附加的信息,例如搜索引擎中搜索结果页中的搜索信息。
7)对象识别:计算机视觉领域中的一项基础研究,它的任务是识别出图像中有什么物体,并报告出这个物体在图像中的位置和方向。
8)响应式:根据电子设备(例如手机、电脑等)屏幕的尺寸,自动地对网页或应用程式中的界面元素采取不同的布局方式,包括字号、高度和宽度等元素。
本申请实施例提供一种基于增强现实的显示处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在增强现实场景中灵活控制关联信息的显示。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为终端时示例性应用。
为便于更容易理解本申请实施例提供的基于增强现实的显示处理方法,首先说明本申请实施例提供的基于增强现实的显示处理方法的示例性实施场景,增强现实的显示场景(可由虚拟场景实现)可以完全基于终端输出,或者基于终端和服务器的协同来输出。
在一个实施场景中,参见图1A,图1A是本申请实施例提供的基于增强现实的显示处理方法的应用模式示意图,适用于一些完全依赖终端400的计算能力即可完成显示场景100的相关数据计算的应用模式,通过智能手机、平板电脑和增强现实设备等终端400完成增强现实的显示场景的输出。
当形成增强现实的显示场景100的视觉感知时,终端400通过图形计算硬件计算显示所需要的数据,并完成显示数据的加载、解析和渲染,在图形输出硬件输出能够对增强现实的形成视觉感知的视频帧,例如,在智能手机的显示屏幕呈现二维的视频帧,或者,在增强现实眼镜的镜片上投射实现三维显示效果的视频帧;此外,为了丰富感知效果,设备还可以借助不同的硬件来形成听觉感知、触觉感知、运动感知和味觉感知的一种或多种。
作为示例,终端400运行具有增强现实功能的客户端410(例如单机版的短视频应用、直播应用、即时通信应用、视频编辑应用等),在客户端410的运行过程中输出包括增强现实的显示场景100(包括拍摄场景所得到的实时画面以及关联信息),拍摄场景所得到的实时画面包括至少一个对象110,对象110可以是现实场景中的任意元素,例如现实场景中的人、物,也可以是虚拟场景中的任意元素,例如,拍摄的游戏的虚拟对象,从至少一个对象110中识别出尺寸最大的主体对象120,在客户端410的人机交互界面中显示主体对象120的至少一个关联信息130,关联信息130可以是是主体对象的搜索信息,也可以是推荐信息。
在另一个实施场景中,参见图1B,图1B是本申请实施例提供的基于增强现实的显示处理方法的应用模式示意图,应用于终端400和服务器200,适用于依赖服务器200的计算能力完成增强现实的显示场景计算、并在终端400输出增强现实的显示场景的应用模式。
以形成增强现实的显示场景100的视觉感知为例,服务器200进行增强现实的显示场景相关显示数据的计算并发送到终端400,终端400依赖于图形计算硬件完成计算显示数据的加载、解析和渲染,依赖于图形输出硬件输出显示场景以形成视觉感知,例如可以在智能手机的显示屏幕呈现二维的视频帧,或者,在增强现实眼镜的镜片上投射实现三维显示效果的视频帧;对于增强现实的虚拟场景的形式的感知而言,可以理解,可以借助于终端的相应硬件输出,例如使用麦克风输出形成听觉感知,使用振动器输出形成触觉感知等等。
作为示例,终端400运行具有增强现实功能的客户端410(例如网络版的短视频应用、直播应用、即时通信应用、视频编辑应用等),通过连接服务器(即服务器200)与其他用户进行互动,终端400输出客户端410的增强现实的显示场景100(包括拍摄场景所得到的实时画面以及关联信息),拍摄场景所得到的实时画面包括至少一个对象110,对象110可以是现实场景中的任意元素,例如现实场景中的人、物,也可以是虚拟场景中的任意元素,例如,拍摄的游戏的虚拟对象,从至少一个对象110中识别出尺寸最大的主体对象120,在客户端410的人机交互界面中显示主体对象120的至少一个关联信息130,关联信息130可以是是主体对象的搜索信息,也可以是推荐信息。
在一些实施例中,终端400可以通过运行计算机程序来实现本申请实施例提供的基于增强现实的显示处理方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,例如短视频APP(即上述的客户端410);也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的短视频小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
作为示例,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、以及智能手表等,但并不局限于此。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
下面说明本申请实施例提供的用于显示处理的电子设备的结构,参见图2,图2是本申请实施例提供的用于显示处理的电子设备的结构示意图,以电子设备为终端为例进行说明,图2所示的电子设备包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。电子设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450例如包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的基于增强现实的显示处理装置可以采用软件方式实现,图2示出了存储在存储器450中的基于增强现实的显示处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:第一显示模块4551、识别模块4552,或者第二显示模块4553、触发模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
如前所述,本申请实施例提供的基于增强现实的显示处理方法可以由各种类型的电子设备实施。参见图3A,图3A是本申请实施例提供的基于增强现实的显示处理方法的流程示意图,结合图3A示出的步骤进行说明。
需要说明的是,图3A示出的方法可以由终端400运行的各种形式计算机程序执行,并不局限于上述的客户端410,例如上文的操作系统451、软件模块、脚本和小程序,因此下文中以客户端的示例不应视为对本申请实施例的限定。
在步骤101中,在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,实时画面包括至少一个对象。
例如,通过终端的摄像头拍摄室内外的环境,以在人机交互界面中显示拍摄视频的实时画面,实时画面是在拍摄过程中动态更新的图像流。如图9所示,实时画面中包括至少一个对象,即对象901以及对象902。
在一些实施例中,对实时画面进行去噪处理,得到去噪后的实时画面;对去噪后的实时画面进行边缘检测处理,得到实时画面中的至少一个对象的识别结果。
例如,通过终端的摄像头获取到实时画面后,对实时画面进行如下的对象识别处理:先通过中指模糊(median blur)算法对实时画面进行去噪,同时还可以提高图像的对比度(contrast),以清楚的显示边缘细节。经过中指模糊之后,利用边缘(canny)算法,确定实时画面中每一个像素点的梯度与方向,基于像素点的梯度与方向确定该像素点是否是边缘上的点(即该像素点是否位于边缘),将识别出来的边缘上的点设定为数据集{x1},计算数据集{x1}的面积和位置,从而基于数据集{x1}的面积和位置识别出实时画面中的对象,如图7所示,通过上述方法识别出对象701。
在步骤102中,从至少一个对象中识别出主体对象,其中,主体对象为实时画面中唯一的对象或尺寸最大的对象。
例如,当通过对象识别处理识别到实时画面中仅有唯一的对象时,将该唯一的对象作为主体对象;当通过对象识别处理识别到实时画面中有多个对象时,将尺寸最大的对象作为主体对象,从而实现智能化识别实时画面中的主体对象,以,以针对性地显示主体对象的关联信息,通过识别主体对象灵活控制关联信息的显示,提高了关联信息的准确性。
需要说明的是,尺寸的参数包括以下至少之一:宽高;对角线长度。
在一些实施例中,当实时画面中包括多个对象时,从至少一个对象中识别出主体对象,包括:确定多个对象中尺寸最大的第一对象以及尺寸仅次于第一对象的第二对象;当第一对象与第二对象之间的尺寸差值大于尺寸差值阈值时,将第一对象确定为主体对象;其中,尺寸差值阈值为人机交互界面面积与设定比例的乘积。
例如,当尺寸最大的第一对象与尺寸仅次于第一对象的第二对象之间的尺寸差值大于尺寸差值阈值(例如尺寸差值阈值为人机交互界面面积与设定比例(10%)的乘积)时,则将尺寸最大的第一对象确定为图像中的主体对象。如图8所示,通过上述对象识别方法识别出对象801以及对象802,由于对象801与对象802之间的尺寸差值大于屏幕面积的10%,则将对象801确定为实时画面中的主体对象。
在一些实施例中,对象的尺寸的类型包括以下之一:成像尺寸、实际尺寸;其中,成像尺寸表示对象在人机交互界面中未被遮挡的部分的尺寸,实际尺寸表示对象在人机交互界面中未被遮挡的部分以及被遮挡的部分的尺寸总和。
例如,为了更快速地识别出主体对象,可只考虑对象在人机交互界面中未被遮挡的部分的尺寸,从而无需考虑被遮挡的部分的尺寸,能够快速确定出对象的尺寸,提高主体对象识别的速率。如图10所示,通过上述对象识别方法识别出对象1001以及对象1002,由于对象1002存在被对象1001遮挡的部分,则对象1002的尺寸为在人机交互界面中未被遮挡的部分的尺寸。
为了更精准地识别出主体对象,可考虑对象的实际尺寸,则当对象存在被遮挡的部分时,可基于对象在人机交互界面中未被遮挡的部分以恢复出被遮挡的部分,从而结合对象在人机交互界面中未被遮挡的部分以及被遮挡的部分的尺寸总和,确定对象的实际尺寸。如图10所示,通过上述对象识别方法识别出对象1001以及对象1002,由于对象1002存在被对象1001遮挡的部分,则对象1002的尺寸为在人机交互界面中未被遮挡的部分的尺寸以及被遮挡的部分的尺寸总和。
在一些实施例中,当第一对象与第二对象之间的尺寸差值大于尺寸差值阈值时,将第一对象确定为主体对象,包括:当第一对象与第二对象之间的尺寸差值大于尺寸差值阈值、且第一对象位于人机交互界面的中心区域时,将第一对象确定为主体对象。
如图4A所示,当第一对象401与第二对象402之间的尺寸差值大于尺寸差值阈值(例如大于屏幕面积的10%)、且第一对象401位于人机交互界面的中心区域403时,将第一对象401确定为主体对象,从而结合对象的尺寸以及成像位置准确地识别出主体对象。
在一些实施例中,当第一对象与第二对象之间的尺寸差值大于尺寸差值阈值、且第一对象的成像位置的中心不位于人机交互界面的中心区域时,对多个对象中除第一对象的对象进行降序排序处理;将降序排序结果中首个满足以下条件的对象作为主体对象:对象与尺寸仅次于对象之间的尺寸差值大于尺寸差值阈值;对象的成像位置的中心位于人机交互界面的中心区域。
如图4B所示,当第一对象401(尺寸最大)与第二对象404(尺寸仅次于第一对象)之间的尺寸差值大于尺寸差值阈值(例如大于屏幕面积的10%)、且第一对象401不位于人机交互界面的中心区域403时,确定第二对象404与第三对象402(尺寸仅次于第二对象)之间的尺寸差值,当第二对象404与第三对象402(尺寸仅次于第二对象)之间的尺寸差值大于尺寸差值阈值,且第二对象404不位于人机交互界面的中心区域403时,将第二对象404确定为主体对象。
需要说明的是,确定降序排序结果中首个主体对象的方法如下:当降序排序结果中第j个对象与第j+1个对象之间的尺寸差值大于尺寸差值阈值、且第j个对象的成像位置的中心位于人机交互界面的中心区域时,将第j个对象确定为主体对象;其中,j为递增的自然数且取值范围为1<j<N,N为实时画面中对象的数量,N为大于1的正整数。
需要说明的是,本申请实施例还可以将降序排序结果中首个满足以下条件的对象作为主体对象:对象与尺寸仅次于对象之间的尺寸差值大于尺寸差值阈值。
在一些实施例中,当第一对象与第二对象之间的尺寸差值大于尺寸差值阈值、且第一对象位于人机交互界面的中心区域时,基于每个对象的尺寸以及成像位置,确定每个对象的显著程度;将显著程度最高的对象确定为主体对象。
其中,显著程度是图像中重要的视觉特征,体现出用户对图像中对象的关注度以及兴趣度,显著程度表示对象在图像中的重要性,当对象的显著程度越高,则说明对象在图像中越显著、越能吸引用户注意,该对象被识别为主体对象的概率越高。
例如,当第一对象与第二对象之间的尺寸差值大于尺寸差值阈值、且第一对象位于人机交互界面的中心区域时,说明尺寸最大的对象比较偏,可能不是主体对象,则需要综合考虑对象的尺寸以及成像位置,以从多个对象中确定出合适的主体对象。例如通过映射函数对对象的尺寸以及成像位置进行映射处理,得到对象的显著程度,从而将显著程度最高的对象确定为主体对象。
在一些实施例中,基于多个对象的尺寸,对多个对象进行降序排序处理;当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,针对任意相邻的两个对象显示选择标识;其中,尺寸差值阈值为人机交互界面面积与设定比例的乘积;响应于针对选择标识的触发操作,将触发的选择标识对应的对象确定为主体对象。
例如,当尺寸最大的第一对象与第二对象(尺寸仅次于第一对象)之间的尺寸差值小于或者等于尺寸差值阈值时,将第一对象以及第二对象确定为候选主体对象;基于多个对象的尺寸,对多个对象进行降序排序处理,确定多个对象中第i个对象;当第一对象与第i个对象之间的尺寸差值小于或等于尺寸差值阈值时,将第i个对象确定为候选主体对象;其中,i为递增的自然数且取值范围为2<i≤M,M为实时画面中对象的数量,M为大于2的正整数;针对候选主体对象显示选择标识,响应于针对选择标识的触发操作,将触发的选择标识对应的对象确定为主体对象。需要说明的是,在确定候选主体对象之后,将多个候选主体对象的显示模式设置为指向模式,其中,指向模式用于指示人机交互界面中显示的候选主体对象可供选择,其指向模式可以是通过显示选择标识实现,也可以通过选择提示文本消息实现。
如图9所示,对象901以及对象902为候选主体对象,则在对象901与对象902上显示可点击按钮903(即选择标识)。
在一些实施例中,基于多个对象的尺寸,对多个对象进行降序排序处理;当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,基于多个对象调用对象偏好模型进行对象偏好预测,得到多个对象中的主体对象;其中,尺寸差值阈值为人机交互界面的面积与设定比例的乘积,对象偏好模型是通过历史画面包括的多个历史对象以及历史主体对象的标注数据训练得到的。
例如,当尺寸最大的第一对象与第二对象(尺寸仅次于第一对象)之间的尺寸差值小于或者等于尺寸差值阈值时,说明尺寸最大的对象可能不是主体对象,基于多个对象调用对象偏好模型进行对象偏好预测,得到多个对象中的主体对象。在应用对象偏好模型之前,通过历史画面包括的多个历史对象以及历史主体对象的标注数据对对象偏好模型进行训练,得到训练后的对象偏好模型以进行对象偏好预测,从而结合偏好预测,自动识别实时画面中的主体对象,以提高主体对象的准确性。
需要说明的是,对象偏好模型用于对对象进行对象偏好预测,得到对象的偏好得分,将偏好得分最高的对象作为主体对象,其中,偏好得分表示用户对对象的偏好程度,对象的偏好得分越高,则说明用户越喜欢该对象,例如实时画面中第一对象为斜跨包、第二对象为双肩包,斜挎包和双肩包之间的尺寸差值小于或者等于尺寸差值阈值时,说明斜挎包和双肩包之间的尺寸差别不大,可以通过对象偏好模型对斜挎包和双肩包分别进行对象偏好预测,得到斜挎包的偏好得分为0.8、双肩包的偏好得分为0.5,则说明用户更加倾向斜挎包,将斜挎包作为实时画面中的主体对象。其中,对象偏好模型可以是各种神经网络模型,例如卷积神经网络模型、循环神经网络模型、深度神经网络模型。
在步骤103中,在人机交互界面中显示主体对象的至少一个关联信息。
例如,关联信息是任何与主体对象相关的信息,例如针对主体对象的搜索信息、针对主体对象的推荐信息(例如广告),其关联信息可以是文本类的信息,也可以是图像类、语音类、视频类等信息。如图4A所示,在人机交互界面中显示主体对象401的至少一个关联信息405。需要说明的是,本申请实施例可以通过虚拟卡片显示一个关联信息的部分信息,点击虚拟卡片,可以查看关联信息的全部信息。
参见图3B,图3B是本申请实施例提供的基于增强现实的显示处理方法的一个可选的流程示意图,图3B示出图3A还包括步骤104:在步骤104中,响应于实时画面中主体对象的尺寸发生改变,更新显示主体对象的至少一个关联信息。
例如,如果用户调整终端的摄像头与主体对象之间的距离,那么意味着用户意图发生改变,实时画面中主体对象的尺寸发生改变,从而基于主体对象改变后的尺寸,更新显示主体对象的至少一个关联信息,从而基于用户真实的意图,更新关联信息,提高增强显示的显示效果以及关联信息的准确性。
在一些实施例中,在人机交互界面中显示主体对象的至少一个关联信息,包括:在人机交互界面中显示主体对象的至少一个虚拟卡片,其中,每个虚拟卡片包括一个关联信息;基于尺寸改变后的主体对象更新显示主体对象的至少一个关联信息,包括:基于主体对象的尺寸的缩放比例,同步缩放虚拟卡片的尺寸。
例如,通过虚拟卡片显示主体对象的关联信息,基于主体对象的尺寸的缩放比例,同步缩放虚拟卡片的尺寸,以使虚拟卡片实时适应主体对象的尺寸,以清楚查看关联信息。
在一些实施例中,同步缩放虚拟卡片的尺寸之前,还可以设置同步缩放的条件:实时画面中主体对象缩放后的尺寸是否大于第一尺寸阈值、且小于第二尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的中心区域,只有当实时画面中主体对象缩放后的尺寸大于第一尺寸阈值、且小于第二尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的中心区域时,才确定将执行同步缩放虚拟卡片的尺寸的操作;其中,第一尺寸阈值小于第二尺寸阈值。
例如,结合第一尺寸阈值以及中心区域,可确定出对应第一尺寸阈值以及中心区域的第一包围框,结合第二尺寸阈值以及中心区域,可确定出对应第二尺寸阈值以及中心区域的第二包围框,在人机交互界面中显示主体对象的至少一个关联信息之后,在人机交互界面中显示第一包围框以及第二包围框,基于第一包围框以及第二包围框,用户可准确调整终端的摄像头与主体对象之间的距离,以准确控制实时画面中主体对象的尺寸,从而达到用户意图。如图4C所示,在人机交互界面中显示主体对象401的至少一个关联信息405之后,在人机交互界面中显示第一包围框406以及第二包围框407。
当实时画面中主体对象缩放后的尺寸大于第一尺寸阈值、且小于第二尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的中心区域(即尺寸改变后的主体对象超出第一包围框、且在第二包围框内)时,才基于主体对象的尺寸的缩放比例,同步缩放虚拟卡片的尺寸。
需要说明的是,同步缩放虚拟卡片的尺寸之前,还可以设置同步缩放的尺寸条件:实时画面中主体对象缩放后的尺寸是否大于第一尺寸阈值、且小于第二尺寸阈值,只有当实时画面中主体对象缩放后的尺寸大于第一尺寸阈值、且小于第二尺寸阈值时,才确定将执行同步缩放虚拟卡片的尺寸的操作。
在一些实施例中,当实时画面中主体对象缩放后的尺寸大于或者等于第二尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的设定区域时,减少虚拟卡片中显示的关联信息的内容,并在人机交互界面中显示主体对象的新的虚拟卡片,其中,每个新的虚拟卡片包括主体对象的一个关联信息。
例如,结合第一尺寸阈值以及中心区域,可确定出对应第一尺寸阈值以及中心区域的第一包围框,结合第二尺寸阈值以及中心区域,可确定出对应第二尺寸阈值以及中心区域的第二包围框,在人机交互界面中显示主体对象的至少一个关联信息之后,在人机交互界面中显示第一包围框以及第二包围框,基于第一包围框以及第二包围框,用户可准确调整终端的摄像头与主体对象之间的距离,以准确控制实时画面中主体对象的尺寸,从而达到用户意图。如图4C所示,在人机交互界面中显示主体对象401的至少一个关联信息405之后,在人机交互界面中显示第一包围框406以及第二包围框407。
当实时画面中主体对象缩放后的尺寸大于或者等于第二尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的设定区域(即尺寸改变后的主体对象超出第二包围框)时,说明用户推近摄像头,想看主体对象的细节,之前的推荐的卡片不准确,需要将卡片的显示模式更新为省略模式(即减少虚拟卡片中显示的关联信息的内容),同时可根据面积的占用情况展示更多的新的省略模式的虚拟卡片。
需要说明的是,本申请实施例还可以当实时画面中主体对象缩放后的尺寸大于或者等于第二尺寸阈值时,减少虚拟卡片中显示的关联信息的内容,并在人机交互界面中显示主体对象的新的虚拟卡片,其中,每个新的虚拟卡片包括主体对象的一个关联信息。
在一些实施例中,当实时画面中主体对象缩放后的尺寸小于或者等于第一尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的中心区域时,从实时画面包括的至少一个对象中重新识别出新的主体对象,在人机交互界面中显示新的主体对象的至少一个关联信息。
例如,结合第一尺寸阈值以及中心区域,可确定出对应第一尺寸阈值以及中心区域的第一包围框,结合第二尺寸阈值以及中心区域,可确定出对应第二尺寸阈值以及中心区域的第二包围框,在人机交互界面中显示主体对象的至少一个关联信息之后,在人机交互界面中显示第一包围框以及第二包围框,基于第一包围框以及第二包围框,用户可准确调整终端的摄像头与主体对象之间的距离,以准确控制实时画面中主体对象的尺寸,从而达到用户意图。如图4C所示,在人机交互界面中显示主体对象401的至少一个关联信息405之后,在人机交互界面中显示第一包围框406以及第二包围框407。
当实时画面中主体对象缩放后的尺寸小于或者等于第一尺寸阈值、且尺寸缩放后的主体对象的成像位置的中心位于人机交互界面的中心区域(即尺寸改变后的主体对象在第一包围框内)时,说明用户不想识别该主体物体,想识别其他附近对象,从实时画面包括的至少一个对象中重新识别出新的主体对象,在人机交互界面中显示新的主体对象的至少一个关联信息。
需要说明的是,本申请实施例还可以当实时画面中主体对象缩放后的尺寸小于或者等于第一尺寸阈值时,从实时画面包括的至少一个对象中重新识别出新的主体对象,在人机交互界面中显示新的主体对象的至少一个关联信息。
例如,用户调整终端的摄像头在X轴及Y轴进行移动,当识别到主体对象的面积小于或者等于屏幕面积的10%,则意味着用户不想识别该主体物体,想识别其他附近对象,此时重新确定实时画面中的主体对象。
在一些实施例中,响应于实时画面中主体对象的尺寸发生改变,基于尺寸改变后的主体对象更新显示主体对象的至少一个关联信息,包括:响应于实时画面中主体对象的尺寸发生改变、且在设定时间内主体对象的尺寸保持不变,基于尺寸改变后的主体对象更新显示主体对象的至少一个关联信息。
例如,通过在设定时间内主体对象的尺寸保持不变这一条件,避免用户手抖所造成的错误,从而准确识别用户意图,以更新显示主体对象的至少一个关联信息。
在一些实施例中,人机交互界面的显示模式包括横屏显示模式、竖屏显示模式;当在第一显示模式的人机交互界面中显示主体对象的至少一个关联信息时,响应于针对第一显示模式的切换操作,将第一显示模式的人机交互界面切换为第二显示模式的人机交互界面,并在第二显示模式的人机交互界面中的中心区域显示主体对象,在人机交互界面中避让主体对象的位置显示至少一个关联信息;其中,第一显示模式是横屏显示模式、竖屏显示模式中的任意一个,第二显示模式是横屏显示模式、竖屏显示模式中的另一个。
如图15所示,当切换终端由竖屏模式到横屏模式时,将卡片1501重新排列于主体对象1101左右两侧。需要说明的是,切换操作可以是直接手动切换终端的横竖屏模式,还可以是在人机交互界面显示横竖屏切换按钮,通过触发横竖屏切换按钮,以实现横竖屏的切换。
在一些实施例中,在人机交互界面中显示主体对象的至少一个关联信息,包括:确定实时画面中对应至少一个关联信息的背景;采用区别于背景的显示样式显示至少一个关联信息;其中,显示样式的参数包括以下至少之一:颜色、形状、输出格式。
例如,通过虚拟卡片显示关联信息,确定关联信息的背景的颜色,基于背景的颜色智能调整上述虚拟卡片的颜色,以使虚拟卡片与背景的颜色对比度大于1.7倍,以保证清晰的展示卡片信息。
在一些实施例中,在人机交互界面中显示主体对象的至少一个关联信息之前,对人机交互界面中的主体对象进行特征提取处理,得到主体对象的对象特征;基于主体对象的对象特征,确定主体对象的候选关联信息;基于人机交互界面的账号对应的历史行为数据对主体对象的候选关联信息进行筛选处理,得到主体对象的至少一个关联信息。
例如,当识别到主体对象后,对主体对象的形状、纹理和颜色、文本等特征进行提取,得到主体对象的对象特征(例如文字特征、纹理特征等),将主体对象的对象特征输入到搜索引擎,得到主体对象的候选关联信息(即搜索信息),并结合人机交互界面的账号对应的历史行为数据(例如曾关注过的创作者或查看过的文章)对主体对象的候选关联信息进行基于匹配度的降序排序,选取排序在前的部分候选关联信息作为关联信息,并依照设定的展示区域的优先级依次以虚拟卡片的形式进行展示。
如前所述,本申请实施例提供的基于增强现实的显示处理方法可以由各种类型的电子设备实施。参见图5A,图5A是本申请实施例提供的基于增强现实的显示处理方法的流程示意图,结合图5A示出的步骤进行说明。
需要说明的是,图5A示出的方法可以由终端400运行的各种形式计算机程序执行,并不局限于上述的客户端410,例如上文的操作系统451、软件模块、脚本和小程序,因此下文中以客户端的示例不应视为对本申请实施例的限定。
在步骤201中,在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,实时画面包括多个对象。
例如,通过终端的摄像头拍摄室内外的环境,以在人机交互界面中显示拍摄视频的实时画面,实时画面是在拍摄过程中动态更新的图像流。如图9所示,实时画面中包括至少一个对象,即对象901以及对象902。
在步骤202中,针对每个对象显示选择标识。
例如,如图9所示,在对象901与对象902上显示可点击按钮903(即选择标识),以供用户从多个对象中选择出主体对象。
需要说明的是,当实时画面包括多个对象时,本申请实施例还可以在人机交互界面中显示提示信息,该提示消息用于提示从多个对象中选择主体对象,其提示信息可以是文本类的信息,也可以是图像类、语音类、视频类等信息,还可以通过气泡、方框等方式显示提示信息。
在步骤203中,响应于针对选择标识的触发操作,将触发的选择标识对应的对象作为主体对象,在人机交互界面中显示主体对象的至少一个关联信息。
例如,关联信息是任何与主体对象相关的信息,例如针对主体对象的搜索信息、针对主体对象的推荐信息(例如广告),其关联信息可以是文本类的信息,也可以是图像类、语音类、视频类等信息。如图4A所示,在人机交互界面中显示主体对象401的至少一个关联信息405。需要说明的是,本申请实施例可以通过虚拟卡片显示一个关联信息的部分信息,点击虚拟卡片,可以查看关联信息的全部信息。
参见图5B,图5B是本申请实施例提供的基于增强现实的显示处理方法的一个可选的流程示意图,图5B示出图5A还包括步骤204:在步骤204中,响应于实时画面中主体对象的尺寸发生改变,基于尺寸改变后的主体对象更新显示主体对象的至少一个关联信息。
例如,如果用户调整终端的摄像头与主体对象之间的距离,那么意味着用户意图发生改变,实时画面中主体对象的尺寸发生改变,从而基于主体对象改变后的尺寸,更新显示主体对象的至少一个关联信息,从而基于用户真实的意图,更新关联信息,提高增强显示的显示效果以及关联信息的准确性。
需要说明的是,图5B中的步骤204的处理过程与图3B中的步骤104的处理过程类似。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例可应用于各种增强现实的应用场景,例如搜索场景、推荐场景。对于搜索场景,通过对象识别技术识别当前拍摄环境中的物件、平面等对象,在识别出的主体上叠加主体的搜索信息,该搜索信息是从搜索引擎中搜索出的与主体相关的信息。
下面以搜索场景为例进行说明:
相关技术中,不同电子设备的屏幕尺寸不同,将屏幕的长和宽抽象为宽松和紧凑两种类型,从而组合出不同的尺寸。开发人员只要在开发工具(例如Xcode)中设置好在对应尺寸下的显示规则即可,操作系统会自动根据内容的尺寸调整布局,如图5C所示,在不同的尺寸的显示规则下展示同一份文档,该文档在屏幕501、屏幕502、屏幕503中的显示不相同。这种的屏幕媒介中的响应式规则无法对界面元素进行充分的理解。
本申请实施例提出一种在AR场景中根据物件进行响应式UI呈现的方法(即一种基于增强显示的显示处理方法),在AR模式下基于图像识别,判断图像的背景深度,主体对象轮廓,进而展示界面元素。例如用户看到一个对象(比如书架上的书籍),打开浏览器AR模式,后台会根据当前摄像机拍摄的内容进行主体判断,确定主体轮廓,并在非主体区域进行卡片展示,其中根据卡片背后的图像颜色深度对卡片进行智能样式处理,本申请实施例能够帮助用户在AR模式下更好地对界面元素进行理解和操作。
需要说明的是,AR模式下的界面设计与原本的纯屏幕不同,AR模式下的界面设计更为复杂,一是原本的界面设计元素均来自设计师,而AR模式下界面的主体来自于用户实时拍摄的对象;二是原本的界面设计的背景是设计师自定义的,如深色、浅色,因此其他的设计元素在最初的时候就被定义了,但AR实拍过程中背景是变幻莫测的。
下面结合图6说明本申请实施例提出的在AR场景中根据物件进行响应式UI呈现的方法:
步骤1、终端打开摄像头开启AR模式,以识别图像中的对象,并发送识别指令至后台。
步骤2、后台识别出主体对象。
例如,通过终端的摄像头获取到图像,对图像进行如下处理:先通过中指模糊(median blur)算法对图像进行去噪,同时提高图像的对比度(contrast),以清楚的显示边缘细节。经过中指模糊之后,利用边缘(canny)算法,计算图像中每一个像素点的梯度与方向,判断该像素点是否是边缘上的点,将识别出来的边缘上的点设定为数据集{x1},计算数据集{x1}的面积和位置,从而识别出图像中的对象,如图7所示,通过上述方法识别出对象701。
如果图像中有多个对象则通过上述方法依次识别出所有对象,当识别到的最大面积(尺寸)的对象与第二大面积的对象之间的面积差值大于屏幕面积的10%时,则将最大面积的对象确定为图像中的主体对象,并针对该主体对象进行卡片推荐。如图8所示,通过上述方法识别出对象801以及对象802,由于对象801与对象802之间的面积差值大于屏幕面积的10%,则将对象801确定为图像中的主体对象。
当识别到的最大面积的对象与第二大面积的对象之间的面积差值小于或者等于屏幕面积的10%时,则确定图像有多个候选主体对象,在这些候选主体对象上显示指向模式,即在候选主体对象上显示可点击按钮,以表示可以点击对象,以从多个候选主体对象中确定出主体对象,从而通过用户选择,从多个对象中选择出一个主体对象,并为该主体对象进行卡片推荐。如图9所示,通过上述方法识别出对象901以及对象902,由于对象901与对象902之间的面积差值小于或者等于屏幕面积的10%,则在对象901与对象902上显示可点击按钮903。
需要说明的是,当图像中有多个对象且对象之间有遮挡关系,则只计算每个物体没被遮挡的面积,以判断最大面积的对象与第二大面积的对象之间的面积差值是否大于屏幕面积的10%。如图10所示,通过上述方法识别出对象1001以及对象1002,由于对象1001与对象1002之间的面积(未被遮挡的面积)差值大于屏幕面积的10%,则将对象1001确定为图像中的主体对象。
步骤3、后台根据主体对象的识别结果,搜索并渲染出搜索结果卡片,将其按照设定的优先级并结合背景深度进行展示,并将卡片发送至终端。
例如,当识别到主体对象后,对主体对象的形状、纹理和颜色等特征进行提取,得到主体对象的形状特征、纹理特征、以及颜色特征等,当图像中的主体对象有文字时,还可以先对图像中的文字进行预处理(例如切分、大小归一化、笔画宽度归一化等),然后基于增强算法进行字符识别,得到主体对象的文字特征。将提取到的主体对象的特征(例如文字特征、纹理特征等),输入到搜索引擎,并结合用户的行为数据(例如曾关注过的创作者或查看过的文章)对主体对象的搜索信息进行降序排序,选取前1-5条搜索信息,依照设定的展示区域的优先级依次以AR卡片(虚拟卡片)的形式展示主体对象的搜索信息。同时判断是否清晰的展示卡片信息,即卡片中的搜索信息的字号最小为12px,且确定背景底色的深浅度,卡片与背景的颜色对比度大于1.7倍,则说明清晰的展示卡片信息,否则智能调整上述卡片颜色,以使卡片与背景的颜色对比度大于1.7倍。
步骤4、终端显示卡片。
步骤5、通过移动终端的摄像头,改变摄像头与对象的距离,并将移动数据发送至后台。
步骤6、后台判断主体对象的位置是否与设定安全区域匹配。
例如,如果用户调整终端的摄像头与主体对象之间的距离,那么意味着用户意图发生改变。当主体对象与安全区域w1的轮廓最匹配(即主体对象在安全区域w1(对应第二包围框)内、且超出区域b1(对应第一包围框))时,则卡片跟随主体对象自动缩放以保证清楚理解文档;当主体对象与区域a1的轮廓最匹配(即主体对象超出安全区域w1)时,则意味着用户推近摄像头,想看主体对象的细节,之前的推荐的卡片不准确,需要将卡片的显示模式更新为省略模式(用于简略描述对象),同时可根据面积的占用情况展示更多的省略模式的卡片;当主体对象与区域b1的轮廓最匹配(即主体对象在区域b1内)时,则意味着用户不想识别该主体物体,想识别其他附近对象,此时很有可能根据步骤2重新确定图像中存在多个候选主体对象,则卡片变为指向模式分别指向多个不同的候选主体对象,重复上述步骤。
如图11所示,如果用户调整终端的摄像头与主体对象1101之间的距离,当主体对象1101在安全区域w1内、且超出区域b1时,则卡片跟随主体对象1101自动缩放以保证清楚理解文档。
如图12所示,如果用户调整终端的摄像头与主体对象1101之间的距离,当主体对象1101在区域a1内、且超出区域w1时,则意味着用户推近摄像头,想看主体对象1101的细节,之前的推荐的卡片不准确,需要将卡片的显示模式更新为省略模式1201(用于简略描述对象)。
如图13所示,如果用户调整终端的摄像头与主体对象1101之间的距离,当主体对象1101在区域b1内时,则意味着用户不想识别该主体物体,想识别其他附近对象,此时很有可能根据步骤2重新确定图像中存在多个候选主体对象,则卡片变为指向模式1301分别指向多个不同的候选主体对象。
如图14所示,如果用户调整终端的摄像头在X轴及Y轴进行移动,当识别到主体对象1101的面积小于或者等于屏幕面积的10%,则意味着用户不想识别该主体物体,想识别其他附近对象,此时很有可能根据步骤2重新确定图像中存在多个候选主体对象,则卡片变为指向模式分别指向多个不同的候选主体对象。
如图15所示,如果用户切换终端的横竖屏模式,当切换终端由竖屏模式到横屏模式时,将卡片信息1501重新排列于主体对象1101左右两侧。
步骤7、当主体对象的位置不与设定安全区域匹配时,将卡片的显示模式更新为省略模式或者指向模式,并发送更新后的卡片。
步骤8、终端更新卡片的显示模式。
综上,本申请实施例提供的基于增强现实的显示处理方法能够智能判断当前画面中的主体对象,并结合背景色调智能化调整虚拟卡片,结合摄像头与主体对象之间的距离变化进而判断用户意图,再更新展示虚拟卡片,以提高用户操作以及阅读的效率,提高用户体验感。
至此已经结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的基于增强现实的显示处理方法,下面继续说明本申请实施例提供的基于增强现实的显示处理装置455中各个模块配合实现基于增强现实的显示处理的方案。
第一显示模块4551,用于在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括至少一个对象;识别模块4552,用于从所述至少一个对象中识别出主体对象,其中,所述主体对象为所述实时画面中唯一的对象或尺寸最大的对象;所述第一显示模块4551,还用于在所述人机交互界面中显示所述主体对象的至少一个关联信息。
在一些实施例中,当所述实时画面中包括多个对象时,所述识别模块4552还用于确定所述多个对象中尺寸最大的第一对象以及尺寸仅次于所述第一对象的第二对象;当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值时,将所述第一对象确定为所述主体对象;其中,所述尺寸差值阈值为所述人机交互界面面积与设定比例的乘积。
在一些实施例中,所述对象的尺寸的类型包括以下之一:成像尺寸、实际尺寸;其中,所述成像尺寸表示所述对象在所述人机交互界面中未被遮挡的部分的尺寸,所述实际尺寸表示所述对象在所述人机交互界面中未被遮挡的部分以及被遮挡的部分的尺寸总和。
在一些实施例中,所述识别模块4552还用于当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象位于所述人机交互界面的中心区域时,将所述第一对象确定为所述主体对象。
在一些实施例中,所述识别模块4552还用于当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象的成像位置的中心不位于所述人机交互界面的中心区域时,对所述多个对象中除所述第一对象的对象进行降序排序处理;将降序排序结果中首个满足以下条件的对象作为所述主体对象:所述对象与尺寸仅次于所述对象之间的尺寸差值大于所述尺寸差值阈值;所述对象的成像位置的中心位于所述人机交互界面的中心区域。
在一些实施例中,所述识别模块4552还用于当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象位于所述人机交互界面的中心区域时,基于每个所述对象的尺寸以及成像位置,确定每个所述对象的显著程度;将显著程度最高的对象确定为所述主体对象。
在一些实施例中,在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述识别模块4552还用于基于所述多个对象的尺寸,对所述多个对象进行降序排序处理;当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,针对所述任意相邻的两个对象显示选择标识;其中,所述尺寸差值阈值为所述人机交互界面面积与设定比例的乘积;响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象确定为所述主体对象。
在一些实施例中,在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述识别模块4552还用于基于所述多个对象的尺寸,对所述多个对象进行降序排序处理;当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,基于所述多个对象调用对象偏好模型进行对象偏好预测,得到所述多个对象中的主体对象;其中,所述尺寸差值阈值为所述人机交互界面的面积与设定比例的乘积,所述对象偏好模型是通过历史画面包括的多个历史对象以及历史主体对象的标注数据训练得到的。
在一些实施例中,所述第一显示模块4551还用于响应于所述实时画面中所述主体对象的尺寸发生改变,更新显示所述主体对象的至少一个关联信息。
在一些实施例中,所述第一显示模块4551还用于在所述人机交互界面中显示所述主体对象的至少一个虚拟卡片,其中,每个所述虚拟卡片包括一个所述关联信息;基于所述主体对象的尺寸的缩放比例,同步缩放所述虚拟卡片的尺寸。
在一些实施例中,所述同步缩放所述虚拟卡片的尺寸之前,所述第一显示模块4551还用于当所述实时画面中所述主体对象缩放后的尺寸大于第一尺寸阈值、且小于第二尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的中心区域时,确定将执行所述同步缩放所述虚拟卡片的尺寸的操作;其中,所述第一尺寸阈值小于所述第二尺寸阈值。
在一些实施例中,所述第一显示模块4551还用于当所述实时画面中所述主体对象缩放后的尺寸大于或者等于第二尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的设定区域时,减少所述虚拟卡片中显示的关联信息的内容,并在所述人机交互界面中显示所述主体对象的新的虚拟卡片,其中,每个所述新的虚拟卡片包括所述主体对象的一个关联信息。
在一些实施例中,所述第一显示模块4551还用于当所述实时画面中所述主体对象缩放后的尺寸小于或者等于第一尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的中心区域时,从所述实时画面包括的至少一个对象中重新识别出新的主体对象,在所述人机交互界面中显示所述新的主体对象的至少一个关联信息。
在一些实施例中,所述第一显示模块4551还用于响应于所述实时画面中所述主体对象的尺寸发生改变、且在设定时间内所述主体对象的尺寸保持不变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息。
在一些实施例中,所述人机交互界面的显示模式包括横屏显示模式、竖屏显示模式;所述第一显示模块4551还用于当在第一显示模式的所述人机交互界面中显示所述主体对象的至少一个关联信息时,响应于针对所述第一显示模式的切换操作,将第一显示模式的所述人机交互界面切换为第二显示模式的所述人机交互界面,并在第二显示模式的所述人机交互界面中的中心区域显示所述主体对象,在所述人机交互界面中避让所述主体对象的位置显示所述至少一个关联信息;其中,所述第一显示模式是所述横屏显示模式、所述竖屏显示模式中的任意一个,所述第二显示模式是所述横屏显示模式、所述竖屏显示模式中的另一个。
在一些实施例中,所述第一显示模块4551还用于确定所述实时画面中对应所述至少一个关联信息的背景;采用区别于所述背景的显示样式显示所述至少一个关联信息;其中,所述显示样式的参数包括以下至少之一:颜色、形状、输出格式。
在一些实施例中,所述在人机交互界面中显示通过拍摄场景所得到的实时画面之后,所述第一显示模块4551还用于对所述实时画面进行去噪处理,得到去噪后的所述实时画面;对去噪后的所述实时画面进行边缘检测处理,得到所述实时画面中的所述至少一个对象的识别结果。
在一些实施例中,所述在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述第一显示模块4551还用于对所述人机交互界面中的主体对象进行特征提取处理,得到所述主体对象的对象特征;基于所述主体对象的对象特征,确定所述主体对象的候选关联信息;基于所述人机交互界面的账号对应的历史行为数据对所述主体对象的候选关联信息进行筛选处理,得到所述主体对象的至少一个关联信息。
第二显示模块4553,用于在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括多个对象;针对每个所述对象显示选择标识;触发模块4554,用于响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象作为主体对象,在所述人机交互界面中显示所述主体对象的至少一个关联信息。
在一些实施例中,所述触发模块4554还用于响应于所述实时画面中所述主体对象的尺寸发生改变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的基于增强现实的显示处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于增强现实的显示处理方法,例如,如图3A、图3B、图5A、图5B示出的基于增强现实的显示处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
可以理解的是,在本申请实施例中,涉及到历史行为数据等用户数据,当本申请实施例运用到具体产品或技术中时,获得用户许可或者同意,且相关数据的收集、使用和处理遵守相关国家和地区的相关法律法规和标准。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (25)

1.一种基于增强现实的显示处理方法,其特征在于,所述方法包括:
在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括至少一个对象;
从所述至少一个对象中识别出主体对象,其中,所述主体对象为所述实时画面中唯一的对象或尺寸最大的对象;
在所述人机交互界面中显示所述主体对象的至少一个关联信息。
2.根据权利要求1所述的方法,其特征在于,当所述实时画面中包括多个对象时,所述从所述至少一个对象中识别出主体对象,包括:
确定所述多个对象中尺寸最大的第一对象以及尺寸仅次于所述第一对象的第二对象;
当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值时,将所述第一对象确定为所述主体对象;
其中,所述尺寸差值阈值为所述人机交互界面面积与设定比例的乘积。
3.根据权利要求2所述的方法,其特征在于,
所述对象的尺寸的类型包括以下之一:成像尺寸、实际尺寸;
其中,所述成像尺寸表示所述对象在所述人机交互界面中未被遮挡的部分的尺寸,所述实际尺寸表示所述对象在所述人机交互界面中未被遮挡的部分以及被遮挡的部分的尺寸总和。
4.根据权利要求2所述的方法,其特征在于,所述当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值时,将所述第一对象确定为所述主体对象,包括:
当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象位于所述人机交互界面的中心区域时,将所述第一对象确定为所述主体对象。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象的成像位置的中心不位于所述人机交互界面的中心区域时,对所述多个对象中除所述第一对象的对象进行降序排序处理;
将降序排序结果中首个满足以下条件的对象作为所述主体对象:
所述对象与尺寸仅次于所述对象之间的尺寸差值大于所述尺寸差值阈值;
所述对象的成像位置的中心位于所述人机交互界面的中心区域。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述第一对象与所述第二对象之间的尺寸差值大于尺寸差值阈值、且所述第一对象位于所述人机交互界面的中心区域时,基于每个所述对象的尺寸以及成像位置,确定每个所述对象的显著程度;
将显著程度最高的对象确定为所述主体对象。
7.根据权利要求1所述的方法,其特征在于,在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述方法还包括:
基于所述多个对象的尺寸,对所述多个对象进行降序排序处理;
当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,针对所述任意相邻的两个对象显示选择标识;
其中,所述尺寸差值阈值为所述人机交互界面面积与设定比例的乘积;
响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象确定为所述主体对象。
8.根据权利要求1所述的方法,其特征在于,在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述方法还包括:
基于所述多个对象的尺寸,对所述多个对象进行降序排序处理;
当降序排序结果中任意相邻的两个对象之间的尺寸差值小于或者等于尺寸差值阈值时,基于所述多个对象调用对象偏好模型进行对象偏好预测,得到所述多个对象中的主体对象;
其中,所述尺寸差值阈值为所述人机交互界面的面积与设定比例的乘积,所述对象偏好模型是通过历史画面包括的多个历史对象以及历史主体对象的标注数据训练得到的。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述实时画面中所述主体对象的尺寸发生改变,更新显示所述主体对象的至少一个关联信息。
10.根据权利要求9所述的方法,其特征在于,
所述在所述人机交互界面中显示所述主体对象的至少一个关联信息,包括:
在所述人机交互界面中显示所述主体对象的至少一个虚拟卡片,其中,每个所述虚拟卡片包括一个所述关联信息;
所述基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息,包括:
基于所述主体对象的尺寸的缩放比例,同步缩放所述虚拟卡片的尺寸。
11.根据权利要求10所述的方法,其特征在于,所述同步缩放所述虚拟卡片的尺寸之前,所述方法还包括:
当所述实时画面中所述主体对象缩放后的尺寸大于第一尺寸阈值、且小于第二尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的中心区域时,确定将执行所述同步缩放所述虚拟卡片的尺寸的操作;
其中,所述第一尺寸阈值小于所述第二尺寸阈值。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
当所述实时画面中所述主体对象缩放后的尺寸大于或者等于第二尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的设定区域时,减少所述虚拟卡片中显示的关联信息的内容,并在所述人机交互界面中显示所述主体对象的新的虚拟卡片,其中,每个所述新的虚拟卡片包括所述主体对象的一个关联信息。
13.根据权利要求10所述的方法,其特征在于,所述方法还包括:
当所述实时画面中所述主体对象缩放后的尺寸小于或者等于第一尺寸阈值、且尺寸缩放后的所述主体对象的成像位置的中心位于所述人机交互界面的中心区域时,从所述实时画面包括的至少一个对象中重新识别出新的主体对象,在所述人机交互界面中显示所述新的主体对象的至少一个关联信息。
14.根据权利要求9所述的方法,其特征在于,所述响应于所述实时画面中所述主体对象的尺寸发生改变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息,包括:
响应于所述实时画面中所述主体对象的尺寸发生改变、且在设定时间内所述主体对象的尺寸保持不变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息。
15.根据权利要求1所述的方法,其特征在于,
所述人机交互界面的显示模式包括横屏显示模式、竖屏显示模式;
所述方法还包括:
当在第一显示模式的所述人机交互界面中显示所述主体对象的至少一个关联信息时,响应于针对所述第一显示模式的切换操作,将第一显示模式的所述人机交互界面切换为第二显示模式的所述人机交互界面,并在第二显示模式的所述人机交互界面中的中心区域显示所述主体对象,在所述人机交互界面中避让所述主体对象的位置显示所述至少一个关联信息;
其中,所述第一显示模式是所述横屏显示模式、所述竖屏显示模式中的任意一个,所述第二显示模式是所述横屏显示模式、所述竖屏显示模式中的另一个。
16.根据权利要求1所述的方法,其特征在于,所述在所述人机交互界面中显示所述主体对象的至少一个关联信息,包括:
确定所述实时画面中对应所述至少一个关联信息的背景;
采用区别于所述背景的显示样式显示所述至少一个关联信息;
其中,所述显示样式的参数包括以下至少之一:颜色、形状、输出格式。
17.根据权利要求1所述的方法,其特征在于,所述在人机交互界面中显示通过拍摄场景所得到的实时画面之后,所述方法还包括:
对所述实时画面进行去噪处理,得到去噪后的所述实时画面;
对去噪后的所述实时画面进行边缘检测处理,得到所述实时画面中的所述至少一个对象的识别结果。
18.根据权利要求1所述的方法,其特征在于,所述在所述人机交互界面中显示所述主体对象的至少一个关联信息之前,所述方法还包括:
对所述人机交互界面中的主体对象进行特征提取处理,得到所述主体对象的对象特征;
基于所述主体对象的对象特征,确定所述主体对象的候选关联信息;
基于所述人机交互界面的账号对应的历史行为数据对所述主体对象的候选关联信息进行筛选处理,得到所述主体对象的至少一个关联信息。
19.一种基于增强现实的显示处理方法,其特征在于,所述方法包括:
在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括多个对象;
针对每个所述对象显示选择标识;
响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象作为主体对象,在所述人机交互界面中显示所述主体对象的至少一个关联信息。
20.根据权利要求19所述的方法,其特征在于,所述方法还包括:
响应于所述实时画面中所述主体对象的尺寸发生改变,基于尺寸改变后的所述主体对象更新显示所述主体对象的至少一个关联信息。
21.一种基于增强现实的显示处理装置,其特征在于,所述装置包括:
第一显示模块,用于在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括至少一个对象;
识别模块,用于从所述至少一个对象中识别出主体对象,其中,所述主体对象为所述实时画面中唯一的对象或尺寸最大的对象;
所述第一显示模块,还用于在所述人机交互界面中显示所述主体对象的至少一个关联信息。
22.一种基于增强现实的显示处理装置,其特征在于,所述装置包括:
第二显示模块,用于在人机交互界面中显示通过拍摄场景所得到的实时画面,其中,所述实时画面包括多个对象;针对每个所述对象显示选择标识;
触发模块,用于响应于针对所述选择标识的触发操作,将触发的选择标识对应的对象作为主体对象,在所述人机交互界面中显示所述主体对象的至少一个关联信息。
23.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至20任一项所述的基于增强现实的显示处理方法。
24.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时实现权利要求1至20任一项所述的基于增强现实的显示处理方法。
25.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至20任一项所述的基于增强现实的显示处理方法。
CN202210101966.9A 2022-01-27 2022-01-27 基于增强现实的显示处理方法、装置、设备及存储介质 Pending CN116563503A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210101966.9A CN116563503A (zh) 2022-01-27 2022-01-27 基于增强现实的显示处理方法、装置、设备及存储介质
PCT/CN2022/112068 WO2023142432A1 (zh) 2022-01-27 2022-08-12 基于增强现实的数据处理方法、装置、设备、存储介质及计算机程序产品
US18/202,561 US20230298239A1 (en) 2022-01-27 2023-05-26 Data processing method based on augmented reality

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210101966.9A CN116563503A (zh) 2022-01-27 2022-01-27 基于增强现实的显示处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116563503A true CN116563503A (zh) 2023-08-08

Family

ID=87470312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210101966.9A Pending CN116563503A (zh) 2022-01-27 2022-01-27 基于增强现实的显示处理方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20230298239A1 (zh)
CN (1) CN116563503A (zh)
WO (1) WO2023142432A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106774936B (zh) * 2017-01-10 2020-01-07 上海木木机器人技术有限公司 人机交互方法及系统
CN111726536B (zh) * 2020-07-03 2024-01-05 腾讯科技(深圳)有限公司 视频生成方法、装置、存储介质及计算机设备
CN112069358B (zh) * 2020-08-18 2022-03-25 北京达佳互联信息技术有限公司 信息推荐方法、装置及电子设备
CN112230765A (zh) * 2020-09-29 2021-01-15 杭州灵伴科技有限公司 Ar显示方法、ar显示设备和计算机可读存储介质
CN112947756A (zh) * 2021-03-03 2021-06-11 上海商汤智能科技有限公司 内容导览方法、装置、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
US20230298239A1 (en) 2023-09-21
WO2023142432A1 (zh) 2023-08-03

Similar Documents

Publication Publication Date Title
CN110716645A (zh) 一种增强现实数据呈现方法、装置、电子设备及存储介质
CN109688451B (zh) 摄像机效应的提供方法及系统
CN111311554B (zh) 图文内容的内容质量确定方法、装置、设备及存储介质
US9437038B1 (en) Simulating three-dimensional views using depth relationships among planes of content
WO2021213067A1 (zh) 物品显示方法、装置、设备及存储介质
CN111445486B (zh) 图像处理方法、装置、设备及计算机可读存储介质
WO2022037260A1 (zh) 基于人工智能的多媒体处理方法、装置及电子设备
WO2022194102A1 (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
US10810801B2 (en) Method of displaying at least one virtual object in mixed reality, and an associated terminal and system
CN112330533A (zh) 混血人脸图像生成方法、模型训练方法、装置和设备
CN114697703B (zh) 视频数据生成方法、装置、电子设备及存储介质
CN108845733B (zh) 屏幕截图方法、装置、终端及存储介质
CN113313066A (zh) 图像识别方法、装置、存储介质以及终端
CN113867875A (zh) 标记对象的编辑及显示方法、装置、设备、存储介质
CN115619867B (zh) 数据处理方法、装置、设备、存储介质
US11961190B2 (en) Content distribution system, content distribution method, and content distribution program
CN105022480A (zh) 一种输入方法及终端
CN110990106A (zh) 数据展示方法、装置、计算机设备及存储介质
CN116563503A (zh) 基于增强现实的显示处理方法、装置、设备及存储介质
CN115202481A (zh) 对象的交互方法、智能终端、电子设备及存储介质
CN113763568A (zh) 增强现实的显示处理方法、装置、设备及存储介质
CN109992697B (zh) 一种信息处理方法和电子设备
CN113408329A (zh) 基于人工智能的视频处理方法、装置、设备及存储介质
CN111652986A (zh) 舞台效果呈现方法、装置、电子设备及存储介质
US10867445B1 (en) Content segmentation and navigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40092248

Country of ref document: HK