CN117519466A - 增强现实设备的控制方法、计算机设备和存储介质 - Google Patents

增强现实设备的控制方法、计算机设备和存储介质 Download PDF

Info

Publication number
CN117519466A
CN117519466A CN202311303942.2A CN202311303942A CN117519466A CN 117519466 A CN117519466 A CN 117519466A CN 202311303942 A CN202311303942 A CN 202311303942A CN 117519466 A CN117519466 A CN 117519466A
Authority
CN
China
Prior art keywords
text
augmented reality
image
target object
option
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311303942.2A
Other languages
English (en)
Inventor
李竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Bounds Inc
Original Assignee
Meta Bounds Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Bounds Inc filed Critical Meta Bounds Inc
Priority to CN202311303942.2A priority Critical patent/CN117519466A/zh
Publication of CN117519466A publication Critical patent/CN117519466A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种增强现实设备的控制方法、计算机设备和存储介质。该方法包括:响应于第一触发指令,调取增强现实设备的摄像头并在增强现实设备的显示区域内显示图像采集界面,其中图像采集界面包括图像采集框以及至少两个功能应用选项;响应于第二触发指令,确定被选中的功能应用选项,基于被选中的功能应用选项匹配对应预设的人工智能模型;响应于第三触发指令,采集显示于图像采集框内的目标对象的图像,并基于采集的目标对象的图像以及预设的人工智能模型获取目标对象的识别结果,并在增强现实设备的显示区域内显示目标对象的识别结果。该方法使得增强现实设备的识物功能应用更丰富和识别结果更加贴合用户需求。

Description

增强现实设备的控制方法、计算机设备和存储介质
技术领域
本发明属于扩展现实技术领域,具体地讲,涉及一种增强现实设备的控制方法、计算机设备和计算机可读存储介质。
背景技术
增强现实(augmentedreality,AR)技术、混合现实(mixedreality,MR)技术等扩展现实技术是一种可以创建和体验虚拟世界的计算机仿真技术,它利用计算机生成一种模拟环境,是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真,使用户沉浸到该环境中。
随着增强现实技术的应用场景于越来越多,目前AR眼镜能够集成AI功能识别物体,其中物体识别的基本过程是:AR眼镜采集图像,利用图像识别技术对图像进行识别,然后可以根据图像识别得到少量的识别信息,例如物体名称等,进一步地可以将信息AR显示给用户。故而,目前的AR眼镜图像识别应用较为简单,单一图像识别向用户显示的信息量有限,甚至反馈的信息与用户需求的内容不匹配,造成信息反馈不准确,同时现有的AR眼镜在AI功能应用上的交互显示方式也比较单一。在AR眼镜应用于阅读、学习、旅行、购物等越来越多的场景下,目前的AI功能和交互方式已无法满足用户获取更多、更准确的信息的需求。
发明内容
本发明解决的技术问题是:如何使AR识物的功能应用更丰富和识别结果更加贴合用户需求。
本申请公开了一种增强现实设备的控制方法,所述方法包括:
响应于第一触发指令,调取所述增强现实设备的摄像头并在所述增强现实设备的显示区域内显示图像采集界面,其中所述图像采集界面包括图像采集框以及至少两个功能应用选项;
响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型;
响应于第三触发指令,采集显示于所述图像采集框内的目标对象的图像,并基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果。
可选地,所述功能应用选项包括:物品识别、文本翻译、文本总结、文本学习和/或朗读。
可选地,所述响应于第三触发指令,采集显示于所述图像采集框内的目标对象的图像,还包括:
响应于第三触发指令,所述增强现实设备的摄像头获取所述目标对象的实时视频流,基于所述实时视频流采集所述目标对象的图像。
可选地,所述响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型,包括:
所述响应于第二触发指令,确定被选中的功能应用选项为物品识别选项,则基于所述物品识别选项匹配对应预设的人工智能模型。
可选地,所述预设的人工智能模型包括图像识别模型,所述基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果包括:
基于采集的所述目标对象的图像提取图像特征,基于所述图像特征利用所述图像识别模型获取物品的识别结果,识别结果为所述物品的第一属性信息,并在所述增强现实设备的显示区域内显示所述物品的第一属性信息。
可选地,所述预设的人工智能模型包括图像识别模型和自然语言理解模型,所述基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果包括:
基于采集的所述目标对象的图像提取图像特征,基于所述图像特征利用所述图像识别模型获取物品的第一属性信息;
基于所述第一属性信息,利用所述自然语言理解模型获取所述物品的第二属性信息;
在所述增强现实设备的显示区域内显示所述物品的第一属性信息和第二属性信息。
可选地,所述第一属性信息包括物品名称、类别、品牌和/或用途。
可选地,所述方法还包括:
接收针对所述物品的查询指令,基于所述查询指令和所述自然语言理解模型,修正显示于所述增强现实设备的显示区域内的所述物品的第一属性信息。
可选地,所述响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型,包括:
所述响应于第二触发指令,确定被选中的功能应用选项为文本翻译选项或文本总结选项或文本学习选项或朗读选项,则基于所述文本翻译选项或文本总结选项或文本学习选项或朗读选项匹配对应预设的人工智能模型。
可选地,所述预设的人工智能模型包括文本识别模型和自然语言理解模型,所述基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果包括:
基于采集的所述目标对象的图像确定文本特征,基于所述文本特征利用所述文本识别模型获取文本的识别内容;
基于所述文本的识别内容,利用所述自然语言理解模型获取所述文本的文本翻译结果或文本总结结果或文本学习结果或文本朗读结果;
在所述增强现实设备的显示区域内显示所述文本的文本翻译结果或文本总结结果或文本学习结果或文本朗读结果。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有增强现实设备的控制程序,所述增强现实设备的控制程序被处理器执行时实现如上所述的增强现实设备的控制方法。
本申请还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的增强现实设备的控制程序,所述增强现实设备的控制程序被处理器执行时实现如上所述的增强现实设备的控制方法。
本发明公开的一种增强现实设备的控制方法、计算机设备和计算可读存储介质,具有如下技术效果:
在增强现实设备的显示区域显示可供用户选择的多个识别功能,并显示基于人工智能模型生成的识别结果,使识别结果更能贴合用户需求。
附图说明
图1为本发明的实施例一的增强现实设备的控制方法的流程图;
图2为本发明的实施例一的图像采集界面的示意图;
图3为本发明的实施例一的图像采集界面的另一示意图;
图4为本发明的实施例二的增强现实设备的控制装置的原理框图;
图5为本发明的实施例四的计算机设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的技术构思:目前在利用AR眼镜进行识别时,识别功能较为单一且所反馈的识别信息也过于简单,难以满足用户需求。为此,本申请提供的增强现实设备的控制方法,结合增强现实技术和人工智能技术,在增强现实设备的显示区域显示可供用户选择的多个识别功能,在用户选择对应的识别功能后,显示基于人工智能模型生成的识别结果,因此增加了识别功能的丰富性,同时识别结果也更能贴合用户需求,增加了交互内容。下面结合更多的实施例来描述本申请的增强现实设备的控制方法。
具体地,如图1所示,本实施例一的增强现实设备的控制方法包括:
步骤S10、响应于第一触发指令,调取所述增强现实设备的摄像头并在所述增强现实设备的显示区域内显示图像采集界面,其中所述图像采集界面包括图像采集框以及至少两个功能应用选项。
步骤S20、响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型。
步骤S30、响应于第三触发指令,采集显示于图像采集框内的目标对象的图像,并基于采集的目标对象的图像以及预设的人工智能模型获取目标对象的识别结果,并在增强现实设备的显示区域内显示目标对象的识别结果。
具体来讲,增强现实设备具有桌面启动器,设备开机后通过桌面启动器打开桌面主页,桌面主页用于显示多个应用程序图标,例如包括图像采集程序图标,在接收到第一触发指令后,选中并打开图像采集程序图标,进入到图像采集界面。图像采集界面包括图像采集框A和至少两个功能应用选项可供用户选择。如图2所示,示例性地,功能应用选项后主要分为物品类和文字类两种功能应用。功能应用选项的数量为五个,分别为物品识别选项F1、文本翻译选项F2、文本总结选项F3、文本学习选项F4和文本朗读选项F5,物品识别选项针对的是实物对象,后面四项针对的是文本对象,因此这五个功能应用选项基本涵盖了日常生活的常见应用场景。这里的第一触发指令可以是根据用户语音生成的,也可以是根据指环的按键操作生成的,还可以是对增强现实设备进行按键操作或触摸操作生成的。在调取增强现实设备的摄像头后,利用摄像头拍摄增强现实设备前方的图像,并在图像采集框A中预览显示图像,以便于用户实时查看,方便用户实时调整摄像头的姿态,以对准目标对象。
进一步地,在增强现实设备接收到第二触发指令后,选中相应的功能应用选项后,确定与功能应用选项相匹配的预设人工智能模型。示例性地,当确定被选中的功能应用选项为物品识别选项,则基于物品识别选项匹配对应预设的人工智能模型。当确定被选中的功能应用选项为文本翻译选项或文本总结选项或文本学习选项或朗读选项,则基于文本翻译选项或文本总结选项或文本学习选项或朗读选项匹配对应预设的人工智能模型。
进一步地,响应于第三触发指令,采集显示于图像采集框内的目标对象的图像的方法包括:响应于第三触发指令,增强现实设备的摄像头获取目标对象的实时视频流,基于实时视频流采集目标对象的图像。下面分别描述物品和文字两类目标对象的图像的采集过程。
当目标对象为物品时,获取增强现实设备所处环境图像可以通过增强现实设备自带的摄像头获取环境图像,也可以采用用户携带的手机等移动设备获取环境图像。其中,在通过增强现实设备自带的摄像头获取环境图像时,可以在图像采集界面实时显示环境图像,例如在图像采集框A中显示环境图像,以提示用户调整增强现实设备的姿态,以使摄像头对准目标对象。这里的环境图像可以是单帧图像,也可以多帧图像,当为连续多帧图像时,则获取到的是视频流。进一步地,在获取到单帧环境图像或视频流,可以通过预设的计算机视觉模型从环境图像或视频流中识别出目标对象,例如预设的计算机视觉模型可以是基于深度学习的经典目标检测模型。其中,识别过程需要较大的算力,这里的计算机视觉模型可以是设置于移动设备或云端服务器,即,增强现实设备获取到环境图像后,将环境图像发送到移动设备或云端服务器上,通过计算机视觉模型进行识别,得到目标对象的图像。
进一步地,在得到目标对象之后,基于采集的目标对象的图像提取图像特征,基于图像特征利用预设的人工智能模型获取物品识别结果。示例性地,这里的预设的人工智能模型包括图像识别模型,识别结果为物品的第一属性信息,该第一属性信息为物品的基础信息,包括物品的名称、类别、品牌和用途等信息。接着在增强现实设备的显示区域内显示物品的第一属性信息时,可以在图像采集界面显示第一属性信息,示例性地,可以在图像采集框A显示第一属性信息。如图2所示,当目标对象是商品时,在选中物品识别选项后,可以在图像采集框A中显示该目标对象T以及该目标对象的类别、品牌、用途等第一属性信息R,例如可以将第一属性信息叠加显示在该商品上,以起到更好的展示效果。
进一步地,在另一种方式中,预设的人工智能模型还包括自然语言理解模型。在得到物品的第一属性信息后,利用自然语言理解模型对第一属性信息进行整合和总结,生成第二属性信息,将第二属性信息和第一属性信息共同显示在增强现实设备的显示区域内。这里的自然语言理解模型预置于云端服务器或移动设备,以满足算力要求。示例性地,第二属性信息可以为物品的细节内容,第二属性信息可以以问题列表形式显示在图像采集框A中,在用户需要了解并触发相应指令时,选中对应的问题,再展开显示细节内容。这里的自然语言理解模型可以是ChatGPT-4等高级语言模型。
进一步地,增强现实设备的控制方法还包括:接收针对物品的查询指令,基于查询指令和自然语言理解模型,修正显示于增强现实设备的显示区域内的物品的第一属性信息。示例性地,增强现实设备可以通过采集用户发出的语音信息来生成查询指令。这里的修改包括两种类型,第一种是显示新的第一属性信息,第二种是对已显示的第一属性信息进行验证和修改。在一种实施方式中,在图像采集界面当前显示的第一属性信息为类别、品牌、用途等信息时,用户想要了解其他的第一属性信息时,例如想要了解物品的信息、价格、成分和颜色等,通过查询指令,利用自然语言理解模型生成相应的新的第一属性信息,将新的第一属性信息替换已显示的第一属性信息。在另一种实施方式中,在图像采集界面当前显示的第一属性信息为类别、品牌、用途等信息时,用户想要了解该第一属性信息是否准确,可以通过查询指令,将第一属性信息输入到自然语言理解模型进行验证和修改,从而显示准确度更高的第一属性信息。
当目标对象为文本对象时,获取增强现实设备所处环境图像可以通过增强现实设备自带的摄像头获取环境图像,也可以采用用户携带的手机等移动设备获取环境图像。其中,在通过增强现实设备自带的摄像头获取环境图像时,可以在识别应用界面实时显示环境图像,例如在图像采集框A中显示环境图像,以提示用户调整增强现实设备的姿态,以使摄像头对准文本对象。进一步地,在获取到单帧环境图像或视频流,可以通过预设的计算机视觉模型从环境图像或视频流中识别出目标对象。示例性地,在拍摄文本对象时,可以将手指对准文本对象,当计算机视觉模型识别出手指位置时,根据手指位置确定环境图像或视频流中的目标对象的图像,即文本图像。接着确定文本图像的文本特征,基于文本特征利用文本识别模型获取文本的识别内容。这里可以通过预设的计算机视觉模型从环境图像或视频流中识别出用户的手指位置,例如预设的计算机视觉模型可以是基于深度学习的经典目标检测模型。其中,识别过程需要较大的算力,这里的计算机视觉模型可以是设置于移动设备或云端服务器,即,增强现实设备获取到环境图像或视频流后,将环境图像或视频流发送到移动设备或云端服务器上,通过计算机视觉模型进行识别。示例性地,在确定用户的手指位置后,将手指位置上方的局部区域图像作为文本图像,并分割出该文本图像,最后通过预设的文本识别模型,例如OCR识别模型,得到识别内容,例如提取到的文字段落。接着利用自然语言理解模型等人工智能模型对该识别内容进行整合和总结,生成识别结果,识别结果可以是文本翻译结果或文本总结结果或文本学习结果或文本朗读结果。
例如,如图3所示,当目标对象为外文段落时,选中文本翻译选项后,可以仅在图像采集框A中显示翻译结果R。其中,当识别结果是文本朗读结果时,一方面可以在增强现实设备的显示区域内以字幕形式显示文字内容,另一方面可以通过增强现实设备的扬声器或耳机以语音形式播放文字内容。
进一步地,识别结果可以是对识别内容进行校正后的结果,例如对提取出的文字段落进行错别字修正、标点符号修正等。示例性地,识别结果还可以包括文本图像的文字内容和关联内容,文字内容可以直接在识别框中显示,关联内容可以以问题列表形式显示在识别框中或者直接隐藏关联内容,在用户需要了解并触发相应指令时,再进一步显示关联内容。例如,关联内容可以为从文字内容中总结提炼出的大意,关联内容还可以是文字内容的扩展内容,例如文字内容为某产品的介绍信息时,可以通过自然语言理解模型获取跟该产品更多的关联内容。
进一步地,在另一种实施方式中,识别结果包括引导内容,增强现实设备的控制方法还包括:响应于第四触发指令,切换显示与引导内容关联的新识别结果,新识别结果为基于人工智能模型生成的用户所感兴趣或想要进一步了解的内容。
示例性地,当目标对象为物品时,新识别结果可以是物品的细节内容。例如,当目标对象为某个仪器时,基于人工智能模型得到的该仪器的细节内容可以是该仪器的使用方法,可以生成并显示相应的引导内容“是否需要了解使用方法”,即在步骤S30中显示该仪器的类别、品牌和用途等基本属性内容和引导内容,该引导内容可以起到提醒用户的作用。当用户想要了解该仪器的使用方法等细节内容时,可以通过第四触发指令来切换显示细节内容,而不在步骤S30中直接显示该细节内容,提升了用户交互体验。在另一种示例中,当目标对象为文本对象时,新识别结果可以是关联内容。例如,当目标对象为产品介绍信息时,基于人工智能模型得到的该产品介绍信息的关联内容可以是产品介绍信息的内容大意、扩展内容,可以生成并显示相应的引导内容“是否需要了解内容大意”、“是否需要了解扩展内容”,该引导内容可以起到提醒用户的作用。即在步骤S20中显示该产品介绍信息所对应的文字内容和引导内容。当用户需要了解进一步的扩展内容时,可以通过第四触发指令来切换显示扩展内容,而不在步骤S20中直接显示该扩展内容,提升了用户交互体验。这里的第四触发指令包括语音指令。
其中,“学习”功能旨在文本识别功能成功获取到文字内容之后,为用户提供一个直观、实时且深度的文本学习能力,目的是满足用户对于获取到的文本信息进行有深度、有质量的延伸理解。当响应于第二触发指令,选中识别应用界面的“学习选项”之后,学习功能包括如下步骤:
步骤一、将文字内容输入到自然语言理解模型。在提取到文字内容之后,文字内容可以是单词、短语、句子、段落等,也可以包含特定的实体,如人名、地名、商店名、书名等,将文字内容发送到移动设备或云端服务器中预置的自然语言理解模型中。
步骤二、对文字内容进行预处理和分类。首先,自然语言理解模型对文字内容进行预处理,例如清除多余的空格、纠正拼写错误等。接着自然语言理解模型对文字内容进行初步分类,判断它是单词、句子、段落还是特定的实体名词。
步骤三、对文字内容进行文本解析。根据分类结果,自然语言理解模型选择合适该文字内容的prompt模板,并根据该prompt模板进行分析和解释,生成详细的解析结果。
步骤四、对文本解析结果的验证。如果文字内容包含可能导致幻觉的实体名词(例如,特定的人名、地名等),自然语言理解模型会考虑调用外部搜索引擎来验证解析结果的准确性。搜索结果返回后,将其与自然语言理解模型的输出进行对比,确保提供给用户的信息是准确的。
步骤五、解析结果的展示。将自然语言理解模型生成的解析结果以结构化的方式展示给用户,例如在增强现实设备的识别应用界面中显示解析结果。如果有外部验证的信息,也会一同显示,让用户了解其来源和可靠性。其中,在解析结果的末尾,可以提供一个开放式的问题或建议,引导用户继续与自然语言理解模型互动,深入学习。
如图4所示,本实施例二公开了一种增强现实设备的控制装置,增强现实设备的控制装置包括显示模块100、选择模块200和识别模块300,显示模块100用于响应于第一触发指令,在增强现实设备的显示区域内显示图像采集界面,图像采集界面包括图像采集框以及至少两个功能应用选项,选择模块200用于响应于第二触发指令,确定被选中的功能应用选项,基于被选中的功能应用选项匹配对应预设的人工智能模型,识别模块300用于响应于第一触发指令,调取所述增强现实设备的摄像头,且识别模块300用于响应于第三触发指令采集显示于图像采集框内的目标对象的图像,并基于采集的目标对象的图像以及预设的人工智能模型获取目标对象的识别结果,显示模块100还用于响应于第三触发指令在述增强现实设备的显示区域内显示目标对象的识别结果。
进一步地,功能应用选项包括:物品识别、文本翻译、文本总结、文本学习和/或朗读。
进一步地,识别模块300还用于响应第三触发指令,控制增强现实设备的摄像头获取目标对象的实时视频流,基于实时视频流采集目标对象的图像。
进一步地,选择模块200还用于响应响应于第二触发指令,确定被选中的功能应用选项为物品识别选项,并基于物品识别选项匹配对应预设的人工智能模型。
进一步地,预设的人工智能模型包括图像识别模型,识别模块300还用于:基于采集的目标对象的图像提取图像特征,基于图像特征利用图像识别模型获取物品识别结果,识别结果为物品的第一属性信息。显示模块100还用于在增强现实设备的显示区域内显示所述物品的第一属性信息。
在一种实施方式中,预设的人工智能模型包括图像识别模型和自然语言理解模型,识别模块300还用于:基于采集的目标对象的图像提取图像特征,基于图像特征利用图像识别模型获取物品的第一属性信息;基于第一属性信息,利用自然语言理解模型获取物品的第二属性信息。显示模块100还用于在增强现实设备的显示区域内显示物品的第一属性信息和第二属性信息。
示例性地,第一属性信息包括物品名称、类别、品牌和/或用途。
进一步地,识别模块300还用于基于查询指令和自然语言理解模型,修正显示于增强现实设备的显示区域内的物品的第一属性信息。
进一步地,选择模块200还用于响应于第二触发指令,确定被选中的功能应用选项为文本翻译选项或文本总结选项或文本学习选项或朗读选项,则基于文本翻译选项或文本总结选项或文本学习选项或朗读选项匹配对应预设的人工智能模型。
进一步地,预设的人工智能模型包括文本识别模型和自然语言理解模型,识别模块300还用于:基于采集的目标对象的图像确定文本特征,基于文本特征利用文本识别模型获取文本的识别内容;基于文本的识别内容,利用自然语言理解模型获取文本的文本翻译结果或文本总结结果或文本学习结果。显示模块100还用于在增强现实设备的显示区域内显示文本的文本翻译结果或文本总结结果或文本学习结果。
本实施例三还公开了一种计算机可读存储介质,计算机可读存储介质存储有增强现实设备的控制程序,增强现实设备的控制程序被处理器执行时实现上述实施例一中的增强现实设备的控制方法。
本实施例四还公开了一种计算机设备,在硬件层面,如图5所示,该计算机设备包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。计算机可读存储介质11上存储有增强现实设备的控制程序,增强现实设备的控制程序被处理器执行时实现上述的增强现实设备的控制方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述的计算机设备可以是AR设备。示例性地,计算机设备可以是增强现实眼镜。
在增强现实或虚拟现实眼镜的示例中,计算机设备可被配置成通过信号连接将数据传递到外部处理设备并从外部处理设备接收数据,信号连接可以是有线连接、无线连接或其组合。然而,在其他情形中,计算机设备可用作独立设备,即在计算机设备自身进行数据处理。信号连接可以被配置成承载任何种类的数据,诸如图像数据(例如,静止图像和/或完全运动视频,包括2D和3D图像)、音频、多媒体、语音和/或任何其他类型的数据。外部处理设备可以是例如游戏控制台、个人计算机、平板计算机、智能电话或其他类型的处理设备。信号连接可以是例如通用串行总线(USB)连接、Wi-Fi连接、蓝牙或蓝牙低能量(BLE)连接、以太网连接、电缆连接、DSL连接、蜂窝连接(例如,3G、LTE/4G或5G)等或其组合。附加地,外部处理设备可以经由网络与一个或多个其他外部处理设备通信,网络可以是或包括例如局域网(LAN)、广域网(WAN)、内联网、城域网(MAN)、全球因特网或其组合。
计算机设备中可安装显示组件、光学器件、传感器和处理器等。在增强现实或虚拟现实眼镜的示例中,显示组件被设计成,例如,通过将光投影到用户眼睛中实现虚拟现实眼镜的功能,例如,通过将光投影到用户眼睛中,在用户对其现实世界环境的视图上覆盖图像实现增强现实眼镜的功能。计算机设备还可包括环境光传感器,并且还可包括电子电路系统以控制上述部件中的至少一些并且执行相关联的数据处理功能。电子电路系统可包括例如一个或多个处理器和一个或多个存储器。
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。

Claims (12)

1.一种增强现实设备的控制方法,其特征在于,所述方法包括:
响应于第一触发指令,调取所述增强现实设备的摄像头并在所述增强现实设备的显示区域内显示图像采集界面,其中所述图像采集界面包括图像采集框以及至少两个功能应用选项;
响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型;
响应于第三触发指令,采集显示于所述图像采集框内的目标对象的图像,并基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果。
2.根据权利要求1所述的增强现实设备的控制方法,其特征在于,所述功能应用选项包括:物品识别、文本翻译、文本总结、文本学习和/或朗读。
3.根据权利要求2所述的增强现实设备的控制方法,其特征在于,所述响应于第三触发指令,采集显示于所述图像采集框内的目标对象的图像,还包括:
响应于第三触发指令,所述增强现实设备的摄像头获取所述目标对象的实时视频流,基于所述实时视频流采集所述目标对象的图像。
4.根据权利要求3所述的增强现实设备的控制方法,其特征在于,所述响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型,包括:
所述响应于第二触发指令,确定被选中的功能应用选项为物品识别选项,则基于所述物品识别选项匹配对应预设的人工智能模型。
5.根据权利要求4所述的增强现实设备的控制方法,其特征在于,所述预设的人工智能模型包括图像识别模型,所述基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果包括:
基于采集的所述目标对象的图像提取图像特征,基于所述图像特征利用所述图像识别模型获取物品的识别结果,识别结果为所述物品的第一属性信息,并在所述增强现实设备的显示区域内显示所述物品的第一属性信息。
6.根据权利要求4所述的增强现实设备的控制方法,其特征在于,所述预设的人工智能模型包括图像识别模型和自然语言理解模型,所述基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果包括:
基于采集的所述目标对象的图像提取图像特征,基于所述图像特征利用所述图像识别模型获取物品的第一属性信息;
基于所述第一属性信息,利用所述自然语言理解模型获取所述物品的第二属性信息;
在所述增强现实设备的显示区域内显示所述物品的第一属性信息和第二属性信息。
7.根据权利要求5或6所述的增强现实设备的控制方法,其特征在于,所述第一属性信息包括物品名称、类别、品牌和/或用途。
8.根据权利要求6所述的增强现实设备的控制方法,其特征在于,所述方法还包括:
接收针对所述物品的查询指令,基于所述查询指令和所述自然语言理解模型,修正显示于所述增强现实设备的显示区域内的所述物品的第一属性信息。
9.根据权利要求3所述的增强现实设备的控制方法,其特征在于,所述响应于第二触发指令,确定被选中的功能应用选项,基于所述被选中的功能应用选项匹配对应预设的人工智能模型,包括:
所述响应于第二触发指令,确定被选中的功能应用选项为文本翻译选项或文本总结选项或文本学习选项或朗读选项,则基于所述文本翻译选项或文本总结选项或文本学习选项或朗读选项匹配对应预设的人工智能模型。
10.根据权利要求9所述的增强现实设备的控制方法,其特征在于,所述预设的人工智能模型包括文本识别模型和自然语言理解模型,所述基于采集的所述目标对象的图像以及所述预设的人工智能模型获取所述目标对象的识别结果,并在所述增强现实设备的显示区域内显示目标对象的识别结果包括:
基于采集的所述目标对象的图像确定文本特征,基于所述文本特征利用所述文本识别模型获取文本的识别内容;
基于所述文本的识别内容,利用所述自然语言理解模型获取所述文本的文本翻译结果或文本总结结果或文本学习结果或文本朗读结果;
在所述增强现实设备的显示区域内显示所述文本的文本翻译结果或文本总结结果或文本学习结果或文本朗读结果。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有增强现实设备的控制程序,所述增强现实设备的控制程序被处理器执行时实现如权利要求1至10任一项所述的增强现实设备的控制方法。
12.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的增强现实设备的控制程序,所述增强现实设备的控制程序被处理器执行时实现权利要求1至10任一项所述的增强现实设备的控制方法。
CN202311303942.2A 2023-10-10 2023-10-10 增强现实设备的控制方法、计算机设备和存储介质 Pending CN117519466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311303942.2A CN117519466A (zh) 2023-10-10 2023-10-10 增强现实设备的控制方法、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311303942.2A CN117519466A (zh) 2023-10-10 2023-10-10 增强现实设备的控制方法、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117519466A true CN117519466A (zh) 2024-02-06

Family

ID=89753855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311303942.2A Pending CN117519466A (zh) 2023-10-10 2023-10-10 增强现实设备的控制方法、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117519466A (zh)

Similar Documents

Publication Publication Date Title
Bragg et al. Sign language recognition, generation, and translation: An interdisciplinary perspective
US20220198516A1 (en) Data recommendation method and apparatus, computer device, and storage medium
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN114375435A (zh) 增强物理活动表面上的有形内容
WO2019169872A1 (zh) 搜索内容资源的方法、装置和服务器
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN111414506B (zh) 基于人工智能情绪处理方法、装置、电子设备及存储介质
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN117523275A (zh) 基于人工智能的属性识别方法及属性识别模型训练方法
CN111914760B (zh) 一种在线课程视频资源构成的解析方法及系统
Ouali et al. A new architecture based ar for detection and recognition of objects and text to enhance navigation of visually impaired people
CN118035945B (zh) 一种标签识别模型的处理方法和相关装置
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
CN113573128B (zh) 一种音频处理方法、装置、终端以及存储介质
Kapitanov et al. Slovo: Russian Sign Language Dataset
CN117349515A (zh) 搜索处理方法、电子设备和存储介质
Abutalipov et al. Handshape classification in a reverse dictionary of sign languages for the deaf
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN117519466A (zh) 增强现实设备的控制方法、计算机设备和存储介质
CN111258409B (zh) 一种用于人机交互的特征点识别方法及设备
Wangchen et al. EDUZONE–A Educational Video Summarizer and Digital Human Assistant for Effective Learning
CN112069836A (zh) 谣言识别方法、装置、设备及存储介质
CN116246043B (zh) 增强现实的视听内容的呈现方法、装置、设备及存储介质
CN113743271B (zh) 一种基于多模态情感的视频内容有效性可视分析方法与系统
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination