CN112738499A - 基于ar的信息显示方法、装置、ar设备、电子设备及介质 - Google Patents

基于ar的信息显示方法、装置、ar设备、电子设备及介质 Download PDF

Info

Publication number
CN112738499A
CN112738499A CN202011569071.5A CN202011569071A CN112738499A CN 112738499 A CN112738499 A CN 112738499A CN 202011569071 A CN202011569071 A CN 202011569071A CN 112738499 A CN112738499 A CN 112738499A
Authority
CN
China
Prior art keywords
user
information
display
image
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011569071.5A
Other languages
English (en)
Inventor
苗京花
赵砚秋
范清文
王雪丰
李文宇
陈丽莉
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Beijing BOE Optoelectronics Technology Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Beijing BOE Optoelectronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd, Beijing BOE Optoelectronics Technology Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202011569071.5A priority Critical patent/CN112738499A/zh
Publication of CN112738499A publication Critical patent/CN112738499A/zh
Priority to US17/489,122 priority patent/US11830154B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供的基于AR的信息显示方法、装置、电子设备及存储介质,应用于计算机技术领域,所述方法包括:采集用户的语音信息和用户图像;识别所述语音信息,提取用户特征;在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。本方案通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。

Description

基于AR的信息显示方法、装置、AR设备、电子设备及介质
技术领域
本申请属于计算机技术领域,特别是涉及一种基于AR的信息显示方法、装置、AR设备、电子设备及介质。
背景技术
随着信息技术的发展,人们可通过电子设备获取到信息的方式也日新月异,人们可以通过电子设备查看信息来及时获取到所需的各种信息。例如在授课、演讲或者交流会议时可通过提词器、电脑或者手机等来查阅资料和了解其他人的信息来了解沟通对象的意图来进行发言。
而在一些大型会议或者演讲场景下,用户无法携带例如提词器、电脑、手机等比较显眼的电子设备查阅信息,但是由于与会人员众多并且环境嘈杂,用户若不借助电子设备的协助,甚至无法知晓是哪个人说了什么话,直接影响了用户之间沟通效率。
发明内容
有鉴于此,本申请实施例提出一种基于AR的信息显示方法、装置、电子设备及存储介质,用于尽可能解决现有技术中由于传统电子设备携带不变导致用户无法便捷地了解到与其沟通用户的信息和发言内容的问题。
本申请第一方面提供一种基于AR的信息显示方法,所述方法包括:
采集用户的语音信息和用户图像;
识别所述语音信息,提取用户特征;
在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
依据本申请第二方面,提供一种基于AR的信息显示装置,所述装置包括:
采集模块,被配置采集用户的语音信息和用户图像;
识别模块,被配置为识别所述语音信息,提取用户特征;
显示模块,被配置为在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
依据本申请第三方面,提供一种AR设备,所述AR设备包括:AR显示设备、音频采集模组、图像采集模组和处理器;
所述音频采集模组,被配置为采集用户的语音信息;
所述图像采集模组,被配置为采集用户的用户图像;
所述处理器,被配置为识别所述语音信息,提取用户特征;
所述显示设备,被配置为在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
依据本申请第四方面,提供一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述第一方面所述基于AR的信息显示方法。
依据本申请第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的基于AR的信息显示方法。
针对现有技术,本申请具备如下优点:
本申请提供的一种基于AR的信息显示方法、装置、AR设备、电子设备及介质,本方案在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种基于AR的信息显示方法的步骤流程图;
图2是本申请实施例提供的另一种基于AR的信息显示方法的步骤流程图;
图3是本申请实施例提供的一种AR设备的结构框图;
图4是本申请实施例提供的一种基于AR的信息显示装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整地传达给本领域的技术人员。
实施例一
图1是本申请实施例提供一种基于AR的信息显示方法的步骤流程图,所述方法包括:
步骤101,采集用户的语音信息和用户图像。
在本申请实施例中,用户的语音信息可以是利用音频采集设备所采集的用户说话的音频信息,用户图像可以是通过图像采集设备针对用户进行拍摄得到的图像或视频中所包含图像,可以是例如用户头像、衣着图像、全身照、半身照等,只要可以反映用户身份特征即可。该语音信息、用户图像均可以是对发言用户进行实时采集得到的,也可以是预先对发言用户进行采集后存储的,还可以是发言用户自行提供或者发言用户以外的其他用户提供的,具体可以根据实际需求确定,此处不做限定。
通过利用音频采集设备和图像采集设备对在用户发言时进行采集,可以获得反映用户身份的用户图像以及和反映用户发言内容的语音信息。
在实际应用中,本方案可以适用于演讲、授课、会议、辩论等存在用户当面交流的应用场景,从而在一用户在聆听另一用户发言时触发本方案中对于发言用户的语音信息和用户图像的采集过程。
步骤102,识别所述语音信息,提取用户特征。
在本申请实施例中,用户特征是语音信息中反映用户身份的特征信息,可以是由于语音信息转换成的语音文本中的例如姓名、住址、工作单位、职务、头衔、昵称等语义特征,也可以是语音信息中的语调特征等,具体可以根据实际需求设置用户特征的类型,此处不做限定。
通过用户的语音信息提取可以反映用户身份的用户特征,具体可以参照现有技术中的实现方式,此处不再赘述。
步骤103,在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
在本申请实施例中,AR(Augmented Reality,现实增强)显示设备是可以将虚拟信息与现实视觉信息相融合向用户展示的显示设备,例如AR眼镜、AR头盔等。与所述用户关联的目标信息可以是图像、姓名、工作单位、兴趣爱好、头衔等可以反映用户实际情况的用户信息,还可以是与该用户发言内容中所涉及的语音内容、翻译内容、扩展内容等相语音关联信息。
通过基于从语音信息中提取到的用户特征来确定语音信息是否是该用户图像中的用户发出的,例如可以根据语音信息中的用户特征匹配到的外貌特征来与用户图像进行比对来确定是否匹配,也可以根据语音信息中的用户特征来确定发言用户所需的嘴部动作,将该最嘴部动作与用户图像中的用户的嘴部动作进行比对来确定是否匹配等,当然也可以在语音采集设备和图像采集设备在针对同一用户采集时直接确定该用户图像和用户特征匹配,具体如何依据用户图像和语音信息中的用户特征来确定该语音信息是否是用户图像中的用户发出的方式可以根据实际需求确定,此处不做限定。
在实际应用中,在AR显示设备的佩戴者与发言用户交流时,通过对音频采集设备和图像采集设备分别采集该发言用户的语音信息和用户图像,在确定该语音信息是该用户图像中的用户发出后,将该用户图像中的用户确定为发言用户,从而在AR显示设备中显示该用户图像的对应显示位置显示用户信息和语音关联信息等,使得佩戴者可以通过AR显示设备了解到发言用户的详细情况和发言意图,从而协助佩戴者更好的与其他用户交流。
本申请实施例提供的一种基于AR的信息显示方法,在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。
实施例二
图2是本申请实施例提供的另一种基于AR的信息显示方法的步骤流程图,所述方法包括:
步骤201,采集用户的语音信息和用户图像。
该步骤可参照步骤101的详细描述,此处不再赘述。
步骤202,识别所述语音信息,提取用户特征。
该步骤可参照步骤102的详细描述,此处不再赘述。
步骤203,根据所述用户特征在预设用户库中查询标准用户图像。
在本申请实施例中,标准用户图像是作为参考依据的用户图像,该标准用户图像可以是通过高分辨率的图像采集设备在光照适宜的场景下针对用户进行拍摄得到的高质量图像,当然也可以是用户自行提供的证件照等,只要可以清楚反映用户的用户特征即可。预设用户库是预先通过建立用户的标准用户图像和用户特征之间的关联关系得到的数据库,以供后续查询使用。
可选地,在所述用户特征包括语义关键词特征时,所述预设用户库包括标准用户图像和身份关键词特征之间的对应关系,所述步骤203,可以包括:在预设用户库中查询目标身份关键词特征相对应的标准用户图像,所述目标身份关键词特征与所述语义关键词特征相匹配。
在本申请实施例中,可以对语音信息中内容进行分析转换问语音文本,从而从语音文本中提取出用于表达语音内容的语义关键词特征,中提取到的语义关键词特征在预设用户库中查询,可以从身份关键词特征中查询到与语义关键词特征相匹配的目标身份关键词特征,从而将该目标身份关键词对应的标准用户图像作为发出该语音信息的用户的标准用户图像,此处需要说明,匹配到的标准用户图像不一定仅存在一个,也可能两个或者多个,这是由于单个身份关键词特征所能反映的身份特征,可与一个或多个用户匹配,因此可能会出现匹配到多个标准用户图像的情况。
本申请实施例通过依据语音信息中的语义关键词特征从预设用户库中匹配标准用户图像以供后续识别用户语音中的用户特征是否与用户图像匹配,提高了用户语音与用户图像匹配的准确性。
可选地,在所述用户特征包括语调特征时,所述预设用户库包括标准用户图像和标准语调特征之间的对应关系。所述步骤203,可以包括:在预设用户库中查询目标标准语调特征相对应的标准用户图像,所述目标标准语调特征与所述语调特征相匹配。
在本申请实施例中,可以对语音信息中的声音纹理进行分析,从而提取到语音信息中的语调特征。预设用户库可以是预先对用户的声音进行采集分析得到用户的标准语调特征后用户标准用户图像进行关联存储。以在获取到用户的语音信息后从中提取发言用的语调特征与预设用户库中存储的标准语调特征进行匹配,将相匹配的目标标准语调特征对应的标准用户图像作为发出该语音信息的用户的标准用户图像,以供后续匹配使用。需要说明的是,由于所采集到的语音信息的质量不确定,因此在匹配目标语调特征时可以适当调节匹配度的方式保证每次可以匹配到结果,当然对于同一语音信息可能匹配到一个或多个目标语调特征,从而得到多个标准用户图像。
本申请实施例通过依据语音信息中的语调特征从预设用户库中匹配标准用户图像以供后续识别用户语音中的用户特征是否与用户图像匹配,提高了用户语音与用户图像匹配的准确性。
步骤204,在所述用户图像与所述标准用户图像匹配时,确认所述用户图像和所述用户特征匹配。
在本申请实施例中,用户图像和标准用户图像的匹配方式可以是基于模板匹配、基于奇异值特征、子控件分析或人工神经网络等图像匹配方法,只要可以准确分辨出与用户图像中所包含用户相同的标准用户图像即可,具体可以参照本领域的常规图像匹配方法,此处不再赘述。在用户的用户图像和标准用户图像匹配成功时,可以认定该语音信息是该用户图像中的用户发出的,从而确定用户图像与语音信息中的用户特征匹配。
本申请实施例通过基于预设用户库中存储的与语音信息中用户特征相关联的标准用户图像来辅助对用户图像和语音信息中的额用户特征进行匹配,从而提高了确定发出语音信息的用户所在用户图像的准确性。
步骤205,在所述用户图像和所述用户特征匹配时,识别所述语音信息,提取语义关键词。
步骤206,获取与所述语义关键词相关联的语音关联信息。
在本申请实施例中,语义关键词是可以反映实时语音信息中内容的关键词,可通过分析语音信息中的语义特征,并将所提取出语义特征所关联的关键词作为语义关键词,当然还可以通过指定特定关键词为语义关键词进行提取,具体可以根据实际需求确定,此处不做限定。
步骤207,通过AR显示设备在所述用户图像对应的显示位置显示所述语音关联信息。
在本申请实施例中,可以通过将语义关键词转换为提问信息、陈述信息等文本形式来作为语音关联信息,以使得用户可以通过AR设备清楚地了解到用户发言所要表达的内容。当然还可以通过将本地数据或异地数据中查询与语义关键词相关联的信息作为语音关联信息,以使得用户通过查看语音关联信息可以全面地了解发言用户的语义所涉及的信息,当然还可以通过其他方式来获取语音关键词所关联的语义关联信息,只要可以协助用户了解和答复实时语音信息即可,此处不做限定。
在本申请实施例中,可通过将语音关联信息的虚拟画面添加到发言用户的用户图像周围,以使得AR显示设备的佩戴者通过AR显示设备查看发言用户的语音信息所涉及的内容,例如在演讲场景下一般都有现场交流环节,观众用户可以针对演讲者进行提问,由于因为观众用户的口语或环境嘈杂等因素可能导致演讲者无法及时了解到提问观众用户的提问问题,此时演讲者可以通过佩戴AR显示设备来接收观众用户的语音信息,将对语音信息分析得到的语音关联信息在AR显示设备进行显示,使得演讲者可以及时且准确地了解到提问观众用户的问题,甚至是与问题相关的答复信息等。
本申请实施例通过分析语音信息中的语义关键词得到的语音关联信息通过AR显示设备进行显示以供用户查看,使得用户可以准确且全面地了解到实时语音信息所涉及的内容。
可选地,所述步骤207,可以包括:在预设多媒体内容中查询与所述语义关键词相关联的内容,作为语音关联信息。
在本申请实施例中,预设多媒体内容是指视频、音频、音视频等形式展示的内容,可以是在AR显示设备的佩戴者自行设置的,也可以是系统预先自动设置的,具体可以根据实际需求确定,此处不做限定。
在实际应用中,AR显示设备的佩戴者通常会针对预设多媒体内容与其他用户进行沟通,而在沟通过程中,其他用户的语音信息中将会涉及到预设多媒体内容中的特定内容,此时为了协助佩戴者可以及时查看到该特定内容,可以根据采集到的语音信息中的语义关键词在预设多媒体内容中进行查询,从而将查询到的多媒体内容作为语音关联信息通过AR显示设备进行显示。
示例性的,在演讲场景中,若与会的观众用户在提问后涉及到演讲PPT(PowerPoint,一种演示文稿软件)中的特定内容,可以通过分析针对观众用户采集到的语音信息中的语义关键词,例如:某章节、某页、某段、某行、某标题等与PPT内容关联的语义关键词在PPT中进行查询,将查询的PPT内容通过AR显示设备显示给佩戴者查看,从而使得佩戴用户可以及时查看到与观众用户提问内容相关的PPT内容,便于后续答复和沟通使用。
本申请实施例通过将预设多媒体内容中与语音信息中语义关键词相关联的内容作为语音关联信息,通过AR显示设备供用户查看,使得用户可以及时查看到交流内容所涉及的多媒体内容,提高了AR显示设备显示信息的灵活性。
可选地,所述步骤207,可以包括:根据所述语义关键词进行检索,将检索结果作为语音关联信息。
在本申请实施例中,在查询与语义关键词相关联的语音关联信息时,偶尔会出现本地数据无法查询到或者查询到的信息量过少无法满足实际需求的情况,此时可以根据从语音信息中提取到语义关键词在外部数据库或者特定网站中进行检索,将检索到的检索结果作为语音关联信息,以丰富语音关联信息的丰富度。
示例性的,在演讲场景下,偶尔某些观众用户会向演讲者提出一些与演讲者的演讲内容不相关等演讲者不了解的问题,此时可以根据语义信息在搜索网站、或者是指定数据库进行检索,将检索结果通过AR显示设备显示演讲者进行查看,使得演讲者可以准确地了解观众问题所涉及的内容后进行答复。
可见本申请实施例可以通过依据语义关键词进行检索,从而提高了所显示语音关联信息的丰富度。
步骤208,在所述用户图像和所述用户特征匹配时,在预设用户库中查询与所述标准用户图像相对应的用户信息,以通过AR显示设备在所述用户图像对应的显示位置显示所述用户信息,其中,所述用户信息包括:位置信息、姓名、公司、职务、兴趣点、照片、组织信息中的至少一种。
在本申请实施例中,预设用户库中预先存储有标准用户图像以及所对应的用户信息,从而可以在标准用户图像和用户图像匹配时,可以将标准用户图像相对应的用户信息通过AR显示设备进行显示,该用户信息包括但不限于用户的位置信息、姓名、公司、职位、兴趣点、照片以及组织信息等。通过将用户信息的虚拟图像显示在用户图像周围,使得用户可以通过AR设备及时且准确地查看到各用户的用户信息。
示例性的,在演讲场景下,由于周围声音嘈杂或者是与会人员较多,使得演讲者无法及时了解到发言观众用户的个人介绍以及所处位置,因此演讲者可以通过佩戴AR显示设备来采集观众用户的语音信息和用户图像,通过与预设用户库中的标准用户图像进行比对确定各用户图像所对应的用户信息,从而通过AR显示设备进行显示以供用户可以及时且准确地了解到各用户的用户信息。
本申请实施例通过AR显示设备显示在用户图像对应的显示位置中显示用户信息,使得佩戴者可以通过AR显示设备及时且便捷的了解到用户信息。
步骤209,接收客户端发送的提示信息。
在本申请实施例中,客户端是指与AR显示设备通信连接的客户端,该客户端可将指定信息发送给AR显示设备供佩戴用户查看。
步骤210,通过AR显示设备显示所述提示信息。
在本申请实施例中,AR显示设备的佩戴者以外的用户也可以通过向AR显示设备发送提示信息进行显示,以供佩戴者查看。
在实际应用中,例如在演讲场景下,若佩戴者在遇到忘词、或者与观众用户交流时遇到问题答复困难时、或者是场下工作人员想要告知演讲者特定事项等需要向演讲者提供场外协助的情形,可以通过客户端向AR显示设备发送提示信息进行显示,以使得演讲者可以及时获取到场外信息的协助,及时获取到场外协助。
本申请实施例通过将客户端发送的提示信息通过AR显示设备进行显示,使得AR佩戴者可以及时获取到其他用户通过客户端发送的提示信息,提高了通过AR显示设备显示信息的灵活性。
本申请实施例提供的另一种基于AR的信息显示方法,在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。并且还通过基于预设用户库中存储的与语音信息中语义关键词特征或语调特征相关联的标准用户图像来辅助对用户图像和语音信息中的额用户特征进行匹配,从而提高了确定发出语音信息的用户所在用户图像的准确性。并且还通过将预设多媒体内容或检索结果中与语音信息中语义关键词相关联的内容作为语音关联信息,通过AR显示设备供用户查看,使得用户可以及时查看到交流内容所涉及的多媒体内容,提高了AR显示设备显示信息的灵活性。并且还通过将客户端发送的提示信息通过AR显示设备进行显示,使得AR佩戴者可以及时获取到其他用户通过客户端发送的提示信息,提高了通过AR显示设备显示信息的灵活性。
实施例三
图3是本申请实施例提供的一种AR设备30的结构示意图,所述AR设备30包括:AR显示设备301、音频采集模组302、图像采集模组303和处理器304;
所述音频采集模组302,被配置为采集用户的语音信息;
所述图像采集模组303,被配置为采集用户的用户图像;
所述处理器304,被配置为识别所述语音信息,提取身份关键词;根据所述身份关键词在预设用户库中查询标准用户图像;
所述AR显示设备301,被配置为在所述用户图像和所述标准用户图像匹配时,通过AR显示设备显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
本申请实施例中的AR显示设备可以是有AR图像显示功能的AR眼镜、头盔等,音频采集模组可以是具有音频采集功能的麦克风等设备,图像采集模组可以是照相机、摄像机等具有图像采集功能的设备,处理器是具有数据传输、数据处理和数据存储等功能的手机、多媒体盒、平板电脑、个人电脑等设备。在实际应用中AR显示设备、音频采集模组和图像采集模组可以与处理器通信连接,从而处理器可以驱动AR显示设备、音频采集模组和图像采集模组进行工作。而音频采集模组和图像采集模组可以是搭载在AR显示设备上,从而在AR显示设备的佩戴者在与其他用户交流时,可以采集其他用户的语音信息和用户图像,当然该音频采集模组和图像采集设备还可以独立于AR显示设备进行设置,只要可以采集到AR显示设备的佩戴者交流的用户的语音信息和用户图像,此处不做限定。进一步的,处理器也可以搭载在AR显示设备上,从而可以实现AR显示设备独立于外部服务器的运行,还可以独立于AR显示设备进行设置在服务器中,通过局域网服务器或者广域网服务器与AR显示设备进行通信连接,AR显示设备可以通过账号密码等验证方式登录处理器所在服务器,从而实现从处理器获取AR显示图像。
本申请实施例提供的一种AR设备,在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。
实施例四
图4是本申请实施例提供了一种基于AR的信息显示装置40的结构框图,所述装置包括:
采集模块401,被配置采集用户的语音信息和用户图像;
识别模块402,被配置为识别所述语音信息,提取用户特征;
显示模块403,被配置为在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
可选地,所述识别模块402,还被配置为:
根据所述用户特征在预设用户库中查询标准用户图像;
在所述用户图像与所述标准用户图像匹配时,确认所述用户图像和所述用户特征匹配。
可选地,在所述用户特征包括语义关键词特征时,所述预设用户库包括标准用户图像和身份关键词特征之间的对应关系;
所述识别模块402,还被配置为:
在预设用户库中查询目标身份关键词特征相对应的标准用户图像,所述目标身份关键词特征与所述语义关键词特征相匹配。
可选地,在所述用户特征包括语调特征时,所述预设用户库包括标准用户图像和标准语调特征之间的对应关系;
所述识别模块402,还被配置为:
在预设用户库中查询目标标准语调特征相对应的标准用户图像,所述目标标准语调特征与所述语调特征相匹配。
可选地,在所述目标信息包括语音关联信息时,所述显示模块403,还被配置为:
识别所述语音信息,提取语义关键词;
获取与所述语义关键词相关联的语音关联信息;
通过AR显示设备在所述用户图像对应的显示位置显示所述语音关联信息。
可选地,所述显示模块403,还被配置为在预设多媒体内容中查询与所述语义关键词相关联的内容,作为语音关联信息。
可选地,所述显示模块403,还被配置为根据所述语义关键词进行检索,将检索结果作为语音关联信息。
可选地,在所述目标信息包括用户信息时,可选地,所述显示模块403,还被配置为在预设用户库中查询与所述标准用户图像相对应的用户信息,以通过AR显示设备在所述用户图像对应的显示位置显示所述用户信息,其中,所述用户信息包括:位置信息、姓名、公司、职务、兴趣点、照片、组织信息中的至少一种。
可选地,所述装置还包括:接收模块,被配置为:
接收客户端发送的提示信息;
通过AR显示设备显示所述提示信息。
本申请实施例提供的一种基于AR的信息显示装置,在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。
实施例五
本申请实施例提供了一种电子设备,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述任一所述的基于AR的信息显示方法。
本申请实施例提供的一种电子设备,在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。
实施例六
本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时能实现上述的基于AR的信息显示方法。
本申请的实施例提供一种计算机存储介质,在AR显示设备的佩戴者在与其他用户交流时,通过采集其他用户的语音信息和用户图像,在语音信息中的用户特征与用户图像匹配时,确定该语音信息是该用户图像中的用户发出,从而可以通过AR显示设备在该用户图像对应的显示位置显示该用户的用户信息和语音关联信息中的至少一种,使得AR显示设备的佩戴用户可以便捷地了解到发言用户的用户信息和发言意图后进行针对性答复,提高了用户沟通的效率。
本技术领域技术人员可以理解,本申请包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)的存储介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,该计算机存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM和磁光盘)、ROM(Read-OnlyMemory,只读存储器)、RAM(RandomAccess Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasable ProgrammableRead-OnlyMemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流程图中的每个框以及这些结构图和/或框图和/或流程图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其它可编程基于AR的信息显示方法的处理器来实现,从而通过计算机或其他可编程基于AR的信息显示方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于AR的信息显示方法,其特征在于,所述方法包括:
采集用户的语音信息和用户图像;
识别所述语音信息,提取用户特征;
在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息之前,所述方法还包括:
根据所述用户特征在预设用户库中查询标准用户图像;
在所述用户图像与所述标准用户图像匹配时,确认所述用户图像和所述用户特征匹配。
3.根据权利要求2所述的方法,其特征在于,在所述用户特征包括语义关键词特征时,所述预设用户库包括标准用户图像和身份关键词特征之间的对应关系;
所述根据所述用户特征在预设用户库中查询标准用户图像,包括:
在预设用户库中查询目标身份关键词特征相对应的标准用户图像,所述目标身份关键词特征与所述语义关键词特征相匹配。
4.根据权利要求2所述的方法,其特征在于,在所述用户特征包括语调特征时,所述预设用户库包括标准用户图像和标准语调特征之间的对应关系;
所述根据所述用户特征在预设用户库中查询标准用户图像,包括:
在预设用户库中查询目标标准语调特征相对应的标准用户图像,所述目标标准语调特征与所述语调特征相匹配。
5.根据权利要求1所述的方法,其特征在于,在所述目标信息包括语音关联信息时,所述通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,包括:
识别所述语音信息,提取语义关键词;
获取与所述语义关键词相关联的语音关联信息;
通过AR显示设备在所述用户图像对应的显示位置显示所述语音关联信息。
6.根据权利要求1所述的方法,其特征在于,在所述目标信息包括用户信息时,所述通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,包括:
在预设用户库中查询与所述标准用户图像相对应的用户信息,以通过AR显示设备在所述用户图像对应的显示位置显示所述用户信息,其中,所述用户信息包括:位置信息、姓名、公司、职务、兴趣点、照片、组织信息中的至少一种。
7.一种基于AR的信息显示装置,其特征在于,所述装置包括:
采集模块,被配置采集用户的语音信息和用户图像;
识别模块,被配置为识别所述语音信息,提取用户特征;
显示模块,被配置为在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
8.一种AR设备,其特征在于,所述AR设备包括:AR显示设备、音频采集模组、图像采集模组和处理器;
所述音频采集模组,被配置为采集用户的语音信息;
所述图像采集模组,被配置为采集用户的用户图像;
所述处理器,被配置为识别所述语音信息,提取用户特征;
所述显示设备,被配置为在所述用户图像和所述用户特征匹配时,通过AR显示设备在所述用户图像对应的显示位置显示与所述用户关联的目标信息,其中,所述目标信息包括:用户信息、语音关联信息中的至少一种。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的基于AR的信息显示方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一所述的基于AR的信息显示方法。
CN202011569071.5A 2020-12-25 2020-12-25 基于ar的信息显示方法、装置、ar设备、电子设备及介质 Pending CN112738499A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011569071.5A CN112738499A (zh) 2020-12-25 2020-12-25 基于ar的信息显示方法、装置、ar设备、电子设备及介质
US17/489,122 US11830154B2 (en) 2020-12-25 2021-09-29 AR-based information displaying method and device, AR apparatus, electronic device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011569071.5A CN112738499A (zh) 2020-12-25 2020-12-25 基于ar的信息显示方法、装置、ar设备、电子设备及介质

Publications (1)

Publication Number Publication Date
CN112738499A true CN112738499A (zh) 2021-04-30

Family

ID=75616780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011569071.5A Pending CN112738499A (zh) 2020-12-25 2020-12-25 基于ar的信息显示方法、装置、ar设备、电子设备及介质

Country Status (2)

Country Link
US (1) US11830154B2 (zh)
CN (1) CN112738499A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107758A1 (zh) * 2015-12-21 2017-06-29 大连新锐天地传媒有限公司 应用于图像或视频的ar显示系统及方法
CN107945806A (zh) * 2017-11-10 2018-04-20 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
CN109446876A (zh) * 2018-08-31 2019-03-08 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN111460418A (zh) * 2020-03-27 2020-07-28 深圳光启超材料技术有限公司 基于智能头盔的生物特征识别方法及智能头盔

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11397462B2 (en) * 2012-09-28 2022-07-26 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
US9030495B2 (en) * 2012-11-21 2015-05-12 Microsoft Technology Licensing, Llc Augmented reality help
AU2017328161B2 (en) * 2016-09-13 2022-02-17 Magic Leap, Inc. Sensory eyewear
CN111899003A (zh) * 2016-12-13 2020-11-06 创新先进技术有限公司 基于增强现实的虚拟对象分配方法及装置
US11620566B1 (en) * 2017-08-04 2023-04-04 Grammarly, Inc. Artificial intelligence communication assistance for improving the effectiveness of communications using reaction data
US10248981B1 (en) * 2018-04-10 2019-04-02 Prisma Systems Corporation Platform and acquisition system for generating and maintaining digital product visuals
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
US11200742B1 (en) * 2020-02-28 2021-12-14 United Services Automobile Association (Usaa) Augmented reality-based interactive customer support
US11393202B2 (en) * 2020-02-28 2022-07-19 CareAR Holdings LLC Augmented reality support platform
US11743417B2 (en) * 2021-01-30 2023-08-29 Zoom Video Communications, Inc. Composite video with live annotation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107758A1 (zh) * 2015-12-21 2017-06-29 大连新锐天地传媒有限公司 应用于图像或视频的ar显示系统及方法
CN107945806A (zh) * 2017-11-10 2018-04-20 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
US20190147889A1 (en) * 2017-11-10 2019-05-16 Beijing Xiaomi Mobile Software Co., Ltd. User identification method and apparatus based on acoustic features
CN109446876A (zh) * 2018-08-31 2019-03-08 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN111460418A (zh) * 2020-03-27 2020-07-28 深圳光启超材料技术有限公司 基于智能头盔的生物特征识别方法及智能头盔

Also Published As

Publication number Publication date
US20220207836A1 (en) 2022-06-30
US11830154B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
CN112037791B (zh) 会议纪要转录方法、设备和存储介质
CN112182197B (zh) 话术推荐方法、装置、设备及计算机可读介质
US20200280560A1 (en) Account information obtaining method, terminal, server and system
CN109361825A (zh) 会议纪要记录方法、终端及计算机存储介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN111818294A (zh) 结合音视频的多人会议实时展示的方法、介质和电子设备
CN107333090B (zh) 视频会议数据处理方法和平台
WO2020019591A1 (zh) 用于生成信息的方法和装置
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN112200697B (zh) 远程视频看房方法、装置、设备以及计算机存储介质
US20160329050A1 (en) Meeting assistant
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
CN112653902A (zh) 说话人识别方法、装置及电子设备
CN111599359A (zh) 人机交互方法、服务端、客户端及存储介质
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN111626061A (zh) 会议记录生成方法、装置、设备及可读存储介质
CN111063355A (zh) 会议记录的生成方法及记录终端
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
CN111275444A (zh) 基于合同签署的双录方法、装置、终端及存储介质
CN110196914A (zh) 一种将人脸信息录入数据库的方法和装置
CN109920436A (zh) 一种提供辅助服务的装置及方法
CN110427099A (zh) 信息记录方法、装置、系统、电子设备以及信息获取方法
CN115988164A (zh) 一种会议室多媒体控制方法、系统及计算机设备
CN111223487A (zh) 一种信息处理方法及电子设备
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430

RJ01 Rejection of invention patent application after publication