CN111597828A

CN111597828A - 翻译显示方法、装置、头戴显示设备及存储介质

Info

Publication number: CN111597828A
Application number: CN202010374184.3A
Authority: CN
Inventors: 杜鹏
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-28
Anticipated expiration: 2040-05-06
Also published as: CN111597828B

Abstract

本申请公开了一种翻译显示方法、装置、头戴显示设备及存储介质，该翻译显示方法应用于头戴显示设备，该翻译显示方法包括：采集与所述头戴显示设备进行对话的语音数据；如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本；将所述翻译文本叠加显示于所述现实场景中与对话对方对应的位置。本方法可以方便不同语言的用户之间的交流。

Description

翻译显示方法、装置、头戴显示设备及存储介质

技术领域

本申请涉及显示技术领域，更具体地，涉及一种头戴显示方法、装置、头戴显示设备及存储介质。

背景技术

在全球化迅速发展的今天，随着科技与经济的高速发展以及人们生活水平的提高，人们会存在与不同语言的对方进行沟通和交流的情况，例如出国旅游、与外国友人洽谈合作等。这些情况下都存在着语言不通的难点，虽然可以各种翻译产品进行翻译，但也存在不方便用户使用的问题。

发明内容

鉴于上述问题，本申请提出了一种翻译显示方法、装置、头戴显示设备及存储介质。

第一方面，本申请实施例提供了一种翻译显示方法，应用于头戴显示设备，所述方法包括：采集与所述头戴显示设备进行对话的语音数据；如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本；将所述翻译文本叠加显示于现实场景中与对话对方对应的位置。

第二方面，本申请实施例提供了一种翻译显示装置，应用于头戴显示设备，所述装置包括：语音获取模块、语音翻译模块以及文本显示模块，其中，所述语音获取模块用于采集与所述头戴显示设备进行对话的语音数据；所述语音翻译模块用于如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本；所述文本显示模块用于将所述翻译文本叠加显示于现实场景中与对话对方对应的位置。

第三方面，本申请实施例提供了一种头戴显示设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的翻译显示方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的翻译显示方法。

本申请提供的方案，通过采集与头戴显示设备进行对话的语音数据，如果语音数据对应的语言不是目标语言时，将语音数据翻译为目标语言的翻译文本，然后将翻译文本叠加于现实场景中与对话对方对应的位置，从而无需用户进行任何操作，即可完成语音数据的实时翻译，并且翻译文本叠加于现实场景中，方便用户查看，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的头戴显示设备的一种示意图。

图2示出了根据本申请一个实施例的翻译显示方法流程图。

图3示出了本申请一个实施例提供的一种显示效果示意图。

图4示出了根据本申请另一个实施例的翻译显示方法流程图。

图5示出了本申请另一个实施例提供的一种显示效果示意图。

图6示出了根据本申请又一个实施例的翻译显示方法流程图。

图7示出了本申请又一个实施例提供的翻译显示方法中步骤S310的一种流程图。

图8示出了本申请又一个实施例提供的翻译显示方法中步骤S310的另一种流程图。

图9示出了本申请又一个实施例提供的一种显示效果示意图。

图10示出了根据本申请再一个实施例的翻译显示方法流程图。

图11示出了本申请再一个实施例提供的一种显示效果示意图。

图12示出了根据本申请一个实施例的翻译显示装置的一种框图。

图13是本申请实施例的用于执行根据本申请实施例的翻译显示方法的头戴显示设备的框图。

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的翻译显示方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在日常生活或者工作中，经常存在人们面对面进行交流和沟通的情况。但是，当不同语言背景的两个人进行交流时，由于语言之间的隔阂，会造成较大的交流困难。

在目前对于不同语言背景的人们进行交流时，可以使用机器翻译来方便人们进行沟通过。例如，可以通过手机来对语音信号进行拾取，然后再翻译为用户可以理解的语言；又例如，可以通过手势的翻译机来对讲话对方的讲话内容进行翻译。

发明人经过长时间的研究发现，针对不同预言者之间的交流，利用手机、电脑端、专用的翻译机等进行翻译，都无法方便用户进行使用。例如，用户在进行翻译时，需要手持手机或者专用的翻译机，并对着对方进行语音采集，这样很容易给双方的交流造成不自然感觉。自然、无障碍的沟通应该是面对面的，不会被其他多余的步骤、设备所中断的交流。而利用目前的翻译方式，需要时不时的打断交流，注意力不能保持集中，同时极大地降低了交流的效率。另外，除了会打断交流过程，造成效率低等问题外，还不能解放双手，需要用户用手去操作，给用户带来过多操作。

针对上述问题，发明人提出了本申请实施例提供的翻译显示方法、装置、头戴显示设备以及存储介质，可以通过头戴显示设备采集对方的语音数据之后，将其翻译为目标语言的翻译文本，并将翻译文本叠加于现实场景中，无需用户进行任何操作，即可完成对话语音的实时翻译，并且翻译文本叠加于现实场景中，方便用户查看，提升了用户体验。其中，具体的翻译显示方法在后续的实施例中进行详细的说明。

下面先介绍本申请实施例中的头戴显示设备。其中，该头戴显示设备可以为AR眼镜，也可以为AR头盔等，在此不做限定。

如图1所示，图1示出了头戴显示设备的一种示意图。如图1所示，该头戴显示设备100包括显示屏110、框架120和成像装置130。

该框架120包括前表面121、侧表面122和后表面123，显示屏110安装在所述框架的前表面，成像装置130能够将虚拟对象的图像显示在显示屏110上。例如，该成像装置130可以是衍射光波导，能够将图像投影到显示屏上。

作为一种实施方式，该显示屏110可以是该AR眼镜的镜片，并且该显示屏110还可以透光，即该显示屏110可以是半透半反的镜片，用户在佩戴该头戴显示设备的时候，当该显示屏110上显示图像的时候，用户能够看到该显示屏110上所显示的图像同时还可以透过该显示屏110看到周围环境中现实世界中的物体。则通过该半透半反的镜片，用户能够将镜片上所显示的图像与周围环境相叠加，从而实现增强现实的视觉效果。

其中，用户在佩戴该头戴显示设备的时候，显示屏110位于用户的眼前，即前表面121在用户眼睛的前方，后表面123位于用户眼睛的后方，侧表面122位于用户眼睛的侧方。

另外，在前表面121设置有前置摄像头，通过该前置摄像头感知前方的环境信息，以便实现即时定位与地图构建(Simultaneous Localization and Mapping，SLAM)，进而实现增强现实或混合现实的视觉效果。

在另一些AR技术中，可以使用前置摄像头实现真实场景与虚拟对象的结合。具体地，可以在头戴显示设备的前表面的前置摄像头的视野方向与用户在佩戴该头戴显示设备时用户的视野方向一致，且该前置摄像头用于采集真实场景的图像，并且将所采集的真实场景的图像经过处理之后显示在用户眼前的显示屏上，具体地，可以是在真实场景的图像上叠加虚拟对象的图像，被用户看到，以使用户观察到增强现实的视觉效果。

在一些实施方式中，头戴显示设备100可以为一体式头戴显示设备，也可以是外接式/接入式头戴显示设备。头戴显示设备100为一体式头戴显示设备时，头戴显示设备可以包括处理器和存储器，用于进行数据的处理和存储。头戴显示设备100为外接式/接入式头戴显示设备时，与其连接的手机等智能终端，可作为头戴显示装置的处理和存储设备，插入或者接入外接式头戴显示装置，进行数据的存储和处理。

请参阅图2，图2示出了本申请一个实施例提供的翻译显示方法的流程示意图。在具体的实施例中，所述翻译显示方法应用于如图12所示的翻译显示装置400以及配置有所述翻译显示装置400的头戴显示设备100(图13)。下面将以头戴显示设备为例，说明本实施例的具体流程。下面将针对图2所示的流程进行详细的阐述，所述翻译显示方法具体可以包括以下步骤：

步骤S110：采集与所述头戴显示设备进行对话的语音数据。

在本申请实施例中，用户在使用头戴显示设备的情况下进行会话时，头戴显示设备可以在会话过程中采集与之进行对话的语音数据，即获取会话过程中与用户对话的对话对方的语音数据。头戴显示设备中可以设置有一个或多个麦克风等音频采集模块，麦克风可以用于采集会话过程中对话对方的语音数据。

在一些实施方式中，可以是在头戴显示设备开启的时候，即头戴显示设备的电源开启时，开启麦克风采集语音数据。

在另一些实施方式中，头戴显示设备也可以是在被用户穿戴的时候，开启麦克风采集语音数据。在该实施方式中，头戴显示设备上可以设置有检测装置。该检测装置检测到头戴显示设备被穿戴。例如，该检测装置可以是压力传感器，该压力传感器设置在头戴显示设备的第一指定表面，其中，用户穿戴头戴显示设备时，该第一指定表面与用户接触。则通过压力传感器检测到的压力值能够判断该第一指定界面是否被用户接触，如果被用户接触，则判定头戴显示设备被穿戴。另外，该检测装置还可以是测距传感器，该测距传感器设置在头戴显示设备的第二指定表面，用户在穿戴该头戴显示设备的时候，第二指定表面朝向用户，从而测距传感器能够检测到距离变化，进而能够判定头戴显示设备被穿戴。

在又一些实施方式中，头戴显示设备也可以通过在检测到用户的触发操作时，开启麦克风采集语音数据。在该实施方式中，用户可以通过指定的触发操作，来触发现实场景的会话过程中的语音数据的获取，以及后续的语音翻译、翻译文本的显示等过程。作为一种实施方式，头戴显示设备上可以设置有相应的按键，当该按键被触发时，头戴显示设备可以开启麦克风采集对话对方的语音数据。作为另一种实施方式，头戴显示设备上可以设置有采集使用者的面部图像以及采集现实场景中场景图像的图像采集模块，图像采集模块可以采集使用者的面部画像，并分析使用者的嘴部动作，还可以采集现实场景中的场景图像，根据场景图像确定现实场景中人物的嘴部动作；如果根据分析出的嘴部动作，确定出使用者和/或现实场景中的人物处于讲话状态时，则可以确定使用者处于会话过程，然后开启麦克风采集对话对方的语音数据。作为又一种实施方式，头戴显示设备也可以通过图像采集模块采集使用者的手势图像，根据手势图像，分析用户的手势，如果该手势为用于触发语音数据获取的预设手势时，头戴显示设备可以开启麦克风采集对话对方的语音数据。

在一些实施方式中，头戴显示设备对与其进行对话的语音数据进行采集时，可以通过定向拾音、音频分离等方式，获取与其进行对话的语音数据，具体获取与头戴显示设备进行对话的语音数据的方式可以不作为限定。

步骤S120：如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本。

在本申请实施例中，头戴显示设备在获取到语音数据之后，可以对语音数据对应的语言进行识别，也就是对对话对方的使用语言进行识别。具体的，可以根据语音数据，进行语言识别，从而获取到语音数据对应的语言。其中，语言识别是指对语言信号进行分析，根据语音单位(例如音素、音节或单词)的特征参数和语法规则，甚至包括语音之间文意的规律性加以逻辑判断来识别语言的过程。

在一些实施方式中，可以通过预先训练的语言识别模型，将语音数据输入该语言识别模型，从而获得语言识别模型输出的语言类型，进而确定出语音数据对应的语言。其中，该语言识别模型可以通过大量的训练样本，对神经网络等初始模型进行训练而得到，训练样本可以包括不同语言的语音以及每个语音对应的语言。

当然，具体识别语音数据对应的语言的方式可以不作为限定。

在本申请实施例中，头戴显示设备在确定出语音数据对应的语言之后，可以判断该语音数据对应的语言是否为目标语言。其中，目标语言可以为头戴显示设备的使用者所使用的语言，或者是使用者所需的翻译语言。目标语言可以预先通过用户的操作设置而获得，也可以根据识别使用者的语音对应的语言而获得，在此不做限定。例如，当语音数据对应的语言为英文，目标语言为中文时，则判断出语音数据对应的语言不为目标语言；又例如，当语音数据对应的语言为法语，目标语言为中文时，则判断出语音数据对应的语言不为目标语言。

在本申请实施例中，当头戴显示设备确定出语音数据对应的语言不为目标语言时，则可以将语音数据翻译为目标语言的翻译文本。例如，目标语言为中文时，则需要将语音数据翻译为中文的文本内容。作为一种方式，头戴显示设备中可以预先设置和安装有翻译软件程序，该翻译软件程序可以实现语音翻译为设置的语言的文本的功能，头戴显示设备可以利用设置和安装的翻译软件程序，将语音数据翻译为目标语言的翻译文本；作为另一种方式，头戴显示设备也可以连接互联网，对远程的服务器或者云端翻译平台进行访问，例如通过wifi、4G、5G等方式访问远程的服务器或云端翻译平台，然后获得语音数据翻译为目标语言之后的翻译文本。当然，具体将语音数据翻译为目标语言的翻译文本的方式可以不作为限定。

步骤S130：将所述翻译文本叠加显示于现实场景中与对话对方对应的位置。

在本申请实施例中，头戴显示设备在将语音数据翻译为目标语言的翻译文本之后，则可以将翻译文本于现实场景中，对应对话对方进行叠加显示，从而用户可以看到翻译文本叠加显示于现实场景中对话对方对应的位置，翻译文本与现实场景融合在一起，实现翻译文本的增强现实的显示效果。

在一些实施方式中，头戴显示设备可以预先获取场景图像，并进行现实场景的地图构建，根据构建的地图，建立起现实空间与虚拟空间的映射关系。头戴式设备可以根据对话对方在现实场景中的位置，确定翻译文本需要在现实场景中叠加显示的位置，然后将该位置转换为虚拟空间中的位置坐标，再根据该位置坐标，进行翻译文本的渲染，然后将翻译文本进行显示，从而实现将翻译文本叠加显示于现实场景中与对话对方对应的位置处。当然，翻译文本在现实场景中的具体叠加位置可以不作为限定。

例如，如图3所示，头戴显示设备100可以将翻译文本A1叠加显示于现实场景中与对话对方对应的位置，从而头戴显示设备100对应的用户同时观看到对话对方以及叠加显示于现实场景的翻译文本A1，方便用户在进行对话时，查看到翻译文本A1的内容，而不影响用户的对话。

本申请实施例提供的翻译显示方法，通过采集对话对方的语音数据，如果语音数据对应的语言不为目标语言时，将语音数据翻译为目标语言的翻译文本，然后将翻译文本叠加显示于现实场景与对话对方对应的位置，从而无需用户进行任何操作，即可完成语音数据的实时翻译，避免了传统的翻译方式会打断对话的问题。并且翻译文本叠加于现实场景中，实现翻译文本的增强现实的显示效果，可以方便用户查看，提升了用户体验。

请参阅图4，图4示出了本申请另一个实施例提供的翻译显示方法的流程示意图。该翻译显示方法应用于上述头戴显示设备，下面将针对图4所示的流程进行详细的阐述，所述翻译显示方法具体可以包括以下步骤：

步骤S210：采集与所述头戴显示设备进行对话的语音数据。

步骤S220：如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本。

在本申请实施例中，步骤S210以及步骤S220可以参阅前述实施例的内容，在此不再赘述。

步骤S230：获取现实场景中对话对方的第一空间位置。

在本申请实施例中，头戴显示设备在将翻译文本叠加于现实场景中与对话对方对应的位置时，可以获取现实场景中对话对方所在的第一空间位置。

在一些实施方式中，头戴显示设备可以通过即时定位与地图构建(SLAM，simultaneous localization and mapping)，来构建现实场景的地图，获取场景中的各个内容在现实场景中的空间位置，并构建出现实空间与虚拟空间的映射。其中，该空间位置可以为现实空间的空间坐标系中的位置。具体地，头戴显示设备可以通过摄像头逐步扫描现实场景，感知显示场景中的环境信息，从而完成地图构建。头戴显示设备根据构建的地图，可以获知对话对方在现实场景中的第一空间位置。

步骤S240：基于所述第一空间位置，确定所述翻译文本的叠加位置。

在本申请实施例中，头戴显示设备在获知对话对方在现实场景中的第一空间位置之后，可以基于第一空间位置，确定翻译文本需要叠加于现实场景中的叠加位置。

在一些实施方式中，头戴显示设备可以根据对话对方的第一空间位置，确定现实场景中处于通话对方附近的区域，作为翻译文本的叠加显示区域，并确定出该区域的空间位置。具体地，步骤S240可以包括：

基于所述第一空间位置，获取所述现实场景中邻近所述对话对方的目标区域；获取所述目标区域的第二空间位置，将所述第二空间位置作为所述翻译文本的叠加位置。

在该实施方式中，目标区域可以为邻近对话对方的区域中的任一区域，例如，可以为对话对方朝向上的区域，也可以为对话对方的两侧的区域，在此不做限定。通过将目标区域的叠加位置，确定为邻近对话对方的目标区域所在位置，可以使得后续将翻译文本进行显示后，用户能够查看到翻译文本叠加于对话对方的附近，实现用户与对话对方的对话过程中，不影响对话的情况下就能查看到翻译文本的内容。

作为一种可选的方式，头戴显示设备可以将叠加位置确定为邻近对话对方的区域中的头顶区域。具体地，头戴显示设备可以根据对话对方的第一空间位置，确定邻近对话对方的区域中处于对话对方头顶的区域。其中，该区域可以与对话对方的头顶间隔一定距离，间隔的距离可以小于指定距离，从而保证不影响用户对翻译文本的查看。通过该方式，可以实现后续将翻译文本叠加显示于对话对方的头顶区域，并且该区域邻近对话对方，方便用户查看翻译文本。例如，如图5所示，头戴显示设备100在将翻译文本A1叠加显示于现实场景之后，头戴显示设备100的使用者可以观看到翻译文本A1叠加显示于对话对方的头部上方的区域，不仅不影响使用者观察对话对方，也能方便使用者查看到翻译文本A1。

在另一些实施方式中，头戴显示设备也可以基于第一空间位置，确定出对话对方的上半身所在区域的空间位置，并将上半身所在区域的空间位置作为叠加位置。也就是说，翻译文本的叠加位置为对话对方的上半身的位置。后续头戴显示设备在将翻译文本叠加于显示场景之后，可以使用户看到翻译文本叠加于对话对方的上半身，在不影响与对话对方之间的对话的情况下，方便了用户查看翻译文本。

步骤S250：根据所述叠加位置，将所述翻译文本叠加显示于所述现实场景。

在本申请实施例中，头戴显示设备可以根据虚拟内容需要叠加到现实场景中的叠加位置，以及翻译文本，生成虚拟内容，然后将虚拟内容进行显示，实现将翻译文本叠加显示于现实场景中的该叠加位置。其中，头戴显示设备可以根据该叠加位置，以及现实空间中的空间坐标系与虚拟空间中的空间坐标系的转换关系，将叠加位置转换为虚拟空间的空间坐标系中的空间位置，也就获得了翻译文本在虚拟空间的空间坐标系中所需要显示的空间位置。再根据该空间位置以及翻译文本，进行渲染，从而生成了翻译文本对应的虚拟内容。

头戴显示设备在渲染翻译文本之后，可以获取翻译文本对应的虚拟内容的画面显示数据，该画面显示数据可以包括显示画面中各个像素点的RGB值以及对应的像素点坐标等，头戴显示设备可以根据画面显示数据生成虚拟画面，并将将生成的虚拟画面通过投射模组投射到显示镜片上，进而显示出翻译文本对应的虚拟内容，用户可以通过显示镜片，看到翻译文本对应的虚拟内容叠加显示于现实场景中的叠加位置处，实现增强现实的显示效果。

在一些实施方式中，头戴显示设备还可以根据现实场景中的场景内容的颜色，来确定翻译文本的显示颜色等，使翻译文本的颜色深度高于场景内容的颜色深度，从而突出翻译文本，便于用户查看翻译文本。例如，当叠加位置为对话对方的上半身的位置时，头戴显示设备可以获取对话对方的服装颜色，然后根据服装颜色来确定翻译文本的显示颜色，之后再进行翻译文本对应的虚拟内容的渲染。又例如，当叠加位置为对话对方的头部上方的位置时，头戴显示设备可以获取对话对方的头部上方的背后内容的颜色，然后根据背后内容的颜色确定翻译文本的显示颜色，之后再进行翻译文本对应的虚拟内容的渲染。

当然，头戴显示设备也还可以通过其他方式来突出显示翻译文本，使翻译文本能与现实场景中的内容有明显区别，从而方便用户的查看。

本申请实施例提供的翻译显示方法，通过采集与头戴显示设备对话的语音数据，如果语音数据对应的语言不为目标语言时，将语音数据翻译为目标语言的翻译文本，然后根据现实场景中对话对方的第一空间位置，确定翻译文本的叠加位置，最后根据叠加位置将翻译文本叠加显示于该现实场景。从而无需用户进行任何操作，即可完成语音数据的实时翻译，避免了传统的翻译方式会打断对话的问题。并且翻译文本叠加于现实场景中与对话对方相对应的位置，实现翻译文本的增强现实的显示效果，可以方便用户查看，提升了用户体验。

请参阅图6，图6示出了本申请又一个实施例提供的翻译显示方法的流程示意图。该翻译显示方法应用于上述头戴显示设备，下面将针对图6所示的流程进行详细的阐述，所述翻译显示方法具体可以包括以下步骤：

步骤S310：采集与所述头戴显示设备进行对话的语音数据。

在一些实施方式中，请参阅图7，头戴显示设备在现实场景的会话过程中获取对话对方的语音数据，可以包括：

步骤S311A：采集会话过程中的第一语音数据，并识别所述第一语音数据中的声纹特征。

在该实施方式中，头戴显示设备可以根据采集的第一语音数据，对第一语音数据中的声纹特征进行识别，并确定第一语音数据中包括一种声纹特征，还是多种不同的声纹特征。可以理解的，如果第一语音数据中包括有多种不同的声纹特征，则表示为当前采集的第一语音数据中包括多个人的语音内容，如果只有一种声纹特征，则表示当前采集的第一语音数据中包括一个人的语音内容。

步骤S312A：如果所述声纹特征包括一种声纹特征时，判断所述声纹特征是否与预设声纹特征匹配。

在该实施方式中，如果第一语音为单人语音时，表示第一语音中只有一个人的语音内容，该情况下，头戴显示设备可以获取该单人语音的第一语音特征。头戴显示设备可以提取第一语音中的语音特征，例如声纹特征等。具体的语音特征可以不作为限定。

步骤S313A：如果所述声纹特征与预设声纹特征不匹配时，将所述第一语音数据作为与所述头戴显示设备进行对话的语音数据。

在该实施方式中，预设声纹特征可以为头戴显示设备的使用者的声纹特征。第一语音数据中包括为一种声纹特征时，头戴显示设备可以将第一语音数据中的声纹特征与预设声纹特征进行匹配，如果两者不匹配时，可以表示第一语音数据不是该使用者的讲话内容，并且由于第一语音数据中包括一种声纹特征时，表示第一语音数据为单人的语音数据，则可以确定第一语音数据为对话对方的语音数据，因此可以将第一语音数据作为与头戴显示设备对话的对话对方的语音数据。其中，第一语音数据的声纹特征与预设声纹特征进行匹配，可以获得两者的匹配度，如果两者的匹配度低于指定匹配度，则表示第一语音数据中的声纹特征与预设声纹特征不匹配，如果两者的匹配度大于或等于指定匹配度，则表示第一语音数据中的声纹特征与预设声纹特征匹配。指定匹配度的具体数值可以不作为限定，例如可以为90％，也可以为95％等。

步骤S314A：如果所述声纹特征包括多种声纹特征时，根据所述预设语声纹特征，从所述第一语音数据中分离出除第二语音数据以外的其他语音数据，将所述其他语音数据作为与所述头戴显示设备进行对话的语音数据，其中，所述第二语音的语音特征与所述预设声纹特征匹配。

在该实施方式中，如果第一语音数据包括多种不同的声纹特征时，则表示第一语音数据中包括多个人的语音数据。该情况下，头戴显示设备可以确定第一语音数据中是否有预设声纹特征对应的语音数据，如果第一语音数据中有预设声纹特征对应的语音数据，则表示第一语音数据为头戴显示设备与对话对方共同说话时，所采集的语音数据，因此可以从第一语音数据中分离出声纹特征与所述预设声纹特征匹配的第二语音数据，以及除了第二语音以外的其他语音数据。而分离出的其他语音，即可作为与头戴显示设备对话的对话对方的语音数据。如果第一语音数据中没有预设声纹特征对应的语音数据，则表示第一语音数据为多个对话对方共同说话时，所采集的语音数据，该情况下，可以直接将第一语音数据作为对话对方的语音数据。通过确定语音为单人或者多人的语音数据，然后再根据不同的情况来获取语音数据，可以在对话场景中快捷的获取对话对方的讲话内容对应的语音数据。

在另一些实施方式中，头戴显示设备可以设置有第一图像采集模块以及第二图像采集模块，其中，第一图像采集模块可以用于采集现实场景的图像，第二图像采集模块可以用于采集使用者的面部图像。请参阅图8，头戴显示设备在现实场景的会话过程中获取对话对方的语音数据，可以包括：

步骤S311B：通过所述第一图像采集模块实时采集所述头戴显示设备对应的使用者的第一面部图像；

步骤S312B：通过所述第二图像采集模块用于采集对话对方的第二面部图像；

步骤S313B：当根据所述第一面部图像确定出所述使用者为第一状态，且根据所述第二面部图像确定出所述对话对方为第二状态时，采集现实场景的会话过程中的语音，作为与所述头戴显示设备对话的的语音数据，其中，所述第一状态为根据人物未讲话时的面部图像中的嘴部特征设置的状态，以及第二状态为根据人物讲话时的面部图像中的嘴部特征设置的状态。

在该实施方式中，头戴显示设备可以通过使用者的第一面部图像确定使用者的嘴部动作，以及对话对方的第二面部图像，确定对话对方的嘴部特征。然后根据使用者的嘴部特征来确定使用者处于第一状态或第二状态，根据对话对方的嘴部特征确定对话对方是否处于第一状态或第二状态。其中，第一面部图像以及第二面部图像可以为连续采集的多张图像，从而可以根据多张面部图像来确定用户的多个嘴部特征。如果使用者为第一状态，而对话对方为第二状态时，此时表示使用者与对话对方的对话中，仅有对话对方在进行讲话，此时通过麦克风采集语音，即可采集到对话对方的语音数据。

在以上实施方式中，由于头戴显示设备在使用者未讲话时，可能存在除使用者以外的多人进行讲话，此时头戴显示设备采集到的语音数据中还可能包括不是与头戴显示设备进行对话的语音数据，因此还可以进一步对与该使用者会话的对话对方进行确定，并分离出该对话对方的语音数据。作为一种实施方式，头戴显示设备可以在开始进行对话前预先录入该对话对方的语音数据，并提取语音特征(例如声纹特征等)，后续则头戴显示设备可以根据该语音特征，从而采集到的语音中分离出该对话对方的语音数据，并将之作为与头戴显示设备对话的语音数据。作为另一种实施方式，由于与头戴显示设备的使用者进行对话的用户通常距离头戴显示设备最近，因此，通常采集到的语音中该用户的语音内容的音量最大，因此，头戴显示设备可以根据音量的大小，分离部分音频内容，再根据该部分音频内容确定出使用者的语音特征(例如声纹特征等)，后续则头戴显示设备可以根据该语音特征，从而采集到的语音数据中分离出该对话对方的语音数据，并将之作为与头戴显示设备对话的语音数据。作为再一种实施方式，头戴显示设备可以采集正对视野范围内的深度图像，并根据深度图像，确定距离头戴显示设备最近的人像，再确定出该人像后，依据该人像的嘴部特征，监测到该人像对应的嘴部特征为嘴部张开时对应的嘴部特征，而其他人像的嘴部特征为嘴部未张开时对应的嘴部特征时，采集当前的语音数据，并根据当前的语音数据确定出使用者的语音特征(例如声纹特征等)，后续则头戴显示设备可以根据该语音特征，从而采集到的语音数据中分离出该对话对方的语音数据，并将之作为与头戴显示设备对话的语音数据。当然，具体确定与头戴显示设备进行对话的语音数据的方式可以不作为限定。

当然，本申请实施例提供的语音数据的获取方式也可以适用于其他实施例。

步骤S320：如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本。

在一些实施方式中，目标语言可以由头戴显示设备识别使用者的语音而获得。因此，在步骤S320之前，该翻译显示方法还可以包括：获取头戴显示设备对应的使用者的第三语音；对第三语音进行识别，获得第三语音对应的语言作为目标语言。通过该实施方式，可以自动的识别头戴显示设备的使用者的使用语言，从而后续可以将语音数据翻译为使用者的使用语言的翻译文本，方便使用者与对话对方之间的交流。

在另一些实施方式中，目标语言可以由用户的操作而进行设置。因此，在步骤S320之前，该翻译显示方法还可以包括：接收语言设置指令；根据语言设置指令，设置所述目标语言。通过该实施方式，可以实现根据用户实际的需求而设置目标语言，例如，用户的使用语言为中文，用户可以通过输入语音设置指令，将目标语言设置为中文；又例如，用户需求查看英文的翻译文本，用户则可以通过输入语音设置指令，将目标语言设置为英文。

当然，目标语言的设置方式并不局限于此，也可以通过其他方式设置。本申请实施例提供的目标语言的设置方式也可以适用于其他实施例。

步骤S330：根据所述翻译文本生成翻译文本框，所述翻译文本框中包括所述翻译文本对应的虚拟文字内容。

在本申请实施例中，头戴显示设备在将翻译文本于现实场景中，对应对话对方进行叠加显示时，可以根据翻译文本生成相应的虚拟内容，然后再将其叠加显示，在实现增强现实的显示效果。具体地，头戴显示设备可以根据翻译文本，生成翻译文本的文字内容所对应的虚拟文字内容，然后再根据虚拟文字内容，生成包括翻译文本框。

在一些实施方式中，头戴显示设备可以根据翻译文本，生成翻译文本的文字内容所对应的三维文字，然后再根据三维文字，并且生成三维文本框，再将三维文字添加于三维文本框，从而可以实现三维文字的立体显示效果。

步骤S340：将所述翻译文本框叠加显示于现实场景中与所述对话对方对应的位置。

在本申请实施例中，头戴显示设备将翻译文本框叠加显示于现实场景中与对话对方对应的位置时，可以根据对话对方对应的位置，以及现实空间与虚拟空间之间的映射关系，确定虚拟空间中相应的空间位置，再根据该空间位置，以及翻译文本框的内容数据，对翻译文本框进行渲染，之后再将翻译文本框通过头戴显示装置的成像装置进行显示。从而可以实现将翻译文本框叠加显示于现实场景中与对话对方对应的位置处，使用户能看到增强现实的显示效果，并且由于翻译文本框为三维的，也提升了虚拟文本框的真实感。

在一些实施方式中，头戴显示设备在将翻译文本于现实场景中，对应对话对方进行叠加显示时，还可以生成相应的提示内容，以提示翻译文本的显示位置。例如，请参阅图9，头戴显示设备100在将翻译文本A1叠加显示于对话对方头部上方的位置时，还可以生成虚拟的气泡A2叠加于对话对方的头部至翻译文本A1之间的区域中，从而可以进一步的提升翻译文本A1的显示效果。

在一些实施方式中，如果在对话场景中包括多个对话对方时，头戴显示设备还可以利用声纹识别，识别语音数据对应的对话对方，并且在将翻译文本进行显示时，在翻译文本处显示标注内容，标注内容可以为对话对方的身份信息，从而可以方便用户区分不同对话对方的翻译文本。

在另一些实施方式中，如果在对话场景中包括多个对话对方时。头戴显示设备可以利用声纹识别，识别语音数据对应的对话对方，并将各个对话对方的语音数据对应的翻译文本叠加显示于与该对话对方邻近的位置，从而可以使得每个对话对方的翻译文本都处于其邻近的位置，可以方便用户区分和查看不同对话对方的翻译文本。

本申请实施例提供的翻译显示方法，通过在现实场景的会话过程中获取对话对方的语音数据，如果语音数据对应的语言不为目标语言时，将语音数据翻译为目标语言的翻译文本，然后根据翻译文本生成三维的翻译文本框，该翻译文本框中包括翻译文本对应的三维文字，最后将翻译文本框叠加显示于现实场景中与对话对方对应的位置。从而无需用户进行任何操作，即可完成语音数据的实时翻译，避免了传统的翻译方式会打断对话的问题。另外，可以实现将翻译文本框叠加显示于现实场景中与对话对方对应的位置处，使用户能看到增强现实的显示效果，并且由于翻译文本框为三维的，也提升了虚拟文本框的真实感，提升了用户体验。

请参阅图10，图10示出了本申请再一个实施例提供的翻译显示方法的流程示意图。该翻译显示方法应用于上述头戴显示设备，下面将针对图10所示的流程进行详细的阐述，所述翻译显示方法具体可以包括以下步骤：

步骤S410：采集与所述头戴显示设备进行对话的语音数据。

步骤S420：如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本。

步骤S430：将所述翻译文本叠加显示于所述现实场景中与对话对方对应的位置。

在本申请实施例中，步骤S410至步骤S420可以参阅前述实施例的内容，在此不再赘述。

步骤S440：获取所述翻译文本中的关键词。

用户在进行交流时，可能还会存在需要对于一些讲话内容的识别需求。而目前，对于用户的这种需求，用户只能通过收索引擎来实现，即用户将想要知道的关键词手动输入(包括语音输入)等方式输入到手机上(或者电脑)，然后可以查找到相关的信息。但是，这样的话，必须在交流一段时间后，停下来进行检索，或者是打断别人的讲话，停下来进行搜索，这样非常不方便。

因此，在本申请实施例中，头戴显示装置还可以获取翻译文本中的关键词，以便后续对关键词进行识别，将识别结果进行显示。其中，头戴显示设备可以通过对翻译文本进行分词，然后再进行关键词的提取。具体的关键词的提取方式可以不作为限定。

在一些实施方式中，头戴显示设备可以在获取到触发对关键词的识别的指令时，进行关键词的获取，以及后续关键词的识别，识别结果的显示等过程。作为一种方式，头戴显示设备可以获取使用者的眼部图像，根据所述眼部图像，确定用户的眼部动作，如果用户的眼部动作为预设动作时，执行获取翻译文本中的关键词。其中，预设动作可以不作为限定，例如可以为眨眼动作，也可以为挤眼动作等。作为另一种方式，可以获取头戴式显示设备的晃动参数，如果晃动参数满足预设参数条件，则确定检测到用户输入的控制触发指令，如果晃动参数不满足预设参数条件，则确定未检测到用户输入的控制触发指令。其中，晃动参数可以根据头戴显示装置检测的姿态获得，晃动参数可以包括晃动的方向、频率、幅度等。预设参数条件可以包括：晃动方向为指定方向、晃动频率大于指定频率以及晃动幅度大于指定幅度中的至少一种，也就是说，可以为以上三种条件中的任意一个，也可以为任意两个条件的组合，也可以为以上三个条件的组合。当然，具体触发对关键词进行识别的过程的方式可以不作为限定。

步骤S450：识别所述关键词，获得内容识别结果。

在本申请实施例中，头戴显示设备可以根据关键词，对关键词进行识别，获得内容识别结果。作为一种方式，头戴显示设备可以设置有相关的信息库，头戴显示设备可以根据从信息库中检索与关键词相关的信息，并将检索到的信息作为内容识别结果；作为另一种方式，头戴显示设备可以通过网络访问互联网搜索引擎，从而可以从互联网搜索引擎，获得关于关键词的信息，并将获得的信息作为内容识别结果。当然，头戴显示设备识别关键词的具体方式可以不作为限定。

在一些实施方式中，头戴显示设备在对关键词进行识别时，还可以将关键词叠加显示于现实场景后，根据用户的操作来选择部分关键词进行识别。作为一种方式，识别关键词，获得内容识别结果，可以包括：采集所述现实场景中指定区域的图像；识别所述图像中包含的手势信息；根据所述手势信息，选取所述关键词中的目标关键词；识别目标关键词，获得内容识别结果。其中，指定区域可以为预先设置的用于手势选取关键词的区域，也就是说用户可以在该指定区域做出手势来进行关键词的选取。头戴显示设备通过采集该指定区域的图像后，对该图像中的手势信息进行识别，可获得该图像中包含的手势信息，也就是用户做出的手势对应的手势信息。

在该实施方式中，不同的手势可以对应选取不同数量的关键词，也可以对应选取不同位置处的关键词，并且不同的手势还可以进行组合，从而完成不同关键词的选取。例如，使用者的手势为“比划的2”的手势，则可以选取前两个关键词进行识别；又例如，使用者的手势包括比划的不同数字的多个手势，则可以根据关键词的顺序，按照比划的数字，依次选取与数字相对应的位置的关键词。当然，具体根据手势选取关键词的方式可以不作为限定。通过利用手势来选取关键词进行识别的方式，不仅可以不影响用户的正常对话，也满足了用户对于需求的关键词的识别需求。

在一些实施方式中，也还可以通过其他方式来选取关键词中的部分关键词进行识别，例如，可以检测用户的注视方向，根据注视方向来选取关键词等。

步骤S460：将所述内容识别结果叠加显示于所述现实场景。

在本申请实施例中，头戴显示设备在获得内容识别结果之后，则可以将内容识别结果叠加显示于现实场景中。具体地，头戴显示设备可以将内容识别结果叠加显示于现实场景中与所话对方对应的位置。具体将内容识别结果叠加显示于与所话对方对应的位置的方式，可以参阅前述实施例中将翻译文本进行叠加显示的方式，在此不再赘述。

例如，请参阅图11，头戴显示设备100可以将翻译文本A1以及内容识别结果A3共同显示，从而头戴显示设备100对应的使用者可以观察到翻译文本A1以及内容识别结果A3叠加于现实场景中与对话对方对应的位置，用户不仅能查看翻译文本A1，还能够查看关键词的内容识别结果A3，各方面的满足了用户在对话中的需求，提升了用户体验。

在本申请实施例中，头戴显示设备还可以将对话过程中获得的所有翻译文本进行存储，从而方便使用者后续有需求时，进行处理编辑或者查看。

本申请实施例提供的翻译显示装置，通过在现实场景的会话过程中获取对话对方的语音数据，如果语音数据对应的语言不为目标语言时，将语音数据翻译为目标语言的翻译文本，然后将翻译文本于现实场景中，对应对话对方进行叠加显示，从而无需用户进行任何操作，即可完成语音数据的实时翻译，避免了传统的翻译方式会打断对话的问题。并且翻译文本叠加于现实场景中，实现翻译文本的增强现实的显示效果，可以方便用户查看，提升了用户体验。另外，头戴显示装置还对翻译文本中的关键词进行识别，并将识别结果进行显示，也满足了用户对于关键词的识别需求。

请参阅图12，其示出了本申请实施例提供的一种翻译显示装置400的结构框图。该翻译显示装置400应用上述的头戴显示设备，该翻译显示装置400包括：语音获取模块410、语音翻译模块420以及文本显示模块430。其中，所述语音获取模块410用于采集与所述头戴显示设备进行对话的语音数据；所述语音翻译模块420用于如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本；所述文本显示模块430用于将所述翻译文本叠加显示于所述现实场景中与对话对方对应的位置。

在一些实施方式中，文本显示模块430可以包括：第一位置获取单元、第二位置获取单元以及叠加显示单元。其中，所述第一位置获取单元用于获取现实场景中对话对方的第一空间位置；所述第二位置获取单元用于基于所述第一空间位置，确定所述翻译文本的叠加位置；所述叠加显示单元用于根据所述叠加位置，将所述翻译文本叠加显示于所述现实场景。

在该实施方式中，第二位置获取单元可以包括：区域获取子单元以及位置确定子单元。其中，区域获取子单元用于基于所述第一空间位置，获取所述现实场景中邻近所述对话对方的目标区域；位置获取子单元用于获取所述目标区域的第二空间位置，将所述第二空间位置作为所述翻译文本的叠加位置。

在一些实施方式中，文本显示模块430可以包括：文本框生成单元以及文本框叠加单元。文本框生成单元用于根据所述翻译文本生成翻译文本框，所述翻译文本框中包括所述翻译文本对应的虚拟文字内容；文本框叠加单元用于将所述翻译文本框叠加显示于所述现实场景中与所述对话对方对应的位置。

在一些实施方式中，该翻译显示装置400还可以包括：关键词获取模块、内容识别模块以及识别内容显示模块。其中，关键词获取模块用于在将所述语音数据翻译为所述目标语言的翻译文本之后，获取所述翻译文本中的关键词；内容识别模块用于识别所述关键词，获得内容识别结果；识别内容显示模块用于将所述内容识别结果叠加显示于所述现实场景。

在该实施方式中，内容识别模块可以包括：图像获取单元、手势获取单元、关键词选取单元以及关键词识别单元。图像获取单元用于采集所述现实场景中指定区域的图像；手势获取单元用于识别所述图像中包含的手势信息；关键词选取单元用于根据所述手势信息，选取所述关键词中的目标关键词；关键词识别单元用于识别所述目标关键词，获得内容识别结果。

在一些实施方式中，语音获取模块410可以包括：第一语音采集单元、特征匹配单元以及语音确定单元。第一语音采集单元用于采集会话过程中的第一语音数据，并识别所述第一语音数据中的声纹特征；特征匹配单元用于如果所述声纹特征包括一种声纹特征时，判断所述声纹特征是否与预设声纹特征匹配；语音确定单元用于如果所述声纹特征与预设声纹特征不匹配时，将所述第一语音数据作为与所述头戴显示设备进行对话的语音数据。

在该实施方式中，语音获取模块410还可以包括：语音分离单元。语音分离单元用于如果所述声纹特征包括多种声纹特征时，根据所述预设声纹特征，从所述第一语音数据中分离出除第二语音数据以外的其他语音数据，将所述其他语音数据作为与所述头戴显示设备进行对话的语音数据，其中，所述第二语音的声纹特征与所述预设声纹特征匹配。

在另一些实施方式中，语音获取模块410可以包括：第一图像获取单元、第二图像获取单元以及第二语音采集单元。第一图像获取单元用于通过所述第一图像采集模块实时采集所述头戴显示设备对应的使用者的第一面部图像；第二图像获取单元用于通过所述第二图像采集模块用于采集对话对方的第二面部图像；第二语音采集单元用于当根据所述第一面部图像确定出所述使用者为第一状态，且根据所述第二面部图像确定出所述对话对方为第二状态时，采集会话过程中的语音，作为与所述头戴显示设备进行对话的语音数据，其中，所述第一状态为根据人物未讲话时的面部图像中的嘴部特征设置的状态，以及第二状态为根据人物讲话时的面部图像中的嘴部特征设置的状态。

在一些实施方式中，该翻译显示装置400还可以包括：使用者语音获取模块以及语言识别模块。使用者语音获取模块用于在如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本之前，获取所述头戴显示设备对应的使用者的第三语音；语言识别模块用于对所述第三语音进行识别，获得所述第三语音对应的语言作为所述目标语言。

在另一些实施方式中，该翻译显示装置400还可以包括：指令接收模块以及语言设置模块。指令接收模块用于在如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本之前，接收语言设置指令；语言设置模块用于根据所述语言设置指令，设置所述目标语言。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，通过采集与头戴显示设备进行对话的语音数据，如果语音数据对应的语言不是目标语言时，将语音数据翻译为目标语言的翻译文本，然后将翻译文本叠加显示于现实场景中与对话对方对应的位置，从而无需用户进行任何操作，即可完成语音数据的实时翻译，并且翻译文本叠加于现实场景中，方便用户查看，提升了用户体验。

请参考图13，其示出了本申请实施例提供的一种头戴显示设备的结构框图。该头戴显示设备100可以是AR眼镜、AR头盔等能够运行应用程序的电子设备。本申请中的头戴显示设备100可以包括一个或多个如下部件：处理器101以及存储器102，存储器102中可存储有一个或多个计算机程序，计算机程序可被配置为由一个或多个处理器101执行，以用于执行如前述方法实施例所描述的方法。

处理器101可以包括一个或者多个处理核。处理器101利用各种接口和线路连接整个头戴显示设备100内的各个部分，通过运行或执行存储在存储器320内的指令、程序、代码集或指令集，以及调用存储在存储器102内的数据，执行头戴显示设备100的各种功能和处理数据。可选地，处理器101可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器101可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器101中，单独通过一块通信芯片进行实现。

存储器102可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储头戴显示设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种翻译显示方法，其特征在于，应用于头戴显示设备，所述方法包括：

采集与所述头戴显示设备进行对话的语音数据；

如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本；

将所述翻译文本叠加显示于现实场景中与对话对方对应的位置。

2.根据权利要求1所述的方法，其特征在于，所述将所述翻译文本叠加显示于现实场景中与对话对方对应的位置，包括：

获取现实场景中对话对方的第一空间位置；

基于所述第一空间位置，确定所述翻译文本的叠加位置；

根据所述叠加位置，将所述翻译文本叠加显示于所述现实场景。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一空间位置，确定所述翻译文本的叠加位置，包括：

基于所述第一空间位置，获取所述现实场景中邻近所述对话对方的目标区域；

获取所述目标区域的第二空间位置，将所述第二空间位置作为所述翻译文本的叠加位置。

4.根据权利要求1所述的方法，其特征在于，所述将所述翻译文本叠加显示于现实场景中与对话对方对应的位置，包括：

根据所述翻译文本生成翻译文本框，所述翻译文本框中包括所述翻译文本对应的虚拟文字内容；

将所述翻译文本框叠加显示于现实场景中与所述对话对方对应的位置。

5.根据权利要求1所述的方法，其特征在于，在将所述语音数据翻译为所述目标语言的翻译文本之后，所述方法还包括：

获取所述翻译文本中的关键词；

识别所述关键词，获得内容识别结果；

将所述内容识别结果叠加显示于所述现实场景。

6.根据权利要求5所述的方法，其特征在于，所述识别所述关键词，获得内容识别结果，包括：

采集所述现实场景中指定区域的图像；

识别所述图像中包含的手势信息；

根据所述手势信息，选取所述关键词中的目标关键词；

识别所述目标关键词，获得内容识别结果。

7.根据权利要求1所述的方法，其特征在于，所述采集与所述头戴显示设备进行对话的语音数据，包括：

采集会话过程中的第一语音数据，并识别所述第一语音数据中的声纹特征；

如果所述声纹特征包括一种声纹特征时，判断所述声纹特征是否与预设声纹特征匹配；

如果所述声纹特征与预设声纹特征不匹配时，将所述第一语音数据作为与所述头戴显示设备进行对话的语音数据。

8.根据权利要求7所述的方法，其特征在于，所述采集与所述头戴显示设备进行对话的语音数据，还包括：

如果所述声纹特征包括多种声纹特征时，根据所述预设声纹特征，从所述第一语音数据中分离出除第二语音数据以外的其他语音数据，将所述其他语音数据作为与所述头戴显示设备进行对话的语音数据，其中，所述第二语音的声纹特征与所述预设声纹特征匹配。

9.根据权利要求1所述的方法，其特征在于，所述头戴显示设备包括第一图像采集模块以及第二图像采集模块，所述采集与所述头戴显示设备进行对话的语音数据，包括：

通过所述第一图像采集模块实时采集所述头戴显示设备对应的使用者的第一面部图像；

通过所述第二图像采集模块用于采集对话对方的第二面部图像；

当根据所述第一面部图像确定出所述使用者为第一状态，且根据所述第二面部图像确定出所述对话对方为第二状态时，采集会话过程中的语音，作为与所述头戴显示设备进行对话的语音数据，其中，所述第一状态为根据人物未讲话时的面部图像中的嘴部特征设置的状态，以及第二状态为根据人物讲话时的面部图像中的嘴部特征设置的状态。

10.根据权利要求1-9任一项所述的方法，其特征在于，在如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本之前，所述方法还包括：

获取所述头戴显示设备对应的使用者的第三语音；

对所述第三语音进行识别，获得所述第三语音对应的语言作为所述目标语言。

11.根据权利要求1-9任一项所述的方法，其特征在于，在如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本之前，所述方法还包括：

接收语言设置指令；

根据所述语言设置指令，设置所述目标语言。

12.一种翻译显示装置，其特征在于，应用于头戴显示设备，所述装置包括：语音获取模块、语音翻译模块以及文本显示模块，其中，

所述语音获取模块用于采集与所述头戴显示设备进行对话的语音数据；

所述语音翻译模块用于如果所述语音数据对应的语言不是目标语言时，将所述语音数据翻译为所述目标语言的翻译文本；

所述文本显示模块用于将所述翻译文本叠加显示于现实场景中与对话对方对应的位置。

13.一种头戴显示设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-11任一项所述的方法。

14.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。