CN112329485A

CN112329485A - 翻译方法、装置、系统及存储介质

Info

Publication number: CN112329485A
Application number: CN202011322613.9A
Authority: CN
Inventors: 丁丽
Original assignee: Shenzhen Yun Translation Technology Co ltd
Current assignee: Shenzhen Yun Translation Technology Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-05

Abstract

本申请涉及一种翻译方法、装置、系统及存储介质，该方法包括：获取第一待翻译内容和/或获取第二待翻译内容，翻译第一待翻译内容得到对应的第一目标语言文字，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字和/或翻译第二待翻译内容得到对应的目标音频，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。通过本申请能够快速对图像或视频或音频中不同语种的文字或音频进行翻译。解决了使用者的语种障碍，提升了用户体验。丰富了AR设备的功能。

Description

翻译方法、装置、系统及存储介质

技术领域

本申请涉及AR增强现实技术领域，尤其涉及一种翻译方法、装置、系统及存储介质。

背景技术

作为第三代智慧终端产品的AR(Augmented Reality，增强现实)智能眼镜(借助计算机图形技术和可视化技术产生物理世界中不存在的虚拟对象,并将虚拟对象准确“放置”在物理世界中,呈现给用户一个感知效果更丰富的新环境。一句话概括，AR即通过技术手段在现实中实现“幻觉”。)自2015年微软公司推出全球第一款头戴式AR眼镜以来，全球各大AR眼镜厂家皆以面向B端的应用需求为研发方向，主要满足如军工行业枪瞄、安防行业热成像、公众安全行业人脸识别、汽车、医疗、工业等行业的3D远程指导为主的应用场景。

现有技术中，AR设备(如AR眼镜)的使用过程中，无法便捷为用户提供视频、图像或音频中不熟悉语种的文字或语音的识别和翻译。给用户带来了较大的语言困扰。

发明内容

为了解决上述现有技术中由于语种障碍给用户带来极大困扰的技术问题，本申请实施例提供了一种翻译方法、装置、系统及存储介质。

第一方面，本申请实施例提供了一种翻译方法，应用于翻译系统，翻译系统包括AR设备，该方法包括：

获取第一待翻译内容和/或获取第二待翻译内容，第一待翻译内容为图像或视频，第二待翻译内容为音频；

若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，

通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字；

若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，

通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者；

若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，和，翻译第二待翻译内容得到对应的目标音频，

通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

可选地，翻译第一待翻译内容得到对应的第一目标语言文字，包括：

提取第一待翻译内容中待翻译的原始文字信息，原始文字信息包括原始文字和原始文字在第一待翻译内容中的位置，

将原始文字翻译成第一目标语言文字；

通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，包括：

根据原始文字在第一待翻译内容中的位置，确定对应的第一目标语言文字在第一待翻译内容中的第一目标位置，

根据第一目标语言文字在第一待翻译内容中的第一目标位置，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字。

可选地，若第一待翻译内容为视频，则在提取第一待翻译内容中待翻译的原始文字信息之前，方法还包括：对视频进行分帧处理，得到包含多张图像的第一待翻译内容；

提取第一待翻译内容中待翻译的原始文字信息，包括：

对每张图像进行版面分析，以检测出每张图像的文字区域，获取各个文字区域在对应图像中的位置，

对每个文字区域中的文字进行识别得到原始文字。

可选地，对每个文字区域中的文字进行识别得到原始文字，包括：

采用OCR文字识别技术对每个文字区域中的文字进行识别，得到待翻译的原始文字。

可选地，翻译第二待翻译内容得到对应的目标音频，包括：

将第二待翻译内容由待翻译音频转换为待翻译文本；

将待翻译文本翻译成第二目标语言文字；

将第二目标语言文字转换为相同语种的目标音频。

可选地，该方法还包括：

通过AR设备上的AR显示屏同步显示第二待翻译内容和对应的第二目标语言文字。

可选地，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，包括：

将第一目标语言文字回填至第一待翻译内容的第一目标位置，得到翻译后的第一待翻译内容；

通过AR设备上的AR显示屏显示翻译后的第一待翻译内容。

第二方面，本申请实施例提供了一种翻译装置，该装置包括：

第一获取模块，用于获取第一待翻译内容，第一待翻译内容为图像或视频；

第二获取模块，用于获取第二待翻译内容，第二待翻译内容为音频；

第一翻译模块，用于翻译第一待翻译内容得到对应的第一目标语言文字；

显示模块，用于通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字；

第二翻译模块，用于翻译第二待翻译内容得到对应的目标音频；

反馈模块，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

第三方面，本申请实施例提供了一种翻译系统，该翻译系统包括AR设备和服务器；

AR设备，用于获取第一待翻译内容和/或第二待翻译内容；

服务器，用于若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，

若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字和翻译第二待翻译内容得到对应的目标音频；

AR设备，还用于若获取第一待翻译内容，则通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，

若获取第二待翻译内容，则通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者，

若获取第一待翻译内容和第二待翻译内容，则通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如前面所述任一项的方法的步骤。

第五方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时执行如前面所述任一项方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

通过本申请实施例，获取第一待翻译内容和/或获取第二待翻译内容，第一待翻译内容为图像或视频，第二待翻译内容为音频；若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字；若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者；若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，和，翻译第二待翻译内容得到对应的目标音频，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。通过本申请能够快速对图像或视频或音频中不同语种的文字或音频进行翻译。解决了使用者的语种障碍。且本申请丰富了AR设备例如AR眼镜的功能，使得AR眼镜具备

翻译图像、视频和音频的功能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一翻译方法的应用场景图；

图2为本申请一实施例提供的一翻译方法的流程示意图；

图3为本申请一实施例提供的一第一待翻译内容的翻译显示流程示意图；

图4为本申请一实施例提供的一第二待翻译内容的翻译反馈流程示意图；

图5为本申请一实施例提供的一翻译装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的一翻译方法的应用场景图。参考图1，该翻译方法应用于翻译系统或AR翻译系统。该AR翻译系统包括AR设备10和服务器20。AR设备10和服务器20通过网络通信。该翻译方法由AR设备10和服务器20协作完成。

具体地，AR设备10用于获取第一待翻译内容和/或第二待翻译内容，第一待翻译内容为图像和/或视频，第二待翻译内容为音频。

服务器20，用于若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字和翻译第二待翻译内容得到对应的目标音频。

AR设备，还用于若获取第一待翻译内容，则通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，若获取第二待翻译内容，则通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者，若获取第一待翻译内容和第二待翻译内容，则通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

在一个实施例中，翻译第一待翻译内容和/或第二待翻译内容也可以由AR设备和服务器20协作完成。AR设备完成翻译过程中的部分步骤得到中间结果给到服务器20，由服务器20完成后部分的步骤得到最终的第一目标语言文字或目标音频。

本申请的翻译方法，也可以应用于AR设备10，由AR设备10独立完成。AR设备10具有本地翻译功能。

AR设备10，还用于若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字和翻译第二待翻译内容得到对应的目标音频。

图2为本申请一实施例提供的一翻译方法的流程示意图。参考图2，该方法应用于翻译系统。

下面以翻译系统包括AR设备和服务器为例。该翻译方法包括以下步骤：

S1000：获取第一待翻译内容和/或获取第二待翻译内容，第一待翻译内容为图像或视频，第二待翻译内容为音频。

具体地，该AR系统可以翻译图像或视频或音频，还可以翻译带音频的视频。

AR设备可以为AR眼镜。AR眼镜的前端设有摄像模块，当AR眼镜的使用者看到某些图像或视频中有不认识的语种的文字或字幕时，可以先通过AR眼镜拍摄该图像或摄像该视频。

AR眼镜上还设有音频采集模块，当AR眼镜的使用者听到某些音频是不熟悉的语种时，可以先通过AR眼镜采集该音频。

当然，如果图像或视频为带音频的图像或视频，则AR眼镜同时通过AR眼镜摄像该图像或视频，和，通过AR眼镜采集该图像或视频对应的音频。

S2100：若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字。

S2200：若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

S2300：若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，和，翻译第二待翻译内容得到对应的目标音频，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

具体地，通过AR设备不论获取到图像，还是获取到视频，还是获取到音频，还是获取到图像和音频，还是获取到视频和音频都可以翻译。

若AR设备只获取到图像或视频，则AR设备与服务器协作翻译图像或视频得到对应的第一目标语言文字。

AR设备上的AR显示屏同步显示图像或视频以及对应的第一目标语言文字。

同步显示是指：若显示图像，则同时在图像的相应位置显示对应的第一目标语言文字。

或，若显示视频，则在视频的每帧图像上的相应位置显示对应的第一目标语言文字。

第一目标语言文字为原始文字经翻译后对应的目标语种的文字。

AR显示屏为通过AR眼镜上的阵列式光波导镜片显示在使用者眼前的虚拟大屏。

若AR设备只获取到音频，则AR设备与服务器协作翻译该音频得到对应的目标音频。

AR设备上的骨传导模组将该目标音频反馈至AR设备的使用者。目标音频为目标语种对应的音频。

若AR设备同时获取到图像和对应的音频或视频和对应的音频，则AR设备与服务器协作翻译图像或视频得到对应的第一目标语言文字，同时，AR设备与服务器协作翻译该音频得到对应的目标音频。

AR设备上的AR显示屏同步显示图像或视频以及对应的第一目标语言文字，同时，AR设备上的骨传导模组将该目标音频反馈至AR设备的使用者。

优选地，音频采集模块包括全向高敏电容麦，摄像模块包括高清摄像头。

图3为本申请一实施例提供的一第一待翻译内容的翻译显示流程示意图。参考图3，步骤S2100和S2300中翻译第一待翻译内容得到对应的第一目标语言文字，包括以下步骤：

S110：提取第一待翻译内容中待翻译的原始文字信息，原始文字信息包括原始文字和原始文字在所述第一待翻译内容中的位置。

具体地，AR设备(例如AR眼镜)通过文字识别技术和版面分析技术识别出图像或视频中的原始文字，以及原始文字在图像或视频中的位置。

一张图像中，原始文字可能是环绕着图片内容的，也可能是在图片内容的上下左右中的某个或某些方位，图像中还可能包括写有原始文字的表格，因此原始文字可能会分布在图像中的多个位置。每个位置对应一段子原始文字，所有子原始文字组成一张图像中的原始文字。

一段视频是由多帧图像组成的，如果第一待翻译内容为视频，则需要先将视频进行分帧处理，得到多张图像。该多张图像组成第一待翻译内容。

每张图像上都可能有原始文字，因此，需要对每张图像进行文字识别和版面分析，得到每张图像中的原始文字和原始文字的位置信息。

当然提取第一待翻译内容中待翻译的原始文字信息也可以由服务器来完成，AR设备只需要将第一待翻译内容通过网络发送至服务器即可。

S120：将原始文字翻译成第一目标语言文字。

具体地，翻译的工作由服务器完成，AR设备(例如AR眼镜)将提取出来的原始文字通过网络发送至服务器。服务器内存储有多种语种对应的翻译数据库和翻译引擎。服务器先识别出原始文字的语种，再根据目标语种调取对应的翻译数据库，通过翻译引擎将原始文字翻译为目标语种对应的第一目标语言文字。原始文字的语种与第一目标语言文字的语种不同。例如将英文(或日语、韩语等不局限于此)翻译成中文。翻译完成后，服务器会将第一目标语言文字通过网络返回至AR设备。第一目标语言文字为原始文字经翻译后对应的目标语种的文字。

步骤S2100和S2300中通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，包括以下步骤：

S130：根据原始文字在第一待翻译内容中的位置，确定对应的第一目标语言文字在第一待翻译内容中的第一目标位置。

具体地，AR设备会根据原始文字在图像或视频中的位置，按照预设规则确定对应的第一目标语言文字在该图像或视频中的第一目标位置。

在一个具体实施例中，第一目标语言文字的第一目标位置与对应的原始文字在第一待翻译内容中的位置上下对应。例如，第一目标语言文字设置在对应的原始文字的正上方或正下方。

在一个具体实施例中，第一目标语言文字的第一目标位置为悬浮于对应的原始文字在第一待翻译内容中的位置的上方、下方、左方、右方、左上方、右上方、左下方、右下方等任意方位。具体以不遮挡原始文字为准。

在一个具体实施例中，第一目标语言文字的第一目标位置为对应的原始文字的位置，即，第一目标语言文字覆盖对应的原始文字。

若第一待翻译内容为视频，则第一目标语言文字的第一目标位置需要根据视频中对应帧的图像中对应的原始文字的位置确定。

S140：根据第一目标语言文字在第一待翻译内容中的第一目标位置，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字。

具体地，AR设备确定第一目标语言文字的第一目标位置后，通过AR设备内的中央处理模块和显示模块对第一待翻译内容和对应的第一目标语言文字进行显示前的预处理，预处理完成后，通过AR设备的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字。

具体地，若第一待翻译内容为图像，则通过AR设备的AR显示屏同步显示图像和对应的第一目标语言文字。预处理能够保证第一目标语言文字能够同步显示在图像中对应的第一目标位置。

若第一待翻译内容为视频，则通过AR设备的AR显示屏同步播放视频，且在视频的每一帧图像的第一目标位置都同步有对应的第一目标语言文字。预处理能够保证第一目标语言文字能够同步显示在视频中对应帧图像中对应的第一目标位置。

其中，AR显示屏为通过AR眼镜上的阵列式光波导镜片显示在使用者眼前的虚拟大屏。

在一个实施例中，若第一待翻译内容为视频，则在步骤S110之前，翻译第一待翻译内容得到对应的第一目标语言文字，还包括：对视频进行分帧处理，得到包含多张图像的第一待翻译内容。

在一个实施例中，若第一待翻译内容为视频，则在分帧处理之后，该方法还包括：对得到的多张图像进行分拣处理，挑选出包含文字的图像。

在一个实施例中，在步骤S110之前，翻译第一待翻译内容得到对应的第一目标语言文字，还包括：对每张包含文字的图像进行去噪处理。去噪处理即去干扰处理。具体地，去噪处理为在进行文字识别之前的一些准备工作，包括图像净化处理，去掉原始图像中的显见干扰等。还可以包括测量图像中原始文字的倾斜角，对原始文字的倾斜方位进行矫正，使原始文字在横向方向水平，在竖向方向垂直。

在一个实施例中，步骤S110包括：

S111：对每张图像进行版面分析，以检测出每张图像的文字区域，获取各个文字区域在对应图像中的位置。

具体地，每张图像均为包含文字的图像。若第一待翻译内容为图像，则第一待翻译内容包含一张图像。每张图像中的文字在版面上的位置可能不相同，有的图像版面除了原始文字和图像本身外，可能还包括带有文字的表格。

版面分析是对图像及图像中文本的总体分析。即，对选定的文字域进行排版确认，对横竖排版的文字进行切分，每一行文字和图像的分离，标点符号的判别等。

具体地，将每张图像中所有文字区域或文字块分拣出来，区分出文本段落及排版顺序，以及图像、表格的区域，将各文字区域或文字块的域界(域界为在图像中的始点、终点坐标)、域内的属性(横、竖排版方式)以及各文字区域或文字块的连接关系存储为一种数据结构。对于表格区域进行专用的表格分析及识别处理，对于图像区域进行压缩或简单存储。

对每个文字区域进行行字切分，即将为图像的文字区域先切割为行，再从图像行中分离出单个字符，得到该图像中原始文字对应的多个图像字符。

S112：对每个文字区域中的文字进行识别得到原始文字。

具体地，本申请通过OCR文字识别技术(单字识别技术)识别图像中每个文字。单字识别是体现OCR文字识别的核心技术。OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

本申请从摄像模块获得的文字图像，通过步骤S111将图像转为文字的标准代码或字符。然后采用OCT文字识别技术对每个文字区域中的文字逐字的进行单字识别，识别后的单字按照其原本的排版顺序或组合顺序重新组合恢复后，得到待翻译的原始文字。待翻译的原始文字由多个文字区域对应的文字组成。每个文字区域为一个完整的语句或段落。

图4为本申请一实施例提供的一第二待翻译内容的翻译反馈流程示意图。参考图4，步骤S2200和S2300中翻译第二待翻译内容得到对应的目标音频，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者，包括以下步骤：

S210：将第二待翻译内容由待翻译音频转换为待翻译文本。

具体地，本申请通过AR眼镜正前方两边的两个全向降噪电容式高敏麦采集音频。

AR眼镜通过语音处理技术将待翻译音频转换为对应的相同语种的待翻译文本。

S220：将待翻译文本翻译成第二目标语言文字。

待翻译文本的翻译的工作也是由服务器完成，AR设备(例如AR眼镜)将转换得到的待翻译文本通过网络发送至服务器。服务器内存储有多种语种对应的翻译数据库和翻译引擎。服务器先识别出待翻译文本的语种，再根据目标语种调取对应的翻译数据库，通过翻译引擎将待翻译文本翻译为目标语种对应的第二目标语言文字。待翻译文本的语种与第二目标语言文字的语种不同。例如将英文(或日语、韩语等不局限于此)翻译成中文。翻译完成后，服务器会将第二目标语言文字通过网络返回至AR设备。第二目标语言文字为待翻译文本经翻译后对应的目标语种的文字。

本申请的翻译功能是基于人工神经网络的机器翻译(Neural MachineTranslation)，技术核心是一个拥有海量结点(神经元)的深度神经网络，可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后，在网络中层层传递，转化为计算机可以“理解”的表示形式，再经过多层复杂的传导运算，生成另一种语言的译文。实现了“理解语言，生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅，更加符合语法规范，容易理解。相比之前的翻译技术，质量有“跃进式”的提升。

S230：将第二目标语言文字转换为相同语种的目标音频。

具体地，AR设备通过音文转译技术将第二目标语言文字转换为相同语种的目标音频。

例如音文转译技术采用TTS(Text To Speech，即“从文本到语音”)技术。它是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS文本转语音技术已经逐渐成熟，主要包括以下几部分：

文本分析，对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。

语音合成，把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。

韵律处理，合成音质(Quality of Synthetic Speech)，语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。

S240：通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

具体地，骨传导模组在AR眼镜上的应用。本发明利用骨传导扬声器技术，通过符合人体工学的设计，将眼睛腿与骨传导扬声器结合，通过移动式和挤压式两种方式协同，刺激螺旋器引起听觉。其具体传导途径为：“声波-颅骨-骨迷路-内耳淋巴液-螺旋器-听神经-大脑皮层听觉中枢”。

佩戴使用时开放双耳，不堵塞耳朵，解决了入耳式耳机佩戴的不适感。同时，也避免了戴耳机运动时耳内出汗带来的一系列卫生和健康问题。开放双耳也保证了危险场景下耳机使用的可能性。打开双耳，使用耳机的同时也能注意到周围环境的变化，使用更加安全。本发明首次将骨传导技术应用于AR眼镜，并通过符合人体工学的设计以便于佩戴。

本骨传导模组集成骨传导技术芯片，可以保证传输信号的稳定性。IP55级别的防水效果。应用于眼镜腿的骨传导扬声器包括振动系统和定子系统。振动系统包括华司和弹片，华司通过弹片悬置在定子系统的上方。定子系统包括由导磁材料制成的支架，支架上固定有线圈和永磁体。永磁体产生一个不变的磁场，线圈根据通过其的声波电信号产生一个交变的磁场，华司在这两个磁场的作用下会产生不同频率的振动，从而实现电声的转换。

当然本申请的AR设备上也可以设有扬声器，使用者可以选择通过扬声器收听音频还是通过骨传导模组收听音频。

在一个实施例中，该方法还包括：通过AR设备上的AR显示屏同步显示第二待翻译内容和对应的第二目标语言文字。

具体地，当只翻译音频的时候，除了将一种语种的音频翻译成目标语种的音频反馈给使用者外，还可以通过AR显示屏显示目标音频中各个语段对应的翻译文本，使得用户不仅能听到翻译的音频，还可以看到翻译的文本。提升了用户体验。

当然，还可以同时显示第二目标语言文字和对应的待翻译文本。形成一种双语对照。

还可以只显示第二目标语言文字和对应的待翻译文本。形成一种双语对照，不提供目标音频。

在一个实施例中，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，具体包括：

将第一目标语言文字回填至第一待翻译内容的第一目标位置，得到翻译后的第一待翻译内容；通过AR设备上的AR显示屏显示翻译后的第一待翻译内容。

具体地，为了保证第一目标语言文字与对应的原始文本的同步，可以将第一目标语言文字回填至第一待翻译内容的第一目标位置，使得第一待翻译内容中同时有原始文本和第一目标语言文字。保证了翻译的同步性和准确性。

当同时翻译视频和音频或图像与音频时，同样参考图3和图4的流程。二者互不干扰，但是最终输出的时候保持同步。

步骤S110-130和S210-230可以都由AR设备完成，也可以部分由AR设备完成，部分由服务器完成，还可以都由服务器完成再将最终结果发送至AR设备。

应该理解的是，然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图5为本申请一实施例提供的一翻译装置的结构框图；参考图5，该翻译装置A包括：

第一获取模块100，用于获取第一待翻译内容，第一待翻译内容为图像或视频；

第二获取模块200，用于获取第二待翻译内容，第二待翻译内容为音频；

第一翻译模块300，用于翻译第一待翻译内容得到对应的第一目标语言文字；

显示模块500，用于通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字；

第二翻译模块400，用于翻译第二待翻译内容得到对应的目标音频；

反馈模块600，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

第一获取模块100具体用于通过AR设备的摄像模块获取第一待翻译内容。

当然第一翻译模块300也可以将第一待翻译内容翻译成对应的音频，第二翻译模块400也可以将第二待翻译内容翻译成对应的语言文字。

在一个实施例中，第一翻译模块300包括：

第一提取模块310，用于提取第一待翻译内容中待翻译的原始文字信息，原始文字信息包括原始文字和原始文字在第一待翻译内容中的位置，

第一子翻译模块320，用于将原始文字翻译成第一目标语言文字。

在一个实施例中，显示模块500，包括：

定位模块，用于根据原始文字在第一待翻译内容中的位置，确定对应的第一目标语言文字在第一待翻译内容中的第一目标位置，

子显示模块，用于根据第一目标语言文字在第一待翻译内容中的第一目标位置，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字。

在一个实施例中，该装置还包括：

分帧模块，用于若第一待翻译内容为视频，对视频进行分帧处理，得到包含多张图像的第一待翻译内容。

在一个实施例中，第一提取模块310包括：

版面分析模块，用于对每张图像进行版面分析，以检测出每张图像的文字区域，获取各个文字区域在对应图像中的位置；

识别模块，用于对每个文字区域中的文字进行识别得到原始文字。

在一个实施例中，识别模块，具体用于采用OCR文字识别技术对每个文字区域中的文字进行识别，得到待翻译的原始文字。

在一个实施例中，第二翻译模块400包括：

第一转换模块，用于将第二翻译内容由待翻译音频转换为待翻译文本；

第二子翻译模块，用于将待翻译文本翻译成第二目标语言文字；

第二转换模块，用于将第二目标语言文字转换为相同语种的目标音频。

在一个实施例中，

显示模块500，还用于通过AR设备上的AR显示屏同步显示第二待翻译内容和对应的第二目标语言文字。

在一个实施例中，子显示模块包括：

回填单元，用于将第一目标语言文字回填至第一待翻译内容的第一目标位置，得到翻译后的第一待翻译内容；

显示单元，用于通过AR设备上的AR显示屏显示翻译后的第一待翻译内容。

本申请以AR眼镜前端的高清摄像头及全向高敏电容麦为主要图像、音频采集源，并辅以8核高速运算能力的集成模组通过5G网络或4G网络或WIFI网络连接网络服务器翻译引擎以实现翻译功能，并配合阵列光波导镜片及显示模组以实现所见即翻译的便捷智能翻译类硬件产品。支持所见即翻译的图像视频翻译处理系统，使本产品将戴个智能眼镜即可无语言障碍阅览全部外文书籍及资料成为现实。

通过本申请，实现了带有翻译功能的智能眼镜，语音实时翻译字幕系统在AR智能眼镜类智能硬件上的应用，所见即翻译概念在人工智能及硬件上的实现及应用，骨传导耳机在AR智能眼镜类智能硬件上的应用。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取第一待翻译内容和/或获取第二待翻译内容，第一待翻译内容为图像或视频，第二待翻译内容为音频；若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字；若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者；若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，和，翻译第二待翻译内容得到对应的目标音频，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

处理器执行计算机程序时还实现上述任一项翻译方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取第一待翻译内容和/或获取第二待翻译内容，第一待翻译内容为图像或视频，第二待翻译内容为音频；若获取第一待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字；若获取第二待翻译内容，则翻译第二待翻译内容得到对应的目标音频，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者；若获取第一待翻译内容和第二待翻译内容，则翻译第一待翻译内容得到对应的第一目标语言文字，和，翻译第二待翻译内容得到对应的目标音频，通过AR设备上的AR显示屏同步显示第一待翻译内容和对应的第一目标语言文字，和，通过AR设备上的骨传导模组将目标音频反馈至AR设备的使用者。

计算机程序被处理器执行时还实现上述任一项翻译方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种翻译方法，应用于翻译系统，所述翻译系统包括AR设备，其特征在于，所述方法包括：

获取第一待翻译内容和/或获取第二待翻译内容，所述第一待翻译内容为图像或视频，所述第二待翻译内容为音频；

若获取第一待翻译内容，则翻译所述第一待翻译内容得到对应的第一目标语言文字，

通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字；

若获取第二待翻译内容，则翻译所述第二待翻译内容得到对应的目标音频，

通过所述AR设备上的骨传导模组将所述目标音频反馈至所述AR设备的使用者；

若获取第一待翻译内容和第二待翻译内容，则翻译所述第一待翻译内容得到对应的第一目标语言文字，和，翻译所述第二待翻译内容得到对应的目标音频，

通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字，和，通过所述AR设备上的骨传导模组将所述目标音频反馈至所述AR设备的使用者。

2.根据权利要求1所述的方法，其特征在于，所述翻译所述第一待翻译内容得到对应的第一目标语言文字，包括：

提取所述第一待翻译内容中待翻译的原始文字信息，所述原始文字信息包括原始文字和原始文字在所述第一待翻译内容中的位置，

将所述原始文字翻译成第一目标语言文字；

所述通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字，包括：

根据所述原始文字在所述第一待翻译内容中的位置，确定对应的第一目标语言文字在所述第一待翻译内容中的第一目标位置，

根据所述第一目标语言文字在所述第一待翻译内容中的第一目标位置，通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字。

3.根据权利要求2所述的方法，其特征在于，若所述第一待翻译内容为视频，则在所述提取所述第一待翻译内容中待翻译的原始文字信息之前，所述方法还包括：对所述视频进行分帧处理，得到包含多张图像的第一待翻译内容；

所述提取所述第一待翻译内容中待翻译的原始文字信息，包括：

对每个文字区域中的文字进行识别得到原始文字。

4.根据权利要求3所述的方法，其特征在于，所述对每个文字区域中的文字进行识别得到原始文字，包括：

5.根据权利要求1所述的方法，其特征在于，所述翻译所述第二待翻译内容得到对应的目标音频，包括：

将所述第二待翻译内容由待翻译音频转换为待翻译文本；

将所述待翻译文本翻译成第二目标语言文字；

将所述第二目标语言文字转换为相同语种的目标音频。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

通过所述AR设备上的AR显示屏同步显示所述第二待翻译内容和对应的第二目标语言文字。

7.根据权利要求1所述的方法，其特征在于，所述通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字，包括：

将所述第一目标语言文字回填至所述第一待翻译内容的第一目标位置，得到翻译后的第一待翻译内容；

通过所述AR设备上的AR显示屏显示所述翻译后的第一待翻译内容。

8.一种翻译装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一待翻译内容，所述第一待翻译内容为图像或视频；

第二获取模块，用于获取第二待翻译内容，所述第二待翻译内容为音频；

第一翻译模块，用于翻译所述第一待翻译内容得到对应的第一目标语言文字；

显示模块，用于通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字；

第二翻译模块，用于翻译所述第二待翻译内容得到对应的目标音频；

反馈模块，通过所述AR设备上的骨传导模组将所述目标音频反馈至所述AR设备的使用者。

9.一种翻译系统，其特征在于，所述翻译系统包括AR设备和服务器；

所述AR设备，用于获取第一待翻译内容和/或第二待翻译内容；

所述服务器，用于若获取第一待翻译内容，则翻译所述第一待翻译内容得到对应的第一目标语言文字，

若获取第一待翻译内容和第二待翻译内容，则翻译所述第一待翻译内容得到对应的第一目标语言文字和翻译所述第二待翻译内容得到对应的目标音频；

所述AR设备，还用于若获取第一待翻译内容，则通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字，

若获取第二待翻译内容，则通过所述AR设备上的骨传导模组将所述目标音频反馈至所述AR设备的使用者，

若获取第一待翻译内容和第二待翻译内容，则通过所述AR设备上的AR显示屏同步显示所述第一待翻译内容和对应的第一目标语言文字，和，通过所述AR设备上的骨传导模组将所述目标音频反馈至所述AR设备的使用者。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-7任一项所述的方法的步骤。