CN115797815B

CN115797815B - Ar翻译的处理方法及电子设备

Info

Publication number: CN115797815B
Application number: CN202111051366.8A
Authority: CN
Inventors: 刘小伟; 陈兵; 王国毅; 周俊伟
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-12-15
Anticipated expiration: 2041-09-08
Also published as: US20240135115A1; EP4287045A1; WO2023035963A1; CN115797815A

Abstract

一种AR翻译的处理方法及电子设备，涉及通信技术领域。通过本申请方案，在采用电子设备进行AR翻译的场景中，可以实时检测电子设备的位姿变化情况，并对摄像头采集的连续多帧图像进行特征匹配，进而可以根据电子设备的位姿变化情况以及特征匹配情况，判断待翻译文本是否需要全部翻译，还是需要部分翻译，还是不需要翻译，从而选择对应的翻译触发策略。这样可以有效避免重复翻译，因此可以节省AR翻译流程中的计算资源，并且在一定程度上提升了翻译效率。

Description

AR翻译的处理方法及电子设备

技术领域

本申请涉及增强现实(augmented reality，AR)技术领域，尤其涉及一种AR翻译的处理方法及电子设备。

背景技术

目前，AR技术越来越多地应用于网络购物、教育、医疗、游戏、导航、翻译等领域。其中，AR技术是一种将虚拟数字化内容(例如三维模型)和真实物理世界进行叠加显示的技术。

例如，以采用AR技术翻译(简称为AR翻译)为例，手机可以通过摄像头采集待翻译目标的图像，然后对图像中的文本内容进行翻译，并将翻译得到的虚拟数字化内容与手机摄像头采集的预览图像叠加，在显示屏上呈现3D翻译效果。

目前AR翻译的方式通常是实时逐帧对采集图像进行翻译和显示，也就是说需要对AR设备采集的每一帧图像都做整个翻译流程，需要使用大量计算资源，导致翻译效率较低，因此在显示翻译结果时有明显卡顿现象，影响用户使用体验。

发明内容

本申请提供一种AR翻译的处理方法及电子设备，解决了在AR翻译时需要使用大量计算资源且翻译结果显示卡顿的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种AR翻译的处理方法，该方法包括：

通过电子设备的摄像头采集第一图像，该第一图像中包含第一待翻译文本；

对第一待翻译文本进行翻译，得到第一翻译结果；

显示第一图像，并在该第一图像上叠加显示第一虚拟图像，该第一虚拟图像包括第一翻译结果；

通过摄像头采集第二图像，该第二图像中包含第二待翻译文本；

若电子设备的位姿变化量小于预设位姿阈值，且第二图像与第一图像的特征相似度大于或者等于预设相似度阈值，则获取第一翻译结果，作为第二待翻译文本的翻译结果；或者，

若电子设备的位姿变化量小于预设位姿阈值，且特征相似度小于预设相似度阈值，则对第二待翻译文本进行翻译；或者，

若电子设备的位姿变化量大于或等于预设位姿阈值，且特征相似度小于预设相似度阈值，则对第二待翻译文本中的部分或者全部文本进行翻译；

显示第二图像，并在第二图像上叠加显示第二虚拟图像，该第二虚拟图像包括第二待翻译文本的翻译结果。

通过本申请实施例提供的AR翻译的处理方法，在采用电子设备进行AR翻译的场景中，可以实时检测电子设备的位姿变化情况，并对摄像头采集的连续多帧图像进行特征匹配，进而可以根据电子设备的位姿变化情况以及特征匹配情况，判断待翻译文本是否需要全部翻译，还是需要部分翻译，还是不需要翻译，从而选择对应的翻译触发策略。这样可以有效避免重复翻译，因此可以节省AR翻译流程中的计算资源，并且在一定程度上提升了翻译效率。

示例性地，对于手机没有移动，阅读内容不变的场景，可以判断出位姿变化小，且待翻译文本没有变化，因此无需再次翻译，直接获取之前的翻译结果即可，大大节省了计算资源。

再示例性地，对于手机没有移动，翻页阅读的场景，可以判断出位姿变化小，但待翻译文本变化较大，因此当前帧图像中的所有文本均需要翻译。

再示例性地，对于手机移动(例如平移、旋转、远近拉伸、抖动等)幅度较大的场景，可以判断出位姿变化大，待翻译内容有变化，因此当前帧图像中的全部文本或者部分文本需要翻译。

对于电子设备的位姿变化量大于或等于预设位姿阈值，且特征相似度小于预设相似度阈值的情况，可能存在如下两种情况，相应地存在两种实现方式：

情况1：在一种可能实现方式中，上述对第二待翻译文本中的部分或者全部文本进行翻译，包括：

第二待翻译文本中的第一部分文本与第一待翻译文本相同的情况下，获取第一翻译结果，作为第一部分文本的翻译结果；

对第二部分文本进行翻译，得到该第二部分文本的翻译结果，该第二部分文本为第二待翻译文本中除第一部分文本之外的文本；

其中，上述第二待翻译文本的翻译结果包括第一部分文本的翻译结果以及第二部分文本的翻译结果。

在上述情况1中，若当前帧图像与前一帧图像有部分文本内容重叠或重复，则重叠或重复部分的文本无需翻译。

情况2：在另一种可能实现方式中，上述对第二待翻译文本中的部分或者全部文本进行翻译，包括：

在第二待翻译文本与第一待翻译文本没有相同文本的情况下，对第二待翻译文本中的全部文本进行翻译，得到第二待翻译文本的翻译结果。

在上述情况2中，若当前帧图像与前一帧图像没有文本内容重叠或重复，则当前帧图像中的所有文本均需要翻译。

在一些实施例中，电子设备可以调用本地翻译引擎对待翻译文本进行翻译，获取翻译结果。其中，翻译引擎可以是电子设备中安装的用于文本翻译的翻译类应用程序。

在一些实施例中，在电子设备联网的情况下，电子设备可以将待翻译文本发送给用于文本翻译的服务器，由服务器对待翻译文本进行翻译并将翻译结果发送给电子设备，由此电子设备获取翻译结果。

在一种可能实现方式中，上述方法还包括：

提取第一图像中的特征点以及第二图像中的特征点；

将第二图像中的特征点与第一图像中的特征点进行特征比对，得到第二图像与第一图像的特征相似度。

通过上述方案，可以对所采集的连续多帧图像进行特征提取及匹配，以确定连续多帧图像之间的特征匹配数，或者特征相似度。以便下文中根据特征相似度，判断当前图像中的文本是否要全部翻译，还是要部分翻译，还是不需要翻译。

在一种可能实现方式中，上述方法还包括：

采用同步定位与地图构建SLAM方法，生成SLAM地图；

根据第二图像、电子设备中的目标传感器的测量数据和SLAM地图，确定电子设备的位姿变化量。

其中，上述目标传感器包括惯性测量单元IMU；当然，目标传感器还可以包括其他任意满足实际使用需求的传感器，例如陀螺仪传感器，或者加速度传感器，本申请对此不作限定。

在一种可能实现方式中，上述位姿变化量包括位置变化量和姿态变化量。

通过SLAM方法实时跟踪电子设备的位置以及姿态，可以准确地计算电子设备的位姿变化量。

在一种可能实现方式中，上述方法还包括：

采用SLAM方法确定用于显示AR数字化内容的目标虚拟平面，该目标虚拟平面位于所采集图像所在平面的上方；

其中，上述在第二图像上叠加显示第二虚拟图像，包括：

在上述目标虚拟平面显示第二虚拟图像。

通过上述方案可知，AR场景中可以包括所采集的图像(包括待翻译文本)所在的平面以及虚拟图像(包括翻译结果)所在的平面，这两个图像叠加显示，实现立体显示效果。

在一种可能实现方式中，上述方法还包括：

确定第二待翻译文本在目标虚拟平面上的目标投影区域；

其中，上述在目标虚拟平面显示第二虚拟图像，包括：

在上述目标投影区域显示第二虚拟图像。

通过上述方案可知，通过实时跟踪，并将待翻译文本在虚拟平面上进行位置映射，可以准确地定位用于显示翻译结果的位置，这样可以保证待翻译文本与翻译结果在位置上实时对应，因此可以提升AR显示效果，便于用户阅读。

在一种可能实现方式中，上述确定第二待翻译文本在目标虚拟平面上的目标投影区域，包括：

确定第二待翻译文本在第二图像中占据的第一矩形区域；

根据第一矩形区域的对角线上的两个端点，确定该两个端点映射在目标虚拟平面上的两个锚定点；

在目标虚拟平面上以该两个锚定点为对角线，确定第二矩形区域；

其中，上述第二矩形区域为第二待翻译文本在目标虚拟平面上的目标投影区域。

通过上述方案可知，通过将待翻译文本所在的矩形区域，映射到虚拟平面上，即可确定出虚拟平面上用于显示翻译结果的矩形显示区域，这样可以保证待翻译文本与翻译结果在位置上实时对应，因此可以提升AR显示效果，便于用户阅读。

在一种可能实现方式中，上述方法还包括：设置目标投影区域的透明度小于或等于预设透明度阈值。

通过上述方案，可以降低目标投影区域的透明度，使得目标投影区域不透明或者半透明，这样可以实现在对应的待翻译文本上方显示翻译结果，且覆盖或遮挡待翻译文本，避免待翻译文本对虚拟显示的翻译结果造成视觉干扰或影响，因此更便于用户阅读，提升用户体验。

在一种可能实现方式中，上述方法还包括：

对第一图像进行文本识别，得到第一待翻译文本；

以及，对第二图像进行文本识别，得到第二待翻译文本。

示例性地，可以采用光学字符识别(optical character recognition，OCR)技术进行文本识别。

在一种可能实现方式中，上述方法还包括：

对第一待翻译文本的翻译结果进行渲染，得到第一虚拟图像；以及，

对第二待翻译文本的翻译结果进行渲染，得到第二虚拟图像。

通过上述方案，可以对待翻译文本的翻译结果进行渲染处理，渲染成虚拟的数字化内容，以便于将虚拟的数字化内容显示于虚拟平面上，从而呈现AR显示效果。

第二方面，本申请提供一种AR翻译的处理装置，该装置包括用于执行上述第一方面中的方法的单元。该装置可对应于执行上述第一方面中描述的方法，该装置中的单元的相关描述请参照上述第一方面的描述，为了简洁，在此不再赘述。

其中，上述第一方面描述的方法可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，处理模块或单元、显示模块或单元等。

第三方面，本申请提供一种电子设备，该电子设备包括处理器，处理器与存储器耦合，存储器用于存储计算机程序或指令，处理器用于执行存储器存储的计算机程序或指令，使得第一方面中的方法被执行。

例如，处理器用于执行存储器存储的计算机程序或指令，使得该装置执行第一方面中的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有用于实现第一方面中的方法的计算机程序(也可称为指令或代码)。

例如，该计算机程序被计算机执行时，使得该计算机可以执行第一方面中的方法。

第五方面，本申请提供一种芯片，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法。

可选地，所述芯片还包括存储器，存储器与处理器通过电路或电线连接。

第六方面，本申请提供一种芯片系统，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法。

可选地，所述芯片系统还包括存储器，存储器与处理器通过电路或电线连接。

第七方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序(也可称为指令或代码)，所述计算机程序被计算机执行时使得所述计算机实现第一方面中的方法。

可以理解的是，上述第二方面至第七方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例涉及的AR翻译场景的系统架构图；

图2为本申请实施例提供的一种AR翻译的处理方法的流程示意图；

图3为本申请实施例提供的一种AR翻译的处理方法中开启AR翻译功能的界面示意图；

图4为本申请实施例提供的一种AR翻译的处理方法中结合坐标系表示电子设备的位姿变化的示意图；

图5为本申请实施例提供的一种AR翻译的处理方法的整体流程示意图；

图6示出了本申请实施例中在AR翻译时电子设备采集图像并提取文字进行翻译的场景下的交互界面示意图；

图7示出了本申请实施例中在AR翻译时电子设备的位姿变化后图像内容发生变化且内容有重复的场景下的交互界面示意图；

图8示出了本申请实施例中在AR翻译时电子设备的位姿变化较小且图像内容发生变化且内容没有重复的场景下的交互界面示意图；

图9示出了本申请实施例中在AR翻译时电子设备的位姿变化较小且图像内容不变的场景下的交互界面示意图；

图10示意性地示出了采用本申请方案进行AR翻译的界面示意图；

图11为本申请实施例提供的一种AR翻译的处理装置的结构示意图；

图12为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一图像和第二图像等是用于区别不同的图像，而不是用于描述图像的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个处理单元是指两个或者两个以上的处理单元等；多个元件是指两个或者两个以上的元件等。

为便于理解本申请实施例，以下对本申请实施例的部分用语进行解释说明，以便于本领域技术人员理解。

(1)SLAM：同步定位与地图构建(simultaneous localization and mapping，SLAM)，一种视觉定位跟踪方法，可以根据电子设备摄像头采集的空间位置信息(例如位姿信息)完成对场景的构建和跟踪。其中，可以从图像中提取环境中的特征点进行制图，并确定环境中的对象(例如待翻译目标或文本)在环境中的位置，实时跟踪。

(2)AR：增强现实(augmented reality，AR)技术可以将计算机生成的虚拟物体、场景或系统提示信息叠加到真实场景上，将虚拟场景与现实场景融合，从而实现对现实的“增强”。

具体到AR翻译场景，现实场景(例如待翻译目标)和虚拟场景(例如翻译结果)之间重叠之后，能够在同一个画面以及空间中同时存在，这样可以提升用户阅读体验。

其中，AR算法可以提供SLAM跟踪能力，提供对真实环境中的平面认知能力和当前设备相机的真实位置姿态的跟踪能力。示例性地，可以利用AR电子设备采集场景对应的空间位置信息，然后采用SLAM跟踪定位方法，根据AR设备采集的空间位置信息完成对场景的构建和跟踪。

随着电子设备性能、视觉定位跟踪和AR技术的快速发展，可以使用AR设备采集待s翻译文本的图像进行翻译，并在待翻译文本的图像上呈现直观的立体翻译效果，成为辅助人们解决跨语言文字理解问题的重要手段。

然而，目前AR翻译的方式通常是实时逐帧对采集图像进行翻译和显示，也就是说需要对AR设备采集的每一帧图像都做整个翻译流程，需要使用大量计算资源。其中，字符提取和翻译等流程通常需要上传到云端来完成，这需要使用云端计算资源，并且存在流量损耗、翻译结果显示卡顿，设备发热耗电量增加等问题。

另一方面，当用户手持或佩戴AR设备的姿势发生变化时(如移动、旋转、远近拉伸或者抖动等)时，会出现翻译结果的漂移不贴合以及字体的格式和大小跳变。

鉴于此，本申请实施例提供了一种AR翻译的处理方法，在采用电子设备进行AR翻译的场景中，可以实时检测电子设备的位姿变化情况，并对摄像头采集的连续多帧图像进行特征匹配，进而可以根据电子设备的位姿变化情况以及特征匹配情况，判断待翻译文本是否需要全部翻译，还是需要部分翻译，还是不需要翻译，从而选择对应的翻译触发策略。这样可以有效避免重复翻译，因此可以节省AR翻译流程中的计算资源，并且在一定程度上提升了翻译效率。

图1示出了本申请的各个示例性实施例所涉及的系统架构示意图。如图1所示，该系统架构包括电子设备1和待翻译目标2。

如图1中(a)所示，电子设备1包括摄像头11，该摄像头11可以用于采集待翻译目标2的图像。电子设备1在对该图像进行文本识别、提取、翻译等流程之后，生成虚拟数字化内容。

如图1中(b)所示，电子设备1还包括显示屏12，例如触摸屏、柔性屏、曲面屏等，该显示屏12可以用于显示待翻译目标2的图像，并在待翻译目标2的图像上叠加显示虚拟数字化内容，实现立体显示效果。

需要说明的是，本申请实施例中的电子设备可以为手持终端(如手机)，也可以为AR眼镜，或者其他任意满足实际使用需求的电子设备，本申请实施例不作具体限定。

本申请实施例中，在AR翻译时，可以基于视觉定位跟踪确定电子设备与待翻译目标之间的相对位姿变化，并且将采集到的图像信息进行文字提取，翻译成目标语言文字，同时确定文字在图像坐标系下的位置。然后，将翻译结果渲染成AR数字化内容，叠加在原图像对应位置上。然后，持续跟踪定位当前设备和被拍摄对象的相对位置，如角度和位置，如果发生变化且超过预设的阈值，则需要重新进行整个翻译和显示过程，否则，将先前渲染的增强现实/数字化内容根据变化的位姿，对应的调整显示内容，使之准确地贴合在当前图像对应的内容上。

本申请实施例提供的AR翻译的处理方法的执行主体可以为上述的电子设备，也可以为该电子设备中能够实现该AR翻译的处理方法的功能模块和/或功能实体，并且本申请方案能够通过硬件和/或软件的方式实现，具体的可以根据实际使用需求确定，本申请实施例不作限定。下面以电子设备为例，结合附图对本申请实施例提供的AR翻译的处理方法进行示例性的说明。

图2是本申请实施例提供的AR翻译的处理方法的流程示意图。参照图2所示，该方法包括下述的步骤S101-S106。

S101，通过电子设备的摄像头采集第一图像，该第一图像中包含第一待翻译文本。

在本申请实施例中，当通过电子设备进行AR翻译时，电子设备首先需要开启AR翻译功能，并开启摄像头，采集图像。下面结合图3进行示例性描述。

如图3中(a)所示，响应于用户的触发操作，电子设备1可以开启翻译应用，并显示翻译应用的界面20。在界面20中显示有源语言选项和目标语言选项，用户可以根据实际使用需求选择所要翻译的源语言类型和目标语言类型。为了便于说明，这里以英语和中文互译为例进行示例性地说明。在界面20中还显示有控件21，该控件21可以用于触发开启AR翻译功能。

其中，上述用户的触发操作可以是通过点击、触摸、滑动、或抖动等方式打开翻译应用，也可以是声控或者其它途径打开翻译应用，本申请对此不作限定。举例来说，电子设备检测到用户的触摸操作后，应用中的翻译功能被启动，摄像头被启动。

如图3中(a)所示，响应于用户对控件21的操作(例如点击操作)，电子设备可以开启摄像头进行图像采集，并开启AR翻译功能。图3中(b)示意性地示出了开启AR翻译功能之后的显示界面22，显示界面22中显示有AR翻译应用的语言类型，英语与中文互译；显示界面22中还显示有取景框23，该取景框23中显示有提示信息：请对准文字，以提示用户调整好电子设备摄像头的位姿，使得待翻译文本位于取景框23中，以便于采集图像。

可选地，在本申请实施例中，电子设备可以以预设频率采集图像，例如预设频率可以为每秒采集30帧图像，或者可以为每秒采集10帧图像，还可以为其他满足需求的频率，具体采集图像的频率可以根据实际使用需求确定，本申请实施例不作限定。

S102，对第一待翻译文本进行翻译，得到第一翻译结果。

在本申请实施例中，由于第一图像中的文本内容为首次出现，因此需要对首次出现的文本内容进行翻译。

可选地，在一些实施例中，电子设备可以调用本地翻译引擎对待翻译文本进行翻译，获取翻译结果。这里，翻译引擎可以是电子设备中安装的用于文本翻译的翻译类应用程序。在另一些实施例中，在电子设备联网的情况下，电子设备可以将待翻译文本发送给用于文本翻译的服务器，由服务器对待翻译文本进行翻译并将翻译结果发送给电子设备，由此电子设备获取翻译结果。需要说明的是，为了便于描述，下文中以电子设备调用本地翻译引擎对文本进行翻译为例进行示例性描述。

可以理解的是，本步骤中可以利用翻译软件将待翻译文本的语言文字类型翻译成另一种语言文字类型，得到翻译结果。对于本步骤中对待翻译文本进行翻译的具体方式，可以采用与现有技术中的语言文字翻译方法相同或相似的方式实现，如待翻译文本信息为的英文单词时，可以将英文单词输入到翻译软件中，利用翻译软件得到该英文单词对应的中文释义和英文发音等相关的信息，即翻译结果。只要可以将待翻译文本信息的语言文字类型翻译成用户所需要的目标语言文字类型，得到翻译结果即可，本申请实施例对此不做任何限制。

在本申请实施例中，在电子设备采集到第一图像之后，电子设备可以先对第一图像进行文本识别，得到第一待翻译文本。进一步地，电子设备可以调用翻译引擎对第一待翻译文本进行翻译，得到第一翻译结果。进一步地，电子设备可以对第一待翻译文本的翻译结果进行渲染，得到第一虚拟图像。

示例性地，电子设备可以采用OCR技术对所采集的图像进行文本识别。其中，OCR技术通常可以包括文本检测步骤和文本识别步骤，该文本检测步骤主要用于定位文本的位置，该文本识别步骤主要用于识别文本的具体内容。也就是说，可以先进行文本检测，定位文本的位置，然后进行文本识别，得到文本的具体内容。具体通过OCR技术进行文本识别的详细步骤可以参见现有技术中的实现步骤，此处不予赘述。

也就是说，从输入信息流中通过OCR提取出文字，然后调用翻译引擎翻译成目标文字信息，生成数字化内容。

S103，在电子设备的显示屏上显示第一图像，并在该第一图像上叠加显示第一虚拟图像，该第一虚拟图像包括第一翻译结果。

如此，采用AR技术实现在待翻译文本上叠加显示对应的翻译结果，呈现立体显示效果。

S104，通过摄像头采集第二图像，该第二图像中包含第二待翻译文本。

在本申请实施例中，当再次采集到图像时，先将当前采集的该图像与之前采集的图像之间的特征相似度与预设相似度阈值进行比对，以及将电子设备的位姿变化量与预设位姿阈值进行比对，然后根据特征相似度的比对结果以及位姿变化量的比对结果，判断当前采集的图像中的文本是否需要全部翻译，还是部分翻译，还是不需要翻译，如此选择不同的翻译触发策略完成翻译过程。具体的翻译触发策略可以参见以下对S105A、S105B和S105C的描述。

需要说明的是，步骤S105A、S105B和S105C择一执行。

S105A，若电子设备的位姿变化量小于预设位姿阈值，且第二图像与第一图像的特征相似度大于或者等于预设相似度阈值，则获取第一翻译结果，作为第二待翻译文本的翻译结果。

示例性地，对于手机没有移动，阅读内容不变的场景，可以判断出位姿变化小，且待翻译文本没有变化，也就是说，该文本之前已经翻译过，有对应的翻译结果，因此该文本无需再次采用翻译引擎进行翻译，直接获取之前的翻译结果即可，这样可以大大节省计算资源。

在这种情况下，第二图像中的文本不需要翻译，无需再对第二图像进行文本识别，也无需调用翻译引擎进行翻译，也无需对翻译结果进行渲染。

S105B，若电子设备的位姿变化量小于预设位姿阈值，且特征相似度小于预设相似度阈值，则调用翻译引擎对第二待翻译文本进行翻译。

示例性地，对于手机没有移动，翻页阅读的场景，可以判断出位姿变化小，但待翻译文本变化较大，也就是说，该文本之前没有翻译过，没有对应的翻译结果，因此当前帧图像中的所有文本均需要翻译。

在这种情况下，第二图像中的文本需要翻译，电子设备可以采用OCR技术对第二图像进行文本识别，得到第二待翻译文本。进一步地，电子设备可以调用翻译引擎对第二待翻译文本进行翻译，得到第二翻译结果。进一步地，在电子设备获取到第二待翻译文本的翻译结果之后，电子设备可以对第二待翻译文本的翻译结果进行渲染，得到第二虚拟图像。

S105C，若电子设备的位姿变化量大于或等于预设位姿阈值，且特征相似度小于预设相似度阈值，则调用翻译引擎对第二待翻译文本中的部分或者全部文本进行翻译。

示例性地，对于手机移动(例如平移、旋转、远近拉伸、抖动等)幅度较大的场景，可以判断出位姿变化大，待翻译内容有变化，可能全部发生变化，也可能仅一部分变化，因此当前帧图像中的全部文本或者部分文本需要翻译。

情况1：在第二待翻译文本中的第一部分文本与第一待翻译文本相同的情况下，获取第一翻译结果，作为第一部分文本的翻译结果；并调用翻译引擎对第二部分文本进行翻译，得到该第二部分文本的翻译结果，该第二部分文本为第二待翻译文本中除第一部分文本之外的文本。其中，上述第二待翻译文本的翻译结果包括第一部分文本的翻译结果以及第二部分文本的翻译结果。

在上述情况1中，若当前帧图像与前一帧图像有部分文本内容重叠或重复，则重叠或重复部分的文本无需翻译，也无需对翻译结果进行渲染。

情况2：在第二待翻译文本与第一待翻译文本没有相同文本的情况下，调用翻译引擎对第二待翻译文本中的全部文本进行翻译，得到第二待翻译文本的翻译结果。

可选地，在本申请实施例中，电子设备可以提取第一图像中的特征点，并提取第二图像中的特征点。然后，电子设备将第二图像中的特征点与第一图像中的特征点进行特征比对，可以得到第二图像与第一图像的特征相似度。

如此，通过对所采集的连续多帧图像进行特征提取及匹配，以确定连续多帧图像之间的特征匹配数，或者特征相似度。特征匹配数越多，或者特征相似度越大，则两帧图像文本内容越近似，对于相同的文本内容可以无需翻译。

可选地，在本申请实施例中，电子设备可以采用SLAM方法，生成SLAM地图，并根据第二图像、电子设备中的目标传感器的测量数据和SLAM地图，确定电子设备的位姿信息以及位姿变化量。其中，位姿信息包括位置信息和姿态信息，位姿变化量包括位置变化量和姿态变化量。通过SLAM方法实时跟踪电子设备的位置以及姿态，可以准确地计算电子设备的位姿变化量。

可选的，本申请实施例中，目标传感器可以为惯性测量单元(inertialmeasurement unit，IMU)，也可以为加速度传感器，也可以为陀螺仪传感器，或者可以为其他任意满足使用需求的传感器，例如接近光传感器或者霍尔传感器，具体可以根据实际使用需求确定，本申请实施例不作限定。

示例性地，如图4所示，目标传感器通过检测坐标系中x，y，z三个方向的平移距离，可以确定电子设备1的位置以及位置变化量。目标传感器通过检测坐标系中x，y，z三个方向的转动角度，可以确定电子设备1的姿态以及姿态变化量。

在实际实现时，当电子设备移动时，电子设备中的SLAM系统创建SLAM地图，并且电子设备中的传感器实时采集电子设备的运动数据。电子设备可以基于SLAM地图估计的位姿以及由传感器采集的运动数据所估计的位姿来共同确定电子设备的最终位姿以及位姿变化量。

需要说明的是，当电子设备检测到位置变化量小于预设位置阈值，且姿态变化量小于预设位置阈值时，可以认为电子设备的位姿变化量小于预设位姿阈值。

还需要说明的是，当电子设备检测到位置变化量大于或等于预设位置阈值，且姿态变化量大于或等于预设位置阈值时，可以认为电子设备的位姿变化量大于或等于预设位姿阈值。或者，当电子设备检测到位置变化量大于或等于预设位置阈值时，也可以认为电子设备的位姿变化量大于或等于预设位姿阈值。或者，当电子设备检测到姿态变化量大于或等于预设姿态阈值时，也可以认为电子设备的位姿变化量大于或等于预设位姿阈值。

由上可知，本申请实施例提供了合理的翻译触发策略：结合电子设备的SLAM跟踪定位的结果以及采集图像的内容相似度对比结果进行综合分析，判断当前帧图像中的文本是否要全部翻译，或者是部分翻译，或者是不需要翻译。这样可以有效避免重复翻译，因此可以节省AR翻译流程中的计算资源，并且在一定程度上提升了翻译效率。

S106，在显示屏上显示第二图像，并在第二图像上叠加显示第二虚拟图像，该第二虚拟图像包括第二待翻译文本的翻译结果。

可选地，在本申请实施例中，电子设备可以采用SLAM方法确定用于显示AR数字化内容的目标虚拟平面，该目标虚拟平面位于所采集图像所在平面的上方。在此情况下，电子设备可以在目标虚拟平面显示第二虚拟图像，从而实现在第二图像上叠加显示第二虚拟图像。

示例性地，以手机为例，手机通常可以分析手机在空间中相对于待翻译目标的位置和姿态，并且构建空间环境的三维模型，即使手机的位置和姿态发生变化，也可以准确地将AR数字化内容叠加显示于待翻译目标对应的图像上。

在本申请实施例中，步骤S106具体实现方式为：电子设备可以将显示屏上显示的第一图像以及第一虚拟图像更新显示为第二图像以及第二虚拟图像，该第二虚拟图像叠加显示在第二图像上。

需要说明的是，对于上述S105A的情况，当检测到电子设备的位姿变化小，且待翻译内容没变化时，无需再次翻译，直接获取之前的翻译结果即可。也就是说，在此情况下，在显示屏上显示的第二图像和第一图像实质上为内容相同的图像，在第二图像上叠加显示的第二虚拟图像可以为与第一虚拟图像相同的图像。

可选地，在本申请实施例中，电子设备可以确定第二待翻译文本在目标虚拟平面上的目标投影区域，这样电子设备可以在目标虚拟平面的该目标投影区域显示第二虚拟图像。

这样，通过实时跟踪，并将待翻译文本在虚拟平面上进行位置映射，可以准确地定位用于显示翻译结果的位置，这样可以保证待翻译文本与翻译结果在位置上实时对应，因此可以提升AR显示效果，便于用户阅读。

可选地，在本申请实施例中，电子设备可以确定第二待翻译文本在第二图像中占据的第一矩形区域，并根据第一矩形区域的对角线上的两个端点，确定该两个端点映射在目标虚拟平面上的两个锚定点，并在目标虚拟平面上以该两个锚定点为对角线，确定第二矩形区域。其中，该第二矩形区域即为第二待翻译文本在目标虚拟平面上的目标投影区域。

可选地，在本申请实施例中，电子设备可以设置目标投影区域的透明度小于或等于预设透明度阈值。其中，透明度也称为透过率，透明度越小，则说明遮挡效果越明显。其中，预设透明度阈值可以为30％，也可以为10％，还可以为0％，0％即代表完全不透明。具体可以根据实际使用需求确定，本申请实施例不作限定。

在实际实现时，目标投影区域的透明度被设置为较小值，使得目标投影区域不透明或者半透明，这样可以实现在对应的待翻译文本上方显示翻译结果，且翻译结果能够覆盖或遮挡待翻译文本，避免待翻译文本对虚拟显示的翻译结果造成视觉干扰或影响，因此更便于用户阅读，提升用户体验。

本申请实施例通过增加定位跟踪功能，将渲染后的翻译结果准确地与原始位置匹配，随相对位置变化而呈现视角下的内容，在用户后续将电子设备旋转、拉远拉近等位姿变化的操作中能够呈现精准的显示效果，如字号、贴合度、涂抹区域与背景差异等。

为了更整体直观地理解，下面再结合图5所示的系统框图对本申请实施例提供的AR翻译的处理方法进行整体详细地描述。

如图5所示，系统框图中包括下述的步骤S201-S214。其中，可以分为五大部分：初始化SLAM和OCR引擎、SLAM位姿跟踪、翻译触发策略、文字提取/翻译/生成数字化内容、数字化内容锚定显示。

S201，初始化SLAM和OCR引擎。

假设电子设备具备SLAM功能和OCR功能，电子设备在开启AR翻译功能时，启动SLAM功能和OCR功能。并且，电子设备开启摄像头以采集图像。

S202，通过SLAM对电子设备进行位姿跟踪。

其中，在SLAM位姿跟踪过程中，分别实现特征提取与匹配，位姿跟踪以及地图构建等。

通过特征提取与匹配，可以得到采集到的前后帧图像的特征匹配数(记为N1)。

通过位姿跟踪，可以得到电子设备的位姿信息，该位姿信息包括电子设备的当前位置和姿态，以及位置变化量和姿态变化量。

可选地，在本申请实施例中，可以通过提取特征点并进行特征点匹配，估算电子设备的位姿变化信息。具体地，首先提取前后两个关键帧的特征点，然后进行特征点匹配，在匹配好特征点之后，可以得到两个一一对应的像素点集。接下来，根据两组匹配好的像素点集，确定电子设备的位姿变化信息。

通过地图构建，可以生成虚拟的数字平面，以用于显示翻译结果。

如此，通过采集到的图像和IMU传感器采集的数据，进行特征提取及匹配，经过前端的跟踪数据和后端的地图数据，计算出当前帧图像的位姿，并生成虚拟的数字平面。

然后执行翻译触发策略，通过以上得到的位姿信息、虚拟的数字平面、特征匹配数进行判别分析，确定是否要全部翻译，还是部分翻译，或者时不需要翻译。具体判断过程参见下述的步骤S203-S207。

S203，判断特征匹配数N1是否小于阈值(记为N)，并且位姿变化量(记为P1)是否小于阈值门限(记为P)。

其中，当位置变化量和姿态变化量均小于对应阈值时，可以认为位姿变化量小于阈值门限。

若是，则执行下述的S204；若否，则执行下述的S205。

S204，若N1小于N且P1小于P，则说明图像中的待翻译内容变化，因此需要对图像中的全部文本进行翻译。

S205，判断N1是否小于N，且P1是否大于或等于P。

其中，当位置变化量和/或姿态变化量大于或等于对应阈值时，可以认为位姿变化量大于或等于阈值门限。

若是，则执行下述的S206；若否，则执行下述的S207。

S206，若N1小于N且P1大于或等于P，则说明电子设备的位姿变化较大，因此需要对图像中的部分或者更全部文本进行翻译。

情况1：若当前图像与之前采集的图像具有相同或重复内容，则重复内容无需翻译，其他部分需要翻译。

情况2：若无重复内容，则需全部翻译。

S207，若N1大于或等于N且P1小于P，则说明电子设备的位姿变化较小，待翻译内容没变化，因此此帧图像中的文本无需翻译。

在S204和S206之后，继续执行下述的S208。

S208，调用OCR引擎，采用OcrLoop程序提取图像中的文字。

其中，可以通过图像预处理、文本检测以及文本识别等步骤，实现文字提取目的。

在图像预处理的过程中，可以采用例如二值化、去噪和倾斜角检测校正等方式，对所采集的图像进行预处理。

在文本检测的过程中，可以使用传统的连通区域算法或者基于深度学习算法，获得文字区域的位置。

在文本识别的过程中，可以基于深度学习的OCR算法，获得文字区域里的内容。

其中，结合上述S204的情况，需要对图像中全部文字进行提取。结合上述S206的情况，需要对图像中部分或者全部文字进行提取。

S209，回调onOcrComplete程序，完成文字提取。

S210，调用翻译引擎，对识别得到的文字进行翻译。

该过程主要是调用翻译引擎，将S209中提取得到的文字内容翻译成目标语言。

S211，将翻译结果渲染成数字化内容。

将S210中得到的翻译结果进行转换处理，生成可以虚拟显示的数字化内容。在实际实现时，该数字化内容可以为虚拟图像。

如此，通过S208-S211，完成文字提取、翻译以及将翻译结果处理成数字化内容。

S212，获取数字化内容在当前图像上的位置，例如可以选取数字化内容所在矩形对角线上的两个端点。

S213，由两个端点分别引出两条垂直于矩形面的射线，与虚拟平面相交，得到两个锚定点。其中，这两个锚定点可以用于确定数字化内容在虚拟平面上的放置位置和显示尺寸。

S214，将最终结果渲染显示于虚拟平面上。

进一步地，反复执行S202-S214，进行AR翻译。

下面再结合图6至图9，示例性地说明本申请实施例的AR翻译场景中，电子设备与待翻译目标的相对位姿在不同情况时的翻译显示结果。

图6示出了在AR翻译时电子设备采集图像并提取文字进行翻译的场景下的交互界面示意图。

如图6中(a)所示，电子设备1开启AR翻译功能，摄像头已开启，对准待翻译目标1进行图像采集。待翻译目标1中包含文本24“Cease to struggle and you cease to live”。电子设备1从采集到的图像中提取该文本，并调用翻译引擎进行翻译，得到翻译结果“生命不止，奋斗不息”。进一步，将翻译结果渲染成数字化内容，形成虚拟图像。如图6中(b)所示，电子设备1在显示屏上显示采集到的实体图像25，并在实体图像25上叠加显示翻译结果对应的虚拟图像26。

其中，虚拟图像26在显示时可以覆盖或者遮挡文本区域，并且实体图像25中除文本之外的图形可以正常显示，不会被虚拟图像26遮挡。

图7示出了在AR翻译时电子设备的位姿变化后图像内容发生变化且内容有重复的场景下的交互界面示意图。在此场景中，待翻译文本中的已翻译部分无需翻译。

如图7中(a)所示，电子设备1采集到待翻译目标1的图像，该待翻译目标1的图像中包含文本24，通过上述文字提取、翻译以及生成数字化内容等过程之后，在电子设备1的显示屏上显示实体图像25和虚拟图像26叠加后的立体图像，该虚拟图像26即文本24对应的翻译结果。

电子设备1继续采集图像，此时检测到电子设备1沿某一方向平移并与待翻译目标1距离拉远，并且电子设备1采集到的待翻译目标1的图像内容发生变化，如图7中(b)所示，待翻译目标1的图像中不仅包含文本24，而且还包含文本27“Good luck！”。其中，由于文本24为已经翻译过的内容，因此无需翻译，此时仅需要翻译文本27。如图7中(b)所示，电子设备1在显示屏上显示采集到的实体图像28，并在实体图像28上叠加显示与文本24的翻译结果对应的虚拟图像26以及与文本27的翻译结果对应的虚拟图像29(“祝你好运！”)。

图8示出了在AR翻译时电子设备的位姿变化较小且图像内容发生变化且内容没有重复的场景下的交互界面示意图。在此场景中，待翻译文本中不包含已翻译文本，需全部翻译。

如图8中(a)所示，电子设备1采集到待翻译目标1的图像，该待翻译目标1的图像中包含文本24，通过上述文字提取、翻译以及生成数字化内容等过程之后，在电子设备1的显示屏上显示实体图像25和虚拟图像26叠加后的立体图像，该虚拟图像26即文本24对应的翻译结果。

电子设备1继续采集图像，此时检测到电子设备1的位姿不变或者变化较小，但是电子设备1采集到的待翻译目标1的图像内容发生变化，如图8中(b)所示，待翻译目标1的图像中由文本24变为文本30。其中，由于文本30为没有翻译过的内容，因此需要翻译。如图8中(b)所示，电子设备1在显示屏上显示采集到的实体图像31，并在实体图像31上叠加显示与文本30的翻译结果对应的虚拟图像32。

图9示出了在AR翻译时电子设备的位姿变化较小且图像内容不变的场景下的交互界面示意图。在此场景中，待翻译文本均为已翻译文本，无需翻译。

如图9中(a)所示，电子设备1采集到待翻译目标1的图像，该待翻译目标1的图像中包含文本24，通过上述文字提取、翻译以及生成数字化内容等过程之后，在电子设备1的显示屏上显示实体图像25和虚拟图像26叠加后的立体图像，该虚拟图像26即文本24对应的翻译结果。

电子设备1继续采集图像，此时检测到电子设备1的位姿不变或者变化较小，并且电子设备1采集到的待翻译目标1的图像内容没有变化，如图9中(b)所示，待翻译目标1的图像中包含文本24。其中，由于文本24为已经翻译过的内容，因此无需翻译。如图9中(b)所示，电子设备1在显示屏上仍然显示采集到的实体图像25，并在实体图像25上叠加显示与文本24的翻译结果对应的虚拟图像26。

需要说明的是，本申请实施例通过对设备SLAM跟踪定位及设置合理的翻译触发策略来解决以下问题：(1)翻译数字化内容漂移不贴合，字体的格式和大小跳变；以及(1)重复翻译带来的端侧算法调度开销大，增加流量损耗和云端计算资源使用。

对于上述问题(1)：现有技术中，在AR翻译过程中，当用户手持或佩戴AR设备的姿势发生变化时(如移动、旋转、远近拉伸或者抖动等)时，会出现翻译结果漂移不贴合以及字体格式和大小跳变等现象，因此3D翻译效果不佳，影响用户使用体验。

本申请方案将翻译的结果渲染成数字化内容后，直接覆盖在原内容对应位置上。翻译结果与原内容位置变化时，不是机械的将翻译结果贴上去；而是要跟踪定位二者的位姿变化情况。当二者相对位姿变化超过预设阈值，则重新翻译，显示新的翻译结果；当二者相对位姿变化较小时，利用定位跟踪技术，将上一次的翻译结果准确覆盖在当前的图像对应位置上。

与现有技术相比，本申请实施例可以通过将数字化内容与SLAM虚拟的平面锚定，SLAM实时跟踪，并结合电子设备的位置/姿态，准确定位翻译结果的显示位置，在一定程度上避免翻译结果漂移不贴合以及字体格式和大小跳变等现象。

对于上述问题(2)：与现有技术的实时逐帧翻译的方式相比，本申请方案首先对于采集的图像作分析，判断前后帧图像中的内容是否发生变化，确定是否需要全部翻译，例如，对于内容变化较小的图像可以不需要翻译，这样可以降低算法调度开销，节省计算资源。

本申请方案通过实时定位跟踪相机与被拍摄对象的相对位姿信息，当位姿变化小于预设阈值时，直接将第一次翻译结果动态叠加在当前图像上显示，不需要额外的翻译过程；而当位姿变化大于预设阈值时，重新进行图像识别和翻译，将新的翻译内容叠加在当前图像上。

图10示意性地示出了采用本申请方案进行AR翻译的界面示意图。如图10所示，在电子设备已开启AR翻译功能后，电子设备采集图像(称为原图像)，并提取该图像中的文本内容“math”，并对文本内容进行翻译，得到翻译结果“数学”；然后，电子设备在原图像上叠加显示文本的翻译结果，呈现AR显示效果。

基于上述实施例说明可知，在通过本申请方案进行AR翻译时，当用户手持手机不稳定时，如抖动旋转等情况，可以显示准确的翻译字号、良好的贴合效果、差异小的涂抹区域与背景，实时与待翻译目标对应匹配。并且，可以减少算法调度开销，从而可以减少卡顿、耗时和功耗。

也需要说明的是，在本申请实施例中，“大于”可以替换为“大于或等于”，“小于或等于”可以替换为“小于”，或者，“大于或等于”可以替换为“大于”，“小于”可以替换为“小于或等于”。

本文中描述的各个实施例可以为独立的方案，也可以根据内在逻辑进行组合，这些方案都落入本申请的保护范围中。

可以理解的是，上述各个方法实施例中由电子设备实现的方法和操作，也可以由可用于电子设备的部件(例如芯片或者电路)实现。

上文描述了本申请提供的方法实施例，下文将描述本申请提供的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见上文方法实施例，为了简洁，这里不再赘述。

上文主要从方法步骤的角度对本申请实施例提供的方案进行了描述。可以理解的是，为了实现上述功能，实施该方法的电子设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的保护范围。

本申请实施例可以根据上述方法示例，对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有其它可行的划分方式。下面以采用对应各个功能划分各个功能模块为例进行说明。

图11为本申请实施例提供的AR翻译的处理装置800的示意性框图。该装置800可以用于执行上文方法实施例中电子设备所执行的动作。该装置800包括图像采集单元810、处理单元820和显示单元830。

图像采集单元810，用于采集第一图像，所述第一图像中包含第一待翻译文本；

处理单元820，用于调用翻译引擎对所述第一待翻译文本进行翻译，得到第一翻译结果；

显示单元830，用于在装置800的显示屏上显示所述第一图像，并在所述第一图像上叠加显示第一虚拟图像，所述第一虚拟图像包括所述第一翻译结果；

图像采集单元810，还用于通过所述摄像头采集第二图像，所述第二图像中包含第二待翻译文本；

处理单元820，还用于：若所述装置800的位姿变化量小于预设位姿阈值，且所述第二图像与所述第一图像的特征相似度大于或者等于预设相似度阈值，则获取所述第一翻译结果，作为所述第二待翻译文本的翻译结果；或者，若所述装置800的位姿变化量小于所述预设位姿阈值，且所述特征相似度小于所述预设相似度阈值，则调用翻译引擎对所述第二待翻译文本进行翻译；或者，若所述装置800的位姿变化量大于或等于所述预设位姿阈值，且所述特征相似度小于所述预设相似度阈值，则调用翻译引擎对所述第二待翻译文本中的部分或者全部文本进行翻译；

显示单元830，还用于在所述显示屏上显示所述第二图像，并在所述第二图像上叠加显示第二虚拟图像，所述第二虚拟图像包括所述第二待翻译文本的翻译结果。

通过本申请实施例提供的方案，在采用电子设备进行AR翻译的场景中，可以实时检测电子设备的位姿变化情况，并对摄像头采集的连续多帧图像进行特征匹配，进而可以根据电子设备的位姿变化情况以及特征匹配情况，判断待翻译文本是否需要全部翻译，还是需要部分翻译，还是不需要翻译，从而选择对应的翻译触发策略。这样可以有效避免重复翻译，因此可以节省AR翻译流程中的计算资源，并且在一定程度上提升了翻译效率。

在一种可能实现方式中，上述调用翻译引擎对第二待翻译文本中的部分或者全部文本进行翻译，包括：

调用翻译引擎对第二部分文本进行翻译，得到该第二部分文本的翻译结果，该第二部分文本为第二待翻译文本中除第一部分文本之外的文本；

在另一种可能实现方式中，上述调用翻译引擎对第二待翻译文本中的部分或者全部文本进行翻译，包括：

在第二待翻译文本与第一待翻译文本没有相同文本的情况下，调用翻译引擎对第二待翻译文本中的全部文本进行翻译，得到第二待翻译文本的翻译结果。

在一种可能实现方式中，处理单元820，还用于：

提取第一图像中的特征点以及第二图像中的特征点；

在一种可能实现方式中，处理单元820，还用于：

采用同步定位与地图构建SLAM方法，生成SLAM地图；

其中，上述目标传感器包括IMU传感器；当然，目标传感器还可以包括其他任意满足实际使用需求的传感器，例如陀螺仪传感器，或者加速度传感器，本申请对此不作限定。

在一种可能实现方式中，处理单元820，还用于：

其中，上述在第二图像上叠加显示第二虚拟图像，包括：

在上述目标虚拟平面显示第二虚拟图像。

在一种可能实现方式中，处理单元820，还用于：

确定第二待翻译文本在目标虚拟平面上的目标投影区域；

其中，上述在目标虚拟平面显示第二虚拟图像，包括：

在上述目标投影区域显示第二虚拟图像。

确定第二待翻译文本在第二图像中占据的第一矩形区域；

在一种可能实现方式中，处理单元820，还用于设置目标投影区域的透明度小于或等于预设透明度阈值。

在一种可能实现方式中，处理单元820，还用于：

对第一图像进行文本识别，得到第一待翻译文本；以及，对第二图像进行文本识别，得到第二待翻译文本。

示例性地，可以采用OCR技术进行文本识别。

在一种可能实现方式中，处理单元820，还用于：

对第一待翻译文本的翻译结果进行渲染，得到第一虚拟图像；以及，对第二待翻译文本的翻译结果进行渲染，得到第二虚拟图像。

根据本申请实施例的装置800可对应于执行本申请实施例中描述的方法，并且装置800中的单元的上述和其它操作和/或功能分别为了实现方法的相应流程，为了简洁，在此不再赘述。

图12是本申请实施例提供的电子设备900的结构性示意性图。该电子设备900可以包括处理器910，外部存储器接口920，内部存储器921，通用串行总线(universal serialbus，USB)接口930，充电管理模块940，电源管理单元941，电池942，天线1，天线2，移动通信模块950，无线通信模块960，音频模块970，扬声器970A，受话器970B，麦克风970C，耳机接口970D，传感器模块980，按键990，马达991，指示器992，摄像头993，显示屏994，以及用户标识模块(subscriber identification module，SIM)卡接口995等。其中传感器模块980可以包括压力传感器980A，陀螺仪传感器980B，气压传感器980C，磁传感器980D，加速度传感器980E，距离传感器980F，接近光传感器980G，指纹传感器980H，温度传感器980I，触摸传感器980J，环境光传感器980K以及骨传导传感器980L等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备900的具体限定。在本申请另一些实施例中，电子设备900可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器910可以包括一个或多个处理单元，例如：处理器910可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是电子设备900的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号(例如用于图像采集的控制信号、用于文本提取的控制信号、用于文本翻译的控制信号、用于图像渲染及显示的控制信号等)，完成取指令和执行指令的控制。

处理器910中还可以设置存储器，用于存储指令和数据，例如用于存储在AR翻译过程中所采集的图像数据以及文本翻译结果。在一些实施例中，处理器910中的存储器为高速缓冲存储器。该存储器可以保存处理器910刚用过或循环使用的指令或数据。如果处理器910需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器910的等待时间，因而提高了系统的效率。

处理器910可以用于执行上述程序代码，调用相关模块以实现本申请实施例中电子设备的AR翻译功能。

在一些实施例中，处理器910可以包括一个或多个接口。该接口可以包括集成电路(inter-integrated circuit，I2C)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，通用输入输出(general-purpose input/output，GPIO)接口，和/或通用串行总线(universal serial bus，USB)接口等。可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备900的结构限定。在本申请另一些实施例中，电子设备900也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备900通过GPU，显示屏994，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏994和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器910可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏994用于显示图像或视频等，例如用于显示AR翻译结果。显示屏994包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备900可以包括1个或N个显示屏994，N为大于1的正整数。

电子设备900可以通过ISP、摄像头993、视频编解码器、GPU、显示屏994以及应用处理器等实现拍摄功能。

ISP用于处理摄像头993反馈的数据。例如，在AR图像采集时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的实景图像以及虚拟图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中，ISP可以设置在摄像头993中。

摄像头993用于捕获静态图像或视频，例如在AR翻译时用于采集待翻译文本的图像。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(chargecoupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备900可以包括1个或N个摄像头993，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备900的智能认知等应用，例如：图像识别，文本识别，文本理解等。

外部存储器接口920可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备900的存储能力。外部存储卡通过外部存储器接口920与处理器910通信，实现数据存储功能。例如将AR翻译过程中所采集的图像数据以及文本翻译结果等文件保存在外部存储卡中。

内部存储器921可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器910通过运行存储在内部存储器921的指令，从而执行电子设备900的各种功能应用以及数据处理。内部存储器921可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如AR翻译功能等)等。存储数据区可存储电子设备900使用过程中所创建的数据(比如AR相关图像数据等)等。此外，内部存储器921可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

压力传感器980A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器980A可以设置于显示屏994。压力传感器980A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器980A，电极之间的电容改变。电子设备900根据电容的变化确定压力的强度。当有触摸操作作用于显示屏994，电子设备900根据压力传感器980A检测触摸操作强度。电子设备900也可以根据压力传感器980A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于AR翻译应用图标时，执行开启AR翻译应用的指令。

陀螺仪传感器980B可以用于确定电子设备900的运动姿态。在一些实施例中，可以通过陀螺仪传感器980B确定电子设备900围绕三个轴(例如x，y和z轴)的角速度，从而确定电子设备900的姿态。陀螺仪传感器980B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器980B检测电子设备900抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备900的抖动，实现防抖。陀螺仪传感器980B还可以用于导航，体感游戏场景。

加速度传感器980E可检测电子设备900在各个方向上(一般为三轴)加速度的大小。当电子设备900静止时可检测出重力的大小及方向，还可以用于检测电子设备的姿态，应用于横竖屏切换等应用。

距离传感器980F用于测量距离。电子设备900可以通过红外或激光测量距离。在一些实施例中，在AR翻译时的图像采集场景中，电子设备900可以利用距离传感器980F测距以实现快速对焦。

接近光传感器980G可以包括例如发光二极管(light-emitting diode，LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备900通过发光二极管向外发射红外光。电子设备900使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备900附近有物体。当检测到不充分的反射光时，电子设备900可以确定电子设备900附近没有物体。电子设备900可以利用接近光传感器980G检测电子设备900与待翻译目标的距离大小及距离变化。

环境光传感器980K用于感知环境光亮度。电子设备900可以根据感知的环境光亮度自适应调节显示屏994亮度。环境光传感器980K也可用于图像采集时自动调节白平衡。

磁传感器980D包括霍尔传感器。电子设备900可以利用磁传感器980D检测电子设备900的位移。在一些实施例中，霍尔传感器可以利用磁铁形成线性的梯形磁场(或称为斜坡磁场)，霍尔片在线性磁场中的位移变化与磁场强度变化相一致，形成的霍尔电势也就与位移成正比，电子设备900获取霍尔电势，就可以测量出电子设备900的位移大小。

触摸传感器980J，也称“触控面板”。触摸传感器980J可以设置于显示屏994，由触摸传感器980J与显示屏994组成触摸屏，也称“触控屏”。触摸传感器980J用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏994提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器980J也可以设置于电子设备900的表面，与显示屏994所处的位置不同。

按键990包括开机键、音量键、AR翻译控件等。按键990可以是机械按键。也可以是触摸式按键。电子设备900可以接收按键输入，产生与电子设备900的用户设置以及功能控制有关的键信号输入，例如当电子设备接收到用户对AR翻译控件的输入，电子设备900可以产生触发摄像头开启以及启用AR翻译功能的指令。

马达991可以产生振动提示。马达991可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如AR翻译应用等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏994不同区域的触摸操作，马达991也可对应不同的振动反馈效果。不同的应用场景也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

可选地，电子设备900可以为移动终端，也可以为非移动终端。示例性的，电子设备900可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)、无线耳机、无线手环、无线智能眼镜、无线手表、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备，例如AR头盔或AR眼镜等。本申请实施例对电子设备900的设备类型不予具体限定。

应理解，图12所示的电子设备900可对应于图11所示的装置800。其中，图12所示的电子设备900中的处理器910、显示屏994、摄像头993，可以分别对应于图11中的装置800中的处理单元820、显示单元830、图像采集单元810。

在实际实现时，在电子设备900运行时，处理器910执行存储器921中的计算机执行指令以通过电子设备900执行上述方法的操作步骤。

可选地，在一些实施例中，本申请提供一种芯片，该芯片与存储器耦合，该芯片用于读取并执行存储器中存储的计算机程序或指令，以执行上述各实施例中的方法。

可选地，在一些实施例中，本申请提供一种电子设备，该电子设备包括芯片，该芯片用于读取并执行存储器存储的计算机程序或指令，使得各实施例中的方法被执行。

可选地，在一些实施例中，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述各实施例中的方法。

可选地，在一些实施例中，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述各实施例中的方法。

在本申请实施例中，电子设备包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。其中，硬件层可以包括中央处理器(central processingunit，CPU)、内存管理单元(memory management unit，MMU)和内存(也称为主存)等硬件。操作系统层的操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。应用层可以包含浏览器、通讯录、文字处理软件、即时通信软件等应用。

本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构进行特别限定，只要能够通过运行记录有本申请实施例提供的方法的代码的程序，以根据本申请实施例提供的方法进行通信即可。例如，本申请实施例提供的方法的执行主体可以是电子设备，或者，是电子设备中能够调用程序并执行程序的功能模块。

本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本文中使用的术语“制品”可以涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasable programmableread-only memory，EPROM)、卡、棒或钥匙驱动器等)。

本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于：无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

应理解，本申请实施例中提及的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)。例如，RAM可以用作外部高速缓存。作为示例而非限定，RAM可以包括如下多种形式：静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)可以集成在处理器中。

还需要说明的是，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的保护范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。此外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上，或者说对现有技术做出贡献的部分，或者该技术方案的部分，可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，该计算机软件产品包括若干指令，该指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。前述的存储介质可以包括但不限于：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种增强现实AR翻译的处理方法，其特征在于，包括：

通过电子设备的摄像头采集第一图像，所述第一图像中包含第一待翻译文本；

对所述第一待翻译文本进行翻译，得到第一翻译结果；

显示所述第一图像，并在所述第一图像上叠加显示第一虚拟图像，所述第一虚拟图像包括所述第一翻译结果；

通过所述摄像头采集第二图像，所述第二图像中包含第二待翻译文本；

根据所述第二图像、所述电子设备中的目标传感器的测量数据和SLAM地图，确定所述电子设备的位姿变化量；所述位姿变化量包括位置变化量和姿态变化量；

若所述电子设备的位姿变化量小于预设位姿阈值，且所述第二图像与所述第一图像的特征相似度大于或者等于预设相似度阈值，则获取所述第一翻译结果，作为所述第二待翻译文本的翻译结果；

若所述电子设备的位姿变化量小于所述预设位姿阈值，且所述特征相似度小于所述预设相似度阈值，则对所述第二待翻译文本进行翻译；

若所述电子设备的位姿变化量大于或等于所述预设位姿阈值，且所述特征相似度小于所述预设相似度阈值，则对所述第二待翻译文本中的部分或者全部文本进行翻译；

显示所述第二图像，并在所述第二图像上叠加显示第二虚拟图像，所述第二虚拟图像包括所述第二待翻译文本的翻译结果；

其中，所述对所述第二待翻译文本中的部分或者全部文本进行翻译，包括：

在所述第二待翻译文本中的第一部分文本与所述第一待翻译文本相同的情况下，获取所述第一翻译结果，作为所述第一部分文本的翻译结果；对第二部分文本进行翻译，得到所述第二部分文本的翻译结果，所述第二部分文本为所述第二待翻译文本中除所述第一部分文本之外的文本；其中，所述第二待翻译文本的翻译结果包括所述第一部分文本的翻译结果以及所述第二部分文本的翻译结果；

在所述第二待翻译文本与所述第一待翻译文本没有相同文本的情况下，对所述第二待翻译文本中的全部文本进行翻译，得到所述第二待翻译文本的翻译结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述第一图像中的特征点以及所述第二图像中的特征点；

将所述第二图像中的特征点与所述第一图像中的特征点进行特征比对，得到所述第二图像与所述第一图像的特征相似度。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用同步定位与地图构建SLAM方法，生成所述SLAM地图；

其中，所述目标传感器包括惯性测量单元IMU。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

采用SLAM方法确定用于显示AR数字化内容的目标虚拟平面，所述目标虚拟平面位于所采集图像所在平面的上方；

其中，所述在所述第二图像上叠加显示第二虚拟图像，包括：

在所述目标虚拟平面显示所述第二虚拟图像。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定所述第二待翻译文本在所述目标虚拟平面上的目标投影区域；

其中，所述在所述目标虚拟平面显示所述第二虚拟图像，包括：

在所述目标投影区域显示所述第二虚拟图像。

6.根据权利要求5所述的方法，其特征在于，所述确定所述第二待翻译文本在所述目标虚拟平面上的目标投影区域，包括：

确定所述第二待翻译文本在所述第二图像中占据的第一矩形区域；

根据所述第一矩形区域的对角线上的两个端点，确定所述两个端点映射在所述目标虚拟平面上的两个锚定点；

在所述目标虚拟平面上以所述两个锚定点为对角线，确定第二矩形区域；

其中，所述第二矩形区域为所述第二待翻译文本在所述目标虚拟平面上的目标投影区域。

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

设置所述目标投影区域的透明度小于或等于预设透明度阈值。

8.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

对所述第一图像进行文本识别，得到所述第一待翻译文本；以及，

对所述第二图像进行文本识别，得到所述第二待翻译文本。

9.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

对所述第一待翻译文本的翻译结果进行渲染，得到所述第一虚拟图像；以及，

对所述第二待翻译文本的翻译结果进行渲染，得到所述第二虚拟图像。

10.一种电子设备，其特征在于，包括显示屏、摄像头和处理器，所述处理器与存储器耦合，所述处理器用于执行所述存储器中存储的计算机程序或指令，以使得所述电子设备实现如权利要求1至9中任一项所述的方法。

11.一种芯片系统，其特征在于，所述芯片系统与存储器耦合，所述芯片系统用于读取并执行所述存储器中存储的计算机程序，以实现如权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至9中任一项所述的方法。