CN112711954B

CN112711954B - 翻译方法、装置、电子设备和存储介质

Info

Publication number: CN112711954B
Application number: CN202011632843.5A
Authority: CN
Inventors: 李方圆
Original assignee: Vivo Software Technology Co Ltd
Current assignee: Vivo Software Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-03-22
Anticipated expiration: 2040-12-31
Also published as: CN112711954A

Abstract

本申请公开了一种翻译方法、装置、电子设备和存储介质，属于通信技术领域。该方法主要包括获取目标图像，目标图像包括第一图像和与第一图像关联的第二图像；在第一图像中的第一文本信息不满足第一预设条件的情况下，在第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段；对第一文本信息和第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息。本申请实施例中提供的方法能够解决翻译准确性低的问题。

Description

翻译方法、装置、电子设备和存储介质

技术领域

本申请属于通信技术领域，具体涉及一种翻译方法、装置、电子设备和存储介质。

背景技术

随着国际化的加深和人们生活水平的提高，跨国工作以及浏览国外多媒体信息的人也越来越多。

目前，在人们进行跨国工作以及浏览国外多媒体信息时，通常采用文本翻译和图片翻译解决语言不通的问题。然而，在用户观看多媒体信息如电影，且电影播放源仅有外文字幕没有中文字幕时，需要通过将屏幕截图后，直接对图片进行翻译，翻译的准确性低。

发明内容

本申请实施例的目的是提供一种翻译方法、装置、电子设备和存储介质，能够解决翻译准确性低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种翻译方法，该方法可以包括：

获取目标图像，目标图像包括第一图像和与第一图像关联的第二图像；

在第一图像中的第一文本信息不满足第一预设条件的情况下，在第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段；

对第一文本信息和第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息。

第二方面，本申请实施例提供了一种翻译装置，该装置可以包括：

获取模块，用于获取目标文本信息，目标文本信息包括第一图像和多个第二图像，第一图像的获取时间小于第二图像的获取时间；

处理模块，用于在第一图像中的第一文本信息不满足第一预设条件的情况下，在多个第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段；

显示模块，用于对第一文本信息和第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面所示的翻译方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面所示的翻译方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面所示的翻译方法。

在本申请实施例中，通过获取目标图像即第一图像和第二图像，可以在目标图像中读取完整的文本信息。接着，对完整的文本信息进行文本翻译，能够提高翻译的准确性。

附图说明

图1为一种翻译的应用场景示意图；

图2为另一种翻译的应用场景示意图；

图3为再一种翻译的应用场景示意图；

图4为本申请实施例提供的一种翻译架构示意图；

图5为本申请实施例提供的另一种翻译架构示意图；

图6为本申请实施例提供的一种翻译方法的流程图；

图7为本申请实施例提供的一种提取第二文本信息的示意图；

图8为本申请实施例提供的另一种提取第二文本信息的示意图；

图9为本申请实施例提供的一种对视频图像中的字幕翻译方法的流程图；

图10为本申请实施例提供的一种对图像中的文本翻译方法的流程图；

图11为本申请实施例提供的一种翻译装置的结构示意图；

图12为本申请实施例提供的一种电子设备的结构示意图；

图13为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

目前，字幕翻译包括下述两种方式。第一种方式是通过获取视频的字幕源然后对字幕源进行翻译；第二种方式是直接对图片中的文本进行翻译。

对于第一种方式，在一些视频无法获取到字幕源的情况下，如引进的国外电影时，该国外电影所属服务器无法提供字幕源，就无法进行字幕翻译。对于第二种方式，由于电子设备的显示屏在显示字幕时，会有字符长度的限制。如果字幕中的某一句文本比较长，导致同一句文本会跨页分布，这样，对字幕进行翻译时，会出现没有上下文信息，造成翻译质量较低的问题。以及，在电子书中同一句或者同一段的文本跨页分布时，在对该句或者该段的文本进行翻译时，也会由于没有考虑到该句的上下文信息，造成翻译质量较低的问题。下面结合图1至图3对上述方式进行举例说明。

如图1和图2所示，句子“Mama always said life was like a box ofchocolates.You never know what you are going to get.”分布在图1和图2。在对视频中字幕进行翻译时，图1中在“You never”的“never”在没有上下文“know”信息的情况下，可以翻译成“从来没有”、“从来不会”、“从未”等等多个含义。由此，如果没有对整句进行翻译的情况下，会造成翻译错误，降低翻译质量，影响用户体验。

同理，如图3所示，在用户进行手动截屏时，截屏获取的多张图片中的内容会有无法衔接或部分重复的情况，由此，也会造成冗余翻译，降低翻译质量的情况。

基于此，下面结合附图4-图6，通过具体的实施例及其应用场景对本申请实施例提供的翻译方法进行详细地说明。

本申请实施例中提出两种翻译架构，第一种翻译架构包括电子设备和服务器，第二种翻译架构包括电子设备和至少两个服务器。本申请实施例中分别以上述两种架构分别进行说明。

首先，基于图4翻译架构中，涉及的电子设备50和服务器51，对本申请实施例提供的翻译方法进行说明。

其中，电子设备50向服务器51发送字幕请求信息，服务器51在接收到字幕请求信息的情况下，确定与该字幕请求信息对应的视频信息，该视频信息包括多个连续的帧图像。服务器51将视频信息发送到电子设备50。电子设备50根据接收到的视频信息，获取目标图像，该目标图像包括视频信息中任意帧对应的第一图像和与第一图像关联的第二图像。

这里，第二图像可以包括下述中的至少一种：与第一图像相邻的前一帧(或者前N帧)图像、与第一图像相邻的后一帧(或者后N帧)图像、在第一图像之后的多帧图像、在第一图像之前的多帧图像。其中，N为大于1的正整数。

接着，电子设备50在第一图像中的第一文本信息不满足第一预设条件的情况下，在第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段。这里，第一预设条件的设置原理是根据第一文本信息不是一个完整的句子，或者不是一个完整的段落，再或者涉及的内容不完整等情况设定。

然后，对第一文本信息和第二文本信息的组合文本进行文本翻译，得到翻译文本信息。将翻译文本信息回贴到第一图像和第二图像中与第一文本信息和第二文本信息对应的位置。由此，可以在第一图像中显示翻译文本信息中的第一翻译信息，以及在第二图像中显示翻译文本信息中的第二翻译信息；其中，第一翻译信息包括第一文本信息翻译后的信息，第二翻译信息包括第二文本信息翻译后的信息。另外，第一翻译信息在第一图像中显示的位置可以是第一文本信息在第一图像中显示的位置，或者，第一翻译信息和第一文本信息对应显示在第一图像中。同理，第二翻译信息在第二图像中显示的位置可以是第二文本信息在第二图像中显示的位置，或者，第二翻译信息和第二文本信息对应显示在第二图像中。

需要说明的是，基于该架构可以应用于如上述所示的，在用户观看第一图像和第二图像之前就将文本翻译好的场景之外，还可以应用于用户在观看第一图像的情况下，实时的对第二图像中的第二文本信息进行翻译的场景，如在电子设备检测到用户观看第一图像的情况下，获取第二图像的第二文本信息，对第一文本信息和第二文本信息的组合文本进行文本翻译，得到翻译文本信息。然后，电子设备将第一图像中的第一文本信息更新为翻译文本信息中的第一翻译信息，并在第一图像中显示第一翻译信息，以及将第二图像中的第二文本信息更新为翻译文本信息中的第二翻译信息，并在第二图像中显示第二翻译信息。

由此，本申请实施例中通过提前预加载第一图像后第二图像中的文本信息，并将其与第一文本信息进行合并，并对合并后的文本信息进行翻译。有效地解决跨页字幕的翻译问题，进而解决因跨页字幕导致字幕句子不完整，以及语义不完整或指代不明的翻译的质量问题，有效提升文本的翻译效果，以及提高用户在观看外文视频时的观影体验。

其次，基于图5的翻译架构中涉及的电子设备60以及多个服务器如服务器61和服务器62，对本申请实施例提供的翻译方法进行说明。这里，服务器61和服务器62可以是位于不同语言类别国家的视频管理服务器，如服务器61为英语视频播放应用程序的服务器，服务器62为中文视频播放应用程序的服务器。当然，服务器61和服务器62也可以是相同国家管理不同语言类别的视频管理服务器，如服务器61为藏语言视频播放应用程序的服务器和服务器62为汉语视频播放应用程序的服务器。

其中，服务器61向服务器62发送视频请求信息，服务器61在接收到视频请求信息的情况下，确定视频信息，该视频信息包括多个连续的帧图像。服务器61在接收到视频信息的情况下，获取视频信息目标图像，该目标图像包括视频信息中任意帧对应的第一图像和与第一图像相关的第二图像。这里，第一图像和第二图像的关系以及第二图像的类别可以如上述图4所示架构中涉及内容，在此不再赘述。

接着，服务器61在第一图像中的第一文本信息不满足第一预设条件的情况下，在第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段。这里，第一预设条件的设置原理是根据第一文本信息不是一个完整的句子，或者不是一个完整的段落，再或者涉及的内容不完整等情况确定的。

再者，服务器61对第一文本信息和第二文本信息的组合文本进行文本翻译，得到翻译文本信息。并将翻译文本信息回贴到第一图像和第二图像中与第一文本信息和第二文本信息对应的位置，以形成翻译后的视频信息。

在电子设备60向服务器61发送播放该视频信息的请求信息的情况下，服务器61向电子设备60发送翻译后的视频信息。电子设备60显示该视频信息，其中，该视频信息的第一图像中显示第一翻译信息，以及在第二图像中显示第二翻译信息；或者，该视频信息的第一图像中显示第一文本信息和与第一文本信息对应的第一翻译信息，以及在第二图像中显示第二文本信息和与第二文本信息对应的第二翻译信息。这里，电子设备60可以包括多个电子设备，即为配置有与服务器61对应的客户端的设备。

由此，本申请实施例中服务器61通过对视频信息进行翻译，以便在多个电子设备向服务器61发送播放请求的情况下，解决跨页字幕的翻译，以及因跨页字幕导致字幕句子不完整，导致的语义不完整或指代不明的翻译的质量问题，提升了文本的翻译效果，提高了用户在观看外文视频或者不同语言视频时的观影体验。

需要说明的是，在本申请实施例中还可以在电子设备播放第一图像时，获取在第一图像之后播放的第二图像。这样，在第一图像中的第一文本信息不满足第一预设条件的情况下，提取与第一图像关联的第二图像中的第二文本信息，以保证在对进行翻译时，翻译的是与第一文本信息属于同一句或者同一个段落的文本。由此，在播放的同时保证了翻译的准确性。

基于上述涉及的两种翻译架构，本申请实施例中的翻译方法可以应用于视频中涉及的对图像字幕翻译的翻译场景中，也可以应用于电子书中涉及的图像文本翻译的翻译场景中，还可以应用于任何文本或者对图像中文本翻译的场景中，例如，对视频中弹幕翻译的场景，其中可以涉及长弹幕翻译、跨行弹幕翻译等。当然，除了可以应用于字幕翻译之外，还可以应用于视频画面中路标、商店名称等招牌内容翻译的场景中。

根据上述应用场景，下面结合图6对本申请实施例提供的翻译方法进行详细说明。

图6为本申请实施例提供的一种翻译方法的流程图。

如图6所示，该翻译方法可以应用于图4中的电子设备，基于此，具体可以包括如下步骤：

首先，步骤710，获取目标图像，目标图像包括第一图像和与第一图像关联的第二图像。接着，步骤720，在第一图像中的第一文本信息不满足第一预设条件的情况下，在第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段。然后，步骤730，对第一文本信息和第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息。

其中，本申请实施例中的第一翻译信息包括第一文本信息翻译后的信息，第二翻译信息包括第二文本信息翻译后的信息。

这样，通过获取目标图像即第一图像和第二图像，可以在目标图像中读取完整的文本信息。接着，对完整的文本信息进行文本翻译，以保证翻译的准确性，提升翻译的效果。

下面对上述步骤进行详细说明，具体如下所示：

首先，涉及步骤720，在一种或者多种可选的实施例中第一预设条件包括下述中的至少一种：

(1)第一文本信息中的起始文本符合第一预设语法条件。

举例说明，根据英文的行文规范，在第一文本信息中包括表示划分文本句和/或文本段的结束符后的起始文本如首字母为大写时，则符合第一预设语法条件。或者，第一文本信息中的首字母为大写时，则符合第一预设语法条件。再或者，在第一文本信息中的首字母为大写，且在第一文本信息中包括表示划分文本句和/或文本段的结束符后的首字母为大写时，则符合第一预设语法条件。

这里，通过首字母的大写情况，可以准确的判断当前句子是否是一个完整句子。

(2)第一文本信息中包括用于划分文本句和/或文本段的第一目标标识。

其中，检测第一文本信息中是否包括用于划分文本句和/或文本段的第一目标标识如结束符。例如，可以检测任一图像中涉及的字幕句子的结尾是否有句子结束符，以英文作为外文来说明，句号(.)、感叹号(！)、问号(？)、省略号(...)、句号+引号(.")均可以作为英文句子的结束符，若检测到这些结束符中的任意一个，则可以确定第一文本信息中包括第一目标标识，即确定第一文本信息为一个完整的句子。反之，若检测没有检测到这些结束符中的任意一个，则可以确定第一文本信息中未包括第一目标标识，即确定第一文本信息不是一个完整的句子。

(3)第一文本信息的语言逻辑指标值大于或者等于第一预设阈值，语言逻辑指标值用于表征第一文本信息的语法合理程度和/或文本完整程度。

其中，在本申请实施例中通过语言模型(Language Model)计算句子的语言逻辑指标值，该语言逻辑指标值用于表征句子的困惑度(Perplexity)。这里，语言模型是常用的文本通顺性检测的算法，可以用于判断一个句子的困惑度，即该句子真实存在的概率和/或文本完整程度。若第一文本信息的语言逻辑指标值大于或者等于第一预设阈值，则确定第一文本信息真实存在的概率较高，即该第一文本信息涉及的句子为完整的句子。反之，若第一文本信息的语言逻辑指标值小于第一预设阈值，则确定第一文本信息涉及的内容不完整，句子真实存在的概率极低。由此，可以依据此判断当前句子是否完整。

基于此，在第二图像中提取第二文本信息，本申请实施例中提供了下述四种方式，具体如下所示：

(1)在文本分隔信息包括第二目标标识的情况下，步骤720中涉及的第二图像中提取第二文本信息的步骤中，具体可以包括：

从第一文本信息中的第一终止字符为起点遍历第二图像中的文本信息；

在检测到第二图像中的文本信息包括用于划分文本句和/或文本段的第二目标标识的情况下，将从第一终止字符到第二目标标识之间的文本信息确定为第二文本信息。在本申请实施例中，在第二图像为多个的情况下，在多个第二图像中确定第二文本信息时，可对第二文本信息进行截断，并对截断的字幕位置进行埋点记录，并记录该埋点后的位置作为新的句子或者文本的开始的位置，以便下一句子或者段落进行文本翻译。如图7所示，在第二图像为2个即第二图像A和第二图像B时，确定第二图像A和第二图像B中“.”之前的字幕为第二文本。接着，以“.”为分界线对第二图像B中的字幕进行截断，并对截断的字幕位置进行埋点如图7所示的三角形位置。这样，将“.”后的句子确定为新的句子如“Younever……”，并将第二图像B中埋点的位置确定为新的句子的开始位置。

另外，上述涉及的遍历第二图像中的文本信息的过程，本申请实施例提供了下述两种方式，具体如下所示：

方式一，从第一文本信息中的第一终止字符为起点遍历第二图像中的文本信息，包括：

在第一图像和第二图像为音视频信息中的图像，且第二图像的数量大于N的情况下，以第一终止字符为起点，按照音视频的播放顺序遍历N个第二图像中的文本信息，N为大于1的正整数。

方式二，从第一文本信息中的第一终止字符为起点遍历第二图像中的文本信息，包括：

根据第一文本信息和第二文本信息的语义信息，确定文本信息的先后顺序；

从第一文本信息为起点，根据文本信息的先后顺序，遍历第二图像中的文本信息。

(2)第二图像中的文本信息包括用于划分文本句和/或文本段的第二目标标识，且在第二目标标识后的文本信息满足第二预设语法条件的情况下，可以从第一文本信息如第一图像中的英文字幕开头往后识别一个完整句子的位置进行截断处理，具体操作方法如下：首先，从左到右遍历字幕中每个单词，定位句子结束符的位置，英文的句子结束符可以是句号(.)、感叹号(！)、问号(？)、省略号(...)、句号+引号(.")等；再检测在第二目标标识后的文本信息满足第二预设语法条件即句子结束符后第一个单词是否为首字母大写形式，若同时满足该两个条件，则将句子结束符后的位置作为分割点进行句子截断。然后，对截断的字幕位置进行埋点记录，同时更新当前字幕为埋点位置后的位置作为新句子的开始位置。

(3)在第一文本信息和多个第二图像中的文本信息存在重复的文本信息，或者在多个第二图像中存在重复的文本信息的情况下，步骤720中涉及的第二图像中提取第二文本信息的步骤中，包括：

将重复的文本信息进行覆盖，并将覆盖后的文本信息确定为第二文本信息。

如图8所示，内容跨页(如第一图像和第二图像中存在内容跨页，或者，多个第二图像中存在内容跨页)后有段落重复的情况如“什么都没有变样：依然是一排排修剪得整整齐齐的树莓，依然是按几何图形布局的小径，两旁种着妈”。对于内容跨页后有段落重复的情况，通过图像识别技术，识别连续图片中的文字，将其中重合的文字片段并进行覆盖拼接，使其保留一份内容即可。

(4)在第二图像中提取第二文本信息，包括：

在第二图像的数量大于N的情况下，在N个第二图像中确定包括文本信息的至少两个目标第二图像；

在至少两个目标第二图像中，确定文本信息的起始字符和第二终止字符；

将起始字符所在的图像与第二终止字符所在的图像按照第二预设顺序进行图像拼接，得到拼接图像；

从拼接图像中提取第二文本信息。

然后，涉及步骤730，在步骤730之前，方法还包括：

在组合文本的语言逻辑指标值小于或者等于第二预设阈值的情况下，显示提示信息；其中，

提示信息包括第一提示信息和/获第二提示信息；

第一提示信息用于提示是否翻译组合文本；第二提示信息用于提示组合文本的语言缺失信息，语言缺失信息由语言逻辑指标值确定。这样，以便向用户提示该情况下无法组成句子，请核实后再进行文本翻译。

例如，向用户显示该组合文本的语法不合理，并显示是否翻译该组合文本，以便用户了解该组合文本的合理程度，以减少翻译错误，影响翻译准确性。另外，若该组合文本中缺少主语或者缺少宾语等语言结构，则可以向用户提示该组合文本的语言缺失信息，以便用户添加，或者提前让用户了解该组合文本为不完整文本，同样可以减少翻译错误，影响翻译的准确性。

由此，在进行字幕翻译时，先提前加载与第一图像相关的多帧第二图像的字幕，读取完整的句子或段落后，再通过子句拆分，切割成多个完整的句子后再翻译，保证句子翻译的正确性以及提升篇章翻译的效果。

另外，对于文本分布在不同图像的情况，先识别找到文字的断点，然后将接上的两段文字读入内存并进行翻译。以及，对于图像截图的重复截图的情况，可以使用计算机视觉中的图片拼接技术，如关键点检测，进行图片的拼接，去除重复内容，保留完整内容，以保证翻译的准确性，提升翻译的效果。

为了更好的说明本申请提供的翻译方法，下面还结合了图9-图10对本申请实施例提供的两个实施例进行详细说明，其中，提供的两个实施例分别以对视频画面中的字幕进行翻译和对图片中文本翻译为例进行说明。

结合图9以对视频图像中的字幕进行翻译为例对本申请实施例提供的翻译方法进行详细说明。

如图9所示，该翻译方法可以应用于图4中的电子设备50，该翻译方法包括步骤1110-步骤1160。

其中，步骤1110，获取当前第一图像中的字幕内容，以及加载当前第一图像后续的多帧第二图像中的字幕内容。这里，多帧第二图像中的每一帧第二图像中均可以包括字幕内容。

步骤1120，通过第一预设条件判断当前第一图像中的字幕内容是否是一个完整的句子，如果是则执行步骤1130对句子进行翻译，否则执行步骤1140。

其中，第一预设条件可以包括下述中的至少一种：

在当前第一图像中的字幕内容中的起始文本符合第一预设语法条件的情况下，确定当前第一图像中的字幕内容是一个完整的句子。

在当前第一图像中的字幕内容中包括用于划分文本句和/或文本段的第一目标标识的情况下，确定当前第一图像中的字幕内容是一个完整的句子。

在当前第一图像中的字幕内容的语言逻辑指标值大于或者等于第一预设阈值的情况下，确定当前第一图像中的字幕内容是一个完整的句子。语言逻辑指标值用于表征第一文本信息的语法合理程度和/或文本完整程度。

这里，具体判断内容可参照步骤720中涉及的内容，在此不再赘述。

步骤1130、调用翻译模型对当前第一图像中的字幕内容进行翻译，并且在翻译后执行步骤1160。

步骤1140、将当前第一图像中的字幕内容与多帧第二图像中的字幕内容进行拼接，得到字幕段落，执行步骤1150。

步骤1150、对字幕段落进行句子截取。

具体地，从当前第一图像中的第一终止字符为起点遍历第二图像中的文本信息，直至识别到一个完整句子，并对其句子的目标标识的位置进行截断处理，具体操作方法如下：

首先，从左到右遍历字幕中每个单词，定位句子结束符的位置，英文的句子结束符可以是句号(.)、感叹号(！)、问号(？)、省略号(...)、句号+引号(.")等；再检测句子结束符后一个单词是否为首字母大写形式，若同时满足该两个条件，则将句子结束符后的位置作为分割点进行句子截断。接着，对截断的字幕位置进行埋点记录，同时更新当前字幕为埋点位置后的位置作为新句子的开始位置。然后，截取出完整句子后执行步骤1130进行字幕的翻译。

步骤1160、显示翻译信息。

其中，在当前第一图像中显示翻译文本信息中的第一翻译信息，以及在第二图像中显示翻译文本信息中的第二翻译信息；其中，第一翻译信息与第一文本信息对应，第二翻译信息与第二文本信息对应，以方便用户阅读。

由此，在该场景下，可以提前预加载视频后续多帧画面中的字幕信息，并将其与当前页字幕进行拼接，有效地解决跨页字幕的翻译问题。另外，还可以解决因跨页字幕导致字幕句子不完整，以及语义不完整或指代不明的翻译问题，并且该方法同时还考虑了上下文几个句子的信息，能够提升篇章级机器翻译的效果，可以提升用户在观看外文视频时的观影体验。

另外，结合图10以对图片中文本翻译为例对本申请实施例提供的翻译方法进行详细说明。

如图10所示，该翻译方法可以应用于图4中的电子设备50，该翻译方法可以包括步骤1210-步骤1250。

其中，步骤1210，获取目标图像，该目标图像可以包括用户上传和/或下载的至少两个图像。

在至少两个图像中确定第一图像以及一个或者多个第二图像。这里，第一图像中包括第一文本信息。

步骤1220，确定第一图像和第二图像中的内容是否可以进行组合。

在确定第一图像和第二图像中的内容可以进行组合的情况下，执行步骤1230。反之，在确定第一图像和第二图像中的内容不可以进行组合的情况下，执行步骤1240。

这里，确定第一图像和第二图像中的内容是否可以进行组合可以将第一图像中的第一文本信息和第二图像中的第二文本信息进行截取和匹配，若第一文本信息和第二文本信息的结合文本的语言逻辑指标值大于或者等于第一预设阈值，则可以确定第一图像和第二图像中的内容可以进行组合。反之，第一文本信息和第二文本信息的结合文本的语言逻辑指标值小于第一预设阈值，则可以确定第一图像和第二图像中的内容不可以进行组合。

步骤1230，对第一图像和第二图像进行图片识别与内容组合，得到组合文文本。

其中，第一图像和第二图像中的文字可能出现以下情况：

情况一：一个完整的句子或者段落跨页但内容衔接的情况，即一句话的前半部分在第一图像的结尾，后半部分在第二图像开头的情况。

此时，可以通过图像识别技术，定位出两个图像中句子的开始位置和结束位置，然后对识别出的开始位置和结束位置的文本进行组合，以得到第一文本信息和与第一文本信息相关的第二文本信息的组合文本，其中，第二图像包括第二文本信息。

情况二：内容跨页后有文本重复的情况，即第二图像中的第二文本信息包括第一文本信息的至少部分信息。

其中，针对该种情况可以通过图像识别技术，识别连续图片中的文字，将其中重合的文字片段进行覆盖并组合。

情况三：多张图片内容无法衔接也不完整的情况。

其中，针对该种情况可以向用户提示第一图像中的第一文本信息与第二图像中的第二文本信息的组合文本不是一个整句或者整段，即不符合语言逻辑的条件。这样，在向用户进行提示时，可以对第一图像和第二图像中的文本信息分别翻译。

另外，本申请实施例还提供了如何对至少两张图像进行以上三种情况的判断方法如下：

至少两个图像中的文本信息是否存在尾和头重合的判断，比较好实现，只要进行前一个图像的尾部和下一个图像的首部进行重合比对即可。若存在重合，则属于上面情况二；否则将第一张和第二张图中文本信息分别按照图9中步骤1150中对图像中的文本进行句子截取，即将第一图像中最后一个句子和第二张图的第一个句子进行拼接，此时通过语言逻辑指标值确定拼接的句子是否完整。若拼接的句子完整，则为情况一；反之，若拼接的句子不完整，则为情况三。

步骤1240、对第一图像和第二图像中的文本信息进行翻译。

其中，若第一图像中的第一文本信息为一个整句即满足第一预设条件时，对第一图像中的第一文本信息进行翻译。若第一图像中的第一文本信息不是一个整句即不满足第一预设条件时，对步骤1230中的组合文本进行翻译。

步骤1250、将翻译文本信息与对应的图像进行融合。

其中，针对上述的三种情况，翻译文本信息与图像融合方式也不同。

针对情况一，对第一文本信息和第二文本信息的组合文本进行翻译，得到翻译文本信息。此时，由于翻译的文本可能与第一文本信息并不完全对应，由此，可以按照翻译文本信息的顺序与第一图像和第二图像进行融合。

其中，若第一文本信息与其对应的第一翻译信息不完全对应时，可以按照翻译文本信息的顺序确定第一翻译信息的长度，以便于第一图像融合。同理，确定第二翻译信息，以便将第二翻译信息与第二图像融合。

这里，第一翻译信息与第一文本信息的对应比例大于或者等于第四预设阈值，同理，第二翻译信息与第二文本信息的对应比例也应大于或者等于第五预设阈值。其中，第四预设阈值与第五预设阈值可以相同，也可不同，在此不再限定。

针对情况二，可以将翻译文本信息中的第一翻译信息与第一图像融合，以及将第一翻译信息中的重复文本对应的翻译信息与第二图像融合(或者，不对第二图像中重复文本的翻译信息进行融合)。这样，可以在第一图像上显示第一翻译信息，以及在第二图像上显示不重复的第二翻译信息。

针对情况三，将翻译文本信息中的第一翻译信息与第一图像融合，以及将翻译文本信息中的第二翻译信息与第二图像融合。这里，第一翻译信息与第一文本信息对应，第二翻译信息与第二文本信息对应。

需要说明的是，第一翻译信息在第一图像中的位置可以如第一文本信息在第一图像中的位置。同理，第二翻译信息在第二图像中的位置可以如第二文本信息在第二图像中的位置。当然，第一翻译信息也可以与第一文本信息对应显示在第一图像上，同理，第二翻译信息也可以与第二文本信息对应显示在第二图像上。

由此，通过图像识别技术，能够识别出多张图像中文本信息的断点位置以及重复的情况，可以解决多图翻译，且翻译内容跨页不完整的问题。与字幕翻译一样，该实施例主要考虑篇章或者句子被截断之后的翻译质量会下降的情况，使用这种修复技术后，能够有效避免因上下文缺失导致的误译和指代不明的翻译问题，提升了用户翻译体验。

需要说明的是，本申请实施例提供的翻译方法，执行主体可以为翻译装置，或者该翻译装置中的用于执行翻译的方法的控制模块。本申请实施例中以翻译装置执行翻译方法为例，说明本申请实施例提供的翻译装置。

基于相同的发明构思，本申请还提供了一种翻译装置。具体结合图11进行详细说明。

图11为本申请实施例提供的一种翻译装置的结构示意图。

如图11所示，该翻译装置130可以应用于电子设备或者服务器，具体可以包括：

获取模块1301，用于获取目标文本信息，目标文本信息包括第一图像和多个第二图像，第一图像的获取时间小于第二图像的获取时间；

处理模块1302，用于在第一图像中的第一文本信息不满足第一预设条件的情况下，在多个第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段；

显示模块1303，用于对第一文本信息和第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息。

由此，通过获取目标图像即第一图像和第二图像，可以在目标图像中读取完整的文本信息。接着，对完整的文本信息进行文本翻译，能够提高翻译的准确性。

下面对该翻译装置130进行详细说明，具体如下所示：

本申请实施例中第一预设条件包括下述中的至少一种：

第一文本信息中的起始文本符合第一预设语法条件；

第一文本信息中包括用于划分文本句和/或文本段的第一目标标识；

第一文本信息的语言逻辑指标值大于或者等于第一预设阈值，语言逻辑指标值用于表征第一文本信息的语法合理程度和/或文本完整程度。

在一种可能的实施例中，处理模块1302具体可以用于，在文本分隔信息包括第二目标标识的情况下，以第一文本信息中的第一终止字符为起点遍历第二图像中的文本信息；

在检测到第二图像中的文本信息包括用于划分文本句和/或文本段的第二目标标识的情况下，将从第一终止字符到第二目标标识之间的文本信息确定为第二文本信息；其中，

目标图像的文本信息为与第一图像相邻的第二图像的文本信息，或者，在第二图像包括多个第二图像时，目标图像的文本信息为多个第二图像中的第一个图像的文本信息。

进一步地，处理模块1302具体可以用于，在第一图像和第二图像为音视频信息中的图像，且第二图像的数量大于N的情况下，以第一终止字符为起点，按照音视频的播放顺序遍历N个第二图像中的文本信息，N为大于1的正整数。

在一种可能的实施例中，处理模块1302具体可以用于，

从拼接图像中提取第二文本信息。

另外，显示模块具体可以用于，在第一图像中显示翻译文本信息中的第一翻译信息，以及在第二图像中显示翻译文本信息中的第二翻译信息；其中，

第一翻译信息包括第一文本信息翻译后的信息，第二翻译信息包括第二文本信息翻译后的信息。

本申请实施例中的翻译装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的翻译装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的翻译装置能够实现图1至图10的方法实施例实现的各个过程，为避免重复，这里不再赘述。

综上，本申请实施例在进行字幕翻译时，先提前加载与第一图像相关的多帧第二图像的字幕，读取完整的句子或段落后，再通过子句拆分，切割成多个完整的句子后再翻译，保证句子翻译的正确性以及提升篇章翻译的效果。

另外，对于文本分布在不同图像的情况，先识别找到文字的断点，然后将接上的两段文字读入内存并进行翻译。以及，对于图像截图的重复截图的情况，可以使用计算机视觉中的图片拼接技术，如关键点检测，进行图片的拼接，去除重复内容，保留完整内容，能够提高翻译的准确性，提升翻译的效果。

可选的，如图12所示，本申请实施例还提供一种电子设备1400，包括处理器1401，存储器1402，存储在存储器1402上并可在处理器1401上运行的程序或指令，该程序或指令被处理器1401执行时实现上述翻译方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

该电子设备1500包括但不限于：射频单元1501、网络模块1502、音频输出单元1503、输入单元1504、传感器1505、显示单元1506、用户输入单元1507、接口单元1508、存储器1509、以及处理器1510等部件。

本领域技术人员可以理解，电子设备1500还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，在本申请实施例中，处理器1510，获取目标图像，目标图像包括第一图像和与第一图像关联的第二图像；在第一图像中的第一文本信息不满足第一预设条件的情况下，在第二图像中提取第二文本信息，第一文本信息与第二文本信息具有相同的文本分隔信息，文本分隔信息用于划分文本句和/或文本段。显示单元1506，用于对第一文本信息和第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息。

由此，通过获取目标图像即第一图像和第二图像，可以在目标图像中读取完整的文本信息。接着，对完整的文本信息进行文本翻译，能够提高翻译的准确性，提升翻译的效果。

应理解的是，输入单元1504可以包括图形处理器(Graphics Processing Unit，GPU)15041和麦克风15042，图形处理器15041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1506可包括显示面板15061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板15061。用户输入单元1507包括触控面板15071以及其他输入设备15072。触控面板15071，也称为触摸屏。触控面板15071可包括触摸检测装置和触摸控制器两个部分。其他输入设备15072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1509可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1510中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述翻译方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。其中，可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

另外，本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述翻译方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种翻译方法，其特征在于，包括：

获取目标图像，所述目标图像包括第一图像和与所述第一图像关联的第二图像；

在所述第一图像中的第一文本信息不满足第一预设条件的情况下，在所述第二图像中提取第二文本信息，所述第一文本信息与所述第二文本信息具有相同的文本分隔信息，所述文本分隔信息用于划分文本句和/或文本段；

对所述第一文本信息和所述第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息；

所述文本分隔信息包括第二目标标识；

所述在所述第二图像中提取第二文本信息，包括：

以所述第一文本信息中的第一终止字符为起点遍历所述第二图像中的文本信息；

在检测到所述第二图像中的文本信息包括用于划分文本句和/或文本段的所述第二目标标识的情况下，将从所述第一终止字符到所述第二目标标识之间的文本信息确定为第二文本信息。

2.根据权利要求1所述的方法，其特征在于，所述第一预设条件包括下述中的至少一种：

所述第一文本信息中的起始文本符合第一预设语法条件；

所述第一文本信息中包括用于划分文本句和/或文本段的第一目标标识；

所述第一文本信息的语言逻辑指标值大于或者等于第一预设阈值，所述语言逻辑指标值用于表征所述第一文本信息的语法合理程度和/或文本完整程度。

3.根据权利要求1所述的方法，其特征在于，所述从所述第一文本信息中的第一终止字符为起点遍历所述第二图像中的文本信息，包括：

在所述第一图像和所述第二图像为音视频信息中的图像，且所述第二图像的数量大于N的情况下，以所述第一终止字符为起点，按照所述音视频的播放顺序遍历N个所述第二图像中的文本信息，N为大于1的正整数。

4.根据权利要求1或2所述的方法，其特征在于，所述在所述第二图像中提取第二文本信息，包括：

在所述第二图像的数量大于N的情况下，在N个所述第二图像中确定包括文本信息的至少两个目标第二图像；

在所述至少两个目标第二图像中，确定所述文本信息的起始字符和第二终止字符；

将所述起始字符所在的图像与所述第二终止字符所在的图像按照第二预设顺序进行图像拼接，得到拼接图像；

从所述拼接图像中提取第二文本信息。

5.根据权利要求1所述的方法，其特征在于，所述显示进行文本翻译得到的翻译文本信息，包括：

在所述第一图像中显示所述翻译文本信息中的第一翻译信息，以及在所述第二图像中显示所述翻译文本信息中的第二翻译信息；其中，

所述第一翻译信息包括所述第一文本信息翻译后的信息，所述第二翻译信息包括所述第二文本信息翻译后的信息。

6.一种翻译装置，其特征在于，包括：

获取模块，用于获取目标文本信息，所述目标文本信息包括第一图像和多个第二图像，所述第一图像的获取时间小于所述第二图像的获取时间；

处理模块，用于在所述第一图像中的第一文本信息不满足第一预设条件的情况下，在所述多个第二图像中提取第二文本信息，所述第一文本信息与所述第二文本信息具有相同的文本分隔信息，所述文本分隔信息用于划分文本句和/或文本段；

显示模块，用于对所述第一文本信息和所述第二文本信息的组合文本进行文本翻译，显示进行文本翻译得到的翻译文本信息；

所述文本分隔信息包括第二目标标识；

所述处理模块具体用于，以所述第一文本信息中的第一终止字符为起点遍历所述第二图像中的文本信息；

7.根据权利要求6所述的装置，其特征在于，所述第一预设条件包括下述中的至少一种：

所述第一文本信息；了符合第一预设语法条件；

8.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5所述的翻译方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5所述的翻译方法的步骤。