CN114299525A

CN114299525A - 图片处理方法、装置及电子设备

Info

Publication number: CN114299525A
Application number: CN202111509057.0A
Authority: CN
Inventors: 刘池莉
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-08
Also published as: WO2023103943A1

Abstract

本申请公开了一种图片处理方法、装置及电子设备，属于通信技术领域。该方法包括：获取目标图片中包括的N个文本和目标信息，该目标信息包括以下至少一项：该N个文本的第一完整度，该N个文本对应的第一译文的第二完整度，N为大于1的整数；合并P个文本中满足第一语义信息的S个文本，得到第一文本，该P个文本为根据该第一完整度从该N个文本中确定的非完整文本，P和S均为大于1的整数，P和S均为大于1的整数；在该第一文本和第二译文均为完整文本的情况下，输出第一文本，第二译文为第三译文中与该S个文本对应的译文合并后得到的文本，该第三译文为根据该第二完整度从该第一译文中确定的非完整译文。

Description

图片处理方法、装置及电子设备

技术领域

本申请属于通信技术领域，具体涉及一种图片处理方法、装置及电子设备。

背景技术

随着电子设备技术的发展，电子设备的应用越来越广泛，例如，电子设备可以识别并处理图片中的文本。

目前，在图片中包括多行文本的情况下，在电子设备识别该图片的过程中，电子设备可以根据该图片中文本行的物理位置坐标及文本布局，合并该图片中的多行文本。

然而，基于上述方式，当图片中的文本包括分栏文本、分页文本或者畸形不规则文本等复杂的文本时，电子设备可能无法根据文本行的物理位置坐标及文本布局，对图片中的文本进行合并。如此，导致电子设备对图片中的文本的处理能力较差。

发明内容

本申请实施例的目的是提供一种图片处理方法、装置及电子设备，能够解决电子设备对图片中的文本的处理能力较差的问题。

第一方面，本申请实施例提供了一种图片处理方法，该方法包括：获取目标图片中包括的N个文本和目标信息，该目标信息包括以下至少一项：该N个文本的第一完整度，该N个文本对应的第一译文的第二完整度，N为大于1的整数；合并P个文本中满足第一语义信息的S个文本，得到第一文本，该P个文本为根据该第一完整度从该N个文本中确定的非完整文本，P和S均为大于1的整数，P和S均为大于1的整数；在该第一文本和第二译文均为完整文本的情况下，输出第一文本，第二译文为第三译文中与该S个文本对应的译文合并后得到的文本，该第三译文为根据该第二完整度从该第一译文中确定的非完整译文。

第二方面，本申请实施例提供了一种图片处理装置，该图片处理装置包括：包括获取模块、处理模块和输出模块。获取模块，用于获取目标图片中包括的N个文本和目标信息，该目标信息包括以下至少一项：该N个文本的第一完整度，该N个文本对应的第一译文的第二完整度，N为大于1的整数。处理模块，用于合并P个文本中满足第一语义信息的S个文本，得到第一文本，该P个文本为根据该第一完整度从该N个文本中确定的非完整文本，P和S均为大于1的整数。输出模块，用于在该第一文本和第二译文为完整文本的情况下，输出第一文本，该第二译文为第三译文中与该S个文本对应的译文合并后得到的文本，该第三译文为根据该第二完整度从该第一译文中确定的非完整译文。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被处理器执行时实现如上述第一方面中的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如上述第一方面中的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如上述第一方面中的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，获取目标图片中包括的N个文本和目标信息，该目标信息包括以下至少一项：该N个文本的第一完整度，该N个文本对应的第一译文的第二完整度，N为大于1的整数；合并P个文本中满足第一语义信息的S个文本，得到第一文本，该P个文本为根据该第一完整度从该N个文本中确定的非完整文本，P和S均为大于1的整数，P和S均为大于1的整数；在该第一文本和第二译文均为完整文本的情况下，输出第一文本，第二译文为第三译文中与该S个文本对应的译文合并后得到的文本，该第三译文为根据该第二完整度从该第一译文中确定的非完整译文。通过该方案，在获取到目标图片中的多个文本和目标信息之后，由于可以合并该多个文本中根据目标信息确定的非完整文本中满足语义信息的至少一个文本，得到一个合并文本，因此当图片中的文本包括分栏文本、分页文本或者畸形不规则文本等复杂的文本时，可以根据语义信息对这些复杂的文本进行合并。进一步地，由于在该合并文本和其对应的译文均为完整文本的情况下，才输出该合并文本，因此使得得到的合并文本的语义更加通顺。如此，提高了对图片中的文本的处理能力。

附图说明

图1为本申请实施例提供的一种图片处理方法的示意图；

图2(a)为本申请实施例提供的一种图片处理的界面示意图之一；

图2(b)为本申请实施例提供的一种图片处理的界面示意图之二；

图3为本申请实施例提供的图片处理装置的结构示意图；

图4为本申请实施例提供的电子设备的结构示意图；

图5为本申请实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图片处理方法、装置及电子设备进行详细地说明。

如图1所示，本申请实施例提供一种图片处理方法，该方法包括下述S101至S103。

S101、图片处理装置获取目标图片中包括的N个文本和目标信息。

其中，上述目标信息包括以下至少一项：N个文本的第一完整度，N个文本对应的第一译文的第二完整度，N为大于1的整数。N为大于1的整数。

可选地，上述目标图片可以为以下任一项：电子设备拍摄的图片，电子设备保存的截图，电子设备获取的在线图片。

可选地，在本申请实施例中，目标图片中可以包括多个文本。N个文本为该多个文本中的文本。

可选地，上述N个文本的语言类型可以为中文、英文、韩文和日文等。

另外，上述N个文本中每个文本可以为传统意义上的文本，也可以为文本行。具体可以根据实际使用情况确定，本申请实施例对此不作限定。

进一步地，在N个文本中一个文本为文本行的情况下，该文本行可以为独立的单个文本行，此时该单个文本行可以作为一个文本；或者，该文本行可以为某个文本段落中的一个文本行。

可选地，在本申请实施例中，可以通过图片文字识别技术，识别目标图片中包括的文本内容，该文本内容具体可以包括：该目标图片包括的文本，文本的坐标。

可选地，上述第一译文可以包括一种语言类型的译文，或多种语言类型的译文。具体可以根据实际使用情况确定，本申请实施例对此不作限定。

可选地，上述第一完整度和第二完整度是根据语义信息确定，具体可以参照下述实施例的详细描述，本申请实施例在此不予赘述。

S102、图片处理装置合并P个文本中满足第一语义信息的S个文本，得到第一文本。

其中，上述P个文本为根据第一完整度从N个文本中确定的非完整文本。P和S均为大于1的整数。

可选地，对于判断N个文本中的P个文本为非完整文本，可以包括如下几种场景：

场景一：P个文本的语义不完整。

场景二：P个文本中每个文本的第一个句子或最后一个句子的句型结构存在缺失。

场景三：P个文本中每个文本的句尾词不能单独成词。

需要说明的是，上述3种场景均是通过语义信息，以判断N个文本中的P个文本为非完整文本。这3种场景仅是本申请实施例提供的示例性说明，当然，通过语义信息，判断N个文本中的P个文本为非完整文本还可以包括其他的实施方式，本申请实施例对此不作限定。

可选地，上述第一语义信息可以包括以下至少一项：句型结构信息、句子成分信息、词组构成信息。

示例性地，以第一语义信息为句型结构信息为例。句型结构信息可以包括以下至少一项：主谓结构、动宾结构、主谓宾结构、主谓宾定状补结构等。

示例性地，以第一语义信息为句子成分信息为例。句子成分信息可以包括以下至少一项：主语、谓语、宾语、定语、状语、补语等。

示例性地，以第一语义信息为词组构成信息为例。词组构成信息可以包括以下至少一项：句首词、句尾结束词、常用词语、词组、短语等。

需要说明的是，上述实施例仅是对第一语义信息的示例性说明，当然第一语义信息还可以包括与语义相关的其他信息，本申请实施例对此不作限定。

此外，上述第一语义信息的说明，仅是在N个文本为中文文本的情况下，所列举的可能的示例性情况，当N个文本为其他语言类型时，可以按照其他语言类型的语义规则或语法对语义信息进行解释说明，本申请实施例对此不作限定。

可选地，在本申请实施例中，一种可能的情况，P个文本仅包括符合第一语义信息的一组文本，即S个文本为该一组文本；另一种可能情况，P个文本包括符合第一语义信息的多组文本，S个文本为该多组文本中的任意一组文本。

进一步地，在P个文本包括符合第一语义信息的多组文本的情况下，对于合并该多组文本的实施方式，可以参照对S个文本的详细描述，本申请实施例中对此不再赘述。

S103、在该第一文本和第二译文均为完整文本的情况下，图片处理装置输出该第一文本。

其中，上述第二译文为第三译文中与S个文本对应的译文合并后得到的文本，第三译文为根据第二完整度从第一译文中确定的非完整译文。

示例一，以图片处理装置为手机为例。如图2(a)所示，在手机显示一张图片的情况下，该图片中包括文本：S1至S8；如图2(b)所示，为与S1至S8对应的译文：01至08，即第一译文。手机可以获取到该图片中包括文本：S1至S8，以及S1至S8的完整度和第一译文的完整度。由于这8个文本中S2至S8为非完整文本，因此手机可以合并S2至S8中满足第一语义信息的S2、S3和S4，得到S2、S3和S4合并之后的S9。之后，在S9、与S2至S8对应的02至08合并得到的译文均为完整文本的情况下，输出该S9。

进一步地，对于这8个文本中满足第一语义信息的S5和S6；S7和S8。可以循环执行上述流程，分别合并S5和S6；S7和S8。最后输出S5和S6合并之后的S10，和S7和S8合并之后的S11。

如此，通过以上流程，可以图片中多组满足语义信息的文本合并，从而完成对图片中文本的处理。

可选地，在上述S102之后，S103之前，本申请实施例提供的图片处理方法还可以包括：图片处理装置根据第一语义信息，确定第一文本为完整文本。

进一步地，对于判断第一文本是否为完整S2至S8，可以参照下述实施例中判断N个文本的完整度的详细说明，本申请实施例在此不予赘述。

本申请实施例提供一种图片处理方法，在获取到目标图片中的多个文本和目标信息之后，由于可以合并该多个文本中根据目标信息确定的非完整文本中满足语义信息的至少一个文本，得到一个合并文本，因此当图片中的文本包括分栏文本、分页文本或者畸形不规则文本等复杂的文本时，可以根据语义信息对这些复杂的文本进行合并。进一步地，由于在该合并文本和其对应的译文均为完整文本的情况下，才输出该合并文本，因此使得得到的合并文本的语义更加通顺。如此，提高了对图片中的文本的处理能力。

可选地，上述第一完整度包括N个文本中每个文本的第一目标句子的句子完整度，第二完整度包括第一译文中每个译文的第二目标句子的句子完整度；相应地，上述S101具体可以包括通过下述S101A至S101C实现。

S101A、图片处理装置提取目标图片中包括的文本，得到N个文本。

S101B、图片处理装置基于第一语义信息，分析第一目标句子的句子完整度。

其中，上述第一语义信息可以包括以下至少一项：句型结构信息、句子成分信息、词组构成信息。第一目标子句可以包括以下至少一项：文本中的第一个句子、文本中的最后一个句子。

可选地，基于第一语义信息，分析第一目标句子的句子完整度，可以包括如下两种可能的实现方式：

实现方式一：将第一语义信息作为一种预设规则，分析第一目标句子的句子完整度。

示例性地，从句型结构、词组构成、句子成分等第一语义信息上进行判断，将可能不完整的文本都筛选出来。以图2(a)为例。S6的第一个句子是“道一家新开业的店”，通过句子成分信息进行分析可知，S6的第一个句子缺少了主语，因此认为S6是不完整的。

示例性地，基于句首词、句尾词和短语等第一语义信息判断。可以构建不同类型的语言的词表、短语表及句尾结束词表，并为词表中的每一个词设置一个权重；其中，权重可以根据一个词的使用频率设置。如此，可以基于词组构成信息，判断文本的最后一个句子的最后一个字是否为常见的句尾词，或者，判断文本的第一个词和最后一个词能否单独成词或短语，以确定该文本行段落是否完整。如图2(a)所示，S2的最后一个词是“朋”，而通过词表可知，“朋”能单独成词并且能作为结尾词的概率很低，因此认为S2是不完整的。

实现方式二：构建第一语义信息对应的语义模型，将N个文本输入该语义模型中，分析第一目标句子的句子完整度。

具体地，可以使用词法、句法结构、句尾词等特征的文本数据，训练语义模型，通过语义模型，设置不同类型的语言的词性、句法结构等第一语义信息。如此，可以直接使用语义模型，判断当前文本的目标句子是否完整。

需要说明的是，在构建语义模型时，同时输出不完整句子的词法、句法结构及可能缺失的句子成分等信息。本申请实施例对语义模型的具体算法不作限定，只要根据不同类型的语言构建对应的模型训练数据即可。

S101C、图片处理装置基于第二语义信息，分析第二目标句子的句子完整度。

其中，上述第二语义信息分别包括以下至少一项：句型结构信息、句子成分信息、词组构成信息。

可选地，对于基于第二语义信息，分析第二目标句子的句子完整度的具体实施方式，可以参照上述实施例中对S101B的详细描述，本申请实施例对此不再赘述。

可选地，在上述S101B之后，S102之前，本申请实施例提供的图片处理方法还可以包括下述S104。

S104、图片处理装置根据第一目标句子的句子完整度，从该N个文本中确定P个文本。

其中，上述P个文本与第三译文对应。

示例二，结合上述示例一，根据第一语义信息，由于S2的最后一个句子的最后一个词是“朋”，不能作为句尾结束词，因此该最后一个句子不完整，即S2不完整；S3的第一个句子的第一个词是“友”，不能作为句首词，因此该第一个句子不完整，即S3不完整；S4的第一个句子是“了很多东西”，该第一个句子缺少主谓语，因此该第一个句子不完整，即S4不完整；S5的最后一个句子是“我知”，该最后一个句子缺少宾语，因此该最后一个句子不完整，即S5不完整；S6的第一个句子是“道……”，该第一个句子缺少主语，因此该第一个句子不完整，即S6不完整；S7的最后一个句子是“不能”，不能作为句尾结束词，因此该最后一个句子不完整，即S7不完整；S8的第一个句子是“和”，不能作为句首词，因此该第一个句子不完整，即S8不完整。如此，可以从S1至S8中确定出不完整段落S2至S8。

本申请实施例提供的图片处理方法，由于可以提取目标图片中包括的文本，得到N个文本，并基于第一语义信息，分析第一目标句子的句子完整度，以及基于第二语义信息，分析第二目标句子的句子完整度，即可以确定N个文本的完整度和N个文本的译文的完整度。

进一步地，由于可以根据第一目标句子的句子完整度，从该N个文本中确定P个文本，因此便于之后从该P个文本中选择出满足第一语义信息的文本进行合并。

可选地，在上述S101之后，S102之前，本申请实施例提供的图片处理方法还可以包括下述S105至S108。

S105、图片处理装置根据第一语义信息，从P个文本中获取与P个文本中的第二文本匹配的至少两个文本。

可选地，对于第一语义信息的描述，可以参照上述实施例中的详细描述，本申请实施例对此不再赘述。

可选地，上述第二文本为P个文本中的任意一个文本。例如，第二文本为从P个文本中分布位置最靠前的一个文本。

可选地，上述S105具体可以包括：图片处理装置根据第一语义信息，判断P个文本中第二文本与该P个文本中除该第二文本之外的其他任意文本是否可以合并，从而获取与第二文本匹配的至少两个文本。

进一步地，上述S105中“与P个文本中的第二文本匹配的至少两个文本”是指：第二文本与至少两个文本满足第一语义信息。

S106、图片处理装置将该第二文本分别与该至少两个文本合并，得到至少两个合并文本。

可选地，对于上述S106可以包括如下两种具体的可能实施方式：

(1)直接将第二文本分别与该至少两个文本合并，得到至少两个合并文本。

(2)将第二文本的最后一个句子和该至少两个文本中每个文本的第一个句子合并，得到至少两个合并句子。

S107、图片处理装置确定该至少两个合并文本的句子困惑度。

其中，句子困惑度用于指示合并文本中的句子的通顺程度。

可以理解的是，确定至少两个合并文本的句子困惑度，实质上是分别确定至少两个合并文本中包括的合并句子的句子困惑度。

需要说明的是，句子困惑度越低，句子的通顺度越高，从而语义的正确度越高；反之，句子困惑度越高，句子的通顺度越低，从而语义的正确度越低。

S108、图片处理装置将目标合并文本对应的第三文本确定为该第二文本对应的待合并文本。

其中，上述目标合并文本为至少两个合并文本中句子困惑度最低的文本。S个文本包括第二文本和第三文本。

需要说明的是，由于句子困惑度越低，句子的通顺度越高，因此在将句子困惑度最低的第三文本确定为该第二文本对应的待合并文本之后，可以该合并该第二文本和该第三文本。

本申请实施例提供的图片处理方法，在根据第一语义信息，从P个文本中获取与该P个文本中的第二文本匹配的至少两个文本之后，由于可以将该第二文本分别与该至少两个文本合并，得到至少两个合并文本，并确定该至少两个合并文本的句子困惑度，因此可以根据两个合并文本的困惑度，从该至少两个文本中选择与该第二文本更为匹配的待合并文本，从而提高了文本合并的正确性。

可选地，在上述S101之后，S102之前，本申请实施例提供的图片处理方法还可以包括下述S109和S110。即上述具体可以通过S110至S112实现。

S109、图片处理装置根据该P个文本中每个文本的分布位置，从该P个文本中确定相邻的Q个文本。

其中，Q为大于或等于S的整数。

需要说明的是，通过P个文本中每个文本的分布位置，明确可以合并的两个文本的分布位置，以此排除一些明显无法合并以构成同一个段落的文本。如此，从P个文本中确定分布位置相邻的Q个文本。

具体地，若两个文本中间包括其他文本，则说明无法合并该两个文本，即不能进行跨行合并这两个文本。当然，也可以记录下无法进行合并的文本的编号。

示例性的，如图2(a)所示，图片中包括文本S1、S2……和S8。从这8个文本的分布位置上，由于两个文本行段落间还存在多个文本行段落，因此可以确定S2和S7、S2和S6、S2和S8无法合并，从而可以将无法合并的文本的编号记录在非合并列表not_merge_list＝[S2_S7、S2_S6、S2_S8]。

可以理解的是，由于两个文本的合并是存在顺序关系的，因此非合并列表中编号的先后顺序可以代表实际的合并顺序。例如，在无法合并列表中S2_S7代表的是S2的下一句不是S7，但不代表S7的下一句不能是S2。

S110、图片处理装置将该Q个文本中确定满足第一语义信息的S个文本，确定为待合并文本。

可选地，对于从Q个文本中确定满足第一语义信息的S个文本的实施方式，可以参照上述实施例中的S105至S108中的详细说明。具体可以包括：

(1)根据第一语义信息，从Q个文本中获取与该Q个文本中的文本1匹配的至少两个文本。

(2)将该文本1分别与该至少两个文本合并，得到至少两个合并文本。

(3)确定该至少两个合并文本的句子困惑度。

(4)将合并文本1对应的文本2确定为该文本1对应的待合并文本。该合并文本1为至少两个合并文本中句子困惑度最低的文本。S个文本中包括文本1和文本2。

需要说明的是，若根据第一语义信息，未获取到与文本2匹配的文本，则S个文本中仅包括文本1和文本2，从而通过上述实施例中的(1)至(4)就可以实现从Q个文本中确定满足语义信息的S个文本；

若根据第一语义信息，获取到与文本2匹配的其他文本，则说明S个文本中还包括除文本1和文本2之外的其他文本，从而可以继续循环执行上述实施例中的(1)至(4)，以确定与文本1和文本2匹配的其他文本。

如此，通过上述实施方式，可以从Q个文本中得到满足第一语义信息的S个文本，并将其确定为待合并文本。

可以理解的是，由于可以根据P个文本中每个文本的分布位置，从该P个文本中确定分布位置相邻的Q个文本，因此可以排除一些在分布位置上不存在合并可能的文本，从而减少了电子设备不必要的文本合并操作。进一步地，由于可以将Q个文本中满足第一语义信息的S个文本，确定为待合并文本，因此在通过分布位置的粗略筛选后，通过第一语义信息，从Q个文本中确定待合并文本，从而使得合并后的文本的语义通顺度较高。

可选地，在上述S110之后，S102之前，本申请实施例提供的图片处理方法还可以包括下述S111。相应地，上述S102具体可以通过下述S102A实现。

S111、图片处理装置根据第一语义信息，确定S个文本的目标排列顺序。

可以理解的是，由于第一语义信息中包括句型结构信息、句子成分信息和词组构成信息等，因此，根据句子的成分信息和词组构成信息，可以确定为文本的排列顺序。

S102A、图片处理装置按照该目标排列顺序，合并该S个文本，得到第一文本。

需要说明的是，按照目标排列顺序，合并S个文本，本质上是：合并S个文本中排列顺序相邻的两个文本中的一个文本的最后一个句子和另一个文本的第一个句子，如此循环直至完成合并S个文本，以得到第一文本。

示例性的，以第一语义信息为句型结构信息和句子成分信息为例。假设文本A的最后一个句子为“我知”，这是一个主谓结构；文本B的第一个句子为“道一家新开业的店”，这是动宾结构。根据句型结构信息、句子成分信息和词组构成信息，可以知道文本A缺少宾语，文本B缺少主语，且“知”和“道”符合词组构成信息，从而可以确定文本A和文本B的排列顺序为A_B。即在文本A的句尾合并文本B。

示例性的，以第一语义信息为词组构成信息为例。假设文本C的最后一个句子的最后一个词为“朋”；文本D的第一个句子的第一个词为“友”。根据词组构成信息，可以知道文本C中的“朋”和文本D中的“友”符合词组构成信息，从而可以确定文本C和文本D的排列顺序为C_D。即在文本A的句尾合并文本B。

本申请实施例提供的图片处理方法，由于可以根据第一语义信息，确定S个文本的目标排列顺序，因此在按照该目标排列顺序，合并该S个文本，得到第一文本之后，使得第一文本的语义更为完整，且不易出现语义矛盾的问题。

可选地，本申请实施例提供的图片处理方法还可以包括另一种可能的实现方式。该方法还可以包括下述S112至S115。

S112、获取目标图片中的M个文本。

S113、在M个文本中的T个文本段落为非完整文本的情况下，合并T个文本中满足第三语义信息的L个文本，得到第四文本。

其中，M、T和L均为大于1的整数；

可选地，对于第三语义信息的说明，可以参照上述实施例中对第一语义信息的相关描述，本申请实施例对此不再赘述。

S114、在第四文本为完整文本的情况下，图片处理装置对该第四文本进行翻译，得到第四译文。

可选地，上述第四译文可以包括一个语言类型的译文，或包括多种语言类型的译文。本申请实施例对第四译文的数量和语言类型不作限定。

示例性地，第四文本为中文类型的文本，第四译文为英文类型的译文；或者，第四文本为英文类型的文本，第四译文包括中文类型的译文、韩文类型的译文。

S115、在第四文本和第四译文均为完整文本的情况下，图片处理装置输出该第四文本和该第四译文。

示例性的，假设第二文本为中文文本。在确定该中文文本为完整文本的情况下，对该中文文本进行翻译，得到英文译文。在该英文译文为完整文本的情况下，图片处理装置可以输出该中文文本和该英文译文。

本申请实施例提供的图片处理方法，在获取目标图片中的M个文本之后，由于可以合并T个文本中满足第三语义信息的L个文本，得到第四文本，并对第四文本进行翻译，得到第四译文，因此在该第四文本为完整文本的情况下，且在该第四译文为完整段落的情况下，才输出该第一文本和该第一译文，从而可以在判断合并后得到的第四文本是否完整的基础上，再结合对第四译文的完整度的判断，以确定是否输出该第四文本，从而提高了段落合并的准确性。进一步地，由于还可以输出第四译文，因此在需要对目标图片中的文本进行翻译的场景中，可以输出准确性较高的译文。

可选地，在上述S114之后，本申请实施例提供的图片处理方法还可以包括下述S116和S117。

S116、在第四译文为非完整文本的情况下，图片处理装置合并T个文本中的R个文本，得到第五文本。

其中，上述R个文本包括根据第四译文的语义信息确定的段落，R为大于1的整数。

可选地，上述R个文本可以包括L个文本中的全部文本，或包括L个文本中的部分文本，具体根据实际情况确定，本申请实施例中对此不作限定。

需要说明的是，R个文本为T个文本中满足语义信息的文本。

进一步地，在第四译文为非完整文本的情况下，根据第四译文的语义信息，可以从T个文本中获取满足语义信息的其他文本，并将第四文本与该其他文本合并。可以理解的是，第四文本与该其他文本的文本合并位置与第四译文中语义不完整的文本位置对应。

S117、在该第五文本和第五译文均为完整段落的情况下，图片处理装置输出该第三文本和该第五译文。

其中，上述第五译文为第五文本对应的译文。

可选地，对于判断第五文本和第五译文为完整文本的说明，可以参照上述实施例中对第一文本的说明，本申请实施例对此不再赘述。

需要说明的是，由于对图片中的文本进行翻译，就是为了得到语义正确的译文，因此译文的完整度是图片翻译的重点。如果译文不完整，即便图片中原本的文本合并后的段落(也称原文段落)是完整的，也需要按照译文中语义不完整的文本位置，在原文段落的相应位置合并满足语义信息的文本，从而再次经过翻译之后判断译文的完整性，以保障最终输出的文本的完整性。

可以理解的是，从原文段落进行合并，可以保证原文段落的完整度。在原文段落为完整段落的情况下，才能在该原文段落经过翻译模型进行翻译之后得到有效的译文，反之，如果仅从译文上进行合并，是很难得到满足语义信息的译文的。

可选地，在上述S116之后，在S117之前，本申请实施例提供的图片处理方法还可以包括：在第五文本为完整文本的情况下，对第五文本进行翻译得到第五译文。如此，在合并后的第五文本为完整文本的情况下，才进行翻译流程，从而避免在合并后的文本为非完整文本落的情况下，进行无效的翻译操作，也节省了电子设备的运行资源。

本申请实施例提供的图片处理方法，由于在第四译文为非完整译文的情况下，可以合并T个文本中的R个文本，得到第五文本，因此可以根据非完整的第四译文，重新对T个文本中满足语义信息的R个文本进行合并，从而提高了文本合并的准确性。进一步地，由于在第五文本和第五译文均为完整文本的情况下，才输出第五文本和第五译文，因此可以保证输出准确性较高的译文。

本申请实施例提供的图片处理方法，执行主体可以为图片处理装置。本申请实施例中以图片处理装置执行图片处理的方法为例，说明本申请实施例提供的如图3所示，本申请实施例提供一种图片处理装置200，该图片处理装置可以包括获取模块201、处理模块202和输出模块203。获取模块201，可以用于获取目标图片中包括的N个文本和目标信息，该目标信息包括以下至少一项：该N个文本的第一完整度，该N个文本对应的第一译文的第二完整度，N为大于1的整数。处理模块202，可以用于合并P个文本中满足第一语义信息的S个文本，得到第一文本，该P个文本为根据该第一完整度从该N个文本中确定的非完整文本，P和S均为大于1的整数。输出模块203，可以用于在该第一文本和第二译文为完整文本的情况下，输出第一文本，该第二译文为第三译文中与该S个文本对应的译文合并后得到的文本，该第三译文为根据该第二完整度从该第一译文中确定的非完整译文。

可选地，第一完整度包括N个文本中每个文本的第一目标句子的句子完整度，第二完整度包括第一译文中每个译文的第二目标句子的句子完整度。获取模块201，具体用于提取目标图片中包括的文本，得到N个文本；并基于第一语义信息，分析第一目标句子的句子完整度；以及基于第二语义信息，分析第二目标句子的句子完整度；其中，第一目标句子和第二目标句子分别包括以下至少一项：文本中的第一个句子、文本中的最后一个句子；第一语义信息和第二语义信息分别包括以下至少一项：句型结构信息、句子成分信息、词组构成信息；

可选地，图片处理装置还可以包括确定模块。确定模块，可以用于根据第一目标句子的句子完整度，从N个文本中确定P个文本，P个文本与第三译文对应。

可选地，图片处理装置还可以包括确定模块。获取模块201，还可以用于根据第一语义信息，从P个文本中获取与P个文本中的第二文本匹配的至少两个文本。处理模块202，还可以用于将第二文本分别与至少两个文本合并，得到至少两个合并文本。确定模块，用于将目标合并文本对应的第三文本确定为第二文本对应的待合并文本，该目标合并文本为至少两个合并文本中句子困惑度最低的文本；其中，S个文本包括第二文本和第三文本。

可选地，图片处理装置还可以包括确定模块。确定模块，可以用于根据P个文本中每个文本的分布位置，从P个文本中确定相邻的Q个文本，Q为大于或等于S的整数；并将该Q个文本中满足第一语义信息的S个文本，确定为待合并文本。

可选地，确定模块，还可以用于根据第一语义信息，确定S个文本的目标排列顺序。处理模块，可以具体用于按照该目标排列顺序，合并该S个文本，得到第一文本。

本申请实施例提供一种图片处理装置，在获取到目标图片中的多个文本和目标信息之后，由于可以合并该多个文本中根据目标信息确定的非完整文本中满足语义信息的至少一个文本，得到一个合并文本，因此当图片中的文本包括分栏文本、分页文本或者畸形不规则文本等复杂的文本时，可以根据语义信息对这些复杂的文本进行合并。进一步地，由于在该合并文本和其对应的译文均为完整文本的情况下，才输出该合并文本，因此使得得到的合并文本的语义更加通顺。如此，提高了对图片中的文本的处理能力。

本申请实施例中的图片处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图片处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图片处理装置能够实现图1和图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图4所示，本申请实施例还提供一种电子设备300，包括处理器301和存储器302，存储器302上存储有可在所述处理器301上运行的程序或指令，该程序或指令被处理器301执行时实现上述图片处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。

本领域技术人员可以理解，电子设备400还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器410，可以用于获取目标图片中包括的N个文本和目标信息，该目标信息包括以下至少一项：该N个文本的第一完整度，该N个文本对应的第一译文的第二完整度，N为大于1的整数；并用于合并P个文本中满足第一语义信息的S个文本，得到第一文本，该P个文本为根据该第一完整度从该N个文本中确定的非完整文本，P和S均为大于1的整数；以及用于在该第一文本和第二译文为完整文本的情况下，输出第一文本，该第二译文为第三译文中与该S个文本对应的译文合并后得到的文本，该第三译文为根据该第二完整度从该第一译文中确定的非完整译文。

可选地，第一完整度包括所述N个文本中每个文本的第一目标句子的句子完整度，第二完整度包括第一译文中每个译文的第二目标句子的句子完整度。处理器410，具体用于提取目标图片中包括的文本，得到N个文本；并基于第一语义信息，分析第一目标句子的句子完整度；以及基于第二语义信息，分析第二目标句子的句子完整度；其中，第一目标句子和第二目标句子分别包括以下至少一项：文本中的第一个句子、文本中的最后一个句子；第一语义信息和第二语义信息分别包括以下至少一项：句型结构信息、句子成分信息、词组构成信息。

可选地，处理器410，可以用于根据第一目标句子的句子完整度，从N个文本中确定P个文本，P个文本与第三译文对应。

可选地，处理器410，还可以用于根据第一语义信息，从P个文本中获取与P个文本中的第二文本匹配的至少两个文本；并用于将第二文本分别与至少两个文本合并，得到至少两个合并文本；以及用于将目标合并文本对应的第三文本确定为第二文本对应的待合并文本，该目标合并文本为至少两个合并文本中句子困惑度最低的文本；其中，S个文本包括第二文本和第三文本。

可选地，处理器410，可以用于根据P个文本中每个文本的分布位置，从P个文本中确定相邻的Q个文本，Q为大于或等于S的整数；并用于将该Q个文本中满足第一语义信息的S个文本，确定为待合并文本。

可选地，处理器410，还可以用于根据第一语义信息，确定S个文本的目标排列顺序；并用于按照该目标排列顺序，合并该S个文本，得到第一文本。

本申请实施例提供一种电子设备，在获取到目标图片中的多个文本和目标信息之后，由于可以合并该多个文本中根据目标信息确定的非完整文本中满足语义信息的至少一个文本，得到一个合并文本，因此当图片中的文本包括分栏文本、分页文本或者畸形不规则文本等复杂的文本时，可以根据语义信息对这些复杂的文本进行合并。进一步地，由于在该合并文本和其对应的译文均为完整文本的情况下，才输出该合并文本，因此使得得到的合并文本的语义更加通顺。如此，提高了对图片中的文本的处理能力。

应理解的是，本申请实施例中，输入单元404可以包括图形处理器(graphicsprocessing unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072中的至少一种。触控面板4071，也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器409可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，该可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图片处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述图片处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述图片处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例中的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图片处理方法，其特征在于，所述方法包括：

获取目标图片中包括的N个文本和目标信息，所述目标信息包括以下至少一项：所述N个文本的第一完整度，所述N个文本对应的第一译文的第二完整度，N为大于1的整数；

合并P个文本中满足第一语义信息的S个文本，得到第一文本，所述P个文本为根据所述第一完整度从所述N个文本中确定的非完整文本，P和S均为大于1的整数；

在所述第一文本和第二译文均为完整文本的情况下，输出所述第一文本，所述第二译文为第三译文中与所述S个文本对应的译文合并后得到的文本，所述第三译文为根据所述第二完整度从所述第一译文中确定的非完整译文。

2.根据权利要求1所述的方法，其特征在于，所述第一完整度包括所述N个文本中每个文本的第一目标句子的句子完整度，所述第二完整度包括所述第一译文中每个译文的第二目标句子的句子完整度；

所述获取目标图片中包括的N个文本和目标信息，包括：

提取所述目标图片中包括的文本，得到所述N个文本；

基于所述第一语义信息，分析所述第一目标句子的句子完整度；

基于第二语义信息，分析所述第二目标句子的句子完整度；

其中，所述第一目标句子和所述第二目标句子分别包括以下至少一项：文本中的第一个句子、文本中的最后一个句子；

所述第一语义信息和所述第二语义信息分别包括以下至少一项：句型结构信息、句子成分信息、词组构成信息。

3.根据权利要求2所述的方法，其特征在于，基于所述第一语义信息，分析所述第一目标句子的句子完整度之后，所述合并P个文本中满足第一语义信息的S个文本，得到第一文本之前，所述方法还包括：

根据所述第一目标句子的句子完整度，从所述N个文本中确定所述P个文本，所述P个文本与所述第三译文对应。

4.根据权利要求1所述的方法，其特征在于，所述合并所述P个文本中满足第一语义信息的S个文本，得到第一文本之前，所述方法还包括：

根据所述第一语义信息，从所述P个文本中获取与所述P个文本中的第二文本匹配的至少两个文本；

将所述第二文本分别与所述至少两个文本合并，得到至少两个合并文本；

确定所述至少两个合并文本的句子困惑度，所述句子困惑度用于指示合并文本中的句子的通顺程度；

将目标合并文本对应的第三文本确定为所述第二文本对应的待合并文本，所述目标合并文本为所述至少两个合并文本中句子困惑度最低的文本；

其中，所述S个文本包括所述第二文本和所述第三文本。

5.根据权利要求1所述的方法，其特征在于，所述合并所述P个文本中满足第一语义信息的S个文本，得到第一文本之前，所述方法还包括：

根据所述P个文本中每个文本的分布位置，从所述P个文本中确定分布位置相邻的Q个文本，Q为大于或等于S的整数；

将所述Q个文本中满足所述第一语义信息的S个文本，确定为待合并文本。

6.根据权利要求5所述的方法，其特征在于，所述将所述Q个文本中确定满足第一语义信息的S个文本，确定为待合并文本之后，所述方法还包括：

根据所述第一语义信息，确定所述S个文本的目标排列顺序；

所述合并所述P个文本中满足第一语义信息的S个文本，得到第一文本，包括：

按照所述目标排列顺序，合并所述S个文本，得到所述第一文本。

7.一种图片处理装置，其特征在于，所述图片处理装置包括获取模块、处理模块和输出模块；

所述获取模块，用于获取目标图片中包括的N个文本和目标信息，所述目标信息包括以下至少一项：所述N个文本的第一完整度，所述N个文本对应的第一译文的第二完整度，N为大于1的整数；

所述处理模块，用于合并P个文本中满足第一语义信息的S个文本，得到第一文本，所述P个文本为根据所述第一完整度从所述N个文本中确定的非完整文本，P和S均为大于1的整数；

所述输出模块，用于在所述第一文本和第二译文为完整文本的情况下，输出所述第一文本，所述第二译文为第三译文中与所述S个文本对应的译文合并后得到的文本，所述第三译文为根据所述第二完整度从所述第一译文中确定的非完整译文。

8.根据权利要求7所述的装置，其特征在于，所述第一完整度包括所述N个文本中每个文本的第一目标句子的句子完整度，所述第二完整度包括所述第一译文中每个译文的第二目标句子的句子完整度；

所述获取模块，具体用于提取所述目标图片中包括的文本，得到所述N个文本；并基于所述第一语义信息，分析所述第一目标句子的句子完整度；以及基于第二语义信息，分析所述第二目标句子的句子完整度；

9.根据权利要求8所述的装置，其特征在于，所述图片处理装置还包括确定模块；

所述确定模块，用于根据所述第一目标句子的句子完整度，从所述N个文本中确定所述P个文本，所述P个文本与所述第三译文对应。

10.根据权利要求7所述的装置，其特征在于，所述图片处理装置还包括确定模块；

所述获取模块，还用于根据所述第一语义信息，从所述P个文本中获取与所述P个文本中的第二文本匹配的至少两个文本；

所述处理模块，还用于将所述第二文本分别与所述至少两个文本合并，得到至少两个合并文本；

所述确定模块，用于将目标合并文本对应的第三文本确定为所述第二文本对应的待合并文本，所述目标合并文本为所述至少两个合并文本中句子困惑度最低的文本；

其中，所述S个文本包括所述第二文本和所述第三文本。

11.根据权利要求7所述的装置，其特征在于，所述图片处理装置还包括确定模块；

所述确定模块，用于根据所述P个文本中每个文本的分布位置，从所述P个文本中确定分布位置相邻的Q个文本，Q为大于或等于S的整数；并将所述Q个文本中满足所述第一语义信息的S个文本，确定为待合并文本。

12.根据权利要求11所述的装置，其特征在于，所述确定模块，还用于根据所述第一语义信息，确定所述S个文本的目标排列顺序；

所述处理模块，具体用于按照所述目标排列顺序，合并所述S个文本，得到所述第一文本。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6中任一项所述的图片处理方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6中任一项所述的图片处理方法的步骤。