CN114202647B

CN114202647B - 图像中的文本识别方法、装置、设备及存储介质

Info

Publication number: CN114202647B
Application number: CN202210139958.3A
Authority: CN
Inventors: 廖敏鹏
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-07-05
Anticipated expiration: 2042-02-16
Also published as: CN114202647A

Abstract

本公开涉及一种图像中的文本识别方法、装置、设备及存储介质。本公开通过获取目标图像，并确定该目标图像中包含至少一行文本的子图像。进一步，将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，由于子图像含有较为直观且准确的信息，从而使得多模态模型的输入中增加了原始视觉信息，使得多模态模型可以根据子图像对文本标注任务进行增强和指导，从而使得多模态模型可以确定出每个字符较为准确的标签。进一步，根据每个字符的标签可以对该至少一行文本进行准确的断句，尤其是对有歧义的文本行的断句处理效果较好，避免将图像中的多段文本识别为一段文本，以及避免后续的文本理解或处理出错。

Description

图像中的文本识别方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种图像中的文本识别方法、装置、设备及存储介质。

背景技术

目前的光学字符识别（Optical Character Recognition,OCR）技术可以识别出图像中的文本或文字。

但是，本申请的发明人发现，目前的OCR会出现将图像中的多段文本识别为一段文本的问题，从而导致后续的文本理解或处理出错。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种图像中的文本识别方法、装置、设备及存储介质，使得多模态模型可以根据子图像对文本标注任务进行增强和指导，从而使得多模态模型可以确定出每个字符较为准确的标签。进一步，根据每个字符的标签可以对该至少一行文本进行准确的断句，尤其是对有歧义的文本行的断句处理效果较好，避免将图像中的多段文本识别为一段文本，以及避免后续的文本理解或处理出错。

第一方面，本公开实施例提供一种图像中的文本识别方法，包括：

获取目标图像；

确定所述目标图像中包含至少一行文本的子图像；

将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，所述每个字符的标签用于对所述至少一行文本进行断句。

第二方面，本公开实施例提供一种图像中的文本识别方法，所述方法应用于终端，所述方法包括：

从服务器接收目标图像，或者通过拍摄装置采集所述目标图像；

确定所述目标图像中包含至少一行文本的子图像；

向所述服务器发送所述子图像、以及所述至少一行文本中的每个字符，所述服务器包括多模态模型，所述服务器用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，并通过所述多模态模型确定所述每个字符的标签；

从所述服务器接收所述每个字符的标签，并根据所述每个字符的标签对所述至少一行文本进行断句。

第三方面，本公开实施例提供一种图像中的文本识别方法，所述方法应用于服务器，所述方法包括：

从终端接收目标图像；

确定所述目标图像中包含至少一行文本的子图像；

将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签；

根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果，并将所述断句后的结果发送给终端；或者，将所述每个字符的标签发送给所述终端，以使所述终端根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果。

第四方面，本公开实施例提供一种图像中的文本识别装置，包括：

获取模块，用于获取目标图像；

第一确定模块，用于确定所述目标图像中包含至少一行文本的子图像；

第二确定模块，用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，所述每个字符的标签用于对所述至少一行文本进行断句。

第五方面，本公开实施例提供一种终端，包括：

通信组件，用于与服务器通信；

拍摄装置，用于采集目标图像；

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第二方面所述的方法。

第六方面，本公开实施例提供一种服务器，包括：

通信组件，用于与终端通信；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第三方面所述的方法。

第七方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第八方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的图像中的文本识别方法、装置、设备及存储介质，通过获取目标图像，并确定该目标图像中包含至少一行文本的子图像。进一步，将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，该多模态模型可以根据所述至少一行文本中的每个字符确定所述至少一行文本的语义信息，然后根据该语义信息和该子图像确定每个字符的标签。由于子图像含有较为直观且准确的信息，从而使得多模态模型的输入中增加了原始视觉信息，例如，字符之间的距离、不同字符的颜色差异、字体差异、字号差异等，使得多模态模型可以根据子图像对文本标注任务进行增强和指导，即子图像可以辅助多模态模型在语义信息的基础上确定出每个字符较为准确的标签。进一步，根据每个字符的标签可以对该至少一行文本进行准确的断句，尤其是对有歧义的文本行的断句处理效果较好，避免将图像中的多段文本识别为一段文本，以及避免后续的文本理解或处理出错。另外，本公开实施例中的多模态模型不仅可以对目标图像中一行文本内的每个字符打标签，另外还可以根据目标图像中多行文本内的每个字符确定该多行文本的语义信息，从而根据该语义信息和包含有该多行文本的子图像对该多行文本中的每个字符进行精准打标签。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的图像的示意图；

图2为本公开实施例提供的图像中的文本识别方法流程图；

图3为本公开实施例提供的应用场景的示意图；

图4为本公开另一实施例提供的图像中的文本识别方法流程图；

图5为本公开另一实施例提供的字符和标签对应关系的示意图；

图6为本公开另一实施例提供的图像中的文本识别方法流程图；

图7为本公开另一实施例提供的图像中的文本识别方法流程图；

图8为本公开另一实施例提供的图像中的文本识别装置的结构示意图；

图9为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前的光学字符识别（Optical Character Recognition,OCR）技术可以识别出图像中的文本或文字，并输出识别到的文本或文字。但是，目前的OCR会出现将图像中的多段文本识别为一段文本的问题，从而导致后续的文本理解或处理出错。例如，图1所示为某一图像的示意图，本实施例不限定该图像所呈现的内容、以及该图像的来源。具体的，该图像可以是某一商品的广告图片，或者是终端拍摄的图片，或者是来自于网络中的图片。例如，OCR技术可以按行获取该图像中的文本，该文本例如为“一秒折叠超大承重”，而该图像实际表达的意思可能是“一秒折叠，超大承重”。也就是说，OCR技术识别出的文本和该图像实际表达的意思可能不一致，导致后续的文本理解或文本处理会引入系统性错误。例如，在后续的机器翻译中，“一秒折叠超大承重”会被翻译为“Extra large load-bearing folding inone second”，这样的翻译结果所表达的意思可能是错的。而“一秒折叠，超大承重”会被翻译为“Folding in one second, super large load-bearing”，该翻译结果可能会更加符合原文所表达的意思。

针对该问题，本公开实施例提供了一种图像中的文本识别方法，下面结合具体的实施例对该方法进行介绍。图2为本公开实施例提供的图像中的文本识别方法流程图。该方法可以由终端或服务器来执行。如图3所示，当该方法由终端31执行时，终端31可以对其拍摄的图像或本地存储的图像中的文本进行识别。或者，终端31可以从服务器32获取图像，并对该图像中的文本进行识别。当该方法由服务器32执行时，服务器32可以接收终端31发送的图像，或者服务器32可以从其他网络设备或终端获取图像，并对该图像中的文本进行识别。下面以服务器32为例，介绍该图像中的文本识别方法。如图2所示，该方法具体步骤如下：

S201、获取目标图像。

例如，服务器32获取目标图像，该目标图像可以是如图1所示的图像。

S202、确定所述目标图像中包含至少一行文本的子图像。

例如，该目标图像可以记为原始图片，例如图4所示的原始图片41。服务器32中包括OCR模型，服务器32可以将原始图片41输入OCR模型，OCR模型可以获得原始图片41中文本行级别的文本位置和文本内容。其中，文本内容可以是文本中的每个字符。文本行级别的文本位置可以是文本行级别的文本在该原始图片41中占用的位置，例如，该文本行级别的文本是图4所示的“一秒折叠超大承重”。“一秒折叠超大承重”是原始图片41中的一行文本。“一秒折叠超大承重”在该原始图片41中占用的位置可以是虚线框42的4个角上的4个点在该原始图片41中的坐标位置。进一步，OCR模型可以根据“一秒折叠超大承重”在该原始图片41中占用的位置，从该原始图片41中截取包含“一秒折叠超大承重”的子图像，该子图像可以是虚线框42中的子图像。该子图像可以作为OCR模型的一个输出，例如图4所示的子图像43。另外，前述的文本内容可以作为OCR模型的另一个输出，该文本内容可以是“一秒折叠超大承重”中的每个字符，例如，此处的一个字符是一个字。如果该文本内容是一行英文文本，则一个字符可以是一个英文单词或子词。

S203、将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，所述每个字符的标签用于对所述至少一行文本进行断句。

如图4所示，OCR模型输出的子图像43、以及“一秒折叠超大承重”中的每个字符可以作为多模态模型的输入。具体的，本实施例可以采用文本序列标注的框架来实现多模态模型。文本序列标注是指在自然语言处理（Natural Language Processing,NLP）领域中，在给定的文本序列上确定需要标注的部分，并预测出该部分的标签。具体的，该多模态模型可以输出“一秒折叠超大承重”中每个字符的标签，例如，“一秒折叠超大承重”中一共包括8个字符，该多模态模型可以输出8个标签，该8个字符和该8个标签一一对应，该对应关系如图5所示。该8个标签用于对“一秒折叠超大承重”进行断句。例如图4所示，该8个标签依次是“N”、“N”、“N”、“，”、“N”、“N”、“N”、“。”。其中，“N”表示相应的字符后面不需要加标点符号，“，”表示相应的字符后面需要加逗号，“。”表示相应的字符后面需要加句号。从而将“一秒折叠超大承重”断句为“一秒折叠，超大承重。”，这样在后续的机器翻译中就可以翻译出正确的译文。

可以理解的是，S202所确定的子图像不仅可以包括如图4所示的一行文本，在其他实施例中，该子图像还可以包括多行文本，例如图6所示的子图像61包括多行文本。相应的，OCR模型输出的子图像61、以及子图像61中的每个字符可以作为多模态模型的输入，从而使得多模态模型可以输出每个字符的标签。

本公开实施例通过获取目标图像，并确定该目标图像中包含至少一行文本的子图像。进一步，将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，由于子图像含有较为直观且准确的信息，从而使得多模态模型的输入中增加了原始视觉信息，例如，字符之间的距离、不同字符的颜色差异、字体差异、字号差异等，使得多模态模型可以根据子图像对文本标注任务进行增强和指导，从而使得多模态模型可以确定出每个字符较为准确的标签。进一步，根据每个字符的标签可以对该至少一行文本进行准确的断句，尤其是对有歧义的文本行的断句处理效果较好，避免将图像中的多段文本识别为一段文本，以及避免后续的文本理解或处理出错。

例如图4所示的子图像43中“叠”和“超”之间的距离稍大一些，因此，多模态模型可以借助子图像43，将“一秒折叠”识别为一段文本，将“超大承重”识别为另一段文本，从而避免将该两段文本识别为一段文本。

可以理解的是，在其他一些实施例中，子图像43中“一秒折叠”的字体还可以与“超大承重”的字体不同，和/或“一秒折叠”的字号与“超大承重”的字号不同，从而使得多模态模型可以将“一秒折叠”识别为一段文本，将“超大承重”识别为另一段文本。

可选的，所述字符的标签与所述字符之后待添加的标点符号相关。

例如图5所示，“一”这个字符对应的标签是“N”，“N”表示“一”之后无标点符号。再如，“叠”这个字符对应的标签是“，”，“，”表示“叠”之后待添加的标点符号是逗号。“重”这个字符对应的标签是“。”，“。”表示“重”之后待添加的标点符号是句号。从而使得该8个标签可以将“一秒折叠超大承重”进行断句，断句后的结果是“一秒折叠，超大承重。”，这样在后续的机器翻译中就可以翻译出正确的译文。

另外，可以理解的是，在一些实施例中可以设置有标签集合，该标签集合中包括的标签不限于上述的无（N）、逗号（，）、句号（。），另外还可以包括冒号（：）、分号（；）、问号（

）、感叹号（！）等标点符号。多模态模型输出的每个字符的标签可以是该标签集合中的一个标签。从而使得本公开实施例可以通过文本序列标注的方法实现标点符号的预测。

此外，如上所述的多模态模型的推理阶段或应用阶段可用于实现本公开实施例提供的图像中的文本识别方法。在多模态模型的推理阶段或应用阶段之前，需要对多模态模型进行训练。在训练阶段中，可以通过OCR模型从样本图像中获得多模态模型的两个输入，这两个输入可以类似于图4或图6所示的两个输入。进一步，多模态模型根据这两个输入得到输出，该输出可以类似于图4或图6所示的输出。另外，在训练阶段中，还可以预先确定出该样本图像中包含有一行或多行文本的子图像中每个字符的实际标签，进一步，根据每个字符的实际标签和多模态模型输出的每个字符的标签对该多模态模型进行训练，即对该多模态模型的参数进行迭代更新。

可以理解的是，本公开实施例并不限定多模态模型的具体结构，例如，多模态模型可以采用多模态预训练模型（例如M6等），在训练阶段，可以使用少量的针对标点符号预测任务的样本来增强该多模态预训练模型的性能。或者，该多模态模型还可以采用Transformer模型，例如，注意力机制（attention）加前向反馈网络（feed-forwardnetwork，FFN）的结构，在训练阶段中，可以使用大量的针对标点符号预测任务的样本对Transformer模型进行训练，从而使得Transformer模型的参数可以从无到有，或者从最初始的参数到最优参数。

另外，输入给多模态模型的子图像可以记为图片模态，输入给多模态模型的文本内容可以记为文本模态。在一些实施例中，还可以通过一个特殊的字符“CLS”将图片模态和文本模态区分开，例如图4所示。例如，当多模态模型采用多模态预训练模型时，可以增加该特殊字符“CLS”。当该多模态模型采用Transformer模型时，可以不增加该特殊字符“CLS”。

图7为本公开另一实施例提供的图像中的文本识别方法流程图。该方法具体步骤如下：

S701、获取目标图像。

例如，S701和S201的实现方式和具体原理一致，此处不再赘述。

S702、确定所述目标图像中包含至少一行文本的子图像。

例如，S702和S202的实现方式和具体原理一致，此处不再赘述。

S703、获取所述子图像的图像特征。

如图4或图6所示，在OCR模型输出子图像和文本内容后，还可以进一步提取该子图像的图像特征（image features），该图像特征也可以称为图片信息，该图像特征例如可以是如上所述的字符之间的距离、不同字符的颜色差异、字体差异、字号差异等排版信息。

S704、将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签。

如图4或图6所示，针对文本内容例如至少一行文本中的每个字符，还可以确定出每个字符的表示向量，也就是说，每个字符分别对应有一个表示向量，例如，特殊字符“CLS”也对应有一个表示向量，不同字符所对应的表示向量可能是不同的。该表示向量可以记为词向量（word embedding）。例如，在本公开实施例中，word embedding是指字符级别的词向量，在其他一些实施例中，word embedding还可以是词语、词组、或实体名词级别的词向量。另外，从子图像中提取图像特征的过程和/或确定每个字符的表示向量的过程，可以由多模态模型执行，也可以由多模态模型之外的模块或模型执行。

进一步，如图4或图6所示，将图像特征、以及每个字符的表示向量作为多模态模型的输入，从而使得多模态模型可以确定出每个字符的标签。

可选的，将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签，包括：将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，使得所述多模态模型根据所述每个字符的表示向量确定所述至少一行文本的语义信息，并根据所述语义信息和所述图像特征确定所述每个字符的标签。

例如，将图像特征、以及每个字符的表示向量输入给多模态模型时，多模态模型可以根据每个字符的表示向量确定出该至少一行文本的语义信息，进一步，根据该语义信息和该图像特征确定出每个字符的标签。

S705、根据所述至少一行文本中的每个字符、以及所述每个字符的标签，生成包含标点符号的自然语言文本。

如图5所示，根据“一秒折叠超大承重”中的每个字符、以及每个字符的标签，生成包含标点符号的自然语言文本，例如“一秒折叠，超大承重。”。

本实施例通过获取目标图像，并确定所述目标图像中包含至少一行文本的子图像。进一步，获取所述子图像的图像特征，将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，使得所述多模态模型根据所述每个字符的表示向量确定所述至少一行文本的语义信息，并根据所述语义信息和所述图像特征确定所述每个字符的标签。由于图像特征包含更加精准、丰富的信息，因此，图像特征可以辅助语义信息得到更加精准的标点符号。

可以理解的是，在生成包含标点符号的自然语言文本之后，该自然语言文本不仅可以应用于如上所述的机器翻译场景中。另外，还可以应用于基于OCR的视觉问答（Visual Question Answering，VQA）场景中。例如，用户问“这个能折叠吗

”，基于OCR的视觉问答可以对该自然语言文本例如“一秒折叠，超大承重。”进行分析或理解，从而回复用户“这个可以折叠”。此外，下游任务不限于机器翻译、VQA，还可以是其他需要对包含标点符号的自然语言文本进行处理的任务，此处不再一一赘述。从而使得通过本公开实施例提供的方法得到的包含标点符号的自然语言文本，可以更好的适应于下游标准的文本处理相关模块。

当本公开实施例提供的图像中的文本识别方法由终端31执行时，具体包括如下几个步骤：

S11、从服务器接收目标图像，或者通过拍摄装置采集所述目标图像。

例如，终端31可以设置有拍摄装置，该拍摄装置可以是摄像头。具体的，终端31可以通过拍摄装置采集目标图像，或者，终端31可以从服务器32接收该目标图像。可以理解的是，终端31还可以从其他服务器接收该目标图像。

S12、确定所述目标图像中包含至少一行文本的子图像。

S13、向所述服务器发送所述子图像、以及所述至少一行文本中的每个字符，所述服务器包括多模态模型，所述服务器用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，并通过所述多模态模型确定所述每个字符的标签。

S14、从所述服务器接收所述每个字符的标签，并根据所述每个字符的标签对所述至少一行文本进行断句。

具体的，S12-S14的实现原理可以参照上述实施例所述的内容，此处不再解释。在本实施例中，为了减轻终端31的计算压力，可以将多模态模型设置在服务器32一侧。当终端31确定出包含至少一行文本的子图像时，可以将该子图像、以及所述至少一行文本中的每个字符发送给服务器32，从而使得服务器32可以将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，并通过所述多模态模型确定所述每个字符的标签。进一步，终端31可以从服务器接收所述每个字符的标签，并根据所述每个字符的标签对所述至少一行文本进行断句。

当本公开实施例提供的图像中的文本识别方法由服务器32执行时，具体包括如下几个步骤：

S21、从终端接收目标图像。

例如，服务器32可以从终端31接收目标图像。或者服务器32可以从其他网络设备或其他终端获取该目标图像。

S22、确定所述目标图像中包含至少一行文本的子图像。

S23、将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签。

S24、根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果，并将所述断句后的结果发送给终端；或者，将所述每个字符的标签发送给所述终端，以使所述终端根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果。

具体的，S21-S24的实现原理可以参照上述实施例所述的内容，此处不再解释。在本实施例中，服务器32可以根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果，并将所述断句后的结果发送给终端31；或者，服务器32可以将所述每个字符的标签发送给所述终端31，使得所述终端31可以根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果。

图8为本公开实施例提供的图像中的文本识别装置的结构示意图。本公开实施例提供的图像中的文本识别装置可以执行图像中的文本识别方法实施例提供的处理流程，如图8所示，图像中的文本识别装置80包括：

获取模块81，用于获取目标图像；

第一确定模块82，用于确定所述目标图像中包含至少一行文本的子图像；

第二确定模块83，用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，所述每个字符的标签用于对所述至少一行文本进行断句。

可选的，所述第二确定模块83将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签时，具体用于：

获取所述子图像的图像特征；

将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签。

可选的，所述第二确定模块83将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签时，具体用于：

将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，使得所述多模态模型根据所述每个字符的表示向量确定所述至少一行文本的语义信息，并根据所述语义信息和所述图像特征确定所述每个字符的标签。

可选的，图像中的文本识别装置80还包括：生成模块84，用于根据所述至少一行文本中的每个字符、以及所述每个字符的标签，生成包含标点符号的自然语言文本。

图8所示实施例的图像中的文本识别装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了图像中的文本识别装置的内部功能和结构，该装置可实现为一种电子设备。该电子设备可以是终端或服务器。图9为本公开实施例提供的电子设备实施例的结构示意图。如图9所示，该电子设备包括存储器91和处理器92。

存储器91用于存储程序。除上述程序之外，存储器91还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器92与存储器91耦合，执行存储器91所存储的程序，以用于：

获取目标图像；

确定所述目标图像中包含至少一行文本的子图像；

进一步，如图9所示，电子设备还可以包括：通信组件93、电源组件94、音频组件95、显示器96等其它组件。图9中仅示意性给出部分组件，并不意味着电子设备只包括图9所示组件。

通信组件93被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件93经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件93还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件94，为电子设备的各种组件提供电力。电源组件94可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件95被配置为输出和/或输入音频信号。例如，音频组件95包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器91或经由通信组件93发送。在一些实施例中，音频组件95还包括一个扬声器，用于输出音频信号。

显示器96包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种终端，该终端可以包括：

通信组件，用于与服务器通信；

拍摄装置，用于采集目标图像；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现上述实施例所述的图像中的文本识别方法。

此外，本公开实施例还提供一种服务器，该服务器可以包括：

通信组件，用于与终端通信；

处理器；以及

计算机程序；

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的图像中的文本识别方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像中的文本识别方法，其中，所述方法包括：

获取目标图像；

确定所述目标图像中包含至少一行文本的子图像；

将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，所述每个字符的标签用于对所述至少一行文本进行断句；

将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，包括：

获取所述子图像的图像特征；

将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签；

将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签，包括：

2.根据权利要求1所述的方法，其中，所述字符的标签与所述字符之后待添加的标点符号相关。

3.根据权利要求1所述的方法，其中，所述方法还包括：

根据所述至少一行文本中的每个字符、以及所述每个字符的标签，生成包含标点符号的自然语言文本。

4.一种图像中的文本识别方法，其中，所述方法应用于终端，所述方法包括：

确定所述目标图像中包含至少一行文本的子图像；

从所述服务器接收所述每个字符的标签，并根据所述每个字符的标签对所述至少一行文本进行断句；

获取所述子图像的图像特征；

5.一种图像中的文本识别方法，其中，所述方法应用于服务器，所述方法包括：

从终端接收目标图像；

确定所述目标图像中包含至少一行文本的子图像；

根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果，并将所述断句后的结果发送给终端；或者，将所述每个字符的标签发送给所述终端，以使所述终端根据所述每个字符的标签对所述至少一行文本进行断句，得到断句后的结果；

获取所述子图像的图像特征；

6.一种图像中的文本识别装置，其中，包括：

获取模块，用于获取目标图像；

第二确定模块，用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签，所述每个字符的标签用于对所述至少一行文本进行断句；

所述第二确定模块将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，通过所述多模态模型确定所述每个字符的标签时，具体用于：

获取所述子图像的图像特征；

所述第二确定模块将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型，通过所述多模态模型确定所述每个字符的标签时，具体用于：

7.一种终端，其中，包括：

通信组件，用于与服务器通信；

拍摄装置，用于采集目标图像；

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求4所述的方法。

8.一种服务器，其中，包括：

通信组件，用于与终端通信；

处理器；以及

计算机程序；

其中，所述计算机程序存储在存储器中，并被配置为由所述处理器执行以实现如权利要求5所述的方法。

9.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在存储器中，并被配置为由所述处理器执行以实现如权利要求1-3中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的方法。