CN113139547A

CN113139547A - 文本识别方法、装置、电子设备及存储介质

Info

Publication number: CN113139547A
Application number: CN202010065784.1A
Authority: CN
Inventors: 郑琪; 于智; 李亮城; 高飞宇; 王永攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-07-20
Anticipated expiration: 2040-01-20
Also published as: CN113139547B

Abstract

本公开实施例公开了一种文本识别方法、装置、电子设备及存储介质，所述方法包括：获取待识别的图片中包括的多个第一字符图像块的图像信息；所述第一字符图像块中包含至少一个字符；根据所述图像信息获取所述第一字符图像块的第一特征数据；利用偏序关系识别模型对所述第一特征数据进行识别，获得至少三个所述第一字符图像块对应的第一偏序关系；所述第一偏序关系包括所述三个第一字符图像块包含的字符在所述图片包括的第一正确字符序列中的间隔关系；根据所述第一偏序关系确定所述第一正确字符序列。该技术方案能够适用于图片中按照任何格式排版的图片的文本识别，适用范围更广，而且识别结果更加准确。

Description

文本识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种文本识别方法、装置、电子设备及存储介质。

背景技术

相关技术中的文本识别方法例如OCR，通常将图片中的字符对应的图像切割成一个个的字符图像块，并识别出每个字符图像块中包含的字符后，按照自左向右、自上向下的顺序形成字符序列后输出。但是，一些图片上的字符由于存在各种类型的排版格式，例如分栏、环形等格式，使得如果简单地按照自左向右、自上向下的顺序形成字符序列会破坏原始文本的语义连贯性，降低文本识别的准确率。

发明内容

本公开实施例提供一种文本识别方法、装置、电子设备及计算机可读存储介质。

第一方面，本公开实施例中提供了一种文本识别方法，包括：

获取待识别的图片中包括的多个第一字符图像块的图像信息；所述第一字符图像块中包含至少一个字符；

根据所述图像信息获取所述第一字符图像块的第一特征数据；

利用偏序关系识别模型对所述第一特征数据进行识别，获得至少三个所述第一字符图像块对应的第一偏序关系；所述第一偏序关系包括所述三个第一字符图像块包含的字符在所述图片包括的第一正确字符序列中的间隔关系；

根据所述第一偏序关系确定所述第一正确字符序列。

进一步地，所述特征数据包括视觉特征数据和/或语义特征数据。

进一步地，所述图像信息包括所述第一字符图像块在所述图片中的位置以及所述第一字符图像块包含的字符。

进一步地，利用偏序关系识别模型对所述第一特征数据进行识别，获得至少三个所述第一字符图像块对应的第一偏序关系，包括：

构建包括三个所述第一字符图像块的第一三元组合；

将所述第一三元组合中所述第一字符图像块对应的第一特征数据构成的三元组特征数据输入至所述偏序关系识别模型，获得所述第一三元组合对应的所述第一偏序关系。

进一步地，构建包括三个所述第一字符图像块的第一三元组合，包括：

根据在所述图片中的位置选定按照预置的自然阅读顺序排列的三个所述第一字符图像块，并将选定的三个所述第一字符图像块构建成所述第一三元组合；其中所述第一偏序关系包括所述第一三元组合中第一个所述第一字符图像块包含的字符与其他两个所述第一字符图像块包含的字符在所述第一正确字符序列中的间隔关系。

进一步地，根据所述第一偏序关系确定所述第一正确字符序列，包括：

根据所述第一偏序关系确定所述第一字符图像块包含的字符与其他字符在所述第一正确字符序列中的顺序关系；

根据所述顺序关系确定所述第一正确字符序列。

进一步地，根据所述第一偏序关系确定所述第一字符图像块包含的字符与其他字符在所述第一正确字符序列中的顺序关系，包括：

选定其中一个所述第一字符图像块为目标字符图像块；

根据所述目标字符图像块对应的每一所述第一偏序关系确定候选字符图像块，并加入候选字符图像块集合；其中，所述候选字符图像块为按照预置的自然阅读顺序排列在所述目标字符图像块之后的其他两个所述第一字符图像块中的一个，且所述候选字符图像块包含的字符在所述第一正确字符序列中相较于另一个与所述目标字符图像块包含的字符间隔更小；

根据在所述候选图像块集合中的出现次数将其中一个所述候选字符图像块包含的字符确定为在所述第一正确字符序列中排列在所述目标字符图像块包含的字符之后的邻近字符。

进一步地，根据在所述候选图像块集合中的出现次数将其中一个所述候选字符图像块包含的字符确定为在所述第一正确字符序列中排列在所述目标字符图像块包含的字符之后的邻近字符，包括：

将所述候选图像块集合中出现次数最多的所述候选字符图像块包含的字符确定为所述邻近字符；和/或，

在所述候选图像块集合中存在出现次数最多的两个及两个以上的所述候选字符图像块时，从出现次数最多的所述候选字符图像块中，将按照预置的自然阅读顺序最靠前的所述候选字符图像块包含的字符确定为所述邻近字符。

进一步地，选定其中一个所述第一字符图像块为目标字符图像块，包括：

根据所述第一字符图像块在所述图片中的位置将所述第一字符图像块按照预置的自然阅读顺序进行初始排序；

根据所述初始排序，最初将第一个所述第一字符图像块确定为目标字符图像块，并在之后将所述邻近字符对应的所述第一字符图像块确定为目标字符图像块。

进一步地，还包括：

获取样本数据；所述样本数据包括所述样本图片中的第二字符图像块的图像信息以及所述样本图片中的第二正确字符序列；

根据所述第二字符图像块的图像信息获取所述第二字符图像块的第二特征数据，以及根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系；所述第二偏序关系包括所述三个第二字符图像块包含的字符在所述样本图片包括的第二正确字符序列中的间隔关系；

利用所述第二特征数据以及所述第二偏序关系对所述偏序关系识别模型进行训练。

进一步地，根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系，包括：

构建包括三个所述第二字符图像块的第二三元组合；

根据所述第二正确字符序列确定第一间隔和第二间隔；所述第一间隔为所述第二三元组合中第一个所述第二字符图像块包含的字符与第二个所述第二字符图像块包含的字符在所述第二正确字符序列中的间隔；所述第二间隔为所述第二三元组合中第一个所述第二字符图像块包含的字符与第三个所述第二字符图像块在所述第二正确字符序列中的间隔；

根据所述第一间隔和第二间隔确定所述第二三元组合对应的所述第二偏序关系。

进一步地，构建包括三个所述第二字符图像块的第二三元组合，包括：

根据所述第二正确字符序列选定按照预置的自然阅读顺序排列的三个所述第二字符图像块，并将选定的三个所述第二字符图像块构建成所述第二三元组合。

进一步地，所述图片包括多个，且所述第一字符图像块包括从多个所述图片中获得的字符图像块。

第二方面，本公开实施例中提供了一种偏序关系识别模型的训练方法，包括：

构建包括三个所述第二字符图像块的第二三元组合；

进一步地，所述第二特征数据包括视觉特征数据和/或语义特征数据。

第三方面，本公开实施例中提供了一种文本识别方法，包括：

获取待识别的图片；

利用偏序关系识别模型对所述图片中包含的字符进行排序；其中，所述偏序关系识别模型利用第二方面所述的偏序关系识别模型的训练方法训练得到。

第四方面，本公开实施例中提供了一种文本生成方法，包括：

利用第一方面所述的文本识别方法获得待识别的图片包括的第一正确字符序列；

根据所述第一正确字符序列输出所述图片中包括的文本。

进一步地，所述文本包括摘要和/或标题。

第五方面，本公开实施例中提供了一种文本识别装置，包括：

第一获取模块，被配置为获取待识别的图片中包括的多个第一字符图像块的图像信息；所述第一字符图像块中包含至少一个字符；

第二获取模块，被配置为根据所述图像信息获取所述第一字符图像块的第一特征数据；

第一识别模块，被配置为利用偏序关系识别模型对所述第一特征数据进行识别，获得至少三个所述第一字符图像块对应的第一偏序关系；所述第一偏序关系包括所述三个第一字符图像块包含的字符在所述图片包括的第一正确字符序列中的间隔关系；

第一确定模块，被配置为根据所述第一偏序关系确定所述第一正确字符序列。

进一步地，所述第一识别模块，包括：

第一构建子模块，被配置为构建包括三个所述第一字符图像块的第一三元组合；

输入子模块，被配置为所述第一三元组合中所述第一字符图像块对应的第一特征数据构成的三元组特征数据输入至所述偏序关系识别模型，获得所述第一三元组合对应的所述第一偏序关系。

进一步地，所述第一构建子模块，包括：

第一选定子模块，被配置为根据在所述图片中的位置选定按照预置的自然阅读顺序排列的三个所述第一字符图像块，并将选定的三个所述第一字符图像块构建成所述第一三元组合；其中所述第一偏序关系包括所述第一三元组合中第一个所述第一字符图像块包含的字符与其他两个所述第一字符图像块包含的字符在所述第一正确字符序列中的间隔关系。

进一步地，所述第一确定模块，包括：

第一确定子模块，被配置为根据所述第一偏序关系确定所述第一字符图像块包含的字符与其他字符在所述第一正确字符序列中的顺序关系；

第二确定子模块，被配置为根据所述顺序关系确定所述第一正确字符序列。

进一步地，所述第一确定子模块，包括：

第二选定子模块，被配置为选定其中一个所述第一字符图像块为目标字符图像块；

第三确定子模块，被配置为根据所述目标字符图像块对应的每一所述第一偏序关系确定候选字符图像块，并加入候选字符图像块集合；其中，所述候选字符图像块为按照预置的自然阅读顺序排列在所述目标字符图像块之后的其他两个所述第一字符图像块中的一个，且所述候选字符图像块包含的字符在所述第一正确字符序列中相较于另一个与所述目标字符图像块包含的字符间隔更小；

第四确定子模块，被配置为根据在所述候选图像块集合中的出现次数将其中一个所述候选字符图像块包含的字符确定为在所述第一正确字符序列中排列在所述目标字符图像块包含的字符之后的邻近字符。

进一步地，所述第四确定子模块，包括：

第五确定子模块，被配置为将所述候选图像块集合中出现次数最多的所述候选字符图像块包含的字符确定为所述邻近字符；和/或，

第六确定子模块，被配置为在所述候选图像块集合中存在出现次数最多的两个及两个以上的所述候选字符图像块时，从出现次数最多的所述候选字符图像块中，将按照预置的自然阅读顺序最靠前的所述候选字符图像块包含的字符确定为所述邻近字符。

进一步地，所述第二选定子模块，包括：

排序子模块，被配置为根据所述第一字符图像块在所述图片中的位置将所述第一字符图像块按照预置的自然阅读顺序进行初始排序；

第七确定子模块，被配置为根据所述初始排序，最初将第一个所述第一字符图像块确定为目标字符图像块，并在之后将所述邻近字符对应的所述第一字符图像块确定为目标字符图像块。

进一步地，还包括：

第三获取模块，被配置为获取样本数据；所述样本数据包括所述样本图片中的第二字符图像块的图像信息以及所述样本图片中的第二正确字符序列；

第四获取模块，被配置为根据所述第二字符图像块的图像信息获取所述第二字符图像块的第二特征数据，以及根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系；所述第二偏序关系包括所述三个第二字符图像块包含的字符在所述样本图片包括的第二正确字符序列中的间隔关系；

第一训练模块，被配置为利用所述第二特征数据以及所述第二偏序关系对所述偏序关系识别模型进行训练。

进一步地，所述第二获取模块，包括：

第二构建子模块，被配置为构建包括三个所述第二字符图像块的第二三元组合；

第八确定子模块，被配置为根据所述第二正确字符序列确定第一间隔和第二间隔；所述第一间隔为所述第二三元组合中第一个所述第二字符图像块包含的字符与第二个所述第二字符图像块包含的字符在所述第二正确字符序列中的间隔；所述第二间隔为所述第二三元组合中第一个所述第二字符图像块包含的字符与第三个所述第二字符图像块在所述第二正确字符序列中的间隔；

第九确定子模块，被配置为根据所述第一间隔和第二间隔确定所述第二三元组合对应的所述第二偏序关系。

进一步地，所述第二构建子模块，包括：

第三选定子模块，被配置为根据所述第二正确字符序列选定按照预置的自然阅读顺序排列的三个所述第二字符图像块，并将选定的三个所述第二字符图像块构建成所述第二三元组合。

第六方面，本公开实施例中提供了一种偏序关系识别模型的训练装置，包括：

第五获取模块，被配置为获取样本数据；所述样本数据包括所述样本图片中的第二字符图像块的图像信息以及所述样本图片中的第二正确字符序列；

第六获取模块，被配置为根据所述第二字符图像块的图像信息获取所述第二字符图像块的第二特征数据，以及根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系；所述第二偏序关系包括所述三个第二字符图像块包含的字符在所述样本图片包括的第二正确字符序列中的间隔关系；

第二训练模块，被配置为利用所述第二特征数据以及所述第二偏序关系对所述偏序关系识别模型进行训练。

进一步地，所述第六获取模块，包括：

第三构建子模块，被配置为构建包括三个所述第二字符图像块的第二三元组合；

第十确定子模块，被配置为根据所述第二正确字符序列确定第一间隔和第二间隔；所述第一间隔为所述第二三元组合中第一个所述第二字符图像块包含的字符与第二个所述第二字符图像块包含的字符在所述第二正确字符序列中的间隔；所述第二间隔为所述第二三元组合中第一个所述第二字符图像块包含的字符与第三个所述第二字符图像块在所述第二正确字符序列中的间隔；

第十一确定子模块，被配置为根据所述第一间隔和第二间隔确定所述第二三元组合对应的所述第二偏序关系。

进一步地，所述第三构建子模块，包括：

第四选定子模块，被配置为根据所述第二正确字符序列选定按照预置的自然阅读顺序排列的三个所述第二字符图像块，并将选定的三个所述第二字符图像块构建成所述第二三元组合。

第七方面，本公开实施例中提供了一种文本识别装置，包括：

第七获取模块，被配置为获取待识别的图片；

排序模块，被配置为利用偏序关系识别模型对所述图片中包含的字符进行排序；其中，所述偏序关系识别模型利用第六方面所述的偏序关系识别模型的训练装置训练得到。

第八方面，本公开实施例中提供了一种文本生成装置，其中，包括：

第八获取模块，被配置为利用第一方面所述的文本识别装置获得待识别的图片包括的第一正确字符序列；

输出模块，被配置为根据所述第一正确字符序列输出所述图片中包括的文本。

进一步地，所述文本包括摘要和/或标题。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，上述任一装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述任一装置执行上述任一方面中所述方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述任一装置还可以包括通信接口，用于上述任一装置与其他设备或通信网络通信。

第九方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。

第十方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方面所述方法所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例在文本识别过程中，利用偏序关系识别模型识别图片中的任意三个第一字符图像块对应的第一偏序关系，以便确定任意三个第一字符图像块包含的字符在图片中包含的第一正确字符序列中的间隔关系，进而根据该间隔关系最终确定第一正确字符序列之后输出。相关技术中按照如从左到右、从上至下的简单规则对识别出来的字符进行排序的方法仅适用于按照上述简单规则排版的图片的文本识别，而本公开实施例中的上述方案能够适用于图片中按照任何格式排版的图片的文本识别，例如图文混排的网络广告图片、电商描述图片等，适用范围更广，而且识别结果更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的文本识别方法的流程图；

图2示出根据本公开一实施方式识别出第一字符图像块的图片示意图；

图3示出根据本公开一实施方式的偏序关系识别模型的训练方法流程图；

图4示出根据本公开另一实施方式的文本识别方法流程图；

图5示出了利用本公开实施例提出的文本识别模型对图2所示的图片中的文本进行识别的流程示意图；

图6示出根据本公开一实施方式的文本生成方法流程图；

图7是适于用来实现根据本公开一实施方式的文本识别方法和/或偏序关系识别模型的训练方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开一实施方式的文本识别方法的流程图。如图1所示，所述文本识别方法包括以下步骤：

在步骤S101中，获取待识别的图片中包括的多个第一字符图像块的图像信息；所述第一字符图像块中包含至少一个字符；

在步骤S102中，根据所述图像信息获取所述第一字符图像块的第一特征数据；

在步骤S103中，利用偏序关系识别模型对所述第一特征数据进行识别，获得至少三个所述第一字符图像块对应的第一偏序关系；所述第一偏序关系包括所述三个第一字符图像块包含的字符在所述图片包括的第一正确字符序列中的间隔关系；

在步骤S104中，根据所述第一偏序关系确定所述第一正确字符序列。

本实施例中，该文本识别方法可以在电子设备如计算机、服务器等上执行。该电子设备可以包括至少一个处理器、存储器等。

在一些实施例中，第一字符图像块的图像信息可以包括但不限于第一字符图像块在图片中的位置以及第一字符图像块所包含的字符。第一字符图像块的图像信息可以利用OCR(光学字符识别)技术对图片进行识别而得到。第一字符图像块可以包含一个字符或多个字符，且第一字符图像块在包含多个字符时，该多个字符可以位于同一行、同一列和/或同一段落中，并且该多个字符可以是连续无间隔的。

OCR技术通过检测图像中包含字符的图像块，进而针对每一字符图像块识别其中字符的形状，并通过分类器模型识别所检测到的形状为字符库中已知字符的概率，进而根据该概率确定图像中包括的字符。在识别过程中，可以从图片中切割出包括一个字符、一行或一列字符串、多行或多列字符串的多个第一字符图像块，使得每个第一字符图像块中包括至少一个字符。如图2所示，可以利用OCR等技术从图2所示图片中的文本区域切割出5个第一字符图像块。可以理解的是，本实施例中不限于上述OCR技术，只要是能够从图片中识别出第一字符图像块，并且能够确定第一字符图像块在图片中的位置即可；本公开实施例中还可以利用如层次聚类法等机器识别方法帮助第一字符图像块的精确识别。

图片中的字符可以包括但不限于数字、英文字母、中文文字、标点符号等。从图片识别出来的第一正确字符序列可以是一个词组、一句话和/或包括多个词组、多个句子一段文字等。

第一字符图像块可以是包括图片中一个字符和/或多个字符构成的字符串等的子图，在利用OCR等技术识别第一字符图像块的过程中，该子图在图片中的位置以及第一字符图像块中包括的字符内容都可以被识别出来。

如上文所述，OCR等技术识别通常将图片中的字符对应的图像切割成一个个的字符图像块，并识别出每个字符图像块中包含的字符后，按照自左向右、自上向下的顺序形成字符序列后输出。但是，很多图片上的字符由于存在各种类型的排版格式，例如分栏、环形等格式，使得如果简单地按照自左向右、自上向下的顺序形成字符序列会破坏原始文本的语义连贯性，降低文本识别的准确率。因此，本公开实施例在OCR等识别技术的基础上，利用偏序关系识别模型针对切割出来的任意三个第一字符图像块识别对应的偏序关系，以便确定任意三个第一字符图像块包含的字符在第一正确字符序列中的间隔关系，进而根据该间隔关系最终确定第一正确字符序列之后输出。也即本公开实施例，对OCR等识别技术所识别出来的结果进行了重排序，使得图片中包括的字符序列按照任意格式排版时，均能够得到正确的字符序列。

在一些实施例中，第一字符图像块的第一特征数据可以包括视觉特征数据和/或语义特征数据。视觉特征数据可以包括但不限于传统的图像特征数据例如颜色、纹理、形状和/或空间关系(例如第一字符图像块的尺寸大小以及第一字符图像块之间的距离特征等)等，还可以包括利用计算机视觉处理技术从图片中得到的特征数据，例如通过神经网络模型等从图片中提取出的与视觉相关的中间特征等。语义特征数据可以是通过自然语言技术对图片中的第一字符图像块包含的字符进行处理后得到的特征数据，例如词向量特征。词向量特征可以表征一段文本中字符上下文之间的语义关系，例如可以通过word2vec模型获得，通过将图片中第一字符图像块包含的字符输入至word2vec模型，得到第一字符图像块包含的字符在图片中包括的文本内容中的词向量特征。

在一些实施例中，第一偏序关系可以理解为三个第一字符图像块对应的字符在图片中包含的第一正确字符序列中的间隔关系，该间隔关系可以包括字符之间的远近关系，三个第一字符图像块为一组对应一个第一偏序关系，在识别的时候，可以将从图片中识别出来的多个第一字符图像块进行任意组合，并利用偏序识别模型获得任意三个第一字符图像块对应的第一偏序关系。假如第一偏序关系用p(i,j,k)表示，其中i、j、k分别表示三个第一字符图像块，p(i,j,k)可以用于表示在图片包括的第一正确字符序列中，第一字符图像块i包含的字符与第一字符图像块j包含的字符、第一字符图像块k包含的字符之间的间隔关系，例如p(i,j,k)>0时，可以表示第一字符图像块i包含的字符与第一字符图像块j包含的字符之间的间隔小于第一字符图像块i包含的字符与第一字符图像块k包含的字符之间的间隔，而p(i,j,k)<0时，可以表示第一字符图像块i包含的字符与第一字符图像块j包含的字符之间的间隔大于第一字符图像块i对应的字符与第一字符图像块k包含的字符之间的间隔。当然可以理解的是，第一偏序关系p(i,j,k)所表示出来的字符之间的间隔关系不限于上述举例说明中的表示形式，可以根据实际需要进行其他变化，只要第一偏序关系p(i,j,k)能够表示出三个第一字符图像块包含的三组字符之间的间隔关系均落在本公开的保护范围中，对此本公开中不做具体限制。

偏序关系识别模型为预先训练得到的机器自学习模型，该偏序关系识别模型可以基于第一字符图像块的第一特征数据识别出任意三个第一字符图像块包含的字符在第一正确字符序列中的间隔关系。在一些实施例中，偏序关系识别模型可以采用逻辑回归模型训练得到，当然可以理解的是，偏序关系识别模型也可以采用其他机器自学习模型，如神经网络模型，对此本公开不做具体限制。

在利用偏序关系识别模型识别出任意三个第一字符图像块对应的第一偏序关系，也即图片中包括的第一正确字符序列中任意三个第一字符图像块包含的三组字符之间的间隔关系之后，可以基于该第一偏序关系确定第一字符图像块包含的字符与其他字符之前的前后顺序关系，进而可以确定图片中包括的第一正确字符序列，该第一正确字符序列可以是具有连贯语义的文本内容。

偏序关系识别模型通过第一字符图像块的特征数据如视觉特征数据和语义特征数据进行识别，并且由于偏序关系识别模型也是通过样本图片中字符图像块的上述特征数据以及样本图片中字符序列之间的真实顺序关系训练得到，因此偏序关系识别模型能够通过第一字符图像块的特征数据从视觉和语义两个维度识别字符在正确字符序列中的间隔关系，因此通过两两比较该间隔关系最终能够得到正确字符序列。例如，通过该间隔关系确定距离某个字符图像块i包含的字符最近的字符是字符图像块j还是字符图像块k包含的字符，进而通过将某个字符图像块i与任意两个字符图像块进行两两比较之后，选定在正确字符序列中与字符图像块i包括的字符邻近的字符，因此可以通过这种方式将图片中所有切割出来的第一字符图像块包含的字符进行排序后，最终能够得到图片中包括的第一正确字符序列，该第一正确字符序列中字符之间按照语义关系排列，且符合自然语言表达。本公开实施例提出的上述文本识别方法不但适用于按照简单的规则例如从左到右、从上到下排版的文档类图片，还适用于不按上述简单规则排序的图片，例如图文混排的网络广告图片、电商描述图片等。

在本实施例的一个可选实现方式中，所述特征数据包括视觉特征数据和/或语义特征数据。

该可选的实现方式中，可以利用OCR等技术识别出图像中的第一字符图像块，也即识别出包含字符的第一字符图像块在图片中的位置，例如包括一行连续的字符串所在区域的矩形框的四角在图片中的位置，进而根据该位置确定第一字符图像块对应的子图。在切割得到第一字符图像块对应的子图之后，可以针对该子图提取视觉特征数据，如上文所述，视觉特征数据可以是传统的图像特征和/或通过计算机视觉技术提取出来的特征。在一些实施例中可以通过将图像特征和利用计算机视觉技术从第一字符图像块对应的子图中提取出的特征数据相结合的方式得到视觉特征数据。

此外，OCR技术在将图片切割成一个个的第一字符图像块之后，还会通过字符图像块中字符的形状识别出其中的字符内容。本公开实施例可以针对所识别出的字符内容提取语义特征数据。语义特征数据可以是对字符的向量表示，并且通过该向量表示能够分析出字符之间的语义关系，例如语义特征数据可以是词向量，词向量可以表示两个词在语义上的距离关系，词向量的提取方式为已知技术，在此不再赘述。

在一些实施例中，针对第一字符图像块可以同时提取视觉特征数据和语义特征数据，并将视觉特征数据和图像特征数据合并后确定为第一字符图像块对应的特征数据。例如，针对第一字符图像块i提取的视觉特征数据为v1，而针对第一字符图像块i提取的语义特征数据为v2，则第一字符图像块i的特征数据可以表示为[v1^T,v2^T]。

在本实施例的一个可选实现方式中，所述步骤S103，即利用偏序关系识别模型对所述第一特征数据进行识别，获得三个所述第一字符图像块对应的第一偏序关系的步骤，进一步包括以下步骤：

构建包括三个所述第一字符图像块的第一三元组合；

该可选的实现方式中，针对从图片中识别出来的第一字符图像块，可以对其中任意三个进行组合得到多个第一三元组合。假如图片中包括三个第一字符图像块i、j、k，则可以得到如下第一三元组合：(i,j,k)、(i,k,j)、(j,k,i)、(j,i,k)、(k,i,j)、(k,j,i)。假如第一字符图像块i的第一特征数据表示为[v1i^T,v2i^T]，第一字符图像块j的第一特征数据表示为[v1j^T,v2j^T]，第一字符图像块k的第一特征数据表示为[v1k^T,v2k^T]，则第一三元组合(i,j,k)对应的三元组特征数据可以为[v1i^T,v2i^T,v1j^T,v2j^T,v1k^T,v2k^T]，将该三元组特征数据输入至偏序关系识别模型，可以得到该第一三元组合对应的第一偏序关系p(i,j,k)，该第一偏序关系可以表示出第一字符图像块i、j、k所对应的字符在第一正确字符序列中的间隔关系。例如第一字符图像块i包含的字符与第一字符图像块j包含的字符之间的间隔ij、第一字符图像块i包含的字符与第一字符图像块k包含的字符之间的ik间隔ik之间的远近关系，当然可以理解的是，偏序关系不限于这种方式，可以是上述关系的任何变形，例如p(i,j,k)可以表示第一字符图像块j包含的字符与第一字符图像块i包含的字符之间的间隔ji、第一字符图像块j包含的字符与第一字符图像块k包含的字符之间的间隔jk之间的远近关系等，本公开中对此不做具体限制。

在本实施例的一个可选实现方式中，所述构建包括三个所述第一字符图像块的第一三元组合的步骤，进一步包括以下步骤：

根据在所述图片中的位置选定按照预置的自然阅读顺序排列的三个所述第一字符图像块，并将选定的三个所述第一字符图像块组构建成所述第一三元组合；其中所述第一偏序关系包括所述第一三元组合中第一个所述第一字符图像块包含的字符与其他两个所述第一字符图像块包含的字符在所述第一正确字符序列中的间隔关系。

该可选的实现方式中，从图片中识别第一字符图像块的过程中，第一字符图像块在图片中的位置以及第一字符图像块中包含的字符均被识别。无论是按照简单规则如从左到右、从上到下排版字符序列的图片还是不按上述简单规则的排版如图文混排的图片中，按照人们的阅读习惯，多个第一字符图像块之间通常都会遵循从上往下、从左到右的排版格式，因此可以预先设置自然阅读顺序，比如从上往下、从左到右的阅读顺序。因此，在利用偏序关系确定第一正确字符序列时，可以针对任意一第一字符图像块，根据该第一字符图像块在图片中的位置按照上述自然阅读顺序找出排序在其后面的任意两个第一字符图像块组成第一三元组合，进而再确定该第一三元组合的第一偏序关系。这种方式下，并不需要获得任意三个第一字符图像块对应的第一三元组合的第一偏序关系，而是将按照上述自然阅读顺序将排序前面的一个第一字符图像块与排在其后的任意两个第一字符图像块进行组合后，获得对应的第一偏序关系即可，因此通过这种方式可以减少偏序关系识别模型的处理数据，进而节省资源。

在本实施例的一个可选实现方式中，所述步骤S104，即根据所述第一偏序关系确定所述第一正确字符序列的步骤，进一步包括以下步骤：

根据所述第一偏序关系确定所述第一字符图像块包含的字符与其他字符之间的顺序关系；

根据所述顺序关系确定所述字符序列。

该可选的实现方式中，可以根据第一偏序关系确定任意一个第一字符图像块包含的字符与其他第一字符图像块包含的字符之间的顺序关系，进而再根据确定出来的该顺序关系得到图片中包括的第一正确字符序列，该第一正确字符序列为前后字符之间具有顺序关系的序列，并且该顺序关系是经过对图片中第一字符图像块的第一特征数据进行偏序关系识别模型识别得到的，而该第一特征数据可以包括视觉特征数据和/或语义特征数据，因此通过偏序关系识别模型对第一特征数据识别得到的该第一正确字符序列中的字符之间顺序关系是通过视觉和语义两个维度识别出来的，因此相较于相关技术中通过简单的排序规则如从左到右和/或自下而上将识别出来的顺序关系，准确度更高，并且不受限于图片中文本的排版方式。

第一偏序关系可以表示对应的三个第一字符图像块中包含的字符之间的间隔关系，该间隔关系是字符在最终输出的第一正确字符序列中的间隔关系。因此根据该第一偏序关系可以比较出其中一个第一字符图像块包含的字符与其他两个第一字符图像块包含的字符之间的间隔关系，进而能够确定该三个第一字符图像块中哪两个第一字符图像块包含的字符之间的间隔更小。由于通过偏序关系识别模型可以获得任意三个第一字符图像块包含的字符之间的第一偏序关系，因此针对任意一个第一字符图像块包含的字符，通过与该第一字符图像块相关的多个第一偏序关系(也即包括该第一字符图像块的多个第一三元组合对应的第一偏序关系)与其他任意两个第一字符图像块包含的字符进行两两比较，以确定该三个第一字符图像块包含的字符之间的间隔关系，进而可以根据这些间隔关系确定图片中的第一正确字符序列。

在本实施例的一个可选实现方式中，所述根据所述第一偏序关系确定所述第一字符图像块包含的字符与其他字符在所述第一正确字符序列中的顺序关系的步骤，进一步包括以下步骤：

选定其中一个所述第一字符图像块为目标字符图像块；

该可选的实现方式中，在确定了任意三个第一字符图像块构成的第一三元组或者排序所需要的部分三个第一字符图像块构成的第一三元组对应的第一偏序关系之后，可以根据该第一偏序关系对第一字符图像块包含的字符进行排序。在排序之初，可以选定其中一个第一字符图像块作为第一个目标字符图像块，例如可以将图片左上角的第一个第一字符图像块选定为目标字符图像块。之后再获取该目标字符图像块对应的所有第一偏序关系或者部分第一偏序关系，也即包括该目标字符图像块在内的所有第一三元组合对应的第一偏序关系或者包括该目标字符图像块且该目标字符图像块为第一个元素的部分第一三元组合对应的第一偏序关系。通过该目标字符图像块对应的上述第一偏序关系，可以比较出其他任意两个第一字符图像块包含的字符中哪个与该目标字符图像块包含的字符间隔更小，也即在第一正确字符序列中哪个第一字符图像块包含的字符与该目标字符图像块包含的字符距离更加，并将间隔更小的第一字符图像块作为候选字符图像块加入候选字符图像块集合中，通过统计候选字符图像块集合中同一候选字符图像块的出现次数，可以将其中一个候选字符图像块包含的字符确定为在第一正确字符序列中排列在目标字符图像块包含的字符之后的邻近字符。

在本实施例的一个可选实现方式中，所述根据在所述候选图像块集合中的出现次数将其中一个所述候选字符图像块包含的字符确定为在所述第一正确字符序列中排列在所述目标字符图像块包含的字符之后的邻近字符的步骤，进一步包括以下步骤：

该可选的实现方式中，在候选字符图像块集合中出现次数最多，说明该出现次数最多的该候选字符图像块包含的字符最接近于该目标字符图像块包含的字符。

假如图片中正确的字符序列为“春节快乐”，从图片中识别出来了四个第一字符图像块，分别对应四个“春”、“节”、“快”、“乐”，在选定“春”时，包含“春”、且“春”为第一个元素的第一三元组合包括[春，节，快]、[春，节，乐]、[春，快，乐]、[春，快，节]、[春，乐，节]、[春，乐，快]，由于“节”和“快”顺序对换的第一三元组合对应的第一偏序关系相同，因此可以其中一个剔除，保留以下三个第一三元组合：[春，节，快]、[春，节，乐]、[春，快，乐]；所保留的上述第一三元组合对应的第一偏序关系包括p(春，节，快)、p(春，节，乐)、p(春，快，乐)。从上述3个第一偏序关系得到的候选图像集合为：{“节”、“节”、“快”}，其中“节”这一候选字符图像块的出现次数为2，而“快”第一候选字符图像块的出现次数为1，因此可以确定“节”正确字符序列“春节快乐”中排列在“春”之后的邻近字符。

在一些实施例中，为了避免两个及以上的候选字符图像块在候选字符图像集合中的出现次数相等的情况，还可以根据出现次数最多的候选字符图像块在图片中的位置确定按照预置的自然阅读顺序该多个候选字符图像块的排序关系，进而根据该排序关系从出现次数最多的两个及以上的候选字符图像块中选择排在最前的一个候选字符图像块包含的字符作为目标字符图像块包含的字符的邻近字符。当然可以理解的是，如果在识别之初，目标字符图像块选择的是按照预置的自然阅读顺序位于最前的一个第一字符图像块，并且在确定了最前的第一字符图像块包含的字符的邻近字符之后，将该邻近字符对应的第一字符图像块作为目标字符图像块，依次进行处理，则不会发生出现次数最多的候选字符图像块位于目标字符图像块的情况。

在本实施例的一个可选实现方式中，所述选定其中一个所述第一字符图像块为目标字符图像块的步骤，进一步包括以下步骤：

根据所述初始排序，在最初将第一个所述第一字符图像块确定为目标字符图像块，并在之后将所述邻近字符对应的所述第一字符图像块确定为目标字符图像块。

该可选的实现方式中，在选定目标字符图像块时，可以按照第一字符图像块在图片中的位置以及预置的自然阅读顺序将这些第一字符图像块进行初始排序，之后再利用第一偏序关系进行重排序。在一些实施例中，预置的自然阅读顺序可以是从左到右和/或从上到下的阅读顺序。当然，可以理解的是，在一些实施例中，还可以设置不同于上述从左到右和/或从上到下的阅读顺序，具体可以根据实际需要设置，在此不做限制。

在重排序之初，可以选择初始排序中第一个第一字符图像块作为目标字符图像块，并对该目标字符图像块进行上述处理之后，确定排在该目标字符图像块之后第一字符图像块(也即邻近字符对应的第一字符图像块)，之后将该第一字符图像块确定为下一轮处理的目标字符图像块，以此类推，直到最后一个第一字符图像块处理完毕。

在本实施例的一个可选实现方式中，所述方法进一步包括以下步骤：

该可选的实现方式中，偏序关系识别模型可以预先训练得到。收集到包括字符的样本图片后，可以对样本图片进行OCR等识别技术的处理，以便从样本图像中获得第二字符图像块的图像信息，第二字符图像块与第一字符图像块类似，具体细节可以参见上述对第一字符图像块的描述，在此不再赘述。第二字符图像块的图像信息可以包括但不限于该第二字符图像块在样本图片中的位置以及所包含的字符。

针对样本图片，还可以确定样本图片中的第二正确字符序列，该第二正确字符序列为样本图片中包括的真实字符序列，且该真实字符序列可以为按照自然语言方式描述的内容，真实字符序列中的各字符之间在语义上具有前后顺序关系。样本图片中的第二正确字符序列可以通过人工标注。

在偏序关系识别模型的训练过程中，可以获取通过上述方式收集到的样本数据，该样本数据可以包括样本图片中的第二字符图像块的图像信息以及该样本图片中的第二正确字符序列。

针对每个样本数据，可以提取其中第二图像数据块的第二特征数据，第二特征数据与第一特征数据类似，具体细节可以参见上述对第一特征数据的描述，在此不再赘述。

此外，由于样本图片中的第二正确字符序列已知，因此可以根据第二正确字符序列确定该第二正确字符序列中任意三个第二字符图像块包含的字符之间的间隔关系，进而可以确定该任意三个第二字符图像模块对应的第二偏序关系。该第二偏序关系与上述第一偏序关系类似，具体细节可以参见上述对第一偏序关系的描述，在此不再赘述。

在训练过程中，将样本图片中第二字符图像块对应的第二特征数据输入至偏序关系识别模型中，偏序关系识别模型可以输出任意三个第二字符图像块对应的第二偏序关系的预测结果，通过该预测结果与真实结果(也即前面根据第二正确字符序列得到的二偏序关系)之间的误差调整偏序关系识别模型的模型参数。经过大量样本图片的训练，可以使得偏序关系识别模型的模型参数达到收敛的状态，并最终得到训练好的偏序关系识别模型。

偏序关系识别模型的模型结构可以采用逻辑回归模型，当然可以理解的是，偏序关系识别模型也可以采用其他机器自学习模型，如神经网络模型等，对此本公开不做具体限制。

在本实施例的一个可选实现方式中，根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系的步骤，进一步包括以下步骤：

构建包括三个所述第二字符图像块的第二三元组合；

该可选的实现方式中，针对从样本图片中识别出的第二字符图像块，可以对其中任意三个进行组合得到多个第二三元组合。假如样本图片中包括三个第二字符图像块i、j、k，则可以得到如下第二三元组合：(i,j,k)、(i,k,j)、(j,k,i)、(j,i,k)、(k,i,j)、(k,j,i)。

在一些实施例中，根据第二正确字符序列可以确定第一间隔与第二间隔的大小关系，第一间隔为该第二三元组合中第一个第二字符图像块与第二个第二字符图像块包含的字符在第二正确字符序列中的间隔距离，第二间隔为该第二三元组合中第一个第二字符图像块与第三个第二字符图像块之间的间隔距离。例如，在第二正确字符序列中，第一个第二字符图像块包含的最后一个字符与第二个第二字符图像块包含的第一个字符之间相隔n个字符，则第一间隔可以为n，而第一个第二字符图像块包含的最后一个字符与第三个第二字符图像块包含的第一个字符之间相隔m个字符，则第二间隔可以为m。

假如使用p(i,j,k)表示第二三元组合(i,j,k)的第二偏序关系时，例如，可以利用p(i,j,k)>0表示第二字符图像块i对应的字符与第二字符图像块j对应的字符之间的第一间隔小于第二字符图像块i对应的字符与第二字符图像块k对应的字符之间的第二间隔，并利用p(i,j,k)<0表示第二字符图像块i对应的字符与第二字符图像块j对应的字符之间的第一间隔大于第二字符图像块i对应的字符与第二字符图像块k对应的字符之间的第二间隔。当然可以理解的是，第二偏序关系p(i,j,k)所表示出来的字符之间的间隔关系不限于上述举例说明中的表示形式，可以根据实际需要进行其他变换，只要第二偏序关系p(i,j,k)能够表示出第二三元组合中三个第一字符图像块包含的字符之间的间隔关系均属于本公开实施例所公开的范围，对此本公开实施例中不做具体限制。

在本实施例的一个可选实现方式中，构建包括三个所述第二字符图像块的第二三元组合的步骤，进一步包括以下步骤：

根据所述第二正确字符序列选定按照预置的自然阅读顺序排列的三个所述第二字符图像块，并将选定的三个所述第二字符图像块构建成所述第二三元组合；所述第二偏序关系包括所述第二三元组合中第一个所述第二字符图像块包含的字符与其他两个所述第二字符图像块包含的字符在所述第二正确字符序列中的间隔关系。

该可选的实现方式中，第二偏序关系可以包括第二三元组合中第一个所述第二字符图像块包含的字符与其他两个第二字符图像块包含的字符在第二正确字符序列中的间隔关系。无论是按照简单规则如从左到右、从上到下排版字符序列的样本图片还是不按上述简单规则的排版如图文混排的样本图片中，按照人们的阅读习惯，多个第二字符图像块之间通常都会遵循从上往下、从左到右的排版格式，因此可以预先设置自然阅读顺序，比如从上往下、从左到右的阅读顺序。因此，在利用第二正确字符序列确定第二偏序关系时，可以针对任意一个第二字符图像块，按照第二正确字符序列中的顺序关系找出排序在该第二字符图像块之后的任意两个第二字符图像块组成第二三元组合，并确定该第二三元组合对应的第二偏序关系，通过这种方式，可以使得第二三元组合中的三个第二字符图像块的顺序与第二正确字符序列相一致，从而排除了其他第二三元组合，因为其他第二三元组合对应的第二偏序关系要么与保留的第二三元组合对应的第二偏序关系重复，要么对偏序关系的识别不起作用，因此可以通过这种方式排除干扰项，能够节省偏序关系识别模型的训练资源，提高偏序关系识别模型的预测准确率。例如，样本图片中包括第二字符图像块i、j和k，且这三个第二字符图像块对应的字符在第二正确字符序列中的排序关系为i、j、k，因此第二三元组合可以仅保留[i,j,k]，而剔除了其他第二三元组合[i,k,j](与[i,j,k]的第二偏序关系重复)、[j,k,i](在第二正确字符序列中i排在j之前)、[j,i,k](在第二正确字符序列中i排在j之前)、[k,i,j](在第二正确字符序列中i和j均排在k之前)、[k,j,i](在第二正确字符序列中i和j均排在k之前)。

在本实施例的一个可选实现方式中，待识别的图片可以包括多个，且第一字符图像块可以是从多个图片中获得的。

该可选的实现方式中，可以分别对多个待识别的图片进行识别，以便从各个图片获得第一字符图像块。在一些实施例中，多个待识别的图片中包括的字符序列可以是在语义上有相关性的，例如宣传册里的连续多个页面对应的多个图片等，或者多张相关的发票、报销凭证和/或收据等对应的多个图片等(比如一张差旅报销单以及该差旅报销单里涉及的一张或多张差旅发票对应的多个图片)。

图3示出根据本公开一实施方式的偏序关系识别模型的训练方法的流程图。如图3所示，所述偏序关系识别模型的训练方法包括以下步骤：

在步骤S301中，获取样本数据；所述样本数据包括所述样本图片中的第二字符图像块的图像信息以及所述样本图片中的第二正确字符序列；

在步骤S302中，根据所述第二字符图像块的图像信息获取所述第二字符图像块的第二特征数据，以及根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系；所述第一偏序关系包括所述三个第二字符图像块包含的字符在所述样本图片包括的第二正确字符序列中的间隔关系；

在步骤S303中，利用所述第二特征数据以及所述第二偏序关系对所述偏序关系识别模型进行训练。

本实施例中，偏序关系识别模型的训练方法可以在服务器上执行。收集到包括字符的样本图片后，可以对样本图片进行OCR等识别技术的处理，以便从样本图像中获得第二字符图像块的图像信息，第二字符图像块与第一字符图像块类似，具体细节可以参见上述对第一字符图像块的描述，在此不再赘述。第二字符图像块的图像信息可以包括但不限于该第二字符图像块在样本图片中的位置以及所包含的字符。

本公开实施例提出的偏序关系识别模型可以针对OCR等技术从图片中识别出来的字符图像块进行预测，得到任意三个字符图像块之间的偏序关系，进而可以根据该偏序关系识别图片中包括的字符序列，这种方式不但适用于按照简单的规则例如从左到右、从上到下排版的文档类图片，还适用于不按上述简单规则排序的图片，例如图文混排的网络广告图片、电商描述图片等。

在一些实施例中，第二特征数据可以包括但不限于视觉特征数据和/或语义特征数据。视觉特征数据和/或语义特征数据的相关描述可以参见上述文本识别方法中的相关描述，在此不再赘述。偏序关系识别模型由于是利用视觉特征数据和/或语义特征数据训练得到的，因此偏序关系识别模型可以从视觉和语义两种维度对图片中的字符图像块进行识别，能够获得更加准确的偏序关系。

构建包括三个所述第二字符图像块的第二三元组合；

图4示出根据本公开另一实施方式的文本识别方法的流程图。如图4所示，所述文本识别方法包括以下步骤：

在步骤S401中，获取待识别的图片；

在步骤S402中，利用偏序关系识别模型对所述图片中包含的字符进行排序；其中，所述偏序关系识别模型利用上述偏序关系模型的训练方法训练得到。

本实施例中，待识别的图片中可以包括多个第一字符图像块，该多个第一字符图像块的相关描述可参见上述图1所示实施例及相关实施例中的描述，在此不再赘述。

偏序关系识别模型的相关细节可以参见上图1所示实施例及相关实施例中的相关描述，在此不做赘述。

利用偏序关系识别模型可以识别图片中多个第一字符图像块之间的排序关系，进而根据这种排序关系确定图片中包括的字符的真正确字符序列。

图5示出了利用本公开实施例提出的文本识别模型对图2所示的图片中的文本进行识别的流程示意图。如图5所示，服务器获取待识别的图片，并利用OCR技术对该图片进行识别，获得5个字符图像块，具体为图2中序号1-5标示的字符图像块，该5个字符图像块中序号1-5为利用在图片中的位置并以从左到右、从上而下的自然阅读顺序所赋予的初始排序值。针对上述5个字符图像块，可以利用偏序关系识别模型得到如下表1所示的任意三元组合对应的偏序关系：

表1

表1中，偏序关系可以如下表示：

已知字符序列为{x₁，x₂，x₃，...，x_n}，其中x_i∈N⁺，x_i≤n表示第i个字符图像块在真实字符序列的排序，对于任意三元组合(i，j，k)，其偏序关系可以表示为：

其中，R₊表示正实数，R-表示负实数。

按照预置的自然阅读顺序得到的初始排序中，序号为1的字符图像块排在最前面，因此可以将该序号为1的字符图像块作为目标字符图像块，从序号为2-5的字符图像块中选择排在序号为1的字符图像块后面的字符图像块。可以统计每个三元组合(1,j,k)对应的偏序关系中哪个字符图像块包含的字符距离序号为1的字符图像块所包含的字符最近，j、k的取值为2-5；可以理解的是，三元组合中j、k位置对调的三元组合的偏序关系相同，因此可以只统计其中一个(标成灰色的为不进行统计的三元组合)，统计结果如下表2所示：

表2

其中，序号2-5对应列中的数字为根据对应行的三元组合以及偏序关系确定的邻近字符对应的字符图像块，从表2可以看出，序号2的字符图像块在各三元组合中作为序号为1字符图像块包含的字符的邻近字符出现的次数为3次，而序号为3、4、5的字符图像块的出现次数分别为3、2、0，因此，可以将出现次数最多的序号为2的字符图像块作为排列在序号为1的字符图像块的下一字符图像块，也即在真实字符序列中序号为2的字符图像块对应的字符排列在序号为1的字符图像块中包括的字符之后，识别得到的字符序列的顺序为序号为1、2的字符图像块包括的字符。

将序号为2的字符图像块确定为下一轮处理中的目标字符图像块之后，重复上述步骤，可以得到如下表3所示的统计结果：

表3

其中，从表3可以看出，序号3的字符图像块在各三元组合中作为序号为2字符图像块包含的字符的邻近字符出现的次数为1次，而序号为4、5的字符图像块的出现次数分别为2、0，因此，可以将出现次数最多的序号为3的字符图像块作为排列在序号为2的字符图像块的下一字符图像块，也即在真实字符序列中序号为4的字符图像块对应的字符排列在序号为2的字符图像块中包括的字符之后，此时识别得到的字符序列的顺序为序号为1、2、4的字符图像块包括的字符。

将序号为4的字符图像块确定为下一轮处理中的目标字符图像块之后，重复上述步骤，可以得到如下表4所示的统计结果：

表4

从表4中的内容可知，排在序号为4的字符图像块后面的是序号为3的字符图像块，此时识别得到的字符序列的顺序为序号为1、2、4、3的字符图像块包括的字符。

最后剩下序号为5的字符图像块，可以将其排列在最后，此时得到最终字符序列为序号为1、2、4、3、5的字符图像块包括的字符。

图6示出根据本公开一实施方式的文本生成方法的流程图。如图6所示，所述文本生成方法包括以下步骤：

在步骤S601中，利用上述文本识别方法获得待识别的图片包括的第一正确字符序列；

在步骤S602中，根据所述第一正确字符序列输出所述图片中包括的文本。

本实施例中，该方法可以利用图1所示实施例及相关实施例中描述的文本识别方法获得待识别图片中包括的第一正确字符序列，按照该第一正确字符序列输出的文本即为从该图片中识别出来的文本。本公开实施例利用上述文本识别方法对图片中包括的多个第一字符图像块进行排序，进而获得各个第一字符图像块所包括的字符之间的顺序，通过该顺序可以得到第一正确字符序列，该第一正确字符序列为经过语义和视觉两个维度处理后得到的具有正确语义顺序关系的文本。本实施例中的其它相关细节可参见上述图1所示实施例及相关实施例中的描述，在此不再赘述。

在本实施例的一个可选实现方式中，该文本包括摘要和/或标题。利用本公开实施例从图片中识别并生成的文本可以是文章、书本等的摘要，还可以是文章、书本、宣传册中商品的标题等等。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

根据本公开一实施方式的文本识别装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该文本识别装置包括：

在本实施例的一个可选实现方式中，所述图像信息包括所述第一字符图像块在所述图片中的位置以及所述第一字符图像块包含的字符。

在本实施例的一个可选实现方式中，所述第一识别模块，包括：

在本实施例的一个可选实现方式中，所述第一构建子模块，包括：

在本实施例的一个可选实现方式中，所述第一确定模块，包括：

在本实施例的一个可选实现方式中，所述第一确定子模块，包括：

在本实施例的一个可选实现方式中，所述第四确定子模块，包括：

在本实施例的一个可选实现方式中，所述第二选定子模块，包括：

在本实施例的一个可选实现方式中，还包括：

在本实施例的一个可选实现方式中，所述第二获取模块，包括：

在本实施例的一个可选实现方式中，所述第二构建子模块，包括：

在本实施例的一个可选实现方式中，所述图片包括多个，且所述第一字符图像块包括从多个所述图片中获得的字符图像块。

本实施例中文本识别装置与图1所示实施例及相关实施例中描述的文本识别方法对应一致，具体细节可以参见上述对文本识别方法的描述，在此不再赘述。

根据本公开一实施方式的偏序关系识别模型的训练装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该偏序关系识别模型的训练装置包括：

在本实施例的一个可选实现方式中，所述第六获取模块，包括：

在本实施例的一个可选实现方式中，所述第三构建子模块，包括：

在本实施例的一个可选实现方式中，所述第二特征数据包括视觉特征数据和/或语义特征数据。

本实施例中文本识别装置与图3所示实施例及相关实施例中描述的偏序关系识别模型的训练方法对应一致，具体细节可以参见上述对偏序关系识别模型的训练的描述，在此不再赘述。

根据本公开另一实施方式的文本识别装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该文本识别装置包括：

第七获取模块，被配置为获取待识别的图片；

排序模块，被配置为利用偏序关系识别模型对所述图片中包含的字符进行排序；其中，所述偏序关系识别模型利用上述偏序关系识别模型的训练装置训练得到。

本实施例中文本识别装置与图4所示实施例及相关实施例中描述的文本识别方法对应一致，具体细节可以参见上述对文本识别方法的描述，在此不再赘述。

根据本公开一实施方式的文本生成装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该文本生成装置包括：

第八获取模块，被配置为利用上述文本生成装置获得待识别的图片包括的第一正确字符序列；

在本实施例的一个可选实现方式中，所述文本包括摘要和/或标题。

本实施例中文本生成装置与图5所示实施例及相关实施例中描述的文本生成方法对应一致，具体细节可以参见上述对文本生成方法的描述，在此不再赘述。

图7是适于用来实现根据本公开实施方式的文本识别方法和/或偏序关系识别模型的训练方法的电子设备的结构示意图。

如图7所示，电子设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行本公开上述方法的实施方式中的各种处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施方式，上文参考本公开实施方式中的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本识别方法，其中，包括：

根据所述第一偏序关系确定所述第一正确字符序列。

2.根据权利要求1所述的方法，其中，所述特征数据包括视觉特征数据和/或语义特征数据。

3.根据权利要求1所述的方法，其中，所述图像信息包括所述第一字符图像块在所述图片中的位置以及所述第一字符图像块包含的字符。

4.根据权利要求1-3任一项所述的方法，其中，利用偏序关系识别模型对所述第一特征数据进行识别，获得至少三个所述第一字符图像块对应的第一偏序关系，包括：

构建包括三个所述第一字符图像块的第一三元组合；

5.根据权利要求4所述的方法，其中，构建包括三个所述第一字符图像块的第一三元组合，包括：

6.根据权利要求1-3任一项所述的方法，其中，根据所述第一偏序关系确定所述第一正确字符序列，包括：

根据所述顺序关系确定所述第一正确字符序列。

7.根据权利要求6所述的方法，其中，根据所述第一偏序关系确定所述第一字符图像块包含的字符与其他字符在所述第一正确字符序列中的顺序关系，包括：

选定其中一个所述第一字符图像块为目标字符图像块；

8.根据权利要求7所述的方法，其中，根据在所述候选图像块集合中的出现次数将其中一个所述候选字符图像块包含的字符确定为在所述第一正确字符序列中排列在所述目标字符图像块包含的字符之后的邻近字符，包括：

9.根据权利要求7或8所述的方法，其中，选定其中一个所述第一字符图像块为目标字符图像块，包括：

10.根据权利要求1-3任一项所述的方法，其中，还包括：

11.根据权利要求10所述的方法，其中，根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系，包括：

构建包括三个所述第二字符图像块的第二三元组合；

12.根据权利要求11所述的方法，其中，构建包括三个所述第二字符图像块的第二三元组合，包括：

13.根据权利要求1-3、5、7-8、11-12任一项所述的方法，其中，所述图片包括多个，且所述第一字符图像块包括从多个所述图片中获得的字符图像块。

14.一种偏序关系识别模型的训练方法，其中，包括：

15.根据权利要求14所述的方法，其中，根据所述第二正确字符序列确定三个所述第二字符图像块对应的第二偏序关系，包括：

构建包括三个所述第二字符图像块的第二三元组合；

16.根据权利要求15所述的方法，其中，构建包括三个所述第二字符图像块的第二三元组合，包括：

17.根据权利要求14-16任一项所述的方法，其中，所述第二特征数据包括视觉特征数据和/或语义特征数据。

18.一种文本识别方法，其中，包括：

获取待识别的图片；

利用偏序关系识别模型对所述图片中包含的字符进行排序；其中，所述偏序关系识别模型利用权利要求14-17任一项所述的方法训练得到。

19.一种文本生成方法，其中，包括：

利用权利要求1-13任一项所述的方法获得待识别的图片包括的第一正确字符序列；

根据所述第一正确字符序列输出所述图片中包括的文本。

20.根据权利要求19所述的方法，其中，所述文本包括摘要和/或标题。

21.一种文本识别装置，其中，包括：

22.根据权利要求21所述的装置，其中，所述特征数据包括视觉特征数据和/或语义特征数据。

23.根据权利要求21所述的装置，其中，所述图像信息包括所述第一字符图像块在所述图片中的位置以及所述第一字符图像块包含的字符。

24.根据权利要求21-23任一项所述的装置，其中，所述第一识别模块，包括：

25.根据权利要求24所述的装置，其中，所述第一构建子模块，包括：

26.根据权利要求21-23任一项所述的装置，其中，所述第一确定模块，包括：

27.根据权利要求26所述的装置，其中，所述第一确定子模块，包括：

28.根据权利要求27所述的装置，其中，所述第四确定子模块，包括：

29.根据权利要求27或28所述的装置，其中，所述第二选定子模块，包括：

30.根据权利要求21-23任一项所述的装置，其中，还包括：

31.根据权利要求30所述的装置，其中，所述第二获取模块，包括：

32.根据权利要求31所述的装置，其中，所述第二构建子模块，包括：

33.根据权利要求21-23、25、27-28、31-32任一项所述的装置，其中，所述图片包括多个，且所述第一字符图像块包括从多个所述图片中获得的字符图像块。

34.一种偏序关系识别模型的训练装置，其中，包括：

35.根据权利要求34所述的装置，其中，所述第六获取模块，包括：

36.根据权利要求35所述的装置，其中，所述第三构建子模块，包括：

37.根据权利要求34-36任一项所述的装置，其中，所述第二特征数据包括视觉特征数据和/或语义特征数据。

38.一种文本识别装置，其中，包括：

第七获取模块，被配置为获取待识别的图片；

排序模块，被配置为利用偏序关系识别模型对所述图片中包含的字符进行排序；其中，所述偏序关系识别模型利用权利要求34-37任一项所述的装置训练得到。

39.一种文本生成装置，其中，包括：

第八获取模块，被配置为利用权利要求21-33任一项所述的装置获得待识别的图片包括的第一正确字符序列；

40.根据权利要求39所述的装置，其中，所述文本包括摘要和/或标题。

41.一种电子设备，其中，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-20任一项所述的方法。

42.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-20任一项所述的方法。