CN111027521A

CN111027521A - 文本处理方法及系统、数据处理设备及存储介质

Info

Publication number: CN111027521A
Application number: CN201911395160.XA
Authority: CN
Inventors: 张波; 王晓珂
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-04-17
Anticipated expiration: 2039-12-30
Also published as: CN111027521B

Abstract

文本处理方法及系统、数据处理设备及存储介质，所述方法包括：对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息；基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图；确定所述角点连接图中各第一连通域单元的位置信息；基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。采用上述方案，可以提高文本的可读性。

Description

文本处理方法及系统、数据处理设备及存储介质

技术领域

本说明书实施例涉及计算机视觉技术领域，尤其涉及一种文本处理方法及系统、数据处理设备及存储介质。

背景技术

目前，计算机视觉技术已经被广泛应用，通常采用光学字符识别(OpticalCharacter Recognition，OCR)技术进行图像识别。OCR技术能很好地识别出图像中无排版的纯文本。

但是，对于识别图像中经过排版设计的排版文本时，OCR技术经常会忽略其中的排版，从而使得识别出的文本中存在文字重复、缺失和错位等排序问题，识别出的文本可读性差。此时只能进行人工校准和调整，增加时间和成本，效率低下。

因此，现有的OCR技术无法精确、完整地处理图像中的排版文本。

发明内容

有鉴于此，本说明书实施例提供一种文本处理方法及系统、数据处理设备及存储介质，可以提高文本的可读性。

本说明书实施例提供了一种文本处理方法，包括：

对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息；

基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图；

确定所述角点连接图中各第一连通域单元的位置信息；

基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。

可选地，所述确定所述角点连接图中各第一连通域单元的位置信息，包括：

对所述角点连接图进行角点识别，得到所述角点连接图中角点的位置信息；

将所述角点连接图中角点的位置信息与所述图像中角点的位置信息进行匹配，删除所述角点连接图中未匹配的角点，得到更新后的角点连接图中角点的位置信息；

基于所述更新后的角点连接图中角点的位置信息，得到所述角点连接图中各第一连通域单元的位置信息。

可选地，所述基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，包括：

确定所述图像中各第二连通域单元的位置信息；

匹配各第二连通域单元与各第一连通域单元之间的位置信息；

在所述第二连通域单元包含所述第一连通域单元时，将所述第二连通域单元中识别得到的文字与所述第一连通域单元建立对应关系。

可选地，文本处理方法还包括：

基于各第一连通域单元的位置信息，沿预设第一方向获取相应的第一连通域单元对应的文字，并输出所述文字。

可选地，在所述对包含排版文本的图像进行角点识别之前，还包括：

识别所述包含排版文本的图像的轮廓，获取所述图像的轮廓相应的最小外接矩形，以所述最小外接矩形的角点作为所述包含排版文本的图像的角点。

可选地，所述识别所述包含排版文本的图像的轮廓，包括：

将所述包含排版文本的图像进行二值化处理；

将二值化处理后的图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓；

将所述横向轮廓和所述纵向轮廓进行合并，并且进行闭运算处理，得到所述图像的轮廓。

可选地，在所述获取所述图像的轮廓相应的最小外接矩形之前，还包括：

在确定所述图像的轮廓形成的连通域的个数大于或等于1时，对所述图像进行校正处理。

可选地，所述基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图，包括：

基于所述图像中角点的位置信息，对沿预设第一方向依次排布的角点和沿预设第二方向依次排布的角点采用直线进行连接，形成相应的角点连接图，所述第一方向与所述第二方向为非平行方向。

可选地，所述对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息，包括：

对所述包含排版文本的图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓；

将所述横向轮廓和所述纵向轮廓进行合并，并将像素值大于预设像素阈值的点的位置信息作为所述图像中角点的位置信息。

本说明书实施例还提供了一种文本处理系统，包括：

角点识别模块，适于对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息；

角点连接模块，适于根据所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图；

位置识别模块，适于确定所述角点连接图中各第一连通域单元的位置信息；

文字匹配模块，适于根据各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。

本说明书实施例还提供了一种数据处理设备，包括存储器和处理器；其中，所述存储器适于存储一条或多条计算机指令，所述处理器运行所述计算机指令时执行上述任一实施例所述方法的步骤。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一实施例所述方法的步骤。

采用本说明书实施例的文本处理方案，可以先对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息，再基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，从而得到相应的角点连接图，在确定所述角点连接图中各第一连通域单元的位置信息后，可以基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，从而得到相应的文本数据。由上述方案可知，可以通过识别包含排版文本的图像的角点，确定排版文本的具体排版位置，并且，对所述图像中角点进行连接可以将所述图像中包含排版文本的区域进行划分，从而确保得到的角点连接图上有对应的区域可以与所述图像中相应位置识别得到的文字进行匹配，由此，可以将排版文本中的具体排版映射到所述角点连接图中，得到的文本数据可以具有排版文本的排版逻辑，从而可以提高文本的可读性，并可以节约人工调整的时间和成本，提升处理效率。

进一步地，可以对所述角点连接图进行角点识别，得到所述角点连接图中角点的位置信息，再将所述角点连接图中角点的位置信息与所述图像中角点的位置信息进行匹配，从而删除所述角点连接图中未匹配的角点，得到更新后的角点连接图中角点的位置信息，并基于所述更新后的角点连接图中角点的位置信息，得到所述角点连接图中各第一连通域单元的位置信息。由此，可以去除角点连接之后产生的交点，从而可以避免产生多余的第一连通域单元，确保所述角点连接图中区域与识别得到的文字建立的对应关系的准确性，使得到的文本数据具有更加准确的排版逻辑。

进一步地，基于各第一连通域单元的位置信息，可以沿预设第一方向获取相应的第一连通域单元对应的文字，并输出所述文字。由此，按照统一的方向获取文字，可以避免输出时的排序问题，从而可以更加精确、完整地展示识别出的文字。

进一步地，可以识别所述包含排版文本的图像的轮廓，获取所述图像的轮廓相应的最小外接矩形，以所述最小外接矩形的角点作为所述包含排版文本的图像的角点。由此，可以将所述图像中的图形都转换为容易识别和处理的矩形，便于后续角点识别和文字匹配，提高文本处理效率。

进一步地，在确定所述图像的轮廓形成的连通域的个数大于或等于1时，对所述图像进行校正处理。由此，可以将所述图像中畸变的图形进行校正，得到无失真的图形，便于后续角点识别和文字匹配，提高文本处理效率。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例中一种文本处理方法的流程图。

图2是本说明书实施例中一种角点检测方法的流程图。

图3A是本说明书实施例中一种包含排版文本的图像的示意图。

图3B是本说明书实施例中一种角点连接图的示意图。

图3C是本说明书实施例中一种更新后的角点连接图的示意图。

图3D是本说明书实施例中另一种更新后的角点连接图的示意图。

图4是本说明书实施例中一种建立文字与角点连接图对应关系的方法的流程图。

图5是本说明书实施例中一种角点删除方法的流程图。

图6是本说明书实施例中一种识别图像轮廓的方法的流程图。

图7A是本说明书实施例中一种经过扫描获取的包含排版文本的图像的示意图。

图7B是本说明书实施例中一种轮廓图像的示意图。

图7C是本说明书实施例中一种校正后的图像的示意图。

图7D是本说明书实施例中一种角点分布图的示意图。

图7E是本说明书实施例中另一种角点连接图的示意图。

图7F是本说明书实施例中另一种更新后的角点连接图的示意图。

图8是是本说明书实施例中一种文本处理系统的结构示意图。

具体实施方式

如前所述，OCR技术已经被广泛应用于各个领域进行文字识别，得到所需要的信息数据，这些信息数据往往会通过纯文本的形式进行输出。因此，在识别图像中经过排版设计的排版文本时，OCR技术经常会忽略其中的排版，并没有对提取到的文本信息进行统筹整合，从而使得识别出的文本存在文字重复、缺失和错位等排序问题，识别出的文本可读性差。此时只能进行人工校准和调整，增加时间和成本，效率低下。

针对上述问题，本说明书实施例提供了一种文本处理方案，可以先对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息，再基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，从而得到相应的角点连接图，在确定所述角点连接图中各第一连通域单元的位置信息后，可以基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，从而得到相应的文本数据。

为使本领域技术人员更加清楚地了解及实施本说明书实施例的构思、实现方案及优点，以下参照附图，通过具体应用场景进行详细说明。

参照图1所示的本说明书实施例中一种文本处理方法的流程图，在本说明书实施例中，可以采用如下步骤：

S11，对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息。

在具体实施中，所述包含排版文本的图像可以是通过拍照、扫描、截取等方式获得的图像。并且，根据图像中文本的实际排版情况，可以采用不同的角点检测(CornerDetection)方法对包含排版文本的图像进行角点识别，获得图像中各角点的位置信息，从而确定排版文本的具体排版位置。其中，所述角点的位置信息可以包括角点的坐标信息。

S12，基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图。

在具体实施中，根据所述图像中角点的分布情况和排版文本的具体排版位置，可以采用不用的连接规则对所述图像中角点进行连接，使获得的角点连接图中有对应的区域可以与所述排版文本的文字进行匹配。

例如，可以预设至少两个角点连接的方向，按照预设的方向依次连接排布的角点，其中，预设的方向之间应该为非相互平行的方向。具体地，以预设两个角点连接的方向为例，基于所述图像中角点的位置信息，对沿预设第一方向依次排布的角点和沿预设第二方向依次排布的角点进行连接，形成相应的角点连接图，所述第一方向与所述第二方向为非平行方向。

S13，确定所述角点连接图中各第一连通域单元的位置信息。

在具体实施中，可以根据角点连接图中各角点的实际连接情况，通过各像素对应的像素值以及之间的邻接关系可以确定所述角点连接图中独立的连通域(ConnectedComponent)，即所述角点连接图中的第一连通域单元。然后，可以采用不同的数据处理方式获得所述第一连通域单元的位置信息，所述第一连通域单元的位置信息可以包括：点坐标信息、与其他第一连通域单元的相对位置信息和轮廓信息等，所述与其他连通域的相对位置信息可以包括：与其他第一连通域单元是否相邻的位置关系信息。

S14，基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。

在具体实施中，可以根据所述角点连接图中各第一连通域单元的位置信息，确定所述包含排版文本的图像中的相应位置，识别所述相应位置的文字，获得的文字相应的字符信息可以根据所述第一连通域单元的位置信息进行排序，得到相应的文本数据。

或者，还可以先对所述包含排版文本的图像中的文字进行文字识别，得到文字相应的字符信息和位置信息，根据所述文字对应的位置信息与各第一连通域单元的位置信息，确定所述文字与各第一连通域单元的对应关系，并将文字相应的字符信息根据所述第一连通域单元的位置信息进行排序，从而得到相应的文本数据。

由上述方案可知，可以通过识别包含排版文本的图像的角点，确定排版文本的具体排版位置，并且，对所述图像中角点进行连接可以将所述图像中包含排版文本的区域进行划分，从而确保得到的角点连接图上有对应的区域可以与所述图像中相应位置识别得到的文字进行匹配，由此，可以将排版文本中的具体排版映射到所述角点连接图中，得到的文本数据可以具有排版文本的排版逻辑，从而可以提高文本的可读性，并可以节约人工调整的时间和成本，提升处理效率。

在具体实施中，本说明书实施例可以采用现有的角点检测方法对包含排版文本的图像进行角点识别，例如，Harris角点检测算法(一种通过自相关矩阵进行角点检测的算法)、SUSAN(Small univalue segment assimilating nucleus，最小核值相似区)角点检测算法、FAST(Features fromaccelerated segment test，加速分割检测特征)角点检测算法等。或者，本说明书实施例还可以采用自定义的角点检测函数对包含排版文本的图像进行角点识别。以下通过具体实施例进行详细描述。

在本说明书实施例中，如图2所示，为一种角点检测方法的流程图，具体可以包括以下步骤：

S111，对所述包含排版文本的图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓。

在具体实施中，可以先将所述图像进行二值化处理，将所述图像上的像素点的像素值根据灰度设置为0或255，然后，可以使用预设的横向开运算模板和纵向开运算模板，与二值化处理后的图像进行横向开运算处理，得到对应的横向轮廓，与二值化处理后的图像进行纵向开运算处理，得到对应的纵向轮廓。

其中，根据所述图像上的形状可以选择不同的横向开运算模板和纵向开运算模板，从而可以避免轮廓的线条不完整、不闭合的问题，增强各轮廓边界的清晰度。例如，所述图像上的形状为直线形成的多边形，则横向开运算模板均可以采用图案为黑底白色直线的预设模板，其中，直线的长度可以小于多边形的最小边长，且在同一平面中，所述预设模板中的直线至少与所述图像上的多边形的一条边平行。

可以理解的是，可以根据图像中的实际排版情况更换或增加其他的逻辑运算处理，相应地，预设的横向开运算模板和纵向开运算模板也可以调整为对应逻辑运算的预设模板，并且，预设模板中的图案可以根据实际的排版设计进行改变。上述实施例仅为举例说明，并非对具体实施方式的限制。

S112，将所述横向轮廓和所述纵向轮廓进行合并，并将像素值大于预设像素阈值的点的位置信息作为所述图像中角点的位置信息。

在具体实施中，将所述向轮廓和所述纵向轮廓合并后，有些像素点会被叠加，与其他处的像素点相比，像素值会更加趋近于二值中的255，此时，选取大于预设像素阈值的像素点，这些像素点的位置信息作为所述图像中角点的位置信息。并且，可以合并相邻距离小于预设距离阈值的像素点，选取其中一个像素点的位置信息作为合并后的像素点的位置信息。

可以理解的是，上述实施例仅为举例说明，并非对角点识别的具体实施方式进行限制。在具体实施中，可以选取上述任意一种或多种角点检测方法进行角点识别，本说明书实施例对此不做限制。

在具体实施中，有些排版文本的排版较为复杂，或者识别出的角点分布较为密集，为了可以快速地连接所有角点并且确保角点连接形成的第一连通域单元不被过渡分割，可以识别所述包含排版文本的图像上的图形轮廓，将所述角点连接的方向设置为与所述图形轮廓的边线平行的方向。

例如，如图3A所示，为一种包含排版文本的图像的示意图，所述排版文本中的文字根据排版设计分布于图像30中的各多边形内，图3中省略了文字部分。可以识别所述包含排版文本的图像上的图形轮廓，得到所述图形轮廓的边线的平行方向，即方向3a和方向3b。由此，可以获取识别出的任意一角点的位置信息，以此角点出发，按照方向3a或方向3b进行延伸，连接沿方向3a或方向3b上排布的角点，从而可以得到对应的角点连接图，如图3B所示的角点连接图31。

在实际应用中，实施上述步骤S14时，可以根据所述角点连接图中各第一连通域单元的位置信息，确定所述包含排版文本的图像中的相应位置，识别所述相应位置的文字。

继续参考图3A和图3B，在本说明书实施例中，以所述包含排版文本的图像30的左上角为原点O建立坐标系，X轴向右延伸，Y轴向下延伸，相应地，以所述角点连接图31的左上角为原点O'建立坐标系，X'轴向右延伸，Y'轴向下延伸。所述角点连接图中左上角的第一连通域单元311的位置信息为(x₁'，y₁'，w₁'，h₁')，其中，x₁'和y₁'分别为第一连通域单元311左上方角点到X'轴和Y'轴的距离，w₁'和h₁'分别为第一连通域单元311在X'轴方向的宽度值和在Y'轴方向的高度值。对应地，所述包含排版文本的图像30中的相应位置为左上角区域301，识别所述区域301中的文字。

以此类推，所述角点连接图31中第一连通域单元312的位置信息为(x₂'，y₂'，w₂'，h₂')，其中，x₂'和y₂'分别为第一连通域单元312左上方角点到X'轴和Y'轴的距离，w₂'和h₂'分别为第一连通域单元312在X'轴方向的宽度值和在Y'轴方向的高度值。对应地，所述包含排版文本的图像30中的相应位置为左上角区域302，识别所述区域302中的文字。

根据所述角点连接图31中第一连通域单元的位置信息，可以识别所述图像30相应区域的文字，并可以将文字相应的字符信息按照所述第一连通域单元的位置信息进行排序，得到相应的文本数据。

在实际应用中，实施上述步骤S14时，还可以通过获取所述包含排版文本的图像中连通域的位置信息，从而建立文字与角点连接图的对应关系，如图4所示，具体可以包括以下步骤：

S141，确定所述图像中各第二连通域单元的位置信息。

S142，匹配各第二连通域单元与各第一连通域单元之间的位置信息。

S143，在所述第二连通域单元包含所述第一连通域单元时，将所述第二连通域单元中识别得到的文字与所述第一连通域单元建立对应关系。

在具体实施中，可以根据包含排版文本的图像中图形的实际分布情况，通过各像素对应的像素值以及之间的邻接关系可以确定所述图像中独立的连通域，即所述图像中的第二连通域单元，并可以采用不同的数据处理方式获得所述第二连通域单元的位置信息，所述第二连通域单元的位置信息可以包括：点坐标信息、与其他连通域的相对位置信息和轮廓信息等。

由此，根据各第二连通域单元与各第一连通域单元之间的位置信息的匹配结果，可以获得图像中文字与角点连接图中第一连通域单元的对应关系。以下通过具体实施例进行详细阐述。

继续参考图3A和图3B，在本说明书实施例中，以所述包含排版文本的图像30的左上角为原点O建立坐标系，X轴向右延伸，Y轴向下延伸，相应地，以所述角点连接图31的左上角为原点O'建立坐标系，X'轴向右延伸，Y'轴向下延伸。

所述图像30中左上角的第二连通域单元301的位置信息为(x₁，y₁，w₁，h₁)，其中，x₁和y₁分别为第二连通域单元301左上方角点到X轴和Y轴的距离，w₁和h₁分别为第二连通域单元301在X轴方向的宽度值和在Y轴方向的高度值。

所述角点连接图31中左上角的第一连通域单元311的位置信息为(x₁'，y₁'，w₁'，h₁')，其中，x₁'和y₁'分别为第一连通域单元311左上方角点到X'轴和Y'轴的距离，w₁'和h₁'分别为第一连通域单元311在X'轴方向的宽度值和在Y'轴方向的高度值。

通过匹配x₁、w₁与x₁'和w₁'的信息确定第一连通域单元311的宽度区域是否落入第二连通域单元301的宽度区域内，通过匹配y₁、h₁与y₁'和h₁'的信息确定第一连通域单元311的长度区域是否落入第二连通域单元301的长度区域内，从而确定所述第二连通域单元301与所述第一连通域单元311是否是包含关系。

在确定所述第二连通域单元301包含所述第一连通域单元311时，将所述第二连通域单元301中识别得到的文字与所述第一连通域单元311建立对应关系。

以此类推，所述图像30中的第二连通域单元303的位置信息为(x₂，y₂，w₂，h₂)，其中，x₂和y₂分别为第二连通域单元303左上方角点到X轴和Y轴的距离，w₂和h₂分别为第二连通域单元303在X轴方向的宽度值和在Y轴方向的高度值。

所述角点连接图31中左上角的第一连通域单元313的位置信息为(x₂'，y₂'，w₂'，h₂')，其中，x₂'和y₂'分别为第一连通域单元313左上方角点到X'轴和Y'轴的距离，w₂'和h₂'分别为第一连通域单元313在X'轴方向的宽度值和在Y'轴方向的高度值。

通过匹配x₂、w₂与x₂'和w₂'的信息确定第一连通域单元313的宽度区域是否落入第二连通域单元303的宽度区域内，通过匹配y₂、h₂与y₂'和h₂'的信息确定第一连通域单元313的长度区域是否落入第二连通域单元303的长度区域内，从而确定所述第二连通域单元303与所述第一连通域单元313是否是包含关系。

在确定所述第二连通域单元303包含所述第一连通域单元313时，将所述第二连通域单元303中识别得到的文字与所述第一连通域单元313建立对应关系。

由此，根据所述文字对应的位置信息与各第一连通域单元的位置信息，确定所述文字与各第一连通域单元的对应关系，并将文字相应的字符信息根据所述第一连通域单元的位置信息进行排序，从而得到相应的文本数据。

可以说明的是，本文中的“第一”、“第二”等名词前缀仅用于区分不同作用的名词，并不代表顺序、大小或重要性等。

在具体实施中，如图1所示，在角点连接图中各第一连通域单元与所述图像中相应位置识别得到的文字进行匹配后，还可以对相应的文本数据进行输出，具体可以包括：

S15，基于各第一连通域单元的位置信息，沿预设第一方向获取相应的第一连通域单元对应的文字，并输出所述文字。其中，所述第一方向为角点连接的方向。

在本说明书实施例中，继续参考图3A和图3B，在得到相应的文本数据之后，还可以沿着方向3a或方向3b，输出各第一连通域单元对应的文字。

具体地，以方向3a为例，根据各第一连通域单元的位置信息，可以先输出第一连通域单元311对应的文字的字符信息，再依次输出与第一连通域单元311在同一方向3a上排布的第一连通域单元314和第一连通域单元315。以此类推，输出下一行沿着方向3a排布的第一连通域单元对应的文字的字符信息，直至输出所有第一连通域单元对应的文字的字符信息。

或者，根据各第一连通域单元的位置信息，还可以输出沿着方向3a排布的所有第一连通域单元对应的文字的字符信息，如第一连通域单元311、第一连通域单元314和第一连通域单元315对应的文字的字符信息可以同时输出。然后，输出第一连通域单元312所在同一方向3a上排布的所有第一连通域单元对应的文字的字符信息。直至输出所有第一连通域单元对应的文字的字符信息。

又或者，根据各第一连通域单元的位置信息，还可以选择任意沿着方向3a排布的一行第一连通域单元对应的文字的字符信息进行输出。如选择第一连通域单元311、第一连通域单元314和第一连通域单元315对应的文字的字符信息进行输出。

由此，按照统一的方向获取文字，可以避免输出时的排序问题，从而可以更加精确、完整地展示识别出的文字。

在具体实施中，基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，角点连线之间可能会产生交点，从而增加了第一连通域单元的数量，缩减了第一连通域单元的面积，提升了后续与所述图像中文字进行匹配的数据处理量。因此，发明人对上述步骤S12进行了优化，如图5所示，具体可以包括以下步骤：

S121，对所述角点连接图进行角点识别，得到所述角点连接图中角点的位置信息。

S122，将所述角点连接图中角点的位置信息与所述图像中角点的位置信息进行匹配，删除所述角点连接图中未匹配的角点，得到更新后的角点连接图中角点的位置信息。

在具体实施中，根据所述角点连接图中角点的位置信息与所述图像中角点的位置信息之间匹配后，得到到匹配结果，可以确定所述角点连接图中未匹配的角点，并获得所述未匹配的角点的位置信息。根据所述未匹配的角点的位置信息，确定连接所述未匹配的角点的角点连线，保留与预设的第一方向平行的角点连线，去除其余的角点连接线，从而可以删除所述角点连接图中未匹配的角点，即角点连线产生的交点。

S123，基于所述更新后的角点连接图中角点的位置信息，得到所述角点连接图中各第一连通域单元的位置信息。

采用上述方法，可以去除角点连接之后产生的交点，从而可以避免产生多余的第一连通域单元，可以确保所述角点连接图中区域与识别得到的文字建立的对应关系的准确性，使得到的文本数据具有更加准确的排版逻辑。且去除与预设的第一方向不平行的角点连线，便于后续沿预设第一方向获取相应的第一连通域单元对应的文字。

继续参考图3A和图3B，在本说明书实施例中，如图3B所示，在连接沿方向3a或方向3b上排布的角点时，产生了交点316，从而将原本的两个第一连通域单元分割成了四个第一连通域单元。

因此，可以对所述角点连接图31进行角点识别，得到所述角点连接图31中角点的位置信息，然后，将所述角点连接图31中角点的位置信息与所述图像30中角点的位置信息进行匹配，确定所述角点连接图中未匹配的角点，即角点316，并根据所述角点316的位置信息，确定连接角点316的四根角点连线。

若预设的第一方向为方向3a，则保留与方向3a平行的角点连线，并去除其余的角点连线，此处去除与方向3b平行的角点连线。从而删除所述角点连接图中未匹配的角点316，可以得到更新后的角点连接图，如图3C所示的更新后的角点连接图31'。以此类推，可以获得第一方向为方向3b对应的更新后的角点连接图31”，如图3D所示。

根据更新后的角点连接图31'中角点的位置信息，可以得到所述更新后的角点连接图31'中各第一连通域单元的位置信息。然后，可以基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。并且，还可以基于各第一连通域单元的位置信息，沿预设第一方向获取相应的第一连通域单元对应的文字，并输出所述文字。得到相应的文本数据和输出相应的文本数据的过程可参照上述内容，此处不再赘述。

在具体实施中，在对包含排版文本的图像进行角点识别之前，可以对所述图像进行预处理，以便更全面地获得所述图像中的角点。以下通过具体实施例进行详细描述。

在本说明书一实施例中，在对包含排版文本的图像进行角点识别之前，可以识别所述包含排版文本的图像的轮廓，获取所述图像的轮廓相应的最小外接矩形，以所述最小外接矩形的角点作为所述包含排版文本的图像的角点。

在实际应用中，例如，在OpenCV软件中处理图像时，可以采用boundingRect函数获取所述图像的轮廓相应的最小外接矩形，从而可以以所述最小外接矩形的角点作为所述包含排版文本的图像的角点。

在具体实施时，如图6所示，可以通过以下步骤识别包含排版文本的图像的轮廓：

S61，将所述包含排版文本的图像进行二值化处理。

S62，将二值化处理后的图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓。

S63，将所述横向轮廓和所述纵向轮廓进行合并，并且进行闭运算处理，得到所述图像的轮廓。

其中，可以使用预设的横向开运算模板和纵向开运算模板，与二值化处理后的图像分别进行横向开运算处理和纵向开运算处理，以及可以使用预设的闭运算模板，与合并横向和纵向轮廓后的图像进行闭运算处理。并且，根据所述图像上的形状可以选择不同的横向开运算模板、纵向开运算模板和闭运算模板，从而可以避免轮廓的线条不完整、不闭合的问题，增强各轮廓边界的清晰度。

可以理解的是，可以根据图像中的实际排版情况更换或增加其他的逻辑运算处理，相应地，预设的横向开运算模板、纵向开运算模板和闭运算模板也可以调整为对应逻辑运算的预设模板，并且，预设模板中的图案可以根据实际的排版设计进行改变。上述实施例仅为举例说明，并非对具体实施方式的限制。

由此，可以将所述图像中的图形都转换为容易识别和处理的矩形，便于后续角点识别和文字匹配，提高文本处理效率。

在具体实施中，在所述获取所述图像的轮廓相应的最小外接矩形之前，还可以包括：在确定所述图像的轮廓形成的连通域的个数大于或等于1时，对所述图像进行校正处理。在所述图像的轮廓形成的连通域的个数大于或等于1时，可以确定所述图像中排版文本不是处于同一个连通域中，从而获取所述排版文本的具体排版。由此，可以将所述图像中畸变的图形进行校正，得到无失真的图形，便于后续角点识别和文字匹配，提高文本处理。其中，对畸变的图形采取的校正处理可以包括图像的几何校正处理。

在实际应用中，例如，在OpenCV软件中处理图像时，可以采用findContours函数获取所述图像的轮廓形成的连通域的坐标信息、轮廓信息和与其他连通域之间的相对位置信息。其中，所述与其他连通域之间的相对位置信息可以包括至少一种：是否包含其他连通域的位置信息，是否被其他连通域包含的位置信息，与其他连通域是否相邻的位置关系信息。根据findContours函数得到的坐标信息、轮廓信息和与其他连通域之间的相对位置信息，可以确定所述图像的轮廓形成的连通域的个数是否大于或等于1，从而确定是否获取所述排版文本的具体排版。

本说明书一实施例中，如图7A所示，为一种经过扫描获取的包含排版文本的图像的示意图。

首先可以对包含排版文本的图像70a进行预处理。具体可以为：

1)可以将所述图像70a进行二值化处理，将所述图像70a上的像素点的像素值根据灰度设置为0或255，将二值化处理后的图像70a分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓。将所述横向轮廓和所述纵向轮廓进行合并及进行闭运算处理，得到所述图像70a的轮廓，如图7B所示的轮廓图像70b。

2)可以采用findContours函数获取所述轮廓图像70b的连通域的坐标信息、轮廓信息和与其他连通域之间的相对位置信息。根据findContours函数得到的坐标信息、轮廓信息和与其他连通域之间的相对位置信息，可以确定所述轮廓图像70b的连通域的个数大于1，且获得所述轮廓图像70b与预设的方向c的夹角为α。根据夹角α将所述图像70a顺时针旋转α度，得到校正后的图像，如图7C所示的校正后的图像70c。

然后，可以采用上述任意一种或多种角点检测方法，对校正后的图像70c进行角点识别，获得校正后的图像70c中各角点的位置信息，从而确定排版文本的具体排版位置，得到如图7D所示的角点分布图70d。并基于所述角点分布图70d中角点的位置信息，连接所述角点分布图70d中的各角点，具体可以采取以下连接方式：

预设角点连接的水平方向和竖直方向，可以以角点分布图70d中左侧上方第一个角点为起始点，沿水平方向延伸，连接同一水平方向上排布的角点，直至连接同一水平方向上的最后一个角点，然后以左侧上方第二个角点为起始点，沿水平方向延伸，连接同一水平方向上排布的角点，直至连接同一水平方向上的最后一个角点，由此可以将角点分布图70d中同一水平方向上排布的角点进行横向连接。相同地，可以以角点分布图70d中上方左侧第一个角点为起始点，沿竖直方向延伸，连接同一竖直方向上排布的角点，直至连接同一竖直方向上的最后一个角点，然后以上方左侧第二个角点为起始点，沿竖直方向延伸，连接同一竖直方向上排布的角点，直至同一竖直方向上的最后一个角点，由此可以将角点分布图70d中同一竖直方向上排布的角点进行纵向连接。得到如图7E所示的角点连接图70e。

再然后，可以对所述角点连接图70e进行角点识别，得到所述角点连接图70e中角点的位置信息，并将所述角点连接图70e中角点的位置信息与所述角点分布图70d中角点的位置信息进行匹配。从而可以确定所述角点连接图70e中未匹配的角点，并获得所述未匹配的角点的位置信息，如图7E所示的角点71至角点74。

以预设的水平方向为第一方向，即后续用于获取各第一连通域单元对应的文字和输出各第一连通域单元对应文字的方向。去除所述角点71至角点74在竖直方向上的角点连线，从而删除所述角点连接图70e中未匹配的角点71至角点74，得到如图7F所示的更新后的角点连接图70f。

接着，可以确定所述更新后的角点连接图70f中各第一连通域单元的位置信息，基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。并可以基于各第一连通域单元的位置信息，沿预设第一方向获取相应的第一连通域单元对应的文字，并输出所述文字，具体而言，可以采用以下方式：

以左侧或右侧第一个第一连通域单元开始，获取沿第一方向上相互邻接的第一连通域单元，据第一连通域单元的位置信息，获取相应的文字的字符信息进行输出。

例如，参考图7F中斜线部分所示的第一连通域单元701，沿水平方向获取与第一连通域单元701在同一水平方向上且互相邻接的第一连通域单元，即图7F中斜线填充部分所示的第一连通域单元702至708。由此，可以根据第一连通域单元701至第一连通域单元708的位置信息，获取相应的文本数据，并可以将所述图像70c中相应位置的文字的字符信息进行输出。

并且，可以沿水平方向获取与第一连通域单元709在同一水平方向上且互相邻接的第一连通域单元，即第一连通域单元702至704、第一连通域单元710至711以及第一连通域单元707至708。由此，可以根据第一连通域单元701至704、第一连通域单元710至711以及第一连通域单元707至708的位置信息，获取相应的文本数据，并可以将所述图像70c中相应位置的文字的字符信息进行输出。

其中，获得相应的文本数据和输出相应的文本数据的过程可参照上述内容，此处不再赘述。

本发明实施例还提供了可以实现上述文本处理方法的系统，为使本领域技术人员更好地理解和实现本发明实施例，以下参照附图，通过具体实施例进行详细介绍。

参照图8所示的本说明书实施例中一种文本处理系统的结构示意图，在本说明书实施例中，所述文本处理系统80可以包括：

角点识别模块81，适于对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息；

角点连接模块82，适于根据所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图；

位置识别模块83，适于确定所述角点连接图中各第一连通域单元的位置信息；

文字匹配模块84，适于根据各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，得到相应的文本数据。

在具体实施中，所述包含排版文本的图像可以是通过拍照、扫描、截取等方式获得的图像。并且，根据图像中文本的实际排版情况，可以采用不同的角点检测方法对包含排版文本的图像进行角点识别，获得图像中各角点的位置信息，从而确定排版文本的具体排版位置。其中，所述角点的位置信息可以包括角点的坐标信息。

在具体实施中，可以根据角点连接图中各角点的实际连接情况，通过各像素对应的像素值以及之间的邻接关系可以确定所述角点连接图中独立的连通域，即所述角点连接图中的第一连通域单元。然后，可以采用不同的数据处理方式获得所述第一连通域单元的位置信息，所述第一连通域单元的位置信息可以包括：点坐标信息、与其他第一连通域单元的相对位置信息和轮廓信息等，所述与其他连通域的相对位置信息可以包括：与其他第一连通域单元是否相邻的位置关系信息。

在具体实施中，所述角点连接模块82可以根据所述图像中角点的位置信息，对沿预设第一方向依次排布的角点和沿预设第二方向依次排布的角点采用直线进行连接，形成相应的角点连接图，所述第一方向与所述第二方向为非平行方向。

在具体实施中，所述角点识别模块81可以包括：

第二开运算处理子模块811，适于对所述包含排版文本的图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓；

角点识别子模块812，适于将所述横向轮廓和所述纵向轮廓进行合并，并将像素值大于预设像素阈值的点的位置信息作为所述图像中角点的位置信息。

在具体实施中，位置识别模块83可以包括：

角点识别子模块831，适于对所述角点连接图进行角点识别，得到所述角点连接图中角点的位置信息；

角点删除子模块831，适于将所述角点连接图中角点的位置信息与所述图像中角点的位置信息进行匹配，删除所述角点连接图中未匹配的角点，得到更新后的角点连接图中角点的位置信息；

位置识别子模块831，基于所述更新后的角点连接图中角点的位置信息，得到所述角点连接图中各第一连通域单元的位置信息。

由此，可以去除角点连接之后产生的交点，从而可以避免产生多余的第一连通域单元，确保所述角点连接图中区域与识别得到的文字建立的对应关系的准确性，使得到的文本数据具有更加准确的排版逻辑。

在具体实施中，所述文字匹配模块84可以包括：

匹配子模块841，适于确定所述图像中各第二连通域单元的位置信息，并匹配各第二连通域单元与各第一连通域单元之间的位置信息；

对应关系建立子模块842，适于在所述第二连通域单元包含所述第一连通域单元时，将所述第二连通域单元中识别得到的文字与所述第一连通域单元建立对应关系。

在具体实施中，文本处理系统80还可以包括：

文字输出模块85，适于根据各第一连通域单元的位置信息，沿预设第一方向获取相应的第一连通域单元对应的文字，并输出所述文字。

在具体实施中，文本处理系统80还可以包括：

图像轮廓识别模块86，适于在所述对包含排版文本的图像进行角点识别之前，识别所述包含排版文本的图像的轮廓；

轮廓转换模块87，适于获取所述图像的轮廓相应的最小外接矩形，以所述最小外接矩形的角点作为所述包含排版文本的图像的角点。

在具体实施中，所述图像轮廓识别模块86可以包括：

二值化处理子模块861，适于将所述包含排版文本的图像进行二值化处理；

第一开运算处理子模块862，适于将二值化处理后的图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓和纵向轮廓；

闭运算处理子模块863，适于将所述横向轮廓和所述纵向轮廓进行合并，并且进行闭运算处理，得到所述图像的轮廓。

在具体实施中，文本处理系统80还可以包括：

图像校正模块88，适于在所述获取所述图像的轮廓相应的最小外接矩形之前，当确定所述图像的轮廓形成的连通域的个数大于或等于1时，对所述图像进行校正处理。

由此，可以将所述图像中畸变的图形进行校正，得到无失真的图形，便于后续角点识别和文字匹配，提高文本处理效率。

在具体实施时，文本处理系统的实现方式可参照上述文本处理方法的实施例，此处不再赘述。

本发明实施例还提供了一种数据处理设备，可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时可以执行本发明上述任一实施例所述的方法的步骤。所述计算机指令运行时执行的方法具体实现可以参照上述的方法的步骤，不再赘述。其中，所述数据处理设备可以为手机等手持终端、平板电脑、个人台式电脑等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行本发明上述任一实施例方法的步骤。所述计算机可读存储介质上存储的指令执行上述任一实施例所述的方法，具体可参照上述实施例，不再赘述。

其中，所述计算机可读存储介质可以包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如，存储器、可移除的或不可移除的介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(DVD)、磁带、盒式磁带等。

并且，计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码，例如，源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。

虽然本说明书实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本说明书实施例的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

确定所述角点连接图中各第一连通域单元的位置信息；

2.根据权利要求1所述的文本处理方法，其特征在于，所述确定所述角点连接图中各第一连通域单元的位置信息，包括：

3.根据权利要求1所述的文本处理方法，其特征在于，所述基于各第一连通域单元的位置信息，对所述图像中相应位置识别得到的文字进行匹配，包括：

确定所述图像中各第二连通域单元的位置信息；

4.根据权利要求1-3任一项所述的文本处理方法，其特征在于，还包括：

5.根据权利要求1所述的文本处理方法，其特征在于，在所述对包含排版文本的图像进行角点识别之前，还包括：

6.根据权利要求5所述的文本处理方法，其特征在于，所述识别所述包含排版文本的图像的轮廓，包括：

将所述包含排版文本的图像进行二值化处理；

7.根据权利要求5所述的文本处理方法，其特征在于，在所述获取所述图像的轮廓相应的最小外接矩形之前，还包括：

8.根据权利要求1或者权利要求5-7任一项所述的文本处理方法，其特征在于，所述基于所述图像中角点的位置信息，按照预设的连接规则对所述图像中角点进行连接，得到相应的角点连接图，包括：

9.根据权利要求1或者权利要求5-7任一项所述的文本处理方法，其特征在于，所述对包含排版文本的图像进行角点识别，得到所述图像中角点的位置信息，包括：

10.一种文本处理系统，其特征在于，包括：

11.一种数据处理设备，包括存储器和处理器；其中，所述存储器适于存储一条或多条计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至9任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至9任一项所述方法的步骤。