CN111126266B

CN111126266B - 文本处理方法、文本处理系统、设备及介质

Info

Publication number: CN111126266B
Application number: CN201911344937.XA
Authority: CN
Inventors: 张波; 王晓珂
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-05-05
Anticipated expiration: 2039-12-24
Also published as: CN111126266A

Abstract

文本处理方法、文本处理系统、设备及介质，所述文本处理方法包括：对于包含排版文本的图像，识别所述图像中的连通域单元；基于所述连通域单元的位置信息，生成对应的连通域掩膜图；建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元；基于所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。采用上述方案，可以提高文本的可读性。

Description

文本处理方法、文本处理系统、设备及介质

技术领域

本说明书实施例涉及计算机视觉技术领域，尤其涉及一种文本处理方法、文本处理系统、设备及介质。

背景技术

目前，计算机视觉技术已经被广泛应用，通常采用光学字符识别(OpticalCharacter Recognition，OCR)技术进行图像识别。OCR技术能很好地识别出图像中无排版的纯文本。

但是，对于识别图像中经过排版设计的排版文本时，OCR技术经常会忽略其中的排版，从而使得识别出的文本中存在文字重复、缺失和错位等排序问题，识别出的文本可读性差。此时只能进行人工校准和调整，增加时间和成本，效率低下。

因此，现有的OCR技术无法精确、完整地处理图像中的排版文本。

发明内容

有鉴于此，本说明书实施例提供一种文本处理方法、文本处理系统、设备及介质，可以提高文本的可读性。

本说明书实施例提供了一种文本处理方法，包括：对于包含排版文本的图像，识别所述图像中的连通域单元；基于所述连通域单元的位置信息，生成对应的连通域掩膜图；建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元；基于所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。

可选地，所述建立所述连通域单元与所述连通域掩膜图的映射关系，包括：识别所述连通域掩膜图中的掩膜单元，并对所述连通域单元与所述掩膜单元进行匹配，基于匹配的结果建立所述连通域单元与所述连通域掩膜图的映射关系。

可选地，所述对所述连通域单元与所述掩膜单元进行匹配，包括：匹配所述连通域单元与所述掩膜单元之间的位置信息。

可选地，在得到所述第一文本数据后，还包括：当所述连通域单元对应多个掩膜单元时，将所述多个掩膜单元对应的文字进行合并，得到第二文本数据。

可选地，所述识别所述图像中的连通域单元，包括：识别所述图像中的图像轮廓，得到对应的第一轮廓图像；计算所述第一轮廓图像中的连通域的面积，并删除小于预设面积阈值的连通域，得到第二轮廓图像；检测所述第二轮廓图像中的最小外接轮廓，并根据所述最小外接轮廓进行分割，得到所述图像中的连通域单元。

可选地，所述识别所述图像中的图像轮廓，得到对应的第一轮廓图像，包括：将所述图像进行二值化处理，得到对应的二值化图像；将所述二值化图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓图像和纵向轮廓图像；将所述横向轮廓图像和所述纵向轮廓图像进行合并，得到对应的合并图像；将所述合并图像进行闭运算处理，得到所述第一轮廓图像。

可选地，在所述检测所述第二轮廓图像的最小外接轮廓之前，还包括：对所述第二轮廓图像进行多边拟合处理。

本说明书实施例还提供了一种文本处理系统，包括：连通域单元识别模块，适于对于包含排版文本的图像，识别所述图像中的连通域单元；连通域掩膜图生成模块，适于根据所述连通域单元的位置信息，生成对应的连通域掩膜图；映射关系建立模块，适于建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元；文字添加模块，适于根据所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。

本说明书实施例还提供了一种数据处理设备，包括存储器和处理器；其中，所述存储器适于存储一条或多条计算机指令，所述处理器运行所述计算机指令时执行上述任一实施例所述方法的步骤。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一实施例所述方法的步骤。

采用本说明书实施例的文本处理方案，首先识别包含排版文本的图像中的连通域单元，并基于所述连通域单元的位置信息，可以生成对应的连通域掩膜图，再建立所述连通域单元与所述连通域掩膜图的映射关系，然后基于所述映射关系，可以将所述连通域单元中识别出的文字添加至对应的掩膜单元中。由上述方案可知，可以通过识别图像中的连通域单元，确定排版文本的具体排版，并且，由于所述连通域掩膜图是基于所述连通域单元的位置信息生成的，可以适应不同类型的排版，然后，所述连通域单元与所述连通域掩膜图的映射关系，使得所述连通域单元能够对应所述连通域掩膜图中至少一个掩膜单元，从而确保所述连通域掩膜图中有对应区域可以添加所述连通域单元中识别出的文字，由此，可以将排版文本中的具体排版映射到所述连通域掩膜图中，得到的第一文本数据具有了排版文本的排版逻辑，从而可以提高文本的可读性，并可以节约人工调整的时间和成本，提升处理效率。

进一步地，在得到所述第一文本数据后，当所述连通域单元对应多个掩膜单元时，通过将所述多个掩膜单元对应的文字进行合并，可以优化第一文本数据的具体排版，从而使得到的第二文本数据更加贴近于所述图像包含的排版文本。

进一步地，可以先识别得到所述图像对应的第一轮廓图像，并且，可以计算所述第一轮廓图像中的连通域的面积，并删除小于预设面积阈值的连通域，得到第二轮廓图像，然后，可以检测所述第二轮廓图像中的最小外接轮廓，并根据所述最小外接轮廓进行分割，得到所述图像中的连通域单元。上述方案中，通过删除小于预设面积阈值的连通域，可以避免杂质连通域的影响，并且由于连通域单元是最小外接轮廓，可以确保所述连通域单元可以对应所述连通域掩膜图中至少一个掩膜单元，提高映射关系建立的鲁棒性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例中一种文本处理方法的流程图。

图2是本说明书实施例中一种对所述图像进行预处理的流程图。

图3是本说明书实施例中一种包含排版文本的图像的示意图。

图4是本说明书实施例中一种第一轮廓图像的示意图。

图5是本说明书实施例中另一种包含排版文本的图像的示意图。

图6是本说明书实施例中一种框线添加处理后的图像的示意图。

图7是本说明书实施例中一种包含连通域单元的图像与连通域掩膜图的示意图。

图8是本说明书实施例中一种连通域单元与掩膜单元建立映射关系的示意图。

图9是本说明书实施例中一种缩小处理后的掩膜单元的示意图。

图10是本说明书实施例中另一种包含若干个连通域单元的图像的示意图。

图11是本说明书实施例中一种图像分割后的示意图。

图12是本说明书实施例中一种经过扫描的公司业务绩效统计表的示意图。

图13是本说明书实施例中另一种第一轮廓图像的示意图。

图14是本说明书实施例中一种第一文本数据的示意图。

图15是本说明书实施例中一种文本处理系统的结构示意图。

具体实施方式

如前所述，OCR技术已经被广泛应用于各个领域进行文字识别，例如，识别身份证、银行卡和驾驶证号等证件上的文字，得到所需要的信息数据，这些信息数据往往会通过纯文本的形式进行输出。因此，在识别图像中经过排版设计的排版文本时，OCR技术经常会忽略其中的排版，并没有对提取到的文本信息进行统筹整合，从而使得识别出的文本存在文字重复、缺失和错位等排序问题，识别出的文本可读性差。此时只能进行人工校准和调整，增加时间和成本，效率低下。

针对上述问题，本说明书实施例提供了一种文本处理方案，首先识别包含排版文本的图像中的连通域单元，并基于所述连通域单元的位置信息，可以生成对应的连通域掩膜图，再建立所述连通域单元与所述连通域掩膜图的映射关系，然后基于所述映射关系，可以将所述连通域单元中识别出的文字添加至对应的掩膜单元中。

为使本领域技术人员更加清楚地了解及实施本说明书实施例的构思、实现方案及优点，以下参照附图，通过具体应用场景进行详细说明。

参照图1所示的本说明书实施例中一种文本处理方法的流程图，在本说明书实施例中，可以采用如下步骤：

S11，对于包含排版文本的图像，识别所述图像中的连通域单元。

在具体实施中，所述包含排版文本的图像可以是通过拍照、扫描、截取等方式获得的图像。并且，可以根据图像中文本的实际排版情况，通过各像素对应的像素值以及之间的邻接关系可以确定所述图像中的连通域(Connected Component)，然后，可以采用不同的数据处理方式获得所述连通域对应的轮廓信息、最小外接轮廓信息、质心信息等几何参数信息和点坐标信息，从而识别出所述图像中的连通域单元。

S12，基于所述连通域单元的位置信息，生成对应的连通域掩膜图。

在具体实施中，所述连通域单元的位置信息可以包括：所述连通域单元在所述图像上的点坐标信息和所述连通域单元的几何参数信息。

例如，以图像上任意一点为原点建立坐标系，若图像中连通域单元A的形状为多边形，则连通域单元A的位置信息可以包括：连通域单元A的角点坐标信息、连通域单元A的边长信息和连通域单元A的角度信息等；若图像中连通域单元B的形状为圆形，则连通域单元B的位置信息可以包括：连通域单元B与坐标轴的平行线相切的切点坐标信息和连通域单元B的半径信息等。

可以理解的是，根据所述连通域单元的实际形状，所述连通域单元的位置信息可以包括不同的点坐标信息和几何参数信息，上述实施例仅为举例说明，并非对确定连通域单元位置信息的具体实施方式的限制。

S13，建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元。

在具体实施中，可以识别所述连通域掩膜图中的掩膜单元，并对所述连通域单元与所述掩膜单元进行匹配，基于匹配的结果建立所述连通域单元与所述连通域掩膜图的映射关系。

其中，所述连通域掩膜图中的掩膜单元可以采用上述识别所述连通域单元的方式，也可以采用其他方式进行识别。

S14，基于所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。

在具体实施中，可以采用现有的OCR技术来识别所述连通域单元中的文字，并将识别出的文字添加所述连通域单元对应的掩膜单元中，包含有文字的连通域掩膜图作为第一文本数据，可以按照预设的输出方式进行输出，也可以进行进一步地优化处理，再按照预设的输出方式进行输出，还可以作为储备数据用于其他用途，如用于神经网络模型的训练学习等。

采用上述方案，可以通过识别图像中的连通域单元，确定排版文本的具体排版，并且，由于所述连通域掩膜图是基于所述连通域单元的位置信息生成的，可以适应不同类型的排版，然后，所述连通域单元与所述连通域掩膜图的映射关系，使得所述连通域单元能够对应所述连通域掩膜图中至少一个掩膜单元，从而确保所述连通域掩膜图中有对应区域可以添加所述连通域单元中识别出的文字，由此，可以将排版文本中的具体排版映射到所述连通域掩膜图中，得到的第一文本数据具有了排版文本的排版逻辑，从而可以提高文本的可读性，并可以节约人工调整的时间和成本，提升处理效率。

在具体实施中，在识别所述图像中的连通域单元时，可以对所述图像进行预处理，以便更快速地确定具有相同像素值的相邻像素，从而得到所述图像中的各连通域的范围。以下通过具体实施例进行详细描述。

在本说明书一实施例中，参照图2所示的一种对所述图像进行预处理的流程图，具体可以包括如下步骤：

S111，将所述图像进行二值化处理，得到对应的二值化图像。

S112，将所述二值化图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓图像和纵向轮廓图像。

S113，将所述横向轮廓图像和所述纵向轮廓图像进行合并，得到对应的合并图像。

S114，将所述合并图像进行闭运算处理，得到所述第一轮廓图像。

其中，可以使用预设的横向开运算模板和纵向开运算模板，与所述二值化图像分别进行横向开运算处理和纵向开运算处理，以及可以使用预设的闭运算模板与所述合并图像进行闭运算处理。

可以理解的是，根据连通域的形状可以选择不同的横向开运算模板、纵向开运算模板和闭运算模板，从而增强各连通域的轮廓边界，可以避免连通域的轮廓不完整、不闭合的问题。

如图3所示，为一种包含排版文本的图像的示意图，所述排版文本中的文字根据排版设计分布于图像中的各矩形框内，图3中省略了文字部分。首先，可以对所述图像进行二值化，并且由于各边框的形状均为矩形，横向开运算模板可以采用图案为黑底白色横线的预设模板，纵向开运算模板可以采用图案为黑底白色竖线的预设模板，从而对所述二值化图像分别进行横向开运算处理和纵向开运算处理，然后，闭运算模板可以采用图案为黑底白色十字交叉线的预设模板，对所述合并图像进行闭运算处理，最终得到的第一轮廓图像如图4所示。类似地，当图像中存在文本框排版或表格排版时，也可以采用横线模板和竖线模板进行横向开运算处理和纵向开运算处理。

还可以理解的是，步骤中的“开运算处理”和“闭运算处理”可以根据图像中的实际排版情况更换或增加其他的逻辑运算处理，相应地，预设的横向开运算模板、纵向开运算模板和闭运算模板也可以调整为对应逻辑运算的预设模板，并且，预设模板中的图案可以根据实际的排版设计进行改变。上述实施例仅为举例说明，并非对具体实施方式的限制。

在具体实施中，有些排版文本中的排版展现形式可能不易识别，从而发生排版识别遗漏的情况。例如，如图5所示，为另一种包含排版文本的图像的示意图，所述排版文本中的文字“aa”、“bb”和“cc”根据排版设计分布于图像中，由于“aa”所在区域没有明显的填充色或者框线，在进行预处理时，很容易遗漏“aa”所展示的排版。

因此，将所述图像进行二值化处理之前，可以对这类排版展现形式不易识别的图像进行排版可识别处理，例如，采取填充色添加处理，对“aa”周围一定区域内填充颜色；又例如，采取文本框添加处理，识别出“aa”文字后，以“aa”为中心，添加一个文本框。

在具体实施中，有些文字所在区域填充的颜色并不明显，进行二值化处理后会与底色重合，为了更准确地识别图像中的轮廓，在所述图像进行二值化处理之前，还可以根据填充色的像素值与底色的像素值之间的差值，识别文字所在填充色的边界，添加相应的边界线。

继续以图5为例，在“aa”周围一定区域内填充颜色之后，识别文字“aa”、“bb”和“cc”所在填充色的边界，添加相应的边界线，具体方法可以为：对图像中的每一行像素进行检测，并计算像素之间的差值，当差值大于预设的像素差阈值时，对相应的像素进行标记，并基于所述标记在所述图像上绘制线段，得到边界线添加处理后的图像，如图6所示。

可以理解的是，根据具体排版的情况，可以采取不同的预处理方式，上述实施例仅为举例说明，并非对预处理的具体实施方式的限制。

经过预处理之后的图像，图像中的轮廓将更加清晰完整。

然后，可以检测所述第一轮廓图像中的最小外接轮廓，以便于后续对第一轮廓图像进行分割。具体方法可以为：选择一个连通域中的一个点为起始点，识别它的轮廓，标记所述连通域边界上的像素。当轮廓完整闭合时，获得所述连通域的最小外接轮廓，回到起始点位置，并识别下一个连通域的轮廓，直至识别完成所有的连通域。然后根据各连通域的最小外接轮廓进行分割，得到所述图像中的连通域单元。

采用上述方案，由于连通域单元是最小外接轮廓，可以确保所述连通域单元可以对应所述连通域掩膜图中至少一个掩膜单元，提高映射关系建立的鲁棒性。

在具体实施中，识别所述图像中的图像轮廓，得到对应的第一轮廓图像之后，还可以对所述第一轮廓图像进一步的优化处理，如图2所示，还包括以下步骤：

S115，计算所述第一轮廓图像中的连通域的面积，并删除小于预设面积阈值的连通域，得到第二轮廓图像。

S116，检测所述第二轮廓图像中的最小外接轮廓，并根据所述最小外接轮廓进行分割，得到所述图像中的连通域单元。

其中，所述预设面积阈值可以根据图像大小、连通域大小、排版内容、连通域的形状等具体情况进行动态调整，也可以采用自适应阈值算法来自动调整。

采用上述方案，通过删除小于预设面积阈值的连通域，可以避免杂质连通域的影响，并且由于连通域单元是最小外接轮廓，可以确保所述连通域单元可以对应所述连通域掩膜图中至少一个掩膜单元，提高映射关系建立的鲁棒性。

在具体实施中，所述检测所述第二轮廓图像的最小外接轮廓之前，可以对所述第二轮廓图像进行多边拟合处理，用另一条曲线或具有较少顶点的多边形逼近所述第二轮廓图像中的曲线或图形，使得多边拟合处理后的第二轮廓图像满足指定的精度要求。例如，可以将由曲线构成的图形替换为矩形。

在具体实施中，识别所述图像中的连通域单元之后，可以基于所述连通域单元的位置信息生成对应的连通域掩膜图，并识别所述连通域掩膜图中的掩膜单元，然后，可以对所述连通域单元与所述掩膜单元进行匹配，以下通过具体实施例进行详细描述。

在本说明书一实施例中，如图7所示，在图7中的a)所示的图像71中包含若干个连通域单元，根据各连通域单元的位置信息，可以得到图像71中的行信息数据和列信息数据，行信息数据包括：各行的最大宽度数据和两行之间的间隔高度数据；列信息数据包括：各列的最大高度数据和两列之间的间隔宽度数据，根据上述行信息数据和列信息数据做直线生成对应的连通域掩膜图，参照图7中的b)所示的连通域掩膜图72。

然后，可以识别所述连通域掩膜图中的掩膜单元，由于图像71中的连通域单元两两互不包含，而连通域掩膜图72是基于所述连通域单元的位置信息生成的，因此，图像71中仅有一个连通域单元可以实现完全包含连通域掩膜图72中的掩膜单元。

在具体实施时，可以通过匹配所述连通域单元与所述掩膜单元之间的位置信息，确定需要建立映射关系的连通域单元和掩膜单元，并且，可以通过匹配位置信息，确定所述连通域单元与所述掩膜单元是包含关系，如果所述连通域单元与所述掩膜单元是包含的关系，则匹配结果为成功，将匹配成功的连通域单元和掩膜单元上标记相同的标签，从而建立起所述连通域单元与所述连通域掩膜图的映射关系。其中，所述掩膜单元的位置信息可以包括：所述掩膜单元在所述连通域掩膜图上的点坐标信息和所述掩膜单元的几何参数信息，具体可参照上述连通域单元的位置信息的描述。

例如，以图像71的左上角为原点O建立坐标系，X轴向右延伸，Y轴向下延伸，图像71中左上角第一个连通域单元711(如图7中的a)所示斜线部分)的位置信息为(x₁，y₁，w₁，h₁)，其中，x₁和y₁分别为连通域单元711左上方角点到X轴和Y轴的距离，w₁和h₁分别为连通域单元711在X轴方向的宽度值和在Y轴方向的高度值；相应地，以连通域掩膜图72的左上角为原点O’建立坐标系，X’轴向右延伸，Y’轴向下延伸，连通域掩膜图72中左上角第一个掩膜单元721(如图7中的b)所示斜线部分)的位置信息为(x₂，y₂，w₂，h₂)，其中，x₂和y₂分别为掩膜单元721左上方角点到X’轴和Y’轴的距离，w₂和h₂分别为连通域单元711在X’轴方向的宽度值和在Y’轴方向的高度值。

通过匹配x₁、w₁、x₂和w₂的信息确定掩膜单元721的宽度区域是否落入连通域单元711的宽度区域内，通过匹配y₁、h₁、y₂和h₂的信息确定掩膜单元721的长度区域是否落入连通域单元711的长度区域内，从而确定所述连通域单元711与所述掩膜单元721是否是包含关系，以此类推，可以建立起所有连通域单元与连通域掩膜图的映射关系。

可以理解的是，在实施中可以根据具体情景设定不同的原点，以此建立不同的坐标系，并且，可以根据具体情景采用与连通域单元相关的任意一点的坐标信息来表示连通域的位置信息，例如，连通域单元的点坐标信息，连通域单元的质心信息等。同样地，也可以根据具体情景采用与掩膜单元相关的任意一点的坐标信息来表示连通域的位置信息。上述实施例仅为举例说明，并非对具体实施方式的限制。

此外，还可以设置匹配误差，当所述连通域单元与所述掩膜单元之间的位置信息满足匹配误差时，认为所述连通域单元与所述掩膜单元匹配成功。

如图8所示，图8中的a)所示图像71和图8中的b)所示连通域掩膜图72之间建立映射关系，其中，图像71中的连通域单元与连通域掩膜图72中对应的掩膜单元采用数字标签，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元，例如，图像71中标注数字标签“1”的连通域单元对应连通域掩膜图72中标注数字标签“1”的八个掩膜单元。为了能够准确建立映射关系，各连通域单元之间的数字标签不能重复，相应地，各掩膜单元之间的数字标签亦不能重复。继而可以基于所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。

由图8中的a)所示的图像71可以发现，经过排版设计后的连通域单元的大小不尽相同，有些连通域单元中的文字信息可能对应其他几个其他连通域单元的文字信息，若忽略了这些文字所对应的具体排版，可能会错失文字排序后所带来的信息，可读性差。

例如，图像71中的数字标签为13的连通域单元中的文字信息可能对应数字标签分别为14、23、30、37的连通域单元中的文字信息，若识别出连通域单元的文字后，按照连通域单元的顺序进行输出，数字标签为13的连通域单元中的文字信息只出现一次，从而无法得知数字标签为13的连通域单元中的文字信息与数字标签为14、23、30、37的连通域单元中的文字信息的对应关系，并且打乱了排版文本中的具体排版。因此，在所述连通域单元与所述连通域掩膜图建立映射关系后，数字标签为13的四个掩膜单元分别对应数字标签为14、23、30、37的掩膜单元，数字标签为13的连通域单元中的文字可以分别输入数字标签为13的四个掩膜单元中，从而对提取的文字信息进行了统筹整合，并将排版文本中的具体排版映射到所述连通域掩膜图中，实现了掩膜单元和文本信息之间一一对应的排版逻辑关系。

可以理解的是，根据连通域单元的实际形状，可以建立不同的连通域掩膜图；根据掩膜单元的实际形状，以及图像和连通域掩膜图建立的坐标系，可以采取不同的匹配方式，例如，图像和连通域掩膜图可以采取不同的原点建立不同的坐标系，那么，图像的坐标系和连通域掩膜图的坐标系之间可以先确定转换矩阵，然后再建立所述连通域单元与所述连通域掩膜图的映射关系；根据实际情况也可以采用不同的标记方式。上述实施例仅为举例说明，并非对具体实施方式的限制。

在具体实施中，为了避免交汇边界判别错误的问题，可以在所述建立所述连通域单元与所述连通域掩膜图的映射关系之前，将所述连通域掩膜图进行缩小处理，从而提高所述连通域单元与所述连通域掩膜图之间映射的准确性。

其中，所述连通域掩膜图可以采用如缩小处理的方式：确定所述连通域掩膜图中各掩膜单元内的任意一点作为固定点，从而可以基于所述固定点，将所述掩膜单元按照预设的比例进行缩小。根据所述掩膜单元的形状，所述固定点可以是掩膜单元的质点或角点等。

例如，继续以上图7为例，如图7中的b)所示，所述连通域掩膜图72中各掩膜单元的形状均为矩形，则可以将各掩膜单元的左上角点作为固定点，从而保持各左上角点的位置不变的情况下，按照预设的比例缩小各掩膜单元的面积。

又例如，继续以上图7为例，如图7中的b)所示，所述连通域掩膜图72中各掩膜单元的形状均为矩形，则可以将各掩膜单元的质点作为固定点，从而保持各质点的位置不变的情况下，按照预设的比例缩小各掩膜单元的面积，缩小后的掩膜单元如图9中的虚线矩形所示。

在具体实施中，为了避免图像过长影响处理速度，可以根据图像中的排版分布情况，将图像进行分割。以下通过具体实施例进行详细描述。

如图10所示，图像100中包含若干个连通域单元，根据图像中的排版分布情况，可以基于连通域单元的面积实现按行分割。具体方法可以为：根据各连通域单元的位置信息计算出对应的面积信息，通过比较得到面积最大的三个连通域单元，如图10中斜线部分所示的连通域单元101-103，则根据连通域单元101-103进行按行分割，得到如图11中的a)-c)所示的三张子图像100a-100c。然后，可以通过并行处理的方式，分别生成子图像100a-100c对应的连通域掩膜图，建立所述连通域单元与所述连通域掩膜图的映射关系，提高处理速度。

在具体实施中，根据连通域单元和掩膜单元之间的映射关系，将连通域单元中识别出的文字添加至对应的掩膜单元之后，可以将得到的第一文本数据根据掩膜单元的位置信息进行文字输出，输出方式可以是按行输出方式、按列输出方式或者自定义输出方式等。

继续参考图8中的b)所示的连通域掩膜图72，以选择按行输出方式为例，根据连通域掩膜图72中各掩膜单元的位置信息，首先输出第一行十个掩膜单元(即图中数字标签为“1”，“2”和“0”的掩膜单元)中的文字，然后输出第二行十个掩膜单元(即图中数字标签为“3”，“4”，“5”，“7”，“8”，“9”，“10”，“11”，“12”和“6”的掩膜单元)中的文字，依次类推，完成第一文本数据的输出。

其中，按行输出时，可以根据每一行中各掩膜单元的位置信息，依次输出其中的文字，也可以根据每一行中各掩膜单元的位置信息，确定各掩膜单元中的文字的输出位置，并行输出各掩膜单元中的文字。

在一说明书实施例中，如图12所示，为经过扫描的公司业务绩效统计表的示意图，其中包含了排版文本。

首先，对所述图像进行预处理。具体为：将所述图像转换为灰度图，并进行二值化处理，得到对应的二值化图像，并将所述二值化图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓图像和纵向轮廓图像，之后，将所述横向轮廓图像和所述纵向轮廓图像进行合并，得到对应的合并图像，将所述合并图像进行闭运算处理，得到如图13所述第一轮廓图像。

然后，进行处理得到所述图像中的连通域单元。具体为：计算所述第一轮廓图像中的连通域的面积，并删除小于预设面积阈值的连通域，得到第二轮廓图像，并对所述第二轮廓图像进行多边拟合处理，之后，检测所述第二轮廓图像中的最小外接轮廓，并根据所述最小外接轮廓进行分割，得到所述图像中的连通域单元，可参考图7中图像71所示。

其中，可以采用findContours函数查找所述第一轮廓图像中的连通域，进而计算连通域的面积；可以采用approxPolyDP函数进行多边拟合处理；采用boundingRect函数检测所述第二轮廓图像中的最小外接轮廓。

可以理解的是，根据所述连通域的实际形状，可以采用其他的算法或函数进行相应地处理，上述实施例仅为举例说明，并非对具体实施方式的限制。

再然后，基于所述连通域单元的位置信息，生成对应的连通域掩膜图，可参考图7中连通域掩膜图72所示。之后，建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元，基于所述映射关系，可参考图8所示。

最后，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。例如，参考图8中的b)所示的连通域掩膜图72，在数字标签为“1”的八个掩膜单元中分别添加文字“一、基本信息”，在数字标签为“13”的四个掩膜单元中分别添加文字“XX”，依次类推，最后得到的第一文本数据如图14所示。

在具体实施中，在得到所述第一文本数据后，可以对所述第一文本数据进行进一步地优化处理，具体为：当所述连通域单元对应多个掩膜单元时，将所述多个掩膜单元对应的文字进行合并，得到第二文本数据。例如，可以保留其中一个掩膜单元对应的文字，将其余掩膜单元中的文字进行擦除，并记录相应的掩膜单元的位置信息，最终得到第二文本数据。又例如，将所述多个掩膜单元进行合并，并在相应位置保留文字，并记录合并后的掩膜单元的位置信息，最终得到第二文本数据。

之后，可以将第一文本数据先按照预设的输出方式进行输出，然后，将第二文本数据也按照预设的输出方式进行输出，根据第二文本数据中各掩膜单元的位置信息，将第二文本数据中各掩膜单元的文字替换第一文本数据中各掩膜单元的文字，完成第二文本数据的输出。

采用上述方案，在得到所述第一文本数据后，当所述连通域单元对应多个掩膜单元时，通过将所述多个掩膜单元对应的文字进行合并，可以优化第一文本数据的具体排版，从而使得到的第二文本数据更加贴近于所述图像包含的排版文本。

参照图15所示的本说明书实施例中一种文本处理系统的结构示意图，在本说明书实施例中，所述文本处理系统150可以包括：

连通域单元识别模块151，适于对于包含排版文本的图像，识别所述图像中的连通域单元；

连通域掩膜图生成模块152，适于根据所述连通域单元的位置信息，生成对应的连通域掩膜图；

映射关系建立模块153，适于建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元；

文字添加模块154，适于根据所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据。

在具体实施中，所述连通域单元的位置信息可以包括：所述连通域单元在所述图像上的点坐标信息和所述连通域单元的几何参数信息。例如，以图像上任意一点为原点建立坐标系，若图像中连通域单元A的形状为多边形，则连通域单元A的位置信息可以包括：连通域单元A的角点坐标信息、连通域单元A的边长信息和连通域单元A的角度信息等；若图像中连通域单元B的形状为圆形，则连通域单元B的位置信息可以包括：连通域单元B与坐标轴的平行线相切的切点坐标信息和连通域单元B的半径信息等。

在具体实施中，可以识别所述连通域掩膜图中的掩膜单元，并对所述连通域单元与所述掩膜单元进行匹配，基于匹配的结果建立所述连通域单元与所述连通域掩膜图的映射关系。其中，所述连通域掩膜图中的掩膜单元可以采用上述识别所述连通域单元的方式，也可以采用其他方式进行识别。

在具体实施中，可以采用现有的OCR技术来识别所述连通域单元中的文字，并将识别出的文字添加所述连通域单元对应的掩膜单元中，包含有文字的连通域掩膜图作为第一文本数据，可以按照预设的输出方式进行输出，也可以进行进一步地优化处理，再按照预设的输出方式进行输出，还可以作为储备数据用于其他用途，如用于神经网络模型的训练学习等。由上述方案可知，可以通过识别图像中的连通域单元，确定排版文本的具体排版，并且，由于所述连通域掩膜图是基于所述连通域单元的位置信息生成的，可以适应不同类型的排版，然后，所述连通域单元与所述连通域掩膜图的映射关系，使得所述连通域单元能够对应所述连通域掩膜图中至少一个掩膜单元，从而确保所述连通域掩膜图中有对应区域可以添加所述连通域单元中识别出的文字，由此，可以将排版文本中的具体排版映射到所述连通域掩膜图中，得到的第一文本数据具有了排版文本的排版逻辑，从而可以提高文本的可读性，并可以节约人工调整的时间和成本，提升处理效率。

在具体实施中，如图15所示，所述映射关系建立模块153可以包括：

掩膜单元识别子模块1531，适于识别所述连通域掩膜图中的掩膜单元；

匹配子模块1532，适于对所述连通域单元与所述掩膜单元进行匹配；

建立子模块1533，适于根据匹配的结果建立所述连通域单元与所述连通域掩膜图的映射关系。

在具体实施中，所述匹配子模块1532可以适于匹配所述连通域单元与所述掩膜单元之间的位置信息。

在具体实施中，所述文本处理系统150还可以包括：

缩小处理模块155，适于在建立所述连通域单元与所述连通域掩膜图的映射关系之前，将所述连通域掩膜图进行缩小处理。

采用上述方案，可以在所述连通域单元与所述连通域掩膜图之间进行匹配时，避免交汇边界判别错误的问题，提高所述连通域单元与所述连通域掩膜图之间映射的准确性。

在具体实施中，所述文本处理系统150还可以包括：

文字合并模块156，适于在得到所述第一文本数据后，当所述连通域单元对应多个掩膜单元时，将所述多个掩膜单元对应的文字进行合并，得到第二文本数据。

采用上述方案，可以优化第一文本数据的具体排版，从而使得到的第二文本数据更加贴近于所述图像包含的排版文本。

在具体实施中，所述连通域单元识别模块151还可以包括：

轮廓识别子模块1511，适于识别所述图像中的图像轮廓，得到对应的第一轮廓图像；

连通域计算子模块1512，适于计算所述第一轮廓图像中的连通域的面积；

连通域删除子模块1513，适于删除小于预设面积阈值的连通域，得到第二轮廓图像；

外接轮廓检测子模块1514，适于检测所述第二轮廓图像中的最小外接轮廓；

分割子模块1515，适于根据所述最小外接轮廓进行分割，得到所述图像中的连通域单元。

在具体实施中，所述轮廓识别子模块1511可以包括：

二值化处理器15111，适于将所述图像进行二值化处理，得到对应的二值化图像；

开运算处理器15112，适于将所述二值化图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓图像和纵向轮廓图像；

图像合并处理器15113，适于将所述横向轮廓图像和所述纵向轮廓图像进行合并，得到对应的合并图像；

闭运算处理器15114，适于将所述合并图像进行闭运算处理，得到所述第一轮廓图像。

在具体实施中，所述连通域单元识别模块151还可以包括：

多边拟合处理子模块1516，适于在检测所述第二轮廓图像的最小外接轮廓之前，对所述第二轮廓图像进行多边拟合处理。

在具体实施中，文本处理系统的实现方式可参照上述文本处理方法的实施例，此处不再赘述。

本发明实施例还提供了一种数据处理设备，可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时可以执行本发明上述任一实施例所述的方法的步骤。所述计算机指令运行时执行的方法具体实现可以参照上述的方法的步骤，不再赘述。其中，所述数据处理设备可以为手机等手持终端、平板电脑、个人台式电脑等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行本发明上述任一实施例方法的步骤。所述计算机可读存储介质上存储的指令执行上述任一实施例所述的方法，具体可参照上述实施例，不再赘述。

其中，所述计算机可读存储介质可以包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如，存储器、可移除的或不可移除的介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(DVD)、磁带、盒式磁带等。

并且，计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码，例如，源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。

虽然本说明书实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本说明书实施例的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

对于包含排版文本的图像，识别所述图像中的连通域单元；

基于所述连通域单元的位置信息，生成对应的连通域掩膜图；建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元；

基于所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据；

所述基于所述连通域单元的位置信息，生成对应的连通域掩膜图包括：根据所述连通域单元的位置信息，得到所述图像中的行信息数据和列信息数据，行信息数据包括：各行的最大宽度数据和两行之间的间隔高度数据；列信息数据包括：各列的最大高度数据和两列之间的间隔宽度数据，根据所述行信息数据和所述列信息数据做直线生成对应的所述连通域掩膜图。

2.根据权利要求1所述的文本处理方法，其特征在于，所述建立所述连通域单元与所述连通域掩膜图的映射关系，包括：

识别所述连通域掩膜图中的掩膜单元，并对所述连通域单元与所述掩膜单元进行匹配，基于匹配的结果建立所述连通域单元与所述连通域掩膜图的映射关系。

3.根据权利要求2所述的文本处理方法，其特征在于，所述对所述连通域单元与所述掩膜单元进行匹配，包括：

匹配所述连通域单元与所述掩膜单元之间的位置信息。

4.根据权利要求1-3任一项所述的文本处理方法，其特征在于，在得到所述第一文本数据后，还包括：当所述连通域单元对应多个掩膜单元时，将所述多个掩膜单元对应的文字进行合并，得到第二文本数据。

5.根据权利要求1所述的文本处理方法，其特征在于，所述识别所述图像中的连通域单元，包括：

识别所述图像中的图像轮廓，得到对应的第一轮廓图像；

计算所述第一轮廓图像中的连通域的面积，并删除小于预设面积阈值的连通域，得到第二轮廓图像；

检测所述第二轮廓图像中的最小外接轮廓，并根据所述最小外接轮廓进行分割，得到所述图像中的连通域单元。

6.根据权利要求5所述的文本处理方法，其特征在于，所述识别所述图像中的图像轮廓，得到对应的第一轮廓图像，包括：

将所述图像进行二值化处理，得到对应的二值化图像；

将所述二值化图像分别进行横向开运算处理和纵向开运算处理，得到对应的横向轮廓图像和纵向轮廓图像；

将所述横向轮廓图像和所述纵向轮廓图像进行合并，得到对应的合并图像；

将所述合并图像进行闭运算处理，得到所述第一轮廓图像。

7.根据权利要求5或6所述的文本处理方法，其特征在于，在所述检测所述第二轮廓图像的最小外接轮廓之前，还包括：

对所述第二轮廓图像进行多边拟合处理。

8.一种文本处理系统，其特征在于，包括：

连通域单元识别模块，适于对于包含排版文本的图像，识别所述图像中的连通域单元；

连通域掩膜图生成模块，适于根据所述连通域单元的位置信息，生成对应的连通域掩膜图；

映射关系建立模块，适于建立所述连通域单元与所述连通域掩膜图的映射关系，所述连通域单元对应所述连通域掩膜图中至少一个掩膜单元；

文字添加模块，适于根据所述映射关系，将所述连通域单元中识别出的文字添加至对应的掩膜单元中，得到第一文本数据；

所述连通域掩膜图生成模块根据所述连通域单元的位置信息，得到所述图像中的行信息数据和列信息数据，行信息数据包括：各行的最大宽度数据和两行之间的间隔高度数据；列信息数据包括：各列的最大高度数据和两列之间的间隔宽度数据，根据所述行信息数据和所述列信息数据做直线生成对应的所述连通域掩膜图。

9.一种数据处理设备，包括存储器和处理器；其中，所述存储器适于存储一条或多条计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至7任一项所述方法的步骤。