CN108171237A

CN108171237A - 一种文本行图像单字切分方法和装置

Info

Publication number: CN108171237A
Application number: CN201711294411.6A
Authority: CN
Inventors: 邱君华; 李宏宇
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-06-15

Abstract

本发明公开了一种文本行图像单字切分方法和装置，属于图像处理技术领域。包括对文本行图像进行预处理，并提取预处理后的文本行图像中的文本行；判断文本行中是否存在包含有粘连字符的连通域，若存在，则确认预设的执行模式，否则执行非粘连字符切分策略；在存在包含有粘连字符的连通域时，若预设的执行模式为第一执行模式，则利用形态学处理断开包含有粘连字符的连通域，并执行非粘连字符切分策略；若确认预设的执行模式为第二执行模式，则执行非粘连字符切分策略。本发明实施例能够针对文本行图像的粘连字符以及非粘连字符的不同场景，对单字切分方式加以区分，提高对文本行图像单字切分的准确性。

Description

一种文本行图像单字切分方法和装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种文本行图像单字切分方法和装置。

背景技术

OCR(Optical Character Recognition，字符识别)的流程一般是先做文本行图像检测，然后再对文本行图像进行单字切分，最后对每个切分出的单字进行识别。显然，文本行图像中的单字切分是字符识别中相当重要的环节，直接影响到最后的识别准确率。

目前，对文本行图像进行单字切分，通常采用的单字切分方式是基于投影分割法，该方法利用字与字之间的空白间隙在图像行垂直投影上形成的空白间隔将单个的字符图像切分出来。

但是，发明人在本申请的研究过程中发现，在实际应用中，文本行图像的相邻字符间可能发生粘连，也可能不粘连，此时采用基于投影分割法对文本行图像进行单字切分，就会将发生粘连的字符误切分为一个字符，出现分割错误，同时，也会将某个字符的中文部首误切分为一个独立字符，进而导致字符切分的准确性较低，因此针对文本行图像的粘连字符以及非粘连字符的不同场景，需要对单字切分方式加以区分，以提高对文本行图像单字切分的准确性。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种文本行图像单字切分方法和装置，以针对文本行图像的粘连字符以及非粘连字符的不同场景，对单字切分方式加以区分，实现提高对文本行图像单字切分的准确性的目的。所述技术方案如下：

第一方面，提供了一种文本行图像单字切分方法，所述方法包括：

步骤S1：对文本行图像进行预处理，并提取预处理后的所述文本行图像中的文本行；

步骤S2：判断所述文本行中是否存在包含有粘连字符的连通域，若存在，则执行步骤S3，否则执行步骤S5；

步骤S3：确认预设的执行模式是为第一执行模式还是为第二执行模式，若为所述第一执行模式，则执行步骤S4，若为所述第二执行模式，则执行步骤S6；

步骤S4：利用形态学处理断开所述包含有粘连字符的连通域，执行步骤S5；

步骤S5：执行非粘连字符切分策略，对所述文本行进行单字切分；

步骤S6：执行粘连字符切分策略，对所述文本行进行单字切分。

结合第一方面，在第一种可能的实现方式中，所述步骤S1中对文本行图像进行预处理包括：

步骤S11：获取所述文本行图像的灰度图；

步骤S12：采用预设聚类算法对所述文本行图像的灰度图进行聚类分割；

步骤S13：根据聚类分割结果，确定所述文本行图像的背景和作为前景的所述文本行；

步骤S14：调整作为前景的所述文本行的像素亮度值高于背景的像素亮度值。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述步骤S1中对文本行图像进行预处理进一步还包括：

步骤S15：若所述文本行与所述背景的像素平均值差值小于预设差值阈值，则对所述文本行图像的灰度图进行灰度拉伸处理。

结合第一方面，在第三种可能的实现方式中，所述步骤S2中判断所述文本行中是否存在包含有粘连字符的连通域包括：

步骤S21：确定所述文本行的各个连通域的宽度值；

步骤S22：检测是否存在宽度突变的连通域，若存在，则判定存在宽度突变的连通域为所述包含有粘连字符的连通域。

结合第一方面，在第四种可能的实现方式中，所述步骤S5包括：

步骤S51：在所述文本行的所有连通域中，将满足连通域合并规则的连通域合并成合并区域；以及

步骤S52：基于合并后得到的各个合并区域及未合并的各个连通域，对所述文本行进行单字切分。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述步骤S51包括：

步骤S511：在垂直方向上合并具有上下位置关系的至少两个连通域；

步骤S512：在水平方向上合并具有重叠关系的至少两个连通域；

步骤S513：合并间距小于所述所有连通域中两两相邻连通域的平均间距的两个相邻连通域；

其中，所述合并区域的宽度不超过由所述所有连通域的平均宽度确定的宽度阈值。

结合第一方面，在第六种可能的实现方式中，所述步骤S6包括：

步骤S61：确定所述文本行的平均字符宽度；

步骤S62：根据所述平均字符宽度和所述文本行的垂直投影直方图，获取所述垂直投影直方图上的多个目标切分点；

步骤S63：根据所述多个目标切分点，对所述文本行进行单字切分。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述步骤S62包括：

步骤S621：根据所述平均字符宽度和所述文本行的垂直投影直方图，确定所述文本行的当前切分位置，所述当前切分位置与上一个字符左边界之间的距离设定为所述平均字符宽度；

步骤S622：在所述当前切分位置所在区域内，获取三个候选切分点；以及

步骤S623：在所述三个候选切分点中，将像素值最小且像素值低于所述垂直投影直方图上像素平均值的切分点确定为当前目标切分点；

步骤S624：确定所述当前目标切分点的下一个像素点为下一个字符左边界；

重复步骤S622至步骤S624，直至获取到所有的目标切分点。

第二方面，提供了一种文本行图像单字切分装置，所述装置包括：

预处理模块，用于对文本行图像进行预处理；

提取模块，与所述预处理模块连接，用于提取预处理后的所述文本行图像中的文本行；

判断模块，与所述提取模块连接，用于判断所述文本行中是否存在包含有粘连字符的连通域；

确认模块，与所述判断模块连接，用于若存在包含有粘连字符的连通域时，确认预设的执行模式是为第一执行模式还是为第二执行模式；

断开模块，与所述确认模块连接，用于若为所述第一执行模式时，利用形态学处理断开所述包含有粘连字符的连通域；

非粘连字符切分模块，与所述判断模块及所述断开模块连接，用于执行非粘连字符切分策略，对所述文本行进行单字切分；

粘连字符切分模块，与所述确认模块连接，用于若为所述第二执行模式时，执行粘连字符切分策略，对所述文本行进行单字切分。

结合第二方面，在第一种可能的实现方式中，所述预处理模块具体包括：

第一获取子模块，用于获取所述文本行图像的灰度图；

聚类分割子模块，用于采用预设聚类算法对所述文本行图像的灰度图进行聚类分割；

第一确定子模块，用于根据聚类分割结果，确定所述文本行图像的背景和作为前景的所述文本行；

调整子模块，用于调整作为前景的所述文本行的像素亮度值高于背景的像素亮度值。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述预处理模块进一步还包括：

灰度拉伸处理子模块，用于若所述文本行与所述背景的像素平均值差值小于预设差值阈值，则对所述文本行图像的灰度图进行灰度拉伸处理。

结合第二方面，在第三种可能的实现方式中，所述判断模块包括：

第二确定子模块，用于确定所述文本行的各个连通域的宽度值；

检测子模块，用于检测是否存在宽度突变的连通域，若存在，则判定存在宽度突变的连通域为所述包含有粘连字符的连通域。

结合第二方面，在第四种可能的实现方式中，所述非粘连字符切分模块包括：

合并子模块，用于在所述文本行的所有连通域中，将满足连通域合并规则的连通域合并成合并区域；

非粘连字符切分子模块，用于基于合并后得到的各个合并区域及未合并的各个连通域，对所述文本行进行单字切分。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述合并子模块包括：

第一合并单元，用于在垂直方向上合并具有上下位置关系的至少两个连通域；

第二合并单元，用于在水平方向上合并具有重叠关系的至少两个连通域；

第三合并单元，用于合并间距小于所述所有连通域中两两相邻连通域的平均间距的两个相邻连通域；

结合第二方面，在第六种可能的实现方式中，所述粘连字符切分模块包括：

第三确定子模块，用于确定所述文本行的平均字符宽度；

第二获取子模块，用于根据所述平均字符宽度和所述文本行的垂直投影直方图，获取所述垂直投影直方图上的多个目标切分点；

粘连字符切分子模块，用于根据所述多个目标切分点，对所述文本行进行单字切分。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，所述第二获取子模块包括：

第一确定单元，用于根据所述平均字符宽度和所述文本行的垂直投影直方图，确定所述文本行的当前切分位置，所述当前切分位置与上一个字符左边界之间的距离设定为所述平均字符宽度；

获取单元，用于在所述当前切分位置所在区域内，获取三个候选切分点；

第二确定单元，用于在所述三个候选切分点中，将像素值最小且像素值低于所述垂直投影直方图上像素平均值的切分点确定为当前目标切分点；

第三确定单元，用于确定所述当前目标切分点的下一个像素点为下一个字符左边界；

控制单元，用于控制所述获取单元、所述第二确定单元和所述第三确定单元重复执行，直至获取到所有的目标切分点。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供了一种文本行图像单字切分方法和装置，通过在提取文本行图像中的文本行之前，对文本行图像进行预处理，由此提高了判断所述文本行中是否存在包含有粘连字符的连通域的准确性；另外，在判定不存在包含有粘连字符的连通域时，采用非粘连单字切分策略对文本行图像进行单字切分，而在判定存在包含有粘连字符的连通域时，进一步通过确认预设的执行模式是为第一执行模式还是为第二执行模式，进而采用相对应的单字切分策略，由此不但实现了针对不同的场景加以区分单字切分方式，而且同时也避免了采用单一切分方式对包含粘连字符的文本行图像进行单字切分，从而达到了灵活地对文本行图像进行切分，进而提高对文本行图像单字切分的准确性的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种文本行图像单字切分方法流程图；

图2是根据一示例性实施例示出的对文本行图像进行预处理的流程图；

图3是根据一示例性实施例示出的判断所述文本行中是否存在包含有粘连字符的连通域的流程图；

图4是根据一示例性实施例示出的执行非粘连字符切分策略的流程图；

图5是根据一示例性实施例示出的将满足连通域合并规则的连通域合并成合并区域的流程图；

图6a根据一示例性实施例示出的获取到的文本行图像的示意图；

图6b根据一示例性实施例示出的文本行的各个连通域及其外接矩形的示意图；

图6c根据一示例性实施例示出的合并后得到的各个合并区域的示意图；

图7是根据一示例性实施例示出的执行粘连字符切分策略的流程图；

图8是根据一示例性实施例示出的获取文本行的垂直投影直方图上的多个目标切分点的流程图；

图9a根据一示例性实施例示出的获取到的文本行图像的示意图；

图9b根据一示例性实施例示出的文本行的垂直投影直方图的示意图；

图9c根据一示例性实施例示出的文本行的多个目标切分点的示意图；

图10是根据一示例性实施例示出的一种文本行图像单字切分装置的框图；

图11是根据一示例性实施例示出的预处理模块的框图；

图12是根据另一示例性实施例示出的预处理模块的框图；

图13是根据一示例性实施例示出的判断模块的框图；

图14是根据一示例性实施例示出的非粘连字符切分模块的框图；

图15是根据一示例性实施例示出的合并子模块的框图；

图16是根据一示例性实施例示出的粘连字符切分模块的框图；

图17是根据一示例性实施例示出的第二获取子模块的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的一种文本行图像单字切分方法流程图，本实施例提供的文本行图像单字切分方法的执行主体可以是各种设备，如台式计算机、个人计算机、移动终端和服务器，参照图1所示，该方法包括如下步骤：

步骤S1：对文本行图像进行预处理，并提取预处理后的文本行图像中的文本行。

具体的，可以采用如retinex算法、sauvola算法等二值化方法对文本行图像进行预处理，在对文本行图像预处理后，对文本行进行分割得到文本行图像分割结果，文本行图像分割结果包括背景和字符前景，其中，字符前景为后续需要进行单字切分的文本行。

步骤S2：判断文本行中是否存在包含有粘连字符的连通域，若存在，则执行步骤S3，否则执行步骤S5。

其中，连通域是二值化处理后的文本行图像的彼此连通点构成的集合；

对文本行图像分割结果进行连通域统计，计算每个连通域的面积与文本行图像的面积比值，判断是否存在面积比值阈值的连通域，若存在，则判定该连通域为包含有粘连字符的连通域，否则，判定文本行中不包含有粘连字符的连通域，即文本行中的字符非粘连。

步骤S3：确认预设的执行模式是为第一执行模式还是为第二执行模式，若为第一执行模式，则执行步骤S4，若为第二执行模式，则执行步骤S6。

具体的，执行模式可以为用户预先定义的，可以根据实际需要对执行模式采用第一执行模式还是第二执行模式进行修改；

此外，执行模式也可以是基于机器学习进行设定的，其中，机器学习可以是以执行模式定义历史记录和/或不同执行模式的单字切分效果为训练样本。

其中，第一执行模式用于指示在存在包含有粘连字符的连通域时，执行粘连字符切分策略对文本行进行单字切分；

第二执行模式用于指示在存在包含有粘连字符的连通域时，执行切分包含有粘连字符的连通域。

本发明对具体的确认过程不加以限定。

本发明实施例中，在存在包含有粘连字符的连通域时，通过确认预设的执行模式是为第一执行模式还是为第二执行模式，以便后续对于包含粘连字符的文本行图像采用相对应的单字切分策略，由此避免了采用单一切分方式对包含粘连字符的文本行图像进行单字切分，实现了灵活地对文本行图像进行切分的目的。

步骤S4：利用形态学处理断开包含有粘连字符的连通域，执行步骤S5。

具体的，该过程可以包括：

对文本行图像进行形态学的闭运算，得到闭运算结果，并根据闭运算结果断开包含有粘连字符的连通域。

本发明实施例中，通过断开包含有粘连字符的连通域，以使连通域的粘连部分进行分离，将粘连字符分离为非粘连字符。

步骤S5：执行非粘连字符切分策略，对文本行进行单字切分。

步骤S6：执行粘连字符切分策略，对文本行进行单字切分。

本发明公开的上述实施例中，通过在提取文本行图像中的文本行之前，对文本行图像进行预处理，由此提高了判断文本行中是否存在包含有粘连字符的连通域的准确性；另外，在判定不存在包含有粘连字符的连通域时，采用非粘连单字切分策略对文本行图像进行单字切分，而在判定存在包含有粘连字符的连通域时，进一步通过确认预设的执行模式是为第一执行模式还是为第二执行模式，进而采用相对应的单字切分策略，由此不但实现了针对不同的场景加以区分单字切分方式，而且同时也避免了采用单一切分方式对包含粘连字符的文本行图像进行单字切分，从而达到了灵活地对文本行图像进行切分，进而提高对文本行图像单字切分的准确性的目的。

图2是根据一示例性实施例示出的对文本行图像进行预处理的流程图，如图2所示，在步骤S1中，对文本行图像进行预处理具体包括：

步骤S11：获取文本行图像的灰度图。

其中，灰度图是用灰度表示的图像，其像素值范围为0～255。

具体的，获取包含文本行图像的输入图像，若输入图像为彩色图像，则对输入图像进行灰度化处理，生成灰度图。其中，生成灰度图可以采用多种不同方法，于本发明实施例中，采用加权平均法生成文本行图像的灰度图。具体而言，对彩色图像R、G、B三通道对应的分量，按照不同的权值系数进行线性加权求和，以生成灰度图，其中，对应的权值系数分别是：0.2989、0.5870、0.1140。

若输入图像是灰度图像，则直接执行步骤S12。

步骤S12：采用预设聚类算法对文本行图像的灰度图进行聚类分割。

其中，聚类算法以像素的相似度为基础，通过计算像素之间的相似度判定像素是属于背景还是字符前景，聚类算法包括Kmeans算法、DBSCAN算法或k-medoids算法。于本发明实施例中，选用Kmeans算法，该算法简单易于实现，而且分割效果很好。

具体的，步骤S12的过程可以包括：

(1)初始化类中心：从灰度图的像素中任意选择2个像素作为初始类中心；

(2)确定像素类型：对剩余像素分别计算其与类中心的相似度，其中，可以采用欧氏距离来确定各剩余像素与类中心的相似度，并将剩余像素分配到相似的类中；

(3)更新类中心：分别计算每类像素的平均值，作为新的类中心；

重复执行(2)和(3)直到类中心不再发生变化为止。

在图像背景比较复杂的情况下，由于采用二值化方法分割图像的背景和字符前景，经常会产生背景去除不干净或实心字符被处理成为空心字符，而导致单字切分准确度不高的问题，而本发明实施例中，通过采用预设聚类算法对文本行图像的灰度图进行聚类分割，能够将背景去除更干净，避免背景中干扰的像素点被误判成了前景像素点，同时也不会出现实心字符空心化的现象，由此能够提高后续对文本行图像进行单字切分的准确度。

步骤S13：根据聚类分割结果，确定文本行图像的背景和作为前景的文本行。

具体的，根据每一类中的像素点的坐标分布的方差，确定文本行图像的背景和作为前景的文本行，其中，确定像素点的坐标分布的方差较小的为前景，像素点的坐标分布的方差较大的为背景。

上述基于坐标分布的策略确定背景和前景，是由于通常前景区域的像素应该都集中在文本行图像的中间，而背景区域的像素应该集中分布在文本行的周围。

此外，还可以通过其他方式实现步骤S13，比如，直接选定像素个数多的一类作为背景，像素个数少的另一类作为前景，本发明实施例对具体的确定方式不加以限定。

步骤S14：调整作为前景的文本行的像素亮度值高于背景的像素亮度值。

具体的，分别计算前景区域和背景区域的像素平均值，如果背景区域的像素平均值高于前景区域的像素平均值，则将文本行图像的灰度图取反，否则保持灰度图不变。

本发明实施例中，通过将图像标准化为前景字符为高亮度的区域，背景为低亮度的区域，能够避免由于字符的变种太多而导致的有些场景中前景字符比背景亮度高，而其他场景中前景字符比背景亮度低的问题，从而便于后续OCR识别。

步骤S15：若文本行与背景的像素平均值差值小于预设差值阈值，则对文本行图像进行灰度拉伸处理。

其中，预设差值阈值可以根据实际需要进行设定。

具体的，计算作为前景的文本行与背景的像素平均值差值，并判断前景和背景平均值差值是否小于预设差值阈值，若是，则对文本行图像进行灰度拉伸处理，以提高其对比度。其中，灰度拉伸处理可以采用线性拉伸，将不同的区域，分别进行线性变换，以拉大前景和背景像素平均值的差。

本发明实施例中，通过对文本行图像进行灰度拉伸处理，能够改善图像的动态范围，有利于后续对文本行进行单字切分。

值得注意的是，步骤S15为可选步骤。

图3是根据一示例性实施例示出的判断文本行中是否存在包含有粘连字符的连通域的流程图，如图3所示，在步骤S2中，判断文本行中是否存在包含有粘连字符的连通域具体包括：

步骤S21：确定文本行的各个连通域的宽度值。

具体的，确定文本行的各个连通域及各个连通域的最小外接矩形，以各个最小外接矩形的宽度值分别对应作为各个连通域的宽度值。

本发明对具体的确定过程不加以限定。

步骤S22：检测是否存在宽度突变的连通域，若存在，则判定存在宽度突变的连通域为包含有粘连字符的连通域。

其中，比对文本行的所有连通域的宽度值，若存在与其前后连通域的宽度差值超过预设宽度差值的连通域，则确定该连通域为包含有粘连字符的连通域。

通常情况下，包含有粘连字符的连通域与不包含粘连字符的连通域相比较，前者的连通域的宽度值要较大，因此通过检测是否存在宽度突变的连通域，若存在，则可以判定该连通域中包含有粘连字符。

图4是根据一示例性实施例示出的执行非粘连字符切分策略的流程图，如图4所示，在步骤S5中，执行非粘连字符切分策略，对文本行进行单字切分具体包括：

步骤S50：过滤文本行的背景噪声。

具体的，在文本行的所有连通域中，判定是否存在长度上的像素、宽度上的像素都低于预设像素个数的连通域，若存在，则确定该连通域为文本行的背景噪声，并过滤去除该连通域。其中，预设像素个数可以根据实际需要进行设定，于本发明实施例中，设定预设像素个数为5个。

值得注意的是，步骤S50为可选步骤。

本发明实施例中，通过预先过滤文本行的背景噪声，以进一步提高后续文本行图像单字切分的准确性。

步骤S51：在文本行的所有连通域中，将满足连通域合并规则的连通域合并成合并区域。

其中，连通域合并规则包括合并具有上下位置关系的连通域、合并具有重叠关系的连通域、以及合并间距小于所有连通域中两两相邻连通域的平均间距的两个相邻连通域。

步骤S52：基于合并后得到的各个合并区域及未合并的各个连通域，对文本行进行单字切分。

具体的，基于合并后得到的各个合并区域及未合并的各个连通域，按预设切分方向对文本行进行单字切分，其中，该预设切分方向可以设置为由左至右。

本发明实施例对具体的切分过程不加以限定。

图5是根据一示例性实施例示出的将满足连通域合并规则的连通域合并成合并区域的流程图，如图5所示，在步骤S51中，在文本行的所有连通域中，将满足连通域合并规则的连通域合并成合并区域的过程具体包括：

步骤S511：在垂直方向上合并具有上下位置关系的至少两个连通域。

其中，具有上下位置关系的至少两个连通域的坐标x分布在相同范围内，该至少两个连通域的外接矩形相交或不相交。

步骤S512：在水平方向上合并具有重叠关系的至少两个连通域。

其中，具有重叠关系的至少两个连通域的外接矩形在水平方向上相包含或相交。

步骤S513：合并间距小于所有连通域中两两相邻连通域的平均间距的两个相邻连通域，其中，合并区域的宽度不超过由所有连通域的平均宽度确定的宽度阈值。

具体的，步骤S513的过程可以包括：

a、确定文本行中的每个连通域的宽度、以及两两相邻连通域之间的间距。

b、将文本行的所有连通域按照x坐标依序排列，在排列后的连通域中，将高度小于预设高度阈值、或者宽度小于所有连通域的宽度均值的连通域确定为待合并连通域。

c、将待合并连通域与其x坐标位置前的连通域、和/或其x坐标位置后的连通域进行合并。

其中，对待合并连通域进行合并的判断条件是：

比较待合并连通域的前后两个连通域的宽度，选择宽度较小的连通域作为待合并连通域的合并对象，如果合并后的合并区域的宽度没有超过由所有连通域的平均宽度确定的宽度阈值，且合并后的合并区域与其相邻连通域的间距小于所有连通域中两两相邻连通域的平均间距，则将待合并连通域与合并对象进行合并；

其中，所有连通域的平均宽度可以通过每个连通域的宽度和连通域数量进行计算得到，所有连通域中两两相邻连通域的平均间距可以通过两两相邻连通域之间的间距和连通域数量进行计算得到。

其中，两两相邻连通域的平均间距即为文本行字符的平均间距。

于本发明实施例中，合并后的合并区域的宽度不能超过所有连通域的平均宽度的1.5倍。

下面结合附图6a～图6c进一步描述本发明实施例中的步骤S51，假如获取到的文本行图像如图6a中所示，图6a为“北京市海定区花园东路8号”的文本行图像，在利用本发明提供的方法对文本行图像进行预处理以及提取预处理后的文本行图像中的文本行后，所确定的文本行的各个连通域及其外接矩形可以参照图6b所示，从图6b中可以看出，文本行中不存在包含有粘连字符的连通域，因此对文本行图像执行非粘连字符切分策略。从图6b中可以看到，“京”字包括四个外接矩形，可以在垂直方向上合并具有上下位置关系的两个外接矩形，以及在水平方向上合并具有重叠关系的另外两个外接矩形，因此，对整个“京”字的连通域合并完成后，所得到的合并区域正如图6c中所示，“京”字具有的一个外接矩形，其中，图6c为合并后得到的各个合并区域的示意图。

本发明实施例中，在执行非粘连字符切分策略中，通过将满足连通域合并规则的连通域合并成合并区域，并基于合并后得到的各个合并区域及未合并的各个连通域，对文本行进行单字切分，能够实现对同一个字符所包含的连通域的外接矩形合并成一个外接矩形，而对不同字符中所包含的连通域的外接矩形则不进行合并的目的，从而避免后续将诸如带偏旁部首的中文字符误切分开，由此提高后续对文本行进行单字切分的准确性。

图7是根据一示例性实施例示出的执行粘连字符切分策略的流程图，如图7所示，在步骤S6中，执行粘连字符切分策略，对文本行进行单字切分具体包括：

步骤S61：确定文本行的平均字符宽度。

具体的，通过对文本行进行水平投影来确定文本行的整体高度；

若文本行中的字体高度大于宽度，则根据文本行的整体高度和第一系数确定平均字符宽度，即平均字符宽度等于文本行的整体高度乘以第一系数，于本发明实施例中，该第一系数设定为0.8。

若文本行中的字体高度小于宽度，则根据文本行的整体高度和第二系数确定平均字符宽度，即平均字符宽度等于文本行的整体高度乘以第二系数，于本发明实施例中，该第二系数设定为1.2。

本发明实施例对具体的确定过程不加以限定。

步骤S62：根据平均字符宽度和文本行的垂直投影直方图，获取垂直投影直方图上的多个目标切分点。

具体的，利用垂直投影的方式寻找文本行的垂直投影图中的局部最小值点，其中，局部最小值点为局部像素值最小的点，如果两个局部最小值点的距离符合字宽的要求，即认为是单个字符的边界；否则将该两个最小值点之间的区域与相邻区域合并，使合并的区域满足字符宽度要求，以切分出单个字符。

步骤S63：根据多个目标切分点，对文本行进行单字切分。

具体的，根据多个目标切分点，由左至右对文本行进行单字切分。

本发明实施例对具体的切分过程不加以限定。

图8是根据一示例性实施例示出的获取垂直投影直方图上的多个目标切分点的流程图，如图8所示，在步骤S62中，根据平均字符宽度和文本行的垂直投影直方图，获取垂直投影直方图上的多个目标切分点，该过程具体包括：

步骤S621：根据平均字符宽度和文本行的垂直投影直方图，确定文本行的当前切分位置，其中，当前切分位置与上一个字符左边界之间的距离设定为平均字符宽度。

具体的，步骤S621的过程可以包括：

获取文本行的垂直投影直方图以及垂直投影直方图上的像素平均值；

根据文本行的平均字符宽度以及垂直投影直方图上的文本行的左边界，确定文本行的多个切分位置，其中，相邻切分位置之间的距离为文本行的平均字符宽度。

步骤S622：在当前切分位置所在区域内，获取三个候选切分点。

其中，三个候选切分点分别为当前切分位置的上一个像素点、当前切分位置上的像素点以及当前切分位置的下一个像素点。

步骤S623：在三个候选切分点中，将像素值最小且像素值低于垂直投影直方图上像素平均值的切分点确定为当前目标切分点。

其中，多个目标切分点中的两两相邻切分点的间距不超过由平均字符宽度确定的宽度阈值。

步骤S624：确定当前目标切分点的下一个像素点为下一个字符左边界。

步骤S625：重复步骤S622至步骤S624，直至获取到所有的目标切分点。

下面结合附图9a～图9c进一步描述本发明实施例中的步骤S62，假如获取到的文本行图像如图9a中所示，图9a为“基隆長庚紀念醫院”的文本行图像，在利用本发明提供的方法对文本行图像进行预处理以及提取预处理后的文本行图像中的文本行后，判定文本行中的“庚紀”为粘连字符，并基于预设的执行模式是第二执行模式后，对文本行图像执行粘连字符切分策略。参照图9b所示，图9b为文本行的垂直投影直方图的示意图，在图9b中，文本行中的各个字符的垂直投影呈曲线状，在执行本发明实施例提供的获取垂直投影直方图上的多个目标切分点的方法后，得到的获取到的文本行的多个目标切分点的示意图可以参照图9c所示。

本发明实施例中，在执行粘连字符切分策略中，通过根据平均字符宽度和文本行的垂直投影直方图，获取垂直投影直方图上的多个切分位置，并在每个切分位置上从三个候选切分点中确定出目标切分点，直至获取所有的目标切分点，以对文本行进行单字切分，能够实现对粘连字符进行准确切割，减少切分出的字符包含其他字符部分的情形，由此提高对文本行进行单字切分的准确性。

图10是根据一示例性实施例示出的一种文本行图像单字切分装置的框图，如图10所示，装置包括：

预处理模块11，用于对文本行图像进行预处理；

提取模块12，与预处理模块11连接，用于提取预处理后的文本行图像中的文本行；

判断模块13，与提取模块12连接，用于判断文本行中是否存在包含有粘连字符的连通域；

确认模块14，与判断模块13连接，用于若存在包含有粘连字符的连通域时，确认预设的执行模式是为第一执行模式还是为第二执行模式；

断开模块15，与确认模块14连接，用于若为第一执行模式时，利用形态学处理断开包含有粘连字符的连通域；

非粘连字符切分模块16，与判断模块13及断开模块15连接，用于执行非粘连字符切分策略，对文本行进行单字切分；

粘连字符切分模块17，与确认模块14连接，用于若为第二执行模式时，执行粘连字符切分策略，对文本行进行单字切分。

图11是根据一示例性实施例示出的预处理模块的框图，如图11所示，预处理模块11具体包括：

第一获取子模块111，用于获取文本行图像的灰度图；

聚类分割子模块112，用于采用预设聚类算法对文本行图像的灰度图进行聚类分割；

第一确定子模块113，用于根据聚类分割结果，确定文本行图像的背景和作为前景的文本行；

调整子模块114，用于调整作为前景的文本行的像素亮度值高于背景的像素亮度值。

图12是根据另一示例性实施例示出的预处理模块的框图，如图12所示，在图11的基础上，预处理模块11进一步还包括：

灰度拉伸处理子模块115，用于若文本行与背景的像素平均值差值小于预设差值阈值，则对文本行图像的灰度图进行灰度拉伸处理。

图13是根据一示例性实施例示出的判断模块的框图，如图13所示，判断模块13包括：

第二确定子模块131，用于确定文本行的各个连通域的宽度值；

检测子模块132，用于检测是否存在宽度突变的连通域，若存在，则判定存在宽度突变的连通域为包含有粘连字符的连通域。

图14是根据一示例性实施例示出的非粘连字符切分模块的框图，如图14所示，非粘连字符切分模块16包括：

合并子模块161，用于在文本行的所有连通域中，将满足连通域合并规则的连通域合并成合并区域；

非粘连字符切分子模块162，用于基于合并后得到的各个合并区域及未合并的各个连通域，对文本行进行单字切分。

图15是根据一示例性实施例示出的合并子模块的框图，如图15所示，合并子模块161包括：

第一合并单元1611，用于在垂直方向上合并具有上下位置关系的至少两个连通域；

第二合并单元1612，用于在水平方向上合并具有重叠关系的至少两个连通域；

第三合并单元1613，用于合并间距小于所有连通域中两两相邻连通域的平均间距的两个相邻连通域；

其中，合并区域的宽度不超过由所有连通域的平均宽度确定的宽度阈值。

图16是根据一示例性实施例示出的粘连字符切分模块的框图，如图16所示，粘连字符切分模块17包括：

第三确定子模块171，用于确定文本行的平均字符宽度；

第二获取子模块172，用于根据平均字符宽度和文本行的垂直投影直方图，获取垂直投影直方图上的多个目标切分点；

粘连字符切分子模块173，用于根据多个目标切分点，对文本行进行单字切分。

图17是根据一示例性实施例示出的第二获取子模块的框图，如图17所示，第二获取子模块172包括：

第一确定单元1721，用于根据平均字符宽度和文本行的垂直投影直方图，确定文本行的当前切分位置，当前切分位置与上一个字符左边界之间的距离设定为平均字符宽度；

获取单元1722，用于在当前切分位置所在区域内，获取三个候选切分点；

第二确定单元1723，用于在三个候选切分点中，将像素值最小且像素值低于垂直投影直方图上像素平均值的切分点确定为当前目标切分点；

第三确定单元1724，用于确定当前目标切分点的下一个像素点为下一个字符左边界；

控制单元1725，用于控制获取单元、第二确定单元和第三确定单元重复执行，直至获取所有的目标切分点。

本发明实施例提供了一种文本行图像单字切分装置，该装置通过在提取文本行图像中的文本行之前，对文本行图像进行预处理，由此提高了判断所述文本行中是否存在包含有粘连字符的连通域的准确性；另外，在判定不存在包含有粘连字符的连通域时，采用非粘连单字切分策略对文本行图像进行单字切分，而在判定存在包含有粘连字符的连通域时，进一步通过确认预设的执行模式是为第一执行模式还是为第二执行模式，进而采用相对应的单字切分策略，由此不但实现了针对不同的场景加以区分单字切分方式，而且同时也避免了采用单一切分方式对包含粘连字符的文本行图像进行单字切分，从而达到了灵活地对文本行图像进行切分，进而提高对文本行图像单字切分的准确性的目的。

本领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、模块、子模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。在本发明所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

需要说明的是，在本发明的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

需要说明的是：上述实施例提供的文本行图像单字切分装置在执行文本行图像单字切分方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本行图像单字切分装置与文本行图像单字切分方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本行图像单字切分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中对文本行图像进行预处理包括：

步骤S11：获取所述文本行图像的灰度图；

3.根据权利要求2所述的方法，其特征在于，所述步骤S1中对文本行图像进行预处理进一步还包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤S2中判断所述文本行中是否存在包含有粘连字符的连通域包括：

步骤S21：确定所述文本行的各个连通域的宽度值；

5.根据权利要求1所述的方法，其特征在于，所述步骤S5包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S51包括：

7.根据权利要求1所述的方法，其特征在于，所述步骤S6包括：

步骤S61：确定所述文本行的平均字符宽度；

其中，所述多个目标切分点中的两两相邻切分点的间距不超过由所述平均字符宽度确定的宽度阈值；

8.根据权利要求7所述的方法，其特征在于，所述步骤S62包括：

步骤S622：在所述当前切分位置所在区域内，获取三个候选切分点；

重复步骤S622至步骤S624，直至获取到所有的目标切分点。

9.一种文本行图像单字切分装置，其特征在于，所述装置包括：

预处理模块，用于对文本行图像进行预处理；

10.根据权利要求9所述的装置，其特征在于，所述预处理模块具体包括：

第一获取子模块，用于获取所述文本行图像的灰度图；

11.根据权利要求10所述的装置，其特征在于，所述预处理模块进一步还包括：

12.根据权利要求9所述的装置，其特征在于，所述判断模块包括：

13.根据权利要求9所述的装置，其特征在于，所述非粘连字符切分模块包括：

14.根据权利要求13所述的装置，其特征在于，所述合并子模块包括：

15.根据权利要求9所述的装置，其特征在于，所述粘连字符切分模块包括：

第三确定子模块，用于确定所述文本行的平均字符宽度；

16.根据权利要求15所述的装置，其特征在于，所述第二获取子模块包括：