CN107341487B

CN107341487B - 一种涂抹字符的检测方法及系统

Info

Publication number: CN107341487B
Application number: CN201610290893.7A
Authority: CN
Inventors: 吴爱红; 戴文娟; 竺博; 魏思; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2021-05-04
Anticipated expiration: 2036-04-28
Also published as: CN107341487A

Abstract

本发明公开了一种涂抹字符的检测方法及系统，该方法包括：获取待检测文档图像；获取所述文档图像的二值图；获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元；提取联通体成分单元特征；基于所述联通体成分单元特征检测涂抹字符。本发明可以针对各种联通体进行检测，此外，对多个联通体组成的组合联通体成分单元与独立联通体成分单元进行区别检测，能提高检测效率。

Description

一种涂抹字符的检测方法及系统

技术领域

本发明涉及图像处理、电子教育等领域，具体涉及一种涂抹字符的检测方法及系统。

背景技术

随着计算机科学与技术的发展，自动化信息处理能力和水平也得到了显著的提高。手写文档的电子化成为热潮，提高字符识别的准确率也随之变为必然趋势。而涂抹作为字符识别的关键影响因素之一，其检测的准确性直接影响字符识别的准确率，因此该项技术的研究近年来也逐渐被相关领域研究人员重视。

字符涂抹在手写文档中也属常见现象，通常因个人喜好而展现出不同的形式，涂抹根据涂抹单位可以分为文本行涂抹、单词涂抹和字母涂抹，分别参考图1，图2至图7，以及图8至图11所示，根据涂抹形式可以分为线条涂抹和严实涂抹；线条涂抹根据单词的长短可以分长单词涂抹和短单词涂抹，根据涂抹线条的数目可以分为单线条涂抹和多线条涂抹。如图1所示为文本行涂抹，如图2所示为长单词单线条涂抹，如图3所示为短单词单线条涂抹，如图4所示为长单词多线条涂抹，如图5所示为短单词多线条涂抹，如图6所示为长单词严实涂抹，如图7所示为短单词严实涂抹，如图8所示为孤立字母线条涂抹，如图9所示为单词字母线条涂抹，如图10所示为单词字母严实涂抹，如图11所示为孤立字母严实涂抹。

现有技术提供了一种通过联通体的穿透笔画进行涂抹字符检测的方法，如图12所示，包括步骤：1.文档图像获取，2.文档图像预处理，3.联通体分析，4.构建联通体的表示图，5.联通体的穿透笔画文本检测。通过以上步骤获取每个联通体从左到右的最短路径，若得到的路径满足直线穿透单词，且最短路径位于联通体高度的中间位置，则认为该联通体被涂抹。

现有技术通过构建联通体构建表示图，检测表示图中最短的穿透路径来判断联通体是否涂抹，且对穿透笔画有一定的约束。然而不同人的书写习惯展现形式不同，在现实数据中存在多种多样的涂抹类型，通过检测穿透笔画判断涂抹字符可以检测出贯穿联通体的线条涂抹，而对于字母涂抹、严实涂抹等涂抹类型，却无法进行有效检测。

发明内容

本发明实施例提供一种涂抹字符的检测方法及系统，以解决现有技术仅能针对贯穿联通体的线条涂抹类型进行检测，而无法对其它涂抹类型进行检测的问题。

为此，本发明实施例提供如下技术方案：

一种涂抹字符的检测方法，包括：

获取待检测文档图像；

获取所述文档图像的二值图；

获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元；

提取联通体成分单元特征；

基于所述联通体成分单元特征检测涂抹字符。

优选地，所述获取所述文档图像的二值图的联通体成分单元包括：

对二值图进行行切分，得到每行二值图；

根据每行二值图中相邻联通体之间距离对每行二值图进行切分，获取联通体成分单元。

优选地，所述方法还包括：

对二值图进行行切分之前，获取文档图像中单词平均高度；

根据所述文档图像中单词平均高度获取超高联通体；

对所述超高联通体进行粘连分割；

所述对二值图进行行切分，得到每行二值图包括：

对粘连分割后的二值图进行行切分，得到每行二值图。

优选地，独立联通体成分单元特征包括以下任意一种或多种：线条特征、交叉点特征、孔洞特征和密度特征。

优选地，提取所述线条特征包括：

对所述独立联通体成分单元进行细化，获取细化独立联通体成分单元；

从细化独立联通体成分单元的边界上选取起始点；

利用方向一致性获取各起始点的最长路径；

滤除小于长度阈值的最长路径，得到备选线条；

根据预先设定的线条角度对备选线条进行过滤；

将剩余的备选线条的数目作为线条特征。

优选地，提取所述交叉点特征包括：

获取细化独立联通体成分单元中交叉点的数目，所述交叉点为邻域内联通点个数≥3的点；

将所述细化独立联通体成分单元中交叉点的数目作为交叉点特征。

优选地，提取所述孔洞特征包括：

提取所述独立联通体成分单元的轮廓；

对所述独立联通体成分单元的轮廓外部进行填充，获取所述独立联通体成分单元的填充图；

将所述填充图减去所述独立联通体成分单元的二值图，获取孔洞图；

将孔洞图中孔洞的数目作为孔洞特征。

优选地，提取所述密度特征包括：

获取所述独立联通体成分单元的前景上下边界或前景左右边界；

计算所述独立联通体成分单元的前景上下边界或前景左右边界内部所有前景面积，与所述独立联通体成分单元的前景上下边界或前景左右边界内部包含的面积的比值；

将所述比值作为密度特征。

优选地，基于独立联通体成分单元特征检测涂抹字符包括：

对提取的各独立联通体成分单元特征分别设定判断阈值，如果各独立联通体成分单元特征中至少一种≥判断阈值，则确定当前独立联通体成分单元包含涂抹字符；或者

对提取的各独立联通体成分单元特征分别设定初判阈值，如果各独立联通体成分单元特征中至少一种≥初判阈值，则确定当前独立联通体成分单元包含涂抹字符；如果各独立联通体成分单元特征全部＜初判阈值，则识别当前独立联通体成分单元的字符，并根据设定的精细阈值判断当前独立联通体成分单元的各字符是否为涂抹字符；或者

根据预先构建的判断模型检测当前独立联通体成分单元是否包含涂抹字符。

优选地，基于组合联通体成分单元特征检测涂抹字符包括：

利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。

一种涂抹字符的检测系统，包括：

文档图像获取模块，用于获取待检测文档图像；

二值图获取模块，用于获取所述文档图像的二值图；

联通体获取模块，用于获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元；

特征提取模块，用于提取联通体成分单元特征；

涂抹字符检测模块，用于基于所述联通体成分单元特征检测涂抹字符。

优选地，所述联通体获取模块包括：

行切分单元，用于对二值图进行行切分，得到每行二值图；

联通体获取单元，用于根据每行二值图中相邻联通体之间距离对每行二值图进行切分，获取联通体成分单元。

优选地，所述联通体获取模块还包括：

高度获取单元，用于在行切分单元对二值图进行行切分之前获取文档图像中单词平均高度；

超高体获取单元，用于根据所述文档图像中单词平均高度获取超高联通体；

粘连分割单元，用于对所述超高联通体进行粘连分割；

所述行切分单元具体用于对粘连分割后的二值图进行行切分，得到每行二值图。

优选地，所述特征提取模块包括组合联通体特征提取单元以及以下任意一个或多个单元：线条特征提取单元、交叉点特征提取单元、孔洞特征提取单元和密度特征提取单元。

优选地，所述线条特征提取单元包括：

第一细化子单元，用于对所述独立联通体成分单元进行细化，获取细化独立联通体成分单元；

起始点选取单元，用于从细化独立联通体成分单元的边界上选取起始点；

路径获取单元，用于利用方向一致性获取各起始点的最长路径；

长度滤除单元，用于滤除小于长度阈值的最长路径，得到备选线条；

角度滤除单元，用于根据预先设定的线条角度对备选线条进行过滤；

线条特征获取单元，用于将剩余的备选线条的数目作为线条特征。

优选地，所述交叉点特征提取单元包括：

第二细化子单元，用于对所述独立联通体成分单元进行细化，获取细化独立联通体成分单元；

点数获取子单元，用于获取细化独立联通体成分单元中交叉点的数目，所述交叉点为邻域内联通点个数≥3的点；

交叉点特征获取子单元，用于将所述细化独立联通体成分单元中交叉点的数目作为交叉点特征。

优选地，所述孔洞特征提取单元包括：

轮廓提取子单元，用于提取所述独立联通体成分单元的轮廓；

填充图获取子单元，用于对所述独立联通体成分单元的轮廓外部进行填充，获取所述独立联通体成分单元的填充图；

孔洞图获取子单元，用于将所述填充图减去所述独立联通体成分单元的二值图，获取孔洞图；

孔洞特征获取子单元，用于将孔洞图中孔洞的数目作为孔洞特征。

优选地，所述密度特征提取单元包括：

前景边界获取子单元，用于获取所述独立联通体成分单元的前景上下边界或前景左右边界；

密度计算子单元，用于计算所述独立联通体成分单元的前景上下边界或前景左右边界内部所有前景面积，与所述独立联通体成分单元的前景上下边界或前景左右边界内部包含的面积的比值；

密度特征获取子单元，用于将所述比值作为密度特征。

优选地，所述涂抹字符检测模块包括：第一检测单元和/或第二检测单元，其中，

第一检测单元，用于基于独立联通体成分单元特征检测涂抹字符，包括：

单阈值检测子单元，用于对提取的各独立联通体成分单元特征分别设定判断阈值，如果各独立联通体成分单元特征中至少一种≥判断阈值，则确定当前独立联通体成分单元包含涂抹字符；或者

双阈值检测子单元，用于对提取的各独立联通体成分单元特征分别设定初判阈值，如果各独立联通体成分单元特征中至少一种≥初判阈值，则确定当前独立联通体成分单元包含涂抹字符；如果各独立联通体成分单元特征全部＜初判阈值，则识别当前独立联通体成分单元的字符，并根据设定的精细阈值判断当前独立联通体成分单元的各字符是否为涂抹字符；或者

第一模型检测子单元，用于根据预先构建的判断模型检测当前独立联通体成分单元是否包含涂抹字符；

第二检测单元，用于利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。

本发明实施例提供的涂抹字符的检测方法及系统，通过获取文档图像，并获取该文档图像的二值图，然后获取所述文档图像的二值图的联通体成分单元，其包括：独立联通体成分单元和组合联通体成分单元，接着分别提取独立联通体成分单元特征和组合联通体成分单元特征，最终根据上述特征检测涂抹字符。由于现有技术中只能对长度与单词长度相当线条涂抹类型的联通体进行分析，而本发明实施例中将二值图分解为联通体成分单元，其包括独立联通体成分单元和组合联通体成分单元，独立联通体成分单元的颗粒度小于组合联通体成分单元，可以为长度较小的联通体，例如单个字母或者一个连写的单词，组合联通体成分单元可以为包含多个联通体的单词，使得本发明可以针对各种联通体进行检测。此外，对多个联通体组成的组合联通体与独立联通体进行区别检测，能提高检测效率。

进一步地，所述独立联通体成分单元特征包括以下任意一种或多种：线条特征、交叉点特征、孔洞特征和密度特征。所述线条特征、交叉点特征、孔洞特征和密度特征分别通过不同的角度描述独立联通体成分单元的涂抹特征，能适用于各种类型的涂抹，当上述四种特征中一种或多种特征超过设定的阈值时即可判断当前独立联通体成分单元中包含涂抹，能有效提升检测的正确率。

进一步地，针对独立联通体成分单元特征和组合联通体成分单元特征分别给出了相应的检测方法，能进一步提升检测的正确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1至图11是现有不同种类的涂抹字符的示意图；

图12是现有技术中通过联通体的穿透笔画进行涂抹字符检测的一种流程图；

图13是本发明实施例提供的涂抹字符的检测方法的一种流程图；

图14是本发明实施例提供的获取所述文档图像的二值图的联通体成分单元的一种流程图；

图15是本发明实施例提供的提取所述线条特征的一种流程图；

图16-1至图16-5是本发明实施例提供的提取所述线条特征过程中各图像的示意图；

图17是本发明实施例提供的提取所述交叉点特征的一种流程图；

图18-1至图18-3是本发明实施例提供的提取所述交叉点特征过程中各图像的示意图；

图19是本发明实施例提供的提取所述孔洞特征的一种流程图；

图20-1至图20-3是本发明实施例提供的提取所述孔洞特征过程中各图像的示意图；

图21是本发明实施例提供的提取所述密度特征的一种流程图；

图22-1至图22-4是本发明实施例提供的提取所述密度特征过程中各图像的示意图；

图23是本发明实施例提供的涂抹字符的检测系统的一种结构示意图；

图24是本发明实施例提供的特征提取模块的一种结构示意图；

图25是本发明实施例提供的涂抹字符检测模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明作进一步的详细说明。以下实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供的涂抹字符的检测方法及系统，通过获取待检测文档图像的二值图的联通体成分单元，该联通体成分单元包括：独立联通体成分单元和组合联通体成分单元，其中，独立联通体成分单元可以是一个字母(如“a”)或者一个连写的单词，组合联通体成分单元可以是一个包含多个联通体的单词(组成该单词的各联通体之间并不连接)，使得本发明可以针对各种形式的涂抹字符进行检测，而非现有技术中仅对长度与单词长度相当的联通体进行检测。本发明特别适用于英文/拉丁文的手写字符涂抹检测，能解决现有检测技术存在的检测类型单一、不全面的问题。

为了更好的理解本发明的技术方案和技术效果，以下将结合流程图和具体的实施例进行详细的描述。

如图13所示，是本发明实施例提供的涂抹字符的检测方法的流程图，包括以下步骤：

步骤S01，获取待检测文档图像。

在本实施例中，该文档可以是考试试卷、手写稿件、批阅的文件等。文档图像多采用扫描仪设备进行扫描，或者采用高拍仪、移动成像设备等获取文档图像，此外，也可以是从扫描图像中截取的文档图像等，在此不做限定。

步骤S02，获取所述文档图像的二值图。

在本实施例中，可以通过低通滤波器对文档图像进行降噪，并进行对比度增强处理，再对图像进行256阶灰度化处理，将其变成一张灰度图，最后经过二值化处理得到文档图像的二值图。

进一步地，在通过低通滤波器对文档图像进行降噪之前，还可以先对文档图像进行定位及校准处理，以修正图像可能出现的倾斜、旋转等问题，能有效提升后续行切分的效果。

步骤S03，获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元。

现有技术对每个联通体进行分析时，选择特定的联通体进行保留，例如仅对穿透整个单词的涂抹进行检测，因而只保留长度与单词长度相当的联通体。而本发明通过对二值图进行分割、聚类，达到行切分、单词或单词族切分的目的，将切分后的单词或者单词族定义为联通体成分单元(Connected Component Unit，CCU)，CCU可以由一个联通体组成，也可以是多个联通体组成，即分为独立联通体成分单元和组合联通体成分单元。现实中，由于每个人的书写习惯不同，在写某个较长的单词时，可能使得该单词由两个或更多联通体组成，现有技术仅对穿透整个单词的涂抹进行检测，无法对组合联通体成分单元进行检测。本发明可以针对独立联通体成分单元和/或组合联通体成分单元进行检测，因而适用范围更广。此外，对多个联通体组成的组合联通体与独立联通体进行区别检测，能提高检测效率。

步骤S04，提取联通体成分单元特征。

在本实施例中，分别对独立联通体成分单元和组合联通体成分单元进行特征提取。这样有利于针对独立联通体成分单元和组合联通体成分单元各自的特点分别提取出更能表征各自的涂抹字符的特征。

其中，独立联通体成分单元特征包括以下任意一种或多种：线条特征、交叉点特征、孔洞特征和密度特征。线条特征可以为联通体中涂抹线条的数目，交叉点特征可以为联通体中交叉点的数目，孔洞特征可以为联通体中孔洞的数目，密度特征可以为联通体的密度值。对于英文，每个CCU是由a-z共计26个字母中的一个或者多个组成，其中线条仅仅是在字母中或者连笔中存在，且没有较长的贯穿整个CCU的线条，也不可能存在多个线条，故可以利用线条特征可以检测出较长线条或者多条线条涂抹的字符；同理在a-z共计26个字母中，没有交叉点的字母包括c、i、o、s，大于2个交叉点的字母包括m、w，根据个人喜好q、g和y可能会有多个交叉点，因此可以据此设定交叉点数目阈值，根据该阈值判断联通体中是否存在涂抹字符；此外，a-z共计26个字母中，存在空洞的只有a、b、d、e、g、o、p和q，根据个人喜好y可能会有空洞，因此可以利用联通体中孔洞的数目(或联通体中各字符的孔洞数目)检测出特定的涂抹，还可以配合其它独立联通体成分单元特征检测特定的涂抹；此外，可以利用密度特征很好的检测出严实涂抹字符。

组合联通体成分单元特征为归整后且经过降维的局部区域单元的灰度值特征向量。提取组合联通体成分单元特征可用包括以下步骤：获取所述组合联通体成分单元的局部区域单元；对所述局部区域单元进行规整；从各规整后局部区域单元提取组合联通体成分单元特征。具体地，以一个100X30大小的图片为例进行说明，首先输入该100X30大小的图片，以30X30大小作为一个局部区域单元，将这个局部区域单元归整到20X20，得到400维的灰度值特征向量，然后利用主成分分析法(Principal Component Analysis，PCA)降维到150维，将降维后的局部区域单元的灰度值特征向量作为组合联通体成分单元特征。其中，归整的目的是使得不同大小的输入图片，得到的局部区域单元的特征维数一致。

步骤S05，基于所述联通体成分单元特征检测涂抹字符。

在本实施例中，基于独立联通体成分单元特征检测涂抹字符包括：

如果各独立联通体成分单元特征中至少一种≥判断阈值，则确定当前独立联通体成分单元包含涂抹字符；或者对提取的各独立联通体成分单元特征分别设定初判阈值，如果各独立联通体成分单元特征中至少一种≥初判阈值，则确定当前独立联通体成分单元包含涂抹字符；如果各独立联通体成分单元特征全部＜初判阈值，则识别当前独立联通体成分单元的字符，并根据设定的精细阈值判断当前独立联通体成分单元的各字符是否为涂抹字符；或者根据预先构建的判断模型检测当前独立联通体成分单元是否包含涂抹字符。

需要说明的是，可以分别使用以上各种独立联通体成分单元特征中一种或多种，例如当当前独立联通体成分单元特征中一种或多种超过对应的阈值时，就可以确定当前独立联通体成分单元中包含涂抹字符，以采用线条特征和交叉点特征为例进行说明：其对应的判断阈值分别取2、3，则如果独立联通体成分单元特征中的线条特征或者交叉点特征中至少一个超过了对应的判断阈值，则确定当前独立联通体成分单元中包含涂抹字符；此外，也可以综合考虑独立联通体成分单元特征，例如，给各种独立联通体成分单元特征预先设定对应的权重系数，将最终总得分作为当前独立联通体成分单元特征得分，然后根据相应的阈值判断当前独立联通体成分单元是否包含涂抹字符，具体视实际使用效果而定。

基于组合联通体成分单元特征检测涂抹字符包括：利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。

在一个具体实施例中，基于双重阈值对独立联通体成分单元进行判断：如果先根据一套初判阈值(对应独立联通体成分单元特征中一种或多种)未能检测出涂抹字符，接着利用识别器识别当前CCU的各字符，基于识别结果(CCU中各字符)，再重新设定一套精细阈值，再次判断当前独立联通体成分单元是否包含涂抹字符。其中，各阈值可以为根据大量实验获取的阈值，也可以是根据经验设定的阈值，在此不作限定。基于局部区域单元的特征(组合联通体成分单元特征)，利用训练好的模型(特征识别模型)对局部区域单元进行判断：对每个字母预先训练一个隐马尔可夫模型(Hidden Markov Model，HMM)，涂抹字符预先训练一个HMM；实际使用中，首先，将一个组合联通体成分单元切分为一个个局部区域单元，然后将局部区域单元的特征依次输入到各预先训练好的HMM中，最后依据各HMM的输出得分，得到识别结果，进而实现涂抹字符的检测。

在本发明实施例中，通过获取所述文档图像的二值图的联通体成分单元，其包括：独立联通体成分单元和/或组合联通体成分单元，接着分别提取独立联通体成分单元特征和/或组合联通体成分单元特征，最终根据上述特征检测涂抹字符。由于独立联通体成分单元的颗粒度小于组合联通体成分单元，且组合联通体成分单元可以为包含多个联通体的单词，使得本发明可以针对各种联通体进行检测，适用范围更广。此外，对多个联通体组成的组合联通体与独立联通体进行区别检测，能提高检测效率。

进一步地，利用上述多种联通体成分单元特征，以不同的角度描述联通体成分单元的涂抹特征，能适用于各种类型的涂抹，有效提升检测的准确率。

参考图14所示，为本发明实施例提供的获取所述文档图像的二值图的联通体成分单元的一种流程图，可以包括以下步骤：

步骤S141，对二值图进行行切分，得到每行二值图。

在本实施例中，可以通过投影，例如可以将汉字图像在水平方向进行投影，然后根据投影波峰对文本行进行切分；也可以根据能量图确定行分割线进行行分割，例如可以先构建能量图，再在能量图中使用动态规划搜索分割线进行行分割等方法；还可以通过联通体聚类实现行切分：对所有的联通体进行从上到下、从左到右排序，例如将联通体中心高度差值在预设取值范围内的联通体按照从左到右的原字符顺序排序，并按照从上到下逐行进行排序。其中，所述预设取值范围可以为：2×H_AVG，H_AVG为单词平均高度，获取文档图像中单词平均高度的方法如步骤S241所述，在此不再详述。当然，还可采用其他已有的行分割方法对二值图进行行切分，在此不做限定。

步骤S142，根据每行二值图中相邻联通体之间距离对每行二值图进行切分，获取联通体成分单元。

在本实施例中，可以根据每行二值图中相邻联通体之间距离对每行二值图进行切分，获取联通体成分单元：单词或单词族。具体地，统计属于同一行内的联通体间的间距，将距离按照从小到大排序，再按大小进行直方图统计，从大到小取一定比例(如30％)的间距进行加权平均获取聚类阈值Th_gap，最后将排好序的联通体利用间距阈值进行聚类，将聚类的结果作为联通体成分单元，其包括独立联通体成分单元和组合联通体成分单元。

进一步地，考虑到手写体中可能存在行与行之间出现粘连的现象，为了提高行切分的准确度，本实施例中，对二值图进行行切分之前对粘连行进行粘连分割，粘连分割包括以下步骤：

步骤S241，对二值图进行行切分之前，获取文档图像中单词平均高度。

在本实施例中，统计文档图像中各单词的平均高度。具体地，首先对文档图像的二值图中的所有联通体高度进行统计，然后对高度值进行从小到大排序，再按大小进行直方图统计，取中间一定比例(如70％)的高度值进行加权平均得到估计的单词平均高度H_AVG。

进一步地，在对文档图像的二值图中的所有联通体高度进行统计之后，先去除小于最小阈值和大于最大阈值的高度值，例如，最小阈值可以为0.3×联通体平均高度，最大阈值为3×联通体平均高度，具体取值视实际使用效果而定；然后对剩余的高度值进行从小到大排序。这样可以去除符号、小结构及字符粘连的影响。

步骤S242，根据所述文档图像中单词平均高度获取超高联通体。

在本实施例中，将联通体高度大于高度阈值的联通体作为超高联通体，具体地，所述高度阈值可以根据经验或大量实验而定，在一个具体实施例中，所述高度阈值为：1.5×H_AVG。

步骤S243，对所述超高联通体进行粘连分割。

在本实施例中，可以利用分割代价函数对超高联通体进行粘连分割，其分割的位置为分割代价最小的位置，分割代价函数如式(1)所示：

其中，一个超高联通体有多行像素点，f_cos(y)表示在第y行像素处分割的代价，H_curr表示当前的超高联通体的高度，C_across(y)表示像素行y穿过的笔迹数，Max_across为该超高联通体中该联通体行的最大穿过笔迹数，a和b为权重，通过大量数据训练可得，其和为1，例如，a和b的取值可以分别为0.6和0.4。

所述对二值图进行行切分，得到每行二值图包括：对粘连分割后的二值图进行行切分，得到每行二值图。

在本发明实施例中，将所述文档图像的二值图分割为独立联通体成分单元和组合联通体成分单元，分割过程中考虑了超高联通体、标点符号等影响因素，使得分割的更加精确。

如图15所示，为本发明实施例提供的提取所述线条特征的一种流程图，包括以下步骤：

步骤S151，对所述独立联通体成分单元进行细化，获取细化独立联通体成分单元。如图16-1至图16-2所示。

步骤S152，从细化独立联通体成分单元的边界上选取起始点。如图16-3所示。

具体地，可以选用左边界、部分上边界和部分下边界的点作为起始点。

步骤S153，利用方向一致性获取各起始点的最长路径。如图16-4所示。

具体地，获取各起始点对应的方向一致的各最长路径，具体过程同现有技术，在此不再详述。

步骤S154，滤除小于长度阈值的最长路径，得到备选线条。

在本实施例中，所述长度阈值为该独立联通体成分单元的宽度或该独立联通体成分单元中高度较高的边的1/3。

步骤S155，根据预先设定的线条角度对备选线条进行过滤。如图16-5所示。其中，预先设定的线条角度可以为：水平方向或水平方向一定范围内倾斜角度，该倾斜角度范围可以为：≤±15°。

步骤S156，将剩余的备选线条的数目作为线条特征。

通过上述步骤可以简单有效的从独立联通体成分单元中提取出线条特征，以便于根据该特征判断独立联通体成分单元中是否包含涂抹字符。需要说明的是，其它能用于提取线条特征的方法都适用，在此不做限定。

如图17所示，为本发明实施例提供的提取所述交叉点特征的一种流程图，包括以下步骤：

步骤S171，对所述独立联通体成分单元进行细化，获取细化独立联通体成分单元。以英文单词“if”为例进行说明，如图18-1至图18-2所示。

需要说明的是，该步骤可以同步骤S151，当然也可以直接调用步骤S151的结果，在此不做限定。

步骤S172，获取细化独立联通体成分单元中交叉点的数目，所述交叉点为邻域内联通点个数≥3的点，如图18-3所示。具体同现有技术，在此不再详述。

步骤S173，将所述细化独立联通体成分单元中交叉点的数目作为交叉点特征。

通过上述步骤可以简单有效的从独立联通体成分单元中提取出交叉点特征，以便于根据该特征判断独立联通体成分单元中是否包含涂抹字符。需要说明的是，其它能用于提取交叉点特征的方法都适用，在此不做限定。

如图19所示，为本发明实施例提供的提取所述孔洞特征的一种流程图，包括以下步骤：

步骤S191，提取所述独立联通体成分单元的轮廓。如图20-1所示。

步骤S192，对所述独立联通体成分单元的轮廓外部进行填充，获取所述独立联通体成分单元的填充图。

步骤S193，将所述填充图减去所述独立联通体成分单元的二值图，获取孔洞图。如图20-2所示。

步骤S194，将孔洞图中孔洞的数目作为孔洞特征。如图20-3所示。

通过上述步骤可以简单有效的从独立联通体成分单元中提取出孔洞特征，以便于根据该特征判断独立联通体成分单元中是否包含涂抹字符。需要说明的是，其它能用于提取孔洞特征的方法都适用，在此不做限定。

如图21所示，为本发明实施例提供的提取所述密度特征的一种流程图，包括以下步骤：

步骤S211，获取所述独立联通体成分单元的前景上下边界或前景左右边界。

在本实施例中，所示前景指字符的像素点。

步骤S212，计算所述独立联通体成分单元的前景上下边界或前景左右边界内部所有前景面积，与所述独立联通体成分单元的前景上下边界或前景左右边界内部包含的面积的比值。

步骤S213，将所述比值作为密度特征。

如图22-1所示，该独立联通体成分单元的密度为0.767；如图22-2所示，该独立联通体成分单元的密度为0.689；如图22-3所示，该独立联通体成分单元的密度为1.000；如图22-4所示，该独立联通体成分单元的密度为0.920。由此可见，上述密度特征相对于严实型涂抹字符较灵敏。

通过上述步骤可以简单有效的从独立联通体成分单元中提取出密度特征，以便于根据该特征判断独立联通体成分单元中是否包含涂抹字符。需要说明的是，其它能用于提取密度特征的方法都适用，在此不做限定。

相应地，本发明还提供了一种涂抹字符的检测系统，如图23所示，包括：

文档图像获取模块231，用于获取待检测文档图像；

二值图获取模块232，用于获取所述文档图像的二值图；

联通体获取模块233，用于获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元；

特征提取模块234，用于提取联通体成分单元特征；

涂抹字符检测模块235，用于基于所述联通体成分单元特征检测涂抹字符。

优选地，所述联通体获取模块233包括：

行切分单元，用于对二值图进行行切分，得到每行二值图；

进一步地，为了提高行与行之间存在粘连的情况的行分割准确率，所述联通体获取模块233还可以包括：

粘连分割单元，用于对所述超高联通体进行粘连分割；

为了提高独立联通体成分单元中涂抹字符检测的准确率，所述特征提取模块234包括组合联通体特征提取单元2505以及以下任意一个或多个单元：线条特征提取单元2341、交叉点特征提取单元2342、孔洞特征提取单元2343和密度特征提取单元2344。如图24所示，为本发明实施例提供的特征提取模块234的一种结构示意图，该特征提取模块234包括：线条特征提取单元2341、交叉点特征提取单元2342、孔洞特征提取单元2343、密度特征提取单元2344和组合联通体成分单元特征提取单元2505。

在本实施例中，所述线条特征提取单元2341包括：

通过该单元可用简单高效的从独立联通体成分单元中提取出线条特征。

在本实施例中，所述交叉点特征提取单元2342包括：

需要说明的是，第一细化子单元和第二细化子单元可以为同一个单元，也可以为两个独立的单元，具体视需求而定。

通过该单元可用简单高效的从独立联通体成分单元中提取出交叉点特征。

在本实施例中，所述孔洞特征提取单元2343包括：

通过该单元可用简单高效的从独立联通体成分单元中提取出孔洞特征。

在本实施例中，所述密度特征提取单元2344包括：

密度特征获取子单元，用于将所述比值作为密度特征。

通过该单元可用简单高效的从独立联通体成分单元中提取出密度特征。

优选地，所述组合联通体特征提取单元2505可以包括：

区域获取子单元，用于获取所述组合联通体成分单元的局部区域单元；

规整子单元，用于对所述局部区域单元进行规整；

组合联通体特征提取子单元，用于从各规整后局部区域单元提取组合联通体成分单元特征。

通过该单元可用简单高效的提取出组合联通体成分单元特征。

进一步地，本发明实施例还提供了涂抹字符检测模块235的一种结构示意图，如图25所示，所述涂抹字符检测模块235可以包括：第一检测单元2351和/或第二检测单元2352，其中，

第一检测单元2351，用于基于独立联通体成分单元特征检测涂抹字符，包括：

第二检测单元2352，用于利用所述组合联通体成分单元特征以及预先构建的特征识别模型检测涂抹字符。

此外，该系统还可以进一步包括存储模块(未图示)，用于保存独立联通体成分单元特征以及组合联通体成分单元特征，如线条特征、密度特征等，还可以用于存储各种阈值、模型等相关信息。这样，以方便对待检测文档图像进行计算机自动处理。此外，还可用于存在最终检查结果。

本发明实施例提供的涂抹字符的检测系统，利用联通体获取模块233获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元，然后利用特征提取模块234提取联通体成分单元特征，最终通过涂抹字符检测模块235基于所述联通体成分单元特征检测涂抹字符。由于所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元，使得该联通体成分单元可以囊括各种类型的联通体，然后利用特征提取模块234从各联通体成分单元中提取各自对应的特征，使得本发明可以针对各种联通体进行涂抹字符检测，此外，对多个联通体组成的组合联通体与独立联通体进行区别检测，能提高检测效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种涂抹字符的检测方法，其特征在于，包括：

获取待检测的手写的文档图像；

获取所述文档图像的二值图；

基于手写文档的特点，获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元；

根据不同的联通体成分单元的特点，提取联通体成分单元特征；

基于所述联通体成分单元特征检测涂抹字符。

2.根据权利要求1所述的方法，其特征在于，所述获取所述文档图像的二值图的联通体成分单元包括：

对二值图进行行切分，得到每行二值图；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对二值图进行行切分之前，获取文档图像中单词平均高度；

根据所述文档图像中单词平均高度获取超高联通体；

对所述超高联通体进行粘连分割；

所述对二值图进行行切分，得到每行二值图包括：

对粘连分割后的二值图进行行切分，得到每行二值图。

4.根据权利要求1所述的方法，其特征在于，独立联通体成分单元特征包括以下任意一种或多种：线条特征、交叉点特征、孔洞特征和密度特征。

5.根据权利要求4所述的方法，其特征在于，提取所述线条特征包括：

从细化独立联通体成分单元的边界上选取起始点；

利用方向一致性获取各起始点的最长路径；

滤除小于长度阈值的最长路径，得到备选线条；

根据预先设定的线条角度对备选线条进行过滤；

将剩余的备选线条的数目作为线条特征。

6.根据权利要求4所述的方法，其特征在于，提取所述交叉点特征包括：

7.根据权利要求4所述的方法，其特征在于，提取所述孔洞特征包括：

提取所述独立联通体成分单元的轮廓；

将孔洞图中孔洞的数目作为孔洞特征。

8.根据权利要求4所述的方法，其特征在于，提取所述密度特征包括：

将所述比值作为密度特征。

9.根据权利要求1至8任一项所述的方法，其特征在于，基于独立联通体成分单元特征检测涂抹字符包括：

10.根据权利要求1至8任一项所述的方法，其特征在于，

基于组合联通体成分单元特征检测涂抹字符包括：

11.一种涂抹字符的检测系统，其特征在于，包括：

文档图像获取模块，用于获取待检测的手写的文档图像；

二值图获取模块，用于获取所述文档图像的二值图；

联通体获取模块，用于基于手写文档的特点，获取所述文档图像的二值图的联通体成分单元，所述联通体成分单元包括：独立联通体成分单元和/或组合联通体成分单元；

特征提取模块，用于根据不同的联通体成分单元的特点，提取联通体成分单元特征；

12.根据权利要求11所述的检测系统，其特征在于，所述联通体获取模块包括：

行切分单元，用于对二值图进行行切分，得到每行二值图；

13.根据权利要求12所述的检测系统，其特征在于，所述联通体获取模块还包括：

粘连分割单元，用于对所述超高联通体进行粘连分割；

14.根据权利要求11所述的检测系统，其特征在于，所述特征提取模块包括组合联通体特征提取单元以及以下任意一个或多个单元：线条特征提取单元、交叉点特征提取单元、孔洞特征提取单元和密度特征提取单元。

15.根据权利要求14所述的检测系统，其特征在于，所述线条特征提取单元包括：

16.根据权利要求14所述的检测系统，其特征在于，所述交叉点特征提取单元包括：

17.根据权利要求14所述的检测系统，其特征在于，所述孔洞特征提取单元包括：

18.根据权利要求14所述的检测系统，其特征在于，所述密度特征提取单元包括：

密度特征获取子单元，用于将所述比值作为密度特征。

19.根据权利要求11至18任一项所述的检测系统，其特征在于，所述涂抹字符检测模块包括：第一检测单元和/或第二检测单元，其中，