CN103729638B

CN103729638B - 一种文字区域识别中的文字行排列分析方法和装置

Info

Publication number: CN103729638B
Application number: CN201210386977.2A
Authority: CN
Inventors: 郑琪; 王永攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-10-12
Filing date: 2012-10-12
Publication date: 2016-12-21
Anticipated expiration: 2032-10-12
Also published as: CN103729638A

Abstract

本发明实施例公开了一种文字区域识别中的文字行排列分析方法及装置。方法包括：在从图像中提取出的单字区域中，将任意两个特征最接近的单字区域匹配成一个候选对；在匹配成的候选对中，将符合预置的聚合条件的候选对聚合成候选组；将候选组构建为连通分量，从连通分量中查找最大团，将最大团形成的行作为待选行；计算待选行的基线和顶线的初始方向；根据所述待选行的初始行方向，计算待选行中单字区域的中值间距，筛选出中值间距最小的待选行为文字行；从候选组中删除所述文字行包含的候选对，继续筛选出新的文字行。根据本发明实施例，可以准确地从人工编辑图像中提取出文字个数较少的文字行，提高文字识别的准确率。

Description

一种文字区域识别中的文字行排列分析方法和装置

技术领域

本发明涉及图像处理领域，特别是涉及一种文字区域识别中的文字行排列分析方法和装置。

背景技术

图像中的文字识别技术有着广泛的实际应用，如扫描文档的内容识别或自动邮政编码识别等。随着数码相机的推广和互联网技术的发展，在拍摄的图像基础上经人工编辑后所生成的图像越来越多，如图1所示，这些人工编辑图像通常有复杂的背景图片、多变的前景颜色和纹理，为了识别这些复杂的人工编辑图像中的文字，先需要进行文字区域的定位和切割，此处中的“文字”为泛指，包括阿拉伯数字和各种语言中的文字，如，汉字或英文字母。

在文字区域的定位和切割过程中，为了区分文字和非文字区域，通常要利用文字区域本身的特征。但是，单靠文字区域的特征还是无法彻底区分出文字和非文字区域，例如，图像中的鱼刺或墙面的裂缝等非文字区域就很容易被误认为是文字区域。由于文字往往是有规则排列的，甚至大部分都是排列成某一特定方向的直线行，因此，文字的行排列成为区分文字和非文字区域的另一种重要特征。通过对从图像中提取出的包含有噪声(非文字区域)的文字进行有关行排列的分析，可以进一步剔除出杂质。而对图像中提取出的文字进行关于行排列的分析也成为文字区域识别中的一个关键步骤。

在现有技术中，包括有基于投影和霍夫变换的文字行排列分析方法。但是，这两种方法都是基于文字区域的统计信息来获得文字行排列信息，而统计信息的可靠与否必须依赖两个前提条件：第一，图像中存在大量文字，且文字区域的数量要大于非文字区域；第二，图像中的文字间的排列情况必须是类似的，例如，具有相同的行方向。而对于如图1所示的人工编辑图像而言，其文字区域仅占整个图像的一小部分，文字区域的数量小于非文字区域，并且，文字方向也不固定，因此，上述两种方法一般不适用于如图1所示的人工编辑图像。

在现有技术中，还包括一种基于区域聚合的文字行排列分析方法，该类方法通常会定义同一行内的区域与区域之间的相似关系，然后利用一种聚合方法向具有相似关系的区域聚合成一组，所形成的行为文字行。

但是，在实现本发明的过程中，本发明的发明人发现现有的基于区域聚合的文字行排列分析方法中至少存在如下问题：该方法仍然不能将人工编辑图像中文字较少的文字行与噪声区域区分开，不能准确地提取出文字个数较少的文字行。

发明内容

为了解决上述技术问题，本发明实施例提供了一种文字区域识别中的文字行排列分析方法和装置，以能够准确地从人工编辑图像中提取出文字个数较少的文字行，提高文字识别的准确率。

本发明实施例公开公开了如下技术方案：

一种文字区域识别中的文字行排列分析方法，所述方法包括：

从图像中提取多个单字区域，将任意两个特征最接近的所述单字区域匹配成一个或多个候选对；

在匹配成的所述候选对中，将符合预置的聚合条件的所述候选对聚合成候选组；

将所述候选组构建为连通分量，从所述连通分量中查找最大团，将所述最大团形成的行作为待选行；

计算所述待选行的基线和顶线的方向，得到所述基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为所述待选行的初始行方向；

根据所述待选行的初始行方向，计算所述待选行中单字区域的中值间距，筛选出所述中值间距最小的待选行为文字行；

从所述候选组中删除所述文字行包含的候选对，继续筛选出新的文字行。

一种文字区域识别中的文字行排列分析装置，所述装置包括：

匹配模块，用于从图像中提取多个单字区域，将任意两个特征最接近的所述单字区域匹配成一个或多个候选对；

聚合模块，用于在匹配成的所述候选对中，将符合预置的聚合条件的所述候选对聚合成候选组；

查找模块，用于将所述候选组构建为连通分量，从所述连通分量中查找最大团，将所述最大团形成的行作为待选行；

初始方向确定模块，用于计算所述待选行的基线和顶线的方向，得到所述基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为所述待选行的初始行方向；

筛选模块，用于根据所述待选行的初始行方向，计算所述待选行中单字区域的中值间距，筛选出所述中值间距最小的待选行为文字行；

迭代模块，用于从所述候选组中删除所述文字行包含的候选对，继续筛选出新的文字行。

由上述实施例可以看出，基于最大团理论提取文字行，能够更准确地从人工编辑图像中提取出文字个数较少的文字行，提高文字识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为人工编辑图像示意图；

图2为本发明实施例揭示的一种文字区域识别中的文字行排列分析方法的方法流程图；

图3为图论中的连通分量示意图；

图4为本发明中单字区域的外接水平矩形示意图；

图5为本发明实施例二揭示的另一种文字区域识别中的文字行排列分析方法的方法流程图；

图6为本发明中单字区域的外接倾斜矩形示意图；

图7为本发明实施例三揭示的另一种文字区域识别中的文字行排列分析方法的方法流程图；

图8为本发明实施例四揭示的一种对人工编辑图像中的文字进行行排列分析的方法的流程图；

图9为本发明实施例五揭示的一种文字区域识别中的文字行排列分析装置的装置结构图；

图10为本发明实施例五揭示的另一种文字区域识别中的文字行排列分析装置的装置结构图；

图11为本发明实施例五揭示的另一种文字区域识别中的文字行排列分析装置的装置结构图；

图12为本发明实施例五揭示的另一种文字区域识别中的文字行排列分析装置的装置结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例进行详细描述。

实施例一

请参阅图2，其为本发明实施例一揭示的一种文字区域识别中的文字行排列分析方法的方法流程图，该方法包括以下步骤：

步骤201：从图像中提取出多个单字区域，将任意两个特征最接近的单字区域匹配成一个或多个候选对；

需要说明的是，单字区域中的“单字”为泛指，包括阿拉伯数字和各种语言中的文字，例如，图1中所示的“促销”中的“促”和“销”分别为一个单字，“2011特价”中“2011”为一个单字，“特”和“价”分别为一个单字。另外，本发明对从人工编辑图像中提取出所有单字区域的方法不进行限定，可以采用现有技术中任何一种方式提取。

当从人工编辑图像中提取出单字区域后，按照单字区域自身的特征，如单字区域之间的距离、长度、宽度、颜色或笔划宽度等特征，将任意两个特征最接近的单字区域匹配成一个候选对。同一个单字区域可以同时属于多个候选对，即，不同的候选对可以包含相同的单字区域。例如，在图1中，“全”和“新”的特征最接近，可以匹配成一个候选对；同时，“全”和“七”的特征也最接近，可以匹配成一个候选对。可见，这两个候选对中都包含了“全”这个单字区域。

优选的，在从图像中提取出的单字区域中，将任意两个特征最接近的单字区域匹配成一个或多个候选对可以具体包括：判断从图像中提取出单字区域中，任意两个单字区域中心的距离、长度或宽度、颜色、以及笔划宽度中的任意一个或任意多个组合是否最接近；如果是，所述任意两个单字区域的特征最接近，将所述任意两个单字区域标记为一个候选对，否则，所述任意两个单字区域的特征不是最接近的。

进一步优选的，上述判断从图像中提取出单字区域中，任意两个单字区域中心的距离、长度或宽度、颜色、以及笔划宽度中的任意一个或多个组合是否最接近，可以进一步具体包括：判断以下任意一个或任意多个条件是否成立：

所述任意两个单字区域中心的距离与所述两个单字区域宽度和的比值小于第一预设倍数；

所述任意两个单字区域的长度或宽度的比值小于第二预设倍数；

所述任意两个单字区域的颜色最接近；

所述任意两个单字区域的笔划宽度最接近。

本发明对第一预设倍数和第二预设倍数的具体数值不进行限定，可以预先通过试验，计算已知为同一行的两个单字区域的中心距离与这两个单字区域宽度和的比值，并利用样本统计方法确定一个平均比值，将该平均比值作为第一预设倍数。同理，还可以确定出第二预设倍数。

当然，除了比较上述特征之外，还可以利用单字区域的其他特征来判断任意两个单字区域是否为一个候选对，本发明对所利用的单字区域的特征并不进行具体的限定。显然，比较的特征越多，两个单字区域在特征上就会越接近，所找出的候选对也就越准确。

步骤202：在匹配成的候选对中，将符合预置的聚合条件的候选对聚合成候选组；

在本步骤中，可以采用现有的任何一种聚合条件进行聚合，例如，将两个单字区域的位置、大小、颜色或笔画等信息对两个区域的相似性和是否属于同一行的概率作为聚合条件，再进一步利用相似性和概率完成聚合。再例如，采用条件随机场(ConditionalRandom Field)来标注单字区域与单字区域之间的关系，将这种关系作为聚合条件，并根据之间的关系完成聚合。

本发明对所采用的聚合方法也不进行限定，可以采用现有的任何一种聚合方法进行聚合。现有技术中聚合方法也有很多，例如，可以采用贪心迭代的方法进行聚合，也可以采用隐马尔可夫的方法进行聚合，还可以采用图论的方法进行聚合。

优选的，在本发明中，所述在匹配成的候选对中，将符合预置的聚合条件的候选对聚合成候选组，包括：在匹配成的候选对中，判断任意两个候选对是否包含相同的单字区域，且，方向的差小于预设的第二方向差值；如果是，所述任意两个候选对符合所述预置的聚合条件，将所述任意两个候选对归类为一个候选组。例如，在图1中，“全”和“新”为一个候选对(候选对1)，“新”和“正”为一个候选对(候选对2)，“全”和“七”也为一个候选对(候选对3)，由于候选对1和候选对2符合聚合条件，可以聚合到一个候选组中，候选对1和候选对3不符合聚合条件(方向的差未小于预设的第二方向差值)，不可以聚合到一个候选组中。

需要说明的是，本发明对第二方向差值的具体数值不进行限定，可以预先通过试验，计算已知为同一个候选组的两个候选对的方向差值，并利用样本统计方法确定一个平均比值，将该平均比值作为预设的第二方向差值。

步骤203：将候选组构建为一个连通分量，从连通分量中查找最大团，将最大团形成的行作为待选行；

其中，候选组中的每个候选对为连通分量上的一个顶点，每两个具有聚合关系的候选对之间的连线为连通分量上的一条路径。

通过步骤202的聚合后，可以将所有的候选对聚合成多个候选组，在每个候选组中，按照图论中的定义，将每个候选对作为连通分量上的一个顶点，每两个具有聚合关系的候选对之间的连线为连通分量上的一条路径。如图3所示，其为图论中的连通分量示意图，在图论中，如果其中的任何两个点之间都存在一条路径，并且它们都不和子图之外的点相连，这样的子图被称为连通分量。

在图论中，如果一个子图中任意两个顶点都相连，那么这个子图就被称为团。最大团就是无法再加入一个顶点，使得该子图仍然为团的团。

通常，文字区域包含的文字越少，其越难与非文字区域区分开。为了更准确地进行文字行排列分析，优选的一种方式是，只对包含3个以上单字区域的文字区域进行文字行排列分析。

因此，优选的，在步骤203之后，还包括：判断所述待选行中包含的单字区域数目是否小于3个；如果是，丢弃所述待选行，重新查找最大团，否则，继续执行步骤204。

步骤204：计算待选行的基线和顶线的初始方向，得到基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为待选行的初始行方向；

优选的，计算待选行的基线和顶线的初始方向，得到基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为待选行的初始行方向，包括：如果待选行的行方向接近水平方向，根据所述待选行中单字区域的外接水平矩形的下边中点和上边中点，确定所述待选行的基线和顶线的初始方向；如果待选行的行方向接近垂直方向，根据所述待选行中单字区域的外接水平矩形的左边中点和右边中点，确定所述待选行的基线和顶线的初始方向。

如图4所示，在待选行中，取“文”这个单字区域的外接水平矩形的下边中点和上边中点，按照相同的方法取其余几个单字区域的外接水平矩形的下边中点和上边中点，构成待选行的基线和顶线。

步骤205：根据所述待选行的初始行方向，计算待选行中单字区域的中值间距，筛选出中值间距最小的待选行为文字行；

其中，对待选行中的每个单字区域做出与初始行方向相同的第一外接倾斜矩形，相邻两个单字区域的第一外接倾斜矩形的相邻两个边之间的距离即为相邻单字区域的间距。依次计算待选行中所有相邻单字区域之间的间距，将计算出的间距值按照从小到大的顺序进行排序，位于排序的中间位置的间距值即为一个待选行中所有单字区域的中值间距，文字行即为中值间距最小的待选行。

例如，以计算一个待选行内所有单字区域之间的中值间距为例，如果该待选行中包含有8个单字区域，依次计算8个单字区域中相邻两个单字区域之间的间距，按照从小到大的顺序进行排序为：d1、d2、d3、d4、d5、d6和d7，d4位于中间位置，即为该待选行的中值间距。与此相类似，计算其它待选行的中值间距。

由于上述待选行的初始行方向都是根据待选行的基线和顶线的初始方向确定的，由于待选行中可能存在一定的非文字区域，因此，基线和顶线的初始方向也可能存在一定的偏差，为了克服这些偏差，进一步优选的，在上述步骤204和205之间，还包括：如果所述基线和顶线的初始方向的差值大于预设的第一方向差值，依次从待选行中删除目标单字区域，直到在删除目标单字区域后待选行的基线和顶线的方向差值小于预设的第一方向差值为止，目标单字区域为被删除后基线和顶线的初始方向的差值最小的单字区域；计算删除目标单字区域后待选行的基线和顶线的方向，得到基线和顶线的修订方向，将基线和顶线的修订方向的平均方向确定为待选行的修订行方向。

再进一步优选的，如果所述基线和顶线的初始方向的差值大于预设的第一方向差值，依次从待选行中删除目标单字区域，直到在删除目标单字区域后待选行的基线和顶线的方向差值小于预设的第一方向差值为止之后，还包括：判断删除目标单字区域后的待选行中包含的单字区域数目是否小于3个；如果是，丢弃所述待选行，重新查找最大团，否则，继续执行步骤206。

其中，以一个包含4个单字区域的待选行为例，计算出该待选行的基线和顶线的初始方向后，判断该待选行的基线和顶线的初始方向的差值是否大于预设的第一方向差值，如果是，依次从该待选行中删除4个单字区域中的一个，得到删除每个单字区域后待选行的基线和顶线的初始方向差值，被删除后待选行的基线和顶线的初始方向差值最小的单字区域为目标单字区域，从待选行中删除该目标单字区域，继续判断删除目标单字区域后的待选行(包含3个单字区域)的基线是否大于预设的第一方向差值，如果是，继续删除下一个目标单字区域，否则，结束。

需要说明的是，本发明对第一方向差值的具体数值不进行限定，可以预先通过试验，计算已知为文字行的基线和顶线之间的方向差值，并利用样本统计方法确定一个平均差值，将该平均差值作为预设的第一方向差值。

则步骤205中，根据基线和顶线的修订行方向，计算待选行中单字区域的中值间距，筛选出中值间距最小的待选行作为文字行。

具体地，对待选行中的每个单字区域做出与修订行方向相同的第二外接倾斜矩形，相邻两个单字区域的第二外接倾斜矩形的相邻两个边之间的距离即为相邻单字区域的间距。依次计算待选行中所有相邻单字区域之间的间距，将计算出的间距值按照从小到大的顺序进行排序，位于排序的中间位置的间距值即为一个待选行中所有单字区域的中值间距，文字行即为中值间距最小的待选行。

步骤206：从候选组中删除所述文字行包含的候选对，继续筛选出新的文字行。

在从所有的待选行中确定出一个文字行后，从连通分量中删除文字行包含的顶点，相当于，从候选组中删除文字行包含的候选对，待删除后重新返回到步骤203，重新从每个连通分量中查找新的最大团，并最终筛选出新的文字行。

实施例二

为了更好地区分文字区域和非文字区域，提高行排列分析的准确性，本实施例二与实施例一相比，其区别在于，在从待选行中筛选文字行之前，进一步从待选行中提取更多的特征，并先从待选行中删除一个或多个不符合特定特征的单字区域。请参阅图5，其为本发明实施例二揭示的另一种文字区域识别中的文字行排列分析方法的方法流程图，包括以下步骤：

步骤501：从图像中提取出多个单字区域，将任意两个特征最接近的单字区域匹配成一个或多个候选对；

步骤502：在匹配成的候选对中，将符合预置的聚合条件的候选对聚合成候选组；

步骤503：将候选组构建为连通分量，从连通分量中查找最大团，将最大团形成的行作为待选行；

步骤504：计算待选行的基线和顶线的方向，得到基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为待选行的初始行方向；

上述步骤501-504的执行过程具体可以参见实施例一中的步骤201-204，由于上述执行过程已经在实施例一中进行了详细地描述，故此处不再赘述。

步骤505：根据所述待选行的初始行方向，计算待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距；

例如，如图6所示，可以对待选行中的每个单字区域做出与初始行方向相同的第一外接倾斜矩形，第一外接倾斜矩形的上边即是单字区域的上边，第一外接倾斜矩形的下边即是单字区域的下边，第一外接倾斜矩形中与行方向相同的边长即是单字区域的宽度，第一外接倾斜矩形中与行方向垂直的边长即是单字区域的高度，相邻两个单字区域的第一外接倾斜矩形的相邻两个边之间的距离是相邻单字区域的间距。

步骤506：从待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域；

优选的，所述从待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域，包括：从待选行中删除高度与中值高度的比值大于预设的高度阈值倍数、宽度与中值宽度的比值大于预设的宽度阈值倍数、上边与待选行的顶线的商与中值高度的比值大于预设的上边阈值倍数，下边与待选行的基线的上与中值高度的比值小于预设的下边阈值倍数或相邻单字区域与中值宽度或中值高度的比值大于预设的间距阈值倍数的单字区域。

需要说明的是，本发明对预设的高度阈值倍数的具体数值不进行限定，可以预先通过试验，计算在已知的文字行中单字区域的高度与中值高度的比值的倍数，并利用样本统计方法确定一个平均倍数，将该平均倍数作为预设的高度阈值倍数。同理，还可以获得宽度阈值倍数、上边阈值倍数、下边阈值倍数和间距阈值倍数。

其中，对待选行中的每个单字区域做出与初始行方向相同的第一外接倾斜矩形，第一外接倾斜矩形中与行方向相同的边长即是单字区域的宽度，第一外接倾斜矩形中与行方向垂直的边长即是单字区域的高度。依次计算每一个待选行中所有单字区域的高度，将计算出的高度值按照从小到大的顺序进行排序，位于排序的中间位置的高度值即为一个待选行中所有单字区域的中值高度。同理，依次计算每一个待选行中所有单字区域的宽度，将计算出的宽度值按照从小到大的顺序进行排序，位于排序的中间位置的宽度值即为一个待选行中所有单字区域的中值宽度。

优选的，在步骤506之后，还包括：判断删除单字区域后的待选行中包含的单字区域数目是否小于3个；如果是，丢弃所述待选行，重新查找最大团，否则，继续执行步骤507。

步骤507：根据待选行的初始行方向，计算待选行中单字区域的中值间距，从删除单字区域后的待选行中筛选出中值间距最小的待选行为文字行；

进一步优选的，在上述步骤504和505之间，还包括：如果基线和顶线的初始方向的差值大于预设的第一方向差值，依次从待选行中删除目标单字区域，直到在删除目标单字区域后待选行的基线和顶线的方向差值小于预设的第一方向差值为止，目标单字区域为被删除后基线和顶线的初始方向的差值最小的单字区域；计算删除目标单字区域后待选行的基线和顶线的方向，得到基线和顶线的修订方向，将基线和顶线的修订方向的平均方向确定为待选行的修订行方向。

在步骤505中，根据待选行的修订行方向，计算待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距。在步骤507中，根据待选行的初始行方向，计算待选行中单字区域的中值间距，从删除单字区域后的待选行中筛选出中值间距最小的待选行为文字行其中，可以对待选行中的每个单字区域做出与修订行方向相同的第二外接倾斜矩形，第二外接倾斜矩形的上边即是单字区域的上边，第二外接倾斜矩形的下边即是单字区域的下边，第二外接倾斜矩形中与行方向相同的边长即是单字区域的宽度，第二外接倾斜矩形中与行方向垂直的边长即是单字区域的高度，相邻两个单字区域的第二外接倾斜矩形的相邻两个边之间的距离是相邻单字区域的间距。

步骤508：从候选组中删除所述文字行包含的候选对，继续从每个候选组中继续筛选出新的文字行。

上述步骤507和508的执行过程具体可以参见实施例一中的步骤205-206，由于上述执行过程已经在实施例一中进行了详细地描述，故此处不再赘述。

实施例三

为了进一步更好地区分文字区域和非文字区域，提高行排列分析的准确性，本实施例三与实施例二相比，其区别在于，在从待选行中分别删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域后，进一步计算待选行中单字区域的复杂度之和，根据计算得到的复杂度删除一个或多个待选行。请参阅图7，其为本发明实施例三揭示的另一种文字区域识别中的文字行排列分析方法的方法流程图，包括以下步骤：

步骤701：从图像中提取出多个单字区域，将任意两个特征最接近的单字区域匹配成一个或多个候选对；

步骤702：在匹配成的候选对中，将符合预置的聚合条件的候选对聚合成候选组；

步骤703：将候选组构建为连通分量，从连通分量中查找最大团，将最大团形成的行作为待选行；

步骤704：计算待选行的基线和顶线的方向，得到基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为待选行的初始行方向；

步骤705：根据所述待选行的初始行方向，计算待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距；

步骤706：从待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域；

上述步骤701-706执行过程具体可以参见实施例二中的步骤501-506，由于上述执行过程已经在实施例二中进行了详细地描述，故此处不再赘述。

步骤707：计算删除单字区域后的待选行中单字区域的复杂度总和；

需要说明的是，在现有技术中，有多种确定文字区域的复杂度的方法，主要包括两大类，第一类为间接确定区域结构复杂度；第二类为直接确定区域结构复杂度。本发明可以采用现有的各种确定方法来确定复杂度。常用的提取区域复杂度的方法主要都是基于统计关键点的个数，包括以下几种：1)在连通分量上，直接提取Harris角点，然后统计角点的个数作为复杂度；2)对连通分量进行骨骼化，然后统计骨骼上的分叉点的个数作为复杂度；3)对连通分量提取轮廓，然后对轮廓进行多边形逼近，提取多边形的顶点，统计顶点的个数作为复杂度；4)寻找连通分量内部包围的孔洞，统计孔洞的个数作为复杂度。

一种更加优选的方法是：确定所述删除单字区域后的待选行中单字区域中的连通分量；提取所述连通分量的轮廓，并对提取的所述轮廓进行多边形逼近，得到反映所述轮廓的多边形；根据所述多边形中的内凹顶点个数确定所述删除单字区域后的待选行中单字区域的复杂度，并对复杂度求和。

步骤708：如果复杂度总和小于预设的复杂度阈值，丢弃对应的待选行；

其中，本发明并不限定复杂度阈值的具体数值，确定过程可以为：先通过实验，统计已知的文字行的复杂度分布，以及已知的经过707步骤之前的若干步骤仍然被判定为文字行的非文字的复杂度的分布，然后选择那个总准确率(也就是文字被判定为文字，而非文字被判定为非文字，的比例)最高的值作为复杂度阈值。

步骤709：根据待选行的初始行方向，计算待选行中单字区域的中值间距，从删除单字区域后的剩余待选行中筛选出中值间距最小的待选行为文字行；

步骤710：从候选组中删除所述文字行包含的候选对，继续筛选出新的文字行。

上述步骤709和710的执行过程具体可以参见实施例一中的步骤205-206，由于上述执行过程已经在实施例一中进行了详细地描述，故此处不再赘述。

实施例四

下面将以图1所示的人工编辑图像为例，详细说明对图1中的文字进行行排列分析的方法。请参阅图8，其为本发明实施例四揭示的一种对人工编辑图像中的文字进行行排列分析的方法的流程图，包括以下步骤：

步骤801：从人工编辑图像中提取出所有的单字区域；

例如，在图1中，“促销”中的“促”和“销”分别为一个单字，“2011特价”中“2011”为一个单字，“特”和“价”分别为一个单字。

步骤802：在所有的单字区域中寻找匹配的候选对；

其中，每一个候选对都包括两个特征最接近的单字区域。例如，“全”和“新”的特征最接近，可以匹配成一个候选对；同时，“全”和“七”的特征也最接近，可以匹配成一个候选对。可见，这两个候选对中都包含了“全”这个单字区域。

步骤803：将候选对聚合成候选组；

利用文字行中单字区域与单字区域之间的关系设置聚合条件，利用聚合条件将候选对聚合成候选组。例如，在图1中，“全”和“新”为一个候选对(候选对1)，“新”和“正”为一个候选对(候选对2)，“全”和“七”也为一个候选对(候选对3)，由于候选对1和候选对2符合聚合条件，可以聚合到一个候选组中，候选对1和候选对3不符合聚合条件(方向的差未小于预设的第二方向差值)，不可以聚合到一个候选组中。

步骤804：将每个候选组构建成一个连通分量的排列图；

步骤805：寻找每个连通分量中的最大团，将最大团形成的行作为待选行；

步骤806：判断每个待选行中包含的单字区域的个数是否小于3，如果是，丢弃该待选行，重新返回到步骤805，否则，进入步骤807；

如果在步骤805中寻找最大团而确定的待选行中包含的单字区域的个数小于3，就重新返回到步骤805，继续在每个连通分量中寻找下一个最大团，并确定新的待选行。

步骤807：计算待选行的基线和顶线的初始方向；

步骤808：判断基线和顶线的方向的差值是否大于预设的第一方向差值，如果是，进入步骤809，否则，进入步骤810；

在初始情况下，由步骤807进入本步骤808，判断的是基线和顶线的初始方向的差值是否大于预设的第一方向差值；当由步骤809返回到本步骤809时，由于在步骤809中，从待选行中删除了目标单字区域，并重新计算删除目标单字区域后待选行的基线和顶线的方向，此时，本步骤808判断的是步骤809中重新计算的基线和顶线的方向的差值是否大于预设的第一方向差值。

步骤809：从待选行中删除目标单字区域，计算删除目标单字区域后待选行的基线和顶线的方向，返回步骤808；

步骤810：判断每个待选行中包含的单字区域的个数是否小于3，如果是，丢弃该待选行，重新返回到步骤805，否则，进入步骤811；

当在步骤808中判断的是步骤809中重新计算的基线和顶线的方向的差值是否满足大于预设的第一方向差值的时候，此时的待选行已经删除了一个或者多个目标单字区域，因此，需要再次判断此时的待选行中包含的单字区域的个数是否小于3。

步骤811：计算删除目标单字区域后的待选行的基线和顶线的修订方向；

步骤812：根据所述待选行的修订行方向，计算待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距；

步骤813：从待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域；

步骤814：判断删除单字区域后的待选行中包含的单字区域的个数是否小于3，如果是，丢弃该待选行，重新返回到步骤805，否则，进入步骤815；

步骤815：计算删除单字区域后的待选行中单字区域的复杂度总和；

步骤816：判断复杂度总和是否小于预设的复杂度阈值，如果是，丢弃所述对应的待选行，重新返回到步骤805，否则，进入步骤817；

步骤817：根据待选行的修订行方向，计算待选行中单字区域的中值间距，从删除单字区域后的剩余待选行中筛选出中值间距最小的待选行为文字行；

步骤818：从候选组中删除所述文字行包含的候选对，重新返回到步骤805。

实施例五

与上述一种文字区域识别中的文字行排列分析方法相对应，本发明实施例还提供了一种文字区域识别中的文字行排列分析装置。请参阅图9，其为本发明实施五揭示的一种文字区域识别中的文字行排列分析装置的装置结构图，该装置包括：匹配模块901、聚合模块902、查找模块903、初始方向确定模块904、筛选模块905和迭代模块906。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。

匹配模块901，用于在从图像中提取出的单字区域中，将任意两个特征最接近的单字区域匹配成一个或多个候选对；

聚合模块902，用于在匹配成的候选对中，将符合预置的聚合条件的候选对聚合成候选组；

优选的，聚合模块902包括：条件判断子模块，用于在匹配成的候选对中，判断任意两个候选对是否包含相同的单字区域，且，方向的差小于预设的第二方向差值；和，归类子模块，用于如果所述条件判断子模块的判断结果为是，所述任意两个候选对符合所述预置的聚合条件，将所述任意两个候选对归类为一个候选组。

查找模块903，用于将候选组构建为连通分量，从连通分量中查找最大团，将最大团形成的行作为待选行；

初始方向确定模块904，用于计算待选行的基线和顶线的方向，得到基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为待选行的初始行方向；

优选的，初始方向确定模块904包括：第一子模块，用于如果待选行的行方向接近水平方向，根据所述待选行中单字区域的外接水平矩形的下边中点和上边中点，确定所述待选行的基线和顶线的初始方向；和，第二子模块，用于如果待选行的行方向接近竖直方向，根据所述待选行中单字区域的外接水平矩形的左边中点和右边中点，确定所述待选行的基线和顶线的初始方向。

筛选模块905，用于根据所述待选行的初始行方向，计算待选行中单字区域的中值间距，筛选出中值间距最小的待选行为文字行；

迭代模块906，用于从候选组中删除所述文字行包含的候选对，继续筛选出新的文字行。

除了图9所示的结构外，优选的，请参阅图10，该装置还包括：第一计算模块907和删除模块908，其中，

第一计算模块907，用于根据所述待选行的初始行方向，计算待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距；

删除模块908，用于从待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域；

则筛选模块905，用于根据待选行的初始行方向，计算待选行中单字区域的中值间距，从删除单字区域后的待选行中筛选出中值间距最小的待选行为文字行。

优选的，删除模块908包括以下任意一个或任意多个组合的子模块：

高度删除子模块，用于从待选行中删除高度与中值高度的比值大于预设的高度阈值倍数的单字区域；

宽度删除子模块，用于从待选行中删除宽度与中值宽度的比值大于预设的宽度阈值倍数的单字区域；

基线传输子模块，用于从待选行中删除上边与待选行的顶线的商与中值高度的比值大于预设的上边阈值倍数的单字区域；

顶线删除子模块，用于从待选行中删除下边与待选行的基线的商与中值高度的比值大于预设的下边阈值倍数的单字区域；

单字区域删除子模块，用于从待选行中删除间距与中值宽度或中值高度的比值大于预设的间距阈值倍数的单字区域。

在图10所示的结构的基础上，进一步优选的，请参阅图11，该装置还进一步包括：第二计算模块909和第一丢弃模块910，其中，

第二计算模块909，用于计算删除单字区域后的待选行中单字区域的复杂度总和；

优选的，第二计算模块909包括：连通分量确定子模块，用于确定所述删除单字区域后的待选行中单字区域中的连通分量；和，多边形逼近子模块，用于提取所述连通分量的轮廓，并对提取的所述轮廓进行多边形逼近，得到反映所述轮廓的多边形；和，复杂度求和子模块，用于根据所述多边形中的内凹顶点个数确定所述删除单字区域后的待选行中单字区域的复杂度，并对复杂度求和。

第一丢弃模块910，用于如果复杂度总和小于预设的复杂度阈值，丢弃所述对应的待选行；

则筛选模块905，用于根据待选行的初始行方向，计算待选行中单字区域的中值间距，从删除单字区域后的剩余待选行中筛选出中值间距最小的待选行为文字行。

在图9-11所示结构的基础上，进一步优选的，该装置还进一步包括：修订模块，用于如果所述基线和顶线的初始方向的差值大于预设的第一方向差值，依次从待选行中删除目标单字区域，直到在删除目标单字区域后待选行的基线和顶线的方向差值小于预设的第一方向差值为止，目标单字区域为被删除后基线和顶线的初始方向的差值最小的单字区域；和，修订方向确定模块，用于计算删除目标单字区域后待选行的基线和顶线的方向，得到基线和顶线的修订方向，将基线和顶线的修订方向的平均方向确定为待选行的修订行方向。

例如，以在图9基础上增加上述模块为例，其装置的结构如图12所示。

进一步优选的，图9-11中所示的装置还包括：第一数目判断模块，用于判断所述待选行中包含的单字区域数目是否小于3个；和，第二丢弃模块，用于如果是，丢弃所述待选行，重新查找最大团。

进一步优选的，图10和11所示的装置还包括：第二数目判断模块，用于判断删除单字区域后的待选行中包含的单字区域数目是否小于3个；和，第三丢弃模块，用于如果是，丢弃所述待选行，重新查找最大团。

进一步优选的，图12所示的装置还包括：第三数目判断模块，用于判断删除目标单字区域后的待选行中包含的单字区域数目是否小于3个；和，第四丢弃模块，用于如果是，丢弃所述待选行，重新查找最大团。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上对本发明所提供的一种文字区域识别中的文字行排列分析方法和装置进行了详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文字区域识别中的文字行排列分析方法，其特征在于，所述方法包括：

将符合预置的聚合条件的所述候选对聚合成候选组；

2.根据权利要求1所述的方法，其特征在于，所述根据所述待选行的初始行方向，计算待选行中单字区域的中值间距，筛选出中值间距最小的待选行为文字行之前，还包括：

根据所述待选行的初始行方向，计算所述待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距；

从所述待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域；

则所述根据待选行的初始行方向，计算所述待选行中单字区域的中值间距，筛选出所述中值间距最小的待选行为文字行为：

根据所述待选行的初始行方向，计算所述待选行中单字区域的中值间距，从删除单字区域后的所述待选行中筛选出中值间距最小的待选行为文字行。

3.根据权利要求2所述的方法，其特征在于，所述从待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域后，还包括：

计算删除单字区域后的所述待选行中单字区域的复杂度总和；

如果所述复杂度总和小于预设的复杂度阈值，丢弃所述对应的待选行；

所述根据所述待选行的初始行方向，计算所述待选行中单字区域的中值间距，筛选出所述中值间距最小的待选行为文字行为：

根据所述待选行的初始行方向，计算所述待选行中单字区域的中值间距，从删除单字区域后的剩余待选行中筛选出中值间距最小的待选行为文字行。

4.根据权利要求1-3中任意一项所述的方法，其特征在于，所述计算所述待选行的基线和顶线的方向，得到所述基线和顶线的初始方向，将所述基线和顶线的初始方向的平均方向确定为所述待选行的初始行方向后，还包括：

如果所述基线和顶线的初始方向的差值大于预设的第一方向差值，依次从所述待选行中删除目标单字区域，直到在删除所述目标单字区域后所述待选行的基线和顶线的方向差值小于所述预设的第一方向差值为止，所述目标单字区域为被删除后基线和顶线的初始方向的差值最小的单字区域；

计算删除所述目标单字区域后的所述待选行的基线和顶线的方向，得到基线和顶线的修订方向，将所述基线和顶线的修订方向的平均方向确定为所述待选行的修订行方向。

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述在匹配成的所述候选对中，将符合预置的聚合条件的所述候选对聚合成候选组，包括：

在匹配成的所述候选对中，判断任意两个候选对是否包含相同的单字区域，且，方向的差小于预设的第二方向差值；

如果是，所述任意两个候选对符合所述预置的聚合条件，将所述任意两个候选对归类为一个所述候选组。

6.根据权利要求2或3所述的方法，其特征在于，所述计算所述待选行的基线和顶线的方向，得到基线和顶线的初始方向，包括：

如果所述待选行的行方向接近水平方向，根据所述待选行中单字区域的外接水平矩形的下边中点和上边中点，确定所述待选行的基线和顶线的初始方向；

如果所述待选行的行方向接近竖直方向，根据所述待选行中单字区域的外接水平矩形的左边中点和右边中点，确定所述待选行的基线和顶线的初始方向。

7.根据权利要求2或3所述的方法，其特征在于，所述从所述待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域，包括：

从所述待选行中删除所述高度与中值高度的比值大于预设的高度阈值倍数、所述宽度与中值宽度的比值大于预设的宽度阈值倍数、所述上边与待选行的顶线的商与中值高度的比值大于预设的上边阈值倍数、所述下边与待选行的基线的商与中值高度的比值大于预设的下边阈值倍数、或所述间距与中值宽度或中值高度的比值大于预设的间距阈值倍数的单字区域。

8.根据权利要求3所述的方法，其特征在于，所述计算删除单字区域后的所述待选行中单字区域的复杂度总和，包括：

确定所述删除单字区域后的所述待选行中单字区域中的连通分量；

提取所述连通分量的轮廓，并对提取的所述轮廓进行多边形逼近，得到反映所述轮廓的多边形；

根据所述多边形中的内凹顶点个数确定所述删除单字区域后的所述待选行中单字区域的复杂度，并对所述复杂度求和。

9.根据权利要求1-3中任意一项所述的方法，其特征在于，所述将候选组构建为连通分量，从所述连通分量中查找最大团，将所述最大团形成的行作为待选行后，还包括：

判断所述待选行中包含的单字区域数目是否小于3个；

如果是，丢弃所述待选行，重新查找最大团。

10.根据权利要求2或3所述的方法，其特征在于，所述从所述待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的单字区域后，还包括：

判断删除所述单字区域后的所述待选行中包含的所述单字区域数目是否小于3个；

如果是，丢弃所述待选行，重新查找最大团。

11.根据权利要求4所述的方法，其特征在于，如果所述基线和顶线的初始方向的差值大于所述预设的第一方向差值，依次从所述待选行中删除所述目标单字区域，直到在删除所述目标单字区域后待选行的基线和顶线的方向差值小于所述预设的第一方向差值为止之后，还包括：

判断删除所述目标单字区域后的所述待选行中包含的所述单字区域数目是否小于3个；

如果是，丢弃所述待选行，重新查找最大团。

12.一种文字区域识别中的文字行排列分析装置，其特征在于，所述装置包括：

匹配模块，用于从图像中提取出单字区域，将任意两个特征最接近的所述单字区域匹配成一个或多个候选对；

13.根据权利要求12所述的装置，其特征在于，还包括：

第一计算模块，用于根据所述待选行的初始行方向，计算所述待选行中单字区域的上边、下边、高度、宽度和相邻单字区域的间距；

删除模块，用于从所述待选行中删除上边、下边、高度、宽度或间距不满足相应的预设阈值的所述单字区域；

所述筛选模块，用于根据待选行的初始行方向，计算所述待选行中单字区域的中值间距，从删除单字区域后的所述待选行中筛选出中值间距最小的待选行为文字行。

14.根据权利要求13所述的装置，其特征在于，还包括：

第二计算模块，用于计算删除单字区域后的所述待选行中单字区域的复杂度总和；

第一丢弃模块，用于如果所述复杂度总和小于预设的复杂度阈值，丢弃所述对应的待选行；

所述筛选模块，用于根据所述待选行的初始行方向，计算所述待选行中所述单字区域的中值间距，从删除所述单字区域后的剩余所述待选行中筛选出中值间距最小的所述待选行为文字行。

15.根据权利要求12-14中任意一项所述的装置，其特征在于，还包括：

修订模块，用于如果所述基线和顶线的初始方向的差值大于预设的第一方向差值，依次从所述待选行中删除目标单字区域，直到在删除所述目标单字区域后所述待选行的基线和顶线的方向差值小于所述预设的第一方向差值为止，所述目标单字区域为被删除后基线和顶线的初始方向的差值最小的单字区域；

修订方向确定模块，用于计算删除所述目标单字区域后的所述待选行的基线和顶线的方向，得到基线和顶线的修订方向，将所述基线和顶线的修订方向的平均方向确定为所述待选行的修订行方向。

16.根据权利要求12-14中任意一项所述的装置，其特征在于，所述聚合模块包括：

条件判断子模块，用于在匹配成的所述候选对中，判断任意两个所述候选对是否包含相同的单字区域，且，方向的差小于预设的第二方向差值；

归类子模块，用于如果所述条件判断子模块的判断结果为是，所述任意两个候选对符合所述预置的聚合条件，将所述任意两个候选对归类为一个候选组。

17.根据权利要求13或14所述的装置，其特征在于，所述初始方向确定模块包括：

第一子模块，用于如果所述待选行的行方向接近水平方向，根据所述待选行中单字区域的外接水平矩形的下边中点和上边中点，确定所述待选行的基线和顶线的初始方向；

第二子模块，用于如果所述待选行的行方向接近竖直方向，根据所述待选行中单字区域的外接水平矩形的左边中点和右边中点，确定所述待选行的基线和顶线的初始方向。

18.根据权利要求13或14所述的装置，其特征在于，所述删除模块包括以下任意一个或任意多个组合的子模块：

高度删除子模块，用于从所述待选行中删除所述高度与中值高度的比值大于预设的高度阈值倍数的单字区域；

宽度删除子模块，用于从所述待选行中删除所述宽度与中值宽度的比值大于预设的宽度阈值倍数的单字区域；

基线传输子模块，用于从所述待选行中删除所述上边与待选行的顶线的商与中值高度的比值大于预设的上边阈值倍数的单字区域；

顶线删除子模块，用于从所述待选行中删除所述下边与待选行的基线的商与中值高度的比值大于预设的下边阈值倍数的单字区域；

单字区域删除子模块，用于从所述待选行中删除所述间距与中值宽度或中值高度的比值大于预设的间距阈值倍数的单字区域。

19.根据权利要求14所述的装置，其特征在于，所述第二计算模块包括：

连通分量确定子模块，用于确定所述删除单字区域后的所述待选行中单字区域中的连通分量；

多边形逼近子模块，用于提取所述连通分量的轮廓，并对提取的所述轮廓进行多边形逼近，得到反映所述轮廓的多边形；

复杂度求和子模块，用于根据所述多边形中的内凹顶点个数确定所述删除单字区域后的所述待选行中单字区域的复杂度，并对复杂度求和。

20.根据权利要求12-14中任意一项所述的装置，其特征在于，还包括：

第一数目判断模块，用于判断所述待选行中包含的单字区域数目是否小于3个；

第二丢弃模块，用于如果是，丢弃所述待选行，重新查找最大团。

21.根据权利要求13或14所述的装置，其特征在于，还包括：

第二数目判断模块，用于判断删除单字区域后的所述待选行中包含的单字区域数目是否小于3个；

第三丢弃模块，用于如果是，丢弃所述待选行，重新查找最大团。

22.根据权利要求15所述的装置，其特征在于，还包括：

第三数目判断模块，用于判断删除目标单字区域后的所述待选行中包含的单字区域数目是否小于3个；

第四丢弃模块，用于如果是，丢弃所述待选行，重新查找最大团。