CN111832497A

CN111832497A - 一种基于几何特征的文本检测后处理方法

Info

Publication number: CN111832497A
Application number: CN202010692672.9A
Authority: CN
Inventors: 邱小刚; 赵富佳; 林小渝; 陈善雄; 李然康; 王定旺
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-27
Anticipated expiration: 2040-07-17
Also published as: CN111832497B

Abstract

本发明提供一种基于几何特征的文本检测后处理方法，所述后处理方法用于对原始预测框进行后处理，所述原始预测框通过深度学习文本检测方法得到，所述后处理方法包括如下步骤：S1、基于背景去除算法，在不改变预测框与字符区域交集面积的情况下将预测框中的多余背景进行去除；S2、基于候选框扩张算法，将得到的预测框进行一定规律的扩张，使它能够完全的提取出字符区域；S3、基于不标准框去除算法，对不标准的预测框进行去除；S4、基于重复框去除算法，将得到的重复预测框进行去除，得到最终的预测框。该方法可以有效解决文本检测时字符误认，检测偏离，重叠检测等问题，使检测结果更加优异。

Description

一种基于几何特征的文本检测后处理方法

技术领域

本发明主要涉及文档图像处理相关技术领域，具体是一种基于几何特征的文本检测后处理方法。

背景技术

文档图像是信息的重要载体，在日常生活中发挥着重要作用。随着数字化在各个领域的广泛应用，人类希望机器也能模仿人类阅读书籍的能力，于是光学字符识别技术OCR(Optical Character Recognition)应运而生。而文本检测是字符识别技术OCR不可缺少的一部分，对后续的文本识别至关重要。高效准确的文本检测在文档图像领域有着重要的应用，包括字符识别系统，图像的多语言翻译，人机交互等。

目前深度学习文本检测方法主要是通过深度学习模型更新实现精确地定位。它一般分为两个步骤，第一步是根据训练好的模型进行预测得到候选框，此时得到的候选框往往很多有着互相重叠的区域，因此，为了在得到的候选框中找出最优的候选框往往需要进行第二步，也就是通过后处理得到最终预测框来实现精确地定位。但是在实际应用中，得到最终预测框往往还达不到非常精确的定位，所以很多算法还进行了其它后处理，例如合并相邻的候选框。

现在的深度学习文本检测方法针对后处理的较少，得到的预测框一般情况可以得到较好的检测效果，但是也有很多细节是没有处理到位的。例如：1)字符误认(将两个字符错误的认为是一个字符，将标点符号或其它不属于字符的区域错误的认为是字符)，2)检测偏离(一个字符只检测出一半)，3)重叠检测(多个检测框检测到同一字符)。

发明内容

为解决目前技术的不足，本发明结合现有技术，从实际应用出发，提供一种基于几何特征的文本检测后处理方法，该方法可以有效解决字符误认，检测偏离，重叠检测等问题，使检测结果更加优异。

本发明的技术方案如下：

一种基于几何特征的文本检测后处理方法，所述后处理方法用于对原始预测框进行后处理，所述原始预测框通过深度学习文本检测方法得到，所述后处理方法包括如下步骤：

S1、基于背景去除算法，在不改变预测框与字符区域交集面积的情况下将预测框中的多余背景进行去除，背景去除算法是通过像素阈值对字符区域与背景区域进行分离，根据阈值确定字符区域，进而更新预测框坐标；

S2、基于候选框扩张算法，将得到的预测框进行一定规律的扩张，使它能够完全的提取出字符区域，候选框扩张算法是通过像素阈值判断边缘像素中是否有属于字符区域的像素，根据阈值确定字符区域像素范围后，若字符边缘像素中有小于阈值的像素，则判断属于字符区域像素，对边缘进行扩张，进而更新预测框坐标；

S3、基于不标准框去除算法，对不标准的预测框进行去除，不标准框去除算法是通过设定的坐标面积阈值以及计算出来的每一个预测框坐标面积判断预测框是否属于标准框，若满足条件，即预测框坐标面积小于最大面积阈值同时大于最小面积阈值，则判断此坐标属于标准框，反之则不属于，进而更新预测框坐标；

S4、基于重复框去除算法，将得到的重复预测框进行去除，得到最终的预测框，重复框去除算法是通过新建一个空合集，通过判断空合集中是否存在经过不标准框去除算法更新后的预测框坐标集合中的坐标决定是否将经过不标准框去除算法更新后的预测框坐标集合保存到该新建的空合集中，进而更新预测框坐标。

进一步，步骤S1中，背景去除使用的像素阈值基于自适应阈值算法计算，计算公式如下：

T＝(1-α)×MAX_10+α×MIN_10 (1)

其中，α表示权重系数，MIN_10表示原始检测区域中灰度值最小的10个像素点的平均值，MAX_10表示原始检测区域中灰度值最大的10个像素点的平均值，T表示自适应阈值。

进一步，权重系数α的取值范围为0.3-0.7，

进一步，步骤S1中，背景去除算法的过程是：

首先根据得到的原始预测框坐标和待检测图像提取出预测框区域图像；

其次根据像素阈值确定字符区域，若小于像素阈值，则判断像素属于字符区域像素，大于像素阈值，则判断属于背景区域；

具体的，设原始预测框坐标为u((X₁,Y₁),(X₂,Y₂))， row_min,row_max,col_min,col_max分别表示真实字符区域在Img的行最小索引，行最大索引，列最小索引，列最大索引，基于Getchar()函数判断字符区域像素和T的关系，T为像素阈值，更新预测框坐标公式如下：

进一步，步骤S2中，候选框扩张算法过程是：

首先根据经过背景去除算法更新后的预测框坐标和待检测图像提取出坐标区域上下左右四个边的灰度值并分别存储于数组E1，E2，E3，E4中；

然后根据像素阈值确定字符区域像素范围，判断每个数组中是否有属于像素阈值的元素，若有，则说明这个元素属于字符区域像素更新坐标值，即这个元素所在的边在字符区域内，所以要对这个边进行扩张，最后更新预测框坐标；

具体的，经过背景去除处理后得到的预测框坐标为u₁((X₁,Y₁),(X₂,Y₂))，E1， E2，E3，E4分别表示字符检测区域上下左右四个边缘的灰度值，基于Getchar() 函数判断字符区域像素和T的关系，T为像素阈值，更新预测框坐标公式如下：

进一步，步骤S3中，不标准框去除算法的过程是：

首先对经过候选框扩张算法更新后的预测框坐标集合S1按照从上到下，从左到右进行排序，得到一个有序的坐标集合；

其次取出第一个坐标并计算坐标的同一行周围多个预测框坐标面积的平均值；

然后设置最小面积阈值和最大面积阈值并新建一个空集合S2，

最后根据两个阈值来判断坐标的面积是否在最小阈值和最大阈值之间，若在两个阈值之间，则将坐标存放到新的集合S2中，最终得到的集合S2就是经过不标准框去除算法更新后的预测框坐标集合。

进一步，最大阈值与最小阈值分别设为平均值的1.4倍和0.5倍。

进一步，步骤S4中，重复框去除算法过程是：

首先新建一个空集合S3；

然后依次取出经过不标准框去除算法更新后的预测框坐标集合S2中的预测框坐标，并判断每一个坐标是否存在集合S3中，若没有在集合S3中，则将这个坐标保存到S3中，如果预测框坐标已经在集合S3中，则取出S2中的下一个预测框坐标进行判断；

最后得到新的集合S3就是经过重复框去除算法更新后的最终预测框坐标集合。

本发明的有益效果：

一般的深度学习文本检测分为网络预测与后处理。网络预测输出候选框坐标，后处理针对候选框坐标进一步处理，一般采用NMS，邻近连接合并等，使文本检测结果更加准确。本发明在文本检测后处理上进行了优化，提出四个紧密相连的后处理步骤，解决了字符误认，检测偏离，重叠检测等问题，实现了文本检测的精细化，提升了文本检测效果；

其中候选框扩张算法解决了检测偏离的问题，候选框扩张算法和不标准框去除算法一起解决了重叠检测的问题，重复框去除算法解决了字符误认的问题；

本发明将深度学习与精细的后处理完美结合，对文本检测领域作出了一些贡献，四个步骤中背景去除算法与候选框扩张算法对文本检测的准确率和召回率均有提升，而不标准框去除算法与重复框去除算法对准确率提升明显。

附图说明

附图1为在不同数据集上使用本发明方法处理前后的检测结果示意图；

附图2为本发明的模型结构框图；

附图3为本发明中预测框进行背景去除处理前后情况示意图；

附图4为本发明权重系数对结果影响情况示意图；

附图5为本发明预测框经过BR与CBE算法处理前后情况示意图；

附图6为本发明预测框经过NVR算法处理前后情况示意图；

附图7为本发明预测框经过BR、CBE与RBR算法处理前后情况示意图。

具体实施方式

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

本发明实施例所提供的基于集合特征的文本检测后处理方法，主要是通过发现预测框图像边缘像素与周围像素之间的几何关系来校正预测框，进而提升检测效果。图1中，展示了在不同数据集上使用本发明方法处理前后的检测结果。图中第一行为使用主流深度学习文本检测框架的检测结果，第二行为使用本发明后处理方法后的检测结果，第一列为规范彝文数据集，第二列为Chinese2k 数据集，第三列为English2k数据集。可见，通过本发明的后处理方法，能够显著提升文档图像的检测效果。

本发明所提供的处理方法其网络整体框架图如图2所示。本发明模型的输入在训练过程中是训练集的原始文档图像和标签，在测试过程中是待预测的图像，输出是待预测图像的位置信息。这里的信息主要包括两个坐标 ((X1,Y1),(X2,Y2))，(X1,Y1)是预测框左上角的坐标，(X2,Y2)是预测框右下角的坐标。深度学习模型，采用主流的文本检测模型即可。利用深度学习模型得到预测框后，分别再对预测框进行后处理。

后处理主要分为4个步骤，S1、首先经过算法去除周围背景图像；S2、其次经过算法对预测框坐标进行调整得到更加准确的坐标；S3、然后对不标准的预测框进行去除，不标准的预测框主要有两类，一是将标点符号当作字符进行检测的预测框，二是将两个字符错误的检测为一个字符的预测框；S4、最后将得到的重复预测框进行去除，得到最终的预测框。

网络整体框架可分为两个子流程，一个用于得到原始的预测框，见图2中前半部分，一个用于对原始预测框进行后处理，见图2中后半部分。其中，原始的预测框是通过深度学习文本检测方法得到的；后处理又分为4个模块，每个模块分别设置一个算法进行处理，本发明的后处理方法针对特定数据集进行单独训练后可以在大部分深度学习文本检测方法上取得较好的效果。

关于本发明的背景去除算法：

经过深度学习文本检测方法得到的预测框往往会包含一些背景信息，这些背景信息如果太多可能会导致检测准确率以及召回率的下降，因此本发明针对该问题提出背景去除算法BR(background removing)。在不改变预测框与字符区域交集面积的情况下将预测框中的多余背景进行去除。这样可以进一步提高检测效果。背景去除处理前后效果如图3所示。背景去除算法主要是通过像素阈值对字符区域与背景区域进行分离，根据阈值确定字符区域，进而更新预测框坐标。

背景去除算法它的具体过程是：首先根据经过深度学习模型以及NMS得到的原始预测框坐标和待检测图像提取出预测框区域图像。其次根据阈值确定字符区域。在日常文档图像的灰度图当中，255表示白色像素，0表示黑色像素，此时字符区域是黑色的，因此其像素值应该比背景值小，即若小于像素阈值，则判断像素属于字符区域像素，大于像素阈值，则判断属于背景区域。阈值过大，容易将背景划分为字符区域，反之阈值过小，容易将字符区域划分为背景，所以找到一个合适的阈值对确定字符区域很关键。而每张不同的待检测图像其字符区域和背景区域的差异性也是不同的，有的差异较小，有的差异较大，所以针对阈值，本发明提出一种自适应阈值算法ATA(Adaptive threshold algorithm)。在复杂场景下，需要根据阈值判断预测框区域像素是小于阈值还是大于阈值，从而确定字符区域的像素后再进行操作。最后根据字符区域的像素索引确定字符区域的长度h和宽度w并得到行和列索引的最小值和最大值，更新预测框坐标。计算自适应阈值公式如下：

T＝(1-α)×MAX_10+α×MIN_10 (1)。

其中，这里的α表示权重系数，MIN_10表示原始检测区域中灰度值最小的 10个像素点的平均值，MAX_10表示原始检测区域中灰度值最大的10个像素点的平均值，T表示自适应阈值。

自适应阈值算法(ATA)执行步骤如下：

这里自适应阈值算法权重系数α的取值范围为0.0-1.0。其主要作用是平衡最大灰度值与最小灰度值的关系，找到合适的阈值对字符区域和背景区域进行分离。针对权重系数的大小设置，本发明在规范彝文数据集上分别对权重系数取不同大小的值得到准确率，召回率，F1值的结果。其结果如图4所示，从图4 可以看出，当权重系数小于0.3，大于0.7时，准确率，召回率，F1值变化明显；当权重系数在0.3-0.7之间时，准确率，召回率，F1值变化趋于平缓且效果较好。因此本发明中权重系数设置为0.5。

通过自适应阈值算法确定像素阈值T后，下一步进行背景去除。设原始预测框坐标为u((X₁,Y₁),(X₂,Y₂))，待检测图像为Image，Bd_img为Image灰度化后的数组，Img为根据u和Bd_img提取出的预测框区域，row_min,row_max,col_min,col_max分别表示真实字符区域在Img的行最小索引，行最大索引，列最小索引，列最大索引，Getchar()函数判断字符区域像素和T 的关系，大于T返回False，小于T返回True，T为像素阈值。更新预测框坐标如下：

背景去除算法(BR)执行步骤如下：

关于本发明的候选框扩张算法：

经过BR算法处理后，可以得到检测更加精细的预测框，这时原始预测框中的背景信息基本消除，只包含着字符区域。但此时的预测框可能出现检测偏离的情况。因此本发明针对这个问题提出一种候选框扩张算法CBE(Candidate box expansion)。将得到的预测框进行一定规律的扩张，使它能够完全的提取出字符区域。这样可以进一步提高检测效果。经过候选框扩张算法处理前后效果如图5 所示。

候选框扩张算法主要是通过像素阈值判断边缘像素中是否有属于字符区域的像素。本实施例根据阈值确定字符区域像素范围后，假设小于阈值的属于字符区域，则若字符边缘像素中有小于阈值的像素，则判断属于字符区域像素，对边缘进行扩张，即更新预测框坐标。

经过BR算法处理后得到的预测框坐标为u₁((X₁,Y₁),(X₂,Y₂))，待检测图像为Image，Bd_img为Image灰度化处理后的数组，E1,E2,E3,E4分别表示字符检测区域上下左右四个边缘的灰度值，Getchar()函数判断字符区域像素和T的关系，大于T返回False，小于T返回True，T为像素阈值。更新预测框坐标如下：

候选框扩张(CBE)算法执行步骤如下：

关于本发明的不标准框去除算法：

经过深度学习文本检测算法检测得到的原始预测框往往还会将一些非字符区域当作是字符而检测出来，出现字符误认的情况。这些错误检测的信息也会导致算法准确率以及召回率的下降，因此需要将这些预测框筛选出来然后剔除。本发明针对该问题提出一种不标准框去除算法NBR(Non-standard box removal)。将所有预测框中的不标准框进行去除，可以进一步提升准确率，进而提升检测效果。经过不标准框去除算法处理前后效果如图6所示。一般情况下在同一个文本图像当中，相邻字符的大小是大致相同的。不标准框去除算法的设计主要就是依据这个原理。该算法主要是通过设定的坐标面积阈值以及计算出来的每一个预测框坐标面积判断预测框是否属于标准框，若满足条件，即预测框坐标面积小于最大面积阈值同时大于最小面积阈值，则判断此坐标属于标准框，反之则不属于。

不标准框去除算法它的具体过程是：首先对经过CBE算法更新后的预测框坐标集合S1按照从上到下，从左到右进行排序，得到一个有序的坐标集合。其次取出第一个坐标并计算坐标的同一行周围5个预测框坐标面积的平均值。然后设置最小面积阈值和最大面积阈值并新建一个空集合S2。这里的两个阈值很关键，最小阈值过小会导致不能筛选出较小的不标准框，最大阈值过大会导致一些较大的不标准框不能被筛选出来。因此经过多组对比实验，最终这里本实施例的最大阈值与最小阈值分别设为平均值的1.4倍和0.5倍。最后根据两个阈值来判断坐标的面积是否在最小阈值和最大阈值之间，若在两个阈值之间，则将坐标存放到新的集合S2中。最终得到的集合S2就是经过NBR算法更新后的预测框坐标集合。

设经过CBE算法处理后得到的预测框坐标为u₂((X₁,Y₁),(X₂,Y₂))，经过CBE 算法处理后得到的预测框坐标集合为S1，它的同一行周围5个预测框坐标面积为S₁，S₂...S₅，S₁，S₂...S₅的平均值为AVG_C，更新后的预测框坐标集合为S2， S1中的预测框数量为LEN(S1)，S2.APPEND(S1[i])表示将S1中的第i个元素保存到S2中，MIN_Iou表示最小面积阈值，MAX_Iou表示最大面积阈值。

不标准框去除(NBR)算法执行步骤如下：

关于本发明的重复框去除算法：

深度学习文本检测算法检测得到的原始预测框往往会使两个检测框检测到同一字符，出现重叠检测问题。这些问题经过BR，CBE，NBR算法处理后，会使本实施例得到的预测框坐标出现重复的情况。分析原因，发现经过BR，CBE， NBR算法处理后，出现重叠检测的两个预测框得到的结果是一样的。因此本发明针对这个问题提出一种重复框去除算法RBR(Repeat box removal)。将得到的预测框坐标进行去重处理。经过三种算法处理的前后效果图如图7所示。

本发明新建一个空集合S3，重复框去除算法主要是通过判断S3中是否存在 S2中的坐标决定是否需要将S2中的坐标保存到S3。

重复框去除算法它的具体过程是：首先新建一个空集合S3。然后依次取出经过NBR算法更新后的预测框坐标集合S2中的预测框坐标，并判断每一个坐标是否存在集合S3中，若没有在集合S3中，则将这个坐标保存到S3中，如果预测框坐标已经在集合S3中，则取出S2中的下一个预测框坐标进行判断。最后得到新的集合S3就是本实施例经过RBR算法更新后的最终预测框坐标集合。

经过NBR算法处理后得到的预测框坐标为u₃((X₁,Y₁),(X₂,Y₂))，经过NBR 算法处理后得到的预测框坐标集合为S2，新建的预测框坐标集合为S3，S2中的预测框数量为LEN(S2)，S3.APPEND(S2[i])表示将S2中的第i个元素保存到 S3中。

重复框去除(RBR)算法执行步骤如下：

实施例：

为了验证本发明方法的有效性，本发明在三个数据集上进行了实验。三个数据集分别是：规范彝文数据集，Chinese2k数据集和English2k数据集。其中规范彝文数据集是由团队手工进行标注的，而Chinese2k数据集和English2k数据集是公开发布的数据集。

规范彝文数据集

本发明使用的规范彝文文档图像数据通过某些地区的专家提供，这些样本主要是通过当地报纸，书籍进行扫描成为PDF文档得到。得到样本后，通过计算机程序对PDF文档每页进行切分，得到207张规范彝文图像，然后人工对其进行标注。需要说明的是，由于标注需要耗费大量的人力和时间，所以本实施例先采用传统方法先对文档图像进行文字检测，得到检测结果后，再用标注工具对标注不太理想的文档图像进行校正，最终得到标签，这就是本实施例的训练数据集。测试数据集本实施例通过同样的方法得到50张文档图像以及标签。

由于文本检测需要面对各种复杂场景，不仅仅是在比较干净整洁的文档图像取得较好的效果，更需要在有噪声的情况下取得为了使文本检测鲁棒性更强，以应对复杂的场景。因此本实施例对原始文档图像进行添加噪声处理，分别使用高斯噪声与椒盐噪声。其中高斯噪声参数设置如下：均值为0,0.2，方差分别为0.001,0.005,0,01；椒盐噪声参数设置如下：噪声比例分别为 0.001,0.005,0.01,0.05。这样本实施例便在每张原始图像的基础上得到10种新的图像，由于图像尺寸未发生变化，故标签信息也不变，即原始图像和经过你原始图像变化得到的新图像用同样的标签，但是标签文件名应该与变化后的新图像文件名匹配。最终本实施例得到2277个图像训练样本。

SCUT_FORU_DB数据集

SCUT-FORD数据库(Flickr OCR Universal Database，FORD)的图像是利用爬虫技术从hops://www.flickr.com/网站上采集得到，并人工标注完成的。图像的场景包括街道、建筑物、商店、办公楼、餐馆、车站、地铁等等；文字内容包括交通标志、路牌、书本封面、室外广告、告示牌、各式标志等等；图像的光照情况多样，包括晴天和阴天，白天和夜晚等等。

SCUT-FORD数据库按语言种类分成Chinese2k和English2k两个数据集。English2k数据集包含字符标注和单词标注，而Chinese2k数据集只包含汉字字符的标注。English2k数据集的字符包括52个大小写字母和10个阿拉伯数字。 English2k数据集的标注格式为{x,y,w,h,label}，即矩形框的左上角位置、宽高及类别标签。Chinese2k数据集的标注格式为{{x,y,w,h}。English2k数据集中平均每张图像有18.4个字符和3.2个单词，Chinese2k数据集每张图像有12.8个字符。SCUT-FORD数据集可用于文字检测和识别等研究任务，包括字符定位、字符识别、单词定位、单词识别等。

表1 English2k，Chinese2k以及规范彝文标注情况

评价指标：

为了评估文本检测的检测效果，本实施例采用ICDAR 2015自然场景文本检测竞赛定义的准确率(Precision)，召回率(Recall)以及综合评价指标F-measure来评测文本区域检测的性能。通过检测结果候选框(candidate bound)与真实框 (ground truth bound)之间的公共区域与并集区域的比值来衡量，本实施例称之为 IOU，具体的定义公式如下。

这里IOU表示覆盖率，C和G分别表示检测结果候选框和真实框。area(C) ∩area(G)与area(C)∪area(G)分别表示C与G之间的公共区域和并集区域。如果检测结果候选框与真实框之间的实际覆盖率IOU>0.5，本实施例就认为这个检测结果是正确的，反之，如果IOU<＝0.5,本实施例就认为这个检测结果是错误的。当同一个字符出现多个检测结果时，本实施例根据检测结果候选框与真实框之间的覆盖率可以得到多个覆盖率IOU1,IOU2…IOUk，然后将得到的所有覆盖率进行降序排列，选择第一个，也就是最大的覆盖率作为最后的覆盖率，其余的全部当作无意义处理。通过覆盖率本实施例可以得到准确率P(Precision)和召回率R(Recall)的定义如下。

这里Tp表示检测正确的结果数量，C表示检测结果候选框的数量，T表示真实框的数量。综合评价标F-measure(又称为F-Score)是Precision和Recall加权调和平均，定义如下。

当参数α＝1时，就是最常见的F1，即

本发明综合评价指标采用参数α＝1的F-measure进行评价，也就是F1。

实验设置

实验是在Intel CPU处理器i7-7700，显卡NVIDIA GeForce GTX 2070S,固态硬盘256GB，内存16GB的硬件下进行。在训练过程中，数据的读取速度对训练的时间有着较大的影响，因此为了加快训练速度，本实施例把数据集存储在固态硬盘上进行训练与测试。开发环境采用的是PyCharm 2018.3.8专业版,深度学习框架TensorFlow＝1.11.0，通过Python语言进行实现，并借助TensorBoard 与Matplotlib等可视化工具对训练输出以及训练结果进行可视化。深度学习模型学习率统一采用Adam并设置为0.001，防止后期网络训练的学习率过小导致网络参数陷入某个局部最优解。

实验结果及分析

为了表明提出的算法对深度学习文本检测模型的有效性，实验从四个部分分别对提出的算法进行验证。第1部分是分析BR，CBE，NBR，RBR四个模块对整体检测结果的影响。第2部分是对在主流深度学习文本检测模型后添加本发明提出的算法前后的效果进行对比。第3部分是对本发明提出的后处理方法的鲁棒性进行分析，在不同数据集下使用本发明方法进行对比分析。第4部分是分析添加本发明模块前后对预测处理速度的影响。其中前两个部分采用的数据集是采集的规范彝文数据集，后两个部分采用的是Chinese2k，English2k和规范彝文数据集。

四个模块对检测结果的影响

第一部分采用的原始深度学习模型为East，其基础网络为resnet50。表2统计了添加不同模块进行文本检测的检测结果。BR，CBE，NBR，RBR分别表示背景去除模块，预测框扩张模块，不标准框去除模块，重复框去除模块。0表示不添加该模块，1表示添加该模块，全0表示不添加任何模块，即代表原始深度学习模型的检测结果，全1表示四个模块全部添加，此时效果是最好的。四个模块中，BR模块使预测框与字符间距更小，检测结果更好，CBE模块主要解决检测偏离的问题，NBR模块主要解决字符误认的问题，CBE模块和RBR模块一起解决重叠检测的问题。从实验结果可以看出，不添加任何后处理策略的原始模型性能效果是最低的。在数据集中它的Precision为0.66，Recall为0.69， F1只有0.67。与添加四个后处理模块的模型性能相比，相差百分之三十左右。以四个后处理模块的有无作为单一变量进行对比分析。通过对比表2中1,9组数据，从实验结果可以看出，添加背景去除模块比不添加任何模块的在Precision 上提升了6.3％，在Recall上提升了6.6％，在F1上提升了6.5％。通过对比1,5 组数据，从表中的结果可以看出，添加预测框扩张模块比不添加任何模块的在Precision上提升了18.4％，在Recall上提升了17.7％，在F1上提升了18.1％。通过对比1,3组数据，从表中的结果可以看出，添加不标准框去除模块比不添加任何模块的在Precision上提升了2.7％，在F1上提升了1.3％。通过对比1,2组数据，从表中的结果可以看出，添加重复框去除模块比不添加任何模块的在 Precision上提升了1.7％，在F1上提升了0.9％。

表2不同策略的检测结果

主流深度学习文本检测方法对比

第二部分进行5个深度学习文本检测模型增添本发明方法前后的测试对比。本发明采用的对比网络为Tian和Shu等在CVPR 2019提出的LSAE，Tian和 Huang等在ECCV 2016提出的CTPN，Shi和Bai等在CVPR 2017提出的SegLink， Liao and Shi等在AAAI2017提出的TextBoxes，旷视科技的Zhou和Yao等在 CVPR 2017上提出的EAST。由于原始网络有的是检测文本行的，所以在每个网络模型的基础上进行少许改动，包括输入输出等，使之能够适应单个字符检测。本实施例对所有网络都使用本发明的数据集重新进行训练，没有采用预训练的模型。

表3统计了采用不同深度学习文本检测网络进行添加本发明后处理模块前后文本检测的检测结果。从实验结果可以看出，不添加任何后处理策略的原始深度学习模型性能效果是比较低的。与添加四个后处理模块的模型性能相比，相差百分之三十左右。这进一步说明本实施例提出的算法是有效的。

表3本发明方法对检测结果进行后处理的对比分析

通过比较5种深度学习文本检测模型添加本发明提出的后处理模块前后的检测结果。本实施例可以发现，添加本发明提出的四个后处理模块后，原始的深度学习检测模型无论是从准确率，召回率还是综合评价F1，均有着明显的提升。这与本实施例提出的后处理模块有着紧密的联系。

鲁棒性分析

第三部分为了验证本发明方法的鲁棒性，分别使用了不同的深度学习文本检测方法在不同的数据集上进行了实验，并且与添加本发明后处理方法的检测结果进行了对比分析。这里采用的对比网络为Tian和Huang等在ECCV 2016 提出的CTPN和旷视科技的Zhou和Yao等在CVPR 2017上提出的EAST。表4 统计了不同数据集添加本发明后处理方法前后的的检测结果。从表4中的实验结果可以看到，在English2k，Chinese2k两个数据集上，本发明的方法在准确率，召回率，F1值上至少提高了3％，在规范彝文数据集中，本发明的方法在准确率，召回率，F1值上至少提高了20％。

表4本发明方法对检测结果进行后处理的对比分析

时间复杂度分析

第四部分为了验证本发明方法对文本检测处理时间的影响，使用EAST模型在不同的数据集上进行了实验，并且与添加本发明方法后的处理时间进行了对比分析。由于本实施例是对处理速度进行分析，所以这里采用的是FPS进行评价，它表示一秒处理图片的多少，数值越大表示处理速度越快。从测试结果可以看出在English2k和Chinese2k两个数据集上，其处理速度远大于在规范彝文上的处理速度。这是由于English2k和Chinese2k数据集上测试集的每张图像被检测字符数较少，从表一可知平均分别为19和13，而规范彝文平均每张被检测图像字符数大约为528。在English2k，Chinese2k和规范彝文数据集上，添加本发明方法后处理速度分别下降了7.2％，4.3％，6.7％，都在10％以内，因此是可以接受的。

可知，一般的深度学习文本检测分为网络预测与后处理。网络预测输出候选框坐标，后处理针对候选框坐标进一步处理，一般采用NMS，邻近连接合并等，使文本检测结果更加准确。本发明在文本检测后处理上进行了优化，提出四个紧密相连的后处理模块，解决了字符误认，检测偏离，重叠检测等问题，实现了文本检测的精细化，提升了文本检测效果。其中CBE模块解决了检测偏离的问题，CBE模块和RBR模块一起解决了重叠检测的问题，NBR模块解决了字符误认的问题。本发明将深度学习与精细的后处理完美结合，对文本检测领域作出了一些贡献。四个模块中BR模块与CBE模块对文本检测的准确率和召回率均有提升，而NBR模块与RBR模块对准确率提升明显。

Claims

1.一种基于几何特征的文本检测后处理方法，所述后处理方法用于对原始预测框进行后处理，所述原始预测框通过深度学习文本检测方法得到，其特征在于，所述后处理方法包括如下步骤：

2.根据权利要求1所述的基于几何特征的文本检测后处理方法，其特征在于，步骤S1中，背景去除使用的像素阈值基于自适应阈值算法计算，计算公式如下：

T＝(1-α)×MAX_10+α×MIN_10 (1)

3.根据权利要求2所述的基于几何特征的文本检测后处理方法，其特征在于，权重系数α的取值范围为0.3-0.7。

4.根据权利要求2或3所述的基于几何特征的文本检测后处理方法，其特征在于，步骤S1中，背景去除算法的过程是：

具体的，设原始预测框坐标为u((X₁,Y₁),(X₂,Y₂))，row_min,row_max,col_min,col_max分别表示真实字符区域在Img的行最小索引，行最大索引，列最小索引，列最大索引，基于Getchar()函数判断字符区域像素和T的关系，T为像素阈值，更新预测框坐标公式如下：

5.根据权利要求4所述的基于几何特征的文本检测后处理方法，其特征在于，步骤S2中，候选框扩张算法过程是：

具体的，经过背景去除处理后得到的预测框坐标为u₁((X₁,Y₁),(X₂,Y₂))，E1，E2，E3，E4分别表示字符检测区域上下左右四个边缘的灰度值，基于Getchar()函数判断字符区域像素和T的关系，T为像素阈值，更新预测框坐标公式如下：

6.根据权利要求5所述的基于几何特征的文本检测后处理方法，其特征在于，步骤S3中，不标准框去除算法的过程是：

7.根据权利要求6所述的基于几何特征的文本检测后处理方法，其特征在于，最大阈值与最小阈值分别设为平均值的1.4倍和0.5倍。

8.根据权利要求6所述的基于几何特征的文本检测后处理方法，其特征在于，步骤S4中，重复框去除算法过程是：

首先新建一个空集合S3；