CN109614938B

CN109614938B - 一种基于深度网络的文本目标检测方法及系统

Info

Publication number: CN109614938B
Application number: CN201811528118.6A
Authority: CN
Inventors: 赵艳梅; 黄贤俊
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Beijing Shenzhi Hengji Technology Co ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2022-03-15
Anticipated expiration: 2038-12-13
Also published as: CN109614938A

Abstract

本发明公开了一种基于深度网络的文本目标检测方法及系统，包括：选择原始图片，对所述原始图片提取特征图；判断所述特征图的锚点框为前景或背景，并利用边框回归器来修正锚点框，得到提议区域；收集输入的特征图和提议区域，提取提议区域的特征图；将所述提议区域的特征图分割成文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图；对每块特征图做对应角点坐标的回归，得到所述原始图片的边框。

Description

一种基于深度网络的文本目标检测方法及系统

技术领域

本发明涉及文本检测技术领域，具体涉及一种基于深度网络的文本目标检测方法及系统。

背景技术

由于文档、票据等边缘特征不明显等因素，导致图像特征总结困难，传统的机器学习方法无法做到准确定位。这里基于深度学习的方法，通过数据收集、数据增广等方式获得大量贴合实际应用场景的数据，然后通过神经网络来自动学习有用特征，避免了人为定义特征的偏差，从而保证学习到的特征才是对最终文本目标检测最有用的特征。

Faster Rcnn是2016年提出的目标检测框架，直到现在依然是主流的目标检测框架之一。在结构上，Faster Rcnn已经将特征提取(feature extraction)，提议区域提取(region proposal)，边框回归(bounding box regression)和分类(classification)都整合在了一个网络中，使得综合性能有较大提高。但是原始的、不做任何改动的Faster Rcnn是只能检测到矩形边框，而不能检测到与实际目标位置相贴合的任意四边形的边框。Faster Rcnn在对目标做位置检测时是要对提议区域(region proposal)的特征回归左上角点横坐标(x)，左上角点纵坐标(y)，边框的宽(w)和高(h)做回归。但是这样的回归出来的边框无法满足实际需求，因为用户实际使用的图片大多都有角度的旋转和角度透视的，而回归出的矩形框的4个点与文档目标的4个角点偏差较大。

现有技术的缺陷为：

常规目标检测框架检测出的目标位置都是矩形，而如果目标旋转角度较大或者存在一定透变时，检测出来的边框与实际目标所处的位置就存在较大差异，这对于需要用到这些检测位置做后续处理的流程来说，无异于增加了很多不确定性；

在对目标每个角的位置做回归时，使用的是整张图片的特征，而实际上，使用与角点对应的小块特征足以回归出对应的角点坐标，而且可以做到更加精确。

发明内容

针对上述问题中存在的不足之处，本发明提供一种基于深度网络的文本目标检测方法及系统。

本发明公开了一种基于深度网络的文本目标检测方法，包括：

选择原始图片，对所述原始图片提取特征图；

判断所述特征图的锚点框为前景或背景，并利用边框回归器来修正锚点框，得到提议区域；

收集输入的特征图和提议区域，提取提议区域的特征图；

将所述提议区域的特征图分割成文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图；

对每块特征图做对应角点坐标的回归，得到所述原始图片的边框。

作为本发明的进一步改进，所述对所述原始图片提取特征图，包括：

通过VGG或ResNet基础特征提取框架提取始图片的特征图。

作为本发明的进一步改进所述判断所述特征图的锚点框为前景或背景，包括：

通过softmax判断特征图的锚点框为前景或背景。

本发明还提供一种基于深度网络的文本目标检测系统，包括：

特征提取模块，用于选择原始图片，对所述原始图片提取特征图；

提议区域提取模块，用于判断所述特征图的锚点框为前景或背景，并利用边框回归器来修正锚点框，得到提议区域；

池化模块，用于收集输入的特征图和提议区域，提取提议区域的特征图；

分割模块，用于将所述提议区域的特征图分割成文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图；

回归模块，用于对每块特征图做对应角点坐标的回归，得到所述原始图片的边框。

通过VGG或ResNet基础特征提取框架提取始图片的特征图。

作为本发明的进一步改进，所述判断所述特征图的锚点框为前景或背景，包括：

通过softmax判断特征图的锚点框为前景或背景。

与现有技术相比，本发明的有益效果为：

本发明能够定位出更贴近于的目标位置形态的坐标位置，即将原来对矩形框4个偏移量(x,y,w,h)的回归改为对文本目标4个角点坐标的回归(每个坐标包含x、y两个值，总共回归8个点)；这尤其对目标检测流程有依赖的后续流程来说具有重要影响，直接决定后续依赖流程检测、识别效果的好坏；

本发明使目标定位更加准确：由于文本目标的特征与实际生活中的物体(如猫狗等)的边缘特征不同，其边缘概念模糊是由它本身属性导致的，所以就使得对文本目标位置的定位偏差较大的问题；在传入到全连接层前通过将特征图切割的方式使得在较小范围上回归单个角点的准确性相比于在整个特征图上回归所有角点的准确性更高。

附图说明

图1为本发明一种实施例公开的基于深度网络的文本目标检测方法的流程图；

图2为本发明一种实施例公开的基于深度网络的文本目标检测系统的框架图；

图3为本发明一种实施例公开的分割成4小块特征图的示意图；

图4为本发明与现有技术对原始图片获取矩形框的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在文本信息检测系统中，首先需要对文本在整张图片中的位置进行检测，其次对文本内部的各种信息做检测。由于文本图片的边缘特征很不明显，另外，包含文本的图片中，通常文本在整张图的占比比较大，所以就导致文本目标定位不准确的情况。而如果文本目标的定位都不准确，则会对后面的基于文本目标的文本内容检测带来巨大影响，直接影响后续检测和识别流程的准确率；因此，必须保证在文本目标定位阶段的准确率。在文本信息检测系统中，文本目标检测方法采用了Faster Rcnn这样的经典Two Stage的目标检测方法。Faster Rcnn在对目标做位置检测时是要对提议区域(region proposal)的特征回归左上角点横坐标(x)，左上角点纵坐标(y)，边框的宽(w)和高(h)做回归。但是这样的回归出来的边框无法满足实际需求，因为用户实际使用的图片大多都有角度的旋转和角度透视的，而回归出的矩形框的4个点与文档目标的4个角点偏差较大。

本发明受到回归矩形边框4个点的启发，通过回归出贴合实际文本目标的四边形边框来提高目标检测的准确率，具体过程可以分两步：

首先增加对目标文本4个角(8个值，分别是4个角的横坐标和纵坐标)做回归，从而给出目标的4个角的坐标位置，输出8个坐标值。

其次，对8个坐标值做进一步的优化。

经过大量实验后，发现每个角点得位置特征跟其局部特征的相关性更高。比如一个目标的左上角点，它在特征图(feature map)上对应的特征区域实质上是左上部分区域的；同理，右下角点的特征是位于特征图右下区域范围的。基于这样的考虑，本发明对Faster Rcnn目标检测框架做了优化，使得对每个角点的位置回归在更小的特征范围内进行，从而取得更好的准确率。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供一种基于深度网络的文本目标检测方法，包括：

S1、选择原始图片，对原始图片提取特征图；具体为：

选择原始图片，原始图片可为票据、营业执照等；通过VGG或ResNet等基础特征提取框架(卷积层+激活层+池化层)来提取图像的特征图(feature maps)，该特征图被共享用于后续RPN层的全连接层；

S2、提议区域的提取(即RPN层)，RPN层用于生成提议区域(region proposals)：其中，RPN层通过softmax判断特征图的锚点框(anchors)为前景或背景，并利用边框回归器来修正锚点框，从而获得较为精确的提议区域；

S3、对提议区域特征的池化：池化层收集输入的特征图和提议区域，提取提议区域的特征图，送入后续的特征分割层；

S4、对提议区域特征进行分割：将提议区域的特征图均分成4小块特征，这4小块特征分别指的是文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图，即如图4所示的4块相同大小的特征；

S5、对每块特征图做对应角点坐标的回归，得到原始图片的边框；如图4所示，边框1的4个角点就是由本发明分割后的特征分别回归得到的，边框2是Faster Rcnn不做任何修改时回归得到的矩形框；由图4的结果可以看出，边框1的位置状态更贴合文档的当前状态，而且边框1的4个角点相比于边框2的4个角点来说，更能精确定位文档的位置。

进一步，本发明将对特征图的分割改为对提议区域的分割也可以实现对回归的4个角点做微调优化的效果；在对正负样例比例调整时，可以将于anchor的交并比(iou)阈值适当设置低一些，从而增加正样例占比。

如图2所示，本发明提供一种基于深度网络的文本目标检测系统，包括：

特征提取模块，用于选择原始图片，对原始图片提取特征图；具体为：

提议区域提取模块(RPN层)，用于提议区域的提取(即RPN层)，RPN层用于生成提议区域(region proposals)：其中，RPN层通过softmax判断特征图的锚点框(anchors)为前景或背景，并利用边框回归器来修正锚点框，从而获得较为精确的提议区域；

池化模块(池化层)，用于对提议区域特征的池化：池化层收集输入的特征图和提议区域，提取提议区域的特征图，送入后续的特征分割层；

分割模块(分割层)，用于对提议区域特征进行分割：将提议区域的特征图均分成4小块特征，这4小块特征分别指的是文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图，即如图4所示的4块相同大小的特征；

回归模块，用于对每块特征图做对应角点坐标的回归，得到原始图片的边框；如图4所示，边框1的4个角点就是由本发明分割后的特征分别回归得到的，边框2是Faster Rcnn不做任何修改时回归得到的矩形框；由图4的结果可以看出，边框1的位置状态更贴合文档的当前状态，而且边框1的4个角点相比于边框2的4个角点来说，更能精确定位文档的位置。

本发明的优点为：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度网络的文本目标检测方法，其特征在于，包括：

选择原始图片，对所述原始图片提取特征图；

收集输入的特征图和提议区域，提取提议区域的特征图；

将所述提议区域的特征图均分成4块相同大小的文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图；

2.如权利要求1所述的基于深度网络的文本目标检测方法，其特征在于，所述对所述原始图片提取特征图，包括：

通过VGG或ResNet基础特征提取框架提取始图片的特征图。

3.如权利要求1所述的基于深度网络的文本目标检测方法，其特征在于，所述判断所述特征图的锚点框为前景或背景，包括：

通过softmax判断特征图的锚点框为前景或背景。

4.一种基于深度网络的文本目标检测系统，其特征在于，包括：

分割模块，用于将所述提议区域的特征图均分成4块相同大小的文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图；

5.如权利要求4所述的基于深度网络的文本目标检测系统，其特征在于，所述对所述原始图片提取特征图，包括：

通过VGG或ResNet基础特征提取框架提取始图片的特征图。

6.如权利要求4所述的基于深度网络的文本目标检测系统，其特征在于，所述判断所述特征图的锚点框为前景或背景，包括：

通过softmax判断特征图的锚点框为前景或背景。