CN110674802B

CN110674802B - 一种改进的平行四边形候选框的文本检测方法

Info

Publication number: CN110674802B
Application number: CN201910857582.8A
Authority: CN
Inventors: 李宏亮; 陶聚; 王强; 杨健榜; 王晓鹏; 罗鹏飞
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2022-10-14
Anticipated expiration: 2039-09-09
Also published as: CN110674802A

Abstract

本发明提出一种改进的平行四边形候选框的文本检测方法，在训练步骤以及检测步骤中，预测特征谱在进入PriorBox层之前先经过偏移学习模块，所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层；PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框；使用平行四边形的候选框来贴近标签GroundTruth，以提升GroundTruth与预测框之间的IoU，从而降低网络回归的困难程度。本发明能准确定位倾斜的长文本，适用于书籍文字识别、然场景下多方向文字识别。

Description

一种改进的平行四边形候选框的文本检测方法

技术领域

本发明涉及文本检测技术，特别涉及文字检测中候选框生成的方法。

背景技术

OCR(Optical Character Recognition)，现泛指图像文字识别，即从图像视频中自动识别文字内容，属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及，分别从业务需求与技术支撑两方面，进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解等等，OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别等等。当今主流的OCR技术主要分为两步：1、文本检测，指的是精确定位出图像中文本的位置；2、文本识别，指的是精确的识别出文本检测中定位出来的图像的文本内容。

传统的OCR技术主要是通过手工设计特征提取方法，再通过对连通域计算最小外接矩形实现对文本的定位。传统的OCR技术手工提取的特征较差，容易出现漏检、错检等问题。而随着信息技术的高速发展，图像数据的指数级增长，硬件条件的提升，基于深度学习的新兴文本检测方法如雨后春笋般快速发展起来。基于深度学习的文本检测方法拥有通过网络自动学习提取特征的优点，实现了检测性能上的质的提升。目前比较流行的文本检测技术有CTPN、TextBoxes_plusplus、TextMoutain等，它们都有各自的优缺点，比如CTPN方法拥有较快的速度，但却无法检测倾斜文本；TextBoxes_plusplus文本检测方法虽可以检测倾斜文本，但是其无法精确定位长文本以及倾斜文本。

TextBoxes_plusplus的网络结构如下：

TextBoxes_plusplus检测算法包括步骤：

1)训练步骤：

1-1)输入样本图像经过基于VGG16的主干网络得到的预测特征谱，预测特征谱分别来自于网络中6个卷积层或全连接层conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2；

样本图像的标签GroundTruth为

其中

q＝1,2,3,4是GroundTruth的四个顶点，

为GroundTruth的水平最小外接矩形的左上角以及右下角坐标。具体形式如图1。

1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及矩形候选框坐标；回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度；

1-3)将回归特征谱、分类特征谱以及矩形候选框坐标输入至损失层Loss进行回归损失与分类损失计算，再根据损失调整网络参数，返回步骤1-1)重复训练步骤直至达到训练结束条件；损失层Loss在回归特征谱上根据矩形候选框坐标生成矩形预测框，用这些矩形预测框与GroundTruth计算IoU(Intersection over Union)，当IoU大于0.5时将该预测框记为正样本，IoU小于0.5的预测框记为负样本。由于匹配上同一个GroundTruth的预测框可能存在很多个，因此通过NMS算法来将这些冗余的文本框去除，保留IoU最大的一个预测框。

2)测试步骤：

2-1)输入测试图像经过基于VGG16的主干网络得到的预测特征谱；

2-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及候选框坐标；回归特征谱为图像特征谱、分类特征谱为分类置信度；

2-3)将回归特征谱、分类特征谱以及PriorBox输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。

上述TextBoxes_plusplus算法由于候选框的生成机制缺陷，导致预测框无法有效降低回归损失，因此无法准确定位倾斜的长文本甚至导致漏检。

发明内容

本发明所要解决的技术问题是，针对现有图像文字识别中对长、倾斜文本定位准确率低的问题，基于TextBoxes_plusplus检测算法的基础上提出一种改进的候选框的文本检测方法。

本发明为解决上述技术问题所采用的技术方案是，一种改进的平行四边形候选框的文本检测方法，在训练步骤以及检测步骤中，预测特征谱在进入PriorBox层之前先经过偏移学习模块，所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层；

PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框；

PriorBox层计算平行四边形候选框的四个顶点坐标的方法为：

x₁＝x_center-bb_width/2

y₁＝y_center-bb_height(1-dy)/2

x₂＝x_center+bb_width/2

y₂＝y_center-bb_height(1+dy)/2

x₃＝x_center-bb_width/2

y₃＝y_center+bb_width(1+dy)/2

x₄＝x_center+bb_width/2

y₄＝y_center+bb_height(1-dy)/2

其中，(x_q,y_q),q＝1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点，x_center、y_center分别为预测特征谱的中心的横、纵坐标，bb_width、bb_height分别为PriorBox层中预设的框宽、框高，dy为偏移学习模块输出的偏移量。

具体的，前置偏移学习模块通过深度卷积神经网络对水平的候选框无监督的学习一个Y轴方向的偏移量，再将该偏移量通过激活函数操作将其归一化到(-1,1)之间，将归一化后的偏移量增加到候选框的垂直方向上，形成最终的平行四边形候选框。使用平行四边形的候选框来贴近标签GroundTruth，以提升GroundTruth与预测框之间的IoU，从而降低网络回归的困难程度。

本发明的有益效果是，能准确定位倾斜的长文本，适用于书籍文字识别、然场景下多方向文字识别。

附图说明

图1为训练数据集标签说明；

图2为矩形候选框匹配与平行四边形候选框匹配对比；

图3为本发明训练步骤流程图。

具体实施方式

在现有TextBoxes_plusplus网络的基础上，在预测特征谱输出处conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2连接一个用于学习候选框偏移量的深度卷积神经网络作为前置于PriorBox层之前的模块，即偏移学习模块。偏移学习模块依次由卷积层conv1、卷积层conv1_1、卷积层conv1_2、全局池化和激活函数串联而成。

卷积层conv1的通道数为现有TextBoxes_plusplus网络生成的矩形候选框类型的两倍，卷积核尺寸为3x3，步长为1x1，Pad为1x1。卷积层conv1_1和卷积层conv1_2的卷积核尺寸为1x1，步长为1x1，填充为0x0，通道数与卷积层conv1的通道数相同。对卷积层conv1_2的输出进行全局池化将特征谱降维到1x1x3的大小后输入tanh函数形式的激活函数进行归一化，最终结果记为conv2_active，conv2_active∈(-1,1)。激活函数F如下：

F(x)＝tanh(x)

本发明主要包括以下步骤：

1)训练步骤，如图3所示：

1-1)输入样本图像经过基于VGG16的主干网络得到的预测特征谱，预测特征谱分别来自于网络中卷积层conv4_3、全连接层fc7、卷积层conv6_2、卷积层conv7_2、卷积层conv8_2、卷积层conv9_2；样本图像的标签GroundTruth输入至损失层Loss；

1-2)将预测特征谱分别输入XX、XX以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标；回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度；

偏移学习模块用于生成候选框在Y轴方向的偏移量conv2_active与预测特征谱一同输出至PriorBox层；

PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框；矩形候选框坐标计算公式与原网络一致，平行四边形候选框的四个顶点坐标计算公式如下：

x₁＝x_center-bb_width/2

y₁＝y_center-bb_height(1-dy)/2

x₂＝x_center+bb_width/2

y₂＝y_center-bb_height(1+dy)/2

x₃＝x_center-bb_width/2

y₃＝y_center+bb_width(1+dy)/2

x₄＝x_center+bb_width/2

y₄＝y_center+bb_height(1-dy)/2

其中，(x_q,y_q),q＝1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点，x_center、y_center分别为预测特征谱的中心的横、纵坐标，bb_width、bb_height分别为PriorBox层中预设的框宽、框高，dy为偏移学习模块输出的偏移量，由conv2_active赋值；

1-3)将回归特征谱、分类特征谱以及候选框坐标输入至损失层进行回归损失与分类损失计算，再根据损失调整网络参数，返回步骤1-1)重复训练步骤直至达到训练结束条件；损失层Loss在回归特征谱上根据矩形候选框坐标生成矩形预测框，用这些矩形预测框与GroundTruth计算IoU(Intersection over Union)，当IoU大于0.5时将该预测框记为正样本，IoU小于0.5的预测框记为负样本。由于匹配上同一个GroundTruth的预测框可能存在很多个，因此通过NMS算法来将这些冗余的文本框去除，保留IoU最大的一个预测框。

在损失层中，矩形候选框与GroundTruth的

来直接计算IoU。平行四边形候选框与GroundTruth匹配时，则先将GroundTruth的

转化为

转化公式为

再用平行四边形候选框四个顶点的坐标与

计算IoU。匹配完成之后按照正负样本1:3的比例计算损失。

实施例中计算分类损失的时候采取正负样本1:3的策略进行训练，计算回归损失时仅计算正样本的回归损失，图2为原始方法与本发明方法对比，可以看出采用平行四边形的候选框可以有效拉近预测框与GroundTruth之间的偏移距离，使得回归损失进一步的降低，提升回归任务的准确率。

2)测试步骤：

2-1)输入测试图像经过基于VGG16的主干网络得到的预测特征谱，预测特征谱分别来自于网络中卷积层conv4_3、全连接层fc7、卷积层conv6_2、卷积层conv7_2、卷积层conv8_2、卷积层conv9_2；

2-2)将预测特征谱分别输入XX、XX以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标；回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度；

2-3)将回归特征谱、分类特征谱以及PriorBox层同时输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。

Claims

1.一种改进的平行四边形候选框的文本检测方法，其特征在于，包括以下步骤：

1)训练步骤：

1-1)得到样本图像的预测特征谱；

1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标；回归特征谱为图像特征谱、分类特征谱为分类置信度；

所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层；

PriorBox层计算平行四边形候选框的四个顶点坐标的方法为：

x₁＝x_center-bb_width/2

y₁＝y_center-bb_height(1-dy)/2

x₂＝x_center+bb_width/2

y₂＝y_center-bb_height(1+dy)/2

x₃＝x_center-bb_width/2

y₃＝y_center+bb_width(1+dy)/2

x₄＝x_center+bb_width/2

y₄＝y_center+bb_height(1-dy)/2

其中，(x_q，y_q)，q＝1，2，3，4分别是平行四边形候选框的左上、右上、左下、右下四个顶点，x_center、y_center分别为预测特征谱的中心的横、纵坐标，bb_width、bb_height分别为PriorBox层中预设的框宽、框高，dy为偏移学习模块输出的偏移量；

1-3)将回归特征谱、分类特征谱以及候选框坐标输入至损失层进行回归损失与分类损失计算，再根据损失调整网络参数，返回步骤1-1)重复训练步骤直至达到训练结束条件；

2)测试步骤：

2-1)得到测试图像的预测特征谱；

2-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标；前置偏移学习模块通过深度卷积神经网络对水平的候选框无监督的学习一个Y轴方向的偏移量，再将该偏移量通过激活函数操作将其归一化到(-1，1)之间，将归一化后的偏移量增加到候选框的垂直方向上，形成最终的平行四边形候选框；

2.如权利要求1所述方法，其特征在于，偏移学习模块对输入的预测特征谱依次经卷积层conv1、卷积层conv1_1、卷积层conv1_2、全局池化和激活函数操作得到输出值conv2_active，并将输出值conv2_active赋值给偏移量；

卷积层conv1的卷积核尺寸为3x3，步长为1x1，填充为1x1，通道数为矩形候选框类型的两倍；

卷积层conv1_1和卷积层conv1_2的卷积核尺寸为1x1，步长为1x1，填充为0x0，通道数与卷积层conv1的通道数相同；

全局池化输出的特征谱尺寸为1x1x3；

激活函数为tanh函数。