CN110598698B

CN110598698B - 基于自适应区域建议网络的自然场景文本检测方法和系统

Info

Publication number: CN110598698B
Application number: CN201910800835.8A
Authority: CN
Inventors: 姜军; 解猛; 周作禹; 胡忠冰; 曾雄梅; 胡若澜
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-02-15
Anticipated expiration: 2039-08-29
Also published as: CN110598698A

Abstract

本发明公开了一种基于自适应区域建议网络的自然场景文本检测方法和系统，属于图像处理技术领域，包括：对自然场景文本数据集进行标注，得到训练集；构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型；利用训练集训练网络模型时，利用特征提取网络提取训练集的多尺度特征，利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高，利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标，进而得到训练好的网络模型。将待检测自然场景图像输入训练好的网络模型，得到自然场景文本目标框。本发明克服锚点框机制缺陷、检测方法性能佳、文本的召回率高。

Description

基于自适应区域建议网络的自然场景文本检测方法和系统

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种基于自适应区域建议网络的自然场景文本检测方法和系统。

背景技术

作为文字的一种表现形式，自然场景中的文本有着丰富且精确的高级语义信息，这些语义信息对于其周围场景的理解起到了十分重要的作用。正因为此，自然场景中文本信息的自动获取，在自动驾驶、即时翻译、机器人导航、工业自动化等领域具有广泛的应用前景。如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一，此任务包含文本检测和文本识别两个子任务，前者是实现后者的前提。

现有的基于两阶段的自然场景文本检测算法，需要根据数据的先验知识，人为设定一系列不同长宽比的锚点框。这种机制有以下几个缺点：(1)由于自然场景的文本目标的长宽比的动态范围较大，事先定义的尺寸难于覆盖这些范围，导致用于训练区域建议网络的高质量正样本数量少；(2)锚点框尺寸的设置作为网络训练时的一组超参数，其设定需要很强的先验知识且有着较强的主观因素，模型的性能和锚点框设置的好坏有很大关联，若锚点框设置的不合理往往导致整体性能的下降。

由此可见，现有技术存在锚点框机制有缺陷、基于该机制的文本检测方法性能不佳、文本的召回率偏低的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于自适应区域建议网络的自然场景文本检测方法和系统，由此解决现有技术存在锚点框机制有缺陷、基于该机制的文本检测方法性能不佳、文本的召回率偏低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于自适应区域建议网络的自然场景文本检测方法，包括：

将待检测自然场景图像输入训练好的网络模型，得到自然场景文本目标框；

所述网络模型的训练包括：

对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注，得到训练集；

构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型；

利用训练集训练网络模型时，利用特征提取网络提取训练集的多尺度特征，利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高，利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标，当预测文本目标类别与标注的目标类别一致，且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时，利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播，进而得到训练好的网络模型。

进一步地，自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。

进一步地，文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值，文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。

进一步地，自适应区域建议网络的训练包括：

利用文本中心预测分支预测的文本目标中心组成目标中心预测图，对于目标中心预测图中的每一个像素，利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标；

将文本目标中心对应到训练集中原始图片的坐标作为中心点，对于每一个位于真实目标框(ground truth)内部的中心点，分别计算一个最优矩形框；

计算最优矩形框与真实目标框的交并比(Intersection over Union，IOU)；

在目标中心预测图中，将交并比大于0.7的位置的训练标签设置为1，并统计标签为1的数量K；

在位于所有真实目标框的外部的中心点中，随机选取K个位置，设置其训练标签为0；

利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图，在目标宽高预测图中，利用最优矩形框对交并比大于0.7的位置设置训练标签。

进一步地，文本目标中心对应到训练集中原始图片的坐标为(c_x，c_y)：

其中，(i，j)为目标中心预测图中的每一个像素的坐标，s表示各尺度特征相对于原始图片的缩放倍数。

进一步地，最优矩形框为：以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。

进一步地，利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为：

其中，

分别表示在目标宽高预测图中交并比大于0.7的位置的宽、高的训练标签，B_w、B_h分别表示最优矩形框的宽、高，s表示各尺度特征相对于原始图片的缩放倍数，δ为调节系数。

按照本发明的另一方面，提供了一种基于自适应区域建议网络的自然场景文本检测系统，包括：

训练集标注模块，用于对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注，得到训练集；

网络模型构建模块，用于构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型；

训练模块，用于利用训练集训练网络模型时，利用特征提取网络提取训练集的多尺度特征，利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高，利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标，当预测文本目标类别与标注的目标类别一致，且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时，利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播，进而得到训练好的网络模型；

检测模块，用于将待检测自然场景图像输入训练好的网络模型，得到自然场景文本目标框。

进一步地，自适应区域建议网络的训练包括：

坐标模块，用于利用文本中心预测分支预测的文本目标中心组成目标中心预测图，对于目标中心预测图中的每一个像素，利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标；

最优矩形框模块，用于将文本目标中心对应到训练集中原始图片的坐标作为中心点，对于每一个位于真实目标框内部的中心点，分别计算一个最优矩形框；

交并比模块，用于计算最优矩形框与真实目标框的交并比；

训练标签模块，用于在目标中心预测图中，将交并比大于0.7的位置的训练标签设置为1，并统计标签为1的数量K；在位于所有真实目标框的外部的中心点中，随机选取K个位置，设置其训练标签为0；利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图，在目标宽高预测图中，利用最优矩形框对交并比大于0.7的位置设置训练标签。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的基于自适应区域建议网络自然场景文本检测的方法，无需人工总结数据的先验知识来设定锚点框的长宽比，在训练过程中，网络能够自动根据训练数据学习锚点框的尺寸，消除因人为设定锚点框而导致的检测性能的下降。

(2)本发明提供的基于自适应区域建议网络自然场景文本检测的方法，通过自适应区域建议网络的训练，能够有效的减少无效框和冗余框，提高了检测的效率。

(3)本发明提供的基于自适应区域建议网络自然场景文本检测的方法，通过自适应区域建议网络、目标分类与角点回归网络的结合，能够有效的提升最终文本检测的召回率，并提升文本检测的综合性能。

附图说明

图1是本发明实施例提供的一种基于自适应区域建议网络的自然场景文本检测方法的流程示意图；

图2是本发明实施例提供的自适应区域建议网络的结构图；

图3是本发明实施例提供的自适应区域建议网络工作原理示意图；

图4是本发明实施例提供的最优矩形宽高计算示意图；

图5是本发明实施例提供的自适应区域建议网络生成的候选区域；

图6是本发明实施例提供的基于自适应区域建议网络的自然场景文本检测方法的检测结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于自适应区域建议网络的自然场景文本检测方法，包括：

所述网络模型的训练包括：

如图2所示，自适应区域建议网络由一组3*3卷积和两组1*1的卷积构成，通过两组1*1的卷积分别得到文本中心预测分支和文本宽高预测分支。文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值，文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。

如图3所示，自适应区域建议网络的训练包括如下步骤：

(1)利用文本中心预测分支预测的文本目标中心组成目标中心预测图，对于目标中心预测图中的每一个像素，利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标；

(2)将文本目标中心对应到训练集中原始图片的坐标作为中心点，对于每一个位于真实目标框内部的中心点，分别计算一个最优矩形框；

(3)计算最优矩形框与真实目标框的交并比；

(4)在目标中心预测图中，将交并比大于0.7的位置的训练标签设置为1，并统计标签为1的数量K；

(5)在位于所有真实目标框的外部的中心点中，随机选取K个位置，设置其训练标签为0；

(6)利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图，在目标宽高预测图中，利用最优矩形框对交并比大于0.7的位置设置训练标签。

(7)对在步骤(4)、(5)中产生的训练标签，使用Sigmoid交叉熵损失函数进行训练，对步骤(6)中产生的训练标签，使用SmoothL1损失进行训练。

其中，

最优矩形框的宽高为通过如下方式进行确定：

R＝Rect(P，w_i，h_j)，其中i＝1，2，3，4；j＝1，2，3，4

Δ＝(A-4*B)²+16A*C_S*D_S

其中，B_w，B_h分别表示最优矩形的宽和高；R表示待计算的最优矩形框，由Rect(P，w_i，h_j)确定，其中P为矩形R的中心点，w_i，h_j分别表示矩形的宽和高，w_i，h_j分别从集合w和集合h中进行取值；G表示真实目标框矩形框，交并比(R，G)表示计算矩形框R和G的交并比；集合w和集合h中，A表示矩形G的面积，B表示P点与G的四个顶点中，距离其最近的一个顶点所围成的矩形的面积，C_S，C_L分别表示P点到G的左右边界中，较近和较远的距离，D_S，D_L分别表示P点到G的上下边界中，较近和较远的距离；相关参数的标注如图4所示。

在测试过程中，自适应区域建议网络的目标与非目标的分数阈值设定为0.05，自适应区域建议网络输出的候选区域如图5所示，该方法最终的检测结果如图6所示。本发明提供了一种基于自适应区域建议网络的自然场景文本检测方法，其目的在于通过构建和训练自适应区域建议网络，实现区域建议网络中锚点框的自适应生成，由此解决了现有的基于两阶段的自然场景文本检测算法中锚点框机制上的缺陷，提高自然场景文本检测的召回率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应区域建议网络的自然场景文本检测方法，其特征在于，包括：

所述网络模型的训练包括：

利用训练集训练网络模型时，利用特征提取网络提取训练集的多尺度特征，利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高，利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标，当预测文本目标类别与标注的目标类别一致，且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时，利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播，进而得到训练好的网络模型；

所述自适应区域建议网络包括文本中心预测分支和文本宽高预测分支；

所述文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值，文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值；

所述自适应区域建议网络的训练包括：

将文本目标中心对应到训练集中原始图片的坐标作为中心点，对于每一个位于真实目标框内部的中心点，分别计算一个最优矩形框；

计算最优矩形框与真实目标框的交并比；

2.如权利要求1所述的一种基于自适应区域建议网络的自然场景文本检测方法，其特征在于，所述文本目标中心对应到训练集中原始图片的坐标为(c_x,c_y)：

其中，(i,j)为目标中心预测图中的每一个像素的坐标，s表示各尺度特征相对于原始图片的缩放倍数。

3.如权利要求1所述的一种基于自适应区域建议网络的自然场景文本检测方法，其特征在于，所述最优矩形框为：以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。

4.如权利要求1所述的一种基于自适应区域建议网络的自然场景文本检测方法，其特征在于，所述利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为：

其中，

5.一种基于自适应区域建议网络的自然场景文本检测系统，其特征在于，包括：

检测模块，用于将待检测自然场景图像输入训练好的网络模型，得到自然场景文本目标框；

所述自适应区域建议网络包括文本中心预测分支和文本宽高预测分支；所述文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值，文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值；

所述自适应区域建议网络的训练包括：

交并比模块，用于计算最优矩形框与真实目标框的交并比；