CN109711401A

CN109711401A - 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Info

Publication number: CN109711401A
Application number: CN201811468492.1A
Authority: CN
Inventors: 李卫军; 沈伟生
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-05-03
Anticipated expiration: 2038-12-03
Also published as: CN109711401B

Abstract

本发明公开了一种基于Faster Rcnn的自然场景图像中的文本检测方法，应用于计算机视觉领域中的文本检测方向，这种方法包括将训练集首先进行进行缩放处理；再将缩放处理后的图像输入到特征金字塔网络中进行处理并将其输出结果输入到RPN中选取文本目标候选区域，同时增加网络模型SSN用于选取候选区域；将两者候选区域进行合成，并将合成结果输入到Fast网络中得到目标候选区域框。这种方法使得文本目标的位置更准确，语义信息更加丰富，并且算法的精确率和召回率也得到大大提高。

Description

一种基于Faster Rcnn的自然场景图像中的文本检测方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于Faster Rcnn的自然场景图像中的文本检测方法。

背景技术

文本检测技术是文本识别的一个核心的前端模块，文本检测技术的水平直接影响着后续的文本识别效果的好坏。自然场景图像是我们现实所处的生活环境，图像中存在着大量的文本信息，这些信息可以作为为场景理解提供有价值的帮助，因此研究一种全自动文本检测技术，对场景图像的检索，分析及场景理解具有重要的意义。但是自然场景图像的分辨率以及其中的不均匀光照，遮挡，模糊，透视变换等客观因素使得自然场景图像中的文本检测问题变得极为困难，高效的文本检测具有很大挑战。

现有技术中存在的Faster Rcnn的文本检测方法，其得到文本目标的框候选框(Proposals)是由RPN在特征网络最后一层Feature maps上进行操作的。最后一层特征图Feature maps特征语义信息比较丰富，但是目标位置比较粗略，往往会将小文本目标忽略，因此无法将自然场景图像中所有文本目标的Proposals找出，导致该方法精确率和召回率低的结果。虽然可以通过RPN来寻找文本目标的候选框Proposals，但是还是受RPN中参数的影响，每给一组参数，找寻到的Proposals也有所不同。

发明内容

本发明为克服上述现有技术所述的找寻的目标位置比较粗略，无法将所有文本目标的候选框Proposals找出的缺陷，提供一种基于Faster Rcnn的自然场景图像中的文本检测方法。

为解决上述技术问题，本发明的技术方案如下：一种基于Faster Rcnn的自然场景图像中的文本检测方法，包括以下步骤：

S1：从数据集中分别选取训练集、测试集以及性能测试集；

S2：将训练集中的图像输入到预训练的网络模型中进行缩放处理；

S3：将缩放处理后的图像输入到特征金字塔网络FPN中进行处理，并将预训练的网络模型的第一层输出输入到预训练的网络模型SSN中进行处理；

S4：将FPN的输出结果输入到RPN中选取文本目标候选区域，并将其与SSN中选取的候选区域进行合成，并将合成结果输入到Fast网络中；

S5：从Fast网络中输出最终的结果得到文本中目标候选区域框；

S6：步骤S1到S5进行迭代直到训练次数达到预设的迭代次数结束训练。

优选地，步骤S2的具体步骤为：将训练图像输入到预训练的网络模型中，依次经过P1、P2、P3，其中P1表示缩放N1倍，P2表示缩放N2倍，P3表示缩放N3倍，其中N1<N2<N3。

优选地，所述N1为4，N2为16，N3为64。

优选地，步骤S3中的将缩放处理后的图像输入到特征金字塔网络FPN中具体步骤为：

S31：FPN中包括P4、P5、P6，其中P3的输出特征图作为P4的特征图；

S32：对P4特征图进行上采样操作，并采用1*1的卷积对P2的输出特征图进行降维处理，将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图；

S33：将P5的特征图进行上采样，并采用1*1的卷积对P1的输出特征图进行降维处理，将经过上采样的特征图与降维处理后的特征图相加作为P6的特征图。

优选地，步骤S3中将预训练的网络模型的最后一层输出输入到预训练的网络模型SSN中进行处理的具体步骤为：

S34：将经过P1缩放N1倍处理后得到的特征图输入到选择性搜索网络中，随机从选择性搜索网络中挑选出Num_SSN个候选框Proposals_ss；

S35：将Num_SSN个Proposals_ss使用Bbox regression1(bounding box回归)进行位置修正得到候选框Proposals_B1。使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1；

S36：将候选框Proposals_B1继续使用Bbox regression2进行位置修正，得到Proposals_B2，并得到此次回归的损失，定义为loss_B2；

S37：将候选框Proposals_B2使用Bbox regression3进行精修正，得到此次回归的损失，定义为loss_B3；

S38：得到修正后的Num_SSN个候选框Proposals映射回特征图上，最终得到候选区域Proposals_SSN；

S39：将loss_B1，loss_B2，loss_B3加起来得到SSN的总损失，记为loss_SSN。

优选地，loss_SSN的公式如下：

其中N_reg1表示参与Bboxregression1训练时的挑选的候选框Proposals个数；

表示对应的文本标签的预测概率，t_i表示预测的第i个候选框Proposal坐标，表示与预测对应的第i个候选框Proposal对应的文本标签坐标，L_reg表示公式如下：

i表示第i个候选框Proposal的索引index。

优选地，步骤S4将FPN的输出结果输入到RPN中选取文本目标候选区域，并将其与SSN中选取的候选区域进行合成，并将合成结果输入到Fast网络中的具体步骤为；

S41：将P4输出的特征图输入到RPN处理得到候选框Proposals1，并且得到损失为loss_RPN1；

S42：将P5输出的特征图输入到RPN处理得到候选框Proposals2，并且得到的损失为loss_RPN2；

S43：将P65输出的特征图输入到RPN处理得到候选框Proposals3，得到的损失为loss_RPN3；

S44：将Proposals1，Proposals2，Proposals3合成得到RPN最终的候选框：

S45：将loss_RPN1，loss_RPN2，loss_RPN3合成得到RPN最终的损失loss_RPNS；

S46：将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s：

优选地，loss_RPNS的公式为：

表示参与softmax训练时候选框的个数

表示公式如下：

λ_j为平衡系数，表示在实际过程中，当和N_reg1的数值差距过大时，用参数λ_j平衡二者，P_i表示候选框Proposals经过softmax判别后是前景框的概率。

优选地，步骤S5从Fast网络中输出最终的结果得到文本中目标候选区域的框的具体步骤为：将Proposals_s输入Fast网络中可得到Fast网络的损失loss_Fast和最终文本中目标候选区域框，并将loss_Fast，loss_RPNS以及loss_SSN合并得到总损失Total_loss：

Total_loss＝loss_RPNS+loss_Fast+loss_SSN。

优选地，采用Mini-batch梯度下降法来优化Total_loss。

与现有技术相比，本发明技术方案的有益效果是：本发明中FPN构架了一个可以进行端端训练的特征金字塔，可以使得不同特征层都能独立进行RPN操作。既使用了低层的语义特征，使得文本目标的位置更准确，也使用了高层的语义特征，语义信息丰富，这样做可以使算法的精确率和召回率大大提高。除了用RPN寻找文本目标的候选框的同时，引入SSN不受参数约束，可以确保输入图像中的所有文本目标的候选框被找出，同样提高算法的精确率和召回率。

附图说明

图1为本发明的技术流程图。

图2为本发明特征金字塔网络(FPN)的流程示意图。

图3为本发明区域候选网络(RPN)的结构图。

图4为本发明各层Feature maps输入区域候选网络(RPN)的流程图。

图5为本发明选择性搜索网络(SSN)的流程示意图。

图6为本发明Fast网络结构的流程示意图。

图7为本发明生成最终结果的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的本发明的总体流程图，包括以下步骤：

S1：从数据集中分别选取训练集、测试集以及性能测试集；

S1.1选择ICDAR2015数据集中的自然场景文本图像作为本发明的输入图像；从数据集中获取已经标注文本框坐标的图像，其中将70％作为训练集，用于对本检测方法的训练，30％作为测试集作为测试模型的性能；将无标注文本框的图像作为最终评判该检测方法最终实际性能的数据集，称之为性能测试集。

S2.1：将训练图像输入到预训练的网络模型中，依次经过P1、P2、P3，其中P1表示将特征图缩放4倍，P2表示将特征图缩放16倍，P3表示将特征图缩放64倍，其流程图如图2所示。

S34：将P1中输出的缩放4倍处理后得到的特征图输入到选择性搜索网络中，随机从选择性搜索网络中挑选出2000个候选框Proposals_ss；

S35：将2000个候选框Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1，使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1；

S38：得到修正后的2000个候选框Proposals映射回特征图上，最终得到候选区域Proposals_SSN；

S39：将loss_B1，loss_B2，loss_B3加起来得到SSN的总损失，记为loss_SSN，公式如下：

表示对应的文本标签(Ground Truth)的预测概率，即当第i个候选框Proposal与文本标签(Ground Truth)间的并交比IOU>0.7时，认为Proposal是前景框，反之IOU<0.3认为Proposal是背景框，

t_i表示预测的第i个候选框Proposal坐标，

表示与预测对应的第i个候选框Proposal对应的文本标签(Ground Truth)坐标，

L_reg表示公式如下：

i表示第i个候选框Proposal的索引index。

其流程图如图5所示。

S41：首先在特征图上每个像素点映射回原图的部分都生成12个有三种长宽比和四种缩放尺度的矩形框，长宽比ratios为width:height＝[1:1,1:2,2:1],缩放尺度scales为[4,8,16,32]。

S42：对各层输入的Feature maps进行3﹡3的卷积操作，然后将其输入两条通道，如图3所示。其中通道1中将3﹡3卷积操作后的Feature maps再做1﹡1的卷积操作进行降维，输入的Feature maps中包含了所有Proposal的特征，然后输入Softmax分类器。在Softmax分类器中，定义候选的Proposal中与文本的标注框即标签的重叠比例大于0.7则称之为前景框(里面有文本)，同理重叠比例小于0.3的称之为背景框(里面无文本看成背景)。以128个前景框和128个背景框来做二分类的训练得到，其中会构造交叉熵作为损失函数，定义为loss1。loss1公式如下：

S43：通道2将3﹡3卷积操作后的Feature maps再做1﹡1的卷积操作进行降维，再将其做边界框回归(Bbox regression),也就是每个Proposal都做边界框的回归操作。通道2训练的时候会使用光滑smoothL1函数作为Bbox regression的损失函数，定义为loss2。loss2公式如下：

S44：将P4、P5、P6输出的特征图输入到RPN并分别经过步骤S41到S43处理依次得到候选框：Proposals1，Proposals2，Proposals3，损失：loss_RPN1，loss_RPN2，loss_RPN3，如图4所示；

S45：将Proposals1，Proposals2，Proposals3合成得到RPN最终的候选框：

S46：将loss_RPN1，loss_RPN2，loss_RPN3合成得到RPN最终的损失：

表示参与softmax训练时候选框的个数

表示公式如下：

λ_j表示在实际过程中，和N_reg1的数值差距过大，用参数λ_j平衡二者，实验仿真过程中λ_j设置为10。

P_i表示候选框Proposals经过softmax判别后是前景框的概率。

S47：将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s：

S5：从Fast网络中输出最终的结果得到文本中目标候选区域框，其简要流程如图7所示；

S51：将候选框Proposals_s进行ROI Pooling的操作得到Proposals_s的特征再输入全连接层中得到高度提纯的Proposals_s特征。

S52：分别输入上下两条通道，其中上面通道继续对候选框做Bbox regression操作，得到候选框Proposal_b。这里的回归也采用光滑的smoothL1函数作为损失函数，定义为loss3，公式如下：

通过Softmax得到候选框是否为文本的分数cls_prod，这里也采用交叉熵损失函数，定义为loss4，公式如下：

S53：对回归修正和判断是否有文本的候选框Proposals_f做非极大值抑制(NMS)操作，得到最终的结果(Result)。

S54：将loss3和loss4相加得到Fast网络的总损失，定义为loss_Fast,公式如下：

其具体流程如图6所示。

S55：将loss_Fast，loss_RPNS以及loss_SSN合并得到总损失Total_loss，并采用Mini-batch梯度下降来优化Total loss：

Total_loss＝loss_RPNS+loss_Fast+loss_SSN。

在一种具体实施例中设置迭代次数为10万次为训练终止条件，使得最终的Totalloss将收敛于0.8到1之间附近波动。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，包括以下步骤：

S1：从数据集中分别选取训练集、测试集以及性能测试集；

S6：步骤S1到S5进行迭代直至训练次数达到预设的迭代次数结束训练。

2.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，步骤S2的具体步骤为：将训练图像输入到预训练的网络模型中，依次经过P1、P2、P3，其中P1表示将特征图缩放N1倍，P2表示将特征图缩放N2倍，P3表示将特征图缩放N3倍，其中N1<N2<N3。

3.根据权利要求2所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，所述N1为4，N2为16，N3为64。

4.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，步骤S3中的将缩放处理后的图像输入到特征金字塔网络FPN中具体步骤为：

5.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，步骤S3中将预训练的网络模型的最后一层输出输入到预训练的网络模型SSN中进行处理的具体步骤为：

S35：将Num_SSN个Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1，使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1；

6.根据权利要求5所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，loss_SSN的公式如下：

其中N_reg1表示参与Bbox regression1训练时的挑选的候选框Proposals个数；

i表示第i个候选框Proposal的索引index。

7.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，步骤S4将FPN的输出结果输入到RPN中选取文本目标候选区域，并将其与SSN中选取的候选区域进行合成，并将合成结果输入到Fast网络中的具体步骤为；

S46：将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s：

8.根据权利要求7所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，loss_RPNS的公式为：

表示参与softmax训练时候选框的个数

表示公式如下：

9.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，步骤S5从Fast网络中输出最终的结果得到文本中目标候选区域的框的具体步骤为：将Proposals_s输入Fast网络中可得到Fast网络的损失loss_Fast和最终文本中目标候选区域框，并将loss_Fast，loss_RPNS以及loss_SSN合并得到总损失Total_loss：

Total_loss＝loss_RPNS+loss_Fast+loss_SSN。

10.根据权利要求7所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法，其特征在于，采用Mini-batch梯度下降法来优化Total_loss。