CN113095319A

CN113095319A - 基于全卷积角点修正网络的多向场景文字检测方法及装置

Info

Publication number: CN113095319A
Application number: CN202110235490.3A
Authority: CN
Inventors: 王伟平; 周宇; 秦绪功
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-07-09
Anticipated expiration: 2041-03-03
Also published as: CN113095319B

Abstract

本发明公开了一种基于全卷积角点修正网络的多向场景文字检测方法及装置，包括：依据图片的视觉特征，获取融合特征；根据融合特征，分别得到初始特征、初始分数与初始包围框偏移；将初始包围框偏移进行线性变换，得到角点感知卷积的采样网格，并依据该采样网格，对初始特征进行卷积，产生角点感知特征；依据角点感知特征，获取修正分数与修正包围框偏移；根据初始包围框偏移、修正包围框偏移及预定义参考点进行解码运算，获取修正包围框，从而得到多向场景文字检测结果。本发明利用多向场景文本的几何特性进行特征采样，通过角点感知的卷积模块，扩大了有效感受野且没有冗余信息引入，解决了密集长文本和高质量检测的问题，获取更优秀的性能。

Description

基于全卷积角点修正网络的多向场景文字检测方法及装置

技术领域

本发明涉及文字检测领域，尤其涉及一种基于全卷积角点修正网络的多向场景文字检测方法及装置。

技术背景

场景图像的文本检测与识别是近年来的研究热点，其中文字检测是整个流程的重要部分，其任务是将图像中的文字定位出来，再送给文字识别模块，将图片中的文字转录为计算机可以编辑的形式。随着深度学习的发展，文字检测技术取得了极大的进展。现有方法主要可分为自底向上和自顶向下的方法。其中，自底向上的方法首先检测文字对象的局部包围框或是像素，再将这些结果聚合成不同文字实例；自顶向下的方法直接采用直接回归的方案，或是采用先产生建议区域、再进一步修正的方法，得到检测的文字包围框。

但上述方法存在以下缺陷：

1，基于自底向上的方法通常依赖基于手工规则的后处理操作，使得整个流程复杂化，同时，无法端到端优化的特性，使得这类方法无法取得最好的性能。

2，直接回归的方法受限于感受野，对于长文字难以得到完整的检测结果；对于两阶段的方法，其得到建议区域特征提取过程中会引入冗余的上下文信息，在网络训练的过程中引入噪声，进而影响了检测的性能。

3，现有方法很少考虑现实场景中存在的长文本和密集文本场景；同时，检测的质量也很少被考虑到，取得的检测结果往往只满足于较低阈值的指标，而实际中，高质量的检测结果更有意义也更被需求。

发明内容

针对上述问题，本发明公开了一种基于全卷积角点修正网络的多向场景文字检测方法及装置，显式的利用了多向场景文本的几何特性来进行特征采样，并将初始的预测和修正的预测联结到一起，将预测得到的结果编码到特征图之中，得到的特征图可以用来预测新的得分分数和修正后的包围框，从而获取更优秀的性能。

为了实现上述目的，本发明提供了如下的技术方案：

一种基于全卷积角点修正网络的多向场景文字检测方法，将待检测图片输入多向文字检测模型，获取多向场景文字检测结果，其中所述多向文字检测模型利用若干样本图片，通过计算多向文字检测模型的预测值与真值的损失来优化训练训练得到，所述预测值包括：初始分数、初始包围框偏移、修正分数和修正包围框偏移，所述多向文字检测模型的训练步骤包括：

1)依据样本图片的标签，获取样本图片的真值；

2)提取样本图片的视觉特征，并对视觉特征进行特征融合，得到融合特征；

3)对融合特征进行卷积，获取初始特征，并将初始特征分别输入两个不同参数的卷积层，获取初始分数与初始包围框偏移；

4)将初始包围框偏移进行线性变换，计算得到角点感知卷积的采样网格，并依据角点感知卷积的采样网格，对初始特征进行卷积，产生角点感知特征；

5)将角点感知特征分别输入两个不同参数的卷积层，获取修正分数与修正包围框偏移；

6)根据初始包围框偏移、修正包围框偏移及预定义参考点进行解码运算，得到修正包围框，并根据修正包围框与修正分数，获取该样本图片的多向场景文字检测结果。

进一步地，提取视觉特征的方法包括：使用残差网络。

进一步地，残差网络的层数为50层。

进一步地，得到融合特征的方法包括：使用特征金字塔网络。

进一步地，获取初始特征的方法包括：使用若干个连续的卷积层。

进一步地，获取初始分数的卷积层的卷积核数量为1；获取初始包围框偏移的卷积层的卷积核数量为8。

进一步地，获取修正分数的卷积层的卷积核数量为1；获取修正包围框偏移的卷积层的卷积核数量为8。

进一步地，通过以下步骤获取该样本图片的多向场景文字检测结果：

1)将修正分数作为所述修正包围框的置信度，并设定一置信度阈值；

2)通过非最大值抑制与置信度阈值，消除重复与低置信度的修正包围框，得到该样本图片的多向场景文字检测结果。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下优势：

1)显式的利用了多向场景文本的几何特性来进行特征采样，在扩大感受野的同时，没有引入额外的噪声；

2)提出了一个全新的角点感知的卷积模块，该模块可以将初始预测结果编码到特征图之中，在扩大了检测器有效感受野的同时，编码过程中没有冗余信息的引入，并解决了密集长文本和高质量检测的问题；

3)实验表明，本发明在现有数据集上能够取得更优秀的性能，而且，由于卷积的本质属性，本发明提出了模块非常灵活，可以在现有基于卷积网络的大部分方法中使用。

附图说明

图1为本发明的整体网络结构示意图。

图2为本发明的检测头结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图和事例对本发明中技术核心作进一步详细的说明。

本发明提出了一种基于全卷积角点修正网络的多向场景文字检测方法(FC2RN)，如图1所示，FC2RN是一个简单有效的全卷积的多向文字检测模型，以及一个全新的角点感知的卷积模块(CAC)，该模块可以将初始预测结果编码到特征图之中，得到的特征图可以用来进一步的预测修正后的预测结果。整个模型由三部分组成：特征提取模块、特征融合模块、检测头模块。

特征提取模块由一个50层的残差网络构成，残差网络可以提取丰富的视觉特征。

特征融合模块由特征金字塔网络(Tsung-Yi Lin,Piotr Doll′ar,RossB.Girshick,Kaiming He,Bharath Hariharan,and Serge J.Belongie.Feature pyramidnetworks for object detection.In CVPR,pages 936–944,2017.)构成，同时利用低层特征细节信息和高层特征的高级语义信息，通过融合这些不同层的特征进一步增强特征的表达能力。

检测头模块由多个卷积组成，如图2所示。其中，三个连续的卷积首先被用来进一步提取初始特征，接着，两个卷积分别用来预测初始分数和初始包围框偏移。将初始特征和初始包围框偏移输入到角点感知的卷积模块，产生角点感知的特征，该特征被用来进一步预测得到修正的包围框结果。其中，卷积模块从结构上与标准卷积一致，其不同之处在于标准卷积的采样网格是固定的，而角点感知的卷积模块其采样网格是由初始包围框偏移计算得到的。

本发明的整个流程分为以下几步：

1、输入图片经过特征提取模块提取视觉特征。

2、提取得到的视觉特征经过特征融合模块，以融合来自不同层级的特征。

3、对于每一个特征层，参数共享的检测头首先产生初始分数和初始包围框偏移。

4、将得到的初始包围框偏移通过线性变换，计算得到角点感知卷积的采样网格。

5、把步骤四中得到的采样网格和初始的特征输人到角点感知的卷积模块，产生角点感知的特征。

6、将步骤五中得到的角点感知的特征通过卷积计算得到修正分数和修正包围框偏移。

7、将四、六两步中的计算得到的包围框偏移和预定义的参考点进行解码运算，得到修正包围框，步骤六得到的修正分数作为该包围框的置信度。

8、通过非最大值抑制和取阈值，消除重复和低置信度检测框，得到最终输出结果。

9、训练过程中，根据相应正负样本分配规则，对样本的标签进行分配，得到样本的真值，通过计算模型的预测值及相应的真值的损失来优化训练。

本发明的效果

我们进行了广泛的实验以评估FC2RN的效果。我们的模型在四个主流的多向场景文字数据集上进行训练和测试。其中，MSRA-TD500的图像包含较大角度和尺寸变化，有300张训练样本和200张测试样本；RCTW-17为混合粒度标注数据集，包含8034张训练集和4229张测试集，其中英文以单词级别标注，中文以文本行级别标注；ICDAR2015包含1000张训练图像和500张测试图像；COCO-Text包含63686张日常生活的图像，训练集、验证集和测试集的数量分别为43686，10000和10000张。表1和表2展示了本发明各个模块之间的效果对比，结果证明了本发明提出的新模块CAC和角点修正任务的作用。表格3，4，5展示了本发明和其他主流方法在多个数据集上的效果对比，本发明在多个数据集上达到了最好的性能，证明了本发明的有效性。

方法\指标	准确率	召回率	F值
				使用可变形卷积	87.0	84.5	85.7
使用角点感知卷积	90.3	85.2	87.7

表1使用可变形卷积与角点感知卷积在MSRA-TD500性能对比(％)

表2不同模型设置在MSRA-TD500上的性能对比(％)

表3 FC2RN与其他方法在MSRA-TD500与ICDAR2015的性能对比(％)

方法\指标	准确率	召回率	F值
				EAST	59.7	47.8	53.1
RRD	72.4	45.3	55.7
				LOMO	80.4	50.8	62.3
FC2RN	77.5	63.0	69.4

表4 FC2RN与其他方法在RCTW-17上的性能对比(％)

表5 FC2RN与其他方法在COCO-Text上的性能对比(％)

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于全卷积角点修正网络的多向场景文字检测方法，将待检测图片输入多向文字检测模型，获取多向场景文字检测结果，其中所述多向文字检测模型利用若干样本图片，通过计算多向文字检测模型的预测值与真值的损失来优化训练训练得到，所述预测值包括：初始分数、初始包围框偏移、修正分数和修正包围框偏移，所述多向文字检测模型的训练步骤包括：

1)依据样本图片的标签，获取样本图片的真值；

3)对融合特征进行卷积，获取初始特征，并将初始特征分别输入两个不同卷积核数量的卷积层，获取初始分数与初始包围框偏移；

5)将角点感知特征分别输入两个不同卷积核数量的卷积层，获取修正分数与修正包围框偏移；

2.如权利要求1所述的方法，其特征在于，提取视觉特征的方法包括：使用残差网络。

3.如权利要求2所述的方法，其特征在于，残差网络的层数为50层。

4.如权利要求1所述的方法，其特征在于，得到融合特征的方法包括：使用特征金字塔网络。

5.如权利要求1所述的方法，其特征在于，获取初始特征的方法包括：使用若干个连续的卷积层。

6.如权利要求1所述的方法，其特征在于，获取初始分数的卷积层的卷积核数量为1；获取初始包围框偏移的卷积层的卷积核数量为8。

7.如权利要求1所述的方法，其特征在于，获取修正分数的卷积层的卷积核数量为1；获取修正包围框偏移的卷积层的卷积核数量为8。

8.如权利要求1所述的方法，其特征在于，通过以下步骤获取该样本图片的多向场景文字检测结果：

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。