CN113762476A

CN113762476A - 一种用于文字检测的神经网络模型及其文字检测方法

Info

Publication number: CN113762476A
Application number: CN202111050408.6A
Authority: CN
Inventors: 周冲浩; 曾山华; 巫浩; 薛利
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Information Technology Co Ltd of CAS
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-07
Anticipated expiration: 2041-09-08
Also published as: CN113762476B

Abstract

本发明适用计算机文字检测识别技术领域，提供了一种用于文字检测的神经网络模型及其文字检测方法，该神经网络结构中，残差网络结构对特征提取阶段的最后一个特征图即第五提取特征图采用空洞卷积获取更大的感受野。并进一步加入密集连接型金字塔池化模块进行计算，获取更加稠密的感受野，特征经由不同扩张率的空洞卷积采样，获取不同尺度的文字图像特征，然后通过密集连接的方式进行结合，得到输出第五融合特征图。这种结合方式比普通卷积和单一的空洞卷积金字塔具有更大的感受野，且不同尺度的特征图的密集连接和相互合并也可获取更加稠密的感受野，特征经由不同扩张率的空洞卷积采样，获取不同尺度的文字图像特征。其文字检测方法也具有同样的技术效果。

Description

一种用于文字检测的神经网络模型及其文字检测方法

技术领域

本发明属于计算机文字检测识别技术领域，尤其涉及一种用于文字检测的神经网络模型及其文字检测方法。

背景技术

自然场景中的文字检测能够传递重要的视觉信息，并且在很大程度上辅助计算机理解和识别。由于自然场景文字较为特殊，背景复杂多变，文字的排列、字体、尺度、长度等属性具有多样性的特点，图像的质量也受拍摄角度、分辨率和光照条件等因素的影响。基于传统计算机视觉的文字检测方法已经不能很好地应对复杂场景。

现有基于传统卷积神经网络堆叠结构的文字检测方式缺乏提取多尺度、多层次特征的能力，而自然场景中的文字目标具有字体多样，尺度大小和宽高比多变的特点，导致现有方法的文字检测准确率欠佳。而基于分割的文字检测方法受限于模型的特征表达能力，在多尺度文字和密集文字上的表现仍有不足，存在分割边界粗糙，多尺度文本漏检问题。现有技术存在不足。

发明内容

本发明的目的在于提供一种用于文字检测的神经网络模型及其文字检测方法，旨在解决由于现有技术中计算机在进行文字检测时感受野太小，特征表征能力欠缺的技术问题。

一方面，本发明提供了一种用于文字检测的神经网络模型，包括输入原图的特征提取网络和输出预测结果的特征融合网络；所述特征提取网络采用卷积层为5个阶段的残差网络结构；

所述残差网络结构的阶段1以原图作为输入，输出二分之一原图大小的第一提取特征图；阶段2至5依次以前一阶段输出的特征图为输入，并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图：

所述残差网络结构的阶段5采用空洞卷积进行特征提取；还包括一个密集连接型金字塔池化模块，对所述第五提取特征图进行由不同扩张率的空洞卷积采样处理，输出第五融合特征图。

另一方面，本发明还提供一种文字检测方法，包括针对输入原图的特征提取步骤和输出预测结果的特征融合步骤；所述特征提取步骤采用卷积层为5个阶段的残差网络；阶段1以原图作为输入，输出二分之一原图大小的第一提取特征图；阶段2至5依次以前一阶段输出的特征图为输入，并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图：

所述特征提取步骤的阶段5采用空洞卷积进行特征提取，并对输出的第五提取特征图采用密集连接型金字塔池化模块进行由不同扩张率的空洞卷积采样处理，输出第五融合特征图。

本发明在神经网络结构中，采用残差网络结构分5个阶段提取输入图像(原图)的文字特征，并对特征提取的最后阶段的特征图即第五提取特征图采用空洞卷积获取更大的感受野。并进一步加入密集连接型金字塔池化模块进行计算，获取更加稠密的感受野。密集连接型金字塔池化模块中的空洞卷积特征经由不同扩张率的空洞卷积采样，既扩张率为1-5序列叠加，获取不同尺度的文字图像特征，然后通过密集连接的方式进行结合，得到第五融合特征图。这种结合方式比普通卷积和单一的空洞卷积金字塔具有更大的感受野，且不同尺度的特征图的密集连接和相互合并也可获取更加稠密的感受野。

附图说明

图1是本发明实施例一提供的可穿戴式设备的身份识别方法的实现流程图。

附图标记说明

C1、第一提取特征图；C2、第二提取特征图；C3、第三提取特征图；C4、第四提取特征图；C5、第五提取特征图；P2、第二融合特征图；P3、第三融合特征图；P4、第四融合特征图；P5、第五融合特征图；DC、空洞卷积。图中，空白的立方体为处理后的特征图，箭头、加号即加入标记的方框为神经网络模型的处理框架。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的一种用于文字检测的神经网络模型的网络结构，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

本发明提供了一种用于文字检测的神经网络模型，包括输入原图的特征提取网络和输出预测结果的特征融合网络；所述特征提取网络采用卷积层为5个阶段的残差网络结构；

所述残差网络结构的阶段1以原图作为输入，输出二分之一原图大小的第一提取特征图C1；阶段2至5依次以前一阶段输出的特征图为输入，并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图C5：

所述残差网络结构的阶段5采用空洞卷积DC进行特征提取；还包括一个密集连接型金字塔池化模块，对所述第五提取特征图C5采用进行由不同扩张率的空洞卷积采样处理，输出第五融合特征图P5。

具体的，残差网络结构对特征提取的最后一个阶段的特征图，即第五提取特征图C5采用空洞卷积获取更大的感受野。并进一步加入密集连接型金字塔池化模块进行计算，获取更加稠密的感受野，特征经由不同扩张率的空洞卷积DC采样，获取不同尺度的文字图像特征，然后通过密集连接的方式进行由不同扩张率的空洞卷积采样，得到第五融合特征图P5。这种结合方式比普通卷积和单一的空洞卷积金字塔具有更大的感受野，且不同尺度的特征图的密集连接和相互合并也可以弥补扩张率较大的空洞卷积核产生的空隙较大无法采样的问题。

进一步的，所述特征融合网络采用特征金字塔网络结构；所述特征金字塔网络结构包括：

1×1的卷积层，设置为四层连续的上采样结构；分别将输入的融合特征图与上一阶段的提取特征图都归一(降维)为256个通道的特征图进行融合，输出上一个阶段的融合特征图；

所述1×1的卷积层基于第五融合特征图P5与第四提取特征图C4进行融合，得到第四融合特征图P4；

在具体实施时，融合操作采用的是将两个待融合特征图的对应位置相加来实现的。

具体的，融合过程中由于第五融合特征图P5和第四提取特征图C4的尺寸一样，所以无需上采样，可以直接进行融合，其余尺寸不一的需融合图片则需分别上采样调整(降维)成相同尺寸。

所述1×1的卷积层基于第四融合特征图P4通过双线性插值的方式进行上采样之后与第三提取特征图C3进行融合，得到第三融合特征图P3；

在具体实施时，本申请的双线性插值是用来扩张待融合的融合特征图的尺寸，使其于待融合的上一阶提取特征图的尺寸保持一致，以便于进行对应位置相加来完成融合。

所述1×1的卷积层基于第三融合特征图P3通过双线性插值的方式进行上采样之后与第二提取特征图C2进行融合，得到第二融合特征图P2。

进一步的，所述特征金字塔网络结构还包括依次连接的Concat层、两个卷积层和上采样输出层；

所述Concat层将所述第五融合特征图P5、所述第四融合特征图P4、所述第三融合特征图P3和所述第二融合特征图P2进行Concat操作，合并后得到最终融合特征图；所述两个卷积层再对所述最终融合特征图进行两次卷积得到7个原图1/4大小的特征图；最后所述上采样输出层基于所述原图1/4大小的特征图输出7个原图大小的预测结果。

其中，最终融合的特征图的尺寸为1024×1/4H×1/4W。H指的是图像的高，W指的是图像宽。

具体的，两个卷积层中，第一次卷积1×1将融合后的特征图通道数从1024降维为256，第二次卷积3×3将融合后的特征图通道数从256降维为7，通过两次卷积之后输出7×1/4H×1/4W的特征图。

进一步的，所述阶段5采用的空洞卷积DC，其扩张率设置为2，特征提取过程中保持输出的特征尺寸与阶段4相同。

进一步的，所述1×1的卷积层与所述Concat层之间还设置有注意力机制模块；所述注意力机制模块的数量与融合特征图的数量对应。

具体的，在多尺度文本检测中所提取的特征既要包含全面的空间分辨率信息，用来定位小尺度文本，也要包含丰富的语义信息用来区分文本区域和其他无关信息。为了有效融合高层语义信息和低层空间分辨率信息，分别对第二融合特征图P2、第三融合特征图P3、第四融合特征图P4和第五融合特征图P5以注意力机制模块进行处理。

注意力机制模块可以作为前向传播中的特征选择器，关注重要特征，抑制不必要的信号，且其在不增加计算开销的情况下，有效获得更大的感受野。

作为一种优选的方式，本申请将密集连接型金字塔池化模块中单个卷积初始参数设置为正态分布，既空洞卷积采样率逐层增加。每个分支的输入都是之前分支输出的拼接，每个分支的输出都有更加密集的感受野信息。具体的，空洞卷积采样率按照1～5的扩张序列叠加。

在具体实施中，空洞卷积(Dilated Convolution,DC)可以优化卷积结构的方法，能够通过增大感受野来提升网络的特征表征性能。

密集连接型金字塔池化模块(Densely connected Atrous Spatial PyramidPooling，DenseASPP)可以将多个不同扩张核的空洞卷积层进行串行组合，充分保留各尺度上的原始特征，采样更加密集，对于多尺度目标有较好效果。在特征融合过程中加入注意力机制也可以有效地突出重要特征。

注意力机制模块(Convolutional Block Attention Module,CBAM)是一种简单有效的注意力模块，分别在通道和空间两个维度上引入注意力机制，通过二者的结合有效地获取目标的显著特征，减少背景等无关特征对结果的影响。

特征金字塔网络(FPN)和残差网络ResNet50共同构成实施例一的神经网络模型。应用于文字检测，能够有效提升网络模型的检测性能。

实施例二：

本发明实施例二提供了文字检测方法的实现流程，具体为，包括针对输入原图的特征提取步骤和输出预测结果的特征融合步骤；所述特征提取步骤采用卷积层为5个阶段的残差网络；阶段1以原图作为输入，输出二分之一原图大小的第一提取特征图C1；阶段2至5依次以前一阶段输出的特征图为输入，并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图C5：

所述特征提取步骤的阶段5采用空洞卷积DC进行特征提取，并对输出的第五提取特征图C5采用密集连接型金字塔池化模块进行由不同扩张率的空洞卷积采样处理，输出第五融合特征图P5。

进一步的，所述特征融合步骤采用1×1的卷积层将输入的融合特征图与上一阶段的提取特征图都归一为256个通道的特征图进行融合，输出上一个阶段的融合特征图；

其中，基于第五融合特征图P5与第四提取特征图C4进行融合，得到第四融合特征图P4；

基于第四融合特征图P4通过双线性插值的方式进行上采样之后与第三提取特征图C3进行融合，得到第三融合特征图P3；

基于第三融合特征图P3通过双线性插值的方式进行上采样之后与第二提取特征图C2进行融合，得到第二融合特征图P2。

进一步的，所述特征融合步骤将所述第五融合特征图P5、所述第四融合特征图P4、所述第三融合特征图P3和所述第二融合特征图P2进行Concat操作，合并后得到最终融合特征图；再对所述最终融合特征图进行两次卷积降维得到7个原图1/4大小的特征图，最后通过一次x4的上采样输出7个原图大小的预测结果。

其中，最终融合的特征图的尺寸为1024×1/4H×1/4W。H指的是图像的高，W指的是图像的宽。

具体的，第一次卷积1×1将融合后的最终特征图通道数从1024降维为256，第二次卷积3×3将融合后的最终特征图通道数从256降维为7，通过两次卷积之后，输出7×1/4H×1/4W的特征图。

进一步的，所述特征提取步骤的阶段5采用的空洞卷积DC，该空洞卷积DC的扩张率设置为2；特征提取过程中保持输出的特征尺寸与阶段4相同。

进一步的，所述特征提取步骤还包括对所述1×1的卷积层输出的第五融合特征图P5、第四融合特征图P4、第三融合特征图P3和第二融合特征图P2进行注意力机制计算，突出重要特征。

通过上述改进有效提升了模型的表征能力，增强了模型的特征提取能力，获得了更好的文本检测效果。

本方法效果提升在ICDAR2015和ICDAR2017-MLT数据集中的表现为：

可见，本申请所采用的文字检测方法具有较准确的检测效果。提高了计算机对图像中的文字的检测效率。

本发明实施例的文字检测的神经网络模型及其文字检测方法结合空洞卷积、Dense ASPP模块和CBAM模块对现有神经网络模型进行了改进，增强了模型的特征提取能力，有效提升了模型的表征能力，获得了更好的文本检测效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于文字检测的神经网络模型，包括输入原图的特征提取网络和输出预测结果的特征融合网络；其特征在于，所述特征提取网络采用卷积层为5个阶段的残差网络结构；

所述残差网络结构的阶段5采用空洞卷积进行特征提取；还包括一个密集连接型金字塔池化模块，对所述第五提取特征图采用进行由不同扩张率的空洞卷积采样处理，输出第五融合特征图。

2.如权利要求1所述的神经网络模型，其特征在于，所述特征融合网络采用特征金字塔网络结构；所述特征金字塔网络结构包括：

1×1的卷积层，设置为四层连续的上采样结构；分别将输入的融合特征图与上一阶段的提取特征图都归一为256个通道的特征图进行融合，输出上一个阶段的融合特征图；

所述1×1的卷积层基于第五融合特征图与第四提取特征图进行融合，得到第四融合特征图；

所述1×1的卷积层基于第四融合特征图通过双线性插值的方式进行上采样之后与第三提取特征图进行融合，得到第三融合特征图；

所述1×1的卷积层基于第三融合特征图通过双线性插值的方式进行上采样之后与第二提取特征图进行融合，得到第二融合特征图。

3.如权利要求2所述的神经网络模型，其特征在于，所述特征金字塔网络结构还包括依次连接的Concat层、两个卷积层和上采样输出层；

所述Concat层将所述第五融合特征图、所述第四融合特征图、所述第三融合特征图和所述第二融合特征图进行Concat操作，合并后得到最终融合特征图；所述两个卷积层再对所述最终融合特征图进行两次卷积得到7个原图1/4大小的特征图；最后所述上采样输出层基于所述原图1/4大小的特征图输出7个原图大小的预测结果。

4.如权利要求1所述的神经网络模型，其特征在于，所述阶段5采用的空洞卷积，其扩张率设置为2，特征提取过程中保持输出的特征尺寸与阶段4相同。

5.如权利要求3所述的神经网络模型，其特征在于，所述1×1的卷积层与所述Concat层之间还设置有注意力机制模块；所述注意力机制模块的数量与融合特征图的数量对应。

6.一种文字检测方法，包括针对输入原图的特征提取步骤和输出预测结果的特征融合步骤；其特征在于，所述特征提取步骤采用卷积层为5个阶段的残差网络；阶段1以原图作为输入，输出二分之一原图大小的第一提取特征图；阶段2至5依次以前一阶段输出的特征图为输入，并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图：

7.如权利要求6所述的文字检测方法，其特征在于，所述特征融合步骤采用1×1的卷积层将输入的融合特征图与上一阶段的提取特征图都归一为256个通道的特征图进行融合，输出上一个阶段的融合特征图；

其中，基于第五融合特征图与第四提取特征图进行融合，得到第四融合特征图；

基于第四融合特征图通过双线性插值的方式进行上采样之后与第三提取特征图进行融合，得到第三融合特征图；

基于第三融合特征图通过双线性插值的方式进行上采样之后与第二提取特征图进行融合，得到第二融合特征图。

8.如权利要求7所述的文字检测方法，其特征在于，所述特征融合步骤将所述第五融合特征图、所述第四融合特征图、所述第三融合特征图和所述第二融合特征图进行Concat操作，合并后得到最终融合特征图；再对所述最终融合特征图进行两次卷积得到7个原图1/4大小的特征图，最后通过上采样输出7个原图大小的预测结果。

9.如权利要求6所述的文字检测方法，其特征在于，所述特征提取步骤的阶段5采用的空洞卷积，该空洞卷积的扩张率设置为2；特征提取过程中保持输出的特征尺寸与阶段4相同。

10.如权利要求7所述的文字检测方法，其特征在于，所述特征提取步骤还包括对所述1×1的卷积层输出的第五融合特征图、第四融合特征图、第三融合特征图和第二融合特征图进行注意力机制计算，突出重要特征。