CN115019143A

CN115019143A - 一种基于CNN和Transformer混合模型的文本检测方法

Info

Publication number: CN115019143A
Application number: CN202210677277.2A
Authority: CN
Inventors: 尤志强; 杨静; 钟志伟
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-06

Abstract

本发明公开了一种基于CNN和Transformer混合模型的文本检测方法。该方法采用CNN提取出文本图像一系列不同尺度的基本特征，通过Transformer生成权重嵌入和概率阈值嵌入。利用权重嵌入生成注意力权重，对不同尺度基本特征进行动态尺度融合，得到一个具有强大特征表示能力的融合特征图；对概率阈值嵌入和融合特征图进行标量积相乘得到一个结构轻便且同样具有强大表示能力的概率阈值预测；随后，对概率阈值预测进行反卷积得到概率图和阈值图；最后，通过一个近似二值化公式得到文本图像的二值图，在二值图上寻找联通区域即可得到文本的边界框。本发明能有效地提取图像的局部信息和全局信息，使得解码后的特征包含更多更精准的文本信息，显著提高了文本检测的精度。

Description

一种基于CNN和Transformer混合模型的文本检测方法

技术领域

本发明属于计算机视觉技术下的文本检测领域，具体是一种基于CNN和Transformer混合模型的文本检测方法。

背景技术

自然场景文本检测的目的在于准确定位自然场景中任意形状的文本，它在文档分析、广告牌阅读、自动驾驶等诸多领域应用广泛。尽管近年来已经取得了很大的努力和巨大的进展，但由于文本形状不规则、尺度多样、极端的纵横比以及透视失真和严重模糊，自然场景文本检测仍然是一个具有挑战性的问题。

目前，大多数自然场景文本检测方法都建立在卷积神经网络(CNN)之上。这些方法可以通过一系列堆叠的卷积来捕获语义丰富的信息，并在计算机视觉方面取得了巨大的成功。CNN的成功归功于两个优点，即平移不变性和局部性。然而，卷积滤波器的局部性限制了它对图像中全局信息的提取，导致对长文本次优的检测结果。为了缓解这个问题，有一类主流的处理方式是使用可变形卷积来扩大卷积网络的感受野。然而，这种方式仍然依赖于卷积骨干网络，因此其全局表达性仍然较弱。

近年来，Transformer算法在自然语言处理领域表现优异，许多研究人员尝试将Transformer应用于计算机视觉领域，并取得了较好的成绩。但是Transformer算法仍然存在缺陷。一方面，Transformer没有内置的先验知识，因此需要更多的时间来训练模型。另一方面，由于Transformer在提取低级特征时表现不佳，所以它容易对小文本实例做出错误的预测。

为解决上述这些问题，本发明结合了CNN和Transformer的优点，通过卷积骨干网络和Transformer解码器有效地提取图像的局部信息和全局信息，使得网络表征能力大大增强。并且本发明还提出了一个动态尺度融合模块来动态融合多尺度特征图，这显著提高了尺度鲁棒性并为后续解码提供了强大的表征能力。

发明内容

本发明要解决的技术问题是：提供一种基于CNN和Transformer混合模型的文本检测方法，主要解决背景技术中提到的问题。

为了达到上述目的，本发明采用如下技术方案：

S1、获取自然场景文本公共数据集并对文本图像作一系列数据增强以提高模型的鲁棒性；为了提高训练效率，将所有输入图片统一放缩到H×W。其中H和W分别代表图像的长和宽；自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW-1500和Total-Text；

S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图：P_i，i∈{2,3,4,5}，其图像大小分别为输入图片大小的1/4、1/8、1/16、1/32。随后对这些不同尺度特征图上采样至和P₂同一尺度，得到F₂、F₃、F₄、F₅；

S3、将低分辨率特征图P₅和N个查询送入到Transformer模块里得到N个嵌入；随即通过一个三层的多层感知机对嵌入作进一步的信息解码，得到N个维度为C_ε的功能嵌入，其中C_ε等于步骤S2所述拼接特征图F_concat的通道数，即有C_ε＝4C；N个功能嵌入包含了N₁个权重嵌入ε_w和N₂个概率阈值嵌入ε_pt；其中N₁等于步骤S2中需要融合的特征图数目，即为4；N值是通过自适应的方式获得的，它等于N₁和N₂的相加；对于不同应用场景可以有不同的N值；本发明将N设置为36；

S4、对步骤S2所述的同一尺度特征图F₂、F₃、F₄、F₅进行动态融合得到融合特征图F_fused，融合特征图为后续的解码提供了一个强大的特征表示；

S5、通过一个近似二值化模块对步骤S4中所述融合特征图进行解码得到概率图和阈值图，运用一个近似二值化公式对概率图和阈值图进行计算得到二值图。根据二值图预测得到最后的文本框。

进一步的，步骤S2具体为，对低分辨率特征图P_i+1和高分辨率特征图P_i进行1×1的卷积，使得他们通道数均变为C；通道数C设置为64；然后对P_i+1卷积后的特征图进行2倍的上采样和P_i卷积后的特征图进行相加；随后对相加得到的特征图进行最邻近上采样至和特征图P₂同一尺度，得到F₂、F₃、F₄、F₅；下面的公式可以概括上述过程：

其中

表示进行2^i-2倍的上采样，Conv_k×k(:)表示k×k的卷积核。

进一步的，步骤S3中，所述Transformer模块里不含编码器，仅由6个解码器组成。每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP)；记每个解码器的输入为z_i-1、输出为z_i，LN表示层归一化，则解码器的计算公式如下：

其中a_i-1和c_i-1仅表示中间变量，i∈{1,2,...,6}；自注意力机制由三个逐点线性层组成，将输入z_i-1映射到中间表示：查询Q、键K和值V；其中，逐点线性层由输入z_i-1和一个可学习的矩阵相乘得到；自注意力机制的计算公式如下：

交叉注意力机制(MCA)也由三个逐点线性层组成，其中查询Q由a_i-1映射得到，键

和值

由步骤S2所述的低分辨率特征图P₅映射得到。交叉注意力机制的计算公式如下：

自注意力机制以及交叉注意力机制由于其本身特性，在计算过程中会对输入中的每个向量都进行信息的交互，因此能轻松建模远程语义依赖关系并较好地捕获全局范围特征。

进一步的，步骤S4具体为，首先将步骤S2所述F₂、F₃、F₄、F₅沿通道方向进行拼接，得到通道数为4C的拼接特征图F_concat；然后对步骤S3中转置后的权重嵌入

和上述拼接特征图F_concat∈R^4C×H/4×W/4(4C＝C_ε)作标量积相乘，随后对相乘的结果进行sigmoid函数激活得到注意力权重F_w∈R^4×H/4×W/4，其值在0到1之间，可以达到强化有用图像信息和抑制无用信息的效果。该过程的计算公式如下：

其中Reshape(4C,H/4·W/4)(F_concat)表示将拼接特征图F_concat的形状重新变换为4C×(H/4·W/4)，σ表示sigmoid激活函数。最后，我们将注意力权重沿通道维度划分为4部分，并与步骤S2中相应的缩放特征F_i进行加权乘法以获得融合特征图F_fused∈R^4C×H/4×W/4。

进一步的，步骤S5具体包括以下三个步骤：

S51、对步骤S4所述的融合特征图F_fused∈R^4C×H/4×W/4(4C＝C_ε)和步骤S3中转置后的概率阈值嵌入

进行标量积相乘得到概率阈值预测F_pt∈R^32×H/4×W/4，该过程的计算公式如下：

其中Reshape(C_ε,H/4·W/4)(F_fused)表示将拼接特征图F_concat的形状重新变换为C_ε×(H/4·

W/4)。通常C_ε远远大于32，所以概率阈值预测F_pt相比较于融合特征图F_fused更为轻量化，而且同样能为后续的解码提供一个强大的特征表示。

S52、随后对概率阈值预测F_pt进行两次stride为2的反卷积得到一个通道数为2，大小为H×W的特征图。该特征图的第一个通道对应特征为概率图P，第二个通道特征为阈值图T；随后通过一个近似二值化公式得到二值图，计算公式为：

其中P_i,j和T_i,j分别表示概率图P和阈值图T中像素点位置为(i,j)的值；k表示放缩因子，本发明将其设置为50。

S53、运用Opencv连通域方法中的minAreaRect对二值图寻找连通区域，并通过Vatticlipping算法扩大连通区域以形成最终的文本检测框。

有益效果：相比以往的文本检测方法，本发明的优势在于，在检测长文本和弯曲文本时，检测精度有明显提高；结合了CNN和Transformer的优点，能有效地提取图像的局部信息和全局信息，使得网络表征能力大大增强；设计基于注意力的动态尺度融合模块，使用Transformer解码器来生成注意力权重，达到提取显著的特征，并且起到抑制噪声的作用。

附图说明

图1是本发明一实施例基于CNN与Transformer的混合文本模型方法的检测流程图

图2是本发明实施例中用到的网络结构图

图3是动态尺度融合结构示意图

图4是Transformer结构示意图

图5是本发明实施例的弯曲文本检测效果图

图6是本发明实施例的密集文本检测效果图

图7是本发明实施例的长文本检测效果图

具体实施方式

为了使本领域的技术人员更好地理解本申请方案，下面结合附图及实施例对本发明作进一步详细说明。但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本实施例是一种基于CNN和Transformer混合模型的文本检测方法，整体方法流程如图1所示，网络架构以及模块内部细节如图2-图4所示，其中方法包括以下步骤：

S1、获取自然场景文本公共数据集作为训练图像；自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW-1500和Total-Text；随后对文本图像作一系列数据增强以提高模型的鲁棒性；具体的数据增强策略包括：

(1)在[-10°，10°]的范围对图片进行随机旋转。

(2)以0.5的概率对图片随机翻转。

(3)对图片作随机裁剪。

(4)为了克服正负样本不平衡问题，采用难例挖掘策略，其中正负样本比例为1：3。

(5)为了提高训练效率，在训练时，将所有图片缩放到H×W，其中H和W均为640。

S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图：P_i，i∈{2,3,4,5}，其图像大小分别为输入图片大小的1/4、1/8、1/16、1/32；在本发明一实施例中，基本特征模块中采用的骨干网络为残差网络ResNet-50和ResNet-18。随后对这些不同尺度特征图上采样至和P₂同一尺度，得到通道数均为C的F₂、F₃、F₄、F₅。具体来说，对低分辨率特征图P_i+1和高分辨率特征图P_i进行1×1的卷积，使得他们通道数均变为C。在本发明的实施例中，通道数C设置为64；然后对P_i+1卷积后的特征图进行2倍的上采样和P_i卷积后的特征图进行相加；随后对相加得到的特征图进行最邻近上采样至和特征图P₂同一尺度；下面的公式可以概括上述过程：

其中

表示进行2^i-2倍的上采样，Conv_k×k(:)表示k×k的卷积核。

S3、如图2所示，将低分辨率特征图P₅和N个查询送入到Transformer模块里得到N个嵌入；随即通过一个三层的多层感知机对嵌入作进一步的信息解码，得到N个维度为C_ε的功能嵌入，其中C_ε等于步骤S2所述拼接特征图F_concat的通道数，即有C_ε＝4C；N个功能嵌入包含了N₁个权重嵌入ε_w和N₂个概率阈值嵌入ε_pt；其中N₁等于步骤S2中需要融合的特征图数目，即为4；N值是通过自适应的方式获得的，它等于N₁和N₂的相加；对于不同应用场景可以有不同的N值；本发明将N设置为36；

具体的，如图4所示，Transformer模块里不含编码器，仅由6个解码器组成。每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP)；记每个解码器的输入为z_i-1、输出为z_i，LN表示层归一化，则解码器的计算公式如下：

和值

S4、如图3所示，首先将步骤S2所述F₂、F₃、F₄、F₅沿通道方向进行拼接，得到通道数为4C的拼接特征图F_concat；然后对步骤S3中转置后的权重嵌入

其中Reshape(4C,H/4·W/4)(F_concat)表示将拼接特征图F_concat的形状重新变换为4C×(H/4·W/4)，σ表示sigmoid激活函数。最后，我们将注意力权重沿通道维度划分为4部分，并与步骤S2中相应的缩放特征F_i进行加权乘法以获得融合特征图F_fused∈R^4C×H/4×W/4。融合特征图为后续的解码提供了一个强大的特征表示；

S5、如图2所示，一个近似二值化模块对步骤S4所述融合特征图进行解码得到概率图和阈值图，运用一个近似二值化公式对概率图和阈值图进行计算得到二值图；根据二值图预测得到最后的文本框。

具体的，步骤S5括以下三个步骤：

S51、对步骤S4所述的征图F_fused∈R^4C×H/4×W/4(4C＝C_ε)和步骤S3中转置后的概率阈值嵌入

W/4)。根据步骤S2所述，C＝64，所以C_ε＝256，所以概率阈值预测F_pt相比较于融合特征图F_fused更为轻量化，而且同样能为后续的解码提供一个强大的特征表示。

S53、运用Opencv连通域方法中的minAreaRect对二值图寻找连通区域，并通过Vatti clipping算法扩大连通区域以形成最终的文本检测框。

使用本发明提出的算法对自然场景文本数据集进行训练后，在ICDAR2015数据集上的性能与DB算法(参考文献：Real-time Scene Text Detection with DifferentiableBinarization)的对比如下：

表1两种算法检测效果对比

方法	骨干网络	准确度	召回率	调和平均值	单帧推理时间(ms)
						DB	ResNet-50	86.8％	81.4％	84.0％	206.5
本发明模型	ResNet-50	89.1％	83.1％	86.0％	193.0

从表1中，可以看到本发明模型相较于DB算法在检测准确率、召回率、调和平均值上分别提高了2.3％、1.7％、2％。，在单帧推理时间上降低了13.5ms。

图5到图7给出了一些检测结果图例，可以看到，本发明对弯曲文本，密集文本，长文本，英文与中文均有很好的检测结果。

以上所述仅为本发明的优选实施例而已，但本发明的保护范围并不局限于此，应当指出，对于本领域的技术人员来说，本申请可以有各种更改和变化。根据本发明的技术方案及其发明构思加以修改、等同替换、改进等，都应包含在本申请的保护范围之内。

Claims

1.一种基于CNN和Transformer混合模型的文本检测方法，其特征是，包括以下步骤：

S1、获取自然场景文本公共数据集并对文本图像作一系列数据增强以提高模型的鲁棒性；为了提高训练效率，将所有输入图片统一放缩到H×W；其中H和W分别代表图像的长和宽；自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW-1500和Total-Text；

S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图：P_i，i∈{2,3,4,5}，其图像大小分别为输入图片大小的1/4、1/8、1/16、1/32；随后对这些不同尺度特征图上采样至和P₂同一尺度，得到通道数均为C的F₂、F₃、F₄、F₅；

S5、通过一个近似二值化模块对步骤S4中所述融合特征图进行解码得到概率图和阈值图，运用一个近似二值化公式对概率图和阈值图进行计算得到二值图；根据二值图预测得到最后的文本框。

2.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，所述步骤S2具体为，对低分辨率特征图P_i+1和高分辨率特征图P_i进行1×1的卷积，使得他们通道数均变为C；通道数C设置为64；然后对P_i+1卷积后的特征图进行2倍的上采样和P_i卷积后的特征图进行相加；随后对相加得到的特征图进行最邻近上采样至和特征图P₂同一尺度，得到F₂、F₃、F₄、F₅；下面的公式可以概括上述过程：

其中

表示进行2^i-2倍的上采样，Conv_k×k(:)表示k×k的卷积核。

3.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，步骤S3中，所述Transformer模块里不含编码器，仅由6个解码器组成；每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP)；记每个解码器的输入为z_i-1、输出为z_i，LN表示层归一化，则解码器的计算公式如下：

和值

由权利要求1中步骤S2所述的低分辨率特征图P₅映射得到；交叉注意力机制的计算公式如下：

4.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，所述步骤S4具体为，首先将权利要求1中的步骤S2所述F₂、F₃、F₄、F₅沿通道方向进行拼接，得到通道数为4C的拼接特征图F_concat；然后对权利要求1中的步骤S3所述转置后的权重嵌入

和拼接特征图F_concat∈R^4C×H/4×W/4作标量积相乘，随后对相乘的结果进行sigmoid函数激活得到注意力权重F_w∈R^4×H/4×W/4，其值在0到1之间，可以达到强化有用图像信息和抑制无用信息的效果；该过程的计算公式如下：

其中Reshape(4C,H/4·W/4)(F_concat)表示将拼接特征图F_concat的形状重新变换为4C×(H/4·W/4)，σ表示sigmoid激活函数；最后，我们将注意力权重沿通道维度划分为4部分，并与权利要求1中步骤S2所述相应的缩放特征F_i进行加权乘法以获得融合特征图F_fused∈R^4C ^×H/4×W/4。

5.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，所述步骤S5具体包括以下三个步骤：

S51、对权利要求4中的步骤S4所述融合特征图F_fused∈R^4C×H/4×W/4(4C＝C_ε)和权利要求1中的步骤S3所述转置后的概率阈值嵌入

其中Reshape(C_ε,H/4·W/4)(F_fused)表示将拼接特征图F_concat的形状重新变换为C_ε×(H/4·W/4)；通常C_ε远远大于32，所以概率阈值预测F_pt相比较于融合特征图F_fused更为轻量化，而且同样能为后续的解码提供一个强大的特征表示；

S52、随后对概率阈值预测F_pt进行两次stride为2的反卷积得到一个通道数为2，大小为H×W的特征图；该特征图的第一个通道对应特征为概率图P，第二个通道特征为阈值图T；随后通过一个近似二值化公式得到二值图，计算公式为：

其中P_i,j和T_i,j分别表示概率图P和阈值图T中像素点位置为(i,j)的值；k表示放缩因子，本发明将其设置为50；