CN115019143A - 一种基于CNN和Transformer混合模型的文本检测方法 - Google Patents
一种基于CNN和Transformer混合模型的文本检测方法 Download PDFInfo
- Publication number
- CN115019143A CN115019143A CN202210677277.2A CN202210677277A CN115019143A CN 115019143 A CN115019143 A CN 115019143A CN 202210677277 A CN202210677277 A CN 202210677277A CN 115019143 A CN115019143 A CN 115019143A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- map
- fused
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 3
- 108020001507 fusion proteins Proteins 0.000 claims 1
- 102000037865 fusion proteins Human genes 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于CNN和Transformer混合模型的文本检测方法。该方法采用CNN提取出文本图像一系列不同尺度的基本特征,通过Transformer生成权重嵌入和概率阈值嵌入。利用权重嵌入生成注意力权重,对不同尺度基本特征进行动态尺度融合,得到一个具有强大特征表示能力的融合特征图;对概率阈值嵌入和融合特征图进行标量积相乘得到一个结构轻便且同样具有强大表示能力的概率阈值预测;随后,对概率阈值预测进行反卷积得到概率图和阈值图;最后,通过一个近似二值化公式得到文本图像的二值图,在二值图上寻找联通区域即可得到文本的边界框。本发明能有效地提取图像的局部信息和全局信息,使得解码后的特征包含更多更精准的文本信息,显著提高了文本检测的精度。
Description
技术领域
本发明属于计算机视觉技术下的文本检测领域,具体是一种基于CNN和Transformer混合模型的文本检测方法。
背景技术
自然场景文本检测的目的在于准确定位自然场景中任意形状的文本,它在文档分析、广告牌阅读、自动驾驶等诸多领域应用广泛。尽管近年来已经取得了很大的努力和巨大的进展,但由于文本形状不规则、尺度多样、极端的纵横比以及透视失真和严重模糊,自然场景文本检测仍然是一个具有挑战性的问题。
目前,大多数自然场景文本检测方法都建立在卷积神经网络(CNN)之上。这些方法可以通过一系列堆叠的卷积来捕获语义丰富的信息,并在计算机视觉方面取得了巨大的成功。CNN的成功归功于两个优点,即平移不变性和局部性。然而,卷积滤波器的局部性限制了它对图像中全局信息的提取,导致对长文本次优的检测结果。为了缓解这个问题,有一类主流的处理方式是使用可变形卷积来扩大卷积网络的感受野。然而,这种方式仍然依赖于卷积骨干网络,因此其全局表达性仍然较弱。
近年来,Transformer算法在自然语言处理领域表现优异,许多研究人员尝试将Transformer应用于计算机视觉领域,并取得了较好的成绩。但是Transformer算法仍然存在缺陷。一方面,Transformer没有内置的先验知识,因此需要更多的时间来训练模型。另一方面,由于Transformer在提取低级特征时表现不佳,所以它容易对小文本实例做出错误的预测。
为解决上述这些问题,本发明结合了CNN和Transformer的优点,通过卷积骨干网络和Transformer解码器有效地提取图像的局部信息和全局信息,使得网络表征能力大大增强。并且本发明还提出了一个动态尺度融合模块来动态融合多尺度特征图,这显著提高了尺度鲁棒性并为后续解码提供了强大的表征能力。
发明内容
本发明要解决的技术问题是:提供一种基于CNN和Transformer混合模型的文本检测方法,主要解决背景技术中提到的问题。
为了达到上述目的,本发明采用如下技术方案:
S1、获取自然场景文本公共数据集并对文本图像作一系列数据增强以提高模型的鲁棒性;为了提高训练效率,将所有输入图片统一放缩到H×W。其中H和W分别代表图像的长和宽;自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW-1500和Total-Text;
S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图:Pi,i∈{2,3,4,5},其图像大小分别为输入图片大小的1/4、1/8、1/16、1/32。随后对这些不同尺度特征图上采样至和P2同一尺度,得到F2、F3、F4、F5;
S3、将低分辨率特征图P5和N个查询送入到Transformer模块里得到N个嵌入;随即通过一个三层的多层感知机对嵌入作进一步的信息解码,得到N个维度为Cε的功能嵌入,其中Cε等于步骤S2所述拼接特征图Fconcat的通道数,即有Cε=4C;N个功能嵌入包含了N1个权重嵌入εw和N2个概率阈值嵌入εpt;其中N1等于步骤S2中需要融合的特征图数目,即为4;N值是通过自适应的方式获得的,它等于N1和N2的相加;对于不同应用场景可以有不同的N值;本发明将N设置为36;
S4、对步骤S2所述的同一尺度特征图F2、F3、F4、F5进行动态融合得到融合特征图Ffused,融合特征图为后续的解码提供了一个强大的特征表示;
S5、通过一个近似二值化模块对步骤S4中所述融合特征图进行解码得到概率图和阈值图,运用一个近似二值化公式对概率图和阈值图进行计算得到二值图。根据二值图预测得到最后的文本框。
进一步的,步骤S2具体为,对低分辨率特征图Pi+1和高分辨率特征图Pi进行1×1的卷积,使得他们通道数均变为C;通道数C设置为64;然后对Pi+1卷积后的特征图进行2倍的上采样和Pi卷积后的特征图进行相加;随后对相加得到的特征图进行最邻近上采样至和特征图P2同一尺度,得到F2、F3、F4、F5;下面的公式可以概括上述过程:
进一步的,步骤S3中,所述Transformer模块里不含编码器,仅由6个解码器组成。每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP);记每个解码器的输入为zi-1、输出为zi,LN表示层归一化,则解码器的计算公式如下:
其中ai-1和ci-1仅表示中间变量,i∈{1,2,...,6};自注意力机制由三个逐点线性层组成,将输入zi-1映射到中间表示:查询Q、键K和值V;其中,逐点线性层由输入zi-1和一个可学习的矩阵相乘得到;自注意力机制的计算公式如下:
自注意力机制以及交叉注意力机制由于其本身特性,在计算过程中会对输入中的每个向量都进行信息的交互,因此能轻松建模远程语义依赖关系并较好地捕获全局范围特征。
进一步的,步骤S4具体为,首先将步骤S2所述F2、F3、F4、F5沿通道方向进行拼接,得到通道数为4C的拼接特征图Fconcat;然后对步骤S3中转置后的权重嵌入和上述拼接特征图Fconcat∈R4C×H/4×W/4(4C=Cε)作标量积相乘,随后对相乘的结果进行sigmoid函数激活得到注意力权重Fw∈R4×H/4×W/4,其值在0到1之间,可以达到强化有用图像信息和抑制无用信息的效果。该过程的计算公式如下:
其中Reshape(4C,H/4·W/4)(Fconcat)表示将拼接特征图Fconcat的形状重新变换为4C×(H/4·W/4),σ表示sigmoid激活函数。最后,我们将注意力权重沿通道维度划分为4部分,并与步骤S2中相应的缩放特征Fi进行加权乘法以获得融合特征图Ffused∈R4C×H/4×W/4。
进一步的,步骤S5具体包括以下三个步骤:
S51、对步骤S4所述的融合特征图Ffused∈R4C×H/4×W/4(4C=Cε)和步骤S3中转置后的概率阈值嵌入进行标量积相乘得到概率阈值预测Fpt∈R32×H/4×W/4,该过程的计算公式如下:
其中Reshape(Cε,H/4·W/4)(Ffused)表示将拼接特征图Fconcat的形状重新变换为Cε×(H/4·
W/4)。通常Cε远远大于32,所以概率阈值预测Fpt相比较于融合特征图Ffused更为轻量化,而且同样能为后续的解码提供一个强大的特征表示。
S52、随后对概率阈值预测Fpt进行两次stride为2的反卷积得到一个通道数为2,大小为H×W的特征图。该特征图的第一个通道对应特征为概率图P,第二个通道特征为阈值图T;随后通过一个近似二值化公式得到二值图,计算公式为:
其中Pi,j和Ti,j分别表示概率图P和阈值图T中像素点位置为(i,j)的值;k表示放缩因子,本发明将其设置为50。
S53、运用Opencv连通域方法中的minAreaRect对二值图寻找连通区域,并通过Vatticlipping算法扩大连通区域以形成最终的文本检测框。
有益效果:相比以往的文本检测方法,本发明的优势在于,在检测长文本和弯曲文本时,检测精度有明显提高;结合了CNN和Transformer的优点,能有效地提取图像的局部信息和全局信息,使得网络表征能力大大增强;设计基于注意力的动态尺度融合模块,使用Transformer解码器来生成注意力权重,达到提取显著的特征,并且起到抑制噪声的作用。
附图说明
图1是本发明一实施例基于CNN与Transformer的混合文本模型方法的检测流程图
图2是本发明实施例中用到的网络结构图
图3是动态尺度融合结构示意图
图4是Transformer结构示意图
图5是本发明实施例的弯曲文本检测效果图
图6是本发明实施例的密集文本检测效果图
图7是本发明实施例的长文本检测效果图
具体实施方式
为了使本领域的技术人员更好地理解本申请方案,下面结合附图及实施例对本发明作进一步详细说明。但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本实施例是一种基于CNN和Transformer混合模型的文本检测方法,整体方法流程如图1所示,网络架构以及模块内部细节如图2-图4所示,其中方法包括以下步骤:
S1、获取自然场景文本公共数据集作为训练图像;自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW-1500和Total-Text;随后对文本图像作一系列数据增强以提高模型的鲁棒性;具体的数据增强策略包括:
(1)在[-10°,10°]的范围对图片进行随机旋转。
(2)以0.5的概率对图片随机翻转。
(3)对图片作随机裁剪。
(4)为了克服正负样本不平衡问题,采用难例挖掘策略,其中正负样本比例为1:3。
(5)为了提高训练效率,在训练时,将所有图片缩放到H×W,其中H和W均为640。
S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图:Pi,i∈{2,3,4,5},其图像大小分别为输入图片大小的1/4、1/8、1/16、1/32;在本发明一实施例中,基本特征模块中采用的骨干网络为残差网络ResNet-50和ResNet-18。随后对这些不同尺度特征图上采样至和P2同一尺度,得到通道数均为C的F2、F3、F4、F5。具体来说,对低分辨率特征图Pi+1和高分辨率特征图Pi进行1×1的卷积,使得他们通道数均变为C。在本发明的实施例中,通道数C设置为64;然后对Pi+1卷积后的特征图进行2倍的上采样和Pi卷积后的特征图进行相加;随后对相加得到的特征图进行最邻近上采样至和特征图P2同一尺度;下面的公式可以概括上述过程:
S3、如图2所示,将低分辨率特征图P5和N个查询送入到Transformer模块里得到N个嵌入;随即通过一个三层的多层感知机对嵌入作进一步的信息解码,得到N个维度为Cε的功能嵌入,其中Cε等于步骤S2所述拼接特征图Fconcat的通道数,即有Cε=4C;N个功能嵌入包含了N1个权重嵌入εw和N2个概率阈值嵌入εpt;其中N1等于步骤S2中需要融合的特征图数目,即为4;N值是通过自适应的方式获得的,它等于N1和N2的相加;对于不同应用场景可以有不同的N值;本发明将N设置为36;
具体的,如图4所示,Transformer模块里不含编码器,仅由6个解码器组成。每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP);记每个解码器的输入为zi-1、输出为zi,LN表示层归一化,则解码器的计算公式如下:
其中ai-1和ci-1仅表示中间变量,i∈{1,2,...,6};自注意力机制由三个逐点线性层组成,将输入zi-1映射到中间表示:查询Q、键K和值V;其中,逐点线性层由输入zi-1和一个可学习的矩阵相乘得到;自注意力机制的计算公式如下:
自注意力机制以及交叉注意力机制由于其本身特性,在计算过程中会对输入中的每个向量都进行信息的交互,因此能轻松建模远程语义依赖关系并较好地捕获全局范围特征。
S4、如图3所示,首先将步骤S2所述F2、F3、F4、F5沿通道方向进行拼接,得到通道数为4C的拼接特征图Fconcat;然后对步骤S3中转置后的权重嵌入和上述拼接特征图Fconcat∈R4C×H/4×W/4(4C=Cε)作标量积相乘,随后对相乘的结果进行sigmoid函数激活得到注意力权重Fw∈R4×H/4×W/4,其值在0到1之间,可以达到强化有用图像信息和抑制无用信息的效果。该过程的计算公式如下:
其中Reshape(4C,H/4·W/4)(Fconcat)表示将拼接特征图Fconcat的形状重新变换为4C×(H/4·W/4),σ表示sigmoid激活函数。最后,我们将注意力权重沿通道维度划分为4部分,并与步骤S2中相应的缩放特征Fi进行加权乘法以获得融合特征图Ffused∈R4C×H/4×W/4。融合特征图为后续的解码提供了一个强大的特征表示;
S5、如图2所示,一个近似二值化模块对步骤S4所述融合特征图进行解码得到概率图和阈值图,运用一个近似二值化公式对概率图和阈值图进行计算得到二值图;根据二值图预测得到最后的文本框。
具体的,步骤S5括以下三个步骤:
其中Reshape(Cε,H/4·W/4)(Ffused)表示将拼接特征图Fconcat的形状重新变换为Cε×(H/4·
W/4)。根据步骤S2所述,C=64,所以Cε=256,所以概率阈值预测Fpt相比较于融合特征图Ffused更为轻量化,而且同样能为后续的解码提供一个强大的特征表示。
S52、随后对概率阈值预测Fpt进行两次stride为2的反卷积得到一个通道数为2,大小为H×W的特征图。该特征图的第一个通道对应特征为概率图P,第二个通道特征为阈值图T;随后通过一个近似二值化公式得到二值图,计算公式为:
其中Pi,j和Ti,j分别表示概率图P和阈值图T中像素点位置为(i,j)的值;k表示放缩因子,本发明将其设置为50。
S53、运用Opencv连通域方法中的minAreaRect对二值图寻找连通区域,并通过Vatti clipping算法扩大连通区域以形成最终的文本检测框。
使用本发明提出的算法对自然场景文本数据集进行训练后,在ICDAR2015数据集上的性能与DB算法(参考文献:Real-time Scene Text Detection with DifferentiableBinarization)的对比如下:
表1两种算法检测效果对比
方法 | 骨干网络 | 准确度 | 召回率 | 调和平均值 | 单帧推理时间(ms) |
DB | ResNet-50 | 86.8% | 81.4% | 84.0% | 206.5 |
本发明模型 | ResNet-50 | 89.1% | 83.1% | 86.0% | 193.0 |
从表1中,可以看到本发明模型相较于DB算法在检测准确率、召回率、调和平均值上分别提高了2.3%、1.7%、2%。,在单帧推理时间上降低了13.5ms。
图5到图7给出了一些检测结果图例,可以看到,本发明对弯曲文本,密集文本,长文本,英文与中文均有很好的检测结果。
以上所述仅为本发明的优选实施例而已,但本发明的保护范围并不局限于此,应当指出,对于本领域的技术人员来说,本申请可以有各种更改和变化。根据本发明的技术方案及其发明构思加以修改、等同替换、改进等,都应包含在本申请的保护范围之内。
Claims (5)
1.一种基于CNN和Transformer混合模型的文本检测方法,其特征是,包括以下步骤:
S1、获取自然场景文本公共数据集并对文本图像作一系列数据增强以提高模型的鲁棒性;为了提高训练效率,将所有输入图片统一放缩到H×W;其中H和W分别代表图像的长和宽;自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW-1500和Total-Text;
S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图:Pi,i∈{2,3,4,5},其图像大小分别为输入图片大小的1/4、1/8、1/16、1/32;随后对这些不同尺度特征图上采样至和P2同一尺度,得到通道数均为C的F2、F3、F4、F5;
S3、将低分辨率特征图P5和N个查询送入到Transformer模块里得到N个嵌入;随即通过一个三层的多层感知机对嵌入作进一步的信息解码,得到N个维度为Cε的功能嵌入,其中Cε等于步骤S2所述拼接特征图Fconcat的通道数,即有Cε=4C;N个功能嵌入包含了N1个权重嵌入εw和N2个概率阈值嵌入εpt;其中N1等于步骤S2中需要融合的特征图数目,即为4;N值是通过自适应的方式获得的,它等于N1和N2的相加;对于不同应用场景可以有不同的N值;本发明将N设置为36;
S4、对步骤S2所述的同一尺度特征图F2、F3、F4、F5进行动态融合得到融合特征图Ffused,融合特征图为后续的解码提供了一个强大的特征表示;
S5、通过一个近似二值化模块对步骤S4中所述融合特征图进行解码得到概率图和阈值图,运用一个近似二值化公式对概率图和阈值图进行计算得到二值图;根据二值图预测得到最后的文本框。
3.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法,其特征在于,步骤S3中,所述Transformer模块里不含编码器,仅由6个解码器组成;每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP);记每个解码器的输入为zi-1、输出为zi,LN表示层归一化,则解码器的计算公式如下:
其中ai-1和ci-1仅表示中间变量,i∈{1,2,...,6};自注意力机制由三个逐点线性层组成,将输入zi-1映射到中间表示:查询Q、键K和值V;其中,逐点线性层由输入zi-1和一个可学习的矩阵相乘得到;自注意力机制的计算公式如下:
自注意力机制以及交叉注意力机制由于其本身特性,在计算过程中会对输入中的每个向量都进行信息的交互,因此能轻松建模远程语义依赖关系并较好地捕获全局范围特征。
4.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法,其特征在于,所述步骤S4具体为,首先将权利要求1中的步骤S2所述F2、F3、F4、F5沿通道方向进行拼接,得到通道数为4C的拼接特征图Fconcat;然后对权利要求1中的步骤S3所述转置后的权重嵌入和拼接特征图Fconcat∈R4C×H/4×W/4作标量积相乘,随后对相乘的结果进行sigmoid函数激活得到注意力权重Fw∈R4×H/4×W/4,其值在0到1之间,可以达到强化有用图像信息和抑制无用信息的效果;该过程的计算公式如下:
其中Reshape(4C,H/4·W/4)(Fconcat)表示将拼接特征图Fconcat的形状重新变换为4C×(H/4·W/4),σ表示sigmoid激活函数;最后,我们将注意力权重沿通道维度划分为4部分,并与权利要求1中步骤S2所述相应的缩放特征Fi进行加权乘法以获得融合特征图Ffused∈R4C ×H/4×W/4。
5.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法,其特征在于,所述步骤S5具体包括以下三个步骤:
S51、对权利要求4中的步骤S4所述融合特征图Ffused∈R4C×H/4×W/4(4C=Cε)和权利要求1中的步骤S3所述转置后的概率阈值嵌入进行标量积相乘得到概率阈值预测Fpt∈R32×H/4×W/4,该过程的计算公式如下:
其中Reshape(Cε,H/4·W/4)(Ffused)表示将拼接特征图Fconcat的形状重新变换为Cε×(H/4·W/4);通常Cε远远大于32,所以概率阈值预测Fpt相比较于融合特征图Ffused更为轻量化,而且同样能为后续的解码提供一个强大的特征表示;
S52、随后对概率阈值预测Fpt进行两次stride为2的反卷积得到一个通道数为2,大小为H×W的特征图;该特征图的第一个通道对应特征为概率图P,第二个通道特征为阈值图T;随后通过一个近似二值化公式得到二值图,计算公式为:
其中Pi,j和Ti,j分别表示概率图P和阈值图T中像素点位置为(i,j)的值;k表示放缩因子,本发明将其设置为50;
S53、运用Opencv连通域方法中的minAreaRect对二值图寻找连通区域,并通过Vatticlipping算法扩大连通区域以形成最终的文本检测框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210677277.2A CN115019143A (zh) | 2022-06-16 | 2022-06-16 | 一种基于CNN和Transformer混合模型的文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210677277.2A CN115019143A (zh) | 2022-06-16 | 2022-06-16 | 一种基于CNN和Transformer混合模型的文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019143A true CN115019143A (zh) | 2022-09-06 |
Family
ID=83074861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210677277.2A Pending CN115019143A (zh) | 2022-06-16 | 2022-06-16 | 一种基于CNN和Transformer混合模型的文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019143A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578735A (zh) * | 2022-09-29 | 2023-01-06 | 北京百度网讯科技有限公司 | 文本检测方法和文本检测模型的训练方法、装置 |
CN116597267A (zh) * | 2023-07-12 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN116912851A (zh) * | 2023-07-25 | 2023-10-20 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
CN117197472A (zh) * | 2023-11-07 | 2023-12-08 | 四川农业大学 | 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置 |
CN117372935A (zh) * | 2023-12-07 | 2024-01-09 | 神思电子技术股份有限公司 | 一种视频目标检测方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926372A (zh) * | 2020-08-22 | 2021-06-08 | 清华大学 | 基于序列变形的场景文字检测方法及系统 |
CN113159023A (zh) * | 2021-03-14 | 2021-07-23 | 西北工业大学 | 基于显式监督注意力机制的场景文本识别方法 |
CN113516126A (zh) * | 2021-07-02 | 2021-10-19 | 成都信息工程大学 | 一种基于注意力特征融合的自适应阈值场景文本检测方法 |
CN114169330A (zh) * | 2021-11-24 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 融合时序卷积与Transformer编码器的中文命名实体识别方法 |
US20220121871A1 (en) * | 2020-10-16 | 2022-04-21 | Tsinghua University | Multi-directional scene text recognition method and system based on multi-element attention mechanism |
-
2022
- 2022-06-16 CN CN202210677277.2A patent/CN115019143A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926372A (zh) * | 2020-08-22 | 2021-06-08 | 清华大学 | 基于序列变形的场景文字检测方法及系统 |
US20220121871A1 (en) * | 2020-10-16 | 2022-04-21 | Tsinghua University | Multi-directional scene text recognition method and system based on multi-element attention mechanism |
CN113159023A (zh) * | 2021-03-14 | 2021-07-23 | 西北工业大学 | 基于显式监督注意力机制的场景文本识别方法 |
CN113516126A (zh) * | 2021-07-02 | 2021-10-19 | 成都信息工程大学 | 一种基于注意力特征融合的自适应阈值场景文本检测方法 |
CN114169330A (zh) * | 2021-11-24 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 融合时序卷积与Transformer编码器的中文命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
刘燕;温静;: "基于注意力机制的复杂场景文本检测", 计算机科学, no. 07, 28 June 2020 (2020-06-28) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578735A (zh) * | 2022-09-29 | 2023-01-06 | 北京百度网讯科技有限公司 | 文本检测方法和文本检测模型的训练方法、装置 |
CN115578735B (zh) * | 2022-09-29 | 2023-09-15 | 北京百度网讯科技有限公司 | 文本检测方法和文本检测模型的训练方法、装置 |
CN116597267A (zh) * | 2023-07-12 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN116597267B (zh) * | 2023-07-12 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN116912851A (zh) * | 2023-07-25 | 2023-10-20 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
CN117197472A (zh) * | 2023-11-07 | 2023-12-08 | 四川农业大学 | 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置 |
CN117197472B (zh) * | 2023-11-07 | 2024-03-08 | 四川农业大学 | 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置 |
CN117372935A (zh) * | 2023-12-07 | 2024-01-09 | 神思电子技术股份有限公司 | 一种视频目标检测方法、设备及介质 |
CN117372935B (zh) * | 2023-12-07 | 2024-02-20 | 神思电子技术股份有限公司 | 一种视频目标检测方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711481B (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
CN115019143A (zh) | 一种基于CNN和Transformer混合模型的文本检测方法 | |
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN108615036B (zh) | 一种基于卷积注意力网络的自然场景文本识别方法 | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN110232394B (zh) | 一种多尺度图像语义分割方法 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN109977942B (zh) | 一种基于场景分类和超分辨率的场景文字识别方法 | |
CN112801280B (zh) | 视觉深度自适应神经网络的一维卷积位置编码方法 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN114972746B (zh) | 一种基于多分辨率重叠注意力机制的医学影像分割方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
CN117152438A (zh) | 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法 | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
CN116597138A (zh) | 一种基于深度卷积神经网络的息肉图像语义分割方法 | |
CN116823610A (zh) | 一种基于深度学习的水下图像超分辨率生成方法和系统 | |
CN116612283A (zh) | 一种基于大卷积核骨干网络的图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |