CN113486890A - 基于注意力特征融合和空洞残差特征增强的文本检测方法 - Google Patents
基于注意力特征融合和空洞残差特征增强的文本检测方法 Download PDFInfo
- Publication number
- CN113486890A CN113486890A CN202110664914.8A CN202110664914A CN113486890A CN 113486890 A CN113486890 A CN 113486890A CN 202110664914 A CN202110664914 A CN 202110664914A CN 113486890 A CN113486890 A CN 113486890A
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- map
- fusion
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 85
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 18
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000012805 post-processing Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,公开了基于注意力特征融合和空洞残差特征增强的文本检测方法,包括对包含文本的自然场景图片进行特征提取,得到多尺度特征图;对多尺度特征图中的顶层特征图进行降维处理,顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图,全新的顶层特征图作为深层特征图参与后续的特征融合;采用双向特征金字塔与注意力特征融合模块相结合的方式,进行多层的特征融合;对融合后的特征图进行后处理,实现任意形状文本的检测。本发明可以保证信息的双向流动的同时最大化融合重要的特征,提高文本区域的局部关注度,提升不同特征通道之间的联系,扩大感受野的同时解决顶层特征图降维导致语义信息丢失的问题。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于注意力特征融合和空洞残差特征增强的文本检测方法。
背景技术
从近年来自然场景的文本检测研究在深度学习领域快速发展,特别是在无人驾驶、图像内容监管、视频内容分析等场景发挥极其重要的作用。但是由于场景文本的不同形状、大小、方向及复杂的背景,给文本检测不断带来新的挑战,因此如何准确又快速的检测出场景图片中的任意形状文本成为当前重要性的研究任务。
目前基于卷积神经网络(Convolutional Neural Networks,CNN)的文本检测方法主要包括两种:第一种是基于候选框的文本检测方法,以Faster-RCNN、SSD、YOLO等架构为基础,这些方法首先对场景文本图像提取候选框,然后对每个候选框行分类和回归,但是由于候选框都是矩形,这类方法难以处理密集文本和曲线文本。第二种是基于语义分割的文本检测方法,以PixelLink、TextField、PSE等为主,这些方法首先将图像进行像素级别的语义分割,将文本区域和背景分为两类,然后通过一系列后处理获得精确的任意形状的文本区域,但是此类检测方法存在以下问题:现有的该类文本检测算法通常使用特征金字塔(Feature Pyramid Network,FPN)提取多尺度特征信息,不同深度的文本特征之间存在语义差异,直接融合后无法很好的表达出特征信息;其次,顶层特征图的语义信息虽然丰富,但是在与下一级的特征融合前需要进行降维操作,而这个过程中特征图的通道数会减少,出现语义信息丢失的情况,导致最后的结果不准确。
发明内容
本发明通过提供基于注意力特征融合和空洞残差特征增强的文本检测方法,解决现有技术中文本检测方法存在的不同深度文本特征直接融合后无法很好地表达出特征信息、顶层特征图降维出现语义信息丢失,导致检测结果不准确的问题。
本发明提供基于注意力特征融合和空洞残差特征增强的文本检测方法,包括以下步骤:
步骤1:对包含文本的自然场景图片进行特征提取,得到多尺度特征图;
步骤2:对所述多尺度特征图中的顶层特征图进行降维处理,所述顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图,所述全新的顶层特征图作为深层特征图参与后续的特征融合;
步骤3:采用双向特征金字塔与注意力特征融合模块相结合的方式,进行多层的特征融合;
步骤4:对融合后的特征图进行后处理,实现任意形状文本的检测。
优选的,所述步骤1中,将包含文本的自然场景图片作为输入图片送到主干神经网络中进行提取特征,所述主干神经网络使用具有分散注意力机制的ResNeSt50作为前端特征提取网络。
优选的,所述多尺度特征图包括:大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4,所述第四特征图作为所述顶层特征图。
优选的,所述步骤2中,结合空洞卷积模块与残差特征增强模块得到所述空洞残差特征增强模块;所述空洞卷积模块包括四个3×3的空洞卷积层和一个全局池化层,四个所述空洞卷积层从左至右的空洞卷积率分别为1、2、4、8;所述残差特征增强模块包括自适应池化、1×1卷积的降采样操作、双线性插值上采样操作、自适应空间融合操作。
优选的,所述步骤2包括以下子步骤:
步骤2.1:将所述顶层特征图通过自适应池化进行降采样得到三个输出特征图,对应的尺寸分别为α1×h×w、α1×h×w、α3×h×w;其中,w、h分别为所述顶层特征图的宽和高,α1、α2、α3的取值分别为0.1,0.2,0.3;
步骤2.2:将步骤2.1得到的三个输出特征图通过1×1的卷积进行降采样,再通过双线性插值将它们上采样到相同尺度进行合并,得到比例不变的上下文特征,将所述比例不变的上下文特征通过自适应空间融合操作处理后得到空间权重特征,其中,所述自适应空间融合操作包括1×1卷积、3×3卷积和Sigmoid激活函数,将所述空间权重特征与所述比例不变的上下文特征进行融合得到融合特征图;
步骤2.3:将所述融合特征图送入到所述空洞卷积模块中,将所述空洞卷积模块生成的特征图与所述顶层特征图进行求和,得到所述全新的顶层特征图。
优选的,所述步骤3中,结合通道注意力模块和空间注意力增强模块得到所述注意力特征融合模块。
优选的,所述步骤3包括以下子步骤:
步骤3.1:将相邻尺度的特征图分别输入至所述通道注意力模块中,所述通道注意力模块将通道权重分配给特征图中各个尺度的特征上,得到通道注意力加权的特征图;将两个支路分别输出的所述通道注意力加权的特征图经行拼接操作,拼接之后的特征图输入至所述空间注意力增强模块中,得到空间特征权重图;将所述空间特征权重图与所述拼接之后的特征图进行相乘,得到第一融合特征图;
步骤3.2:采用双向特征金字塔的方法,对所述多尺度特征图C1、C2、C3、C4进行从上至下、从下至上的进行步骤3.1的操作,得到融合双向特征金字塔两个方向的特征的第一融合特征图。
优选的,所述通道注意力模块包括依次连接的全局池化层、第一全连接层、ReLu激励函数、第二全连接层和Sigmoid函数;
所述通道注意力模块利用所述全局池化层对大小为W×H×C的特征图进行全局池化操作,得到1×1×C大小的特征图,其中,W为特征图的宽度,H为特征图的高度,C为特征图的通道数;通过所述第一全连接层进行全连接操作,得到通道间的全局特征;利用所述ReLu激励函数进行激励操作,得到各个通道对应的权重;通过所述第二全连接层再进行一次全连接操作,通过所述Sigmoid函数拟合通道间的关联性,得到通道权重图;将所述通道权重图与输入至所述通道注意力模块的原始特征图相乘得到所述通道注意力加权的特征图。
优选的,所述空间注意力增强模块包括第一1×1卷积层、第一卷积层、池化层、第二卷积层、上采样层、第二1×1卷积层和Sigmoid函数;所述第一卷积层的大小为5×5、步长为2,所述第二卷积层的大小为7×7、步长为3;
所述空间注意力增强模块通过所述第一1×1卷积层对特征图进行降维;依次通过所述第一卷积层、所述池化层、所述第二卷积层进行操作,以扩大感受野并降低特征空间尺寸;通过所述上采样层将特征图变回原图大小;上采样后的特征图经过所述第二1×1卷积和所述Sigmoid函数后得到空间增强权重图,将所述空间增强权重图与输入至所述空间注意力增强模块的原始特征图相乘,得到所述空间注意力增强模块输出的特征。
优选的,所述步骤3中,所述第一融合特征图包括文本区域、文本内核和相似向量;所述步骤4中,使用像素聚合算法对所述第一融合特征图进行后处理,重建完整的文字区域,实现任意形状文本的检测。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在发明中,提供的基于注意力特征融合和空洞残差特征增强的文本检测方法首先对包含文本的自然场景图片进行特征提取,得到多尺度特征图;然后对多尺度特征图中的顶层特征图进行降维处理,顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图,全新的顶层特征图作为深层特征图参与后续的特征融合;之后采用双向特征金字塔与注意力特征融合模块相结合的方式,进行多层的特征融合;最后对融合后的特征图进行后处理,实现任意形状文本的检测。本发明可以保证信息的双向流动的同时最大化融合重要的特征;本发明中的空洞残差特征增强模块将空洞卷积模块与残差特征增强模块结合起来,在扩大感受野的同时解决了顶层特征图降维导致语义信息丢失的问题;本发明中的注意力特征融合模块将通道注意力模块和空间注意力增强模块结合起来,在加强通道特征之间的联系的同时更好的关注空间信息的分布。
附图说明
图1为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法对应的网络模型结构图;
图2为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的空洞残差特征增强模块的结构图;
图3为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的空洞卷积模块的结构图;
图4为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的通道注意力模块的结构图;
图5为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的空间注意力增强模块的结构图;
图6为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的注意力特征融合模块的结构图;
图7为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的像素聚合模块的示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本实施例提供一种基于注意力特征融合和空洞残差特征增强的文本检测方法,包括以下步骤:
步骤1:对包含文本的自然场景图片进行特征提取,得到多尺度特征图。
具体的,将包含文本的自然场景图片作为输入图片送到主干神经网络中进行提取特征,所述主干神经网络使用具有分散注意力机制的ResNeSt50作为前端特征提取网络。
所述多尺度特征图包括:大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4,所述第四特征图作为所述顶层特征图。
步骤2:对所述多尺度特征图中的顶层特征图进行降维处理,所述顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图,所述全新的顶层特征图作为深层特征图参与后续的特征融合。
其中,结合空洞卷积模块与残差特征增强模块得到所述空洞残差特征增强模块;所述空洞卷积模块包括四个3×3的空洞卷积层和一个全局池化层,四个所述空洞卷积层从左至右的空洞卷积率分别为1、2、4、8;所述残差特征增强模块包括自适应池化、1×1卷积的降采样操作、双线性插值上采样操作、自适应空间融合操作。
步骤3:采用双向特征金字塔与注意力特征融合模块相结合的方式,进行多层的特征融合。
其中,结合通道注意力模块和空间注意力增强模块得到所述注意力特征融合模块。
步骤4:对融合后的特征图进行后处理,实现任意形状文本的检测。
下面对本发明做进一步的说明。
本发明提供的基于注意力特征融合和空洞残差特征增强的文本检测方法,包括以下步骤:
步骤1:基于自然场景文本多样性的特点,采用深度学习的方法提取自然场景图片中各尺度的特征图,并将这些特征图作为模型的基本特征。
具体的,将包含文本的自然场景图片作为输入图片送到主干神经网络中提取特征,网络中使用具有分散注意力机制ResNeSt50作为前端特征提取网络。将ResNeSt50卷积2-5层(Conv2-5)生成的特征图作为模型的基本特征,特征图C1,C2,C3,C4的大小分别为160×160×64,80×80×128,40×40×256,20×20×512。
步骤2:在深层特征图降维阶段,为了扩大感受野的同时解决顶层特征图降维导致语义信息丢失的问题,本发明设计了一个空洞残差特征增强(D-RFA)模块,将深层特征图通过该模块生成全新的特征图,并参与到后续的特征融合阶段。
具体的,所述步骤2包括以下子步骤:
步骤2.1:将顶层特征图C4通过自适应池化降采样得到3个不同的特征图(尺寸分别为α1×h×w、α1×h×w、α3×h×w);自适应池化不同于常规的池化,它是通过输入的参数来控制输出特征图的尺寸,其中w、h分别为顶层特征图C4的宽和高,α1、α2、α3的取值分别为0.1,0.2,0.3。
步骤2.2:将自适应池化得到的3个特征图通过1×1的卷积进行降采样,再通过双线性插值将它们上采样到相同尺度进行合并,得到比例不变的上下文特征。将此合并后数据(即比例不变的上下文特征)通过自适应空间融合操作处理后得到空间权重特征;其中,所述自适应空间融合操作包括1×1卷积,3×3卷积及Sigmoid激活函数,将所述空间权重特征与所述比例不变的上下文特征进行融合得到融合特征图。
步骤2.3:将所述融合特征图送入到空洞卷积模块(DCM)中,所述空洞卷积模块使用了4个3×3的空洞卷积加全局池化,从左至右空洞卷积率为1、2、4、8,将所述空洞卷积模块生成的特征图与原输入顶层特征图C4进行求和操作,得到最终的特征图C5(即全新的顶层特征图)。
步骤3:在模型的特征融合阶段,为增加了两个相邻层之间信息的关联性,更好地融合语义信息和尺度大小不一致的特征,本发明设计了一种新的注意力特征融合(AFF)模块,采用双向特征金字塔与注意力特征融合模块相结合的方式,进行多层的特征融合。
具体的,所述步骤3包括以下子步骤:
步骤3.1:将相邻尺度的特征图分别输入通道注意力(Channel Attention)模块中,将通道权重分配给特征图中各个尺度的特征上,得到了通道注意力加权的特征图,然后将两个支路输出的通道注意力加权的特征图经行拼接操作,拼接之后的特征图送入到后续的空间注意力增强(Enhanced Spatial Attention)模块中,得到空间特征权重图,将更好地对通道注意力进行补充,同时得到重要的空间信息,最后将得到的空间特征权重图与其输入的特征图(即拼接之后的特征图)进行相乘,输出融合后的特征图。
步骤3.2:采用双向特征金字塔的方法,对多尺度特征图C1、C2、C3、C4从上至下、从下至上的进行多尺度的特征融合(即进行步骤3.1的操作),得到融合双向特征金字塔的融合后的特征图,能够解决传统特征金字塔信息流动过程中信息单向传递局限性和容易丢失的问题,在同样的运行时间内提升了信息传递的准确度,更好地保留了各层特征融合前的信息。
步骤4:通过融合了双向特征金字塔两个方向的特征,得到了完整的文字区域、文本内核以及相似向量组成的特征图,最后使用像素聚合算法(PA,Pixel Aggregation)进行后处理来重建完整的文字区域,实现任意形状文本的检测。
具体的,通过前面融合得到的特征获得了文本区域、文本内核以及相似向量,虽然文本区域可以显示很完整的文字形状,但是容易出现文本区域相互重叠,为了重建完整的文本区域,本发明通过相似向量来引导文本区域中的像素,并将其融合到文本内核中,用最小距离聚类方法从文本内核中重建完整的文本区域。
下面结合附图对本发明进行说明。
图1是本发明网络模型结构图,主要包括特征提取、特征融合、后处理模块。
本发明采用ResNest50作为主干网络提取特征,将640×640×3的场景图片作为输入,提取到的特征图C1,C2,C3,C4大小分别为160×160×64,80×80×128,40×40×256,20×20×512。
对于传统的特征金字塔来说,底层特征图尺度大,包含的空间信息较多但是语义信息少;高层的特征图尺度小,包含的语义信息丰富但是空间信息比较少,金字塔模型通过顶层往底层做特征融合时,将顶层特征图通过卷积过程降维,然后将底层特征图与高层特征图的相关信息进行特征融合。顶层特征图语义信息丰富但是在经过下采样处理之后,通道数会减小,会出现相关的语义信息损失,为了增大特征图的感受野和减少前面一系列步骤造成相关文本信息的损失,增加文本区域之间的关联度,本发明将空洞卷积模块引入到残差特征增强模块中,提出了空洞残差特征增强模块(D-RFA),如图2所示。
深层特征降维方法包括以下步骤:
步骤1:第一步将顶层特征图C4通过自适应池化降采样得到3个不同的特征图(见图2中α1×h×w、α1×h×w、α3×h×w)。
步骤2:将得到的3个特征图通过1×1的卷积进行降采样,再通过双线性插值将它们上采样到相同尺度进行合并。将此合并后数据通过1×1卷积、3×3卷积及Sigmoid激活函数处理后再次与合并后的数据进行融合,融合后的特征图送入到空洞卷积模块(DCM)中,由此生成的特征图与原输入特征图C4进行求和操作,得到最终的特征图C5。
本发明使用的空洞卷积模块(DCM)如图3所示,使用了4个3×3的空洞卷积加全局池化,从左至右空洞卷积率为1、2、4、8。感受野的计算公式如公式(1)所示,其中公式中k表示卷积核的大小,默认为3,n表示空洞卷积率。
感受野的计算公式如下:
S=k+(k-1)(n-1) (1)
使用空洞残差特征增强模块生成的特征图C5取代原本的C4参与到后续的特征融合过程。不同深度的文本特征之间存在语义差异,直接融合后无法很好的表达出特征信息,为增加了两个相邻层之间信息的关联性,更好地融合语义信息和尺度大小不一致的特征,本发明提出了注意力特征融合(AFF)模块。具体操作如下:
第一步:首先将相邻尺度的特征图分别输入通道注意力(Channel Attention)模块中,如图4所示,通道注意力模块首先将卷积过后得到的特征图W×H×C进行全局池化操作,得到1×1×C大小的特征图,然后进行全连接操作(见图4中FC单元),得到的通道间的全局特征,再经过学习通道间的关系进行激励操作,得到各个通道对应的权重,接下来再进行一次全连接操作和Sigmoid函数来拟合通道间的关联性,最后与原始特征图相乘得到大小为W×H×C的特征。通道注意力机制是在通道维度上做一系列操作,它可以让深度学习模型关注包含重要信息的通道特征,将通道权重分配给特征图中各个尺度的特征上,得到了通道注意力加权的特征图。
第二步:将两个支路输出的特征图经行拼接操作,拼接之后的特征图送入到后续的空间注意力增强(Enhanced Spatial Attention)模块,如图5所示,空间注意力增强模块比普通的空间注意力模块更轻量,并且具有更好获取空间信息的性能,空间注意力增强模块首先使用1×1的卷积进行降维来减少特征数,然后为了扩大感受野和降低特征空间尺寸,分别使用了大小为5×5,步长为2的卷积、最大池化操作,以及大小为7×7,步长为3的卷积操作,扩大感受野的使注意力能够更好的关注到图像的中整体的文本信息。最后上采样变回原图大小的特征图,经过1×1的卷积和sigmoid函数后与原图相乘,得到ESA模块输出的特征,将更好的对通道注意力进行补充,同时得到重要的空间信息。
第三步:将得到的空间特征权重图与其输入的特征图进行相乘,输出融合后的特征图,整个注意力特征融合(AFF)模块结构如图6所示。
经过上面三步的处理,并结合双向特征金字塔进行从上至下、从下至上的特征融合,解决传统特征金字塔信息流动过程中信息单向传递局限性和容易丢失的问题,在同样的运行时间内提升了信息传递的准确度。融合了双向金字塔两个方向的特征,得到了完整的文字区域、文本内核以及相似向量组成的特征图,最后通过像素聚合算法进行后处理,如图7所示,重建完整的文字区域,实现对任意形状场景文本的检测。
本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法至少包括如下技术效果:
(1)本方法可以保证信息的双向流动的同时最大化融合重要的特征;
(2)本方法可以更大程度地提高文本区域的局部关注度,更好地提升不同特征通道之间的联系;
(3)本方法可以扩大感受野的同时解决了顶层特征图降维导致语义信息丢失的问题。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,包括以下步骤:
步骤1:对包含文本的自然场景图片进行特征提取,得到多尺度特征图;
步骤2:对所述多尺度特征图中的顶层特征图进行降维处理,所述顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图,所述全新的顶层特征图作为深层特征图参与后续的特征融合;
步骤3:采用双向特征金字塔与注意力特征融合模块相结合的方式,进行多层的特征融合;
步骤4:对融合后的特征图进行后处理,实现任意形状文本的检测。
2.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述步骤1中,将包含文本的自然场景图片作为输入图片送到主干神经网络中进行提取特征,所述主干神经网络使用具有分散注意力机制的ResNeSt50作为前端特征提取网络。
3.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述多尺度特征图包括:大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4,所述第四特征图作为所述顶层特征图。
4.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述步骤2中,结合空洞卷积模块与残差特征增强模块得到所述空洞残差特征增强模块;所述空洞卷积模块包括四个3×3的空洞卷积层和一个全局池化层,四个所述空洞卷积层从左至右的空洞卷积率分别为1、2、4、8;所述残差特征增强模块包括自适应池化、1×1卷积的降采样操作、双线性插值上采样操作、自适应空间融合操作。
5.根据权利要求4所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述步骤2包括以下子步骤:
步骤2.1:将所述顶层特征图通过自适应池化进行降采样得到三个输出特征图,对应的尺寸分别为α1×h×w、α1×h×w、α3×h×w;其中,w、h分别为所述顶层特征图的宽和高,α1、α2、α3的取值分别为0.1,0.2,0.3;
步骤2.2:将步骤2.1得到的三个输出特征图通过1×1的卷积进行降采样,再通过双线性插值将它们上采样到相同尺度进行合并,得到比例不变的上下文特征,将所述比例不变的上下文特征通过自适应空间融合操作处理后得到空间权重特征,其中,所述自适应空间融合操作包括1×1卷积、3×3卷积和Sigmoid激活函数,将所述空间权重特征与所述比例不变的上下文特征进行融合得到融合特征图;
步骤2.3:将所述融合特征图送入到所述空洞卷积模块中,将所述空洞卷积模块生成的特征图与所述顶层特征图进行求和,得到所述全新的顶层特征图。
6.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述步骤3中,结合通道注意力模块和空间注意力增强模块得到所述注意力特征融合模块。
7.根据权利要求6所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述步骤3包括以下子步骤:
步骤3.1:将相邻尺度的特征图分别输入至所述通道注意力模块中,所述通道注意力模块将通道权重分配给特征图中各个尺度的特征上,得到通道注意力加权的特征图;将两个支路分别输出的所述通道注意力加权的特征图经行拼接操作,拼接之后的特征图输入至所述空间注意力增强模块中,得到空间特征权重图;将所述空间特征权重图与所述拼接之后的特征图进行相乘,得到第一融合特征图;
步骤3.2:采用双向特征金字塔的方法,对所述多尺度特征图C1、C2、C3、C4进行从上至下、从下至上的进行步骤3.1的操作,得到融合双向特征金字塔两个方向的特征的第一融合特征图。
8.根据权利要求7所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述通道注意力模块包括依次连接的全局池化层、第一全连接层、ReLu激励函数、第二全连接层和Sigmoid函数;
所述通道注意力模块利用所述全局池化层对大小为W×H×C的特征图进行全局池化操作,得到1×1×C大小的特征图,其中,W为特征图的宽度,H为特征图的高度,C为特征图的通道数;通过所述第一全连接层进行全连接操作,得到通道间的全局特征;利用所述ReLu激励函数进行激励操作,得到各个通道对应的权重;通过所述第二全连接层再进行一次全连接操作,通过所述Sigmoid函数拟合通道间的关联性,得到通道权重图;将所述通道权重图与输入至所述通道注意力模块的原始特征图相乘得到所述通道注意力加权的特征图。
9.根据权利要求7所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述空间注意力增强模块包括第一1×1卷积层、第一卷积层、池化层、第二卷积层、上采样层、第二1×1卷积层和Sigmoid函数;所述第一卷积层的大小为5×5、步长为2,所述第二卷积层的大小为7×7、步长为3;
所述空间注意力增强模块通过所述第一1×1卷积层对特征图进行降维;依次通过所述第一卷积层、所述池化层、所述第二卷积层进行操作,以扩大感受野并降低特征空间尺寸;通过所述上采样层将特征图变回原图大小;上采样后的特征图经过所述第二1×1卷积和所述Sigmoid函数后得到空间增强权重图,将所述空间增强权重图与输入至所述空间注意力增强模块的原始特征图相乘,得到所述空间注意力增强模块输出的特征。
10.根据权利要求7所述的基于注意力特征融合和空洞残差特征增强的文本检测方法,其特征在于,所述步骤3中,所述第一融合特征图包括文本区域、文本内核和相似向量;所述步骤4中,使用像素聚合算法对所述第一融合特征图进行后处理,重建完整的文字区域,实现任意形状文本的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110664914.8A CN113486890A (zh) | 2021-06-16 | 2021-06-16 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110664914.8A CN113486890A (zh) | 2021-06-16 | 2021-06-16 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486890A true CN113486890A (zh) | 2021-10-08 |
Family
ID=77934984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110664914.8A Pending CN113486890A (zh) | 2021-06-16 | 2021-06-16 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486890A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170167A (zh) * | 2021-11-29 | 2022-03-11 | 深圳职业技术学院 | 基于注意力引导上下文校正的息肉分割方法和计算机设备 |
CN114708207A (zh) * | 2022-03-24 | 2022-07-05 | 浙江大学 | 基于Yolo v3改进的红外热像颈椎部位提取的方法 |
CN114758332A (zh) * | 2022-06-13 | 2022-07-15 | 北京万里红科技有限公司 | 一种文本检测方法、装置、计算设备及存储介质 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN116502810A (zh) * | 2023-06-28 | 2023-07-28 | 威胜信息技术股份有限公司 | 一种基于图像识别的标准化生产监测方法 |
CN117095412A (zh) * | 2023-10-19 | 2023-11-21 | 四川泓宝润业工程技术有限公司 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN112101363A (zh) * | 2020-09-02 | 2020-12-18 | 河海大学 | 基于空洞残差和注意力机制的全卷积语义分割系统及方法 |
US20210089807A1 (en) * | 2019-09-25 | 2021-03-25 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
-
2021
- 2021-06-16 CN CN202110664914.8A patent/CN113486890A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
US20210089807A1 (en) * | 2019-09-25 | 2021-03-25 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN112101363A (zh) * | 2020-09-02 | 2020-12-18 | 河海大学 | 基于空洞残差和注意力机制的全卷积语义分割系统及方法 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
Non-Patent Citations (7)
Title |
---|
AIFT: "PAN解读 —— Efficient and Accurate Arbitra...xel Aggregation Network_aift的博客", 《CSDN》 * |
CHAOXU GUO ET AL.: "AugFPN: Improving Multi-Scale Feature Learning for Object Detection", 《 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
LARKII: "Pixel Aggregation Network (PAN)_larkii的博客", 《CSDN》 * |
SANGHYUN WOO ET AL.: "CBAM:Convolutional Block Attention Module", 《ARXIV》 * |
应自炉等: "多特征融合的文档图像版面分析", 《中国图象图形学报》 * |
旷视: "ICCV 2019 _ 旷视研究院提出文字检测新方法:像素聚合网络PAN", 《CSDN》 * |
程琦;王国栋等: "基于分散注意力与路径增强特征金字塔的文本检测", 《CNKI独家 激光与光电子学进展》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170167A (zh) * | 2021-11-29 | 2022-03-11 | 深圳职业技术学院 | 基于注意力引导上下文校正的息肉分割方法和计算机设备 |
CN114708207A (zh) * | 2022-03-24 | 2022-07-05 | 浙江大学 | 基于Yolo v3改进的红外热像颈椎部位提取的方法 |
CN114758332A (zh) * | 2022-06-13 | 2022-07-15 | 北京万里红科技有限公司 | 一种文本检测方法、装置、计算设备及存储介质 |
CN114758332B (zh) * | 2022-06-13 | 2022-09-02 | 北京万里红科技有限公司 | 一种文本检测方法、装置、计算设备及存储介质 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN116502810A (zh) * | 2023-06-28 | 2023-07-28 | 威胜信息技术股份有限公司 | 一种基于图像识别的标准化生产监测方法 |
CN116502810B (zh) * | 2023-06-28 | 2023-11-03 | 威胜信息技术股份有限公司 | 一种基于图像识别的标准化生产监测方法 |
CN117095412A (zh) * | 2023-10-19 | 2023-11-21 | 四川泓宝润业工程技术有限公司 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
CN117095412B (zh) * | 2023-10-19 | 2023-12-15 | 四川泓宝润业工程技术有限公司 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023056889A1 (zh) | 模型训练和场景识别方法、装置、设备及介质 | |
TWI728465B (zh) | 圖像處理方法和裝置、電子設備及儲存介質 | |
CN113486890A (zh) | 基于注意力特征融合和空洞残差特征增强的文本检测方法 | |
Xu et al. | Pad-net: Multi-tasks guided prediction-and-distillation network for simultaneous depth estimation and scene parsing | |
CN111369440B (zh) | 模型训练、图像超分辨处理方法、装置、终端及存储介质 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111489287A (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
Wang et al. | TMS-GAN: A twofold multi-scale generative adversarial network for single image dehazing | |
CN112598053B (zh) | 基于半监督学习的主动显著性目标检测方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN112270366B (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN114332094A (zh) | 基于轻量级多尺度信息融合网络的语义分割方法及装置 | |
CN113936235A (zh) | 一种基于质量评估的视频显著性目标检测方法 | |
CN114898284A (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112700460A (zh) | 图像分割方法及系统 | |
Jiang et al. | Low-light image enhancement via stage-transformer-guided network | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
Zhang et al. | Mutual dual-task generator with adaptive attention fusion for image inpainting | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211008 |