CN116434241A - 基于注意力机制的自然场景图像中文本识别方法及系统 - Google Patents

基于注意力机制的自然场景图像中文本识别方法及系统 Download PDF

Info

Publication number
CN116434241A
CN116434241A CN202310120821.8A CN202310120821A CN116434241A CN 116434241 A CN116434241 A CN 116434241A CN 202310120821 A CN202310120821 A CN 202310120821A CN 116434241 A CN116434241 A CN 116434241A
Authority
CN
China
Prior art keywords
layer
attention
module
features
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310120821.8A
Other languages
English (en)
Inventor
熊炜
孙鹏
强观臣
田紫欣
陈奕博
赵迪
刘粤
万相奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202310120821.8A priority Critical patent/CN116434241A/zh
Publication of CN116434241A publication Critical patent/CN116434241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的自然场景图像中文本识别方法及系统,一种无需校正或分割的方法,通过搭建多级Efficient Swin Transformer网络提取丰富的全局特征,实现不同窗口特征之间的信息交互,对全局信息进行建模,并且嵌入通道注意力突出某些重要通道的特征。后经注意力机制得到视觉特征,使得网络将关注的焦点置于特征图的文本区域,提高了网络的特征提取能力;其次通过语义推理模块考虑字符上下文信息,对文本序列进行建模得到语义特征,提升了网络的预测能力;最后使用双特征融合单元融合不同模态的视觉、语义特征,并分类得到最终的文本识别结果,有效地避免了分割字符的缺陷,同时考虑到了字符与字符之间的内在联系。

Description

基于注意力机制的自然场景图像中文本识别方法及系统
技术领域
本发明属于数字图像处理、计算机视觉技术领域,涉及一种自然场景图像中文本识别方法及系统,具体涉及一种基于注意力机制的针对自然场景文本图像中识别文本的方法及系统。
背景技术
在人们日常生活中有着许多重要的文本信息,提取其中蕴含的信息能够提高生活品质。比如在自动驾驶中离不开标识牌中的限速信息、道路信息、交通灯信号时间;在搜索引擎中需要根据图像中的文本信息进行分类,用户输入搜索信息即可轻易得到相应的图像等等,因此文本识别变得尤为重要。对于文本图像中文本信息单一,并且图像清晰度高,采用传统的OCR方式就可以识别,不过该方法需要人工去设计特征,再进行识别。通常自然场景下,文本的字形、颜色、大小、位置,不具有规则,甚至图像清晰度低,传统方法已不能达到较高的识别率。
目前对于自然场景文本识别主要采用深度学习的方法,大体可分为规则文本的识别以及不规则的文本识别。对于规则文本的识别方法主要有基于CTC(connectionisttemporal classification)、序列到序列的方法,这两种文本方法对于弯曲文本或者旋转文本的识别准确率低。对于不规则文本的识别方法主要有:校正方法,将不规则文本图像经过薄样板插条或者空间变换网络变换成一个水平方向的图像,然后以规则文本的方式进行处理;分割方法,即先获取文本图像中每个字符的位置信息,分割出单个字符视觉特征,接着对特征进行分类识别出字符,最后将所有的字符连接起来得到识别结果。校正的方法往往引起字符的扭曲变形,导致字符识别错误;分割方法的识别需要字符级的标注,并且性能容易受到字符分割结果的影响,错误地分割会导致错误地识别字符,甚至无法识别。如今,越来越多的研究员采用基于注意力的方法识别不规则文本避免校正和分割。
发明内容
为了解决规则的文本识别方法对于不规则文本识别正确率低,而通过校正或者分割的方法实现对不规则文本的识别,往往代价较大,并且忽视了文本序列中字符与字符之间的内在联系的技术问题,本发明提供了一种基于注意力机制的自然场景文本识别方法、系统及电子设备。
本发明的方法所采用的技术方案是:一种基于注意力机制的自然场景图像中文本识别方法,采用自然场景文本识别网络,对自然场景图像中文本进行识别;
所述自然场景文本识别网络,包括多级视觉特征提取模块efficient SwinTransformer、视觉注意力模块DUnet Attention、语义推理模块Semantic ReasoningBlock、双特征融合单元DFFU;
所述多级视觉特征提取模块efficient Swin Transformer,用于输出全局特征F;包括分块层Patch Partition、线性嵌入层Linear Embeding、Swin Transformer Block层、ECA模块;其中,若干所述高效通道注意力ECA模块和所述SwinTransformerBlock层级联连接,级联方式为在SwinTransformerBlock层后嵌入高效通道注意力ECA模块;所述SwinTransformer Block层由顺序连接的基于窗口的多头自注意力模块W-MSA、多层感知机MLP、基于移动窗口多头自注意力模块SW-MSA和多层感知机MLP组成,在所述W-MSA模块、MLP以及SW-MSA模块前都设置有LN模块,组成四个小单元,每个小单元通过残差方式连接;
所述视觉注意力模块DUnet Attention,由V、Q、K三个分支组成,得到视觉特征Fv;所述V分支由全局特征F线性变换得到,经过全连接层Linear后输出;所述Q分支通过位置编码层Positional Encoding得到,经过全连接层Linear后输出;所述K分支由全局特征F依次经过一个可变形卷积Deformable Conv、DUnet网络得到;所述Q、K分支输出经过逐位乘法操作后的输出与V分支输出经过逐位乘法操作后输出;
所述视觉特征Fv,经过全连接层Linear和归一化操作层softmax求得字符的概率特征Fp,根据字符预测顺序设置字符掩码矩阵Mmask,将Fp和Mmask输入所述语义推理模块Semantic Reasoning Block;所述语义推理模块Semantic Reasoning Block,包括掩码多头自注意力模块Masked Multi-Head Attention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax,得到语义特征Fs;所述概率特征Fp和掩码矩阵Mmask经过所述掩码多头自注意力模块Masked Multi-HeadAttention得到特征Fm,依次经过标准化层Normalize、前馈连接层Feed Forward、标准化层Normalize、全连接层Linear及归一化操作层softmax,并且概率特征Fp以残差方式连接到所述的标准化层Normalize,在所述前馈连接层Feed Forward前以残差方式连接到下一个标准化层Normalize;
所述双特征融合单元DFFU,用于融合视觉特征Fv和语义特征Fs,对视觉特征Fv、语义特征Fs分别经过全连接层Linear后进行拼接操作,通过Sigmod函数计算各特征的贡献比重,融合视觉特征和语义特征,输出融合后的特征Ff
本发明的系统所采用的技术方案是:一种基于注意力机制的自然场景图像中文本识别系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于注意力机制的自然场景图像中文本识别方法。
与现有算法相比,本发明的显著优点和效果如下:
1)本发明设计多级efficient Swin Transformer特征提取网络,实现不同窗口特征之间的信息交互,对全局信息进行建模,并且嵌入通道注意力突出某些重要通道的特征。
2)本发明设计了注意力机制使得网络将关注的焦点置于特征图的文本区域,提高了网络的特征提取能力。
3)本发明使用语义推理模块对文本序列建模,提升了网络的预测能力,尤其是对不规则文本数据集的字符识别准确率提升较大。
4)本发明对规则文本数据集IC13、SVT、IIIT5K的平均识别准确率为93.5%;对不规则文本数据集IC15、SVTP、CUTE的平均识别准确率为83.8%。
附图说明
图1为本发明实施例的自然场景文本识别网络结构图;
图2为本发明实施例的多级efficientSwinTransformer结构图;
图3为本发明实施例的视觉注意力模块DUnet Attention结构图;
图4为本发明实施例的语义推理模块Semantic Reasoning Block结构图;
图5为本发明实施例的双特征融合单元DFFU结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种基于注意力机制的自然场景图像中文本识别方法,采用自然场景文本识别网络,对自然场景图像中文本进行识别;
请见图1,本实施例的自然场景文本识别网络,包括多级视觉特征提取模块efficient Swin Transformer、视觉注意力模块DUnet Attention、语义推理模块SemanticReasoning Block、双特征融合单元DFFU;
请见图2,本实施例的多级视觉特征提取模块efficient Swin Transformer,用于输出全局特征F;包括分块层Patch Partition、线性嵌入层Linear Embeding、SwinTransformer Block层、ECA模块;其中,若干高效通道注意力ECA模块和SwinTransformerBlock层级联连接,级联方式为在SwinTransformerBlock层后嵌入高效通道注意力ECA模块;本实施例的Swin Transformer Block层由顺序连接的基于窗口的多头自注意力模块W-MSA、多层感知机MLP、基于移动窗口多头自注意力模块SW-MSA和多层感知机MLP组成,在W-MSA模块、MLP以及SW-MSA模块前都设置有LN模块,组成四个小单元,每个小单元通过残差方式连接;
本实施例的本实施例将大小为H×W的输入图像划分为H/4×W/4个小块,每个小块由4×4个像素组成,线性嵌入层Linear Embeding将输入图像的通道维度变成预先设置好的值即512,Swin Transformer Block提取输入图像空间上的细粒度特征;为了挖掘通道上的重要信息,在Swin Transformer Block之后以残差的方式嵌入ECA,使网络重点关注某些通道特征。Swin Transformer是在Transformer的基础上进行改进的,对输入图像进行窗口划分,通过移动窗口的方式,实现不同窗口区域间的远程信息交互,因此不仅可以对全局信息进行建模,相比于Transformer具有更强特征提取能力。本实施例的Swin Transformer由层归一化(Layer Normalization,LN)、基于窗口的多头自注意力(Window-based Multi-head Self-attention,W-MSA)、多层感知机(Multi-layer Perceptron,MLP)以及基于移动窗口多头自注意力(Shifted Window-based Multi-head Self-attention,SW-MSA)组成,结构如图2右侧所示。在W-MSA、MLP以及SW-MSA模块前都添加了LN模块,组成四个小单元,每个小单元通过残差的方式连接。对于输入特征数据X从第i级到第i+1级计算公式如下:
Figure BDA0004079908610000041
Figure BDA0004079908610000042
Figure BDA0004079908610000043
Figure BDA0004079908610000044
式中,i表示层号,
Figure BDA0004079908610000045
Xi分别表示第i层W-MSA、MLP输出的特征,/>
Figure BDA0004079908610000046
Xi+1则分别表示第i+1层SW-MSA、MLP输出的特征。
请见图3,本实施例的视觉注意力模块DUnet Attention,由V、Q、K三个分支组成,得到视觉特征Fv;本实施例的V分支由全局特征F线性变换得到,经过全连接层Linear后输出;本实施例的Q分支通过位置编码层Positional Encoding得到,经过全连接层Linear后输出;本实施例的K分支由全局特征F依次经过一个可变形卷积Deformable Conv、DUnet网络得到;本实施例的Q、K分支输出经过逐位乘法操作后的输出与V分支输出经过逐位乘法操作后输出;
请见图3,本实施例的DUnet网络,输入特征依次经过三个下采样和三个上采,每个下采样后以残差的方式经过1×1卷积层1×1Conv后连接到对应的上采样层Up-sampling,所述下采样由空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成,上采样由上采样层Up-sampling、空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成。
本实施例的V、Q、K三个分支输出分别为:
V(F)=FWv (5)
Q=PWp (6)
K(F)=DUnet(DConv(F)+F) (7)
Figure BDA0004079908610000051
其中,Wv及Wp是网络需要学习的矩阵、pos为字符在文本序列中的位置,d为P(pos,di)的维度,di为字符向量的位置、k为自然数,2k表示偶数,2k+1表示奇数、P(pos,di)为位置编码矩阵。
请见图4,本实施例的视觉特征Fv,经过全连接层Linear和归一化操作层softmax求得字符的概率特征Fp,根据字符预测顺序设置字符掩码矩阵Mmask,将Fp和Mmask输入本实施例的语义推理模块Semantic Reasoning Block;本实施例的语义推理模块SemanticReasoning Block,包括掩码多头自注意力模块Masked Multi-Head Attention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax,得到语义特征Fs;概率特征Fp和掩码矩阵Mmask经过所述掩码多头自注意力模块Masked Multi-Head Attention得到特征Fm,依次经过标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax,并且概率特征Fp以残差方式连接到所述的标准化层Normalize,在所述前馈连接层FeedForward前以残差方式连接到下一个标准化层Normalize。
本实施例的语义推理模块Semantic Reasoning Block的掩码多头自注意力模块Masked Multi-Head Attention输出Fm
其中:
Fp=softmax(FvW1) (9)
Figure BDA0004079908610000052
Figure BDA0004079908610000053
其中,Fv为视觉特征,d为多头自注意力的维度,Wi为训练得到的变换矩阵,i={1,2,3};当网络预测第i个字符时,i与j相等,此时的掩码矩阵Mmask在(i,j)处为负无穷大,与K、Q计算得到的权重相加后经过softmax函数,计算出的权重系数为0,即忽略该字符本身信息,预测结果完全由其它字符的信息得到,这样避免了该字符信息对预测结果的干扰,提升网络的预测能力;依次预测每个位置的字符,即可得到具有语义信息的字符特征Fs
请见图5,本实施例的双特征融合单元DFFU,用于融合视觉特征Fv和语义特征Fs,对视觉特征Fv、语义特征Fs分别经过全连接层Linear后进行拼接操作,通过Sigmod函数计算各特征的贡献比重,融合视觉特征和语义特征,输出融合后的特征Ff
融合后的特征Ff为:
Ff=WvFv*α+WsFs*(1-α) (12)
α=σ([WvFv,WsFs]) (13)
其中,Wv、Ws是网络需要学习的矩阵,α是计算得到的权重系数,[·,·]表示拼接操作。
本发明是一种无需校正或分割的方法,通过搭建多级Efficient SwinTransformer网络提取丰富的全局特征,后经注意力机制得到视觉特征;其次通过语义推理模块考虑字符上下文信息,对文本序列进行建模得到语义特征;最后使用双特征融合单元融合不同模态的视觉、语义特征,并分类得到最终的文本识别结果,有效地避免了分割字符的缺陷,同时考虑到了字符与字符之间的内在联系。
通过实验发现本发明对规则文本数据集IC13、SVT、IIIT5K的平均识别准确率为93.5%;对不规则文本数据集IC15、SVTP、CUTE的平均识别准确率为83.8%。IC13、SVT、IIIT5K的识别准确率分别为95.2%、91.3%、93.9%;对不规则文本数据集IC15、SVTP、CUTE的识别准确率分别为80.3%、85,4%、85.8%。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于注意力机制的自然场景图像中文本识别方法,其特征在于:采用自然场景文本识别网络,对自然场景图像中文本进行识别;
所述自然场景文本识别网络,包括多级视觉特征提取模块efficient SwinTransformer、视觉注意力模块DUnet Attention、语义推理模块Semantic ReasoningBlock、双特征融合单元DFFU;
所述多级视觉特征提取模块efficient Swin Transformer,用于输出全局特征F;包括分块层Patch Partition、线性嵌入层Linear Embeding、Swin Transformer Block层、ECA模块;其中,若干所述高效通道注意力ECA模块和所述SwinTransformerBlock层级联连接,级联方式为在SwinTransformerBlock层后嵌入高效通道注意力ECA模块;所述SwinTransformer Block层由顺序连接的基于窗口的多头自注意力模块W-MSA、多层感知机MLP、基于移动窗口多头自注意力模块SW-MSA和多层感知机MLP组成,在所述W-MSA模块、MLP以及SW-MSA模块前都设置有LN模块,组成四个小单元,每个小单元通过残差方式连接;
所述视觉注意力模块DUnet Attention,由V、Q、K三个分支组成,得到视觉特征Fv;所述V分支由全局特征F线性变换得到,经过全连接层Linear后输出;所述Q分支通过位置编码层Positional Encoding得到,经过全连接层Linear后输出;所述K分支由全局特征F依次经过一个可变形卷积Deformable Conv、DUnet网络得到;所述Q、K分支输出经过逐位乘法操作后的输出与V分支输出经过逐位乘法操作后输出;
所述视觉特征Fv,经过全连接层Linear和归一化操作层softmax求得字符的概率特征Fp,根据字符预测顺序设置字符掩码矩阵Mmask,将Fp和Mmask输入所述语义推理模块SemanticReasoning Block;所述语义推理模块Semantic Reasoning Block,包括掩码多头自注意力模块Masked Multi-Head Attention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax,得到语义特征Fs;所述概率特征Fp和掩码矩阵Mmask经过所述掩码多头自注意力模块Masked Multi-Head Attention得到特征Fm,依次经过标准化层Normalize、前馈连接层Feed Forward、标准化层Normalize、全连接层Linear及归一化操作层softmax,并且概率特征Fp以残差方式连接到所述的标准化层Normalize,在所述前馈连接层Feed Forward前以残差方式连接到下一个标准化层Normalize;
所述双特征融合单元DFFU,用于融合视觉特征Fv和语义特征Fs,对视觉特征Fv、语义特征Fs分别经过全连接层Linear后进行拼接操作,通过Sigmod函数计算各特征的贡献比重,融合视觉特征和语义特征,输出融合后的特征Ff
2.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法,其特征在于:若干所述高效通道注意力ECA模块和所述SwinTransformerBlock层级联连接,对于输入特征数据X从第i级到第i+1级计算公式如下:
Figure FDA0004079908600000021
Figure FDA0004079908600000022
Figure FDA0004079908600000023
Figure FDA0004079908600000024
式中i表示层号,
Figure FDA0004079908600000025
Xi分别表示第i层W-MSA、MLP输出的特征,/>
Figure FDA0004079908600000026
Xi+1则分别表示第i+1层SW-MSA、MLP输出的特征。
3.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法,其特征在于:所述DUnet网络,输入特征依次经过三个下采样和三个上采,每个下采样后以残差的方式经过1×1卷积层1×1Conv后连接到对应的上采样层Up-sampling,所述下采样由空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成,上采样由上采样层Up-sampling、空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成。
4.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法,其特征在于:所述V、Q、K三个分支输出分别为:
V(F)=FWv (5)
Q=PWp (6)
K(F)=DUnet(DConv(F)+F) (7)
Figure FDA0004079908600000027
其中,Wv及Wp是网络需要学习的矩阵、pos为字符在文本序列中的位置,d为P(pos,di)的维度,di为字符向量的位置、k为自然数,2k表示偶数,2k+1表示奇数、P(pos,di)为位置编码矩阵。
5.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法,其特征在于:所述语义推理模块Semantic Reasoning Block的掩码多头自注意力模块MaskedMulti-Head Attention输出Fm
其中:
Fp=softmax(FvW1) (9)
Figure FDA0004079908600000031
Figure FDA0004079908600000032
其中,d为多头自注意力的维度,Wi为训练得到的变换矩阵,i={1,2,3};当网络预测第i个字符时,i与j相等,此时的掩码矩阵Mmask在(i,j)处为负无穷大,与K、Q计算得到的权重相加后经过softmax函数,计算出的权重系数为0,即忽略该字符本身信息,预测结果完全由其它字符的信息得到;依次预测每个位置的字符,即可得到具有语义信息的字符特征Fs
6.根据权利要求1-5任意一项所述的基于注意力机制的自然场景图像中文本识别方法,其特征在于,所述融合后的特征Ff为:
Ff=WvFv*α+WsFs*(1-α) (12)
α=σ([WvFv,WsFs]) (13)
其中,Wv、Ws是网络需要学习的矩阵,α是计算得到的权重系数,[·,·]表示拼接操作,σ为sigmoid函数。
7.一种基于注意力机制的自然场景图像中文本识别系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于注意力机制的自然场景图像中文本识别方法。
CN202310120821.8A 2023-02-13 2023-02-13 基于注意力机制的自然场景图像中文本识别方法及系统 Pending CN116434241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310120821.8A CN116434241A (zh) 2023-02-13 2023-02-13 基于注意力机制的自然场景图像中文本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310120821.8A CN116434241A (zh) 2023-02-13 2023-02-13 基于注意力机制的自然场景图像中文本识别方法及系统

Publications (1)

Publication Number Publication Date
CN116434241A true CN116434241A (zh) 2023-07-14

Family

ID=87087943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310120821.8A Pending CN116434241A (zh) 2023-02-13 2023-02-13 基于注意力机制的自然场景图像中文本识别方法及系统

Country Status (1)

Country Link
CN (1) CN116434241A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117689960A (zh) * 2024-01-31 2024-03-12 中国地质大学(武汉) 一种岩性场景分类模型构建方法及分类方法
CN117710986A (zh) * 2024-02-01 2024-03-15 长威信息科技发展股份有限公司 一种基于掩码的交互式增强图像文本识别的方法及系统
CN117909786A (zh) * 2023-12-22 2024-04-19 东北电力大学 一种基于eeg的左右手运动想象识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909786A (zh) * 2023-12-22 2024-04-19 东北电力大学 一种基于eeg的左右手运动想象识别方法
CN117689960A (zh) * 2024-01-31 2024-03-12 中国地质大学(武汉) 一种岩性场景分类模型构建方法及分类方法
CN117689960B (zh) * 2024-01-31 2024-04-26 中国地质大学(武汉) 一种岩性场景分类模型构建方法及分类方法
CN117710986A (zh) * 2024-02-01 2024-03-15 长威信息科技发展股份有限公司 一种基于掩码的交互式增强图像文本识别的方法及系统
CN117710986B (zh) * 2024-02-01 2024-04-30 长威信息科技发展股份有限公司 一种基于掩码的交互式增强图像文本识别的方法及系统

Similar Documents

Publication Publication Date Title
CN109711463B (zh) 基于注意力的重要对象检测方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN116434241A (zh) 基于注意力机制的自然场景图像中文本识别方法及系统
CN112528780A (zh) 通过混合时域自适应的视频动作分割
CN112818951B (zh) 一种票证识别的方法
CN111553350B (zh) 一种基于深度学习的注意力机制文本识别方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
WO2023207778A1 (zh) 数据修复方法、装置、计算机及可读存储介质
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN111401322A (zh) 进出站识别方法、装置、终端及存储介质
CN114596477A (zh) 基于领域自适应和注意力机制的雾天火车故障检测方法
CN114926636A (zh) 一种点云语义分割方法、装置、设备及存储介质
CN115393289A (zh) 基于集成交叉伪标签的肿瘤图像半监督分割方法
KR20200071865A (ko) 차원 축소에 기반한 영상 객체 인식 시스템 및 방법
CN112836702A (zh) 一种基于多尺度特征提取的文本识别方法
CN116863384A (zh) 一种基于CNN-Transfomer的自监督视频分割方法和系统
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN111626298B (zh) 一种实时图像语义分割装置及分割方法
CN111143544B (zh) 一种基于神经网络的柱形图信息提取方法及装置
Ding et al. Vehicle type recognition from surveillance data based on deep active learning
CN113221628A (zh) 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN117115474A (zh) 一种基于多阶段特征提取的端到端单目标跟踪方法
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination