CN113065550B - 基于自注意力机制的文本识别方法 - Google Patents

基于自注意力机制的文本识别方法 Download PDF

Info

Publication number
CN113065550B
CN113065550B CN202110268438.8A CN202110268438A CN113065550B CN 113065550 B CN113065550 B CN 113065550B CN 202110268438 A CN202110268438 A CN 202110268438A CN 113065550 B CN113065550 B CN 113065550B
Authority
CN
China
Prior art keywords
convolution
neural network
module
convolution module
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110268438.8A
Other languages
English (en)
Other versions
CN113065550A (zh
Inventor
刘义江
陈蕾
侯栋梁
池建昆
范辉
阎鹏飞
魏明磊
李云超
姜琳琳
辛锐
陈曦
杨青
沈静文
吴彦巧
姜敬
檀小亚
师孜晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Original Assignee
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co, State Grid Hebei Electric Power Co Ltd filed Critical Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
Priority to CN202110268438.8A priority Critical patent/CN113065550B/zh
Publication of CN113065550A publication Critical patent/CN113065550A/zh
Application granted granted Critical
Publication of CN113065550B publication Critical patent/CN113065550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于于场景文本识别领域,涉及一种基于自注意力机制的文本识别方法,由处理器执行一卷积神经网络算法指令实现,其包括:接收包含文本内容的场景图片;使用卷积神经网络其第一卷积模块提取场景图片的第一特征图M,其自注意力机制模块将第一特征图M编码为第二特征图Matt,其第二卷积模块提取第二特征图Matt通道方向的一维特征向量F;使用卷积神经网络其第三卷积模块根据第二特征图Matt和一维特征向量F获得场景图片的文本内容识别结果;第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对第二特征图Matt解码并设于循环卷积模块中循环单元输出的二维注意力机制模块。该方法能够对弯曲、倾斜等不规则文本实现较好的识别。

Description

基于自注意力机制的文本识别方法
技术领域
本发明属于场景文本识别领域,具体涉及一种采用自注意力机制编解码结构的文本识别方法。
背景技术
视觉意义的文本作为文字的物理载体,能用来保存和传递信息。文本识别技术是计算机视觉领域的一个重要挑战,它的任务是在自然图像中自动检测和识别文本信息。在文本检测和识别技术的帮助下,可以解码出视觉影像中的重要语义信息。由于场景文本识别具有重大的应用价值,近年来在工业界和学术界受到了越来越多的关注。本领域技术人员已经能针对背景简单的水平文本设计识别系统并获得较好的识别效果,而在真实场景中,由于场景中光照、遮挡以拍照设备、拍照角度等因素以及文本本身弯曲、倾斜、艺术字等实际因素影响,场景文本识别,特别是不规则场景文本识别存在技术困难。
针对真实场景视觉影像中不规则文本的识别问题,现有技术的场景文本识别技术在解码阶段采用基于注意力机制的解码器,从而能够自动关注到图片中的字符区域。这些方法能够较好的处理不规则文本识别的问题,但是由于场景图片过于嘈杂,经常会出现“注意力漂移”等问题,从而降低了文本识别的准确率。
发明内容
本发明目的在于提供一种基于自注意力机制的场景文本识别方法,该方法能够对检测阶段提供的文本目标实现较好的识别,特别是处理弯曲、倾斜等不规则文本的识别问题。
本发明提供的技术方案是基于自注意力机制的文本识别方法,由处理器执行一卷积神经网络的算法指令实现,该方法包括:接收包含文本内容的场景图片;使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M,其自注意力机制模块将所述第一特征图M编码为第二特征图Matt,其第二卷积模块提取所述第二特征图Matt通道方向的一维特征向量F;使用所述卷积神经网络其第三卷积模块根据所述第二特征图Matt和一维特征向量F获得所述场景图片的文本内容识别结果;所述第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对所述第二特征图Matt解码并设于所述循环卷积模块中循环单元输出的二维注意力机制模块。
一个改进在于,所述第一卷积模块的主干部分采用ResNet的卷积结构。进一步的改进在于,所述第一卷积模块的主干部分采用ResNet34的卷积结构。ResNet34采用了一种深度适中较为均衡的网络结构,其配合本发明构思中其他网络结构的配置,被验证可以获得更好的成本控制。再进一步的改进在于,所述ResNet34最后一层卷积步长被设为1,以便获得尺寸更大的第一特征图。
另一个改进在于,所述第二卷积模块包含多层Bottleneck结构。
另一个改进在于,所述第三卷积模块的循环卷积网络为LSTM网络。其进一步的改进在于,所述第三卷积模块的二维注意力机制模块;所述二维注意力机制模块设置于LSTM每个循环单元的输出中,用于根据所述第二特征图Matt和上一步获得的隐层状态对各循环单元输出实施解码。优选的,所述第三卷积模块中LSTM的初始隐层状态被设置为所述一维特征向量F。
另一个改进在于,对于所述卷积神经网络,在对其进行训练时,所述循环神经网络的输入为真实标签经过线性变换得到的一个one-hot的向量;在对其进行测试时,由于并不知道真实标签信息,所述卷积神经网络配置为将上一个时刻循环神经网络的输出作为该时刻的输入。进一步的改进在于,所述卷积神经网络只有在训练阶段配置反向传播。
接收包含文本内容的场景图片;使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M,其自注意力机制模块将所述第一特征图M编码为第二特征图Matt,其第二卷积模块提取所述第二特征图Matt通道方向的一维特征向量F;使用所述卷积神经网络其第三卷积模块根据所述第二特征图Matt和一维特征向量F获得所述场景图片的文本内容识别结果;所述第三卷积模块包含以一维特征向量F为初始隐含层的LSTM模块以及用于对所述第二特征图Matt解码并设于所述LSTM模块循环单元输出的二维注意力机制模块。
主要模块包括如下:该系统包括两个部分,第一部分是基于自注意力机制对场景图片进行特征提取和编码的过程,第二部分为基于循环神经网络的解码过程,通过编解码的结构以及注意力机制实现对场景文本的识别。在第一部分中,我们采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码,得到特征图。第二部分中,结合先前预测字符信息、位置信息和全局表示进行字符间关系建模,将特征输入到循环神经网络得到预测的字符,再进入下一个字符的预测识别过程,以此类推,直到得到识别结束标识符。
在一个由ResNet34实现的实施例中,场景文本识别方法包含以下主要步骤:
首先,对于一张场景文本图像经过ResNet34卷积神经网络提取得到一个第一特征图(feature map)并记为M,在其最后一个layer卷积处理后加入自注意力机制模块,使得其实际输出为包含了字符注意力特征分布的第二特征图并记为Matt。将Matt经过六层的Bottleneck得到另一个一维特征向量F。
然后,对特征向量F作为循环神经网络的初始隐含层状态h0,将“START”编码后作为循环神经网络的初始输入x0,同时输进LSTM的第一个层结构,并得到第一个状态下的隐含层结构和车牌图片第一个字母的分布结果。之后,将h1和Matt输入到二维注意力机制中得到权重图,并将权重图与Matt接进行矩阵乘法并得到一个向量。输入包含两部分:第一个为,上一个隐层状态ht作为注意力机制的输入,先经过一个1x1的卷积,再通过空间维度复制得到与Matt尺寸相同的一个特征图;另一个为在第一步中得到的特征图Matt,经过一个1x1的卷积得到另一个特征图;通过将两个输入的处理之后得到的矩阵特征图进行矩阵加和,再进行Tanh操作,最后经过为经过1x1的卷积和softmax操作得到注意力权重矩阵α,注意力权重和M进行矩阵点乘和求和得到最重的一维向量dt。将上述得到的图片一维特征向量dt和隐层状态ht通过在通道方向上的concat操作得到新的一维图片特征向量
Figure BDA0002973251240000031
将该向量经过一个全连接层,得到和字符种类数相同维度的向量,对该向量取argmax操作即可得到该时刻下的预测结果。
下一个时刻重复以上上一个时刻操作得到多个时刻下的预测结果,直到得到“END”结束符。
本发明的有益效果:本发明不仅可以用于识别弯曲和倾斜的场景文本图片,利用二维注意力机制将图片的信息转化为注意力权重矩阵,在预测每一个时刻,能够自动定位到该区域的特征,从而提升识别效果,解决了在弯曲或倾斜情况下识别效果差的问题。引入自注意力机制能有效解决注意力漂移问题,使得模型能在解码每一个时刻找出场景文本字母的关键区域,结合该字母特征从而更好的识别复说明复杂的场景文本图片。同时也可以对水平的标准场景文本进行识别,整个系统具有更强的实用性,能解决的包含弯曲,倾斜,水平等多种情况下场景文本的识别问题。
附图说明
图1为本发明一个实施例中基于自注意力机制的文本识别方法使用的卷积神经网络结构示意图;
图2为本发明一个实施例中基于自注意力机制的文本识别方法使用的第一卷积模块的结构示意图;
图3为图1中二维注意力机制模块卷积处理流程示意图。
具体实施方式
首先需要说明的是,现有技术中,要想捕捉图像数据中某些像素点空间分布特征的长距离依赖,通常的做法是堆积卷积层,随着层数的加深,感受野越来越大,就能把原先非相邻的像素点纳入到一个整体考虑,获取的信息分布广度也越来越高。这种靠堆叠卷积层得到的感受野提升,需要不断重复卷积过程,而这种重复会带来几个弊端:首先,计算效率很低,层的加深意味着更多的参数,更复杂的关系;其次,优化困难,需要谨慎设计优化过程;最后,建模困难,尤其是对于那些多级依赖项,需要在不同距离位置传递信息的情况难以设计有效的算法处理模型。自注意力机制(Self-attention)虽然通过计算任意两个位置之间的交互直接捕捉远程依赖,而不用局限于相邻点,摒弃了距离的概念。可以捕捉长距离依赖关系,但是根据现阶段公开的背景技术,具体的模型设计并非是显然的。
进一步的说明在于,本发明中选择自注意力机制的Non-Local Block设计所述将第一特征图处理为第二特征图的自注意力机制模块,其调用的自注意力算法考虑为整体卷积神经网络的一个泛化、简单、可直接嵌入到当前网络的非局部操作算子,用于捕获一维特征信号在时间、空间及时空中的长范围依赖,本发明中通过以下公式表示说明:
Figure BDA0002973251240000041
其中,x是作为输入信号的特征空间的一个特征张量,本发明为第一特征图,i、j是特征图指定位置的特征向量的索引,指定i处的特征向量xi对于第一特征图的注意力权重分布的响应值yi是通过索引j枚举所有可能位置来计算的。二元函数f计算i和j之间的相似关系,即相似度,一元函数g计算输入信号在位置j表示。最终的响应yi通过响应因子C(x)进行标准化处理得到。各个响应的yi按照对应xi在x中的分布顺序组成本发明的第二特征图。本发明实施例中具体提供了一种Non-Local Block的使用方式,在Xiaolong Wang,RossGirshick,Abhinav Gupta,Kaiming He等公开的关于Non-local Neural Networks的论文(https://arxiv.org/abs/1711.07971)中提供了其他改进的Non-Local Block,本领域技术人员基本本发明提供的构思结合论文中公开的其他实施方式,可以直接获得本发明的另一些实施例。
下面结合附图通过一个实施例及该实施例的改进实施例对本发明提供技术方案及相应技术效果进行详细说明。
本实施例提供了一个基于自注意力机制的文本识别方法,是一种利用自注意力机制对Resnet34输出特征图中文本内容信息进行编码并利用二维注意力机制对LSTM循环步骤间隐含层输出针对文本内容信息进行解码实现的场景文本识别方法。为方面理解,本实施例通过以下步骤100至800对具体过程表述,这些步骤在实际实施中并不代表时间的先后顺序,在实现各步骤的实施准备条件的前提下,变更顺序的实施也是本发明的不同实施方式。
步骤100,预处理用于学习的场景文本图片样本。
本实施例中,场景文本图片样本采用合成样本,具体的,使用合成场景文本数据集SynthText。在预处理中,每张样本图片被调整为同一的尺寸,并进行数据增强,示范的,本实施例中,每张样本图片被使用双线性插值的方法调整为640×96大小,训练时使用的数据增强方式包括随机裁剪、改变图像的亮度、对比度、饱和度和色调。本步骤获得包含文本内容的场景图片,具体的,本实施例中,样本图片在RGB三个通道分量展开后,一张场景图片使用一个的640×96×3的张量表示。
步骤200,构建由第一卷积模块、自注意力机制模块、第二卷积模块以及包含二维注意力机制模块的第三卷积模块组成的卷积神经网络。
示范的,参考图1,本实施例中,第一卷积模块1001使用ResNet34结构构建其主干,自注意力机制模块使用Non Local Block结构,第二卷积模块1002使用由六层Bottleneck组成残差网络,第三卷积模块1003使用LSTM结构构建其主干,并在LSTM的每个循环单元的输出中设置二维注意力机制模块(2D Attention)对各单元输出解码。本实施例中,对本方法使用的卷积神经网络更具体的结构设置和作用,可以从以下对其工作原理的说明中获得。
本实施例中的卷积神经网络的数据处理主要包括两部分,第一部分为编码阶段,使用基于自注意力机制的第一卷积模块从场景图片中提取场景文本图片特征,将图片预处理后得到的张量(640×96×3)输入到ResNet34的特征提取层中。在ResNet34的最后一个block后,调用自注意力机制。
参考图2的整个ResNet34的框架图,本实施例的一个优选是,为了加大提取到的特征图,本实施例将ResNet34最后一层的步长step由2改为1。经过特征提取之后得到Matt,具体的,本实施例中Matt∈R40×6×512,再将Matt输入到六层的Bottleneck组成的第二卷积模块得到一维特征向量F,具体的,本实施例中F∈R1×1×512
第二部分为解码阶段,使用结合先前预测字符信息、位置信息和全局表示进行字符间关系建模,将特征输入到循环神经网络得到预测的字符,再进入下一个字符的预测识别过程,以此类推,直到得到识别结束标识符。其中,先前预测的字符信息指,由多个单元组成的循环神经网络中,每个单元的输入使用前一个单元预测输出,这些输出中携带可以由词嵌入(embedding)提取的单字符信息;位置信息是自注意力机制模块的编码获得的第二特征图中携带有字符在图片中分布的位置信息;全局信息指前面编码得到的第二特征图也同时包含了图片的全局信息。
参考图1的,本实施例中,以一维特征向量F作为循环神经网络LSTM的初始隐含层状态h0,将“START”编码后作为循环神经网络的初始输入x0,同时输进LSTM的第一个层结构,并得到其对应第一个状态下的隐含层结构和场景图片中第一个字符的分布结果,如场景图片为车牌图片,第一个字符可能为车牌属地。以此循环,可以获得h2,…ht-1,ht。示范的,第一个层结构第一个状态下的隐含层可以表示为:
h1=f(h0,x0) (1)
其中,f为LSTM一个循环中对输入x和上一隐层状态h的操作,LSTM的第一层输出中,在将h1和Matt输入到二维注意力机制模块中得到权重图,并将权重图与Matt进行矩阵乘法并得到一个向量作为下一层的一个输入。参考图3,整个二维注意力机制模块与LSTM各层结构对应的各单元的输入包含两部分,以LSTM的第t个层结构为例,说明本实施例中对第三卷积模块中各层输出的改进:第一个输入为,上一个LSTM循环单元输出的隐层状态ht
Figure BDA0002973251240000061
作为注意力机制的输入,先经过一个1x1的卷积,再通过空间维度复制得到一个与第二特征图尺寸相同的特征图,本实施例中其维度仍为40x6x512;另一个输入为,根据第二特征图Matt,经过一个1x1的卷积得到另一个特征图,本实施例中其维度仍为40x6x512;通过将两个输入的处理之后得到的矩阵特征图进行矩阵加和,再进行Tanh操作,最后经过为经过1x1的卷积和softmax操作得到注意力权重矩阵α,注意力权重矩阵α和第二特征图Matt进行矩阵点乘和求和得到最重的一维向量dt。示范的,整个二维注意力机制模块可以用以下公式表达:
Figure BDA0002973251240000071
αij=softmax(Wggi) (3)
Figure BDA0002973251240000072
本实施例中
Figure BDA0002973251240000073
其中
Figure BDA0002973251240000074
是识别获得的特征图Matt在坐标为(i,j)处点的特征向量,
Figure BDA0002973251240000075
是在t时刻的隐含层状态,Wm,Wh,Wg都是神经网络模型需要学习的分别与第二特征图、隐层状态和注意力提取的权重有关的线性变换矩阵。
Figure BDA0002973251240000076
为矩阵相加操作,αij为分注意力权重矩阵在坐标为(i,j)点的值,dt为上述权重求和之后的图片特征向量,以便基于注意力机制的图片特征向量能够用于字符的解码。激活函数采用tanh和Relu。将第t步得到的图片特征向量
Figure BDA0002973251240000077
和隐层状态
Figure BDA0002973251240000078
通过concat操作得到新的图片特征向量
Figure BDA0002973251240000079
将该向量经过一个全连接层,得到和字母种类数相同维度的向量,对该向量取argmax操作即可得到该时刻下的预测结果。
根据LSTM网络的原理,在其下一个时刻重复以上处理操作即可得到多个时刻下的预测结果,直到得到“END”结束符。整个识别可以表征为:
Figure BDA00029732512400000710
其中,
Figure BDA00029732512400000711
是在t时刻的隐含层状态,dt为权重求和之后的图片特征向量,也即是二维注意力机制的输出,
Figure BDA00029732512400000712
表示上述线性变换。
在另一实施例中,在编码阶段采用不同的编码结构,在ResNet的每一个layer的最后一个block上添加了注意力的监督信号。根据每个layer的输出尺寸设置相应的的空间注意力权重图(spatial attention weight map)的大小,相应的,训练使用样本需要制作各层的注意力标签,即在合成场景文本数据集SynthText中提供了图片中每一个字符的边界框信息,根据该信息制作注意力机制的标签,用于对注意力进行显式监督训练:先根据原图和注意图权重大小的比例将字符的边界框缩放到相应的大小,然后生成注意力标签,在字符边界框里面的值为1,在字符边界框外面的值为0。在解码阶段,需要为解码步骤的每一个注意力机制制作对应的标签,每一个标签的大小都是其中最小尺寸的标签。
步骤300,配置损失函数并对卷积神经网络训练。
本实施例中,卷积神经网络整个训练过程为端到端的训练,在循环神经网络得到预测结果的矩阵分布形式,每一层循环神经网络得到一个字母的预测结果,在上一步得到的向量concat操作之后经过一个全连接层,其输出的维度等同于所有的字母种类数,再执行softmax操作,将输出的向量转换为每种字母的概率分布,其中概率分布值最大的那一个字母即被认为是该层的预测结果,依次类推,得到多个层的预测结果就是车牌上的所有字母。主要损失函数使用交叉熵损失函数:
Figure BDA0002973251240000081
这里的x为预测向量,gt为真实场景文本图片包含字符Embedding后的向量。优化器统一选用Adam优化器来计算梯度并进行反向传播。更新参数时需要设置学习率,初始学习率设置为0.0001,然后每经过12000个iteration,学习率就衰减到原来的90%,直到学习率到1x10-5之后不再递减。一次迭代的图片数设置为24张图片。40万个epoch后损失趋于平稳。
优选的,本实施例中,在训练时,循环神经网的输入为真实标签经过线性变化得到的一个one-hot的向量,本实施例中真实标签包括相关字符嵌入处理的数据;在测试时,由于并不知道真实标签信息,将上一个时刻循环神经网络的输出作为该时刻的输入。只有在训练阶段包含了反向传播。
步骤400,模型应用。
在通过上面的训练过程后可以得到多个模型,选取其中最优的模型(损失函数值最小)用于应用,此时图片数据处理在这里不需要数据增强,只需要把图像调整到640×96大小,并且归一化即可作为模型的输入。整个的网络模型的参数都固定不动,只要输入图像数据并向前传播即可。依次得到特征图Matt∈R40×6×512和F∈R1×1×512。再自动传入解码网络自动解码,经过整个模型可以直接得到识别结果。当需要测试大量场景文本图片时候,可以将所有图整合为一个数据文件,如采用数据表存储各图片RGB数值时可以使用lmdb格式文件,方便一次性读取所有图片。
本实施例中,实现场景文本识别方法的整个计算机系统采用带有自注意力机制的ResNet34卷积神经网络作为编码器,提取文本图像特征,并采用循环神经网络结构进行解码识别,进而实现场景文本中的识别。
本发明实施方式还包括一种基于自注意力机制的场景文本识别装置,其包括存储器、处理器,所述存储器存储本发明方法实施例训练获得的模型参数,所述处理器读取实现本发明卷积神经网络所描述的算法结构的程序指令,并依据所述模型参数实现上述场景文本识别。
本发明实施方式还包括一种计算机可读存储介质,所述计算机可读存储介质存储实现本发明方法的程序指令和/或通过本发明方法训练获得的模型参数。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均在本发明的保护范围之内。

Claims (10)

1.一种基于自注意力机制的文本识别方法,由处理器执行一卷积神经网络算法指令实现,其包括:
接收包含文本内容的场景图片;使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M,其自注意力机制模块将所述第一特征图M编码为第二特征图Matt,其第二卷积模块提取所述第二特征图Matt通道方向的一维特征向量F;使用所述卷积神经网络其第三卷积模块根据所述第二特征图Matt和一维特征向量F获得所述场景图片的文本内容识别结果;所述第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对所述第二特征图Matt解码并设于所述循环卷积模块中循环单元输出的二维注意力机制模块;
在所述第一卷积模块的主干部分的每一个layer的最后一个block上添加所述自注意力机制模块的注意力的监督信号;
所述自注意力机制模块包含Non-LocalBlock,所述Non-LocalBlock调用的自注意力算法为整体卷积神经网络的一个泛化且可直接嵌入到当前网络的非局部操作算子,用于捕获所述第一特征图M中一维特征信号在时间、空间及时空中的长范围依赖,并将该长范围依赖编码于所述第二特征图Matt
2.根据权利要求1所述的文本识别方法,其特征在于,
所述第一卷积模块的主干部分采用ResNet的卷积结构。
3.根据权利要求2所述的文本识别方法,其特征在于,
所述第一卷积模块的主干部分采用ResNet34的卷积结构。
4.根据权利要求3所述的文本识别方法,其特征在于,
所述ResNet34最后一层卷积步长被设为1。
5.根据权利要求1所述的文本识别方法,其特征在于,
所述第二卷积模块包含多层Bottleneck结构。
6.根据权利要求1所述的文本识别方法,其特征在于,
所述第三卷积模块的循环卷积网络为LSTM网络。
7.根据权利要求6所述的文本识别方法,其特征在于:
所述第三卷积模块的二维注意力机制模块;所述二维注意力机制模块设置于LSTM每个循环单元的输出中,用于根据所述第二特征图Matt和上一步获得的隐层状态对各循环单元输出实施解码。
8.根据权利要求7所述的文本识别方法,其特征在于:
所述第三卷积模块中LSTM的初始隐层状态被设置为所述一维特征向量F。
9.根据权利要求1所述的文本识别方法,其特征在于:
对于所述卷积神经网络,在对其进行训练时,所述循环神经网络的输入为真实标签经过线性变换得到的一个one-hot的向量;在对其进行测试时,由于并不知道真实标签信息,所述卷积神经网络配置为将上一个时刻循环神经网络的输出作为该时刻的输入。
10.根据权利要求9所述的文本识别方法,其特征在于:
所述卷积神经网络只有在训练阶段配置反向传播。
CN202110268438.8A 2021-03-12 2021-03-12 基于自注意力机制的文本识别方法 Active CN113065550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110268438.8A CN113065550B (zh) 2021-03-12 2021-03-12 基于自注意力机制的文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110268438.8A CN113065550B (zh) 2021-03-12 2021-03-12 基于自注意力机制的文本识别方法

Publications (2)

Publication Number Publication Date
CN113065550A CN113065550A (zh) 2021-07-02
CN113065550B true CN113065550B (zh) 2022-11-11

Family

ID=76560104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110268438.8A Active CN113065550B (zh) 2021-03-12 2021-03-12 基于自注意力机制的文本识别方法

Country Status (1)

Country Link
CN (1) CN113065550B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409300A (zh) * 2021-07-12 2021-09-17 上海市第一人民医院 基于人工智能技术的新冠肺炎数据处理系统
CN113642572B (zh) * 2021-07-15 2023-10-27 上海交通大学 一种基于多级注意力的图像目标检测方法、系统与装置
CN113837282B (zh) * 2021-09-24 2024-02-02 上海脉衍人工智能科技有限公司 一种自然场景文本识别的方法及计算设备
CN114973222B (zh) * 2021-12-20 2024-05-10 西北工业大学宁波研究院 基于显式监督注意力机制的场景文本识别方法
CN116740795B (zh) * 2023-08-16 2023-11-24 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160341A (zh) * 2019-12-27 2020-05-15 华南理工大学 一种基于双注意力机制的场景中文文本识别方法
CN111899292A (zh) * 2020-06-15 2020-11-06 北京三快在线科技有限公司 文字识别方法、装置、电子设备及存储介质
WO2020257812A2 (en) * 2020-09-16 2020-12-24 Google Llc Modeling dependencies with global self-attention neural networks

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
CN111310766A (zh) * 2020-03-13 2020-06-19 西北工业大学 基于编解码和二维注意力机制的车牌识别方法
CN111898606B (zh) * 2020-05-19 2023-04-07 武汉东智科技股份有限公司 一种视频图像中叠加透明时间字符的夜间成像识别方法
CN111967470A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于解耦注意力机制的文本识别方法及系统
CN112163596B (zh) * 2020-09-04 2024-01-05 华南理工大学 复杂场景文本识别方法、系统、计算机设备及存储介质
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160341A (zh) * 2019-12-27 2020-05-15 华南理工大学 一种基于双注意力机制的场景中文文本识别方法
CN111899292A (zh) * 2020-06-15 2020-11-06 北京三快在线科技有限公司 文字识别方法、装置、电子设备及存储介质
WO2020257812A2 (en) * 2020-09-16 2020-12-24 Google Llc Modeling dependencies with global self-attention neural networks

Also Published As

Publication number Publication date
CN113065550A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN113065550B (zh) 基于自注意力机制的文本识别方法
Kalchbrenner et al. Grid long short-term memory
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
Yang et al. Fully convolutional sequence recognition network for water meter number reading
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN112801280A (zh) 视觉深度自适应神经网络的一维卷积位置编码方法
Chen et al. Conditional detr v2: Efficient detection transformer with box queries
Zhang et al. An improved YOLOv3 model based on skipping connections and spatial pyramid pooling
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN115222998A (zh) 一种图像分类方法
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN114821169A (zh) 微服务架构下的方法级无侵入调用链路追踪方法
CN114240811A (zh) 一种基于多张图像生成新图像的方法
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN113065417A (zh) 基于生成对抗式风格迁移的场景文本识别方法
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN113344784A (zh) 通过潜在空间正则化对监督式生成对抗网络进行优化
Li et al. Dynamic information enhancement for video classification
CN116128998A (zh) 一种多路并行的文本到图像生成方法和系统
Park et al. Cafenet: class-agnostic few-shot edge detection network
CN115424275A (zh) 一种基于深度学习技术的渔船船牌号识别方法及系统
CN110688986B (zh) 注意力分支引导的3d卷积行为识别网络方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant