CN114973222A - 基于显式监督注意力机制的场景文本识别方法 - Google Patents
基于显式监督注意力机制的场景文本识别方法 Download PDFInfo
- Publication number
- CN114973222A CN114973222A CN202111558960.6A CN202111558960A CN114973222A CN 114973222 A CN114973222 A CN 114973222A CN 202111558960 A CN202111558960 A CN 202111558960A CN 114973222 A CN114973222 A CN 114973222A
- Authority
- CN
- China
- Prior art keywords
- attention
- module
- feature
- character
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000010586 diagram Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005452 bending Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 230000001788 irregular Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于显式监督注意力机制的场景文本识别方法,属于场景文本识别领域。在第一部分中,采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码,得到特征图和全局表示。第二部分中,结合先前预测字符信息、位置信息和全局表示进行字符间关系建模,再根据特征图,生成注意力权重,并将该权重乘以特征图得到单个字符的特征,该特征输入到前馈神经网络得到预测的字符,再进入下一个字符的预测识别过程,以此类推,直到得到识别结束标识符。本方法在预测每一个时刻,能够自动定位到该区域的特征,从而提升识别效果,解决了在弯曲或倾斜情况下识别效果差的问题。
Description
技术领域
本发明属于场景文本识别领域,具体提出为采用显式监督注意力机制的编解码结构的文本图像识别方法的方法和系统。整个系统采用带有空间注意力和通道注意力机制的ResNet34卷积神经网络提取文本图像特征,采用基于自注意机制的Transformer 结构进行解码识别。
背景技术
场景文本识别是计算机视觉领域的一个重要挑战,它的任务是在自然图像中自动检测和识别文本。文本作为文字的物理载体,能用来保存和传递信息。在文本检测和识别技术的帮助下,可以解码出视觉影像中的重要语义信息。由于场景文本识别存在巨大的应用价值,近年来在工业界和学术界引起很多人的研究和探索,然而目前识别较好的大多数是背景简单的水平文本。然而在真实场景中,由于场景中光照、遮挡以拍照设备、拍照角度等因素以及文本本身弯曲、倾斜、艺术字等实际因素影响,场景文本识别,特别是不规则场景文本识别,识别效果遇到了较大的瓶颈。
为了针对不规则文本识别的问题,现有的场景文本识别技术(比如:MORAN:AMulti-Object Rectified Attention Network和ASTER:An Attentional Scene TextRecognizer with Flexible Rectification for Scene Text Recognition)在解码阶段采用基于注意力机制的解码器,从而能够自动关注到图片中的字符区域。这些方法能够较好的处理不规则文本识别的问题,但是由于场景图片过于嘈杂,经常会出现“注意力漂移”等问题,从而降低了文本识别的准确率。
发明内容
要解决的技术问题
为了解决现有技术中采用基于注意力机制的解码器出现“注意力漂移”问题,从而导致文本识别准确率低的问题,本发明提出一种基于显式监督注意力机制的场景文本识别方法,通过显式监督的方式对注意力机制进行矫正,使得注意力机制更加精准,从而提升文本识别的准确率和鲁棒性。用于解决弯曲和倾斜的场景文本识别。
技术方案
一种基于显式监督注意力机制的场景文本识别方法,其特征在于步骤如下:
步骤1:将场景文本图片输入到ResNet34卷积神经网络提取得到一个特征图并记为F,F∈R25x8x512;再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G,G∈R1×1×1024;同时对F进行1×1卷积得到F'作为最终提取到的特征,F'∈R25×8×1024;所述的ResNet34的四个layer的每一个block中,都添加了通道注意力和空间注意力机制;
根据字符的标注框对空间注意力进行显式监督,该项loss的计算公式如下所示:
其中ypred为i,j点处的注意力权重,当该点位于字符区域内ylabel为1,否则为0;该监督信号只添加在每一个layer的最后一个block;
步骤2:在解码的时间步t,根据之前预测得到的字符之后再与位置信息相加得到E,E∈Rt×512,再与全局特征表示G拼接在一起得到向量C,C∈Rt×1024;
步骤3:将C输入到带掩码的自注意力机制,用于对输出字中不同字符之间的依赖关系进行建模,自注意力机制如下:
在计算attention时分为三步,第一步是将query和每个key进行相似度计算得到权重;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention;
使用二维注意力模块对编码器和解码器进行连接,它的结构与自注意力模块基本一致,只不过它的K和V都来自于编码阶段得到的F',Q则是带掩码的自注意力模块的输出;本发明对注意力权重进行显式监督训练,该项损失函数的定义如下:
其中ypred为在i,j点的注意力权重,当该点在字符区域内ylabel为1,否则为0;
步骤4:经过二维注意力模块后得到一个图片特征向量,将该向量经过一个全连接层,得到和字母种类数相同维度的向量,对该向量取argmax操作即可得到该时刻下的预测结果。
本发明技术方案更进一步的说:步骤1中:所述的通道注意力模块将输入的特征图,分别经过基于宽和高的全局最大池化层和全局平均池化层,然后分别经过多层感知机;将多层感知机输出的特征进行基于对位相乘的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征图;将该图和输入特征图做对位相乘乘法操作,生成空间注意力模块需要的输入特征;所述的空间注意力模块将通道注意力模块输出的特征图作为本模块的输入特征图,首先做一个基于通道的全局最大池化和全局平均池化,然后将这2个结果基于通道做拼接操作;然后经过一个卷积操作,降维为1个通道;再经过sigmoid生成空间注意力特征;最后将该特征和该模块的输入特征做乘法,得到最终生成的特征。
一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
一种计算机程序,其特征在于包括计算机可执行指令,所述指令在被执行时用于实现上述的方法。
有益效果
本发明提出的一种基于显式监督注意力机制的场景文本识别方法,不仅可以用于识别弯曲和倾斜的场景文本图片,利用二维注意力机制将图片的信息转化为注意力权重矩阵,在预测每一个时刻,能够自动定位到该区域的特征,从而提升识别效果,解决了在弯曲或倾斜情况下识别效果差的问题。引入显式监督的注意力机制能有效解决注意力漂移问题,使得模型能在解码每一个时刻找出场景文本字母的关键区域,结合该字母特征从而更好的识别复说明复杂的场景文本图片。同时也可以对水平的标准场景文本进行识别,整个系统具有更强的实用性,能解决的包含弯曲,倾斜,水平等多种情况下场景文本的识别问题。
附图说明
图1CBAM结构图
图2ResNet结构图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明的系统包括两个部分,第一部分是基于空间注意力和通道注意力机制对场景图片进行特征提取和编码的过程,第二部分为基于自注意力机制的Transformer的解码过程,通过编解码的结构以及注意力机制实现对场景文本的识别。在第一部分中,采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码,得到特征图和全局表示。第二部分中,结合先前预测字符信息、位置信息和全局表示进行字符间关系建模,再根据特征图,生成注意力权重,并将该权重乘以特征图得到单个字符的特征,该特征输入到前馈神经网络得到预测的字符,再进入下一个字符的预测识别过程,以此类推,直到得到识别结束标识符。值得注意的是,为了在编码阶段尽可能忽略图片的背景信息而更多提取到文本的信息,并在解码阶段使模型关注到对应的特征图区域,本发明根据字符的边框信息,分别对编码器和解码器中使用的注意力机制进行显式的监督。步骤如下:
(1)一张场景文本图像经过ResNet34卷积神经网络提取得到一个特征图(featuremap)并记为F,F∈R25x8x512。本发明在ResNet四个layer的每一个block都添加了空间注意力(spatial attention)和通道注意力机制(channel attention),该注意力机制被称为CBAM,它的结构图如图1所示。
通道注意力模块将输入的特征图,分别经过基于宽和高的全局最大池化层和全局平均池化层,然后分别经过多层感知机。将多层感知机输出的特征进行基于对位相乘(element-wise)的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征图。将该图和输入特征图做对位相乘乘法操作,生成空间注意力模块需要的输入特征。
空间注意力模块将通道注意力模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化,然后将这2个结果基于通道做拼接操作。然后经过一个卷积操作,降维为1个通道。再经过sigmoid生成空间注意力特征。最后将该特征和该模块的输入特征做乘法,得到最终生成的特征。
为了使尽可能提取到文本的信息,本发明根据字符的标注框对空间注意力进行显式监督,该项loss的计算公式如下所示:
其中ypred为i,j点处的注意力权重,当该点位于字符区域内ylabel为1,否则为0。该监督信号只添加在每一个layer的最后一个block。
(2)为了在解码阶段的二维注意力计算中保持维度一致,使用1x1卷积将F的通道进行改变得到F',F'∈R25x8x1024。同时将F经过六层的Bottleneck得到另一个特征G,称之为全局表示,G∈R1x1x512,即G是为一个512维度的向量。受Transformer的启发,设计的基于注意力的序列解码器由三层组成:①带掩码的自注意力机制,用于对输出字中不同字符之间的依赖关系进行建模;②连接编码器和解码器的二维注意力模块;③分别应用于每个解码位置的位置前馈层。对于上述三层中的每一层,都使用带有加法运算的残差连接,然后进行层一化。以上三层构成一个模块,可以不共享参数地进行堆叠。
(3)在时间步t(t从0开始)的时候将先前预测得到的t个字符进行编码后和位置编码position embedding加在一起得到512维的向量,再与全局表示G拼接在一起,最终得到t个1024维的输入C,C∈Rt×1024。
(4)将C输入到带掩码的自注意力机制,用于对输出字中不同字符之间的依赖关系进行建模,自注意力机制如下所示。
在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention。
(5)使用二维注意力模块对编码器和解码器进行连接,它的结构与自注意力模块基本一致,只不过它的K和V都来自于编码阶段得到的F',Q则是带掩码的自注意力模块的输出。为了使得模型关注对应字符的区域,这在二维注意力模块中的体现是增加对应字符区域的注意力权重,本发明对注意力权重进行显式监督训练。该项损失函数的定义如下:
其中ypred为在i,j点的注意力权重,当该点在字符区域内ylabel为1,否则为0。
(6)经过二维注意力模块后得到一个图片特征向量,将该向量∈R1x1x1024经过一个全连接层,得到和字母种类数相同维度的向量,对该向量取argmax操作即可得到该时刻下的预测结果。
(7)下一个时刻重复以上(3-6)操作得到多个时刻下的预测结果,直到得到“END”结束符。
(8)在训练时,解码器的输入为真实标签经过词嵌入(embedding)之后得到的向量;在测试时,由于并不知道真实标签信息,之前解码器的输出作为该时刻的输入。只有在训练阶段包含了反向传播。
实施例具体过程如下:
1.注意力机制的标签制作:
在合成场景文本数据集SynthText中提供了图片中每一个字符的边界框信息,本发明根据该信息制作了注意力机制的标签,用于对注意力进行显式监督训练。
模型输入的图片大小为400×128,其中宽400,高128。在编码阶段,本发明在ResNet 的每一个layer的最后一个block上添加了注意力的监督信号。这四个阶段的空间注意力权重图(spatial attention weight map)的大小分别为100×32,50×16,25×8,25×8,为此制作了相应大小的标签。本发明先根据原图和注意图权重大小的比例将字符的边界框缩放到相应的大小,然后生成注意力标签,在字符边界框里面的值为1,在字符边界框外面的值为0。在解码阶段,需要为解码步骤的每一个注意力机制制作对应的标签,每一个标签的大小都是25×8。首先还是将字符边界框缩放到对应的大小,但是注意力标签的值只有在属于当前字符边界框之内的才为1,否则为0。
2.场景文本图片预处理
为了使得输入模型的图片大小为400×128,把图片尺寸使用双线性插值的方法将尺寸调整到400×128。训练时使用的数据增强方式为随机裁剪、改变图像的亮度、对比度、饱和度和色调。
3.基于显式监督注意力机制的ResNet的场景文本图片特征提取
将图片预处理后得到的张量(400×128×3)输入到ResNet34的特征提取层中。在ResNet34的四个layer的每一个block中,都添加了通道注意力和空间注意力机制 CBAM,如图1所示。
为了加大提取到的特征图,将ResNet34最后一层的步长step由2改为1。整个ResNet34的框架图见图2。经过特征提取之后得到F,F∈R25×8×512,再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G,G∈R1×1×1024,同时对F进行1×1 卷积得到F'作为最终提取到的特征,F'∈R25×8×1024。调整后的ResNet结构图如下所示:
4.基于显式监督注意力机制的Transformer结构的特征解码
在解码的时间步t,根据之前预测得到的字符embedding之后再与位置信息position embedding相加得到E,E∈Rt×512,再与全局表示G拼接在一起得到向量C,C∈Rt ×1024,输入到自注意力模块,进行字符之间关系的建模。在二维注意力模块,将自注意力模块的输出当作Q,将编码得到的特征F'当作K和V,在每一个时间步计算得到当前需要关注的特征向量St,St∈R1024。在自注意力模块和二维注意力模块都会加上位置前馈层,它可以被当做两层的全连接层,其中输入输出为1024,隐层维度为2048。
5.模型训练
St经过一个全连接层,其输出的维度等同于所有的字母种类数,再执行softmax操作,将输出的向量转换为每种字母的概率分布,其中概率分布值最大的那一个字母即被认为是该层的预测结果,依次类推,多个时间步得到的预测结果就是场景文本上的所有字母。识别的损失函数使用交叉熵损失函数:
其中x为预测得到的94维向量,gt为真实字符标签。最终的损失函数为:
其中α和β为系数,这里α=0.1,β=1。
优化器选用ADADELTA来计算梯度并进行反向传播。训练的batch size设置为112,一个epoch需要64638个迭代,总共训练6个epoch。
8、模型应用
在通过上面的训练过程后可以得到多个模型,选取其中最优的模型(损失函数值最小)用于应用,此时图片数据处理在这里不需要数据增强,只需要把图像调整到 400×128大小,并且归一化即可作为模型的输入。整个的网络模型的参数都固定不动,只要输入图像数据并向前传播即可。依次得到特征图F'∈R25×8×1024和G∈R1×1×512。再自动传入解码网络自动解码,经过整个模型可以直接得到识别结果。当需要测试大量场景文本图片时候,需要将所有图整合为一个lmdb格式文件,方便一次性读取所有图片。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均在本发明的保护范围之内。
Claims (5)
1.一种基于显式监督注意力机制的场景文本识别方法,其特征在于步骤如下:
步骤1:将场景文本图片输入到ResNet34卷积神经网络提取得到一个特征图并记为F,F∈R25x8x512;再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G,G∈R1 ×1×1024;同时对F进行1×1卷积得到F'作为最终提取到的特征,F'∈R25×8×1024;所述的ResNet34的四个layer的每一个block中,都添加了通道注意力和空间注意力机制;
根据字符的标注框对空间注意力进行显式监督,该项loss的计算公式如下所示:
其中ypred为i,j点处的注意力权重,当该点位于字符区域内ylabel为1,否则为0;该监督信号只添加在每一个layer的最后一个block;
步骤2:在解码的时间步t,根据之前预测得到的字符之后再与位置信息相加得到E,E∈Rt×512,再与全局特征表示G拼接在一起得到向量C,C∈Rt×1024;
步骤3:将C输入到带掩码的自注意力机制,用于对输出字中不同字符之间的依赖关系进行建模,自注意力机制如下:
在计算attention时分为三步,第一步是将query和每个key进行相似度计算得到权重;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention;
使用二维注意力模块对编码器和解码器进行连接,它的结构与自注意力模块基本一致,只不过它的K和V都来自于编码阶段得到的F',Q则是带掩码的自注意力模块的输出;本发明对注意力权重进行显式监督训练,该项损失函数的定义如下:
其中ypred为在i,j点的注意力权重,当该点在字符区域内ylabel为1,否则为0;
步骤4:经过二维注意力模块后得到一个图片特征向量,将该向量经过一个全连接层,得到和字母种类数相同维度的向量,对该向量取argmax操作即可得到该时刻下的预测结果。
2.根据权利要求1所述的一种基于显式监督注意力机制的场景文本识别方法,其特征在于步骤1中:所述的通道注意力模块将输入的特征图,分别经过基于宽和高的全局最大池化层和全局平均池化层,然后分别经过多层感知机;将多层感知机输出的特征进行基于对位相乘的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征图;将该图和输入特征图做对位相乘乘法操作,生成空间注意力模块需要的输入特征;所述的空间注意力模块将通道注意力模块输出的特征图作为本模块的输入特征图,首先做一个基于通道的全局最大池化和全局平均池化,然后将这2个结果基于通道做拼接操作;然后经过一个卷积操作,降维为1个通道;再经过sigmoid生成空间注意力特征;最后将该特征和该模块的输入特征做乘法,得到最终生成的特征。
3.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1所述的方法。
4.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。
5.一种计算机程序,其特征在于包括计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558960.6A CN114973222B (zh) | 2021-12-20 | 基于显式监督注意力机制的场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558960.6A CN114973222B (zh) | 2021-12-20 | 基于显式监督注意力机制的场景文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973222A true CN114973222A (zh) | 2022-08-30 |
CN114973222B CN114973222B (zh) | 2024-05-10 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051859A (zh) * | 2023-02-21 | 2023-05-02 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
CN116189800A (zh) * | 2023-02-23 | 2023-05-30 | 深圳大学 | 基于气体检测的模式识别方法、装置、设备及存储介质 |
CN116824599A (zh) * | 2023-06-27 | 2023-09-29 | 广州市南方人力资源评价中心有限公司 | 答题卡主观题手写体文字检测和识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149644A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于全局特征指导的二维注意力机制文本识别方法 |
CN112801146A (zh) * | 2021-01-13 | 2021-05-14 | 华中科技大学 | 一种目标检测方法及系统 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN113065550A (zh) * | 2021-03-12 | 2021-07-02 | 国网河北省电力有限公司 | 基于自注意力机制的文本识别方法 |
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN112149644A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于全局特征指导的二维注意力机制文本识别方法 |
CN112801146A (zh) * | 2021-01-13 | 2021-05-14 | 华中科技大学 | 一种目标检测方法及系统 |
CN113065550A (zh) * | 2021-03-12 | 2021-07-02 | 国网河北省电力有限公司 | 基于自注意力机制的文本识别方法 |
Non-Patent Citations (1)
Title |
---|
徐富勇;: "基于注意力增强网络的场景文字识别", 现代计算机, no. 09, 25 March 2020 (2020-03-25) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051859A (zh) * | 2023-02-21 | 2023-05-02 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
CN116051859B (zh) * | 2023-02-21 | 2023-09-08 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
CN116189800A (zh) * | 2023-02-23 | 2023-05-30 | 深圳大学 | 基于气体检测的模式识别方法、装置、设备及存储介质 |
CN116189800B (zh) * | 2023-02-23 | 2023-08-18 | 深圳大学 | 基于气体检测的模式识别方法、装置、设备及存储介质 |
CN116824599A (zh) * | 2023-06-27 | 2023-09-29 | 广州市南方人力资源评价中心有限公司 | 答题卡主观题手写体文字检测和识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN113065550B (zh) | 基于自注意力机制的文本识别方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
Tang et al. | FontRNN: Generating Large‐scale Chinese Fonts via Recurrent Neural Network | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
CN114495129A (zh) | 文字检测模型预训练方法以及装置 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN113065561A (zh) | 基于精细字符分割的场景文本识别方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
Brzeski et al. | Evaluating performance and accuracy improvements for attention-OCR | |
CN115222998B (zh) | 一种图像分类方法 | |
Davoudi et al. | Ancient document layout analysis: Autoencoders meet sparse coding | |
US11816909B2 (en) | Document clusterization using neural networks | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114565913A (zh) | 文本识别方法及其装置、设备、介质、产品 | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN117593755B (zh) | 一种基于骨架模型预训练的金文图像识别方法和系统 | |
Ma et al. | Har enhanced weakly-supervised semantic segmentation coupled with adversarial learning | |
US20220198187A1 (en) | Extracting multiple documents from single image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |