CN109543667B - 一种基于注意力机制的文本识别方法 - Google Patents

一种基于注意力机制的文本识别方法 Download PDF

Info

Publication number
CN109543667B
CN109543667B CN201811355154.7A CN201811355154A CN109543667B CN 109543667 B CN109543667 B CN 109543667B CN 201811355154 A CN201811355154 A CN 201811355154A CN 109543667 B CN109543667 B CN 109543667B
Authority
CN
China
Prior art keywords
image
feature
network
text
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811355154.7A
Other languages
English (en)
Other versions
CN109543667A (zh
Inventor
李宏伟
李蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811355154.7A priority Critical patent/CN109543667B/zh
Publication of CN109543667A publication Critical patent/CN109543667A/zh
Application granted granted Critical
Publication of CN109543667B publication Critical patent/CN109543667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于注意力机制的文本识别方法,基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征,从而实现识别图像中的文本。针对于弧形文本CUTE80数据集,本方法的结果优于现有的所有方法,达到77.43%的准确率。在其他场景文本数据集中,本方法也得到了很好的效果。

Description

一种基于注意力机制的文本识别方法
技术领域
本发明基于空间注意的网络(SAN)来识别自然场景中的不规则文本,利用得到的空间信息作为编码器-解码器模型的输入来生成字符序列,尤其涉及一种基于注意力机制的文本识别方法,属于场景文本识别技术领域。
背景技术
在过去几年,场景文本识别任务得到了很多的关注,并且已经有一些解决办法。通常将文本识别分为两种类型:传统的单字符检测识别和序列文本识别。大部分传统的模型使用自底向上的机制,通过首先对单个检测的字符提取低级特征然后识别字符,最后通过一组先验知识把字符组合成字符串。这种识别方式在早期研究中一直存在。但是这种识别往往受限于检测字符的准确度。同时在一些复杂的场景下,是否能够准确的分割字符也成为了影响识别准确率的重要因素。上述这些因素的不确定性,就对识别的研究造成了许多的困扰。因此在后来的研究中,研究人员放弃了对单个字符的检测和分割任务,而是直接在文本图像上进行整个字符序列的识别。在现有的作为序列文本识别问题的研究中,研究员们通常使用整个文本图片,通过编码解码的模型把整个图片编码成一个特征序列,使用解码结构对序列特征进行解码,解码的结果再经过一个多分类器得到最终的字符序列。在这种端到端的序列到序列识别结构中,衍生出两种识别模式:基于连接时间分类器(CTC)的解码识别和基于注意力机制的解码识别。连接时间分类器源于语音识别的研究领域,在处理时序信息时,通常逐一对每个时间步的信息进行识别,筛选所有的结果路径后得到最终的识别结果。而注意力机制是在处理的过程中,通过一种全局的筛选,从一组特征中得到最具有表示能力的特征作为最终的表示进行识别。
通常,在一般的规则文本识别任务中,CTC和注意力机制在效果上差别并不大,但是注意力机制不仅可以作用于序列化特征,同时可以作用于空间中的2维特征,这就给带有空间位置信息的不规则文本识别的研究带来了许多思路。在不规则文本的识别任务中,通常会遇到字符扭曲、拍摄角度倾斜、模糊等问题。场景中的规则文本的排列序列主要是以自左向右的方向排列,而不规则文本的排列序列通常并不具有规律性。这样,传统的序列特征在不规则文本的识别任务中,并不能有很好的泛化能力。
在不规则文本的研究中,现有的方法主要分为两种:1、通过矫正不规则文本图像的方式,得到规则的文本图像,然后再进行序列化的识别;2、直接在2D特征图中进行识别。
在使用矫正的方法中,网络模型可以使用由空间变换网络(STN)得到的矫正后的规则图像,再送入识别网络中,进行识别。但是这种矫正模型在训练时通常非常复杂,需要许多训练技巧,这就给提高识别的准确率增加了许多难度。
另一种方法直接在2D特征图上,通过使用带有辅助检测任务的空间注意力机制,帮助定位文本特征。并且,在现有的不规则文本的识别任务中,基于空间注意机制的模型已经得到相对较好的识别结果。但是现有的模型仍然具有许多问题,其需要密集的辅助字符检测,且需要字符和词的包围盒注解,这就提高了模型的复杂度。还有的方法通过在2维的特征map中,使用LSTM的输出表示一个文本图像的4个方向的特征,同时使用一个全局分类器,对4个方向的特征进行选择,得到一个整合各个方向信息的特征向量。得到这个特征向量后,再使用基于注意力机制的序列解码器解码,得到文本序列。这种识别方法的训练难度比较大,需要复杂的模型设计以及更多的先验知识辅助训练。
增强特征提取网络:大部分现有的用于特征提取的深度神经网络模型,都是基于卷积神经网络来构建模型的。利用卷积网络对局部特征的提取能力,在网络的高层,可以得到全局的抽象的特征图。随着深度的增加,特征将变成抽象的语义信息,这种抽象的语义特征不适用于细粒度的笔画变化。所以需要在浅层网络就能够得到更多的全局的语义信息。在整段的手写识别网络中,研究人员使用MDLSTM网络,使用2D的空间注意力在段文本中,进行逐个字符的识别。但是这种MDLSTM在训练时,训练速度非常慢,而且模型参数量非常大,这就给模型训练带来了许多困难。同时Non-local神经网络的提出给获取全局信息提供了更高效的方法。
因此现有技术主要存在以下缺陷:
1.空间变换网络很难训练,且需要很高的技巧,例如使用特殊方法初始化参数。
2.在带有字符注解的网络模型中,除了需要学习识别网络之外,还需要训练一个密集的字符检测任务,这不仅增加了识别网络的复杂度,而且对训练数据集也提高了要求。
3.在任意方向的识别网络中,虽然在特征选择中从4个方向的特征整合出一个特征序列进行识别,但仍是对序列特征进行识别,并没有充分发挥注意力机制的空间选择能力。
发明内容
本发明的目的在于克服直接在2D特征上使空间注意力机制能够准确的注意十分困难的问题,另外就是如何提高特征的表示能力,包括空间信息和语义信息。
为实现上述目的,本发明采用的技术方案为一种基于注意力机制的文本识别方法,基于空间注意力的网络SAN是一个端到端的文本识别模型,主要结构由图1所示,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征,从而实现识别图像中的文本。
将编码器视为一个特征提取网络,编码器用于提取图像中的特征。特征提取网络是一个带有非局部神经网络的残差块连接的神经网络。在网络模型中,输入大小为W×H的图像到图像特征提取器中,得到整个图像的特征图,W表示图像的宽,H表示图像的高。然后使用在编码器和解码器之间的注意力机制,在每个时间步关注空间区域中的一部分。最后使用基于LSTM的解码器,预测每个时间步的输出,得到字符序列C={C1,C2,......,CN},N表示字符序列的个数,C1,C2......CN表示序列的各个元素。
第一、特征提取网络:
(1)非局部神经网络
非局部操作是经典的非局部均值操作在计算视觉领域中的一个泛化形式。直观上来说,非局部操作能够将某位置处的特征值计算为输入特征位置的所有位置特征的加权和,如公式(1)所示。
Figure BDA0001865892150000031
i表示在输入图像X中输出位置的索引,j表示在输入图像X中其余所有位置的索引,y表示和输入图像大小相同的输出特征图。函数f表示计算i和所有j之间的一个标量,函数g计算一个输入特征的表示,C(x)是一个正则化因子。
非局部操作时,作为一个灵活的结构,能够和卷积操作或者循环神经网络一起使用。这样通过和卷积层结合,构造更加丰富的特征信息。
为简化计算,函数g为一个线性变换层,如公式(2)所示。
g(xj)=Wgxj (2)
Wg是一个能够学习的权值,可以通过使用1×1的卷积层来实现。函数f被定义为:
Figure BDA0001865892150000041
θ(xi)=Wθxi
Figure BDA0001865892150000042
是两个嵌入层,正则化参数C(x)由N表示,N是特征图X中位置的数量。同时,使用一个残差结构来得到最终的非局部块,
zi=Wzyi+xi (4)
y是公式(1)得到,同样非局部块能够插入到任何一个残差神经网络结构之间。
(2)编码网络
构建一个残差全局编码网络来获取全局的空间信息。在残差神经网络中,残差连接能够提高层与层之间的特征学习能力,同时利用插入在残差层中的Non-local块可以给局部特征提供全局的信息来增加每个特征点的表征能力。在获取局部特征时,使用部分预训练的ResNet-101模型的参数来初始化的网络,提高的模型的训练效率。
使用f={fi,j,c}来表示输入图像x到特征提取网络后得到的2D空间特征,i和j分别表示2D空间特征中图像的宽度和高度,c表示通道数。在空间特征中,加入了使用one-hot编码的坐标信息,得到最终的全局特征。
Figure BDA0001865892150000043
Figure BDA0001865892150000051
和/>
Figure BDA0001865892150000052
是两个嵌入矩阵,把左边信息嵌入到和图像特征相同语义空间中。We是一个权值矩阵,由一个1×1的卷积层实现得到。
第二、基于注意力的解码器:
对文本的识别基本上被认为是在一组区域和字符之间进行映射以及建模序列相互依赖性的任务。类似于之前的方法,使用一个基于注意力机制的循环神经网络RNN中的r作为不规则文本识别的一个重要组成部分。在识别到第t个时间步时,得到输出yt即第t个时间步的预测的值:
yt=softmax(WTst) (6)
WT是一个能够学习的参数,St是循环神经网络在时间步t的隐层结点。St是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量Ct得到:
st=LSTM(st-1,yt-1,ct) (7)
上下文向量是使用注意力机制得到一个加权求和的特征表示:
Figure BDA0001865892150000053
在的网络结构中,使用2D注意力机制,在2D空间特征上捕获的注意力权值和每个位置的特征值驻点相乘得到每个位置的加权特征。然后,再对所有的位置进行求和,最终选出一个单一位置大小的特征,表示加权后的特征值。在公式(8)中,注意力权值由score map
Figure BDA0001865892150000054
通过softmax激活得到:
Figure BDA0001865892150000055
Figure BDA0001865892150000056
scoremap是结合了上一个时间步信息和视觉特征的进一步表示。函数fatt由一个单层感知机实现:
Figure BDA0001865892150000057
最终,的模型的损失函数由以下公式(12)计算得到:
L=-logP(yt|x,θ) (12)
x表示输入的文本图像,θ表示需要学习的参数,yt表示第t个时间步的预测的值。
附图说明
图1为本发明中涉及的模型结构示意图,该模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器和基于注意力机制的空间解码器。
图2为非局部块的结构示意图。
图3为特征提取网络结构和残差块结构示意图,其中(a)为特征提取网络结构细节图,(b)为残差块结构细节图。
图4为结果展示示意图。
图5为本发明方法实施流程图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
如图1-3所示,一种基于注意力机制的文本识别方法,基于空间注意力的网络(SAN)是一个端到端的文本识别模型,主要结构由图1所示,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征,从而实现识别图像中的文本。
将编码器视为一个特征提取网络,编码器用于提取图像中的特征。特征提取网络是一个带有非局部神经网络的残差块连接的神经网络。在网络模型中,输入大小为W×H的图像到图像特征提取器中,得到整个图像的特征图,W表示图像的宽,H表示图像的高。然后使用在编码器和解码器之间的注意力机制,在每个时间步关注空间区域中的一部分。最后使用基于LSTM的解码器,预测每个时间步的输出,得到字符序列C={C1,C2,......,CN},N表示字符序列的个数,C1,C2......CN表示序列的各个元素。
第一、特征提取网络:
(1)非局部神经网络
非局部操作是经典的非局部均值操作在计算视觉领域中的一个泛化形式。直观上来说,非局部操作能够将某位置处的特征值计算为输入特征位置的所有位置特征的加权和,如公式1所示。
Figure BDA0001865892150000071
i表示在输入图像X中输出位置的索引,j表示在输入图像X中其余所有位置的索引,y表示和输入图像大小相同的输出特征图。函数f计算i和所有j之间的一个标量,函数g计算一个输入特征的表示,C(x)是一个正则化因子。
非局部操作时,作为一个灵活的结构,能够和卷积操作或者循环神经网络一起使用。这样通过和卷积层结合,构造更加丰富的特征信息。
为简化计算,函数g为一个线性变换层,如公式(2)所示。
g(xj)=Wgxj (2)
Wg是一个可以学习的权值,可以使用1×1的卷积层来实现。函数f被定义为:
Figure BDA0001865892150000072
θ(xi)=Wθxi
Figure BDA0001865892150000073
是两个嵌入层,正则化参数C(x)由N表示,N是特征图X中位置的数量。同时,使用一个残差结构来得到最终的非局部块,
zi=Wzyi+xi (4)
y是公式(1)得到,同样非局部块能够插入到任何一个残差神经网络结构之间。
(2)编码网络
为了获得全局和局部的特征信息来提高特征图的表征能力,使用结合了非局神经网络的残差神经网络。在网络中,构建了一个残差全局编码网络来获取全局的空间信息。在残差神经网络中,残差连接能够提高层与层之间的特征学习能力,同时利用插入在残差层中的Non-local块可以给局部特征提供全局的信息来增加每个特征点的表征能力。在获取局部特征时,使用部分预训练的ResNet-101模型的参数来初始化的网络,提高的模型的训练效率。
使用f={fi,j,c}来表示输入图像x到特征提取网络后得到的2D空间特征,i和j分别表示宽度和高度,c表示通道数。为了能够增强空间信息的表示,在空间特征中,加入了使用one-hot编码的坐标信息,得到最终的全局特征。
Figure BDA0001865892150000081
Figure BDA0001865892150000082
和/>
Figure BDA0001865892150000083
是两个嵌入矩阵,把左边信息嵌入到和图像特征相同语义空间中。We是一个权值矩阵,由一个1×1的卷积层实现得到。
第二、基于注意力的解码器:
对文本的识别基本上被认为是在一组区域和字符之间进行映射以及建模序列相互依赖性的任务。类似于之前的方法,使用一个基于注意力机制的循环神经网络(RNN)r作为不规则文本识别的一个重要组成部分。在识别到第t个时间步时,得到输出yt
yt=softmax(WTst) (6)
WT是一个可以学习的参数,st是循环神经网络(通常为LSTM)在时间步t的隐层结点。通常,st是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量Ct得到:
st=LSTM(st-1,yt-1,ct) (7)
上下文向量是使用注意力机制得到一个加权求和的特征表示:
Figure BDA0001865892150000084
在的网络结构中,使用2D注意力机制,在2D空间特征上捕获的注意力权值和每个位置的特征值驻点相乘得到每个位置的加权特征。然后,再对所有的位置进行求和,最终选出一个单一位置大小的特征,表示加权后的特征值。在公式(8)中,注意力权值由score map
Figure BDA0001865892150000085
通过softmax激活得到:
Figure BDA0001865892150000091
Figure BDA0001865892150000092
scoremap是结合了上一个时间步信息和视觉特征的进一步表示。函数fatt由一个单层感知机实现:
Figure BDA0001865892150000093
最终,的模型的损失函数由以下公式计算得到:
Figure BDA0001865892150000094
x表示输入的文本图像,θ表示需要学习的参数,yt表示第t个时间步的预测的值。
如图4所示,通过使用训练数据对本方法的网络结构进行训练,本发明的网络结构在和现有的方法对比中,取得了很好的结果。
针对于弧形文本CUTE80数据集,本方法的结果优于现有的所有方法,达到77.43%的准确率。在其他场景文本数据集中,本方法也得到了很好的效果。
图5为本发明方法实施流程图。
以上所述仅为解释本发明,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等应包含在本发明的保护范围之内。

Claims (1)

1.一种基于注意力机制的文本识别方法,其特征在于:基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器;文本识别模型基于编码解码结构,文本识别模型为编码器和解码器;编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列;解码器用于解码编码器的编码特征,从而实现识别图像中的文本;
将编码器视为一个特征提取网络,编码器用于提取图像中的特征;特征提取网络是一个带有非局部神经网络的残差块连接的神经网络;输入大小为W×H的图像到图像特征提取网络中,得到整个图像的特征图,W表示图像的宽,H表示图像的高;然后使用在编码器和解码器之间的注意力机制,在每个时间步关注空间区域中的一部分;最后使用基于LSTM的解码器,预测每个时间步的输出,得到字符序列C={C1,C2,......,CN},N表示字符序列的个数,C1,C2.....CN表示序列的各个元素;
第一、特征提取网络:
(1)非局部神经网络
非局部操作将某位置处的特征值计算为输入特征位置的所有位置特征的加权和,如公式(1)所示;
Figure FDA0004175030620000011
i表示在输入图像X中输出位置的索引,j表示在输入图像X中其余所有位置的索引,y表示和输入图像大小相同的输出特征图;函数f表示计算i和所有j之间的一个标量,函数g计算一个输入特征的表示,C(x)是一个正则化因子;
函数g为一个线性变换层,如公式(2)所示;
g(xj)=Wgxj (2)
Wg是一个能够学习的权值,通过使用1×1的卷积层来实现;函数f被定义为:
Figure FDA0004175030620000012
θ(xi)=Wθxi
Figure FDA0004175030620000013
是两个嵌入层,正则化参数C(x)由N表示,N是特征图X中位置的数量;同时,使用一个残差结构来得到最终的非局部块,
zi=Wzyi+xi (4)
y是公式(1)得到;
(2)编码网络
构建一个残差全局编码网络来获取全局的空间信息;在获取局部特征时,使用部分预训练的ResNet-101模型的参数来初始化网络,提高模型的训练效率;
使用f={fi,j,c}来表示输入图像x到特征提取网络后得到的2D空间特征,i和j分别表示2D空间特征中图像的宽度和高度,c表示通道数;在空间特征中,加入了使用one-hot编码的坐标信息,得到最终的全局特征;
Figure FDA0004175030620000021
Figure FDA0004175030620000023
和/>
Figure FDA0004175030620000024
是两个嵌入矩阵,把左边信息嵌入到和图像特征相同语义空间中;We是一个权值矩阵,由一个1×1的卷积层实现;/>
第二、基于注意力的解码器:
在识别到第t个时间步时,得到输出yt即第t个时间步的预测的值:
yt=softmax(WTst) (6)
WT是一个能够学习的参数,st是循环神经网络在时间步t的隐层结点;st是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量ct得到:
st=LSTM(st-1,yt-1,ct) (7)
上下文向量是使用注意力机制得到一个加权求和的特征表示:
Figure FDA0004175030620000022
在网络结构中,使用2D注意力机制,在2D空间特征上捕获的注意力权值和每个位置的特征值逐点相乘得到每个位置的加权特征;然后,再对所有的位置进行求和,最终选出一个单一位置大小的特征,表示加权后的特征值;在公式(8)中,注意力权值由score map
Figure FDA0004175030620000031
通过softmax激活得到:
Figure FDA0004175030620000032
Figure FDA0004175030620000033
函数fatt由一个单层感知机实现:
Figure FDA0004175030620000034
最终,模型的损失函数由以下公式(12)计算得到:
Figure FDA0004175030620000035
x表示输入的文本图像,θ表示需要学习的参数,yt表示第t个时间步的预测的值。
CN201811355154.7A 2018-11-14 2018-11-14 一种基于注意力机制的文本识别方法 Active CN109543667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811355154.7A CN109543667B (zh) 2018-11-14 2018-11-14 一种基于注意力机制的文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811355154.7A CN109543667B (zh) 2018-11-14 2018-11-14 一种基于注意力机制的文本识别方法

Publications (2)

Publication Number Publication Date
CN109543667A CN109543667A (zh) 2019-03-29
CN109543667B true CN109543667B (zh) 2023-05-23

Family

ID=65847490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811355154.7A Active CN109543667B (zh) 2018-11-14 2018-11-14 一种基于注意力机制的文本识别方法

Country Status (1)

Country Link
CN (1) CN109543667B (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175979B (zh) * 2019-04-08 2021-07-27 杭州电子科技大学 一种基于协同注意力机制的肺结节分类方法
CN110135427B (zh) * 2019-04-11 2021-07-27 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
CN110070085B (zh) * 2019-04-30 2021-11-02 北京百度网讯科技有限公司 车牌识别方法和装置
CN110097019B (zh) * 2019-05-10 2023-01-10 腾讯科技(深圳)有限公司 字符识别方法、装置、计算机设备以及存储介质
CN110276715B (zh) * 2019-05-14 2020-07-17 北京邮电大学 一种图像去夜方法和装置
CN110188866B (zh) * 2019-05-28 2021-06-25 北京工业大学 一种基于注意力机制的特征提取方法
CN110390326A (zh) * 2019-06-14 2019-10-29 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN110378334B (zh) * 2019-06-14 2023-04-18 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
CN110232417B (zh) * 2019-06-17 2022-10-25 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及计算机可读存储介质
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110488755A (zh) * 2019-08-21 2019-11-22 江麓机电集团有限公司 一种数控g代码的转换方法
CN110543877A (zh) * 2019-09-04 2019-12-06 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置和电子系统
CN110689012A (zh) * 2019-10-08 2020-01-14 山东浪潮人工智能研究院有限公司 一种端到端的自然场景文本识别方法及系统
CN110738262B (zh) * 2019-10-16 2022-11-11 北京市商汤科技开发有限公司 文本识别方法和相关产品
CN110796143A (zh) * 2019-10-31 2020-02-14 天津大学 一种基于人机协同的场景文本识别方法
CN110889385A (zh) * 2019-12-02 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于局部邻近注意力的手写文本识别方法
CN111144469B (zh) * 2019-12-20 2023-05-02 复旦大学 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN111144309B (zh) * 2019-12-27 2023-06-20 苏州海管家物流科技有限公司 一种集装箱箱门图像自动识别方法
CN111160341B (zh) * 2019-12-27 2023-04-07 华南理工大学 一种基于双注意力机制的场景中文文本识别方法
CN111242183A (zh) * 2020-01-03 2020-06-05 北京交通大学 基于注意力机制的图像识别分类方法及装置
CN111222515B (zh) * 2020-01-06 2023-04-07 北方民族大学 一种基于上下文感知注意力的图像翻译方法
CN111259773A (zh) * 2020-01-13 2020-06-09 中国科学院重庆绿色智能技术研究院 一种基于双向解码的不规则文本行识别方法及系统
CN111476133B (zh) * 2020-03-30 2021-06-01 杭州电子科技大学 面向无人驾驶的前背景编解码器网络目标提取方法
CN111507328A (zh) * 2020-04-13 2020-08-07 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、系统、设备及可读存储介质
CN111768420A (zh) * 2020-07-03 2020-10-13 中国科学院微小卫星创新研究院 一种细胞图像分割模型
CN111815053B (zh) * 2020-07-09 2021-03-16 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN111950453B (zh) * 2020-08-12 2024-02-13 北京易道博识科技有限公司 一种基于选择性注意力机制的任意形状文本识别方法
CN111985397B (zh) * 2020-08-20 2022-07-12 南京邮电大学 一种基于深度学习的小学生口算题文本图片内容识别方法
CN111933122B (zh) * 2020-09-07 2024-06-18 北京有竹居网络技术有限公司 语音识别方法、装置、电子设备和计算机可读介质
CN112183525B (zh) * 2020-09-15 2023-11-24 中保车服科技服务股份有限公司 一种文本识别模型的构建及文本识别方法和装置
CN112036122B (zh) * 2020-11-06 2021-02-23 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN113052164A (zh) * 2020-12-28 2021-06-29 航天信息股份有限公司 文本识别的方法、装置、存储介质及电子设备
CN112733768B (zh) * 2021-01-15 2022-09-09 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN112801103B (zh) * 2021-01-19 2024-02-27 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN112990220B (zh) * 2021-04-19 2022-08-05 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统
CN113297986A (zh) * 2021-05-27 2021-08-24 新东方教育科技集团有限公司 手写字符识别方法、装置、介质及电子设备
CN113221576B (zh) * 2021-06-01 2023-01-13 复旦大学 一种基于序列到序列架构的命名实体识别方法
CN113221181B (zh) * 2021-06-09 2022-08-09 上海交通大学 具有隐私保护的表格类信息抽取系统及方法
CN113591546B (zh) * 2021-06-11 2023-11-03 中国科学院自动化研究所 语义增强型场景文本识别方法及装置
CN113436314B (zh) * 2021-06-25 2022-10-04 北京理工大学 一种基于结构的计算机三维网格模型重建方法
CN113807340B (zh) * 2021-09-07 2024-03-15 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN113887480B (zh) * 2021-10-19 2022-05-17 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
CN114241497B (zh) * 2021-11-09 2024-06-11 山东师范大学 基于上下文关系注意力机制的表格序列识别方法及系统
CN116824599A (zh) * 2023-06-27 2023-09-29 广州市南方人力资源评价中心有限公司 答题卡主观题手写体文字检测和识别方法及装置
CN116740795B (zh) * 2023-08-16 2023-11-24 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN117494713B (zh) * 2023-12-29 2024-03-01 苏州元脑智能科技有限公司 一种字符识别方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015048232A1 (en) * 2013-09-26 2015-04-02 Tokitae Llc Systems, devices, and methods for classification and sensor identification using enhanced sparsity
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108269275A (zh) * 2018-02-23 2018-07-10 深圳市唯特视科技有限公司 一种基于非局部神经网络的非局部建模方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015048232A1 (en) * 2013-09-26 2015-04-02 Tokitae Llc Systems, devices, and methods for classification and sensor identification using enhanced sparsity
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108269275A (zh) * 2018-02-23 2018-07-10 深圳市唯特视科技有限公司 一种基于非局部神经网络的非局部建模方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Non-local Neural Networks;Xiaolong Wang等;《arXiv》;第1-10页 *
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention;Kelvin Xu 等;《arXiv》;第1-22页 *

Also Published As

Publication number Publication date
CN109543667A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543667B (zh) 一种基于注意力机制的文本识别方法
CN111325099B (zh) 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN112766172B (zh) 一种基于时序注意力机制的人脸连续表情识别方法
CN111967470A (zh) 一种基于解耦注意力机制的文本识别方法及系统
CN111428718A (zh) 一种基于图像增强的自然场景文本识别方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN114092930B (zh) 一种文字识别方法及系统
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN110020658A (zh) 一种基于多任务深度学习的显著目标检测方法
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN113807340A (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
AU2021104479A4 (en) Text recognition method and system based on decoupled attention mechanism
CN110135253A (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
CN113128461B (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant