CN109919174A - 一种基于门控级联注意力机制的文字识别方法 - Google Patents
一种基于门控级联注意力机制的文字识别方法 Download PDFInfo
- Publication number
- CN109919174A CN109919174A CN201910040323.6A CN201910040323A CN109919174A CN 109919174 A CN109919174 A CN 109919174A CN 201910040323 A CN201910040323 A CN 201910040323A CN 109919174 A CN109919174 A CN 109919174A
- Authority
- CN
- China
- Prior art keywords
- character
- attention
- sequence
- attention mechanism
- iteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公布了一种基于门控级联注意力机制的文字识别方法,涉及深度学习与图像文字识别技术。本发明方法采用基于注意力机制的编码器‑解码器框架,使用编码器从输入图像中提取出特征向量序列;使用解码器依据编码后的特征向量序列循环地生成目标字符序列;在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,提升了注意力机制对准的准确性,避免利用额外的字符集标注数据来监督注意力机制训练,节省了人力成本,提高了场景文字识别的准确率,增强了识别模型对复杂情况的鲁棒性。
Description
技术领域
本发明属于计算机视觉技术领域,涉及深度学习与图像文字识别技术,尤其涉及一种使用门控级联注意力机制来识别图片中文字内容的技术。
背景技术
文字是最重要的信息载体,在日常生活中随处可见。因此,从日常生活场景的图片和视频中提取文字信息,有十分广泛的应用场景,例如多语言翻译、盲人导航、自动驾驶和产品搜索等。然而由于自然图片具有背景复杂、分辨率低、存在透视和弯曲形变等特点,文字识别任务是非常具有挑战性的。
现有的文字识别方法大多采用基于注意力机制的编码器-解码器框架。编码器通过卷积神经网络和循环神经网络从输入图像中提取特征向量序列。解码器根据编码后的特征向量序列循环地生成目标字符序列。在每一步中,注意力机制赋予每个特征向量不同的注意力权重,决定了解码器关注哪些特征向量。然而,现有的注意力机制比较简单,对于复杂背景、低分辨率、文本形状不规则等具有挑战性的情况,会出现注意力区域和目标字符区域不能正确对准的现象,从而导致识别结果出错。因此,现有的文字识别方法对复杂情况的识别准确率较低,鲁棒性不好。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于门控级联注意力机制的文字识别方法,用以解决基于注意力机制的识别方法中注意力区域和目标字符区域不能正确对准的现象,进而提升识别模型的准确率和鲁棒性。
本发明提供的技术方案是:
一种基于门控级联注意力机制的文字识别方法,采用基于注意力机制的编码器-解码器框架,在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,从而提升文字识别的准确率;包括如下步骤:
1)使用编码器从输入图像中提取出特征向量序列;
11)使用基于残差结构的多层卷积神经网络从输入图像中提取视觉特征图。
12)使用长短期记忆网络(如双向长短期记忆网络或二维长短期记忆网络2D-LSTM)对视觉特征图进一步编码,得到最终编码后的特征向量序列h=(h1,h2…,hL)。对于双向长短期记忆网络,将视觉特征图按列切分成特征向量序列,再使用双向长短期记忆网络进一步编码,得到最终编码后的特征向量序列,序列的特征向量个数L=W;对于二维长短期记忆网络,直接使用二维长短期记忆网络对视觉特征图进一步编码,再将编码后的特征图按空间位置划分,得到最终编码的特征向量序列,序列的特征向量个数L=H×W,其中H,W分别为卷积神经网络输出的特征图的高度和宽度;
2)使用解码器依据编码后的特征向量序列循环地生成目标字符序列。
解码器解码过程包含T步,其中T为目标字符序列的长度。解码器第t步生成第t个字符,对于第t步,执行如下操作:
21)使用门控级联注意力模块来生成输入图像中第t个字符在候选字符集上的概率分布。门控级联注意力模块采取级联结构,通过M轮迭代得到对准更加精确的注意力权重。每次迭代中,依据当前输入的特征向量序列计算注意力权重分布和隐状态,并将根据注意力权重加权后的特征向量序列作为下一轮迭代的输入特征向量序列。将最后一轮迭代的隐状态输入一个softmax分类器,进行分类,得到输入图像中第t个字符在候选字符集上的概率分布。
22)使用集束搜索算法,得到前t步中累计概率最大的前k个字符序列,其中k为集束宽。门控级联注意力模块的预测结果依赖于前一步预测得到的字符。贪婪算法总是选择概率最大的字符,取得的最终结果不一定是累计概率最大的字符序列。集束搜索算法考虑前t-1步中累计概率最大的前k个字符序列,与第t步预测的概率分布相结合,保留其中得分最高的前k个字符序列。
不断重复上述预测过程,当预测得到的最大概率的字符为终止符时,停止预测。最终累计得分最高的目标字符序列即为识别得到的文字内容。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于门控级联注意力机制的文字识别方法,采用基于注意力机制的编码器-解码器框架,通过门控级联结构来改进注意力机制,在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,提升了注意力机制对准的准确性,避免利用额外的字符集标注数据来监督注意力机制训练,节省了人力成本,提高了文字识别的准确率,增强了识别模型对复杂情况的鲁棒性。本发明技术方案能够解决基于注意力机制的识别方法中注意力区域和目标字符区域不能正确对准的现象,提升文字识别的准确率,进而提升识别模型的准确率和鲁棒性。
附图说明
图1为本发明提供方法采用的编码器-解码器框架的整体网络结构图;
其中,E表示编码器部分;D表示解码器部分;①—输入图像;②—卷积神经网络;③—长短期记忆网络;④—门控级联注意力模块。
图2为本发明的门控级联注意力模块的结构图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提出了一种基于门控级联注意力机制的文字识别方法。如图1所示,本发明采用了编码器-解码器框架,其中“E”表示编码器部分,“D”表示解码器部分。
以下实施例设定要识别内容为“STAR”的输入图像①中的文字,具体实施方式如下:
实施例一
1)使用编码器E从输入图像①中提取特征向量序列h=(h1,h2…,hL);编码器包括卷积神经网络和双向长短期记忆网络;
11)使用卷积神经网络②从输入图像①中提取一系列的视觉特征图。卷积神经网络②采用残差网络结构,并且引入了卷积块注意力模块(Convolutional Block AttentionModule,CBAM)来提升特征的表达能力。卷积块注意力模块依次使用通道维度的注意力模块Mc和空间维度的注意力模块MS对输入的特征图进行加权。对于通道数为C,高度为H,宽度为W的输入特征图F,通道维度的注意力计算方式表示为式1:
其中,σ表示sigmoid函数,和分别表示平均池化和最大池化后的特征图,维度为C×1×1。W0和W1为可学习参数,空间维度的注意力计算方式表示为式2:
其中,[;]表示拼接操作,和分别表示平均池化和最大池化后的特征图,维度为1×H×W。Conv表示一个卷积核大小为3×3的卷积层。该实例在卷积神经网络②的每个卷积块后面插入了卷积块注意力模块。表1展示了具体的网络结构和参数设置:残差网络模块参数格式为{[卷积核大小,通道数]×模块个数},步长和填补均设为1;其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高,通道数};最大池化层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高};卷积块注意力模块参数格式为{通道数,压缩比例}。
12)将卷积神经网络②提取的视觉特征图从左到右按列切分并展开,转化为一系列的特征向量。将转化后的特征向量序列输入两层的双向长短期记忆网络③,进一步编码,得到最终编码的特征向量序列h=(h1,h2…,hL),其中L为卷积神经网络输出的特征图的宽度,在本实例中L=26。双向长短期记忆网络③的隐藏单元个数为256。
表1编码器中卷积神经网络的网络结构和参数设置
2)使用解码器D依据编码后的特征向量序列h=(h1,h2…,hL)循环地生成目标字符序列;解码器解码过程包含T步,其中T为目标字符序列的长度。对于第t步,执行如下操作:
21)使用门控级联注意力模块④生成输入图像①中第t个字符在候选字符集上的概率分布yt。该模块采用了级联的注意力结构,通过M轮迭代得到对准更加精确的注意力权重。本实例中,M设为3。图2展示了门控级联注意力模块④的详细内部结构,其中G表示门控循环单元(Gated Recurrent Unit,GUR),A表示计算注意力权重的模块,Fs表示softmax分类器。在式3-7中,使用上标(i)表示迭代次数,取值范围为0,1…,M。对于第t步的第i轮迭代过程,门控循环单元根据前一步预测的概率分布yt-1、上一轮迭代的隐状态和上下文特征向量计算当前的隐状态
其中,为前一步预测的概率分布yt-1的独热(one-hot)编码结果,第t步的第i轮迭代的上下文特征向量为输入的特征向量序列根据注意力权重的加权和。加权后的特征向量序列被送入下一轮迭代,作为输入的特征向量序列。将最后一轮迭代的隐状态输入一个softmax分类器,得到输入图像中的第t个字符在候选字符集上的概率分布yt,表示为式7。
每轮迭代过程计算时,需要用到上一轮迭代过程计算出的和对于第t步的第1轮迭代,对于第1步,均为相应维度的零向量。本发明能够预测任意长度的字符序列。对于本实施例中内容为“STAR”的输入图像,预测得到的T为4。
22)使用集束搜索算法,得到前t步中累计概率最大的前k个字符序列,其中k为集束宽。集束搜索算法考虑前t-1步中累计概率最大的前k个字符序列,分别将这些字符序列的最后一个字符的独热编码作为输入门控级联注意力模块,得到相应的第t步预测的概率分布,将概率对应相乘后得到k*候选字符集字符个数个候选字符序列的累计概率,保留其中累计概率最大的前k个字符序列。
不断重复上述预测过程,当预测得到的最大概率的字符为终止符时,停止预测。最终累计得分最高的目标字符序列即为识别得到的文字内容。在本实例中设置k为5。对于本实施例中的输入图像,最终预测结果为“STAR”。
通过上述步骤,对图像实现基于门控级联注意力机制的文字识别,得到图像中的字符文字。
实施例二
1)使用编码器E从输入图像①中提取特征向量序列h=(h1,h2…,hL);编码器包括卷积神经网络和二维长短期记忆(2D-LSTM)网络;
11)使用卷积神经网络②从输入图像①中提取一系列的视觉特征图。卷积神经网络②采用残差网络结构,并且引入了卷积块注意力模块(Convolutional Block AttentionModule,CBAM)来提升特征的表达能力。表2展示了具体的网络结构和参数设置:残差网络模块参数格式为{[卷积核大小,通道数]×模块个数},步长和填补均设为1;其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高,通道数};最大池化层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高};卷积块注意力模块参数格式为{通道数,压缩比例}。
12)将卷积神经网络②提取的视觉特征图输入两层的二维长短期记忆网络③进一步编码,得到编码后的特征图。将该特征图按空间位置划分,得到最终编码的特征向量序列h=(h1,h2…,hL),其中L=H×W,H,W分别为卷积神经网络输出的特征图的高度和宽度,在本实例中H=4,W=26。双向长短期记忆网络③的隐藏单元个数为256。与实施例一不同在于conv5_x结构不同,CNN高度下采样减少。
表2编码器中卷积神经网络的网络结构和参数设置
2)使用解码器D依据编码后的特征向量序列h=(h1,h2…,hL)循环地生成目标字符序列;解码器解码过程包含T步,其中T为目标字符序列的长度。具体过程与实例一相同。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (6)
1.一种基于门控级联注意力机制的文字识别方法,采用基于注意力机制的编码器-解码器框架,在解码器中通过级联迭代的方式,逐步增强注意力机制对准的准确度,从而提升识别文字的准确率;包括如下步骤:
1)采用卷积神经网络和长短期记忆网络构建编码器;使用编码器从输入图像中提取出特征向量序列;执行操作11)~12):
11)使用多层卷积神经网络从输入图像中提取视觉特征图;
所述多层卷积神经网络采用残差网络结构并引入卷积块注意力模块以提升特征表达能力;
12)将视觉特征图按列切分成特征向量序列,并使用长短期记忆网络进一步建进一步编码,得到编码后的特征向量序列;
2)使用解码器依据编码后的特征向量序列循环地生成目标字符序列;解码器解码过程包含T步,其中T为目标字符序列的长度;解码器第t步生成第t个字符,对于第t步,执行操作21)~22):
21)使用门控级联注意力模块,生成输入图像中第t个字符在候选字符集上的概率分布;包括:
211)门控级联注意力模块采用级联结构,通过多轮迭代得到对准更加精确的注意力权重;
212)每轮迭代中,依据当前输入的特征向量序列计算注意力权重分布和隐状态,并将根据注意力权重加权后的特征向量序列作为下一轮迭代的输入特征向量序列;
213)将最后一轮迭代的隐状态输入一个softmax分类器,得到在候选字符集上的概率分布;
22)使用集束搜索方法,得到前t-1步中累计概率最大的前k个字符序列,再根据步骤2)得到的第t步预测的概率分布,保留其中得分最高的前k个字符序列,作为最终的预测结果,即为识别得到的文字。
2.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤12)所述长短期记忆网络为双向长短期记忆网络或二维长短期记忆网络;
所述长短期记忆网络为双向长短期记忆网络时,将视觉特征图按列切分成特征向量序列,再使用双向长短期记忆网络进一步编码,编码后得到特征向量序列h=(h1,h2…,hL),序列的特征向量个数L为卷积神经网络输出的视觉特征图的宽度W;
所述长短期记忆网络为二维长短期记忆网络时,使用二维长短期记忆网络对视觉特征图进一步编码,得到编码后的特征图,再将该特征图按空间位置划分,得到最终编码的特征向量序列h=(h1,h2…,hL),其中L=H×W,H,W分别为卷积神经网络输出的视觉特征图的高度和宽度。
3.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤11)所述卷积块注意力模块依次使用通道维度的注意力模块Mc和空间维度的注意力模块Ms对输入的特征图进行加权;对于通道数为C,高度为H,宽度为W的输入特征图F,通道维度的注意力通过式1计算得到:
其中,σ表示sigmoid函数,和分别表示平均池化和最大池化后的特征图,维度为C×1×1;W0和W1为可学习参数;空间维度的注意力通过式2计算:
其中,[;]表示拼接操作,和分别表示平均池化和最大池化后的特征图,维度为1×H×W;Conv表示一个卷积核大小为3×3的卷积层。
4.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤11)所述多层卷积神经网络中,残差网络模块的参数格式为{[卷积核大小,通道数]×模块个数},步长和填补均设为1;其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高,通道数};最大池化层参数格式为{卷积核宽×卷积核高,步长宽×步长高,填补宽×填补高};卷积块注意力模块的参数格式为{通道数,压缩比例}。
5.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,步骤21)使用门控级联注意力模块生成在候选字符集上的概率分布y=(y1,y2…,yT),T为预测的字符序列长度;具体地,门控级联注意力模块包括门控循环单元G、计算注意力权重的模块A和softmax分类器Fs;
对于第t步的第i轮迭代过程,门控循环单元根据前一步预测的概率分布yt-1、上一轮迭代的隐状态和上下文特征向量通过式3计算当前的隐状态
其中,为前一步预测的概率分布yt-1的独热编码结果,上下文特征向量为输入的特征向量序列根据注意力权重的加权和;
上下文特征向量为输入的特征向量序列根据注意力权重的加权和;
被送入下一轮迭代,作为输入的特征向量序列;
将最后一轮迭代的隐状态输入softmax分类器,得到输入图像中的第t个字符在候选字符集上的概率分布yt,表示为式7:
其中,M为迭代轮次总数;
当预测得到的最大概率的字符为终止符时,停止预测,得到概率分布序列y=(y1,y2…,yT),T为预测的字符序列长度。
6.如权利要求1所述基于门控级联注意力机制的文字识别方法,其特征是,具体地,迭代轮次总数为3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910040323.6A CN109919174A (zh) | 2019-01-16 | 2019-01-16 | 一种基于门控级联注意力机制的文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910040323.6A CN109919174A (zh) | 2019-01-16 | 2019-01-16 | 一种基于门控级联注意力机制的文字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109919174A true CN109919174A (zh) | 2019-06-21 |
Family
ID=66960406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910040323.6A Pending CN109919174A (zh) | 2019-01-16 | 2019-01-16 | 一种基于门控级联注意力机制的文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919174A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334948A (zh) * | 2019-07-05 | 2019-10-15 | 上海交通大学 | 基于特征量预测的电力设备局部放电严重程度评估方法及系统 |
CN110458011A (zh) * | 2019-07-05 | 2019-11-15 | 北京百度网讯科技有限公司 | 端到端的文字识别方法及装置、计算机设备及可读介质 |
CN110543877A (zh) * | 2019-09-04 | 2019-12-06 | 北京迈格威科技有限公司 | 标识识别方法及其模型的训练方法、装置和电子系统 |
CN110597086A (zh) * | 2019-08-19 | 2019-12-20 | 深圳元戎启行科技有限公司 | 仿真场景生成方法和无人驾驶系统测试方法 |
CN110889385A (zh) * | 2019-12-02 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于局部邻近注意力的手写文本识别方法 |
CN111259782A (zh) * | 2020-01-14 | 2020-06-09 | 北京大学 | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 |
CN111368634A (zh) * | 2020-02-05 | 2020-07-03 | 中国人民解放军国防科技大学 | 基于神经网络的人头检测方法、系统及存储介质 |
CN111539410A (zh) * | 2020-04-16 | 2020-08-14 | 深圳市商汤科技有限公司 | 字符识别方法及装置、电子设备和存储介质 |
CN111783705A (zh) * | 2020-07-08 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及系统 |
CN111898411A (zh) * | 2020-06-16 | 2020-11-06 | 华南理工大学 | 文本图像标注系统、方法、计算机设备和存储介质 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112163596A (zh) * | 2020-09-04 | 2021-01-01 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN113065406A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 一种基于编解码结构识别发票文本的报账智能平台 |
CN113158776A (zh) * | 2021-03-08 | 2021-07-23 | 国网河北省电力有限公司 | 基于编解码结构的发票文本识别方法及装置 |
CN113435436A (zh) * | 2021-06-03 | 2021-09-24 | 北京理工大学 | 一种基于线性约束矫正网络的场景文字识别方法 |
CN113515619A (zh) * | 2021-07-12 | 2021-10-19 | 南京理工大学 | 一种基于显著性信息门控机制的关键词生成方法 |
CN113591546A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN117237856A (zh) * | 2023-11-13 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171141A (zh) * | 2017-12-25 | 2018-06-15 | 淮阴工学院 | 基于注意力模型的级联多模式融合的视频目标跟踪方法 |
CN108364087A (zh) * | 2018-01-11 | 2018-08-03 | 安徽优思天成智能科技有限公司 | 一种城市机动车尾气浓度的时空预测方法 |
CN108389224A (zh) * | 2018-02-26 | 2018-08-10 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN108615036A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
-
2019
- 2019-01-16 CN CN201910040323.6A patent/CN109919174A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN108171141A (zh) * | 2017-12-25 | 2018-06-15 | 淮阴工学院 | 基于注意力模型的级联多模式融合的视频目标跟踪方法 |
CN108364087A (zh) * | 2018-01-11 | 2018-08-03 | 安徽优思天成智能科技有限公司 | 一种城市机动车尾气浓度的时空预测方法 |
CN108389224A (zh) * | 2018-02-26 | 2018-08-10 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN108615036A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
Non-Patent Citations (5)
Title |
---|
BAOGUANG SHI ET AL.: "ASTER: An Attentional Scene Text Recognizer with Flexible Rectification", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
CHEN-YU LEE ET AL.: "Recursive Recurrent Nets with Attention Modeling for OCR in the Wild", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
KAI XU ET AL.: "LCANet: End-to-End Lipreading with Cascaded Attention-CTC", 《ARXIV》 * |
SANGHYUN WOO ET AL.: "CBAM: Convolutional Block Attention Module", 《ARXIV》 * |
ZHANZHAN CHENG ET AL.: "Focusing Attention: Towards Accurate Text Recognition in Natural Images", 《ARXIV》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334948A (zh) * | 2019-07-05 | 2019-10-15 | 上海交通大学 | 基于特征量预测的电力设备局部放电严重程度评估方法及系统 |
CN110458011A (zh) * | 2019-07-05 | 2019-11-15 | 北京百度网讯科技有限公司 | 端到端的文字识别方法及装置、计算机设备及可读介质 |
US11210546B2 (en) | 2019-07-05 | 2021-12-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | End-to-end text recognition method and apparatus, computer device and readable medium |
CN110334948B (zh) * | 2019-07-05 | 2023-04-07 | 上海交通大学 | 基于特征量预测的电力设备局部放电严重程度评估方法及系统 |
CN110597086A (zh) * | 2019-08-19 | 2019-12-20 | 深圳元戎启行科技有限公司 | 仿真场景生成方法和无人驾驶系统测试方法 |
CN110597086B (zh) * | 2019-08-19 | 2023-01-13 | 深圳元戎启行科技有限公司 | 仿真场景生成方法、无人驾驶系统测试方法以及装置 |
CN110543877A (zh) * | 2019-09-04 | 2019-12-06 | 北京迈格威科技有限公司 | 标识识别方法及其模型的训练方法、装置和电子系统 |
CN110889385A (zh) * | 2019-12-02 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于局部邻近注意力的手写文本识别方法 |
CN111259782A (zh) * | 2020-01-14 | 2020-06-09 | 北京大学 | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 |
CN111368634A (zh) * | 2020-02-05 | 2020-07-03 | 中国人民解放军国防科技大学 | 基于神经网络的人头检测方法、系统及存储介质 |
CN111539410A (zh) * | 2020-04-16 | 2020-08-14 | 深圳市商汤科技有限公司 | 字符识别方法及装置、电子设备和存储介质 |
CN111898411A (zh) * | 2020-06-16 | 2020-11-06 | 华南理工大学 | 文本图像标注系统、方法、计算机设备和存储介质 |
CN111783705B (zh) * | 2020-07-08 | 2023-11-14 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及系统 |
CN111783705A (zh) * | 2020-07-08 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及系统 |
CN112052889B (zh) * | 2020-08-28 | 2023-05-05 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112163596A (zh) * | 2020-09-04 | 2021-01-01 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN112163596B (zh) * | 2020-09-04 | 2024-01-05 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN113065406B (zh) * | 2021-03-08 | 2022-11-11 | 国网河北省电力有限公司 | 一种基于编解码结构识别发票文本的报账智能平台 |
CN113158776A (zh) * | 2021-03-08 | 2021-07-23 | 国网河北省电力有限公司 | 基于编解码结构的发票文本识别方法及装置 |
CN113065406A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 一种基于编解码结构识别发票文本的报账智能平台 |
CN113435436A (zh) * | 2021-06-03 | 2021-09-24 | 北京理工大学 | 一种基于线性约束矫正网络的场景文字识别方法 |
CN113591546B (zh) * | 2021-06-11 | 2023-11-03 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN113591546A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN113515619A (zh) * | 2021-07-12 | 2021-10-19 | 南京理工大学 | 一种基于显著性信息门控机制的关键词生成方法 |
CN113515619B (zh) * | 2021-07-12 | 2024-08-13 | 南京理工大学 | 一种基于显著性信息门控机制的关键词生成方法 |
CN117237856A (zh) * | 2023-11-13 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备、存储介质 |
CN117237856B (zh) * | 2023-11-13 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919174A (zh) | 一种基于门控级联注意力机制的文字识别方法 | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN109389091B (zh) | 基于神经网络和注意力机制结合的文字识别系统及方法 | |
CN110765966B (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN112613303B (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
CN113673594B (zh) | 一种基于深度学习网络的瑕疵点识别方法 | |
CN110309732B (zh) | 基于骨架视频的行为识别方法 | |
CN110929092B (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
CN113515951B (zh) | 基于知识增强注意力网络和组级语义的故事描述生成方法 | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 | |
CN112163596B (zh) | 复杂场景文本识别方法、系统、计算机设备及存储介质 | |
US20230368500A1 (en) | Time-series image description method for dam defects based on local self-attention | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110473267A (zh) | 基于注意力特征提取网络的社交网络图像描述生成方法 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN114154016B (zh) | 基于目标空间语义对齐的视频描述方法 | |
CN114048818A (zh) | 一种基于加速Transformer模型的视频分类方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN112016590A (zh) | 结合序列局部特征提取及深度卷积预测模型的预测方法 | |
CN114969298A (zh) | 一种基于跨模态异质图神经网络的视频问答方法 | |
CN115860054A (zh) | 基于生成对抗网络的稀疏码本多址编解码系统 | |
CN111767697A (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN117557856A (zh) | 一种基于自监督学习的病理全切片特征学习方法 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190621 |
|
WD01 | Invention patent application deemed withdrawn after publication |