CN112686345A - 一种基于注意力机制的脱机英文手写识别方法 - Google Patents

一种基于注意力机制的脱机英文手写识别方法 Download PDF

Info

Publication number
CN112686345A
CN112686345A CN202011632940.4A CN202011632940A CN112686345A CN 112686345 A CN112686345 A CN 112686345A CN 202011632940 A CN202011632940 A CN 202011632940A CN 112686345 A CN112686345 A CN 112686345A
Authority
CN
China
Prior art keywords
attention
handwriting recognition
layer
module
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011632940.4A
Other languages
English (en)
Other versions
CN112686345B (zh
Inventor
桑庆兵
卓天天
孙俊
吴小俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202011632940.4A priority Critical patent/CN112686345B/zh
Publication of CN112686345A publication Critical patent/CN112686345A/zh
Application granted granted Critical
Publication of CN112686345B publication Critical patent/CN112686345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种基于注意力机制的脱机英文手写识别方法,其可以提高对手写字符串的识别率,满足实际应用的需求。本发明技术方案中构建的脱机英文手写识别模型包括基于注意力机制的卷积神经网络和双向长短期记忆网络模型,基于注意力机制构建的卷积神经网络提取的图像特征,特征图经注意力模块后更能聚焦有用特征而非无用的手写拖拽特征,使得提取的图像特征更加关注有用信息,忽略无用信息,进而提高了图像识别的准确率。

Description

一种基于注意力机制的脱机英文手写识别方法
技术领域
本发明涉及图像处理技术领域,具体为一种基于注意力机制的脱机英文手写识别方法。
背景技术
为将书写于纸上的信息数字化以便于后期的查询检索,最简单的方法是采取专人录入,但这种方式极大浪费人力物力以及时间。光学文字识别(Optical CharacterRecognition,OCR)实现了机器“读懂”人类手写文字,但由于脱机手写文字的风格迥异,一般的卷积神经网络模型提取出的图像特征表示力不强,如2019年Carbonell等人提出的针对全文本的检测识别方法,其对手写字符串的识别错误率非常高,需要很多后续的处理工作,无法满足实际应用的需求。
发明内容
为了解决现有的手写识别方法错误率较高的技术问题,本发明提供一种基于注意力机制的脱机英文手写识别方法,其可以提高对手写字符串的识别率,满足实际应用的需求。
本发明的技术方案是这样的:一种基于注意力机制的脱机英文手写识别方法,其包括以下步骤:
S1:选取书写来源不同的脱机手写单词图像,并进行预处理,添加标签,获得训练数据集;
S2:构建脱机英文手写识别模型;
S3:将已知标签的所述训练数据集输入到所述脱机英文手写识别模型中进行训练,获得训练好的所述脱机英文手写识别模型;
S4:将待识别手写单词的图像输入到训练好的所述脱机英文手写识别模型中,获得识别结果;
其特征在于:
所述脱机英文手写识别模型包括:依次连接的基于卷积神经网络构建的图像特征提取模块、基于双向长短期记忆网络模型构建的序列特征提取模块、生成模块;
所述图像特征提取模块直接从输入的图像中提取特征,生成特征序列,其包括:9个卷积层,4个池化层,3个注意力模块层以及2个批量标准化层;其中,将9个卷积层分成5个卷积块,前四个所述卷积块包括连续的两个卷积层,最后一个所述卷积块包括一个卷积层,每个卷积层后面都设置一个修正线性单元激活函数;
前四个所述卷积块后面分别跟着一个所述池化层,前三个所述卷积块的所述池化层前面分别设置一个注意力模块层;
第四个所述卷积块中,每个卷积层和修正线性单元激活函数之间设置一个批量标准化层;
所述序列特征提取模块从图像特征中学习序列联系,其包括依次连接的双向长短期记忆网络模型、全连接层;
所述生成模块把特征分布转化成标签序列,其包括:损失函数层。
其进一步特征在于:
所述图像特征提取模块中,卷积层全部采用3×3大小的卷积核;池化层采用最大池化或2×1尺寸;
所述双向长短期记忆网络模型中,隐藏层单元设为256;
所述序列特征提取模块中,损失函数层采用CTC损失函数;
所述注意力模块层中的计算过程,详细如下所示:
a1:将输入特征图F分别输入到通道注意力模块Ms和空间注意模块Mc中,并联的获取到特征图的通道注意力映射Mc(F)和空间注意力映射Ms(F);
Figure BDA0002877384410000021
其中,
Figure BDA0002877384410000022
Figure BDA0002877384410000023
为F在全局平均池化和最大池化操作后得到的空间背景描述,
Figure BDA0002877384410000024
Figure BDA0002877384410000025
MLP为由多层感知机组成的共享网络对这两个不同的空间背景进行计算;在多层感知机中,隐层神经元个数为C/8,输出层单元个数为C;
W0后使用了Relu作为激励函数,σ表示Sigmoid激活函数;
Figure BDA0002877384410000026
其中,
Figure BDA0002877384410000027
Figure BDA0002877384410000028
为F在channel维度上使用最大池化和平均池化得到两个特征描述,
Figure BDA0002877384410000029
σ表示Sigmoid激活函数;f7*7表示7*7的卷积层;
a2:将空间注意模块输出的特征图Fc和通道注意力模块输出的特征图Fs相加后生成了3D的注意力特征图F′;其计算过程如下:
Figure BDA00028773844100000210
Figure BDA00028773844100000211
Figure BDA00028773844100000212
a3:将所述3D的注意力特征图F′与所述注意力模块层的所述输入特征图F的卷积结果相加得到最终的细化特征图F"';其计算过程如下所示:
F"=Relu(f3*3(F))
F″′=F′+F″;
步骤S3中,对所述脱机英文手写识别模型中进行训练时,学习率更新策略采用如下方法:
lr=base_lr*decay_rate(global_step/decay_steps)
其中:
base_lr为初始化学习率,global_step为当前迭代次数,decay_rate为学习率衰减系数,decay_steps为常数。
本发明提供的一种基于注意力机制的脱机英文手写识别方法,构建的脱机英文手写识别模型包括基于注意力机制的卷积神经网络和双向长短期记忆网络模型,基于注意力机制构建的卷积神经网络提取的图像特征,特征图经注意力模块后更能聚焦有用特征而非无用的手写拖拽特征,使得提取的图像特征更加关注有用信息,忽略无用信息,进而提高了图像识别的准确率;本专利技术方案中的注意力模块层,没有采用原始注意力模块CBAM中先将输入特征图送入通道注意力模块,再将输出结果送入空间注意力模块的串联方式,而是需要输入的特征图同时经过通道注意力和空间注意力模块,并联地获取到各自的注意力映射,之后分别与输入特征图做点乘得到通道注意力特征图和空间注意力特征图,在增强有用的特征表示的同时抑制无用特征的干扰;比起传统的CBAM,本专利技术方案中的注意力模块层避免了先经过通道注意力模块再经过空间注意力模块后,注意力映射Mc(F)和空间注意力映射Ms(F)可能存在的部分权重系数干扰;本专利技术方案的注意力模块层中,对输入特征图的卷积,一方面让模型自行选择对输入特征图的响应权重,另一方面除了空间注意力模块中的7*7卷积核,额外的3*3卷积核使得本专利的注意力模块层的融入多感受野,信息更加丰富,最后3D注意力特征图与输入特征图的卷积结果相加得到最终的细化特征图,最终确保了本专利的脱机英文手写识别模型对手写英文识别可以得到更高的准确率。
附图说明
图1为本专利的脱机英文手写识别模型的网络结构示意图;
图2为本专利的注意力模块层的结构示意图。
具体实施方式
本发明一种基于注意力机制的脱机英文手写识别方法,其包括以下步骤。
S1:选取书写来源不同的脱机手写单词图像,并进行预处理,添加标签,获得训练数据集;
本实施例中,预处理操作包括:将脱机手写单词图像的高度规范为32像素,宽度也等比例缩放。
S2:构建脱机英文手写识别模型;
如图1所示,脱机英文手写识别模型包括:依次连接的基于卷积神经网络(CNN)构建的图像特征提取模块(Convolutional layers)、基于双向长短期记忆网络模型构建的序列特征提取模块(RecurrentLayers)、生成模块(Transcription layers)。
图像特征提取模块(Convolutional layers)直接从输入的图像中提取特征,生成特征序列,其包括:9个卷积层,4个池化层,3个注意力模块层以及2个批量标准化层;其中,将9个卷积层分成5个卷积块,前四个卷积块包括连续的两个卷积层,最后一个卷积块包括一个卷积层,每个卷积层后面都设置一个修正线性单元(ReLU)激活函数;通过修正线性单元(Rectified Linear Units,ReLU)激活函数避免梯度消失问题,进而提高识别模型对手写字符串的分类识别率;
前四个卷积块后面分别跟着一个池化层,前三个卷积块的池化层前面分别设置一个注意力模块层;
第四个卷积块中,每个卷积层和修正线性单元激活函数之间设置一个批量标准化层(BN层),批量标准化层将特征图的数据分布重新规范,使非线性函数的输入值远离梯度饱和区,加快了网络的训练速度;
序列特征提取模块(RecurrentLayers)从图像特征中学习序列联系,其包括依次连接的双向长短期记忆网络模型、全连接层;双向长短期记忆网络模型中,隐藏层单元设为256,后连接全连接层;
生成模块(Transcription layers)把特征分布转化成标签序列,其包括:损失函数层,本专利中损失函数采用CTC损失函数;生成模块(Transcription layers)将序列特征提取模块(RecurrentLayers)输出的特征对应到相应的标签,获得输出的字符(OutputSequence),进行后续处理,获得预测序列;
如图1所示,Input image输入到图像特征提取模块(Convolutional layers)中,提取的特征以为Feature Map形式输出,Feature Map输入到序列特征提取模块(RecurrentLayers)从图像特征中学习序列联系,经双向长短期记忆网络模型帮助对传入的图像特征进行预测,提高预测模型对字符预测的速度;最后基于生成模块(Transcription layers)中的CTC损失函数定位到字符对应的标签,进行后续处理后输出预测序列;其中,双向长短期记忆网络模型中,隐藏层单元设为256,后连接全连接层。由于我们的实验是针对脱机手写单词的识别,字符字典中除了大小写的52个英文字母和4个常见符号,CTC损失函数中还要求引入“blank”标签,所以在双向长短期记忆网络的输出层设置57个输出。
在图像特征提取模块中,卷积层全部采用3×3大小的卷积核;池化层采用最大池化或2×1尺寸,最大池化能够将高层的稀疏特征继续传递下去,更多地保留图像的有用信息,提高后续预测的准确率。
具体网络结构以及详细参数见表1;其中,k代表卷积核大小/局部窗口大小,n为卷积核个数(通道数),s表示步长,p表示padding方式,hidden_units表示双向长短期记忆网络的隐藏单元个数,w表示权重矩阵大小。
表1:网络结构详细参数
Figure BDA0002877384410000041
如图2所示,注意力模块层中的计算过程,详细如下所示:
a1:将输入特征图F分别输入到通道注意力模块Ms和空间注意模块Mc中,并联的获取到特征图的通道注意力映射Mc(F)和空间注意力映射Ms(F);
Figure BDA0002877384410000042
其中,
Figure BDA0002877384410000043
Figure BDA0002877384410000044
为注意力模块层的输入特征图F在全局平均池化和最大池化后操作,得输入特征图在空间维度上进行了压缩,得到的两个不同的空间背景描述,
Figure BDA0002877384410000045
MLP为由多层感知机组成的共享网络对这两个不同的空间背景进行计算;在多层感知机(MLP)中,隐层神经元个数为C/8,输出层单元个数为C;
W0后使用了Relu作为激励函数,σ表示Sigmoid激活函数;即,多层感知机(MLP)对
Figure BDA0002877384410000051
Figure BDA0002877384410000052
进行计算后,输出的两个特征图逐元素求和并利用Sigmoid函数激活,获得了通道注意力映射Mc(F)。
Figure BDA0002877384410000053
其中,
Figure BDA0002877384410000054
Figure BDA0002877384410000055
为F在channel维度上使用最大池化和平均池化得到两个特征描述,
Figure BDA0002877384410000056
以级联方式将两个特征描述
Figure BDA0002877384410000057
Figure BDA0002877384410000058
拼接,拼接后通道数为2的特征图经一个卷积核尺寸为7的卷积层将通道进行了压缩,再经Sigmoid函数激活后得到了空间注意力权重映射Ms(F),σ表示Sigmoid激活函数;f7*7表示7*7的卷积层。
a2:将空间注意模块输出的特征图Fc和通道注意力模块输出的特征图Fs相加后生成了3D的注意力特征图F′;其计算过程如下:
Figure BDA0002877384410000059
Figure BDA00028773844100000510
Figure BDA00028773844100000511
a3:将3D的注意力特征图F′与注意力模块层的输入特征图F的卷积结果相加得到最终的细化特征图(Refined Feature)F"';其计算过程如下所示:
F"=Relu(f3*3(F))
F″′=F′+F″。
综上,通道注意力映射Mc(F)和空间注意力映射Ms(F)在经过sigmoid函数后将特征值限制到0~1范围,与输入特征图点乘可以在增强有用的特征表示的同时抑制无用特征的干扰。空间注意模块输出的特征图Fc和通道注意力模块输出的特征图Fs相加后生成了3D的注意力特征图F′,后与输入特征图的卷积结果相加得到最终的细化特征图;本专利的注意力模块层模拟了人眼的视觉感知从而更加关注有用信息,即,输入特征图F经本专利的注意力模块层处理后更能聚焦有用特征而非无用的手写拖拽特征。
S3:将已知标签的训练数据集输入到脱机英文手写识别模型中进行训练,获得训练好的脱机英文手写识别模型;
对脱机英文手写识别模型中进行训练时,模型参数初始化设置如下:基础学习率(base_lr)设为0.1,训练轮次设为30000,单批次大小(batch_size)为16,衰减系数(decay_rate)设置为0.8;
学习率更新策略采用如下方法:
lr=base_lr*decay_rate(global_step/decay_steps)
其中:
base_lr为初始化学习率,global_step为当前迭代次数,decay_rate为学习率衰减系数,本实施例中设置为0.8,decay_steps为常数,本实施例中设置为2000。
S4:将待识别手写单词的图像输入到训练好的脱机英文手写识别模型中,获得识别结果;本发明不需要手工提取特征,可以端到端地对脱机手写单词图像进行识别,方法简单且识别的字符错误率(character error rate,CER)低。
为了验证本发明方法的优越性,在IAM脱机英文手写数据集上进行测试;IAM脱机英文手写数据集由657个不同作者手写的1539个扫描文本页面组成,对应于从LOB语料库中提取的英语文本。每张文本页又按文本行和单词切分。取数据库中1904张脱机手写单词图像进行实验,为提高本方法的可信度,取两个现有识别方法进行对比实验,其中方法一是2018年Sueiras等人提出的基于sequence to sequence框架的识别方法,方法二是2019年Carbonell等人提出的针对全文本的检测识别方法,最终的对比测试结果显示在表2。
表2:在IAM数据库上的字符错误率
模型 字符错误率
方法一 8.8%
方法二 15.6%
本发明方法 8.6%
从表2中可以看出,本发明提出的方法在IAM数据库上字符错误率(charactererror rate,CER)更低。

Claims (10)

1.一种基于注意力机制的脱机英文手写识别方法,其包括以下步骤:
S1:选取书写来源不同的脱机手写单词图像,并进行预处理,添加标签,获得训练数据集;
S2:构建脱机英文手写识别模型;
S3:将已知标签的所述训练数据集输入到所述脱机英文手写识别模型中进行训练,获得训练好的所述脱机英文手写识别模型;
S4:将待识别手写单词的图像输入到训练好的所述脱机英文手写识别模型中,获得识别结果;
其特征在于:
所述脱机英文手写识别模型包括:依次连接的基于卷积神经网络构建的图像特征提取模块、基于双向长短期记忆网络模型构建的序列特征提取模块、生成模块;
所述图像特征提取模块直接从输入的图像中提取特征,生成特征序列,其包括:9个卷积层,4个池化层,3个注意力模块层以及2个批量标准化层;其中,将9个卷积层分成5个卷积块,前四个所述卷积块包括连续的两个卷积层,最后一个所述卷积块包括一个卷积层,每个卷积层后面都设置一个修正线性单元激活函数;
前四个所述卷积块后面分别跟着一个所述池化层,前三个所述卷积块的所述池化层前面分别设置一个注意力模块层;
第四个所述卷积块中,每个卷积层和修正线性单元激活函数之间设置一个批量标准化层;
所述序列特征提取模块从图像特征中学习序列联系,其包括依次连接的双向长短期记忆网络模型、全连接层;
所述生成模块把特征分布转化成标签序列,其包括:损失函数层。
2.根据权利要求1所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:所述图像特征提取模块中,卷积层全部采用3×3大小的卷积核;池化层采用最大池化或2×1尺寸。
3.根据权利要求1所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:所述双向长短期记忆网络模型中,隐藏层单元设为256。
4.根据权利要求1所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:所述序列特征提取模块中,损失函数层采用CTC损失函数。
5.根据权利要求1所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:所述注意力模块层中的计算过程,详细如下所示:
a1:将输入特征图F分别输入到通道注意力模块Ms和空间注意模块Mc中,并联的获取到特征图的通道注意力映射Mc(F)和空间注意力映射Ms(F);
a2:将空间注意模块输出的特征图Fc和通道注意力模块输出的特征图Fs相加后生成了3D的注意力特征图F′;
a3:将所述3D的注意力特征图F′与所述注意力模块层的所述输入特征图F的卷积结果相加得到最终的细化特征图F"'。
6.根据权利要求1所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:步骤S3中,对所述脱机英文手写识别模型中进行训练时,学习率更新策略采用如下方法:
lr=base_lr*decay_rate(global_step/decay_steps)
其中:
base_lr为初始化学习率,global_step为当前迭代次数,decay_rate为学习率衰减系数,decay_steps为常数。
7.根据权利要求5所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:步骤a1中通道注意力映射Mc(F)的计算方法如下:
Figure FDA0002877384400000021
其中,
Figure FDA0002877384400000022
Figure FDA0002877384400000023
为F在全局平均池化和最大池化操作后得到的空间背景描述,
Figure FDA0002877384400000024
Figure FDA0002877384400000025
MLP为由多层感知机组成的共享网络对这两个不同的空间背景进行计算;在多层感知机中,隐层神经元个数为C/8,输出层单元个数为C;
W0后使用了Relu作为激励函数,σ表示Sigmoid激活函数。
8.根据权利要求5所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:步骤a1中空间注意力映射Ms(F)的计算方法如下:
Figure FDA0002877384400000026
其中,
Figure FDA0002877384400000027
Figure FDA0002877384400000028
为F在channel维度上使用最大池化和平均池化得到两个特征描述,
Figure FDA0002877384400000029
σ表示Sigmoid激活函数;f7*7表示7*7的卷积层。
9.根据权利要求5所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:步骤a2中注意力特征图F′的计算过程如下:
Figure FDA00028773844000000210
Figure FDA00028773844000000211
Figure FDA00028773844000000212
10.根据权利要求5所述一种基于注意力机制的脱机英文手写识别方法,其特征在于:步骤a3中最终的细化特征图F"'的计算过程如下:
F"=Relu(f3*3(F))
F″′=F′+F″。
CN202011632940.4A 2020-12-31 2020-12-31 一种基于注意力机制的脱机英文手写识别方法 Active CN112686345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011632940.4A CN112686345B (zh) 2020-12-31 2020-12-31 一种基于注意力机制的脱机英文手写识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011632940.4A CN112686345B (zh) 2020-12-31 2020-12-31 一种基于注意力机制的脱机英文手写识别方法

Publications (2)

Publication Number Publication Date
CN112686345A true CN112686345A (zh) 2021-04-20
CN112686345B CN112686345B (zh) 2024-03-15

Family

ID=75456174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011632940.4A Active CN112686345B (zh) 2020-12-31 2020-12-31 一种基于注意力机制的脱机英文手写识别方法

Country Status (1)

Country Link
CN (1) CN112686345B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651323A (zh) * 2020-12-22 2021-04-13 山东山大鸥玛软件股份有限公司 一种基于文本行检测的中文手写体识别方法及系统
CN113239840A (zh) * 2021-05-24 2021-08-10 中国农业银行股份有限公司 字迹鉴定方法、装置、设备和存储介质
CN113705730A (zh) * 2021-09-24 2021-11-26 江苏城乡建设职业学院 基于卷积注意力和标签采样的手写方程式图像识别方法
CN114429633A (zh) * 2022-01-28 2022-05-03 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质
CN114898345A (zh) * 2021-12-13 2022-08-12 华东师范大学 一种阿拉伯语文本识别方法及系统
CN115797952A (zh) * 2023-02-09 2023-03-14 山东山大鸥玛软件股份有限公司 基于深度学习的手写英文行识别方法及系统
WO2024103997A1 (zh) * 2022-11-16 2024-05-23 京东方科技集团股份有限公司 手写体识别方法、手写体识别模型的训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919942A (zh) * 2017-01-18 2017-07-04 华南理工大学 用于手写汉字识别的深度卷积神经网络的加速压缩方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111967470A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于解耦注意力机制的文本识别方法及系统
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112115942A (zh) * 2020-09-16 2020-12-22 南京邮电大学 一种基于深度学习的端到端脱机手写英文识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919942A (zh) * 2017-01-18 2017-07-04 华南理工大学 用于手写汉字识别的深度卷积神经网络的加速压缩方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111967470A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于解耦注意力机制的文本识别方法及系统
CN112115942A (zh) * 2020-09-16 2020-12-22 南京邮电大学 一种基于深度学习的端到端脱机手写英文识别方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651323A (zh) * 2020-12-22 2021-04-13 山东山大鸥玛软件股份有限公司 一种基于文本行检测的中文手写体识别方法及系统
CN112651323B (zh) * 2020-12-22 2022-12-13 山东山大鸥玛软件股份有限公司 一种基于文本行检测的中文手写体识别方法及系统
CN113239840A (zh) * 2021-05-24 2021-08-10 中国农业银行股份有限公司 字迹鉴定方法、装置、设备和存储介质
CN113239840B (zh) * 2021-05-24 2024-10-15 中国农业银行股份有限公司 字迹鉴定方法、装置、设备和存储介质
CN113705730A (zh) * 2021-09-24 2021-11-26 江苏城乡建设职业学院 基于卷积注意力和标签采样的手写方程式图像识别方法
CN113705730B (zh) * 2021-09-24 2023-04-14 江苏城乡建设职业学院 基于卷积注意力和标签采样的手写方程式图像识别方法
CN114898345A (zh) * 2021-12-13 2022-08-12 华东师范大学 一种阿拉伯语文本识别方法及系统
CN114429633A (zh) * 2022-01-28 2022-05-03 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质
CN114429633B (zh) * 2022-01-28 2023-10-27 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质
WO2024103997A1 (zh) * 2022-11-16 2024-05-23 京东方科技集团股份有限公司 手写体识别方法、手写体识别模型的训练方法及装置
CN115797952A (zh) * 2023-02-09 2023-03-14 山东山大鸥玛软件股份有限公司 基于深度学习的手写英文行识别方法及系统

Also Published As

Publication number Publication date
CN112686345B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN112686345B (zh) 一种基于注意力机制的脱机英文手写识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
Chowdhury et al. An efficient end-to-end neural model for handwritten text recognition
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN111881262B (zh) 基于多通道神经网络的文本情感分析方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111832546A (zh) 一种轻量级自然场景文本识别方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN111858939A (zh) 一种基于上下文信息和卷积神经网络的文本情感分类方法
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
Malhotra et al. End-to-end historical handwritten ethiopic text recognition using deep learning
CN112560668B (zh) 一种基于场景先验知识的人体行为识别方法
CN113408418A (zh) 一种书法字体与文字内容同步识别方法及系统
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN114330535B (zh) 一种基于支持向量正则化字典对学习的模式分类方法
CN112861848B (zh) 基于动作条件已知的视觉关系检测方法及系统
CN115375984A (zh) 一种基于图神经网络的图表问答方法
CN115577111A (zh) 基于自注意力机制的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant