CN111553350A - 一种基于深度学习的注意力机制文本识别方法 - Google Patents
一种基于深度学习的注意力机制文本识别方法 Download PDFInfo
- Publication number
- CN111553350A CN111553350A CN202010340618.8A CN202010340618A CN111553350A CN 111553350 A CN111553350 A CN 111553350A CN 202010340618 A CN202010340618 A CN 202010340618A CN 111553350 A CN111553350 A CN 111553350A
- Authority
- CN
- China
- Prior art keywords
- neural network
- data set
- attention mechanism
- rnn
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000007246 mechanism Effects 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 18
- 239000004816 latex Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 229920000126 latex Polymers 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000004880 explosion Methods 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于深度学习的注意力机制文本识别方法,包括S1、获取模型训练数据集;S2、对所述模型训练数据集进行预处理;S3、构建模型卷积层,输入所述模型训练数据集进行特征提取,获得图像的特征图,以待输出给后面循环神经网络结构,其视觉特征是通过卷积层与最大池层交错的多层卷积神经网络提取的,CNN接受原始输入,并生成尺寸为D×H×W的特征网格V,其中D表示通道数,H和W是结果特征图的高度和宽度等6个步骤,本发明克服了使用基于CTC的模型的神经OCR技术文本识别准确率低的难题,同时可以显著较少网络的计算量,并且能保证模型对公式的预测精度没有太大的下降。
Description
技术领域
本发明涉及深度学习文本识别技术领域,尤其涉及一种基于深度学习的注意力机制文本识别方法。
背景技术
在信息量非常大的时代,PDF和图片占信息量较大一部分,这就造成了用户对图片和PDF文本识别的大量需求,即光学字符识别(OCR,最常用于识别图像中的自然语言),包括对各种语言文字、手写体、数字等。而其中大量学术相关文本里面会存在特殊标识,像数学公式等,它相较于文字的识别要更复杂,数学公式的作为识别成为一个特殊的识别领域,存在许多困难,我们运用一个基于真实世界渲染的数学表达式与LaTeX标记标配对的数据集的深度学习注意力机制的公式识别,可以较好的满足用户需求,提供高精度公式识别(即把图片中的数学公式,识别出并转换为LaTeX标记)。
而传统方法是采用基于CTC的模型的神经OCR技术,其编码解码结构使用的RNN,它能够处理一定的短期依赖,但无法处理长期依赖问题,因为当序列较长时,序列后部的梯度很难反向传播到前面的序列,同样的,RNN还可能出现梯度爆炸问题,其模型对于复杂一点的 (比如复杂公式符号)的文本识别准确率比较一般。
发明内容
针对上述问题,本发明提出一种基于深度学习的注意力机制文本识别方法,主要解决背景技术中的问题。
本发明提出一种基于深度学习的注意力机制文本识别方法,包括以下步骤:
S1、获取模型训练数据集;
S2、对所述模型训练数据集进行预处理;
S3、构建卷积神经网络CNN模型,输入所述模型训练数据集进行特征提取,获得图像的特征图,所述特征图是通过卷积层与最大池层交错的多层卷积神经网络提取,所述卷积神经网络CNN接受所述模型训练数据集的原始输入,并生成尺寸为D×H×W的特征网格V,其中D表示通道数,H和W是结果特征图的高度和宽度;
S4、接着构建双向循环神经网络RNN编码器,将卷积神经网络 CNN输出的特征图输入到双向循环神经网络RNN编码器;
S5、构建注意力机制,并跟踪特征图像的下一个当前位置以生成标记,所述位置通过关注的上下文向量ct传递,定义一个潜在的分类变量zt∈{1,···,H}×{1,···,W}来表示模型正在参与哪个单元格,若访问注意力分布zt~p(zt),则上下文定义为对源端特征的期望为:
S6、双向循环神经网络编码器将特征图输出到带注意力机制的长短期记忆网络LSTM解码器,长短期记忆网络LSTM的隐藏层特征为512,最后得到图片对应的公式latex代码的概率分布。
进一步改进在于,所述步骤S2具体包括:
S21、利用Python脚本裁剪数据集中的公式图片的空白区域,提取重要像素;
S22、对模型训练数据集IM2LATEX-100K中的公式标记各项插入空字符以便索引,然后生成数据集IM_2_LATEX-100K;
S23、对模型训练数据集IM_2_LATEX-100K去除1/4的过大的公式图片对应的图片索引,然后生成latex代码的词袋文本文件 latex.t。
进一步改进在于,在所述步骤S3中,所述卷积层的各层结构如下:
第一层:weight:[3,3,1,512]
第二层:weight:[3,3,512,512],max_pool:[1,1,2,1]
第三层:weight:[3,3,512,256],max_pool:[1,2,1,1]
第四层:weight:[3,3,256,256]
第五层:weight:[3,3,256,128],max_pool:[1,2,2,1]
第六层:weight:[3,3,128,64],max_pool:[1,2,2,1]。
进一步改进在于,在所述步骤S3中,除了卷积神经网络卷积层和池化层外还有使用正则化函数tf.contrib.layers.batch_norm,使深层神经网络训练更加稳定,加快收敛速度,同时起正则化的作用。
进一步改进在于,在所述步骤S4中,编码器解码器结构使用的是长短期记忆网络LSTM,所述长短期记忆网络LSTM引入了细胞状态,并使用输入门、遗忘门、输出门三种门来保持和控制信息,具体的,长短期记忆网络LSTM任意一个timestep,t的计算公式如下所示:
ft=σ(Wf·[ht-1,Xt]+bf)
it=σ(Wi·[ht-1,Xt]+bi)
ot=σ(W0·[ht-1,Xt]+b0)
ht=ot*tanh(ct)
其中,ft为遗忘门,it为输入门,ot为输出门,ot为输出们, ct为细胞状态,ht为隐藏层状态值,W和b为权重和偏执。
进一步改进在于,所述步骤S5还包括:
在特征图像上加上一个网格,在生成标记时,首先关注粗糙网格以获取相关的粗糙单元,然后关注内部精细单元以获取上下文向量。
进一步改进在于,所述步骤S4具体包括:
S41、循环神经网络RNN递归地将输入向量和隐藏状态映射到新的隐藏状态,在时间t,以以下方式用输入vt更新隐藏状态:ht=RNN (ht-1,vt;θ),其中h0为初始状态,作为循环神经网络RNN变体的长期的短期存储网络对大多数NLP任务非常有效;
S42、通过在输入的每一行上运行循环神经网络RNN,从Vcreated 创建新要素网格V,对于所有行h∈{1,…,H}和列w∈{1,…,W},将新特征递归定义为Vhw=RNN(Vh,w-1,Vhw),为了捕获垂直方向上的顺序信息,对每行使用可训练的初始隐藏状态Vh0;
S43、解码,p(yt+1|y1,...,yt,V)=softmax(Woutot),这里ot=tanh(Wc[ht;ct]),Wout,Wc是学习的线性变换,向量ht用于总结解码历史:ht=RNN(ht-1,[yt-1;ot-1]),上下文向量ct用于捕获注释网格中的上下文信息。
与现有技术相比,本发明的有益效果为:
与基于CTC的ORC模型结构相比,需要基于CTC模型中固有的从左到右的排序这样的假设,如图2所示的结构,其编码解码结构使用的RNN,它能够处理一定的短期依赖,但无法处理长期依赖问题,因为当序列较长时,序列后部的梯度很难反向传播到前面的序列,同样的,RNN还可能出现梯度爆炸问题,其模型对于复杂一点的(比如复杂公式符号)的文本识别准确率比较一般。而我们采用的是LSTM通过细胞状态记忆信息。RNN激活函数只有tanh,LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数,添加求和操作,减少梯度消失和梯度爆炸的可能性。RNN只能够处理短期依赖问题; LSTM既能够处理短期依赖问题,又能够处理长期依赖问题。与过去有关神经OCR的大多数工作相反,我们用的模型在输入图像上使用了完整的网格编码器,因此它可以支持生成的标记中从左到右的顺序,该模型还包括一个行编码器,可帮助提高系统性能。
Attention模型用于解码过程中,它改变了传统decoder对每一个输入都赋予相同向量的缺点,而是根据单词的不同赋予不同的权重。在encoder过程中,输出不再是一个固定长度的中间语义,而是一个由不同长度向量构成的序列,decoder过程根据这个序列子集进行进一步处理。
同时相比较其它注意力机制的结构,为了减少注意力计算的开销,我们应用了一种两层的“从粗到精”的注意力机制,该方法可以显著较少网络的计算量,并且能保证模型对公式的预测精度没有太大的下降。
当从图像生成目标符号时,我们可以从最后生成的符号中推断出可能出现的粗糙区域。因此,除了细网格外,我们还在图像上加上了一个网格,这样每个单元格都属于一个较大的区域。在生成标记时,我们首先关注粗糙网格以获取相关的粗糙单元,然后关注内部精细单元以获取上下文向量,这是一种称为分层注意的方法。
附图说明
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明一实施方式的粗到精注意力模型结构示意图;
图2为本发明一实施方式的基于CTC的文本识别结构示意图;
图3为本发明一实施方式的基于注意力的文本识别结构示意图;
图4为本发明一实施方式的LSTM结构示意图;
图5为本发明一实施方式的LaTeX标记示意图;
图6为本发明一实施方式的公示图像裁剪示意图。
具体实施方式
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。
与基于CTC的ORC模型结构相比,需要基于CTC模型中固有的从左到右的排序这样的假设,如图2所示的结构,其编码解码结构使用的RNN,它能够处理一定的短期依赖,但无法处理长期依赖问题,因为当序列较长时,序列后部的梯度很难反向传播到前面的序列,同样的,RNN还可能出现梯度爆炸问题,其模型对于复杂一点的(比如复杂公式符号)的文本识别准确率比较一般。而我们采用的是LSTM通过细胞状态记忆信息。RNN激活函数只有tanh,LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数,添加求和操作,减少梯度消失和梯度爆炸的可能性。RNN只能够处理短期依赖问题; LSTM既能够处理短期依赖问题,又能够处理长期依赖问题。与过去有关神经OCR的大多数工作相反,我们用的模型在输入图像上使用了完整的网格编码器,因此它可以支持生成的标记中从左到右的顺序,该模型还包括一个行编码器,可帮助提高系统性能。
本发明公开了一种基于深度学习的注意力机制文本识别方法,本发明克服了使用基于CTC的模型的神经OCR技术对于复杂一点的(比如复杂公式符号)的文本识别准确率比较一般,并且不需要基于CTC 模型中固有的从左到右的排序这样的假设,同时相比较其它注意力机制的结构,为了减少注意力计算的开销,我们应用了一种两层的“从粗到精”的注意力机制,该方法可以显著较少网络的计算量,并且能保证模型对公式的预测精度没有太大的下降。与过去有关神经OCR的大多数工作相反,我们用的模型在输入图像上使用了完整的网格编码器,因此它可以支持生成的标记中从左到右的顺序,该模型还包括一个行编码器,可帮助提高系统性能。
在训练模型的数据,我们选择采用的是公共数据集 IM2LATEX-100K,其中包含从已发表的文章中收集的大量渲染的真实世界数学表达式。
本发明提出一种基于深度学习的注意力机制文本识别方法,包括以下步骤:
S1、获取模型训练数据集,其中,模型的训练数据集采用公共数据集IM2LATEX-100K,其中包含从已发表的文章中收集的大量渲染的真实世界数学表达式。该数据集基于从渲染的图像重建数学标记(最初由科学家编写),如图5所示,图片网格中是训练图像文本数据,上方是对应的要得到经过训练的模型可以生成的LaTeX标记;
S2、对所述模型训练数据集进行预处理,例如文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作;
S3、构建模型的卷积层部分,接收原始图像数据集的输入进行特征提取,获得图像的特征图,以待输出给后面循环神经网络结构,其视觉特征是通过卷积层与最大池层交错的多层卷积神经网络提取的。 CNN接受原始输入,并生成尺寸为D×H×W的特征网格V,如图1下方部分所示,其中D表示通道数,H和W是结果特征图的高度和宽度;
S4、如上述步骤S3之后CNN输出特征图大小为20x28x65x64,接着构建双向RNN(递归神经网络)编码器,将CNN输出的特征输入到双向RNN编码器,由于使用双向RNN,LSTM的隐藏层特征数lstm_dim 为256,且经维数输入和输出变化后,编码器输出为20x28x65x512;
S5、注意力机制的设置,模型的准确性取决于能否跟踪图像的下一个当前位置以生成标记,该位置通过关注的上下文向量ct传递。形式上,我们定义一个潜在的分类变量zt∈{1,···,H}×{1,···, W}来表示模型正在参与哪个单元格。如果我们假设访问注意力分布 zt~p(zt),则上下文定义为对源端特征的期望:
在实践中,将注意力分布参数化为模型的一部分。我们考虑三种形式的注意力:标准,分层和从细到精。
S6、编码器输出到带注意力机制的LSTM解码器,LSTM的隐藏层特征为512,最后得到图片对应的公式latex代码的概率分布。
作为本发明一优选实施方案,所述步骤S2具体包括:
S21、利用Python脚本裁剪数据集中的公式图片的空白区域,如图6所示,将空白纸张中的公式产检掉白色大部分白色不重要区域,提取重要像素;
S22、对数据集IM2LATEX-100K中的公式标记各项插入空字符以便索引,然后生成数据集IM_2_LATEX-100K;
S23、对数据集IM_2_LATEX-100K去除大约1/4的过大的公式图片对应的图片索引,然后生成latex代码的词袋文本文件latex.t。
作为本发明一优选实施方案,在所述步骤S3中,CNN包含6层,第一层输出512个特征,主要是由于词袋文件latex.txt包含了499 (第一层输出必须大于这个数字,不然不能覆盖所有元素)个latex 代码元素,所述卷积层的各层结构如下:
第一层:weight:[3,3,1,512]
第二层:weight:[3,3,512,512],max_pool:[1,1,2,1]
第三层:weight:[3,3,512,256],max_pool:[1,2,1,1]
第四层:weight:[3,3,256,256]
第五层:weight:[3,3,256,128],max_pool:[1,2,2,1]
第六层:weight:[3,3,128,64],max_pool:[1,2,2,1]。
作为本发明一优选实施方案,在所述步骤S3中,除了一般的CNN 卷积层和池化层外还有使用正则化函数 tf.contrib.layers.batch_norm,使深层神经网络训练更加稳定,加快收敛速度,同时起正则化的作用。
作为本发明一优选实施方案,在所述步骤S4中,编码器解码器结构使用的是LSTM,LSTM引入了细胞状态,并使用输入门、遗忘门、输出门三种门来保持和控制信息,具体的,LSTM任意一个timestep,t 的计算公式如下所示:
ft=σ(Wf·[ht-1,Xt]+bf)
it=σ(Wi·[ht-1,Xt]+bi)
ot=σ(W0·[ht-1,Xt]+b0)
ht=ot*tanh(ct)
其中,ft为遗忘门,it为输入门,ot为输出门,ot为输出们,ct为细胞状态,ht为隐藏层状态值,W和b为权重和偏执。
作为本发明一优选实施方案,所述步骤S5还包括:
当从图像生成目标符号时,我们可以从最后生成的符号中很有可能推断出可能出现的粗糙区域。因此,除了细网格外,我们还在图像上加上了一个网格,这样每个单元格都属于一个较大的区域。在生成标记时,我们首先关注粗糙网格以获取相关的粗糙单元,然后关注内部精细单元以获取上下文向量,这是一种称为分层注意的方法。
作为本发明一优选实施方案,所述步骤S4具体包括:
S41、编码器,对于OCR,编码器必须定位源图像内的相对位置,这一点很重要。形式上,递归神经网络(RNN)是参数化函数RNN,它递归地将输入向量和隐藏状态映射到新的隐藏状态。在时间t,以以下方式用输入vt更新隐藏状态:ht=RNN(ht-1,vt;θ),其中h0为初始状态。作为RNN变体的长期的短期存储网络(LSTM)对大多数NLP任务非常有效。所以实验采用的LSTM网络,结构图如图4;
S42、在此模型中,通过在输入的每一行上运行RNN,从V created 创建新要素网格V。对于所有行h∈{1,…,H}和列w∈{1,…,W},将新特征递归定义为Vhw=RNN(Vh,w-1,Vhw)。为了捕获垂直方向上的顺序信息,我们对每行使用可训练的初始隐藏状态Vh0,我们将其称为位置嵌入;
S43、解码,该语言模型是在解码器RNN之上定义的, p(yt+1|y1,...,yt,V)=softmax(Woutot),这里ot=tanh (Wc[ht;ct]),Wout,Wc是学习的线性变换。向量ht用于总结解码历史:ht=RNN(ht-1,[yt-1;ot-1])。上下文向量ct用于捕获注释网格中的上下文信息。
图中,描述位置关系仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于深度学习的注意力机制文本识别方法,其特征在于,包括以下步骤:
S1、获取模型训练数据集;
S2、对所述模型训练数据集进行预处理;
S3、构建卷积神经网络CNN模型,输入所述模型训练数据集进行特征提取,获得图像的特征图,所述特征图是通过卷积层与最大池层交错的多层卷积神经网络提取,所述卷积神经网络CNN接受所述模型训练数据集的原始输入,并生成尺寸为D×H×W的特征网格V,其中D表示通道数,H和W是结果特征图的高度和宽度;
S4、接着构建双向循环神经网络RNN编码器,将卷积神经网络CNN输出的特征图输入到双向循环神经网络RNN编码器;
S5、构建注意力机制,并跟踪特征图像的下一个当前位置以生成标记,所述位置通过关注的上下文向量ct传递,定义一个潜在的分类变量zt∈{1,···,H}×{1,···,W}来表示模型正在参与哪个单元格,若访问注意力分布zt~p(zt),则上下文定义为对源端特征的期望为:
S6、双向循环神经网络编码器将特征图输出到带注意力机制的长短期记忆网络LSTM解码器,长短期记忆网络LSTM的隐藏层特征为512,最后得到图片对应的公式latex代码的概率分布。
2.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法,其特征在于,所述步骤S2具体包括:
S21、利用Python脚本裁剪数据集中的公式图片的空白区域,提取重要像素;
S22、对模型训练数据集IM2LATEX-100K中的公式标记各项插入空字符以便索引,然后生成数据集IM_2_LATEX-100K;
S23、对模型训练数据集IM_2_LATEX-100K去除1/4的过大的公式图片对应的图片索引,然后生成latex代码的词袋文本文件latex.t。
3.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法,其特征在于,在所述步骤S3中,所述卷积层的各层结构如下:
第一层:weight:[3,3,1,512]
第二层:weight:[3,3,512,512],max_pool:[1,1,2,1]
第三层:weight:[3,3,512,256],max_pool:[1,2,1,1]
第四层:weight:[3,3,256,256]
第五层:weight:[3,3,256,128],max_pool:[1,2,2,1]
第六层:weight:[3,3,128,64],max_pool:[1,2,2,1]。
4.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法,其特征在于,在所述步骤S3中,除了卷积神经网络卷积层和池化层外还有使用正则化函数tf.contrib.layers.batch_norm,使深层神经网络训练更加稳定,加快收敛速度,同时起正则化的作用。
6.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法,其特征在于,所述步骤S5还包括:
在特征图像上加上一个网格,在生成标记时,首先关注粗糙网格以获取相关的粗糙单元,然后关注内部精细单元以获取上下文向量。
7.根据权利要求1所述的一种基于深度学习的注意力机制文本识别的方法,其特征在于,所述步骤S4具体包括:
S41、循环神经网络RNN递归地将输入向量和隐藏状态映射到新的隐藏状态,在时间t,以以下方式用输入vt更新隐藏状态:ht=RNN(ht-1,vt;θ),其中h0为初始状态,作为循环神经网络RNN变体的长期的短期存储网络对大多数NLP任务非常有效;
S42、通过在输入的每一行上运行循环神经网络RNN,从V created创建新要素网格V,对于所有行h∈{1,…,H}和列w∈{1,…,W},将新特征递归定义为Vhw=RNN(Vh,w-1,Vhw),为了捕获垂直方向上的顺序信息,对每行使用可训练的初始隐藏状态Vh0;
S43、解码,p(yt+1|y1,...,yt,V)=softmax(Woutot),这里ot=tanh(Wc[ht;ct]),Wout,Wc是学习的线性变换,向量ht用于总结解码历史:ht=RNN(ht-1,[yt-1;ot-1]),上下文向量ct用于捕获注释网格中的上下文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340618.8A CN111553350B (zh) | 2020-04-26 | 2020-04-26 | 一种基于深度学习的注意力机制文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340618.8A CN111553350B (zh) | 2020-04-26 | 2020-04-26 | 一种基于深度学习的注意力机制文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553350A true CN111553350A (zh) | 2020-08-18 |
CN111553350B CN111553350B (zh) | 2023-11-24 |
Family
ID=72007773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010340618.8A Active CN111553350B (zh) | 2020-04-26 | 2020-04-26 | 一种基于深度学习的注意力机制文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553350B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985397A (zh) * | 2020-08-20 | 2020-11-24 | 南京邮电大学 | 一种基于深度学习的小学生口算题文本图片内容识别方法 |
CN112149644A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于全局特征指导的二维注意力机制文本识别方法 |
CN112418409A (zh) * | 2020-12-14 | 2021-02-26 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
CN112633079A (zh) * | 2020-12-02 | 2021-04-09 | 山东山大鸥玛软件股份有限公司 | 一种手写英文单词识别方法及系统 |
CN113268962A (zh) * | 2021-06-08 | 2021-08-17 | 齐鲁工业大学 | 面向建筑行业信息化服务问答系统的文本生成方法和装置 |
CN113762481A (zh) * | 2021-09-13 | 2021-12-07 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
-
2020
- 2020-04-26 CN CN202010340618.8A patent/CN111553350B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985397A (zh) * | 2020-08-20 | 2020-11-24 | 南京邮电大学 | 一种基于深度学习的小学生口算题文本图片内容识别方法 |
CN111985397B (zh) * | 2020-08-20 | 2022-07-12 | 南京邮电大学 | 一种基于深度学习的小学生口算题文本图片内容识别方法 |
CN112149644A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于全局特征指导的二维注意力机制文本识别方法 |
CN112633079A (zh) * | 2020-12-02 | 2021-04-09 | 山东山大鸥玛软件股份有限公司 | 一种手写英文单词识别方法及系统 |
CN112418409A (zh) * | 2020-12-14 | 2021-02-26 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
CN112418409B (zh) * | 2020-12-14 | 2023-08-22 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
CN113268962A (zh) * | 2021-06-08 | 2021-08-17 | 齐鲁工业大学 | 面向建筑行业信息化服务问答系统的文本生成方法和装置 |
CN113268962B (zh) * | 2021-06-08 | 2022-05-24 | 齐鲁工业大学 | 面向建筑行业信息化服务问答系统的文本生成方法和装置 |
CN113762481A (zh) * | 2021-09-13 | 2021-12-07 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
CN113762481B (zh) * | 2021-09-13 | 2024-03-12 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111553350B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Learning spatial-semantic context with fully convolutional recurrent network for online handwritten chinese text recognition | |
Ptucha et al. | Intelligent character recognition using fully convolutional neural networks | |
CN109543667B (zh) | 一种基于注意力机制的文本识别方法 | |
Coquenet et al. | End-to-end handwritten paragraph text recognition using a vertical attention network | |
CN111553350A (zh) | 一种基于深度学习的注意力机制文本识别方法 | |
Gao et al. | Reading scene text with fully convolutional sequence modeling | |
Bag et al. | A survey on optical character recognition for Bangla and Devanagari scripts | |
CN112232149A (zh) | 一种文档多模信息和关系提取方法及系统 | |
Rabi et al. | Recognition of cursive Arabic handwritten text using embedded training based on hidden Markov models | |
Singh et al. | Online handwriting recognition systems for Indic and non-Indic scripts: a review | |
Jain et al. | Unconstrained OCR for Urdu using deep CNN-RNN hybrid networks | |
Ahmad et al. | Ligature based Urdu Nastaleeq sentence recognition using gated bidirectional long short term memory | |
CN111144130A (zh) | 一种基于上下文感知的混合神经网络的细粒度情感分类方法 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN114529900A (zh) | 基于特征原型的半监督域适应语义分割方法和系统 | |
Shan et al. | Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
Yang et al. | Recognition of chinese text in historical documents with page-level annotations | |
Jemni et al. | Domain and writer adaptation of offline Arabic handwriting recognition using deep neural networks | |
Addis et al. | Printed ethiopic script recognition by using lstm networks | |
CN115718815A (zh) | 一种跨模态检索方法和系统 | |
Rahal et al. | Deep sparse auto-encoder features learning for arabic text recognition | |
Inunganbi et al. | Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray | |
Anjum et al. | CALText: Contextual attention localization for offline handwritten text | |
Zhu et al. | Attention combination of sequence models for handwritten Chinese text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |