CN106960206B - 字符识别方法和字符识别系统 - Google Patents

字符识别方法和字符识别系统 Download PDF

Info

Publication number
CN106960206B
CN106960206B CN201710069428.5A CN201710069428A CN106960206B CN 106960206 B CN106960206 B CN 106960206B CN 201710069428 A CN201710069428 A CN 201710069428A CN 106960206 B CN106960206 B CN 106960206B
Authority
CN
China
Prior art keywords
character
current
feature
characters
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710069428.5A
Other languages
English (en)
Other versions
CN106960206A (zh
Inventor
曹骥
李健
王富田
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN201710069428.5A priority Critical patent/CN106960206B/zh
Publication of CN106960206A publication Critical patent/CN106960206A/zh
Application granted granted Critical
Publication of CN106960206B publication Critical patent/CN106960206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例提供了一种字符识别方法和系统,该方法包括:采集自然场景的原始图像;对所述原始图像进行预处理;对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列;其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。本发明通过利用加入Attention Model的LSTM算法,将CNN算法提取的特征序列识别为对应字符序列,从而得到需求的文字信息,能够减少运算参数,同时实现不同上下文内容对当前字符识别不同影响力的控制,并能够将长程记忆中信息完美地传递给当前字符,提升了字符识别准确度。

Description

字符识别方法和字符识别系统
技术领域
本发明涉及字符识别技术领域,特别是涉及一种字符识别方法和字符识别系统。
背景技术
文字识别技术在虚拟现实、人机交互、票据识别、工业自动化等领域中都有广泛的应用。例如,计算机可以通过分析路边指示牌,获取当前位置或其他行车信息,帮助无人驾驶车辆合理规划行车路线。
传统的光学字符识别(Optical Character Recognition,OCR)技术主要面向的是质量较好的文档图像,其假设输入的图像使用了规范的印刷体、有干净的背景、且具有较高的分辨率。但是,在自然场景中,由于图像背景环境多样、采图设备参差、字体多变、排布丰富等的原因,传统的OCR技术识别效果较差。
具体而言,自然场景的字符识别所面对的困难和挑战主要有:1)文字背景复杂,自然图像的文字背景中包含着大量图案、建筑、树木等,有些图像甚至有遮挡、同色的前景背景等会给识别,这些都会给识别带来强烈的干扰;2)文字类型丰富,自然场景的文字可能会出现笔体不连续,字体空心、扭曲、颜色过渡等展示形式;3)分布不确定,自然场景下的文字分布间距、空间位置等都带有不确定性;4)字符分割困难,自然场景的文字中可能包含笔体粘连、字符重叠等情况,会给字符分隔带来很大的问题;5)噪音严重,自然场景下图像会因为光照、角度、抖动等原因,造成成像效果较差的现象,这些都会给OCR识别过程带来巨大困难。
那么针对自然场景的图像的字符识别问题,现有技术提出了流程如图1所示的一种基于神经网络的自然场景的文字识别算法。该流程主要包括:针对输入的自然场景的原始图像进行预处理操作,然后对与处理操作后的图像进行版面分析,接着采用卷积神经网络(Convolutional Neural Network,CNN)对版面分析后的像素矩阵进行文字检测,接着,采用RNNs对检测的文字进行识别,得到字符序列输出结果。
其中,考虑到循环神经网络(Recurrent Neural Networks,RNNs)在长期记忆中的梯度爆炸或消失问题,该算法中可以将其换为时间递归神经网络(Long Short-TermMemory,LSTM)算法。其中,在LSTM算法中有:输入门(Input Gate)、输出门(Output Gate)、遗忘门(Forget Gate)三个门。其中的Forget Gate用来控制历史状态信息(这里为)对当前状态影响的程度,虽然长期记忆对当前影响不是按梯度消失或增长,但是,长期记忆的影响力仍然是以[0,1]之间的若干个值累乘进行衰减的。因此,除非这些值取值全为“1”,才能保证长期记忆对当前状态有100%的影响力。其中,LSTM隐层的计算公式如下:
输入门:it=sigm(W1xt+W2ht-1);
输入值:it′=tanh(W3xt+W4ht-1);
遗忘门:ft=sigm(W5xt+W6ht-1);
输出门:ot=sigm(W7xt+W8ht-1);
状态门:mt=mt-1e ft+it e it′;
隐层节点输出值:ht=mt e ot
结合LSTM算法的隐层的计算公式,在图2中给出了LSTM隐层的示意图。其中,σi,i=1,2,3表示公式中的sigm函数,对应不同的权重W参数。
但是,这种神经网络的自然场景的文字识别算法中的每个隐层中都需要训练一套8个权重参数,计算量非常大,而且不能保证长程记忆中信息完美地传递给当前状态,造成字符识别效果不佳。
发明内容
本发明提供了一种字符识别方法和字符识别系统,以解决现有技术中的字符识别算法所存在的计算量大、不能保证长程记忆中信息完美地传递给当前状态,造成字符识别效果不佳的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种字符识别方法,包括:
采集自然场景的原始图像;
对所述原始图像进行预处理;
对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;
采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;
采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列;
其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。
根据本发明的另一方面,本发明还公开了一种字符识别系统,包括:
采集模块,用于采集自然场景的原始图像;
预处理模块,用于对所述原始图像进行预处理;
版面分析模块,用于对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;
特征提取模块,用于采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;
字符识别模块,用于采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列;
其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。
与现有技术相比,本发明包括以下优点:
本发明利用卷积神经网络在图像特征提取中的优势,提取出图像中包含待识别文字信息的特征序列,即特征图,降低了传统OCR算法图像预处理的复杂度和工作量;然后利用加入Attention Model的LSTM算法,将CNN算法提取的特征序列识别为对应字符序列,从而得到需求的文字信息。通过将Attention Model取代LSTM算法中的Forget Gate构成的全联通网络,能够减少运算参数,同时实现不同上下文内容对当前字符识别不同影响力的控制,并能够将长程记忆中信息完美地传递给当前字符,提升了字符识别准确度。
附图说明
图1现有技术中的一种基于神经网络的自然场景的文字识别算法的流程图;
图2是现有技术中的一种LSTM隐层的示意图;
图3是本发明的一种字符识别方法实施例的步骤流程图;
图4是本发明的另一种符识别方法实施例的步骤流程图;
图5是本发明的一种加入Attention model的LSTM算法的示意图;
图6是本发明的一种字符识别系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图3,示出了本发明的一种字符识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤301,采集自然场景的原始图像;
其中,可以采集需要进行字符识别的自然场景的原始图像,该原始图像为由图像的像素点构成的一个像素矩阵。
步骤302,对所述原始图像进行预处理;
其中,为了减少彩图带来的无意义的运算量,并增加图像的对比度,使图像更清晰,可以对该原始图像进行预处理操作。
步骤303,对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;
其中,由于一副原始图像可能包含多个包含文字的区域,这些区域并不完全相同,因此,可以对预处理后的原始图像进行OCR版面分析,来得到多个像素矩阵。其中,版面分析是OCR系统的一个重要组成部分,它可以将文档图像按一定的特征分割成各个部分,并判断各部分是文本、标题、图像、图形或表格等。OCR版面分析主要包括:版面分割和版面理解两部分。
另外,本发明实施例可以利用CNN的特征提取优势和LSTM的序列识别优势,同时结合编码器解码器结构(Encoder-Decoder Architecture)来实现对自然场景的图像的文字识别。Encoder-Decoder Architecture是一种常见的神经网络设计模式。其基本思想是:首先通过某种神经网络结构将输入转化为一个或一组向量表示,这部分被称为编码器(Encoder),然后再使用另一组神经网络结构对向量表示的数据进行分类、分割等最终操作,这部分结构被称为解码器(Decoder)。文字识别可以被认为是一种特殊的翻译过程:图像数据通过算法被“翻译”为字符序列。
具体如下:
步骤304,采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;
其中,采用CNN(作为Encoder-Decoder Architecture中的Encoder)对这些像素矩阵分别进行特征提取。其中,由于直接在像素级别进行文字识别往往难以得到理想的效果,因此,本发明实施例将原始图像转换为像素矩阵的形式进行上述步骤处理,以及特征提取处理。这样,通过从图像的像素矩阵中提取特征部分,可以提升特征提取的准确度。其中,每个像素矩阵都对应一个特征图。
这里提取的特征由CNN机器自动学习的特征,在另外一个实施例中,在进行特征提取时,也可以提取人工定义的特征(包括但不限于边缘特征、笔画特征、结构特征等)。
步骤305,采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列。
其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。
其中,可以采用加入Attention Model的LSTM(作为Encoder-DecoderArchitecture中的Decoder)对这多个特征图分别进行字符分类、分割的字符识别,从而得到字符序列。
借助于本发明上述实施例的技术方案,本发明利用卷积神经网络在图像特征提取中的优势,提取出图像中包含待识别文字信息的特征序列,即特征图,降低了传统OCR算法图像预处理的复杂度和工作量;然后利用加入Attention Model的LSTM算法,将CNN算法提取的特征序列识别为对应字符序列,从而得到需求的文字信息。通过将Attention Model取代LSTM算法中的Forget Gate构成的全联通网络,能够减少运算参数,同时实现不同上下文内容对当前字符识别不同影响力的控制,并能够将长程记忆中信息完美地传递给当前字符,提升了字符识别准确度。
参照图4,在上述实施例的基础上,示出了本发明的另一种字符识别方法实施例的步骤流程图。
步骤一:输入待识别的包含文字信息的原始图像;
步骤二:对原始图像进行预处理;
其中,预处理阶段主要对图像进行灰度化、二值化、图像增强、缩放、旋转等操作,从而减少彩图带来的无意义的运算量,增加对比度,让图像更加清晰。
步骤三:对预处理后的图像进行OCR版面分析;
具体而言,可以对预处理后的所述原始图像进行OCR版面分析,确定所述原始图像中包含字符的多个图像区域;生成针对所述多个图像区域的多个像素矩阵。
这样,通过OCR版面分析,就可以确定原始图像(一个像素矩阵)中包含文字的各个图像区域,并针对各个图像区域生成对应的多个像素矩阵(对应于包含字符的区域)。
步骤四:利用卷积神经网络从多个像素矩阵中分别提取特征图;
步骤五:利用加入Attention Model的LSTM对步骤四中输出的特征图进行字符识别,得到字符序列;
具体而言,可以采用加入Attention Model的LSTM对每个特征图中的当前特征分别进行字符识别,确定(本地机器学习过的字符中)与所述当前特征相似的字符,得到字符序列。
步骤六:在条件具备的情况下,可以使用外加的语言信息对识别结果进行筛选。词典是一个可选的信息来源,有时上下文、字符排布等都可以作为最终确定字符的依据,得分最高的候选结果(即字符)最终被选作输出。
具体而言,如果上述确定的字符中,存在与当前特征相似的多个字符(例如,乔、娇、大、齐),那么可以确定所述特征图中所述当前特征的上一个特征对应的上一个字符(例如,整);并获取所述上一个字符的上下文字符(例如可以依据该词典中的信息来源来获取该字符“整”的上下文字符,例如整齐的“齐”、平整的“平”等);接着,确定所述多个字符(即,乔、娇、大、齐)中与所述上下文字符(即,齐、平)相匹配的目标字符(这里为齐);最后,就可以将所述目标字符(齐)确定为与所述当前特征相似的字符。
步骤七:输出步骤六中识别出的图像中的字符(即,文字)信息。
由此可见,本发明实施例能够将自然场景中图像的文字识别问题,转化为提取特征图、特征图序列解码及字符匹配的问题。本发明重点对自然场景下的神经网络OCR算法进行了修改,在解码特征序列的LSTM算法中加入Attention Model来取代Forget Gate的全联通网络。
其中,图5示出了本发明实施例的加入Attention model的LSTM算法,简写为A-LSTM算法。
如图5所示,本发明利用attention机制,用两张权重概率表C和S来记录历史信息对当前状态的影响,这样就保留了长程记忆对当前状态的影响,而且只需要训练一份C权重表即可。其中,该算法采用如下公式实现:
Figure BDA0001222249650000071
it=f(Ct,h1·g2(y1),h2·g2(y2),...,ht-1·g2(yt-1))
ht=tanh(it+St×Ht′)
其中,权重概率表C记录了ENCODE阶段,CNN算法编码的每个字符向量间的相互影响关系的权重矩阵;
Ct为当前识别的第t个字符对应的权重列向量,该权重列向量向量记录了待识别图像中除当前第t个字符之外的其他各待识别字符对当前字符的影响值;
S权重概率表也是一个矩阵,记录的是DECODE阶段,已解码(识别)字符对当前待识别字符影响的权重;
St为前t-1(t>1)个已识别字符对当前待识别字符的影响值;
S是由St构成的上三角矩阵;
g1和g2为将向量转化为数值的函数;
xi为CNN提取的第i个序列特征;
Tx为当前图像中待识别的字符数;
Ct是由C中第t个向量中各权值
Figure BDA0001222249650000081
与对应特征向量的数值化g1(xi)相乘后累积求和所得;
yi为当前预测到的第i个字符;
f函数为利用历史编码向量预测字符的概率函数;
Ht′是由hi,i=1,...,(t-1)构成的向量,。
it为历史识别信息(即已识别字符)以及全量特征信息(即,待识别图像中除当前第t个字符之外的其他各待识别字符)对当前待识别的字符的影响值,由f函数计算得到;
ht为由tanh函数将it和历史识别信息量综合,得到当前的识别结果。
同样的,图5所示的Xt-1、Xt、Xt+1与xi意义类似,都是序列特征,只是第几个序列特征而已。
同理,Ct-1和Ct+1与Ct的意义同样类似;ht-1和ht+1与ht的意义同样类似;
yt-1、yt、yt+1与yi的意义同样类似;St-1和St+1与St的意义同样类似,在此不再赘述。
由此可见,本发明实施例的A-LSTM算法能够在对特征图中的特征进行字符识别时,结合特征图中的全量特征向量和已识别到的字符对当前待识别的字符的影响程度(即影响值)来对当前字符进行识别判断,从而确定当前字符,保证了长程记忆中信息完美地传递给当前状态,提升了字符识别效果。
下面结合一具体实例来对本发明的上述技术方案进行详细阐述。
这里,本发明实施例收集了5万余张不同角度、不同光照、不同背景环境下拍摄的包含文字的图像进行训练和实验。本发明技术方案的主要过程如下:
(1)将收集的5万余张图像进行标注,取其中5万张进行训练实验,剩余的5000余张作为测试集;
(2)对图片进行预处理和版面分析,确定图片中包含字符的图像范围,对各个图像区域分别进行缩放,使得保持原始图像宽高比的情况下,图像高度固定为64;
(3)用CNN网络对图像的特征进行提取,网络共6组,前五组均由一个卷积层、一个激活函数层、一个池化层三层组成,最后一组由一个卷积层和一个激活函数层构成。最终每个图像区域输出一张特征图,为保证图片信息不丢失,设置窗口滑动步长均为1。激活层使用SoftPlus函数作为激活函数;
(4)用A-LSTM神经网络作为解码器,对CNN提取的特征序列进行解码,转化为字符。具体公式如上述图5所用的公式,其中f使用余弦距离函数。g1和g2均使用一个权重向量,进行向量乘法,获得向量的加权值后,用logistic sigmoid函数,得到其在[0,1]范围的取值。
(5)使用神经网络训练中常用的Downpour SGD算法训练前面的字符识别模型,用Dropout方法来预防过拟合,训练得到模型;
(6)将训练的模型在测试集上进行测试,具体识别流程如上述各个实施例所描述的识别流程,在此不再赘述。
由此可见,本发明实施例能够借助于加入了Attention Model的LSTM算法进行字符识别,能够减少运算参数,同时实现了不同上下文内容对当前字符识别不同影响力的控制,并达到了长程记忆和遗忘的类似效果。在LSTM算法中加入Attention Model来取代Forget Gate的全联通网络的思路是现有算法中不曾出现的,同时将这种算法结合CNN卷积神经网络应用于自然场景的字符识别中,也是此前OCR领域不曾运用的,都是本发明实施例的核心技术。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图6,示出了本发明一种字符识别系统实施例的结构框图,具体可以包括如下模块:
采集模块61,用于采集自然场景的原始图像;
预处理模块62,用于对所述原始图像进行预处理;
版面分析模块63,用于对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;
特征提取模块64,用于采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;
字符识别模块65,用于采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列;
其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。
可选地,所述版面分析模块63包括:
版面分析子模块,用于对预处理后的所述原始图像进行OCR版面分析,确定所述原始图像中包含字符的多个图像区域;
生成子模块,用于生成针对所述多个图像区域的多个像素矩阵。
可选地,所述字符识别模块65包括:
字符识别子模块,用于采用加入Attention Model的LSTM对每个特征图中的当前特征分别进行字符识别,确定与所述当前特征相似的字符,得到字符序列。
可选地,所述系统还包括:
第一确定模块,用于若存在与当前特征相似的多个字符,则确定所述特征图中所述当前特征的上一个特征对应的上一个字符;
获取模块,用于获取所述上一个字符的上下文字符;
第二确定模块,用于确定所述多个字符中与所述上下文字符相匹配的目标字符;
第三确定模块,用于将所述目标字符确定为与所述当前特征相似的字符。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种字符识别方法和一种字符识别系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种字符识别方法,其特征在于,包括:
采集自然场景的原始图像;
对所述原始图像进行预处理;
对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;
采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;其中,每个像素矩阵都对应一个特征图;
采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列;其中,所述得到字符序列的步骤后,还包括:使用外加的语言信息对识别结果进行筛选;
其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换;所述加入Attention Model的LSTM利用attention机制,用两张权重概率表C和S来记录历史识别信息对当前待识别的字符的影响值;
其中,权重概率表C记录的是ENCODE阶段,所述CNN编码的每个字符向量间的相互影响关系的权重矩阵;S权重概率表记录的是DECODE阶段,已解码字符对当前待识别的字符影响的权重矩阵;
所述Attention Model的LSTM采用如下公式实现:
Figure FDA0002693080380000011
it=f(Ct,h1·g2(y1),h2·g2(y2),...,ht-1·g2(yt-1))
ht=tanh(it+St×H′t)
其中,Ct为当前识别的第t个字符对应的权重列向量,该权重列向量记录了待识别图像中除当前第t个字符之外的其他各待识别字符对当前字符的影响值;
St为前t-1个已识别字符对当前待识别字符的影响值,t>1;
S是由St构成的上三角矩阵;
g1和g2为将向量转化为数值的函数;
xi为CNN提取的第i个序列特征;
Tx为当前图像中待识别的字符数;
Ct是由C中第t个向量中各权值
Figure FDA0002693080380000021
与对应特征向量的数值化g1(xi)相乘后累积求和所得;
yi为当前预测到的第i个字符;
f函数为利用历史编码向量预测字符的概率函数;
H′t是由hi,i=1,...,(t-1)构成的向量;
it为历史识别信息以及待识别图像中除当前第t个字符之外的其他各待识别字符,对当前待识别的字符的影响值,由f函数计算得到;
ht为由tanh函数将it和历史识别信息量综合,得到当前的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵的步骤,包括:
对预处理后的所述原始图像进行OCR版面分析,确定所述原始图像中包含字符的多个图像区域;
生成针对所述多个图像区域的多个像素矩阵。
3.根据权利要求1所述的方法,其特征在于,所述采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列的步骤,包括:
采用加入Attention Model的LSTM对每个特征图中的当前特征分别进行字符识别,确定与所述当前特征相似的字符,得到字符序列。
4.根据权利要求3所述的方法,其特征在于,所述确定与所述当前特征相似的字符的步骤之后,所述方法还包括:
若存在与当前特征相似的多个字符,则确定所述特征图中所述当前特征的上一个特征对应的上一个字符;
获取所述上一个字符的上下文字符;
确定所述多个字符中与所述上下文字符相匹配的目标字符;
将所述目标字符确定为与所述当前特征相似的字符。
5.一种字符识别系统,其特征在于,包括:
采集模块,用于采集自然场景的原始图像;
预处理模块,用于对所述原始图像进行预处理;
版面分析模块,用于对预处理后的所述原始图像进行OCR版面分析,得到多个像素矩阵;
特征提取模块,用于采用CNN对所述多个像素矩阵分别进行特征提取,得到多个特征图;其中,每个像素矩阵都对应一个特征图;
字符识别模块,用于采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别,得到字符序列;其中,所述得到字符序列的步骤后,还包括:使用外加的语言信息对识别结果进行筛选;
其中,所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换;所述加入Attention Model的LSTM利用attention机制,用两张权重概率表C和S来记录历史识别信息对当前待识别的字符的影响值;
其中,权重概率表C记录的是ENCODE阶段,所述CNN编码的每个字符向量间的相互影响关系的权重矩阵;S权重概率表记录的是DECODE阶段,已解码字符对当前待识别的字符影响的权重矩阵;
所述Attention Model的LSTM采用如下公式实现:
Figure FDA0002693080380000031
it=f(Ct,h1·g2(y1),h2·g2(y2),...,ht-1·g2(yt-1))
ht=tanh(it+St×H′t)
其中,Ct为当前识别的第t个字符对应的权重列向量,该权重列向量记录了待识别图像中除当前第t个字符之外的其他各待识别字符对当前字符的影响值;
St为前t-1个已识别字符对当前待识别字符的影响值,t>1;
S是由St构成的上三角矩阵;
g1和g2为将向量转化为数值的函数;
xi为CNN提取的第i个序列特征;
Tx为当前图像中待识别的字符数;
Ct是由C中第t个向量中各权值
Figure FDA0002693080380000032
与对应特征向量的数值化g1(xi)相乘后累积求和所得;
yi为当前预测到的第i个字符;
f函数为利用历史编码向量预测字符的概率函数;
H′t是由hi,i=1,...,(t-1)构成的向量;
it为历史识别信息以及待识别图像中除当前第t个字符之外的其他各待识别字符,对当前待识别的字符的影响值,由f函数计算得到;
ht为由tanh函数将it和历史识别信息量综合,得到当前的识别结果。
6.根据权利要求5所述的系统,其特征在于,所述版面分析模块包括:
版面分析子模块,用于对预处理后的所述原始图像进行OCR版面分析,确定所述原始图像中包含字符的多个图像区域;
生成子模块,用于生成针对所述多个图像区域的多个像素矩阵。
7.根据权利要求5所述的系统,其特征在于,所述字符识别模块包括:
字符识别子模块,用于采用加入AttentionModel的LSTM对每个特征图中的当前特征分别进行字符识别,确定与所述当前特征相似的字符,得到字符序列。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
第一确定模块,用于若存在与当前特征相似的多个字符,则确定所述特征图中所述当前特征的上一个特征对应的上一个字符;
获取模块,用于获取所述上一个字符的上下文字符;
第二确定模块,用于确定所述多个字符中与所述上下文字符相匹配的目标字符;
第三确定模块,用于将所述目标字符确定为与所述当前特征相似的字符。
CN201710069428.5A 2017-02-08 2017-02-08 字符识别方法和字符识别系统 Active CN106960206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710069428.5A CN106960206B (zh) 2017-02-08 2017-02-08 字符识别方法和字符识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710069428.5A CN106960206B (zh) 2017-02-08 2017-02-08 字符识别方法和字符识别系统

Publications (2)

Publication Number Publication Date
CN106960206A CN106960206A (zh) 2017-07-18
CN106960206B true CN106960206B (zh) 2021-01-01

Family

ID=59481098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710069428.5A Active CN106960206B (zh) 2017-02-08 2017-02-08 字符识别方法和字符识别系统

Country Status (1)

Country Link
CN (1) CN106960206B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480680A (zh) * 2017-07-28 2017-12-15 顺丰科技有限公司 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备
CN107463928A (zh) * 2017-07-28 2017-12-12 顺丰科技有限公司 基于ocr和双向lstm的文字序列纠错算法、系统及其设备
CN107527059B (zh) * 2017-08-07 2021-12-21 北京小米移动软件有限公司 文字识别方法、装置及终端
CN109685058B (zh) 2017-10-18 2021-07-09 杭州海康威视数字技术股份有限公司 一种图像目标识别方法、装置及计算机设备
US10810467B2 (en) * 2017-11-17 2020-10-20 Hong Kong Applied Science and Technology Research Institute Company Limited Flexible integrating recognition and semantic processing
CN109871843B (zh) * 2017-12-01 2022-04-08 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108537115B (zh) * 2018-03-02 2022-01-25 创新先进技术有限公司 图像识别方法、装置及电子设备
CN108537226A (zh) * 2018-03-06 2018-09-14 北京邮电大学 一种车牌识别方法和装置
US11055557B2 (en) 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
CN108921185A (zh) * 2018-05-04 2018-11-30 广州图匠数据科技有限公司 一种基于图像识别的货架促销信息识别方法、装置和系统
CN110490179B (zh) * 2018-05-15 2022-08-05 杭州海康威视数字技术股份有限公司 车牌识别方法、装置及存储介质
CN110490186B (zh) * 2018-05-15 2022-03-25 杭州海康威视数字技术股份有限公司 车牌识别方法、装置及存储介质
CN110796133B (zh) * 2018-08-01 2024-05-24 北京京东尚科信息技术有限公司 文案区域识别方法和装置
CN110858307B (zh) * 2018-08-24 2022-09-13 国信优易数据股份有限公司 字符识别模型训练方法及装置、识别字符的方法及装置
CN109598185B (zh) * 2018-09-04 2022-09-20 创新先进技术有限公司 图像识别翻译方法、装置、设备及可读存储介质
CN109214387A (zh) * 2018-09-14 2019-01-15 辽宁奇辉电子系统工程有限公司 一种基于文字识别技术的铁路作业检测系统
CN111027555B (zh) * 2018-10-09 2023-09-26 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN109165697B (zh) * 2018-10-12 2021-11-30 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109766881A (zh) * 2018-11-28 2019-05-17 北京捷通华声科技股份有限公司 一种竖向文本图像的字符识别方法和装置
CN111401099B (zh) * 2018-12-28 2023-04-07 中国电信股份有限公司 文本识别方法、装置以及存储介质
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN111753600B (zh) * 2019-03-29 2024-05-17 北京市商汤科技开发有限公司 文本识别方法、装置及存储介质
CN111814508B (zh) * 2019-04-10 2024-01-09 阿里巴巴集团控股有限公司 一种文字识别方法、系统及设备
CN110084172B (zh) * 2019-04-23 2022-07-29 北京字节跳动网络技术有限公司 文字识别方法、装置和电子设备
CN110390326A (zh) * 2019-06-14 2019-10-29 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN110348021B (zh) * 2019-07-17 2021-05-18 湖北亿咖通科技有限公司 基于命名实体模型的字符串识别方法、电子设备、存储介质
CN110569846A (zh) 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110598703B (zh) * 2019-09-24 2022-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
CN110688949B (zh) * 2019-09-26 2022-11-01 北大方正集团有限公司 字体识别方法和装置
CN111046784B (zh) * 2019-12-09 2024-02-20 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN113553885A (zh) * 2020-04-26 2021-10-26 复旦大学 一种基于生成对抗网络的自然场景文本识别方法
CN112887730A (zh) * 2021-01-21 2021-06-01 百果园技术(新加坡)有限公司 一种视频编解码的方法及装置
TWI775634B (zh) * 2021-10-07 2022-08-21 博相科技股份有限公司 英文字體影像辨識方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782896B (zh) * 2009-01-21 2011-11-30 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN101882215B (zh) * 2009-05-25 2013-01-09 汉王科技股份有限公司 判断文本区域排版方向的方法
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"深度学习在手写汉字识别中的应用综述";金连文等;《自动化学报》;20160831;第42卷(第8期);第1125-1141页 *

Also Published As

Publication number Publication date
CN106960206A (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN106960206B (zh) 字符识别方法和字符识别系统
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN111476067B (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
US20190180154A1 (en) Text recognition using artificial intelligence
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN113674140B (zh) 一种物理对抗样本生成方法及系统
RU2693916C1 (ru) Распознавание символов с использованием иерархической классификации
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
Ding et al. Deep interactive image matting with feature propagation
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN111046771A (zh) 用于恢复书写轨迹的网络模型的训练方法
US20240161304A1 (en) Systems and methods for processing images
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113283336A (zh) 一种文本识别方法与系统
CN113822383A (zh) 一种基于多域注意力机制的无人机检测方法及系统
CN111696136A (zh) 一种基于编解码结构的目标跟踪方法
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN116311214A (zh) 车牌识别方法和装置
Ling et al. Development of vertical text interpreter for natural scene images
CN117011932A (zh) 一种奔跑行为检测方法、电子设备及存储介质
Duan et al. Attention enhanced convnet-RNN for Chinese vehicle license plate recognition
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN113221718A (zh) 公式识别方法、装置、存储介质和电子设备
Gaonkar et al. Language Linguist using Image Processing on Intelligent Transport Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Building 2102, building 1, Haidian District, Beijing

Patentee after: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.

Address before: 100193 room 2101, 1f, building a, Zhongguancun Software Park, No. 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee before: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder