CN106960206A

CN106960206A - 字符识别方法和字符识别系统

Info

Publication number: CN106960206A
Application number: CN201710069428.5A
Authority: CN
Inventors: 曹骥; 李健; 王富田; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP; Beijing Sinovoice Technology Co Ltd
Priority date: 2017-02-08
Filing date: 2017-02-08
Publication date: 2017-07-18
Anticipated expiration: 2037-02-08
Also published as: CN106960206B

Abstract

本发明实施例提供了一种字符识别方法和系统，该方法包括：采集自然场景的原始图像；对所述原始图像进行预处理；对预处理后的所述原始图像进行OCR版面分析，得到多个像素矩阵；采用CNN对所述多个像素矩阵分别进行特征提取，得到多个特征图；采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别，得到字符序列；其中，述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。本发明通过利用加入Attention Model的LSTM算法，将CNN算法提取的特征序列识别为对应字符序列，从而得到需求的文字信息，能够减少运算参数，同时实现不同上下文内容对当前字符识别不同影响力的控制，并能够将长程记忆中信息完美地传递给当前字符，提升了字符识别准确度。

Description

字符识别方法和字符识别系统

技术领域

本发明涉及字符识别技术领域，特别是涉及一种字符识别方法和字符识别系统。

背景技术

文字识别技术在虚拟现实、人机交互、票据识别、工业自动化等领域中都有广泛的应用。例如，计算机可以通过分析路边指示牌，获取当前位置或其他行车信息，帮助无人驾驶车辆合理规划行车路线。

传统的光学字符识别(Optical Character Recognition，OCR)技术主要面向的是质量较好的文档图像，其假设输入的图像使用了规范的印刷体、有干净的背景、且具有较高的分辨率。但是，在自然场景中，由于图像背景环境多样、采图设备参差、字体多变、排布丰富等的原因，传统的OCR技术识别效果较差。

具体而言，自然场景的字符识别所面对的困难和挑战主要有：1)文字背景复杂，自然图像的文字背景中包含着大量图案、建筑、树木等，有些图像甚至有遮挡、同色的前景背景等会给识别，这些都会给识别带来强烈的干扰；2)文字类型丰富，自然场景的文字可能会出现笔体不连续，字体空心、扭曲、颜色过渡等展示形式；3)分布不确定，自然场景下的文字分布间距、空间位置等都带有不确定性；4)字符分割困难，自然场景的文字中可能包含笔体粘连、字符重叠等情况，会给字符分隔带来很大的问题；5)噪音严重，自然场景下图像会因为光照、角度、抖动等原因，造成成像效果较差的现象，这些都会给OCR识别过程带来巨大困难。

那么针对自然场景的图像的字符识别问题，现有技术提出了流程如图1所示的一种基于神经网络的自然场景的文字识别算法。该流程主要包括：针对输入的自然场景的原始图像进行预处理操作，然后对与处理操作后的图像进行版面分析，接着采用卷积神经网络(Convolutional Neural Network,CNN)对版面分析后的像素矩阵进行文字检测，接着，采用RNNs对检测的文字进行识别，得到字符序列输出结果。

其中，考虑到循环神经网络(Recurrent Neural Networks，RNNs)在长期记忆中的梯度爆炸或消失问题，该算法中可以将其换为时间递归神经网络(Long Short-TermMemory，LSTM)算法。其中，在LSTM算法中有：输入门(Input Gate)、输出门(Output Gate)、遗忘门(Forget Gate)三个门。其中的Forget Gate用来控制历史状态信息(这里为)对当前状态影响的程度，虽然长期记忆对当前影响不是按梯度消失或增长，但是，长期记忆的影响力仍然是以[0,1]之间的若干个值累乘进行衰减的。因此，除非这些值取值全为“1”，才能保证长期记忆对当前状态有100％的影响力。其中，LSTM隐层的计算公式如下：

输入门：i_t＝sigm(W₁x_t+W₂h_t-1)；

输入值：i_t′＝tanh(W₃x_t+W₄h_t-1)；

遗忘门：f_t＝sigm(W₅x_t+W₆h_t-1)；

输出门：o_t＝sigm(W₇x_t+W₈h_t-1)；

状态门：m_t＝m_t-1e f_t+i_t e i_t′；

隐层节点输出值：h_t＝m_t e o_t。

结合LSTM算法的隐层的计算公式，在图2中给出了LSTM隐层的示意图。其中，σ_i,i＝1,2,3表示公式中的sigm函数，对应不同的权重W参数。

但是，这种神经网络的自然场景的文字识别算法中的每个隐层中都需要训练一套8个权重参数，计算量非常大，而且不能保证长程记忆中信息完美地传递给当前状态，造成字符识别效果不佳。

发明内容

本发明提供了一种字符识别方法和字符识别系统，以解决现有技术中的字符识别算法所存在的计算量大、不能保证长程记忆中信息完美地传递给当前状态，造成字符识别效果不佳的问题。

为了解决上述问题，根据本发明的一个方面，本发明公开了一种字符识别方法，包括：

采集自然场景的原始图像；

对所述原始图像进行预处理；

对预处理后的所述原始图像进行OCR版面分析，得到多个像素矩阵；

采用CNN对所述多个像素矩阵分别进行特征提取，得到多个特征图；

采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别，得到字符序列；

其中，所述加入Attention Model的LSTM中的遗忘门由所述Attention Model替换。

根据本发明的另一方面，本发明还公开了一种字符识别系统，包括：

采集模块，用于采集自然场景的原始图像；

预处理模块，用于对所述原始图像进行预处理；

版面分析模块，用于对预处理后的所述原始图像进行OCR版面分析，得到多个像素矩阵；

特征提取模块，用于采用CNN对所述多个像素矩阵分别进行特征提取，得到多个特征图；

字符识别模块，用于采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别，得到字符序列；

与现有技术相比，本发明包括以下优点：

本发明利用卷积神经网络在图像特征提取中的优势，提取出图像中包含待识别文字信息的特征序列，即特征图，降低了传统OCR算法图像预处理的复杂度和工作量；然后利用加入Attention Model的LSTM算法，将CNN算法提取的特征序列识别为对应字符序列，从而得到需求的文字信息。通过将Attention Model取代LSTM算法中的Forget Gate构成的全联通网络，能够减少运算参数，同时实现不同上下文内容对当前字符识别不同影响力的控制，并能够将长程记忆中信息完美地传递给当前字符，提升了字符识别准确度。

附图说明

图1现有技术中的一种基于神经网络的自然场景的文字识别算法的流程图；

图2是现有技术中的一种LSTM隐层的示意图；

图3是本发明的一种字符识别方法实施例的步骤流程图；

图4是本发明的另一种符识别方法实施例的步骤流程图；

图5是本发明的一种加入Attention model的LSTM算法的示意图；

图6是本发明的一种字符识别系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图3，示出了本发明的一种字符识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，采集自然场景的原始图像；

其中，可以采集需要进行字符识别的自然场景的原始图像，该原始图像为由图像的像素点构成的一个像素矩阵。

步骤302，对所述原始图像进行预处理；

其中，为了减少彩图带来的无意义的运算量，并增加图像的对比度，使图像更清晰，可以对该原始图像进行预处理操作。

步骤303，对预处理后的所述原始图像进行OCR版面分析，得到多个像素矩阵；

其中，由于一副原始图像可能包含多个包含文字的区域，这些区域并不完全相同，因此，可以对预处理后的原始图像进行OCR版面分析，来得到多个像素矩阵。其中，版面分析是OCR系统的一个重要组成部分，它可以将文档图像按一定的特征分割成各个部分，并判断各部分是文本、标题、图像、图形或表格等。OCR版面分析主要包括：版面分割和版面理解两部分。

另外，本发明实施例可以利用CNN的特征提取优势和LSTM的序列识别优势，同时结合编码器解码器结构(Encoder-Decoder Architecture)来实现对自然场景的图像的文字识别。Encoder-Decoder Architecture是一种常见的神经网络设计模式。其基本思想是：首先通过某种神经网络结构将输入转化为一个或一组向量表示，这部分被称为编码器(Encoder)，然后再使用另一组神经网络结构对向量表示的数据进行分类、分割等最终操作，这部分结构被称为解码器(Decoder)。文字识别可以被认为是一种特殊的翻译过程：图像数据通过算法被“翻译”为字符序列。

具体如下：

步骤304，采用CNN对所述多个像素矩阵分别进行特征提取，得到多个特征图；

其中，采用CNN(作为Encoder-Decoder Architecture中的Encoder)对这些像素矩阵分别进行特征提取。其中，由于直接在像素级别进行文字识别往往难以得到理想的效果，因此，本发明实施例将原始图像转换为像素矩阵的形式进行上述步骤处理，以及特征提取处理。这样，通过从图像的像素矩阵中提取特征部分，可以提升特征提取的准确度。其中，每个像素矩阵都对应一个特征图。

这里提取的特征由CNN机器自动学习的特征，在另外一个实施例中，在进行特征提取时，也可以提取人工定义的特征(包括但不限于边缘特征、笔画特征、结构特征等)。

步骤305，采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别，得到字符序列。

其中，可以采用加入Attention Model的LSTM(作为Encoder-DecoderArchitecture中的Decoder)对这多个特征图分别进行字符分类、分割的字符识别，从而得到字符序列。

借助于本发明上述实施例的技术方案，本发明利用卷积神经网络在图像特征提取中的优势，提取出图像中包含待识别文字信息的特征序列，即特征图，降低了传统OCR算法图像预处理的复杂度和工作量；然后利用加入Attention Model的LSTM算法，将CNN算法提取的特征序列识别为对应字符序列，从而得到需求的文字信息。通过将Attention Model取代LSTM算法中的Forget Gate构成的全联通网络，能够减少运算参数，同时实现不同上下文内容对当前字符识别不同影响力的控制，并能够将长程记忆中信息完美地传递给当前字符，提升了字符识别准确度。

参照图4，在上述实施例的基础上，示出了本发明的另一种字符识别方法实施例的步骤流程图。

步骤一：输入待识别的包含文字信息的原始图像；

步骤二：对原始图像进行预处理；

其中，预处理阶段主要对图像进行灰度化、二值化、图像增强、缩放、旋转等操作，从而减少彩图带来的无意义的运算量，增加对比度，让图像更加清晰。

步骤三：对预处理后的图像进行OCR版面分析；

具体而言，可以对预处理后的所述原始图像进行OCR版面分析，确定所述原始图像中包含字符的多个图像区域；生成针对所述多个图像区域的多个像素矩阵。

这样，通过OCR版面分析，就可以确定原始图像(一个像素矩阵)中包含文字的各个图像区域，并针对各个图像区域生成对应的多个像素矩阵(对应于包含字符的区域)。

步骤四：利用卷积神经网络从多个像素矩阵中分别提取特征图；

步骤五：利用加入Attention Model的LSTM对步骤四中输出的特征图进行字符识别，得到字符序列；

具体而言，可以采用加入Attention Model的LSTM对每个特征图中的当前特征分别进行字符识别，确定(本地机器学习过的字符中)与所述当前特征相似的字符，得到字符序列。

步骤六：在条件具备的情况下，可以使用外加的语言信息对识别结果进行筛选。词典是一个可选的信息来源，有时上下文、字符排布等都可以作为最终确定字符的依据，得分最高的候选结果(即字符)最终被选作输出。

具体而言，如果上述确定的字符中，存在与当前特征相似的多个字符(例如，乔、娇、大、齐)，那么可以确定所述特征图中所述当前特征的上一个特征对应的上一个字符(例如，整)；并获取所述上一个字符的上下文字符(例如可以依据该词典中的信息来源来获取该字符“整”的上下文字符，例如整齐的“齐”、平整的“平”等)；接着，确定所述多个字符(即，乔、娇、大、齐)中与所述上下文字符(即，齐、平)相匹配的目标字符(这里为齐)；最后，就可以将所述目标字符(齐)确定为与所述当前特征相似的字符。

步骤七：输出步骤六中识别出的图像中的字符(即，文字)信息。

由此可见，本发明实施例能够将自然场景中图像的文字识别问题，转化为提取特征图、特征图序列解码及字符匹配的问题。本发明重点对自然场景下的神经网络OCR算法进行了修改，在解码特征序列的LSTM算法中加入Attention Model来取代Forget Gate的全联通网络。

其中，图5示出了本发明实施例的加入Attention model的LSTM算法，简写为A-LSTM算法。

如图5所示，本发明利用attention机制，用两张权重概率表C和S来记录历史信息对当前状态的影响，这样就保留了长程记忆对当前状态的影响，而且只需要训练一份C权重表即可。其中，该算法采用如下公式实现：

i_t＝f(C_t,h₁·g₂(y₁),h₂·g₂(y₂),...,h_t-1·g₂(y_t-1))

h_t＝tanh(i_t+S_t×H_t′)

其中，权重概率表C记录了ENCODE阶段，CNN算法编码的每个字符向量间的相互影响关系的权重矩阵；

C_t为当前识别的第t个字符对应的权重列向量，该权重列向量向量记录了待识别图像中除当前第t个字符之外的其他各待识别字符对当前字符的影响值；

S权重概率表也是一个矩阵，记录的是DECODE阶段，已解码(识别)字符对当前待识别字符影响的权重；

S_t为前t-1(t>1)个已识别字符对当前待识别字符的影响值；

S是由S_t构成的上三角矩阵；

g₁和g₂为将向量转化为数值的函数；

x_i为CNN提取的第i个序列特征；

T_x为当前图像中待识别的字符数；

C_t是由C中第t个向量中各权值与对应特征向量的数值化g₁(x_i)相乘后累积求和所得；

y_i为当前预测到的第i个字符；

f函数为利用历史编码向量预测字符的概率函数；

H_t′是由h_i,i＝1,...,(t-1)构成的向量，。

i_t为历史识别信息(即已识别字符)以及全量特征信息(即，待识别图像中除当前第t个字符之外的其他各待识别字符)对当前待识别的字符的影响值，由f函数计算得到；

h_t为由tanh函数将i_t和历史识别信息量综合，得到当前的识别结果。

同样的，图5所示的X_t-1、X_t、X_t+1与x_i意义类似，都是序列特征，只是第几个序列特征而已。

同理，C_t-1和C_t+1与C_t的意义同样类似；h_t-1和h_t+1与h_t的意义同样类似；

y_t-1、y_t、y_t+1与y_i的意义同样类似；S_t-1和S_t+1与S_t的意义同样类似，在此不再赘述。

由此可见，本发明实施例的A-LSTM算法能够在对特征图中的特征进行字符识别时，结合特征图中的全量特征向量和已识别到的字符对当前待识别的字符的影响程度(即影响值)来对当前字符进行识别判断，从而确定当前字符，保证了长程记忆中信息完美地传递给当前状态，提升了字符识别效果。

下面结合一具体实例来对本发明的上述技术方案进行详细阐述。

这里，本发明实施例收集了5万余张不同角度、不同光照、不同背景环境下拍摄的包含文字的图像进行训练和实验。本发明技术方案的主要过程如下：

(1)将收集的5万余张图像进行标注，取其中5万张进行训练实验，剩余的5000余张作为测试集；

(2)对图片进行预处理和版面分析，确定图片中包含字符的图像范围，对各个图像区域分别进行缩放，使得保持原始图像宽高比的情况下，图像高度固定为64；

(3)用CNN网络对图像的特征进行提取，网络共6组，前五组均由一个卷积层、一个激活函数层、一个池化层三层组成，最后一组由一个卷积层和一个激活函数层构成。最终每个图像区域输出一张特征图，为保证图片信息不丢失，设置窗口滑动步长均为1。激活层使用SoftPlus函数作为激活函数；

(4)用A-LSTM神经网络作为解码器，对CNN提取的特征序列进行解码，转化为字符。具体公式如上述图5所用的公式，其中f使用余弦距离函数。g₁和g₂均使用一个权重向量，进行向量乘法，获得向量的加权值后，用logistic sigmoid函数，得到其在[0,1]范围的取值。

(5)使用神经网络训练中常用的Downpour SGD算法训练前面的字符识别模型，用Dropout方法来预防过拟合，训练得到模型；

(6)将训练的模型在测试集上进行测试，具体识别流程如上述各个实施例所描述的识别流程，在此不再赘述。

由此可见，本发明实施例能够借助于加入了Attention Model的LSTM算法进行字符识别，能够减少运算参数，同时实现了不同上下文内容对当前字符识别不同影响力的控制，并达到了长程记忆和遗忘的类似效果。在LSTM算法中加入Attention Model来取代Forget Gate的全联通网络的思路是现有算法中不曾出现的，同时将这种算法结合CNN卷积神经网络应用于自然场景的字符识别中，也是此前OCR领域不曾运用的，都是本发明实施例的核心技术。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的方法相对应，参照图6，示出了本发明一种字符识别系统实施例的结构框图，具体可以包括如下模块：

采集模块61，用于采集自然场景的原始图像；

预处理模块62，用于对所述原始图像进行预处理；

版面分析模块63，用于对预处理后的所述原始图像进行OCR版面分析，得到多个像素矩阵；

特征提取模块64，用于采用CNN对所述多个像素矩阵分别进行特征提取，得到多个特征图；

字符识别模块65，用于采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别，得到字符序列；

可选地，所述版面分析模块63包括：

版面分析子模块，用于对预处理后的所述原始图像进行OCR版面分析，确定所述原始图像中包含字符的多个图像区域；

生成子模块，用于生成针对所述多个图像区域的多个像素矩阵。

可选地，所述字符识别模块65包括：

字符识别子模块，用于采用加入Attention Model的LSTM对每个特征图中的当前特征分别进行字符识别，确定与所述当前特征相似的字符，得到字符序列。

可选地，所述系统还包括：

第一确定模块，用于若存在与当前特征相似的多个字符，则确定所述特征图中所述当前特征的上一个特征对应的上一个字符；

获取模块，用于获取所述上一个字符的上下文字符；

第二确定模块，用于确定所述多个字符中与所述上下文字符相匹配的目标字符；

第三确定模块，用于将所述目标字符确定为与所述当前特征相似的字符。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种字符识别方法和一种字符识别系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种字符识别方法，其特征在于，包括：

采集自然场景的原始图像；

对所述原始图像进行预处理；

2.根据权利要求1所述的方法，其特征在于，所述对预处理后的所述原始图像进行OCR版面分析，得到多个像素矩阵的步骤，包括：

对预处理后的所述原始图像进行OCR版面分析，确定所述原始图像中包含字符的多个图像区域；

生成针对所述多个图像区域的多个像素矩阵。

3.根据权利要求1所述的方法，其特征在于，所述采用加入Attention Model的LSTM对所述多个特征图分别进行字符识别，得到字符序列的步骤，包括：

采用加入Attention Model的LSTM对每个特征图中的当前特征分别进行字符识别，确定与所述当前特征相似的字符，得到字符序列。

4.根据权利要求3所述的方法，其特征在于，所述确定与所述当前特征相似的字符的步骤之后，所述方法还包括：

若存在与当前特征相似的多个字符，则确定所述特征图中所述当前特征的上一个特征对应的上一个字符；

获取所述上一个字符的上下文字符；

确定所述多个字符中与所述上下文字符相匹配的目标字符；

将所述目标字符确定为与所述当前特征相似的字符。

5.一种字符识别系统，其特征在于，包括：

采集模块，用于采集自然场景的原始图像；

预处理模块，用于对所述原始图像进行预处理；

6.根据权利要求5所述的系统，其特征在于，所述版面分析模块包括：

7.根据权利要求5所述的系统，其特征在于，所述字符识别模块包括：

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

获取模块，用于获取所述上一个字符的上下文字符；