CN109871843A

CN109871843A - 字符识别方法和装置、用于字符识别的装置

Info

Publication number: CN109871843A
Application number: CN201711250089.7A
Authority: CN
Inventors: 马龙; 许盛辉; 徐露露; 苏雪峰; 佟子健
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-06-11
Anticipated expiration: 2037-12-01
Also published as: CN109871843B

Abstract

本发明实施例提供了一种字符识别方法和装置、用于字符识别的装置，其中的方法具体包括：针对包含行字符的行字符图像，进行尺寸归一化；利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。本发明实施例可以可以提高行字符识别结果的精确度。

Description

字符识别方法和装置、用于字符识别的装置

技术领域

本发明涉及OCR(光学字符识别，Optical Character Recognition)技术领域，特别是涉及一种字符识别方法和装置、以及一种用于字符识别的装置。

背景技术

随着移动互联网的发展，OCR技术的应用场景也从传统的办公领域(例如邮政编码、书籍扫描文档传真)逐渐渗入用户的日常生活，例如，若用户将手机摄像头对准菜单上的法语菜名，则通过OCR技术，可以在屏幕上显示出翻译好的中文菜名；或者，通过OCR技术将图书馆的藏书转化为电子书，等等。

目前的OCR技术可以从包含字符的原始图像中获取行字符图像，并针对该行字符图像进行字符识别，以将该行字符图像转化为文本。针对该行字符图像进行字符识别的过程可以包括：将行字符图像切分为单字图像，识别各单字图像对应的字符，并对各单字图像对应的字符进行拼接。

然而，在实际应用中，将行字符图像切分为单字图像的过程中容易出现切分错误，该切分错误将影响行字符识别结果的精确度。尤其地，对于一些复杂的艺术体字符或者潦草的手写体字符而言，行字符图像中往往存在字符之间粘连的情况，此种情况将增加将行字符图像切分为单字图像的难度，进而增加切分错误对应的错误率。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的字符识别方法、字符识别装置、用于字符识别的装置，本发明实施例可以提高行字符识别结果的精确度。

为了解决上述问题，本发明实施例公开了一种字符识别方法，包括：

针对包含行字符的行字符图像，进行尺寸归一化；

利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；

利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

可选地，所述卷积神经网络包括：P个相互连接的开端层，所述P个开端层中的至少一个包括：卷积核和池化模块，上一所述开端层的输出为下一所述开端层的输入；P为大于1的自然数。

可选地，所述利用卷积神经网络对归一化后的行字符图像进行特征提取，包括：

利用卷积神经网络对归一化后的行字符图像进行特征提取，得到N个特征图；N为大于1的自然数；

对所述N个特征图按列拼接，以得到所述归一化后的行字符图像对应的特征信息。

可选地，所述归一化后的行字符图像对应有第一尺寸，所述特征图对应有第二尺寸，所述第一尺寸对于所述第二尺寸的比值范围为4～8。

可选地，所述双向长短期记忆神经网络包括：M个双向长短期记忆神经网络层，M为自然数；

所述M个双向长短期记忆神经网络层对时间态的特征信息进行处理，上一所述双向长短期记忆神经网络层的输出为下一所述双向长短期记忆神经网络层的输入。

可选地，所述双向长短期记忆神经网络还包括：全链接层；

所述全链接层依据最后一个双向长短期记忆神经网络层输出的特征，得到所述行字符图像对应字符的概率，并依据所述概率得到所述行字符图像对应的字符识别结果。

可选地，所述归一化后的行字符图像对应有第一尺寸，所述第一尺寸包括高度尺寸，所述高度尺寸对应的像素值为偶数。

可选地，所述高度尺寸对应的像素值范围为40～64像素。

另一方面，本发明实施例公开了一种字符识别装置，包括：

归一化模块，用于针对包含行字符的行字符图像，进行尺寸归一化；

特征提取模块，用于利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；以及

字符识别模块，用于利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

可选地，所述特征提取模块包括：

特征提取子模块，用于利用卷积神经网络对归一化后的行字符图像进行特征提取，得到N个特征图；N为大于1的自然数；以及

特征拼接子模块，用于对所述N个特征图按列拼接，以得到所述归一化后的行字符图像对应的特征信息。

可选地，所述双向长短期记忆神经网络还包括：全链接层；

可选地，所述高度尺寸对应的像素值范围为40～64像素。

再一方面，本发明实施例公开了一种用于字符识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

针对包含行字符的行字符图像，进行尺寸归一化；

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的字符识别方法。

本发明实施例包括以下优点：

本发明实施例利用卷积神经网络将归一化后的行字符图像进行空间上的保序压缩，由于卷积的感受野(Receptive Field)会相互重叠，故可以使通过卷积神经网络得到的特征信息包含一定的上下文特征；接下来，可以通过双向长短期记忆神经网络对所述特征信息包含的上下文特征进行学习，并依据学习得到的上下文特征得到所述行字符图像对应的行字符识别结果。由于上述特征信息具有保序性，利用双向长短期记忆神经网络对所述特征信息进行字符识别的过程也具有保序性，故可以利用该行字符图像所对应字符序列的上下文特征确定字符序列中字符之间的边界，提高行字符识别结果的精确度。本发明实施例可以识别分割比较困难的字符序列，如复杂的艺术体字符或者潦草的手写体字符等。

并且，本发明实施例针对包含字符的行字符图像进行尺寸归一化，可以使得归一化后的行字符图像具有归一化的尺寸，在此情况下利用卷积神经网络对归一化后的行字符图像进行特征提取，可以实现对于所述归一化后的行字符图像对应的特征信息的维度控制，进而可以实现行字符识别结果的精确度和运算量的折中。

附图说明

图1是本发明的一种字符识别方法的应用环境的示意；

图2是本发明的一种字符识别方法实施例的步骤流程图；

图3是本发明实施例的一种开端层的结构示意；

图4是本发明实施例的一种特征图的按列拼接的示意；

图5是本发明实施例的一种双向长短期记忆神经网络的结构示意图；

图6是本发明的一种字符识别装置实施例的结构框图；

图7是根据一示例性实施例示出的一种用于字符识别的装置作为终端时的框图；及

图8是根据一示例性实施例示出的一种用于字符识别的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种字符识别方案，该方案可以包括：针对包含行字符的行字符图像，进行尺寸归一化；利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；以及利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

本发明实施例利用卷积神经网络将归一化后的行字符图像进行空间上的保序压缩，由于卷积的感受野(感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质，比如在视觉神经系统中，一个神经元的感受野是指视网膜上的特定区域，只有这个区域内的刺激才能够激活该神经元)会相互重叠，故可以使得到的特征信息包含一定的上下文特征；接下来，可以通过双向长短期记忆神经网络对所述特征信息包含的上下文特征进行学习，并依据学习得到的上下文特征得到所述行字符图像对应的行字符识别结果。由于上述特征信息具有保序性，利用双向长短期记忆神经网络对所述特征信息进行字符识别的过程也具有保序性，故可以利用该行字符图像所对应字符序列的上下文特征确定字符序列中字符之间的边界，提高行字符识别结果的精确度。本发明实施例可以识别分割比较困难的字符序列，如复杂的艺术体字符或者潦草的手写体字符等。

在实际应用中，对于所述归一化后的行字符图像对应的特征信息而言，通常其维度越高则其包含的信息越多，进而可以提高行字符识别结果的精确度，然而，其维度越高则容易增加运算量。本发明实施例针对包含行字符的行字符图像进行尺寸归一化，可以使得归一化后的行字符图像具有归一化的尺寸，在此情况下利用卷积神经网络对归一化后的行字符图像进行特征提取，可以实现对于所述归一化后的行字符图像对应的特征信息的维度控制，进而可以实现行字符识别结果的精确度和运算量的折中。

本发明实施例的字符识别方案可以应用于任意的字符识别场景，可选地，该字符识别场景可以终端拍照作为入口，对终端拍摄得到的图像进行字符识别等。在一种字符识别场景中，若用户将手机摄像头对准菜单上的法语菜名，则通过OCR技术，可以在屏幕上显示出翻译好的中文菜名。在另一种字符识别场景中，可以通过OCR技术将图书馆的藏书转化为电子书，等等。在再一种字符识别场景中，可以在拍摄街景的同时，从街景图像中自动提取文字标识，让地图信息更丰富更准确。在又一种字符识别场景中，每次工作会议后，无需再把白板上的讨论内容抄写下来、然后群发邮件布置任务，只要将白板用手机等终端拍照留存，根据拍摄得到的图像自动识别并分检出相关人员的后续工作，并将待办事项自动存放到各自的电子日历中，等等。

本发明实施例提供的字符识别方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

可选地，客户端100可以运行在具备图像拍摄功能或者图像加载的终端上，上述终端具体包括但不限：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端100是指与服务器相对应，为用户提供本地服务的程序。本发明实施例中的客户端100可以为提供本地字符识别服务的程序，如字符识别程序、拍照程序等，本发明实施例对于具体的客户端不加以限制。

本发明实施例中，主叫终端上运行的客户端100可以提供行字符图像对应的原始图像，该原始图像可以为需要进行字符识别的图像，通常该行字符图像为该原始图像的一部分。该原始图像可以为用户拍摄得到的图像，或者，该原始图像可以为用户通过应用程序接收到的图像，或者，该原始图像可以为用户下载得到的图像等，可以理解，本发明实施例对于具体的原始图像不加以限制。

客户端100可以获取该原始图像对应的行字符识别结果。根据一种实施例，客户端100可以向服务器200发送该原始图像，以使服务器200通过执行本发明实施例的字符识别方法获取该原始图像对应的行字符识别结果，并接收服务器200返回的该原始图像对应的行字符识别结果。根据另一种实施例，客户端100可以通过执行本发明实施例的字符识别方法，获取该原始图像对应的行字符识别结果。可以理解，本发明实施例对于执行本发明实施例的字符识别方法对应的具体执行主体不加以限制。

方法实施例

参照图2，示出了本发明的一种字符识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201、针对包含行字符的行字符图像，进行尺寸归一化；

步骤202、利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；

步骤203、利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

步骤201中，行字符图像可以为依据原始图像得到。例如，可以利用二值化、连通域分析、投影分析等方式，对该原始图像进行行分割，以得到包行含字符的行字符图像。又如，可以对该原始图像进行文字检测和行生成，以得到包含行字符的行字符图像。本发明实施例对于依据原始图像得到行字符图像的具体过程不加以限制。

步骤201中，尺寸归一化可以使得归一化后的行字符图像具有归一化的尺寸，在此情况下利用卷积神经网络对归一化后的行字符图像进行特征提取，可以实现对于所述归一化后的行字符图像对应的特征信息的维度控制。

在实际应用中，利用卷积神经网络对归一化后的行字符图像进行特征提取的过程中通常包括下采样处理。例如，卷积神经网络中的池化层对应的处理可以包括下采样处理。该池化层可以包括最大池化模块，该最大池化模块可以将输入图像分割为若干个同样大小的小块，根据每个小块内的像素值实现小块的选择，进而实现输入图像的下采样，例如，输入图像的小块数目为H×W，输出图像的小块数目为H/k×W/k等，k通常为2的倍数，如2、或4或8等。最大池化模块可以提高变换的不变性，减少参数防止过拟合。

考虑到利用卷积神经网络对归一化后的行字符图像进行特征提取的过程中包括下采样处理，本发明实施例中，所述归一化后的行字符图像可以对应有第一尺寸，所述第一尺寸可以包括高度尺寸，所述高度尺寸对应的像素值可以为偶数，可选地，所述高度尺寸对应的像素值能够被2、或4或8整除。进一步可选地，所述高度尺寸对应的像素值范围可以为40～64像素。例如，该高度尺寸对应的像素值可以为56。可以理解，本领域技术人员可以对本发明实施例的字符识别方法进行测试，得到最优的高度尺寸，本发明实施例对于具体的高度尺寸不加以限制。需要说明的是，步骤201中的尺寸归一化过程中，高度和宽度可以被等比例归一化，例如，行字符图像的高度和宽度分别为H1和W1，假设归一化后的行字符图像的高度尺寸为56，则归一化后的行字符图像的宽度尺寸可以为W1*(56/H1)，可以理解，本发明实施例对于具体的尺寸归一化过程不加以限制。

步骤202中，CNN(卷积神经网络，Convolutional Neural Networks)是一种前馈神经网络，卷积神经网络是受生物学上感受野的机制而提出的。可选地，CNN可以包括：卷积层和池化层，其中，卷积层可用于根据多个一定的权重(即卷积核)，对一个图像块的像素进行内积运算，其输出就是提取的特征之一；池化层可以提高变换的不变性，减少参数防止过拟合。

本发明实施例中，步骤202中CNN的特征提取过程相当于沿水平方向形成若干切片，每个切片对应有特征，步骤203中可以通过利用双向长短期记忆神经网络学习得到每个切片对应的上下文特征，并确定每个切片对应的字符。

在本发明的一种可选实施例中，上述卷积神经网络可以包括：P个相互连接的开端(Inception，Inception为神经网络领域中的概念)层，P个开端层中的至少一个可以包括：卷积核和池化模块，上一所述开端层的输出可以为下一所述开端层的输入；其中，P为大于1的自然数。上述开端层可以在增加网络深度和宽度的同时，减少参数，因此可以避免参数的过拟合。作为一种示例，第一个开端层可以包括多个卷积层，其中，不同的卷积核可用于提取不同的特征，如第一卷积核用于提取颜色分布特征，第二卷积核用于提取文理特征，第三卷积核用于提取边界特征、角点特征等；第一个开端层提取的特征经过后面的开端层，可以得到表达能力更强的特征。

参照图3，示出了本发明实施例的一种开端层的结构示意，其输入可以为上一开端层的输出，其具体可以包括相互串联的如下结构：1×1卷积核、1×1卷积核和3×3卷积核、1×1卷积核和5×5卷积核、3×3的最大池化模块和1×1卷积核。其中，在3×3卷积核和5×5卷积核前、以及最大池化模块后分别加上了1×1卷积核，可以起到了降低特征维度的作用。可以理解，图3所示开端层的结构只是作为示例，实际上本领域技术人员可以根据实际应用需求，在开端层中设置任意数目和大小卷积核，例如，3×3卷积核可以被1×3卷积核和3×1卷积核来替代等等，可以理解，本发明实施例对于开端层的具体结构不加以限制。

需要说明的是，上述池化模块为可选的模块，P个开端层中的某些开端层中可以不包括池化模块，而仅仅包括卷积核，可以理解，本发明实施例对于开端层的具体结构不加以限制。

在本发明的另一种可选实施例中，所述步骤202利用卷积神经网络对归一化后的行字符图像进行特征提取的过程，可以包括：利用卷积神经网络对归一化后的行字符图像进行特征提取，得到N个特征图；N为大于1的自然数；对所述N个特征图按列拼接，以得到所述归一化后的行字符图像对应的特征信息。对所述N个特征图按列拼接，得到的特征信息可以作为输入进入双向长短期记忆神经网络，可以实现CNN和双向长短期记忆神经网络之间的无缝接入。可选地，上述卷积神经网络可以包括：多个相互连接的开端层，最后一个开端层可以输出N个特征图。

上述特征图可以为矩阵，拼接后的特征图(简称目标特征图)可以为矩阵，上述对所述N个特征图按列拼接的过程，可以包括：按照特征图的列标识，对列标识相同的列进行拼接，拼接后的特征图的一个列可被作为一个LSTM(长短期记忆网络，Long Short-TermMemory)时刻的长短期记忆神经网络序列、输入至双向长短期记忆神经网络；其中，一个LSTM时刻可以对应一个切片，上述按列拼接可以保持特征图的行元素之间的有序性，因此可以保持特征图所包括切片之间的有序性。

在本发明的一种应用示例中，假设特征图的高度和宽度分别为H2和W2，假设特征图包括W2个列，则可以按照列标识，对列标识相同的列进行拼接，拼接后的特征图的高度和宽度分别为H2*Q和W2，其中，Q为需要拼接的特征图的数量。参照图4所示，假设特征图为2×2的矩阵，特征图的数量为A(A为自然数)，A个特征图的拼接结果可以为2A×2的矩阵，2A×2的矩阵中的一个列可以对应一个LSTM时刻的输入；图中，特征图i表示第i个特征图，i为自然数。

可选地，所述归一化后的行字符图像对应有第一尺寸，所述特征图对应有第二尺寸，所述第一尺寸对于所述第二尺寸的比值范围可以为4～8，其中，所述第一尺寸对于所述第二尺寸的比值可由池化层的下采样率确定，例如，下采样率为2则该比值可以为2，本发明实施例对于所述第一尺寸对于所述第二尺寸的具体比值不加以限制。

在本发明的一种应用示例中，可以对行字符图像进行尺寸归一化，例如，将高度归一化到56，宽度归一化到对应的比例；归一化后的行字符图像经过11层的开端层，11层的开端层组成全卷积神经网络对归一化后的行字符图像进行特征抽取得到特征图，每个行字符图像得到Q个对应的特征图，每个特征图的尺寸为归一化后的行字符图像的尺寸的八分之一，假设归一化后的行字符图像的尺寸为56*W，每个特征图的尺寸为7*(w/8)，将Q个特征图按列拼接，得到7*Q维的目标特征图，该目标特征图大小为7*Q*(w/8)，将该目标特征图以列为单位输入双向长短期记忆神经网络中，则共有(w/8)个LSTM时刻的长短期记忆神经网络序列。其中，Q为自然数，Q的数值可由全卷积神经网络的结构确定，Q的例子可以包括42等，本发明实施例对于Q的具体数值不加以限制。

LSTM是一种时间递归神经网络。本发明实施例的字符识别问题是按时序或者一定顺序排列的，而神经网络的隐藏层编码着重要的信息，故LSTM可以将这些隐藏层作为从一个时间步传递到另一个时间步的记忆；并且，LSTM可以选择哪些信息值得记住，哪些信息需要丢弃，进而学习如何收集、修正和应用信息。

在本发明的一种可选实施例中，所述双向长短期记忆神经网络可以包括：M个双向长短期记忆神经网络层；所述M个双向长短期记忆神经网络层可以对时间态的特征信息进行处理，上一所述双向长短期记忆神经网络层的输出可以为下一所述双向长短期记忆神经网络层的输入。

可选地，上述双向长短期记忆神经网络层可以包括：多个LSTM单元，在tLSTM时刻，LSTM单元的输入可以包括：当前LSTM时刻网络的输入值、上一LSTM时刻LSTM单元的输出值、以及上一LSTM时刻的单元状态；LSTM单元的输出可以包括：当前LSTM时刻LSTM单元的输出值、和当前LSTM时刻的单元状态。LSTM单元的输入和输出均可以为向量。

可选地，所述双向长短期记忆神经网络还可以包括：全链接层；所述全链接层可以依据最后一个双向长短期记忆神经网络层将输出的特征，得到所述行字符图像对应字符的概率，并依据所述概率得到所述行字符图像对应的行字符识别结果。

在本发明的一种应用示例中，两个双向LSTM最终输出特征为两个256维特征的拼接也即512维特征，512维特征经过全链接结点个数为CharNum的全链接层，全链接层的权重为512*CharNum的矩阵，每个512维特征与该矩阵相乘，输出CharNum个概率，该概率可用于表征切片到字符的概率(例如，某个切片到字符“8”或者“9”的概率等)；对上述CharNum个概率进行融合，可以得到所述行字符图像对应的行字符识别结果，例如，可以针对一个切片，可以对上述CharNum个概率进行融合以得到对应的融合概率，进一步，可以选择融合概率最大的字符，作为该切片对应的字符；所述行字符识别结果可以包括：按序排列的切片对应的字符。

参照图5，示出了本发明实施例的一种双向长短期记忆神经网络的结构示意图，其具体可以包括：2个双向LSTM层和全链接层503，其中，2个双向LSTM层可以包括：第一双向LSTM层501和第二双向LSTM层502。

第一双向LSTM层501可以接收各LSTM时刻的特征信息(如x₀、x₁、x₂、x₃…x_n)，并针对各LSTM时刻的特征信息设置对应的第一正向LSTM单元和第一负向LSTM单元，第一正向LSTM单元和第一负向LSTM单元对应的第一输出特征被连接(例如拼接)，连接后的第一输出特征被输出至第二双向LSTM层502。对于不同的第一正向LSTM单元或者不同的第一负向LSTM单元而言，其可以按照时序连接。在tLSTM时刻，第一正向LSTM单元的输入可以包括：当前LSTM时刻网络的输入值、上一LSTM时刻((t-1)LSTM时刻)第一正向LSTM单元的输出值、以及上一LSTM时刻的单元状态；第一正向LSTM单元的输出可以包括：当前LSTM时刻第一正向LSTM单元的输出值、和当前LSTM时刻的单元状态。最后一个LSTM时刻的第一正向LSTM单元可以连接最后一个LSTM时刻的第一负向LSTM单元，在tLSTM时刻，第一负向LSTM单元的输入可以包括：当前LSTM时刻网络的输入值、下一LSTM时刻((t+1)LSTM时刻)第一负向LSTM单元的输出值、以及下一LSTM时刻的单元状态；第一负向LSTM单元的输出可以包括：当前LSTM时刻第一负向LSTM单元的输出值、和当前LSTM时刻的单元状态。

第二双向LSTM层502可以接收各LSTM时刻的第一输出特征，并通过针对各LSTM时刻的特征信息设置对应的第二正向LSTM单元和第二负向LSTM单元，第二正向LSTM单元和第二负向LSTM单元对应的第二输出特征被连接(例如拼接)，连接后的第二输出特征被输出至全链接层503。对于第二双向LSTM层502的工作过程而言，由于其与第一双向LSTM层501的工作过程类似，在此不作赘述，相互参照即可。

全链接层503可用于进行上述第二输出特征到字符类别的映射。作为全链接层503的输入，上述第二输出特征通常为高度抽象特征，全链接层503可以对上述第二输出特征进行投票，以得到上述输出特征到字符的概率。其中的字符可以依据预设字符范围得到，例如，字符的类别可以包括但不限于：字母类别、汉字类别、数字类别、英文单词类别等。

综上，本发明实施例的字符识别方法，利用卷积神经网络将归一化后的行字符图像进行空间上的保序压缩，由于卷积的感受野会相互重叠，故可以使得到的特征信息包含一定的上下文特征；接下来，可以通过双向长短期记忆神经网络对所述特征信息包含的上下文特征进行学习，并依据学习得到的上下文特征得到所述行字符图像对应的行字符识别结果。由于上述特征信息具有保序性，利用双向长短期记忆神经网络对所述特征信息进行字符识别的过程也具有保序性，故可以利用该行字符图像所对应字符序列的上下文特征确定字符序列中字符之间的边界，提高行字符识别结果的精确度。本发明实施例可以识别分割比较困难的字符序列，如复杂的艺术体字符或者潦草的手写体字符等。

本发明实施例针对包含字符的行字符图像进行尺寸归一化，可以使得归一化后的行字符图像具有归一化的尺寸，在此情况下利用卷积神经网络对归一化后的行字符图像进行特征提取，可以实现对于所述归一化后的行字符图像对应的特征信息的维度控制，进而可以实现行字符识别结果的精确度和运算量的折中。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图6，示出了本发明的一种字符识别装置实施例的结构框图，具体可以包括：

归一化模块601，用于针对包含行字符的行字符图像，进行尺寸归一化；

特征提取模块602，用于利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；以及

字符识别模块603，用于利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

可选地，所述卷积神经网络可以包括：P个相互连接的开端层，所述P个开端层中的至少一个可以包括：卷积核和池化模块，上一所述开端层的输出为下一所述开端层的输入；P为大于1的自然数。

可选地，所述特征提取模块602可以包括：

可选地，所述双向长短期记忆神经网络可以包括：M个双向长短期记忆神经网络层，M为自然数；

可选地，所述双向长短期记忆神经网络还可以包括：全链接层；

可选地，所述归一化后的行字符图像对应有第一尺寸，所述第一尺寸可以包括高度尺寸，所述高度尺寸对应的像素值可以为偶数。

可选地，所述高度尺寸对应的像素值范围可以为40～64像素。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种用于字符识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：针对包含行字符的行字符图像，进行尺寸归一化；利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

可选地，所述双向长短期记忆神经网络还包括：全链接层；

可选地，所述高度尺寸对应的像素值范围为40～64像素。

图7是根据一示例性实施例示出的一种用于字符识别的装置作为终端时的框图。例如，终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是根据一示例性实施例示出的一种用于字符识别的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行图1至图5所示的字符识别方法，所述方法包括：针对包含行字符的行字符图像，进行尺寸归一化；利用卷积神经网络对归一化后的行字符图像进行特征提取，以得到所述归一化后的行字符图像对应的特征信息；利用双向长短期记忆神经网络，对所述特征信息进行字符识别，以得到所述行字符图像对应的行字符识别结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种字符识别方法、一种字符识别装置、一种用于字符识别的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种字符识别方法，其特征在于，所述方法包括：

针对包含行字符的行字符图像，进行尺寸归一化；

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括：P个相互连接的开端层，所述P个开端层中的至少一个包括：卷积核和池化模块，上一所述开端层的输出为下一所述开端层的输入；P为大于1的自然数。

3.根据权利要求1或2所述的方法，其特征在于，所述利用卷积神经网络对归一化后的行字符图像进行特征提取，包括：

4.根据权利要求3所述的方法，其特征在于，所述归一化后的行字符图像对应有第一尺寸，所述特征图对应有第二尺寸，所述第一尺寸对于所述第二尺寸的比值范围为4～8。

5.根据权利要求1或2所述的方法，其特征在于，所述双向长短期记忆神经网络包括：M个双向长短期记忆神经网络层，M为自然数；

6.根据权利要求5所述的方法，其特征在于，所述双向长短期记忆神经网络还包括：全链接层；

7.根据权利要求1或2所述的方法，其特征在于，所述归一化后的行字符图像对应有第一尺寸，所述第一尺寸包括高度尺寸，所述高度尺寸对应的像素值为偶数。

8.根据权利要求7所述的方法，其特征在于，所述高度尺寸对应的像素值范围为40～64像素。

9.一种字符识别装置，其特征在于，包括：

10.一种用于字符识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

针对包含行字符的行字符图像，进行尺寸归一化；

11.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至8中一个或多个所述的字符识别方法。