CN107527059A

CN107527059A - 文字识别方法、装置及终端

Info

Publication number: CN107527059A
Application number: CN201710667029.9A
Authority: CN
Inventors: 杨松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-12-29
Anticipated expiration: 2037-08-07
Also published as: CN107527059B

Abstract

本公开是关于一种文字识别方法、装置及终端，其中该方法包括：对待识别图像进行特征提取处理，得到待识别图像的特征图，特征图包括待识别图像的特征信息；根据待识别图像的特征信息，生成一个特征序列；对特征序列进行编码处理，得到编码处理后的特征序列，编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出待识别图像中的所有文字：根据预设的权重向量，对编码处理后的特征序列进行加权处理，得到特征向量；对特征向量进行解码处理，生成一个文字的识别结果；每一次加权处理中的权重向量是不同的。完成对图像的文字区域整体的识别，避免了单字切割时产生的误差和错误；准确的识别出每一个文字，识别率较高。

Description

文字识别方法、装置及终端

技术领域

本公开涉及图像处理技术领域，尤其涉及文字识别方法、装置及终端。

背景技术

在获取到图像之后，通常需要对图像中的文字进行识别。现在普遍使用光学字符识别(Optical Character Recognition，简称OCR)文字识别方法对图像中的文字进行识别。

相关技术中，OCR文字识别方法分为文字行分割、单字分割、单字识别、语言模型解码等流程，对一张图像进行行分割之后，进行单个字的分割，然后对分割得到的单个字同时进行单字识别，最后进行语言模型解码。

然而相关技术中，现有的OCR文字识别方法中对一个字一个字的切割，然后分别对每一个字同时进行识别，一旦单字切割出现切割错误，则单字识别就错了，并且也影响到了其他的单个字的识别。从而，现有技术中提供的对图像中的文字进行识别的方法，并不准确，容易出现错误，识别率较低。

发明内容

为克服相关技术中存在的对图像中的文字进行识别的方法，并不准确，容易出现错误，识别率较低的问题，本公开提供一种文字识别方法、装置及终端。

根据本公开实施例的第一方面，提供一种文字识别方法，包括：

对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息；

根据所述待识别图像的特征信息，生成一个特征序列；

对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量；

重复执行以下过程，直至识别出所述待识别图像中的所有文字：根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；对所述特征向量进行解码处理，生成一个文字的识别结果；

其中，每一次所述加权处理中的所述权重向量是不同的。

进一步地，所述对所述特征向量进行解码处理，生成一个文字的识别结果，包括：

采用循环神经网络对所述特征向量进行解码处理，生成一个文字的识别结果。

进一步地，在所述根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量之前，还包括：

针对每一个所述第一特征信息向量，根据所述循环神经网络的当前的状态值向量、以及一个所述第一特征信息向量，确定一个中间参数；其中，所述当前的状态值向量为所述循环神经网络识别出前一个文字之后生成的，并且在对所述待识别图像进行第一次识别时，所述当前的状态值向量内各数值的取值为预设数值；

对所有的所述中间参数分别进行归一化处理，得到所述权重向量，所述权重向量包括所有的归一化处理后的中间参数。

进一步地，第i个所述中间参数为其中，U为采用所述循环神经网络对文字图像样本集进行训练学习之后得到的第一矩阵，V为所述训练学习之后得到的第二矩阵，w^T为所述训练学习之后得到的第一向量，为所述训练学习之后得到的第二向量，h为所述当前的状态值向量，f_i′为所述编码处理后的特征序列中的第i个第一特征信息向量，i为正整数，i∈[1,x]，x为所述编码处理后的特征序列中的第一特征信息向量的个数。

进一步地，第i个所述归一化处理后的中间参数为

进一步地，所述特征向量

进一步地，所述根据所述待识别图像的特征信息，生成一个特征序列，包括：

在所述特征图的宽度的方向上，对所述特征图进行切分，得到至少一个特征子图，其中，一个所述特征子图包括一个特征子图的所述特征信息；

根据每一个所述特征子图的所述特征信息，分别生成每一个所述特征子图的第二特征信息向量；

根据所有所述特征子图的第二特征信息向量，生成所述特征序列。

进一步地，每一个所述第二特征信息向量的维度为y*z，其中，y为所述特征图的高度，z为所述特征图的图像通道个数；

所述特征序列中的第二特征信息向量的个数为x，且x为所述特征图的宽度。

进一步地，每一个所述第一特征信息向量的维度为256。

进一步地，在所述对待识别图像进行特征提取处理，得到所述待识别图像的特征图之前，还包括：

对所述待识别图像进行缩放处理，得到缩放处理后的待识别图像。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对待识别图像进行特征提取处理，得到待识别图像的特征图，其中，特征图包括待识别图像的特征信息；根据待识别图像的特征信息，生成一个特征序列；对特征序列进行编码处理，得到编码处理后的特征序列，编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出待识别图像中的所有文字：根据预设的权重向量，对编码处理后的特征序列进行加权处理，得到特征向量；对特征向量进行解码处理，生成一个文字的识别结果；其中，每一次加权处理中的权重向量是不同的。从而提供了一种可以识别图像中的文字的文字识别方法，可以对待识别图像进行一个文字一个文字的识别；在对每一个文字进行识别的时候，对表征了待识别图像所有特征的编码处理后的特征序列，采用不同的加权向量进行加权处理，进而对每一个文字进行识别时可以关注当前文字的特征，然后对特征向量进行解码处理，生成一个文字的识别结果。利用表征了待识别图像所有特征的编码处理后的特征序列，对待识别图像进行一个文字一个文字的识别，可以完成对图像的文字区域整体的识别，从而避免对单个文字的切割，进而避免了单字切割时产生的误差和错误，进而避免了现有技术中不同步骤之间的累积误差；并且由于在对每一个文字进行识别的时候，对表征了待识别图像所有特征的编码处理后的特征序列，采用不同的加权向量进行加权处理，进而对每一个文字进行识别时可以关注当前文字的特征，进而可以准确的识别出每一个文字；本申请提供的方法可以准确的识别出图像中的文字，不易出现识别错误和误差，识别率较高。

根据本公开实施例的第二方面，提供一种文字识别装置，包括：

特征提取模块，被配置为对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息；

生成模块，被配置为根据所述待识别图像的特征信息，生成一个特征序列；

编码模块，被配置为对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量；

识别模块，被配置为重复执行以下各子模块，直至识别出所述待识别图像中的所有文字：加权子模块，被配置为根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；解码子模块，被配置为对所述特征向量进行解码处理，生成一个文字的识别结果；其中，每一次所述加权处理中的所述权重向量是不同的。

进一步地，所述解码子模块，被具体配置为：

进一步地，所述识别模块，还包括：

确定子模块，被配置为在所述加权子模块根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量之前，针对每一个所述第一特征信息向量，根据所述循环神经网络的当前的状态值向量、以及一个所述第一特征信息向量，确定一个中间参数；其中，所述当前的状态值向量为所述循环神经网络识别出前一个文字之后生成的，并且在对所述待识别图像进行第一次识别时，所述当前的状态值向量内各数值的取值为预设数值；对所有的所述中间参数分别进行归一化处理，得到所述权重向量，所述权重向量包括所有的归一化处理后的中间参数。

进一步地，第i个所述中间参数为其中，U为采用所述循环神经网络对文字图像样本集进行训练学习之后得到的第一矩阵，V为所述训练学习之后得到的第二矩阵，w^T为所述训练学习之后得到的第一向量，为所述训练学习之后得到的第二向量，h为所述当前的状态值向量，f′_i为所述编码处理后的特征序列中的第i个第一特征信息向量，i为正整数，i∈[1,x]，x为所述编码处理后的特征序列中的第一特征信息向量的个数。

进一步地，第i个所述归一化处理后的中间参数为

进一步地，所述特征向量

进一步地，所述生成模块，包括：

切分子模块，被配置为在所述特征图的宽度的方向上，对所述特征图进行切分，得到至少一个特征子图，其中，一个所述特征子图包括一个特征子图的所述特征信息；

第一生成子模块，被配置为根据每一个所述特征子图的所述特征信息，分别生成每一个所述特征子图的第二特征信息向量；

第二生成子模块，被配置为根据所有所述特征子图的第二特征信息向量，生成所述特征序列。

进一步地，一个所述第二特征信息向量的维度为y*z，其中，y为所述特征图的高度，z为所述特征图的图像通道个数；

进一步地，每一个所述第一特征信息向量的维度为256。

进一步地，所述装置，还包括：

缩放模块，被配置为在所述特征提取模块对待识别图像进行特征提取处理，得到所述待识别图像的特征图之前，对所述待识别图像进行缩放处理，得到缩放处理后的待识别图像。

根据本公开实施例的第三方面，提供一种终端，包括：

处理器，以及用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息；根据所述待识别图像的特征信息，生成一个特征序列；对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出所述待识别图像中的所有文字：根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；对所述特征向量进行解码处理，生成一个文字的识别结果；其中，每一次所述加权处理中的所述权重向量是不同的。

根据本公开实施例的第四方面，提供一种程序，该程序在被处理器执行时用于执行以上第一方面的任一方法。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，包括第四方面的程序。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种文字识别方法实施例一的流程图；

图2是根据一示例性实施例示出的一种文字识别方法实施例二的流程图；

图3是根据一示例性实施例示出的一种文字识别装置实施例三的框图；

图4是根据一示例性实施例示出的一种文字识别装置实施例四的框图；

图5是根据一示例性实施例示出的一种终端的实体的框图；

图6是根据一示例性实施例示出的一种终端设备800的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文字识别方法实施例一的流程图，如图1所示，文字识别方法用于终端中，该终端包括公共终端、移动终端、个人终端等等，该方法包括以下步骤。

在步骤S11中，对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息。

在本步骤中，得到了一幅图像之后，该图像中具有文字，需要对图像中的文字区域中的文字进行识别。首先采用卷积神经网络(Convolutional Neural Network，简称CNN)对待识别图像进行特征提取处理，生成待识别图像的特征图，并且，特征图中包括了提取出的待识别图像的特征信息。特征信息，例如有坐标信息、特征码等等。

在步骤S12中，根据所述待识别图像的特征信息，生成一个特征序列。

在本步骤中，由于可以按照待识别图像的宽度方向，对待识别图像的特征信息进行排列，进而生成一个特征序列。

在步骤S13中，对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量。

在本步骤中，采用长短期记忆网络(Long Short-Term Memory，简称LSTM)编码器对特征序列进行编码处理，得到编码处理后的特征序列。在编码处理后的特征序列中包括了多个第一特征信息向量。

在步骤S14中，重复执行以下过程，直至识别出所述待识别图像中的所有文字：根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；对所述特征向量进行解码处理，生成一个文字的识别结果；其中，每一次所述加权处理中的所述权重向量是不同的。

在本步骤中，首先，采用预设的权重向量，对编码处理后的特征序列进行加权处理，得到一个特征向量，然后对特征向量进行解码处理，进而生成一个文字的识别结果，这个时候识别出了第一个文字；然后，再采用另外一个预设的权重向量，对编码处理后的特征序列进行加权处理，得到另一个特征向量，然后对该另一个特征向量进行解码处理，进而生成一个文字的识别结果，这个时候识别出了第二个文字；以此类推，直至识别出待识别图像中的所有文字。可知，对每一个文字进行识别的时候，采用的权重向量是不同的；并且，对每一个文字进行识别的时候，采用的权重向量是关注当前文字的特征的。

本实施例通过对待识别图像进行特征提取处理，得到待识别图像的特征图，其中，特征图包括待识别图像的特征信息；根据待识别图像的特征信息，生成一个特征序列；对特征序列进行编码处理，得到编码处理后的特征序列，编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出待识别图像中的所有文字：根据预设的权重向量，对编码处理后的特征序列进行加权处理，得到特征向量；对特征向量进行解码处理，生成一个文字的识别结果；其中，每一次加权处理中的权重向量是不同的。从而提供了一种可以识别图像中的文字的文字识别方法，可以对待识别图像进行一个文字一个文字的识别；在对每一个文字进行识别的时候，对表征了待识别图像所有特征的编码处理后的特征序列，采用不同的加权向量进行加权处理，进而对每一个文字进行识别时可以关注当前文字的特征，然后对特征向量进行解码处理，生成一个文字的识别结果。利用表征了待识别图像所有特征的编码处理后的特征序列，对待识别图像进行一个文字一个文字的识别，可以完成对图像的文字区域整体的识别，从而避免对单个文字的切割，进而避免了单字切割时产生的误差和错误，进而避免了现有技术中不同步骤之间的累积误差；并且由于在对每一个文字进行识别的时候，对表征了待识别图像所有特征的编码处理后的特征序列，采用不同的加权向量进行加权处理，进而对每一个文字进行识别时可以关注当前文字的特征，进而可以准确的识别出每一个文字；本申请提供的方法可以准确的识别出图像中的文字，不易出现识别错误和误差，识别率较高。

图2是根据一示例性实施例示出的一种文字识别方法实施例二的流程图，如图2所示，文字识别方法用于终端中，该终端包括公共终端、移动终端、个人终端等等，该方法包括以下步骤。

在步骤S21中，对所述待识别图像进行缩放处理，得到缩放处理后的待识别图像。

在本步骤中，得到了一幅图像之后，该图像中具有文字，需要对图像中的文字区域中的文字进行识别。在待识别图像的大小较大的时候，为了减少计算量，需要将待识别图像进行缩小；在待识别图像的大小较小的时候，为了提高识别精度，需要将待识别图像进行放大；进而需要对待识别图像进行缩放处理。例如，可以将待识别图像的高度缩放到32像素，同时将待识别图像的宽度按照高度的缩放比例进行缩放，待识别图像的缩放后的宽度为p，进而缩放处理后的待识别图像的尺寸为p×32，记缩放处理后的待识别图像为I。

在步骤S22中，对缩放处理后的待识别图像进行特征提取处理，得到所述缩放处理后的待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息。

在本步骤中，采用卷积神经网络(Convolutional Neural Network，简称CNN)对缩放处理后的待识别图像，进行特征提取处理，生成缩放处理后的待识别图像的特征图F，并且，特征图F中包括了提取出的待识别图像的特征信息。特征信息，例如有坐标信息、特征码等等。特征图F的尺寸为x*y*z，y为特征图的高度，x为特征图的宽度，z为特征图的图像通道个数。

在步骤S23中，在所述特征图的宽度的方向上，对所述特征图进行切分，得到至少一个特征子图，其中，一个所述特征子图包括一个特征子图的所述特征信息；根据每一个所述特征子图的所述特征信息，分别生成每一个所述特征子图的第二特征信息向量；根据所有所述特征子图的第二特征信息向量，生成所述特征序列。

可选一种实现方式中，每一个所述第二特征信息向量的维度为y*z，其中，y为所述特征图的高度，z为所述特征图的图像通道个数；所述特征序列中的第二特征信息向量的个数为x，且x为所述特征图的宽度。

在本步骤中，将特征图按列进行切分，即在特征图的宽度的方向上对所述特征图进行切分，进而得到x个特征子图；每一个特征子图包括当前特征子图的特征信息。然后，根据根据每一个特征子图的所述特征信息，分别得到每一个特征子图的第二特征信息向量f_i，其中，i为正整数，i∈[1,x]。

所有的特征子图的第二特征信息向量，生成构成了特征序列F_s＝{f₁,f₂,...,f_i,...,f_x}。可知，特征序列F_s中的第二特征信息向量的个数为x，且x也是特征图的宽度。每一个第二特征信息向量f_i的维度为y*z，其中，y为特征图的高度，z为特征图的图像通道个数。

在步骤S24中，对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量。

可选一种实现方式中，每一个所述第一特征信息向量的维度为256。

在本步骤中，采用LSTM编码器对特征序列进行编码处理，得到编码处理后的特征序列F_encoder＝{f′₁,f′₂,...,f′_i...,f′_x}；在编码处理后的特征序列F_encoder中包括了x个第一特征信息向量f′_i。可知，编码处理后的特征序列F_encoder的序列长度为x。并且，每个第一特征信息向量f′_i的维度为256。

其中，LSTM是一种循环神经网络(Recurrent Neural Networks，简称RNN)模型。

在步骤S25中，重复执行以下过程，直至识别出所述待识别图像中的所有文字：针对每一个所述第一特征信息向量，根据所述循环神经网络的当前的状态值向量、以及一个所述第一特征信息向量，确定一个中间参数；对所有的所述中间参数分别进行归一化处理，得到所述权重向量，所述权重向量包括所有的归一化处理后的中间参数；根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；采用循环神经网络对所述特征向量进行解码处理，生成一个文字的识别结果；

其中，所述当前的状态值向量为所述循环神经网络识别出前一个文字之后生成的，并且在对所述待识别图像进行第一次识别时，所述当前的状态值向量内各数值的取值为预设数值；每一次所述加权处理中的所述权重向量是不同的。

第i个所述中间参数为其中，U为采用所述循环神经网络对文字图像样本集进行训练学习之后得到的第一矩阵，V为所述训练学习之后得到的第二矩阵，w^T为所述训练学习之后得到的第一向量，为所述训练学习之后得到的第二向量，h为所述当前的状态值向量，f′_i为所述编码处理后的特征序列中的第i个第一特征信息向量，i为正整数，i∈[1,x]，x为所述编码处理后的特征序列中的第一特征信息向量的个数。

第i个所述归一化处理后的中间参数为所述特征向量

在本步骤中，将编码处理后的特征序列输入到GRU(Gated Rucurrent Unit，简称GRU)解码器中，其中，GRU是一种RNN模型；由于GRU解码器是一个循环神经网络，循环神经网络的一次循环只能识别出一个文字，所以在循环神经网络的每一次循环进行识别的过程中，只需要关注编码处理后的特征序列中的当前待识别的一个文字的重要特征，就可以识别出当前待识别的一个文字。本申请中，需要对GRU解码器的解码过程做出调整，去为编码处理后的特征序列进行加权处理，以使得对每一个文字进行识别时可以关注当前文字的特征。

具体来说，采用GRU解码器对文字图像样本集进行训练学习，文字图像样本集包括多个文字图像以及每一个文字图像的文字内容，经过训练学习可以得到成熟的GRU解码器，这时可以得到第一矩阵U、第二矩阵V、第一向量w^T、以及第二向量

然后，在第一次识别的时候，根据第一矩阵U、第二矩阵V、第一向量w^T、第二向量当前的状态值向量h、以及编码处理后的特征序列中的第一个第一特征信息向量f′₁，计算出一个中间参数其中，对待识别图像进行第一次识别时，当前的状态值向量h内各数值的取值为预设数值，例如预设数值为0；根据第一矩阵U、第二矩阵V、第一向量w^T、第二向量当前的状态值向量h、以及编码处理后的特征序列中的第二个第一特征信息向量f′₂，计算出一个中间参数以此类推，根据第一矩阵U、第二矩阵V、第一向量w^T、第二向量当前的状态值向量h、以及编码处理后的特征序列中的第i个第一特征信息向量f′_i，计算出一个中间参数进而在第一次识别的时候，首先得到所有的中间参数e₁、e₂、…..、e_i、…..、e_x；然后对每一个中间参数分别进行归一化处理，得到每一个归一化处理后的中间参数进而得到第一次识别时候需要的权重向量W＝{w₁,w₂,...,w_x}；然后，根据第一次识别时候需要的权重向量W＝{w₁,w₂,...,w_x}，对编码处理后的特征序列进行加权处理F_encoder＝{f′₁,f′₂,...,f′_i...,f′_x}，得到第一次识别时候的特征向量然后采用GRU解码器对第一次识别时候的特征向量进行解码处理，得到第一个文字的识别结果。在第二次识别的时候，循环神经网络识别出第一个文字之后生成了新的状态值向量h，根据第一矩阵U、第二矩阵V、第一向量w^T、第二向量当前的状态值向量h、以及编码处理后的特征序列中的第一个第一特征信息向量f′₁，计算出一个中间参数根据第一矩阵U、第二矩阵V、第一向量w^T、第二向量当前的状态值向量h、以及编码处理后的特征序列中的第二个第一特征信息向量f′₂，计算出一个中间参数以此类推，根据第一矩阵U、第二矩阵V、第一向量w^T、第二向量当前的状态值向量h、以及编码处理后的特征序列中的第i个第一特征信息向量f′_i，计算出一个中间参数进而在第二次识别的时候，首先得到所有的中间参数e₁、e₂、…..、e_i、…..、e_x；然后对每一个中间参数分别进行归一化处理，得到每一个归一化处理后的中间参数进而得到第二次识别时候需要的权重向量W＝{w₁,w₂,...,w_x}；然后，根据第二次识别时候需要的权重向量W＝{w₁,w₂,...,w_x}，对编码处理后的特征序列进行加权处理F_encoder＝{f′₁,f′₂,...,f′_i...,f′_x}，得到第二次识别时候的特征向量然后采用GRU解码器对第二次识别时候的特征向量进行解码处理，得到第二个文字的识别结果。以此类推，每一次识别的时候，都参照第二次识别的时候的过程，进而识别出所有的文字。并且，GRU解码器虽然一次只解码一个文字，但每次输入的编码处理后的特征序列包含待识别图像的全局信息，并且GRU解码器每次识别时候都身材一个状态值向量，进而GRU解码器可以知道待识别图像是否识别完毕，在识别完毕的时候，GRU解码器可以输出结束符号。

举例来说，对待识别图像1进行识别，可以得到文字结果“全面运动和谐中国”；对待识别图像2进行识别，可以得到文字结果“119”。

本实施例通过对待识别图像进行特征提取处理，得到待识别图像的特征图，其中，特征图包括待识别图像的特征信息；根据待识别图像的特征信息，生成一个特征序列；对特征序列进行编码处理，得到编码处理后的特征序列，编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出待识别图像中的所有文字：针对每一个第一特征信息向量，根据循环神经网络的当前的状态值向量、以及一个第一特征信息向量，确定一个中间参数，其中，当前的状态值向量为循环神经网络识别出前一个文字之后生成的，并且在对待识别图像进行第一次识别时，当前的状态值向量内各数值的取值为预设数值；对所有的中间参数分别进行归一化处理，得到权重向量，权重向量包括所有的归一化处理后的中间参数；根据当前的权重向量，对编码处理后的特征序列进行加权处理，得到特征向量；对特征向量进行解码处理，生成一个文字的识别结果；其中，每一次加权处理中的权重向量是不同的。从而提供了一种可以识别图像中的文字的文字识别方法，可以对待识别图像进行一个文字一个文字的识别；在对每一个文字进行识别的时候，对表征了待识别图像所有特征的编码处理后的特征序列，采用不同的加权向量进行加权处理，进而对每一个文字进行识别时可以关注当前文字的特征，然后对特征向量进行解码处理，生成一个文字的识别结果。利用表征了待识别图像所有特征的编码处理后的特征序列，对待识别图像进行一个文字一个文字的识别，可以完成对图像的文字区域整体的识别，从而避免对单个文字的切割，进而避免了单字切割时产生的误差和错误，进而避免了现有技术中不同步骤之间的累积误差；并且由于在对每一个文字进行识别的时候，对表征了待识别图像所有特征的编码处理后的特征序列，采用不同的加权向量进行加权处理，进而对每一个文字进行识别时可以关注当前文字的特征，进而可以准确的识别出每一个文字；本申请提供的方法可以准确的识别出图像中的文字，不易出现识别错误和误差，识别率较高。

图3是根据一示例性实施例示出的一种文字识别装置实施例三的框图。参照图3，该装置包括：

特征提取模块31，被配置为对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息；

生成模块32，被配置为根据所述待识别图像的特征信息，生成一个特征序列；

编码模块33，被配置为对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量；

识别模块34，被配置为重复执行以下各子模块，直至识别出所述待识别图像中的所有文字：加权子模块341，被配置为根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；解码子模块342，被配置为对所述特征向量进行解码处理，生成一个文字的识别结果；其中，每一次所述加权处理中的所述权重向量是不同的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种文字识别装置实施例四的框图。在实施例三的基础上，参照图4，所述解码子模块342，被具体配置为：

所述识别模块34，还包括：

确定子模块343，被配置为在所述加权子模块341根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量之前，针对每一个所述第一特征信息向量，根据所述循环神经网络的当前的状态值向量、以及一个所述第一特征信息向量，确定一个中间参数；其中，所述当前的状态值向量为所述循环神经网络识别出前一个文字之后生成的，并且在对所述待识别图像进行第一次识别时，所述当前的状态值向量内各数值的取值为预设数值；对所有的所述中间参数分别进行归一化处理，得到所述权重向量，所述权重向量包括所有的归一化处理后的中间参数。

其中，第i个所述中间参数为其中，U为采用所述循环神经网络对文字图像样本集进行训练学习之后得到的第一矩阵，V为所述训练学习之后得到的第二矩阵，w^T为所述训练学习之后得到的第一向量，为所述训练学习之后得到的第二向量，h为所述当前的状态值向量，f′_i为所述编码处理后的特征序列中的第i个第一特征信息向量，i为正整数，i∈[1,x]，x为所述编码处理后的特征序列中的第一特征信息向量的个数。

第i个所述归一化处理后的中间参数为所述特征向量

所述生成模块32，包括：

切分子模块321，被配置为在所述特征图的宽度的方向上，对所述特征图进行切分，得到至少一个特征子图，其中，一个所述特征子图包括一个特征子图的所述特征信息；

第一生成子模块322，被配置为根据每一个所述特征子图的所述特征信息，分别生成每一个所述特征子图的第二特征信息向量；

第二生成子模块323，被配置为根据所有所述特征子图的第二特征信息向量，生成所述特征序列。

其中，每一个所述第二特征信息向量的维度为y*z，其中，y为所述特征图的高度，z为所述特征图的图像通道个数；所述特征序列中的第二特征信息向量的个数为x，且x为所述特征图的宽度。

每一个所述第一特征信息向量的维度为256。

本实施例提供的装置，还包括：

缩放模块41，被配置为在所述特征提取模块31对待识别图像进行特征提取处理，得到所述待识别图像的特征图之前，对所述待识别图像进行缩放处理，得到缩放处理后的待识别图像。

图5是根据一示例性实施例示出的一种终端的实体的框图。参照图5，该终端可以具体实现为：处理器51，以及被配置为存储处理器可执行指令的存储器52；

其中，所述处理器51被配置为：对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息；根据所述待识别图像的特征信息，生成一个特征序列；对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出所述待识别图像中的所有文字：根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；对所述特征向量进行解码处理，生成一个文字的识别结果；其中，每一次所述加权处理中的所述权重向量是不同的。

在上述实施例中，应理解，该处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。SIM卡也称为用户身份识别卡、智能卡，数字移动电话机必须装上此卡方能使用。即在电脑芯片上存储了数字移动电话客户的信息，加密的密钥以及用户的电话簿等内容。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

关于上述实施例中的终端，其中各个模块执行操作的具体方式已经在有关该方法和装置的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种终端设备800的框图。例如，终端设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，终端设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制终端设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在终端设备800的操作。这些数据的示例包括用于在终端设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为终端设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为终端设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述终端设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当终端设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当终端设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为终端设备800提供各个方面的状态评估。例如，传感器组件814可以检测到终端设备800的打开/关闭状态，组件的相对定位，例如所述组件为终端设备800的显示器和小键盘，传感器组件814还可以检测终端设备800或终端设备800一个组件的位置改变，用户与终端设备800接触的存在或不存在，终端设备800方位或加速/减速和终端设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于终端设备800和其他设备之间有线或无线方式的通信。终端设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由终端设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种文字识别方法，所述方法包括：

根据所述待识别图像的特征信息，生成一个特征序列；

其中，每一次所述加权处理中的所述权重向量是不同的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文字识别方法，其特征在于，包括：

根据所述待识别图像的特征信息，生成特征序列；

其中，每一次所述加权处理中的所述权重向量是不同的。

2.根据权利要求1所述的方法，其特征在于，所述对所述特征向量进行解码处理，生成一个文字的识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，在所述根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量之前，还包括：

针对每一个所述第一特征信息向量，根据所述循环神经网络的当前的状态值向量、以及所述第一特征信息向量，确定一个中间参数；其中，所述当前的状态值向量为所述循环神经网络识别出前一个文字之后生成的，并且在对所述待识别图像进行第一次识别时，所述当前的状态值向量内各数值的取值为预设数值；

4.根据权利要求3所述的方法，其特征在于，第i个所述中间参数为其中，U为采用所述循环神经网络对文字图像样本集进行训练学习之后得到的第一矩阵，V为所述训练学习之后得到的第二矩阵，w^T为所述训练学习之后得到的第一向量，为所述训练学习之后得到的第二向量，h为所述当前的状态值向量，f′_i为所述编码处理后的特征序列中的第i个第一特征信息向量，i为正整数，i∈[1,x]，x为所述编码处理后的特征序列中的第一特征信息向量的个数。

5.根据权利要求4所述的方法，其特征在于，第i个所述归一化处理后的中间参数为

6.根据权利要求5所述的方法，其特征在于，所述特征向量

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述待识别图像的特征信息，生成一个特征序列，包括：

8.根据权利要求7所述的方法，其特征在于，每一个所述第二特征信息向量的维度为y*z，其中，y为所述特征图的高度，z为所述特征图的图像通道个数；

9.根据权利要求1-6任一项所述的方法，其特征在于，每一个所述第一特征信息向量的维度为256。

10.根据权利要求1-6任一项所述的方法，其特征在于，在所述对待识别图像进行特征提取处理，得到所述待识别图像的特征图之前，还包括：

11.一种文字识别装置，其特征在于，包括：

生成模块，被配置为根据所述待识别图像的特征信息，生成特征序列；

12.根据权利要求11所述的装置，其特征在于，所述解码子模块，被具体配置为：

13.根据权利要求12所述的装置，其特征在于，所述识别模块，还包括：

确定子模块，被配置为在所述加权子模块根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量之前，针对每一个所述第一特征信息向量，根据所述循环神经网络的当前的状态值向量、以及所述第一特征信息向量，确定一个中间参数；其中，所述当前的状态值向量为所述循环神经网络识别出前一个文字之后生成的，并且在对所述待识别图像进行第一次识别时，所述当前的状态值向量内各数值的取值为预设数值；对所有的所述中间参数分别进行归一化处理，得到所述权重向量，所述权重向量包括所有的归一化处理后的中间参数。

14.根据权利要求13所述的装置，其特征在于，第i个所述中间参数为其中，U为采用所述循环神经网络对文字图像样本集进行训练学习之后得到的第一矩阵，V为所述训练学习之后得到的第二矩阵，w^T为所述训练学习之后得到的第一向量，为所述训练学习之后得到的第二向量，h为所述当前的状态值向量，f′_i为所述编码处理后的特征序列中的第i个第一特征信息向量，i为正整数，i∈[1,x]，x为所述编码处理后的特征序列中的第一特征信息向量的个数。

15.根据权利要求14所述的装置，其特征在于，第i个所述归一化处理后的中间参数为

16.根据权利要求15所述的装置，其特征在于，所述特征向量

17.根据权利要求11-16任一项所述的装置，其特征在于，所述生成模块，包括：

18.根据权利要求17所述的装置，其特征在于，每一个所述第二特征信息向量的维度为y*z，其中，y为所述特征图的高度，z为所述特征图的图像通道个数；

19.根据权利要求11-16任一项所述的装置，其特征在于，每一个所述第一特征信息向量的维度为256。

20.根据权利要求11-16任一项所述的装置，其特征在于，所述装置，还包括：

21.一种终端，其特征在于，包括：

处理器，以及用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：对待识别图像进行特征提取处理，得到所述待识别图像的特征图，其中，所述特征图包括所述待识别图像的特征信息；根据所述待识别图像的特征信息，生成特征序列；对所述特征序列进行编码处理，得到编码处理后的特征序列，所述编码处理后的特征序列中包括多个第一特征信息向量；重复执行以下过程，直至识别出所述待识别图像中的所有文字：根据预设的权重向量，对所述编码处理后的特征序列进行加权处理，得到特征向量；对所述特征向量进行解码处理，生成一个文字的识别结果；其中，每一次所述加权处理中的所述权重向量是不同的。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。