CN110084172A

CN110084172A - 文字识别方法、装置和电子设备

Info

Publication number: CN110084172A
Application number: CN201910327410.XA
Authority: CN
Inventors: 卢永晨
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-02
Anticipated expiration: 2039-04-23
Also published as: CN110084172B

Abstract

本公开公开了一种文字识别方法、装置和电子设备。其中，所述文字识别方法包括：从原始图像中获取包括文字的图像区域；从所述图像区域中提取文字的图像特征生成第一文字特征图像；将所述第一文字特征图像进行第一编码生成第一编码图像；将所述第一编码图像进行解码生成解码图像；将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；对所述融合特征图像中的图像特征进行分类以识别出所述文字。本公开通过将三个不同维度的特征图像进行融合，使用融合后的特征图像对文字进行识别，解决了现有技术中文字识别准确率无法进一步提升的技术问题。

Description

文字识别方法、装置和电子设备

技术领域

本公开涉及信息处理领域，特别是涉及一种文字识别方法、装置和电子设备。

背景技术

文字识别一般是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般来说，文字识别一般包括检测和识别两个过程，其中检测过程包括找到图像中包含文字的区域，识别过程包括识别所述文字区域中的文字。

传统的识别过程一般可以使用模板匹配或者特征提取比较特征的方法，但是这种方法通常会受文字的状态影响，比如文字的方向、光线的强度等等，导致识别的准确度和速度有限。近年来，还有使用全连接神经网络进行识别的方法，但是全连接神经网络无法识别文字的语义信息，导致识别准确度无法进一步提升。也有技术在识别过程中加入语义模型，但是加入语义模型之后，模型的训练速度变慢影响效率。

发明内容

根据本公开的一个方面，提供以下技术方案：

一种文字识别方法，包括：从原始图像中获取包括文字的图像区域；从所述图像区域中提取文字的图像特征生成第一文字特征图像；将所述第一文字特征图像进行第一编码生成第一编码图像；将所述第一编码图像进行解码生成解码图像；将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；对所述融合特征图像中的图像特征进行分类以识别出所述文字。

进一步的，所述从所述图像区域中提取文字的图像特征生成文字特征图像，包括：将所述图像区域输入卷积神经网络；通过所述卷积神经网络输出C*H*W大小的第一文字特征图像，其中C为第一文字特征图像的通道数，C≥1，H为第一文字特征图像的高度，H≥1，W为第一文字特征图像的宽度，W≥1。

进一步的，所述将所述第一文字特征图像进行第一编码生成第一编码图像，包括：将所述第一文字特征图像输入编码LSTM网络；所述编码LSTM网络输出所述第一编码图像。

进一步的，所述将所述第一编码图像进行解码生成解码图像，包括：将所述第一编码图像输入解码LSTM网络；所述解码LSTM网络输出解码图像。

进一步的，所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像，包括：将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像。

进一步的，所述将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像，包括：根据加权系数将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵进行加权相加，得到融合特征图像。

进一步的，在所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像之前，还包括：将所述第一文字特征图像、第一编码图像和解码图像变换为同一维度大小的图像。

进一步的，所述对所述融合特征图像中的图像特征进行分类以识别出所述文字，包括：将所述融合特征图像输入第一全连接网络；所述第一全连接网络输出融合特征图像中所包含的文字类别；根据所述文字类别识别出所述图像区域中的文字。

进一步的，所述根据所述文字类别识别出所述图像区域中的文字，包括：将识别为同一个文字类别的相邻的文字合并为同一个文字；将合并结果作为识别结果输出。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别模型的训练方法，包括：初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、编码LSTM网络、解码LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、编码LSTM网络、解码LSTM和全连接网络的参数；从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；将所述训练图像经过所述卷积神经网络输出第一文字特征图像；将所述第一文字特征图像输入所述编码LSTM网络输出第一编码图像；将所述第一编码图像输入所述解码LSTM网络输出解码图像；将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；将所述融合特征图像输入所述全连接网络输出所述训练图像中的文字类别；根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别方法，包括：获取原始图像，所述原始图像中包括文字；对所述原始图像进行预处理得到包括所述文字的图像区域；将所述图像区域输入由上述文字识别模型训练方法训练而得到的文字识别模型；所述文字识别模型输出所述文字的类型。

根据本公开的另一个方面，还提供以下技术方案：

一种文字识别装置，包括：图像区域识别模块，用于从原始图像中获取包括文字的图像区域；文字特征图像生成模块，用于从所述图像区域中提取文字的图像特征生成第一文字特征图像；第一编码图像生成模块，用于将所述第一文字特征图像进行第一编码生成第一编码图像；解码图像生成模块，用于将所述第一编码图像进行解码生成解码图像；融合特征图像生成模块，用于将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；第一分类模块，用于对所述融合特征图像中的图像特征进行分类以识别出所述文字。

进一步的，所述文字特征图像生成模块，还包括：卷积神经网络输入模块，用于将所述图像区域输入卷积神经网络；卷积神经网络输出模块，用于通过所述卷积神经网络输出C*H*W大小的第一文字特征图像，其中C为第一文字特征图像的通道数，C≥1，H为第一文字特征图像的高度，H≥1，W为第一文字特征图像的宽度，W≥1。

进一步的，所述第一编码图像生成模块，还包括：编码LSTM网络输入模块，用于将所述第一文字特征图像输入编码LSTM网络；编码LSTM网络输出模块，用于所述编码LSTM网络输出所述第一编码图像。

进一步的，所述解码图像生成模块，还包括：解码LSTM网络输入模块，用于将所述第一编码图像输入解码LSTM网络；解码LSTM网络输出模块，用于所述解码LSTM网络输出解码图像。

进一步的，所述第一分类模块，还包括：加法模块，用于将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像。

进一步的，所述第一加法模块，还包括：加权加法模块，用于根据加权系数将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵进行加权相加，得到融合特征图像

进一步的，所述装置，还包括：维度变换模块，用于将所述第一文字特征图像、第一编码图像和解码图像变换为同一维度大小的图像。

进一步的，所述第一分类模块，还包括：全连接网络输入模块，用于将所述融合特征图像输入第一全连接网络；全连接网络输出模块，用于所述第一全连接网络输出融合特征图像中所包含的文字类别；文字识别模块，用于根据所述文字类别识别出所述图像区域中的文字。

进一步的，所述文字识别模块，还包括：合并模块，用于将识别为同一个文字类别的相邻的文字合并为同一个文字；结果输出模块，用于将合并结果作为识别结果输出。

根据本公开的又一个方面，还提供以下技术方案：

一种文字识别模型的训练装置，包括:参数初始化模块，用于初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、编码LSTM网络、解码LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、编码LSTM网络、解码LSTM和全连接网络的参数；训练图像获取模块，用于从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；卷积模块，用于将所述训练图像经过所述卷积神经网络输出第一文字特征图像；编码模块，用于将所述第一文字特征图像输入所述编码LSTM网络输出第一编码图像；解码模块，用于将所述第一编码图像输入所述解码LSTM网络输出解码图像；融合模块，用于将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；第二分类模块，用于将所述融合特征图像输入所述全连接网络输出所述训练图像中的文字类别；误差计算模块，用于根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；调整模块，用于根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

根据本公开的又一个方面，还提供以下技术方案：

一种文字识别装置，包括：原始图像获取模块，用于获取原始图像，所述原始图像中包括文字；预处理模块，用于对所述原始图像进行预处理得到包括所述文字的图像区域；输入模块，用于将所述图像区域输入由上述文字识别模型的训练方法训练而得到的文字识别模型；输出模块，用于所述文字识别模型输出所述文字的类型。

根据本公开的又一个方面，还提供以下技术方案：

一种电子设备，包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述任一文字识别方法所述的步骤。

根据本公开的又一个方面，还提供以下技术方案：

一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述任一方法中所述的步骤。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。

附图说明

图1为根据本公开一个实施例的文字识别方法的流程示意图；

图2为根据本公开一个实施例的文字识别方法中定位出的包含文字的图像区域的示意图；

图3为根据本公开一个实施例的文字识别方法的分类以及文字合并的示意图；

图4为根据本公开一个实施例的一种文字识别模型的训练方法的示意图；

图5为根据本公开一个实施例的文字识别装置的结构示意图；

图6为根据本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种文字识别方法。本实施例提供的所述文字识别方法可以由一计算装置来执行，所述计算装置可以实现为软件，或者实现为软件和硬件的组合，所述计算装置可以集成设置在服务器、终端设备等中。如图1所示，所述文字识别方法主要包括如下步骤S101至步骤S106。其中：

步骤S101：从原始图像中获取包括文字的图像区域；

在本公开中，所述从图像源中获取原始图像，其中所述图像源为本地存储空间或者网络存储空间，所述从图像源获取原始图像，包括从本地存储空间中获取原始图像或者从网络存储空间中获取原始图像，无论从哪里获取原始图像，首选需要获取原始图像的存储地址，之后从该存储地址获取原始图像。

所述图像源还可以是图像传感器，所述从图像源获取原始图像，包括从图像传感器中采集原始图像。所述图像传感器指可以采集图像的各种设备，典型的图像传感器为摄像机、摄像头、相机等。在该实施例中，所述图像传感器可以是移动终端上的摄像头，比如智能手机上的前置或者后置摄像头，摄像头采集的原始图像可以直接显示在手机的显示屏上，在该步骤中，获取图像传感器所拍摄的视频，用于在下一步进一步识别图像中的文字。

在本公开中，所述原始图像中包括文字，在一个典型的应用中，用户使用移动终端的摄像头拍摄环境中的物体，所述环境中的物体上可以包括文字，所述环境中的物体可以是图书、路标、招牌等等。在另一个典型的应用中，所述图像为视频中的视频帧，所述视频帧中包括视频中物体上的文字或者视频中的字幕。

在该步骤中，所述从原始图像中获取包括文字的图像区域，可以包括：

对原始图像进行预处理得到预处理图像；

从所述预处理图像中定位出包含文字的图像区域。

在一个实施例中，所述预处理包括对原始图像进行去燥、倾斜校正和各种滤波处理，如果输入图像是灰度或者彩色图像，还可以进行二值化处理。图像的二值化就是将灰度图像转化为只有黑和白两个颜色值图像的过程。二值化也属于图像处理中的图像分割技术，图像分割主要有阈值、边缘检测和区域增长三大类方法。其中最常用的为阈值方法，阈值就是二值化时，区分前景与背景的门槛值，小于等于阈值的像素属于前景，其他的属于背景。二值化通常分为全局二值化和局部二值化两类，其中全局二值化使用静态阈值，根据整幅图像的统计特征使用同一个阈值做二值化处理，典型的全局二值化的方法包括：最大类间方差法、基于熵的阈值法、聚类阈值法、模糊阈值法；局部二值化使用动态阈值，是根据像素点邻域的特征选择不同阈值的二值化处理方法，每一个像素或者一小块区域阈值的确定是同其周围像素有关而与其他位置的像素无关。

在对图像进行预处理得到预处理图像之后，从所述预处理图像中定位出文字的图像区域。此时需要对文本图像进行切分，所谓的切分就是从整幅图像中分割提取出单个字符图像的过程，切分的方法可以基于以下策略或以下策略中的几个组合：

1、经典切分方法：所述经典切分方法也称作标准切分方法，它根据文本图像本身所具有的一些属性特征，如宽、高、基线位置等，切割成单个字符图像。主要的经典切分方法包括间距法、基于投影特征分析的切分法等。

2、连通区域法：连通区域法是先找出所有的相连通像素区域，再通过分析连通域自身的特征和连通域间的关系，该方法多适用于西文手写体的切分。

3、基于识别的切分方法：该方法首先生成多个非确定的切分假设，然后识别，结合分类器给出的结果，利用识别置信度、语法和语义分析等方法对不确定的切分结果进行修正和选择，得到最优的切分结果。

4、整体切分法：整体切分法是把一个单词作为一个整体来进行识别，其是基于预先定义好的范围的“字典库”内的单词组成的文本图像的切分。

经过上述切分的过程，将所述预处理图像中的文字切分出来，并联合成文字的图像区域。如图2所示，所述图像中包括“我是中国人”五个字，在经过S101之后，所述的“我是中国人”的图像区域被定为和框出。之后的识别步骤都基于所述被定位出的文字的图像区域。

可以理解的是，获取包括文字的图像区域的方法不局限于上述步骤中所列举的方法，上述步骤中仅仅列举了传统OCR中的所使用的方法，实际上还可以使用深度学习的算法来对所述文字的图像区域进行定位，典型的如目标检测法，在此不再赘述，任何可以定位文字的图像区域的方法均可以在该步骤中使用。

步骤S102：从所述图像区域中提取文字的图像特征生成第一文字特征图像；

在本公开中，所述从所述图像区域中提取文字的图像特征生成第一文字特征图像，可以包括：

将所述图像区域输入卷积神经网络；

通过所述卷积神经网络输出C*H*W大小的第一文字特征图像，其中C为第一文字特征图像的通道数，C≥1，H为第一文字特征图像的高度，H≥1，W为第一文字特征图像的宽度，W≥1。

其中所述的卷积神经网络可以只包括输入层和卷积层，还可以包括池化层。典型的，所述图像区域可以在输出所述卷积神经网络之前可以预先被缩放成预定的大小，典型的，所述图像区域可以被预先缩放成C*32*32n的图像，也就是说输入所述卷积神经网络的图像区域的高度为32个像素，宽度为高度的n倍，所述n为大于等于1的整数。可选的，步骤S101中框选出的文字的图像区域被输入该卷积神经网络的输入层，之后经过卷积层的卷积之后，将所述文字的图像区域转换成一个C*1*W大小的文字特征图像，其中所述C为文字特征图像的通道数，其与最后一层卷积层所使用的卷积核的数量有关，C为大于等于1的正整数；W为文字特征图像的宽度，W也为大于等于1的正整数；上述C*1*W中的1为文字特征图像的高度，也即是说上述卷积神经网络通过卷积层提取文字图像区域中的图像特征，生成一个高度为1，宽度为W,通道数为C的文字特征图像。典型的，例如输入图像大小为1*32*1024，此处的图像为1通道，假设使用的是二值化的图像或者灰度化的图像，如果是彩色图像，一般为3通道。假设所述卷积神经网络包括输入层、第一卷积层、第二卷积层、第三卷积层和池化层，文字图像区域的图像通过输入层输入，此处，如果文字图像区域的大小与输出层不同，需要将文字图像区域进行缩放以跟所述输入层相同，经过三个卷积层的卷积以及池化层的采样，得到文字图像区域的文字特征图像，所述池化层可以是最大池化层或者平均池化层，此处假设经过上述卷积神经网络得到的文字特征图像为256*1*512的大小。通常可以经过上述卷积神经网络，得到一个C*1*4n的文字特征图像。可以理解的，上述卷积神经网络的结构仅仅是举例，实际上可以根据需要设计成任何结构，此处仅仅为了说明可以通过卷积神经网络对文字的图像区域提取特征生成文字特征图像。

步骤S103：将所述第一文字特征图像进行第一编码生成第一编码图像；

在本公开中，所述第一编码可以通过LSTM网络实现，所述将所述第一文字特征图像进行第一编码生成第一编码图像，包括：

将所述第一文字特征图像输入编码LSTM网络；

所述编码LSTM网络输出所述第一编码图像。

以步骤S102中的文字特征图像为例，其为一个128*1*512的特征图像，其中128为特征图像的通道数，1为特征图像的高度，512为特征图像的宽度，此时将所述特征图像作为一个长度为512的时间序列输入编码LSTM网络，将每个128*1作为LSTM每个时间点上的输入，假设编码LSTM网络的最终输出为一个128*1*256的特征图像，该特征图像即为第一编码图像，由于使用的LSTM网络，LSTM网络的输入均包括其上一时刻的输出，因此该网络具有记忆，可以记忆文字的上下文信息。

步骤S104：将所述第一编码图像进行解码生成解码图像；

在本公开中，所述解码可以通过解码LSTM网络完成，所述将所述第一编码图像进行解码生成解码图像，包括：

将所述第一编码图像输入解码LSTM网络；

所述解码LSTM网络输出解码图像。

在该步骤中，所述的解码实际上是通过将所述编码LSTM网络的输出结果经过另外一个LSTM网络，生成解码图像。对该解码LSTM网络来说，仅仅要求其输入的维度等于编码LSTM网络的输出维度，其输出的维度等于其之后的处理维度。如编码网络的输出为一个256*1*256的特征图像，即编码图像，则时间序列的长度为256，可以按照下一步骤的处理属性来设计解码LSTM网络的输出，以便之后的处理步骤使用解码图像。具体的，所述解码LSTM的输出可以是一个128*1*256的特征图像。

步骤S105：将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；

在本公开中，将所述卷积神经网络输出的第一特征文字图像、编码LSTM输出的第一编码图像以及解码LSTM输出的解码图像进行特征融合，具体的，所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像，包括：

将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像。第一文字特征图像、第一编码图像和解码图像均为矩阵，矩阵中的每个元素为图像像素中的像素值，此时，通过矩阵相加可以得到融合特征图像。其中，所述融合特征图像中的像素值可以为上述三个图像中的像素之和的平均值。更进一步的，所述将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像，包括：

根据加权系数将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵进行加权相加，得到融合特征图像。所述的加权系数可以包括三个不同的值，分别表示第一文字特征图像、第一编码图像和解码图像在融合特征图像中的权重，这样可以通过加权系数调节上述图像在融合特征图像中的权重。其中所述三个加权系数之和为1。可以理解的是，上述加法融合仅仅是举例，不构成对本公开的限制，上述特征融合可以为任何形式的融合，在此不再做具体限定。

可以理解的，在述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像之前，还包括：将所述第一文字特征图像、第一编码图像和解码图像变换为同一维度大小的图像。由于矩阵加法要求两个矩阵的维度必须相同，而矩阵的乘法要求相乘矩阵中的前一个矩阵的列和后一个矩阵的行的维度要相同，因此如果第一文字特征图像、第一编码图像和解码图像维度不满足需要，则需要在融合之前将其转换为符合需要的形式。一般情况下，可以将所有的图像均转化为相同大小的图像。其中转换维度可以使用在相应维度上填充0或者使用1*1卷积核对图像进行卷积的方式实现，其中填充0是用0填充维度小的矩阵，使其变成大维度的矩阵，比如一个1*2*2矩阵，可以使用4个0，将其填充为一个2*2*2的矩阵；而使用1*1的卷积核，可以通过卷积核进行维度的上升或者下降，比如一个1*2*2的矩阵，可以通过两个1*1的卷积核生成两个1*2*2的矩阵，将其通道串连，则形成一个2*2*2的矩阵。通过上述方法，可以将任意两个图向转换为同一维度的图像，方便进行矩阵的计算。

骤S106：将所述解码图像中的图像特征进行分类以识别出所述文字。

在本公开中，所述将所述解码图像中的图像特征进行分类以识别出所述文字，包括：

将所述融合特征图像输入第一全连接网络；

所述第一全连接网络输出融合特征图像中所包含的文字类别；

根据所述文字类别识别出所述图像区域中的文字。

在该步骤中，将步骤S105中得到的特征图像出入一个全连接网络，如在步骤S105中得到的融合特征图像为128*1*256,则该全连接网络可以设计为包括128*256＝32768个输入，将每128个输入作为一组(也就是每个通道上的1*1的像素作为一组)通过全连接映射到N个输出上，其中N为要分类的文字的类别数量，对于汉字来说，常用字大概有6000个，也就是说至少需要有6000个输出。将每N个所述全连接网络的输出通过softmax函数激活计算每个通道所代表的文字，将softmax函数值最大的文字作为识别出来的文字。

进一步的，所述根据所述文字类别识别出所述图像区域中的文字，还可以包括：

将识别为同一个文字类别的相邻的文字合并为同一个文字；

将合并结果作为识别结果输出。

如图3所示，所述的128*1*256的解码图像中的识别结果如图所示，可以是前后相邻像素可能被识别为同一个字，此时可以将两个空格之间的相邻的两个字合并为一个字，以形成最终的识别结果。通过上述步骤，将三个特征图像进行融合，由于三个特征图像带有更多的不同维度的特征，使用融合的特征图像进行文字识别，提高了文字识别的准确率。

如图4所示，为本公开中的文字识别模型的训练方法，本公开的文字识别方法可以通过文字识别模型来执行，所述文字识别模型需要预先进行训练，其中所述文字识别模型的训练方法，包括：

步骤S401：初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、编码LSTM网络、解码LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、编码LSTM网络、解码LSTM和全连接网络的参数；

步骤S402：从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；

步骤S403：将所述训练图像经过所述卷积神经网络输出第一文字特征图像；

步骤S404：将所述第一文字特征图像输入所述编码LSTM网络输出第一编码图像；

步骤S405：将所述第一编码图像输入所述解码LSTM网络输出解码图像；

步骤S406：将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；

步骤S407：将所述融合特征图像输入所述全连接网络输出所述训练图像中的文字类别；

步骤S408：根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；

步骤S409：根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

本公开中的所述文字识别模型中，包括至少三个部分，一个是特征提取部分，这部分由卷积神经网络完成；语义识别部分，该部分由两个LSTM网络完成；以及分类部分，该部分由一个全连接网络完成。

步骤S401中的初始化文字识别模型的参数，包括了上述卷积神经网络；LSTM网络以及全连接网络的参数，具体的，所述卷积神经网络的参数至少包括每个卷积层所使用的卷积核的数量、卷积核的大小、卷积核中的权重值以及池化窗口的大小等；所述LSTM网络的参数至少包括LSTM中的权重值矩阵；全连接网络的参数至少包括每层全连接权重系数等等，所述初始化可以是随机生成这些参数也可以是读取初始的指定参数，在此不再赘述。

在初始化参数之后，在步骤S402中，将训练集合输入所述文字识别模型，其中所述训练集合为包括文字以及文字标注的训练图集，其中所述文字标注可以实现为切分标注，即实现将训练图集切分为最终与预测结果形式对应的标注，如预测结果最终将输入的图像在宽度上切分为256份，则所述文字标注需要被处理成在宽度上切分为256份的标注，即多份宽度的图像可以标注为同一个文字。

步骤S403-步骤S407中，将所述训练集合中的图像经过文字模型中的所有网络得到一个预测结果，这个过程与通常的训练过程相同，不再赘述。

步骤S408中，将所述预测值与所述标注值带入损失函数中计算损失值，损失函数的设置可以使用任何合适的损失函数，并不是本公开的重点，不再赘述。

步骤S409，根据所述损失函数计算的损失值，调整文字识别模型中的参数，并再次通过训练集合和调整参数之后的文字模型得到新的损失值，重复上述过程直至损失函数的值最小为止。

通过上述步骤，将三个网络的特征图像均用于输出融合特征图像，可以加快识别模型的训练速度，使其更快收敛到正确的参数上。

本公开还包括一种使用上述文字识别模型进行文字识别的方法，包括：

获取原始图像，所述原始图像中包括文字；

对所述原始图像进行预处理得到包括所述文字的图像区域；

将所述图像区域输入由上述文字识别模型训练方法训练而得到的文字识别模型；

所述文字识别模型输出所述文字的类型。

该过程是上述文字识别模型的预测过程，其具体的预测细节可以参考图1所示的过程，在此不再赘述。

在上文中，虽然按照上述的顺序描述了上述方法实施例中的各个步骤，本领域技术人员应清楚，本公开实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本公开的保护范围之内，在此不再赘述。

下面为本公开装置实施例，本公开装置实施例可用于执行本公开方法实施例实现的步骤，为了便于说明，仅示出了与本公开实施例相关的部分，具体技术细节未揭示的，请参照本公开方法实施例。

本公开实施例提供一种文字识别装置。所述装置可以执行上述文字识别方法实施例中所述的步骤。如图5所示，所述装置500主要包括：图像区域识别模块501、文字特征图像生成模块502、第一编码图像生成模块503、解码图像生成模块504、融合特征图像生成模块505和第一分类模块506。其中，

图像区域识别模块501，用于从原始图像中获取包括文字的图像区域；

文字特征图像生成模块502，用于从所述图像区域中提取文字的图像特征生成第一文字特征图像；

第一编码图像生成模块503，用于将所述第一文字特征图像进行第一编码生成第一编码图像；

解码图像生成模块504，用于将所述第一编码图像进行解码生成解码图像；

融合特征图像生成模块505，用于将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；

第一分类模块506，用于对所述融合特征图像中的图像特征进行分类以识别出所述文字。

进一步的，所述文字特征图像生成模块502，还包括：

卷积神经网络输入模块，用于将所述图像区域输入卷积神经网络；

卷积神经网络输出模块，用于通过所述卷积神经网络输出C*H*W大小的第一文字特征图像，其中C为第一文字特征图像的通道数，C≥1，H为第一文字特征图像的高度，H≥1，W为第一文字特征图像的宽度，W≥1。

进一步的，所述第一编码图像生成模块503，还包括：

编码LSTM网络输入模块，用于将所述第一文字特征图像输入编码LSTM网络；

编码LSTM网络输出模块，用于所述编码LSTM网络输出所述第一编码图像。

进一步的，所述解码图像生成模块504，还包括：

解码LSTM网络输入模块，用于将所述第一编码图像输入解码LSTM网络；

解码LSTM网络输出模块，用于所述解码LSTM网络输出解码图像。

进一步的，所述第一分类模块505，还包括：

加法模块，用于将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像。

进一步的，所述第一加法模块，还包括：

加权加法模块，用于根据加权系数将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵进行加权相加，得到融合特征图像

进一步的，所述装置500，还包括：

维度变换模块，用于将所述第一文字特征图像、第一编码图像和解码图像变换为同一维度大小的图像。

进一步的，所述第一分类模块506，还包括：

全连接网络输入模块，用于将所述融合特征图像输入第一全连接网络；

全连接网络输出模块，用于所述第一全连接网络输出融合特征图像中所包含的文字类别；

文字识别模块，用于根据所述文字类别识别出所述图像区域中的文字。

进一步的，所述文字识别模块，还包括：

合并模块，用于将识别为同一个文字类别的相邻的文字合并为同一个文字；

结果输出模块，用于将合并结果作为识别结果输出。

图5所示装置可以执行图1-图3所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图3所示实施例的相关说明。所述技术方案的执行过程和技术效果参见图1-图3所示实施例中的描述，在此不再赘述。

本公开实施例还供一种文字识别模型的训练装置，包括:

参数初始化模块，用于初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、编码LSTM网络、解码LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、编码LSTM网络、解码LSTM和全连接网络的参数；

训练图像获取模块，用于从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；

卷积模块，用于将所述训练图像经过所述卷积神经网络输出第一文字特征图像；

编码模块，用于将所述第一文字特征图像输入所述编码LSTM网络输出第一编码图像；

解码模块，用于将所述第一编码图像输入所述解码LSTM网络输出解码图像；

融合模块，用于将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；

第二分类模块，用于将所述融合特征图像输入所述全连接网络输出所述训练图像中的文字类别；

误差计算模块，用于根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；

调整模块，用于根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

本公开实施例还供一种文字识别装置，包括：

原始图像获取模块，用于获取原始图像，所述原始图像中包括文字；

预处理模块，用于对所述原始图像进行预处理得到包括所述文字的图像区域；

输入模块，用于将所述图像区域输入由上述文字识别模型的训练所训练而得到的文字识别模型；

输出模块，用于所述文字识别模型输出所述文字的类型。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，所述计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在所述计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，所述程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，所述计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入所述电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被所述电子设备执行时，使得所述电子设备：从原始图像中获取包括文字的图像区域；从所述图像区域中提取文字的图像特征生成第一文字特征图像；将所述第一文字特征图像进行第一编码生成第一编码图像；将所述第一编码图像进行解码生成解码图像；将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；对所述融合特征图像中的图像特征进行分类以识别出所述文字。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被所述电子设备执行时，使得所述电子设备：初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、编码LSTM网络、解码LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、编码LSTM网络、解码LSTM和全连接网络的参数；从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；将所述训练图像经过所述卷积神经网络输出第一文字特征图像；将所述第一文字特征图像输入所述编码LSTM网络输出第一编码图像；将所述第一编码图像输入所述解码LSTM网络输出解码图像；将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；将所述融合特征图像输入所述全连接网络输出所述训练图像中的文字类别；根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被所述电子设备执行时，使得所述电子设备：获取原始图像，所述原始图像中包括文字；对所述原始图像进行预处理得到包括所述文字的图像区域；将所述图像区域输入由上述文字识别模型训练方法训练而得到的文字识别模型；所述文字识别模型输出所述文字的类型。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对所述单元本身的限定。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文字识别方法，包括：

从原始图像中获取包括文字的图像区域；

从所述图像区域中提取文字的图像特征生成第一文字特征图像；

将所述第一文字特征图像进行第一编码生成第一编码图像；

将所述第一编码图像进行解码生成解码图像；

将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；

对所述融合特征图像中的图像特征进行分类以识别出所述文字。

2.如权利要求1中所述的文字识别方法，其中所述从所述图像区域中提取文字的图像特征生成文字特征图像，包括：

将所述图像区域输入卷积神经网络；

3.如权利要求1中所述的文字识别方法，其中所述将所述第一文字特征图像进行第一编码生成第一编码图像，包括：

将所述第一文字特征图像输入编码LSTM网络；

所述编码LSTM网络输出所述第一编码图像。

4.如权利要求1中所述的文字识别方法，其中所述将所述第一编码图像进行解码生成解码图像，包括：

将所述第一编码图像输入解码LSTM网络；

所述解码LSTM网络输出解码图像。

5.如权利要求1中所述的文字识别方法，其中所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像，包括：

将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像。

6.如权利要求5中所述的文字识别方法，其中所述将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵相加，得到融合特征图像，包括：

根据加权系数将所述第一文字特征图像、第一编码图像和解码图像的像素矩阵进行加权相加，得到融合特征图像。

7.如权利要求1中所述的文字识别方法，其中在所述将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像之前，还包括：

将所述第一文字特征图像、第一编码图像和解码图像变换为同一维度大小的图像。

8.如权利要求1中所述的文字识别方法，其中所述对所述融合特征图像中的图像特征进行分类以识别出所述文字，包括：

将所述融合特征图像输入第一全连接网络；

根据所述文字类别识别出所述图像区域中的文字。

9.如权利要求8中所述的文字识别方法，其中所述根据所述文字类别识别出所述图像区域中的文字，包括：

将识别为同一个文字类别的相邻的文字合并为同一个文字；

将合并结果作为识别结果输出。

10.一种文字识别模型的训练方法，包括：

初始化文字识别模型的参数，其中所述文字识别模型中包括一个卷积神经网络、编码LSTM网络、解码LSTM网络和一个全连接网络，所述参数包括所述卷积神经网络、编码LSTM网络、解码LSTM和全连接网络的参数；

从训练集合中获取训练图像，所述训练图像中包括文字以及文字的类别标注；

将所述训练图像经过所述卷积神经网络输出第一文字特征图像；

将所述第一文字特征图像输入所述编码LSTM网络输出第一编码图像；

将所述第一编码图像输入所述解码LSTM网络输出解码图像；

将所述融合特征图像输入所述全连接网络输出所述训练图像中的文字类别；

根据所述文字类别以及文字的类别标注计算所述文字识别模型的损失函数的值；

根据所述损失函数的值调整所述文字识别模型的参数直至所述损失函数的值最小。

11.一种文字识别方法，包括：

获取原始图像，所述原始图像中包括文字；

对所述原始图像进行预处理得到包括所述文字的图像区域；

将所述图像区域输入由权利要求10所述的方法训练而得到的文字识别模型；

所述文字识别模型输出所述文字的类型。

12.一种文字识别装置，包括：

图像区域识别模块，用于从原始图像中获取包括文字的图像区域；

文字特征图像生成模块，用于从所述图像区域中提取文字的图像特征生成第一文字特征图像；

第一编码图像生成模块，用于将所述第一文字特征图像进行第一编码生成第一编码图像；

解码图像生成模块，用于将所述第一编码图像进行解码生成解码图像；

融合特征图像生成模块，用于将所述第一文字特征图像、第一编码图像和解码图像进行特征融合生成融合特征图像；

第一分类模块，用于对所述融合特征图像中的图像特征进行分类以识别出所述文字。

13.一种文字识别模型的训练装置，包括：

14.一种文字识别装置，包括：

输入模块，用于将所述图像区域输入由权利要求10所述的方法训练而得到的文字识别模型；

输出模块，用于所述文字识别模型输出所述文字的类型。

15.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求1-9中任意一项所述的文字识别方法。

16.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求10所述的文字识别模型的训练方法。

17.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求11所述的文字识别方法。

18.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-9中任意一项所述的文字识别方法。

19.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求10中所述的文字识别模型的训练方法。

20.一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求11中所述的文字识别方法。