CN110414515B

CN110414515B - 基于信息融合处理的汉字图像识别方法、装置及存储介质

Info

Publication number: CN110414515B
Application number: CN201910706624.8A
Authority: CN
Inventors: 刘晋; 吕诗奇
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2023-12-08
Anticipated expiration: 2039-08-01
Also published as: CN110414515A

Abstract

本发明提供一种基于信息融合处理的汉字图像识别方法，应用于图像识别技术领域，方法包括：获取待处理图像；采用卷积神经网络提取所述待处理图像的图像信息；采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果；对所述图像信息和所述多个预测结果进行融合，通过全连接网络对图像文字进行识别。此外，本发明还公开了一种基于信息融合处理的汉字图像识别装置及存储介质。应用本发明实施例，能够将图像文字识别和预测相结合，提高识别的准确率。

Description

基于信息融合处理的汉字图像识别方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于信息融合处理的汉字图像识别方法、装置及存储介质。

背景技术

图像文字识别应用广泛，包括了交通系统中车牌的识别、地图照片中门牌号的识别、直面表格的数据化存储等方方面面。这些数据具有数据量大、数据种类多样、数据应用领域广、识别正确率要求高等特点。

现有的，图像处理算法想要让计算机辨别图像中的文字，并代替人工将图像中的文字提取出来是十分困难的；使用基于深度神经网络的图像文字识别能更准确的实现计算机对文字的识别，将能解决人工图像文字识别问题。

但是绝大多数文字识别发明只利用了图像信息，没有将图像文字与语言模型等多种模态信息结合起来，因此在对图像中的连续文本进行识别时，忽视了字、词之间的逻辑关联，这样就导致在识别某些图片，例如身份证图片时，识别准确率不高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于信息融合处理的汉字图像识别方法及装置，旨在通过一种多神经网络的联合应用，训练卷积神经网络CNN、长短时记忆网络LSTM以及全连接网络，模拟了人类使用多模态信息认识事物的方式，在识别汉字时同时考虑图像信息以及语言逻辑，从而高效正确的识别汉字图像序列，能够将图像文字识别和预测相结合，提高识别的准确率。

为实现上述目的及其他相关目的，本发明提供一种基于信息融合处理的汉字图像识别方法，所述方法包括：

获取待处理图像；

采用卷积神经网络提取所述待处理图像的图像信息；

采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果；

对所述图像信息和所述多个预测结果进行融合，

通过全连接网络对图像文字进行识别。

一种实现方式中，所述采用卷积神经网络提取所述待处理图像的图像信息的步骤，包括：

将所述待处理图像输入至卷积神经网络；

采用卷积神经网络对所述待处理图像上的文字进行识别；

获取与识别结果对应的特征向量。

一种实现方式中，所述采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果的步骤，包括：

采用长短时神经网络接收所述图像信息；

根据所述图像信息中的第一个文字预测第二个的文字出现概率，其中，所述第二个文字为所述第一个文字所对应文字的下一个文字；

根据所述第二个的文字出现概率与所述图像信息，预测第三个文字的出现概率，其中，所述第三个文字为所述第二个文字的下一个文字；

直至所述图像信息所对应的文字预测结束，获取预测向量。

一种实现方式中，所述对所述图像信息和所述多个预测结果进行融合的步骤，包括：

将所述特征向量与所述预测相连进行连接，构成融合后特征向量。

一种实现方式中，卷积神经网络的训练步骤，包括：

获取训练集，其中，所述训练集包括由多种字体组成的三通道黑白文字图片；

将所述训练集训练卷积神经网络，并进行归一化操作；

根据卷积神经网络的训练结果判断是否合格；

如果是，保存该神经网络。

一种实现方式中，所述长短时神经网络的训练步骤，包括：

获取中文语料集，其中，所述中文语料集的字数大于预设数量，且所述语料集所包含的汉字均属于一级汉字；

以所获取中文语料集对多层长短时记忆网络结构进行训练，获得长短时神经网络模型。

一种实现方式中，所述全连接网络的训练步骤，包括：

获取所述待处理图像的识别结果；

将所述识别结果送入长短时神经网络中；

获取所述待处理图像的下一张图片的图像信息；

根据所述识别结果进行所述下一张图片的预测。

一种实现方式中，所述融合后特征向量，包括：

多个维度，其中，每个维度的值在0至1之间，每个维度对应的至代表图像属于该分类的概率。

本发明还公开了一种基于信息融合处理的汉字图像识别装置，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述存储器，用于存储基于信息融合处理的汉字图像识别程序；

所述处理器，用于执行所述基于信息融合处理的汉字图像识别程序，以实现任一项所述的基于信息融合处理的汉字图像识别步骤。

以及，还公开了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行任一项所述的基于信息融合处理的汉字图像识别步骤。

如上所述，本发明实施例提供的一种基于信息融合处理的汉字图像识别方法、装置及计算存储介质，图像信息与预先构建的语言模型中得到的信息进行了多模信息融合，使用多模态数据对图像文字进行多角度建模与分析。使用卷积神经网络、长短时记忆网络以及全连接网络构建一种多网络结构进行图像文字识别。因此，应用本发明实施例，能够将图像文字识别和预测相结合，提高识别的准确率。

附图说明

图1是本发明实施例的一种基于信息融合处理的汉字图像识别方法的一种流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本发明实施例提供一种基于信息融合处理的汉字图像识别方法，所述方法包括：

S101，获取待处理图像。

本发明实施例中，待处理图像为包含多种字体的三通道黑白文字图片。具体可以为包含多种字体，在图片为彩色时，可以进行转化。

S102，采用卷积神经网络提取所述待处理图像的图像信息。

本发明使用的卷积神经网络CNN，是由若干卷积层，ReLU层，池化层与全连接层组成的深度神经网络。

卷积层使用卷积核作为图像特征的提取器，不同的卷积核对应提取不同的图像特征，卷积核扫过的面积称为感受野。通常在进行一次卷积之后会紧跟一个ReLU层以及一个池化层。RelU层的作用是在充满线性操作的神经网络中加入非线性因素，提高计算效率，降低过拟合。池化层的目的在于提取图像的特征时又对卷积结果进行了降维，并且增加了感受野。通常在上述操作后还会加入一个Dropout层。Dropout层随机将某一个激活参数的集合设为0，使系统强制性变得冗余。Dropout层的操作很简单，而作用则很重要，可以缓解网络的过拟合情况。

具体的，本发明使用的CNN网络结构一共由11层组成，其中有5层卷积层，4层最大池化层以及2层全连接层。结构是卷积层，最大池化层，卷积层，最大池化层，卷积层，最大池化层，卷积层，卷积层，最大池化层，全连接层，全连接层。整个网络使用3*3大小卷积核，最大池化层为2*2，dropout抛弃率为0.1，网络中每个卷积层都是由一个卷积层，一个批量归一化层，以及一个ReLU激活函数层组成。提取的图像信息将被送入后续的全连接网络中。

CNN网络中的卷积操作的形式化表达如下，其中F代表卷积后得到的特征图元素，W代表卷积核，f代表卷积核感受野内的输入，B代表偏置参数。

在卷积神经网络中本发明使用了批量归一化操作。具体的，批量归一化，简称BN。批量归一化的提出是为了克服神经网络难以训练的问题。BN操作会对输入的数据进行归一化，使得归一化后的数据在每一个维度上的分布都服从均值为0，方差为1。BN算法的相关公式如下所示。

需要说明的是，归一结果为均值为0，方差为1的分布。其中，x^k表示输入数据第k维度上的值，E(x^k)表示第k维内数据的均值，表示第k维内数据的标准差。BN对每次迭代的归一化有可能改变网络中前一层学习到的数据特征的分布，

因此在上式中引入了两个可学习的变量γ和β，确保归一化后与前一层网络保持相同的数据分布。

S103，采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果。

具体的，可以使用字数大于100万的汉字语料集，对语料集进行处理，剔除语料集中所有不属于3755个一级汉字的字符，不对语料集进行分词处理。然后使用多层长短时记忆网络构建语言模型。

长短时记忆网络，以下简称LSTM，是一种循环神经网络的特殊变种。标准LSTM利用遗忘门控制遗忘哪些来自之前时刻的信息，利用输入门控制怎样更新当前时刻的隐藏单元状态，利用输出门控制哪些信息被输出到下一时刻。三种门的控制由上一时刻的隐藏单元状态以及当前时刻的输入决定。

在每一个LSTM单元中可以再细分4个隐藏层，LSTM网络由一个embedding层和3个LSTM层组成，这4个隐藏层组成LSTM中的3个控制门。

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

遗忘门f_t控制先前时刻的细胞状态是否通过当前时刻或被遗忘，细胞状态直观理解为网络的长期记忆。f_t是[0，1]之间的数值，控制细胞状态的通过率，h_t-1是t-1时刻隐藏单元的状态，直观理解为网络对上一时刻的短期记忆，x_t是t时刻输入，bf表示偏置，σ是sigmoid函数的简写。

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

C_t＝tanh(W_c·[h_t-1，x_t]+b_c)

由i_t和C_t控制对细胞状态的更新。i_t决定使用哪些候选值来更新细胞状态；C_t产生候选的更新值。由遗忘门和更新门控制的细胞状态。

C_t＝f_t*C_t-1+i_t*C_t

O_t＝σ(W_o·[h_t-1，x_t]+b_o)

h_t＝O_t*tanh(C_t)

o_t从上一时刻隐藏单元状态和当前时刻输入中计算了当前时刻的输出，该输出值与网络的先前细胞状态无关。通过上式将当前输出和网络细胞状态结合得到最后的网络输出。

S104，对所述图像信息和所述多个预测结果进行融合。

将上述的图像信息与语言模型信息进行多模数据融合。

多模数据融合的输入是CNN提取的图像信息与LSTM提取的语言模型信息，分别是具有相同长度或者不同长度的一维列表，将两个一维列表首尾连接构成新的一维列表，新列表长度等于原有图像信息的列表长度与语言模型信息的列表长度的总和。

S105，通过全连接网络对图像文字进行识别。

全连接层将输入数据拉伸成为一维数组后进行处理，全连接层的输出是一个n维的向量。输出向量的n个维度代表了图像所有可能分类的个数，每个维度的值在[0,1]之间，向量第n维的值代表图像属于第n个分类的概率。通过训练全连接网络，本发明可以对图像信息以及语言模型信息进行多模数据融合。

针对LSTM模型中，单个字符首先会经过embedding层，从原来的字符表示转换成一个n维度的向量表示。接着转化后的n维字向量会被送入三层连续的LSTM层中。每一层的LSTM层包含n个LSTM单元，LSTM单元数量和字向量维度一致.语言模型在预测当前文字识别结果之后，会将预测结果送回识别网络中用于下一个文字识别的输入。然后将提取的语言模型信息送入后续的全连接网络，全连接网络对上述多模数据融合后的信息进行识别

本发明使用的全连接网络由两层全连接层组成，每层网络层后都紧跟一层dropout层，dropout层的保留几率设为0.8。全连接网络和之前所述CNN与LSTM网络相互独立。

在对文字图片进行识别时，按照文字图片的输入顺序进行识别。网络的识别结果将会被送入语言模型中以提取下一次识别所用的语言模型信息。具体地，本发明将上一张图片的初步识别结果送入LSTM中进行预测，CNN对当前图片的识别结果以及LSTM从上一个文字得到的对当前文字的预测送入全连接网络，得到最后的文字识别结果。当前图片的识别结果将会送入LSTM中用于下一张图片的预测。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于信息融合处理的汉字图像识别方法，其特征在于，所述方法包括：

获取待处理图像；

采用卷积神经网络提取所述待处理图像的图像信息；

采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果，其中，所述采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果的步骤，包括：

采用长短时神经网络接收所述图像信息；

直至所述图像信息所对应的文字预测结束，获取预测向量；

对所述图像信息和所述多个预测结果进行融合，其中，具体包括：将特征向量与所述预测相连进行连接，构成融合后特征向量；

将所述图像信息与语言模型信息进行多模数据融合，所述多模数据融合的输入是CNN提取的图像信息与LSTM提取的语言模型信息，分别是具有相同长度或者不同长度的一维列表，将两个一维列表首尾连接构成新的一维列表，新列表长度等于原有图像信息的列表长度与语言模型信息的列表长度的总和；所述融合后特征向量，包括：多个维度，其中，每个维度的值在0至1之间，每个维度对应的至代表图像属于该分类的概率；

通过全连接网络对图像文字进行识别。

2.根据权利要求1所述的基于信息融合处理的汉字图像识别方法，其特征在于，所述采用卷积神经网络提取所述待处理图像的图像信息的步骤，包括：

将所述待处理图像输入至卷积神经网络；

采用卷积神经网络对所述待处理图像上的文字进行识别；

获取与识别结果对应的特征向量。

3.根据权利要求1所述的基于信息融合处理的汉字图像识别方法，其特征在于，卷积神经网络的训练步骤，包括：

将所述训练集训练卷积神经网络，并进行归一化操作；

根据卷积神经网络的训练结果判断是否合格；

如果是，保存该神经网络。

4.根据权利要求1所述的基于信息融合处理的汉字图像识别方法，其特征在于，所述长短时神经网络的训练步骤，包括：

5.根据权利要求3所述的基于信息融合处理的汉字图像识别方法，其特征在于，所述全连接网络的训练步骤，包括：

获取所述待处理图像的识别结果；

将所述识别结果送入长短时神经网络中；

获取所述待处理图像的下一张图片的图像信息；

根据所述识别结果进行所述下一张图片的预测。

6.一种基于信息融合处理的汉字图像识别装置，其特征在于，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述处理器，用于执行所述基于信息融合处理的汉字图像识别程序，以实现如权利要求1至5中任一项所述的基于信息融合处理的汉字图像识别步骤。

7.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行如权利要求1至5中任一项所述的基于信息融合处理的汉字图像识别步骤。