CN110210468A

CN110210468A - 一种基于卷积神经网络特征融合迁移的文字识别方法

Info

Publication number: CN110210468A
Application number: CN201910459252.3A
Authority: CN
Inventors: 林劼; 马俊; 钟德建; 徐佳俊; 郝玉洁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06
Anticipated expiration: 2039-05-29
Also published as: CN110210468B

Abstract

本发明公开了一种基于卷积神经网络特征融合迁移的文字识别方法，包括：构建源卷积特征提取器、训练源卷积特征提取器、构建基于源卷积特征提取器的目标卷积神经网络模型、训练目标卷积神经网络模型和输入图片进行文字识别。本发明通过分析卷积神经网络模型的特点提出了一种新的特征迁移方法，使得源特征生成器结构和目标网络结构可以灵活地进行定义，从而在文字图像识别应用中更具备鲁棒，解决了传统卷积网络特征迁移方法在特征迁移的网络模型构建过程中缺乏灵活性的问题。

Description

一种基于卷积神经网络特征融合迁移的文字识别方法

技术领域

本发明涉及图像识别领域，尤其涉及一种基于卷积神经网络特征迁移的文字识别方法。

背景技术

现如今在各种互联网应用中，图片是信息传递的重要载体，特别是在社交领域、媒体领域和电子商务领域等应用中，每天都会产生和传播亿兆级别的图像，很多图像都包括了文字信息而将图片中的文字信息识别成具体的文字编码被称为图片文字识别(OCR)。图片文字识别对商业领域和工业领域自动化具有一定的应用价值，是打通线上和线下数据信息化通道的重要手段，也是如今学术界关注的热点之一。

文字识别对于书面文本数字化应用具有重要意义，比如在报纸、书籍和票据等的数字化应用上：保险、金融和快递等行业通常有大量单据，只有对这些单据进行数字化后才能方便存储、检索和分析；现如今司法界正在推行智能法务，对于办案过程中产生的手写的文书常常需要数字化存储；医疗领域里的医生手稿和教育领域里的作业题、考试答卷等都具有数字化存储的需求。文字识别问题上的难点在于处理图像模糊和光照等变化因素，通常平板扫描仪获取的扫描图片清晰较高，对其进行文字识别具有较高的准确率。而对于手机等设备拍摄的图片，由于光照的变化，文字识别率则会降低。对室外自然场景图片中的文字进行检测和识别，由于可变因素太多和带标注的数据量有限，其仍是当今研究的热点和难点问题。

现如今文字识别的主流方法是基于深度卷积神经网络的图像识别方法，深度卷积神经网络在图像识别领域逐渐显现出巨大优势，在近几年里的微软COCO图像描述竞赛和ImageNet图像识别大赛里，使用深度卷积神经网络的机器学习方法占据统治地位，而其他传统机器学习算法逐渐被边缘化。深度卷积神经网络在上述比赛中能够取得成功的原因在于超大规模的数据量，其图像样本采集自互联网上与生活相关的类别事物，样本数量巨大并且由专门的团队进行标注维护。然而对于特定的领域，比如室外室外自然场景图片中的文字进行检测和识别，其带标注的数据规模比较小，无法支持训练一个高性能的复杂卷积神经网络模型。对于这种情况，基于卷积特征迁移的方法提供了一种解决问题的新思路，借助其他领域的知识来提升性能，比如：可以在其它数据量充足的文字识别领域(源领域)训练源卷积特征提取器，然后把它的输出作为当前文字识别领域(目标领域)的目标卷积神经网络的辅助特征。目前已有的基于卷积神经网络特征迁移的方法分为两种：

(1)第一种方式的架构如图1所示，这种方法采用将源特征生成器的最后一层特征向量作为目标域卷积神经网络在分类层的辅助输入，使用这种特征输入方式可以让特征生成器和目标网络模型在底层相互独立，这样两者的层次数都是可变的并且互不影响，从而可以灵活的设计网络模型，但缺点是只能迁移特征生成器在分类层产生的特征语义信息而无法迁移底层的卷积语义信息

(2)第二种方式的架构如图2所示，这种方法采用侧连的输入方式，在目标网络的各个卷积层拼接上源特征生成器对应层次的卷积特征图，这样可以迁移源特征生成器在各个卷积层提取的语义特征信息，但这种方法存在缺点：使用这个特征输入方式的架构要求目标卷积模型和源特征生成器有相同的卷积层次，无法灵活的设计网络结构。

因此，需要一种基于卷积神经网络特征融合迁移的文字识别方法，使得源特征生成器结构和目标网络结构可以灵活地进行定义，从而在文字图像识别应用中更具备鲁棒。

发明内容

为了解决上述问题，本发明提出一种基于卷积神经网络特征融合迁移的文字识别方法。

一种基于卷积神经网络特征融合迁移的文字识别方法，包括：构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt、训练目标卷积神经网络模型Mt和输入图片进行文字识别；

所述构建源卷积特征提取器Gs，是对源领域中的文字图片样本进行预测；

所述训练源卷积特征提取器Gs，是利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化；

所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt，是对目标领域文字图片样本进行预测，其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征；

所述训练目标卷积神经网络模型Mt，是利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。

进一步的，一种基于卷积神经网络特征融合迁移的文字识别方法，所述构建源卷积特征提取器Gs采用以下步骤：

S11：构建5个卷积模块，每个卷积模块的构建过程为：顺序依次构建卷积层，batchnormalization层，relu非线性激活层、卷积层，batch normalization层，relu非线性激活层，max池化层；

S12：构建分类层模块Classifier，其过程为：顺序依次构建第一全连接层，batchnormalization层，relu非线性激活层，第二全连接层，batch normalization层，relu非线性激活层，第三全连接层，软最大化softmax层。

进一步的，一种基于卷积神经网络特征融合迁移的文字识别方法，所述卷积层的卷积核大小为3*3，输出特征图数分别为64、128、256、512、512，max池化层的池化核大小为2*2；所述第一全连接层和第二全连接层的输出特征数为4096，第三全连接层的输出特征数为C，其中C为待分类的图片类别数。

进一步的，一种基于卷积神经网络特征融合迁移的文字识别方法，所述训练源卷积特征提取器Gs包括以下步骤：

S21：对Gs的参数进行随机初始化；

S22：随机从源领域训练数据集中采用一批次样本记作(Xs,Ys)，并对Xs进行归一化和标准化处理；

S23：顺序经过源卷积特征提取器Gs中的5个卷积模块及分类层模块，进行前向传播，将结果记作：Gs(Xs),并保留Gs里各层计算的中间结果；

S24：使用交叉熵准则计算代价，计算方式如下：

其中1{·}是表示性函数，其运算规则为1{表达式的值等于真}＝1，1{表达式的值等于假}＝0；G(X_i)_j表示样本X_i被输入到Gs后得到的属于类别j的概率值；

S25：对源卷积特征提取器Gs进行反向传播：根据步骤S23中保存的各层计算的中间结果，计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化；

S26：判断Gs是否达到最优，是则保存最优模型，否则跳到步骤S22。

进一步的，一种基于卷积神经网络特征融合迁移的文字识别方法，所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt包括以下步骤：

S31：为数据量有限的目标领域构建一个目标卷积神经网络；

S32：对源特征生成器各层的卷积特征图进行转换，最后将转换的结果特征图作为辅助特征输入目标卷积神经网络，其中对源特征生成器各层的卷积特征图进行转换的过程见步骤S32、S33和S34。

进一步的，一种基于卷积神经网络特征融合迁移的文字识别方法，所述对源特征生成器各层的卷积特征图进行转换包括如下子步骤：

S321：首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算，将这次的卷积操作的输出通道数统一用一个超参数ω进行设置；

S322：将步骤S321得到的卷积特征图按照从底层到高层的顺序进行处理，首先对隶属于同一个卷积模块的输出卷积特征图进行一次加性融合，然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作；

S323：将得到的所有通道数为τ的特征图视作一个特征集合，然后将特征集合输入到目标卷积网络的每一个卷积层，在输入的时候，会根据目标网络中卷积层的输入特征图大小，将特征集合中每一个特征图进行采样变换到相应的大小，并在每一个目标层为特征集合生成新的卷积参数，最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作。

进一步的，一种基于卷积神经网络特征融合迁移的文字识别方法，所述训练目标卷积神经网络模型Mt采用以下步骤：

S41：对目标卷积神经网络模型Mt的参数进行随机初始化；对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结，使其不参与目标域训练过程中的参数更新优化。

S42：随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt)，并对Xt进行归一化和标准化处理。

S43：对目标卷积神经网络模型Mt进行前向传播，将结果记作：Mt(Xt),并保留Mt里各层计算的中间结果。

S44：使用交叉熵准则计算代价，计算方式如下：

其中1{·}是表示性函数，其运算规则为1{表达式的值等于真}＝1，1{表达式的值等于假}＝0；Mt(X_i)_j表示样本X_i被输入到Mt后得到的属于类别j的概率值。

S45：对目标卷积神经网络模型Mt进行反向传播：根据步骤S43中保存的各层计算的中间结果，计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化。

S46：判断Mt是否达到最优，是则保存最优模型，否则跳到步骤S42。

本发明的有益效果在于：解决了传统卷积网络特征迁移方法在特征迁移的网络模型构建过程中缺乏灵活性的问题，本发明通过分析卷积神经网络模型的特点提出了一种新的特征迁移方法，使得源特征生成器结构和目标网络结构可以灵活地进行定义，从而在文字图像识别应用中更具备鲁棒。

附图说明

图1为传统的基于分类层的特征迁移方式；

图2为传统的卷积特征迁移方式；

图3为基于卷积神经网络特征融合的特征迁移；

图4为特征融合过程的具体结构；

图5为特征自适应输入结构；

图6为本发明的流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，假设训练模型时采用的是交叉熵分类准则，但本发明不限于交叉熵分类准则。

如图3所示，一种基于卷积神经网络特征融合迁移的文字识别方法，包括：构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt和训练目标卷积神经网络模型Mt。图4和图5分别展示了基于源卷积特征提取器所构建的目标卷积神经网络模型Mt的特征融合过程(CONV Layer#1，CONV Layer#2，Σ)和特征自适应输入(Adaptive Training Input)。

所述构建源卷积特征提取器Gs，用于对源领域中的文字图片样本进行预测。

所述训练源卷积特征提取器Gs，用于利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化。

所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt，用于对目标领域文字图片样本进行预测，其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征。

所述训练目标卷积神经网络模型Mt，用于利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。

优选的，所述构建源卷积特征提取器采用以下步骤：

A1：构建卷积模块COVN Module#1，其过程为：顺序依次构建卷积层(卷积核大小:3*3，输出特征图数:64)，batch normalization层，relu非线性激活层、卷积层(卷积核大小:3*3，输出特征图数:64)，batch normalization层，relu非线性激活层，max池化层(池化核大小：2*2)。

A2：构建卷积模块COVN Module#2，其过程为：顺序依次构建卷积层(卷积核大小:3*3，输出特征图数:128)，batch normalization层，relu非线性激活层，卷积层(卷积核大小:3*3，输出特征图数:128)，batch normalization层，relu非线性激活层，max池化层(池化核大小：2*2)。

A3：构建卷积模块COVN Module#3，其过程为：顺序依次构建卷积层(卷积核大小:3*3，输出特征图数:256)，batch normalization层，relu非线性激活层，卷积层(卷积核大小:3*3，输出特征图数:256)，batch normalization层，relu非线性激活层,卷积层(卷积核大小:3*3，输出特征图数:256)，batch normalization层，relu非线性激活层，max池化层(池化核大小：2*2)。

A4：构建卷积模块COVN Module#4，其过程为：顺序依次构建卷积层(卷积核大小:3*3，输出特征图数:512)，batch normalization层，relu非线性激活层，卷积层(卷积核大小:3*3，输出特征图数:512)，batch normalization层，relu非线性激活层,卷积层(卷积核大小:3*3，输出特征图数:512)，batch normalization层，relu非线性激活层，max池化层(池化核大小：2*2)。

A5：构建卷积模块COVN Module#5，其过程为：顺序依次构建卷积层(卷积核大小:3*3，输出特征图数:512)，batch normalization层，relu非线性激活层，卷积层(卷积核大小:3*3，输出特征图数:512)，batch normalization层，relu非线性激活层,卷积层(卷积核大小:3*3，输出特征图数:512)，batch normalization层，relu非线性激活层，max池化层(池化核大小：2*2)。

A6：构建分类层模块Classifier，其过程为：顺序依次构建全连接层(输出特征数为4096)，batch normalization层，relu非线性激活层，全连接层(输出特征数为4096)，batch normalization层，relu非线性激活层，全连接层(输出特征数为c,其中c待分类的图片类别数)，软最大化softmax层，(这里假设文字图片满足每张图片对应一个文字，可以使用交叉熵分类准则进行训练，但是可以将分类层替换成其他分类准则所需要的结构)。

所述训练源卷积特征提取器采用以下步骤：

B0：对Gs的参数进行随机初始化，随机初始化参数采用的方法为从区间均匀随机取值，其中d是当前层神经元的输入数量。

B1：随机从源领域训练数据集中采用一小批次样本记作(Xs,Ys)，并对Xs进行归一化和标准化处理。

B2：对源卷积特征提取器Gs进行前向传播(顺序经过卷积模块COVN Module #1、卷积模块COVN Module #2，卷积模块COVN Module #3，卷积模块COVN Module #4，卷积模块COVNModule #5和分类层模块Classifier)，将结果记作：Gs(Xs),并保留Gs里各层计算的中间结果。

B3：使用交叉熵准则计算代价，计算方式如下：

其中1{·}是表示性函数，其运算规则为1{表达式的值等于真}＝1，1{表达式的值等于假}＝0；G(X_i)_j表示样本X_i被输入到Gs后得到的属于类别j的概率值。

B4：对源卷积特征提取器Gs进行反向传播：根据步骤B2中保存的各层计算的中间结果，计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化，更新方式如下：

θ_t＝θ_t-1-v_t

其中θ和θ_t分别表示模型的任意一个参数和在优化过程中第t次迭代后的相应参数值；v_t是第t次迭代的动量；表示模型的代价函数cost对参数θ的导数函数在θ_t-1这个点的函数值；γ表示动量项衰减超参数，被设置为0.9；ε为梯度下降算法的学习率，被设置成2e-4。

B5：判断Gs是否达到最优，是则保存最优模型，否则跳到步骤B1。

所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt采用以下步骤：

C0：首先为数据量有限的目标领域构建一个精心设计的目标卷积神经网络，然后对源特征生成器各层的卷积特征图进行转换，最后将转换的结果特征图作为辅助特征输入目标卷积神经网络，其中对源特征生成器各层的卷积特征图进行转换的过程见步骤C1、C2和C3。

C1：首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算(记作CONV Layer #1)，这里为了应对复杂的源特征生成器结构，将卷积操作的输出通道数统ω设置成21。

C2：将步骤C1得到的卷积特征图按照从底层到高层的顺序进行处理，首先对隶属于同一个卷积模块(COVN Module#i,i＝1,…,4)的输出卷积特征图进行一次加性融合(记作Σ)，然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作(记作CONV Layer#2)，其中τ被设置成1。

C3：将前面得到的所有通道数为τ的特征图视作一个特征集合(Feature Set)，然后将特征集合输入到目标卷积网络的每一个卷积层。在输入的时候，会根据目标网络中卷积层的输入特征图大小，将特征集合中每一个特征图进行采样变换到相应的大小，并在每一个目标层为Feature Set生成新的卷积参数，最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作，我们将这个步骤记作：AdaptiveTraining Input，图5展示了这种自适应输入的结构。

训练目标卷积神经网络模型Mt采用以下步骤：

D0：对Mt的参数进行随机初始化，随机初始化参数采用的方法为从区间均匀随机取值，其中d是当前层神经元的输入数量；对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结，使其不参与目标域训练过程中的参数更新优化。

D1：随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt)，并对Xt进行归一化和标准化处理。

D2：对目标卷积神经网络模型Mt进行前向传播，将结果记作：Mt(Xt),并保留Mt里各层计算的中间结果。

D3：使用交叉熵准则计算代价，计算方式如下：

D4：对目标卷积神经网络模型Mt进行反向传播：根据步骤D2中保存的各层计算的中间结果，计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化,更新方式如下：

θ_t＝θ_t-1-v_t

D5：判断Mt是否达到最优，是则保存最优模型，否则跳到步骤D1。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于包括：构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt、训练目标卷积神经网络模型Mt和输入图片进行文字识别；

2.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于，所述构建源卷积特征提取器Gs采用以下步骤：

3.根据权利要求2所述的一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于，所述卷积层的卷积核大小为3*3，输出特征图数分别为64、128、256、512、512，max池化层的池化核大小为2*2；所述第一全连接层和第二全连接层的输出特征数为4096，第三全连接层的输出特征数为C，其中C为待分类的图片类别数。

4.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于，所述训练源卷积特征提取器Gs包括以下步骤：

S21：对Gs的参数进行随机初始化；

S24：使用交叉熵准则计算代价，计算方式如下：

5.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于，所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt包括以下步骤：

S31：为数据量有限的目标领域构建一个目标卷积神经网络；

6.根据权利要求5所述的一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于，所述对源特征生成器各层的卷积特征图进行转换包括如下子步骤：

7.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法，其特征在于，所述训练目标卷积神经网络模型Mt采用以下步骤：

S44：使用交叉熵准则计算代价，计算方式如下：