CN110210468A - 一种基于卷积神经网络特征融合迁移的文字识别方法 - Google Patents

一种基于卷积神经网络特征融合迁移的文字识别方法 Download PDF

Info

Publication number
CN110210468A
CN110210468A CN201910459252.3A CN201910459252A CN110210468A CN 110210468 A CN110210468 A CN 110210468A CN 201910459252 A CN201910459252 A CN 201910459252A CN 110210468 A CN110210468 A CN 110210468A
Authority
CN
China
Prior art keywords
convolution
layer
neural networks
convolutional neural
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910459252.3A
Other languages
English (en)
Other versions
CN110210468B (zh
Inventor
林劼
马俊
钟德建
徐佳俊
郝玉洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910459252.3A priority Critical patent/CN110210468B/zh
Publication of CN110210468A publication Critical patent/CN110210468A/zh
Application granted granted Critical
Publication of CN110210468B publication Critical patent/CN110210468B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络特征融合迁移的文字识别方法,包括:构建源卷积特征提取器、训练源卷积特征提取器、构建基于源卷积特征提取器的目标卷积神经网络模型、训练目标卷积神经网络模型和输入图片进行文字识别。本发明通过分析卷积神经网络模型的特点提出了一种新的特征迁移方法,使得源特征生成器结构和目标网络结构可以灵活地进行定义,从而在文字图像识别应用中更具备鲁棒,解决了传统卷积网络特征迁移方法在特征迁移的网络模型构建过程中缺乏灵活性的问题。

Description

一种基于卷积神经网络特征融合迁移的文字识别方法
技术领域
本发明涉及图像识别领域,尤其涉及一种基于卷积神经网络特征迁移的文字识别方法。
背景技术
现如今在各种互联网应用中,图片是信息传递的重要载体,特别是在社交领域、媒体领域和电子商务领域等应用中,每天都会产生和传播亿兆级别的图像,很多图像都包括了文字信息而将图片中的文字信息识别成具体的文字编码被称为图片文字识别(OCR)。图片文字识别对商业领域和工业领域自动化具有一定的应用价值,是打通线上和线下数据信息化通道的重要手段,也是如今学术界关注的热点之一。
文字识别对于书面文本数字化应用具有重要意义,比如在报纸、书籍和票据等的数字化应用上:保险、金融和快递等行业通常有大量单据,只有对这些单据进行数字化后才能方便存储、检索和分析;现如今司法界正在推行智能法务,对于办案过程中产生的手写的文书常常需要数字化存储;医疗领域里的医生手稿和教育领域里的作业题、考试答卷等都具有数字化存储的需求。文字识别问题上的难点在于处理图像模糊和光照等变化因素,通常平板扫描仪获取的扫描图片清晰较高,对其进行文字识别具有较高的准确率。而对于手机等设备拍摄的图片,由于光照的变化,文字识别率则会降低。对室外自然场景图片中的文字进行检测和识别,由于可变因素太多和带标注的数据量有限,其仍是当今研究的热点和难点问题。
现如今文字识别的主流方法是基于深度卷积神经网络的图像识别方法,深度卷积神经网络在图像识别领域逐渐显现出巨大优势,在近几年里的微软COCO图像描述竞赛和ImageNet图像识别大赛里,使用深度卷积神经网络的机器学习方法占据统治地位,而其他传统机器学习算法逐渐被边缘化。深度卷积神经网络在上述比赛中能够取得成功的原因在于超大规模的数据量,其图像样本采集自互联网上与生活相关的类别事物,样本数量巨大并且由专门的团队进行标注维护。然而对于特定的领域,比如室外室外自然场景图片中的文字进行检测和识别,其带标注的数据规模比较小,无法支持训练一个高性能的复杂卷积神经网络模型。对于这种情况,基于卷积特征迁移的方法提供了一种解决问题的新思路,借助其他领域的知识来提升性能,比如:可以在其它数据量充足的文字识别领域(源领域)训练源卷积特征提取器,然后把它的输出作为当前文字识别领域(目标领域)的目标卷积神经网络的辅助特征。目前已有的基于卷积神经网络特征迁移的方法分为两种:
(1)第一种方式的架构如图1所示,这种方法采用将源特征生成器的最后一层特征向量作为目标域卷积神经网络在分类层的辅助输入,使用这种特征输入方式可以让特征生成器和目标网络模型在底层相互独立,这样两者的层次数都是可变的并且互不影响,从而可以灵活的设计网络模型,但缺点是只能迁移特征生成器在分类层产生的特征语义信息而无法迁移底层的卷积语义信息
(2)第二种方式的架构如图2所示,这种方法采用侧连的输入方式,在目标网络的各个卷积层拼接上源特征生成器对应层次的卷积特征图,这样可以迁移源特征生成器在各个卷积层提取的语义特征信息,但这种方法存在缺点:使用这个特征输入方式的架构要求目标卷积模型和源特征生成器有相同的卷积层次,无法灵活的设计网络结构。
因此,需要一种基于卷积神经网络特征融合迁移的文字识别方法,使得源特征生成器结构和目标网络结构可以灵活地进行定义,从而在文字图像识别应用中更具备鲁棒。
发明内容
为了解决上述问题,本发明提出一种基于卷积神经网络特征融合迁移的文字识别方法。
一种基于卷积神经网络特征融合迁移的文字识别方法,包括:构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt、训练目标卷积神经网络模型Mt和输入图片进行文字识别;
所述构建源卷积特征提取器Gs,是对源领域中的文字图片样本进行预测;
所述训练源卷积特征提取器Gs,是利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化;
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt,是对目标领域文字图片样本进行预测,其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征;
所述训练目标卷积神经网络模型Mt,是利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述构建源卷积特征提取器Gs采用以下步骤:
S11:构建5个卷积模块,每个卷积模块的构建过程为:顺序依次构建卷积层,batchnormalization层,relu非线性激活层、卷积层,batch normalization层,relu非线性激活层,max池化层;
S12:构建分类层模块Classifier,其过程为:顺序依次构建第一全连接层,batchnormalization层,relu非线性激活层,第二全连接层,batch normalization层,relu非线性激活层,第三全连接层,软最大化softmax层。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述卷积层的卷积核大小为3*3,输出特征图数分别为64、128、256、512、512,max池化层的池化核大小为2*2;所述第一全连接层和第二全连接层的输出特征数为4096,第三全连接层的输出特征数为C,其中C为待分类的图片类别数。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述训练源卷积特征提取器Gs包括以下步骤:
S21:对Gs的参数进行随机初始化;
S22:随机从源领域训练数据集中采用一批次样本记作(Xs,Ys),并对Xs进行归一化和标准化处理;
S23:顺序经过源卷积特征提取器Gs中的5个卷积模块及分类层模块,进行前向传播,将结果记作:Gs(Xs),并保留Gs里各层计算的中间结果;
S24:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;G(Xi)j表示样本Xi被输入到Gs后得到的属于类别j的概率值;
S25:对源卷积特征提取器Gs进行反向传播:根据步骤S23中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化;
S26:判断Gs是否达到最优,是则保存最优模型,否则跳到步骤S22。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt包括以下步骤:
S31:为数据量有限的目标领域构建一个目标卷积神经网络;
S32:对源特征生成器各层的卷积特征图进行转换,最后将转换的结果特征图作为辅助特征输入目标卷积神经网络,其中对源特征生成器各层的卷积特征图进行转换的过程见步骤S32、S33和S34。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述对源特征生成器各层的卷积特征图进行转换包括如下子步骤:
S321:首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算,将这次的卷积操作的输出通道数统一用一个超参数ω进行设置;
S322:将步骤S321得到的卷积特征图按照从底层到高层的顺序进行处理,首先对隶属于同一个卷积模块的输出卷积特征图进行一次加性融合,然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作;
S323:将得到的所有通道数为τ的特征图视作一个特征集合,然后将特征集合输入到目标卷积网络的每一个卷积层,在输入的时候,会根据目标网络中卷积层的输入特征图大小,将特征集合中每一个特征图进行采样变换到相应的大小,并在每一个目标层为特征集合生成新的卷积参数,最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作。
进一步的,一种基于卷积神经网络特征融合迁移的文字识别方法,所述训练目标卷积神经网络模型Mt采用以下步骤:
S41:对目标卷积神经网络模型Mt的参数进行随机初始化;对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结,使其不参与目标域训练过程中的参数更新优化。
S42:随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt),并对Xt进行归一化和标准化处理。
S43:对目标卷积神经网络模型Mt进行前向传播,将结果记作:Mt(Xt),并保留Mt里各层计算的中间结果。
S44:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;Mt(Xi)j表示样本Xi被输入到Mt后得到的属于类别j的概率值。
S45:对目标卷积神经网络模型Mt进行反向传播:根据步骤S43中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化。
S46:判断Mt是否达到最优,是则保存最优模型,否则跳到步骤S42。
本发明的有益效果在于:解决了传统卷积网络特征迁移方法在特征迁移的网络模型构建过程中缺乏灵活性的问题,本发明通过分析卷积神经网络模型的特点提出了一种新的特征迁移方法,使得源特征生成器结构和目标网络结构可以灵活地进行定义,从而在文字图像识别应用中更具备鲁棒。
附图说明
图1为传统的基于分类层的特征迁移方式;
图2为传统的卷积特征迁移方式;
图3为基于卷积神经网络特征融合的特征迁移;
图4为特征融合过程的具体结构;
图5为特征自适应输入结构;
图6为本发明的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,假设训练模型时采用的是交叉熵分类准则,但本发明不限于交叉熵分类准则。
如图3所示,一种基于卷积神经网络特征融合迁移的文字识别方法,包括:构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt和训练目标卷积神经网络模型Mt。图4和图5分别展示了基于源卷积特征提取器所构建的目标卷积神经网络模型Mt的特征融合过程(CONV Layer#1,CONV Layer#2,Σ)和特征自适应输入(Adaptive Training Input)。
所述构建源卷积特征提取器Gs,用于对源领域中的文字图片样本进行预测。
所述训练源卷积特征提取器Gs,用于利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化。
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt,用于对目标领域文字图片样本进行预测,其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征。
所述训练目标卷积神经网络模型Mt,用于利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。
优选的,所述构建源卷积特征提取器采用以下步骤:
A1:构建卷积模块COVN Module#1,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:64),batch normalization层,relu非线性激活层、卷积层(卷积核大小:3*3,输出特征图数:64),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A2:构建卷积模块COVN Module#2,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:128),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:128),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A3:构建卷积模块COVN Module#3,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:256),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:256),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:256),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A4:构建卷积模块COVN Module#4,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A5:构建卷积模块COVN Module#5,其过程为:顺序依次构建卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,卷积层(卷积核大小:3*3,输出特征图数:512),batch normalization层,relu非线性激活层,max池化层(池化核大小:2*2)。
A6:构建分类层模块Classifier,其过程为:顺序依次构建全连接层(输出特征数为4096),batch normalization层,relu非线性激活层,全连接层(输出特征数为4096),batch normalization层,relu非线性激活层,全连接层(输出特征数为c,其中c待分类的图片类别数),软最大化softmax层,(这里假设文字图片满足每张图片对应一个文字,可以使用交叉熵分类准则进行训练,但是可以将分类层替换成其他分类准则所需要的结构)。
所述训练源卷积特征提取器采用以下步骤:
B0:对Gs的参数进行随机初始化,随机初始化参数采用的方法为从区间均匀随机取值,其中d是当前层神经元的输入数量。
B1:随机从源领域训练数据集中采用一小批次样本记作(Xs,Ys),并对Xs进行归一化和标准化处理。
B2:对源卷积特征提取器Gs进行前向传播(顺序经过卷积模块COVN Module #1、卷积模块COVN Module #2,卷积模块COVN Module #3,卷积模块COVN Module #4,卷积模块COVNModule #5和分类层模块Classifier),将结果记作:Gs(Xs),并保留Gs里各层计算的中间结果。
B3:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;G(Xi)j表示样本Xi被输入到Gs后得到的属于类别j的概率值。
B4:对源卷积特征提取器Gs进行反向传播:根据步骤B2中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化,更新方式如下:
θt=θt-1-vt
其中θ和θt分别表示模型的任意一个参数和在优化过程中第t次迭代后的相应参数值;vt是第t次迭代的动量;表示模型的代价函数cost对参数θ的导数函数在θt-1这个点的函数值;γ表示动量项衰减超参数,被设置为0.9;ε为梯度下降算法的学习率,被设置成2e-4。
B5:判断Gs是否达到最优,是则保存最优模型,否则跳到步骤B1。
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt采用以下步骤:
C0:首先为数据量有限的目标领域构建一个精心设计的目标卷积神经网络,然后对源特征生成器各层的卷积特征图进行转换,最后将转换的结果特征图作为辅助特征输入目标卷积神经网络,其中对源特征生成器各层的卷积特征图进行转换的过程见步骤C1、C2和C3。
C1:首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算(记作CONV Layer #1),这里为了应对复杂的源特征生成器结构,将卷积操作的输出通道数统ω设置成21。
C2:将步骤C1得到的卷积特征图按照从底层到高层的顺序进行处理,首先对隶属于同一个卷积模块(COVN Module#i,i=1,…,4)的输出卷积特征图进行一次加性融合(记作Σ),然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作(记作CONV Layer#2),其中τ被设置成1。
C3:将前面得到的所有通道数为τ的特征图视作一个特征集合(Feature Set),然后将特征集合输入到目标卷积网络的每一个卷积层。在输入的时候,会根据目标网络中卷积层的输入特征图大小,将特征集合中每一个特征图进行采样变换到相应的大小,并在每一个目标层为Feature Set生成新的卷积参数,最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作,我们将这个步骤记作:AdaptiveTraining Input,图5展示了这种自适应输入的结构。
训练目标卷积神经网络模型Mt采用以下步骤:
D0:对Mt的参数进行随机初始化,随机初始化参数采用的方法为从区间均匀随机取值,其中d是当前层神经元的输入数量;对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结,使其不参与目标域训练过程中的参数更新优化。
D1:随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt),并对Xt进行归一化和标准化处理。
D2:对目标卷积神经网络模型Mt进行前向传播,将结果记作:Mt(Xt),并保留Mt里各层计算的中间结果。
D3:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;Mt(Xi)j表示样本Xi被输入到Mt后得到的属于类别j的概率值。
D4:对目标卷积神经网络模型Mt进行反向传播:根据步骤D2中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化,更新方式如下:
θt=θt-1-vt
其中θ和θt分别表示模型的任意一个参数和在优化过程中第t次迭代后的相应参数值;vt是第t次迭代的动量;表示模型的代价函数cost对参数θ的导数函数在θt-1这个点的函数值;γ表示动量项衰减超参数,被设置为0.9;ε为梯度下降算法的学习率,被设置成2e-4。
D5:判断Mt是否达到最优,是则保存最优模型,否则跳到步骤D1。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于包括:构建源卷积特征提取器Gs、训练源卷积特征提取器Gs、构建基于源卷积特征提取器的目标卷积神经网络模型Mt、训练目标卷积神经网络模型Mt和输入图片进行文字识别;
所述构建源卷积特征提取器Gs,是对源领域中的文字图片样本进行预测;
所述训练源卷积特征提取器Gs,是利用数据量充足的源领域的文字图片样本并基于批量梯度下降算法对源卷积特征提取器的参数进行学习优化;
所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt,是对目标领域文字图片样本进行预测,其中目标卷积神经网络模型的输入包括目标域图片样本的特征和源源卷积特征提取器提供的辅助特征;
所述训练目标卷积神经网络模型Mt,是利用数据量有限的目标领域的文字图片样本并基于批量梯度下降算法对目标卷积神经网络模型的参数进行学习优化。
2.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述构建源卷积特征提取器Gs采用以下步骤:
S11:构建5个卷积模块,每个卷积模块的构建过程为:顺序依次构建卷积层,batchnormalization层,relu非线性激活层、卷积层,batch normalization层,relu非线性激活层,max池化层;
S12:构建分类层模块Classifier,其过程为:顺序依次构建第一全连接层,batchnormalization层,relu非线性激活层,第二全连接层,batch normalization层,relu非线性激活层,第三全连接层,软最大化softmax层。
3.根据权利要求2所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述卷积层的卷积核大小为3*3,输出特征图数分别为64、128、256、512、512,max池化层的池化核大小为2*2;所述第一全连接层和第二全连接层的输出特征数为4096,第三全连接层的输出特征数为C,其中C为待分类的图片类别数。
4.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述训练源卷积特征提取器Gs包括以下步骤:
S21:对Gs的参数进行随机初始化;
S22:随机从源领域训练数据集中采用一批次样本记作(Xs,Ys),并对Xs进行归一化和标准化处理;
S23:顺序经过源卷积特征提取器Gs中的5个卷积模块及分类层模块,进行前向传播,将结果记作:Gs(Xs),并保留Gs里各层计算的中间结果;
S24:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;G(Xi)j表示样本Xi被输入到Gs后得到的属于类别j的概率值;
S25:对源卷积特征提取器Gs进行反向传播:根据步骤S23中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化;
S26:判断Gs是否达到最优,是则保存最优模型,否则跳到步骤S22。
5.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述构建基于源卷积特征提取器的目标卷积神经网络模型Mt包括以下步骤:
S31:为数据量有限的目标领域构建一个目标卷积神经网络;
S32:对源特征生成器各层的卷积特征图进行转换,最后将转换的结果特征图作为辅助特征输入目标卷积神经网络,其中对源特征生成器各层的卷积特征图进行转换的过程见步骤S32、S33和S34。
6.根据权利要求5所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述对源特征生成器各层的卷积特征图进行转换包括如下子步骤:
S321:首先对源特征生成器中的每一个卷积特征图逐一进行一次卷积运算,将这次的卷积操作的输出通道数统一用一个超参数ω进行设置;
S322:将步骤S321得到的卷积特征图按照从底层到高层的顺序进行处理,首先对隶属于同一个卷积模块的输出卷积特征图进行一次加性融合,然后对融合后的卷积特征图执行一次输出通道数为τ的卷积操作;
S323:将得到的所有通道数为τ的特征图视作一个特征集合,然后将特征集合输入到目标卷积网络的每一个卷积层,在输入的时候,会根据目标网络中卷积层的输入特征图大小,将特征集合中每一个特征图进行采样变换到相应的大小,并在每一个目标层为特征集合生成新的卷积参数,最后将此特征集合和相应卷积层原生的输入特征图融合成一个完整的多通道特征图并进行相应的卷积操作。
7.根据权利要求1所述的一种基于卷积神经网络特征融合迁移的文字识别方法,其特征在于,所述训练目标卷积神经网络模型Mt采用以下步骤:
S41:对目标卷积神经网络模型Mt的参数进行随机初始化;对源卷积特征提取器Gs的参数使用在源领域中训练的最优模型参数进行初始化并且将其冻结,使其不参与目标域训练过程中的参数更新优化。
S42:随机从目标领域训练数据集中采用一小批次样本记作(Xt,Yt),并对Xt进行归一化和标准化处理。
S43:对目标卷积神经网络模型Mt进行前向传播,将结果记作:Mt(Xt),并保留Mt里各层计算的中间结果。
S44:使用交叉熵准则计算代价,计算方式如下:
其中1{·}是表示性函数,其运算规则为1{表达式的值等于真}=1,1{表达式的值等于假}=0;Mt(Xi)j表示样本Xi被输入到Mt后得到的属于类别j的概率值。
S45:对目标卷积神经网络模型Mt进行反向传播:根据步骤S43中保存的各层计算的中间结果,计算代价对各层参数的导数值并使用梯度下降算法对其进行更新优化。
S46:判断Mt是否达到最优,是则保存最优模型,否则跳到步骤S42。
CN201910459252.3A 2019-05-29 2019-05-29 一种基于卷积神经网络特征融合迁移的文字识别方法 Expired - Fee Related CN110210468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910459252.3A CN110210468B (zh) 2019-05-29 2019-05-29 一种基于卷积神经网络特征融合迁移的文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910459252.3A CN110210468B (zh) 2019-05-29 2019-05-29 一种基于卷积神经网络特征融合迁移的文字识别方法

Publications (2)

Publication Number Publication Date
CN110210468A true CN110210468A (zh) 2019-09-06
CN110210468B CN110210468B (zh) 2022-12-16

Family

ID=67789322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910459252.3A Expired - Fee Related CN110210468B (zh) 2019-05-29 2019-05-29 一种基于卷积神经网络特征融合迁移的文字识别方法

Country Status (1)

Country Link
CN (1) CN110210468B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674648A (zh) * 2019-09-29 2020-01-10 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN111259880A (zh) * 2020-01-09 2020-06-09 国网浙江省电力有限公司舟山供电公司 一种基于卷积神经网络的电力操作票文字识别方法
CN111932445A (zh) * 2020-07-27 2020-11-13 广州市百果园信息技术有限公司 对风格迁移网络的压缩方法及风格迁移方法、装置和系统
CN112507995A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换系统及方法
CN112560861A (zh) * 2020-12-10 2021-03-26 上海亿保健康管理有限公司 票据处理方法、装置、设备及存储介质
CN113191944A (zh) * 2021-05-31 2021-07-30 大连民族大学 一种多通道图像内容特征融合风格迁移方法及系统
CN115968087A (zh) * 2023-03-16 2023-04-14 中建八局发展建设有限公司 一种会展中心交互式灯光控制装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069472A (zh) * 2015-08-03 2015-11-18 电子科技大学 一种基于卷积神经网络自适应的车辆检测方法
CN107909566A (zh) * 2017-10-28 2018-04-13 杭州电子科技大学 一种基于深度学习的皮肤癌黑色素瘤的图像识别方法
CN108182427A (zh) * 2018-01-30 2018-06-19 电子科技大学 一种基于深度学习模型和迁移学习的人脸识别方法
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN108830242A (zh) * 2018-06-22 2018-11-16 北京航空航天大学 基于卷积神经网络的sar图像海洋目标分类检测方法
CN109086723A (zh) * 2018-08-07 2018-12-25 广东工业大学 一种基于迁移学习的人脸检测的方法、装置以及设备
US20190095700A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Long-tail large scale face recognition by non-linear feature level domain adaption

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069472A (zh) * 2015-08-03 2015-11-18 电子科技大学 一种基于卷积神经网络自适应的车辆检测方法
US20190095700A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Long-tail large scale face recognition by non-linear feature level domain adaption
CN107909566A (zh) * 2017-10-28 2018-04-13 杭州电子科技大学 一种基于深度学习的皮肤癌黑色素瘤的图像识别方法
CN108182427A (zh) * 2018-01-30 2018-06-19 电子科技大学 一种基于深度学习模型和迁移学习的人脸识别方法
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN108830242A (zh) * 2018-06-22 2018-11-16 北京航空航天大学 基于卷积神经网络的sar图像海洋目标分类检测方法
CN109086723A (zh) * 2018-08-07 2018-12-25 广东工业大学 一种基于迁移学习的人脸检测的方法、装置以及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARYK ANDERSON等: "BEYOND FINE TUNING: A MODULAR APPROACH TO LEARNING ON SMALL DATA", 《ARXIV.ORG》 *
KUNIAKI SAITO等: "Maximum Classifier Discrepancy for Unsupervised Domain Adaptation", 《ARXIV.ORG》 *
段萌等: "基于卷积神经网络的小样本图像识别方法", 《计算机工程与设计》 *
王东升: "面向光学遥感图像目标识别的卷积神经网络研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674648A (zh) * 2019-09-29 2020-01-10 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN110674648B (zh) * 2019-09-29 2021-04-27 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN111259880A (zh) * 2020-01-09 2020-06-09 国网浙江省电力有限公司舟山供电公司 一种基于卷积神经网络的电力操作票文字识别方法
CN111259880B (zh) * 2020-01-09 2022-11-18 国网浙江省电力有限公司舟山供电公司 一种基于卷积神经网络的电力操作票文字识别方法
WO2021139175A1 (zh) * 2020-01-09 2021-07-15 国网浙江省电力有限公司舟山供电公司 一种基于卷积神经网络的电力操作票文字识别方法
CN111932445A (zh) * 2020-07-27 2020-11-13 广州市百果园信息技术有限公司 对风格迁移网络的压缩方法及风格迁移方法、装置和系统
CN112560861B (zh) * 2020-12-10 2022-11-18 上海亿保健康管理有限公司 票据处理方法、装置、设备及存储介质
CN112560861A (zh) * 2020-12-10 2021-03-26 上海亿保健康管理有限公司 票据处理方法、装置、设备及存储介质
CN112507995A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换系统及方法
CN112507995B (zh) * 2021-02-05 2021-06-01 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换系统及方法
CN113191944A (zh) * 2021-05-31 2021-07-30 大连民族大学 一种多通道图像内容特征融合风格迁移方法及系统
CN113191944B (zh) * 2021-05-31 2023-11-07 大连民族大学 一种多通道图像内容特征融合风格迁移方法及系统
CN115968087A (zh) * 2023-03-16 2023-04-14 中建八局发展建设有限公司 一种会展中心交互式灯光控制装置

Also Published As

Publication number Publication date
CN110210468B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110210468A (zh) 一种基于卷积神经网络特征融合迁移的文字识别方法
CN108960073B (zh) 面向生物医学文献的跨模态图像模式识别方法
Hatami et al. Classification of time-series images using deep convolutional neural networks
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN111639679A (zh) 一种基于多尺度度量学习的小样本学习方法
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
CN109886072B (zh) 基于双向Ladder结构的人脸属性分类系统
CN108629367A (zh) 一种基于深度网络增强服装属性识别精度的方法
CN106778863A (zh) 基于Fisher判别字典学习的仓库货品识别方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN113837308B (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN110349229A (zh) 一种图像描述方法及装置
Sharma et al. Deep eigen space based ASL recognition system
CN111062451A (zh) 一种基于文本引导图模型的图像描述生成方法
CN110245228A (zh) 确定文本类别的方法和装置
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN117218498A (zh) 基于多模态编码器的多模态大语言模型训练方法及系统
CN104331717B (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
CN110188621A (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
CN114398935A (zh) 一种基于深度学习的医学影像报告多标签分类方法
CN115797642B (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221216