CN107909101B - 基于卷积神经网络的半监督迁移学习字符识别方法及系统 - Google Patents

基于卷积神经网络的半监督迁移学习字符识别方法及系统 Download PDF

Info

Publication number
CN107909101B
CN107909101B CN201711106410.4A CN201711106410A CN107909101B CN 107909101 B CN107909101 B CN 107909101B CN 201711106410 A CN201711106410 A CN 201711106410A CN 107909101 B CN107909101 B CN 107909101B
Authority
CN
China
Prior art keywords
class label
batch
character picture
aiming field
identification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711106410.4A
Other languages
English (en)
Other versions
CN107909101A (zh
Inventor
彭良瑞
汤野骏
刘长松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711106410.4A priority Critical patent/CN107909101B/zh
Publication of CN107909101A publication Critical patent/CN107909101A/zh
Application granted granted Critical
Publication of CN107909101B publication Critical patent/CN107909101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供基于卷积神经网络的半监督迁移学习字符识别方法,包括:将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得,提高了识别精度。本发明提供的基于卷积神经网络的半监督迁移学习字符识别方法及系统,能利用大量有类别标签的源域样本、少量有类别标签的目标域样本和较容易获得的无类别标签的目标域样本进行半监督迁移学习,提高了卷积神经网络对目标域样本的适应能力。

Description

基于卷积神经网络的半监督迁移学习字符识别方法及系统
技术领域
本发明涉及信息处理技术领域,更具体地,涉及基于卷积神经网络的半监督迁移学习字符识别方法及系统。
背景技术
由于深度神经网络有较强的非线性描述能力,已在文字识别等方面取得了优于传统模式识别与机器学习方法的成效。但是,深度神经网络在应用中也存在一些问题。首先,深度神经网络由于结构复杂,参数较多,需要大量有类别标签的样本进行监督学习;另外,将深度神经网络用于具体文字识别或其他任务时,需要假设测试集和训练集的特征向量服从相同的统计分布,但在实际应用场景下,这样的假设难以成立。因此,如何有效提高深度神经网络对实际样本的适应能力成为一个关键问题。
例如,对于古籍汉字识别,获取大量人工标记的古籍汉字类别标签较为费时费力。而有类别标签的印刷体繁体汉字样本数量众多,但与古籍汉字有较大差异,一般称印刷体繁体汉字的数据集为源域,古籍汉字的数据集为目标域。传统迁移学习方法一般只利用目标域少量有类别标签的样本,通过将学习将目标域样本特征向量经过线性或非线性的映射转换到与源域样本特征向量分布相同的空间中,从而利用在源域上经监督学习得到的分类模型进行识别。
但是现有技术提供的迁移学习方法仅利用了目标域中有类别标签的样本进行监督学习,一方面由于目标域中有类别标签的样本数量太少,另一方面未能考虑到目标域中有类别标签的样本作为的训练集和目标域中无类别标签作为的测试集之间难以服从相同的统计分布,导致网络对样本的适应能力不高,从而影响识别精度。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于卷积神经网络的半监督迁移学习字符识别方法及系统,所述方法包括:
基于卷积神经网络的半监督迁移学习字符识别方法,其特征在于,包括:
步骤1、将测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
其中,所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得,包括:
将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型;
将目标域中有类别标签的批量字符图像样本作为第二训练集,对所述第一识别模型进行监督迁移学习,得到第二识别模型;
在所述第二识别模型中添加无监督学习目标函数,并将所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合,以构建第三识别模型;
将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本作为第三训练集,对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络。
其中,步骤1之前所述方法还包括:
对所述源域中有类别标签的批量字符图像样本、所述目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本进行图像二值化和图像大小归一化。
其中,将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型,包括:
将所述源域中有类别标签的批量字符图像样本作为第一训练集输入所述预设的卷积神经网络中;
基于预设的训练次数和所述卷积神经网络的监督学习目标函数,利用所述第一训练集对所述卷积神经网络进行训练,以得到训练后的所述第一识别模型。
其中,所述无监督学习的目标函数的表达式为:
其中,LU是所述无监督学习的目标函数,xl为目标域中有类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,xu为所述目标域中无类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,n为向量xl,xu的维度,k(·,·)为核函数;
所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合的表达式为:
L=LS+LU(xl,xu),
其中,所述L为结合后的半监督迁移学习的目标函数,Ls为所述第二识别模型中的监督学习目标函数。
其中,所述核函数为预设数量的高斯核函数,所述高斯核函数为:
其中,所述γm为第m个高斯核函数的带宽参数,m=1,...M,M为所述预设数量。
其中,所述将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本作为第三训练集,对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络,包括:
将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本同时输入所述第三识别模型中,获取所述目标域中有类别标签的批量字符图像样本对应的第一全连接层输出向量和所述目标域中无类别标签的批量字符图像样本对应的第二全连接层输出向量;
基于所述第一全连接层输出向量和所述第二全连接层输出向量,计算所述无监督学习的目标函数;
基于所述无监督学习的目标函数和获取的所述第二识别模型中的监督学习目标函数,利用反向传播和梯度下降法对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络。
根据本发明的第二方面,提供一种基于卷积神经网络的半监督迁移学习字符识别系统,包括:
监督学习模块,用于将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型;
监督迁移学习模块,用于将目标域中有类别标签的批量字符图像样本作为第二训练集,对所述第一识别模型进行监督迁移学习,得到第二识别模型;
目标函数融合模块,用于在所述第二识别模型中添加无监督学习目标函数,并将所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合,以构建第三识别模型;
识别模块,用于将测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
根据本发明的第三方面,提供一种计算机程序产品,包括程序代码,所述程序代码用于执行上述所述的基于卷积神经网络的半监督迁移学习字符识别方法。
根据本发明的第四方面,提供一种非暂态计算机可读存储介质,用于存储如前所述的计算机程序。
本发明提供的基于卷积神经网络的半监督迁移学习字符识别方法及系统,一方面通过利用源域中大量有标签类别的字符样本进行监督学习扩充训练样本集数量,使得模型能得到足够数量样本集支持,另一方面通过同时利用目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本进行训练,从而提高网络对样本的适应能力,以获取更高的识别精度。
附图说明
图1是本发明实施例提供的一种基于卷积神经网络的半监督迁移学习字符识别方法流程图;
图2是本发明实施例提供的源域样本示意图;
图3是本发明实施例提供的目标域样本示意图;
图4是本发明实施例提供的一种基于卷积神经网络的半监督迁移学习字符识别系统结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明实施例提供的一种基于卷积神经网络的半监督迁移学习字符识别方法流程图,如图1所示,所述方法包括:
步骤1、将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
现有技术中,针对于古籍汉字识别,已经有研究机构开始利用深度神经网络进行识别,在识别过程中,一般只利用目标域少量有类别标签的字符图像样本对源域上经监督学习得到的分类模型进行参数细调。
但是目标域中还有部分是无类别标签的字符图像样本,那么仅以目标域少量有类别标签的字符图像样本进行监督学习的网络模型对实际样本的适应力很低,从而造成识别精度不高。
针对上述现有技术中存在的问题,本发明实施例提供了一种基于卷积神经网络的半监督迁移学习字符识别方法,来提高网络模型对实际样本的适应力。
步骤1中,所述测试样本集即本发明实施例需要进行识别的目标数据集,在本发明实施例具体表现为目标域中无类别标签的样本图像集,需要说明的是,所述目标域中无类别标签也包括暂且忽略类别标签信息的情况。
步骤1中所述源域为大量印刷体繁体汉字构成的数据集,图2是本发明实施例提供的源域样本示意图。
可以理解的是,源域所包含的有类别标签的批量字符图像样本数量多并且易于获取,是良好的用于监督学习的样本。
所述目标域即本发明实施例需要进行识别的目标数据集,在本发明实施例中具体为古籍汉字样本图像构成的数据集,图3是本发明实施例提供的目标域样本示意图。
可以理解的是,所述古籍汉字样本图像中有少量的样本图像含有类别标签,而大量的样本图像不含有类别标签。
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得,具体包括:
S1、将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型;
S2、将目标域中有类别标签的批量字符图像样本作为第二训练集,对所述第一识别模型进行监督迁移学习,得到第二识别模型;
S3、在所述第二识别模型中添加无监督学习目标函数,并将所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合,以构建第三识别模型;
S4、将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本作为第三训练集,对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络。
现有技术中,针对于古籍汉字识别,已经有研究机构开始利用深度神经网络进行识别,在识别过程中,一般只利用目标域少量有类别标签的字符图像样本对源域上经监督学习得到的分类模型进行参数细调。
S1中,所述预设的卷积神经网络为任一深度神经网络模型,通过使用大量样本对卷积神经网络的学习,能够对测试样本进行识别和预测功能。
优选的,本发明实施例提供了GoogLeNet作为预设的卷积神经网络,进一步的,由于GoogLeNet模型输入为图像宽度和高度均为224像素的RGB三通道彩色图像,而训练样本图像的宽度和高度可能不为224像素,因此本发明实施例减少了原GoogLeNet的网络层数和卷积核大小及步长,从而得到适用于字符图像的简化模型,具体的减少比例和数值将根据训练图像样本具体的图像宽度和高度进行设置。
具体地,所述将目标域中有类别标签的批量字符图像样本作为第二训练集,对所述第一识别模型进行监督迁移学习,得到第二识别模型包括:
将所述源域中有类别标签的批量字符图像样本作为第一训练集输入所述预设的卷积神经网络中;
基于预设的训练次数和所述卷积神经网络的监督学习目标函数,利用所述第一训练集对所述卷积神经网络进行训练,以得到训练后的所述第一识别模型。
具体地,在本发明实施例中,将源域中有类别标签的批量字符图像样本作为第一训练集输入所述预设的卷积神经网络中,再根据预设的训练次数和所述卷积神经网络的监督学习目标函数,利用所述第一训练集对所述卷积神经网络进行训练。需要说明的是,上述训练过程满足以下特点:输入的样本集数量多并且预设的训练次数多。
优选的,本发明实施例将901680个源域中有类别标签的批量字符图像样本作为第一训练集,将样本处理数目设置为每批处理20个,再通过迭代训练得到第一识别模型。
优选的,本发明实施例设置了50000次训练次数,需要说明的是,50000次只是本发明实施例为了对卷积神经网络进行充分学习而设置的优选参数,但本发明实施例对具体的训练次数不做具体限定。
S2中,所述目标域即本发明实施例需要进行识别的目标数据集,在本发明实施例中具体为古籍汉字样本图像构成的数据集,可以理解的是,所述古籍汉字样本图像中有少量的样本图像含有类别标签,而大量的样本图像不含有类别标签。
那么实质上在S2中所述第二训练集的数量实质上是较少的,在本发明实施例中,只是通过较少的目标域中有类别标签的批量字符图像样本进行监督迁移学习,以细微调整所述第一识别模型中的参数。
具体地,S2包括:
将目标域中有类别标签的批量字符图像样本作为第二训练集输入所述第一识别模型中;
基于预设的训练次数和所述第一识别模型的监督迁移学习目标函数,利用所述第二训练集对所述第一识别模型进行训练,以得到训练后的所述第二识别模型。
可以理解的是,对比于源域中有类别标签的批量字符图像样本,在目标域中有类别标签的批量字符图像样本数量只能称为少量或微量,优选的,在本发明实施例中,提供了25984个目标域中有类别标签的字符图像样本,并将这部分图像样本作为所述第二训练集输入所述第一识别模型,以对所述第一识别模型进行监督迁移学习,进一步的,本发明实施例将监督迁移学习后的模型称之为第二识别模型。
那么在利用第二训练集进行训练时,对应的训练过程满足以下特点:训练样本数较少,训练次数较少,优选的,本发明实施例提供了25984个目标域中有类别标签的字符图像样本作为第二训练集总量,将样本处理数目设置为每批处理20个,再通过迭代训练得到第二识别模型。
优选的,本发明实施例设置了10000次训练次数,需要说明的是,10000次只是本发明实施例为了对第一识别模型进行充分学习而设置的优选参数,但本发明实施例对具体的训练次数不做具体限定。
在上述实施例的基础上,步骤1之前所述方法还包括:
对所述源域中有类别标签的批量字符图像样本、所述目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本进行图像二值化和图像大小归一化。
需要说明的是,由于源域中的样本图像和目标域中的样本图像的像素大小和像素比例可能不一致,故在进行训练学习之前,本发明实施例需要对样本图像进行图像二值化和图像大小归一化。
优选的,本发明实施例通过图像二值化,将前景像素设为1,背景像素设为0;通过图像大小归一化,将图像宽度和高度设为固定值。
在本发明实施例中,将图像高度和宽度归一化大小均设定为96像素,对应的本发明实施例以图像高度和宽度为96像素调整预设的卷积神经网络模型,使得图像高度和宽度为96像素的图像样本能够成功输入卷积神经网络中。
在上述实施例的基础上,S3中所述无监督学习的目标函数的表达式为:
其中,LU是所述无监督学习的目标函数,xl为目标域中有类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,xu为所述目标域中无类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,n为向量xl,xu的维度,k(·,·)为核函数;
所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合的表达式为:
L=LS+LU(xl,xu),
其中,所述L为结合后的半监督迁移学习的目标函数,Ls为所述第二识别模型中的监督学习目标函数。
进一步的,所述核函数为预设数量的高斯核函数,所述高斯核函数为:
其中,所述γm为第m个高斯核函数的带宽参数,m为所述预设数量。
需要说明的是,本发明实施例提供的无监督学习的目标函数采用多核最大平均差异MK-MMD,由MK-MMD的计算式可以理解:在本发明实施例中有类别标签的批量字符图像样本和无类别标签的批量字符图像样本同时作为构建的第三识别模型的输入,并且分别在全连接层输出了两个不同的向量,基于上述两个不同的向量和预设的核函数对目标函数进行误差计算,从而调配训练过程。
具体地,在本发明实施例中,采用了预设数量的高斯核函数作为核函数,具体的高斯核函数为:
其中,所述γm为第m个高斯核函数的带宽参数,在本发明实施例中将带宽参数设置为:M为所述预设数量,在半监督迁移学习过程中按批次分别计算带宽参数。
优选的,本发明实施例将核数目M设置为5,经过本发明实施例试验验证,在M=5时,识别精度最高,故而M=5为本发明实施例提供的优选方案。
本发明实施例采用的高斯核函数,能够将输入的两个特征向量的距离度量转换为概率度量,进一步采用多核的高斯核函数有利于描述更复杂的统计分布。
在上述实施例的基础上,S4包括:
将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本同时输入所述第三识别模型中,获取所述目标域中有类别标签的批量字符图像样本对应的第一全连接层输出向量和所述目标域中无类别标签的批量字符图像样本对应的第二全连接层输出向量;
基于所述第一全连接层输出向量和所述第二全连接层输出向量,计算所述无监督学习的目标函数;
基于所述无监督学习的目标函数和获取的所述第二识别模型中的监督学习目标函数,利用反向传播和梯度下降法对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络。
本发明实施例在S4中使用所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本共同作为第三训练集对第三识别模型半监督迁移学习。
可以理解的是,半监督迁移学习是由于所述第三识别模型既保留了原有第二识别模型中具有的用于监督学习的Softmax交叉熵目标函数,还结合了加入的用于无监督学习的MK-MMD目标函数,从而使得构造的第三识别模型具有半监督迁移学习能力。
具体地,将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本同时输入所述第三识别模型中,对应的在全连接层获取目标域中有类别标签的批量字符图像样本的全连接层输出向量xl,即本发明实施例所述的第一全连接层输出向量,以及目标域中无类别标签的批量字符图像样本对应的全连接层输出向量xu,即本发明实施例中所述的第二全连接层输出向量。
那么由全连接层输出向量xl和全连接层输出向量xu和步骤S3中提供的目标函数计算式,可以计算出本发明实施例提供的无监督学习目标函数LU(xl,xu)。
需要说明的是,在第三识别模型中,对于目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本对应的卷积层和全连接层参数共享,以使处理有类别标记样本和无类别标记样本的模型参数相同。
再通过L=LS+LU(xl,xu)将无监督学习目标函数LU(xl,xu)与所述第二识别模型中的监督学习目标函数进行结合,从而计算第三识别模型的误差。
最后将误差沿所述第三识别模型反向传播,并基于梯度下降法对所述第三识别模型进行半监督迁移学习。
可以理解的是,进行半监督迁移学习后的第三识别模型即为本发明实施例提供的半监督迁移学习后的卷积神经网络,将测试样本集输入所述半监督迁移学习后的卷积神经网络中,即可得到识别结果。
优选的,在S4中,本发明实施例提供的第三训练集包括了25984个目标域中有类别标签的字符图像样本以及31425个目标域中无类别标签的字符图像样本,同时测试样本集也采用31425个目标域中无类别标签的字符图像样本。
进一步的,本发明实施例在S4训练过程也将每批处理大小设为20组样本,每组样本包括一个有类别标签的目标域字符图像样本和一个无类别标签的目标域字符图像样本。
优选的,本发明实施例设置训练次数为6000次,本发明实施例对具体的训练次数不做具体限定。
在上述实施例的基础上,本发明实施例分别将第一识别模型、第二识别模型以及半监督迁移学习后的卷积神经网络对测试样本集进行测试,测试结果如表1所示:
表1古籍汉字测试实验结果
通过表1的实验结果可以理解,本发明实施例提供的半监督迁移学习后的卷积神经网络能够显著提高识别精度。
图4是本发明实施例提供的一种基于卷积神经网络的半监督迁移学习字符识别系统结构图,如图4所示,一种大数据跨模态检索系统,包括:识别模块1,其中:
识别模块1用于将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
具体的,基于卷积神经网络的半监督迁移学习字符识别系统对应的识别方法在上述实施例中已经详细解释,本发明实施例在此不再赘述。
本发明提供的基于卷积神经网络的半监督迁移学习字符识别系统,能利用大量有类别标签的源域样本、少量有类别标签的目标域样本和较容易获得的无类别标签的目标域样本进行半监督迁移学习,最终提高了卷积神经网络对目标域样本的适应能力,从而提高识别精度。
本发明实施例提供一种基于卷积神经网络的半监督迁移学习字符识别系统,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法,例如包括:步骤1、将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像,识别所述测试样本集的字符图像;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:步骤1、将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像,识别所述测试样本集的字符图像;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:步骤1、将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像,识别所述测试样本集的字符图像;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于卷积神经网络的半监督迁移学习字符识别方法,其特征在于,包括:
步骤1、将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得,包括:
将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型;
将目标域中有类别标签的批量字符图像样本作为第二训练集,对所述第一识别模型进行监督迁移学习,得到第二识别模型;
在所述第二识别模型中添加无监督学习目标函数,并将所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合,以构建第三识别模型;
将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本作为第三训练集,对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络;步骤1之前所述方法还包括:
对所述源域中有类别标签的批量字符图像样本、所述目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本进行图像二值化和图像大小归一化;所述无监督学习的目标函数的表达式为:
其中,LU是所述无监督学习的目标函数,xl为目标域中有类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,xu为所述目标域中无类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,n为向量xl,xu的维度,k(,)为核函数;
所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合的表达式为:
L=LS+LU(xl,xu),
其中,所述L为结合后的半监督迁移学习的目标函数,Ls为所述第二识别模型中的监督学习目标函数;所述核函数为预设数量的高斯核函数,所述高斯核函数为:
其中,所述γm为第m个高斯核函数的带宽参数,m=1,...M,M为所述预设数量。
2.根据权利要求1所述的方法,其特征在于,将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型,包括:
将所述源域中有类别标签的批量字符图像样本作为第一训练集输入所述预设的卷积神经网络中;
基于预设的训练次数和所述卷积神经网络的监督学习目标函数,利用所述第一训练集对所述卷积神经网络进行训练,以得到训练后的所述第一识别模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本作为第三训练集,对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络,包括:
将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本同时输入所述第三识别模型中,获取所述目标域中有类别标签的批量字符图像样本对应的第一全连接层输出向量和所述目标域中无类别标签的批量字符图像样本对应的第二全连接层输出向量;
基于所述第一全连接层输出向量和所述第二全连接层输出向量,计算所述无监督学习的目标函数;
基于所述无监督学习的目标函数和获取的所述第二识别模型中的监督学习目标函数,利用反向传播和梯度下降法对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络。
4.基于卷积神经网络的半监督迁移学习字符识别系统,其特征在于,包括:
识别模块,用于将测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;
所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得,包括:
将源域中有类别标签的批量字符图像样本作为第一训练集,对预设的卷积神经网络进行监督学习,得到第一识别模型;
将目标域中有类别标签的批量字符图像样本作为第二训练集,对所述第一识别模型进行监督迁移学习,得到第二识别模型;
在所述第二识别模型中添加无监督学习目标函数,并将所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合,以构建第三识别模型;
将所述目标域中有类别标签的批量字符图像样本和所述目标域中无类别标签的批量字符图像样本作为第三训练集,对所述第三识别模型进行半监督迁移学习,以得到所述半监督迁移学习后的卷积神经网络;所述系统还用于:
对所述源域中有类别标签的批量字符图像样本、所述目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本进行图像二值化和图像大小归一化;所述无监督学习的目标函数的表达式为:
其中,LU是所述无监督学习的目标函数,xl为目标域中有类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,xu为所述目标域中无类别标签的批量字符图像样本在所述第三识别模型的全连接层输出的向量,n为向量xl,xu的维度,k(,)为核函数;
所述无监督学习目标函数与所述第二识别模型中的监督学习目标函数结合的表达式为:
L=LS+LU(xl,xu),
其中,所述L为结合后的半监督迁移学习的目标函数,Ls为所述第二识别模型中的监督学习目标函数;所述核函数为预设数量的高斯核函数,所述高斯核函数为:
其中,所述γm为第m个高斯核函数的带宽参数,m=1,...M,M为所述预设数量。
5.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。
CN201711106410.4A 2017-11-10 2017-11-10 基于卷积神经网络的半监督迁移学习字符识别方法及系统 Active CN107909101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711106410.4A CN107909101B (zh) 2017-11-10 2017-11-10 基于卷积神经网络的半监督迁移学习字符识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711106410.4A CN107909101B (zh) 2017-11-10 2017-11-10 基于卷积神经网络的半监督迁移学习字符识别方法及系统

Publications (2)

Publication Number Publication Date
CN107909101A CN107909101A (zh) 2018-04-13
CN107909101B true CN107909101B (zh) 2019-07-12

Family

ID=61844894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711106410.4A Active CN107909101B (zh) 2017-11-10 2017-11-10 基于卷积神经网络的半监督迁移学习字符识别方法及系统

Country Status (1)

Country Link
CN (1) CN107909101B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086654B (zh) * 2018-06-04 2023-04-28 平安科技(深圳)有限公司 手写模型训练方法、文本识别方法、装置、设备及介质
CN108875725A (zh) * 2018-06-05 2018-11-23 华南理工大学 一种基于视觉识别的邮件自动分拣装置及方法
CN110619342B (zh) * 2018-06-20 2023-02-03 鲁东大学 一种基于深度迁移学习的旋转机械故障诊断方法
CN109034205B (zh) * 2018-06-29 2021-02-02 西安交通大学 基于直推式半监督深度学习的图像分类方法
CN109146847B (zh) * 2018-07-18 2022-04-05 浙江大学 一种基于半监督学习的晶圆图批量分析方法
CN109086723B (zh) * 2018-08-07 2022-03-25 广东工业大学 一种基于迁移学习的人脸检测的方法、装置以及设备
CN109087315B (zh) * 2018-08-22 2021-02-23 中国科学院电子学研究所 一种基于卷积神经网络的图像识别定位方法
CN111260651B (zh) * 2018-11-30 2023-11-10 西安电子科技大学 一种基于深度迁移学习的胃部低质量mri图像分割方法
CN109583506B (zh) * 2018-12-06 2020-06-09 哈尔滨工业大学 一种基于参数迁移学习的无监督图像识别方法
CN109740676B (zh) * 2019-01-07 2022-11-22 电子科技大学 基于相似目标的物体检测迁移方法
CN109919209B (zh) * 2019-02-26 2020-06-19 中国人民解放军军事科学院国防科技创新研究院 一种领域自适应深度学习方法及可读存储介质
CN110705591A (zh) * 2019-03-09 2020-01-17 华南理工大学 一种基于最优子空间学习的异构迁移学习方法
CN110111297B (zh) * 2019-03-15 2021-03-30 浙江大学 一种基于迁移学习的注塑制品表面图像缺陷识别方法
CN111831949B (zh) * 2019-04-22 2023-09-15 百度在线网络技术(北京)有限公司 快速垂类目标识别分类方法、分类系统及分类装置
CN110111803B (zh) * 2019-05-09 2021-02-19 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110188829B (zh) * 2019-05-31 2022-01-28 北京市商汤科技开发有限公司 神经网络的训练方法、目标识别的方法及相关产品
CN110377911B (zh) * 2019-07-23 2023-07-21 中国工商银行股份有限公司 对话框架下的意图识别方法和装置
CN110598603A (zh) * 2019-09-02 2019-12-20 深圳力维智联技术有限公司 人脸识别模型获取方法、装置、设备和介质
CN110555060B (zh) * 2019-09-09 2023-05-02 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN110674877B (zh) * 2019-09-26 2023-06-27 联想(北京)有限公司 图像处理方法和装置
CN112581250B (zh) * 2019-09-30 2023-12-29 深圳无域科技技术有限公司 模型生成方法、装置、计算机设备和存储介质
US11257255B2 (en) * 2019-12-03 2022-02-22 Leica Microsystems Cms Gmbh Domain matching methods for transportable imaging applications
CN111126386B (zh) * 2019-12-20 2023-06-30 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法
CN111209935B (zh) * 2019-12-26 2022-03-25 武汉安视感知科技有限公司 基于自适应域转移的无监督目标检测方法及系统
US11481691B2 (en) 2020-01-16 2022-10-25 Hyper Labs, Inc. Machine learning-based text recognition system with fine-tuning model
CN111696056B (zh) * 2020-05-25 2023-05-02 五邑大学 一种基于多任务迁移学习的数字档案图像的矫正方法
CN111860669B (zh) * 2020-07-27 2024-05-07 平安科技(深圳)有限公司 Ocr识别模型的训练方法、装置和计算机设备
CN111949796B (zh) * 2020-08-24 2023-10-20 云知声智能科技股份有限公司 一种资源受限语种语音合成前端文本分析方法及系统
CN111998936B (zh) * 2020-08-25 2022-04-15 四川长虹电器股份有限公司 一种基于迁移学习的设备异音检测方法及系统
CN112464645A (zh) * 2020-10-30 2021-03-09 中国电力科学研究院有限公司 一种半监督学习方法、系统、设备和存储介质及语义解析方法
CN112637165B (zh) * 2020-12-14 2022-08-30 广东电网有限责任公司 模型训练方法、网络攻击检测方法、装置、设备及介质
CN112634048B (zh) * 2020-12-30 2023-06-13 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置
CN112990345A (zh) * 2021-04-09 2021-06-18 北京有竹居网络技术有限公司 书写质量评价方法、装置和电子设备
CN113239967A (zh) * 2021-04-14 2021-08-10 北京达佳互联信息技术有限公司 文字识别模型训练方法、识别方法、相关设备及存储介质
CN113360659B (zh) * 2021-07-19 2022-11-22 云南大学 一种基于半监督学习的跨领域情感分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239759A (zh) * 2017-05-27 2017-10-10 中国科学院遥感与数字地球研究所 一种基于深度特征的高空间分辨率遥感图像迁移学习方法
CN107316054A (zh) * 2017-05-26 2017-11-03 昆山遥矽微电子科技有限公司 基于卷积神经网络和支持向量机的非标准字符识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140272883A1 (en) * 2013-03-14 2014-09-18 Northwestern University Systems, methods, and apparatus for equalization preference learning
CN103186774B (zh) * 2013-03-21 2016-03-09 北京工业大学 一种基于半监督学习的多姿态人脸表情识别方法
US9607217B2 (en) * 2014-12-22 2017-03-28 Yahoo! Inc. Generating preference indices for image content
CN106295697A (zh) * 2016-08-10 2017-01-04 广东工业大学 一种基于半监督的迁移学习分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316054A (zh) * 2017-05-26 2017-11-03 昆山遥矽微电子科技有限公司 基于卷积神经网络和支持向量机的非标准字符识别方法
CN107239759A (zh) * 2017-05-27 2017-10-10 中国科学院遥感与数字地球研究所 一种基于深度特征的高空间分辨率遥感图像迁移学习方法

Also Published As

Publication number Publication date
CN107909101A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107909101B (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
Jang et al. Learning what and where to transfer
CN106778682B (zh) 一种卷积神经网络模型的训练方法及其设备
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN105205448B (zh) 基于深度学习的文字识别模型训练方法和识别方法
CN107609638B (zh) 一种基于线性编码器和插值采样优化卷积神经网络的方法
CN106599789A (zh) 视频类别识别方法和装置、数据处理装置和电子设备
CN111639679A (zh) 一种基于多尺度度量学习的小样本学习方法
CN113128620B (zh) 一种基于层次关系的半监督领域自适应图片分类方法
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN108596274A (zh) 基于卷积神经网络的图像分类方法
CN110334589A (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN109376787B (zh) 流形学习网络及基于其的计算机视觉图像集分类方法
CN109740679A (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
Jeon et al. T-gd: Transferable gan-generated images detection framework
Vallet et al. A multi-label convolutional neural network for automatic image annotation
CN108334910A (zh) 一种事件检测模型训练方法以及事件检测方法
CN110059677A (zh) 基于深度学习的数字表识别方法及设备
CN110569780A (zh) 一种基于深度迁移学习的高精度人脸识别方法
CN113128478A (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN110287985A (zh) 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法
Fardous et al. Handwritten isolated Bangla compound character recognition
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN109145749A (zh) 一种跨数据集的面部表情识别模型构建及识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant