CN115601764A - 基于轻量级卷积神经网络的古籍汉字识别方法 - Google Patents

基于轻量级卷积神经网络的古籍汉字识别方法 Download PDF

Info

Publication number
CN115601764A
CN115601764A CN202211283747.3A CN202211283747A CN115601764A CN 115601764 A CN115601764 A CN 115601764A CN 202211283747 A CN202211283747 A CN 202211283747A CN 115601764 A CN115601764 A CN 115601764A
Authority
CN
China
Prior art keywords
model
expert
class
loss
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211283747.3A
Other languages
English (en)
Inventor
周俊伟
梁宇成
向剑文
夏喆
赵冬冬
熊盛武
杨焱超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202211283747.3A priority Critical patent/CN115601764A/zh
Publication of CN115601764A publication Critical patent/CN115601764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轻量级卷积神经网络的古籍汉字识别方法。通过集成多个专家模型,在训练过程中将预测概率分布差异项加入损失函数,降低在全体类别上的预测偏差和方差,从而提高在所有类别上的识别精度,同时引入模型轻量化技术降低了集成模型的计算开销和参数量,实现轻量级的古籍汉字长尾样本识别模型。本发明得到的模型在样本严重不均衡的古籍汉字数据集上能够有效提升在生僻字样本集上的识别精度,并与常规轻量级模型的计算复杂度和参数量相近。

Description

基于轻量级卷积神经网络的古籍汉字识别方法
技术领域
本发明属于汉字字符识别技术领域,具体涉及一种基于轻量级卷积神经网络的古籍汉字识别方法。
背景技术
基于深度学习的汉字字符识别方法已成为光符识别技术(optical characterrecognition,OCR)的主流技术方案,但仅在类别均衡的数据集上表现良好。由于古籍文本图像中收集而来的汉字数据集中,出现频率高的常用字占据了大部分样本,生僻汉字仅能获取到少量甚至是零星数量的样本,并且生僻字的类别数量远远大于常用汉字,因此使用基于交叉熵损失函数的CNN分类模型将在分布严重不均衡的汉字样本集上面临生僻字识别精度不足的挑战。
虽然现有的长尾识别方法能够缓解上述问题,但普遍存在计算复杂度和参数量较高的问题,需要对现有模型进行轻量化处理,以符合存储资源受限设备的部署环境。
发明内容
本发明针对现有技术的不足,提供一种基于轻量级卷积神经网络的古籍汉字识别方法,以解决样本不均衡汉字数据集的识别精度问题和集成神经网络参数量高的问题。
为了达到上述目的,一种基于轻量级卷积神经网络的古籍汉字识别方法,包括以下步骤:
步骤1,由特征提取网络和多个专家模型构成集成模型,并通过分布差异损失和分类损失共同训练集成模型;
步骤2,在步骤1训练完成后的集成模型中加入专家模型分配模块,动态调整专家模型的开启数量以降低模型的计算开销;
步骤3,利用步骤2训练完成的集成模型输出伪标签样本集,通过类别重平衡采样更新有标签样本集;
步骤4,通过无标签样本和步骤3更新后的有标签样本共同训练集成模型;
步骤5,重复步骤3和4,实现对集成模型的迭代式训练;
步骤6,使用步骤5训练好的集成模型进行古籍汉字的识别。
而且,所述步骤1中集成模型包含一个共享的主干网络fθ和n个独立的专家模型ψθ=[ψ12,...,ψn],共享主干网络fθ为特征提取网络,每个专家模型的输入都来自共享主干网络对样例x的输出fθ(x)。在集成模型第一阶段的训练过程中,使用每个专家模型独立的分类损失
Figure BDA0003899036040000021
和不同专家模型之间的分布差异损失LD对fθ和ψθ同时进行优化,从而将分类损失
Figure BDA0003899036040000022
最小化以得到更高的集成模型精度,将分布差异损失LD最大化以得到多样化的专家模型,降低专家模型的预测偏差从而提高尾部类精度。
假设γmin=min{γ1,...,γk}表示每个类别与分类边界的最小边界距离,且类别j有nj个样本,即类别1和类别2分别有n1和n2个样本时,在二分类模型中存在实数δ∈(-γ21),对于γ1和γ2满足以下不等式:
Figure BDA0003899036040000023
式中,Υ1表示类别1和分类边界的最小边界距离,Υ2表示类别2和分类边界的最小边界距离,式(1)在满足以下条件时成立,其中C为未确定的超参数:
Figure BDA0003899036040000024
将上述二分类情况扩展到多分类任务时,类别j与边界的最佳距离Υj为:
Figure BDA0003899036040000025
式中,C为未确定的超参数,nj表示类别j的样本数。
分类损失函数计算方式如下:
Figure BDA0003899036040000026
式中,(x,y)表示样本x及其对应的标签y,f为分类模型,zj表示分类模型f对于类别j的样本x的输出f(x)j,Υj为边界距离,zy表示分类模型f对于类别y的样本x的输出f(x)y
为了使训练好的集成模型能有效区分头部类别的类内变化,并在样例缺乏的尾部类别上保持足够的鲁棒性,对专家模型的输出ψθ(fθ(x))进行软标签化操作,根据每个类别的样本数调节最终预测分布中置信度的大小,使集成模型能同时处理好头部和尾部类别。另外,引入知识蒸馏中温度调节的思想,在第一阶段训练过程中加入温度调节,使集成模型在训练初期学习到相对稳定的权值;温度T随着类别的样本数量线性增长,第k个类别对应的温度Tk的计算公式为:
Tk=α(βk+1-max(βk)) (5)
式中,α为常数值,通常取1;βk由所有类别的样本数执行归一化后得到,具体计算为:
Figure BDA0003899036040000031
式中,r为权值项,表示归一化的比重;nk为第k个类别的样本数;c为类别总数;ns为第s个类别的样本数。
当βk=1时,Tk=α,保证了在平衡数据集上每个类别的温度是相同的;对专家模型的预测分布进行温度调节后,第i个专家模型的输出p(i)(x,y)可表示为:
Figure BDA0003899036040000032
式中,Ψθi(fθ(x))c为温度调节前的第i个专家模型第c个类别的输出,Tc为第c个类别对应的温度,softmax函数将输出的值范围控制在[0,1]。
使用KL散度(KL-divergence)损失作为分布差异损失
Figure BDA0003899036040000033
计算方式如下:
Figure BDA0003899036040000034
式中,p(i)(x,y)为第i个专家模型的输出,DKL()为KL散度,n为类别的数目。
对于n个专家模型和一个共享的主干网络构成的集成模型,通过累加每个专家模型独立的分类损失LC和不同专家模型预测分布之间的分布差异损失
Figure BDA0003899036040000036
得到集成模型第一阶段训练过程总体的损失函数,计算公式如下:
Figure BDA0003899036040000035
式中,λ为权重系数,令λ<0从而使KL散度损失最大化。
而且,所述步骤2中加入专家模型分配模块完成集成模型训练的第二阶段,专家模型分配模块由多个路由开关构成,根据主干网络和专家模型的输出特征动态调节专家模型的开启数量,减少头部类样本推理过程中专家模型的开启数量,同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量,具体说来将路由模块的开启或关闭状态作为标签供路由开关学习,主干网络和专家模型的参数被冻结,仅负责特征输出,不再参与训练,通过训练专家模型分配模块,实现根据主干网络和上一个专家模型的输出判断是否分配下一个专家模型参与计算,当模型预测为样本数量充足的头部类别时能够减少专家模型的开启数量,起到降低集成模型计算开销的效果。
专家模型分配模块由一个共享路由模块W1和k-1个路由开关模块W2构成,W1和W2均为全连接层,共享路由W1用于降低主干网络fθ归一化的输出特征的维度。首先获取已开启的k个专家模型输出的平均化logits的前s位,与W1的输出进行concat操作,然后将concat操作后的特征输入到路由开关W2,W2通过sigmoid激活函数输出(0,1)范围内的值,以η作为阈值,若W2输出值大于η,继续分配第k+1个专家模型参与推理过程,若W2输出值小于η,则将当前的平均化logits经过softmax函数激活后的结果作为最终的预测分布。
这k-1个路由开关W2分别负责控制第2至第k个专家模型的开启状态,针对输入样本x,第k个路由开关W2的输出结果r(x)的计算过程表示为:
Figure BDA0003899036040000041
式中,W2(k)表示第k个路由开关W2,fθ(x)为主干网络的输出,Ψθk(fθ(x))为温度调节前第k个专家模型的输出,top-s表示取logits的前s位,s的数值根据数据集设定。
集成模型第二阶段训练的损失函数
Figure BDA0003899036040000042
的计算公式为:
Figure BDA0003899036040000043
式中,won为权重项,能够控制路由开关开启的难易程度;训练过程中的标签yon根据专家模型预测结果的正确与否给出,当第k个专家模型预测正确时,yon=0;当第k个专家模型预测错误时,若剩余的n-k的专家模型中有任意一个的预测是正确的,那么yon=1,否则yon=0。
训练过程中累计每个路由开关的
Figure BDA0003899036040000044
Figure BDA0003899036040000045
收敛后,路由开关能够根据其负责的专家模型的预测分布判断是否开启下一个专家模型,从而降低集成模型的计算开销。
而且,所述步骤3中从伪标签数据集中采样时,需要根据每个类别对应的伪标签样本数N(·)设置不同的采样率μ(·),类别对应的样本数越少则对该类别采集更多样本,从而实现在无标签数据集中进行类别重平衡采样。
类别l的采样率μ(l)的计算公式如下:
Figure BDA0003899036040000046
式中,α为恒定的采样率超参数,c为总类别数,N()表示类别对应的伪标签样本数。
而且,所述步骤4中学习有标签样本使用交叉熵损失函数作为有监督损失,学习无标签样本使用一致性正则化方法,一致性正则化方法假设模型对于加以不同扰动的无标签数据应输出相近的预测分布。本发明针对同一张无标签图像u加以幅度较强和较弱的两种数据增强方法,如果模型对弱增强图像w(u)预测分布q中的最高置信度超过预设的固定阈值τ,那么将其作为无标签样本one-hot形式的伪标签
Figure BDA0003899036040000051
与模型对强增强图像Ω(u)输出的预测分布一起计算无监督的交叉熵损失
Figure BDA0003899036040000052
实现对无标签数据的学习。
无监督损失
Figure BDA0003899036040000053
的计算公式如下:
Figure BDA0003899036040000054
qb=pm(w(ub)) (14)
式中,μ为无监督损失在总体训练损失中的权值项,B为训练批次样本数,τ为设定的置信度阈值,qb为模型对弱增强图像w(ub)的预测分布,max(qb)为预测分布中置信度的最大值,L(max(qb)>τ)表示筛选出max(qb)大于置信度阈值τ的预测样本进行学习,
Figure BDA0003899036040000055
表示置信度最大值对应的one-hot伪标签,Ω(ub)表示强增强的样本ub,pm(Ω(ub))为集成模型对强增强样本的预测分布,H表示交叉熵损失。
有监督损失
Figure BDA0003899036040000056
的计算方式如下:
Figure BDA0003899036040000057
式中,B为训练批次样本数,yb表示样本批次的真实标签,pm(w(xb))为集成模型对弱增强样本的预测分布,H表示交叉熵损失。
在用于均衡样本的半监督模型的训练中,同时使用有监督损失
Figure BDA0003899036040000058
和无监督损失
Figure BDA0003899036040000059
则总体损失函数
Figure BDA00038990360400000510
计算方式如下:
Figure BDA00038990360400000511
式中,λu为无监督损失的权重项。
而且,所述步骤5在训练过程中,首先采用基于恒定阈值的一致性正则化框架在有标签和无标签数据集上训练集成模型得到教师模型,通过教师模型可以得到无标签数据集的伪标签,然后使用类别重平衡策略对每个类别的伪标签数据以不同的采样率进行采样,将采样得到的伪标签数据集添加到有标签数据集中,生成更加均衡的有标签数据集,最后在新的有标签数据集和原始无标签数据集上继续训练,得到新的教师模型,通过反复迭代可得到精度更高的汉字识别模型。
与现有技术相比,本发明具有如下优点:
1)通过集成多个专家模型,在训练过程中将预测概率分布差异项加入损失函数,降低在全体类别上的预测偏差和方差,从而提高在所有类别上的识别精度。
2)引入模型轻量化技术降低了集成模型的计算开销和参数量,实现轻量级的古籍汉字长尾样本识别模型。
3)本发明得到的识别模型在样本严重不均衡的古籍汉字数据集上能够有效提升生僻字样本集的识别精度,并与常规轻量级模型的计算复杂度和参数量相近。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例集成模型第一阶段训练结构。
图3是本发明实施例集成模型第二阶段训练结构。
图4是本发明实施例基于一致性正则化的半监督学习方法。
具体实施方式
本发明提供一种基于轻量级卷积神经网络的古籍汉字识别方法,下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明实施例的流程包括以下步骤:
步骤1,由特征提取网络和多个专家模型构成集成模型,并通过分布差异损失和分类损失共同训练集成模型。
如图2所示,集成模型ENS-CNet包含一个共享的主干网络fθ和n个独立的专家模型ψθ=[ψ12,...,ψn],共享主干网络fθ为特征提取网络,每个专家模型的输入都来自共享主干网络对样例x的输出fθ(x)。在集成模型第一阶段的训练过程中,使用每个专家模型独立的分类损失
Figure BDA0003899036040000061
和不同专家模型之间的分布差异损失LD对fθ和ψθ同时进行优化,从而将分类损失
Figure BDA0003899036040000062
最小化以得到更高的集成模型精度,将分布差异损失LD最大化以得到多样化的专家模型,降低专家模型的预测偏差从而提高尾部类精度。
为提升集成模型在长尾数据集的尾部类精度,需要降低专家模型在尾部类上的泛化误差,但在严重不均衡数据集上,专家模型对尾部类特征的学习是不充分的,容易发生过拟合情况,所以需要给予尾部类更宽松的分类边界。本发明采用的分类损失
Figure BDA0003899036040000063
为标签分布感知边际损失(Label-Distribution-Aware Margin Loss,LDAM),能够增大尾部类与头部类分隔边界的距离,降低尾部类分类的难度。尾部类与边界的距离大小对于分类模型非常重要,过大的距离可能导致边界偏移到头部类,影响头部类的分类性能,距离过小又会导致模型在尾部类上的泛化能力不足,因此需要找到一个边界位置的平衡点。多类别分类的通用平衡点难以确定,但可以基于二分类任务计算得到平衡点的最优解,从而推广到多分类任务。
假设Υmin=min{γ1,...,γk}表示每个类别与分类边界的最小边界距离,且类别j有nj个样本,即类别1和类别2分别有n1和n2个样本时,在二分类模型中存在实数δ∈(-Υ21),对于Υ1和Υ2满足以下不等式:
Figure BDA0003899036040000071
式中,γ1表示类别1和分类边界的最小边界距离,γ2表示类别2和分类边界的最小边界距离,式(1)在满足以下条件时成立,其中C为未确定的超参数:
Figure BDA0003899036040000072
将上述二分类情况扩展到多分类任务时,类别j与边界的最佳距离γj为:
Figure BDA0003899036040000073
式中,C为未确定的超参数,nj表示类别j的样本数。
本发明用(x,y)表示样本x及其对应的标签y,f为分类模型,将分类模型f对于类别j的样本x的输出f(x)j简化表示为zj,将上述边界距离γj与Hinge损失共同改写为包含softmax激活函数的交叉熵损失函数得到分类损失函数LC
Figure BDA0003899036040000074
式中,zy表示分类模型f对于类别y的样本x的输出f(x)y
由公式(4)可以看出,分类损失函数中类间距离的计算考虑到了样本分布,能够处理长尾样本分布不均衡的问题。
在集成模型训练的第一阶段,分类损失
Figure BDA0003899036040000075
需要累计每个专家模型的预测分布ψθ(fθ(x))与标签y的差异,而不是仅衡量平均化之后的预测分布与标签的差异,从而使每个专家模型都充分学习头尾类别间的距离,在提升尾部类预测精度的同时不影响头部类精度。除了使用分类损失衡量预测分布与标签的差异,还使用分布差异损失衡量各个专家模型间的预测分布差异,不同的是,后者在训练过程中将LDAM损失最小化,将分布差异损失最大化,使得不同的专家模型输出互补的预测分布,避免输出过于极端的预测分布,对于长尾数据集而言这样做能有效降低专家模型偏差,提升集成模型的整体性能。
为了使训练好的集成模型能有效区分头部类别的类内变化,并在样例缺乏的尾部类别上保持足够的鲁棒性,对专家模型的输出ψθ(fθ(x))进行软标签化操作,根据每个类别的样本数调节最终预测分布中置信度的大小,使集成模型能同时处理好头部和尾部类别。另外,引入知识蒸馏中温度调节的思想,在第一阶段训练过程中加入温度调节,使集成模型能在训练初期学习到相对稳定的权值。温度T随着类别的样本数量线性增长,第k个类别对应的温度Tk的计算公式为:
Tk=α(βk+1-max(βk)) (5)
式中,α为常数值,通常取1;βk由所有类别的样本数执行归一化后得到,具体计算为:
Figure BDA0003899036040000081
式中,r为权值项,表示归一化的比重;nk为第k个类别的样本数;c为类别总数;ns为第s个类别的样本数。
当βk=1时,可得出Tk=α,保证了在平衡数据集上每个类别的温度是相同的,因此本发明的温度处理机制也可以用于集成模型学习样本平衡的数据集。
对专家模型的预测分布进行温度调节后,第i个专家模型的输出p(i)(x,y)可表示为:
Figure BDA0003899036040000082
式中,Ψθi(fθ(x))c为温度调节前的第i个专家模型第c个类别的输出,Tc为第c个类别对应的温度,softmax函数将输出的值范围控制在[0,1]。
对于长尾分布样本的预测,需要进一步增大专家模型间的预测差异,以达到互补效果,使用KL散度(KL-divergence)损失作为分布差异损失
Figure BDA0003899036040000083
与分类损失
Figure BDA0003899036040000084
共同指导集成模型第一阶段的训练,分布差异损失的具体计算如下:
Figure BDA0003899036040000085
式中,p(i)(x,y)为第i个专家模型的输出,DKL()为KL散度,n为类别的数目。
对于n个专家模型和一个共享的主干网络构成的集成模型,通过累加每个专家模型独立的分类损失LC和不同专家模型预测分布之间的分布差异损失
Figure BDA0003899036040000086
可以得到集成模型第一阶段训练过程总体的损失函数,计算公式如下:
Figure BDA0003899036040000087
式中,λ为权重系数,令λ<0从而使KL散度损失最大化。
步骤2,在步骤1训练完成后的集成模型中加入专家模型分配模块,动态调整专家模型的开启数量以降低模型的计算开销。
由于头部类别拥有的样本数量多,专家模型能够相对容易地学习到类别特征,在推理阶段不需要开启过多的专家模型进行预测,而难以学习的尾部类样本则需要尽量多的专家模型共同参与决策。因此加入专家模型分配模块完成集成模型第二阶段的训练,如图3所示,专家模型分配模块由多个路由开关构成,根据主干网络和专家模型的输出特征动态调节专家模型的开启数量,减少头部类样本推理过程中专家模型的开启数量,同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量。
第二阶段中将路由模块的开启或关闭状态作为标签供路由开关学习,主干网络和专家模型的参数被冻结,仅负责特征输出,不再参与训练。通过训练专家模型分配模块,实现根据主干网络和上一个专家模型的输出判断是否分配下一个专家模型参与计算,当模型预测为样本数量充足的头部类别时能够减少专家模型的开启数量,起到降低集成模型计算开销的效果。
专家模型分配模块由一个共享路由模块W1和k-1个路由开关模块W2构成,W1和W2均为全连接层;共享路由W1用于降低主干网络fθ归一化的输出特征的维度;首先获取已开启的k个专家模型输出的平均化logits的前s位,与W1的输出进行concat操作,然后将concat操作后的特征输入到路由开关W2,W2通过sigmoid激活函数输出(0,1)范围内的值,以η作为阈值,若W2输出值大于η,继续分配第k+1个专家模型参与推理过程,若W2输出值小于η,则将当前的平均化logits经过softmax函数激活后的结果作为最终的预测分布。
这k-1个路由开关W2分别负责控制第2至第k个专家模型的开启状态,针对输入样本x,第k个路由开关W2的输出结果r(x)的计算过程表示为:
Figure BDA0003899036040000091
式中,
Figure BDA0003899036040000092
表示第k个路由开关W2,fθ(x)为主干网络的输出,Ψθk(fθ(x))为温度调节前第k个专家模型的输出,top-s表示取logits的前s位,s的数值根据数据集设定。
本实施例中用于优化r(x)的损失函数
Figure BDA0003899036040000093
由二进制交叉熵损失改写而来,区别是加入了权重项won,won能够控制路由开关开启的难易程度,集成模型第二阶段训练的损失函数
Figure BDA0003899036040000094
的计算公式为:
Figure BDA0003899036040000095
式中,训练过程中的标签yon根据专家模型预测结果的正确与否给出,当第k个专家模型预测正确时,yon=0;当第k个专家模型预测错误时,若剩余的n-k的专家模型中有任意一个的预测是正确的,那么yon=1,否则yon=0。例如包含3个专家的集成模型中,当第1个专家预测正确,那么yon=0,预测错误时如果第2个和第3个专家中有预测正确的,那么yon=1,否则yon=0。
训练过程中累计每个路由开关的
Figure BDA0003899036040000101
Figure BDA0003899036040000102
收敛后,路由开关能够根据其负责的专家模型的预测分布判断是否开启下一个专家模型,从而降低集成模型的计算开销,特别是在常用字样本的推理过程中。
步骤3,利用步骤2训练完成的集成模型输出伪标签样本集,通过类别重平衡采样更新有标签样本集。
在实际场景中,古籍汉字图片的人工标注存在耗时久、难度大的问题,因此在人力有限的情况下,古籍汉字数据集中会存在大量无标签的图像,通过半监督学习方法能够使模型学习这些无标签样本,进一步提高模型精度。
在图1的半监督学习过程中,用于无标签古籍汉字的半监督模型采用了迭代训练的方式,在迭代训练的过程中需要从伪标签数据集中选取样本,使更新后的有标签数据集更趋向于类别平衡的数据集,因此从伪标签数据集中采样时,需要根据每个类别对应的伪标签样本数N(·)设置不同的采样率μ(·),类别对应的样本数越少则对该类别采集更多样本,从而实现在无标签数据集中进行类别重平衡采样。
类别l的采样率μ(l)的计算公式如下:
Figure BDA0003899036040000103
式中,α为恒定的采样率超参数,c为总类别数,N()表示类别对应的伪标签样本数。
在有标签样本集的迭代更新过程中,重平衡策略确保了尾部类相比头部类有更高的采样率,更多的生僻字样本会添加到有标签样本集中,并通过集成模型的学习,共同增强半监督学习场景下模型对生僻字样本的学习效果。
步骤4,通过无标签样本和步骤3更新后的有标签样本共同训练集成模型。
学习有标签样本使用常见的交叉熵损失函数作为有监督损失,学习无标签样本使用一致性正则化方法,一致性正则化方法假设模型对于加以不同扰动的无标签数据应输出相近的预测分布。基于这一假设,本发明针对同一张无标签图像u加以幅度较强和较弱的两种数据增强方法,如果模型对弱增强图像w(u)预测分布q中的最高置信度超过预设的固定阈值τ,那么将其作为无标签样本one-hot形式的伪标签
Figure BDA0003899036040000104
与模型对强增强图像Ω(u)输出的预测分布一起计算无监督的交叉熵损失
Figure BDA0003899036040000111
实现对无标签数据的学习,本发明中一致性正则化方法的流程如图4所示。
在用于均衡样本的半监督模型的训练中,同时使用有监督损失
Figure BDA0003899036040000112
和无监督损失
Figure BDA0003899036040000113
Figure BDA0003899036040000114
均为交叉熵损失函数。
无监督损失
Figure BDA0003899036040000115
的计算公式如下:
Figure BDA0003899036040000116
qb=pm(w(ub)) (14)
式中,μ为无监督损失在总体训练损失中的权值项,B为训练批次样本数,τ为设定的置信度阈值,qb为模型对弱增强图像w(ub)的预测分布,max(qb)为预测分布中置信度的最大值,L(max(qb)>τ)表示筛选出max(qb)大于置信度阈值τ的预测样本进行学习,
Figure BDA0003899036040000117
表示置信度最大值对应的one-hot伪标签,Ω(ub)表示强增强的样本ub,pm(Ω(ub))为集成模型对强增强样本的预测分布,H表示交叉熵损失。
有监督损失
Figure BDA0003899036040000118
的计算方式如下:
Figure BDA0003899036040000119
式中,B为训练批次样本数,yb表示样本批次的真实标签,pm(w(xb))为集成模型对弱增强样本的预测分布,H表示交叉熵损失。
用于均衡样本的半监督模型的总体损失函数
Figure BDA00038990360400001110
计算方式如下:
Figure BDA00038990360400001111
式中,λu为无监督损失的权重项。
步骤5,重复步骤3和4,实现对集成模型的迭代式训练。
在训练过程中,首先采用基于恒定阈值的一致性正则化框架在有标签和无标签数据集上训练集成模型得到教师模型,通过教师模型可以得到无标签数据集的伪标签,之后使用类别重平衡策略对每个类别的伪标签数据以不同的采样率进行采样,将采样得到的伪标签数据集添加到有标签数据集中,从而生成更加均衡的有标签数据集,然后在新的有标签数据集和原始无标签数据集上继续训练,得到新的教师模型,通过反复迭代可得到精度更高的汉字识别模型。
步骤6,使用步骤5训练好的集成模型进行古籍汉字的识别。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (9)

1.一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于,包括以下步骤:
步骤1,由特征提取网络和多个专家模型构成集成模型,并通过分布差异损失和分类损失共同训练集成模型;
步骤2,在步骤1训练完成后的集成模型中加入专家模型分配模块,动态调整专家模型的开启数量以降低模型的计算开销;
步骤3,利用步骤2训练完成的集成模型输出伪标签样本集,通过类别重平衡采样更新有标签样本集;
步骤4,通过无标签样本和步骤3更新后的有标签样本共同训练集成模型;
步骤5,重复步骤3和4,实现对集成模型的迭代式训练;
步骤6,使用步骤5训练好的集成模型进行古籍汉字的识别。
2.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤1中集成模型ENS-CNet包含一个共享的主干网络fθ和n个独立的专家模型ψθ=[ψ12,...,ψn],共享主干网络fθ为特征提取网络,每个专家模型的输入都来自共享主干网络对样例x的输出fθ(x);在集成模型第一阶段的训练过程中,使用每个专家模型独立的分类损失
Figure FDA0003899036030000011
和不同专家模型之间的分布差异损失LD对fθ和ψθ同时进行优化,从而将分类损失
Figure FDA0003899036030000012
最小化以得到更高的集成模型精度,将分布差异损失LD最大化以得到多样化的专家模型,降低专家模型的预测偏差从而提高尾部类精度。
3.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤1中假设Υmin=min{Υ1,...,Υk}表示每个类别与分类边界的最小边界距离,且类别j有nj个样本,即类别1和类别2分别有n1和n2个样本时,在二分类模型中存在实数δ∈(-Υ21),对于Υ1和Υ2满足以下不等式:
Figure FDA0003899036030000013
式中,Υ1表示类别1和分类边界的最小边界距离,Υ2表示类别2和分类边界的最小边界距离,式(1)在满足以下条件时成立,其中C为未确定的超参数:
Figure FDA0003899036030000014
将上述二分类情况扩展到多分类任务时,类别j与边界的最佳距离Υj为:
Figure FDA0003899036030000015
式中,C为未确定的超参数,nj表示类别j的样本数;
分类损失函数计算方式如下:
Figure FDA0003899036030000021
式中,(x,y)表示样本x及其对应的标签y,f为分类模型,zj表示分类模型f对于类别j的样本x的输出f(x)j,Υj为边界距离,zy表示分类模型f对于类别y的样本x的输出f(x)y
4.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤1中为了使训练好的集成模型能有效区分头部类别的类内变化,并在样例缺乏的尾部类别上保持足够的鲁棒性,对专家模型的输出ψθ(fθ(x))进行软标签化操作,根据每个类别的样本数调节最终预测分布中置信度的大小,使集成模型能同时处理好头部和尾部类别;另外,引入知识蒸馏中温度调节的思想,在第一阶段训练过程中加入温度调节,使集成模型在训练初期学习到相对稳定的权值;温度T随着类别的样本数量线性增长,第k个类别对应的温度Tk的计算公式为:
Tk=α(βk+1-max(βk)) (5)
式中,α为常数值,通常取1;βk由所有类别的样本数执行归一化后得到,具体计算为:
Figure FDA0003899036030000022
式中,r为权值项,表示归一化的比重;nk为第k个类别的样本数;c为类别总数;ns为第s个类别的样本数;
当βk=1时,Tk=α,保证了在平衡数据集上每个类别的温度是相同的;对专家模型的预测分布进行温度调节后,第i个专家模型的输出p(i)(x,y)表示为:
Figure FDA0003899036030000023
式中,Ψθi(fθ(x))c为温度调节前的第i个专家模型第c个类别的输出,Tc为第c个类别对应的温度,softmax函数将输出的值范围控制在[0,1];
使用KL散度(KL-divergence)损失作为分布差异损失
Figure FDA0003899036030000024
计算方式如下:
Figure FDA0003899036030000025
式中,p(i)(x,y)为第i个专家模型的输出,DKL()为KL散度,n为类别的数目;
对于n个专家模型和一个共享的主干网络构成的集成模型,通过累加每个专家模型独立的分类损失LC和不同专家模型预测分布之间的分布差异损失
Figure FDA0003899036030000031
得到集成模型第一阶段训练过程总体的损失函数,计算公式如下:
Figure FDA0003899036030000032
式中,λ为权重系数,令λ<0从而使KL散度损失最大化。
5.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤2中加入专家模型分配模块完成集成模型训练的第二阶段,专家模型分配模块由多个路由开关构成,根据主干网络和专家模型的输出特征动态调节专家模型的开启数量,减少头部类样本推理过程中专家模型的开启数量,同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量,具体说来将路由模块的开启或关闭状态作为标签供路由开关学习,主干网络和专家模型的参数被冻结,仅负责特征输出,不再参与训练,通过训练专家模型分配模块,实现根据主干网络和上一个专家模型的输出判断是否分配下一个专家模型参与计算,当模型预测为样本数量充足的头部类别时能够减少专家模型的开启数量,起到降低集成模型计算开销的效果。
6.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤2中专家模型分配模块由一个共享路由模块W1和k-1个路由开关模块W2构成,W1和W2均为全连接层;共享路由W1用于降低主干网络fθ归一化的输出特征的维度;首先获取已开启的k个专家模型输出的平均化logits的前s位,与W1的输出进行concat操作,然后将concat操作后的特征输入到路由开关W2,W2通过sigmoid激活函数输出(0,1)范围内的值,以η作为阈值,若W2输出值大于η,继续分配第k+1个专家模型参与推理过程,若W2输出值小于η,则将当前的平均化logits经过softmax函数激活后的结果作为最终的预测分布;这k-1个路由开关W2分别负责控制第2至第k个专家模型的开启状态,针对输入样本x,第k个路由开关W2的输出结果r(x)的计算过程表示为:
Figure FDA0003899036030000033
式中,
Figure FDA0003899036030000034
表示第k个路由开关W2,fθ(x)为主干网络的输出,Ψθk(fθ(x))为温度调节前第k个专家模型的输出,top-s表示取logits的前s位,s的数值根据数据集设定;
集成模型第二阶段训练的损失函数
Figure FDA0003899036030000041
的计算公式为:
Figure FDA0003899036030000042
式中,won为权重项,能够控制路由开关开启的难易程度;训练过程中的标签yon根据专家模型预测结果的正确与否给出,当第k个专家模型预测正确时,yon=0;当第k个专家模型预测错误时,若剩余的n-k的专家模型中有任意一个的预测是正确的,那么yon=1,否则yon=0;
训练过程中累计每个路由开关的
Figure FDA0003899036030000043
Figure FDA0003899036030000044
收敛后,路由开关能够根据其负责的专家模型的预测分布判断是否开启下一个专家模型,从而降低集成模型的计算开销。
7.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤3中从伪标签数据集中采样时,需要根据每个类别对应的伪标签样本数N(·)设置不同的采样率μ(·),类别对应的样本数越少则对该类别采集更多样本,从而实现在无标签数据集中进行类别重平衡采样;类别l的采样率μ(l)的计算公式如下:
Figure FDA0003899036030000045
式中,α为恒定的采样率超参数,c为总类别数,N()表示类别对应的伪标签样本数。
8.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤4中学习有标签样本使用交叉熵损失函数作为有监督损失,学习无标签样本使用一致性正则化方法,一致性正则化方法假设模型对于加以不同扰动的无标签数据应输出相近的预测分布;本发明针对同一张无标签图像u加以幅度较强和较弱的两种数据增强方法,如果模型对弱增强图像w(u)预测分布q中的最高置信度超过预设的固定阈值τ,那么将其作为无标签样本one-hot形式的伪标签
Figure FDA0003899036030000046
与模型对强增强图像Ω(u)输出的预测分布一起计算无监督的交叉熵损失
Figure FDA0003899036030000047
实现对无标签数据的学习;
无监督损失
Figure FDA0003899036030000048
的计算公式如下:
Figure FDA0003899036030000049
qb=pm(w(ub)) (14)
式中,μ为无监督损失在总体训练损失中的权值项,B为训练批次样本数,τ为设定的置信度阈值,qb为模型对弱增强图像w(ub)的预测分布,max(qb)为预测分布中置信度的最大值,L(max(qb)>τ)表示筛选出max(qb)大于置信度阈值τ的预测样本进行学习,
Figure FDA00038990360300000410
表示置信度最大值对应的one-hot伪标签,Ω(ub)表示强增强的样本ub,pm(Ω(ub))为集成模型对强增强样本的预测分布,H表示交叉熵损失;
有监督损失
Figure FDA0003899036030000051
的计算方式如下:
Figure FDA0003899036030000052
式中,B为训练批次样本数,yb表示样本批次的真实标签,pm(w(xb))为集成模型对弱增强样本的预测分布,H表示交叉熵损失;
在用于均衡样本的半监督模型的训练中,同时使用有监督损失
Figure FDA0003899036030000053
和无监督损失
Figure FDA0003899036030000054
则总体损失函数
Figure FDA0003899036030000055
计算方式如下:
Figure FDA0003899036030000056
式中,λu为无监督损失的权重项。
9.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤5在训练过程中,首先采用基于恒定阈值的一致性正则化框架在有标签和无标签数据集上训练集成模型得到教师模型,通过教师模型得到无标签数据集的伪标签,然后使用类别重平衡策略对每个类别的伪标签数据以不同的采样率进行采样,将采样得到的伪标签数据集添加到有标签数据集中,生成更加均衡的有标签数据集,最后在新的有标签数据集和原始无标签数据集上继续训练,得到新的教师模型,通过反复迭代得到精度更高的汉字识别模型。
CN202211283747.3A 2022-10-20 2022-10-20 基于轻量级卷积神经网络的古籍汉字识别方法 Pending CN115601764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211283747.3A CN115601764A (zh) 2022-10-20 2022-10-20 基于轻量级卷积神经网络的古籍汉字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211283747.3A CN115601764A (zh) 2022-10-20 2022-10-20 基于轻量级卷积神经网络的古籍汉字识别方法

Publications (1)

Publication Number Publication Date
CN115601764A true CN115601764A (zh) 2023-01-13

Family

ID=84849261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211283747.3A Pending CN115601764A (zh) 2022-10-20 2022-10-20 基于轻量级卷积神经网络的古籍汉字识别方法

Country Status (1)

Country Link
CN (1) CN115601764A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152612A (zh) * 2023-04-21 2023-05-23 粤港澳大湾区数字经济研究院(福田) 一种长尾图像识别方法及相关装置
CN116203929B (zh) * 2023-03-01 2024-01-05 中国矿业大学 一种面向长尾分布数据的工业过程故障诊断方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116203929B (zh) * 2023-03-01 2024-01-05 中国矿业大学 一种面向长尾分布数据的工业过程故障诊断方法
CN116152612A (zh) * 2023-04-21 2023-05-23 粤港澳大湾区数字经济研究院(福田) 一种长尾图像识别方法及相关装置
CN116152612B (zh) * 2023-04-21 2023-08-15 粤港澳大湾区数字经济研究院(福田) 一种长尾图像识别方法及相关装置

Similar Documents

Publication Publication Date Title
CN115601764A (zh) 基于轻量级卷积神经网络的古籍汉字识别方法
Li Deep reinforcement learning
US11941523B2 (en) Stochastic gradient boosting for deep neural networks
Hu et al. Robust modulation classification under uncertain noise condition using recurrent neural network
Fan et al. Watching a small portion could be as good as watching all: Towards efficient video classification
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
CN109886343B (zh) 图像分类方法及装置、设备、存储介质
CN110443372B (zh) 一种基于熵最小化的迁移学习方法及系统
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN113469186A (zh) 一种基于少量点标注的跨域迁移图像分割方法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN113537365B (zh) 一种基于信息熵动态赋权的多任务学习自适应平衡方法
CN111967325A (zh) 一种基于增量优化的无监督跨域行人重识别方法
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN115221947A (zh) 一种基于预训练语言模型的鲁棒的多模态主动学习方法
McDowell et al. Learning from omission
CN117152503A (zh) 一种基于伪标签不确定性感知的遥感图像跨域小样本分类方法
CN115331284A (zh) 一种基于自愈机制的真实场景下的人脸表情识别方法及系统
CN116597211A (zh) 基于对比学习与自相关增量学习的多目标域自适应方法
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法
CN114444605B (zh) 一种基于双重不平衡场景下的无监督域适应方法
CN113191984B (zh) 基于深度学习的运动模糊图像联合复原与分类方法和系统
CN112836056B (zh) 一种基于网络特征融合的文本分类方法
CN110008341B (zh) 一种自适应错词和生词的印尼新闻文本分类方法
CN116384439B (zh) 一种基于自蒸馏的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination