CN115601764A

CN115601764A - 基于轻量级卷积神经网络的古籍汉字识别方法

Info

Publication number: CN115601764A
Application number: CN202211283747.3A
Authority: CN
Inventors: 周俊伟; 梁宇成; 向剑文; 夏喆; 赵冬冬; 熊盛武; 杨焱超
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-13

Abstract

本发明公开了一种基于轻量级卷积神经网络的古籍汉字识别方法。通过集成多个专家模型，在训练过程中将预测概率分布差异项加入损失函数，降低在全体类别上的预测偏差和方差，从而提高在所有类别上的识别精度，同时引入模型轻量化技术降低了集成模型的计算开销和参数量，实现轻量级的古籍汉字长尾样本识别模型。本发明得到的模型在样本严重不均衡的古籍汉字数据集上能够有效提升在生僻字样本集上的识别精度，并与常规轻量级模型的计算复杂度和参数量相近。

Description

基于轻量级卷积神经网络的古籍汉字识别方法

技术领域

本发明属于汉字字符识别技术领域，具体涉及一种基于轻量级卷积神经网络的古籍汉字识别方法。

背景技术

基于深度学习的汉字字符识别方法已成为光符识别技术(optical characterrecognition，OCR)的主流技术方案，但仅在类别均衡的数据集上表现良好。由于古籍文本图像中收集而来的汉字数据集中，出现频率高的常用字占据了大部分样本，生僻汉字仅能获取到少量甚至是零星数量的样本，并且生僻字的类别数量远远大于常用汉字，因此使用基于交叉熵损失函数的CNN分类模型将在分布严重不均衡的汉字样本集上面临生僻字识别精度不足的挑战。

虽然现有的长尾识别方法能够缓解上述问题，但普遍存在计算复杂度和参数量较高的问题，需要对现有模型进行轻量化处理，以符合存储资源受限设备的部署环境。

发明内容

本发明针对现有技术的不足，提供一种基于轻量级卷积神经网络的古籍汉字识别方法，以解决样本不均衡汉字数据集的识别精度问题和集成神经网络参数量高的问题。

为了达到上述目的，一种基于轻量级卷积神经网络的古籍汉字识别方法，包括以下步骤：

步骤1，由特征提取网络和多个专家模型构成集成模型，并通过分布差异损失和分类损失共同训练集成模型；

步骤2，在步骤1训练完成后的集成模型中加入专家模型分配模块，动态调整专家模型的开启数量以降低模型的计算开销；

步骤3，利用步骤2训练完成的集成模型输出伪标签样本集，通过类别重平衡采样更新有标签样本集；

步骤4，通过无标签样本和步骤3更新后的有标签样本共同训练集成模型；

步骤5，重复步骤3和4，实现对集成模型的迭代式训练；

步骤6，使用步骤5训练好的集成模型进行古籍汉字的识别。

而且，所述步骤1中集成模型包含一个共享的主干网络f_θ和n个独立的专家模型ψ_θ＝[ψ₁,ψ₂,...,ψ_n]，共享主干网络f_θ为特征提取网络，每个专家模型的输入都来自共享主干网络对样例x的输出f_θ(x)。在集成模型第一阶段的训练过程中，使用每个专家模型独立的分类损失

和不同专家模型之间的分布差异损失L_D对f_θ和ψ_θ同时进行优化，从而将分类损失

最小化以得到更高的集成模型精度，将分布差异损失L_D最大化以得到多样化的专家模型，降低专家模型的预测偏差从而提高尾部类精度。

假设γ_min＝min{γ₁,...,γ_k}表示每个类别与分类边界的最小边界距离，且类别j有n_j个样本，即类别1和类别2分别有n₁和n₂个样本时，在二分类模型中存在实数δ∈(-γ₂,γ₁)，对于γ₁和γ₂满足以下不等式：

式中，Υ₁表示类别1和分类边界的最小边界距离，Υ₂表示类别2和分类边界的最小边界距离，式(1)在满足以下条件时成立，其中C为未确定的超参数：

将上述二分类情况扩展到多分类任务时，类别j与边界的最佳距离Υ_j为：

式中，C为未确定的超参数，n_j表示类别j的样本数。

分类损失函数计算方式如下：

式中，(x,y)表示样本x及其对应的标签y，f为分类模型，z_j表示分类模型f对于类别j的样本x的输出f(x)_j，Υ_j为边界距离，z_y表示分类模型f对于类别y的样本x的输出f(x)_y。

为了使训练好的集成模型能有效区分头部类别的类内变化，并在样例缺乏的尾部类别上保持足够的鲁棒性，对专家模型的输出ψ_θ(f_θ(x))进行软标签化操作，根据每个类别的样本数调节最终预测分布中置信度的大小，使集成模型能同时处理好头部和尾部类别。另外，引入知识蒸馏中温度调节的思想，在第一阶段训练过程中加入温度调节，使集成模型在训练初期学习到相对稳定的权值；温度T随着类别的样本数量线性增长，第k个类别对应的温度T_k的计算公式为：

T_k＝α(β_k+1-max(β_k)) (5)

式中，α为常数值，通常取1；β_k由所有类别的样本数执行归一化后得到，具体计算为：

式中，r为权值项，表示归一化的比重；n_k为第k个类别的样本数；c为类别总数；n_s为第s个类别的样本数。

当β_k＝1时，T_k＝α，保证了在平衡数据集上每个类别的温度是相同的；对专家模型的预测分布进行温度调节后，第i个专家模型的输出p⁽ⁱ⁾(x,y)可表示为：

式中，Ψ_θi(f_θ(x))_c为温度调节前的第i个专家模型第c个类别的输出，T_c为第c个类别对应的温度，softmax函数将输出的值范围控制在[0,1]。

使用KL散度(KL-divergence)损失作为分布差异损失

计算方式如下：

式中，p⁽ⁱ⁾(x,y)为第i个专家模型的输出，D_KL()为KL散度，n为类别的数目。

对于n个专家模型和一个共享的主干网络构成的集成模型，通过累加每个专家模型独立的分类损失L_C和不同专家模型预测分布之间的分布差异损失

得到集成模型第一阶段训练过程总体的损失函数，计算公式如下：

式中，λ为权重系数，令λ<0从而使KL散度损失最大化。

而且，所述步骤2中加入专家模型分配模块完成集成模型训练的第二阶段，专家模型分配模块由多个路由开关构成，根据主干网络和专家模型的输出特征动态调节专家模型的开启数量，减少头部类样本推理过程中专家模型的开启数量，同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量，具体说来将路由模块的开启或关闭状态作为标签供路由开关学习，主干网络和专家模型的参数被冻结，仅负责特征输出，不再参与训练，通过训练专家模型分配模块，实现根据主干网络和上一个专家模型的输出判断是否分配下一个专家模型参与计算，当模型预测为样本数量充足的头部类别时能够减少专家模型的开启数量，起到降低集成模型计算开销的效果。

专家模型分配模块由一个共享路由模块W₁和k-1个路由开关模块W₂构成，W₁和W₂均为全连接层，共享路由W₁用于降低主干网络f_θ归一化的输出特征的维度。首先获取已开启的k个专家模型输出的平均化logits的前s位，与W₁的输出进行concat操作，然后将concat操作后的特征输入到路由开关W₂，W₂通过sigmoid激活函数输出(0,1)范围内的值，以η作为阈值，若W₂输出值大于η，继续分配第k+1个专家模型参与推理过程，若W₂输出值小于η，则将当前的平均化logits经过softmax函数激活后的结果作为最终的预测分布。

这k-1个路由开关W₂分别负责控制第2至第k个专家模型的开启状态，针对输入样本x，第k个路由开关W₂的输出结果r(x)的计算过程表示为：

式中，W₂(k)表示第k个路由开关W₂，f_θ(x)为主干网络的输出，Ψ_θk(f_θ(x))为温度调节前第k个专家模型的输出，top-s表示取logits的前s位，s的数值根据数据集设定。

集成模型第二阶段训练的损失函数

的计算公式为：

式中，w_on为权重项，能够控制路由开关开启的难易程度；训练过程中的标签y_on根据专家模型预测结果的正确与否给出，当第k个专家模型预测正确时，y_on＝0；当第k个专家模型预测错误时，若剩余的n-k的专家模型中有任意一个的预测是正确的，那么y_on＝1，否则y_on＝0。

训练过程中累计每个路由开关的

当

收敛后，路由开关能够根据其负责的专家模型的预测分布判断是否开启下一个专家模型，从而降低集成模型的计算开销。

而且，所述步骤3中从伪标签数据集中采样时，需要根据每个类别对应的伪标签样本数N(·)设置不同的采样率μ(·)，类别对应的样本数越少则对该类别采集更多样本，从而实现在无标签数据集中进行类别重平衡采样。

类别l的采样率μ(l)的计算公式如下：

式中，α为恒定的采样率超参数，c为总类别数，N()表示类别对应的伪标签样本数。

而且，所述步骤4中学习有标签样本使用交叉熵损失函数作为有监督损失，学习无标签样本使用一致性正则化方法，一致性正则化方法假设模型对于加以不同扰动的无标签数据应输出相近的预测分布。本发明针对同一张无标签图像u加以幅度较强和较弱的两种数据增强方法，如果模型对弱增强图像w(u)预测分布q中的最高置信度超过预设的固定阈值τ，那么将其作为无标签样本one-hot形式的伪标签

与模型对强增强图像Ω(u)输出的预测分布一起计算无监督的交叉熵损失

实现对无标签数据的学习。

无监督损失

的计算公式如下：

q_b＝p_m(w(u_b)) (14)

式中，μ为无监督损失在总体训练损失中的权值项，B为训练批次样本数，τ为设定的置信度阈值，q_b为模型对弱增强图像w(u_b)的预测分布，max(q_b)为预测分布中置信度的最大值，L(max(q_b)>τ)表示筛选出max(q_b)大于置信度阈值τ的预测样本进行学习，

表示置信度最大值对应的one-hot伪标签，Ω(u_b)表示强增强的样本u_b，p_m(Ω(u_b))为集成模型对强增强样本的预测分布，H表示交叉熵损失。

有监督损失

的计算方式如下：

式中，B为训练批次样本数，y_b表示样本批次的真实标签，p_m(w(x_b))为集成模型对弱增强样本的预测分布，H表示交叉熵损失。

在用于均衡样本的半监督模型的训练中，同时使用有监督损失

和无监督损失

则总体损失函数

计算方式如下：

式中，λ_u为无监督损失的权重项。

而且，所述步骤5在训练过程中，首先采用基于恒定阈值的一致性正则化框架在有标签和无标签数据集上训练集成模型得到教师模型，通过教师模型可以得到无标签数据集的伪标签，然后使用类别重平衡策略对每个类别的伪标签数据以不同的采样率进行采样，将采样得到的伪标签数据集添加到有标签数据集中，生成更加均衡的有标签数据集，最后在新的有标签数据集和原始无标签数据集上继续训练，得到新的教师模型，通过反复迭代可得到精度更高的汉字识别模型。

与现有技术相比，本发明具有如下优点：

1)通过集成多个专家模型，在训练过程中将预测概率分布差异项加入损失函数，降低在全体类别上的预测偏差和方差，从而提高在所有类别上的识别精度。

2)引入模型轻量化技术降低了集成模型的计算开销和参数量，实现轻量级的古籍汉字长尾样本识别模型。

3)本发明得到的识别模型在样本严重不均衡的古籍汉字数据集上能够有效提升生僻字样本集的识别精度，并与常规轻量级模型的计算复杂度和参数量相近。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例集成模型第一阶段训练结构。

图3是本发明实施例集成模型第二阶段训练结构。

图4是本发明实施例基于一致性正则化的半监督学习方法。

具体实施方式

本发明提供一种基于轻量级卷积神经网络的古籍汉字识别方法，下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，本发明实施例的流程包括以下步骤：

步骤1，由特征提取网络和多个专家模型构成集成模型，并通过分布差异损失和分类损失共同训练集成模型。

如图2所示，集成模型ENS-CNet包含一个共享的主干网络f_θ和n个独立的专家模型ψ_θ＝[ψ₁,ψ₂,...,ψ_n]，共享主干网络f_θ为特征提取网络，每个专家模型的输入都来自共享主干网络对样例x的输出f_θ(x)。在集成模型第一阶段的训练过程中，使用每个专家模型独立的分类损失

为提升集成模型在长尾数据集的尾部类精度，需要降低专家模型在尾部类上的泛化误差，但在严重不均衡数据集上，专家模型对尾部类特征的学习是不充分的，容易发生过拟合情况，所以需要给予尾部类更宽松的分类边界。本发明采用的分类损失

为标签分布感知边际损失(Label-Distribution-Aware Margin Loss，LDAM)，能够增大尾部类与头部类分隔边界的距离，降低尾部类分类的难度。尾部类与边界的距离大小对于分类模型非常重要，过大的距离可能导致边界偏移到头部类，影响头部类的分类性能，距离过小又会导致模型在尾部类上的泛化能力不足，因此需要找到一个边界位置的平衡点。多类别分类的通用平衡点难以确定，但可以基于二分类任务计算得到平衡点的最优解，从而推广到多分类任务。

假设Υ_min＝min{γ₁,...,γ_k}表示每个类别与分类边界的最小边界距离，且类别j有n_j个样本，即类别1和类别2分别有n₁和n₂个样本时，在二分类模型中存在实数δ∈(-Υ₂,Υ₁)，对于Υ₁和Υ₂满足以下不等式：

式中，γ₁表示类别1和分类边界的最小边界距离，γ₂表示类别2和分类边界的最小边界距离，式(1)在满足以下条件时成立，其中C为未确定的超参数：

将上述二分类情况扩展到多分类任务时，类别j与边界的最佳距离γ_j为：

式中，C为未确定的超参数，n_j表示类别j的样本数。

本发明用(x,y)表示样本x及其对应的标签y，f为分类模型，将分类模型f对于类别j的样本x的输出f(x)_j简化表示为z_j，将上述边界距离γ_j与Hinge损失共同改写为包含softmax激活函数的交叉熵损失函数得到分类损失函数L_C：

式中，z_y表示分类模型f对于类别y的样本x的输出f(x)_y。

由公式(4)可以看出，分类损失函数中类间距离的计算考虑到了样本分布，能够处理长尾样本分布不均衡的问题。

在集成模型训练的第一阶段，分类损失

需要累计每个专家模型的预测分布ψ_θ(f_θ(x))与标签y的差异，而不是仅衡量平均化之后的预测分布与标签的差异，从而使每个专家模型都充分学习头尾类别间的距离，在提升尾部类预测精度的同时不影响头部类精度。除了使用分类损失衡量预测分布与标签的差异，还使用分布差异损失衡量各个专家模型间的预测分布差异，不同的是，后者在训练过程中将LDAM损失最小化，将分布差异损失最大化，使得不同的专家模型输出互补的预测分布，避免输出过于极端的预测分布，对于长尾数据集而言这样做能有效降低专家模型偏差，提升集成模型的整体性能。

为了使训练好的集成模型能有效区分头部类别的类内变化，并在样例缺乏的尾部类别上保持足够的鲁棒性，对专家模型的输出ψ_θ(f_θ(x))进行软标签化操作，根据每个类别的样本数调节最终预测分布中置信度的大小，使集成模型能同时处理好头部和尾部类别。另外，引入知识蒸馏中温度调节的思想，在第一阶段训练过程中加入温度调节，使集成模型能在训练初期学习到相对稳定的权值。温度T随着类别的样本数量线性增长，第k个类别对应的温度T_k的计算公式为：

T_k＝α(β_k+1-max(β_k)) (5)

式中,α为常数值，通常取1；β_k由所有类别的样本数执行归一化后得到，具体计算为：

当β_k＝1时，可得出T_k＝α，保证了在平衡数据集上每个类别的温度是相同的，因此本发明的温度处理机制也可以用于集成模型学习样本平衡的数据集。

对专家模型的预测分布进行温度调节后，第i个专家模型的输出p⁽ⁱ⁾(x,y)可表示为：

对于长尾分布样本的预测，需要进一步增大专家模型间的预测差异，以达到互补效果，使用KL散度(KL-divergence)损失作为分布差异损失

与分类损失

共同指导集成模型第一阶段的训练，分布差异损失的具体计算如下：

可以得到集成模型第一阶段训练过程总体的损失函数，计算公式如下：

式中，λ为权重系数，令λ<0从而使KL散度损失最大化。

步骤2，在步骤1训练完成后的集成模型中加入专家模型分配模块，动态调整专家模型的开启数量以降低模型的计算开销。

由于头部类别拥有的样本数量多，专家模型能够相对容易地学习到类别特征，在推理阶段不需要开启过多的专家模型进行预测，而难以学习的尾部类样本则需要尽量多的专家模型共同参与决策。因此加入专家模型分配模块完成集成模型第二阶段的训练，如图3所示，专家模型分配模块由多个路由开关构成，根据主干网络和专家模型的输出特征动态调节专家模型的开启数量，减少头部类样本推理过程中专家模型的开启数量，同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量。

第二阶段中将路由模块的开启或关闭状态作为标签供路由开关学习，主干网络和专家模型的参数被冻结，仅负责特征输出，不再参与训练。通过训练专家模型分配模块，实现根据主干网络和上一个专家模型的输出判断是否分配下一个专家模型参与计算，当模型预测为样本数量充足的头部类别时能够减少专家模型的开启数量，起到降低集成模型计算开销的效果。

专家模型分配模块由一个共享路由模块W₁和k-1个路由开关模块W₂构成，W₁和W₂均为全连接层；共享路由W₁用于降低主干网络f_θ归一化的输出特征的维度；首先获取已开启的k个专家模型输出的平均化logits的前s位，与W₁的输出进行concat操作，然后将concat操作后的特征输入到路由开关W₂，W₂通过sigmoid激活函数输出(0,1)范围内的值，以η作为阈值，若W₂输出值大于η，继续分配第k+1个专家模型参与推理过程，若W₂输出值小于η，则将当前的平均化logits经过softmax函数激活后的结果作为最终的预测分布。

式中，

表示第k个路由开关W₂，f_θ(x)为主干网络的输出，Ψ_θk(f_θ(x))为温度调节前第k个专家模型的输出，top-s表示取logits的前s位，s的数值根据数据集设定。

本实施例中用于优化r(x)的损失函数

由二进制交叉熵损失改写而来，区别是加入了权重项w_on，w_on能够控制路由开关开启的难易程度，集成模型第二阶段训练的损失函数

的计算公式为：

式中，训练过程中的标签y_on根据专家模型预测结果的正确与否给出，当第k个专家模型预测正确时，y_on＝0；当第k个专家模型预测错误时，若剩余的n-k的专家模型中有任意一个的预测是正确的，那么y_on＝1，否则y_on＝0。例如包含3个专家的集成模型中，当第1个专家预测正确，那么y_on＝0，预测错误时如果第2个和第3个专家中有预测正确的，那么y_on＝1，否则y_on＝0。

训练过程中累计每个路由开关的

当

收敛后，路由开关能够根据其负责的专家模型的预测分布判断是否开启下一个专家模型，从而降低集成模型的计算开销，特别是在常用字样本的推理过程中。

步骤3，利用步骤2训练完成的集成模型输出伪标签样本集，通过类别重平衡采样更新有标签样本集。

在实际场景中，古籍汉字图片的人工标注存在耗时久、难度大的问题，因此在人力有限的情况下，古籍汉字数据集中会存在大量无标签的图像，通过半监督学习方法能够使模型学习这些无标签样本，进一步提高模型精度。

在图1的半监督学习过程中，用于无标签古籍汉字的半监督模型采用了迭代训练的方式，在迭代训练的过程中需要从伪标签数据集中选取样本，使更新后的有标签数据集更趋向于类别平衡的数据集，因此从伪标签数据集中采样时，需要根据每个类别对应的伪标签样本数N(·)设置不同的采样率μ(·)，类别对应的样本数越少则对该类别采集更多样本，从而实现在无标签数据集中进行类别重平衡采样。

类别l的采样率μ(l)的计算公式如下：

在有标签样本集的迭代更新过程中，重平衡策略确保了尾部类相比头部类有更高的采样率，更多的生僻字样本会添加到有标签样本集中，并通过集成模型的学习，共同增强半监督学习场景下模型对生僻字样本的学习效果。

步骤4，通过无标签样本和步骤3更新后的有标签样本共同训练集成模型。

学习有标签样本使用常见的交叉熵损失函数作为有监督损失，学习无标签样本使用一致性正则化方法，一致性正则化方法假设模型对于加以不同扰动的无标签数据应输出相近的预测分布。基于这一假设，本发明针对同一张无标签图像u加以幅度较强和较弱的两种数据增强方法，如果模型对弱增强图像w(u)预测分布q中的最高置信度超过预设的固定阈值τ，那么将其作为无标签样本one-hot形式的伪标签

实现对无标签数据的学习，本发明中一致性正则化方法的流程如图4所示。

和无监督损失

和

均为交叉熵损失函数。

无监督损失

的计算公式如下：

q_b＝p_m(w(u_b)) (14)

有监督损失

的计算方式如下：

用于均衡样本的半监督模型的总体损失函数

计算方式如下：

式中，λ_u为无监督损失的权重项。

步骤5，重复步骤3和4，实现对集成模型的迭代式训练。

在训练过程中，首先采用基于恒定阈值的一致性正则化框架在有标签和无标签数据集上训练集成模型得到教师模型，通过教师模型可以得到无标签数据集的伪标签，之后使用类别重平衡策略对每个类别的伪标签数据以不同的采样率进行采样，将采样得到的伪标签数据集添加到有标签数据集中，从而生成更加均衡的有标签数据集，然后在新的有标签数据集和原始无标签数据集上继续训练，得到新的教师模型，通过反复迭代可得到精度更高的汉字识别模型。

步骤6，使用步骤5训练好的集成模型进行古籍汉字的识别。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于，包括以下步骤：

步骤5，重复步骤3和4，实现对集成模型的迭代式训练；

步骤6，使用步骤5训练好的集成模型进行古籍汉字的识别。

2.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤1中集成模型ENS-CNet包含一个共享的主干网络f_θ和n个独立的专家模型ψ_θ＝[ψ₁,ψ₂,...,ψ_n]，共享主干网络f_θ为特征提取网络，每个专家模型的输入都来自共享主干网络对样例x的输出f_θ(x)；在集成模型第一阶段的训练过程中，使用每个专家模型独立的分类损失

3.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤1中假设Υ_min＝min{Υ₁,...,Υ_k}表示每个类别与分类边界的最小边界距离，且类别j有n_j个样本，即类别1和类别2分别有n₁和n₂个样本时，在二分类模型中存在实数δ∈(-Υ₂,Υ₁)，对于Υ₁和Υ₂满足以下不等式：

式中，C为未确定的超参数，n_j表示类别j的样本数；

分类损失函数计算方式如下：

4.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤1中为了使训练好的集成模型能有效区分头部类别的类内变化，并在样例缺乏的尾部类别上保持足够的鲁棒性，对专家模型的输出ψ_θ(f_θ(x))进行软标签化操作，根据每个类别的样本数调节最终预测分布中置信度的大小，使集成模型能同时处理好头部和尾部类别；另外，引入知识蒸馏中温度调节的思想，在第一阶段训练过程中加入温度调节，使集成模型在训练初期学习到相对稳定的权值；温度T随着类别的样本数量线性增长，第k个类别对应的温度T_k的计算公式为：

T_k＝α(β_k+1-max(β_k)) (5)

式中，r为权值项，表示归一化的比重；n_k为第k个类别的样本数；c为类别总数；n_s为第s个类别的样本数；

当β_k＝1时，T_k＝α，保证了在平衡数据集上每个类别的温度是相同的；对专家模型的预测分布进行温度调节后，第i个专家模型的输出p⁽ⁱ⁾(x,y)表示为：

式中，Ψ_θi(f_θ(x))_c为温度调节前的第i个专家模型第c个类别的输出，T_c为第c个类别对应的温度，softmax函数将输出的值范围控制在[0,1]；

使用KL散度(KL-divergence)损失作为分布差异损失

计算方式如下：

式中，p⁽ⁱ⁾(x,y)为第i个专家模型的输出，D_KL()为KL散度，n为类别的数目；

式中，λ为权重系数，令λ<0从而使KL散度损失最大化。

5.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤2中加入专家模型分配模块完成集成模型训练的第二阶段，专家模型分配模块由多个路由开关构成，根据主干网络和专家模型的输出特征动态调节专家模型的开启数量，减少头部类样本推理过程中专家模型的开启数量，同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量，具体说来将路由模块的开启或关闭状态作为标签供路由开关学习，主干网络和专家模型的参数被冻结，仅负责特征输出，不再参与训练，通过训练专家模型分配模块，实现根据主干网络和上一个专家模型的输出判断是否分配下一个专家模型参与计算，当模型预测为样本数量充足的头部类别时能够减少专家模型的开启数量，起到降低集成模型计算开销的效果。

6.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤2中专家模型分配模块由一个共享路由模块W₁和k-1个路由开关模块W₂构成，W₁和W₂均为全连接层；共享路由W₁用于降低主干网络f_θ归一化的输出特征的维度；首先获取已开启的k个专家模型输出的平均化logits的前s位，与W₁的输出进行concat操作，然后将concat操作后的特征输入到路由开关W₂，W₂通过sigmoid激活函数输出(0,1)范围内的值，以η作为阈值，若W₂输出值大于η，继续分配第k+1个专家模型参与推理过程，若W₂输出值小于η，则将当前的平均化logits经过softmax函数激活后的结果作为最终的预测分布；这k-1个路由开关W₂分别负责控制第2至第k个专家模型的开启状态，针对输入样本x，第k个路由开关W₂的输出结果r(x)的计算过程表示为：

式中，

表示第k个路由开关W₂，f_θ(x)为主干网络的输出，Ψ_θk(f_θ(x))为温度调节前第k个专家模型的输出，top-s表示取logits的前s位，s的数值根据数据集设定；

集成模型第二阶段训练的损失函数

的计算公式为：

式中，w_on为权重项，能够控制路由开关开启的难易程度；训练过程中的标签y_on根据专家模型预测结果的正确与否给出，当第k个专家模型预测正确时，y_on＝0；当第k个专家模型预测错误时，若剩余的n-k的专家模型中有任意一个的预测是正确的，那么y_on＝1，否则y_on＝0；

训练过程中累计每个路由开关的

当

7.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤3中从伪标签数据集中采样时，需要根据每个类别对应的伪标签样本数N(·)设置不同的采样率μ(·)，类别对应的样本数越少则对该类别采集更多样本，从而实现在无标签数据集中进行类别重平衡采样；类别l的采样率μ(l)的计算公式如下：

8.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤4中学习有标签样本使用交叉熵损失函数作为有监督损失，学习无标签样本使用一致性正则化方法，一致性正则化方法假设模型对于加以不同扰动的无标签数据应输出相近的预测分布；本发明针对同一张无标签图像u加以幅度较强和较弱的两种数据增强方法，如果模型对弱增强图像w(u)预测分布q中的最高置信度超过预设的固定阈值τ，那么将其作为无标签样本one-hot形式的伪标签

实现对无标签数据的学习；

无监督损失

的计算公式如下：

q_b＝p_m(w(u_b)) (14)

表示置信度最大值对应的one-hot伪标签，Ω(u_b)表示强增强的样本u_b，p_m(Ω(u_b))为集成模型对强增强样本的预测分布，H表示交叉熵损失；

有监督损失

的计算方式如下：

式中，B为训练批次样本数，y_b表示样本批次的真实标签，p_m(w(x_b))为集成模型对弱增强样本的预测分布，H表示交叉熵损失；

和无监督损失

则总体损失函数

计算方式如下：

式中，λ_u为无监督损失的权重项。

9.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法，其特征在于：步骤5在训练过程中，首先采用基于恒定阈值的一致性正则化框架在有标签和无标签数据集上训练集成模型得到教师模型，通过教师模型得到无标签数据集的伪标签，然后使用类别重平衡策略对每个类别的伪标签数据以不同的采样率进行采样，将采样得到的伪标签数据集添加到有标签数据集中，生成更加均衡的有标签数据集，最后在新的有标签数据集和原始无标签数据集上继续训练，得到新的教师模型，通过反复迭代得到精度更高的汉字识别模型。