CN115630689A

CN115630689A - 优化文本分类模型输出层激活函数的方法、设备和系统

Info

Publication number: CN115630689A
Application number: CN202211647340.4A
Authority: CN
Inventors: 曹自强; 耿磊; 吕奇
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-01-20

Abstract

本发明涉及神经网络技术领域，公开一种优化文本分类模型输出层激活函数的方法、设备和系统，方法包括获取训练集和测试集并进行数据预处理，建立包括编码器和输出层的神经网络模型；设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化模型输出的类别概率达到训练目标和测试目标一致的目的；训练神经网络模型，将测试集输入训练完成的神经网络模型得到预测结果；设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序；系统包括数据处理模块、建模模块、训练模块和预测模块。本发明可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。

Description

优化文本分类模型输出层激活函数的方法、设备和系统

技术领域

本发明涉及神经网络技术领域，尤其是指一种优化文本分类模型输出层激活函数的方法、设备和系统。

背景技术

Softmax（软最大化）作为一种激活函数，被广泛应用在神经网络分类模型的最后一层。在训练时，人们通常使用Softmax函数将网络最后一层的隐藏层神经元归一化为其概率分布，并以独热向量(one-hot vector)为目标，使用交叉熵损失函数计算损失；在测试阶段使用模型预测概率最高的类别作为模型预测的结果，计算公式为：

公式1，

公式1中，

是第

类的输出分数，

；

是神经网络的最终输出，

是第

类的输出分数，

；

是自然常数，n是类别总数。

在训练阶段，Softmax函数的目标函数L为：

公式2，

公式2中，

是目标类的输出概率。目标函数使模型的预测结果拟合one-hot向量，即让目标类的概率

趋于1、非目标类的概率

趋于0（训练阶段），但受限于其计算形式（见公式1），其目标类（非目标类）的计算结果并不能为1（0）。并且，测试阶段的目标为目标类别的概率比所有非目标类别大即可，训练阶段与测试阶段的目标不一致。因此，神经网络必然会不断地反向传播，更新训练参数，以达到前述结果，这就明显会放慢训练过程，并导致过拟合，模型鲁棒性能显著下降。同时，在训练过程中神经网络模型将所有非目标类别同等对待，这忽视了强的非目标类别会对模型表现产生强干扰的情况。

当前，有许多研究工作都致力于改进Softmax函数。当文本分类模型涉及很多类别时，一种高效的训练方式是控制输出维数，以降低计算复杂度。例如以稀疏Softmax（SparseSoftmax）为代表的研究探索了通过减少拟合的目标类个数来加速训练过程，以降低计算复杂度。Softmax通常缺乏对强负类的准确辨别，扩大类间距以提升模型的训练效果是一种有效的策略，例如大差距Softmax（Large-margin Softmax）在Softmax的基础上，就是通过扩大类间距以提升模型的训练效果。另外，由于金标数据中存在噪声，也有学者提出使用标签平滑（Label Smoothing）来防止神经网络模型过度拟合金标数据的方法。金标数据是人工标注的数据，也是希望模型能达到的输出目标，模型通过不断学习希望可以输出与人工标注一样准确的数据。

但是，现有方法也存在缺陷：稀疏Softmax虽然保留了较高概率的类别，但无法解决训练与测试阶段目标不一致的问题；Large-margin Softmax等相关技术的实现因为与角度有关，会使得目标函数变得过于复杂，且其与标签平滑技术都不会在学习过程中自动丢弃弱负类，当类别数很大时，会产生很大的计算成本；同时，现有方法所需的时间量级都较大。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种优化文本分类模型输出层激活函数的方法、设备和系统，可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。

为解决上述技术问题，本发明提供了一种优化文本分类模型输出层激活函数的方法，包括：

获取训练集和测试集并进行数据预处理，建立包括编码器和输出层的神经网络模型；

设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的；

将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型，将所述测试集输入训练完成的神经网络模型得到预测结果。

在本发明的一个实施例中，所述编码器为语义表示模型。

在本发明的一个实施例中，所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，具体为：

，

式中，

表示目标类的概率，

表示非目标类的概率，

表示所述差距阈值。

在本发明的一个实施例中，所述差距阈值

的取值范围为0-1，通过网格搜索法搜索得到。

在本发明的一个实施例中，所述通过引入差距阈值优化模型输出的类别概率，具体为：

根据所述差距阈值

建立筛选参数

，使用所述筛选参数

筛掉弱样本以优化模型输出的类别概率。

在本发明的一个实施例中，所述筛选参数

为：

。

在本发明的一个实施例中，使用所述筛选参数

筛掉弱样本以优化模型输出的类别概率时，模型输出的类别概率

为：

；

式中，

表示第i类的输出概率，

表示第

类的输出分数，

是自然常数，n是类别总数。

在本发明的一个实施例中，将所述测试集输入训练完成的神经网络模型得到预测结果，具体为：

将所述测试集输入所述编码器，通过分类器将所述编码器的输出映射到类别维度，计算每个类别的输出概率，选择所有类别中输出概率

的最大值及对应的索引，将索引对应的类别作为预测结果。

本发明还提供了一种优化文本分类模型输出层激活函数的设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的优化文本分类模型输出层激活函数的方法的步骤。

本发明还提供了一种优化文本分类模型输出层激活函数的系统，包括数据处理模块、建模模块、训练模块和预测模块，

所述数据处理模块获取训练集和测试集并进行数据预处理，将所述训练集传送给所述训练模块，将所述测试集传送给所述预测模块；

所述建模模块建立包括编码器和输出层的神经网络模型，

所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的，将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型；

所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。

本发明的上述技术方案相比现有技术具有以下优点：

本发明通过建立差距阈值，可以使目标类的概率超过非目标类、且两者的概率差不会高于设定的差距阈值，从而避免模型过拟合，使训练阶段与测试阶段的目标相符；通过引入差距阈值优化模型输出的类别概率，可以在训练过程中筛除弱负类、增强对强负类的准确辨别，不仅加速了训练过程，而且提升了模型的预测性能。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明的流程图，

图2是本发明方法的分步流程图，

图3是本发明实施例中方法的分步流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1-图2所示，本发明公开了一种优化文本分类模型输出层激活函数的方法，包括：

S1：获取训练集和测试集并进行数据预处理，建立包括编码器、分类器和输出层的神经网络模型。本实施例中所述编码器为语义表示模型 BERT。

S2：设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的。

S2-1：设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，具体为：

公式3，

式中，

表示目标类的概率，

表示非目标类的概率，

表示所述差距阈值。所述差距阈值

是一个超参数，取值范围为0-1，可以通过网格搜索法搜索得到。

为了关注有竞争力的非目标类，在训练过程中逐渐放弃学习满足

的非目标类别。通过设置差距阈值

，可以使得目标类

的概率超过非目标类

的概率、且二者之差不超过差距阈值，这不仅能避免模型过拟合，而且与测试阶段的目标相符。

S2-2：根据所述差距阈值

建立筛选参数

为：

公式4。

S2-3：使用所述筛选参数

筛掉弱样本以优化模型输出的类别概率

为：

公式5；

式中，

表示第i类的输出概率，

表示筛选参数，

表示第

类的输出分数，

是自然常数，n是类别总数。

表示本发明中提出的输出层的激活函数、即在

激活函数基础上改进得到的自适应稀疏Softmax（Adaptive Sparse Softmax , AS- Softmax）。

S2-4：目标函数L为：

公式6。

当类别

的输出概率满足

时，

，那么相应的概率

，通过筛选参数

可以在训练过程中丢掉满足

的类别。随着训练的进行，基于本发明方法中的训练目标，越来越多的弱样本（产生的损失值为0的样本）被丢弃，模型更加关注较难学习的样本。

本发明提出的AS-Softmax非常容易实现。根据Softmax的输出，AS-Softmax只需要简单的线性筛选步骤，而反向传播过程保持不变。随着筛选参数

的引入，越来越多训练样本的损失会减少到零，从而加快训练速度。

S3：将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型，将所述测试集输入训练完成的神经网络模型得到预测结果。

S3-1：将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型。

S3-2：将所述测试集输入所述编码器，通过所述分类器将所述编码器的输出映射到类别维度。

S3-3：通过AS-Softmax激活函数计算每个类别的输出概率

，选择所有类别中输出概率

的最大值及对应的索引，将索引对应的类别作为预测结果。

本发明还公开了一种优化文本分类模型输出层激活函数的设备，设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的优化文本分类模型输出层激活函数的方法的步骤。

本发明还公开了一种优化文本分类模型输出层激活函数的系统，系统包括数据处理模块、建模模块、训练模块和预测模块。所述数据处理模块获取训练集和测试集并进行数据预处理，将所述训练集传送给所述训练模块，将所述测试集传送给所述预测模块。所述建模模块建立包括编码器、分类器和输出层的神经网络模型。所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值，通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的，将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型。所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。

为了进一步说明本发明的有益效果，本实施例中以文本的多分类任务为例，判断句子中包含的情感，其中情感有5个类别：[“非常积极”, “积极”, “中立”, “消极”, “非常消极”]。

本实施例中的有样例如下：{文本：“这部电影很常规”；情感：“消极”}。

如图3所示，将文本输入编码器，然后通过分类器，分类器会将编码器输出映射到5 个类别上。将分类器的输出过激活函数Softmax，假设得到如下概率输出：[0.05,0.08, 0.10,0.4,0.37]。实验中在

取值为0.1、0.2、0.3、0.4时分别进行了实验，最终选择了效果最好时的

，由于情感是“消极”的，且其概率是0.4，那么根据公式3，本发明中的AS- Softmax会保留与0.4的分差在0.1之内的其他类别，不满足此条件的非目标类的概率均被置为0，根据公式5，概率最终变成[0,0,0,0.52,0.48]；模型通过不断学习，当其他类别概率均比目标类概率小0.1以上时，此时，5个类别上的概率分布变成[0,0,0,1,0]，那么最终这条样例的损失值（根据公式6）为0。可以看出在此过程中，训练过程与测试过程的目标一致，模型更关注强的非目标类别；并且在训练过程中简单样本被丢弃、训练速度得到了加快。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。