CN115630689A - 优化文本分类模型输出层激活函数的方法、设备和系统 - Google Patents
优化文本分类模型输出层激活函数的方法、设备和系统 Download PDFInfo
- Publication number
- CN115630689A CN115630689A CN202211647340.4A CN202211647340A CN115630689A CN 115630689 A CN115630689 A CN 115630689A CN 202211647340 A CN202211647340 A CN 202211647340A CN 115630689 A CN115630689 A CN 115630689A
- Authority
- CN
- China
- Prior art keywords
- training
- probability
- target
- class
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及神经网络技术领域,公开一种优化文本分类模型输出层激活函数的方法、设备和系统,方法包括获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化模型输出的类别概率达到训练目标和测试目标一致的目的;训练神经网络模型,将测试集输入训练完成的神经网络模型得到预测结果;设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序;系统包括数据处理模块、建模模块、训练模块和预测模块。本发明可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。
Description
技术领域
本发明涉及神经网络技术领域,尤其是指一种优化文本分类模型输出层激活函数的方法、设备和系统。
背景技术
Softmax(软最大化)作为一种激活函数,被广泛应用在神经网络分类模型的最后一层。在训练时,人们通常使用Softmax函数将网络最后一层的隐藏层神经元归一化为其概率分布,并以独热向量(one-hot vector)为目标,使用交叉熵损失函数计算损失;在测试阶段使用模型预测概率最高的类别作为模型预测的结果,计算公式为:
在训练阶段,Softmax函数的目标函数L为:
公式2中,是目标类的输出概率。目标函数使模型的预测结果拟合one-hot向
量,即让目标类的概率趋于1、非目标类的概率趋于0(训练阶段),但受限于其计
算形式(见公式1),其目标类(非目标类)的计算结果并不能为1(0)。并且,测试阶段的目标
为目标类别的概率比所有非目标类别大即可,训练阶段与测试阶段的目标不一致。因此,神
经网络必然会不断地反向传播,更新训练参数,以达到前述结果,这就明显会放慢训练过
程,并导致过拟合,模型鲁棒性能显著下降。同时,在训练过程中神经网络模型将所有非目
标类别同等对待,这忽视了强的非目标类别会对模型表现产生强干扰的情况。
当前,有许多研究工作都致力于改进Softmax函数。当文本分类模型涉及很多类别时,一种高效的训练方式是控制输出维数,以降低计算复杂度。例如以稀疏Softmax(SparseSoftmax)为代表的研究探索了通过减少拟合的目标类个数来加速训练过程,以降低计算复杂度。Softmax通常缺乏对强负类的准确辨别,扩大类间距以提升模型的训练效果是一种有效的策略,例如大差距Softmax(Large-margin Softmax)在Softmax的基础上,就是通过扩大类间距以提升模型的训练效果。另外,由于金标数据中存在噪声,也有学者提出使用标签平滑(Label Smoothing)来防止神经网络模型过度拟合金标数据的方法。金标数据是人工标注的数据,也是希望模型能达到的输出目标,模型通过不断学习希望可以输出与人工标注一样准确的数据。
但是,现有方法也存在缺陷:稀疏Softmax虽然保留了较高概率的类别,但无法解决训练与测试阶段目标不一致的问题;Large-margin Softmax等相关技术的实现因为与角度有关,会使得目标函数变得过于复杂,且其与标签平滑技术都不会在学习过程中自动丢弃弱负类,当类别数很大时,会产生很大的计算成本;同时,现有方法所需的时间量级都较大。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种优化文本分类模型输出层激活函数的方法、设备和系统,可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。
为解决上述技术问题,本发明提供了一种优化文本分类模型输出层激活函数的方法,包括:
获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;
设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的;
将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
在本发明的一个实施例中,所述编码器为语义表示模型。
在本发明的一个实施例中,所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:
在本发明的一个实施例中,所述通过引入差距阈值优化模型输出的类别概率,具体为:
在本发明的一个实施例中,将所述测试集输入训练完成的神经网络模型得到预测结果,具体为:
本发明还提供了一种优化文本分类模型输出层激活函数的设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的优化文本分类模型输出层激活函数的方法的步骤。
本发明还提供了一种优化文本分类模型输出层激活函数的系统,包括数据处理模块、建模模块、训练模块和预测模块,
所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块;
所述建模模块建立包括编码器和输出层的神经网络模型,
所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型;
所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过建立差距阈值,可以使目标类的概率超过非目标类、且两者的概率差不会高于设定的差距阈值,从而避免模型过拟合,使训练阶段与测试阶段的目标相符;通过引入差距阈值优化模型输出的类别概率,可以在训练过程中筛除弱负类、增强对强负类的准确辨别,不仅加速了训练过程,而且提升了模型的预测性能。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明的流程图,
图2是本发明方法的分步流程图,
图3是本发明实施例中方法的分步流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1-图2所示,本发明公开了一种优化文本分类模型输出层激活函数的方法,包括:
S1:获取训练集和测试集并进行数据预处理,建立包括编码器、分类器和输出层的神经网络模型。本实施例中所述编码器为语义表示模型 BERT。
S2:设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的。
S2-1:设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:
为了关注有竞争力的非目标类,在训练过程中逐渐放弃学习满足
的非目标类别。通过设置差距阈值,可以使得目标类的概率超过非目标类的概
率、且二者之差不超过差距阈值,这不仅能避免模型过拟合,而且与测试阶段的目标相符。
式中,表示第i类的输出概率,表示筛选参数,表示第类的输出分数,是自
然常数,n是类别总数。表示本发明中提出的输出层的激活函数、即在激
活函数基础上改进得到的自适应稀疏Softmax(Adaptive Sparse Softmax , AS-
Softmax)。
S2-4:目标函数L为:
当类别的输出概率满足时,,那么相应的概率,通过筛选参数可以在训练过程中丢掉满足的类别。随着训练的
进行,基于本发明方法中的训练目标,越来越多的弱样本(产生的损失值为0的样本)被丢
弃,模型更加关注较难学习的样本。
本发明提出的AS-Softmax非常容易实现。根据Softmax的输出,AS-Softmax只需要
简单的线性筛选步骤,而反向传播过程保持不变。随着筛选参数的引入,越来越多训练样
本的损失会减少到零,从而加快训练速度。
S3:将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
S3-1:将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型。
S3-2:将所述测试集输入所述编码器,通过所述分类器将所述编码器的输出映射到类别维度。
本发明还公开了一种优化文本分类模型输出层激活函数的设备,设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的优化文本分类模型输出层激活函数的方法的步骤。
本发明还公开了一种优化文本分类模型输出层激活函数的系统,系统包括数据处理模块、建模模块、训练模块和预测模块。所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块。所述建模模块建立包括编码器、分类器和输出层的神经网络模型。所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型。所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
本发明通过建立差距阈值,可以使目标类的概率超过非目标类、且两者的概率差不会高于设定的差距阈值,从而避免模型过拟合,使训练阶段与测试阶段的目标相符;通过引入差距阈值优化模型输出的类别概率,可以在训练过程中筛除弱负类、增强对强负类的准确辨别,不仅加速了训练过程,而且提升了模型的预测性能。
为了进一步说明本发明的有益效果,本实施例中以文本的多分类任务为例,判断句子中包含的情感,其中情感有5个类别:[“非常积极”, “积极”, “中立”, “消极”, “非常消极”]。
本实施例中的有样例如下:{文本:“这部电影很常规”;情感:“消极”}。
如图3所示,将文本输入编码器,然后通过分类器,分类器会将编码器输出映射到5
个类别上。将分类器的输出过激活函数Softmax,假设得到如下概率输出:[0.05,0.08,
0.10,0.4,0.37]。实验中在取值为0.1、0.2、0.3、0.4时分别进行了实验,最终选择了效果
最好时的,由于情感是“消极”的,且其概率是0.4,那么根据公式3,本发明中的AS-
Softmax会保留与0.4的分差在0.1之内的其他类别,不满足此条件的非目标类的概率均被
置为0,根据公式5,概率最终变成[0,0,0,0.52,0.48];模型通过不断学习,当其他类别概率
均比目标类概率小0.1以上时,此时,5个类别上的概率分布变成[0,0,0,1,0],那么最终这
条样例的损失值(根据公式6)为0。可以看出在此过程中,训练过程与测试过程的目标一致,
模型更关注强的非目标类别;并且在训练过程中简单样本被丢弃、训练速度得到了加快。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种优化文本分类模型输出层激活函数的方法,其特征在于,包括:
获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;
设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的;
将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
2.根据权利要求1所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述编码器为语义表示模型。
9.一种优化文本分类模型输出层激活函数的设备,其特征在于:包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的优化文本分类模型输出层激活函数的方法的步骤。
10.一种优化文本分类模型输出层激活函数的系统,其特征在于:包括数据处理模块、建模模块、训练模块和预测模块,
所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块;
所述建模模块建立包括编码器和输出层的神经网络模型,
所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型;
所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647340.4A CN115630689A (zh) | 2022-12-21 | 2022-12-21 | 优化文本分类模型输出层激活函数的方法、设备和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647340.4A CN115630689A (zh) | 2022-12-21 | 2022-12-21 | 优化文本分类模型输出层激活函数的方法、设备和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115630689A true CN115630689A (zh) | 2023-01-20 |
Family
ID=84910302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211647340.4A Pending CN115630689A (zh) | 2022-12-21 | 2022-12-21 | 优化文本分类模型输出层激活函数的方法、设备和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630689A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020091549A (ja) * | 2018-12-03 | 2020-06-11 | 日本放送協会 | テキスト分類装置、学習装置、およびプログラム |
CN113011532A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、计算设备及存储介质 |
-
2022
- 2022-12-21 CN CN202211647340.4A patent/CN115630689A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020091549A (ja) * | 2018-12-03 | 2020-06-11 | 日本放送協会 | テキスト分類装置、学習装置、およびプログラム |
CN113011532A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、计算设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
QI LV等: "Adaptive Sparse Softmax: An Effective and Efficient Softmax Variant for Text Classification", pages 4 - 6 * |
SHAOSHI SUN等: "Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation", pages 1 - 7 * |
朱晨光: "基于scikit-learn的机器学习 算法与实践", 北京:机械工业出版社, pages: 60 - 62 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN108255805A (zh) | 舆情分析方法及装置、存储介质、电子设备 | |
CN108804453A (zh) | 一种视音频识别方法及装置 | |
Joshi et al. | A Study of speech emotion recognition methods | |
CN115511069A (zh) | 神经网络的训练方法、数据处理方法、设备及存储介质 | |
CN111199149A (zh) | 一种对话系统的语句智能澄清方法及系统 | |
CN112925904A (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
Wang et al. | Contrastive Predictive Coding of Audio with an Adversary. | |
CN113722439B (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及系统 | |
CN112199505B (zh) | 一种基于特征表示学习的跨领域情感分类方法及系统 | |
CN113420508A (zh) | 一种基于lstm的机组组合计算方法 | |
Zharmagambetov et al. | Improved representation learning for acoustic event classification using tree-structured ontology | |
CN115630689A (zh) | 优化文本分类模型输出层激活函数的方法、设备和系统 | |
CN108573275B (zh) | 一种在线分类微服务的构建方法 | |
Liu et al. | Bird song classification based on improved Bi-LSTM-DenseNet network | |
CN112346956A (zh) | 一种针对深度学习程序进行神经元变异的测试方法 | |
Tan et al. | Pre-trained DenseNet-121 with Multilayer Perceptron for Acoustic Event Classification. | |
Sabuj et al. | A Comparative Study of Machine Learning Classifiers for Speaker’s Accent Recognition | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 | |
CN111832815A (zh) | 科研热点预测方法及系统 | |
Ma et al. | Semi-supervised sentence classification based on user polarity in the social scenarios | |
Jun et al. | Speech signals identification base on improved DBN | |
Zheng | Fast Adaptive Machine Vision Positioning Algorithm Based on Relative Threshold Features | |
CN117574262A (zh) | 一种面向小样本问题的水声信号分类方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |