CN115630689A - 优化文本分类模型输出层激活函数的方法、设备和系统 - Google Patents

优化文本分类模型输出层激活函数的方法、设备和系统 Download PDF

Info

Publication number
CN115630689A
CN115630689A CN202211647340.4A CN202211647340A CN115630689A CN 115630689 A CN115630689 A CN 115630689A CN 202211647340 A CN202211647340 A CN 202211647340A CN 115630689 A CN115630689 A CN 115630689A
Authority
CN
China
Prior art keywords
training
probability
target
class
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211647340.4A
Other languages
English (en)
Inventor
曹自强
耿磊
吕奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202211647340.4A priority Critical patent/CN115630689A/zh
Publication of CN115630689A publication Critical patent/CN115630689A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及神经网络技术领域,公开一种优化文本分类模型输出层激活函数的方法、设备和系统,方法包括获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化模型输出的类别概率达到训练目标和测试目标一致的目的;训练神经网络模型,将测试集输入训练完成的神经网络模型得到预测结果;设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序;系统包括数据处理模块、建模模块、训练模块和预测模块。本发明可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。

Description

优化文本分类模型输出层激活函数的方法、设备和系统
技术领域
本发明涉及神经网络技术领域,尤其是指一种优化文本分类模型输出层激活函数的方法、设备和系统。
背景技术
Softmax(软最大化)作为一种激活函数,被广泛应用在神经网络分类模型的最后一层。在训练时,人们通常使用Softmax函数将网络最后一层的隐藏层神经元归一化为其概率分布,并以独热向量(one-hot vector)为目标,使用交叉熵损失函数计算损失;在测试阶段使用模型预测概率最高的类别作为模型预测的结果,计算公式为:
Figure 510468DEST_PATH_IMAGE001
公式1,
公式1中,
Figure 95164DEST_PATH_IMAGE002
是第
Figure 576961DEST_PATH_IMAGE003
类的输出分数,
Figure 928308DEST_PATH_IMAGE004
Figure 874267DEST_PATH_IMAGE005
是神经网络的最终输出,
Figure 20078DEST_PATH_IMAGE006
是第
Figure 723592DEST_PATH_IMAGE003
类的 输出分数,
Figure 222837DEST_PATH_IMAGE007
Figure 164248DEST_PATH_IMAGE008
是自然常数,n是类别总数。
在训练阶段,Softmax函数的目标函数L为:
Figure 277698DEST_PATH_IMAGE009
公式2,
公式2中,
Figure 530825DEST_PATH_IMAGE010
是目标类的输出概率。目标函数使模型的预测结果拟合one-hot向 量,即让目标类的概率
Figure 20712DEST_PATH_IMAGE010
趋于1、非目标类的概率
Figure 551050DEST_PATH_IMAGE011
趋于0(训练阶段),但受限于其计 算形式(见公式1),其目标类(非目标类)的计算结果并不能为1(0)。并且,测试阶段的目标 为目标类别的概率比所有非目标类别大即可,训练阶段与测试阶段的目标不一致。因此,神 经网络必然会不断地反向传播,更新训练参数,以达到前述结果,这就明显会放慢训练过 程,并导致过拟合,模型鲁棒性能显著下降。同时,在训练过程中神经网络模型将所有非目 标类别同等对待,这忽视了强的非目标类别会对模型表现产生强干扰的情况。
当前,有许多研究工作都致力于改进Softmax函数。当文本分类模型涉及很多类别时,一种高效的训练方式是控制输出维数,以降低计算复杂度。例如以稀疏Softmax(SparseSoftmax)为代表的研究探索了通过减少拟合的目标类个数来加速训练过程,以降低计算复杂度。Softmax通常缺乏对强负类的准确辨别,扩大类间距以提升模型的训练效果是一种有效的策略,例如大差距Softmax(Large-margin Softmax)在Softmax的基础上,就是通过扩大类间距以提升模型的训练效果。另外,由于金标数据中存在噪声,也有学者提出使用标签平滑(Label Smoothing)来防止神经网络模型过度拟合金标数据的方法。金标数据是人工标注的数据,也是希望模型能达到的输出目标,模型通过不断学习希望可以输出与人工标注一样准确的数据。
但是,现有方法也存在缺陷:稀疏Softmax虽然保留了较高概率的类别,但无法解决训练与测试阶段目标不一致的问题;Large-margin Softmax等相关技术的实现因为与角度有关,会使得目标函数变得过于复杂,且其与标签平滑技术都不会在学习过程中自动丢弃弱负类,当类别数很大时,会产生很大的计算成本;同时,现有方法所需的时间量级都较大。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种优化文本分类模型输出层激活函数的方法、设备和系统,可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。
为解决上述技术问题,本发明提供了一种优化文本分类模型输出层激活函数的方法,包括:
获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;
设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的;
将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
在本发明的一个实施例中,所述编码器为语义表示模型。
在本发明的一个实施例中,所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:
Figure 100980DEST_PATH_IMAGE012
式中,
Figure 845996DEST_PATH_IMAGE013
表示目标类的概率,
Figure 811678DEST_PATH_IMAGE014
表示非目标类的概率,
Figure 258840DEST_PATH_IMAGE015
表示所述差距阈值。
在本发明的一个实施例中,所述差距阈值
Figure 41988DEST_PATH_IMAGE016
的取值范围为0-1,通过网格搜索法搜 索得到。
在本发明的一个实施例中,所述通过引入差距阈值优化模型输出的类别概率,具体为:
根据所述差距阈值
Figure 207390DEST_PATH_IMAGE015
建立筛选参数
Figure 976763DEST_PATH_IMAGE017
,使用所述筛选参数
Figure 357060DEST_PATH_IMAGE018
筛掉弱样本以优化模 型输出的类别概率。
在本发明的一个实施例中,所述筛选参数
Figure 248793DEST_PATH_IMAGE019
为:
Figure 839174DEST_PATH_IMAGE020
在本发明的一个实施例中,使用所述筛选参数
Figure 208976DEST_PATH_IMAGE021
筛掉弱样本以优化模型输出的类 别概率时,模型输出的类别概率
Figure 693047DEST_PATH_IMAGE022
Figure 755680DEST_PATH_IMAGE023
式中,
Figure 833358DEST_PATH_IMAGE024
表示第i类的输出概率,
Figure 85479DEST_PATH_IMAGE025
表示第
Figure 361739DEST_PATH_IMAGE003
类的输出分数,
Figure 532958DEST_PATH_IMAGE008
是自然常数,n是类别 总数。
在本发明的一个实施例中,将所述测试集输入训练完成的神经网络模型得到预测结果,具体为:
将所述测试集输入所述编码器,通过分类器将所述编码器的输出映射到类别维 度,计算每个类别的输出概率,选择所有类别中输出概率
Figure 894669DEST_PATH_IMAGE026
的最大值及对应的索引,将索 引对应的类别作为预测结果。
本发明还提供了一种优化文本分类模型输出层激活函数的设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的优化文本分类模型输出层激活函数的方法的步骤。
本发明还提供了一种优化文本分类模型输出层激活函数的系统,包括数据处理模块、建模模块、训练模块和预测模块,
所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块;
所述建模模块建立包括编码器和输出层的神经网络模型,
所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型;
所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过建立差距阈值,可以使目标类的概率超过非目标类、且两者的概率差不会高于设定的差距阈值,从而避免模型过拟合,使训练阶段与测试阶段的目标相符;通过引入差距阈值优化模型输出的类别概率,可以在训练过程中筛除弱负类、增强对强负类的准确辨别,不仅加速了训练过程,而且提升了模型的预测性能。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明的流程图,
图2是本发明方法的分步流程图,
图3是本发明实施例中方法的分步流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1-图2所示,本发明公开了一种优化文本分类模型输出层激活函数的方法,包括:
S1:获取训练集和测试集并进行数据预处理,建立包括编码器、分类器和输出层的神经网络模型。本实施例中所述编码器为语义表示模型 BERT。
S2:设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的。
S2-1:设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:
Figure 934169DEST_PATH_IMAGE027
公式3,
式中,
Figure 533778DEST_PATH_IMAGE028
表示目标类的概率,
Figure 751263DEST_PATH_IMAGE029
表示非目标类的概率,
Figure 600271DEST_PATH_IMAGE015
表示所述差距阈值。 所述差距阈值
Figure 53249DEST_PATH_IMAGE016
是一个超参数,取值范围为0-1,可以通过网格搜索法搜索得到。
为了关注有竞争力的非目标类,在训练过程中逐渐放弃学习满足
Figure 631998DEST_PATH_IMAGE030
的非目标类别。通过设置差距阈值
Figure 410598DEST_PATH_IMAGE015
,可以使得目标类
Figure 746901DEST_PATH_IMAGE028
的概率超过非目标类
Figure 144516DEST_PATH_IMAGE029
的概 率、且二者之差不超过差距阈值,这不仅能避免模型过拟合,而且与测试阶段的目标相符。
S2-2:根据所述差距阈值
Figure 187558DEST_PATH_IMAGE015
建立筛选参数
Figure 933797DEST_PATH_IMAGE031
为:
Figure 554134DEST_PATH_IMAGE032
公式4。
S2-3:使用所述筛选参数
Figure 676811DEST_PATH_IMAGE033
筛掉弱样本以优化模型输出的类别概率
Figure 839939DEST_PATH_IMAGE034
为:
Figure 570129DEST_PATH_IMAGE035
公式5;
式中,
Figure 881025DEST_PATH_IMAGE036
表示第i类的输出概率,
Figure 745075DEST_PATH_IMAGE033
表示筛选参数,
Figure 621765DEST_PATH_IMAGE037
表示第
Figure 975386DEST_PATH_IMAGE003
类的输出分数,
Figure 445681DEST_PATH_IMAGE008
是自 然常数,n是类别总数。
Figure 644581DEST_PATH_IMAGE038
表示本发明中提出的输出层的激活函数、即在
Figure 657668DEST_PATH_IMAGE039
激 活函数基础上改进得到的自适应稀疏Softmax(Adaptive Sparse Softmax , AS- Softmax)。
S2-4:目标函数L为:
Figure 119873DEST_PATH_IMAGE040
公式6。
当类别
Figure 874203DEST_PATH_IMAGE041
的输出概率满足
Figure 204690DEST_PATH_IMAGE042
时,
Figure 993654DEST_PATH_IMAGE043
,那么相应的概率
Figure 626761DEST_PATH_IMAGE044
,通过筛选参数
Figure 947015DEST_PATH_IMAGE045
可以在训练过程中丢掉满足
Figure 753297DEST_PATH_IMAGE046
的类别。随着训练的 进行,基于本发明方法中的训练目标,越来越多的弱样本(产生的损失值为0的样本)被丢 弃,模型更加关注较难学习的样本。
本发明提出的AS-Softmax非常容易实现。根据Softmax的输出,AS-Softmax只需要 简单的线性筛选步骤,而反向传播过程保持不变。随着筛选参数
Figure 334451DEST_PATH_IMAGE033
的引入,越来越多训练样 本的损失会减少到零,从而加快训练速度。
S3:将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
S3-1:将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型。
S3-2:将所述测试集输入所述编码器,通过所述分类器将所述编码器的输出映射到类别维度。
S3-3:通过AS-Softmax激活函数计算每个类别的输出概率
Figure 200776DEST_PATH_IMAGE047
,选择所有类别中输 出概率
Figure 992014DEST_PATH_IMAGE047
的最大值及对应的索引,将索引对应的类别作为预测结果。
本发明还公开了一种优化文本分类模型输出层激活函数的设备,设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的优化文本分类模型输出层激活函数的方法的步骤。
本发明还公开了一种优化文本分类模型输出层激活函数的系统,系统包括数据处理模块、建模模块、训练模块和预测模块。所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块。所述建模模块建立包括编码器、分类器和输出层的神经网络模型。所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型。所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
本发明通过建立差距阈值,可以使目标类的概率超过非目标类、且两者的概率差不会高于设定的差距阈值,从而避免模型过拟合,使训练阶段与测试阶段的目标相符;通过引入差距阈值优化模型输出的类别概率,可以在训练过程中筛除弱负类、增强对强负类的准确辨别,不仅加速了训练过程,而且提升了模型的预测性能。
为了进一步说明本发明的有益效果,本实施例中以文本的多分类任务为例,判断句子中包含的情感,其中情感有5个类别:[“非常积极”, “积极”, “中立”, “消极”, “非常消极”]。
本实施例中的有样例如下:{文本:“这部电影很常规”;情感:“消极”}。
如图3所示,将文本输入编码器,然后通过分类器,分类器会将编码器输出映射到5 个类别上。将分类器的输出过激活函数Softmax,假设得到如下概率输出:[0.05,0.08, 0.10,0.4,0.37]。实验中在
Figure 601987DEST_PATH_IMAGE016
取值为0.1、0.2、0.3、0.4时分别进行了实验,最终选择了效果 最好时的
Figure 303227DEST_PATH_IMAGE048
,由于情感是“消极”的,且其概率是0.4,那么根据公式3,本发明中的AS- Softmax会保留与0.4的分差在0.1之内的其他类别,不满足此条件的非目标类的概率均被 置为0,根据公式5,概率最终变成[0,0,0,0.52,0.48];模型通过不断学习,当其他类别概率 均比目标类概率小0.1以上时,此时,5个类别上的概率分布变成[0,0,0,1,0],那么最终这 条样例的损失值(根据公式6)为0。可以看出在此过程中,训练过程与测试过程的目标一致, 模型更关注强的非目标类别;并且在训练过程中简单样本被丢弃、训练速度得到了加快。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种优化文本分类模型输出层激活函数的方法,其特征在于,包括:
获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;
设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的;
将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型,将所述测试集输入训练完成的神经网络模型得到预测结果。
2.根据权利要求1所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述编码器为语义表示模型。
3.根据权利要求1所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,具体为:
Figure 295638DEST_PATH_IMAGE001
式中,
Figure 105331DEST_PATH_IMAGE002
表示目标类的概率,
Figure 456678DEST_PATH_IMAGE003
表示非目标类的概率,
Figure 887790DEST_PATH_IMAGE004
表示所述差距阈值。
4.根据权利要求3所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述 差距阈值
Figure 33601DEST_PATH_IMAGE005
的取值范围为0-1,通过网格搜索法搜索得到。
5.根据权利要求3所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述通过引入差距阈值优化模型输出的类别概率,具体为:
根据所述差距阈值
Figure 737115DEST_PATH_IMAGE004
建立筛选参数
Figure 16786DEST_PATH_IMAGE006
,使用所述筛选参数
Figure 427039DEST_PATH_IMAGE007
筛掉弱样本以优化模型输 出的类别概率。
6.根据权利要求5所述的优化文本分类模型输出层激活函数的方法,其特征在于:所述 筛选参数
Figure 806068DEST_PATH_IMAGE008
为:
Figure 809927DEST_PATH_IMAGE009
7.根据权利要求5所述的优化文本分类模型输出层激活函数的方法,其特征在于:使用 所述筛选参数
Figure 299814DEST_PATH_IMAGE010
筛掉弱样本以优化模型输出的类别概率时,模型输出的类别概率
Figure 95732DEST_PATH_IMAGE011
为:
Figure 707979DEST_PATH_IMAGE012
式中,
Figure 120506DEST_PATH_IMAGE013
表示第i类的输出概率,
Figure 351767DEST_PATH_IMAGE014
表示第
Figure 798929DEST_PATH_IMAGE015
类的输出分数,
Figure 332809DEST_PATH_IMAGE016
是自然常数,n是类别总数。
8.根据权利要求7所述的优化文本分类模型输出层激活函数的方法,其特征在于:将所述测试集输入训练完成的神经网络模型得到预测结果,具体为:
将所述测试集输入所述编码器,通过分类器将所述编码器的输出映射到类别维度,计 算每个类别的输出概率
Figure 701474DEST_PATH_IMAGE013
,选择所有类别中输出概率
Figure 533164DEST_PATH_IMAGE017
的最大值及对应的索引,将索引对 应的类别作为预测结果。
9.一种优化文本分类模型输出层激活函数的设备,其特征在于:包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的优化文本分类模型输出层激活函数的方法的步骤。
10.一种优化文本分类模型输出层激活函数的系统,其特征在于:包括数据处理模块、建模模块、训练模块和预测模块,
所述数据处理模块获取训练集和测试集并进行数据预处理,将所述训练集传送给所述训练模块,将所述测试集传送给所述预测模块;
所述建模模块建立包括编码器和输出层的神经网络模型,
所述训练模块设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化神经网络模型输出的类别概率达到训练目标和测试目标一致的目的,将所述训练集输入神经网络模型进行训练得到训练完成的神经网络模型;
所述预测模块将所述测试集输入训练完成的神经网络模型得到预测结果。
CN202211647340.4A 2022-12-21 2022-12-21 优化文本分类模型输出层激活函数的方法、设备和系统 Pending CN115630689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211647340.4A CN115630689A (zh) 2022-12-21 2022-12-21 优化文本分类模型输出层激活函数的方法、设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211647340.4A CN115630689A (zh) 2022-12-21 2022-12-21 优化文本分类模型输出层激活函数的方法、设备和系统

Publications (1)

Publication Number Publication Date
CN115630689A true CN115630689A (zh) 2023-01-20

Family

ID=84910302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211647340.4A Pending CN115630689A (zh) 2022-12-21 2022-12-21 优化文本分类模型输出层激活函数的方法、设备和系统

Country Status (1)

Country Link
CN (1) CN115630689A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
CN113011532A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 分类模型训练方法、装置、计算设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
CN113011532A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 分类模型训练方法、装置、计算设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QI LV等: "Adaptive Sparse Softmax: An Effective and Efficient Softmax Variant for Text Classification", pages 4 - 6 *
SHAOSHI SUN等: "Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation", pages 1 - 7 *
朱晨光: "基于scikit-learn的机器学习 算法与实践", 北京:机械工业出版社, pages: 60 - 62 *

Similar Documents

Publication Publication Date Title
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN108255805A (zh) 舆情分析方法及装置、存储介质、电子设备
CN108804453A (zh) 一种视音频识别方法及装置
Joshi et al. A Study of speech emotion recognition methods
CN115511069A (zh) 神经网络的训练方法、数据处理方法、设备及存储介质
CN111199149A (zh) 一种对话系统的语句智能澄清方法及系统
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
Wang et al. Contrastive Predictive Coding of Audio with an Adversary.
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN112199505B (zh) 一种基于特征表示学习的跨领域情感分类方法及系统
CN113420508A (zh) 一种基于lstm的机组组合计算方法
Zharmagambetov et al. Improved representation learning for acoustic event classification using tree-structured ontology
CN115630689A (zh) 优化文本分类模型输出层激活函数的方法、设备和系统
CN108573275B (zh) 一种在线分类微服务的构建方法
Liu et al. Bird song classification based on improved Bi-LSTM-DenseNet network
CN112346956A (zh) 一种针对深度学习程序进行神经元变异的测试方法
Tan et al. Pre-trained DenseNet-121 with Multilayer Perceptron for Acoustic Event Classification.
Sabuj et al. A Comparative Study of Machine Learning Classifiers for Speaker’s Accent Recognition
CN112200268A (zh) 一种基于编码器-解码器框架的图像描述方法
CN111832815A (zh) 科研热点预测方法及系统
Ma et al. Semi-supervised sentence classification based on user polarity in the social scenarios
Jun et al. Speech signals identification base on improved DBN
Zheng Fast Adaptive Machine Vision Positioning Algorithm Based on Relative Threshold Features
CN117574262A (zh) 一种面向小样本问题的水声信号分类方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination