CN114297385A - 模型训练方法、文本分类方法、系统、设备及介质 - Google Patents

模型训练方法、文本分类方法、系统、设备及介质 Download PDF

Info

Publication number
CN114297385A
CN114297385A CN202111646852.4A CN202111646852A CN114297385A CN 114297385 A CN114297385 A CN 114297385A CN 202111646852 A CN202111646852 A CN 202111646852A CN 114297385 A CN114297385 A CN 114297385A
Authority
CN
China
Prior art keywords
sample
loss function
text
data enhancement
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646852.4A
Other languages
English (en)
Inventor
杨森
罗超
江小林
邹宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN202111646852.4A priority Critical patent/CN114297385A/zh
Publication of CN114297385A publication Critical patent/CN114297385A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种模型训练方法、文本分类方法、系统、设备及介质,包括:获取初始样本数据集;根据初始样本数据集获取待增强样本;对待增强样本进行文本数据增强处理,以得到多标签文本训练样本;基于第一损失函数和第二损失函数计算得到新的损失函数;基于多标签文本训练样本以及新的损失函数训练神经网络模型,以得到多标签文本分类模型。本发明采用多种不同数据增强算法对待增强样本进行数据增强处理,以得到多标签文本训练样本,增加了数据增强样本的多样性,再结合新的损失函数训练得到多标签文本分类模型,以便利用多标签文本分类模型对文本进行分类,缓解了多标签分类中的数据不平衡问题,提高了多标签文本分类模型的准确性。

Description

模型训练方法、文本分类方法、系统、设备及介质
技术领域
本发明涉及深度学习技术领域,特别涉及一种模型训练方法、文本分类方法、系统、设备及介质。
背景技术
目前多标签文本分类场景中,存在验证数据不平衡的问题,标签样本量充足的有上千个样本,但是部分标签只有几十甚至几条样本,而现有技术中通常从数据层面和模型层面来缓解数据不平衡的问题。模型层面主要是修改loss(损失)函数让模型分配更多的权重到少量标签上,如focal loss(焦点损失),而模型层面存在分类不准确的问题;数据层面主要分为采样和数据增强,而数据层面虽然扩充了数据集,但是同时引入了噪音样本。
发明内容
本发明要解决的技术问题是为了克服现有技术中在进行多标签文本分类时,存在分类不准确以及会引入噪音数据的缺陷,提供一种模型训练方法、文本分类方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明第一方面提供了一种模型训练方法,包括:
获取初始样本数据集,所述初始样本数据集包括多标签文本;
根据所述初始样本数据集获取待增强样本;
对所述待增强样本进行文本数据增强处理,以得到多标签文本训练样本;
基于第一损失函数和第二损失函数计算得到新的损失函数;
基于所述多标签文本训练样本以及所述新的损失函数训练神经网络模型,以得到多标签文本分类模型;
所述第一损失函数为CE Loss(交叉熵损失)函数,所述第二损失函数为KL Loss(相对熵损失)函数。
较佳地,所述新的损失函数的表达式为:Loss=CE Loss+λKL Loss
其中,Loss表示新的损失函数,CE Loss表示第一损失函数,KL Loss表示第二损失函数,λ表示超参数,0<λ<1。
较佳地,所述根据所述初始样本数据集获取待增强样本的步骤包括:
获取所述初始样本数据集中每个标签对应的样本量以及所有标签的平均样本量;
比较所述样本量与所述平均样本量,以获取目标标签;
为每个所述目标标签对应的样本设置对应的概率值;
选择所述概率值大于等于预设概率阈值的所述目标标签对应的样本以作为所述待增强样本;
和/或,
所述对所述待增强样本进行文本数据增强处理,以得到多标签文本训练样本的步骤包括:
为每个数据增强算法设置对应的概率值;
选择概率值最大的数据增强算法作为目标数据增强算法;
基于所述目标数据增强算法对所述待增强样本进行文本数据增强处理,以得到数据增强样本;
将所述数据增强样本补充至所述初始样本数据集,以得到多标签文本训练样本;
和/或,
所述目标数据增强算法包括词法级别的数据增强算法和/或上下文语义级别的数据增强算法。
本发明第二方面提供了一种模型训练系统,包括第一获取模块、第二获取模块、处理模块、计算模块和训练模块;
所述第一获取模块,用于获取初始样本数据集,所述初始样本数据集包括多标签文本;
所述第二获取模块,用于根据所述初始样本数据集获取待增强样本;
所述处理模块,用于对所述待增强样本进行文本数据增强处理,以得到多标签文本训练样本;
所述计算模块,用于基于第一损失函数和第二损失函数计算得到新的损失函数;
所述训练模块,用于基于所述多标签文本训练样本以及所述新的损失函数训练神经网络模型,以得到多标签文本分类模型;
所述第一损失函数为CE Loss函数,所述第二损失函数为KL Loss函数。
较佳地,所述新的损失函数的表达式为:Loss=CE Loss+λKL Loss
其中,Loss表示新的损失函数,CE Loss表示第一损失函数,KL Loss表示第二损失函数,λ表示超参数,0<λ<1。
较佳地,所述第二获取模块包括获取单元、比较单元、第一设置单元和第一选择单元;
所述获取单元,用于获取所述初始样本数据集中每个标签对应的样本量以及所有标签的平均样本量;
所述比较单元,用于比较所述样本量与所述平均样本量,以获取目标标签;
所述第一设置单元,用于为每个所述目标标签对应的样本设置对应的概率值;
所述第一选择单元,用于选择所述概率值大于等于预设概率阈值的所述目标标签对应的样本以作为所述待增强样本;
和/或,
所述处理模块包括第二设置单元、第二选择单元、处理单元和补充单元;
所述第二设置单元,用于为每个数据增强算法设置对应的概率值;
所述第二选择单元,用于选择概率值最大的数据增强算法作为目标数据增强算法;
所述处理单元,用于基于所述目标数据增强算法对所述待增强样本进行文本数据增强处理,以得到数据增强样本;
所述补充单元,用于将所述数据增强样本补充至所述初始样本数据集,以得到多标签文本训练样本;
和/或,
所述目标数据增强算法包括词法级别的数据增强算法和/或上下文语义级别的数据增强算法。
本发明第三方面提供了一种文本分类方法,包括:
获取待分类文本;
将所述待分类文本输入多标签文本分类模型进行分类,以得到分类结果;
其中,所述多标签文本分类模型利用上述第一方面所述的模型训练方法训练得到。
本发明第四方面提供了一种文本分类系统,包括待分类文本获取模块和分类模块;
所述待分类文本获取模块,用于获取待分类文本;
所述分类模块,用于将所述待分类文本输入多标签文本分类模型进行分类,以得到分类结果;
其中,所述多标签文本分类模型利用上述第二方面所述的模型训练系统训练得到。
本发明第五方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的模型训练方法,或执行如第三方面所述的文本分类方法。
本发明第六方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的模型训练方法,或执行如第三方面所述的文本分类方法。
在符合本领域常识的基础上,所述各优选条件,可任意组合,即得本发明各较佳实施例。
本发明的积极进步效果在于:
本发明通过采用多种不同数据增强算法对待增强样本进行数据增强处理,以得到多标签文本训练样本,增加了数据增强样本的多样性,再结合计算得到的新的损失函数训练神经网络模型,以得到多标签文本分类模型,以便利用多标签文本分类模型对文本进行分类,缓解了多标签分类中的数据不平衡问题,提高了多标签文本分类模型的准确性。
附图说明
图1为本发明实施例1的模型训练方法的流程图。
图2为本发明实施例1的模型训练方法的步骤102的流程图。
图3为本发明实施例1的模型训练方法的步骤103的流程图。
图4为本发明实施例2的模型训练系统的模块示意图。
图5为本发明实施例3的电子设备的结构示意图。
图6为本发明实施例5的文本分类方法的流程图。
图7为本发明实施例6的文本分类系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例提供一种模型训练方法,包括:
步骤101、获取初始样本数据集,该初始样本数据集包括多标签文本;
步骤102、根据初始样本数据集获取待增强样本;
步骤103、对待增强样本进行文本数据增强处理,以得到多标签文本训练样本;
步骤104、基于第一损失函数和第二损失函数计算得到新的损失函数;
步骤105、基于多标签文本训练样本以及新的损失函数训练神经网络模型,以得到多标签文本分类模型;
本实施例中,第一损失函数为CE Loss函数,第二损失函数为KL Loss函数。
本实施例中,采用CE Loss函数度量模型预测分类结果和真实分类结果的损失。
本实施例中,为了缓解数据增强样本中噪音数据带来的影响,在已有的loss基础上增加了KL Loss函数,该KL Loss函数用于度量数据增强样本与原始样本的分布差异,从而降低了数据增强样本引入的误差。
在一可实施的方案中,新的损失函数的表达式为:Loss=CE Loss+λKL Loss;
其中,Loss表示新的损失函数,CE Loss表示第一损失函数,KL Loss表示第二损失函数,λ表示超参数,0<λ<1。
在一可实施的方案中,如图2所示,步骤102包括:
步骤1021、获取初始样本数据集中每个标签对应的样本量以及所有标签的平均样本量;
步骤1022、比较样本量与平均样本量,以获取目标标签;
本实施例中,获取样本量低于平均样本量的标签作为目标标签,以便后续对这部分标签对应的样本进行数据增强处理。
需要说明的是,目标标签的数量可以为一个,也可以为多个。
步骤1023、为每个目标标签对应的样本设置对应的概率值;
步骤1024、选择概率值大于等于预设概率阈值的目标标签对应的样本以作为待增强样本;
本实施例中,系统给每个目标标签对应的样本从0-1范围内随机选取数值作为各个目标标签对应的样本的概率值,再选择概率值大于等于预设概率阈值的目标标签对应的样本以作为待增强样本;
需要说明的是,预设概率阈值为0-1范围内的任意数值,此处不做具体限定。
在一可实施的方案中,如图3所示,步骤103包括:
步骤1031、为每个数据增强算法设置对应的概率值;
步骤1032、选择概率值最大的数据增强算法作为目标数据增强算法;
本实施例中,系统给每个数据增强算法从0-1范围内随机选取数值作为各自数据增强算法的概率值,然后从所有数据增强算法中选择概率值最大的数据增强算法作为目标数据增强算法。
本实施例中,目标数据增强算法包括词法级别的数据增强算法和/或上下文语义级别的数据增强算法。
步骤1033、基于目标数据增强算法对待增强样本进行文本数据增强处理,以得到数据增强样本;
步骤1034、将数据增强样本补充至初始样本数据集,以得到多标签文本训练样本;
本实施例采用了多角度的数据增强算法,不仅包含词法级别的EDA(数据探索性分析)数据增强算法,还引入了基于CBERT(一种数据增强算法)条件生成、线性差值mixup(混合)等上下文语义级别的数据增强算法,增加了数据增强样本的多样性。
本实施例通过采用多种不同数据增强算法对待增强样本进行数据增强处理,以得到多标签文本训练样本,增加了数据增强样本的多样性,进一步地,结合CE Loss函数和KLLoss函数计算得到的新的损失函数训练神经网络模型,以得到多标签文本分类模型,以便利用多标签文本分类模型对文本进行分类,缓解了多标签分类中的数据不平衡问题,提高了多标签文本分类模型的准确性。
实施例2
如图4所示,本实施例提供一种模型训练系统,包括第一获取模块1、第二获取模块2、处理模块3、计算模块4和训练模块5;
第一获取模块1,用于获取初始样本数据集,该初始样本数据集包括多标签文本;
第二获取模块2,用于根据初始样本数据集获取待增强样本;
处理模块3,用于对待增强样本进行文本数据增强处理,以得到多标签文本训练样本;
计算模块4,用于基于第一损失函数和第二损失函数计算得到新的损失函数;
训练模块5,用于基于多标签文本训练样本以及新的损失函数训练神经网络模型,以得到多标签文本分类模型;
本实施例中,第一损失函数为CE Loss函数,所述第二损失函数为KL Loss函数。
本实施例中,采用CE Loss函数度量模型预测分类结果和真实分类结果的损失。
本实施例中,为了缓解数据增强样本中噪音数据带来的影响,在已有的loss基础上增加了KL Loss函数,该KL Loss函数用于度量数据增强样本与原始样本的分布差异,从而降低了数据增强样本引入的误差。
在一可实施的方案中,新的损失函数的表达式为:Loss=CE Loss+λKL Loss;
其中,Loss表示新的损失函数,CE Loss表示第一损失函数,KL Loss表示第二损失函数,λ表示超参数,0<λ<1。
在一可实施的方案中,如图4所示,第二获取模块2包括获取单元21、比较单元22、第一设置单元23和第一选择单元24;
获取单元21,用于获取初始样本数据集中每个标签对应的样本量以及所有标签的平均样本量;
比较单元22,用于比较样本量与平均样本量,以获取目标标签;
本实施例中,获取样本量低于平均样本量的标签作为目标标签,以便后续对这部分标签对应的样本进行数据增强处理。
需要说明的是,目标标签的数量可以为一个,也可以为多个。
第一设置单元23,用于为每个目标标签对应的样本设置对应的概率值;
第一选择单元24,用于选择概率值大于等于预设概率阈值的目标标签对应的样本以作为待增强样本;
本实施例中,系统给每个目标标签对应的样本从0-1范围内随机选取数值作为各个目标标签对应的样本的概率值,再选择大于等于预设概率阈值的目标标签对应的样本以作为待增强样本;
需要说明的是,预设概率阈值为0-1范围内的任意数值,此处不做具体限定。
在一可实施的方案中,如图4所示,处理模块3包括第二设置单元311、第二选择单元312、处理单元313和补充单元314;
第二设置单元311,用于为每个数据增强算法设置对应的概率值;
第二选择单元312,用于选择概率值最大的数据增强算法作为目标数据增强算法;
本实施例中,系统给每个数据增强算法从0-1范围内随机选取数值作为各自数据增强算法的概率值,然后从所有数据增强算法中选择概率值最大的数据增强算法作为目标数据增强算法。
本实施例中,目标数据增强算法包括词法级别的数据增强算法和/或上下文语义级别的数据增强算法。
处理单元313,用于基于目标数据增强算法对待增强样本进行文本数据增强处理,以得到数据增强样本;
补充单元314,用于将数据增强样本补充至初始样本数据集,以得到多标签文本训练样本;
本实施例采用了多角度的数据增强算法,不仅包含词法级别的EDA(数据探索性分析)数据增强算法,还引入了基于CBERT条件生成、线性差值mixup(混合)等上下文语义级别的数据增强算法,增加了数据增强样本的多样性。
本实施例通过采用多种不同数据增强算法对待增强样本进行数据增强处理,以得到多标签文本训练样本,增加了数据增强样本的多样性,进一步地,结合CE Loss函数和KLLoss函数计算得到的新的损失函数训练神经网络模型,以得到多标签文本分类模型,以便利用多标签文本分类模型对多标签文本进行分类,缓解了多标签分类中的数据不平衡问题,提高了多标签文本分类模型的准确性。
实施例3
图5为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例1的模型训练方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型训练方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1所提供的模型训练方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1所述的模型训练方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
实施例5
如图6所示,本实施例提供一种文本分类方法,包括:
步骤201、获取待分类文本;
步骤202、将待分类文本输入多标签文本分类模型进行分类,以得到分类结果;
其中,多标签文本分类模型利用实施例1的模型训练方法训练得到。
本实施例通过采用多种数据增强算法以及在已有的分类CE Loss函数的基础上增加了原数据和增强后数据的KL Loss函数,用于保证增强后的样本和原始样本分布差异不是太大,实现了利用训练得到的多标签文本分类模型对需要分类的文本进行分类,不仅能够准确的对需要分类的文本进行分类,而且缓解了多标签分类中的数据不平衡问题,以及缓解了增强后样本标签语义发生变化的问题。
实施例6
如图7所示,本实施例提供一种文本分类系统,包括待分类文本获取模块61和分类模块62;
待分类文本获取模块61,用于获取待分类文本;
分类模块62,用于将待分类文本输入多标签文本分类模型进行分类,以得到分类结果;
其中,多标签文本分类模型利用实施例2的模型训练系统训练得到。
本实施例通过采用多种数据增强算法以及在已有的分类CE Loss函数的基础上增加了原数据和增强后数据的KL Loss函数,用于保证增强后的样本和原始样本分布差异不是太大,实现了利用训练得到的多标签文本分类模型对需要分类的文本进行分类,不仅能够准确的对需要分类的文本进行分类,而且缓解了多标签分类中的数据不平衡问题,以及缓解了增强后样本标签语义发生变化的问题。
实施例7
本发明实施例7提供的一种电子设备的结构示意图,该实施例中的电子设备的结构示意图与图5的结构相同。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例5的文本分类方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例5的文本分类方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例8
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例5所提供的文本分类方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例5所述的文本分类方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取初始样本数据集,所述初始样本数据集包括多标签文本;
根据所述初始样本数据集获取待增强样本;
对所述待增强样本进行文本数据增强处理,以得到多标签文本训练样本;
基于第一损失函数和第二损失函数计算得到新的损失函数;
基于所述多标签文本训练样本以及所述新的损失函数训练神经网络模型,以得到多标签文本分类模型;
所述第一损失函数为CE Loss函数,所述第二损失函数为KL Loss函数。
2.如权利要求1所述的模型训练方法,其特征在于,所述新的损失函数的表达式为:Loss=CE Loss+λKL Loss
其中,Loss表示新的损失函数,CE Loss表示第一损失函数,KL Loss表示第二损失函数,λ表示超参数,0<λ<1。
3.如权利要求1所述的模型训练方法,其特征在于,所述根据所述初始样本数据集获取待增强样本的步骤包括:
获取所述初始样本数据集中每个标签对应的样本量以及所有标签的平均样本量;
比较所述样本量与所述平均样本量,以获取目标标签;
为每个所述目标标签对应的样本设置对应的概率值;
选择所述概率值大于等于预设概率阈值的所述目标标签对应的样本以作为所述待增强样本;
和/或,
所述对所述待增强样本进行文本数据增强处理,以得到多标签文本训练样本的步骤包括:
为每个数据增强算法设置对应的概率值;
选择概率值最大的数据增强算法作为目标数据增强算法;
基于所述目标数据增强算法对所述待增强样本进行文本数据增强处理,以得到数据增强样本;
将所述数据增强样本补充至所述初始样本数据集,以得到多标签文本训练样本;
和/或,
所述目标数据增强算法包括词法级别的数据增强算法和/或上下文语义级别的数据增强算法。
4.一种模型训练系统,其特征在于,包括第一获取模块、第二获取模块、处理模块、计算模块和训练模块;
所述第一获取模块,用于获取初始样本数据集,所述初始样本数据集包括多标签文本;
所述第二获取模块,用于根据所述初始样本数据集获取待增强样本;
所述处理模块,用于对所述待增强样本进行文本数据增强处理,以得到多标签文本训练样本;
所述计算模块,用于基于第一损失函数和第二损失函数计算得到新的损失函数;
所述训练模块,用于基于所述多标签文本训练样本以及所述新的损失函数训练神经网络模型,以得到多标签文本分类模型;
所述第一损失函数为CE Loss函数,所述第二损失函数为KL Loss函数。
5.如权利要求4所述的模型训练系统,其特征在于,所述新的损失函数的表达式为:Loss=CE Loss+λKL Loss
其中,Loss表示新的损失函数,CE Loss表示第一损失函数,KL Loss表示第二损失函数,λ表示超参数,0<λ<1。
6.如权利要求4所述的模型训练系统,其特征在于,所述第二获取模块包括获取单元、比较单元、第一设置单元和第一选择单元;
所述获取单元,用于获取所述初始样本数据集中每个标签对应的样本量以及所有标签的平均样本量;
所述比较单元,用于比较所述样本量与所述平均样本量,以获取目标标签;
所述第一设置单元,用于为每个所述目标标签对应的样本设置对应的概率值;
所述第一选择单元,用于选择所述概率值大于等于预设概率阈值的所述目标标签对应的样本以作为所述待增强样本;
和/或,
所述处理模块包括第二设置单元、第二选择单元、处理单元和补充单元;
所述第二设置单元,用于为每个数据增强算法设置对应的概率值;
所述第二选择单元,用于选择概率值最大的数据增强算法作为目标数据增强算法;
所述处理单元,用于基于所述目标数据增强算法对所述待增强样本进行文本数据增强处理,以得到数据增强样本;
所述补充单元,用于将所述数据增强样本补充至所述初始样本数据集,以得到多标签文本训练样本;
和/或,
所述目标数据增强算法包括词法级别的数据增强算法和/或上下文语义级别的数据增强算法。
7.一种文本分类方法,其特征在于,包括:
获取待分类文本;
将所述待分类文本输入多标签文本分类模型进行分类,以得到分类结果;
其中,所述多标签文本分类模型利用上述权利要求1-3中任一项所述的模型训练方法训练得到。
8.一种文本分类系统,其特征在于,包括待分类文本获取模块和分类模块;
所述待分类文本获取模块,用于获取待分类文本;
所述分类模块,用于将所述待分类文本输入多标签文本分类模型进行分类,以得到分类结果;
其中,所述多标签文本分类模型利用上述权利要求4-6中任一项所述的模型训练系统训练得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的模型训练方法,或执行如权利要求7所述的文本分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的模型训练方法,或执行如权利要求7所述的文本分类方法。
CN202111646852.4A 2021-12-30 2021-12-30 模型训练方法、文本分类方法、系统、设备及介质 Pending CN114297385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646852.4A CN114297385A (zh) 2021-12-30 2021-12-30 模型训练方法、文本分类方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111646852.4A CN114297385A (zh) 2021-12-30 2021-12-30 模型训练方法、文本分类方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN114297385A true CN114297385A (zh) 2022-04-08

Family

ID=80972190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111646852.4A Pending CN114297385A (zh) 2021-12-30 2021-12-30 模型训练方法、文本分类方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN114297385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098688A (zh) * 2022-07-20 2022-09-23 平安科技(深圳)有限公司 多标签分类模型训练方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098688A (zh) * 2022-07-20 2022-09-23 平安科技(深圳)有限公司 多标签分类模型训练方法、装置、电子设备及存储介质
CN115098688B (zh) * 2022-07-20 2024-05-31 平安科技(深圳)有限公司 多标签分类模型训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11915104B2 (en) Normalizing text attributes for machine learning models
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN111723209A (zh) 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN111104242A (zh) 基于深度学习的操作系统的异常日志的处理方法及装置
CN111597297A (zh) 物品召回方法、系统、电子设备及可读存储介质
CN114881129A (zh) 一种模型训练方法、装置、电子设备及存储介质
US11645500B2 (en) Method and system for enhancing training data and improving performance for neural network models
CN117709435B (zh) 大语言模型的训练方法、代码生成方法、设备及存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN114297385A (zh) 模型训练方法、文本分类方法、系统、设备及介质
US11782947B2 (en) Apparatus for recommending feature and method for recommending feature using the same
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
CN110807082B (zh) 质量抽检项目确定方法、系统、电子设备及可读存储介质
US20220092452A1 (en) Automated machine learning tool for explaining the effects of complex text on predictive results
CN113361621B (zh) 用于训练模型的方法和装置
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN113110984A (zh) 报告处理方法、装置、计算机系统及可读存储介质
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN113934813A (zh) 一种样本数据划分的方法、系统、设备及可读存储介质
CN113344122B (zh) 一种操作流程诊断方法、装置及存储介质
CN115146258B (zh) 请求处理方法、装置、存储介质及电子设备
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质
US20230419104A1 (en) High dimensional dense tensor representation for log data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination