CN113934851A - 用于文本分类的数据增强方法、装置及电子设备 - Google Patents

用于文本分类的数据增强方法、装置及电子设备 Download PDF

Info

Publication number
CN113934851A
CN113934851A CN202111409582.5A CN202111409582A CN113934851A CN 113934851 A CN113934851 A CN 113934851A CN 202111409582 A CN202111409582 A CN 202111409582A CN 113934851 A CN113934851 A CN 113934851A
Authority
CN
China
Prior art keywords
sample
enhanced
data set
label
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111409582.5A
Other languages
English (en)
Inventor
崔昆俞
王艳飞
万周斌
胡碧峰
胡茂海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Workway Shenzhen Information Technology Co ltd
Original Assignee
Workway Shenzhen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Workway Shenzhen Information Technology Co ltd filed Critical Workway Shenzhen Information Technology Co ltd
Priority to CN202111409582.5A priority Critical patent/CN113934851A/zh
Publication of CN113934851A publication Critical patent/CN113934851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种用于文本分类的数据增强方法、装置及电子设备,提升了文本数据的增强效果,在处理事件与文本数据增强效果上达到较好的平衡性,该方法包括:获取用于文本分类的训练数据集;利用文本分类模型确定训练数据集中每个样本对应的预测类别标签;基于每个样本对应的真实类别标签和预测类别标签,获得表征文本分类模型分类准确度的混淆矩阵;基于混淆矩阵,确定每种类别标签对应的增强概率;针对训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;用增强后的样本替换训练数据集对应的样本,以获得增强后的训练数据集。

Description

用于文本分类的数据增强方法、装置及电子设备
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种用于文本分类的数据增强方法、装置及电子设备。
背景技术
在解决自然语言处理方面的各类任务需求时,对原始文本进行数据增强已被证实是有效的,而多种数据增强方法的组合策略,能够进一步提升模型的性能。在对数据进行增强时,普遍的做法是对所有文本数据无差别地应用某种增强方法或者某种组合增强策略,而增强方法中使用的参数通常是根据人为经验指定的,或者经过不断重复训练模型反向迭代得到,例如组合增强策略中选择某增强方法的概率。但是,人为经验指定缺乏合理性的指导依据,不够理性,而不断重复训练模型寻找最优参数这种做法,随着参数数量的提升,搜索寻优空间扩增,计算成本也随之增大,很难平衡计算时间与文本数据增强效果。
发明内容
本申请实施例提供一种用于文本分类的数据增强方法、装置、电子设备及存储介质,提升了文本数据的增强效果,在处理事件与文本数据增强效果上达到较好的平衡性。
第一方面,本申请一实施例提供了一种用于文本分类的数据增强方法,包括:
获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
基于所述混淆矩阵,确定每种类别标签对应的增强概率;
针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
可选地,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述基于所述混淆矩阵,确定每种类别标签对应的增强概率,包括:
根据如下公式确定每种类别标签对应的增强概率:
Pi=1-Si
Figure BDA0003373805860000021
其中,Pi表示第i种类别标签Li对应的增强概率,e为自然常数,
Figure BDA0003373805860000022
表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比,
Figure BDA0003373805860000023
表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。
可选地,所述按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,包括:
对真实类别标签为该种类别标签的每个样本,按照该种类别标签所对应的增强概率,确定该样本是否为待增强样本;或者,
从真实类别标签为该种类别标签的样本中随机选出m个样本,作为待增强样本,其中,m=P×n,P表示该种类别标签所对应的增强概率,n表示所述训练数据集中真实类别标签为该种类别标签的样本的总数。
可选地,所述对每个待增强样本进行相应的数据增强处理,包括:
根据每个待增强的样本的真实类别标签、以及类别标签和数据增强方式之间的对应关系,确定每个待增强样本对应的数据增强方式;
按照每个待增强样本对应的数据增强方式,对每个待增强样本进行数据增强处理。
可选地,所述利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签,包括:
利用所述训练数据集对所述文本分类模型进行训练;
将所述训练数据集中的每个样本输入训练好的文本分类模型,以获得每个样本对应的预测类别标签。
可选地,所述利用所述训练数据集对所述文本分类模型进行训练,包括:
利用所述训练数据集对所述文本分类模型进行多轮训练;
基于每轮训练后获得的文本分类模型预测样本对应的预测类别标签,基于预测类别标签和真实类别标签,对每轮训练后获得的文本分类模型进行评估;
将评估分值最高的文本分类模型作为所述训练好的文本分类模型。
第二方面,本申请实施例提供了一种文本分类模型的训练方法,包括:
基于上述第一方面中任一项所述方法,获得增强后的训练数据集;
基于增强后的训练数据集,对所述文本分类模型进行训练。
第三方面,本申请实施例提供了一种用于文本分类的数据增强装置,包括:
获取模块,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
预测模块,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
混淆模块,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
增强概率确定模块,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;
增强模块,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
替换模块,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
第四方面,本申请实施例提供了一种文本分类模型的训练装置,包括:
获取模块,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
预测模块,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
混淆模块,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
增强概率确定模块,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;
增强模块,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
替换模块,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
训练模块,用于基于增强后的训练数据集,对所述文本分类模型进行训练。
第五方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
第六方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
第七方面,本申请一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种TCP传输性能的控制的各种可选实现方式中提供的方法。
本申请实施例提供的方案,利用文本分类模型确定训练数据集中每个样本对应的预测类别标签,通过比对样本的真实类别标签和预测类别标签,获得表征文本分类模型分类准确度的混淆矩阵,基于混淆矩阵获得每种类别标签对应的增强概率,按照增强概率对每个类别的样本分别进行增强处理,使得混淆比例较高、影响模型性能的类别获得更多的增强处理,进而合理地提升了文本数据的增强效果。与现有的数据增强方法相比,无需花费较大计算成本,就能得到相对较好的效果,在计算时间与数据增强效果上达到较好的平衡性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的用于文本分类的数据增强以及文本分类模型的训练方法的应用场景示意图;
图2为本申请实施例提供的一种用于文本分类的数据增强方法的流程示意图;
图3为本申请实施例提供的一种文本分类模型的训练方法的流程示意图;
图4为本申请实施例提供的用于文本分类的数据增强装置的结构示意图;
图5为本申请实施例提供的文本分类模型的训练装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
数据增强是一个填充缺失数据进原始样本集的过程,目标是降低增强后数据集与真实情况下数据集分布的距离。以多分类任务为例,排除样本本身质量问题外,影响人工智能自然语言模型性能的关键点,是那些样本较为相似,但却隶属于不同分类类别下的样本,这些样本互相产生强干扰,影响模型的判断。
为此,本申请提出了一种用于文本分类的数据增强方法,利用文本分类模型确定训练数据集中每个样本对应的预测类别标签,通过比对样本的真实类别标签和预测类别标签,获得表征文本分类模型分类准确度的混淆矩阵,基于混淆矩阵获得每种类别标签对应的增强概率,按照增强概率对每个类别的样本分别进行增强处理,使得混淆比例较高、影响模型性能的类别获得更多的增强处理,进而合理地提升了文本数据的增强效果。与现有的数据增强方法相比,本申请的方案无需花费较大计算成本,就能得到相对较好的效果,在计算时间与数据增强效果上达到较好的平衡性。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,其为本申请实施例提供的用于文本分类的数据增强方法的应用场景示意图。其中,终端设备101和服务器102之间可通过无线或有线网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、机器人等电子设备,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102的数据库中可存储通过终端设备101搜集的大量文本数据,例如新闻报道、论文、投诉工单等领域的数据,具体领域由服务器102提供的服务类型决定。可通过人工标注的方式完成文本数据的类别标注,获得各领域的训练数据集,并存储到服务器102的数据库中。当需要训练某个领域的文本分类模型时,服务器102从数据库中获取该领域的训练数据集,基于该领域的训练数据集对文本分类模型进行训练,获得可应用于该领域的文本分类模型。随即服务器102可向终端设备101提供该领域的文本分类服务。例如,服务器102可对该领域的文本数据进行分类存储,提高数据存储和检索的效率,还可以在终端设备101上展示不同的类别,以方便用户在不同类别下检索对应的数据。
在数据检索场景下,用户可通过终端设备101向服务器102发送检索条件,服务器102根据检索条件以及类别标签,从数据库中快速检索到满足检索条件的数据,并反馈给终端设备101。在数据推送场景下,服务器102可根据用户信息确定用户偏好,并确定出与用户偏好匹配的至少一个类别标签,从该类别标签下的数据中选取需要推送给用户的数据,将数据推送到用户的终端设备101。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。本申请实施例提供的任一用于文本分类的数据增强方法以及文本分类模型的训练方法,可应用于终端设备或服务器等具备运算能力的电子设备,本申请不作限定。
参考图2,本申请实施例提供一种用于文本分类的数据增强方法,具体包括以下步骤:
S201、获取用于文本分类的训练数据集,训练数据集包括每个样本对应的真实类别标签。
需要说明的是,训练数据集中的样本为已经标注了类别标签的文本,为了方便描述,将标注的类别标签记为真实类别标签。训练数据集可以是针对某个具体领域的文本分类的数据集。
S202、利用文本分类模型确定训练数据集中每个样本对应的预测类别标签。
具体实施时,文本分类模型可以采用现有的机器学习模型、神经网络模型等。例如,文本分类模型可以是tiny-BERT中文预训练模型,tiny-BERT中文预训练模型取用最后一个隐藏层的[CLS]维度的向量,接入一个2层的全连接网络,第一层的输出维度为两倍的标签数,第二层的输出维度为预测标签数,激活函数为softmax。
具体实施时,可采用现有的向量化方式(如word2vec、bert、xlnet、electra等模型),将样本转换为编码向量,将编码向量输入文本分类模型,获得对应的预测类别标签。
在一种可能的实施方式中,可以直接利用已训练的文本分类模型获得样本对应的预测类别标签。具体地,将训练数据集中的样本输入文本分类模型,通过文本分类模型预测输入样本的类别标签,记为预测类别标签,以便与真实类别标签进行区分。
在另一种可能的实施方式中,可利用训练数据集对文本分类模型进行训练,以获得分类效果较好的文本分类模型,进而提高模型输入预测类别标签的准确率。为此,步骤S202具体包括如下步骤:利用训练数据集对文本分类模型进行训练;将训练数据集中的每个样本输入训练好的文本分类模型,以获得每个样本对应的预测类别标签。其中,对文本分类模型的训练方法可采用现有的模型训练方式。
具体实施时,为了提高预测类别标签的准确度,可利用训练数据集对文本分类模型进行多轮训练;基于每轮训练后获得的文本分类模型预测样本对应的预测类别标签,基于预测类别标签和真实类别标签,对每轮训练后获得的文本分类模型进行评估;将评估分值最高的文本分类模型作为训练好的文本分类模型。
在一个可能示例中,对原始的训练数据集进行数据清洗、数据逻辑校验,形成较为标准的训练数据集D。然后,按照8:2的比例,将训练数据集D拆分成训练集Dtrain和验证集Deval,需要保证训练集Dtrain和验证集Deval中样本标签的个数分布与训练数据集D大致相同,接着使用训练集Dtrain训练文本分类模型,训练结束后将使用验证集Deval对已训练的文本分类模型进行验证,通过比对文本分类模型输入的预测结果和验证集Deval的真实类别标签,获得本轮训练获得的文本分类模型的F1分数(F1Score,是统计学中用来衡量二分类或多任务二分类模型精确度的一种指标)。接着,按照8:2的比例,重新将训练数据集D拆分成新的训练集Dtrain和验证集Deval,对文本分类模型进行下一轮训练,并获得对应的F1分数。经过多轮训练后,取多轮训练中F1得分最高的文本分类模型作为训练好的文本分类模型,将训练数据集中的每个样本输入该训练好的文本分类模型,以获得每个样本对应的预测类别标签。
S203、基于每个样本对应的真实类别标签和预测类别标签,获得表征文本分类模型分类准确度的混淆矩阵。
其中,混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量。
例如,训练数据集包括4个类别,每个类别包括100个样本,4个类别的真实类别标签分别用
Figure BDA0003373805860000091
Figure BDA0003373805860000092
表示,4个类别的预测类别标签分别用
Figure BDA0003373805860000093
Figure BDA0003373805860000094
表示,利用文本分类模型确定训练数据集中每个样本对应的预测类别标签,得到以表1为例的混淆矩阵。以表1第二行第二列的数字55为例,表示标签为
Figure BDA0003373805860000095
的样本被预测为类别1的数量为55个,第二行第三列的数字55表示标签为
Figure BDA0003373805860000096
的样本被预测为类别2的数量为12个。通过分析真实类别标签与预测类别标签不一致的混淆样本数,发现混淆比例较高的类别,例如上表1中的
Figure BDA0003373805860000097
这表示类别L1和类别L4的样本的混淆概率较高,会影响模型性能,需要对这些样本进行增强处理。
表1
Figure BDA0003373805860000101
S204、基于混淆矩阵,确定每种类别标签对应的增强概率。
其中,增强概率是指需要对样本进行增强处理的概率,例如某个类别标签的增强概率为30%,则该类别标签下的样本有30%的概率会被进行增强处理。若类别Li的样本被预测为其它类被的数量越多,则类别Li需要进行增强处理的概率越高,即增强概率越高。
具体实施时,可根据如下公式确定每种类别标签对应的增强概率:
Pi=1-Si
Figure BDA0003373805860000102
其中,Pi表示第i种类别标签Li对应的增强概率,e为自然常数,
Figure BDA0003373805860000103
表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比,
Figure BDA0003373805860000104
表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。
以表1的数据为例,类别标签L1的增强概率为
Figure BDA0003373805860000105
类别标签L2的增强概率为
Figure BDA0003373805860000106
类别标签L3的增强概率为
Figure BDA0003373805860000107
类别标签L4的增强概率为
Figure BDA0003373805860000108
S205、针对训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理。
在一种可能的实施方式中,可对真实类别标签为该种类别标签的每个样本,按照该种类别标签所对应的增强概率,确定该样本是否为待增强样本。
例如,类别标签L1的增强概率为40%,对真实类别标签为L1的样本,可利用轮盘赌、掷色子等随机算法,确定是否需要对该样本进行增强处理,其中,随机算法被设定为:样本被选中需要进行增强处理的概率为40%。因此,40%的概率会对真实类别标签为L1的样本进行增强处理。
在另一种可能的实施方式中,从真实类别标签为该种类别标签的样本中随机选出m个样本,作为待增强样本,其中,m=P×n,P表示该种类别标签所对应的增强概率,n表示训练数据集中真实类别标签为该种类别标签的样本的总数。
例如,类别标签L1的增强概率为40%,真实类别标签为L1的样本的总数为100个,则m=100×40%=40,从这100个样本中随机选出40个样本,对这些样本进行增强处理,剩余60个样本不做增强处理。
具体实施时,可为每种类别分别配置符合样本特征的数据增强方式。例如,标签L1的样本应用增强方法A1,标签L4的样本应用增强方法A4。其中,数据增强方式包括但不限于:
(1)先将样本(假设样本为中文)翻译成英文,再将英文翻译为法文,最后将法文翻译成中文。
(2)在样本中增加随机噪音。例如:每个字节独立同分布,以10%的概率替换相邻单词,15%的概率替换同义词。
(3)同义词、近义词替换。
(4)同类实体内容替换。
具体地,可先根据每个待增强的样本的真实类别标签、以及类别标签和数据增强方式之间的对应关系,确定每个待增强样本对应的数据增强方式;然后按照每个待增强样本对应的数据增强方式,对每个待增强样本进行数据增强处理。例如,标签L1的样本应用增强方法A1,标签L4的样本应用增强方法A4,则按照增强方法A1对真实类别标签为标签L1的待增强样本进行增强处理,按照增强方法A4对真实类别标签为标签L4的待增强样本进行增强处理。
S206、用增强后的样本替换训练数据集对应的样本,以获得增强后的训练数据集。
需要说明的是,对于换训练数据集中被增强的样本,需要用增强后的样本替换训练数据集中的原始样本;对于训练数据集中没有被增强的样本,不需要进行替换处理,保留该样本即可。
当然,在获得增强后的训练数据集后,也可对增强后的训练数据集重复上述步骤S202~S206,以获得更优质的训练数据集。
本申请实施例的方法,通过分析真实类别标签与预测类别标签的混淆样本数,按照每个类别的混淆样本数确定每个类别的增强概率,按照增强概率对每个类别的样本分别进行增强处理,使得混淆比例较高、影响模型性能的类别获得更多的增强处理,能够合理提升文本数据的增强效果。
假设现有的自动寻优策略Auto-P经过O(n)次得到最优结果Res,通常O(n)是其搜索空间的倍数,例如自动寻优空间为三个数据增强方式A1、A2、A3,对应增强参数值的选择为离散值,个数分别为2、3、4,那么自动寻优计算复杂度为2×3×4,考虑单次计算时间T,总时间成本为24T。而本申请实施例的方案对自动寻优策略的增强方式的各个参数值不敏感,通常可指定一个默认值即可,其复杂度为2T,即只需训练2次即可获得最优参数。因此,与自动寻优策略相比,本本申请实施例的方法在大大减少计算时间的同时,还能够取得高于全局增强效果的结果,很好地平衡了计算时间与文本数据增强效果。
基于上述实施方式中提供的用于文本分类的数据增强方法,本申请实施例还提供了一种文本分类模型的训练方法,参考图3,具体包括如下步骤:
S301、获取用于文本分类的训练数据集,训练数据集包括每个样本对应的真实类别标签。
S302、利用文本分类模型确定训练数据集中每个样本对应的预测类别标签。
S303、基于每个样本对应的真实类别标签和预测类别标签,获得表征文本分类模型分类准确度的混淆矩阵。
S304、基于混淆矩阵,确定每种类别标签对应的增强概率。
S305、针对训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理。
S306、用增强后的样本替换训练数据集对应的样本,以获得增强后的训练数据集。
S307、基于增强后的训练数据集,对文本分类模型进行训练。
其中,S301~S306的具体实施方式可参考用于文本分类的数据增强方法的具体实施方式,不再赘述。
通过增强后的训练数据集对文本分类模型进行训练,可降低易混淆样本对模型性能的影响,提高文本分类模型的分类准确度。
下面以金融领域中银行类业务中诉求工单的多分类任务为例,对本申请实施例提供的方法进行说明:
诉求工单的类别包括:业务A投诉、业务B投诉、业务C投诉、业务A咨询、业务B咨询、业务C咨询等。
首先,获取大量诉求工单后,对诉求工单进行数据清洗、数据逻辑校验,并对诉求工单的类别进行标注,以获得标准的训练数据集D。其中,训练数据集中的每个样本包括诉求工单的描述文本和标注的类别标签(即真实类别标签)。
然后,将训练数据集D按照8:2的比例拆分成两个数据集Dtrain和验证集Deval。使用Dtrain训练tiny-BERT中文预训练模型。训练轮数为8,每轮训练结束后使训练获得的模型预测Deval中样本的预测类别标签,将预测类别标签与真实类别标签比对,计算F1分数。取用8轮中,F1得分最高的模型,基于该模型获得练数据集D中每个样本的预测类别标签,与真实样本标签做混淆矩阵,并每种类别标签对应的增强概率。
对练数据集D中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理。其中,每个混淆标签应用一个增强方法,例如标签L1的样本文本应用增强方法A1,标签L4的样本文本应用增强方法A4。用增强后的文本,替换练数据集D中的原文本,得到增强后的训练数据集。
用增强后的训练数据集训练F1得分最高的模型,得到最终的目标模型。
如图4所示,基于与上述用于文本分类的数据增强方法相同的发明构思,本申请实施例还提供了一种用于文本分类的数据增强装置40,包括:
获取模块401,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
预测模块402,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
混淆模块403,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
增强概率确定模块404,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;
增强模块405,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
替换模块406,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
可选地,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述增强概率确定模块404具体用于根据如下公式确定每种类别标签对应的增强概率:
Pi=1-Si
Figure BDA0003373805860000141
其中,Pi表示第i种类别标签Li对应的增强概率,e为自然常数,
Figure BDA0003373805860000142
表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比,
Figure BDA0003373805860000143
表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。
可选地,所述增强模块405具体用于:对真实类别标签为该种类别标签的每个样本,按照该种类别标签所对应的增强概率,确定该样本是否为待增强样本。
可选地,所述增强模块405具体用于:从真实类别标签为该种类别标签的样本中随机选出m个样本,作为待增强样本,其中,m=P×n,P表示该种类别标签所对应的增强概率,n表示所述训练数据集中真实类别标签为该种类别标签的样本的总数。
可选地,所述增强模块405具体用于:根据每个待增强的样本的真实类别标签、以及类别标签和数据增强方式之间的对应关系,确定每个待增强样本对应的数据增强方式;按照每个待增强样本对应的数据增强方式,对每个待增强样本进行数据增强处理。
可选地,所述预测模块402具体用于:利用所述训练数据集对所述文本分类模型进行训练;将所述训练数据集中的每个样本输入训练好的文本分类模型,以获得每个样本对应的预测类别标签。
可选地,所述预测模块402具体用于:利用所述训练数据集对所述文本分类模型进行多轮训练;基于每轮训练后获得的文本分类模型预测样本对应的预测类别标签,基于预测类别标签和真实类别标签,对每轮训练后获得的文本分类模型进行评估;将评估分值最高的文本分类模型作为所述训练好的文本分类模型。
本申请实施例提的用于文本分类的数据增强装置与上述用于文本分类的数据增强方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
如图5所示,在用于文本分类的数据增强装置40的基础上,本申请实施例还提供了一种文本分类模型的训练装置50,包括:
获取模块401,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
预测模块402,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
混淆模块403,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
增强概率确定模块404,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;
增强模块405,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
替换模块406,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
训练模块407,用于基于增强后的训练数据集,对所述文本分类模型进行训练。
本申请实施例提的文本分类模型的训练装置与上述文本分类模型的训练方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述用于文本分类的数据增强方法以及文本分类模型的训练方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为机器人内部的控制设备或控制系统,也可以是与智能设备通信的外部设备,如桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图6所示,该电子设备60可以包括处理器601和存储器602。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种用于文本分类的数据增强方法,其特征在于,包括:
获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
基于所述混淆矩阵,确定每种类别标签对应的增强概率;
针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
2.根据权利要求1所述的方法,其特征在于,其中,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述基于所述混淆矩阵,确定每种类别标签对应的增强概率,包括:
根据如下公式确定每种类别标签对应的增强概率:
Figure FDA0003373805850000011
其中,Pi表示第i种类别标签Li对应的增强概率,e为自然常数,
Figure FDA0003373805850000012
表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比,
Figure FDA0003373805850000013
表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。
3.根据权利要求1所述的方法,其特征在于,所述按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,包括:
对真实类别标签为该种类别标签的每个样本,按照该种类别标签所对应的增强概率,确定该样本是否为待增强样本;或者,
从真实类别标签为该种类别标签的样本中随机选出m个样本,作为待增强样本,其中,m=P×n,P表示该种类别标签所对应的增强概率,n表示所述训练数据集中真实类别标签为该种类别标签的样本的总数。
4.根据权利要求1所述的方法,其特征在于,所述对每个待增强样本进行相应的数据增强处理,包括:
根据每个待增强的样本的真实类别标签、以及类别标签和数据增强方式之间的对应关系,确定每个待增强样本对应的数据增强方式;
按照每个待增强样本对应的数据增强方式,对每个待增强样本进行数据增强处理。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签,包括:
利用所述训练数据集对所述文本分类模型进行训练;
将所述训练数据集中的每个样本输入训练好的文本分类模型,以获得每个样本对应的预测类别标签。
6.一种文本分类模型的训练方法,其特征在于,
基于权利要求1至5中任一项所述方法,获得增强后的训练数据集;
基于增强后的训练数据集,对所述文本分类模型进行训练。
7.一种用于文本分类的数据增强装置,其特征在于,包括:
获取模块,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
预测模块,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
混淆模块,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
增强概率确定模块,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;
增强模块,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
替换模块,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
8.一种文本分类模型的训练装置,其特征在于,包括:
获取模块,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;
预测模块,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;
混淆模块,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;
增强概率确定模块,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;
增强模块,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;
替换模块,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。
训练模块,用于基于增强后的训练数据集,对所述文本分类模型进行训练。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202111409582.5A 2021-11-25 2021-11-25 用于文本分类的数据增强方法、装置及电子设备 Pending CN113934851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111409582.5A CN113934851A (zh) 2021-11-25 2021-11-25 用于文本分类的数据增强方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111409582.5A CN113934851A (zh) 2021-11-25 2021-11-25 用于文本分类的数据增强方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113934851A true CN113934851A (zh) 2022-01-14

Family

ID=79288271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111409582.5A Pending CN113934851A (zh) 2021-11-25 2021-11-25 用于文本分类的数据增强方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113934851A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644183A (zh) * 2023-07-27 2023-08-25 深圳大学 文本分类方法、装置及存储介质
CN117114103A (zh) * 2023-10-20 2023-11-24 国家电网有限公司 一种语料库的重构方法及装置
CN117235270A (zh) * 2023-11-16 2023-12-15 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644183A (zh) * 2023-07-27 2023-08-25 深圳大学 文本分类方法、装置及存储介质
CN116644183B (zh) * 2023-07-27 2024-01-12 深圳大学 文本分类方法、装置及存储介质
CN117114103A (zh) * 2023-10-20 2023-11-24 国家电网有限公司 一种语料库的重构方法及装置
CN117235270A (zh) * 2023-11-16 2023-12-15 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备
CN117235270B (zh) * 2023-11-16 2024-02-02 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
CN114298417A (zh) 反欺诈风险评估方法、训练方法、装置及可读存储介质
CN110728313B (zh) 一种用于意图分类识别的分类模型训练方法及装置
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
JPWO2018142753A1 (ja) ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN110544166A (zh) 样本生成方法、装置及存储介质
CN114697127B (zh) 一种基于云计算的业务会话风险处理方法及服务器
CN115564578B (zh) 欺诈识别模型生成方法
US11714855B2 (en) Virtual dialog system performance assessment and enrichment
CN106980685A (zh) 数据处理方法及数据处理装置
CN112132367A (zh) 一种用于企业经营管理风险识别的建模方法及装置
CN117829968B (zh) 一种基于用户数据分析的业务产品推荐方法、装置及系统
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN117726363A (zh) 基于封闭测试数据的公开测试生命周期总价值预测方法
CN117979089A (zh) 直播视频处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination