CN116821689A - 文本分类的数据增强方法、装置、设备及介质 - Google Patents

文本分类的数据增强方法、装置、设备及介质 Download PDF

Info

Publication number
CN116821689A
CN116821689A CN202310912352.3A CN202310912352A CN116821689A CN 116821689 A CN116821689 A CN 116821689A CN 202310912352 A CN202310912352 A CN 202310912352A CN 116821689 A CN116821689 A CN 116821689A
Authority
CN
China
Prior art keywords
initial
text
text information
weight
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310912352.3A
Other languages
English (en)
Inventor
高维国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202310912352.3A priority Critical patent/CN116821689A/zh
Publication of CN116821689A publication Critical patent/CN116821689A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,尤其涉及一种文本分类的数据增强方法、装置、设备及介质。该方法将两个历史文本分别作为第一文本信息和第二文本信息,根据生成的第一初始权值对第一文本信息和第二文本信息,以及各自对应的类别标签处理,得到初始增强文本和初始增强标签,使用分类器对初始增强文本进行预测,根据得到的预测类别和初始增强标签,计算梯度更新第一初始权值,根据更新后的第一更新权值对第一文本信息和第二文本信息处理,得到目标增强文本,通过对历史文本进行线性融合,能够生成大量的文本数据,根据梯度对初始权值更新,使得基于更新权值生成的增强文本更加鲁棒,提高具体业务场景下分类模型的训练效果。

Description

文本分类的数据增强方法、装置、设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类的数据增强方法、装置、设备及介质。
背景技术
随着人工智能技术的兴起,基于人工智能模型的智能文本分类任务已广泛应用于多种应用场景下,例如智慧医疗场景、金融服务场景等,在智慧医疗场景下,可以支持病历信息识别、患者管理、病历归档、病历查询等功能,而在金融服务场景下,则可以支持发票识别、客户管理、金融产品推荐、保单归档、保单查询等功能,相应地,在智慧医疗场景下,文本分类模型的输入文本可以为病历数据、医疗记录数据等,而在金融服务场景下,文本分类模型的输入文本可以为保单数据、发票数据、交易记录数据等。
但是,文本分类模型通常需要大量的样本进行训练,以确保模型准确率和泛化能力,而大量的样本意味着需要消耗较大的人力资源进行样本标注,因此,现有方法通常是根据已知样本进行数据增强,得到生成样本用于模型训练,但由于文本分类模型对于输入的微小变化较为敏感,数据增强的效果较差,生成样本难以对模型性能起到优化作用。因此,如何提高数据增强结果对模型的训练效果成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种文本分类的数据增强方法、装置、设备及介质,以解决数据增强结果对模型的训练效果较差的问题。
第一方面,本发明实施例提供一种文本分类的数据增强方法,所述数据增强方法包括:
获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息;
随机生成第一初始权值,以预设值和所述第一初始权值的差作为第二初始权值,根据所述第一初始权值和所述第二初始权值,分别对所述第一文本信息和所述第二文本信息,以及所述第一文本信息和所述第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签;
使用训练好的分类器对所述初始增强文本进行类别预测,得到预测类别,根据所述预测类别和所述初始增强标签,计算得到预测损失,根据所述第一初始权值对所述预测损失进行偏导计算,得到计算结果;
将所述计算结果和预设系数相乘,得到相乘结果,以所述相乘结果和所述第一初始权值相加,得到第一更新权值,以所述预设值和所述第一更新权值的差作为第二更新权值,根据所述第一更新权值和所述第二更新权值,对所述第一文本信息和所述第二文本信息进行加权求和,得到目标增强文本,所述目标增强文本用于对所述训练好的分类器进行参数更新。
第二方面,本发明实施例提供一种文本分类的数据增强装置,所述数据增强装置包括:
文本获取模块,用于获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息;
初始增强模块,用于随机生成第一初始权值,以预设值和所述第一初始权值的差作为第二初始权值,根据所述第一初始权值和所述第二初始权值,分别对所述第一文本信息和所述第二文本信息,以及所述第一文本信息和所述第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签;
类别预测模块,用于使用训练好的分类器对所述初始增强文本进行类别预测,得到预测类别,根据所述预测类别和所述初始增强标签,计算得到预测损失,根据所述第一初始权值对所述预测损失进行偏导计算,得到计算结果;
目标增强模块,用于将所述计算结果和预设系数相乘,得到相乘结果,以所述相乘结果和所述第一初始权值相加,得到第一更新权值,以所述预设值和所述第一更新权值的差作为第二更新权值,根据所述第一更新权值和所述第二更新权值,对所述第一文本信息和所述第二文本信息进行加权求和,得到目标增强文本,所述目标增强文本用于对所述训练好的分类器进行参数更新。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的数据增强方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据增强方法。
本发明实施例与现有技术相比存在的有益效果是:
获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息,随机生成第一初始权值,以预设值和第一初始权值的差作为第二初始权值,根据第一初始权值和第二初始权值,分别对第一文本信息和第二文本信息,以及第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签,使用训练好的分类器对初始增强文本进行类别预测,得到预测类别,根据预测类别和初始增强标签,计算得到预测损失,根据第一初始权值对预测损失进行偏导计算,得到计算结果,将计算结果和预设系数相乘,得到相乘结果,以相乘结果和第一初始权值相加,得到第一更新权值,以预设值和第一更新权值的差作为第二更新权值,根据第一更新权值和第二更新权值,对第一文本信息和第二文本信息进行加权求和,得到目标增强文本,通过历史文本线性融合的方式得到新的增强文本及标签,从而可以生成大量的文本数据,根据梯度对初始权值进行更新,使得基于更新权值生成的目标增强文本更加鲁棒,提高了数据增强的效果,使得基于增强文本训练的分类模型更加准确,提高分类模型的训练结果,进而提高了分类模型在如智慧医疗场景、金融服务场景等具体业务场景下的应用准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种文本分类的数据增强方法的一应用环境示意图;
图2是本发明实施例一提供的一种文本分类的数据增强方法的流程示意图;
图3是本发明实施例二提供的一种文本分类的数据增强装置的结构示意图;
图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种文本分类的数据增强方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
客户端和服务端可以部署于具体业务平台中,具体业务平台可以为智慧医疗平台,智慧医疗平台可以具有病历信息识别、患者管理、病历归档、病历查询等功能,具体业务平台还可以为金融服务业务平台中,金融服务业务平台可以具有购买保险和/或理财产品、保单查询、保单归档、目标客户挖掘、客户管理、金融产品推荐等功能。
参见图2,是本发明实施例一提供的一种文本分类的数据增强方法的流程示意图,上述数据增强方法可以应用于图1中的客户端,客户端对应的计算机设备连接服务端,以从服务端获取历史文本及其类别标签,服务端具备存储功能,服务端可以存储有上述具体业务平台内的历史文本及其已知的类别标签。
如图2所示,该数据增强方法可以包括以下步骤:
步骤S201,获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息。
其中,历史文本可以是指服务端存储的在金融服务业务平台中已进行分类处理过的金融类文本,也可以是指服务端存储的在智慧医疗平台中已进行分类处理过的医疗数据文本,历史文本可以在设定的预设历史时间段内进行获取,类别标签可以是指对应历史文本的历史分类结果,类别标签属于可信的先验信息,第一文本信息和第二文本信息可以是指后续数据增强任务的处理对象,用以区别所选择的两个历史文本。
具体地,服务端内可以有用于存储历史文本及其类别标签的数据库,客户端访问服务端,从服务端的数据库内读取若干个历史文本,实施者可以通过限制读取文本的数量的方式进行读取,例如,从服务端的数据库内读取N个历史文本及其对应的类别标签,N可以为大于一的整数,在一实施方式中,N可以取1000。
在一实施方式中,还可以通过限制预设历史时间段的方式进行历史文本的读取,例如,设置历史时间段为当前时刻前一个月到当前时刻之间的时间范围,从服务端的数据库内读取在预设历史时间段内的历史文本,得到N个历史文本,此时N仍应当满足大于一的整数的条件。
以获取的所有历史文本形成可选择文本集合,从可选择文本集合中随机选择一个历史文本作为第一文本信息,将该历史文本从可选择文本集合中剔除,再从可选择文本集合随机选择一个历史文本作为第二文本信息。
上述获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息的步骤,以具备可信先验的历史文本作为第一文本信息和第二文本信息,为后续数据增强提供基础信息,使得初始增强标签具有一定的可信度,减少数据增强过程的更新次数,提高整体数据增强过程的效率。
步骤S202,随机生成第一初始权值,以预设值和第一初始权值的差作为第二初始权值,根据第一初始权值和第二初始权值,分别对第一文本信息和第二文本信息,以及第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签。
其中,第一初始权值可以在预设的生成范围内随机生成,第一初始权值和第二初始权值可以是指第一文本信息和第二文本信息进行线性插值时对应的权值,初始增强文本可以是指两个历史文本的线性插值结果,初始增强标签可以是指两个历史文本分别对应的类别标签的线性插值结果,初始增强标签和初始增强文本一一对应。
具体地,在本实施例中,生成范围可以设置为[0,1],预设值可以设置为1,例如,随机生成的第一初始权值为0.6,则预设值和第一初始权值的差为0.4,第二初始权值为0.4。
可选的是,根据第一初始权值和第二初始权值,对第一文本信息和第二文本信息进行加权求和,得到初始增强文本,包括:
使用训练好的嵌入层分别对第一文本信息和第二文本信息进行特征嵌入,得到对应第一文本信息的第一嵌入特征和对应第二文本信息的第二嵌入特征;
将第一初始权值和第一嵌入特征相乘,得到第一相乘结果,将第二初始权值和第二嵌入特征相乘,得到第二相乘结果,将第一相乘结果和第二相乘结果相加,确定相加结果为对应初始增强文本的初始嵌入特征;
相应地,使用训练好的分类器对初始增强文本进行类别预测,得到预测类别,包括:
使用训练好的分类器对初始嵌入特征进行类别预测,得到预测类别。
其中,训练好的嵌入层可以对输入的文本信息进行特征向量嵌入,使文本信息转换为向量形式,第一嵌入特征可以是指第一文本信息的特征向量表示,第二嵌入特征可以是指第二文本信息的特征向量表示,第一相乘结果可以是指第一嵌入特征的加权结果,第一嵌入特征对应的权值为第一初始权值,第二相乘结果可以是指第二嵌入特征的加权结果,第二嵌入特征对应的权值为第二初始权值,初始嵌入特征可以是指第一嵌入特征和第二嵌入特征的线性插值计算结果。
具体地,嵌入层可以采用Transformer模型的词向量嵌入层结构,此时,将输入的文本信息进行分词处理,得到若干个字符串,将每个字符串映射为字符向量,由所有字符向量形成对应输入文本信息的嵌入特征。
本实施例中,以嵌入特征的形式对第一文本信息和第二文本信息进行表示,使得可以直接通过对嵌入特征线性插值的方式计算得到基于第一文本信息和第二文本信息融合的初始增强文本,有效提高了文本信息进行数据增强的效率。
可选的是,类别标签为根据对应历史文本分别属于至少两个预设类别的概率值形成的概率值序列;
根据第一初始权值和第二初始权值,对第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到初始增强标签,包括:
确定第一文本信息对应的类别标签为第一概率值序列,确定第二文本信息对应的类别标签为第二概率值序列;
将第一概率值序列中每个概率值均与第一初始权值相乘,得到第一相乘序列;
将第二概率值序列中每个概率值均与第二初始权值相乘,得到第二相乘序列;
将第一相乘序列和第二相乘序列相加,确定相加结果为对应初始增强文本的初始增强标签。
其中,在金融服务场景下,预设类别可以是指保单险种类别,保单险种类别可以包括年金险类别、寿险类别、两全险类别、重疾险类别、医疗险类别、意外险类别等,在智慧医疗场景下,预设类别可以是指患者科室类别,患者科室类别可以包括神经内科、心血管内科、呼吸内科、消化内科、血液内科、外科等,类别标签为软标签数据,也即类别标签并非具体到单个预设类别,而是以在历史过程中训练好的分类器对输入文本信息进行预测,得到的概率值序列表示,概率值序列可以包括至少两个预设类别及其对应的概率值。
具体地,第一概率值序列可以表征第一文本信息属于各个预设类别的可能性,第二概率值序列可以表征第二文本信息属于各个预设类别的可能性,第一相乘序列可以是指第一概率值序列的加权结果,第一概率值序列对应于第一初始权值,第二相乘序列可以是指第二概率值序列的加权结果,第二概率值序列对应于第二初始权值。
本实施例中,预设类别可以根据实际分类任务确定,例如,若分类任务为险种分类,则采用上述保单险种类别作为预设类别,若分类任务为保单类型分类,则预设类别包括投保单类别、暂保单类别、保险单类别、保险凭证类别、批单类别等。
需要说明的是,在得到第一相乘序列和第二相乘序列的相加结果之后,可以对相加结果中所有的相加值进行归一化处理,以使得相加结果在归一化处理后能够仍保持概率序列形式,从而作为初始增强标签。
本实施例中,以软标签的形式进行类别标签的线性插值,使得插值结果包含的信息更加丰富,能够更有效地指导模型进行训练,既提高了模型再次训练的准确率,又提高了模型训练时的收敛速度,也即提高了模型的训练效率。
上述随机生成第一初始权值,以预设值和第一初始权值的差作为第二初始权值,根据第一初始权值和第二初始权值,分别对第一文本信息和第二文本信息,以及第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签的步骤,通过线性插值的方式进行文本的数据增强,能够以较高的效率生成大量较为可靠的增强文本,相较于现有技术通过数据扰动等方式进行数据增强的方式,增强文本与历史文本的关联性更强,使得增强样本更加可信。
步骤S203,使用训练好的分类器对初始增强文本进行类别预测,得到预测类别,根据预测类别和初始增强标签,计算得到预测损失,根据第一初始权值对预测损失进行偏导计算,得到计算结果。
其中,训练好的分类器可以用于预测初始增强文本属于各个预设类别的可能性,预测类别可以是初始增强文本最可能属于的预设类别,预测损失可以用于指导参数调整,在本实施例中,所指导调整的参数为第一初始权值,计算结果可以是指基于第一初始权值的梯度。
具体地,预测损失可以采用交叉熵损失函数计算,也即,若预测类别和初始增强标签不一致,则预测损失极大,若预测类别和初始增强标签一致,以预测类别对应的预测概率的对数值取负作为预测损失。
可选的是,使用训练好的分类器对初始增强文本进行类别预测,得到预测类别,包括:
使用训练好的分类器,对初始增强文本分别属于每个预设类别的概率进行预测,得到对应预设类别的预测概率;
确定所有预测概率的最大值对应的预设类别为预测类别。
其中,预测概率可以表征初始增强文本属于对应预测类别的可能性。
具体地,训练好的分类器输出初始增强文本分别属于每个预设类别的预测值,对所有预测值进行归一化处理,归一化处理可以采用指数归一化函数,确定归一化处理结果为对应预设类别的预测概率。
可选的是,根据预测类别和初始增强标签,计算得到预测损失,包括:
根据所有预测概率形成预测概率序列;
根据预测概率序列、初始增强标签和预设的预测损失函数,计算得到预测损失。
其中,预测概率序列包括各个预设类别及其对应的预测概率,预测损失函数可以采用欧式距离、余弦相似度等距离度量函数。
具体地,在本实施例中,采用欧式距离作为预测损失函数,针对任一个预设类别,将该预设类别对应的预测概率和概率值作差,对作差结果进行平方计算,得到对应预设类别的平方值,将所有平方值相加后进行开方计算,确定开方计算结果为欧式距离计算结果,也即预测损失。
本实施例中,通过软标签进行损失函数的计算,使得预测损失更为可信,进而使得基于预测损失计算得到的第一初始权值的更新梯度更加符合真实更新梯度方向,提高第一初始权值的更新效率。
上述使用训练好的分类器对初始增强文本进行类别预测,得到预测类别,根据预测类别和初始增强标签,计算得到预测损失,根据第一初始权值对预测损失进行偏导计算,得到计算结果的步骤,相较于常规数据增强方式对输入数据的更新,本实施例对线性插值的权重进行更新,避免了因输入数据的微小改动导致分类器输出结果的巨大变化,使得生成的增强数据更加鲁棒。
步骤S204,将计算结果和预设系数相乘,得到相乘结果,以相乘结果和第一初始权值相加,得到第一更新权值,以预设值和第一更新权值的差作为第二更新权值,根据第一更新权值和第二更新权值,对第一文本信息和第二文本信息进行加权求和,得到目标增强文本,目标增强文本用于对训练好的分类器进行参数更新。
其中,预设系数可以用于约束第一初始权值的更新量大小,相乘结果可以是指第一初始权值的更新量,第一更新权值可以是指更新后的第一初始权值,第一更新权值对应第一文本信息,第二更新权值对应第二文本信息,目标增强文本可以作为模型训练的样本数据。
具体地,使用若干个历史文本和若干个目标增强文本形成训练数据集,根据训练数据集对训练好的分类器进行参数更新,使得更新好的分类器能够更好的在保险业务领域执行分类任务。
可选的是,在得到目标增强文本之后,还包括:
根据第一更新权值和第二更新权值,对第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到目标增强标签;
使用训练好的分类器对目标增强文本进行类别预测,得到更新类别,根据更新类别和目标增强标签,计算得到更新损失,根据第一更新权值对更新损失进行偏导计算,得到更新计算结果;
将更新计算结果和预设系数相乘,得到更新相乘结果,以更新相乘结果和第一更新权值相加,得到第三更新权值,以预设值和第三更新权值的差作为第四更新权值,根据第三更新权值和第四更新权值,对第一文本信息和第二文本信息进行加权求和,得到最终增强文本。
其中,更新类别可以是指训练好的分类器基于目标增强文本预测得到的类别,更新损失可以是指基于更新类别计算得到的损失,更新计算结果可以是指基于更新损失计算得到的梯度。
更新相乘结果可以是指第一更新权值的更新量,第三更新权值可以是指第一更新权值更新后的结果,第三更新权值对应第一文本信息,第四更新权值对应第二文本信息,最终增强文本可以作为模型训练的样本数据。
具体地,上述以目标增强文本进行再次更新的方式,可以采用迭代方式进行,也即通过多次更新权值,得到最终增强文本,每轮迭代过程中,均以上轮迭代过程的输出增强文本进行损失计算,并对上轮迭代过程中更新过的权值进行再次更新,迭代过程持续直至权值收敛。
本实施例中,对历史文本线性插值计算的权值进行多次更新,使得权值更新的鲁棒性更强。
上述将计算结果和预设系数相乘,得到相乘结果,以相乘结果和第一初始权值相加,得到第一更新权值,以预设值和第一更新权值的差作为第二更新权值,根据第一更新权值和第二更新权值,对第一文本信息和第二文本信息进行加权求和,得到目标增强文本,目标增强文本用于对训练好的分类器进行参数更新的步骤,根据梯度对初始权值进行更新,使得基于更新权值生成的目标增强文本更加鲁棒,提高了数据增强的效果,使得基于增强文本训练的分类模型更加准确。
本实施例中,通过历史文本线性共和的方式得到新的增强文本及标签,从而可以生成大量的文本数据,根据梯度对初始权值进行更新,使得基于更新权值生成的目标增强文本更加鲁棒,提高了数据增强的效果,使得基于增强文本训练的分类模型更加准确,提高分类模型的训练结果,进而提高了分类模型在保险业务场景下的应用准确率。
对应于上文实施例的文本分类的数据增强方法,图3示出了本发明实施例二提供的文本分类的数据增强装置的结构框图,上述数据增强装置应用于客户端,客户端对应的计算机设备连接服务端,以从服务端获取历史文本及其类别标签,服务端具备存储功能,服务端可以存储有上述具体业务平台内的历史文本及其已知的类别标签。为了便于说明,仅示出了与本发明实施例相关的部分。
参见图3,该数据增强装置包括:
文本获取模块31,用于获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息;
初始增强模块32,用于随机生成第一初始权值,以预设值和第一初始权值的差作为第二初始权值,根据第一初始权值和第二初始权值,分别对第一文本信息和第二文本信息,以及第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签;
类别预测模块33,用于使用训练好的分类器对初始增强文本进行类别预测,得到预测类别,根据预测类别和初始增强标签,计算得到预测损失,根据第一初始权值对预测损失进行偏导计算,得到计算结果;
目标增强模块34,用于将计算结果和预设系数相乘,得到相乘结果,以相乘结果和第一初始权值相加,得到第一更新权值,以预设值和第一更新权值的差作为第二更新权值,根据第一更新权值和第二更新权值,对第一文本信息和第二文本信息进行加权求和,得到目标增强文本,目标增强文本用于对训练好的分类器进行参数更新。
可选的是,上述初始增强模块32包括:
特征嵌入单元,用于使用训练好的嵌入层分别对第一文本信息和第二文本信息进行特征嵌入,得到对应第一文本信息的第一嵌入特征和对应第二文本信息的第二嵌入特征;
特征加权单元,用于将第一初始权值和第一嵌入特征相乘,得到第一相乘结果,将第二初始权值和第二嵌入特征相乘,得到第二相乘结果,将第一相乘结果和第二相乘结果相加,确定相加结果为对应初始增强文本的初始嵌入特征;
相应地,上述类别预测模块33包括:
特征预测单元,用于使用训练好的分类器对初始嵌入特征进行类别预测,得到预测类别。
可选的是,类别标签为根据对应历史文本分别属于至少两个预设类别的概率值形成的概率值序列;
上述初始增强模块32包括:
序列确定单元,用于确定第一文本信息对应的类别标签为第一概率值序列,确定第二文本信息对应的类别标签为第二概率值序列;
第一加权单元,用于将第一概率值序列中每个概率值均与第一初始权值相乘,得到第一相乘序列;
第二加权单元,用于将第二概率值序列中每个概率值均与第二初始权值相乘,得到第二相乘序列;
标签确定单元,用于将第一相乘序列和第二相乘序列相加,确定相加结果为对应初始增强文本的初始增强标签。
可选的是,上述类别预测模块33包括:
概率预测单元,用于使用训练好的分类器,对初始增强文本分别属于每个预设类别的概率进行预测,得到对应预设类别的预测概率;
类别确定单元,用于确定所有预测概率的最大值对应的预设类别为预测类别。
可选的是,上述类别预测模块33包括:
序列形成单元,用于根据所有预测概率形成预测概率序列;
损失计算单元,用于根据预测概率序列、初始增强标签和预设的预测损失函数,计算得到预测损失。
可选的是,上述数据增强装置还包括:
目标标签计算模块,用于根据第一更新权值和第二更新权值,对第一文本信息和第二文本信息分别对应的类别标签进行加权求和,得到目标增强标签;
损失更新模块,用于使用训练好的分类器对目标增强文本进行类别预测,得到更新类别,根据更新类别和目标增强标签,计算得到更新损失,根据第一更新权值对更新损失进行偏导计算,得到更新计算结果;
增强文本更新模块,用于将更新计算结果和预设系数相乘,得到更新相乘结果,以更新相乘结果和第一更新权值相加,得到第三更新权值,以预设值和第三更新权值的差作为第四更新权值,根据第三更新权值和第四更新权值,对第一文本信息和第二文本信息进行加权求和,得到最终增强文本。
需要说明的是,上述模块、单元、之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个数据增强方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本分类的数据增强方法,其特征在于,所述数据增强方法包括:
获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息;
随机生成第一初始权值,以预设值和所述第一初始权值的差作为第二初始权值,根据所述第一初始权值和所述第二初始权值,分别对所述第一文本信息和所述第二文本信息,以及所述第一文本信息和所述第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签;
使用训练好的分类器对所述初始增强文本进行类别预测,得到预测类别,根据所述预测类别和所述初始增强标签,计算得到预测损失,根据所述第一初始权值对所述预测损失进行偏导计算,得到计算结果;
将所述计算结果和预设系数相乘,得到相乘结果,以所述相乘结果和所述第一初始权值相加,得到第一更新权值,以所述预设值和所述第一更新权值的差作为第二更新权值,根据所述第一更新权值和所述第二更新权值,对所述第一文本信息和所述第二文本信息进行加权求和,得到目标增强文本,所述目标增强文本用于对所述训练好的分类器进行参数更新。
2.根据权利要求1所述的数据增强方法,其特征在于,根据所述第一初始权值和所述第二初始权值,对所述第一文本信息和所述第二文本信息进行加权求和,得到初始增强文本,包括:
使用训练好的嵌入层分别对所述第一文本信息和所述第二文本信息进行特征嵌入,得到对应所述第一文本信息的第一嵌入特征和对应所述第二文本信息的第二嵌入特征;
将所述第一初始权值和所述第一嵌入特征相乘,得到第一相乘结果,将所述第二初始权值和所述第二嵌入特征相乘,得到第二相乘结果,将所述第一相乘结果和所述第二相乘结果相加,确定相加结果为对应所述初始增强文本的初始嵌入特征;
相应地,所述使用训练好的分类器对所述初始增强文本进行类别预测,得到预测类别,包括:
使用所述训练好的分类器对所述初始嵌入特征进行类别预测,得到所述预测类别。
3.根据权利要求1所述的数据增强方法,其特征在于,所述类别标签为根据对应历史文本分别属于至少两个预设类别的概率值形成的概率值序列;
所述根据所述第一初始权值和所述第二初始权值,对所述第一文本信息和所述第二文本信息分别对应的类别标签进行加权求和,得到初始增强标签,包括:
确定所述第一文本信息对应的类别标签为第一概率值序列,确定所述第二文本信息对应的类别标签为第二概率值序列;
将所述第一概率值序列中每个概率值均与所述第一初始权值相乘,得到第一相乘序列;
将所述第二概率值序列中每个概率值均与所述第二初始权值相乘,得到第二相乘序列;
将所述第一相乘序列和所述第二相乘序列相加,确定相加结果为对应所述初始增强文本的初始增强标签。
4.根据权利要求3所述的数据增强方法,其特征在于,所述使用训练好的分类器对所述初始增强文本进行类别预测,得到预测类别,包括:
使用所述训练好的分类器,对所述初始增强文本分别属于每个所述预设类别的概率进行预测,得到对应预设类别的预测概率;
确定所有预测概率的最大值对应的预设类别为所述预测类别。
5.根据权利要求4所述的数据增强方法,其特征在于,所述根据所述预测类别和所述初始增强标签,计算得到预测损失,包括:
根据所有预测概率形成预测概率序列;
根据所述预测概率序列、所述初始增强标签和预设的预测损失函数,计算得到所述预测损失。
6.根据权利要求1至5任一项所述的数据增强方法,其特征在于,在所述得到目标增强文本之后,还包括:
根据所述第一更新权值和所述第二更新权值,对所述第一文本信息和所述第二文本信息分别对应的类别标签进行加权求和,得到目标增强标签;
使用所述训练好的分类器对所述目标增强文本进行类别预测,得到更新类别,根据所述更新类别和所述目标增强标签,计算得到更新损失,根据所述第一更新权值对所述更新损失进行偏导计算,得到更新计算结果;
将所述更新计算结果和所述预设系数相乘,得到更新相乘结果,以所述更新相乘结果和所述第一更新权值相加,得到第三更新权值,以所述预设值和所述第三更新权值的差作为第四更新权值,根据所述第三更新权值和所述第四更新权值,对所述第一文本信息和所述第二文本信息进行加权求和,得到最终增强文本。
7.一种文本分类的数据增强装置,其特征在于,所述数据增强装置包括:
文本获取模块,用于获取至少两个历史文本及其类别标签,任选两个历史文本分别作为第一文本信息和第二文本信息;
初始增强模块,用于随机生成第一初始权值,以预设值和所述第一初始权值的差作为第二初始权值,根据所述第一初始权值和所述第二初始权值,分别对所述第一文本信息和所述第二文本信息,以及所述第一文本信息和所述第二文本信息分别对应的类别标签进行加权求和,得到初始增强文本及其对应的初始增强标签;
类别预测模块,用于使用训练好的分类器对所述初始增强文本进行类别预测,得到预测类别,根据所述预测类别和所述初始增强标签,计算得到预测损失,根据所述第一初始权值对所述预测损失进行偏导计算,得到计算结果;
目标增强模块,用于将所述计算结果和预设系数相乘,得到相乘结果,以所述相乘结果和所述第一初始权值相加,得到第一更新权值,以所述预设值和所述第一更新权值的差作为第二更新权值,根据所述第一更新权值和所述第二更新权值,对所述第一文本信息和所述第二文本信息进行加权求和,得到目标增强文本,所述目标增强文本用于对所述训练好的分类器进行参数更新。
8.根据权利要求7所述的数据增强装置,其特征在于,所述类别标签为根据对应历史文本分别属于至少两个预设类别的概率值形成的概率值序列;
所述初始增强模块包括:
序列确定单元,用于确定所述第一文本信息对应的类别标签为第一概率值序列,确定所述第二文本信息对应的类别标签为第二概率值序列;
第一加权单元,用于将所述第一概率值序列中每个概率值均与所述第一初始权值相乘,得到第一相乘序列;
第二加权单元,用于将所述第二概率值序列中每个概率值均与所述第二初始权值相乘,得到第二相乘序列;
标签确定单元,用于将所述第一相乘序列和所述第二相乘序列相加,确定相加结果为对应所述初始增强文本的初始增强标签。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的数据增强方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据增强方法。
CN202310912352.3A 2023-07-20 2023-07-20 文本分类的数据增强方法、装置、设备及介质 Pending CN116821689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310912352.3A CN116821689A (zh) 2023-07-20 2023-07-20 文本分类的数据增强方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310912352.3A CN116821689A (zh) 2023-07-20 2023-07-20 文本分类的数据增强方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116821689A true CN116821689A (zh) 2023-09-29

Family

ID=88125844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310912352.3A Pending CN116821689A (zh) 2023-07-20 2023-07-20 文本分类的数据增强方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116821689A (zh)

Similar Documents

Publication Publication Date Title
CN112818023B (zh) 在关联云业务场景下的大数据分析方法及云计算服务器
US11216701B1 (en) Unsupervised representation learning for structured records
CN113435499B (zh) 标签分类方法、装置、电子设备和存储介质
CN111324738B (zh) 一种确定文本标签的方法和系统
CN115034315B (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
CN111950647A (zh) 分类模型训练方法和设备
CN113239702A (zh) 意图识别方法、装置、电子设备
CN117078789B (zh) 图像处理方法、装置、设备及介质
CN110674497B (zh) 一种恶意程序相似度计算的方法和装置
CN116384370B (zh) 一种用于在线业务会话交互的大数据安全分析方法及系统
CN116257885A (zh) 基于联邦学习的隐私数据通信方法、系统和计算机设备
CN116152551A (zh) 分类模型训练方法、分类方法、装置、设备及介质
CN116821689A (zh) 文本分类的数据增强方法、装置、设备及介质
CN114513578A (zh) 外呼方法、装置、计算机设备及存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN115511015B (zh) 一种样本筛选方法、装置、设备及计算机可读存储介质
CN112214387B (zh) 基于知识图谱的用户操作行为预测方法及装置
CN116912920B (zh) 表情识别方法及装置
CN116663562A (zh) 基于人工智能的实体识别方法、装置、计算机设备及介质
CN116720123B (zh) 一种账户识别方法、装置、终端设备及介质
CN117391055A (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
CN117749653A (zh) 一种QoS预测方法、装置、电子设备及可读存储介质
CN117611357A (zh) 一种基于人工智能的理赔审核方法、装置、设备及介质
CN117033548A (zh) 用于缺陷分析的数据检索方法、装置、计算机设备及介质
CN117743856A (zh) 一种训练风险识别模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination