CN115858774A - 用于文本分类的数据增强方法、装置、电子设备及介质 - Google Patents

用于文本分类的数据增强方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115858774A
CN115858774A CN202210646894.6A CN202210646894A CN115858774A CN 115858774 A CN115858774 A CN 115858774A CN 202210646894 A CN202210646894 A CN 202210646894A CN 115858774 A CN115858774 A CN 115858774A
Authority
CN
China
Prior art keywords
text
corpus
determining
texts
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210646894.6A
Other languages
English (en)
Inventor
段兴涛
赵国庆
周长安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN202210646894.6A priority Critical patent/CN115858774A/zh
Publication of CN115858774A publication Critical patent/CN115858774A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于文本分类的数据增强方法、装置及介质。其中方法包括:基于待处理的文本语料库,确定文本数量;若文本数量不大于预设文本数量阈值,则确定文本语料库包括的多个文本分别对应的若干分词;确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别;确定文本语料库包括的多种文本类别各自对应的若干高频词,以得到训练样本,利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型。本申请起到了对扩充后的数据的质量进行验证的效果,达到了通过置信度提升了后续训练好的模型的文本分类的识别精度的目的;同时提升了训练好的模型的泛化性,降低了学习成本和维修成本。

Description

用于文本分类的数据增强方法、装置、电子设备及介质
技术领域
本申请涉及文本识别技术领域,具体而言,本申请涉及一种用于文本分类的数据增强方法、装置、电子设备及介质。
背景技术
在人工智能高速发展的今天,自然语言处理技术和模型也在不断迭代和更新。当下机器翻译、自动摘要、阅读理解、实体识别、文本分类等任务中对数据的需求更加旺盛,特别是大模型的趋势更加需求大量的语料,然后再运用到小语料数据集上。因此文本数量的多少,质量的高低直接影响到AI系统、自然语音处理NLP任务的效果。相关的对文本语料进行增加方式包括:一、对语料数据集特别少的情况下,利用专家业务知识制定一系列的业务规则,以制作专家系统,使该系统可以达到良好的效果,保证整个系统的良好运行,但这种方式的缺点是系统严重依赖于领域内专家,不容易被机器或者普通人学习,时间成本过高,同时后续维护也是严重依赖于领域内专家,实现细节繁琐;二、通过数据增强的方式来扩充语料以训练模型,使得模型泛化性能更好,使得学习成本降低,而且系统在后续维护也轻易可靠,但这种方式存在扩充后的数据质量需要进一步验证,需要依赖于一定数量的数据来训练数据增强模型,扩充后的数据和线上用户产生的数据可能存在分布偏差的问题。
发明内容
本申请提供了一种用于文本分类的数据增强方法、装置、电子设备及计算机可读存储介质,可以解决上述问题。所述技术方案如下:
第一方面,提供了一种用于文本分类的数据增强方法,该方法包括:
基于待处理的文本语料库,确定文本数量;
若文本数量不大于预设文本数量阈值,则确定文本语料库包括的多个文本分别对应的若干分词;
确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别;
依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词;
基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别。
第二方面,提供了一种用于文本分类的数据增强装置,该装置包括:
语料库文本数量确定模块,用于基于待处理的文本语料库,确定文本数量;
语料库文本分词确定模块,用于若文本数量不大于预设文本数量阈值,则确定文本语料库包括的多个文本分别对应的若干分词;
语料库文本标签确定模块,用于确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别;
语料库文本高频词确定模块,用于依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词;
对语料库提取训练样本模块,用于基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
文本类别识别模型训练模块,用于利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述用于文本分类的数据增强方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述用于文本分类的数据增强方法。
本申请实施例基于待处理的文本语料库,确定文本数量,并在文本数量不大于预设文本数量阈值的情形下,确定文本语料库包括的多个文本分别对应的若干分词,确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别,进而依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词,基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本,从而利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别,这种通过确定各文本的分词并结合文本标签来统计高频词的方式,起到了对扩充后的数据的质量进行验证的效果,达到了通过置信度提升后续训练好的模型的文本分类的识别精度的目的;同时提升了训练好的模型的泛化性,降低了学习成本和维修成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种用于文本分类的数据增强方法的流程示意图;
图2为本申请实施例提供的一种用于文本分类的数据增强方法的应用流程示意图;
图3为本申请实施例提供的一种用于文本分类的数据增强装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
首先对本申请涉及的几个名词进行介绍和解释:
数据增强:是一种从现有的训练样本中生成新的训练样本,在数据约束环境下提高机器学习模型性能和准确性的成本和有效的方法;
专家系统:是一种在特定领域内具有专家水平解决问题能力的程序系统,它能够有效地运用专家多年积累的有效经验和专门知识,通过模拟专家的思维过程,解决需要专家才能解决的问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种用于文本分类的数据增强方法,如图1所示,该方法包括:步骤S101至步骤S106。
步骤S101、基于待处理的文本语料库,确定文本数量。
具体地,电子设备可以通过预设接口来导入文本语料库。
本申请实施例中,文本语料库用于表征某一领域的不同类别的文本。例如,若文本语料库为金融领域,那么文本语料库包括汽车贷款类的文本,房贷类的文本、个人贷款类的文本、企业贷款类的文本。
步骤S102、若文本数量不大于预设文本数量阈值,则确定文本语料库包括的多个文本分别对应的若干分词。
本申请实施例中通过预设文本数量阈值的设置,来判断文本语料库是否存在数量少的情形,如存在则表明文本语料库需要进行数据增强。
具体地,可以通过预设的分词算法来对文本语料库中各个文本进行分词,从而得到各个文本分别对应的若干分词。
步骤S103、确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别。
本申请实施例中,置信度用于表征文本属于文本标签包括的文本类别的概率。
具体地,不同应用领域对应不同的文本类别。例如,若应用领域为金融,那么文本类别可以为个人贷款、企业贷款等;若应用领域为法律,那么文本类别可以为刑法、民法、刑诉法等。
步骤S104、依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词。
本申请实施例中,高频词用于表征文本语料库中词频较高的分词。
具体地,可以通过预设的词频统计算法来进行高频词统计。
步骤S105、基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本。
步骤S106、利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别。
具体地,初始模型可以为卷积神经网络CNN模型。应用时,可以通过对该卷积神经网络CNN模型的训练。
本申请实施例基于待处理的文本语料库,确定文本数量,并在文本数量不大于预设文本数量阈值的情形下,确定文本语料库包括的多个文本分别对应的若干分词,确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别,进而依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词,基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本,从而利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别,这种通过确定各文本的分词并结合文本标签来统计高频词的方式,起到了对扩充后的数据的质量进行验证的效果,达到了通过置信度提升了后续训练好的模型的文本分类的识别精度的目的;同时提升了训练好的模型的泛化性,降低了学习成本和维修成本。
在一些实施例中,该方法还包括:
获取新文本;
将新文本输入至文本类别识别模型,确定新文本的文本标签;
若所述新文本的文本标签中置信度大于预设的置信度阈值,则利用新文本更新所述文本训练样本,得到新训练样本;
利用新训练样本对文本类别识别模型进行迭代训练,得到动态更新文本类别识别模型。
具体地,可以通过预设接口来对线上日志进行读取,得到新文本。
具体地,文本类别识别模型的输出结果为包括置信度和文本类别的文本标签,通过该文本标包括的置信度与预设置信度阈值的比较,来判断新文本是否符合条件。
在上述实施例中,利用新文本更新所述训练样本,得到新训练样本的步骤,包括:
利用新文本对所述文本语料库进行更新,得到新文本语料库;
确定新文本语料库包括的各个文本分别对应的若干分词和新文本语料库包括的各个文本各自的文本类别进行高频词统计,得到新文本语料库包括的多种文本类别各自对应的若干高频词;
依据新文本语料库包括的多种文本类别各自对应的若干高频词以及新文本语料库包括的多种文本类别各自对应的文本标签,确定新训练样本。
应用时,可以利用步骤S104统计得到的高频词来生成高频词典,并利用该高频词点来对新文本语料库中新文本进行分词;或者利用预设的分词算法提供的词典来对新文本进行分词;最后结合步骤S102的结果,来得到执行确定新文本语料库包括的各个文本分别对应的若干分词和新文本语料库包括的各个文本各自的文本类别进行高频词统计的步骤。
应用时,可以在得到新文本语料库后利用预设分词算法,来对新文本语料库包括的各个文本进行分词,得到新文本语料库包括的各个文本各自的若干分词,从而进行高频词统计。
在一些实施例中,步骤S104进一步包括:
依据文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行词频统计,得到文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频;
对文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频进行降序排序;
依据排序结果,将文本语料库包括的多种文本类别各自对应的词频排名前预定数量的分词作为高频词,以得到所述文本语料库包括的多种文本类别各自对应的若干高频词。
具体地,可以根据预设参数来进行筛选,得到排名前预定数量的分词作为高频词。应用时,可以根据业务需要来实时调整该参数,以控制高频词的选取。
在一些实施例中,步骤S102中确定所述文本语料库包括的多个文本分别对应的若干分词的步骤,包括:
步骤S1021(图中未示出)、确定针对文本语料库的目标分词词典;
步骤S1022(图中未示出)、依据针对文本语料库的目标分词词典对文本语料库包括的多个文本进行分词,得到文本语料库包括的多个文本分别对应的若干分词。
具体地,可以通过预设接口调用第三方提供的目标分词词典,以对文本语料库包括的各个文本进行分词。
在一些实施例中,步骤S1021进一步包括:
基于预设的多种文本领域,确定所选定的目标文本领域;
依据目标文本领域,确定针对文本语料库目标分词词典。
具体地,可以通过预配置的交互界面来提供多种针对不同文本领域的控件,以在检测到用户针对这些控件的控制操作时,确定该控制操作所指向控件对应的文本领域。
具体地,不同领域的词典可以通过对应领域的专家制定一系列规则,从而生成相应的专家系统,并由该专家系统来提供分词词典。
在一些实施例中,该方法还包括:
若文本数量大于预设文本数量阈值,则确定文本语料库包括的各个文本分别对应的文本类别;
依据文本语料库和文本语料库包括的各个文本分别对应的文本类别,对预构建的机器学习模型进行训练,得到训练好的通用文本类别识别模型。
本申请实施例中,文本数量大于预设文本数量阈值表明文本语料库的数据量够多,不影响训练得到的模型对新文本的识别精度。
具体地,机器学习模型可以为卷积神经网络CNN或随机森林。
为了进一步说明本申请实施例提供的方法,下面结合图2对金融领域的监管文件进行处理为例详细说明。
该处理过程包括训练过程和应用过程。训练过程中需要先获取初始语料库,即证监会、保监会等国家金融机构下发的监管文件,对训练集进行数量统计,若训练集的数量少于预设的数量阈值,则表明该初始语料库需要进行数据增强,否则表明无需进行数据增强即进行机器学习。在初始语料库的数量少于预设的数量阈值的情形下,利用专家规则库进行分词,得到分词结果,即各个监管文件分别对应的分词集和对应的带有置信度的用于表征文件类别的标签,对各个监管文件分别对应的分词集进行高频词统计,得到用于训练模型的训练文本,该训练文本包括各个监管文件各自对应的高频词集合对应的带有置信度的标签(该标签用于表征文件类别),利用该训练文本进行模型训练,得到训练好的模型,即文本类别识别模型。应用过程中,在读取线上日志,得到新监管文件后,对新监管文件进行分词。本实施例中利用专家规则库对新监管文件进行分词。应用时,还可以利用预设的分词算法对新监管文件进行分词。通过分词得到新监管文件的分词集后,输入至训练好的模型,得到带有置信度c1 的标签。例如,假设训练好的模型对新监管文件的输出为“今天心情不错高兴0.98”,解释包含数据文本,数据文本对应的标签,取得该标签下的置信度也即概率值。之后,将c1 与预设的置信度阈值c2比较,若c1>c2,则将新监管文件的分词集及带有置信度c1的标签作为更新数据更新分词结果,以重新进行词频统计,得到用于训练模型的训练文本,进而进行训练。
这种使用数据对模型进行学习,然后进入数据扩充阶段的方式,数据扩充阶段为周期迭代性,通过取得线上用户日志的数据读取全量数据后,然后枚举数据,如果当前条数据对应的置信度小于c2,则将该数据舍去,反之将该数据用于数据扩充。扩充完后,利用训练集再次更新模型,进行线上输出。通过这种方式得到的系统的整体性能指标得到有效保证,且扩充的数据质量比较适用于线上业务,并且模型在后续维护中,不需要过度依赖于领域内专家,普通人也可以方便操作。
本申请的又一实施例提供了一种用于文本分类的数据增强装置,如图3所示,该装置30 包括:语料库文本数量确定模块301、语料库文本分词确定模块302、语料库文本标签确定模块303、语料库文本高频词确定模块304、对语料库提取训练样本模块305以及文本类别识别模型训练模块306。
语料库文本数量确定模块301,用于基于待处理的文本语料库,确定文本数量;
语料库文本分词确定模块302,用于若所述文本数量不大于预设文本数量阈值,则确定所述文本语料库包括的多个文本分别对应的若干分词;
语料库文本标签确定模块303,用于确定所述文本语料库包括的多个文本分别对应的文本标签,所述文本标签包括置信度和文本类别;
语料库文本高频词确定模块304,用于依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计,得到所述文本语料库包括的多种文本类别各自对应的若干高频词;
对语料库提取训练样本模块305,用于基于所述文本语料库包括的多种文本类别各自对应的若干高频词和所述文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
文本类别识别模型训练模块306,用于利用所述训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用所述文本类别识别模型对新文本进行识别。
本申请实施例基于待处理的文本语料库,确定文本数量,并在文本数量不大于预设文本数量阈值的情形下,确定文本语料库包括的多个文本分别对应的若干分词,确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别,进而依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词,基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本,从而利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别,这种通过确定各文本的分词并结合文本标签来统计高频词的方式,起到了对扩充后的数据的质量进行验证的效果,达到了通过置信度提升了后续训练好的模型的文本分类的识别精度的目的;同时提升了训练好的模型的泛化性,降低了学习成本和维修成本。
进一步地,该装置还包括:
新文本获取模块,用于获取新文本;
新文本标签确定模块,用于将所述新文本输入至所述文本类别识别模型,确定所述新文本的文本标签;
训练样本更新模块,用于若所述新文本的所述文本标签中置信度大于预设的置信度阈值,则利用所述新文本更新所述文本训练样本,得到新训练样本;
模型泛华处理模块,用于利用所述新训练样本对所述文本类别识别模型进行迭代训练,得到动态更新文本类别识别模型。
进一步地,训练样本更新模块包括:
新文本语料库确定子模块,用于利用所述新文本对所述文本语料库进行更新,得到新文本语料库;
新文本语料库高频词统计子模块,用于确定所述新文本语料库包括的各个文本分别对应的若干分词和所述新文本语料库包括的各个文本各自的文本类别进行高频词统计,得到所述新文本语料库包括的多种文本类别各自对应的若干高频词;
模型迭代训练模块,用于依据所述新文本语料库包括的多种文本类别各自对应的若干高频词以及所述新文本语料库包括的多种文本类别各自对应的文本标签,确定所述新训练样本。
进一步地,语料库文本高频词确定模块包括:
词频计算子模块,用于依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行词频统计,得到所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频;
词频排序子模块,用于对所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频进行降序排序;
高频词筛选子模块,用于依据排序结果,将所述文本语料库包括的多种文本类别各自对应的词频排名前预定数量的分词作为高频词,以得到所述文本语料库包括的多种文本类别各自对应的若干高频词。
进一步地,语料库文本分词确定模块包括:
目标分词词典确定子模块,用于基于预设的多种文本类别分别对应的分词词典,确定所述文本语料库包括的多个文本各自所属的文本类别所指向的目标分词词典;
目标分词词典分词处理子模块,用于依据所述文本语料库包括的多个文本各自所属的文本类别所指向的目标分词词典,对所述文本语料库包括的多个文本进行分词,得到所述文本语料库包括的多个文本分别对应的若干分词。
进一步地,目标分词词典确定子模块基于预设的多种文本类别分别对应的分词词典,确定所述文本语料库包括的多个文本各自所属的文本类别所指向的目标分词词典之前,还包括:文本领域确定单元,用于基于预设的多种文本领域,确定所选定的目标文本领域;目标分词词典确定子模块包括:目标分词词典确定单元,用于依据所述目标文本领域,确定预设的多种文本类别分别对应的分词词典。
进一步,该装置还包括:
语料库文本类别确定模块,用于若所述文本数量大于预设文本数量阈值,则确定所述文本语料库包括的各个文本分别对应的文本类别;
语料库文本类别学习模块,用于依据所述文本语料库和所述文本语料库包括的各个文本分别对应的文本类别,对预构建的机器学习模型进行训练,得到训练好的通用文本类别识别模型。
本实施例的用于文本分类的数据增强装置可执行本申请实施例一所示的用于文本分类的数据增强方法,其实现原理相类似,此处不再赘述。
本申请又一实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述用于文本分类的数据增强方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现上述实施例提供的用于文本分类的数据增强装置的动作。
本申请又一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述用于文本分类的数据增强方法。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种用于文本分类的数据增强方法,其特征在于,包括:
基于待处理的文本语料库,确定文本数量;
若所述文本数量不大于预设文本数量阈值,则确定所述文本语料库包括的多个文本分别对应的若干分词;
确定所述文本语料库包括的多个文本分别对应的文本标签,所述文本标签包括置信度和文本类别;
依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计,得到所述文本语料库包括的多种文本类别各自对应的若干高频词;
基于所述文本语料库包括的多种文本类别各自对应的若干高频词和所述文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
利用所述训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用所述文本类别识别模型对新文本进行识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取新文本;
将所述新文本输入至所述文本类别识别模型,确定所述新文本的文本标签;
若所述新文本的所述文本标签中置信度大于预设的置信度阈值,则利用所述新文本更新所述文本训练样本,得到新训练样本;
利用所述新训练样本对所述文本类别识别模型进行迭代训练,得到动态更新文本类别识别模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述新文本更新所述训练样本,得到新训练样本的步骤,包括:
利用所述新文本对所述文本语料库进行更新,得到新文本语料库;
确定所述新文本语料库包括的各个文本分别对应的若干分词和所述新文本语料库包括的各个文本各自的文本类别进行高频词统计,得到所述新文本语料库包括的多种文本类别各自对应的若干高频词;
依据所述新文本语料库包括的多种文本类别各自对应的若干高频词以及所述新文本语料库包括的多种文本类别各自对应的文本标签,确定所述新训练样本。
4.根据权利要求1所述的方法,其特征在于,所述依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计,得到所述文本语料库包括的多种文本类别各自对应的若干高频词的步骤,包括:
依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行词频统计,得到所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频;
对所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频进行降序排序;
依据排序结果,将所述文本语料库包括的多种文本类别各自对应的词频排名前预定数量的分词作为高频词,以得到所述文本语料库包括的多种文本类别各自对应的若干高频词。
5.根据权利要求1所述的方法,其特征在于,所述确定所述文本语料库包括的多个文本分别对应的若干分词的步骤,包括:
确定针对所述文本语料库的目标分词词典;
依据针对所述文本语料库的所述目标分词词典对所述文本语料库包括的多个文本进行分词,得到所述文本语料库包括的多个文本分别对应的若干分词。
6.根据权利要求1所述的方法,其特征在于,所述确定针对所述文本语料库的目标分词词典的步骤,包括:
基于预设的多种文本领域,确定所选定的目标文本领域;
依据所述目标文本领域,确定针对文本语料库目标分词词典。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述文本数量大于预设文本数量阈值,则确定所述文本语料库包括的各个文本分别对应的文本类别;
依据所述文本语料库和所述文本语料库包括的各个文本分别对应的文本类别,对预构建的机器学习模型进行训练,得到训练好的通用文本类别识别模型。
8.一种用于文本分类的数据增强装置,其特征在于,包括:
语料库文本数量确定模块,用于基于待处理的文本语料库,确定文本数量;
语料库文本分词确定模块,用于若所述文本数量不大于预设文本数量阈值,则确定所述文本语料库包括的多个文本分别对应的若干分词;
语料库文本标签确定模块,用于确定所述文本语料库包括的多个文本分别对应的文本标签,所述文本标签包括置信度和文本类别;
语料库文本高频词确定模块,用于依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计,得到所述文本语料库包括的多种文本类别各自对应的若干高频词;
对语料库提取训练样本模块,用于基于所述文本语料库包括的多种文本类别各自对应的若干高频词和所述文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
文本类别识别模型训练模块,用于利用所述训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用所述文本类别识别模型对新文本进行识别。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法。
CN202210646894.6A 2022-06-08 2022-06-08 用于文本分类的数据增强方法、装置、电子设备及介质 Pending CN115858774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646894.6A CN115858774A (zh) 2022-06-08 2022-06-08 用于文本分类的数据增强方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646894.6A CN115858774A (zh) 2022-06-08 2022-06-08 用于文本分类的数据增强方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN115858774A true CN115858774A (zh) 2023-03-28

Family

ID=85660126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646894.6A Pending CN115858774A (zh) 2022-06-08 2022-06-08 用于文本分类的数据增强方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115858774A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541527A (zh) * 2023-07-05 2023-08-04 国网北京市电力公司 一种基于模型集成和数据扩充的公文分类方法
CN117216280A (zh) * 2023-11-09 2023-12-12 闪捷信息科技有限公司 敏感数据识别模型的增量学习方法、识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541527A (zh) * 2023-07-05 2023-08-04 国网北京市电力公司 一种基于模型集成和数据扩充的公文分类方法
CN116541527B (zh) * 2023-07-05 2023-09-29 国网北京市电力公司 一种基于模型集成和数据扩充的公文分类方法
CN117216280A (zh) * 2023-11-09 2023-12-12 闪捷信息科技有限公司 敏感数据识别模型的增量学习方法、识别方法和装置
CN117216280B (zh) * 2023-11-09 2024-02-09 闪捷信息科技有限公司 敏感数据识别模型的增量学习方法、识别方法和装置

Similar Documents

Publication Publication Date Title
CN115858774A (zh) 用于文本分类的数据增强方法、装置、电子设备及介质
CN110414004B (zh) 一种核心信息提取的方法和系统
CN110263157B (zh) 一种数据风险预测方法、装置及设备
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CN114240101A (zh) 一种风险识别模型的验证方法、装置以及设备
CN111222994A (zh) 客户风险评估方法、装置、介质和电子设备
CN111753987A (zh) 机器学习模型的生成方法和装置
CN110782349A (zh) 一种模型训练方法和系统
CN110019784B (zh) 一种文本分类方法及装置
CN114943307A (zh) 一种模型训练的方法、装置、存储介质以及电子设备
CN112241458A (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN110033092B (zh) 数据标签生成、模型训练、事件识别方法和装置
CN108804563B (zh) 一种数据标注方法、装置以及设备
CN116662555B (zh) 一种请求文本处理方法、装置、电子设备及存储介质
CN115759027B (zh) 文本数据处理系统及方法
CN110705258A (zh) 文本实体识别方法及装置
CN113434630B (zh) 客服服务评估方法、装置、终端设备及介质
CN110895703A (zh) 法律文书案由识别方法及装置
CN111400484B (zh) 一种关键词提取方法和系统
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN114254588A (zh) 数据标签处理方法和装置
CN114610576A (zh) 一种日志生成监控方法和装置
CN113689860A (zh) 语音识别模型的训练、语音识别方法、装置及设备
CN109146395B (zh) 一种数据处理的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination