CN113553806A - 文本数据增强方法、装置、设备和介质 - Google Patents

文本数据增强方法、装置、设备和介质 Download PDF

Info

Publication number
CN113553806A
CN113553806A CN202111103308.5A CN202111103308A CN113553806A CN 113553806 A CN113553806 A CN 113553806A CN 202111103308 A CN202111103308 A CN 202111103308A CN 113553806 A CN113553806 A CN 113553806A
Authority
CN
China
Prior art keywords
sentence
word
replaced
data set
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111103308.5A
Other languages
English (en)
Other versions
CN113553806B (zh
Inventor
蔡飞
欧丽珍
毛彦颖
陈佩佩
陈翀昊
潘志强
宋城宇
张鑫
陈洪辉
罗雪山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111103308.5A priority Critical patent/CN113553806B/zh
Publication of CN113553806A publication Critical patent/CN113553806A/zh
Application granted granted Critical
Publication of CN113553806B publication Critical patent/CN113553806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及文本数据增强方法、装置、设备和介质,方法包括:获取待处理的原始数据集;确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份,N为正整数;分别根据每个句子的长度确定每个句子的随机替换比例;根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取;分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集;将原始数据集与扩充数据集合并得到增强数据集。无需借助额外设计的语言模型或是额外输入的数据,有效地显著提升机器学习模型在小数据集上的性能。

Description

文本数据增强方法、装置、设备和介质
技术领域
本申请涉及机器学习技术领域,特别是涉及一种文本数据增强方法、装置、设备和介质。
背景技术
机器学习的高性能往往依赖于训练数据的大小和质量。然而,数据收集与整理是一项繁琐且昂贵的工作,因此,面对较小数据集时,机器学习模型效果往往会下降明显,在计算机视觉及语音识别领域,常常采用自动数据增强方法扩充数据集。然而当前文本数据主要分为两大类,第一类为句子级别的,这种类别下的数据增强方式对原始数据改动较大,且往往需要额外的语言模型或是数据支撑,较为昂贵。第二类是单词级别的,这种类别下的数据增强方式对原始数据的改动较小,但大多数情况会改变句子长度。
然而,在实现本发明过程中,发明人发现在机器学习的实际应用中,并非所有领域都能存在大型数据集,这将极大地限制机器学习方式在该领域的发展;而当前应用的传统自动数据增强方法,存在着无法有效提升机器学习模型在小型数据集上的性能的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种文本数据增强方法、一种文本数据增强装置、一种计算机设备以及一种计算机可读存储介质,能够有效地显著提升机器学习模型在小型数据集上的性能。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种文本数据增强方法,包括步骤:
获取待处理的原始数据集;
确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份;N为正整数;
分别根据每个句子的长度确定每个句子的随机替换比例;
根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取;
分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集;
将原始数据集与扩充数据集合并得到增强数据集。
另一方面,还提供一种文本数据增强装置,包括:
数据获取模块,用于获取待处理的原始数据集;
句子扩展模块,用于确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份;N为正整数;
比例确定模块,用于分别根据每个句子的长度确定每个句子的随机替换比例;
替换抽取模块,用于根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取;
替换扩充模块,用于分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集;
合并增强模块,用于将原始数据集与扩充数据集合并得到增强数据集。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现任一项的上述文本数据增强方法的步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现任一项的上述文本数据增强方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述文本数据增强方法、装置、设备和介质,通过将原始数据集中的句子复制扩展后,利用选取的缩略语替换方式根据确定的随机替换比例对复制后的每个句子进行待替换词抽取,进而分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集,最后将原始数据集与扩充数据集合并得到增强数据集,实现文本数据的增强目的。如此,基于缩略语生成方式的文本数据增强,能够有效地显著提升机器学习模型在小数据集上的性能,推进自然语言处理在相关任务数据少、获取困难的领域的应用。此外,上述方案无需借助额外设计的语言模型或是额外输入的数据,操作简单且有效;不仅可以适用于传统的自然语言处理任务,同时也能为缩略语研究任务,如缩略语识别和缩略语澄清等提供有效参考。
附图说明
图1为一个实施例中文本数据增强方法的流程示意图;
图2为一个实施例中基于缩略语的通用文本数据增强方式流程示意图;
图3为一个实施例中基于随机抽取的示例示意图;
图4为一个实施例中基于主题抽取的示例示意图;
图5为一个实施例中基于连续抽取的示例示意图;
图6为一个实施例中实验案例的效果提升对比示例示意图;
图7为一个实施例中文本数据增强装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1,一方面,本发明提供一种文本数据增强方法,包括如下步骤S12至S22:
S12,获取待处理的原始数据集。
可以理解,原始数据集为相对于机器学习中大规模训练数据集而言其数据量较小的小型数据集,原始数据集中的数据可以是英文语料,也可以是中文语料,语料中可以包含多个句子。原始数据集可以通过人工上传获取,也可以通过在互联网上爬取获得,还可以通过从预存了各类数据集的数据库中加载获得或者其他数据集获取方式而实现数据集的获取。
S14,确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份;N为正整数。
可以理解,N代表了句子扩充数目,如原始数据集中包括T条数据(如句子),复制扩充后的数据集将包含T*(N+1)条数据。扩展数量N的具体数值可以根据机器学习模型对数据的依赖能力确定,例如机器学习模型对数据的依赖能力越高,扩展数量N可以取值越大,反之取值越小。
S16,分别根据每个句子的长度确定每个句子的随机替换比例。
可以理解,每个句子的长度可以是各不相同的,也可以是部分相同的,还有可能是全部相同的,具体视原始数据集的实际数据组成而定。对于每个句子而言,其随机替换比例由句子本身的长度决定,随机替换比例例如但不限于可以记为α,每个句子的长度各不相同时,各句子的随机替换比例α也会不相同。随机替换比例α表示相应句子的随机替换比例,具体而言,句子包含信息数与句子长度成正比,通常认为句子长度越长,则可吸纳的噪声越多,而随机替换比例α则决定每个句子可吸纳的噪声比例。每个句子的长度在句子进入数据集以待处理时即已确定,可以采用本领域已有的句子长度计算方式直接计算得到或者直接从相应存储信息中读取得到句子长度。句子长度例如但不限于可以记为l,其代表了句子中包含的单词个数。
S18,根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取。
可以理解,缩略语替换方式可以依据当前的任务需求至少有随机抽取、主题词抽取和连续抽取这三种方式中的任一种选择。随机抽取是从句子的非停用词中随机抽取出对应的单词数目,主题词抽取则是指利用关键词抽取模型抽取待替换词,而连续抽取则是指对词组进行抽取,与主题词抽取不同是,主题词抽取将不改变句子长度,而连续抽取则需将抽取结果的首字母组成新的词汇后再对原始词组进行替换。任务是指文本分类、阅读理解、推荐系统等传统自然语言处理任务,或者缩略语识别和缩略语澄清等新型自然语言处理任务。
S20,分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集。
可以理解,对于复制后得到的每个句子而言,若选用随机抽取或主题词抽取的缩略语替换方式,则只需把每个候选词(也即待替换词)的首字母分别替换各候选词集合中各相应的候选词即可;若选用的是连续抽取,则需将候选词组(也即待替换词)的首字母拼接成新的单词后再进行替换。
本实施例采用模拟首字母缩略语生成方式,实现文本数据增强,因此其核心在于首字母替换,即利用首字母对原本的单词进行替换。例如但不限于:如句子“Our methodcan be applied to natural language processing.”在随机抽取和主题词抽取中,将使用“n l p”这三个首字母对原短语“natural language processing”(也即待替换词)进行替换,句子长度不会发生改变,替换后即为“Our method can be applied to n l p”。
在一些实施方式中,选用的是连续抽取时,关于上述的步骤S20中,分别利用每个句子的待替换词的首字母替换各对应的待替换词的过程,具体可以包括如下处理过程:
分别将每个句子的各待替换词的首字母拼接成新的词汇后,利用新的词汇替换各对应的待替换词。
可以理解,连续抽取则是使用拼接成的新词汇“nlp”进行替换,原有句子长度将会发生改变,替换后即为“Our method can be applied to nlp”。连续抽取更加接近于真实缩略语使用环境,更适合缩略语相关子任务研究。
又例如,针对中文语料库,则可以使用对应词组的拼音首字母进行替换。如“一种模拟首字母缩略语生成方式的文本数据增强方式”,经过数据增强后可生成“一种模拟s zm缩略语生成方式的文本数据增强方式”,或者“一种模拟szm缩略语生成方式的文本数据增强方式”。对于其他语料的增强处理同理类似。
S22,将原始数据集与扩充数据集合并得到增强数据集。
具体的,循环N次后获得最终替换完成的扩充数据集后,将原始数据集与扩充数据集合并得到增强数据集,该增强数据集可以输入给下游任务使用,如图2所示,下游任务可以但不限于是文本分类、阅读理解、推荐系统等传统自然语言处理任务,或者缩略语识别和缩略语澄清等新型自然语言处理任务。
上述文本数据增强方法,通过将原始数据集中的句子复制扩展后,利用选取的缩略语替换方式根据确定的随机替换比例对复制后的每个句子进行待替换词抽取,进而分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集,最后将原始数据集与扩充数据集合并得到增强数据集,实现文本数据的增强目的。如此,基于缩略语生成方式的文本数据增强,能够有效地显著提升机器学习模型在小数据集上的性能,推进自然语言处理在相关任务数据少、获取困难的领域的应用。此外,上述方案无需借助额外设计的语言模型或是额外输入的数据,操作简单且有效;不仅可以适用于传统的自然语言处理任务,同时也能为缩略语研究任务,如缩略语识别和缩略语澄清等提供有效参考。
在一个实施例中,缩略语替换方式为随机抽取。关于上述步骤S18中,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取的过程,具体可以包括如下处理过程:
获取原始数据集的停用词表,根据停用词表确定复制后的每个句子中的停用词;
对复制后的每个句子中的非停用词进行打分并排序;
分别根据复制后的每个句子的长度和随机替换比例,按照得分从高到低的顺序选取复制后的每个句子中前H个候选词作为待替换词;H=[αl],其中,α表示随机替换比例,l表示句子的长度,[ ]表示取整。
可以理解,[ ]表示取整,代表的是替换单词数目为整数。随机抽取是利用随机函数从句子中进行抽取的方式,这一方式相当于给数据施加了一定的噪声,其效果相当于N-gram(大词汇连续语音识别中常用的一种语言模型)的插值平滑,因此,这一抽取方式适用范围最广,包括文本分类、阅读理解以及推荐系统等。
停用词主要包含两类,第一类是无实际意义的词,例如但不限于“is、was或to”,第二类是被广泛使用而无辨识度的单词,例如但不限于“want、think或hope”。可以记原始的句子为O,原始的句子长度即总长度为l,替换概率为α,停用词组成的集合为S,对于O中的每个单词w i ,若w i 不在S内,则随机生成一个0-1之间的概率s i i为正整数。对各单词w i 概率进行打分并排序,选取前[αl]个单词作为候选词集合C,其中,各候选词即为抽取的各待替换词。
在一些实施方式中,具体操作过程可参见图3所示的示例:
Step1:获取停用词表(Stop word list),确定句子中的停用词。
Step2:对其余词汇进行打分;图3中,规范参数Parameters包括l=10、α=0.2和[αl]=2。
Step3:计算句子长度,确定α,计算[αl]。
Step4:挑选[αl]个候选词,构成候选词集合,进入下一步操作。
通过上述随机抽取,即可高效实现待替换词的抽取处理。
在一个实施例中,缩略语替换方式为主题词抽取。关于上述步骤S18中,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取的过程,具体可以包括如下处理过程:
根据选定的主题词抽取模型分别获取复制后的每个句子的主题词列表;
分别在各主题词列表中从上到下开始搜索,若主题词列表中的词组在相应的句子内,则将词组放入相应句子对应的候选词集合中;
若各候选词集合中词组长度达到设定长度H,则停止搜索并分别输出各候选词集合中的各词组作为从各相应句子中抽取的各待替换词;H=[αl],其中,α表示随机替换比例,l表示句子的长度,[ ]表示取整。
可以理解,主题词抽取是指利用关键词抽取模型对关键词进行抽取。在实际应用中,缩略语常常作为主题词或专业名词等,是对在文章中多次出现的单词的简化表达,因此在主题词或是阅读理解等任务中可以采用主题词抽取方式。
通过上述主题词抽取,即可高效实现待替换词的抽取处理。
在一个实施例中,主题词抽取模型包括TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文本频率)模型、LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)模型、LSI(Latent Semantic Indexing,潜在语义索引)模型或NMF(Non-negative Matrix Factorization,非负矩阵分解)模型等主题词模型。
在一些实施方式中,具体操作过程可参见图4所示的示例:
Step1:确定主题词模型,获取整篇主题词列表。图4中,规范参数Parameters包括l=10、α=0.2和[αl]=2。
Step2:计算句子长度,确定α,计算[αl]。
Step3:从主题词列表中从上到下开始搜索,若词组在句子内则将词组放入候选词集合中,判断候选词集合中词组长度等于[αl],则停止操作。
具体的,TF-IDF是一种获取文本中各单词权重的统计方法,其核心思想为若某个单词在一篇文章中出现的频率很高,但在其他文件中出现频率较低,则说明该词或短语具有较强的区分能力。因此,TF(Term Frequency)表示词条(关键词)在文本中出现的频率,频率
Figure 979077DEST_PATH_IMAGE001
Figure 302742DEST_PATH_IMAGE002
(1)
其中,
Figure 613637DEST_PATH_IMAGE003
表示该词在文件
Figure 219235DEST_PATH_IMAGE004
中出现的次数,
Figure 440132DEST_PATH_IMAGE005
表示文件
Figure 715124DEST_PATH_IMAGE006
中所有词汇出现的次数总和。IDF(Inverse Document Frequency)则是指逆向文件频率,通常使用总文件数目除以包含该词语的文件数目,最后取对数。
Figure 513316DEST_PATH_IMAGE007
(2)
其中,
Figure 118741DEST_PATH_IMAGE008
表示语料库中的文件总数,
Figure 318778DEST_PATH_IMAGE009
表示包含词条
Figure 46562DEST_PATH_IMAGE010
的文件数目,为防止该词条不在语料库中,即出现分母为0的情况,因此,常需要在分母处加一个非零偏置
Figure 456684DEST_PATH_IMAGE011
,该值通常取1。
Figure 724854DEST_PATH_IMAGE012
(3)
TF-IDF打分通常是指TF值与IDF值的乘积,TF-IDF较为简单且容易实现,因此,有利于提升处理效率。
而LDA(Latent Dirichlet Allocation)是基于贝叶斯模型的主题词挑选模型,该模型认为一篇文档中的词之间的顺序可以随意互换,不影响建模过程;一个语料库内的文档可以随意互换顺序,文档的位置不影响建模过程,即文本模型的可互换性。
设主题个数为K,文章总数为T,文章单词组成的词典长度N,记数据集为
Figure 654764DEST_PATH_IMAGE013
,其中,
Figure 615767DEST_PATH_IMAGE014
表示数据集中的文章,
Figure 513185DEST_PATH_IMAGE015
表示不同的话题,其中每个向量的长度为N
Figure 585046DEST_PATH_IMAGE016
表示文档t中词n的词频。
Figure 635041DEST_PATH_IMAGE017
表示文档t中所包含的话题比例。其具体操作步骤如下:
Step1:根据参数α的狄利克雷分布随机采样一个话题分布
Figure 704629DEST_PATH_IMAGE018
Step2:根据
Figure 964709DEST_PATH_IMAGE019
进行话题指派,得到文档t中词n的话题
Figure 699315DEST_PATH_IMAGE020
Step3:根据指派的话题所对应的词频分布随机采样生成词。
狄利克雷分布的概率密度函数为:
Figure 994030DEST_PATH_IMAGE021
(4)
话题指派
Figure 172202DEST_PATH_IMAGE020
依赖于话题分布
Figure 857261DEST_PATH_IMAGE022
Figure 270925DEST_PATH_IMAGE022
依赖于狄利克雷分布的参数α,而话题词频则依赖参数
Figure 279201DEST_PATH_IMAGE023
。因此,LDA模型对应的概率分布为:
Figure 18487DEST_PATH_IMAGE024
(5)
其中,
Figure 862946DEST_PATH_IMAGE025
Figure 814722DEST_PATH_IMAGE026
通常分别设置为参数α
Figure 21712DEST_PATH_IMAGE023
K维和N维狄利克雷分布,例如:
Figure 56533DEST_PATH_IMAGE027
(6)
其中,
Figure 512922DEST_PATH_IMAGE028
表示Gamma(伽玛)函数。
Figure 471651DEST_PATH_IMAGE029
(7)
α
Figure 205252DEST_PATH_IMAGE030
参数可以根据(6)式确定。给定训练数据
Figure 20761DEST_PATH_IMAGE031
,LDA的模型参数可以通过极大似然估计,及寻找α
Figure 89080DEST_PATH_IMAGE032
的最大化似然。
Figure 851500DEST_PATH_IMAGE033
(8)
由于
Figure 829820DEST_PATH_IMAGE034
不易计算,因此(8)式难以求解,故在实际操作中常常采用变分法进行求解。对于α
Figure 426018DEST_PATH_IMAGE035
确定的情况,可根据
Figure 856999DEST_PATH_IMAGE036
判断文档集所对应的话题结构(即推断
Figure 157530DEST_PATH_IMAGE037
)可以通过求解:
Figure 114991DEST_PATH_IMAGE038
(9)
其中,
Figure 272303DEST_PATH_IMAGE039
难以求解,往往采用吉布斯采样或变分法进行近似推断。此外,LSI模型和NMF模型等主题词模型也可以用于候选集挑选,实际应用时可以根据具体任务进行选择。
在一个实施例中,缩略语替换方式为连续抽取。关于上述步骤S18中,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取的过程,具体可以包括如下处理过程:
根据选定的词组抽取模型,分别获取复制后的每个句子的词组并放入各句子相应的候选词集合中;
若各候选词集合中词组长度达到长度l p ,则停止词组抽取并分别选取各候选词集合中的num个词组作为从各相应句子中抽取的各待替换词;num=min([αl]/3,l p ),其中,α表示随机替换比例,l表示句子的长度,[ ]表示取整。
可以理解,连续抽取是指连续抽取词组进行首字母组合后替换,此方法与实际缩略语生成任务最为相似,因此,本实施例可以优先应用于缩略语研究相关的任务,如缩略语识别以及缩略语澄清等。连续抽取与主题词抽取步骤类似,但连续抽取会将词组的首字母组合成一个新的单词,而主题词抽取则是保持独立的字母。因此,使用连续抽取方式时,往往需要选择使用词组提取的方式。现有常用的短语提取库包括NLTK(Natural LanguageToolkit,自然语言处理工具库)以及HanLP(Han Language Processing,汉语言处理库)等。
具体的,可记句子O提取的短语候选词集合为
Figure 393843DEST_PATH_IMAGE040
,候选词集合长度为l p ,则共计选取
Figure 170169DEST_PATH_IMAGE041
个词组,进行组合替换,即将词组各单词首字母合并成一个新的单词替换原有词组。
在一个实施例中,缩略语替换方式为连续抽取。关于上述步骤S18中,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取的过程,或者具体可以包括如下处理过程:
根据选定的词组字典,利用随机函数分别生成复制后每个句子的词组的随机分数;
根据词组字典和随机分数,分别获取复制后每个句子的词典词组并放入各句子相应的候选词集合中;
若各候选词集合中词组长度达到长度l p ,则停止词组抽取并分别选取各候选词集合中的num个词组作为从各相应句子中抽取的各待替换词;num=min([αl]/3,l p ),其中,α表示随机替换比例,l表示句子的长度,[ ]表示取整。
具体的,如图具体操作过程可参见图5所示的示例:
Step1:选定词组抽取模型或是借助现有常见词组字典;图5中,规范参数Parameters包括l=10、α=0.2和[αl]=2。
Step2:挑选句子中的常见词典,若是采用词组抽取模型,则直接根据现有打分进行抽取,若是采取现有词组字典,则需借助随机函数生成随机分数而进行抽取。
通过上述连续抽取,即可高效实现待替换词的抽取处理。
应该理解的是,虽然图1和图2流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1和图2的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,为了更直观且全面地说明上述文本数据增强方法,下面是应用上述文本数据增强方法,选用smss pam collection垃圾短信分类公开的数据集进行实验案例。需要说明的是,本说明书中给出的实验案例仅为示意性的,并非为本发明具体实施案例的唯一限定,本领域技术人员可以在本发明提供的实施案例的示意下,同理实现对不同数据集的快速增强处理。
采用传统适用于序列数据的长短时记忆网络模型(LSTM)进行实验,LSTM解决了递归神经网络(RNN)处理长期记忆时的缺陷问题。本实验案例分别选取500条数据、1000条数据、2000条数据以及全部原始数据集进行对比实验,分别评估原始数据以及增加了随机抽取数据增强方式的准确率。其结果如表1所示。
表1
Figure 857502DEST_PATH_IMAGE042
其中,OR表示仅使用原始数据,而OR+DA表示使用本申请的上述文本数据增强方法,在本案例中α= 0.1,N = 4。更直观的展示可以参见图6,在相同参数的情况下,使用本申请的上述文本数据增强方法能够有效提升模型的性能。
请参阅图7,在一个实施例中,还提供了一种文本数据增强装置100,包括数据获取模块13、句子扩展模块15、比例确定模块17、替换抽取模块19、替换扩充模块21和合并增强模块23。其中,数据获取模块13用于获取待处理的原始数据集。句子扩展模块15用于确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份;N为正整数。比例确定模块17用于分别根据每个句子的长度确定每个句子的随机替换比例。替换抽取模块19用于根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取。替换扩充模块21用于分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集。合并增强模块23用于将原始数据集与扩充数据集合并得到增强数据集。
上述文本数据增强装置100,通过各模块的协作,将原始数据集中的句子复制扩展后,利用选取的缩略语替换方式根据确定的随机替换比例对复制后的每个句子进行待替换词抽取,进而分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集,最后将原始数据集与扩充数据集合并得到增强数据集,实现文本数据的增强目的。如此,基于缩略语生成方式的文本数据增强,能够有效地显著提升机器学习模型在小数据集上的性能,推进自然语言处理在相关任务数据少、获取困难的领域的应用。此外,上述方案无需借助额外设计的语言模型或是额外输入的数据,操作简单且有效;不仅可以适用于传统的自然语言处理任务,同时也能为缩略语研究任务,如缩略语识别和缩略语澄清等提供有效参考。
在一个实施例中,上述文本数据增强装置100的各模块,还可以用于实现上述文本数据增强方法各实施例中其他的相应子步骤。
关于文本数据增强装置100的具体限定,可以参见上文中文本数据增强方法的相应限定,在此不再赘述。上述文本数据增强装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型计算机设备或微处理模块。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取待处理的原始数据集;确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份;N为正整数;分别根据每个句子的长度确定每个句子的随机替换比例;根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取;分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集;将原始数据集与扩充数据集合并得到增强数据集。
在一个实施例中,处理器执行计算机程序时还可以实现上述文本数据增强方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理的原始数据集;确定原始数据集中每个句子的扩展数量N,根据扩展数量N将每个句子复制N份;N为正整数;分别根据每个句子的长度确定每个句子的随机替换比例;根据任务选取设定的缩略语替换方式,分别利用选取的缩略语替换方式根据随机替换比例对复制后的每个句子进行待替换词抽取;缩略语替换方式包括随机抽取、主题词抽取或连续抽取;分别利用每个句子的待替换词的首字母替换各对应的待替换词,得到扩充数据集;将原始数据集与扩充数据集合并得到增强数据集。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述文本数据增强方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本数据增强方法,其特征在于,包括步骤:
获取待处理的原始数据集;
确定所述原始数据集中每个句子的扩展数量N,根据所述扩展数量N将每个句子复制N份;N为正整数;
分别根据每个句子的长度确定每个句子的随机替换比例;
根据任务选取设定的缩略语替换方式,分别利用选取的所述缩略语替换方式根据所述随机替换比例对复制后的每个句子进行待替换词抽取;所述缩略语替换方式包括随机抽取、主题词抽取或连续抽取;
分别利用每个句子的所述待替换词的首字母替换各对应的所述待替换词,得到扩充数据集;
将所述原始数据集与所述扩充数据集合并得到增强数据集。
2.根据权利要求1所述的文本数据增强方法,其特征在于,所述缩略语替换方式为随机抽取;
分别利用选取的所述缩略语替换方式根据所述随机替换比例对复制后的每个句子进行待替换词抽取的过程,包括:
获取所述原始数据集的停用词表,根据所述停用词表确定复制后的每个句子中的停用词;
分别对复制后的每个句子中的非停用词进行打分并排序;
分别根据复制后的每个句子的长度和所述随机替换比例,按照得分从高到低的顺序选取复制后的每个句子中前H个候选词作为所述待替换词;H=[αl],其中,α表示所述随机替换比例,l表示句子的长度,[ ]表示取整。
3.根据权利要求1所述的文本数据增强方法,其特征在于,所述缩略语替换方式为主题词抽取;
分别利用选取的所述缩略语替换方式根据所述随机替换比例对复制后的每个句子进行待替换词抽取的过程,包括:
根据选定的主题词抽取模型分别获取复制后的每个句子的主题词列表;
分别在各所述主题词列表中从上到下开始搜索,若所述主题词列表中的词组在相应的句子内,则将所述词组放入相应句子对应的候选词集合中;
若各所述候选词集合中词组长度达到设定长度H,则停止搜索并分别输出各所述候选词集合中的各词组作为从各相应句子中抽取的各所述待替换词;H=[αl],其中,α表示所述随机替换比例,l表示句子的长度,[ ]表示取整。
4.根据权利要求1或3所述的文本数据增强方法,其特征在于,主题词抽取采用的主题词抽取模型包括TF-IDF模型、LDA模型、LSI模型或NMF模型。
5.根据权利要求1所述的文本数据增强方法,其特征在于,所述缩略语替换方式为连续抽取;
分别利用选取的所述缩略语替换方式根据所述随机替换比例对复制后的每个句子进行待替换词抽取的过程,包括:
根据选定的词组抽取模型,分别获取复制后的每个句子的词组并放入各句子相应的候选词集合中;
若各所述候选词集合中词组长度达到长度l p ,则停止词组抽取并分别选取各所述候选词集合中的num个词组作为从各相应句子中抽取的各所述待替换词;num=min([αl]/3,l p ),其中,α表示所述随机替换比例,l表示句子的长度,[ ]表示取整。
6.根据权利要求1所述的文本数据增强方法,其特征在于,所述缩略语替换方式为连续抽取;
分别利用选取的所述缩略语替换方式根据所述随机替换比例对复制后的每个句子进行待替换词抽取的过程,包括:
根据选定的词组字典,利用随机函数分别生成复制后每个句子的词组的随机分数;
根据所述词组字典和所述随机分数,分别获取复制后每个句子的词典词组并放入各句子相应的候选词集合中;
若各所述候选词集合中词组长度达到长度l p ,则停止词组抽取并分别选取各所述候选词集合中的num个词组作为从各相应句子中抽取的各所述待替换词;num=min([αl]/3,l p ),其中,α表示所述随机替换比例,l表示句子的长度,[ ]表示取整。
7.根据权利要求5或6所述的文本数据增强方法,其特征在于,分别利用每个句子的所述待替换词的首字母替换各对应的所述待替换词的过程,包括:
分别将每个句子的各所述待替换词的首字母拼接成新的词汇后,利用新的词汇替换各对应的所述待替换词。
8.一种文本数据增强装置,其特征在于,包括:
数据获取模块,用于获取待处理的原始数据集;
句子扩展模块,用于确定所述原始数据集中每个句子的扩展数量N,根据所述扩展数量N将每个句子复制N份;N为正整数;
比例确定模块,用于分别根据每个句子的长度确定每个句子的随机替换比例;
替换抽取模块,用于根据任务选取设定的缩略语替换方式,分别利用选取的所述缩略语替换方式根据所述随机替换比例对复制后的每个句子进行待替换词抽取;所述缩略语替换方式包括随机抽取、主题词抽取或连续抽取;
替换扩充模块,用于分别利用每个句子的所述待替换词的首字母替换各对应的所述待替换词,得到扩充数据集;
合并增强模块,用于将所述原始数据集与所述扩充数据集合并得到增强数据集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述文本数据增强方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至7中任一项所述文本数据增强方法的步骤。
CN202111103308.5A 2021-09-22 2021-09-22 文本数据增强方法、装置、设备和介质 Active CN113553806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111103308.5A CN113553806B (zh) 2021-09-22 2021-09-22 文本数据增强方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111103308.5A CN113553806B (zh) 2021-09-22 2021-09-22 文本数据增强方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113553806A true CN113553806A (zh) 2021-10-26
CN113553806B CN113553806B (zh) 2021-11-19

Family

ID=78106429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111103308.5A Active CN113553806B (zh) 2021-09-22 2021-09-22 文本数据增强方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113553806B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114637824A (zh) * 2022-03-18 2022-06-17 马上消费金融股份有限公司 数据增强处理方法及装置
CN116414965A (zh) * 2023-05-25 2023-07-11 北京聆心智能科技有限公司 初始对话内容生成方法、装置、介质和计算设备
WO2023159758A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质
CN117094330A (zh) * 2023-07-17 2023-11-21 四川语言桥信息技术有限公司 一种根据向量表示生成的提升机翻鲁棒性增强数据的方法、装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180109408A (ko) * 2017-03-28 2018-10-08 주식회사 와이즈넛 언어 판별 장치 및 방법
US20200272692A1 (en) * 2019-02-26 2020-08-27 Greyb Research Private Limited Method, system, and device for creating patent document summaries
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法
CN112686047A (zh) * 2021-01-21 2021-04-20 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN113361278A (zh) * 2021-06-21 2021-09-07 中国人民解放军国防科技大学 一种基于数据增强与主动学习的小样本命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180109408A (ko) * 2017-03-28 2018-10-08 주식회사 와이즈넛 언어 판별 장치 및 방법
US20200272692A1 (en) * 2019-02-26 2020-08-27 Greyb Research Private Limited Method, system, and device for creating patent document summaries
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法
CN112686047A (zh) * 2021-01-21 2021-04-20 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN113361278A (zh) * 2021-06-21 2021-09-07 中国人民解放军国防科技大学 一种基于数据增强与主动学习的小样本命名实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CAROLINE SABTY: ""Data Augmentation Techniques on Arabic Data for Named Entity Recognition"", 《PROCEDIA COMPUTER SCIENCE》 *
CLAUDE COULOMBE: ""Text data augmentation made simple by leveraging nlp cloud apis"", 《COMPUTATION AND LANGUAGE》 *
JASON WEI, KAI ZOU: ""EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks"", 《COMPUTATION AND LANGUAGE》 *
徐书豪: ""句子级的对话情感分析研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023159758A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质
CN114637824A (zh) * 2022-03-18 2022-06-17 马上消费金融股份有限公司 数据增强处理方法及装置
CN114637824B (zh) * 2022-03-18 2023-12-01 马上消费金融股份有限公司 数据增强处理方法及装置
CN116414965A (zh) * 2023-05-25 2023-07-11 北京聆心智能科技有限公司 初始对话内容生成方法、装置、介质和计算设备
CN116414965B (zh) * 2023-05-25 2023-08-22 北京聆心智能科技有限公司 初始对话内容生成方法、装置、介质和计算设备
CN117094330A (zh) * 2023-07-17 2023-11-21 四川语言桥信息技术有限公司 一种根据向量表示生成的提升机翻鲁棒性增强数据的方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN113553806B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113553806B (zh) 文本数据增强方法、装置、设备和介质
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及系统
CN109918657B (zh) 一种从文本中提取目标关键词的方法
CN109165380B (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
Kaur et al. Punjabi poetry classification: the test of 10 machine learning algorithms
JPH06110948A (ja) 文献を識別し、検索し、分類する方法
Shini et al. Recurrent neural network based text summarization techniques by word sequence generation
Ranjan et al. A comparative study on code-mixed data of Indian social media vs formal text
CN112612892B (zh) 一种专有领域语料模型构建方法、计算机设备及存储介质
Pirovani et al. Portuguese named entity recognition using conditional random fields and local grammars
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
Amalia et al. An efficient text classification using fasttext for bahasa indonesia documents classification
Pirovani et al. Adapting NER (CRF+ LG) for Many Textual Genres.
Zhang et al. Supervised hierarchical Dirichlet processes with variational inference
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
Pirovani et al. Studying the adaptation of Portuguese NER for different textual genres
Madatov et al. Uzbek text summarization based on TF-IDF
CN114139537A (zh) 词向量的生成方法及装置
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
Wongchaisuwat Automatic keyword extraction using textrank
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
CN115329783A (zh) 一种基于跨语言预训练模型的藏汉神经机器翻译方法
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
CN115066679B (zh) 一种提取专业领域内的自造术语的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant