CN113779959B - 小样本文本数据混合增强方法 - Google Patents

小样本文本数据混合增强方法 Download PDF

Info

Publication number
CN113779959B
CN113779959B CN202111011031.3A CN202111011031A CN113779959B CN 113779959 B CN113779959 B CN 113779959B CN 202111011031 A CN202111011031 A CN 202111011031A CN 113779959 B CN113779959 B CN 113779959B
Authority
CN
China
Prior art keywords
text data
text
word
enhancement
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111011031.3A
Other languages
English (en)
Other versions
CN113779959A (zh
Inventor
代翔
廖泓舟
潘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN202111011031.3A priority Critical patent/CN113779959B/zh
Publication of CN113779959A publication Critical patent/CN113779959A/zh
Application granted granted Critical
Publication of CN113779959B publication Critical patent/CN113779959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的一种小样本文本数据混合增强方法,简洁、完备、自适应强。本发明通过下述技术方案实现:基于文本数据增强目标,将原始文本分为长文本数据和短文本数据,自动分开区分处理,对长文本数据进行同义词替换、随机插入、随机交换和随机删除,对不同长度的文本自动适配,对短文本数据进行回译增强,统计分析文本数据样本长度分布,将数据样本分布细分为更细粒度的组并进行掩码预测或预训练;将每个文本数据样本归类到不同的组,对不同组的文本数据样本,按组设置不同的掩码概率,通过降噪自编码过程进行掩码预测,实现文本数据二次增强;根据小样本数量生成批量增强文本,实现小样本文本数据混合增强。提高文本增强数量,同时保证增强质量。

Description

小样本文本数据混合增强方法
技术领域
本发明是关于人工智能、自然语言处理等诸多信息处理领域,主要用于文本分类的数据增强技术,特别是涉及文本数据综合增强技术。
背景技术
数据增强,即通过转换为机器学习人工创建训练数据,是跨机器学习学科广泛研究的研究领域。它不仅对于提高模型的泛化能力很有用,也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制用于保护隐私的数据量。数据增强指借助辅助数据或辅助信息,对原有的小样本数据集进行数据扩充或特征增强.数据扩充是向原有数据集添加新的数据,可以是无标签数据或者合成的带标签数据;特征增强是在原样本的特征空间中添加便于分类的特征,增加特征多样性。训练数据的增加并不总是导致学习问题的解决方案。尽管如此,数据对于监督分类器的质量仍然是决定性的。计算机视觉领域中就存在着许多不同的方法来人工创建此类数据,称为数据增强。数据增强有助于实现许多目标,包括正则化、最小化标签工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及提高对抗对抗性攻击的鲁棒性。在高层次上,数据增强方法分为应用于特征空间和数据空间的方法。然后将这些方法细分为更细粒度的组,从噪声诱导到全新实例的生成。文本数据增强有许多对比形式,相比之下,自然语言处理(NLP)中的数据增强研究难以为文本数据的转换建立通用的可以在保持标签质量的同时自动执行规则。由于迁移学习的兴起,这些方法面临着另一个挑战。例如,许多数据增强方法在使用大型预训练语言模型时无法获得收益,因为它们本身已经对各种变换保持不变。随着迁移学习方法的使用越来越多,一些数据增强方法已经过时,因为它们遵循类似的目标。此外,就像Shorten和Khoshgoftaar描述的那样,数据增强无法涵盖所有转换可能性并消除原始数据中的所有类型的偏差。各种各样的技术和一些非常复杂的方法也带来了另一层需要理解的复杂性。此外,数据增强可能需要大量时间,因此并非所有方法都适用于时间关键的机器学习开发领域,例如,在危机信息学的某些领域。随着数据增强,也需要更多资源,尤其是在训练生成模型的背景下。当前的有监督的深度学习模型,如果想获得高性能,需要依赖于大量的标注训练数据。然后,在实际上项目中,往往存在训练样本少、标注数据成本高等情况。在这种情况下,我们就需要用到文本数据增强技术。
随着近些年来深度学习的发展,基于深度神经网络的分类器在有充足标签样本为训练数据的前提下可以达到很高的准确度。深度神经网络的分类器往往在一些场景下,有标签的数据难以收集或者获取这些数据成本高昂,费时费力。当数据不足时,神经网络很难稳定训练并且泛化能力较弱。由于深度学习模型框架的结构越来越复杂,网络越来越深。参数量的增加意味着训练模型需要更多的数据。然而人工标注数据的成本是高昂的,且受客观原因所限,实际应用时可能难以获得特定领域的数据,数据不足问题非常常见。如何在小规模数据集上有效的训练神经网络成为当下的一个研究热点,其中数据增强是解决小样本数据训练的重要途径。比如从句子中随机选择一个非停用词,然后随机选择该词的一个同义词。将该同义词插入到句子中的随机位置。此过程重复n次。句子中的每个词,以概率p进行随机删除。长句子相对于短句子,存在一个特性:长句比短句有更多的词,因此在保持原有的类别标签的情况下,长句能吸收更多的噪声。为了利用这个特性,EDA的作者提出一个方法:基于句子长度来调整需要改变的词数。具体实现:对同义词替换、随机插入和随机交换,遵循公式:n=α*ln=\alpha*ln=α*l,其中,l表示句子长度,α\alphaα表示一个句子中需要改变的词数的比例。对随机删除,遵循公式:p=αp=\alphap=α。另外,每个原始句子,生成n augn_{aug}naug个增强的句子。在之前对yolov3的学习中,有时候发现小样本数据集容易出现过拟合或者泛化能力不强的问题。由于EDA在进行数据增强操作的过程中,有可能会改变句子原来的意思,但是仍然保留原始的类别标签,从而产生了标签错误的句子。所以EDA存在降低模型性能的可能。
图像数据增强是数据增强技术一个很成熟的技术领域,通过对图像的翻转、旋转、镜像、高斯白噪声等技巧实现数据增强。对图像数据的增强不仅方法多种多样,各种各样的方法被提出,比如简单的旋转、翻折以及对抗神经网络等等。文本数据增强不同于图像领域的数据增强,因为文本是离散的,而图像是属于连续空间的。文本数据相比图像数据,语义信息更为丰富,图像本身具有特征平移不变形,而文本数据是上下文紧密联系的时序数据,数据增强需要考虑上下文关系,因此文本数据增强更为复杂,实际应用上缺乏完整的增强方法。相较于图像数据增强,文本数据分析能够有效帮助我们理解数据语料,快速检查出语料可能存在的问题,并指导之后模型训练过程中一些超参数的选择。但是文本数据增强现在还是有很多问题的。由于文本类别比较多,并且有部分类别数据量比较少,这将会影响算法的拟合。往更严格的角度看,文本数据增强更像是同义句生成,但又不完全是,它是一个更大范围的概念。很多时候,需要文本数据增强,一个是常常遇到的数据不足,另一个就是数据不均衡。现有小样本学习模型都是单一使用数据增强或迁移学习的方法,很多方法大多是利用辅助数据来增强样本空间,除此之外还可通过增强样本特征空间来提高样本多样性,因为小样本学习的一个关键是如何得到一个泛化性好的特征提取器。现有的数据生成方法的不足之处在于:1.没有捕捉到复杂的数据分布。2.不能泛化到小样本类别。3.生成的特征不具有可解释性。
发明内容
为进一步提高小样本文本数据的数量和质量,本发明针对现有应用中文本增强方法不完整的问题,提供一种简洁、完备、自适应强,比较稳定且有效的小样本文本数据混合增强方法,有利于后续文本分类等下游任务。
为达到上述的目的,本发明提供一种小样本文本数据混合增强方法,其特征在于包括如下步骤:基于文本数据增强目标,首先,将原始文本数据分为长文本数据和短文本数据,自动分开区分处理,对长文本数据进行同义词替换、随机插入、随机交换和随机删除增强,对不同长度的文本自动适配,同时对短文本数据进行回译增强;统计分析文本数据样本长度分布,将数据样本分布细分为更细粒度的组并进行掩码预测或预训练;将每个文本数据样本归类到不同的组,对不同组的文本数据样本,按组设置不同的掩码概率,通过降噪自编码过程进行掩码预测,实现文本数据二次增强文本数据,根据小样本数量生成批量增强文本,实现小样本文本数据混合增强。
本发明相比于现有技术具有如下显著优点:简洁性,本发明本发明针对长文本和短文本由于文本长度不同,同一增强方法往往在两种文本上的效果差异比较大的问题,基于文本数据增强目标,首先,将原始文本数据分为长文本数据和短文本数据,自动分开区分处理,提高了自适应性。然后,针对长文本数据进行同义词替换、随机插入、随机交换、随机删除增强,针对短文本数据进行回译增强;然后分析数据样本分布,细分为更细粒度的组并进行掩码预测或预训练,实现原理简单,易于工程实现,文本增强相关技术稳定可控,效果满足一般工程应用需求;比较稳定且有效。本发明为每个文本数据样本归类到不同的组,按组设置掩码概率,这样做的好处是长短文本都能更大程度学会上下文语义关系,减少训练过程与预测过程的偏移,比较稳定且有效。
完备性,本发明通过回译、掩码预测等多种方法综合增强,可以建立一套完整的文本数据增强流程,既提高小样本数量,又保证增强的质量,便于神经网络模型得到更充分的训练,提高文本分类等下游任务的性能。能通过多种增强方法进行混合增强,提高文本增强数量,同时保证增强质量。相比单一增强方法更为完备,增强质量更好。
本发明针对长短文本分别采取不同的方式增强文本数据,再通过掩码预测的方法进行二次增强,实现文本数据二次增强,生成批量增强文本,提高鲁棒性,实现了小样本文本数据混合增强,将直接提高后续文本分类等下游任务的性能,具有强大的性能,可达到Mask R-CNN同等的准确性,且在准确性方面优于最近的singleshot实例分割算法。
附图说明
为了更清楚地理解本发明,以下结合附图及实施例,对本发明进行进一步详细说明,同时参照附图,来描述本发明,其中:
图1是本发明小样本文本数据混合增强方法原理流程图。
图2是图1同义词替换实现原理示意图;
图3是图1长文本数据增强随机插入原理示意图;
图4是图1长文本数据增强随机交换原理示意图;
图5是图1长文本数据增强随机删除原理示意图;
图6是图1短文本数据增强原理示意图;
图7是图1掩码预测原理示意图。
具体实施方式
参阅图1。根据本发明,基于文本数据增强目标,首先,将原始文本数据分为长文本数据和短文本数据,自动分开区分处理,对长文本数据进行同义词替换、随机插入、随机交换和随机删除增强,对不同长度的文本自动适配,同时对短文本数据进行回译增强;统计分析文本数据样本长度分布,将数据样本分布细分为更细粒度的组并进行掩码预测或预训练;将每个文本数据样本归类到不同的组,对不同组的文本数据样本,按组设置不同的掩码概率,通过降噪自编码过程进行掩码预测,实现文本数据二次增强文本数据,根据小样本数量生成批量增强文本,实现小样本文本数据混合增强。
在以下可选的实施例中:
参阅图2。在分为长文本和短文本两类的原始文本数据中,选择待增强文本,对长文本数据进行同义词替换,设置替换比例,采用Jieba分词工具包进行Jieba分词,基于哈工大停用词表进行词图扫描,过滤停用词操作,过滤掉相同的词,打乱文本词的顺序,选择一个词,基于Synonym同义词库工具包进行同义词查找,对查找到的同义词进行随机选择,任
选一个同义词替换当前被选中的词,判断当前替换比例是否满足要求,如果满足则同义词替换完成,如果不满足,则重新选择一个新的词进行同义词查找并进行替换,直到满足替换比例要求。
参阅图3。选择待增强文本,设置插入比例,通过Jieba分词工具包进行Jieba分词,随机选择一个文本词,使用Synonym同义词库进行同义词查找并从结果中随机选择一个同义词,然后在原文本中随机选择一个插入点,将选择的同义词进行插入。判断当前插入比例是否满足要求,如果满足则随机插入完成,如果不满足,则重新选择一个文本词,进行同义词查找,随机选择同义词,随机选择插入点进行同义词插入,直到满足插入比例要求。
参阅图4。选择待增强文本,设置交换比例,通过Jieba分词工具包进行Jieba分词,然后随机选择词1和词2,判断词2是否被选择超过3次,如果词2被选择超过3次,则此次不进行随机交换,如果词2被选择不超过3次,则继续判断词1和词2是否相同,如果相同则重新选择词2,如果不相同,则将词1和词2进行位置交换。判断当前交换比例是否满足要求,如果不满足,则重新随机选择词1和词2进行随机交换,直到满足随机交换比例要求。
参阅图5。选择待增强文本,设置删除比例,通过Jieba分词工具包进行Jieba分词,然后随机选择一个词,同时随机产生一个0到1之间的随机数,判断随机数是否大于设定的删除比例,如果是则将选中的词进行删除,否则不进行删除,随机删除完成。
参阅图6。选择原始中文文本,设置回译次数,基于机器翻译语言模型将中文语言翻译为其它种类的语言,从其它种类的语言翻译转为中文,达到一次回译效果,然后判断当前回译次数是否满足设定的次数,如果满足,则直接输出增强后的中文文本,如果不满足设定的次数,则进行中文到多语言,然后多语言到中文的回译过程,直至回译次数达到要求后输出增强后的中文文本。
参阅图7。选择原始文本数据,使用自然语言处理工具包(LTP)先后进行文本分句、文本分词、词性标注、命名实体识别操作,获取文本人名、地名、组织名等实体,设置掩码预测比例和文本增强倍数;然后,选择一个文本句,选择句中任意一个命名实体,基于XLM-Roberta预训练模型对选中的命名实体进行掩码操作并进行实体预测,使用预测值进行实体替换,替换掩码的实体后,判断掩码预测比例是否满足要求,如果预测比例满足要求,则输出增强文本,然后判断文本增强倍数是否满足要求,如果满足增强倍数要求,则完成文本批量增强;如果预测比例不满足要求,则重新任意选择命名实体并重复以上掩码预测替换操作;如果增强倍数不满足要求,则重新选择文本句并重复以上掩码预测替换操作,直至满足增强倍数要求,完成文本批量增强。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种小样本文本数据混合增强方法,其特征在于包括如下步骤:基于文本数据增强目标,首先,将原始文本数据分为长文本数据和短文本数据,自动分开区分处理,对长文本数据进行同义词替换、随机插入、随机交换和随机删除,对不同长度的文本自动适配,同时对短文本数据进行回译增强;统计分析文本数据样本长度分布,将数据样本分布细分为更细粒度的组并进行掩码预测或预训练;将每个文本数据样本归类到不同的组,对不同组的文本数据样本,按组设置不同的掩码概率,通过降噪自编码过程进行掩码预测,二次增强文本数据,根据小样本数量生成批量增强文本,实现小样本文本数据混合增强。
2.如权利要求1所述的小样本文本数据混合增强方法,其特征在于:在分为长文本和短文本两类的原始文本数据中,选择待增强文本,对长文本数据进行同义词替换,设置替换比例,采用Jieba分词工具包进行Jieba分词,基于哈工大停用词表进行词图扫描,过滤停用词操作,过滤掉相同的词。
3.如权利要求2所述的小样本文本数据混合增强方法,其特征在于:打乱文本词的顺序,选择一个词,基于Synonym同义词库工具包进行同义词查找,对查找到的同义词进行随机选择,任选一个同义词替换当前被选中的词,判断当前替换比例是否满足要求,如果满足则同义词替换完成,如果不满足,则重新选择一个新的词进行同义词查找并进行替换,直到满足替换比例要求。
4.如权利要求1所述的小样本文本数据混合增强方法,其特征在于:选择待增强文本,设置插入比例,通过Jieba分词工具包进行Jieba分词,随机选择一个文本词,使用Synonym同义词库进行同义词查找并从结果中随机选择一个同义词,然后在原文本中随机选择一个插入点,将选择的同义词进行插入;判断当前插入比例是否满足要求,如果满足则随机插入完成,如果不满足,则重新选择一个文本词,进行同义词查找,随机选择同义词,随机选择插入点进行同义词插入,直到满足插入比例要求。
5.如权利要求1所述的小样本文本数据混合增强方法,其特征在于:选择待增强文本,设置交换比例,通过Jieba分词工具包进行Jieba分词,然后随机选择词1和词2,判断词2是否被选择超过3次,如果词2被选择超过3次,则此次不进行随机交换,如果词2被选择不超过3次,则继续判断词1和词2是否相同,如果相同则重新选择词2,如果不相同,则将词1和词2进行位置交换。
6.如权利要求5所述的小样本文本数据混合增强方法,其特征在于:判断当前交换比例是否满足要求,如果不满足,则重新随机选择词1和词2进行随机交换,直到满足随机交换比例要求。
7.如权利要求1所述的小样本文本数据混合增强方法,其特征在于:选择待增强文本,设置删除比例,通过Jieba分词工具包进行Jieba分词,然后随机选择一个词,同时随机产生一个0到1之间的随机数,判断随机数是否大于设定的删除比例,如果是则将选中的词进行删除,否则不进行删除,随机删除完成。
8.如权利要求1所述的小样本文本数据混合增强方法,其特征在于:选择原始中文文本,设置回译次数,基于机器翻译语言模型将中文语言翻译为其它种类的语言,从其它种类的语言翻译转为中文,达到一次回译效果,然后判断当前回译次数是否满足设定的次数,如果满足,则直接输出增强后的中文文本,如果不满足设定的次数,则进行中文到多语言,然后多语言到中文的回译过程,直至回译次数达到要求后输出增强后的中文文本。
9.如权利要求1所述的小样本文本数据混合增强方法,其特征在于:选择原始文本数据,使用自然语言处理工具包LTP先后进行文本分句、文本分词、词性标注、命名实体识别操作,获取文本人名、地名、组织名等实体,设置掩码预测比例和文本增强倍数;然后,选择一个文本句,选择句中任意一个命名实体,基于XLM-Roberta预训练模型对选中的命名实体进行掩码操作并进行实体预测,使用预测值进行实体替换。
10.如权利要求9所述的小样本文本数据混合增强方法,其特征在于:替换掩码的实体后,判断掩码预测比例是否满足要求,如果预测比例满足要求,则输出增强文本,然后判断文本增强倍数是否满足要求,如果满足增强倍数要求,则完成文本批量增强;如果预测比例不满足要求,则重新任意选择命名实体并重复以上掩码预测替换操作;如果增强倍数不满足要求,则重新选择文本句并重复以上掩码预测替换操作,直至满足增强倍数要求,完成文本批量增强。
CN202111011031.3A 2021-08-31 2021-08-31 小样本文本数据混合增强方法 Active CN113779959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111011031.3A CN113779959B (zh) 2021-08-31 2021-08-31 小样本文本数据混合增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111011031.3A CN113779959B (zh) 2021-08-31 2021-08-31 小样本文本数据混合增强方法

Publications (2)

Publication Number Publication Date
CN113779959A CN113779959A (zh) 2021-12-10
CN113779959B true CN113779959B (zh) 2023-06-06

Family

ID=78840227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111011031.3A Active CN113779959B (zh) 2021-08-31 2021-08-31 小样本文本数据混合增强方法

Country Status (1)

Country Link
CN (1) CN113779959B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723073B (zh) * 2022-06-07 2023-09-05 阿里健康科技(杭州)有限公司 语言模型预训练、产品搜索方法、装置以及计算机设备
CN116341556A (zh) * 2023-05-29 2023-06-27 浙江工业大学 基于数据增强的小样本康复医疗命名实体识别方法与装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324744A (zh) * 2020-02-17 2020-06-23 中山大学 一种基于目标情感分析数据集的数据增强方法
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3249547A1 (en) * 2016-05-27 2017-11-29 Accenture Global Solutions Limited Generating test data from samples using natural language processing and structure-based pattern determination
CN107784112B (zh) * 2017-11-06 2020-03-03 广州赛宝认证中心服务有限公司 短文本数据增强方法、系统及检测认证服务平台
CN109508378B (zh) * 2018-11-26 2023-07-14 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN109726404B (zh) * 2018-12-29 2023-11-10 安徽省泰岳祥升软件有限公司 端到端模型的训练数据增强方法、装置及介质
CN110222707A (zh) * 2019-04-28 2019-09-10 平安科技(深圳)有限公司 一种文本数据增强方法及装置、电子设备
CN110222190A (zh) * 2019-06-20 2019-09-10 网易(杭州)网络有限公司 数据增强方法、系统、设备及计算机可读存储介质
CN111104510B (zh) * 2019-11-15 2023-05-09 南京中新赛克科技有限责任公司 一种基于词嵌入的文本分类训练样本扩充方法
CN111291560B (zh) * 2020-03-06 2023-05-23 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111611790B (zh) * 2020-04-13 2022-09-16 华为技术有限公司 数据处理的方法与装置
CN111859857B (zh) * 2020-06-30 2021-08-27 上海森亿医疗科技有限公司 基于标注文本的训练数据集生成方法、系统、设备和介质
CN111950264B (zh) * 2020-08-05 2024-04-26 广东工业大学 文本数据增强方法及知识元抽取方法
CN112906397B (zh) * 2021-04-06 2021-11-19 南通大学 一种短文本实体消歧方法
CN113297355A (zh) * 2021-06-29 2021-08-24 中国平安人寿保险股份有限公司 基于对抗插值序列标注数据增强方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324744A (zh) * 2020-02-17 2020-06-23 中山大学 一种基于目标情感分析数据集的数据增强方法
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Also Published As

Publication number Publication date
CN113779959A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
US20170286835A1 (en) Concept Hierarchies
CN113779959B (zh) 小样本文本数据混合增强方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN111046179A (zh) 一种面向特定领域开放网络问句的文本分类方法
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
Freitag Trained named entity recognition using distributional clusters
CN114840677B (zh) 面向多粒度需求的短文本分类与智能分析方法
Patel et al. Dynamic lexicon generation for natural scene images
Frinken et al. A novel word spotting algorithm using bidirectional long short-term memory neural networks
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN113297842A (zh) 文本数据增强方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
Zhang et al. Enhancing keyphrase extraction from microblogs using human reading time
Dowlagar et al. A survey of recent neural network models on code-mixed indian hate speech data
CN106598952A (zh) 基于卷积神经网络的中文模糊限制信息范围检测系统
CN112231476B (zh) 一种改进的图神经网络科技文献大数据分类方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
Oh et al. Bilingual co-training for monolingual hyponymy-relation acquisition
CN112990388B (zh) 基于概念词的文本聚类方法
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
Biadgligne et al. Offline corpus augmentation for english-amharic machine translation
CN114722153A (zh) 一种意图分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant