CN114970516A - 数据增强方法及装置、存储介质、电子设备 - Google Patents

数据增强方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN114970516A
CN114970516A CN202210699684.3A CN202210699684A CN114970516A CN 114970516 A CN114970516 A CN 114970516A CN 202210699684 A CN202210699684 A CN 202210699684A CN 114970516 A CN114970516 A CN 114970516A
Authority
CN
China
Prior art keywords
text
enhanced
sequence
speech
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210699684.3A
Other languages
English (en)
Inventor
张旸
张海桐
林悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202210699684.3A priority Critical patent/CN114970516A/zh
Publication of CN114970516A publication Critical patent/CN114970516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开属于数据处理技术领域,涉及一种数据增强方法及装置、存储介质、电子设备。该方法包括:获取原始文本以及与原始文本对应的类别标签,并根据类别标签确定原始文本要增强的增强数量;基于增强数量,对原始文本中进行替换得到初始增强文本,并计算原始文本和初始增强文本之间的目标相似度;根据目标相似度对初始增强文本进行过滤得到目标增强文本,以利用目标增强文本和原始文本训练文本分析模型。本公开对不同领域的原始文本设置定制化的数量,保证了增强数据的类别平衡性,在无需人工标注的情况下提供了自动生成增强文本的方法,保证了目标增强文本的准确性,提升了文本分析模型的准确性、有效性和鲁棒性,帮助提升语音合成等系统的效果。

Description

数据增强方法及装置、存储介质、电子设备
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据增强方法与数据增强装置、计算机可读存储介质及电子设备。
背景技术
语音合成系统(Text To Speech,TTS)中的前端文本分析包含多个部分,其中较为重要的一个是文本的韵律分析。通过文本的韵律分析可以使得合成的语音更加自然和有表现力。尽管随着深度学习技术的飞速发展,基于端到端学习的语音合成效果有了很大提升,但从目前来看,作为高质量语音合成系统中重要部分的文本韵律分析模块仍然存在很大不足。
近年来,使用神经网络的机器学习算法极大地提升了文本韵律分析的准确率,但是,这些算法通常需要大量训练数据,而数据的构建和标注是十分困难和昂贵的。除此之外,往往还存在严重的数据分布不均衡问题,例如小说、剧本对话、诗歌等领域的韵律标注较少。这些情况限制了构建一个更好的韵律分析模块,对于低资源语种更是如此。
鉴于此,本领域亟需开发一种新的数据增强方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据增强方法、数据增强装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的数据分布不均衡和数据标准成本高的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本发明实施例的第一个方面,提供一种数据增强方法,所述方法包括:
获取原始文本以及与所述原始文本对应的类别标签,并根据所述类别标签确定所述原始文本要增强的增强数量;
基于所述增强数量,对所述原始文本进行替换得到初始增强文本,并计算所述原始文本和所述初始增强文本之间的目标相似度;
根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,以利用所述目标增强文本和所述原始文本训练文本分析模型。
在本发明的一种示例性实施例中,所述类别标签,包括:新闻类别、小说类别、剧本类别和诗歌类别。
在本发明的一种示例性实施例中,所述根据所述类别标签确定所述原始文本要增强的增强数量,包括:
获取与所述类别标签对应的目标数量,并统计所述原始文本的现有数量;
根据所述目标数量和所述现有数量计算所述原始文本要增强的增强数量。
在本发明的一种示例性实施例中,所述对所述原始文本进行替换得到初始增强文本,包括:
利用语言处理工具识别所述原始文本中的关键词,并确定所述原始文本中除所述关键词的其他词汇;
获取遮蔽符号,并利用所述遮蔽符号对所述其他词汇进行遮蔽得到遮蔽文本;
根据所述遮蔽文本预测目标词汇,并利用所述目标词汇替换所述遮蔽符号得到初始增强文本。
在本发明的一种示例性实施例中,所述根据所述遮蔽文本预测目标词汇,包括:
将所述遮蔽文本输入至预训练语言模型中,以使所述预训练语言模型预测目标词汇。
在本发明的一种示例性实施例中,所述在所述对所述原始文本进行替换得到初始增强文本之后,所述方法还包括:
替换所述初始增强文本中的关键词得到下一增强文本,以对所述初始增强文本和所述下一增强文本进行过滤得到目标增强文本。
在本发明的一种示例性实施例中,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
利用语言处理工具提取所述原始文本的第一词性属性,并根据所述第一词性属性生成第一词性序列;
利用语言处理工具提取所述初始增强文本的第二词性属性,并根据所述第二词性属性生成第二词性序列;
对所述第一词性序列和所述第二词性序列进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
在本发明的一种示例性实施例中,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
利用语言处理工具提取所述原始文本的第一句法结构,并根据所述第一句法结构生成第一句法序列;
利用语言处理工具提取所述初始增强文本的第二句法结构,并根据所述第二句法结构生成第二句法序列;
对所述第一句法序列和所述第二句法序列进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
在本发明的一种示例性实施例中,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
根据所述原始文本生成第三词性序列和第三句法序列,并根据所述初始增强文本生成第四词性序列和第四句法序列;
对所述第三词性序列和所述第四词性序列进行计算得到第一相似度,并对所述第三句法序列和所述第四句法序列进行计算得到第二相似度;
对所述第一相似度和所述第二相似度进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
在本发明的一种示例性实施例中,所述根据所述原始文本生成第三词性序列和第三句法序列,包括:
利用语言处理工具提取所述原始文本的第三词性属性,并根据所述第三词性属性生成第三词性序列;
利用所述语言处理工具提取所述原始文本的第三句法结构,并根据所述第三句法结构生成第三句法序列。
在本发明的一种示例性实施例中,所述根据所述初始增强文本生成第四词性序列和第四句法序列,包括:
利用语言处理工具提取所述初始增强文本的第四词性属性,并根据所述第四词性属性生成第四词性序列;
利用所述语言处理工具提取所述初始增强文本的第四句法结构,并根据所述第四句法结构生成第四句法序列。
在本发明的一种示例性实施例中,所述根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,包括:
获取与所述目标相似度对应的相似度阈值,并将所述目标相似度与所述相似度阈值进行比较得到比较结果;
根据所述比较结果度对所述初始增强文本进行过滤得到目标增强文本。
根据本发明实施例的第二个方面,提供一种数据增强装置,包括:
数量确定模块,被配置为获取原始文本以及与所述原始文本对应的类别标签,并根据所述类别标签确定所述原始文本要增强的增强数量;
文本替换模块,被配置为基于所述增强数量,对所述原始文本进行替换得到初始增强文本,并计算所述原始文本和所述初始增强文本之间的目标相似度;
文本过滤模块,被配置为根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,以利用所述目标增强文本和所述原始文本训练文本分析模型。
根据本发明实施例的第三个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的数据增强方法。
根据本发明实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的数据增强方法。
由上述技术方案可知,本公开示例性实施例中的数据增强方法、数据增强装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法及装置中,根据原始文本的类别标签确定增强数量,对不同领域的原始文本设置定制化的数量,在增强原始文本所需数量的基础上,保证了增强数据的类别平衡性,解决了原始文本数据分布不平衡的问题。进一步的,对原始文本进行替换得到初始增强文本,在无需人工标注的情况下提供了一种自动生成增强文本的方法,能够生成更多合理的增强文本。更进一步的,利用目标相似度对初始增强文本进行过滤得到用于训练文本分析模型的目标增强文本,减少了初始增强文本中存在的类别标签错误的情况发生,保证了目标增强文本的准确性,进一步提升了文本分析模型的准确性、有效性和鲁棒性,从而帮助提升语音合成等系统的表现效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种数据增强方法的流程示意图;
图2示意性示出了本公开示例性实施例中确定增强数量的方法的流程示意图;
图3示意性示出了本公开示例性实施例中生成初始增强文本的方法的流程示意图;
图4示意性示出了本公开示例性实施例中第一种计算目标相似度的方法的流程示意图;
图5示意性示出了本公开示例性实施例中第二种计算目标相似度的方法的流程示意图;
图6示意性示出了本公开示例性实施例中第三种计算目标相似度的方法的流程示意图;
图7示意性示出了本公开示例性实施例中生成第三词性序列和第三句法序列的方法的流程示意图;
图8示意性示出了本公开示例性实施例中生成第四词性序列和第四句法序列的方法的流程示意图;
图9示意性示出了本公开示例性实施例中过滤初始增强文本的方法的流程示意图;
图10示意性示出了本公开示例性实施例中应用场景下数据统计阶段的流程示意图;
图11示意性示出了本公开示例性实施例中应用场景下数据增强阶段的流程示意图;
图12示意性示出了本公开示例性实施例中应用场景下数据过滤阶段的流程示意图;
图13示意性示出了本公开示例性实施例中应用场景下前端模型训练阶段的流程示意图;
图14示意性示出本公开示例性实施例中一种数据增强装置的结构示意图;
图15示意性示出本公开示例性实施例中一种用于实现数据增强方法的电子设备;
图16示意性示出本公开示例性实施例中一种用于实现数据增强方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
语音合成是一套自动将自然文本转换成语音的系统。语音合成系统中的前端文本分析是指通过一系列方法将输入文本转化为后端声学模型所需要的输入信息序列。
前端文本分析可以包含多个部分,其中较为重要的一个是文本的韵律分析。
文本的韵律分析主要是指韵律边界预测,即对一句话提取出韵律词、韵律短语、语调短语等不同级别韵律结构的边界划分,从而获得朗读这句话时的停顿韵律信息,这样才可以使得合成的语音更加自然和有表现力。
其中,韵律边界预测是指分析预测句子中各级别韵律停顿的边界位置。
尽管随着深度学习技术的飞速发展,基于端到端学习的语音合成效果有了很大提升,但从目前来看,作为高质量语音合成系统中重要部分的文本韵律分析模块仍然存在很大不足。
近年来,使用神经网络的机器学习算法极大地提升了文本韵律分析的准确率,但是,这些算法通常需要大量训练数据,而数据的构建和标注是十分困难昂贵的。除此之外,往往还存在严重的数据分布不均衡问题,例如小说、剧本对话、诗歌等领域的韵律标注较少。这些情况限制了构建一个更好的韵律分析模块,对于低资源语种更是如此。
因此,通过数据增强的方法来提升韵律分析等文本分析任务的效果。数据增强能够对机器学习模型的训练数据进行自动扩充。
其中,一种常用的方式是基于规则的数据增强。亦即,通过规则来构造所需的文本数据或标签。这一方法需要大量人工设计的规则,应用范围较小。
另一种常用的方式是生成式的数据增强,主要是指通过一些深度学习的文本生成模型,生成与训练数据语义相近的句子。
例如,在机器翻译场景中,用翻译模型对目标语言进行反向翻译得到新的训练数据。但这种方式主要适用于句子级标签预测的任务上,对于韵律边界预测这样需要预测每个字对应标签的序列级任务上不太适用。
还有一种是替换式数据增强。具体的,通过替换句子中非关键的字或词生成新的文本,同时保证训练数据的语义或者是目标字词对应的标签不变。
一般的,可以是基于同义词或相近词进行替换。虽然基于同义词或相近词进行替换进行数据增强的方式在已有工作应用的文本分析上取得了一定的效果,但是,这种方式获得的增强数据较为有限,也无法构造出较为合理的文本。
针对相关技术中存在的问题,本公开提出了一种数据增强方法。图1示出了数据增强方法的流程图,如图1所示,数据增强方法至少包括以下步骤:
步骤S110.获取原始文本以及与原始文本对应的类别标签,并根据类别标签确定原始文本要增强的增强数量。
步骤S120.基于增强数量,对原始文本进行替换得到初始增强文本,并计算原始文本和初始增强文本之间的目标相似度。
步骤S130.根据目标相似度对初始增强文本进行过滤得到目标增强文本,以利用目标增强文本和原始文本训练文本分析模型。
在本公开的示例性实施例中,根据原始文本的类别标签确定增强数量,对不同领域的原始文本设置定制化的数量,在增强原始文本所需数量的基础上,保证了增强数据的类别平衡性,解决了原始文本数据分布不平衡的问题。进一步的,对原始文本进行替换得到初始增强文本,在无需人工标注的情况下提供了一种自动生成增强文本的方法,能够生成更多合理的增强文本。更进一步的,利用目标相似度对初始增强文本进行过滤得到用于训练文本分析模型的目标增强文本,减少了初始增强文本中存在的类别标签错误的情况发生,保证了目标增强文本的准确性,进一步提升了文本分析模型的准确性、有效性和鲁棒性,从而帮助提升语音合成等系统的表现效果。
下面对数据增强方法的各个步骤进行详细说明。
在步骤S110中,获取原始文本以及与原始文本对应的类别标签,并根据类别标签确定原始文本要增强的增强数量。
在本公开的示例性实施例中,原始文本为需要进行数据增强的文本内容,可以包括不同领域分布的文本,例如小说、新闻和诗歌等领域,本示例性实施例对此不做特殊限定。
因此,除了能够获取到原始文本之外,也可以同时获取原始文本标注好的类别标签。
在可选的实施例中,类别标签,包括:新闻类别、小说类别、剧本类别和诗歌类别。
该原始文件的类别标签由原始文本的来源决定。因此,根据原始文本的来源不同,该类别标签还可以包括其他类别,本示例性实施例对此不做特殊限定。
进一步的,可以根据该类别标签确定不同类别的原始文本要增强的增强数量。
在可选的实施例中,图2示出了确定增强数量的方法的流程示意图,如图2所示,该方法至少可以包括以下步骤:在步骤S210中,获取与类别标签对应的目标数量,并统计原始文本的现有数量。
根据原始文本不同领域的类别标签,能够设定将每个领域的原始文本都增强到的目标数量S。对于不同领域所对应的目标数量S,可以是相同的,也可以是相近的,本示例性实施例对此不做特殊限定。
进一步的,对原始文本在不同领域的分布进行统计。以韵律分析人物为例,根据原始文本在不同领域的类别标签统计原始文本中每个领域,例如新闻、小说、剧本和诗歌等的文本数量得到现有数量。
在步骤S220中,根据目标数量和现有数量计算原始文本要增强的增强数量。
在确定不同领域的目标数量和不同类别标签的原始文本的现有数量之后,可以根据目标数量S除以现有数量的方式得到每个领域要增强的增强数量。
在本示例性实施例中,根据目标数量和现有数量计算出不同领域的原始文本要增强的增强数量,为不同领域针对性的设计了不同的增强数量,解决了数据不平衡的问题,保证了生成的目标增强文本的类别平衡性。
在步骤S120中,基于增强数量,对原始文本中进行替换得到初始增强文本,并计算原始文本和初始增强文本之间的目标相似度。
在本公开的示例性实施例中,在确定增强数量之后,可以按照增强数量的数量要求替换原始文本得到初始增强文本。
在可选的实施例中,图3示出了生成初始增强文本的方法的流程示意图,如图3所示,该方法至少可以包括以下步骤:在步骤S310中,利用语言处理工具识别原始文本中的关键词,并确定原始文本中除关键词的其他词汇。
用于识别原始文本中的关键词的语言处理工具可以是结巴分词。
关键词的识别和抽取就是从文本里面把意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索论文的词语。因此,目前依然可以在论文中看到关键词这一项。
除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。例如,在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度;从某天所有的新闻中提取出这些新闻的关键词,就可以大致了解那天发生了什么事情;将某段时间内几个人的文章拼成一篇长文本,然后抽取关键词就可以知道这些人主要在讨论什么话题。
总之,关键词就是最能够反映出文本主题或者意思的词语。但是,网络上的人不会像写论文那样说明本文的关键词是什么,这个时候就需要利用计算机自动抽取出关键词,算法的好坏直接决定了后续步骤的效果。
关键词抽取从方法来说大致有两种。第一种是关键词分配,亦即有一个给定的关键词库,然后新来一篇文档,从词库里面找出几个词语作为这篇文档的关键词;第二种是关键词抽取,就是新来一篇文档,从文档中抽取一些词语作为这篇文档的关键词。
目前,大多数领域无的关键词抽取算和它对应的库都是基于后者的。从逻辑上说,后者比前着在实际使用中更有意义。
从算法的角度来看,关键词抽取算法主要有两类,分别是有监督学习算法和无监督学习算法。
其中,有监督学习算法将关键词抽取过程视为二分类问题,先抽取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,抽取出所有的候选词,然后利用训练好的关键词抽取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。
无监督学习算法是先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆文档频度)、TextRank(一种用于文本的基于图的排序算法)等算法。
结巴分词系统中实现了两种关键词抽取算法,分别是基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法,两类算法均是无监督学习的算。
其中,TF-IDF是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。在信息检索和文本挖掘领域,它经常用于因子加权。
TF-IDF的主要思想就是如果某个词在一篇文档中出现的频率高,也即TF高;并且在语料库中其他文档中很少出现,即DF的低,也即IDF高,则认为这个词具有很好的类别区分能力。
TF-IDF在实际中主要是将二者相乘,也即TF*IDF,TF为词频,表示词t在文档d中出现的频率;IDF为反文档频率,表示语料库中包含词t的文档的数目的倒数。
在TF-IDF应用到关键词抽取时,可以首先进行预处理,亦即对原始文本进行分词和词性标注,将满足指定词性的词作为候选词;然后分别计算每个词的TF-IDF值;最后根据每个词的TF-IDF值降序排列,并输出指定个数的词汇作为可能的关键词。
TextRank算法类似于PageRank(网页排名,或网页级别)的思想,将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系(例如共现),则这两个语法单元在图中就会有一条边相互连接,通过一定的迭代次数,最终不同的节点会有不同的权重,权重高的语法单元可以作为关键词。
节点的权重不仅依赖于它的入度结点,还依赖于这些入度结点的权重,入度结点越多,入度结点的权重越大,说明这个结点的权重越高。
TextRank迭代计算公式为,节点i的权重取决于节点i的邻居节点中i-j这条边的权重/j的所有出度的边的权重*节点j的权重,将这些邻居节点计算的权重相加,再乘上一定的阻尼系数,就是节点i的权重;阻尼系数d一般取0.85。
在TextRank算法应用到关键词抽取时,首先进行预处理,亦即进行分词和词性标注,将单个词汇作为节点添加到图中;然后,设置语法过滤器,将通过语法过滤器的词汇添加到图中,出现在一个窗口中的词汇之间相互形成一条边;进而,基于TextRank迭代计算公式迭代直至收敛,一般迭代20-30次,迭代阈值设置为0.0001;更进一步的,根据顶点的分数降序排列,并输出指定个数的词汇作为可能的关键词;最后,如果两个词汇在文本中前后连接,那么就将这两个词汇连接在一起作为关键短语。
除此之外,用于识别原始文本中的关键词的语言处理工具也可以是哈工大的语言技术平台(Language Technology Platform,LTP)。
语言技术平台是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。LTP制定了基于XML(Extensible Markup Language,可扩展标记语言)的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块(包括了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等5项丰富、高效、精准的自然语言处理技术,在多次国内外技术评测中获得优异成绩,特别是获得CoNLL 2009国际句法和语义分析联合评测的第一名)、应用程序接口、可视化工具、以及能够以网络服务使用的语言技术云。
语言云(语言技术平台云LTP-Cloud)是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台,语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。
作为基于云端的服务,语言云具有多项优势。例如免安装(用户无需调用静态库或下载模型文件,只需要根据API(Application Programming Interface,应用程序接口)参数集构造HTTP(Hyper Text Transfer Protocol,超文本传输协议)请求即可在线获得分析结果。在新版API中,亦不需要下载SDK(Software Development Kit,软件开发工具包))、省硬件(用户不需要购买高性能的机器,即可快捷的获得分析结果)、跨平台、跨编程语言(用户只需要根据所使用语言的特点发送HTTP请求即可获取分析结果,因而几乎不依赖于操作系统平台和编程语言)。
在运算资源有限,编程语言受限的情况下,语言云无疑是用户进行语言分析更好的选择。
在确定原始文本中的关键词之后,可以进一步确定出原始文本中除关键词之外的其他词汇。
值得说明的是,利用语言处理工具识别到的原始文本中的关键词除了可以是最能表征文本意义的词之外,还可以是例如动词、名词等词性意义上的关键词,本示例性实施例对此不做特殊限定。
在步骤S320中,获取遮蔽符号,并利用遮蔽符号对其他词汇进行遮蔽得到遮蔽文本。
针对后续预遮蔽的其他词汇,可以设定遮蔽符号。
该遮蔽符号的设定可以是根据预测目标词汇的预训练语言模型确定的。举例而言,当预训练语言模型为BERT(Bidirectional Encoder Representations fromTransformers,双向Transformer(变换器)的Encoder(编码器))模型时,遮蔽符号可以是[MASK]。根据实际情况和需求也可以确定其他遮蔽符号,本示例性实施例对此不做特殊限定。
进一步的,根据不得选择关键词的规则可以利用遮蔽符号随机对其他词汇进行遮蔽得到遮蔽文本。
具体的,在不选择关键词的前提下,可以在其他词汇中随机选择一个位置进行遮蔽。
除此之外,为了避免重复,还可以同时设定不得选择前面已经替换的其他词汇的同一位置。
在步骤S330中,根据遮蔽文本预测目标词汇,并利用目标词汇替换遮蔽符号得到初始增强文本。
在可选的实施例中,将遮蔽文本输入至预训练语言模型中,以使预训练语言模型预测目标词汇。
预训练语言模型是一类基于深度学习技术和大数据自监督学习方法训练神经网络模型,能够很好的提取词语在句子上下文中的语义信息。
其中,预训练语言模型可以采用BERT模型,也可以采用大量更多语言、更大规模的预训练模型,本示例性实施例对此不做特殊限定。
使用前沿水平的BERT预训练模型来获取通用语义表示,实现从自然语言到机器语言的转化。
BERT预训练模型是谷歌以无监督的方式利用海量无标注文本训练而成的语言代表模型。BERT预训练模型是一个迁移能力很强的通用语义表示模型,以Transformer为网络基本组件,以Masked Bi-Language Mo del(一种掩码语言模型)和Next SentencePrediction(下一句预测)为训练目标,通过预训练得到通用语义表示。
其中,是否有监督(supervised)取决于输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。
与传统的Word2Vec(word to vector,用来产生词向量的相关模型)、GloVe(Global Vectors for Word Representation,一个基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具)等嵌入词向量相比,BERT满足了近年来十分盛行的语境词表征(contextual word representation)的概念,即考虑上下文的内容,同个词语在不同语境中有不同的表示方式。直觉上理解,这个也满足人类自然语言的真实情况,即同一个词汇的含义在不同情景中是很有可能不相同的。
因此,将带有[MASK]遮蔽符号的遮蔽文本输入至预训练的BERT模型中,预测被遮蔽符号遮蔽的位置的字词得到目标词汇。
值得说明的是,按照预训练的BERT模型预测的概率,可以选择一个或多个预测结果作为目标词汇,本示例性实施例对此不做特殊限定。
在利用预训练语言模型预测出遮蔽文本的遮蔽符号处的目标词汇之后,可以利用目标词汇替换到遮蔽文本的遮蔽符号,以得到初始增强文本。
此时,初始增强文本的数量与增强数量相同。
在本示例性实施例中,通过对非关键词的其他词汇进行遮蔽和替换能够得到初始增强文本,满足了增强不同领域的文本数量的需求,并且,利用预训练语言模型实现数据增强,也能够生成更多且更合理的初始增强文本。
进一步的,在生成初始增强文本之后,能够计算初始增强文本和原始文本之间的目标相似度。
在可选的实施例中,图4示出了第一种计算目标相似度的方法的流程示意图,如图4所示,该方法至少可以包括以下步骤:在步骤S410中,利用语言处理工具提取原始文本的第一词性属性,并根据第一词性属性生成第一词性序列。
词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。
例如,描述一个概念的词就是名词,在下文引用这个名词的词就是代词。有的词性经常会出现一些新的词,例如名词,这样的词性叫做开放式词性。另外一些词性中的词比较固定,例如代词,这样的词性叫做封闭式词性。
因为存在一个词对应多个词性的现象,所以给词准确地标注词性并不是很容易。例如,一个词汇在一句话中是一个动词,但是在另一个句子中可能是一个名词。把这个问题抽象出来,就是已知单词序列,给每个单词标注词性。
因此,词性标注(Part-of-speech Tagging,POS)是自然语言处理中一项非常重要的基础性工作。
词性标注是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。
汉语词性标注同样面临许多棘手的问题,其主要的难点可以归纳为以下三个方面:(1)汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语言那样,直接从词的形态变化来判别;(2)常用词兼类现象严重,越是常用的词,不同的用法越多,尽管兼类现象仅仅占汉语词汇很小的一部分,但是由于兼类使用的程度高,兼类现象纷繁,覆盖面广,涉及汉语中大部分词类,因而造成汉语文本中词类歧义排除的任务量大,而且面广,复杂多样;(3)研究者主观原因造成的困难。语言学界在词性划分的目的、标准等问题还存在分歧。
不同的语言有不同的词性标注集。为了方便指明词的词性,可以给每个词性编码,其中,常见的有a表示形容词,d表示副词,n表示名词,p表示介词,v表示动词。
目前采用的词性标注方法主要有基于统计模型的标注方法、基于规则的标注方法、统计方法与规则方法相结合的方法、基于有限状态转换机的标注方法和基于神经网络的词性标注方法。
结巴分词中提供了词性标注功能,可以标注标注句子分词后每个词的词性,词性标注集采用北大计算所词性标注集,属于采用基于统计模型的标注方法。
结巴是采用和ICTCLAS(Institute of Computing Technology,Chinese LexicalAnalysis System,汉语词法分析系统)兼容的标记法。
具体的,结巴分词的词性标注过程非常类似于结巴分词的分词流程,同时进行分词和词性标注。
在词性标注的时候,首先基于正则表达式(汉字)进行判断,1)如果是汉字,则会基于前缀词典构建有向无环图,然后基于有向图计算最大概率路径,同时在前缀词典中查找所分出的词的词性,如果没有找到,则将其词性标注为“x”(非语素字非语素字只是一个符号,字母x通常用于代表未知数、符号);如果HMM(Hidden Markov Model,隐马尔科夫模型)标志位置位,并且该词为未登录词,则通过隐马尔科夫模型对其进行词性标注;2)如果是其它,则根据正则表达式判断其类型,分别赋予“x”,“m”(数词取英语numeral的第3个字母,n,u已有他用),“eng”(英文)。
在采用哈工大的语言技术平台提取原始文本的第一词性属性时,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号等。
进一步的,在提取出原始文本中包括的每个词汇的第一词性属性时,可以生成该第一词性属性的第一词性序列。
举例而言,当原始文本为“总理调研某地时提出,支持该地积极探索新机制”时,第一词性序列可以是“总理/n调研/v某地/ns时/n提出/v,/wp支持/v该地/ns积极/a探索/v新/a机制/n。/wp”,也可以是“/n/v/ns/n/v/wp/v/ns/a/v/a/n/wp”,还可以是“名词动词名词名词动词标点符号动词名词形容词动词形容词名词标点符号”的形式,本示例性实施例对此不做特殊限定。
在步骤S420中,利用语言处理工具提取初始增强文本的第二词性属性,并根据第二词性属性生成第二词性序列。
在对初始增强文本进行第二词性属性的提取时,也可以利用结巴分词或者哈工大的语言技术平台等语言处理工具实现,以得到第二词性序列。
在步骤S430中,对第一词性序列和第二词性序列进行计算得到原始文本和初始增强文本之间的目标相似度。
在生成原始文本的第一词性序列和初始增强文本的第二词性序列之后,可以对第一词性序列和第二词性序列进行计算得到原始文本和初始增强文本之间的目标相似度。
具体的,目标相似度的计算可以是通过计算第一词性序列和第二词性序列之间的余弦相似度得到的,也可以通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
在本示例性实施例中,通过对第一词性序列和第二词性序列进行计算得到原始文本和初始增强文本之间的目标相似度,计算方式简单做准备,为过滤初始增强文本提供了数据支持和理论基础。
在可选的实施例中,图5示出了第二种计算目标相似度的方法的流程示意图,如图5所示,该方法至少可以包括以下步骤:在步骤S510中,利用语言处理工具提取原始文本的第一句法结构,并根据第一句法结构生成第一句法序列。
依存语法(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
当采用哈工大的语言技术平台提取原始文本的第一句法结构时,原始文本可以是“总理调研某地时提出,支持该地积极探索新机制”,哈工大的语言技术平台可以分析出句子的核心谓词为“提出”,主语是“总理”,提出的宾语是“支持该地…”,“调研…时”是“提出”的(时间)状语,“支持”的宾语是“探索新机制”。
有了上面的句法分析结果,就可以比较容易的看到,“提出者”是“总理”,而不是“某地”,即使它们都是名词,而且距离“提出”更近。
因此,使用哈工大的语言技术平台提取原始文本的第一句法结构时可以提取出原始文本中的主语、宾语等句法结构得到第一句法结构。
进一步的,将提取出的原始文本中的第一句法结构按照原始文本中的词汇顺序进行排列得到第一句法序列。例如,第一句法序列可以是“主语谓语宾语”的序列。
除此之外,该语言处理工具还可以使用结巴分词实现,本示例性实施例对此不做特殊限定。
在步骤S520中,利用语言处理工具提取初始增强文本的第二句法结构,并根据第二句法结构生成第二句法序列。
在对初始增强文本进行第二句法结构的提取时,也可以利用结巴分词或者哈工大的语言技术平台等语言处理工具实现,以得到第二句法序列。
在步骤S530中,对第一句法序列和第二句法序列进行计算得到原始文本和初始增强文本之间的目标相似度。
在生成原始文本的第一句法序列和初始增强文本的第二句法序列之后,可以对第一句法序列和第二句法序列进行计算得到原始文本和初始增强文本之间的目标相似度。
具体的,目标相似度的计算可以是通过计算第一句法序列和第二句法序列之间的余弦相似度得到的,也可以通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
在本示例性实施例中,通过对第一句法序列和第二句法序列进行计算得到原始文本和初始增强文本之间的目标相似度,计算方式简单准备,并且,能够为过滤初始增强文本提供数据支持和理论基础。
在可选的实施例中,图6示出了第三种计算目标相似度的方法的流程示意图,如图6所示,该方法至少可以包括以下步骤:在步骤S610中,根据原始文本生成第三词性序列和第三句法序列,并根据初始增强文本生成第四词性序列和第四句法序列。
在可选的实施例中,图7示出了生成第三词性序列和第三句法序列的方法的流程示意图,如图7所示,该方法至少可以包括以下步骤:在步骤S710中,利用语言处理工具提取原始文本的第三词性属性,并根据第三词性属性生成第三词性序列。
在利用结巴分词或者哈工大的语言技术平台提取出原始文本中包括的每个词汇的第三词性属性时,可以生成该第三词性属性的第三词性序列。
举例而言,当原始文本为“总理调研某地时提出,支持该地积极探索新机制”时,第三词性序列可以是“总理/n调研/v某地/ns时/n提出/v,/wp支持/v该地/ns积极/a探索/v新/a机制/n。/wp”,也可以是“/n/v/ns/n/v/wp/v/ns/a/v/a/n/wp”,还可以是“名词动词名词名词动词标点符号动词名词形容词动词形容词名词标点符号”的形式,本示例性实施例对此不做特殊限定。
在步骤S720中,利用语言处理工具提取原始文本的第三句法结构,并根据第三句法结构生成第三句法序列。
在使用哈工大的语言技术平台提取原始文本的第三句法结构时可以提取出原始文本中的主语、宾语等句法结构得到第三句法结构。
进一步的,将提取出的原始文本中的第三句法结构按照原始文本中的词汇顺序进行排列得到第三句法序列。例如,第三句法序列可以是“主语谓语宾语”的序列。
除此之外,该语言处理工具还可以使用结巴分词实现,本示例性实施例对此不做特殊限定。
在本示例性实施例中,利用外部的语言处理工具能够提取得到原始文本的第三词性序列和第三句法序列,为同时通过词性序列和句法序列计算目标相似度提供了原始文本这边的数据支持,同时,无需对词性和句法制定不同的提取方式,减少了生成词性序列和句法序列的过程所带来的复杂性。
在可选的实施例中,图8示出了生成第四词性序列和第四句法序列的方法的流程示意图,如图8所示,该方法至少可以包括以下步骤:在步骤S810中,利用语言处理工具提取初始增强文本的第四词性属性,并根据第四词性属性生成第四词性序列。
在利用结巴分词或者哈工大的语言技术平台提取出初始增强文本中包括的每个词汇的第四词性属性时,可以生成该第四词性属性的第四词性序列。
举例而言,当初始增强文本为“总理调研某地时提出,支持该地积极探索新机制”时,第四词性序列可以是“总理/n调研/v某地/ns时/n提出/v,/wp支持/v该地/ns积极/a探索/v新/a机制/n。/wp”,也可以是“/n/v/ns/n/v/wp/v/ns/a/v/a/n/wp”,还可以是“名词动词名词名词动词标点符号动词名词形容词动词形容词名词标点符号”的形式,本示例性实施例对此不做特殊限定。
在步骤S820中,利用语言处理工具提取初始增强文本的第四句法结构,并根据第四句法结构生成第四句法序列。
在使用哈工大的语言技术平台提取初始增强文本的第四句法结构时可以提取出初始增强文本中的主语、宾语等句法结构得到第四句法结构。
进一步的,将提取出的初始增强文本中的第四句法结构按照初始增强文本中的词汇顺序进行排列得到第四句法序列。例如,第四句法序列可以是“主语谓语宾语”的序列。
除此之外,该语言处理工具还可以使用结巴分词实现,本示例性实施例对此不做特殊限定。
在本示例性实施例中,利用外部的语言处理工具能够提取得到初始增强文本的第四词性序列和第四句法序列,为同时通过词性序列和句法序列计算目标相似度提供了初始增强文本这边的数据支持,同时,无需对词性和句法制定不同的提取方式,减少了生成词性序列和句法序列的过程所带来的复杂性。
在步骤S620中,对第三词性序列和第四词性序列进行计算得到第一相似度,并对第三句法序列和第四句法序列进行计算得到第二相似度。
在生成第三词性序列、第三句法序列、第四词性序列和第四句法序列之后,可以对第三词性序列和第四词性序列进行计算得到第一相似度。
具体的,第一相似度的计算可以是通过计算第三词性序列和第四词性序列之间的余弦相似度得到的,也可以是通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
除此之外,还可以对第三句法序列和第四句法序列进行计算得到第二相似度。
具体的,第二相似度的计算可以是通过计算第三句法序列和第四句法序列之间的余弦相似度得到的,也可以是通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
在步骤S630中,对第一相似度和第二相似度进行计算得到原始文本和初始增强文本之间的目标相似度。
在计算出第三词性序列和第四词性序列之间第一相似度和第三句法序列和第四句法序列之间的第二相似度之后,可以获取第一相似度的权重和第二相似度的权重,并对第一相似度和对应权重、第二相似度及其权重进行加权求和计算得到目标相似度。
其中,第一相似度的权重和第二相似度的权重可以是根据经验值设定的,也可以是根据其他方式确定的,本示例性实施例对此不做特殊限定。
值得说明的是,第三词性属性和第一词性属性可以是相同的,第三句法结构和第一句法结构可以是相同的,第四词性属性和第二词性属性可以是相同的,第四句法结构和第二句法结构可以是相同的,因此,第三词性序列和第一词性序列是相同的,第四词性序列和第二词性序列是相同的,第三句法序列和第一句法序列是相同的,第四句法序列和第二句法序列相同的。
当然,以上所说的相同关系也可以是不同的,或者是其他未提及的两者之间具有相同关系,例如第三词性属性和第二词性属性相同等,本示例性实施例对此不做特殊限定。
在本示例性实施例中,通过对第三词性序列、第四词性序列、第三句法序列和第四句法序列进行计算得到原始文本和初始增强文本之间的目标相似度,同时考虑到了词性属性和句法结构两方面对目标相似度的影响,提升了初始增强文本的过滤准确性。
在步骤S130中,根据目标相似度对初始增强文本进行过滤得到目标增强文本,以利用目标增强文本和原始文本训练文本分析模型。
在本公开的示例性实施例中,在计算出目标相似度之后,可以根据目标相似度对初始增强文本进行过滤,以得到目标增强文本。
在可选的实施例中,图9示出了过滤初始增强文本的方法的流程示意图,如图9所示,该方法至少可以包括以下步骤:在步骤S910中,获取与目标相似度对应的相似度阈值,并将目标相似度与相似度阈值进行比较得到比较结果。
该相似度阈值可以根据实际情况和实际需求进行设定,本示例性实施例对此不做特殊限定。
在获取到相似度阈值之后,可以将目标相似度与该相似度阈值进行比较,以得到对应的比较结果。
在步骤S920中,根据比较结果度对初始增强文本进行过滤得到目标增强文本。
当比较结果为目标相似度大于或等于相似度阈值时,表明初始增强文本与原始文本之间较为相似,因此无需过滤,可以保留。
当比较结果为目标相似度小于相似度阈值时,表明初始增强文本与原始文本之间相差较大,该初始增强文本带有一定噪声,因此需要过滤。
进一步的,将目标相似度小于相似度阈值的初始增强文本进行过滤,以将目标相似度大于或等于相似度阈值的初始增强文本进行保留,形成目标增强文本。
值得说明的是,对初始增强文本的过滤过程也可以通过机器学习模型实现,本示例性实施例对此不做特殊限定。
在本示例性实施例中,通过相似度阈值的设定能够对初始增强文本进行过滤,过滤掉初始增强文本中与原始文本差距较大的文本,以减少初始增强文本中存在的类别标签与原始文本不一致的情况发生。
在得到目标增强文本之后,可以利用目标增强文本和原始文本对文本分析模型进行训练。其中,文本分析模型可以包括韵律分析模型等,本示例性实施例对此不做特殊限定。
值得说明的是,当根据原始文本无法产生与增强数量相同的初始增强文本时,还可以对初始增强文本进行二次或者多次增强,以得到目标增强文本。
在可选的实施例中,替换初始增强文本中的关键词得到下一增强文本,以对初始增强文本和下一增强文本进行过滤得到目标增强文本。
其中,如果原始文本中的其他词汇的所有位置都选择结束,仍然无法达到增强数量的要求,可以进一步选择初始增强文本进行遮蔽和替换。
对于初始增强文本,可以按照图3所示替换原始文本的方式替换初始增强文本,以得到下一增强文本,在此不再赘述。值得说明的是,在对初始增强文本进行遮蔽时,可以在初始增强文本中选择两个位置进行遮蔽和替换,如此循环,直至得到满足增强数量的初始增强文本和下一增强文本。其中,也可以是在初始增强文本中选择其他数量的位置进行遮蔽和替换,本示例性实施例对此不做特殊限定。
进一步的,按照步骤S130所示的方式同时对初始增强文本和下一增强文本进行过滤得到对应的目标增强文本,在此不再赘述。
值得说明的是,由于多次增强可能会降低增强文本的质量,因此,更加倾向于采用原始文本进行数据增强。但是,在原始文本数量不足的情况下,也可以采用初始增强文本或者是多次增强后的文本作为数据增强的基础,以保证目标增强文本的生成数量。
选择原始文本还是增强文本所遵循的原则应该是先选择原始文本,再选择增强文本,以避免二次或者三次增强降低质量,具体规则没有限定。
因此,可以在第一次增强的时候全部选择原始文本,第二次增强的时候也选择原则文本,直至原始文本选择完,再选择增强文本。或者是遵循每次使用增强文本的数量不断下降的方式,例如第一次选择的原始文本占90%,增强文本占10%;第二次选择的原始文本占99%,增强文本占1%等,本示例性实施例对此不做特殊限定。
下面结合一应用场景对本公开实施例中的数据增强方法做出详细说明。
图10示出了应用场景下数据统计阶段的流程示意图,如图10所示,数据统计阶段是针对所有原始数据,亦即原始文本,统计其包含的各领域数据量。根据该数量以及预期增广数据的总数,计算出各领域需增强的数据量。
数据统计阶段包括数据统计模块,该数据统计模块的作用在于对原始文本在不同领域的分布进行统计,从而为不同领域设计不同的增强数量,解决数据不平衡的问题。
以韵律分析任务为例,获取原始文本以及与原始文本对应的类别标签,并根据类别标签确定原始文本要增强的增强数量。
原始文本为需要进行数据增强的文本内容,可以包括不同领域分布的文本,例如小说、新闻和诗歌等领域,本示例性实施例对此不做特殊限定。
因此,除了能够获取到原始文本之外,也可以同时获取原始文本标注好的类别标签。
其中,类别标签可以包括:新闻类别、小说类别、剧本类别和诗歌类别。
根据原始文本的来源不同,该类别标签还可以包括其他类别,本示例性实施例对此不做特殊限定。
进一步的,可以根据该类别标签确定不同类别的原始文本要增强的增强数量。
获取与类别标签对应的目标数量,并统计原始文本的现有数量。
根据原始文本不同领域的类别标签,能够设定将每个领域的原始文本都增强到的目标数量S。对于不同领域所对应的目标数量S,可以是相同的,也可以是相近的,本示例性实施例对此不做特殊限定。
进一步的,对原始文本在不同领域的分布进行统计。以韵律分析人物为例,根据原始文本在不同领域的类别标签统计原始文本中每个领域,例如新闻、小说、剧本和诗歌等的文本数量得到现有数量。
根据目标数量和现有数量计算原始文本要增强的增强数量。
在确定不同领域的目标数量和不同类别标签的原始文本的现有数量之后,可以根据目标数量S除以现有数量的方式得到每个领域要增强的增强数量。
图11示出了应用场景下数据增强阶段的流程示意图,如图11所示,数据增强阶段将原始文本或增强文本输入到文本mask模块选择位置进行遮蔽,然后输入预训练语言模型预测被遮蔽的字词,并替换到遮蔽的位置形成新的增强文本。循环这一过程,直至达到数据统计阶段得出的需增强数据量。
因此,数据增强阶段包括文本mask模块和预训练语言模块。
其中,文本mask模块是作用主要为选择文本位置进行遮蔽,然后送给预训练语言模型进行预测。
其一是选择文本,这里可以选择原始文本,也可以是前面循环已生成的增强文本,但通常多次增强可能会降低质量,因而会更倾向原始文本。具体选择方式可通过概率或规则设计,不做限制。
具体的,在确定增强数量之后,可以按照增强数量的数量要求替换原始文本中的关键词得到初始增强文本。
利用语言处理工具识别原始文本中的关键词,并确定原始文本中除关键词的其他词汇。在确定原始文本中的关键词之后,可以进一步确定出原始文本中除关键词之外的其他词汇。
获取遮蔽符号,并利用遮蔽符号对其他词汇进行遮蔽得到遮蔽文本。
针对后续预遮蔽的其他词汇,可以设定对应的遮蔽符号。该遮蔽符号的设定可以是根据预测目标词汇的预训练语言模型确定的。举例而言,当预训练语言模型为BERT模型时,遮蔽符号可以是[MASK]。根据实际情况和需求也可以确定与其他词汇对应的其他遮蔽符号,本示例性实施例对此不做特殊限定。
进一步的,根据不得选择关键词的规则可以利用遮蔽符号随机对其他词汇进行遮蔽得到遮蔽文本。
具体的,在不选择关键词的前提下,可以在其他词汇中随机选择一个位置进行遮蔽。
除此之外,为了避免重复,还可以同时设定不得选择前面已经替换的其他词汇的同一位置。
预训练语言模块的目的是预测被文本mask模块遮蔽的字词,替换生成新文本。该模块是整个发明实现数据自动构造和增强的主要模块。
在数据增强阶段,预训练语言模型的使用方式为输入带[MASK]符号的文本,预测被mask位置的字词,将其替换遮蔽符号后形成新的增强文本。
具体的,将遮蔽文本输入至预训练语言模型中,以使预训练语言模型预测目标词汇。
其中,预训练语言模型可以采用BERT模型,也可以采用大量更多语言、更大规模的预训练模型,本示例性实施例对此不做特殊限定。
以BERT为代表的预训练语言模型在自然语言处理领域的各个任务都取得了较大的提升。
这类模型的主要特点是使用海量的无标注数据训练,在训练中通过预测句子中被遮盖的字词,使得模型对提取上下文语义,并合理构造新的文本有很强的能力,这与数据增强的目的一致。因此,使用BERT这类预训练语言模型,可以替换语句中任意文字而使得生成文本尽量通顺合理,相比传统的文本替换增强方法,大大增加了正确性和多样性。
因此,将带有[MASK]遮蔽符号的遮蔽文本输入至预训练的BERT模型中,预测被遮蔽符号遮蔽的位置的字词得到目标词汇。
值得说明的是,按照预训练的BERT模型预测的概率,可以选择一个或多个预测结果作为目标词汇,本示例性实施例对此不做特殊限定。
在利用预训练语言模型预测出遮蔽文本的遮蔽符号处的目标词汇之后,可以利用目标词汇替换到遮蔽文本的遮蔽符号,以得到初始增强文本。
此时,初始增强文本的数量与增强数量相同。
当根据原始文本无法产生与增强数量相同的初始增强文本时,还可以对初始增强文本进行二次或者多次增强,以得到目标增强文本。
具体的,替换初始增强文本中的关键词得到下一增强文本,以对初始增强文本和下一增强文本进行过滤得到目标增强文本。
其中,如果原始文本中的其他词汇的所有位置都选择结束,仍然无法达到增强数量的要求,可以进一步选择初始增强文本进行遮蔽和替换。
对于初始增强文本,可以按照图3所示替换原始文本中的关键词的方式替换初始增强文本的关键词,以得到下一增强文本,在此不再赘述。
值得说明的是,在对初始增强文本进行遮蔽时,可以在初始增强文本中选择两个位置进行遮蔽和替换,如此循环,直至得到满足增强数量的初始增强文本和下一增强文本。其中,也可以是在初始增强文本中选择其他数量的位置进行遮蔽和替换,本示例性实施例对此不做特殊限定。进一步的,按照步骤S130所示的方式同时对初始增强文本和下一增强文本进行过滤得到对应的目标增强文本,在此不再赘述。
值得说明的是,由于多次增强可能会降低增强文本的质量,因此,更加倾向于采用原始文本进行数据增强。但是,在原始文本数量不足的情况下,也可以采用初始增强文本或者是多次增强后的文本作为数据增强的基础,以保证目标增强文本的生成数量。
选择原始文本还是增强文本所遵循的原则应该是先选择原始文本,再选择增强文本,以避免二次或者三次增强降低质量,具体规则没有限定。
因此,可以在第一次增强的时候全部选择原始文本,第二次增强的时候也选择原则文本,直至原始文本选择完,再选择增强文本。或者是遵循每次使用增强文本的数量不断下降的方式,例如第一次选择的原始文本占90%,增强文本占10%;第二次选择的原始文本占99%,增强文本占1%等,本示例性实施例对此不做特殊限定。
图12示出了应用场景下数据过滤阶段的流程示意图,如图12所示,数据过滤阶段将得到的每条初始增强文本与其对应的原始文本同时输入自然语言处理工具,并分别得到其处理结果,然后通过这两组结果的相似程度来对增强数据进行过滤。
数据过滤阶段包括自然语言处理模块和过滤判断模块。
其中,自然语言处理模块的作用是对原始文本和增强后文本进行自然语言分析,得到分析结果作为过滤判断的输入。
具体到韵律分析任务,可以选取与韵律结构较为相关的语言处理方式,例如提取文本中词语的词性,即动词、名词等,或者是提取文本中的句法结构,例如主语、宾语等。
该模块可使用外部公开工具,如一些开源的语言处理软件或在线服务。
具体的,利用语言处理工具提取原始文本的第一词性属性,并根据第一词性属性生成第一词性序列。
在采用哈工大的语言技术平台提取原始文本的第一词性属性时,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号等。
进一步的,在提取出原始文本中包括的每个词汇的第一词性属性时,可以生成该第一词性属性的第一词性序列。
举例而言,当原始文本为“总理调研某地时提出,支持该地积极探索新机制”时,第一词性序列可以是“总理/n调研/v某地/ns时/n提出/v,/wp支持/v该地/ns积极/a探索/v新/a机制/n。/wp”,也可以是“/n/v/ns/n/v/wp/v/ns/a/v/a/n/wp”,还可以是“名词动词名词名词动词标点符号动词名词形容词动词形容词名词标点符号”的形式,本示例性实施例对此不做特殊限定。
利用语言处理工具提取初始增强文本的第二词性属性,并根据第二词性属性生成第二词性序列。
在对初始增强文本进行第二词性属性的提取时,也可以利用结巴分词或者哈工大的语言技术平台等语言处理工具实现,以得到第二词性序列。
利用语言处理工具提取原始文本的第一句法结构,并根据第一句法结构生成第一句法序列。
当采用哈工大的语言技术平台提取原始文本的第一句法结构时,原始文本可以是“总理调研某地时提出,支持该地积极探索新机制”,哈工大的语言技术平台可以分析出句子的核心谓词为“提出”,主语是“总理”,提出的宾语是“支持该地…”,“调研…时”是“提出”的(时间)状语,“支持”的宾语是“探索新机制”。
有了上面的句法分析结果,就可以比较容易的看到,“提出者”是“总理”,而不是“某地”,即使它们都是名词,而且距离“提出”更近。
因此,使用哈工大的语言技术平台提取原始文本的第一句法结构时可以提取出原始文本中的主语、宾语等句法结构得到第一句法结构。
进一步的,将提取出的原始文本中的第一句法结构按照原始文本中的词汇顺序进行排列得到第一句法序列。例如,第一句法序列可以是“主语谓语宾语”的序列。
除此之外,该语言处理工具还可以使用结巴分词实现,本示例性实施例对此不做特殊限定。
利用语言处理工具提取初始增强文本的第二句法结构,并根据第二句法结构生成第二句法序列。
在对初始增强文本进行第二句法结构的提取时,也可以利用结巴分词或者哈工大的语言技术平台等语言处理工具实现,以得到第二句法序列。
利用语言处理工具提取原始文本的第三词性属性,并根据第三词性属性生成第三词性序列。
在利用结巴分词或者哈工大的语言技术平台提取出原始文本中包括的每个词汇的第三词性属性时,可以生成该第三词性属性的第三词性序列。
举例而言,当原始文本为“总理调研某地时提出,支持该地积极探索新机制”时,第三词性序列可以是“总理/n调研/v某地/ns时/n提出/v,/wp支持/v该地/ns积极/a探索/v新/a机制/n。/wp”,也可以是“/n/v/ns/n/v/wp/v/ns/a/v/a/n/wp”,还可以是“名词动词名词名词动词标点符号动词名词形容词动词形容词名词标点符号”的形式,本示例性实施例对此不做特殊限定。
利用语言处理工具提取原始文本的第三句法结构,并根据第三句法结构生成第三句法序列。
在使用哈工大的语言技术平台提取原始文本的第三句法结构时可以提取出原始文本中的主语、宾语等句法结构得到第三句法结构。
进一步的,将提取出的原始文本中的第三句法结构按照原始文本中的词汇顺序进行排列得到第三句法序列。例如,第三句法序列可以是“主语谓语宾语”的序列。
除此之外,该语言处理工具还可以使用结巴分词实现,本示例性实施例对此不做特殊限定。
利用语言处理工具提取初始增强文本的第四词性属性,并根据第四词性属性生成第四词性序列。
在利用结巴分词或者哈工大的语言技术平台提取出初始增强文本中包括的每个词汇的第四词性属性时,可以生成该第四词性属性的第四词性序列。
举例而言,当初始增强文本为“总理调研某地时提出,支持该地积极探索新机制”时,第四词性序列可以是“总理/n调研/v某地/ns时/n提出/v,/wp支持/v该地/ns积极/a探索/v新/a机制/n。/wp”,也可以是“/n/v/ns/n/v/wp/v/ns/a/v/a/n/wp”,还可以是“名词动词名词名词动词标点符号动词名词形容词动词形容词名词标点符号”的形式,本示例性实施例对此不做特殊限定。
利用语言处理工具提取初始增强文本的第四句法结构,并根据第四句法结构生成第四句法序列。
在使用哈工大的语言技术平台提取初始增强文本的第四句法结构时可以提取出初始增强文本中的主语、宾语等句法结构得到第四句法结构。
进一步的,将提取出的初始增强文本中的第四句法结构按照初始增强文本中的词汇顺序进行排列得到第四句法序列。例如,第四句法序列可以是“主语谓语宾语”的序列。
过滤判断模块的作用是通过外部工具的分析结果判断和过滤增强数据,提升数据正确性。
具体实现上可通过计算相似度,例如余弦相似度,然后设定相似度阈值来判断,例如要求增强前后的文本在词性上一致等。除此之外,也可以再将分析结果经过机器学习模型进行判断,对此不做限定。
在自然语言处理模块生成原始文本的第一词性序列和初始增强文本的第二词性序列之后,可以对第一词性序列和第二词性序列进行计算得到原始文本和初始增强文本之间的目标相似度。
具体的,目标相似度的计算可以是通过计算第一词性序列和第二词性序列之间的余弦相似度得到的,也可以通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
在自然语言处理模块生成原始文本的第一句法序列和初始增强文本的第二句法序列之后,可以对第一句法序列和第二句法序列进行计算得到原始文本和初始增强文本之间的目标相似度。
具体的,目标相似度的计算可以是通过计算第一句法序列和第二句法序列之间的余弦相似度得到的,也可以通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
在自然语言处理模块生成第三词性序列、第三句法序列、第四词性序列和第四句法序列之后,可以对第三词性序列和第四词性序列进行计算得到第一相似度。
具体的,第一相似度的计算可以是通过计算第三词性序列和第四词性序列之间的余弦相似度得到的,也可以是通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
除此之外,还可以对第三句法序列和第四句法序列进行计算得到第二相似度。
具体的,第二相似度的计算可以是通过计算第三句法序列和第四句法序列之间的余弦相似度得到的,也可以是通过计算其他相似度得到,本示例性实施例对此不做特殊限定。
对第一相似度和第二相似度进行计算得到原始文本和初始增强文本之间的目标相似度。
在计算出第三词性序列和第四词性序列之间第一相似度和第三句法序列和第四句法序列之间的第二相似度之后,可以获取第一相似度的权重和第二相似度的权重,并对第一相似度和对应权重、第二相似度及其权重进行加权求和计算得到目标相似度。
其中,第一相似度的权重和第二相似度的权重可以是根据经验值设定的,也可以是根据其他方式确定的,本示例性实施例对此不做特殊限定。
值得说明的是,第三词性属性和第一词性属性可以是相同的,第三句法结构和第一句法结构可以是相同的,第四词性属性和第二词性属性可以是相同的,第四句法结构和第二句法结构可以是相同的,因此,第三词性序列和第一词性序列是相同的,第四词性序列和第二词性序列是相同的,第三句法序列和第一句法序列是相同的,第四句法序列和第二句法序列相同的。
当然,以上所说的相同关系也可以是不同的,或者是其他未提及的两者之间具有相同关系,例如第三词性属性和第二词性属性相同等,本示例性实施例对此不做特殊限定。
在计算出目标相似度之后,可以根据目标相似度对初始增强文本进行过滤,以得到目标增强文本。
获取与目标相似度对应的相似度阈值,并将目标相似度与相似度阈值进行比较得到比较结果。
该相似度阈值可以根据实际情况和实际需求进行设定,本示例性实施例对此不做特殊限定。
在获取到相似度阈值之后,可以将目标相似度与该相似度阈值进行比较,以得到对应的比较结果。
根据比较结果度对初始增强文本进行过滤得到目标增强文本。
当比较结果为目标相似度大于或等于相似度阈值时,表明初始增强文本与原始文本之间较为相似,因此无需过滤,可以保留。
当比较结果为目标相似度小于相似度阈值时,表明初始增强文本与原始文本之间相差较大,该初始增强文本带有一定噪声,因此需要过滤。
进一步的,将目标相似度小于相似度阈值的初始增强文本进行过滤,以将目标相似度大于或等于相似度阈值的初始增强文本进行保留,形成目标增强文本。
由于使用预训练语言模型替换后的文本虽然语义通顺,但不一定能保证与原始文本相同的类别标签不变,因此,初始增强数据中可能带有一定噪声。
基于设计的策略过滤后,噪声存在的概率会大大降低,从而保证数据正确性和模型训练效果。
图13示出了应用场景下前端模型训练阶段的流程示意图,如图13所示,前端模型训练阶段通过过滤后的目标增强文本及其对应的标签训练前端文本分析模型。其中,前端模型训练阶段包括前端文本分析模型构成的模块。
该模块是最终实现前端文本分析功能的模块,使用前述阶段得到的过滤后的增强数据,亦即目标增强文本作为输入进行训练,同时也可以使用原始文本进行训练。模型实现上可以选择RNN(Recurrent Neural Network,循环神经网络)、CNN(Convolutional NeuralNetworks,卷积神经网络)、transformer等神经网络结构或组合形式,对此不做特殊限定。
在本公开应用场景的示例性实施例中的数据增强方法,根据原始文本的类别标签确定增强数量,对不同领域的原始文本设置定制化的数量,在增强原始文本所需数量的基础上,保证了增强数据的类别平衡性,解决了原始文本数据分布不平衡的问题。进一步的,对原始文本进行替换得到初始增强文本,在无需人工标注的情况下提供了一种自动生成增强文本的方法,能够生成更多合理的增强文本。更进一步的,利用目标相似度对初始增强文本进行过滤得到用于训练文本分析模型的目标增强文本,减少了初始增强文本中存在的类别标签错误的情况发生,保证了目标增强文本的准确性,进一步提升了文本分析模型的准确性、有效性和鲁棒性。
具体的,在韵律边界预测任务上,本方法在韵律词、韵律短语和语调短语三个级别的边界预测准确率上平均提升了1%~2%,取得了较好的效果。
因此,本方法在标注数据不足的条件下,有效利用数据构造前端文本模型,提高了模型准确率和稳定性,从而帮助提升了语音合成系统的表现效果。
此外,在本公开的示例性实施例中,还提供一种数据增强装置。图14示出了数据增强装置的结构示意图,如图14所示,数据增强装置1400可以包括:数量确定模块1410、文本替换模块1420和文本过滤模块1430。其中:
数量确定模块1410,被配置为获取原始文本以及与所述原始文本对应的类别标签,并根据所述类别标签确定所述原始文本要增强的增强数量;
文本替换模块1420,被配置为基于所述增强数量,对所述原始文本进行替换得到初始增强文本,并计算所述原始文本和所述初始增强文本之间的目标相似度;
文本过滤模块1430,被配置为根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,以利用所述目标增强文本和所述原始文本训练文本分析模型。
在本发明的一种示例性实施例中,所述类别标签,包括:新闻类别、小说类别、剧本类别和诗歌类别。
在本发明的一种示例性实施例中,所述根据所述类别标签确定所述原始文本要增强的增强数量,包括:
获取与所述类别标签对应的目标数量,并统计所述原始文本的现有数量;
根据所述目标数量和所述现有数量计算所述原始文本要增强的增强数量。
在本发明的一种示例性实施例中,所述对所述原始文本进行替换得到初始增强文本,包括:
利用语言处理工具识别所述原始文本中的关键词,并确定所述原始文本中除所述关键词的其他词汇;
获取遮蔽符号,并利用所述遮蔽符号对所述其他词汇进行遮蔽得到遮蔽文本;
根据所述遮蔽文本预测目标词汇,并利用所述目标词汇替换所述遮蔽符号得到初始增强文本。
在本发明的一种示例性实施例中,所述根据所述遮蔽文本预测目标词汇,包括:
将所述遮蔽文本输入至预训练语言模型中,以使所述预训练语言模型预测目标词汇。
在本发明的一种示例性实施例中,所述在所述对所述原始文本进行替换得到初始增强文本之后,所述方法还包括:
替换所述初始增强文本中的关键词得到下一增强文本,以对所述初始增强文本和所述下一增强文本进行过滤得到目标增强文本。
在本发明的一种示例性实施例中,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
利用语言处理工具提取所述原始文本的第一词性属性,并根据所述第一词性属性生成第一词性序列;
利用语言处理工具提取所述初始增强文本的第二词性属性,并根据所述第二词性属性生成第二词性序列;
对所述第一词性序列和所述第二词性序列进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
在本发明的一种示例性实施例中,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
利用语言处理工具提取所述原始文本的第一句法结构,并根据所述第一句法结构生成第一句法序列;
利用语言处理工具提取所述初始增强文本的第二句法结构,并根据所述第二句法结构生成第二句法序列;
对所述第一句法序列和所述第二句法序列进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
在本发明的一种示例性实施例中,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
根据所述原始文本生成第三词性序列和第三句法序列,并根据所述初始增强文本生成第四词性序列和第四句法序列;
对所述第三词性序列和所述第四词性序列进行计算得到第一相似度,并对所述第三句法序列和所述第四句法序列进行计算得到第二相似度;
对所述第一相似度和所述第二相似度进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
在本发明的一种示例性实施例中,所述根据所述原始文本生成第三词性序列和第三句法序列,包括:
利用语言处理工具提取所述原始文本的第三词性属性,并根据所述第三词性属性生成第三词性序列;
利用所述语言处理工具提取所述原始文本的第三句法结构,并根据所述第三句法结构生成第三句法序列。
在本发明的一种示例性实施例中,所述根据所述初始增强文本生成第四词性序列和第四句法序列,包括:
利用语言处理工具提取所述初始增强文本的第四词性属性,并根据所述第四词性属性生成第四词性序列;
利用所述语言处理工具提取所述初始增强文本的第四句法结构,并根据所述第四句法结构生成第四句法序列。
在本发明的一种示例性实施例中,所述根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,包括:
获取与所述目标相似度对应的相似度阈值,并将所述目标相似度与所述相似度阈值进行比较得到比较结果;
根据所述比较结果度对所述初始增强文本进行过滤得到目标增强文本。
上述数据增强装置1400的具体细节已经在对应的数据增强方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了数据增强装置1400的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图15来描述根据本发明的这种实施例的电子设备1500。图15显示的电子设备1500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图15所示,电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于:上述至少一个处理单元1510、上述至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1510执行,使得所述处理单元1510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元1520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1521和/或高速缓存存储单元1522,还可以进一步包括只读存储单元(ROM)1523。
存储单元1520还可以包括具有一组(至少一个)程序模块1525的程序/实用工具1524,这样的程序模块1525包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1500也可以与一个或多个外部设备1700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1500交互的设备通信,和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且,电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1560通过总线1530与电子设备1500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图16所示,描述了根据本发明的实施例的用于实现上述方法的程序产品1600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (15)

1.一种数据增强方法,其特征在于,所述方法包括:
获取原始文本以及与所述原始文本对应的类别标签,并根据所述类别标签确定所述原始文本要增强的增强数量;
基于所述增强数量,对所述原始文本进行替换得到初始增强文本,并计算所述原始文本和所述初始增强文本之间的目标相似度;
根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,以利用所述目标增强文本和所述原始文本训练文本分析模型。
2.根据权利要求1所述的数据增强方法,其特征在于,所述类别标签,包括:新闻类别、小说类别、剧本类别和诗歌类别。
3.根据权利要求1所述的数据增强方法,其特征在于,所述根据所述类别标签确定所述原始文本要增强的增强数量,包括:
获取与所述类别标签对应的目标数量,并统计所述原始文本的现有数量;
根据所述目标数量和所述现有数量计算所述原始文本要增强的增强数量。
4.根据权利要求1所述的数据增强方法,其特征在于,所述对所述原始文本进行替换得到初始增强文本,包括:
利用语言处理工具识别所述原始文本中的关键词,并确定所述原始文本中除所述关键词的其他词汇;
获取遮蔽符号,并利用所述遮蔽符号对所述其他词汇进行遮蔽得到遮蔽文本;
根据所述遮蔽文本预测目标词汇,并利用所述目标词汇替换所述遮蔽符号得到初始增强文本。
5.根据权利要求4所述的数据增强方法,其特征在于,所述根据所述遮蔽文本预测目标词汇,包括:
将所述遮蔽文本输入至预训练语言模型中,以使所述预训练语言模型预测目标词汇。
6.根据权利要求1所述的数据增强方法,其特征在于,所述在所述对所述原始文本进行替换得到初始增强文本之后,所述方法还包括:
替换所述初始增强文本中的关键词得到下一增强文本,以对所述初始增强文本和所述下一增强文本进行过滤得到目标增强文本。
7.根据权利要求1所述的数据增强方法,其特征在于,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
利用语言处理工具提取所述原始文本的第一词性属性,并根据所述第一词性属性生成第一词性序列;
利用语言处理工具提取所述初始增强文本的第二词性属性,并根据所述第二词性属性生成第二词性序列;
对所述第一词性序列和所述第二词性序列进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
8.根据权利要求1所述的数据增强方法,其特征在于,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
利用语言处理工具提取所述原始文本的第一句法结构,并根据所述第一句法结构生成第一句法序列;
利用语言处理工具提取所述初始增强文本的第二句法结构,并根据所述第二句法结构生成第二句法序列;
对所述第一句法序列和所述第二句法序列进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
9.根据权利要求1所述的数据增强方法,其特征在于,所述计算所述原始文本和所述初始增强文本之间的目标相似度,包括:
根据所述原始文本生成第三词性序列和第三句法序列,并根据所述初始增强文本生成第四词性序列和第四句法序列;
对所述第三词性序列和所述第四词性序列进行计算得到第一相似度,并对所述第三句法序列和所述第四句法序列进行计算得到第二相似度;
对所述第一相似度和所述第二相似度进行计算得到所述原始文本和所述初始增强文本之间的目标相似度。
10.根据权利要求9所述的数据增强方法,其特征在于,所述根据所述原始文本生成第三词性序列和第三句法序列,包括:
利用语言处理工具提取所述原始文本的第三词性属性,并根据所述第三词性属性生成第三词性序列;
利用所述语言处理工具提取所述原始文本的第三句法结构,并根据所述第三句法结构生成第三句法序列。
11.根据权利要求9所述的数据增强方法,其特征在于,所述根据所述初始增强文本生成第四词性序列和第四句法序列,包括:
利用语言处理工具提取所述初始增强文本的第四词性属性,并根据所述第四词性属性生成第四词性序列;
利用所述语言处理工具提取所述初始增强文本的第四句法结构,并根据所述第四句法结构生成第四句法序列。
12.根据权利要求1所述的数据增强方法,其特征在于,所述根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,包括:
获取与所述目标相似度对应的相似度阈值,并将所述目标相似度与所述相似度阈值进行比较得到比较结果;
根据所述比较结果度对所述初始增强文本进行过滤得到目标增强文本。
13.一种数据增强装置,其特征在于,包括:
数量确定模块,被配置为获取原始文本以及与所述原始文本对应的类别标签,并根据所述类别标签确定所述原始文本要增强的增强数量;
文本替换模块,被配置为基于所述增强数量,对所述原始文本进行替换得到初始增强文本,并计算所述原始文本和所述初始增强文本之间的目标相似度;
文本过滤模块,被配置为根据所述目标相似度对所述初始增强文本进行过滤得到目标增强文本,以利用所述目标增强文本和所述原始文本训练文本分析模型。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12中任意一项所述的数据增强方法。
15.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-12中任意一项所述的数据增强方法。
CN202210699684.3A 2022-06-20 2022-06-20 数据增强方法及装置、存储介质、电子设备 Pending CN114970516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210699684.3A CN114970516A (zh) 2022-06-20 2022-06-20 数据增强方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210699684.3A CN114970516A (zh) 2022-06-20 2022-06-20 数据增强方法及装置、存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN114970516A true CN114970516A (zh) 2022-08-30

Family

ID=82962946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210699684.3A Pending CN114970516A (zh) 2022-06-20 2022-06-20 数据增强方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN114970516A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227431A (zh) * 2023-03-17 2023-06-06 中科雨辰科技有限公司 一种文本数据增强方法、电子设备及存储介质
WO2024198230A1 (zh) * 2023-03-29 2024-10-03 比亚迪股份有限公司 文本增强、语言处理模型训练方法及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227431A (zh) * 2023-03-17 2023-06-06 中科雨辰科技有限公司 一种文本数据增强方法、电子设备及存储介质
CN116227431B (zh) * 2023-03-17 2023-08-15 中科雨辰科技有限公司 一种文本数据增强方法、电子设备及存储介质
WO2024198230A1 (zh) * 2023-03-29 2024-10-03 比亚迪股份有限公司 文本增强、语言处理模型训练方法及电子设备

Similar Documents

Publication Publication Date Title
Gupta et al. Abstractive summarization: An overview of the state of the art
US8527262B2 (en) Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
Millstein Natural language processing with python: natural language processing using NLTK
Rogers et al. What’s in your embedding, and how it predicts task performance
Gudivada et al. Big data driven natural language processing research and applications
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
Bikel et al. Multilingual natural language processing applications: from theory to practice
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
Lee Natural Language Processing: A Textbook with Python Implementation
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
Ahmad et al. Urdu speech and text based sentiment analyzer
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Subha et al. Quality factor assessment and text summarization of unambiguous natural language requirements
Malik et al. NLP techniques, tools, and algorithms for data science
RU2563148C2 (ru) Система и метод семантического поиска
Trye et al. A hybrid architecture for labelling bilingual māori-english tweets
Wilson Toward automatic processing of English metalanguage
Corredera Arbide et al. Affective computing for smart operations: a survey and comparative analysis of the available tools, libraries and web services
Khoufi et al. Chunking Arabic texts using conditional random fields
Subha et al. Ontology extraction and semantic ranking of unambiguous requirements
Baishya et al. Present state and future scope of Assamese text processing
Jia et al. Learning natural ordering of tags in domain-specific Q&A sites
Adewumi Vector representations of idioms in data-driven chatbots for robust assistance
Aparna et al. A review on different approaches of pos tagging in NLP
Arumugam Processing the textual information using open natural language processing (NLP)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination