CN109726404A - 端到端模型的训练数据增强方法、装置及介质 - Google Patents

端到端模型的训练数据增强方法、装置及介质 Download PDF

Info

Publication number
CN109726404A
CN109726404A CN201811636139.XA CN201811636139A CN109726404A CN 109726404 A CN109726404 A CN 109726404A CN 201811636139 A CN201811636139 A CN 201811636139A CN 109726404 A CN109726404 A CN 109726404A
Authority
CN
China
Prior art keywords
text
sentence
target text
data
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811636139.XA
Other languages
English (en)
Other versions
CN109726404B (zh
Inventor
李健铨
刘小康
陈玮
晋耀红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tai Yue Xiang Sheng Software Co Ltd
Original Assignee
Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tai Yue Xiang Sheng Software Co Ltd filed Critical Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority to CN201811636139.XA priority Critical patent/CN109726404B/zh
Publication of CN109726404A publication Critical patent/CN109726404A/zh
Application granted granted Critical
Publication of CN109726404B publication Critical patent/CN109726404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开一种端到端模型的训练数据增强方法、装置及介质。该方法包括:获取来自训练数据集的目标文本;其中,训练数据集包括多个训练数据,每个训练数据包括对应的输入数据和标注数据,每个输入数据包括至少一个文本;目标文本为任一个训练数据的输入数据中的任一个文本;根据与目标文本对应的标注数据,在目标文本中确定标注句;在目标文本中确定保留区域;利用训练数据集中除目标文本以外的其余文本,替换目标文本的非保留区域中的至少一个句子,得到变换文本。用该变换文本替换目标数据中的目标文本,从而得到新的训练数据。采用该方法可以快速、低成本地得到大量有效的新的训练数据,同时提高了增强得到的新训练数据的有效概率。

Description

端到端模型的训练数据增强方法、装置及介质
技术领域
本发明涉及自然语言处理领域,具体涉及一种端到端模型的训练数据增强方法。
背景技术
机器阅读理解(Machine Reading Comprehension)主要是指让机器阅读文本,然后回答和阅读文本相关的问题的技术。端到端(end to end)模型是神经网络模型中的一种,常被应用于处理机器阅读理解的任务。
端到端模型一般包括输入层、隐藏层和输出层。由于预测的所有过程都包含在神经网络内部,可以将其看作一个黑盒,用户只需要了解输入层的输入数据和输出层的预测数据即可,故而称之为端到端模型。
训练数据可以类似三元组的形式,例如(文本P1,问题Q1,答案A1)。在训练过程中,将训练数据中的输入数据(例如文本P1和问题Q1)输入到输入层中,经过隐藏层,最后从输出层中得到一个预测数据(例如预测答案D1)。预测数据(例如预测答案D1)和训练数据中的标注数据(例如答案A1)相比一般会存在一定的误差,这个误差在端到端模型的每一层之间反向传播。根据这个误差调整端到端模型中的参数,直到该端到端模型收敛,或达到预期的效果,则训练完成。
在使用训练好的端到端模型时来做机器阅读理解任务时,将文本P2和问题Q2作为输入数据,输入到模型的输入层中,就可以得到模型预测的预测答案D2。
对于端到端模型而言,训练所使用的训练数据量越大,往往训练出的模型的效果越好,即模型预测的准确率和召回率越好。因此,在机器阅读理解比赛中,常用的训练数据的数据量往往很大,一般在万级以上。这些训练数据大部分由人工标注得到,需要耗费大量的人力物力。
为了更加迅速地得到更多的训练数据,可以采用数据增强(Data Augmentation)的方法。即,通过将现有的训练数据做变换,生成这些训练数据的变体,从而得到新的训练数据。反向翻译是其中一种数据增强方法,即通过机器翻译将已经翻译为另一种语言的文本,再翻译回原本的语言。例如,一个中文文本P1经过机器翻译后得到一个英文文本P1',P1'再经过机器翻译后得到一个中文文本P1"。这样,(文本P1",问题Q1,答案A1)就可以构成一个新的训练数据。
但是,在自然语言文本中,小的变化可能就会改变文本的语义。当反向翻译的翻译效果不佳时,通过反向翻译的数据增强方法所得到的新的训练数据,可能是无效的训练数据。例如,反向翻译得到的文本P"中可能并不包含问题Q1所对应的答案A1。则利用这样无效的训练数据去训练端到端模型,反而会对模型的准确率和召回率产生不利影响。
基于此,如何能够获得有效的端到端模型的训练数据,是本领域技术人员亟待解决的问题。
发明内容
本申请提供一种训练数据增强方法,通过数据增强方法,可以将原本已经标注好的训练数据中的文本做变换,以生成与原本训练数据中其他数据相匹配的变换文本,进而得到有效的新的训练数据。
第一方面,提供一种端到端模型的训练数据增强方法,包括:
获取来自训练数据集的目标文本;其中,所述训练数据集包括至少两个训练数据,每一个所述训练数据包括对应的输入数据和标注数据,每一个所述输入数据包括至少一个文本;所述目标文本为任一个所述训练数据的输入数据中的任一个文本;
根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句;
在所述目标文本中确定保留区域,所述保留区域包括所述标注句;
利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子,得到变换文本,其中,所述非保留区域为所述目标文本中保留区域以外的区域。
结合第一方面,在第一方面第一种可能的实现方式中,所述端到端模型应用于机器阅读理解,每一个所述输入数据还包括与所述至少一个文本对应的问题,所述标注数据为答案。
结合第一方面及上述可能的实现方式,在第一方面第二种可能的实现方式中,根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句,包括:
根据与所述目标文本对应的答案,在所述目标文本中确定备选句;
如果所述备选句的数量大于一个,则分别计算与所述目标文本对应的问题和每一个所述备选句的相似度;
将与所述问题的相似度最高的备选句确定为标注句。
结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,所述保留区域包括所述目标文本中标注句之前的M1个句子、所述标注句,以及所述目标文本中标注句之后的M2个句子;其中,M1和M2均为大于或等于0的整数。
结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本中非保留区域中的至少一个句子的步骤,包括:
分别计算所述训练数据集中除所述目标文本以外的其余文本与所述目标文本的相似度;
从所述其余文本中筛选出至少一个备选文本,所述备选文本与所述目标文本的相似度大于预设的阈值;
利用所述至少一个备选文本,替换所述非保留区域中的至少一个句子。
结合第一方面及上述可能的实现方式,在第一方面第五种可能的实现方式中,利用所述至少一个备选文本,替换所述非保留区域中的至少一个句子的步骤,包括:
从第一备选文本中选取相邻的T1个句子;其中,所述第一备选文本为所述至少一个备选文本中的一个文本,T1为大于1的正整数;
将所述非保留区域中相邻的T2个句子,替换为所述第一备选文本中的所述T1个句子;其中,T2为正整数。
结合第一方面及上述可能的实现方式,在第一方面第六种可能的实现方式中,所述方法还包括:
根据包括所述目标文本的训练数据以及所述变换文本,得到新的训练数据;
分别以每个训练数据的输入数据中的文本为目标文本,重复执行针对目标文本的数据增强方法,得到增强数据集;其中,所述增强数据集中包括训练数据集中的训练数据,以及增强得到的新的训练数据。
结合第一方面及上述可能的实现方式,在第一方面第七种可能的实现方式中,所述方法还包括:
分别将来自训练数据集的所有文本分句,得到与文本对应的分句结果;
构建替换字典,所述替换字典中包括所述所有文本各自的索引号,以及与每一个所述索引号对应的文本的分句结果;
利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子的步骤,包括:
在所述替换字典中查找出目标文本的索引号以外的其余索引号;
从所述其余索引号所对应的分句结果中选取至少一个句子,替换所述目标文本的非保留区域中的至少一个句子。
第二方面,提供一种端到端模型的训练数据增强装置,包括:
获取模块,用于获取来自训练数据集的目标文本;其中,所述训练数据集包括至少两个训练数据,每一个所述训练数据包括对应的输入数据和标注数据,每一个所述输入数据包括至少一个文本;所述目标文本为任一个所述训练数据的输入数据中的任一个文本;
处理模块,用于根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句;在所述目标文本中确定保留区域;以及,利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子,得到变换文本;其中,所述保留区域包括所述标注句,所述非保留区域为所述目标文本中保留区域以外的区域。
第三方面,提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得所述计算机执行第一方面的任一种方法。
上述的数据增强方法,首先从训练数据集的所有文本中获取一个目标文本,以此作为数据增强的基础。然后根据目标文本对应的标注数据,在目标文本中确定标注句。再在目标文本中确定保留区域和非保留区,使保留区域包括标注句。最后,利用所有文本中除目标文本以外的其余文本,来替换目标文本中非保留区内的至少一个句子,从而得到变换文本。该变换文本可以用来替换目标数据中的目标文本,从而得到一个新的训练数据。由于替换时保留了与标注数据具有关联的标注句,从而减少了变换文本与原本训练数据,即目标数据中的其他数据不匹配的问题,进而提高了新训练数据的有效概率。
以原本的训练数据为基础,采用该方法进行增强,可以得到至少一倍以上数量的新的训练数据,故而,采用上述数据增强方法可以快速、低成本地得到大量有效的新的训练数据。将上述的新训练数据与原本的训练数据一起用于训练端到端模型,与单独采用原本的训练数据训练的端到端模型相比,训练好的模型的预测准确率更高。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的训练数据增强方法的具体实施方式之一的流程图;
图2为本申请的训练数据增强方法的具体实施方式之一中,S200步骤的其中一种实现方式的流程图;
图3为本申请的训练数据增强方法的一个实例中,目标文本中备选句、标注句、保留区域和非保留区域的示意图;
图4为本申请的训练数据增强方法的一个实例中,原始文本集、替换字典的示意图;
图5为本申请的训练数据增强方法的具体实施方式之一中,S400步骤的其中一种实现方式的流程图;
图6为本申请的训练数据增强方法的一个实例中,从原始文本集中筛选出备选文本集的示意图;
图7为本申请的训练数据增强方法的具体实施方式之一中,S430步骤的其中一种实现方式的流程图;
图8为本申请的训练数据增强方法的一个实例中,利用备选文本替换目标文本的非保留区域中的句子,得到变换文本的过程的示意图;
图9为本申请的训练数据增强装置的具体实施方式之一的结构示意图。
具体实施方式
下面对本申请的实施例作详细说明。
通过数据增强方法,可以将原本已经标注好的训练数据做变换,以生成新的训练数据,从而更加快速、低成本地得到更多的训练数据。一般的训练数据包括输入数据和标注数据。输入数据用于输入到端到端模型中,以得到预测数据。标注数据用于与预测数据做对比,使模型能够根据二者的误差来调整自身的参数。
当端到端模型应用于自然语言处理领域时,其训练数据中的输入数据一般会包括文本。基于此,对于自然语言处理领域的训练数据而言,在进行数据增强的时候,一种重要的方式就是对输入数据中的文本做变换,生成新的文本。然后将新的文本与原本输入数据中的其他数据,以及原本的标注数据组合,以得到新的训练数据。也就是说,对于上述的训练数据增强方法而言,其最核心的就是如何对原本训练数据中的文本做变换的过程。
如果新的文本与原本输入数据中的其他数据,以及原本的标注数据不能匹配,就会导致得到的新的训练数据无效。
沿用前述的训练数据1(文本P1,问题Q1,答案A1)的例子,假设在训练数据1中,文本P1如下:
外军观察:五角大楼计划研制五大太空战武器……在新政策的“太空相关安全分级”部分还列举了数条非保密的事实,如美国政府执行的卫星空中照相侦察应具备实时监控能力以及空中信号情报搜集能力。在众多任务中,美空中照相侦察应在现行法律范围内,主要用于拍摄美领土图像,但同时还应具备外国空间情报搜集和分析的能力,为保证美本 土安全提供及时数据和信息。此外,一些美国军事专家还建议发展能将敌方卫星拖离轨道的“太空拖船”以及能自动锁定目标并发起攻击的太空雷等等……
问题Q1如下:
在新政策的"太空相关安全分级"部分还列举了数条非保密的事实,如美国政府执行的卫星空中照相侦察应具备实时监控能力以及空中信号情报搜集能力。在众多任务中,美空中照相侦察应在现行法律范围内,主要用于什么
答案A1如下:
拍摄美领土图像,但同时还应具备外国空间情报搜集和分析的能力,为保证美本土安全提供及时数据和信息
将文本P1翻译为英文文本,再将英文文本翻译为中文,得到新的文本P1",如下:
外国陆军观察:五角大楼计划开发五种太空战武器……在新政策的“太空相关安全评级”部分,还列出了几个非机密事实。例如,美国政府进行的卫星航空摄影侦察应具备实时监控能力和机载信号情报收集能力。在众多任务中,美国航空摄影侦察应该用于在现 行法律范围内拍摄美国领土,但同时它还应该有能力收集和分析外国空间信息,以提供及 时的数据和信息。确保美国的安全。此外,一些美国军事专家还建议开发可以将敌方卫星拖离轨道的“太空拖船”,以及可以自动瞄准并发动攻击的太空雷……
可见,反向翻译得到的文本P1"中不完全包含答案A1的内容,并且存在语言不连贯的问题。尤其是对于答案A1所在的句子而言,其经过反向翻译之后语义还发生了一定的变化。这就导致文本P1"与答案A1、问题Q1不匹配。即,通过这样的数据增强方法得到的新的训练数据(文本P1",问题Q1,答案A1)是一个无效的训练数据。
为此,本申请提出另外一种数据增强方法,将训练数据中的文本变换为新的文本,使新的文本与标注数据具有关联,从而减少新的文本与原本训练数据中的其他数据不匹配的问题,进而提高增强得到的新训练数据的有效概率。
在本申请的第一个实施例中,提供一种训练数据增强方法,在执行该数据增强方法时,可以以已经标注好的训练数据集中的每一个训练数据为基础进行扩增,以下仅针对其中一个训练数据的增强过程作详细说明。请参见图1,该方法包括以下S100至S400的步骤。
S100:获取来自训练数据集的目标文本。
这里的训练数据集指的是已经标注好的训练数据所构成的集合。训练数据集中包括至少两个训练数据。一般来说,一个训练数据集中常常会包括几千、几万、甚至更多的训练数据。可以将训练数据集中的任意一个训练数据作为目标数据,以此来做变换,得到新的训练数据。
训练数据集中的每一个训练数据都包括对应的输入数据和标注数据。每一个输入数据包括至少一个文本,例如可以包括一个、两个或者更多。不同输入数据中所包括的文本数量可以相同,也可以不同,本申请对此不作限定。为便于理解,后续的例子中将都以每个输入数据包括一个文本的情况为例来说明本申请的方案。
每一个文本都包括至少一个句子。需要说明的是,在本申请中的句子,可以由词和/或词组等构成。句子与句子之间,可以由句号、问号、省略号、感叹号等标点符号来分隔,也可以由逗号、冒号、分号等标点符号来分隔,本申请对此不作限定。
除此以外,输入数据中还可以包括其他数据。例如,对于机器阅读理解领域中端到端模型的训练数据而言,其他数据可以是与该输入数据中的文本对应的问题。而标注数据则可以是与输入数据,也就是文本和问题对应的答案,如表1所示。
应理解,在机器阅读理解领域,主要包括了完形填空、文本段选择和逻辑推理等任务类型。本申请的数据增强方法,可以适用于任一种任务类型的所对应的训练数据。
表1训练数据集局部示例
训练数据集中的任意一个训练数据,即前述的目标数据,其输入数据中的任意一个文本,可以作为本实施例的方法中的目标文本。一般地,目标文本应当包括至少两个句子,以便对除保留区域以外的其他句子中的至少一个做替换,避免出现保留区域以外没有其他句子的情况。可选地,目标文本以及替换后得到的变换文本都是篇章级别的文本。
S200:根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句。
目标数据中的标注数据,就是与目标文本对应的标注数据。以表1所示的训练数据为例,假设将训练数据1作为目标数据,则文本P1是目标文本,答案A1是与文本P1对应的标注数据。
在目标文本中确定标注句时,可以采用多种方法,具体可以根据应用领域的不同而不同。
例如,在一种实现方式中,可以将标注数据与目标文本进行匹配,将目标文本中与标注数据匹配的片段所在的句子,确定为标注句。
以前述的训练数据1为例,将答案A1与文本P1匹配。可知,以下下划线标注部分为文本P1中与答案A1匹配的片段。因此,“【】”内的内容即可以被确定为标注句。
文本P1:
外军观察:五角大楼计划研制五大太空战武器……{在新政策的“太空相关安全分级”部分还列举了数条非保密的事实,如美国政府执行的卫星空中照相侦察应具备实时监控能力以及空中信号情报搜集能力。【在众多任务中,美空中照相侦察应在现行法律范围内,主要用于拍摄美领土图像,但同时还应具备外国空间情报搜集和分析的能力,为保证美 本土安全提供及时数据和信息。】此外,一些美国军事专家还建议发展能将敌方卫星拖离轨道的“太空拖船”以及能自动锁定目标并发起攻击的太空雷等等}……
在前述的例子中,由于文本P1中仅有一个片段与答案匹配,故而可以将该片段所在的句子直接确定为标注句。但是,当文本中存在多个与答案匹配的片段时,如果将多个片段所在的句子都确定为标注句,则在替换时,可能会过多地保留目标文本中与答案不相关的句子,降低了替换后得到的变换文本的多样性。
为此,可以通过计算文本相似度的方法来确定唯一的标注句。具体来说,请参见图2,S200的步骤可以包括:
S201:根据与所述目标文本对应的答案,在所述目标文本中确定备选句;
S202:如果所述备选句的数量大于一个,则分别计算与所述目标文本对应的问题和每一个所述备选句的相似度;
S203:将与所述问题的相似度最高的备选句确定为标注句。
与前述类似地,首先可以将答案与目标文本进行匹配,然后将目标文本中与答案匹配的片段所在的句子,确定为备选句。如果备选句的数量为1个,则直接将该备选句确定为标注句。如果备选句的数量超过1个,则分别计算每一个备选句与问题的相似度。为便于与后续步骤中的相似度区分开,可将此处备选句与问题的相似度,称为第一相似度。最后,将第一相似度最大值所对应的备选句确定为标注句。
例如,请参见图3,目标文本(文本P1)包括了N1个句子。将文本P1对应的答案与文本P1匹配,可以确定文本P1中的句子2和句子i这两个备选句。然后计算问题与句子2的相似度为s2,问题与句子i的相似度为si。由于si的值最大,因此,将句子i确定为标注句。
这里,计算备选句与问题的相似度,可以采用现有的相似度计算方法,例如BM25(Okapi BM25)算法、Rougle-L(Recall-Oriented Understudy for Gisting Evaluation-Longest Common Subsequence)算法、词频-逆文本频率(term frequency-inversedocument frequency,TF-IDF)算法等。
在另一种实现方式中,可以按照预设的规则,从目标文本中确定出至少一个区域,然后分别计算答案与这至少一个区域中的文本之间的相似度,选取相似度最高的区域所在的句子,将其确定为标注句。例如,在一种预设规则中,可以将每一个句子看作一个区域,则可以分别计算答案与目标文本中的每一个句子之间的相似度,然后将相似度最高的句子确定为标注句。
通过上述步骤,可以在目标文本中确定出一个与标注数据相关的标注句,从而使后续生成的变换文本中也能够保留该标注句,进而避免出现最后得到的变换文本与原本目标数据中的标注数据(例如答案),以及输入数据中的其他数据(例如问题)无法对应的问题。
S300:在所述目标文本中确定保留区域。
保留区域包括标注句,保留区域的确定规则可以是预设的。目标文本中保留区域以外的区域可以称为非保留区域。
在确定规则的一种实现方式中,保留区域包括目标文本中标注句之前的M1个句子、标注句本身,以及目标文本中标注句之后的M2个句子;其中,M1和M2均为大于或等于0的整数。当M1和M2均为0时,保留区域即为标注句本身。
例如,请参见图3,如果令M1和M2都取1,则目标文本中的保留区域包括了标注句,以及标注句的前一个句子和后一个句子,即保留区域为句子i-1至句子i+1的区域。而句子1至句子i-2的区域,以及句子i+2至句子N1的区域,均为非保留区域。以前述的文本P1为例,保留区域即为“{}”所标记出的区域。
在确定规则的另一种实现方式中,可以将目标文本中标注句之前和/或之后的X个字符,以及标注句本身,确定为保留区域,其中,X为大于或等于0的整数。
当保留区域中标注句的前后还包括其他句子或者字符串时,可以使替换之后得到的变换文本中,标注句的上下文较为通顺连贯。
需要说明的是,上述例子中的确定规则的不同实现方式也可以相互结合使用,本申请对此不作限定。
S400:利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子,得到变换文本。
训练数据集中的每一个训练数据都包括至少一个文本。将训练数据集中的所有文本所构成的集合,称为原始文本集。例如,图4中的原始文本集就包括了文本P1至文本Py,共y个文本。目标文本为原始文本集中的一个文本。
从原始文本集中除目标文本以外的文本中,随机或者按照预设规则选取出至少一个句子,替换非保留区域中的至少一个句子,从而得到变换文本。
在替换时,可以将非保留区域中的句子全部替换掉,也可以仅替换其中的一部分,本申请对此不作限定。从不同的备选文本中选取出来的句子的数量可以相同,也可以不同。例如,从有的备选文本中可以选取出多个句子,从有的备选文本中可以不选取出任何句子。一般来说,当需要将非保留区域中的句子全部替换掉时,目标文本的非保留区域中有多少个句子,就可以从备选文本中选取出近似或相等数量的句子来替换,以使得变换文本与目标文本的长度近似或相等。选取出的句子可以随机或按照预设规则来替换非保留区域中的句子,本申请对此也不作限定。
以前述的文本P1为例,替换掉“{}”所标记出的区域以外的句子,则可以得到变换文本,即P1c",内容如下:
外军观察:美忧高超音速武器研发落后中国,五角大楼"极速推进"多项研发计划……在新政策的“太空相关安全分级”部分还列举了数条非保密的事实,如美国政府执行的卫星空中照相侦察应具备实时监控能力以及空中信号情报搜集能力。在众多任务中,美空中照相侦察应在现行法律范围内,主要用于拍摄美领土图像,但同时还应具备外国空间 情报搜集和分析的能力,为保证美本土安全提供及时数据和信息。此外,一些美国军事专家还建议发展能将敌方卫星拖离轨道的“太空拖船”以及能自动锁定目标并发起攻击的太空雷等等……
应理解,在替换时,由于替换规则存在多种可能性,故而得到的变换文本也存在多种不同的可能性。也就是说,当采用不同的替换规则时,一个目标文本可以与之对应的多个不同的变换文本。为便于理解,以上的例子中仅以其中一个可能的变换文本为例来说明本申请的方案。
在S400的步骤之后,还可以包括以下步骤:根据包括所述目标文本的训练数据以及所述变换文本,得到新的训练数据;
将包括目标文本的训练数据中的目标文本替换为变换文本,训练数据中除目标文本外其他的数据保持不变,从而得到新的训练数据。沿用前述的例子,包括目标文本的训练数据,即目标数据为(文本P1,问题Q1,答案A1),将其中的目标文本P1替换为变换文本P1c",就得到了新的训练数据(文本P1c",问题Q1,答案A1)。
上述的数据增强方法,首先从训练数据集的所有文本中获取一个目标文本,以此作为数据增强的基础。然后根据目标文本对应的标注数据,在目标文本中确定标注句。再在目标文本中确定保留区域和非保留区,使保留区域包括标注句。最后,利用所有文本中除目标文本以外的其余文本,来替换目标文本中非保留区内的至少一个句子,从而得到变换文本。该变换文本可以用来替换目标数据中的目标文本,从而得到一个新的训练数据。由于替换时保留了与标注数据具有关联的标注句,从而减少了变换文本与原本训练数据,即目标数据中的其他数据不匹配的问题,进而提高了新训练数据的有效概率。
可选地,分别以每个训练数据的输入数据中的文本为目标文本,重复执行前述的针对目标文本的数据增强方法,即重复执行S100至S400的步骤。这样,以原本的训练数据为基础,就可以得到至少一倍以上数量的新的训练数据。因此,采用上述数据增强方法可以快速、低成本地得到大量有效的新的训练数据。增强得到的新的训练数据可以与原本训练数据集中的训练数据一起,构成增强数据集。与单独采用原本的训练数据集训练的端到端模型相比,用增强数据集训练的端到端模型,其预测的准确率更高。在一个实例中,单独采用原本的训练数据所训练得到的模型r,其在预测时的准确率为0.748。而采用增强数据集所训练得到的模型u,其在预测时的准确率为0.753。
举例来说,当面对文本Pj和问题Qj这样的待预测的输入数据时,采用模型r得到的预测结果为Ar,采用模型u得到的预测结果为Au,而标准答案,即标注数据为Aj,具体如下。
文本Pj:
计划紧追变化!普京签署俄国防未来五年行动清单……今年初,总参谋长瓦列里格拉西莫夫说,为了达成目标,西方国家积极利用将军事资源与非军事资源相结合的新式对抗手段,同时还广泛采用政治、经济和信息方面的辅助手段。格拉西莫夫认为,只有国家各种权力机构在完成政治、外交、经济、军事、信息、社会等领域任务时通力配合,才能有效抵御俄罗斯国家安全面临的挑战和威胁……
问题Qj:
有效抵御俄罗斯国家安全面临的挑战和威胁的条件是什么
答案Ar:
完成政治、外交、经济、军事、信息、社会等领域任务时通力配合
答案Au:
国家各种权力机构在完成政治、外交、经济、军事、信息、社会等领域任务时通力配合
答案Aj:
国家各种权力机构在完成政治、外交、经济、军事、信息、社会等领域任务时通力配合
可见,答案Au与答案Aj的相似程度更高,而答案Ar与答案Aj存在一定的差距。即,采用增强数据集所训练得到的模型,其预测的准确率更高;模型的泛化性更好,面对未知的待预测的输入数据时预测的更加准确。
由于原始文本集中除目标文本以外的文本中,部分文本与目标文本的主题可能相差较大。如果从这样的文本中选取出句子来替换目标文本的非保留区域中的句子,则替换后得到的变换文本的主题可能与目标文本的主题相差较大,并且,变换文本中保留区域的上下文可能存在不够通顺连贯的问题。
为此,在一种实现方式中,可以筛选与目标文本主题更加接近的备选文本,然后从备选文本中选取出至少一个句子,来替换目标文本中的非保留区域中的至少一个句子。这样,就可以减少变换文本与目标文本主题相差较大、上下文不通顺连贯的情况的发生概率,使变换文本更具有可读性。
具体来说,请参见图5,S400的步骤可以包括:
S410:分别计算所述训练数据集中除所述目标文本以外的其余文本与所述目标文本的相似度;
S420:从所述其余文本中筛选出至少一个备选文本,所述备选文本与所述目标文本的相似度高于预设阈值;
S430:利用所述至少一个备选文本,替换所述非保留区域中的至少一个句子。
请参考图6,以原始文本集中的文本P1为目标文本,则训练数据集中除文本P1以外的其余文本即为文本P2至文本Py,共y-1个文本。分别计算这y-1个文本与目标文本的相似度,为便于区分,可将其称为第二相似度。在分别计算第二相似度之后,可以得到与这y-1个文本各自对应y-1个第二相似度。将第二相似度与预设的阈值做比较,结果第二相似度2、4和y大于预设的阈值。因此,将其对应的文本P2、P4和Py都确定为备选文本。从其余文本中筛选出的所有备选文本的集合,可以称为备选文本集。
这里,计算第二相似度可以采用现有的文本相似度计算方法。例如,可以计算两个文本的余弦相似度(Cosine Similarity)。具体来说,首先,分别将两个文本中所有词的词向量求平均值,得到句向量。然后,根据余弦定理,利用句向量来计算余弦相似度。又例如,可以计算两个文本的jaccard相似度(Jaccard Similarity)。具体来说,首先,将两个文本分别进行分词,得到与文本对应的分词结果。然后,将两个分词结果的交集除以两个分词结果的交集,即得到两个文本的jaccard相似度。还例如,可以基于TF-IDF算法来计算两个文本的第二相似度。具体来说,首先,分别将两个文本中所有词的词向量求加权平均值,得到句向量,其中,每个词的权重为该词的TF-IDF值。然后,利用句向量来计算两个文本的相似度。此外,还可以基于词移距离(Word Mover’s Distance,WMD)来计算两个文本的第二相似度。
从备选文本中的选取出单独一个句子,用来替换非保留区域中的某一个句子,该句子在变换文本中可能存在语义发生变化、上下文不连贯的问题。为了减少出现这样的问题,可以从备选文本中选取出相邻的几个句子,用来替换非保留区域中的相邻的几个句子。
具体来说,请参见图7,在一种实现方式中,S430的步骤可以包括:
S431:从第一备选文本中选取相邻的T1个句子;
S432:将所述非保留区域中相邻的T2个句子,替换为所述第一备选文本中的所述T1个句子。
第一备选文本为至少一个备选文本中的一个文本。T1为大于1的正整数,并且,T1应当小于第一备选文本所包含的句子总量。T2为正整数,并且,T2应当小于非保留区域所包含的句子总量。T1和T2可以取相同的值,也可以取不同的值。一般来说,T1和T2的取值不会过大,以防止出现替换同一个备选文本中的太多句子,导致变换文本的主题与目标文本的主题不一致的问题。
从第一备选文本中选取相邻的T1个句子,可以随机选取,也可以按照预设的规则来选取,本申请对此不作限定。被其替换的非保留区域中的相邻的T2个句子,也可以随机确定,或按照预设的规则来确定,本申请对此也不作限定。
还需要说明的是,在替换时,采用相邻的句子来替换,以及采用单独的句子来替换,二者可以相互结合。
请参考图8,在图8所示的例子中,备选文本P2包括了N2个句子,P4包括了N4个句子,Py包括了Ny个句子。从备选文本P2中随机选取出相邻的2个句子,即句子1和句子2,用来替换目标文本中的句子1和句子2。从备选文本P4中随机选取出相邻的2个句子,即句子2和句子3,用来替换目标文本中的句子3和句子4。从备选文本Py中随机选取出1个句子,即句子Ny,用来替换目标文本中的句子N1。这样,就得到了变换文本P1c"。
此外,为了便于替换非保留区域中的句子,可以先构建好替换字典。在一种实现方式中,其包括:
分别将来自训练数据集的所有文本分句,得到与文本对应的分句结果;
构建替换字典,所述替换字典中包括所述所有文本各自的索引号,以及与每一个所述索引号对应的文本的分句结果。
请参见图4,来自训练数据集的所有文本分句,即原始文本集。将原始文本集中的每一个文本都分句,得到与文本对应的分句结果。替换字典中包括了原始文本集中每一个文本的索引号,将这些分句结果对应文本的索引号,存储到替换字典中,从而完成了替换字典的构建。
在前述S400的步骤中,当需要替换目标文本的非保留区域中的句子时,就可以直接从替换字典中随机或者根据预设的规则来选取替换的句子。具体来说,首先,可以在替换字典中查找出目标文本的索引号以外的其余索引号;然后,从其余索引号所对应的分句结果中选取至少一个句子,替换目标文本的非保留区域中的至少一个句子。当需要先确定备选文本时,则可以从备选文本所对应的分句结果中选取至少一个句子,来替换非保留区域中的至少一个句子,如图8所示。
在本申请的第二个实施例中,提供了一种与前述训练数据增强方法对应的装置。请参见图9,该训练数据增强装置,包括:
获取模块1,用于获取来自训练数据集的目标文本;其中,所述训练数据集包括至少两个训练数据,每一个所述训练数据包括对应的输入数据和标注数据,每一个所述输入数据包括至少一个文本;所述目标文本为任一个所述训练数据的输入数据中的任一个文本;
处理模块2,用于根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句;在所述目标文本中确定保留区域;以及,利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子,得到变换文本;其中,所述保留区域包括所述标注句,所述非保留区域为所述目标文本中保留区域以外的区域。
可选地,端到端模型应用于机器阅读理解,每一个所述输入数据还包括与所述至少一个文本对应的问题,所述标注数据为答案。
可选地,处理模块2还用于根据与所述目标文本对应的答案,在所述目标文本中确定备选句;在所述备选句的数量大于一个的情况下,分别计算与所述目标文本对应的问题和每一个所述备选句的相似度;以及,将与所述问题的相似度最高的备选句确定为标注句。
可选地,所述保留区域包括所述目标文本中标注句之前的M1个句子、所述标注句,以及所述目标文本中标注句之后的M2个句子;其中,M1和M2均为大于或等于0的整数。
可选地,处理模块2还用于分别计算所述训练数据集中除所述目标文本以外的其余文本与所述目标文本的相似度;从所述其余文本中筛选出至少一个备选文本,以及,利用所述至少一个备选文本,替换所述非保留区域中的至少一个句子;其中,所述备选文本与所述目标文本的相似度大于预设的阈值。
可选地,处理模块2还用于从第一备选文本中选取相邻的T1个句子;以及,将所述非保留区域中相邻的T2个句子,替换为所述第一备选文本中的所述T1个句子;其中,所述第一备选文本为所述至少一个备选文本中的一个文本,T1为大于1的正整数,T2为正整数。
可选地,处理模块2还用于根据包括所述目标文本的训练数据以及所述变换文本,得到新的训练数据。
可选地,处理模块2还用于分别以每个训练数据的输入数据中的文本为目标文本,重复执行针对目标文本的数据增强方法,得到增强数据集;其中,所述增强数据集中包括训练数据集中的训练数据,以及增强得到的新的训练数据。
此外,本实施例还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得所述计算机执行第一个实施例中的任一种训练数据增强方法的部分或全部步骤。
这里的可读存储介质可为磁碟、光盘、DVD、USB、只读存储记忆体(ROM)或随机存储记忆体(RAM)等,本申请对具体的存储介质形式不作限定。
训练数据增强装置以及计算机可读存储介质用于执行第一个实施例中的任一种方法的部分或全部步骤,相应地具有前述方法所具有的有益效果,此处不再赘述。
应理解,在本申请的各种实施例中,各步骤的执行顺序应以其功能和内在逻辑确定,各步骤序号的大小并不意味着执行顺序的先后,不对实施例的实施过程构成限定。除非另外说明,本说明书中的“多个”,指的是两个或者两个以上。此外,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解,“第一”、“第二”等字样并不对数量和执行次序构成限定,并且“第一”、“第二”等字样也并不限定一定不同。
应理解,本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于训练数据增强装置、计算机可读存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (10)

1.一种端到端模型的训练数据增强方法,其特征在于,包括:
获取来自训练数据集的目标文本;其中,所述训练数据集包括至少两个训练数据,每一个所述训练数据包括对应的输入数据和标注数据,每一个所述输入数据包括至少一个文本;所述目标文本为任一个所述训练数据的输入数据中的任一个文本;
根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句;
在所述目标文本中确定保留区域,所述保留区域包括所述标注句;
利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子,得到变换文本,其中,所述非保留区域为所述目标文本中保留区域以外的区域。
2.根据权利要求1所述的方法,其特征在于,所述端到端模型应用于机器阅读理解,每一个所述输入数据还包括与所述至少一个文本对应的问题,所述标注数据为答案。
3.根据权利要求2所述的方法,其特征在于,根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句,包括:
根据与所述目标文本对应的答案,在所述目标文本中确定备选句;
如果所述备选句的数量大于一个,则分别计算与所述目标文本对应的问题和每一个所述备选句的相似度;
将与所述问题的相似度最高的备选句确定为标注句。
4.根据权利要求1所述的方法,其特征在于,所述保留区域包括所述目标文本中标注句之前的M1个句子、所述标注句,以及所述目标文本中标注句之后的M2个句子;其中,M1和M2均为大于或等于0的整数。
5.根据权利要求1所述的方法,其特征在于,利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本中非保留区域中的至少一个句子的步骤,包括:
分别计算所述训练数据集中除所述目标文本以外的其余文本与所述目标文本的相似度;
从所述其余文本中筛选出至少一个备选文本,所述备选文本与所述目标文本的相似度大于预设的阈值;
利用所述至少一个备选文本,替换所述非保留区域中的至少一个句子。
6.根据权利要求5所述的方法,其特征在于,利用所述至少一个备选文本,替换所述非保留区域中的至少一个句子的步骤,包括:
从第一备选文本中选取相邻的T1个句子;其中,所述第一备选文本为所述至少一个备选文本中的一个文本,T1为大于1的正整数;
将所述非保留区域中相邻的T2个句子,替换为所述第一备选文本中的所述T1个句子;其中,T2为正整数。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
根据包括所述目标文本的训练数据以及所述变换文本,得到新的训练数据;
分别以每个训练数据的输入数据中的文本为目标文本,重复执行针对目标文本的数据增强方法,得到增强数据集;其中,所述增强数据集中包括训练数据集中的训练数据,以及增强得到的新的训练数据。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
分别将来自训练数据集的所有文本分句,得到与文本对应的分句结果;
构建替换字典,所述替换字典中包括所述所有文本各自的索引号,以及与每一个所述索引号对应的文本的分句结果;
利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子的步骤,包括:
在所述替换字典中查找出目标文本的索引号以外的其余索引号;
从所述其余索引号所对应的分句结果中选取至少一个句子,替换所述目标文本的非保留区域中的至少一个句子。
9.一种端到端模型的训练数据增强装置,其特征在于,包括:
获取模块,用于获取来自训练数据集的目标文本;其中,所述训练数据集包括至少两个训练数据,每一个所述训练数据包括对应的输入数据和标注数据,每一个所述输入数据包括至少一个文本;所述目标文本为任一个所述训练数据的输入数据中的任一个文本;
处理模块,用于根据与所述目标文本对应的标注数据,在所述目标文本中确定标注句;在所述目标文本中确定保留区域;以及,利用所述训练数据集中除所述目标文本以外的其余文本,替换所述目标文本的非保留区域中的至少一个句子,得到变换文本;其中,所述保留区域包括所述标注句,所述非保留区域为所述目标文本中保留区域以外的区域。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至8中任一项所述的方法。
CN201811636139.XA 2018-12-29 2018-12-29 端到端模型的训练数据增强方法、装置及介质 Active CN109726404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811636139.XA CN109726404B (zh) 2018-12-29 2018-12-29 端到端模型的训练数据增强方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811636139.XA CN109726404B (zh) 2018-12-29 2018-12-29 端到端模型的训练数据增强方法、装置及介质

Publications (2)

Publication Number Publication Date
CN109726404A true CN109726404A (zh) 2019-05-07
CN109726404B CN109726404B (zh) 2023-11-10

Family

ID=66296730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811636139.XA Active CN109726404B (zh) 2018-12-29 2018-12-29 端到端模型的训练数据增强方法、装置及介质

Country Status (1)

Country Link
CN (1) CN109726404B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN111159150A (zh) * 2019-12-19 2020-05-15 北京文安智能技术股份有限公司 一种数据扩充方法及装置
CN113779959A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
WO2018033030A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
WO2018033030A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁亮等: "基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究", 《情报学报》 *
胡宝顺等: "基于句法结构特征分析及分类技术的答案提取算法", 《计算机学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110516233B (zh) * 2019-08-06 2023-08-01 深圳数联天下智能科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN111159150A (zh) * 2019-12-19 2020-05-15 北京文安智能技术股份有限公司 一种数据扩充方法及装置
CN113779959A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Also Published As

Publication number Publication date
CN109726404B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
Severyn et al. Unitn: Training deep convolutional neural network for twitter sentiment classification
Lai et al. Exploiting the matching information in the support set for few shot event classification
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
CN109726404A (zh) 端到端模型的训练数据增强方法、装置及介质
Masala et al. jurBERT: A Romanian BERT model for legal judgement prediction
Manjesh et al. Clickbait pattern detection and classification of news headlines using natural language processing
Peng et al. Using supervised pretraining to improve generalization of neural networks on binary classification problems
Yuan et al. Twitter sentiment analysis with recursive neural networks
CN108920446A (zh) 一种工程文本的处理方法
Kaghazgaran et al. Wide-ranging review manipulation attacks: Model, empirical study, and countermeasures
Kayesh et al. Answering binary causal questions: A transfer learning based approach
Khanal et al. Multi-task learning to enable location mention identification in the early hours of a crisis event
Eshmawi et al. Design of Automated Opinion Mining Model Using Optimized Fuzzy Neural Network.
Kasthuri et al. An artificial bee colony and pigeon inspired optimization hybrid feature selection algorithm for twitter sentiment analysis
Wang et al. Military chain: construction of domain knowledge graph of kill chain based on natural language model
Chang et al. Efficient graph-based word sense induction by distributional inclusion vector embeddings
Wang et al. YNUWB at SemEval-2019 Task 6: K-max pooling CNN with average meta-embedding for identifying offensive language
Koomsubha et al. A character-level convolutional neural network with dynamic input length for Thai text categorization
CN111581365A (zh) 一种谓词抽取方法
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
Raj et al. Automated Cyberstalking Classification using Social Media
Fang et al. Self-adaptive topic model: A solution to the problem of “rich topics get richer”
Alderazi et al. Multi-labeled Dataset of Arabic COVID-19 Tweets for Topic-Based Sentiment Classifications
Eronen et al. Initial study into application of feature density and linguistically-backed embedding to improve machine learning-based cyberbullying detection
Kokane et al. An adaptive algorithm for lexical ambiguity in word sense disambiguation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant