CN108021560A - 一种数据增强方法、系统、装置及计算机可读存储介质 - Google Patents
一种数据增强方法、系统、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108021560A CN108021560A CN201711282996.XA CN201711282996A CN108021560A CN 108021560 A CN108021560 A CN 108021560A CN 201711282996 A CN201711282996 A CN 201711282996A CN 108021560 A CN108021560 A CN 108021560A
- Authority
- CN
- China
- Prior art keywords
- minimum
- unit
- training corpus
- translation unit
- minimum translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Neurology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种数据增强方法,应用于神经机器翻译,包括:对双语训练语料进行词对齐处理,得到词对齐信息;根据词对齐信息确定双语训练语料中包含的最小翻译单元;按预设的向量表征计算规则对所有最小翻译单元进行计算,得到对应的向量值;利用余弦公式计算各最小翻译单元间的相似度值;判断相似度值是否超过阈值,若是,则交换超过阈值的相似度值对应的最小翻译单元在双语训练语料中的位置,得到新双语训练语料。通过此种方式可以形成新的双语语料,有效增加训练语料,且使原语料的结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。本申请还同时公开了一种数据增强系统、装置及计算机可读存储介质,具有上述有益效果。
Description
技术领域
本申请涉及神经机器翻译技术领域,特别涉及一种数据增强方法、系统、装置及计算机可读存储介质。
背景技术
神经机器翻译是Sutskever等人在2014年提出的一种基于编码器-解码器模型的机器翻译方法。和传统基于短语的统计机器翻译不同,神经机器翻译没有特征工程、隐藏结构设计等方面的困扰,而是简单地通过训练一个单一、大型的神经网络对输入句子产生合适的翻译。该方法刚被提出来的时候,效果还不如更加传统的统计机器翻译。2015年,Bahdanau等人在此工作的基础上通过引入注意力机制使得神经机器翻译在多种语言对上的评测结果超过统计机器翻译,神经机器翻译因此得到了广泛地关注。
神经机器翻译本质上是训练一个大型的神经网络,该网络由上万个神经元构成。为了能够充分地学习到网络的权重值,神经机器翻译需要大量的平行句对作为训练数据,往往平行句对越多,训练效果越好。然而,对于低资源语种来说,获得充足的训练语料是十分困难的。现有的技术很少能够有效地解决这个难题,从而在低资源语言的翻译上面,翻译的质量很难有所提升。
所以,如何能够有效的提升低资源语种语料的神经机器翻译质量,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据增强方法,应用于神经机器翻译,通过计算双语语料中各最小翻译单元或各组成单词之间是否可以在不影响语义的前提下调换部分句块,以此来形成新的双语语料,最少可以使训练语料增加一倍,且使得原双语语料的句子结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。
本申请的另一目的为提供一种数据增强系统、装置及计算机可读存储介质,应用于神经机器翻译。
为实现上述目的,本申请提供一种数据增强方法,应用于神经机器翻译,该方法包括:
对双语训练语料进行词对齐处理,得到词对齐信息;
根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元;
按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值;
利用余弦公式计算各所述最小翻译单元间的相似度值;
判断所述相似度值是否超过阈值,若是,则交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料。
可选的,对双语训练语料进行词对齐处理,得到词对齐信息,包括:
利用GIZA++工具提供的词对齐规则对所述双语训练语料进行处理,得到所述词对齐信息。
可选的,根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元,包括:
将所述双语训练语料中的源语言描述语句和目的语言描述语句以单词为单位拆分,得到源语言描述单词集合和目的语言描述单元集合;
根据所述词对齐信息确定与源语言描述单词对应的目的语言描述单元;
将源语言描述单元与对应的目的语言描述单元确定为最小翻译单元。
可选的,按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值,包括:
当所述最小翻译单元包括至少两个单词时,以每个单词为所述向量表征计算规则的最小计算单元;
利用Word2vec工具得到组成所述最小翻译单元的所有单词各自的词向量;
将组成所述最小翻译单元的所有单词各自的词向量进行求和计算,得到所述最小翻译单元的向量值。
可选的,按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值,包括:
当所述最小翻译单元包括至少两个单词时,以每个所述最小翻译单元为所述向量表征计算规则的最小计算单元;
利用所述Word2vec工具得到所述最小翻译单元的向量值。
可选的,交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料,包括:
交换最大相似度值对应的最小翻译单元在源语言描述语句中的位置;
根据所述词对齐信息找到并交换所述最大相似度值对应的最小翻译单元在目的语言描述语句中的位置,得到所述新双语训练语料。
可选的,交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料,包括:
交换最大相似度值对应的最小翻译单元在目的语言描述语句中的位置;
根据所述词对齐信息找到并交换所述最大相似度值对应的最小翻译单元在源语言描述语句中的位置,得到所述新双语训练语料。
为实现上述目的,本申请还提供了一种数据增强系统,应用于神经机器翻译,该系统包括:
词对齐单元,用于对双语训练语料进行词对齐处理,得到词对齐信息;
最小翻译单元确定单元,用于根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元;
向量表征计算单元,用于按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值;
相似度值计算单元,用于利用余弦公式计算各所述最小翻译单元间的相似度值;
判断及生成单元,用于判断所述相似度值是否超过阈值,若是,则交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料。
为实现上述目的,本申请还提供了一种面向神经机器翻译的数据增强装置,该数据增强装置包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述内容所描述的数据增强方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的数据增强方法的步骤。
本申请所提供的一种数据增强方法,应用于神经机器翻译,对双语训练语料进行词对齐处理,得到词对齐信息;根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元;按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值;利用余弦公式计算各所述最小翻译单元间的相似度值;判断所述相似度值是否超过阈值,若是,则交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料。
显然,本申请所提供的技术方案,由三个部分组成,第一部分是获取双语训练语料的词对齐信息并确定最小翻译单元;第二部分是对确定的最小翻译单元进行向量表征;第三部分利用余弦公式计算各最小翻译单元的向量表征来得到语义最接近的句块,并将其位置进行对调,从而形成新的句子。通过计算双语语料中各最小翻译单元或各组成单词之间是否可以在不影响语义的前提下调换在句子中的位置,以此来形成新的双语语料,最少可以使训练语料增加一倍,且使得原双语语料的句子结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。本申请同时还提供了一种数据增强系统、装置及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种数据增强方法的流程图;
图2为本申请实施例所提供的一种数据增强方法中确定最小翻译单元的流程图;
图3为本申请实施例所提供的一种数据增强方法中向量值的一种计算方式的流程图;
图4为本申请实施例所提供的一种数据增强方法中向量值的另一种计算方式的流程图。
图5为本申请实施例所提供的一种数据增强方法中高相似度句块的一种位置交换方式的流程图;
图6为本申请实施例所提供的一种数据增强方法中高相似度句块的另一种位置交换方式的流程图;
图7为本申请实施例所提供的一种数据增强系统的结构框图。
具体实施方式
本申请的核心是提供一种数据增强方法、系统、装置及计算机可读存储介质,通过计算双语语料中各最小翻译单元或各组成单词之间是否可以在不影响语义的前提下调换部分句块,以此来形成新的双语语料,最少可以使训练语料增加一倍,且使得原双语语料的句子结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
以下结合图1,图1为本申请实施例所提供的一种数据增强方法的流程图。
其具体包括以下步骤:
S101:对双语训练语料进行词对齐处理,得到词对齐信息;
本步骤旨在对获取到的低资源双语训练语料进行词对齐处理,以得到相互对应的词对齐信息。
词对齐定义为:在双语文本中成互译关系的词之间建立对应关系(可能是多个词),常见的表示方法为:i→j表示将位置为i的目标单词对应到位置为j的源单词。由于双语语料可被分为源语言描述语句和目的语言描述语句,就像在使用源语言为英语、源语言描述语言为“I Love You”,对应的目的语言为中文,目的语言描述语句为“我爱你”。此时的“I”对应“我”、“Love”对应“爱”以及“You”对应“你”,使用上面的表示方法则可以为:1→1、2→2、3→3。
当然,上面给出的只是一个最简单的例子,还存在更一般的词语对齐情况,例如一对多、多对一、多对多、对空以及交叉等情况,我们能够很容易找到这些例子,此处不再赘述。
具体的,实现词对齐这一手段多种多样,通常可以使用开源工具GIZA++,GIZA++是GIZA(为实现统计机器翻译而编写得到的)的扩展,扩展部分主要由Franz Josef Och开发。GIZA++主要算法包括IBM model、HMM(两个经典翻译模型)。同时在双语训练语料数据量大的情况下,可能其完成整个词语对齐的过程耗时较长。现在也有MGIZA++,它是GIZA++的一个多线程版本。当然也可以选用其它工具或手段来实现双语训练语料的词对齐过程,只需要能够最终得到词对齐信息以便于后续步骤确定最小翻译单元即可,此处并不做具体限定。
S102:根据词对齐信息确定双语训练语料中包含的所有最小翻译单元;
在S101的基础上,本步骤旨在根据词对齐信息确定双语训练语料中包含的所有最小翻译单元。
最小翻译单元的概念可以通过以下几个中译英过程的例子来理解:
例1,中文的源语言描述语句为:“他将访问新西兰”,对应的英语的目的语言描述语句为:“He will visit New Zealand”,按照S101提及的词对齐表示方式会得到:1→1,2→2,3→3,4→4,5→4的结果。即出现了一对多的情况,这是因为在中文中“新西兰”是作为一个整体出现,虽然“新西兰”这个词单独拆开为3个单字也能表述一定的意义,但是却完全不能对应上“New Zealand”这个英语地名。
例2,中文的源语言描述语句为:“他是个六岁的孩子”,对应的英语的目的语言描述语句为:“He is a Six-year-old boy”,按照S101提及的词对齐表示方式会得到:1→1,2→2,3→3,4→4,4→5,4→6,5→7的结果。即出现了多对一的情况,类似于中文,Six-year-old此处是将三个英语单词作为一个整体出现的。
例3,中文的源语言描述语句为:“毕竟他只是个六岁的孩子”,对应的英语的目的语言描述语句为:“After all,He is only a boy of six”,按照S101提及的词对齐表示方式会得到:1→1,2→1,3→空,4→2,5→3,6→3,7→4,8→8,9→7,10→5,10→5的结果,其中,“毕竟”、“只是”和“孩子”在源语言描述语句中均作为整体出现,因此只按一个位置计算。在使用如此的目的语言描述语言时,词对齐过程后不仅出现了一对多、多对一、多对多、对空以及交叉的情况出现。
因此,针对词对齐过程中设置的源语言和目的语言的差别,我们将一对词对齐信息表示的分别位于源语言描述语句和目的语言描述语句中对应位置的句块互称为彼此的最小翻译单元。举个例子来说,例3中的“他”与“he”互为最小翻译单元,“毕竟”与“Afterall”虽然都包括两个中文单字或两个英文单词,但其也互为最小翻译单元,“只是”与“isonly”也互为最小翻译单元,剩下的依次类推,也就是说,最小翻译单元中位于源语言描述语句和目的语言描述语句中对应位置的句块可能分别由一个或多个单词或单字组成。
最小翻译单元的一种公式化描述方式如下:
句子的最小翻译单元形式化的描述如下:源语言描述语句集合表示为(X1,X2,…XN),目的语言描述语句集合表示为(Y1,Y2,…YN),Xij表示为源语言描述语句从左往右第i个单词到第j个单词,Ymn表示为目的语言描述语句从左往右第m个单词到第n个单词,a(Xij)表示句块Xij中单词所对齐的目的语言描述语句中单词的集合,a(Ymn)表示句块Ymn中单词所对齐的源语言描述语句中单词的集合,若a(Xij)∈Ymn,a(Ymn)∈Xij且不存在i≤q≤w<<j,m≤r≤t≤n,使得a(Xqw)∈Yrt,a(Yrt)∈Xqw,则称Xij和Ymn互为源语言描述语句和目的语言描述语句的最小翻译单元。
S103:按预设的向量表征计算规则对所有最小翻译单元进行计算,得到各最小翻译单元对应的向量值;
在S102的基础上,本步骤旨在按预设的向量表征计算规则对所有最小翻译单元进行计算,得到各最小翻译单元对应的向量值。
具体的,大体存在两种方法,根据每个最小翻译单元中包含的单字或单词数量来区分,若每个最小翻译单元仅包括一个单字或单词,则可以以每个单词为单位,使用词向量计算工具对待计算语料进行词向量训练,然后用单词向量的和对最小翻译单元进行向量表征,此种方式得到的向量值可以被称为最小翻译单元的间接向量(I-MTU);若每个最小翻译单元包括超过一个单字或单词,但却仍然将这个最小翻译单元当做一个单词或单字来进行词向量训练、进行向量表征、最终得到各最小翻译单元对应的向量值,这种方式下得到的向量值可以被称为最小翻译单元的直接向量(I-MTU)。
关于词向量计算工具,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是,word2vec是一个计算词向量的开源工具,当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算词向量的CBoW模型和Skip-gram模型。
当然,也可以通过其它工具或手段实现相同的目的,本申请是通过利用计算得到的词向量,并结合后续的余弦公式来计算得到各最小翻译单元间的相似度,也不排除可以利用其它方式来判断分别位于源语言描述语句和目的语言描述语句中互为词对齐关系的各最小翻译单元之间的结构位置关系,以此来进行位置调换,可以根据实际情况结合具体要求和各限制条件综合考虑和选择。
S104:利用余弦公式计算各最小翻译单元间的相似度值;
在S103的基础上,本步骤旨在利用计算得到各最小翻译单元的向量值结合余弦公式得到各最小翻译单元之间的相似度值。
具体的,可以为如下公式:
其中的,mut1和mut2分别为两个最小翻译单元在源语言描述语句中的部分的向量或两个最小翻译单元在目的语言描述语句中的部分的向量,|mut1|为mut1的向量值,|mut2|为mut2的向量值,sim在此处则表示相似度。
S105:判断相似度值是否超过阈值;
在S104的基础上,本步骤旨在为计算出来的各最小翻译单元之前的相似度值做筛选,方式多种多样,例如可以设定一个阈值,超过该阈值则认定得到这个相似度值的两个最小翻译单元可在不影响语义的情况下交换位置,以得到新的双语训练语料;也可以在完成所有最小翻译单元之间的相似度计算后,选取相似度最大的一对最小翻译单元进行位置互换,以得到新的双语训练语料。但同时存在即使采用最大的相似度值对应的一对最小翻译单元进行位置的调换,会使得到的新双语训练语料与原双语训练语料存在较大的差异,实际使用效果不好,对神经机器翻译的质量提升影响很小。
当然,还可以选择其它的方式来判断得到的相似度值对应的最小翻译是否可以交换位置,来形成新的双语训练语料,大前提是不影响原双语训练语料所表达的含义,可以根据实际情况灵活选择,此处并不做具体限定。
S106:交换超过阈值的相似度值对应的最小翻译单元在双语训练语料中的位置,得到新双语训练语料。
在S105的基础上,本步骤采用交换超过阈值的相似度值对应的最小翻译单元在双语训练语料中的位置,以得到新双语训练语料,在此种情况下,由于选择了超过设定的阈值的所有相似度值对应的最小翻译单元对,可能存在多种交换方式,即能够从一个原双语训练语料得到多个新双语训练语料。
具体的,由于存在源语言描述语句和目的语言描述语句两端,相似度值达到要求的最小翻译单元对分别在这两端以哪一端为主进行交换,另一端根据匹配的词对齐信息来相应调换位置,也是一个考虑的方向。即存在以源语言描述语句为主,目的语言描述语句跟随源语言描述语句相应的调换位置,此种方式可以被称为SBG(Source-Based Generate,以源端为基准产生);以目的语言描述语句为主,源语言描述语句跟随目的语言描述语句相应的调换位置,此种方式可以被称为TBG(Target-Based Generate,以目的端为基准产生)。
进一步的,在一个未知的语言翻译任务中,并不能事先知道那种方式更好,可以采取一种折中的方式进行:即将源语言描述语句和目的语言描述语句相结合产生新句对(combination-based generate,CBG)。CBG综合考虑源语言描述语句和的语言描述语句相似度值排在前K个的最小翻译单元对,两者取交集,若该交集非空,则取交集里相似度最高的作为两端最相似的最小翻译单元。若该交集为空,则比较源语言描述语句和目的语言描述语句中最大的相似度值,当源语言描述语句中的相似度值高于目的语言描述语句中的时候,我们采用SBG方式产生新句对;否则,我们采用TBG方式产生新句对。
基于上述技术方案,本申请实施例提供的一种数据增强方法,应用于神经机器翻译,通过计算双语语料中各最小翻译单元或各组成单词之间是否可以在不影响语义的前提下调换部分句块,以此来形成新的双语语料,最少可以使训练语料增加一倍,且使得原双语语料的句子结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。
以下结合图2,图2为本申请实施例所提供的一种数据增强方法中确定最小翻译单元的流程图。
本实施例是针对上一实施例中S101和S102中如何进行词对齐和如何确定最小翻译单元所做出的一个具体限定,其它步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
其具体包括以下步骤:
S201:利用GIZA++工具提供的词对齐规则对双语训练语料进行处理,得到词对齐信息;
S202:将双语训练语料中的源语言描述语句和目的语言描述语句以单词为单位拆分,得到源语言描述单词集合和目的语言描述单元集合;
S203:根据词对齐信息确定与源语言描述单词对应的目的语言描述单元;
S204:将源语言描述单元与对应的目的语言描述单元确定为最小翻译单元。
本实施例首先利用GIZA++工具按预设词对齐规则进行词对齐处理,得到词对齐信息,并将源语言描述语句和目的语言描述语句以最小单位进行拆分得到两个集合,以利用该词对齐信息在各集合中找到对应的句块,最终确定出互为最小翻译单元的句块。
以下结合图3和图4,图3为本申请实施例所提供的一种数据增强方法中向量值的一种计算方式的流程图;图4为本申请实施例所提供的一种数据增强方法中向量值的另一种计算方式的流程图。
本实施例是针对上一实施例中S103中如何根据向量表征计算规则得到向量值所做出的两种可行方式的说明,其它步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
其分别包括以下步骤:
S301:当最小翻译单元包括至少两个单词时,以每个单词为向量表征计算规则的最小计算单元;
S302:利用Word2vec工具得到组成最小翻译单元的所有单词各自的词向量;
S303:将组成最小翻译单元的所有单词各自的词向量进行求和计算,得到最小翻译单元的向量值。
S401:当最小翻译单元包括至少两个单词时,以每个最小翻译单元为向量表征计算规则的最小计算单元;
S402:利用Word2vec工具得到最小翻译单元的向量值。
以上分别为实际使用过程中,面临的两种选择,两者均可使用,但各有优点,单论单字或单词的方式,效率会稍低,但相反得到的结果可能会更加精准,但也有可能在至少包括两个单词的最小翻译单元中按单词或单字拆开进行向量值的计算后,这个最小翻译单元的总体向量值反而更不利于后续相似度的计算,因此还需要根据实际情况具体分析,灵活选择最合适的方式。
以下结合图5和图6,图5为本申请实施例所提供的一种数据增强方法中高相似度句块的一种位置交换方式的流程图;图6为本申请实施例所提供的一种数据增强方法中高相似度句块的另一种位置交换方式的流程图。
本实施例是针对上一实施例中S106中如何交换句块得到新双语语料所做出的两种可行方式的说明,其它步骤与上一实施例大体相同,相同部分可参见上一实施例相关部分,在此不再赘述。
其分别包括以下步骤:
S501:交换最大相似度值对应的最小翻译单元在源语言描述语句中的位置;
S502:根据词对齐信息找到并交换最大相似度值对应的最小翻译单元在目的语言描述语句中的位置,得到新双语训练语料。
S601:交换最大相似度值对应的最小翻译单元在目的语言描述语句中的位置;
S602:根据词对齐信息找到并交换最大相似度值对应的最小翻译单元在源语言描述语句中的位置,得到新双语训练语料。
本实施例分别为SBG方式和TBG方式,建立在余弦公式情况下,(Xi,Yi)是源端和目标端相互对齐的最小翻译单元对,如下表1所示:(Xi,Xj)表示源端第i个和第j个最小翻译单元的相似度。图5提供的SBG方式为:首先找到源端最相似的最小翻译单元X1和X3,并对调它们的位置,然后根据对齐信息,找到目标端对应的最小翻译单元Y1和Y3,并对调它们的位置。图6提供的TBG方式是以目标端为基准产生新句对与SBG方式类似,这里不再赘述。
还存在第三种方式,第三种方式是建立在上述两种的基础上,由于在对于一个未知的语言翻译任务中,我们并不能事先知道SBG和TBG哪种方法更好,而训练神经机器翻译往往需要大量的时间和资源,因此可以采用CBG方式。CBG方式综合考虑源端和目标端相似度值排在前K个的最小翻译单元对,两者取交集,若该交集非空,则取交集里相似度最高的作为两端最相似的最小翻译单元。若该交集为空,则比较源端和目标端最大的相似度值,当源端形似度值高于目标端的时候,我们采用SBG方式产生新句对;否则,我们采用TBG方式产生新句对,进一步的,可以把K值设置为3或其它一个更加合理的数值。
表1新句对形成示例
基于上述技术方案,本申请实施例提供的一种数据增强方法,应用于神经机器翻译,通过计算双语语料中各最小翻译单元或各组成单词之间是否可以在不影响语义的前提下调换部分句块,以此来形成新的双语语料,最少可以使训练语料增加一倍,且使得原双语语料的句子结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。
因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。
下面请参见图7,图4为本申请实施例所提供的一种数据增强系统的结构框图。
该数据增强系统可以包括:
应用于神经机器翻译,该系统包括:
词对齐单元100,用于对双语训练语料进行词对齐处理,得到词对齐信息;
最小翻译单元确定单元200,用于根据词对齐信息确定双语训练语料中包含的所有最小翻译单元;
向量表征计算单元300,用于按预设的向量表征计算规则对所有最小翻译单元进行计算,得到各最小翻译单元对应的向量值;
相似度值计算单元400,用于利用余弦公式计算各最小翻译单元间的相似度值;
判断及生成单元500,用于判断相似度值是否超过阈值,若是,则交换超过阈值的相似度值对应的最小翻译单元在双语训练语料中的位置,得到新双语训练语料。
基于上述实施例,本申请还提供了一种面向神经机器翻译的数据增强装置,可以包括存储器和处理器,其中,该存储器中存有计算机程序,该处理器调用该存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然该数据增强装置还可以包括各种必要的网络接口、电源以及其它零部件等。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种数据增强方法,应用于神经机器翻译,其特征在于,包括:
对双语训练语料进行词对齐处理,得到词对齐信息;
根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元;
按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值;
利用余弦公式计算各所述最小翻译单元间的相似度值;
判断所述相似度值是否超过阈值,若是,则交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料。
2.根据权利要求1所述的方法,其特征在于,对双语训练语料进行词对齐处理,得到词对齐信息,包括:
利用GIZA++工具提供的词对齐规则对所述双语训练语料进行处理,得到所述词对齐信息。
3.根据权利要求2所述的方法,其特征在于,根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元,包括:
将所述双语训练语料中的源语言描述语句和目的语言描述语句以单词为单位拆分,得到源语言描述单词集合和目的语言描述单元集合;
根据所述词对齐信息确定与源语言描述单词对应的目的语言描述单元;
将源语言描述单元与对应的目的语言描述单元确定为最小翻译单元。
4.根据权利要求3所述的方法,其特征在于,按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值,包括:
当所述最小翻译单元包括至少两个单词时,以每个单词为所述向量表征计算规则的最小计算单元;
利用Word2vec工具得到组成所述最小翻译单元的所有单词各自的词向量;
将组成所述最小翻译单元的所有单词各自的词向量进行求和计算,得到所述最小翻译单元的向量值。
5.根据权利要求3所述的方法,其特征在于,按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值,包括:
当所述最小翻译单元包括至少两个单词时,以每个所述最小翻译单元为所述向量表征计算规则的最小计算单元;
利用所述Word2vec工具得到所述最小翻译单元的向量值。
6.根据权利要求1所述的方法,其特征在于,交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料,包括:
交换最大相似度值对应的最小翻译单元在源语言描述语句中的位置;
根据所述词对齐信息找到并交换所述最大相似度值对应的最小翻译单元在目的语言描述语句中的位置,得到所述新双语训练语料。
7.根据权利要求1所述的方法,其特征在于,交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料,包括:
交换最大相似度值对应的最小翻译单元在目的语言描述语句中的位置;
根据所述词对齐信息找到并交换所述最大相似度值对应的最小翻译单元在源语言描述语句中的位置,得到所述新双语训练语料。
8.一种数据增强系统,应用于神经机器翻译,其特征在于,包括:
词对齐单元,用于对双语训练语料进行词对齐处理,得到词对齐信息;
最小翻译单元确定单元,用于根据所述词对齐信息确定所述双语训练语料中包含的所有最小翻译单元;
向量表征计算单元,用于按预设的向量表征计算规则对所有所述最小翻译单元进行计算,得到各所述最小翻译单元对应的向量值;
相似度值计算单元,用于利用余弦公式计算各所述最小翻译单元间的相似度值;
判断及生成单元,用于判断所述相似度值是否超过阈值,若是,则交换超过所述阈值的相似度值对应的最小翻译单元在所述双语训练语料中的位置,得到新双语训练语料。
9.一种面向神经机器翻译的数据增强装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711282996.XA CN108021560B (zh) | 2017-12-07 | 2017-12-07 | 一种数据增强方法、系统、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711282996.XA CN108021560B (zh) | 2017-12-07 | 2017-12-07 | 一种数据增强方法、系统、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108021560A true CN108021560A (zh) | 2018-05-11 |
CN108021560B CN108021560B (zh) | 2021-04-27 |
Family
ID=62078955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711282996.XA Active CN108021560B (zh) | 2017-12-07 | 2017-12-07 | 一种数据增强方法、系统、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021560B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284511A (zh) * | 2018-09-04 | 2019-01-29 | 苏州大学 | 主动学习平行语料构建方法 |
CN109726285A (zh) * | 2018-12-18 | 2019-05-07 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、存储介质及终端设备 |
CN110210041A (zh) * | 2019-05-23 | 2019-09-06 | 北京百度网讯科技有限公司 | 互译句对齐方法、装置及设备 |
CN110516233A (zh) * | 2019-08-06 | 2019-11-29 | 深圳和而泰家居在线网络科技有限公司 | 数据处理的方法、装置、终端设备以及存储介质 |
CN110781689A (zh) * | 2019-10-25 | 2020-02-11 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
CN110941964A (zh) * | 2019-12-11 | 2020-03-31 | 北京小米移动软件有限公司 | 双语语料筛选方法、装置及存储介质 |
CN111191469A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 大规模语料清洗对齐方法及装置 |
CN111914571A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语句切分方法及装置、存储介质、处理器及终端设备 |
CN112446224A (zh) * | 2020-12-07 | 2021-03-05 | 北京彩云环太平洋科技有限公司 | 平行语料处理方法、装置、设备及计算机可读存储介质 |
CN113591493A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
US20220067307A1 (en) * | 2020-07-22 | 2022-03-03 | Unbabel Inc. | System and method for training multilingual machine translation evaluation models |
US11657277B2 (en) * | 2019-05-23 | 2023-05-23 | Google Llc | Generating neural network outputs using insertion commands |
CN113591493B (zh) * | 2021-01-29 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408078A (zh) * | 2014-11-07 | 2015-03-11 | 北京第二外国语学院 | 一种基于关键词的中英双语平行语料库构建方法 |
CN104572629A (zh) * | 2013-10-18 | 2015-04-29 | 富士通株式会社 | 生成单语解析模型的方法和装置以及语言转换装置 |
-
2017
- 2017-12-07 CN CN201711282996.XA patent/CN108021560B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572629A (zh) * | 2013-10-18 | 2015-04-29 | 富士通株式会社 | 生成单语解析模型的方法和装置以及语言转换装置 |
CN104408078A (zh) * | 2014-11-07 | 2015-03-11 | 北京第二外国语学院 | 一种基于关键词的中英双语平行语料库构建方法 |
Non-Patent Citations (2)
Title |
---|
MARZIEH FADAEE ET AL.: "Data Augmentation for Low-Resource Neural Machine Translation", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
刘昊 等: "基于全局搜索和局部分类的特定领域双语网站识别方法", 《山西大学学报(自然科学版)》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284511A (zh) * | 2018-09-04 | 2019-01-29 | 苏州大学 | 主动学习平行语料构建方法 |
CN109284511B (zh) * | 2018-09-04 | 2023-05-16 | 苏州大学 | 主动学习平行语料构建方法 |
CN109726285A (zh) * | 2018-12-18 | 2019-05-07 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、存储介质及终端设备 |
CN111914571A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语句切分方法及装置、存储介质、处理器及终端设备 |
CN110210041A (zh) * | 2019-05-23 | 2019-09-06 | 北京百度网讯科技有限公司 | 互译句对齐方法、装置及设备 |
US11657277B2 (en) * | 2019-05-23 | 2023-05-23 | Google Llc | Generating neural network outputs using insertion commands |
CN110516233A (zh) * | 2019-08-06 | 2019-11-29 | 深圳和而泰家居在线网络科技有限公司 | 数据处理的方法、装置、终端设备以及存储介质 |
CN110516233B (zh) * | 2019-08-06 | 2023-08-01 | 深圳数联天下智能科技有限公司 | 数据处理的方法、装置、终端设备以及存储介质 |
US11461561B2 (en) | 2019-10-25 | 2022-10-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for information processing, and storage medium |
CN110781689A (zh) * | 2019-10-25 | 2020-02-11 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
KR20210050484A (ko) * | 2019-10-25 | 2021-05-07 | 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 | 정보 처리 방법, 장치 및 저장 매체 |
KR102327790B1 (ko) * | 2019-10-25 | 2021-11-17 | 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 | 정보 처리 방법, 장치 및 저장 매체 |
CN110941964A (zh) * | 2019-12-11 | 2020-03-31 | 北京小米移动软件有限公司 | 双语语料筛选方法、装置及存储介质 |
CN110941964B (zh) * | 2019-12-11 | 2023-08-15 | 北京小米移动软件有限公司 | 双语语料筛选方法、装置及存储介质 |
CN111191469A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 大规模语料清洗对齐方法及装置 |
CN111191469B (zh) * | 2019-12-17 | 2023-09-19 | 语联网(武汉)信息技术有限公司 | 大规模语料清洗对齐方法及装置 |
US20220067307A1 (en) * | 2020-07-22 | 2022-03-03 | Unbabel Inc. | System and method for training multilingual machine translation evaluation models |
CN112446224A (zh) * | 2020-12-07 | 2021-03-05 | 北京彩云环太平洋科技有限公司 | 平行语料处理方法、装置、设备及计算机可读存储介质 |
CN113591493A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN113591493B (zh) * | 2021-01-29 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108021560B (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021560A (zh) | 一种数据增强方法、系统、装置及计算机可读存储介质 | |
Mizumoto et al. | Exploring the potential of using an AI language model for automated essay scoring | |
Kumar et al. | Get it scored using autosas—an automated system for scoring short answers | |
Al Tamimi et al. | AARI: automatic Arabic readability index. | |
Sangwin et al. | Automation of mathematics examinations | |
CN111125331A (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN109471915A (zh) | 一种文本评价方法、装置、设备以及可读存储介质 | |
CN107291680A (zh) | 一种基于模板的自动生成作文的系统及实现方法 | |
Ren | The use of machine translation algorithm based on residual and LSTM neural network in translation teaching | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
Killawala et al. | Computational intelligence framework for automatic quiz question generation | |
CN110472062A (zh) | 识别命名实体的方法及装置 | |
CN110705306B (zh) | 一种作文文题一致性的测评方法 | |
Gupta et al. | A TENGRAM method based part-of-speech tagging of multi-category words in Hindi language | |
Liu et al. | An evaluation of gpt-4v and gemini in online vqa | |
Galhardi et al. | Automatic grading of portuguese short answers using a machine learning approach | |
Liu et al. | Corpus-based bundle analysis to disciplinary variations: Relocating the role of bundle extraction criteria | |
Iyyer et al. | Answering complicated question intents expressed in decomposed question sequences | |
Graven et al. | <? Pub Dtl=""?> A Consideration of the Use of Plagiarism Tools for Automated Student Assessment | |
CN112507082A (zh) | 一种智能识别不当文本交互的方法、装置和电子设备 | |
Alrdahi et al. | Learning to play chess from textbooks (LEAP): a corpus for evaluating chess moves based on sentiment analysis | |
McAllister et al. | Interested Complicities | |
Liu et al. | MFDNN: Mixed Features Deep Neural Network Model for Prompt-independent Automated Essay Scoring | |
Sangani et al. | Comparing deep sentiment models using quantified local explanations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |