CN113591496A - 一种双语词语对齐方法及系统 - Google Patents
一种双语词语对齐方法及系统 Download PDFInfo
- Publication number
- CN113591496A CN113591496A CN202110801838.0A CN202110801838A CN113591496A CN 113591496 A CN113591496 A CN 113591496A CN 202110801838 A CN202110801838 A CN 202110801838A CN 113591496 A CN113591496 A CN 113591496A
- Authority
- CN
- China
- Prior art keywords
- sample
- matrix
- module
- word vector
- source language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000011159 matrix material Substances 0.000 claims abstract description 288
- 239000013598 vector Substances 0.000 claims abstract description 256
- 238000005457 optimization Methods 0.000 claims abstract description 147
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000009826 distribution Methods 0.000 claims abstract description 91
- 230000009466 transformation Effects 0.000 claims abstract description 65
- 238000013528 artificial neural network Methods 0.000 claims abstract description 50
- 238000013519 translation Methods 0.000 claims abstract description 44
- 230000002457 bidirectional effect Effects 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000014616 translation Effects 0.000 description 37
- 230000006870 function Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001983 poloxamer Polymers 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种双语词语对齐方法及系统,该方法包括:获取源语种词向量和目标语种词向量;将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。本发明可以实现高质量的双语词语对齐,提高了词语翻译的精度。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种双语词语对齐方法及系统。
背景技术
利用单语种语料以及人工标注词典进行跨语种词语对齐,对构建机器翻译模型、融合跨语种语义信息、缩减“信息语言鸿沟”均具有重要意义,是近年来自然语言处理的热点研究方向。
然而,目前的跨语种词语对齐模型,主要依赖于人工标注词典进行训练,这不仅效率低下,而且带来了巨大的培训和标注成本;同时,每个语种的单语种语料库都蕴含着丰富的语义信息,且不同语种的语义信息具有一定的相似性,导致词语对齐准确性较低。因此,亟需一种双语词语对齐方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种双语词语对齐方法及系统。
本发明提供一种双语词语对齐方法,包括:
获取源语种词向量和目标语种词向量;
将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;
根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
根据本发明提供的一种双语词语对齐方法,所述词语对齐优化模型通过以下步骤训练得到:
S201,根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块;
S202,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;
S203,将所述双向词典扩充后的样本种子词典和所述第一样本优化正交矩阵输入到第二神经网络进行训练,得到预训练的有监督模块和第二样本优化正交矩阵;
S204,根据所述第二样本优化正交矩阵,生成新的样本先验分布矩阵;
S205,将所述新的样本先验分布矩阵和所述第二样本优化矩阵输入到所述预训练的无监督模块中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,重复步骤S202至S205,得到训练好的词语对齐优化模型。
根据本发明提供的一种双语词语对齐方法,所述训练好的词语对齐优化模型还通过以下步骤训练得到:
S301,根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块;
S302,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;
S303,将所述双向词典扩充后的样本种子词典输入到第二神经网络进行训练,得到预训练的有监督模块和第二样本优化正交矩阵;
S3041,根据所述第二样本优化正交矩阵,生成新的样本先验分布矩阵;将所述第一样本优化正交矩阵和所述新的样本先验分布矩阵输入到所述预训练的无监督模块中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,重复步骤302至步骤3041,得到训练好的无监督模块,至步骤S305;
S3042,将所述第二样本优化正交矩阵和所述双向词典扩充后的样本种子词典输入到预训练的有监督模块中进行训练,得到当前训练轮次的有监督模块和当前训练轮次的第二样本优化正交矩阵;根据所述当前训练轮次的第二样本优化正交矩阵,生成下一轮次的样本先验分布矩阵,重复步骤S301、步骤S302、步骤S303和步骤S3042,得到训练好的有监督模块;
S305,根据训练好的无监督模块和训练好的有监督模块,获取训练好的词语对齐优化模型。
根据本发明提供的一种双语词语对齐方法,所述根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块,包括:
将所述样本先验分布矩阵输入到所述第一神经网络中,根据松弛匹配算法,基于所述第一神经网络,对所述样本源语种到所述样本目标语种,以及从所述样本目标语种到所述样本源语种两个方向的词向量进行求解,得到样本匹配矩阵;
根据梯度下降法,对所述样本匹配矩阵进行求解,获取样本转换矩阵;
对所述样本转换矩阵进行正交化处理,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块。
根据本发明提供的一种双语词语对齐方法,所述根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典,包括:
根据所述第一样本优化正交矩阵,对所述样本源语种到所述样本目标语种方向的词向量进行转换,获取前向距离矩阵;
对所述第一样本优化正交矩阵进行转置,获取转置后的第一样本优化正交矩阵,并根据所述转置后的第一样本优化正交矩阵,对所述样本目标语种到所述样本源语种方向的词向量进行转换,获取后向距离矩阵;
根据所述前向距离矩阵和所述后向距离矩阵,生成候选翻译对集合;
根据所述候选翻译对集合,获取所述候选翻译对集合中每个翻译对的置信度;
根据所述置信度,对所述候选翻译对集合中每个翻译对进行排序,并根据排序结果,获取双向词典扩充种子词典。
根据本发明提供的一种双语词语对齐方法,在所述根据训练好的无监督模块和训练好的有监督模块,获取训练好的词语对齐优化模型之前,所述方法还包括:
根据所述无监督模块输出的第一样本优化正交矩阵,对样本源语种词向量和样本目标语种词向量进行对齐,获取所述样本源语种词向量和所述样本目标语种词向量之间的第一距离;
根据所述有监督模块输出的第二样本优化正交矩阵,对所述样本源语种词向量和所述样本目标语种词向量进行对齐,获取所述样本源语种词向量和所述样本目标语种词向量之间的第二距离;所述第一距离和所述第二距离为所述样本源语种词向量和所述样本目标语种词向量之间的Wasserstein距离;
对所述第一距离和所述第二距离进行判断,若判断获知所述第一距离小于第二距离,则将所述第一样本优化正交矩阵作为输出变换矩阵;若判断获知所述第一距离大于等于第二距离,将所述第二样本优化正交矩阵作为输出变换矩阵。
本发明还提供一种双语词语对齐系统,包括:
词向量获取模块,用于获取源语种词向量和目标语种词向量;
正交变换矩阵获取模块,用于将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;
词语对齐模块,用于根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述双语词语对齐方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述双语词语对齐方法的步骤。
本发明提供的双语词语对齐方法及系统,通过样本先验分布矩阵指导无监督模块进行训练,同时通过扩充后的样本种子词典训练有监督模块,对无监督模块和有监督模块进行交替训练得到训练好的词语对齐优化模型,实现有监督模块和无监督模块的相互受益、相互增强;将源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,得到正交变换矩阵,以根据正交变换矩阵实现词语对齐,与现有的技术相比,本发明可以实现高质量的双语词语对齐,提高了词语翻译的精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的双语词语对齐方法的流程示意图;
图2为本发明提供的基于循环优化策略的词语对齐优化模型框架的示意图;
图3为本发明提供的基于平行优化策略的词语对齐优化模型框架的示意图;
图4为本发明提供的双语词语对齐系统的结构示意图;
图5为本发明提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的双语词语对齐方法的流程示意图,如图1所示,本发明提供了一种双语词语对齐方法,包括:
步骤101,获取源语种词向量和目标语种词向量。
在本发明中,对待处理的源语种文本和待处理的目标语种文本进行编码处理,分别获取源语种词向量和目标语种词向量。源语种和目标语种为两种不同的跨语种语言。可选地,源语种词向量可以是英文词向量,相对应的目标语种词向量可以为中文词向量;源语种词向量可以是中文词向量,相对应的目标语种词向量可以为英文词向量。需要说明的是,本发明对语种不作具体限定。
考虑到每个语种中都存在着大量超低频词汇可以忽略,可以认为两种语种词向量具有相同的词表长度n和相同的词向量维度d。
步骤102,将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的。
在本发明中,无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,第一神经网络为无监督模块中的神经网络。具体地,通过对有监督模型进行训练得到有监督模型的优化正交变换矩阵,根据有监督模型的优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放(Cross-domain Similarity Local Scaling,,简称CSLS)距离,获取得到样本源语种词向量和样本目标语种词向量的距离矩阵,根据该距离矩阵生成样本先验分布矩阵,通过样本先验分布矩阵指导无监督模块进行训练。
进一步地,有监督模块是样本种子词典对第二神经网络进行训练得到的。优选地,有监督模块优化时使用的样本种子词典是经过双向词典扩充(Bidirectional LexiconUpdating,简称BLU)后的样本种子词典。具体地,根据源语种和目标语种,确定已标注的样本种子词典在源语种和目标语种上分别对应的词向量矩阵,对源语种和目标语种上分别对应的词向量矩阵进行BLU处理,生成扩充后的样本种子词典用于有监督模块的训练。
进一步地,训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的。可选地,交替训练可以是通过循环优化策略,在词语对齐时无监督模块和有监督模块交替对同一词向量空间中的两片词云进行对齐训练,无监督模块和有监督模块同时进行双向信息传递;也可以是通过平行优化策略,在词语对齐时无监督模块和有监督模块分别在两个词向量空间中进行对齐训练,无监督模块和有监督模块之间仅通过双向信息传递进行信息交互。
可以理解的是,词典表示两种语言之间的词语翻译关系的对照表,词向量空间是指蕴含语种语义信息的高维欧几里得空间,空间中的距离度量可用于衡量语义的相似度。无监督模块是只利用两个语种的单语种语料进行对齐的词语对齐方法,有监督模块是同时利用人工标注种子词典,基于最小化种子词典中翻译对之间的距离构建损失函数的词语对齐方法。
步骤103,根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
在本发明中,通过正交变换矩阵,将源语种词向量映射到目标语种词向量的语义空间中,实现源语种词向量和目标语种词向量的对齐处理,得到双语词语对齐结果。
需要说明的是,在双语种词语对齐任务中,涉及从源语种到目标语种以及从目标语种到源语种两个方向。定义源语种词向量为Xs,目标语种词向量为Xt,从源语种到目标语种方向的正交变换矩阵为Qs→t,从目标语种到源语种方向的正交变换矩阵为Qt→s。在常规的词语对齐方法中,一般将这两个方向的对齐过程分别看作两个独立的任务,例如,单独学习一个变换Qs→t来对齐XsQs→t与Xt,单独学习一个Qt→s对齐Xs与XtQt→s。
优选地,在本发明中,采用双向匹配算法,仅学习一个正交变换矩阵Q同时对两个方向进行匹配Qs→t=Q,即有且Qt→s=QT,则可实现双语词语对齐。
本发明提供的双语词语对齐方法,通过样本先验分布矩阵指导无监督模块进行训练,同时通过扩充后的样本种子词典训练有监督模块,对无监督模块和有监督模块进行交替训练得到训练好的词语对齐优化模型,实现有监督模块和无监督模块的相互受益、相互增强;将源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,得到正交变换矩阵,以根据正交变换矩阵实现词语对齐,与现有的技术相比,本发明可以实现高质量的双语词语对齐,提高了词语翻译的精度。
在上述实施例的基础上,所述词语对齐优化模型通过以下步骤训练得到:
S201,根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块;
S202,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;
S203,将所述双向词典扩充后的样本种子词典和所述第一样本优化正交矩阵输入到第二神经网络进行训练,得到预训练的有监督模块和第二样本优化正交矩阵;
S204,根据所述第二样本优化正交矩阵,生成新的样本先验分布矩阵;
S205,将所述新的样本先验分布矩阵和所述第二样本优化矩阵输入到所述预训练的无监督模块中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,重复步骤S202至S205,得到训练好的词语对齐优化模型。
在本发明中,根据样本先验分布矩阵,指导无监督模块进行训练,得到第一样本优化正交矩阵Qunsup,作为无监督模块输出的优化结果,用于训练有监督模块。进一步地,通过双向词典扩充,将第一样本优化正交矩阵Qunsup、样本源语种词向量和样本目标语种词向量输入到样本种子词典中进行扩充,生成双向词典扩充后的样本种子词典,利用无监督模型的对齐结果来进行词典扩充,从而为有监督模块提供高质量种子词典。
进一步地,将双向词典扩充后的样本种子词典和第一样本优化正交矩阵Qunsup输入到第二神经网络中进行训练,得到第二样本优化正交矩阵Qsup。根据第二样本优化正交矩阵Qsup,计算经过Qsup转换的源语种词向量和目标语种词向量之间的CSLS距离,根据CSLS距离来构建新的样本先验分布矩阵,该新的样本先验分布矩阵在下一轮迭代计算时用于继续指导无监督模块的训练。
进一步地,将新的样本先验分布矩阵和第二样本优化矩阵Qsup输入无监督模块中继续进行训练,得到当前训练轮次的第一样本优化正交矩阵Qunsup,继续重复上述步骤,轮流对无监督模块和有监督模块进行训练,获取无监督模块损失函数和有监督模块损失函数之和,直至两者损失函数之和达到预设的收敛条件,则得到训练好的词语对齐优化模型。
可选地,在一实施例中,以种子词典对有监督模块进行训练为起始点,有监督模块和无监督模块交替进行训练。
图2为本发明提供的基于循环优化策略的词语对齐优化模型框架的示意图,如图2所示,本发明提供了一种循环优化策略(Cyclic Semi-Supervision,简称CSS),无监督模块和有监督模块交替对正交变换进行优化。在交替优化的过程中,采用CSS会在每次无监督模块迭代优化时通过先验信息传递(Prior Message Passing,简称PMP)引入先验,而PMP的输入来自于有监督模块的优化结果Qsup,有监督模块优化时使用的种子词典是经过BLU扩充后的种子词典,而BLU的输入来自于无监督模块的优化结果Qunsup。
需要说明的是,本发明提出的循环优化策略类似于多任务学习中的“硬参数共享”机制,即直接使用一个模型的参数替代另一个模型的参数以实现不同模型间的参数共享。这种参数共享的方式让不同的模型在同一条路径上进行优化。如果不同模型的优化方向分歧较大,那么优化路径会在两个优化方向间“震荡”从而难以收敛。CSS中引入的PMP和BLU可以减弱这种现象。
在一实施例中,无监督模块和有监督模块均优化同一个正交变换矩阵。基于循环优化策略训练词语对齐优化模型的步骤具体如下:
对正交变换过程进行初始化,分别求取源语种词向量的离散概率分布和目标语种词向量的离散概率分布:
通过Gromov-Wasserstein(GW)度量来衡量源语种词向量的离散概率分布和目标语种词向量的离散概率分布这两个分布之间的距离,得到样本先验分布矩阵:
Γ=GW(μinit,vinit,∈init);
其中,∈init表示初始化正则项系数,Γ表示样本先验分布矩阵。
通过普鲁克分析法(Procrutes),得到变换矩阵:
对于每一次词语对齐优化模型(可视为半监督模型)的迭代更新,都需引入PMP先验信息:
Q=PMP(,Xt,T0,λ1,λ2,δ,∈,Iunsup,b,η,Qinit,Qsup);
其中,T0表示先验分布生成温度,δ表示匹配阈值系数,λ1,和λ2表示KL散度项系数,η表示学习率,Iunsup表示无监督迭代次数,b表示单次迭代采样个数,∈表示正则项系数,Qinit表示待优化正交变换矩阵的初始化,Qsup表示有监督模块的优化结果。
同时对种子词典进行扩充,得到扩充后的种子词典:
S*,T*=BLU(Xs,Xt,Q,S,T,K,A);
其中,S*表示扩充后的源语种词向量,T*表示扩充后的目标语种词向量,K表示置信值最近邻范围,A表示扩充种子词典大小,S表示已标注种子词典对应源语种的词向量矩阵,T表示表示已标注种子词典对应目标语种的词向量矩阵。
需要说明的是,在词典扩充过程中,每个迭代周期通过BLU产生的翻译对在下一次迭代中会被清除。因而,种子词典的扩充不是累加的,每个迭代周期中有监督模块输入的种子词典大小均为L+A。
对于有监督模型进行迭代更新,每一次执行以下步骤:
通过扩充后的种子词典S*与T*作为输入,计算有监督模块正则熵的损失函数:
根据梯度下降法,对转换矩阵Q进行优化:
其中,η表示学习率。
对转换矩阵进行正交化处理:
U,D,V←SV D(Q),Q=UVT;
其中,UDV表示SVD的分解结果,其中U、V均为酉矩阵。
输出最终得到的正交变换矩阵Q,即获取从源语种到目标语种的正交变换矩阵。
可以理解的是,由于词语对齐优化模型有已标注种子词典作为输入,因此也可用通过有监督模块基于种子词典进行初始化,但也可能由于已标注种子词典规模太小无法给出较好的初始化,为了叙述的统一性,可用统一使用GW方法进行初始化。
在上述实施例的基础上,所述训练好的词语对齐优化模型还通过以下步骤训练得到:
S301,根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块;
S302,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;
S303,将所述双向词典扩充后的样本种子词典输入到第二神经网络进行训练,得到预训练的有监督模块和第二样本优化正交矩阵;
S3041,根据所述第二样本优化正交矩阵,生成新的样本先验分布矩阵;将所述第一样本优化正交矩阵和所述新的样本先验分布矩阵输入到所述预训练的无监督模块中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,重复步骤302至步骤3041,得到训练好的无监督模块,至步骤S305;
S3042,将所述第二样本优化正交矩阵和所述双向词典扩充后的样本种子词典输入到预训练的有监督模块中进行训练,得到当前训练轮次的有监督模块和当前训练轮次的第二样本优化正交矩阵;根据所述当前训练轮次的第二样本优化正交矩阵,生成下一轮次的样本先验分布矩阵,重复步骤S301、步骤S302、步骤S303和步骤S3042,得到训练好的有监督模块;
S305,根据训练好的无监督模块和训练好的有监督模块,获取训练好的词语对齐优化模型。
在本发明中,无监督模块和有监督模块分别在两个词向量空间中进行对齐,无监督模块和有监督模块之间仅通过双向信息传递进行信息交互。具体地,根据第二样本优化正交矩阵,生成新的样本先验分布矩阵;将第一样本优化正交矩阵和所述新的样本先验分布矩阵输入到第一神经网络中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,然后再根据第一样本优化正交矩阵对样本种子词典进行双向词典扩充,将扩充后的样本种子词典输入第二神经网络中进行训练,继续上述步骤,直到满足无监督模块的训练收敛条件,则得到训练好的无监督模块。
进一步地,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;将双向词典扩充后的样本种子词典和第二样本优化正交矩阵Qunsup输入到第二神经网络中进行训练,得到第二样本优化正交矩阵Qsup。根据第二样本优化正交矩阵Qsup,计算经过Qsup转换的源语种词向量和目标语种词向量之间的CSLS距离,根据CSLS距离来构建新的样本先验分布矩阵,该新的样本先验分布矩阵在下一轮迭代计算时用于继续指导无监督模块的训练;然后根据新的样本先验分布矩阵对第一神经网络进行训练,得到第一样本优化正交矩阵,根据第一样本优化正交矩阵,用于对样本种子词典进行双向词典扩充,继续上述步骤,直到满足有监督模块的训练收敛条件,则得到训练好的有监督模块。
进一步地,无监督模块和有监督模块分别独立完成优化训练,同时两者定期进行信息交互传递,能够减弱两者优化方向上的互相干扰。根据训练好的无监督模块和有监督模块,得到训练好的词语对齐优化模型。
图3为本发明提供的基于平行优化策略的词语对齐优化模型框架的示意图,如图3所示,有监督模块与无监督模块平行优化,没有参数传递的机制,两者只通过BLU与PMP进行信息传递,因此,本发明将该策略定义为平行优化策略(Parallel Semi-Supervision,简称PSS)。常规的模型只考虑到基于有监督模块的对齐结果进行词典更新,而没有考虑到通过无监督模块的对齐结果进行词典扩充。从多任务学习的角度来讲,相比于CSS,PSS采用了一种“软参数共享”机制,这使得PSS适用于一些有监督优化方向与无监督优化方向分歧较大的情况。PSS可以让二者分别优化,定期进行信息交互,从而减弱二者优化方向的互相干扰。
在一实施例中,有监督模块和无监督模块分布独立优化Qunsup和Qsup,不进行直接的参数传递,且每一轮优化后都会进行一次双向信息传递。基于平行优化策略训练词语对齐优化模型的步骤具体如下:
对正交变换过程进行初始化,分别求取源语种词向量的离散概率分布和目标语种词向量的离散概率分布,再计算样本先验分布矩阵,具体可参考循环优化策略中关于离散概率分布矩阵和样本先验分布矩阵的计算。
通过普鲁克分析法(Procrutes),分别得到有监督模块和无监督模块的变换矩阵:
对于每一次词语对齐优化模型(可视为半监督模型)的迭代更新,都需引入PMP先验信息:
Qunsup=PMP(Xs,Xt,T0,λ1,λ2,δ,∈,Iunsup,b,η,Qinit,Qsup);
其中,T0表示先验分布生成温度,δ表示匹配阈值系数,λ1和λ2表示KL散度项系数,η表示学习率,Iunsup表示无监督迭代次数,b表示单次迭代采样个数。Qinit表示待优化正交变换矩阵的初始化,Qsup表示有监督模块的优化结果。
同时对种子词典进行扩充,得到扩充后的种子词典:
S*,T*=BLU(Xs,Xt,Qunsup,S,T,K,A);
其中,S*表示扩充后的源语种词向量,T*表示扩充后的目标语种词向量,K表示置信值最近邻范围,A表示扩充种子词典大小,S表示已标注种子词典对应源语种的词向量矩阵,T表示表示已标注种子词典对应目标语种的词向量矩阵。
对于有监督模型进行迭代更新,每一次执行以下步骤:
通过扩充后的种子词典S*与T*作为输入,计算有监督模块正则熵的损失函数:
根据梯度下降法,对转换矩阵Qsup进行优化:
对转换矩阵进行正交化处理:
U,D,V←SV(Qsup),Qsup=UVT;
最后无监督模块和有监督模块分别输出Qunsup和Qsup。
在上述实施例的基础上,所述根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块,包括:
将所述样本先验分布矩阵输入到所述第一神经网络中,根据松弛匹配算法,基于所述第一神经网络,对所述样本源语种到所述样本目标语种,以及从所述样本目标语种到所述样本源语种两个方向的词向量进行求解,得到样本匹配矩阵;
根据梯度下降法,对所述样本匹配矩阵进行求解,获取样本转换矩阵;
对所述样本转换矩阵进行正交化处理,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块。
将待优化正交变换矩阵值Qinput赋值给变量Q;
计算经过有监督模块优化结果Qsup转换的源语种词向量与目标语种词向量之间的CSLS距离:
根据距离矩阵Cij生成Boltzmann分布,使用带温度的softmax函数来构建先验分布矩阵Γij,先验分布矩阵Γij的计算公式为:
无监督模块的总迭代次数为I,对于每次迭代,执行如下步骤:
Xs与Xt中按行抽取大小为b的点云样本Ss,St;
根据抽样处理的点云样本,得到对应离散点云分布为:
对两个离散点云分布之间的距离进行计算,并赋值给Cij:
其中,δ表示匹配阈值系数,cos+(x)定义为:
需要说明的是,使用cos+函数后,即两个分布中的两个点和之间的距离小于或等于πδ时,才会将两者匹配。δ为一个超参数,通过调节δ可以控制该阈值的大小,以控制匹配的精度要求,使用cos+函数可以有效地消除噪声,过滤掉大量错误的匹配。
从源语种到目标语种以及从目标语种到源语种两个方向进行双向匹配,以实现双语种词语对齐。具体地,从源语种到目标语种方向的样本匹配矩阵计算公式为:
Ps→t=GSinkhorn(μ,v,C,∈,λ1,λ2);
其中,λ1和λ2为KL散度松弛系数,GSinkhorn为广义的Sinkhorn方法,Ps→t表示从源语种到目标语种方向的样本匹配矩阵,C表示源语种词向量样本与目标语种词向量样本之间的距离。
从目标语种到源语种方向的样本匹配矩阵计算公式为:
Pt→s=GSinkh(v,μ,CT,∈,λ2,λ1);
其中,Pt→s表示从目标语种方向到源语种方向的样本匹配矩阵,CT表示目标语种词向量样本与源语种词向量样本之间的距离。
将从源语种到目标语种以及从目标语种到源语种两个方向的样本匹配矩阵的均值P作为最终匹配方案,即:
P=(Ps→t+Pt→s)/2;
采用样本匹配矩阵P固定Q,通过梯度下降法对Q进行梯度下降:
对样本转换矩阵Q进行SVD奇异值分解,进行正交化处理,得到最终输出的第一样本优化正交矩阵:
U,D,V←SVD(Q),Q=UVT;
其中,U,D,V表示SVD分解结果,其中U、V均为酉矩阵。
在上述实施例的基础上,所述根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典,包括:
根据所述第一样本优化正交矩阵,对所述样本源语种到所述样本目标语种方向的词向量进行转换,获取前向距离矩阵;
对所述第一样本优化正交矩阵进行转置,获取转置后的第一样本优化正交矩阵,并根据所述转置后的第一样本优化正交矩阵,对所述样本目标语种到所述样本源语种方向的词向量进行转换,获取后向距离矩阵;
根据所述前向距离矩阵和所述后向距离矩阵,生成候选翻译对集合;
根据所述候选翻译对集合,获取所述候选翻译对集合中每个翻译对的置信度;
根据所述置信度,对所述候选翻译对集合中每个翻译对进行排序,并根据排序结果,获取双向词典扩充种子词典。
在本发明中,令无监督训练得到的正交变换为Qunsup,源语种词向量矩阵为Xs,目标语种词向量矩阵为Xt,己标注种子词典在源语种和目标语种上对应的词向量矩阵分别为S和T,BLU的核心步骤是生成额外的种子词典S'与T'以补充己标注的种子词典,将和作为扩充后的种子词典用于有监督部分的训练,其中符号表示对矩阵按行拼接的操作。
根据Xs、Xt、Qunsup生成S'与T'。具体步骤如下:
后向距离矩阵中保存的是经过QT unsup转换的源语种词向量与目标语种词向量间的距离,即为:
后向翻译对集合定义为:
其中,K表示置信值最近邻范围。
根据置信值选出最终翻译对。具体地,根据置信值CS(i,j)对B中每个翻译对进行降序排序,选择置信值较高的A个翻译对作为最终翻译对,从而得到S'与T'。
通过以上步骤可以将置信值较高的翻译对补充到原有的己标注种子词典中,需要说明的是,即使扩充种子词典中有翻译错误的情况,由于其置信值较高,这些错误的翻译对也不会为优化过程带来过大噪声而扰乱有监督的优化方向。以上四个步骤中每一步都是通过提取双向的信息来进行计算的,这样可以更大程度保证最终提取到的扩充种子词典的质量,本质上也可以看作是一种降噪的过程。
在上述实施例的基础上,在所述根据训练好的无监督模块和训练好的有监督模块,获取训练好的词语对齐优化模型之前,所述方法还包括:
根据所述无监督模块输出的第一样本优化正交矩阵,对样本源语种词向量和样本目标语种词向量进行对齐,获取所述样本源语种词向量和所述样本目标语种词向量分布之间的第一距离;
根据所述有监督模块输出的第二样本优化正交矩阵,对所述样本源语种词向量和所述样本目标语种词向量进行对齐,获取所述样本源语种词向量和所述样本目标语种词向量之间的第二距离;所述第一距离和所述第二距离为所述样本源语种词向量和所述样本目标语种词向量之间的Wasserstein距离;
对所述第一距离和所述第二距离进行判断,若判断获知所述第一距离小于第二距离,则将所述第一样本优化正交矩阵作为输出变换矩阵;若判断获知所述第一距离大于等于第二距离,将所述第二样本优化正交矩阵作为输出变换矩阵。
在本发明中,在有监督模块和无监督模块完成优化后,需要从两者中选出一个作为最终的输出Qs→t,优选地,采用Wasserstein度量来进行筛选。在自然语言处理领域中,词向量之间的距离常被用来衡量两个词语的语义相似度,因此采用Wasserstein度量将词语之间的距离同整个词向量分布之间的距离联系起来无论是从词语对齐还是从语义融合的角度来讲都是合理的。
选择经过转换矩阵对齐后的源语种词向量分布与目标语种词向量分布间Wasserstein距离更小的一个作为最终的输出。具体地,如果Wasserstein(XsQsup,Xt)≥Wasserstein(XsQunsup,Xt),则输出Qunsup;如果Wasserstein(XsQsup,Xt)<Wasserstein(XsQunsup,Xt),则输出Qsup。
可选地,可以涉及类似标准从Qsup与Qunsup中进行选择,比如已标注种子词典上的词语翻译准确率、经过转换的源语种词向量分布与目标语种词向量分布的KL散度指标等。
图4为本发明提供的双语词语对齐系统的结构示意图,如图4所示,本发明提供了一种双语词语对齐系统,包括词向量获取模块401、正交变换矩阵获取模块402和词语对齐模块403,其中,词向量获取模块401用于获取源语种词向量和目标语种词向量;正交变换矩阵获取模块402用于将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;词语对齐模块403用于根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
本发明提供的双语词语对齐系统,通过样本先验分布矩阵指导无监督模块进行训练,同时通过扩充后的样本种子词典训练有监督模块,对无监督模块和有监督模块进行交替训练得到训练好的词语对齐优化模型,实现有监督模块和无监督模块的相互受益、相互增强;将源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,得到正交变换矩阵,以根据正交变换矩阵实现词语对齐,与现有的技术相比,本发明可以实现高质量的双语词语对齐,提高了词语翻译的精度。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图5为本发明提供的一种电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行双语词语对齐方法,该方法包括:获取源语种词向量和目标语种词向量;将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的双语词语对齐方法,该方法包括:获取源语种词向量和目标语种词向量;将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的双语词语对齐方法,该方法包括:获取源语种词向量和目标语种词向量;将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种双语词语对齐方法,其特征在于,包括:
获取源语种词向量和目标语种词向量;
将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;
根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
2.根据权利要求1所述的双语词语对齐方法,其特征在于,所述词语对齐优化模型通过以下步骤训练得到:
S201,根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块;
S202,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;
S203,将所述双向词典扩充后的样本种子词典和所述第一样本优化正交矩阵输入到第二神经网络进行训练,得到预训练的有监督模块和第二样本优化正交矩阵;
S204,根据所述第二样本优化正交矩阵,生成新的样本先验分布矩阵;
S205,将所述新的样本先验分布矩阵和所述第二样本优化矩阵输入到所述预训练的无监督模块中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,重复步骤S202至S205,得到训练好的词语对齐优化模型。
3.根据权利要求1所述的双语词语对齐方法,其特征在于,所述训练好的词语对齐优化模型还通过以下步骤训练得到:
S301,根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块;
S302,根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典;
S303,将所述双向词典扩充后的样本种子词典输入到第二神经网络进行训练,得到预训练的有监督模块和第二样本优化正交矩阵;
S3041,根据所述第二样本优化正交矩阵,生成新的样本先验分布矩阵;将所述第一样本优化正交矩阵和所述新的样本先验分布矩阵输入到所述预训练的无监督模块中进行训练,得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵,重复步骤302至步骤3041,得到训练好的无监督模块,至步骤S305;
S3042,将所述第二样本优化正交矩阵和所述双向词典扩充后的样本种子词典输入到预训练的有监督模块中进行训练,得到当前训练轮次的有监督模块和当前训练轮次的第二样本优化正交矩阵;根据所述当前训练轮次的第二样本优化正交矩阵,生成下一轮次的样本先验分布矩阵,重复步骤S301、步骤S302、步骤S303和步骤S3042,得到训练好的有监督模块;
S305,根据训练好的无监督模块和训练好的有监督模块,获取训练好的词语对齐优化模型。
4.根据权利要求2或3所述的双语词语对齐方法,其特征在于,所述根据样本先验分布矩阵,对第一神经网络进行训练,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块,包括:
将所述样本先验分布矩阵输入到所述第一神经网络中,根据松弛匹配算法,基于所述第一神经网络,对所述样本源语种到所述样本目标语种,以及从所述样本目标语种到所述样本源语种两个方向的词向量进行求解,得到样本匹配矩阵;
根据梯度下降法,对所述样本匹配矩阵进行求解,获取样本转换矩阵;
对所述样本转换矩阵进行正交化处理,输出得到第一样本优化正交矩阵,并得到预训练的无监督模块。
5.根据权利要求2或3所述的双语词语对齐方法,其特征在于,所述根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量,对样本种子词典进行双向词典扩充,得到双向词典扩充后的样本种子词典,包括:
根据所述第一样本优化正交矩阵,对所述样本源语种到所述样本目标语种方向的词向量进行转换,获取前向距离矩阵;
对所述第一样本优化正交矩阵进行转置,获取转置后的第一样本优化正交矩阵,并根据所述转置后的第一样本优化正交矩阵,对所述样本目标语种到所述样本源语种方向的词向量进行转换,获取后向距离矩阵;
根据所述前向距离矩阵和所述后向距离矩阵,生成候选翻译对集合;
根据所述候选翻译对集合,获取所述候选翻译对集合中每个翻译对的置信度;
根据所述置信度,对所述候选翻译对集合中每个翻译对进行排序,并根据排序结果,获取双向词典扩充种子词典。
6.根据权利要求3所述的双语词语对齐方法,其特征在于,在所述根据训练好的无监督模块和训练好的有监督模块,获取训练好的词语对齐优化模型之前,所述方法还包括:
根据所述无监督模块输出的第一样本优化正交矩阵,对样本源语种词向量和样本目标语种词向量进行对齐,获取所述样本源语种词向量和所述样本目标语种词向量分布之间的第一距离;
根据所述有监督模块输出的第二样本优化正交矩阵,对所述样本源语种词向量和所述样本目标语种词向量进行对齐,获取所述样本源语种词向量和所述样本目标语种词向量之间的第二距离;所述第一距离和所述第二距离为所述样本源语种词向量和所述样本目标语种词向量之间的Wasserstein距离;
对所述第一距离和所述第二距离进行判断,若判断获知所述第一距离小于第二距离,则将所述第一样本优化正交矩阵作为输出变换矩阵;若判断获知所述第一距离大于等于第二距离,将所述第二样本优化正交矩阵作为输出变换矩阵。
7.一种双语词语对齐系统,其特征在于,包括:
词向量获取模块,用于获取源语种词向量和目标语种词向量;
正交变换矩阵获取模块,用于将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中,获取正交变换矩阵;其中,所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的,所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的,所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵,对样本源语种词向量进行转换,并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的;所述有监督模块是由样本种子词典对第二神经网络进行训练得到的,所述样本种子词典是基于源语种和目标语种确定的;
词语对齐模块,用于根据所述正交变换矩阵,对所述源语种词向量和目标语种词向量进行对齐处理,获取双语词语对齐结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述双语词语对齐方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述双语词语对齐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801838.0A CN113591496A (zh) | 2021-07-15 | 2021-07-15 | 一种双语词语对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801838.0A CN113591496A (zh) | 2021-07-15 | 2021-07-15 | 一种双语词语对齐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591496A true CN113591496A (zh) | 2021-11-02 |
Family
ID=78247538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110801838.0A Pending CN113591496A (zh) | 2021-07-15 | 2021-07-15 | 一种双语词语对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591496A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417898A (zh) * | 2022-01-18 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN114492476A (zh) * | 2022-01-30 | 2022-05-13 | 天津大学 | 一种无监督神经机器翻译的语码转换词汇交叠增强方法 |
CN116702898A (zh) * | 2023-08-04 | 2023-09-05 | 北京语言大学 | 一种基于知识表示学习的文言文知识迁移方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060190241A1 (en) * | 2005-02-22 | 2006-08-24 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
US20170076199A1 (en) * | 2015-09-14 | 2017-03-16 | National Institute Of Information And Communications Technology | Neural network system, and computer-implemented method of generating training data for the neural network |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN112417897A (zh) * | 2020-11-30 | 2021-02-26 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
-
2021
- 2021-07-15 CN CN202110801838.0A patent/CN113591496A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060190241A1 (en) * | 2005-02-22 | 2006-08-24 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
US20170076199A1 (en) * | 2015-09-14 | 2017-03-16 | National Institute Of Information And Communications Technology | Neural network system, and computer-implemented method of generating training data for the neural network |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN112417897A (zh) * | 2020-11-30 | 2021-02-26 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
Non-Patent Citations (2)
Title |
---|
ZHAO XU 等: "Semi-Supervised Bilingual Lexicon Induction with Two-way Interaction", PROCEEDINGS OF THE 2020 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 20 November 2020 (2020-11-20), pages 2973 - 2984 * |
莫媛媛等: "基于深层神经网络(DNN)的汉-越双语词语对齐方法", 山东大学学报(理学版), no. 01, 20 January 2016 (2016-01-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417898A (zh) * | 2022-01-18 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN114492476A (zh) * | 2022-01-30 | 2022-05-13 | 天津大学 | 一种无监督神经机器翻译的语码转换词汇交叠增强方法 |
CN116702898A (zh) * | 2023-08-04 | 2023-09-05 | 北京语言大学 | 一种基于知识表示学习的文言文知识迁移方法及系统 |
CN116702898B (zh) * | 2023-08-04 | 2023-11-03 | 北京语言大学 | 一种基于知识表示学习的文言文知识迁移方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN113591496A (zh) | 一种双语词语对齐方法及系统 | |
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN108804611B (zh) | 一种基于自我评论序列学习的对话回复生成方法及系统 | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
WO2019019916A1 (zh) | 翻译的方法、目标信息确定的方法及相关装置、存储介质 | |
CN109670180B (zh) | 向量化译员的翻译个性特征的方法及装置 | |
WO2022217849A1 (en) | Methods and systems for training neural network model for mixed domain and multi-domain tasks | |
CN110717345B (zh) | 一种译文重对齐的循环神经网络跨语言机器翻译方法 | |
US20240005093A1 (en) | Device, method and program for natural language processing | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN113314110B (zh) | 一种基于量子测量与酉变换技术的语言模型及构建方法 | |
CN111144140A (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
Peris et al. | Online learning for neural machine translation post-editing | |
JP2018025874A (ja) | テキスト解析装置及びプログラム | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN114118022A (zh) | 文本表示方法、装置、电子设备与存储介质 | |
JP2021026760A (ja) | 機械翻訳装置及び方法 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
Li | Optimization algorithms for deep learning | |
CN114580444A (zh) | 文本翻译模型的训练方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |