CN110874535A - 依存关系对齐组件、依存关系对齐训练方法、设备及介质 - Google Patents

依存关系对齐组件、依存关系对齐训练方法、设备及介质 Download PDF

Info

Publication number
CN110874535A
CN110874535A CN201810987179.2A CN201810987179A CN110874535A CN 110874535 A CN110874535 A CN 110874535A CN 201810987179 A CN201810987179 A CN 201810987179A CN 110874535 A CN110874535 A CN 110874535A
Authority
CN
China
Prior art keywords
dependency
tree
alignment
syntactic
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810987179.2A
Other languages
English (en)
Other versions
CN110874535B (zh
Inventor
李博
赵宇
骆卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810987179.2A priority Critical patent/CN110874535B/zh
Publication of CN110874535A publication Critical patent/CN110874535A/zh
Application granted granted Critical
Publication of CN110874535B publication Critical patent/CN110874535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种依存关系对齐组件、依存关系对齐训练方法、设备及介质,所述的依存关系对齐组件包括:词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。利用本发明实施例可获得双语句法对齐的高质量树库。

Description

依存关系对齐组件、依存关系对齐训练方法、设备及介质
技术领域
本发明涉及计算机技术领域,尤其是涉及一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质。
背景技术
一般认为,自然语言处理(Natural Language Processing,NLP)指的是借助计算机工具开发能够理解人类语言的应用程序或服务,容易理解的例子有诸如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词、生成语法正确的完整句子和段落,等等。
已有的NLP工具绝大多数属于浅层解析工具,致使大量的语料中的深层信息不能得到很好的挖掘。举例来讲,传统的解决方案是由语言学专家制定特定的语义表示框架,其中需标注大量的数据,为了解决特定场景的问题,还需训练相应的模型,并采用神经网络学习每一个词到其他词的依存关系,从而构建语义依存图。但是,由于这种语义表示框架灵活性较差,其无法实现对更多自然语言特征的高效利用,适用的场景有限,应用面较窄。
发明内容
有鉴于此,本发明提出一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质,用以解决目前语义表示框架灵活性差的问题。
第一方面,本发明提供一种依存关系对齐组件,其包括:
词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;
对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。
第二方面,本发明还提供一种多语言依存关系对齐训练方法,所述方法包括:
步骤一,基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
步骤二,通过所述依存关系对齐组件,在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
步骤三,基于所述训练集,返回步骤一,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。
第三方面,本发明还提供一种多语言依存关系对齐训练装置,所述装置包括:
训练处理模块,用于基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,
所述依存关系对齐组件,用于得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
训练集处理模块,用于在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
迭代处理模块,用于基于所述训练集,触发所述模型训练模块,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。
第四方面,本发明还提供一种多语言依存关系对齐训练设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的多语言依存关系对齐训练方法。
第五方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的多语言依存关系对齐训练方法。
相对于以往的语义表示框架需标注大量数据,本发明实施例通过神经网络机器翻译系统以及神经网络依存句法分析组件获得多个最佳Nbest结果,利用本发明构建的依存关系对齐组件可选出最优的词对齐句对和句法依存树对,通过多次迭代获得双语句法对齐的高质量树库。
附图说明
图1为本发明实施例的依存关系对齐组件的结构框图。
图2为本发明实施例的多语言依存关系对齐训练方法的流程框图。
图3为本发明实施例的多语言依存关系对齐训练方法的处理过程示意图。
图4为本发明实施例的设备的硬件结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行详细描述。应理解,所描述的具体实施例仅用于解释本发明,而并不用于限定本发明。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。在没有额外限制的情况下,由语句“包括”限定的要素,不排除在包括所述要素的过程、方法、物品或者设备中还存在其他要素。
本发明的目的之一在于基于神经网络机器翻译系统以及神经网络依存句法分析组件返回的多个最佳Nbest结果(有时也记作nbest),利用本发明构建的依存关系对齐组件选出最优的句法对齐句对。本发明的实施例可以用于提取多语知识图谱、扩增训练集、对数据质量打分等应用场景。以下对本发明的实施方式进行详细描述。
<依存关系对齐组件>
在本发明中,使用依存关系对齐组件对不同翻译结果的词对齐关系进行打分,该依存关系对齐组件还可以对不同句法依存树的对齐关系进行打分。
在本发明的一种实施方式中,所述的依存关系对齐组件接收双语句对(例如互译的A语言句子和B语言句子)的多个翻译结果以及对应的多个词对齐关系信息,然后基于设定的算法对该多个翻译结果进行打分筛选。
在本发明的另一种实施方式中,所述的依存关系对齐组件接收双语句对(例如互译的A语言句子和B语言句子)的多个句法依存树,然后基于特定的算法对该多个句法依存树进行打分。
为了清楚地说明本发明的依存关系对齐组件的打分方式,以下分别对上述两种实施方式进行详细描述。
<翻译结果和词对齐关系信息打分>
本发明中,所述的多个翻译结果指的是对双语句对中的两个平行语句分别进行翻译所得到的翻译结果。仍然以互译的A语言句子和B语言句子为例,从A语言到B语言可称为正向翻译,从B语言到A语言可称为反向翻译,利用神经网络机器翻译系统NMT进行翻译。
正向翻译时,首先将A语言句子输入NMT系统,将其翻译到B语言,由于语言具体表达方式具有多样性,NMT系统可输出多个不同的B语言译文句子,则多个B语言译文句子分别与A语言原文句子组合,可形成多个互译的双语句对。
同理,反向翻译时,将B语言句子输入NMT系统,将其翻译到A语言,NMT系统可输出多个不同的A语言译文句子,则多个A语言译文句子分别与B语言原文句子组合,亦可形成多个互译的双语句对。
上述双方向的多个互译的双语句对均可作为本发明依存关系对齐组件的输入。
并且,NMT系统除可以输出多个翻译结果之外,还可以输出翻译结果对应的词对齐关系信息,这些词对齐关系信息也是本发明依存关系对齐组件的输入,打分时,依存关系对齐组件根据词对齐关系信息的内容对翻译结果的词对齐情况进行打分。
在本发明的一种实施方式中,NMT系统利用注意力Attention信息作为对齐依据,将正向翻译和反向翻译过程中的多个Attention矩阵作为词对齐关系信息输出。
具体地,正向翻译时,NMT系统将A语言句子翻译为B语言过程中的N个最佳Nbest(有时也记作nbest)翻译词对齐概率矩阵P(Wa→Wb′)输出;反向翻译时,NMT系统将B语言句子翻译为A语言过程中的Nbest翻译词对齐概率矩阵P(Wb→Wa′)输出。其中,Nbest翻译词对齐概率矩阵可以是多个Attention矩阵取均值并以阈值做截断得到的最好的多个结果(即Nbest结果)。在本发明的其他实施方式中,NMT系统还可使用快速对齐fast align技术对A语言句子和B语言句子进行分别处理,将处理得到的对齐信息作为所述的词对齐关系信息输出。
其中,据所述的正向翻译和反向翻译过程中的Nbest翻译词对齐概率矩阵,可计算得到双向翻译词对齐相似度,相似度越高,说明原文句子与译文句子之间的词对齐越好,则该翻译结果的得分应越高。对于得分大于或等于指定阈值的翻译结果,可将该翻译结果作为一个双语句对,加入到本发明的多语言句法对齐训练语料库中,该训练语料库适用于对NMT系统和依存关系对齐组件进行迭代训练。
对于得分小于指定阈值的翻译结果,由于词对齐关系较差,不是本发明需要的句对,因此依存关系对齐组件将筛选出这类句对,对这类句对打分低于指定阈值,不再加入多语言句法对齐训练语料库中,亦不会进入迭代训练处理中。
需要说明,计算时,所述正向翻译的Nbest翻译词对齐概率矩阵P(Wa→Wb′)与所述反向翻译的Nbest翻译词对齐概率矩阵P(Wb→Wa′)的相似度,就是所述的双向翻译词对齐相似度。这里,按照矩阵相似度的通用计算方法计算即可。由于本发明关注的内容在于如何构建该双向翻译词对齐相似度的概念及作用,而不在于具体的数学计算,因此具体计算过程在此不再赘述。
<句法依存树打分>
本发明中,所述的多个句法依存树指的是双语句对中的两个平行语句各自的多个句法依存树。例如,利用神经网络依存句法分析组件分别对A语言句子和B语言句子进行处理,可得到A语言句子的N个最佳Nbest句法依存树Tree(A)和B语言句子的Nbest句法依存树Tree(B)。
其中,A语言句子的Nbest句法依存树和B语言句子的Nbest句法依存树均可作为本发明依存关系对齐组件的输入,打分时,依存关系对齐组件根据不同句法依存树之间的树形结构关系,对句法依存树的对齐情况进行打分。
在本领域,可通过对依存树中的依存节点和依存标签进行对比,来判断不同句法依存树之间的拓扑结构即树形结构的关系,本发明中A语言句子的句法依存树Tree(A)和B语言句子的句法依存树Tree(B)有可能树形结构一致,也有可能树形结构不一致。
对于一致的情况,即双语句法依存树的树形结构完全相同(所有的依存父节点对齐以及依存标签一致),该双语句法依存树为完美对齐的树库。打分时,依存关系对齐组件对树形结构完全相同的情况打满分。
对于不一致的情况,一种是双语句法树的树形结构存在包含关系,也就是,A语言句子的树形结构Tree(A)包含B语言句子的树形结构Tree(B),或者相反,B语言句子的树形结构Tree(B)包含A语言句子的树形结构Tree(A)(依存父节点对齐以及依存标签一致,但其中一种语言多出至少一个节点)。这种双语句法依存树为有包含关系的双语对齐树库。同理,对于依存父节点未对齐或依存标签不一致,但出现频次低于阈值的情况,属于高频树形结构对,认为其属于双语句法对齐的双语句法依存树。打分时,依存关系对齐组件对于有包含关系的树形结构和高频树形结构对打较高分,高于预定的分数阈值。
在本发明中,可将满分和高于预定的分数阈值的双语句法依存树加入到本发明的多语言句法对齐训练语料库中,该训练语料库适用于对神经网络依存句法分析组件和依存关系对齐组件进行迭代训练。
对于其他双语句法树的树形结构差异较大的情况,由于对齐关系较差,不是本发明需要的树库,因此依存关系对齐组件将筛选出这类树库,对这类树库打分低于分数阈值,不再加入多语言句法对齐训练语料库中,亦不会进入迭代训练处理中。
<多语言句法对齐训练语料库>
基于上述内容,对于本发明的所述多语言句法对齐训练语料库,其中包括对齐得分大于指定阈值的双语句对,还包括句法树完美依存的双语树库。基于该语料库,可利用句法树库和知识图谱得到句法树到知识三元组的映射关系,通过监督学习导出一批知识三元组,实现句法到语义的转换,这种转换不受以往语义框架的限制,提高了对自然语言特征的充分利用。
进一步,基于上述内容,还可以训练一个树到树预测器,用于改进依存树库语料极少的语言的句法分析器的效果。具体来看,可构建一个深度学习神经网络,对该神经网络训练的输入包括:上述的正向翻译的Nbest翻译词对齐概率矩阵P(Wa→Wb′)、反向翻译的Nbest翻译词对齐概率矩阵P(Wb→Wa′)和Tree(A),该神经网络可预测出Tree(B’),对该神经网络的训练以降低Tree(B’)与Tree(B)之间的差异为优化目标,也就是以提高由Nbest词对齐关系与Tree(A)得到的Tree(B’)与Tree(B)的依存树相似度为优化目标,以及以提高由Nbest词对齐关系与Tree(B)得到的Tree(A’)与Tree(A)的依存树相似度为优化目标。
基于以上内容,本发明提供一种依存关系对齐组件,其包括:
词对齐信息接收模块10,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
依存树信息接收模块20,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;
对齐筛选模块30,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。
利用本发明的依存关系对齐组件,可以根据对齐程度对众多的双语互译语料以及句法依存树进行筛选,从而可以从中选出对齐得分高的双语句对和句法依存树对,为利用词对齐和/或树对齐的语义分析做准备。
<训练NMT系统和神经网络依存句法分析组件>
在本发明中,基于以上描述的依存关系对齐组件,对NMT系统和神经网络依存句法分析组件进行训练,初始阶段,使用平行语料对NMT系统和神经网络依存句法分析组件进行训练,以得到能够处理多语言依存关系对齐的神经网络模型。训练过程中可形成所述的多语言句法对齐训练语料库,并将其作为后续训练的输入语料,由此形成本发明的训练循环迭代过程。
在本发明的实施例中,可预先使用已经存在的多语言数库对神经网络依存句法分析组件进行训练,训练过程中可通过使用大量单语语料训练词向量来增强组件模型的泛化能力。
以下对本发明的多语言句法对齐训练方法进行详细描述,参考图2,所述方法包括:
S101,基于多个双语句对,对NMT系统和依存句法分析组件进行训练,通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
S102,通过所述依存关系对齐组件,在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集(即所述的多语言句法对齐训练语料库)中;
S103,基于所述训练集,返回S101,以更新所述NMT系统、所述依存句法分析组件和所述训练集。
在步骤S101中,执行以下迭代处理:
1a,通过所述NMT系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
1b,通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树;
1c,使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对;
1d,返回1a处理下一个双语句对,直至满足迭代停止条件。
其中,迭代停止条件可为预设的迭代次数,也可为迭代收益不明显时停止迭代,例如无法再提取新的依存关系对齐的双语句法树,或者提取数量过少。
可以看到,上述迭代的训练过程也就是基于本发明前文所述的依存关系对齐组件,对所述NMT系统输出的多个翻译结果及对应的多个词对齐关系信息进行打分并筛选,以及对所述神经网络依存句法分析组件输出的多个句法依存树进行打分并筛选的过程。
需要说明,对每一次迭代运算所生成的得分最高的翻译结果和句法依存树对(完美对齐的依存树对)均被加入到所述训练集中,将使得训练集中的翻译词对齐的双语句对和依存树对齐的双语树库的数量大幅增多,在后续的迭代过程中这种对齐效果将得到极大强化。通过假设上亿次迭代,根据所述训练集可得到双语句法树对齐的高质量树库。
本发明从大量的双语语料中对齐语义表示,可以用于弱监督的构建大规模多语言知识图谱,可以用于验证翻译质量,自动构建高质量树库,以及构建通用的语义表示规范等。
以下通过具体的实例,描述本发明实施例的可选的具体处理过程。需要说明的是,本发明的方案并不依赖于具体的算法,在实际应用中,可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案,只要是采用了本发明方案的实质思想,均落入本发明的保护范围。
参考图3实施例中实线部分,一方面,将A语言句子以及B语言句子(两者互译)输入神经网络机器翻译NMT系统,NMT系统将A语言句子翻译到B语言(正向),也可将B语言句子翻译到A语言(反向),并且输出多个翻译结果以及词对齐结果,其中词对齐结果包括Nbest翻译词对齐概率矩阵P(Wa→Wb′)和Nbest翻译词对齐概率矩阵P(Wb→Wa′);
另一方面,将A语言句子以及B语言句子输入神经网络依存句法分析器,可得到词语依存关系:Tree(A)和Tree(B);
然后,依存关系对齐工具接收来自NMT系统的多个翻译结果以及Nbest翻译词对齐概率矩阵P(Wa→Wb′)和Nbest翻译词对齐概率矩阵P(Wb→Wa′);依存关系对齐工具还接收来自神经网络依存句法分析器的Tree(A)和Tree(B);依存关系对齐工具经过必要的计算,对翻译结果以及句法依存树对打分,并将得分高的作为句法树库和依存对齐句对存入训练集中,用于对NMT系统和神经网络依存句法分析器进行迭代训练。根据上述过程,经过大量迭代,可以得到高质量的句法树库以及依存对齐句对。
此外,参考图3实施例中的虚线部分,在大量迭代之后,可得到句法语义转换器,进而可构建多语对齐知识图谱;还可得到树到树预测器,来获取大量的对齐的依存句法句对,可改善依存树库语料极少的语言的句法分析效果。
与本发明实施例的方法相对应地,本发明还提供一种多语言句法对齐训练装置、设备和计算机存储介质。
其中,所述多语言句法对齐训练设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例所述的多语言句法对齐训练方法中的各步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现本发明实施例所述的多语言句法对齐训练方法中的各步骤。
应当指出,在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机程序指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
图4示出了能够实现根据本发明实施例的方法和设备的示例性硬件架构的结构图,例如本发明实施例的设备。其中,计算设备1000包括输入设备1001、输入接口1002、处理器1003、存储器1004、输出接口1005、以及输出设备1006。
其中,输入接口1002、处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到处理器1003;处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
计算设备1000可以执行本发明上述的方法中的各步骤。
处理器1003可以是一个或多个中央处理器(英文:Central Processing Unit,CPU)。在处理器601或处理器701是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器1004可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器1004用于存储程序代码。可以理解,本发明实施例提供的任一模块或全部模块的功能可以用央处理器1003实现。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置设备、和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处可参见方法实施例部分的说明。

Claims (36)

1.一种依存关系对齐组件,其特征在于,其包括:
词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;
对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。
2.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
词对齐打分子模块,用于基于所述多个词对齐关系信息对所述多个翻译结果打分;
树对齐打分子模块,用于基于句法依存树的相似度对所述多个句法依存树打分。
3.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
词对齐相似度处理模块,用于基于所述多个词对齐关系信息得到针对所述多个翻译结果的双向翻译词对齐相似度。
4.根据权利要求3所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括树到树预测模块,
所述树到树预测模块用于基于所述双向翻译词对齐相似度以及所述第一语言语料对应的第一句法依存树,预测第二句法依存树;
所述树到树预测模块还用于基于所述双向翻译词对齐相似度以及所述第二语言语料对应的第二句法依存树,预测第一句法依存树。
5.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
句法到语义转换模块,用于将目标句法依存树转换为对应的三元组。
6.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息来自预设的机器翻译系统。
7.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料各自的多个句法依存树来自预设的依存句法分析组件。
8.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料为互译的双语语料。
9.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件基于神经网络实现。
10.根据权利要求1所述的依存关系对齐组件,其特征在于,所述多个翻译结果包括:
由将所述第一语言语料翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对;以及
由将所述第二语言语料翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对。
11.根据权利要求10所述的依存关系对齐组件,其特征在于,所述多个词对齐关系信息包括:
将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵;以及
将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵。
12.根据权利要求11所述的依存关系对齐组件,其特征在于,所述词对齐打分子模块包括:
词对齐相似度计算单元,用于计算所述正向Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度,作为双向翻译词对齐相似度;
词对齐相似度打分单元,用于对多个双向翻译词对齐相似度打分,相似度高者对应的得分高。
13.根据权利要求11所述的依存关系对齐组件,其特征在于,所述正向Nbest翻译词对齐概率矩阵采用神经网络机器翻译NMT中将所述第一语言语料翻译为第二语言过程中的多个注意力Attention矩阵;所述反向Nbest翻译词对齐概率矩阵采用NMT中将所述第二语言语料翻译为第一语言过程中的多个注意力Attention矩阵。
14.根据权利要求1所述的依存关系对齐组件,其特征在于,所述多个词对齐关系信息包括:使用快速对齐fast align技术对所述第一语言语料和第二语言语料分别进行处理所获取的对齐信息。
15.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
依存树相似度处理子模块,用于基于第一语言语料对应的N个最佳Nbest第一句法依存树,以及第二语言语料对应的Nbest第二句法依存树,确定多个依存树相似度;
依存树对齐相似度打分单元,用于对多个依存树相似度打分,相似度高者对应的得分高。
16.根据权利要求15所述的依存关系对齐组件,其特征在于,所述依存树相似度处理子模块根据至少两个依存树的树形结构的关系来确定所述至少两个依存树的依存树相似度。
17.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构相同。
18.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构包含第二句法依存树的树形结构或者第二句法依存树的树形结构包含第一句法依存树的树形结构。
19.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构属于高频树形结构对。
20.一种多语言依存关系对齐训练方法,其特征在于,所述方法包括:
步骤一,基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
步骤二,通过所述依存关系对齐组件,在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
步骤三,基于所述训练集,返回步骤一,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。
21.根据权利要求20所述的方法,其特征在于,所述训练集包括符合所述筛选条件的所述翻译结果对应的双语句对和/或所述句法依存树对对应的双语树库。
22.根据权利要求20所述的方法,其特征在于,训练时,对所述多个双语句对执行以下迭代处理:
1a,通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
1b,通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树;
1c,使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对;
1d,返回1a处理下一个双语句对,直至满足迭代停止条件。
23.根据权利要求22所述的方法,其特征在于,1a中,所述通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息,包括;
通过所述机器翻译系统,分别对所述第一语言语料和所述第二语言语料进行翻译;
将所述第一语言语料被翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对,以及所述第二语言语料被翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对的总和,作为所述多个翻译结果。
24.根据权利要求22所述的方法,其特征在于,1b中,所述通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树,包括;
通过所述依存句法分析组件,分别对所述第一语言语料和所述第二语言语料进行依存关系分析处理;
对于所述第一语言语料,得到多个第一句法依存树;
对于所述第二语言语料,得到多个第二句法依存树;
将所述多个第一句法依存树以及所述多个第二句法依存树的总和作为所述多个句法依存树。
25.根据权利要求22所述的方法,其特征在于,1c中,所述使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对,包括:
使用所述依存关系对齐组件,基于所述多个词对齐关系信息对所述多个翻译结果打分;
使用所述依存关系对齐组件,基于句法依存树的相似度对所述多个句法依存树打分。
26.根据权利要求23所述的方法,其特征在于,1a中,所述通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息,包括;
将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵,以及将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵的总和,作为所述多个词对齐关系信息。
27.根据权利要求26所述的方法,其特征在于,1b中,所述通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树,包括;
通过所述依存句法分析组件,分别对所述第一语言语料和所述第二语言语料进行依存关系分析处理;
对于所述第一语言语料,得到N个最佳Nbest第一句法依存树;
对于所述第二语言语料,得到Nbest第二句法依存树;
将所述Nbest第一句法依存树以及所述Nbest第二句法依存树的总和作为所述多个句法依存树。
28.根据权利要求27所述的方法,其特征在于,1c中,所述使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对,包括:
使用所述依存关系对齐组件,计算所述正向Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度,作为双向翻译词对齐相似度;
对多个双向翻译词对齐相似度打分,相似度高者对应的得分高,得分最高的双向翻译词对齐相似度对应于得分最高的翻译结果。
29.根据权利要求28所述的方法,其特征在于,1c中,所述使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对,还包括:
基于所述Nbest第一句法依存树以及所述Nbest第二句法依存树,确定多个依存树相似度;
对多个依存树相似度打分,相似度高者对应的得分高,得分最高的依存树相似度对应于得分最高的句法依存树对。
30.根据权利要求28所述的方法,其特征在于,所述筛选条件包括以下三者中的至少一者:
翻译结果的得分大于指定阈值;
第一句法依存树的结构与第二句法依存树的结构相同;
第一句法依存树的结构包含第二句法依存树的结构或者第二句法依存树的结构包含第一句法依存树的结构;
第一句法依存树的结构与第二句法依存树的结构属于高频树形结构对。
31.根据权利要求28所述的方法,其特征在于,所述方法还包括训练树到数预测组件,树到数预测组件的训练过程包括:
通过神经网络系统,基于所述双向翻译词对齐相似度以及第一语言语料对应的第一句法依存树,预测第三句法依存树;
基于所述双向翻译词对齐相似度以及第二语言语料对应的第二句法依存树,预测第四句法依存树;
获取所述第三句法依存树与所述第二句法依存树的树对齐相似度;
获取所述第四句法依存树与所述第一句法依存树的树对齐相似度;
基于得到的树对齐相似度,优化第三句法依存树的预测处理过程和/或第四句法依存树的预测处理过程,以使各自对应的树对齐相似度得到提高。
32.根据权利要求20所述的方法,其特征在于,所述方法还包括:对所述符合筛选条件的翻译结果和/或句法依存树对进行处理,获得对应的知识三元组。
33.根据权利要求20-32中任一所述的方法,其特征在于,所述依存关系对齐组件采用如权利要求1-19中任一所述的依存关系对齐组件。
34.一种多语言依存关系对齐训练装置,其特征在于,所述装置包括:
训练处理模块,用于基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,
所述依存关系对齐组件,用于得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
训练集处理模块,用于在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
迭代处理模块,用于基于所述训练集,触发所述模型训练模块,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。
35.一种多语言依存关系对齐训练设备,其特征在于,其包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求20至33中任一项所述的方法。
36.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求20至33中任一项所述的方法。
CN201810987179.2A 2018-08-28 2018-08-28 依存关系对齐组件、依存关系对齐训练方法、设备及介质 Active CN110874535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810987179.2A CN110874535B (zh) 2018-08-28 2018-08-28 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810987179.2A CN110874535B (zh) 2018-08-28 2018-08-28 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Publications (2)

Publication Number Publication Date
CN110874535A true CN110874535A (zh) 2020-03-10
CN110874535B CN110874535B (zh) 2023-07-25

Family

ID=69714318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810987179.2A Active CN110874535B (zh) 2018-08-28 2018-08-28 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Country Status (1)

Country Link
CN (1) CN110874535B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680527A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于专属机翻引擎训练的人机共译系统与方法
CN112417897A (zh) * 2020-11-30 2021-02-26 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
WO2021159762A1 (zh) * 2020-09-08 2021-08-19 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN113283250A (zh) * 2021-05-26 2021-08-20 南京大学 一种基于句法成分分析的自动化机器翻译测试方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004199427A (ja) * 2002-12-19 2004-07-15 Oki Electric Ind Co Ltd 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
KR20090015604A (ko) * 2007-08-09 2009-02-12 한국전자통신연구원 번역 지식 구축 방법 및 장치
CN102760121A (zh) * 2012-06-28 2012-10-31 中国科学院计算技术研究所 依存映射方法及系统
CN104268133A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
CN105740234A (zh) * 2016-01-29 2016-07-06 昆明理工大学 一种基于mst算法的越南语依存树库构建方法
CN107436865A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 一种词对齐训练方法、机器翻译方法及系统
CN108304390A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004199427A (ja) * 2002-12-19 2004-07-15 Oki Electric Ind Co Ltd 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
KR20090015604A (ko) * 2007-08-09 2009-02-12 한국전자통신연구원 번역 지식 구축 방법 및 장치
CN102760121A (zh) * 2012-06-28 2012-10-31 中国科学院计算技术研究所 依存映射方法及系统
CN104268133A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
CN105740234A (zh) * 2016-01-29 2016-07-06 昆明理工大学 一种基于mst算法的越南语依存树库构建方法
CN107436865A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 一种词对齐训练方法、机器翻译方法及系统
CN108304390A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAKAMOTO, A 等: "Professional translators\' theorising patterns in comparison with classroom discourse on translation: The case of Japanese/English translators in the UK(Article)" *
李发杰;余正涛;郭剑毅;李英;周兰江;: "借助汉-越双语词对齐语料构建越南语依存树库" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680527A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于专属机翻引擎训练的人机共译系统与方法
CN111680527B (zh) * 2020-06-09 2023-09-19 语联网(武汉)信息技术有限公司 基于专属机翻引擎训练的人机共译系统与方法
WO2021159762A1 (zh) * 2020-09-08 2021-08-19 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN112417897A (zh) * 2020-11-30 2021-02-26 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN112417897B (zh) * 2020-11-30 2023-04-07 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN113283250A (zh) * 2021-05-26 2021-08-20 南京大学 一种基于句法成分分析的自动化机器翻译测试方法

Also Published As

Publication number Publication date
CN110874535B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Shi et al. Neural abstractive text summarization with sequence-to-sequence models
Hu et al. Deep code comment generation
Dong et al. Learning to paraphrase for question answering
KR102404037B1 (ko) 자연 언어 문장을 데이터베이스 쿼리로 번역하기 위한 시스템 및 방법
US10789415B2 (en) Information processing method and related device
CN110874535B (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
US20220318275A1 (en) Search method, electronic device and storage medium
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
Garg et al. Machine translation: a literature review
CN110874537A (zh) 多语言翻译模型的生成方法、翻译方法及设备
CN112256860A (zh) 客服对话内容的语义检索方法、系统、设备及存储介质
Wu et al. Community answer generation based on knowledge graph
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN104881397A (zh) 缩写词扩展方法和装置
JP7291181B2 (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
Zhang et al. Stanford at TAC KBP 2016: Sealing Pipeline Leaks and Understanding Chinese.
Dalai et al. Part-of-speech tagging of Odia language using statistical and deep learning based approaches
Qian et al. Fine-grained entity typing without knowledge base
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
Nambiar et al. Attention based abstractive summarization of malayalam document
Singh et al. An English-assamese machine translation system
Li A Study on Chinese-English Machine Translation Based on Transfer Learning and Neural Networks.
Okba et al. Semantic natural language translation based on ontologies combination
CN115114937A (zh) 文本获取方法、装置、计算机设备及存储介质
Sofianopoulos et al. Multi-objective optimisation of real-valued parameters of a hybrid MT system using Genetic Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant