CN106126505B - 平行短语学习方法及装置 - Google Patents

平行短语学习方法及装置 Download PDF

Info

Publication number
CN106126505B
CN106126505B CN201610446994.9A CN201610446994A CN106126505B CN 106126505 B CN106126505 B CN 106126505B CN 201610446994 A CN201610446994 A CN 201610446994A CN 106126505 B CN106126505 B CN 106126505B
Authority
CN
China
Prior art keywords
phrase
level
language
target language
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610446994.9A
Other languages
English (en)
Other versions
CN106126505A (zh
Inventor
刘洋
孙茂松
柳春洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610446994.9A priority Critical patent/CN106126505B/zh
Publication of CN106126505A publication Critical patent/CN106126505A/zh
Application granted granted Critical
Publication of CN106126505B publication Critical patent/CN106126505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种平行短语学习方法及装置,其中,该方法包括:根据句子级的单语语料库构建短语级的单语语料库;通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;使用两个短语翻译模型,在模型一致性约束下分别从两个单语语料库中抽取平行短语对,以在模型一致性约束下进一步优化两个短语翻译模型。本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更廉价、覆盖语言领域更全面,能补充当前平行语料库不足的情况,并很好地解决噪音的问题,提升抽取出的平行语料的精度和质量。

Description

平行短语学习方法及装置
技术领域
本发明涉及机器翻译技术领域,特别涉及一种平行短语学习方法及装置。
背景技术
随着互联网的发展和国际交流的日益深入,人们的语言翻译需求日益增长。据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。然而,机器翻译的质量还无法达到人们的需求,尤其是对于语料资源较少的语言和领域,目前的商用机器翻译系统还很难很好地进行翻译。目前主流的机器翻译技术是基于统计的机器翻译。平行语料库在统计机器翻译中起到了重要作用,是统计机器翻译系统用于抽取翻译规则、计算模型参数所不可或缺的数据资源。
平行语料库是指的是源语言文本及其平行对应的目标语言的译文文本构成的双语或多语语料库。对齐的粒度分为词级、短语级、句子级、段落级、篇章级等。统计机器翻译系统通常使用句子级对齐的平行语料库作为训练数据。统计机器翻译技术依赖于大规模的平行语料库,系统通过训练算法来使用平行语料库训练翻译模型。
但是,如何获取大规模的平行语料库仍然是一个巨大的挑战。目前平行语料库远远无法满足互联网的时代下人们对机器翻译服务的需要。平行语料库通常从多语言的政府文档、新闻网站等获取,只覆盖较少的语言和有限的领域,如法律、政治、文学等,并不足以支持多语言、多领域的机器翻译;对于小语种和特定领域(如航空领域、旅游领域等),平行语料库非常稀缺,从中抽取出的平行短语的质量和翻译模型的性能较低,受非平行语料中噪音数据的影响程度较高。
发明内容
本发明要解决的技术问题是:如何基于非平行的源语言及目标语言的单语语料库,提供一种平行短语学习方法及装置。
基于上述目的,本发明提出如下技术方案:
一种平行短语的学习方法,包括:
S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;
S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
S3:使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
可选地,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
可选地,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
根据已获取的源语言的短语级别单语语料库
Figure BDA0001023011850000021
和目标语言的短语级别单语语料库
Figure BDA0001023011850000022
定义所述源语言到目标语言的短语翻译模型为:
Figure BDA0001023011850000031
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
Figure BDA0001023011850000032
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,
Figure BDA0001023011850000033
代表e中与fj对齐的词。P(J|I)为长度模型,
Figure BDA0001023011850000034
为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1
可选地,所述S2中通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化,包括:
将P(J|I)初始化为均匀分布,即对任意J,P(J|I)具有相同的概率,同时将p(f|e)根据所述种子词典进行初始化:
Figure BDA0001023011850000035
其中,count(f,e)表示词典中(f,e)作为互译词出现的次数,所述次数为0或者1;
同理,根据相同的方法定义和初始化所述目标语言到源语言的短语翻译模型P(e|f;θ2)。
可选地,所述S3中使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,包括:
S31:通过跨语言检索,为所述目标语言的短语级别单语语料库F中的一个短语ft,选取可能是该短语对应的n个所述源语言的短语级别单语语料库E中的翻译短语e1,e2,e3…en
S32:根据P(ft|e;θ1),计算最佳匹配
Figure BDA0001023011850000041
得到短语对
Figure BDA0001023011850000042
S33:重复步骤S31和S32,为F中的每一个短语构建一个短语对,得到短语对集合
Figure BDA0001023011850000043
S34:类似地,为E中的每一个短语构建一个短语对,得到短语对集合
Figure BDA0001023011850000044
S35:根据模型一致性约束,取m1和m2的交集m*作为这一轮抽取出的平行短语对。
可选地,所述S3中利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
Figure BDA0001023011850000045
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及m*计算得到,计算时考虑双向模型的一致性约束:
Figure BDA0001023011850000046
类似地,根据m*更新计算目标语言到源语言的短语翻译模型参数θ2,即p(I|J)及p(e|f)。
可选地,所述S3中在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
将最后一轮优化抽取出的所有平行短语对输出,作为抽取出的平行语料库。
一种平行短语的学习装置,包括:
语料库构建单元,用于根据句子级的单语语料库中的句子构建短语级的单语语料库;
模型初始化单元,用于通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
翻译模型优化单元,用于使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
可选地,所述语料库构建单元,进一步用于:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
可选地,所述语料库构建单元,还用于:
根据已获取的源语言的短语级别单语语料库
Figure BDA0001023011850000051
和目标语言的短语级别单语语料库
Figure BDA0001023011850000052
定义所述源语言到目标语言的短语翻译模型为:
Figure BDA0001023011850000053
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
Figure BDA0001023011850000061
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,
Figure BDA0001023011850000062
代表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1
本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更为廉价,且覆盖的语言、领域更为全面,能极大地补充当前平行语料库不足的情况。同时,通过使用模型一致性约束,很好地解决了实际环境中存在噪音(大量没有译文的文本)的问题,大大提升了抽取出的平行语料的精度和质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的平行短语的学习方法的流程示意图;
图2为本发明一个实施例的平行短语的学习装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一个实施例的平行短语的学习方法的流程示意图;如图1所示,该方法包括:
S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;
S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
S3:使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
需要说明的是,步骤S3中从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以及,利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型的过程是一个多轮迭代优化的过程。即不断重复上述抽取平行短语对以优化上述的两个短语翻译模型,直到无法抽取出新的短语对为止。
本实施例的平行短语的学习方法,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更为廉价,且覆盖的语言、领域更为全面,能极大地补充当前平行语料库不足的情况。同时,通过使用模型一致性约束,很好地解决了实际环境中存在噪音(大量没有译文的文本)的问题,大大提升了抽取出的平行语料的精度和质量。
作为本实施例的优选,步骤S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,可包括:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
在上述实施例的基础上,步骤S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,还可进一步包括:
根据已获取的源语言的短语级别单语语料库
Figure BDA0001023011850000081
和目标语言的短语级别单语语料库
Figure BDA0001023011850000082
定义所述源语言到目标语言的短语翻译模型为:
Figure BDA0001023011850000083
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,
Figure BDA0001023011850000085
代表e中与fj对齐的词。P(J|I)为长度模型,
Figure BDA0001023011850000086
为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1
作为另一种优选的实施方式,所述S2中通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化,可进一步包括:
将P(J|I)初始化为均匀分布,即对任意J,P(J|I)具有相同的概率,同时将p(f|e)根据所述种子词典进行初始化:
Figure BDA0001023011850000087
其中,count(f,e)表示词典中(f,e)作为互译词出现的次数,所述次数为0或者1;
同理,根据相同的方法定义和初始化所述目标语言到源语言的短语翻译模型P(e|f;θ2)。
作为本实施例的优选,所述S3中使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,包括:
S31:通过跨语言检索,为所述目标语言的短语级别单语语料库F中的一个短语ft,选取可能是该短语对应的n个所述源语言的短语级别单语语料库E中的翻译短语e1,e2,e3…en
S32:根据P(ft|e;θ1),计算最佳匹配
Figure BDA0001023011850000091
得到短语对
Figure BDA0001023011850000092
S33:重复步骤S31和S32,为F中的每一个短语构建一个短语对,得到短语对集合
S34:类似地,为E中的每一个短语构建一个短语对,得到短语对集合
Figure BDA0001023011850000094
S35:根据模型一致性约束,取m1和m2的交集m*作为这一轮抽取出的平行短语对。
作为本实施例的优选,步骤S3中利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
Figure BDA0001023011850000095
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及m*计算得到,计算时考虑双向模型的一致性约束:
Figure BDA0001023011850000101
类似地,根据m*更新计算目标语言到源语言的短语翻译模型参数θ2,即p(I|J)及p(e|f)。
进一步地,在上述实施例的基础上,步骤S3中利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
将最后一轮迭代抽取出的所有平行短语对输出,作为抽取出的平行语料库。
图2为本发明一个实施例的平行短语的学习装置的结构示意图。如图2所示,该装置,包括语料库构建单元10、模型初始化单元20以及翻译模型优化单元30;
其中,语料库构建单元10用于根据句子级的单语语料库中的句子构建短语级的单语语料库;
模型初始化单元20用于通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
翻译模型优化单元30用于使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
作为上述实施例的优选,语料库构建单元10可进一步用于:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
在此基础上,语料库构建单元10还可以进一步用于:
根据已获取的源语言的短语级别单语语料库
Figure BDA0001023011850000111
和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
Figure BDA0001023011850000113
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
Figure BDA0001023011850000114
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,
Figure BDA0001023011850000115
代 表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成 了短语翻译模型的参数θ1
本实施例所述的装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
需要说明的是,对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (9)

1.一种平行短语的学习方法,其特征在于,包括:
S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;
S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
S3:使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型;
其中,具体对所述源语言到目标语言的短语翻译模型进行迭代优化更新如下:
Figure FDA0002131374830000011
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及平行短语对m*计算得到,计算时考虑双向模型的一致性约束:
Figure FDA0002131374830000012
式中,es为源语言的短语级别单语语料库中的短语,ft为目标语言的短语级别单语语料库中的短语,Is为源语言短语es的长度,Jt为目标语言短语ft的长度,p(e|f)表示上一轮迭代中目标语言到源语言的短语翻译模型;
类似地,根据上一轮迭代中的平行短语对m*更新计算所述目标语言到源语言的短语翻译模型p(e|f)。
2.根据权利要求1所述的方法,其特征在于,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
3.根据权利要求2所述的方法,其特征在于,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
根据已获取的源语言的短语级别单语语料库
Figure FDA0002131374830000021
和目标语言的短语级别单语语料库
Figure FDA0002131374830000022
定义所述源语言到目标语言的短语翻译模型为:
Figure FDA0002131374830000023
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
Figure FDA0002131374830000024
其中I为源语言短语e的长度,J为目标语言短语f的长度,fl代表f的第l个词,
Figure FDA0002131374830000025
代表e中与fl对齐的词,P(J|I)为长度模型,
Figure FDA0002131374830000026
为词翻译模型,P(J|I)和这两个模型参数共同构成了短语翻译模型的参数θ1
4.根据权利要求3所述的方法,其特征在于,所述S2中通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化,包括:
将P(J|I)初始化为均匀分布,即对任意J,P(J|I)具有相同的概率,同时将p(f|e)根据所述种子词典进行初始化:
其中,count(f,e)表示词典中(f,e)作为互译词出现的次数,所述次数为0或者1;
同理,根据相同的方法定义和初始化所述目标语言到源语言的短语翻译模型P(e|f;θ2)。
5.根据权利要求3所述的方法,其特征在于,所述S3中使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,包括:
S31:通过跨语言检索,为所述目标语言的短语级别单语语料库F中的一个短语ft,选取可能是该短语对应的n个所述源语言的短语级别单语语料库E中的翻译短语e1,e2,e3…en
S32:根据P(ft|e;θ1),计算最佳匹配
Figure FDA0002131374830000031
得到短语对
Figure FDA0002131374830000034
S33:重复步骤S31和S32,为F中的每一个短语构建一个短语对,得到短语对集合
Figure FDA0002131374830000032
S34:类似地,为E中的每一个短语构建一个短语对,得到短语对集合
Figure FDA0002131374830000033
S35:根据模型一致性约束,取m1和m2的交集m*作为这一轮抽取出的平行短语对。
6.根据权利要求1所述的方法,其特征在于,所述S3中在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
将最后一轮优化抽取出的所有平行短语对输出,作为抽取出的平行语料库。
7.一种平行短语的学习装置,其特征在于,包括:
语料库构建单元,用于根据句子级的单语语料库中的句子构建短语级的单语语料库;
模型初始化单元,用于通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
翻译模型优化单元,用于使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型;
其中,具体对所述源语言到目标语言的短语翻译模型进行迭代优化更新如下:
Figure FDA0002131374830000041
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及平行短语对m*计算得到,计算时考虑双向模型的一致性约束:
Figure FDA0002131374830000042
式中,es为源语言的短语级别单语语料库中的短语,ft为目标语言的短语级别单语语料库中的短语,Is为源语言短语es的长度,Jt为目标语言短语ft的长度,p(e|f)表示上一轮迭代中目标语言到源语言的短语翻译模型;
类似地,根据上一轮迭代中的平行短语对m*更新计算所述目标语言到源语言的短语翻译模型p(e|f)。
8.根据权利要求7所述的装置,其特征在于,所述语料库构建单元,进一步用于:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
9.根据权利要求8所述的装置,其特征在于,所述语料库构建单元,还用于:
根据已获取的源语言的短语级别单语语料库
Figure FDA0002131374830000051
和目标语言的短语级别单语语料库
Figure FDA0002131374830000052
定义所述源语言到目标语言的短语翻译模型为:
Figure FDA0002131374830000053
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
Figure FDA0002131374830000054
其中I为源语言短语e的长度,J为目标语言短语f的长度,fl代表f的第l个词,
Figure FDA0002131374830000055
代表e中与fl对齐的词,P(J|I)为长度模型,
Figure FDA0002131374830000056
为词翻译模型,P(J|I)和
Figure FDA0002131374830000057
这两个模型参数共同构成了短语翻译模型的参数θ1
CN201610446994.9A 2016-06-20 2016-06-20 平行短语学习方法及装置 Active CN106126505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610446994.9A CN106126505B (zh) 2016-06-20 2016-06-20 平行短语学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610446994.9A CN106126505B (zh) 2016-06-20 2016-06-20 平行短语学习方法及装置

Publications (2)

Publication Number Publication Date
CN106126505A CN106126505A (zh) 2016-11-16
CN106126505B true CN106126505B (zh) 2020-01-31

Family

ID=57471308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610446994.9A Active CN106126505B (zh) 2016-06-20 2016-06-20 平行短语学习方法及装置

Country Status (1)

Country Link
CN (1) CN106126505B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038159B (zh) * 2017-03-09 2019-07-12 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN109284511B (zh) * 2018-09-04 2023-05-16 苏州大学 主动学习平行语料构建方法
EP3862908A1 (en) 2018-12-14 2021-08-11 Google LLC Voice-based interface for a networked system
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110795947B (zh) * 2019-08-30 2023-07-14 腾讯科技(深圳)有限公司 语句翻译方法和装置、存储介质及电子装置
CN111126087B (zh) * 2019-12-25 2023-08-29 北京百度网讯科技有限公司 领域翻译处理方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770458A (zh) * 2009-01-07 2010-07-07 三星电子(中国)研发中心 基于实例短语的机器翻译方法
CN103092831A (zh) * 2013-01-25 2013-05-08 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026425B2 (en) * 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770458A (zh) * 2009-01-07 2010-07-07 三星电子(中国)研发中心 基于实例短语的机器翻译方法
CN103092831A (zh) * 2013-01-25 2013-05-08 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Agreement-based Learning of Parallel Lexicons and Phrases from Non-Parallel Corpora;Chunyang Liu et al.;《arXiv》;20160615;第2节,第3.1节,第3.2.3-3.2.5节,第4.2节第2段 *
基于语义的网络知识获取相关技术研究;郭勇;《中国博士学位论文全文数据库 信息科技辑》;20090715;第3.3.1节 *
统计机器翻译中短语切分的新方法;何中军 等;《中文信息学报》;20070131;第21卷(第1期);第85-89页 *
面向中英平行专利的双语术语自动抽取;孙茂松;《清华大学学报(自然科学版)》;20141031;第54卷(第10期);第1339-1343页 *

Also Published As

Publication number Publication date
CN106126505A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106126505B (zh) 平行短语学习方法及装置
CN104408078B (zh) 一种基于关键词的中英双语平行语料库构建方法
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译系统
US9208149B2 (en) Machine translation apparatus, method and program
US9152622B2 (en) Personalized machine translation via online adaptation
CN109213995A (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN105068997B (zh) 平行语料的构建方法及装置
US10394961B2 (en) Foreign language sentence creation support apparatus, method, and program
CN106055623A (zh) 一种跨语言推荐方法和系统
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
Wang et al. Automatic construction of discourse corpora for dialogue translation
CN104750820A (zh) 一种语料库的过滤方法及装置
Schwartz et al. Neural polysynthetic language modelling
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Rasooli et al. Unsupervised morphology-based vocabulary expansion
Singh et al. Towards translating mixed-code comments from social media
Tsvetkov et al. Generating English determiners in phrase-based translation with synthetic translation options
CN104199813A (zh) 基于伪反馈的个性化机器翻译系统及方法
Al-Mannai et al. Unsupervised word segmentation improves dialectal Arabic to English machine translation
Schamoni et al. A dataset and reranking method for multimodal MT of user-generated image captions
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Pisarev Methods for automated thesauri development of thematic corpora in the learning process support systems
Singh et al. English-Dogri Translation System using MOSES
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Dinarelli et al. Concept segmentation and labeling for conversational speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant