CN101479724A - 从双语词语对齐高效提取短语对 - Google Patents

从双语词语对齐高效提取短语对 Download PDF

Info

Publication number
CN101479724A
CN101479724A CNA2007800243942A CN200780024394A CN101479724A CN 101479724 A CN101479724 A CN 101479724A CN A2007800243942 A CNA2007800243942 A CN A2007800243942A CN 200780024394 A CN200780024394 A CN 200780024394A CN 101479724 A CN101479724 A CN 101479724A
Authority
CN
China
Prior art keywords
source
phrase
word
alignment
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800243942A
Other languages
English (en)
Inventor
R·C·摩尔
C·B·夸克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101479724A publication Critical patent/CN101479724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

提供用于标识源句子和目标句子之间的短语对齐对的方法。通过要求源词语与目标句子中的至少一个目标词语对齐以形成源短语的边界来标识短语在源句子中的边界。基于源短语中的词语与目标句子中的词语之间的对齐而标识短语在目标句子中的边界。检查目标短语中的词语以确定是否有任何词语与源短语外的源词语对齐。如果它们不与源短语外的源词语对齐,则确定源短语和目标短语形成对齐对,且被存储为短语对齐对。

Description

从双语词语对齐高效提取短语对
背景
使用翻译模型将源语言的句子翻译成目标语言的句子。例如,可使用翻译模型将英语句子翻译成其法语的等价物。
开发了依赖于一对多翻译(被称为词语翻译)和多对多翻译(被称为短语翻译)两者的翻译模型。在一对多翻译中,源语言中的一个词语被翻译成目标语言中的一个或多个词语。在多对多翻译中,源语言中的多个相邻词语被翻译成目标语言中的多个相邻词语。
为了构造翻译模型,使用由与第二语言的目标句子对齐的第一语言的源句子组成的双语语料库来标识可能的词语翻译和短语翻译。通常使用基于包括双语语料库中对齐的句子中源词语和目标词语的共同出现率在内的多种因素标识源句子中的词语与目标句子中的词语之间的对齐的统计词语对齐器来标识词语翻译。
使用类似的统计技术从句子对齐的双语语料库中直接提取短语对齐。在以往的其他系统中,通过首先提取词语对齐然后使用词语对齐标识短语来提取短语对齐。在这样的系统中,当源短语中的词语没有一个与目标句子中目标短语外的词语对齐且目标短语中的词语没有一个与源句子中源短语之外的词语对齐,且源短语中至少有一个词语与目标短语中的词语对齐时,将源短语和目标短语称为对齐。
将每一可能的源短语与每一可能的目标短语独立比较的朴素算法将具有至少O(l2m2)的复杂度,其中l和m分别是源和目标句子的长度。
提供以上讨论仅用作一般的背景信息,并不旨在帮助确定所要求保护的主题的范围。
概述
提供用于标识源句子和目标句子之间的短语对齐对的方法。通过要求源词语与目标句子中的至少一个目标词语对齐以形成源短语的边界来标识短语在源句子中的边界。基于源短语中的词语与目标句子中的词语之间的对齐标识短语在目标句子中的边界。检查目标短语中的词语以确定是否有任何词语与源短语外的源词语对齐。如果它们不与源短语外的源词语对齐,则确定源短语和目标短语形成对齐对,且被存储为短语对齐对。
提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。
附图简述
图1是用于训练翻译模型的系统的框图。
图2是源句子与对齐的目标句子之间的词语对齐的示例。
图3是提取对齐的短语对的方法的流程图。
图4是用于基于源短语边界结尾的改变扩展目标短语边界的流程图。
图5是用于标识可通过向目标和源短语添加未链接的词语来形成的附加短语对的流程图。
图6是用于标识对齐的短语对的替换方法的流程图。
图7是翻译系统的框图。
图8是可在其中实现各实施例的一般计算环境的框图。
详细描述
图1是用于利用从双语语料库中提取的短语对齐来构造翻译模型的系统的大体框图。在图1中,向词语对齐模型102提供双语语料库100。双语语料库100由与第二语言的目标句子对齐的第一语言的源句子组成。这样的双语语料库的示例有加拿大议会议事录(Canadian Hansards ParliamentaryProceedings),它使用诸如美国专利公开2004-0044530A1中所述的技术等已知的句子级对齐技术来对齐以提供英法双语词语对。
词语对齐模型102使用双语语料库100来标识词语对齐104。词语对齐模型102可采用标识源句子中词语与目标句子中词语之间的一对多对齐的任何统计词语对齐模型的形式。统计词语对齐模型的示例包括IBM模型1-5,这在本领域中是已知的。
在词语对齐104中,每一源词语被标识为或者不链接到目标句子中的词语、链接到目标句子中的一个词语或目标句子中的多个相邻词语。类似地,目标句子中的每一目标词语被表示为不与源句子中的词语对齐、与源句子中的一个词语对齐或与源句子中的多个相邻词语对齐。与至少一个词语对齐的源词语和目标词语被称为链接的。不与词语对齐的源词语和目标词语被称为未链接的。
图2提供在双语语料库中对齐的源句子200和目标句子202的词语对齐的图形示例。源句子200由源词语SW1、SW2、SW3、SW4、SW5、SW6、SW7和SW8组成。目标句子202由目标词语TW1、TW2、TW3、TW4、TW5和TW6组成。词语之间的对齐被示为将源词语连接到目标词语的线。在图2的词语对齐中,目标词语TW2与三个源词语SW2、SW3和SW4对齐,源词语SW4与两个目标词语TW2和TW3对齐,目标词语TW3与两个源词语SW4和SW6对齐,而目标词语TW6与源词语SW8对齐。源词语SW1、SW5和SW7以及目标词语TW1、TW4和TW5不与任何词语对齐,且被认为是未链接的。
短语提取106使用词语对齐104来标识双语语料库100中的短语对齐对108。短语对齐对108中的每一短语对齐对由源短语和目标短语组成,源短语由源句子中的词语的相邻序列形成,目标短语由目标句子中词语的相邻序列形成。短语对表示其中源短语中没有词语与目标句子中目标短语外的词语对齐且目标短语中没有词语与源句子中源短语外的词语对齐且源短语中至少有一个词语与目标短语中的词语对齐的多对多关系。源短语和目标短语由短语边界限定,起始边界为短语中的第一个词语,而结束边界为短语中的最后一个词语。
使用词语对齐104和短语对齐对108,翻译模型训练器110开发了对齐的词语和对齐的短语的出现的统计。然后使用这些统计来构造翻译模型112,该模型提供了给定源词语和源短语时目标词语和目标短语的概率以及给定目标词语和目标短语时源词语和源短语的概率。
图3提供了一个实施例中短语提取的一种方法的流程图。在图3的步骤300中,从词语对齐104检索目标句子和源句子的词语对齐边界。在一个实施例中,源词语的词语对齐提供与该源词语对齐的目标短语的最小词语位置和最大词语位置。类似地,目标词语的词语对齐提供与该目标词语对齐的源短语的最小词语位置和最大词语位置。不检索关于目标词语与最小源词语和最大源词语之间的词语的对齐的信息或源词语与最小目标词语和最大目标词语之间的词语的对齐的信息。例如,对图2的对齐,目标词语TW3的对齐信息可包括作为最小源词语的SW4以及作为最大源词语的SW6,而不引用源词语SW5。这简化了在图3的过程期间存储词语对齐所需的数据结构。在其他实施例中,在步骤300检索关于源词语和目标词语之间的每一对齐的信息。
在步骤302,使用源句子中源词语的词语对齐,并在源句子起始处开始,该方法找到与至少一个目标词语对齐的下一源词语,并对该词语设置可能的源短语的开头和结尾。注意,在步骤302不与目标词语对齐的源词语不被认为是源短语的开头。例如,在图2的词语对齐中,源词语SW5将在步骤302期间跳过。
使用与步骤302所选的源词语相关联的最小目标词语位置和最大目标词语位置,短语提取过程在步骤304设置目标短语的边界。具体地,目标短语的开始被设置为源词语的最小目标词语位置,而目标短语的结尾被设置为源词语的最大目标词语位置。例如,在图2中,如果源短语的开头和结尾位于源词语SW4,则目标短语的开始将被设置为TW2,而目标短语的结尾将被设置为TW3。
在步骤306,选择目标短语边界中未检查其词语对齐的词语。在步骤308,检查所选目标词语的词语对齐,以确定目标词语是否与源句子中当前源短语之前的词语对齐。如果目标词语与源短语之前的词语对齐,则过程返回到步骤302以通过从当前源词语朝源句子结尾移动来找到与目标词语对齐的下一源词语。新的源短语的开头和结尾然后被设置为该下一源词语。然后对新的源短语执行步骤304、306和308。
如果在步骤308目标词语不与源短语之前的词语对齐,则过程继续至步骤310,在那里作出目标词语是否与源短语之后的源词语对齐的判断。如果目标词语与源短语之后的词语对齐,则在步骤312源短语的结尾移至与目标词语对齐的最大源词语位置。
步骤308和302的组合以及步骤310和312的组合允许将源词语的跨度排除在形成翻译对的部分的考虑之外而不必标识该跨度的相应目标短语。这是通过在到达步骤308和310之前首先标识可能的源短语和相应的可能目标短语的边界来完成的。在步骤308和310,作出可能的目标短语是否包括链接至源短语外的源词语的目标词语的判断。在步骤308,这涉及确定该外部源词语是否在源短语之前,而在步骤310,这涉及确定该外部词语是否在源短语之后。
步骤308和302的组合通过排除与当前源短语共享边界(当前源短语的开头)、不包括外部源词语、且包括源短语的所有词语的源词语的跨度,排除了源词语的跨度,而不必标识相应的目标短语。例如,如果当前源短语被设置为SW4-SW6且相应的目标短语被设置为TW2-TW3,则步骤308和302将源词语SW2标识为外部源词语,且将排除以开头边界SW4开始且不包括源词语SW2且包括当前源短语SW4-SW6的所有词语的源词语的跨度。因此,步骤308和302排除了跨度SW4-SW7以及SW4-SW8而不必标识这些跨度相应的目标短语。这可根据在步骤302,当前短语的开头直接移至SW6而没有对跨度SW4-SW7和SW4-SW8执行任何处理来看出。
步骤310和312的组合通过排除与当前源短语共享边界(当前源短语的开头)、不包括外部源词语、且包括源短语的所有词语的源词语的跨度,排除了源词语的跨度,而不必标识相应的目标短语。例如,如果当前源短语被设置为SW2-SW4且相应的目标短语被设置为TW2-TW3,则步骤310和312将源词语SW6标识为外部源词语,且将排除以开头边界SW2开始且不包括源词语SW6且包括当前源短语SW2-SW4的所有词语的源词语的跨度。因此,步骤310和312排除跨度SW2-SW5而不必标识该跨度的相应目标短语。这可根据在步骤312,当前短语的结尾直接移至SW6而没有对跨度SW2-SW5执行任何处理来看出。
在步骤312移动源短语的结尾之后,在步骤314基于源短语的结尾的移动改变目标短语的边界。
图4提供了在图3的步骤314执行的步骤的流程图。在步骤400,选择前一源短语结尾之后下一链接的源词语。例如,在图2中,如果前一源短语在词语SW2开始并结束,则步骤400将选择源词语SW3。在步骤402,如果源词语链接至当前目标短语开头之前的目标词语,则目标短语的开头被改为该源词语的最小链接目标词语位置。在步骤404,如果源词语链接至目标短语结尾之后的目标词语,则目标短语的结尾被改为该源词语的最大链接目标词语位置。例如,如果在步骤400,当目标短语在目标词语TW2开始并结束时选择源词语SW4,步骤404将使得目标短语的结尾被移动至目标词语TW3,因为这是源词语SW4的最大链接目标词语位置。
在步骤406,图4的过程确定源短语中是否还有其他未被检查的链接源词语。如果还有链接源词语,则在步骤407选择下一链接源词语,并重复步骤402、404和406。当在步骤406在源短语中不再有其他链接源词语时,该过程在步骤408结束。
回到图3,在其中基于源短语边界结尾的改变而改变目标短语边界的步骤314之后,该过程返回至步骤306以选择目标短语边界中未检查的下一词语。然后为新选择的目标词语执行步骤308和310。
当如步骤308和310所确定的,所选目标词语不与源短语之前或源短语之后的词语对齐时,该过程在步骤316确定在目标短语中是否还有其他未检查的词语。如果还有未检查的目标词语,则在步骤305选择目标短语中下一未检查的目标词语,并为新选择的目标词语执行步骤308和310。
当在步骤316中在目标短语中不再有其他未检查的目标词语时,该过程继续至步骤318,在那里可从当前源短语和当前目标短语通过添加0个或多个相邻未链接词语形成的所有源短语和目标短语被存储为短语对齐对。在图5的流程图中更详细示出存储这样的短语对齐对的过程。
以下参考图2的对齐双语句子来描述图5的流程图。具体地,以上使用为SW2-SW6的当前源短语和为TW2-TW3的当前目标短语进入图5的过程的示例讨论该流程图。
在图5的步骤500中,在进入图3的步骤318之前标识的当前源短语和当前目标短语被存储为短语对齐对108中的短语对齐对。作为来自图2的示例,在步骤500将源短语SW2-SW6和目标短语TW2-TW3存储为短语对齐对。注意到,源短语中没有一个源词语与目标短语外的目标词语对齐,且目标短语中没有一个目标词语与源短语外的目标词语对齐。
在步骤502,该过程确定在目标短语之前是否紧接有未链接词语。如果在目标短语之前紧接有未链接词语,则在步骤504将该未链接词语添加到目标短语以形成新的目标短语。对图2的示例,这可涉及将目标词语TW1添加到目标短语以形成由词语TW1-TW3组成的新目标短语。该过程然后返回至步骤500以将新的目标短语和源短语存储为短语对齐对。对图2的示例,这涉及存储由词语TW1-TW3组成的目标短语以及由源词语SW2-SW6组成的源短语。
该过程然后返回至步骤502以确定在目标短语之前是否紧接有其他未链接词语。当在目标短语之前没有紧接有其他未链接词语时,过程继续至步骤506,在那里将目标短语的开头复位到目标短语的原始开头。在图2的示例中,这涉及将目标短语的开头复位到目标词语TW2。
在复位目标短语的开头之后,该过程继续至步骤508,在那里确定在目标短语之后是否紧接有未链接词语。如果在目标短语之后紧接有未链接词语,则在步骤504将该未链接词语添加到目标短语,且新的目标短语和源短语被存储为短语对齐对。在图2的示例中,这涉及将目标词语TW4添加到目标短语以形成由词语TW2-TW4组成的新目标短语。该目标短语然后在步骤500与由词语SW2-SW6组成的源短语一起存储。
该过程然后返回至步骤502以确定在目标短语之前是否紧接有其他未链接词语。在图2的示例中,TW1是紧接在目标短语之前的未链接词语。因此,在步骤504,将该未链接词语添加到目标短语以形成由目标词语TW1-TW4组成的新目标短语。该新目标短语然后在步骤500与源短语SW2-SW6一起存储,作为短语对齐对。
该过程返回至步骤502,并确定在目标短语开头之前没有紧接有其他未链接词语。因此,在步骤506目标短语的开头被复位到目标短语的原始开头,且该过程在步骤508确定在目标短语之后是否有任何未链接词语。在图2的示例中,在当前目标短语之后紧接有未链接词语TW5。因此,该过程返回到步骤504以将TW5添加到目标短语,且将目标短语TW2-TW5和源短语SW2-SW6存储为短语对齐对。
该过程然后返回至步骤502以确定在目标短语之前是否紧接有其他未链接词语。在图2的示例中,TW1是紧接在目标短语之前的未链接词语。因此,在步骤504,将该未链接词语添加到目标短语以形成由目标词语TW1-TW5组成的新目标短语。该新目标短语然后在步骤500与源短语SW2-SW6一起存储,作为短语对齐对。
该过程返回至步骤502,并确定在目标短语开头之前没有紧接有其他未链接词语。因此,在步骤506目标短语的开头被复位到目标短语的原始开头,且该过程在步骤508确定在目标短语之后是否紧接有任何未链接词语。由于当前目标短语之后的下一词语为TW6,它链接至源词语SW8,因此在步骤508,在目标短语之后不再有紧接有其他未链接词语。因此,过程继续至步骤510,在那里目标短语的结尾被复位到其在目标词语TW3的原始位置。
在步骤512,该过程确定在源短语之前是否紧接有未链接词语。在图2的示例中,源词语SW1未链接,且因此在步骤514添加到源短语以形成新源短语SW1-SW6。该过程然后返回至步骤500以将新的源短语SW1-SW6和原始目标短语TW2-TW3存储为短语对齐对。
然后执行步骤502和504以向目标短语添加紧接在目标短语之前的未链接词语,得到由目标词语TW1-TW3组成的新目标短语。该新目标短语TW1-TW3然后与源短语SW1-SW6一起存储为短语对齐对。注意到,尽管向源短语和目标短语两者添加了未链接词语,但源短语中没有一个词语与目标短语外的目标词语对齐,且目标短语中没有一个词语与源短语外的源词语对齐。
然后执行步骤506、508、504和500以添加目标短语TW2-TW4和源短语SW1-SW6作为短语对齐对。然后执行步骤502、504和500以添加目标短语TW1-TW4和源短语SW1-SW6作为短语对齐对。然后执行步骤506、508、504和500以添加目标短语TW2-TW5和源短语SW1-SW6作为短语对齐对。然后执行步骤502、504和500以添加目标短语TW1-TW5和源短语SW1-SW6作为短语对齐对。
然后在步骤510复位目标短语的结尾,且该过程继续至步骤512以确定在当前源短语之前是否紧接有未链接词语。由于在源短语之前没有紧接有未链接词语,因此源短语的开头在步骤516被复位到原始源短语的开头。因此,在图2的示例中,源短语的开头被复位到SW2。
在步骤518,该过程确定在源短语之后是否紧接有未链接词语。如果有任何未链接词语,则该过程返回到步骤514以添加未链接词语,诸如未链接源词语SW7以形成新的源短语SW2-SW7。然后在步骤500,存储该新的源短语与原始目标短语以形成由源短语SW2-SW7和目标短语TW2-TW3组成的短语对齐对。然后使用上述步骤500、502、504、506和508形成可通过添加邻近未链接目标词语形成的所有可能的目标短语。所形成的每一目标短语与源短语的当前形式一起存储,作为短语对齐对。
此外,使用步骤512和514形成可用源短语的当前结尾通过向源短语的开头添加邻近未链接源词语形成的所有源短语。对这些源短语中的每一个,形成可通过添加邻近未链接词语形成的每个可能的目标短语,且添加目标短语和源短语作为对齐对。
当在步骤518中在源短语之后没有其他链接源词语时,该过程在步骤520结束。通过图5的过程,可标识以下源短语和目标短语对齐对:
SW2-SW6/TW2-TW3
SW2-SW6/TW1-TW3
SW2-SW6/TW2-TW4
SW2-SW6/TW1-TW4
SW2-SW6/TW2-TW5
SW2-SW6/TW1-TW5
SW1-SW6/TW2-TW3
SW1-SW6/TW1-TW3
SW1-SW6/TW2-TW4
SW1-SW6/TW1-TW4
SW1-SW6/TW2-TW5
SW1-SW6/TW1-TW5
SW2-SW7/TW2-TW3
SW2-SW7/TW1-TW3
SW2-SW7/TW2-TW4
SW2-SW7/TW1-TW4
SW2-SW7/TW2-TW5
SW2-SW7/TW1-TW5
SW1-SW7/TW2-TW3
SW1-SW7/TW1-TW3
SW1-SW7/TW2-TW4
SW1-SW7/TW1-TW4
SW1-SW7/TW2-TW5
SW1-SW7/TW1-TW5
回到图3,在步骤318通过添加邻接未链接词语从目标和源短语形成短语对之后,该过程继续至步骤320,在那里该方法确定在当前源短语的结尾之后是否还有链接的源词语。如果在当前源短语之后还有链接的源词语,则在步骤322将源短语的结尾移至当前源短语之后的下一链接源词语。例如,如果当前源短语的结尾是图2中的源词语SW6,则步骤322将涉及将源短语的结尾移动至源词语SW8。
在步骤322之后,该过程返回至步骤314,并基于源短语的新的结尾改变目标短语边界。例如,在图2中,目标短语边界的结尾将由于源短语的结尾从源词语SW6改为SW8而从TW4改为TW6。该过程然后继续至步骤306,在那里选择目标短语边界中尚未检查的目标词语。在以上给出的示例中,这将是目标词语TW5。然后对新的源和目标短语边界执行步骤308、310、316、312和318。
如果在步骤320中在当前源短语之后不再有链接的源词语,则该过程返回至步骤302,在那里将源短语的开头和结尾复位到当前源短语的开头之后的下一链接源词语。如果在当前源短语开头之后没有其他链接的源词语,则该过程在步骤302结束,并形成了所有源短语。例如,在图2中,如果当前源短语为SW4-SW8,则步骤302涉及将源短语的开头和结尾设为源词语SW6。而且,如果当前源短语为SW8,则该过程当返回至步骤302时将结束,因为在源词语SW8之后没有其他链接的源词语。
图3的过程提供了基于词语对齐从双语语料库中提取短语对的高效手段。具体地,通过一开始仅考虑以链接词语开始和结束的源和目标短语来实现效率。一旦标识了这样的短语,即可向核心源和目标短语添加邻近未链接词语以容易地形成其他源和目标短语。此外,如上所述,步骤308、302、310和312允许源词语的跨度被排除在形成对齐对的一部分的考虑之外而无需标识该跨度可能的目标短语。
在某些实施例中,对通过图3的过程提取的短语对施加附加限制。具体地,在某些实施例中,限制目标和/或源短语中词语的数目。而且,在某些实施例中,添加到核心源或目标短语的邻近未链接词语的数目受到限制。
图6提供了用于在短语提取106中标识短语对的替换方法。在图6的步骤600,选择以链接词语开始和结束的源词语的跨度。确定链接至源词语的跨度中一词语的每一目标词语,以确定链接至源跨度中任何词语的目标词语的最大和最小位置。在步骤602对源跨度存储这些最大和最小目标位置。在步骤604,该方法确定是否还有以链接源词语开始和结束的源跨度。如果还有其他源跨度,则该过程返回至步骤600,并选择下一源词语跨度。重复步骤600、602和604,直到不再有其他以链接词语开始和结束的源词语跨度。
当不再有其他源跨度时,该过程继续至步骤606,在那里选择以链接词语开始和结束的目标词语的跨度。在步骤608检查目标词语跨度中每一目标词语之间的对齐以标识源句子中链接至目标跨度中任何目标词语的最大和最小位置。
在步骤610,将在步骤606确定的目标跨度边界同与由步骤608中确定的源最大和最小所定义的跨度相关联的目标最大和最小位置进行比较。使用图2的示例,如果步骤606中所选的当前目标跨度为TW3-TW6,则与目标跨度相关联的源最大和最小跨度为SW4-SW8。该源跨度因而具有目标最大和最小TW2-TW6。因此,在步骤610中,将目标跨度边界TW3-TW6与目标最大和最小值TW2-TW6进行比较,并确定跨度不匹配。作为第二个示例,如果步骤606中所选的目标跨度边界为TW2-TW3,步骤608中相应的源最大和最小将为SW2-SW6。与该源跨度相关联的目标最大和最小将为TW2-TW3,这匹配在步骤606所选的目标跨度的目标跨度边界。因此,在步骤610,目标最大和最小将匹配目标跨度边界。
如果在步骤610目标最大和最小匹配目标跨度边界,则在步骤612将可通过添加邻近未链接词语从目标跨度和源最大和最小上的跨度形成的所有短语对存储为短语对齐对。生成这样的短语对齐对的过程如上结合图3的步骤318所述在图5中示出。
当存储了短语对齐对之后,或如果在步骤610目标最大和最小不匹配目标跨度边界,则该过程在步骤614确定是否还有其他目标跨度。如果还有其他目标跨度,则该过程返回至步骤606以选择以链接词语开始和结束的下一目标词语跨度。如果在步骤614不再有以链接词语开始和结束的其他目标跨度,则该过程在步骤616结束。
图7提供了其中可使用图1的翻译模型112的翻译系统的框图。在图7中,向翻译器702提供源句子700,翻译器702使用翻译模型112来确定源句子700中各个词语和短语可能的翻译以产生目标句子704。
图8示出了可在其上实现各实施例的合适的计算系统环境800的示例。计算系统800仅为合适的计算环境的一个示例,并非旨在对所要求保护的主题的使用范围或功能提出任何局限。也不应该把计算环境800解释为对示例性操作环境800中示出的任一组件或其组合有任何依赖性或要求。
各实施例可用于各种其它通用或专用计算系统环境或配置。适合在各实施例中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、电话系统、包含上述系统或设备中的任一个的分布式计算环境等。
各实施例可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。一些实施例被设计为在分布式计算环境中实施,在分布式计算环境中任务是由通过通信网络链接的远程处理设备来执行的。在分布式计算环境中,程序模块位于包括存储器存储设备的本地和远程计算机存储介质中。
参考图8,用于实现一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的组件可以包括,但不限于,处理单元820、系统存储器830和将包括系统存储器在内的各种系统组件耦合至处理单元820的系统总线821。系统总线821可以是若干类型的总线结构中的任一种。
计算机810通常包括各种计算机可读介质。计算机可读介质可以是能由计算机810访问的任何可用介质,而且包含易失性、非易失性介质以及可移动和不可移动介质。作为示例而非局限,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机810访问的任何其它介质。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。以上的任何组合也应包括在计算机可读介质的范围内。
系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)831和随机存取存储器(RAM)832。基本输入/输出系统833(BIOS)包括如在启动时帮助在计算机810内的元件之间传输信息的基本例程,它通常储存在ROM 831中。RAM 832通常包含处理单元820可以立即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非局限,图8示出了操作系统834、应用程序835、其它程序模块836和程序数据837。
计算机810还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图8示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器841,从可移动、非易失性磁盘852中读取或向其写入的磁盘驱动器851,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘856中读取或向其写入的光盘驱动器855。硬盘驱动器841通常由不可移动存储器接口,诸如接口840连接至系统总线821,磁盘驱动器851和光盘驱动器855通常由可移动存储器接口,诸如接口850连接至系统总线821。
上文讨论并在图8中示出的驱动器及其相关联的计算机存储介质为计算机810提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图8中,例如,硬盘驱动器841被示为存储操作系统844、应用程序845、其它程序模块846和程序数据847。注意,这些组件可以与操作系统834、应用程序835、其它程序模块836和程序数据837相同,也可以与它们不同。操作系统844、应用程序845、其它程序模块846和程序数据847在这里被标注了不同的标号是为了说明至少它们是不同的副本。
用户可以通过诸如键盘862、话筒863和定点设备861等输入设备将命令和信息输入至计算机810中,定点设备161诸如是鼠标、轨迹球或触摸垫。这些和其它输入设备通常由耦合至系统总线的用户输入接口860连接至处理单元820,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器891或其它类型的显示设备也经由接口,诸如视频接口890连接至系统总线821。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器897和打印机896,它们可以通过输出外围接口895连接。
计算机810使用到诸如远程计算机880的一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且一般包括以上关于计算机810描述的许多或所有的元件。图8中所示的逻辑连接包括局域网(LAN)871和广域网(WAN)873,但也可以包括其它网络。
当在LAN联网环境中使用时,计算机810通过网络接口或适配器871连接至LAN 870。当在WAN联网环境中使用时,计算机810通常包括调制解调器872或用于通过诸如因特网等WAN 873建立通信的其它装置。调制解调器872可以是内置或外置的,它可以通过用户输入接口860或其它适当的机制连接至系统总线821。在网络化环境中,相对于计算机810所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例,而非限制,图8示出了远程应用程序885驻留在远程计算机880上。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (20)

1.一种方法,包括:
通过要求源词语与目标句子中的至少一个目标词语对齐以形成源短语的边界来标识(302、312、322)一短语在源句子中的边界;
基于所述源短语中的词语与所述目标句子中的词语之间的对齐来标识(304、314)一短语在所述目标句子中的边界;
通过确定所述目标短语中是否有任何词语与所述源短语外的源词语对齐来确定(308、310)所述源短语和目标短语是否形成短语对齐对;以及
如果所述源短语和所述目标短语形成短语对齐对,则存储(318、500)所述源短语和所述目标短语。
2.如权利要求1所述的方法,其特征在于,还包括:
移动(514)所述源短语的至少一个边界以包括不与所述目标句子的任何词语对齐的附加源词语以形成扩展的源短语;以及
存储(500)所述扩展的源短语和所述目标短语作为第二短语对齐对。
3.如权利要求2所述的方法,其特征在于,还包括:
移动(504)所述目标短语的至少一个边界以包括不与所述源句子的任何词语对齐的附加目标词语以形成扩展的目标短语;以及
存储(500)所述扩展的源短语和所述扩展的目标短语作为第三短语对齐对。
4.如权利要求1所述的方法,其特征在于,所述词语对齐的集合包括:
对每一源词语,仅最小目标词语位置和最大目标词语位置与所述源词语对齐;以及
对每一目标词语,仅最小源词语位置和最大源词语位置与所述目标词语对齐。
5.如权利要求1所述的方法,其特征在于,还包括如果目标词语与所述源短语外的源词语对齐,则:
如果源词语的连续跨度与所述源短语共享共同的边界,不包括所述源短语外的源词语,且包括所述源短语的所有词语,则排除(302、312)所述连续跨度作为短语对齐对可能的源短语,而无需标识对应于所述连续跨度的目标短语的边界。
6.如权利要求5所述的方法,其特征在于,排除源词语的连续跨度包括:
将所述源短语的结束边界直接移至(312)所述源短语外的源词语以形成新的源短语。
7.如权利要求5所述的方法,其特征在于,排除源词语的连续跨度包括:
将所述源短语的开始边界朝所述源短语的结束边界移至(302)与至少一个目标词语对齐的源词语,以形成新的源短语。
8.一种方法,包括:
设置(302、312、322)源句子可能的源短语的边界;
使用(304、314)可能的源短语中的词语与目标句子中的词语之间的词语对齐来设置所述目标句子中可能的目标短语的边界;
确定(308、310)所述可能的目标短语中的目标词语与所述源句子中不在所述可能的源短语中的外部源词语对齐;以及
将所述源句子中与所述可能的源短语共享边界、不包括所述外部源词语且包括所述可能的源短语的所有词语的连续源词语跨度排除(302、312)在作为短语对齐对的可能的源短语的考虑之外,而无需标识相应的可能的目标短语。
9.如权利要求8所述的方法,其特征在于,将连续源词语的跨度排除在作为可能的源短语的考虑之外包括(312)将所述源短语的结束边界直接移至所述外部源词语以形成新的可能的源短语。
10.如权利要求9所述的方法,其特征在于,还包括:
仅对位于所述可能的源短语的结束边界之后直达和包括所述外部源词语的那些源词语使用(400、402、404)源词语和所述目标句子中的词语之间的对齐,以便为所述目标句子中新的可能的目标短语设置边界。
11.如权利要求10所述的方法,其特征在于,还包括:
确定(308、310)所述新的可能的目标短语中没有一个目标词语与所述新的可能的源短语外的源词语对齐;以及
将所述新的可能的源短语和所述新的可能的目标短语存储(318、500)为短语对齐对。
12.如权利要求8所述的方法,其特征在于,将连续源词语的跨度排除在作为可能的源短语的考虑之外包括(302)将所述可能的源短语的开始边界朝所述源短语的结束边界移动。
13.如权利要求8所述的方法,其特征在于,为句子中可能的源短语设置边界包括使用(302)所述边界处的源词语与所述目标句子中的至少一个目标词语对齐的要求。
14.如权利要求13所述的方法,其特征在于,还包括:
设置(302、312、322)源句子中新的可能的源短语的边界;
使用(304、314)新的可能的源短语中的词语与目标句子中的词语之间的词语对齐来设置所述目标句子中新的可能的目标短语的边界;
确定(308、310)所述新的可能的目标短语中没有一个目标词语与所述新的可能的源短语外的源词语对齐;以及
将所述新的可能的源短语和所述新的可能的目标短语存储(318、500)为短语对齐对。
15.如权利要求14所述的方法,其特征在于,还包括:
将所述新的可能的源短语的边界移至(514)不与所述目标句子的任何词语对齐的源词语以形成扩展的源短语;以及
存储(500)所述扩展的源短语和所述新的可能的目标短语作为短语对齐对。
16.如权利要求15所述的方法,其特征在于,还包括:
将所述新的可能的目标短语的边界移至(504)不与所述源句子的任何词语对齐的目标词语以形成扩展的目标短语;以及
存储(500)所述扩展的源短语和所述扩展的目标短语作为短语对齐对。
17.一种方法,包括:
对源句子中连续词语的跨度的集合中的每一跨度,对与所述源句子跨度中的源词语对齐的目标词语确定(600)在目标句子中的最小词语位置和最大词语位置;
对所述目标句子中连续词语的跨度的集合中的每一跨度,对与所述目标句子跨度中的目标词语对齐的源词语确定(608)在源句子中的最小词语位置和最大词语位置;
如果所述目标句子中的最小词语位置和最大词语位置分别匹配一目标句子跨度的开头和结尾,且如果所述源句子中的最小词语位置和最大词语位置分别匹配一源句子跨度的开头和结尾,则将所述源句子跨度和所述目标句子跨度指定(612、500)为短语对齐对。
18.如权利要求17所述的方法,其特征在于,还包括通过以下步骤确定所述目标句子中的最小词语位置和最大词语位置是否分别匹配所述目标句子跨度的开头和结尾,以及所述源句子中的最小词语位置和最大词语位置是否分别匹配所述源句子跨度的开头和结尾,这些步骤包括:
将由所述源句子中的最小词语位置和最大词语位置定义的所述跨度在所述目标句子中的最小词语位置与所述目标句子跨度的开头进行比较(610);以及
将由所述源句子中的最小词语位置和最大词语位置定义的所述跨度在所述目标句子中的最大词语位置与所述目标句子跨度的结尾进行比较(610)。
19.如权利要求17所述的方法,其特征在于,还包括通过要求(600)所述源句子中连续词语的跨度的集合中的每一跨度以与至少一个目标词语对齐的源词语开始并以与至少一个目标词语对齐的源词语结束来定义所述集合。
20.如权利要求19所述的方法,其特征在于,还包括,在将所述源句子跨度和所述目标句子跨度指定为短语对齐对之后,移动(514)所述源句子跨度的开头使得所述跨度覆盖更多词语且以不与所述目标句子中的词语对齐的词语开始以形成扩展的源句子跨度,以及指定(500)所述扩展的源句子跨度和所述目标句子跨度作为短语对齐对。
CNA2007800243942A 2006-06-28 2007-04-30 从双语词语对齐高效提取短语对 Pending CN101479724A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/477,978 US7725306B2 (en) 2006-06-28 2006-06-28 Efficient phrase pair extraction from bilingual word alignments
US11/477,978 2006-06-28

Publications (1)

Publication Number Publication Date
CN101479724A true CN101479724A (zh) 2009-07-08

Family

ID=38845933

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800243942A Pending CN101479724A (zh) 2006-06-28 2007-04-30 从双语词语对齐高效提取短语对

Country Status (11)

Country Link
US (1) US7725306B2 (zh)
EP (1) EP2035963A4 (zh)
JP (1) JP2009543190A (zh)
KR (1) KR20090031687A (zh)
CN (1) CN101479724A (zh)
BR (1) BRPI0711188A2 (zh)
IL (1) IL195093A (zh)
MX (1) MX2008015475A (zh)
NO (1) NO20085018L (zh)
RU (1) RU2008152106A (zh)
WO (1) WO2008002348A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
CN104281716B (zh) * 2014-10-30 2017-10-03 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置
CN104484377B (zh) * 2014-12-09 2017-11-03 百度在线网络技术(北京)有限公司 替换词典生成方法及装置
JP6265923B2 (ja) * 2015-01-16 2018-01-24 日本電信電話株式会社 翻訳学習装置、方法、及びプログラム
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
DE102017213052B4 (de) * 2017-07-28 2019-10-31 Dialog Semiconductor (Uk) Limited Leistungsumsetzer
KR102592630B1 (ko) * 2018-11-21 2023-10-23 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151260A (ja) * 1991-11-29 1993-06-18 Hitachi Ltd 翻訳テンプレート学習方法および翻訳テンプレート学習システム
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US6990439B2 (en) * 2001-01-10 2006-01-24 Microsoft Corporation Method and apparatus for performing machine translation using a unified language model and translation model
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
CN1643512A (zh) * 2002-03-27 2005-07-20 南加利福尼亚大学 统计机译中短语化联合概率模型的短语
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
GB0406619D0 (en) 2004-03-24 2004-04-28 British Telecomm Induction of grammar rules
JP4076520B2 (ja) * 2004-05-26 2008-04-16 富士通株式会社 翻訳支援プログラムおよび単語対応付けプログラム
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法

Also Published As

Publication number Publication date
WO2008002348A1 (en) 2008-01-03
IL195093A (en) 2012-06-28
IL195093A0 (en) 2009-08-03
MX2008015475A (es) 2009-01-07
US20080004863A1 (en) 2008-01-03
NO20085018L (no) 2008-12-02
EP2035963A1 (en) 2009-03-18
JP2009543190A (ja) 2009-12-03
RU2008152106A (ru) 2010-07-10
EP2035963A4 (en) 2018-03-28
KR20090031687A (ko) 2009-03-27
BRPI0711188A2 (pt) 2011-08-23
US7725306B2 (en) 2010-05-25

Similar Documents

Publication Publication Date Title
CN101479724A (zh) 从双语词语对齐高效提取短语对
US11636264B2 (en) Stylistic text rewriting for a target author
US10949744B2 (en) Recurrent neural network architectures which provide text describing images
CN101371253B (zh) 生成拼写建议的方法和系统
CN1680935B (zh) 通过用户建模的有效大写化文本的方法和系统
CN101194253B (zh) 来源于单语和可用双语语料库的搭配翻译
CN101983380B (zh) 文档的同步协作审阅
CN100440150C (zh) 基于例子的机器翻译系统和方法
CN1677388B (zh) 根据分数将输入语义结构翻译成输出语义结构的方法和系统
CN101401117A (zh) 基于edi实例的交易集合定义
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
CN1627300A (zh) 学习并使用广义串模式用于信息提取
CN102402505B (zh) 增量语言翻译方法和系统
JP2022111261A (ja) 質問生成装置、質問生成方法及びプログラム
CN101416143A (zh) 基于许可的用户界面变形
CN102203757B (zh) 用于冻结对象的类型描述符管理
CN102236573A (zh) 用于类型化程序设计语言的名称绑定可扩展性
CN110287498B (zh) 层次化翻译方法、装置及存储介质
US20120143593A1 (en) Fuzzy matching and scoring based on direct alignment
CN104572439A (zh) 回归警告方法和系统
US20180322295A1 (en) Encoding information using word embedding
CN1290886B (zh) 优化单字节字符处理的方法和系统
WO2022135973A1 (en) Bespoke transformation and quality assessment for term definition
T Revi et al. Idn-sum: A new dataset for interactive digital narrative extractive text summarisation
CN114444441A (zh) 名称相似度计算方法、装置、存储介质和计算设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090708