CN107526727A - 基于统计机器翻译的语言生成方法 - Google Patents

基于统计机器翻译的语言生成方法 Download PDF

Info

Publication number
CN107526727A
CN107526727A CN201710637423.8A CN201710637423A CN107526727A CN 107526727 A CN107526727 A CN 107526727A CN 201710637423 A CN201710637423 A CN 201710637423A CN 107526727 A CN107526727 A CN 107526727A
Authority
CN
China
Prior art keywords
translation
language
source
alignment
statistical machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710637423.8A
Other languages
English (en)
Other versions
CN107526727B (zh
Inventor
李军辉
柴强
孔芳
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710637423.8A priority Critical patent/CN107526727B/zh
Publication of CN107526727A publication Critical patent/CN107526727A/zh
Application granted granted Critical
Publication of CN107526727B publication Critical patent/CN107526727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明公开了一种基于统计机器翻译的语言生成方法,将源端树形结构语义表达式转化为自然语言;将预处理后的语料作为基于层次短语的统计机器翻译的源端语言;利用基于层次短语的统计机器翻译解码器生成n‑best翻译结果;再对上一步生成的n‑best翻译结果进行过滤,得到与源端输入句子答案类型相同的翻译结果;在评测阶段,将中文和英文的参照语句从原来一个增加到了三个,使评测值更能反映真实地翻译效果,具有良好的应用前景。

Description

基于统计机器翻译的语言生成方法
技术领域
本发明语言生成技术领域,具体涉及一种基于统计机器翻译的语言生成方 法。
背景技术
语言生成的任务就是通过对语义表达式的分析,然后将它转化为自然语 言。许多语言生成的早期方法都是基于规则的,该方法一般只关注表面实现, 即调整次序和转变词语,接着开始出现许多基于语料概率的方法,其中,很多 方法需要语义表达式是特殊的形式,比如树形结构表达式。
许多早期的语言生成不使用概率性的方法。早期的有使用人工标注规则将 扩展谓词逻辑表达式生成自然语言的方法,接着出现了语义驱动的方法,该方 法是基于逻辑编程语言写的规则,进而发展到从有歧义的逻辑表达式中生成有 多种释义自然语言的系统。然后概率模型被提了出来,该模型是从充满树形结 构的语义表达式中生成自然语言。
目前,语言生成被看作是一个统计机器翻译的任务,即将语义表达式看作 是机器翻译的源语言,自然语言看作是目标语言。
统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在 此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基 于词的统计机器翻译采用的是噪声信道模型,采用最大似然准则进行无监督训 练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来 说需要参考语料进行有监督训练。
层次短语翻译模型属于统计机器翻译的一种,是具有代表性的统计机器翻 译模型,它属于形式句法模型,使用同步上下文无关语法进行译文的生成,既能 兼容短语模型中的所有短语翻译,同时也如语言学句法模型一样具有较好的泛 化能力和长距离调序能力。因此,层次短语成为了统计机器翻译研究中最受关 注的模型之一。
将语言生成看作是一个统计机器翻译的任务的过程中,语义表达式并不是 一门真正的自然语言,它跟自然语言有着不同的属性。因此,使用统计机器翻 译来进行语言生成跟传统的统计机器翻译任务存在以下区别,包括:
1.语义表达式是面向计算机的一门语言,它有着严格的函数和参数结构,而 它的语义表示就存在这些结构当中;
2.由于语义表达式中每一个单词都承载着特殊的语义而自然语言中并不存 在这种情况,这两种语言在本质上是不对称的。
3.由于自然语言在词汇选择和词序调整上的多样性,自然语言的表达方式就 更灵活,但其语义表达式是唯一的。比如这两个句子“富士山在哪里”,“说出 富士山的地址”,这两个句子表现形式不一样,但它们有着共同的语义表达式。
在统计机器翻译中,词对齐对于规则抽取是一个必不可少的环节。比如, 如果要把中文“我喜欢”很准确地翻译为英文“I like”,就需要在“我”和“I” 之间、“喜欢”和“like”之间建立一个对应关系。尽管相关研究已表明词对齐 应用于机器翻译任务,但它同样也适用于语言生成吗?利用词对齐来进行语言 生成跟用来进行统计机器翻译在某些重要的方面有些区别,至少包括:
1.本质上是不对称的:语义表达式更精练,相对而言,自然语言通常是比语 义表达式要长,自然语言通常含有在对应的语义表达式中找不到对应的单词。
2.语言生成的语料规模较小:统计机器翻译对齐模型通常是以无监督的形式 学习获取,从大量句子对文本中得到词对齐。
因此,适用于机器翻译的词对齐方式可能并不一定适用于语言生成任务。 受到以上描述的启发,由于并没有考虑到语义表达式的特点,传统标准的统计 机器翻译系统并不是一个理想的语言生成方法。针对语言生成,需要提出更有 效的基于层次短语统计机器翻译系统及方法,是十分必要的。
发明内容
本发明的目的是克服现有的传统标准的统计机器翻译系统不是理想的语言 生成方法的问题。本发明的基于统计机器翻译的语言生成方法,将源端树形结 构语义表达式转化为自然语言的语义表达式;将预处理后的语料作为基于层次 短语的统计机器翻译的源端语言;利用基于层次短语的统计机器翻译解码器生 成n-best翻译结果;再对上一步生成的n-best翻译结果进行过滤,得到与源端输 入句子答案类型相同的翻译结果;在评测阶段,将中文和英文的参照语句从原 来一个增加到了三个,使评测值更能反映真实地翻译效果,具有良好的应用前 景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于统计机器翻译的语言生成方法,其特征在于:包括以下步骤,
步骤(A),语料预处理,将源端树形结构的语义表达式转化为自然语言的 语义表达式;
步骤(B),预处理的语料进行词对齐,使用多种对齐方式,形成训练数据;
步骤(C),对训练数据进行短语抽取和短语特征提取;
步骤(D),调节特征权重,得到最优的特征权重;
步骤(E),根据最优的特征权重,采用基于层次短语的统计机器翻译解码 器,得到训练数据的n-best翻译结果;
步骤(F),对n-best翻译结果进行过滤,得到过滤后的翻译结果;
步骤(G),对过滤后的翻译结果进行多参照评测、人工评测,完成语言生 成。
前述的基于统计机器翻译的语言生成方法,其特征在于:步骤(B),预处 理的语料进行词对齐,使用多种对齐方式,形成训练数据,包括以下步骤,
(B1),在预处理的语料不变的情况下,分别使用源端到目标端对齐、目标 端到源端对齐和对使用源端到目标端对齐、目标端到源端对齐的对齐结果进行 对称处理后的对齐进行实验,记录使用上述三种不同对齐方式各自相应的评测 值;
(B2),将预处理的语料扩展为三倍,同时将三种不同对齐方式组合起来, 让每个扩展为三倍的预处理语料有三个对齐结果,记录使用各对齐方式的相应 评测值,形成训练数据。
前述的基于统计机器翻译的语言生成方法,其特征在于:步骤(F),对n-best 翻译结果进行过滤,得到过滤后的翻译结果,包括以下步骤,
(F1),获取源端对应的答案类型,并获取目标端所对应的答案类型;
(F2),根据源端与目标端的答案类型是否匹配进行过滤,按照解码分数由 高到低的顺序遍历n-best翻译结果列表,直到找到与源端的答案类型一致的目 标端对应的翻译结果;若没有找到,n-best翻译结果作为过滤后的翻译结果输出。
前述的基于统计机器翻译的语言生成方法,其特征在于:步骤(G),所述 多参照评测,包括三个中英文参照语句。
本发明的有益效果是:本发明的基于统计机器翻译的语言生成方法,将源 端树形结构语义表达式转化为自然语言的语义表达式;将预处理后的语料作为 基于层次短语的统计机器翻译的源端语言;利用基于层次短语的统计机器翻译 解码器生成n-best翻译结果;再对上一步生成的n-best翻译结果进行过滤,得到 与源端输入句子答案类型相同的翻译结果;在评测阶段,将中文和英文的参照 语句从原来一个增加到了三个,使评测值更能反映真实地翻译效果,并具有以 下优点:
(1)由于并没有考虑到语义表达式的特点,传统标准的统计机器翻译系统 并不是一个理想的语言生成方法,本发明使用一个更有效的统计机器翻译系统, 即基于层次短语的统计机器翻译系统;
(2)适用于统计机器翻译的词对齐方式可能并不一定适用于语言生成任 务,本发明需要探索几种不同对齐方式,分析并归纳出适合语言生成的对齐方 式;
(3)传统统计机器翻译语言生成的效果并不理想,本发明试着分析语义表 达式和自然语言的答案类型,过滤出提高语言生成性能的方法;
(4)由于自然语言表达的多样性,使用单一的参照的机器翻译评测指标往 往不能真实地反映翻译的性能,因此需要为翻译结果提供合适的参照,从而更 真实反映语言生成的效果。
附图说明
图1是本发明的基于统计机器翻译的语言生成方法的流程图;
图2是本发明的语料预处理中一实施例语义表达树的示意图;
图3是本发明的图2中语义表达树的转换过程的示意图;
图4是本发明的一实施例的源端到目标端的词对齐的示意图;
图5是本发明的一实施例的目标端到源端的词对齐的示意图;
图6是本发明的一实施例的使用gdfa策略后的词对齐的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于统计机器翻译的语言生成方法,包括以下步骤,
步骤(A),语料预处理,将源端树形结构的语义表达式转化为自然语言的 语义表达式,源端树形结构的语义表达式是函数-参数形式(也称为树形结构表 达式),比如,源端语义表达式为“answer(len(river(riverid(‘colorado’)))”,目标 端各自然语言的语义表达式,中文:科罗拉多河有多长;英文:how long is the colorado river;树形结构表达式如图2所示;在源端将这些语义表达式转化为自 然语言的一连串字符串,预处理后的语义表达式的例子“answer@1 len@1 river@1 riverid@1 colorado@s”,表达式中每个标记都是A@B形式,其中A是一个符号; B的表示有字符串和数字两种情况:字符串代表A所表示的符号是一个字符串, 数字代表A所表示的符号的数量。此外,将图2所示的树形结构语义表达转换 成更流行的WSJ样式树结构,转换过程,如图3所示,对于树形结构中的每一 个语义单位,从左到右创建它们各自的子树,对于其中相连的两个语义单位, 将其对应的子树形成一个新的树,最后,把所有创建的子树合并为一个树,如 图4所示,给出了转换后的语义表达树的输出;
步骤(B),预处理的语料进行词对齐,使用多种对齐方式,形成训练数据, 包括以下步骤,
(B1),在预处理的语料不变的情况下,分别使用源端到目标端对齐、目标 端到源端对齐和对使用源端到目标端对齐、目标端到源端对齐的对齐结果进行 对称处理后的对齐进行实验,记录使用上述三种不同对齐方式各自相应的评测 值;
(B2),将预处理的语料扩展为三倍,同时将三种不同对齐方式组合起来, 让每个扩展为三倍的预处理语料有三个对齐结果,记录使用各对齐方式的相应 评测值,形成训练数据,这里对比将将预处理的语料扩展为两倍的翻译效果, 不如预处理的语料扩展为三倍,优选将预处理的语料扩展为三倍,在不影响翻 译速度的情况下,保证翻译效果;
如图4所示,给出了一个源端到目标端基于层次短语的统计机 器翻译系统对齐结果的例子,从这个例子中可以看出每一个源端的 单词都都对应着目标端的一个单词,即源端词与目标端词有着多对 一的关系,然而源端单词与目标端单词之间的多到多的情况在统计 机器翻译中是很普遍的,一个解决的办法就是从两个方向运行IBM 模型(IBM模型是统计机器翻译中的经典翻译模型,也是基于词的 统计机器翻译系统的基础。IBM翻译模型共有5个复杂度依次递增
表1:各种对吝方式实验结果
步骤(C),对训练数据进行短语抽取和短语特征提取;
步骤(D),调节特征权重,得到最优的特征权重;
步骤(E),根据最优的特征权重,采用基于层次短语的统计机器翻译解码 器,得到训练数据的n-best翻译结果;
步骤(F),对n-best翻译结果进行过滤,得到过滤后的翻译结果,包括以 下步骤,
(F1),获取源端对应的答案类型,并获取目标端所对应的答案类型;
(F2),根据源端与目标端的答案类型是否匹配进行过滤,按照解码分数由 高到低的顺序遍历n-best翻译结果列表,直到找到与源端的答案类型一致的目 标端对应的翻译结果;若没有找到,n-best翻译结果作为过滤后的翻译结果输出;
例如,图4的答案类型是NUM,这表明输入句子的答案类型是一个数字, 在前面使用了统计机器翻译的字符串到字符串翻译方法,翻译结果即是通过解 码得到的n-best翻译列表中得分最高的句子,然而,这忽略了一个事实,翻译 结果蕴含的答案与源端表达式的答案在类型上不一致,而且一旦类型上不一致, 那说明翻译结果与源端表达式存在着语义上的差异,因此,一种可行的方法是 要求翻译结果不仅有较高的解码分数,也还要对应有着与源端一致的答案类型, 原则上,这可以通过重写在解码中使用的柱状搜索算法来完成,鼓励翻译得到 与源端一致的答案类型,为方便起见采用本发明的过滤方法,表2比较了使用 和没有使用n-best翻译结果过滤语言生成性能,系统all+filtering表示把多种对齐方式和过滤的方法结合起来。结果表明,n-best翻译结果过滤的方法在BLEU 值和(1-TER)值上平均分别获得了1.0和1.2的提高,
表2:过滤和不过滤翻译结果的实验性能对比
步骤(G),对过滤后的翻译结果进行多参照评测、人工评测,完成语言生 成,其中,多参照评测,包括三个中英文参照语句,例如语义表达式“answer@1 elevation_1@1placeid@1mount_mckinley@s”,该表达式的参照句子是“how high is mount mckinley”,但如果该语义表达式翻译成英文的最终结果是“what is the height of mountmckinley”,显而易见的是,该句的表达意思跟前单个参照的句子 的表达意思完全一致,但表达形式上有很大的区别,因此,本发明在原有的单 个参照的基础上又增加了三个参照,在测试集的原有句子对后面增加了三个参 照句子,使得最终的翻译结果有更多的参照,从而更加真实地反映翻译效果, 考虑到语言表达的多样性,基于单参照的评测并不能真实反映语言生成的性能, 表3给出了系统在中英文语言使用单个参照和多个参照的前后对比。从表中可 以看出,增加了三个参照之后,BLEU值和1-TER值都有较大幅度的升,。同时, 本发明提出的方法(包括使用多对齐和n-best翻译结果过滤方法),在多参照的 评测下都能提高语言生成的性能,
表3:单参照与多参照实验结果之间的对比表
其中,系统all比系统gdfa在单参照(多参照)性能提高显著(p<0.01);系统all+filtering比系统all在单参照(多参照)性能提高显著(p<0.01)
综上所述,本发明的基于统计机器翻译的语言生成方法,将源端树形结构 语义表达式转化为自然语言的语义表达式;将预处理后的语料作为基于层次短 语的统计机器翻译的源端语言;利用基于层次短语的统计机器翻译解码器生成 n-best翻译结果;再对上一步生成的n-best翻译结果进行过滤,得到与源端输入 句子答案类型相同的翻译结果;在评测阶段,将中文和英文的参照语句从原来 一个增加到了三个,使评测值更能反映真实地翻译效果,并具有以下优点:
(1)由于并没有考虑到语义表达式的特点,传统标准的统计机器翻译系统 并不是一个理想的语言生成方法,本发明使用一个更有效的统计机器翻译系统, 即基于层次短语的统计机器翻译系统;
(2)适用于统计机器翻译的词对齐方式可能并不一定适用于语言生成任 务,本发明需要探索几种不同对齐方式,分析并归纳出适合语言生成的对齐方 式;
(3)传统统计机器翻译语言生成的效果并不理想,本发明试着分析语义表 达式和自然语言的答案类型,过滤出提高语言生成性能的方法;
(4)由于自然语言表达的多样性,使用单一的参照的机器翻译评测指标往 往不能真实地反映翻译的性能,因此需要为翻译结果提供合适的参照,从而更 真实反映语言生成的效果。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人 员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只 是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各 种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求 保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.基于统计机器翻译的语言生成方法,其特征在于:包括以下步骤,
步骤(A),语料预处理,将源端树形结构的语义表达式转化为自然语言;
步骤(B),预处理的语料进行词对齐,使用多种对齐方式,形成训练数据;
步骤(C),对训练数据进行短语抽取和短语特征提取;
步骤(D),调节特征权重,得到最优的特征权重;
步骤(E),根据最优的特征权重,采用基于层次短语的统计机器翻译解码器,得到训练数据的n-best翻译结果;
步骤(F),对n-best翻译结果进行过滤,得到过滤后的翻译结果;
步骤(G),对过滤后的翻译结果进行多参照评测、人工评测,完成语言生成。
2.根据权利要求1所述的基于统计机器翻译的语言生成方法,其特征在于:步骤(B),预处理的语料进行词对齐,使用多种对齐方式,形成训练数据,包括以下步骤,
(B1),在预处理的语料不变的情况下,分别使用源端到目标端对齐、目标端到源端对齐和对使用源端到目标端对齐、目标端到源端对齐的对齐结果进行对称处理后的对齐进行实验,记录使用上述三种不同对齐方式各自相应的评测值;
(B2),将预处理的语料扩展为三倍,同时将三种不同对齐方式组合起来,让每个扩展为三倍的预处理语料有三个对齐结果,记录使用该对齐方式的相应评测值。
3.根据权利要求1所述的基于统计机器翻译的语言生成方法,其特征在于:步骤(F),对n-best翻译结果进行过滤,得到过滤后的翻译结果,包括以下步骤,
(F1),获取源端对应的答案类型,并获取目标端所对应的答案类型;
(F2),根据源端与目标端的答案类型是否匹配进行过滤,按照解码分数由高到低的顺序遍历n-best翻译结果列表,直到找到与源端的答案类型一致的目标端对应的翻译结果;若没有找到,n-best翻译结果作为过滤后的翻译结果输出。
4.根据权利要求1所述的基于统计机器翻译的语言生成方法,其特征在于:步骤(G),所述多参照评测,包括三个中英文参照语句。
CN201710637423.8A 2017-07-31 2017-07-31 基于统计机器翻译的语言生成方法 Active CN107526727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710637423.8A CN107526727B (zh) 2017-07-31 2017-07-31 基于统计机器翻译的语言生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710637423.8A CN107526727B (zh) 2017-07-31 2017-07-31 基于统计机器翻译的语言生成方法

Publications (2)

Publication Number Publication Date
CN107526727A true CN107526727A (zh) 2017-12-29
CN107526727B CN107526727B (zh) 2021-01-19

Family

ID=60680166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710637423.8A Active CN107526727B (zh) 2017-07-31 2017-07-31 基于统计机器翻译的语言生成方法

Country Status (1)

Country Link
CN (1) CN107526727B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113412515A (zh) * 2019-05-02 2021-09-17 谷歌有限责任公司 适配自动化助理以用多种语言使用

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1428721A (zh) * 2001-12-27 2003-07-09 高庆狮 基于语义的机器翻译系统及方法
CN1794240A (zh) * 2006-01-09 2006-06-28 北京大学深圳研究生院 基于自然语言理解的计算机信息检索系统及其检索方法
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法
US20130031122A1 (en) * 2007-06-22 2013-01-31 Google Inc. Machine Translation for Query Expansion
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103198828A (zh) * 2013-04-03 2013-07-10 中金数据系统有限公司 语音语料库的构建方法和系统
CN103577399A (zh) * 2013-11-05 2014-02-12 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
US20160070697A1 (en) * 2014-09-10 2016-03-10 Xerox Corporation Language model with structured penalty
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
JP2017049917A (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、およびプログラム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1428721A (zh) * 2001-12-27 2003-07-09 高庆狮 基于语义的机器翻译系统及方法
CN1794240A (zh) * 2006-01-09 2006-06-28 北京大学深圳研究生院 基于自然语言理解的计算机信息检索系统及其检索方法
US20130031122A1 (en) * 2007-06-22 2013-01-31 Google Inc. Machine Translation for Query Expansion
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103198828A (zh) * 2013-04-03 2013-07-10 中金数据系统有限公司 语音语料库的构建方法和系统
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN103577399A (zh) * 2013-11-05 2014-02-12 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
US20160070697A1 (en) * 2014-09-10 2016-03-10 Xerox Corporation Language model with structured penalty
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
JP2017049917A (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、およびプログラム
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴晓锋等: "第七届全国机器翻译研讨会(CWMT"2011)DCU技术报告(英文)", 《机器翻译研究进展——第七届全国机器翻译研讨会论文集》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113412515A (zh) * 2019-05-02 2021-09-17 谷歌有限责任公司 适配自动化助理以用多种语言使用

Also Published As

Publication number Publication date
CN107526727B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
US8249856B2 (en) Machine translation
CN102799578B (zh) 一种基于依存句法树的翻译规则抽取方法和翻译方法
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CN105068997B (zh) 平行语料的构建方法及装置
KR101732634B1 (ko) 의존관계 포레스트를 이용한 통계적 기계 번역 방법
CN104915337B (zh) 基于双语篇章结构信息的译文篇章完整性评估方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN109359304A (zh) 限定性神经网络机器翻译方法及存储介质
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN104391837A (zh) 一种基于格语义的智能语法分析方法
Cabrio et al. QALD-3: Multilingual Question Answering over Linked Data.
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN105573994A (zh) 基于句法骨架的统计机器翻译系统
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN103336803B (zh) 一种嵌名春联的计算机生成方法
Rahman et al. A corpus based n-gram hybrid approach of bengali to english machine translation
Al-Mannai et al. Unsupervised word segmentation improves dialectal Arabic to English machine translation
Kuo et al. Learning transliteration lexicons from the web
CN107526727A (zh) 基于统计机器翻译的语言生成方法
CN106156007A (zh) 一种单词原形化的英汉统计机器翻译方法
KR101092363B1 (ko) 중한자동번역을 위한 한국어 연결어미 생성 방법 및 그 장치
CN107526726A (zh) 一种将中文流程模型自动转换为英文自然语言文本的方法
Gao et al. Chinese-Naxi machine translation method based on Naxi dependency language model
Mukesh et al. Statistical Machine Translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant