CN1647068A - 统计机器翻译 - Google Patents
统计机器翻译 Download PDFInfo
- Publication number
- CN1647068A CN1647068A CNA038070278A CN03807027A CN1647068A CN 1647068 A CN1647068 A CN 1647068A CN A038070278 A CNA038070278 A CN A038070278A CN 03807027 A CN03807027 A CN 03807027A CN 1647068 A CN1647068 A CN 1647068A
- Authority
- CN
- China
- Prior art keywords
- piece
- instruction
- sentence structure
- word
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种方法包括检测第一语言的源串中的句法块,将句法标签分配给源串中被检测的句法块,将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签,以及将源串翻译成第二语言的可能翻译。
Description
相关申请对照
本申请要求2002年3月28日提交的美国临时申请序号No.60/368851的优先权,在此全文并入以供参考。
发明起因
本申请中描述的研究和开发在准许号N66001-00-1-8914下由DARPA-ITO支持。美国政府可以具有所要求的本发明的某些权利。
背景
机器翻译(MT)是自动翻译,例如使用计算机系统从第一语言(“源”语言)翻译成另一种语言(“目标”语言)。执行MT过程的系统被称为将源语言“解码”成目标语言。从最终用户的观点来看,MT过程是相对直接的。MT过程接收作为输入的源句子(或者单词的“串”)并在处理该输入句子后输出目标语言的翻译句子。
一种类型的MT过程被称作统计MT解码器。常规统计MT解码器可以包括语言模型(LM)和翻译模型(TM)。
概述
根据本发明的一个方面,一种方法包括在第一语言的第一串中检测句法块,将句法标签分配给第一串中被检测的句法块,将第一串中被检测的句法块与第二语言串中的句法块对准,所述对准基于被分配的句法标签,以及将来自第一串的每个单词翻译成对应于第二语言中可能的翻译的第二单词。
还可以包括一个或多个以下特点。根据标记给至少两个单词的词性标识符来分组来自第一串的这至少两个单词。限定源串中被检测的句法块和第二串中的块之间的连接。根据块映射表确定连接,该块映射表使用基于句法块标签的预先限定的连接。限定第一串的被检测块与目标串中的至少两个非相邻块之间的连接。限定源串的至少两个被检测块到目标串中的单个块的连接。
附图概述
图1是语言统计翻译(LST)过程的流程图。
图2示出实例性的源和目标句子。
图3示出与图2的句子相对应的句子层次块重新排序表。
图4示出与图2-3相对应的块映射对准表。
图5示出与图1-4相对应的单词翻译。
图6示出LST过程的第二实施例。
具体实施方式
这里描述的统计MT系统可以被模拟成三个分开的部分:(1)将概率P(e)分配给单词的任何目标串的语言模型(LM),(2)将概率P(f|e)分配给目标和源串的任何对的翻译模型(TM),以及(3)根据LM和TM的被分配概率确定翻译的解码器。
常规MT系统可以通过进行一连串基于单词的判定将源句子翻译成目标句子。基于单词的判定可以包括翻译判定,其中每个源单词都被翻译成目标单词。也可以为每个被翻译单词执行映射(“对准”)判定,例如根据被翻译源单词的被确定的丰度将多个源单词映射到单个目标单词。也可以执行重新排列(“变形”)判定,例如将源句子的单词序列重新排列成相应的目标句子中的被翻译的单词。翻译、映射和变形判定基于在翻译过程期间确定的权重概率。
某些源句子引起翻译的挑战,它们不能通过常规基于单词的MT系统得到良好的处理。例如,翻译挑战包括短语的翻译、出于句法原因重新组织句子以及将非相邻单词翻译成目标句子中的单个单词或短语。
图1描述了一种语言统计翻译模型(LST)过程10,它包括接收要翻译源句子(15),为源句子中的每个源单词分配“词性”(POS)标记(20),以及检测源句子中包含的句法“块”(30)。LST过程10还包括动作(40)、(50)和(60),它们部分基于被分配的POS标记和/或被检测的句法块。过程10中POS标记和/或句法块的使用允许改善源到目标句子的翻译,以及部分改善前述翻译挑战的串翻译。
POS标记涉及表示单词类型的识别符号,例如“VVFIN”符号可以被标记为限定动词。可以用于过程10中的一组实例性POS标记被称作“Penn Treebank Tag set”,并描述于Mitchell P.Marcus,Beatrice Santorini和Mary Ann Marcinkiewicz:“Building a Large Annotated Corpus of English:The Penn Treebank”,inComputational Linguistics,卷19,号2(1993年6月),pp.313-330(SpecialIssue on Using Large Corpora),在此全文并入以供参考。
分块涉及非递归(non-recursive)的动词、名词、介词或句子中的其它短语的分组。分块可以包括检测源句子中的分组和目标句子中块组合的输出。在Abney,S.(1991)“Parsing by chunks(通过块分析)”Robert Berwick,Steven Abney和Carol Tenny:Principle-based Parsing(基于原理的分析).Kluwer AcademicPublishers中讨论了分块的概念。
仍旧参考图1,LST过程10包括接收要翻译的输入源句子(15),用POS标记来标记源句子中的每个单词(20),检测每个源句子中的句法块(例如,短语)(30),句子层次块的重新排序(40),将被检测的源块映射到目标句子中的目标块(50),以及将每个单词从源翻译到目标句子(60)。可以采用可选的目标语言模型(70)进一步改进通过动作(60)产生的单词翻译。
图2示出实例性的源句子100,其中每个单词都具有动作(20)中生成的相关POS标记110-116,以及动作(30)中生成的被检测句法块101-105。被检测的块101-105还分别包括句法标签,例如“N,V,N,V和!”。句法标签涉及用于被检测块的句子的句法部分,例如,“N”可以表示基本名词短语,“V”可以表示动词复合,“P”可以表示基本介词短语,“A”可以表示形容词,“F”可以表示功能词,而“!”可以表示标点。
句子层次块的重新排序(40)限定每个源块101-106和将包含于目标句子150中的相应目标块130-134之间的连接120-125。在许多情况下,相对于源块重新排序目标块。该重新排序可以基于限定被检测句法块和目标句子中相应的句法块之间可能连接的模板。连接可以是单值或多值的(例如,一对一、多对多、或者一对多等等)。图3示出块连接表160,它表示源块101-105与目标块130-134之间的连接120-125,与图2中示出的那些相对应。
图4示出块映射表170、180、190和200,它们表示通过过程10的活动(50)产生的块映射,如应用于实例性句子100的那样。块映射涉及每个源块到目标块的对准并可以按照源块中的单词和目标块中的单词的POS标记参考。例如,如表170所示,源POS标记110(“ART”)和111(“NN”)被对准到目标POS标记140(“DT”)和141(“NNP”)。块映射可以将多个块(“复合块”)映射到单个块或其它复合块。例如,如表190所示,源块103被对准到包含目标块130和131的复合块。来自源句子110的非相邻块可以被组合成单个块,例如,如表180所示,将块102和104组合成目标块132。
如前所述,可以用被分配的句法块标签来“标注”每个复合块。该标注可以允许改善句子层次的块重新排序,因为句法标签可以识别它们在句子中的句法作用。
随后,过程10将来自源语言句子的源单词翻译成目标语言句子的单词(60)。可以部分根据分配给相应源单词的词性(通过块映射选择)来确定单词翻译,例如限制与分配的POS标记相对应的单词的选择。图5描述了来自过程10的活动(60)的执行,例如描述了与图1-4所示的实例相对应的单词翻译。
在实施例中,代替通过单个单词翻译生成目标语言单词,可以通过准确的短语查找翻译复合块。更详细地,如果确定整个源块是已知短语,整个源块就可以被翻译为已知短语。例如,如图2所示,如果源块103“der Agrarausshuss”中包含的单词是已知短语,则可以将其直接翻译为目标块130-131“the sub-committeefor agriculture”中的单词。准确的短语查找允许使用惯用短语的翻译,这是基于单词的翻译所不容易翻译的。
过程10可以包括可选的目标语言模型(70),它被执行来提供对目标句子的附加的流畅性改善。
过程10的数学公式化
可以数学地模拟LST过程10的操作,例如基于一组概率判定来模拟。以下过程10的数学模型包括按照噪声信道模型(noisy channel model)的公式化。更详细地,这意味着代替直接估计p(e|f)(例如,用于输入串f的最佳翻译e),将贝斯法则应用于使p(
f|e)xp(e)最大化。因此,这将模型分成两个部分:翻译部分p(f|e)和语言模型p(e)。对于语言部分,可以使用三字母组语言模型。
翻译部分被分解成句子层次重新排序(SLR)、块映射(CM)和单词翻译(W),并用以下的概率等式模拟:
P(f|e)=p(SLR|e)x∏ip(CMi|e,SLR)x∏jp(Wij|CMi,SLR,e)
由于POS标记和分块是确定性的,e不仅表示目标串的单词,还表示它们的POS和分组为块。可以使用模板执行句子层次块重新排序(SLR)和块内的单词重新排序(CM),例如使用表示来自图3和4所示的表的信息的模板。可以使用逐字翻译表来完成单词翻译(W)。
由于稀少的数据,直接应用以上三个概率等式是有问题的。因此,可以如下地简化三个附条件的概率分配:
p(SLR)可以仅以每个目标块标签序列为条件;
p(CMi)可以仅以有关源和目标块标签,以及目标POS标记为条件;
p(Wij)可以仅以有关目标POS标记和单词为条件。
块映射中的每个单词对准以单词翻译概率为因素。未对准的源单词以概率p(fk|ZFERT,fposk)为因素。未对准的目标单词以概率p(NULL|ek,fposk)为因素。
代替将块映射分解成单词翻译,可以执行直接短语查找,它是通过以下等式模拟的:
p(Wi1,...,Win|CMi,SLR,e)
可以使用所谓的相似文集(parallel corpus)方法确定用于单词对准的参数,在该方法中,源语言串中的文本(第一文集)被对准到目标语言串中的被翻译文本(第二文集)。这些对准建立了源串中的源单词和目标串之间的对应。相似文集的两侧也可以被POS标记或被分块。
可以使用相似文集方法确定块映射,例如如果源块和目标块包含相互对准的源单词和目标单词,则可以连接这两个块。没有包含对准单词的块可以根据一组规则被附着到其它块,例如如果未对准,副词被附加到以下的动词块,或者如果未对准,逗号被附着到以下的功能词,等等。
随后可以在任何块对准上执行传递闭包(transitive closure),例如使用以下的规则组:如果块fi与ex对准,fj与ex对准,且块fi与ey对准,则块fj就被认为与ey对准,即使它们没有包含任何相互对准的单词。传递闭包确保源句子和目标句子中复合块之间的一对一映射。
根据以上公式对应相似文集允许对单词翻译(包括p(fk|ZFERT,fposk)和p(NULL|ek,fposk))、复合块映射以及句子层次重新排序的要收集的统计。随后,通过最大可能性估计收集附条件的概率分配。由于用于准确的短语查找的数据是高度有噪声的,可以使概率平滑。
在实施例中,模型的翻译部分(例如,“解码”)可以以两个步骤执行:第一,生成用于每个句子层次块重新排序的句子层次模板(SLT)。第二,从左向右每次一个单词地构成目标翻译。对于每个给定的源块序列,为最高的n个SLT重复以上内容。最终,选择具有总的最好分数的翻译作为系统输出。
对于给定句子层次模板(SLT)的目标句子的构建可以通过使用动态编程的Viterbi查找实现。在这种情况中,按需要选择块映射模板。随后,使用逐字翻译表和语言模型填充单词空位。在每个复合块的末端,丢弃关于使用哪个块映射模板的信息。在某些实施中,目标串的构建可以包括NULL单词的插入。
但是,对于每个部分翻译(或假设),维持以下信息:
-创建的最近的两个单词(语言模型需要);
-如果未完成,当前块映射模板;
-当前分数(‘分数’涉及部分翻译判定、块映射判定等的组合的概率的乘积);
-到最佳路径的向后指针;
-最后块的位置;
-块内创建的最后单词的位置;
-“堆叠的块映射模板”
堆叠的块映射模板涉及当分离的复合块被填充到目标翻译中时所需的信息:例如,如果SLT要求创建“V+P”块,其中在“V”和“P”之间具有附加内容。在这种情况中,关于所选择的块映射模板的信息必须维持于“V”和“P”之间,直到它被完全填充。
目标句子中任何给定位置处假设空间的复合性可以表示为O(V2C1+s),其中V是词汇大小,C是可应用的块映射模板的数量,且s是堆叠的块映射模板的数量。
可以通过将翻译限制于目标语言中的邻接复合块来简化模型,它消除了对堆叠的块映射模板的需要。在任何给定位置处,这将复合性等式简化为O(V2C)。关于句子长度,这还确保解码具有线性的复合性。
图6示出LST过程100的实施例,它根据以上讨论的等式和公式模拟。在该实例中,LST过程100包括环(135、140、150、160和170),对于n个不同句子层次模板,该环重复n次。
已描述了大量实施例。然而,将理解,可以进行各种修改而不背离本发明的精神和范围。例如,翻译成多个目标单词的源单词会引起块映射错误。通过添加丰度特点或者进一步预先处理复合名词可以避免或减少这种类型的错误。作为另一个实例,通过使用概率单词翻译方法(例如,“T-Table”翻译方法)可以执行单词翻译。作为另一个实例,没有足够的统计来可靠地估计句子层次模板(SLT)。因此,可以使用其它估计,例如从句层次模板,或者使用将句子层次块翻译步骤分解成大量块分段和翻译判定的方法。
因此,其它实施例也在以下权利要求书的范围内。
Claims (22)
1.一种方法,其特征在于,包括:
检测第一语言的源串中的句法块;
将句法标签分配给源串中被检测的句法块;
将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签;以及
将源串翻译成第二语言的可能的翻译。
2.如权利要求1所述的方法,其特征在于,分配句法标签的步骤包括根据标记给源串中的单词的词性标识符进行分配。
3.如权利要求1所述的方法,其特征在于,进一步包括限定源串中被检测的句法块和目标串中的块之间的连接。
4.如权利要求3所述的方法,其特征在于,限定连接的步骤包括根据块映射表确定连接,该块映射表使用根据句法块标签预先限定的连接。
5.如权利要求3所述的方法,其特征在于,限定连接的步骤包括限定来自源串的被检测块与目标串中至少两个非相邻块之间的连接。
6.如权利要求3所述的方法,其特征在于,限定连接的步骤包括限定来自源串的至少两个被检测的块到目标串中的单个块的连接。
7.如权利要求1所述的方法,其特征在于,翻译包括纳入与源串中的单个单词相对应的目标串中的至少两个单词。
8.如权利要求1所述的方法,其特征在于,翻译包括翻译短语。
9.如权利要求1所述的方法,其特征在于,进一步包括:
将语言模型应用于源串,该语言模型基于目标串的语言。
10.如权利要求1所述的方法,其特征在于,进一步包括:
确定所述映射的概率。
11.如权利要求1所述的方法,其特征在于,翻译包括在目标串中插入至少一个NULL单词。
12.一种包括含机器可执行指令的机器可读介质的制品,该指令用于使得机器:
检测第一语言的源串中的句法块;
将句法标签分配给源串中的被检测句法块;
使源串中被检测的句法块与第二语言串中的句法块对准,所述映射基于所分配的句法标签;以及
将源串的每个单词翻译成与第二语言的可能翻译相对应的第二单词。
13.如权利要求12所述的制品,其特征在于,用于使得机器分配句法标签的指令包括用于根据标记给源串中的单词的词性标识符使得机器分配句法标签的指令。
14.如权利要求12所述的制品,其特征在于,进一步包括指令,它用于使得机器限定源串中被检测的句法块与目标串中的块之间的连接。
15.如权利要求14所述的制品,其特征在于,用于使得机器限定连接的指令包括用于使得机器根据块映射表确定连接的指令,该块映射表使用基于句法块标签的预先限定的连接。
16.如权利要求14所述的制品,其特征在于,用于使得机器限定连接的指令包括用于使得机器限定源串的被检测块与目标串中的至少两个非相邻块之间的连接的指令。
17.如权利要求3所述的制品,其特征在于,用于使得机器限定连接的指令包括用于使得机器限定源串的至少两个被检测块到目标串中的单个块的连接的指令。
18.如权利要求12所述的制品,其特征在于,用于使得机器翻译的指令包括用于使得机器包括与源串中的单个单词相对应的目标串中的至少两个单词的指令。
19.如权利要求12所述的制品,其特征在于,用于使得机器翻译的指令包括用于使得机器翻译短语的指令。
20.如权利要求12所述的制品,其特征在于,进一步包括指令,它们用于使得机器:
将语言模型应用于源串,该语言模型基于目标串的语言。
21.如权利要求12所述的制品,其特征在于,进一步包括指令,它们用于使得机器:
确定所述映射的概率。
22.如权利要求12所述的制品,其特征在于,用于使得机器翻译的指令包括用于使得机器在目标串中插入至少一个NULL单词的指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36885102P | 2002-03-28 | 2002-03-28 | |
US60/368,851 | 2002-03-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1647068A true CN1647068A (zh) | 2005-07-27 |
Family
ID=28675546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA038070278A Pending CN1647068A (zh) | 2002-03-28 | 2003-03-28 | 统计机器翻译 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7624005B2 (zh) |
JP (1) | JP2005527894A (zh) |
CN (1) | CN1647068A (zh) |
AU (1) | AU2003222126A1 (zh) |
DE (1) | DE10392450T5 (zh) |
WO (1) | WO2003083709A2 (zh) |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US7620538B2 (en) | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
JP2005100335A (ja) * | 2003-09-01 | 2005-04-14 | Advanced Telecommunication Research Institute International | 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ |
JP3919771B2 (ja) * | 2003-09-09 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | 機械翻訳システム、その制御装置、及びコンピュータプログラム |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
DE112005002534T5 (de) | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
WO2006133571A1 (en) * | 2005-06-17 | 2006-12-21 | National Research Council Of Canada | Means and method for adapted language translation |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US20070010989A1 (en) * | 2005-07-07 | 2007-01-11 | International Business Machines Corporation | Decoding procedure for statistical machine translation |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US7827028B2 (en) * | 2006-04-07 | 2010-11-02 | Basis Technology Corporation | Method and system of machine translation |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8209162B2 (en) * | 2006-05-01 | 2012-06-26 | Microsoft Corporation | Machine translation split between front end and back end processors |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US9020804B2 (en) | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
JP5082374B2 (ja) * | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US9779079B2 (en) * | 2007-06-01 | 2017-10-03 | Xerox Corporation | Authoring system |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8452585B2 (en) * | 2007-06-21 | 2013-05-28 | Microsoft Corporation | Discriminative syntactic word order model for machine translation |
US8046211B2 (en) | 2007-10-23 | 2011-10-25 | Microsoft Corporation | Technologies for statistical machine translation based on generated reordering knowledge |
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
US9176952B2 (en) * | 2008-09-25 | 2015-11-03 | Microsoft Technology Licensing, Llc | Computerized statistical machine translation with phrasal decoder |
US8407042B2 (en) | 2008-12-09 | 2013-03-26 | Xerox Corporation | Cross language tool for question answering |
US8280718B2 (en) * | 2009-03-16 | 2012-10-02 | Xerox Corporation | Method to preserve the place of parentheses and tags in statistical machine translation systems |
US8326599B2 (en) * | 2009-04-21 | 2012-12-04 | Xerox Corporation | Bi-phrase filtering for statistical machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US8548796B2 (en) * | 2010-01-20 | 2013-10-01 | Xerox Corporation | Statistical machine translation system and method for translation of text into languages which produce closed compound words |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9552355B2 (en) | 2010-05-20 | 2017-01-24 | Xerox Corporation | Dynamic bi-phrases for statistical machine translation |
US8612205B2 (en) | 2010-06-14 | 2013-12-17 | Xerox Corporation | Word alignment method and system for improved vocabulary coverage in statistical machine translation |
US20120035905A1 (en) | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
KR101745349B1 (ko) * | 2010-09-02 | 2017-06-09 | 에스케이플래닛 주식회사 | 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법 |
US8775155B2 (en) | 2010-10-25 | 2014-07-08 | Xerox Corporation | Machine translation using overlapping biphrase alignments and sampling |
TWI434187B (zh) * | 2010-11-03 | 2014-04-11 | Inst Information Industry | 文字轉換方法與系統 |
CN102486770B (zh) * | 2010-12-02 | 2014-09-17 | 财团法人资讯工业策进会 | 文字转换方法与系统 |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8798984B2 (en) | 2011-04-27 | 2014-08-05 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
US20120303352A1 (en) * | 2011-05-24 | 2012-11-29 | The Boeing Company | Method and apparatus for assessing a translation |
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8713037B2 (en) * | 2011-06-30 | 2014-04-29 | Xerox Corporation | Translation system adapted for query translation via a reranking framework |
US8781810B2 (en) | 2011-07-25 | 2014-07-15 | Xerox Corporation | System and method for productive generation of compound words in statistical machine translation |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US8543563B1 (en) | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9026425B2 (en) | 2012-08-28 | 2015-05-05 | Xerox Corporation | Lexical and phrasal feature domain adaptation in statistical machine translation |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9235567B2 (en) | 2013-01-14 | 2016-01-12 | Xerox Corporation | Multi-domain machine translation model adaptation |
US9047274B2 (en) | 2013-01-21 | 2015-06-02 | Xerox Corporation | Machine translation-driven authoring system and method |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US9582499B2 (en) | 2014-04-14 | 2017-02-28 | Xerox Corporation | Retrieval of domain relevant phrase tables |
US9606988B2 (en) | 2014-11-04 | 2017-03-28 | Xerox Corporation | Predicting the quality of automatic translation of an entire document |
US9442922B2 (en) * | 2014-11-18 | 2016-09-13 | Xerox Corporation | System and method for incrementally updating a reordering model for a statistical machine translation system |
US9367541B1 (en) | 2015-01-20 | 2016-06-14 | Xerox Corporation | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms |
US10025779B2 (en) | 2015-08-13 | 2018-07-17 | Xerox Corporation | System and method for predicting an optimal machine translation system for a user based on an updated user profile |
US9836453B2 (en) | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10747962B1 (en) | 2018-03-12 | 2020-08-18 | Amazon Technologies, Inc. | Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation |
US10769307B2 (en) | 2018-05-30 | 2020-09-08 | Bank Of America Corporation | Processing system using natural language processing for performing dataset filtering and sanitization |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
JP3345763B2 (ja) | 1994-03-04 | 2002-11-18 | 日本電信電話株式会社 | 自然言語翻訳装置 |
JPH1011447A (ja) | 1996-06-21 | 1998-01-16 | Ibm Japan Ltd | パターンに基づく翻訳方法及び翻訳システム |
JP3430007B2 (ja) | 1998-03-20 | 2003-07-28 | 富士通株式会社 | 機械翻訳装置及び記録媒体 |
-
2003
- 2003-03-28 DE DE10392450T patent/DE10392450T5/de not_active Ceased
- 2003-03-28 WO PCT/US2003/009749 patent/WO2003083709A2/en active Application Filing
- 2003-03-28 AU AU2003222126A patent/AU2003222126A1/en not_active Abandoned
- 2003-03-28 JP JP2003581063A patent/JP2005527894A/ja active Pending
- 2003-03-28 US US10/403,862 patent/US7624005B2/en active Active
- 2003-03-28 CN CNA038070278A patent/CN1647068A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2003222126A1 (en) | 2003-10-13 |
US20040024581A1 (en) | 2004-02-05 |
DE10392450T5 (de) | 2005-04-21 |
WO2003083709A2 (en) | 2003-10-09 |
WO2003083709A3 (en) | 2004-09-10 |
US7624005B2 (en) | 2009-11-24 |
JP2005527894A (ja) | 2005-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1647068A (zh) | 统计机器翻译 | |
Seddah et al. | Overview of the SPMRL 2013 shared task: A cross-framework evaluation of parsing morphologically rich languages | |
CA2408819C (en) | Machine translation techniques | |
Och | Statistical machine translation: From single word models to alignment templates | |
CN1770107B (zh) | 提取小树转换对 | |
Durrani et al. | A joint sequence translation model with integrated reordering | |
US8046211B2 (en) | Technologies for statistical machine translation based on generated reordering knowledge | |
US8239188B2 (en) | Example based translation apparatus, translation method, and translation program | |
KR101130457B1 (ko) | 트리렛 번역쌍 추출 | |
CN1352774A (zh) | 用于中文的标记和命名实体识别的系统 | |
US7865352B2 (en) | Generating grammatical elements in natural language sentences | |
CN108563629B (zh) | 一种日志解析规则自动生成方法和装置 | |
CN111814493B (zh) | 机器翻译方法、装置、电子设备和存储介质 | |
CN1877531A (zh) | 一种嵌入式编译体系扫描器的实现方法 | |
KR20080052282A (ko) | 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 | |
Simard | Translation spotting for translation memories | |
CN1542648A (zh) | 用于词分析的系统和方法 | |
Callison-Burch et al. | Co-training for statistical machine translation | |
Graën | Exploiting alignment in multiparallel corpora for applications in linguistics and language learning | |
KR101777421B1 (ko) | 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법 | |
WO2022174495A1 (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
Fishel et al. | Automatic translation error analysis | |
Forcada et al. | Documentation of the open-source shallow-transfer machine translation platform Apertium | |
Bisazza et al. | Chunk-lattices for verb reordering in Arabic–English statistical machine translation: Special issues on machine translation for Arabic | |
Kuboň | Problems of robust parsing of Czech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1078359 Country of ref document: HK |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1078359 Country of ref document: HK |