CN103189860A - 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法 - Google Patents

组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法 Download PDF

Info

Publication number
CN103189860A
CN103189860A CN2011800534041A CN201180053404A CN103189860A CN 103189860 A CN103189860 A CN 103189860A CN 2011800534041 A CN2011800534041 A CN 2011800534041A CN 201180053404 A CN201180053404 A CN 201180053404A CN 103189860 A CN103189860 A CN 103189860A
Authority
CN
China
Prior art keywords
translation
sentence
word
knowledge
target sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800534041A
Other languages
English (en)
Other versions
CN103189860B (zh
Inventor
黄永淑
金尚范
尹昌浩
李娟修
李承昱
林海彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
11th Street Co., Ltd.
Original Assignee
SK Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SK Telecom Co Ltd filed Critical SK Telecom Co Ltd
Publication of CN103189860A publication Critical patent/CN103189860A/zh
Application granted granted Critical
Publication of CN103189860B publication Critical patent/CN103189860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及统计机器翻译以及用于对传.统的基于短语的统计机器翻译(SMT)和基于句法的SMT的缺点进行补充并将其优点进行组合的机器翻译装置和机器翻译方法。为此,从平行语料库提取句法转换知识和词汇转换知识,以提取各个转换概率,并且同时从单语料库获取目标语言的生成概率,通过利用翻译模型学习装置使得能够学习各个转换知识和各个概率,来对加权的翻译模型进行建模,并且将经建模的翻译模型应用于实时输入的源句子,以经由句法转换器和词汇转换器的解码处理生成目标句子。

Description

组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
技术领域
本发明涉及统计机器翻译,更具体地说,涉及通过将翻译步骤建模为句法转换处理和词翻译处理这两个步骤,并且将该模型应用于实时输入的源语言句子,来经由句法转换器与词翻译器的解码处理,将句法转换模型与词翻译模型组合以生成目标语言句子的机器翻译以及机器翻译方法。
背景技术
自动翻译技术指的是将一种语言自动转换为另一种语言的软件技术。从20世纪中期,美国出于军事目的已经开始研究该项技术。近来,在全世界,多个实验室和私人公司出于扩展信息获取范围以及对人机接口进行创新的目的积极地研究该项技术。
在自动翻译技术的初始阶段,基于由专家手工准备的双语字典以及将一种语言转换为另一种语言的规则,开发了自动翻译技术。然而,从计算能力迅速发展的21世纪初期以来,从大量数据以统计方式自动学习翻译算法的统计翻译技术的开发取得了积极进展。
统计机器翻译(SMT)系统根据大量平行语料库以统计方式对翻译处理进行建模,并且学习翻译知识和翻译概率以及针对目标语言的创建概率,以生成最适合于基于此输入的源句子的目标句子。
最近的统计机器翻译系统总体上可以分为基于短语的SMT(下文称作PBSMT)型和基于句法(语法)的SMT(下文称作SBSMT)型。
将连续词串(下文称作短语)作为一个单元进行翻译而不是执行单独的逐词翻译的PBSMT是一种在学习了逐个短语的翻译知识和翻译概率之后,在解码期间生成具有最大概率的短语组合的方法。
最具代表性的PBSMT模型是Koehn等人(2003)以及Och和Ney(2004a)提出的模型。该模型比较简单,并且其特征在于容易改变短距离词序,并且自然地执行利用多个词表达的翻译。然而,在该模型中,不容易改变长距离词序,具体地说,在词序彼此明显不同的语言对(例如,英语-韩语翻译)中会导致较大问题。原因在于,在PBSMT的翻译模型中,仅考虑了短语之间的所有可用排列中的一些排列来确定句子中的词序,而未明确地对语法间(intergrammer)转换进行建模。
因此,近年来,主要研究了一种对基于语法的句法的转换进行建模的方法,并且将该方法称作SBSMT。为了学习句法转换知识,SBSMT从平行语料库中的与两种语言对应的句法树,学习逐个树或树到字符串转换知识和概率。SBSMT的特征在于,与PBSMT相比,更容易改变长距离词序并且更容易翻译非连续短语。然而,由于SBSMT严重依赖于句法分析器的性能并且翻译知识局限于语法短语单元,所以自身要使用的翻译知识非常少。结果,当不存在要使用的翻译知识时,连续词串的翻译变为不与连接词(linked word)匹配的简单的逐词翻译或不自然的翻译。代表性的方法包括Galley等人(2004、2006)、Lavie等人(2008)、Yamada和Knight、Gildea等人提出的方法等。
与此相似,在现有技术中的统计机器翻译技术中,PBSMT型改进了连续词翻译的流畅性,但是未能改变长距离词序,从而生成完全不同的句子。在SBSMT型中,生成的目标句子的词序是正确的,但是由于翻译知识的缺乏而执行简单的逐词翻译,结果,翻译是不自然的。
发明内容
技术问题
本发明致力于解决该问题,本发明的目的在于提供一种机器翻译装置和机器翻译方法,该机器翻译装置和机器翻译方法通过从平行语料库提取句法转换知识和词翻译知识来在提取相应转换概率的同时,从单语料库获取针对目标语言的创建概率;通过利用翻译模型学习装置使得能够学习各个转换知识和各个概率,来对加权的翻译模型进行建模;以及通过将翻译模型应用于实时输入的源句子,来经由句法转换器和词翻译器的解码处理生成目标句子,从而解决现有的基于短语的SMT和基于句法的SMT的缺点并组合这些SMT的优点。
技术方案
根据本发明的第一方面,一种统计机器翻译装置包括:翻译模型构造器,该翻译模型构造器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取目标句子的句法转换知识和词翻译知识,并且针对相应的提取的知识计算转换概率;翻译模型学习装置,该翻译模型学习装置通过学习经由翻译模型构造器提取的相应翻译知识和转换概率,来生成句法转换模型和词翻译模型;以及翻译句子(translated sentence)生成器,该翻译句子生成器通过针对实时输入的源句子应用经由翻译模型学习装置学习的句法转换模型和词翻译模型,将源句子解码为目标句子。
根据本发明的第二方面,一种翻译模型构造装置包括:句法转换知识提取器,该句法转换知识提取器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取针对目标句子的句法转换知识,并且针对所提取的知识计算转换概率;以及词翻译知识提取器,该词翻译知识提取器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取词翻译知识,并且针对所提取的知识计算转换概率。
根据本发明的第三方面,一种翻译句子生成装置包括:句法转换器,该句法转换器对实时输入的源句子进行句法分析,从经分析的源句子的句法提取目标句子的句法转换知识,并且使得针对所提取的知识学习转换概率;词翻译器,该词翻译器基于词翻译模型生成目标词汇串,在该词翻译模型中,约束条件被施加于经由句法转换器提取的目标句子的句法;以及概率计算器,该概率计算器将经由词翻译器提取的目标词汇串的创建概率与经由句法转换器提取的转换概率进行组合,并且此后,将具有最高概率的目标词汇串生成为翻译句子。
根据本发明的第四方面,一种翻译模型构造方法包括以下步骤:(a)利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取针对目标句子的句法转换知识;(b)利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取词翻译知识;以及(c)分别计算针对句法转换知识和词翻译知识的转换概率,并且使得针对各个转换概率学习权重。
根据本发明的第五方面,一种机器翻译方法包括以下步骤:(a)对实时输入的源句子进行句法分析,并且从经分析的源句子的句法提取目标句子的句法转换知识和转换概率;(b)基于词翻译模型生成目标词汇串,在该词翻译模型中,约束条件被施加于从目标句子的句法转换知识提取的目标句子的句法;以及(c)通过将目标句子的句法转换概率与目标词汇串的创建概率进行组合,来将具有最高概率的目标词汇串生成为翻译句子。
有益效果
根据本发明,可以解决现有的基于词汇的翻译模型和基于句法的翻译模型的缺点,并且可以组合这些模型的优点。
即,根据本发明,可以经由句法转换模型来改进长距离词重新排布的性能,并且因为使用了大量非句法转换知识,所以执行适合于上下文的适当翻译,以改进翻译句子的适当性和自然性。
附图说明
图1是例示根据本发明的示例性实施方式的机器翻译装置的构造的图。
图2是例示根据本发明的示例性实施方式的机器翻译装置被分为句法转换模型和词翻译模型的构造的图。
图3是例示根据本发明的示例性实施方式的翻译句子生成器的构造的图。
图4是例示图2所示的句法转换知识提取器的详细构造的图。
图5是例示根据本发明的示例性实施方式的翻译句子生成器的词翻译器的图。
图6是用于描述根据本发明的示例性实施方式的句法转换模型与词翻译模型之间的差别的示例性图。
图7是完整描述根据本发明的另一示例性实施方式的机器翻译方法的流程图。
图8是描述根据本发明的示例性实施方式的构造针对机器翻译的翻译模型的方法的流程图。
主要附图标记说明
100:翻译模型构造器110:句法转换知识提取器
120:句法转换知识数据库130:词翻译知识提取器
140:词翻译知识数据库150:语言模型生成器
160:语言模型300:翻译模型学习装置
400:翻译句子生成器410:句法转换器
420:词翻译器111:句子选择器
113:源树生成器115:树节点重新排序器
117:树转换知识提取器119:概率计算器
421:特征提取器422:翻译选项生成器
423:翻译选项约束装置424:假设(hypothesis)搜索
425:翻译失真约束装置
具体实施方式
下文将参照附图详细描述本发明的示例性实施方式。通过以下详细描述,将清楚地理解本发明的构造及其操作效果。在详细描述本发明之前,应当注意,附图中任何可能的位置上的相同的标号对应于相同的部件,并且当公知的构造可能使得本发明的主旨不必要地模糊时,将省略详细描述。
下面要描述的源句子或源语言句子是要翻译的源语言的句子,目标句子或目标语言句子指的是通过将源句子翻译为期望语言而输出的目标语言的句子。
图1是例示根据本发明的示例性实施方式的机器翻译装置的构造的图。图2是例示根据本发明的示例性实施方式的机器翻译装置被分为句法转换模型和词翻译模型的构造的图。
参照图1和图2,根据本发明的示例性实施方式的机器翻译装置总体上包括翻译模型构造器100、翻译模型学习装置300和翻译句子生成器400。
翻译模型构造器100包括句法转换知识提取器110和词翻译知识提取器130,该句法转换知识提取器110和词翻译知识提取器130从由源语言和目标语言构成的平行语料库提取句法转换知识和词翻译知识,并且计算各个转换概率。所提取的句法转换知识和词翻译知识分别存储在句法转换知识数据库(DB)120和词翻译知识数据库(DB)140中。
进一步地,翻译模型构造器100包括语言模型生成器150,该语言模型生成器150从由目标语言构成的单语料库提取语言的创建概率。所提取的语言的创建概率被存储在语言模型数据库(DB)160中,以构造语言模型。
翻译模型学习装置300学习经由翻译模型构造器100提取的各个特征的权重。翻译模型学习装置300可以类似地使用Bertoldi、Haddow和Fouet(2009)提出的最小误差学习(MERT)方法。
翻译句子生成器400执行解码处理的两个步骤。即,第一步骤是句法转换处理,第二步骤是词翻译处理。在图3所示的句法转换器410、词翻译器420和概率计算器430中执行各个步骤。
即,执行第一步骤的句法转换器410生成具有高概率的N个目标句法,并且基于该结果,执行第二步骤的词翻译器420从可用的目标词汇串选择具有最高概率的M个目标词汇串。概率计算器430在将句法转换器410中生成的N个概率与词翻译器420中生成的M个概率进行组合之后,最终将具有最高概率的目标词汇串输出为翻译句子。
因此,根据本发明的示例性实施方式的机器翻译装置从由源语言和目标语言构成的平行语料库提取句法转换知识和词翻译知识以及各个转换概率,并且通过学习各个转换知识和概率,来从单语料库获取目标语言的创建概率,以对经加权的翻译模型进行建模。另外,通过将完成建模的翻译模型应用于实时输入的源句子,来经由句法转换器410和词翻译器420的两个解码处理生成最终的目标句子。
将详细描述机器翻译装置的组成部件。
如图2所示,翻译模型构造器100是提取翻译知识和翻译概率的模块。
具体地说,根据本发明的示例性实施方式的翻译模型构造器100是基于下面要描述的统计翻译模型的。假设句子e由句法S(e)和词汇串L(e)构成,则可以利用所有可用的句法S(e)来如式1所示表示该句子。
式1
e = &Sigma; s ( e ) < S ( e ) , L ( e ) >
在该情况下,将源句子f翻译为目标句子e可以如下式2所示进行定义。即,具有源句子f被翻译为目标句子e的概率当中的最大概率的句子e^被设置为翻译句子。
式2
e ^ = arg max e p ( e | f )
在本发明中,如下式3所示,以上基本翻译模型概念被分为句法转换模型和词翻译模型。
式3
( e | f ) = &Sigma; S ( e ) p ( S ( e ) , L ( e ) | S ( f ) , L ( f ) )
= &Sigma; S ( e ) p ( S ( e ) | S ( f ) , L ( f ) ) &times; p ( L ( e ) | S ( e ) , S ( f ) , L ( f ) )
即,在式3中,p(S(e)|S(f),L(f))表示句法转换模型,并且p(L(e)|S(e),S(f),L(f))表示词翻译模型。
句法转换模型指的是当给出源句子的词汇串L(f)和源句子的句法S(f)时示出任意目标句子的句法S(e)的概率。词翻译模型指的是当给出源句子的词汇串L(f)和句法S(f)5以及目标句子的句法S(e)时示出预定目标句子的词汇串L(e)的概率。在该情况下,可以利用提取1-最佳结果的句法分析器来唯一地确定源句子的句法S(f)。
下面将详细展开句法转换模型。
式4
p ( S ( e ) | S ( f ) , L ( f ) )
= &Pi; i p ( s i ( e i ) | S ( f ) , L ( f ) )
= &Pi; i p ( s i ( e ) | s 1 ( f ) , s 2 ( f ) , &CenterDot; &CenterDot; &CenterDot; , s J ( f ) , L ( f ) )
= &Pi; i p ( d i | L ( f ) )
= &Pi; i p ( d i | l i ( f ) )
在以上式4中,Si表示S(句法)的第i个子树,并且源句法的子树和目标句法的子树可以通过i彼此对应。Li表示句子的与第i个子树对应的部分字符串。di表示从si(f)到si(e)的导数。在该情况下,在式4中,假设子树彼此独立,各个导数彼此独立,并且子树与外部词汇串独立。
如图5和图6所示,作为一个示例,可以根据特征函数F1和F2来展开词翻译模型部分。
式5
p(L(e)|S(e),S(f),L(f))
=p(L(e)|F1(S(e),S(f),L(F)))
=p(L(e)|Pos(e),Dst,L(f))
式6
p(L(e)|S(e),S(f),L(f)
=p(L(e)|F2(S(e),S(f),L(f))))
=p(L(e)\Dst,L(f)0
在以上式5中,F1是将根据目标句子的句法S(e)和源句子的句法S(f)以及句法间排布信息的目标句子的语音串Pos(e)的一部分和仅包括在源句子中的词的翻译顺序Dst的约束作为特征输出的函数。
在式6中,F2是仅输出包括在源句子中的词的翻译顺序Dst(作为比F1进一步缓和的约束条件)作为特征的函数。图6例示了F1和F2的示例。在图6中,F1示出利用目标句子的语音串Pos(e)的一部分、源句子的词汇串L(f)和包括在源句子中的词的目标句子中的排布顺序Dst的特征作为条件,基于目标句子的语音串信息的一部分创建词汇串的一个示例,而F2示出仅利用源句子的词汇串L(f)和包括在源句子中的词的目标句子中的排布顺序Dst的特征作为条件来生成目标句子的词汇串的一个示例。
进一步地,除了如现有PBSMT中使用的转换概率以外,可以利用各种特征来按照对数线性模式最终计算词翻译模型。
式7
p ( L ( e ) | Dst , L ( f ) )
= exp &Sigma; i n &lambda; i h i ( L ( e ) , Dst , L ( f ) )
本发明的用于制作语法转换模型的句法转换知识提取器110包括图4中详细例示的组件。
句法转换知识提取器110用于提取以上式4中使用的各个导数di的知识和概率。即,现有技术中用于提取句法转换知识的技术基于词重新排序信息来执行源语言的短语树和目标语言的短语树的节点排布,并且此后基于排布的节点提取转换知识。然而,在现有技术的方法中,需要针对源语言和目标语言这两者来使用句法分析器,并且可能由于明显受句法分析器的性能的影响的方法而出现针对翻译知识的错误扩散问题。
然而,如图4所示,本发明的句法转换知识提取器110仅执行对源语料库的句法分析,以提取句法转换知识,句子选择器111选择经句法分析的源语料库和词重新排序信息,并且源树生成器113执行合并、删除、分离/附接、重新排序、插入和分解这六种操作,从而生成目标树。另外,树节点重新排序器115基于由源树生成器113生成的源树和目标树来确定节点排布,并且此后,经由树转换知识提取器117提取各个节点中的子树的转换知识。针对所有句子执行提取。然后,概率计算器119以统计方式计算针对所提取的知识的转换概率和创建概率。
重新参照图2,可以经由以上式5和式6来执行翻译模型构造器100中的词翻译知识提取器130。这里,假设短语翻译与词的翻译顺序Dst独立,并且不另外计算考虑句子位置的翻译概率。然而,为了约束式5所示的语音串Pos(e)的一部分,需要另外提取各个词翻译知识的目标词汇串的语音串的一部分并且需要另外计算其概率。
结果,如果词翻译知识提取器130使用现有的基于短语的统计机器翻译(PBSMT)中使用的方法,则可以允许任何词翻译知识提取器130,并且通常,在该步骤中可以另外计算式7中可以使用的转换概率、语言模型概率等。
可以利用外部模块(SRILM语言建模工具包、IRST语言建模工具包等)来构造语言模型生成器150,并且如果语言模型生成器150示出N元语言模型结果,则可以使用任何一个。
翻译模型学习装置300学习以上式7中的各个特征的权重,以生成句法转换模型和词翻译模型。
翻译句子生成器400的句法转换器410是通过参照在句法转换知识提取器110中学习的句法转换模型来对输入句子进行句法分析并生成具有高分数的最多N个目标树的模块。
句法转换器410在从较低节点开始遍历针对输入源句子的句法分析结果以最高概率生成的源树的同时存储适用规则,并且执行束搜索,以寻找具有较高分数的N个导数集合。在该情况下,通过将转换概率乘以创建概率来计算分数,并且假设规则彼此独立。
词翻译器420是通过设置在句法转换器410中生成的目标句子的句法中的约束条件,来基于在词翻译知识提取器130中学习的词翻译知识生成目标词汇串的模块。
可以通过特征函数来约束目标句子的句法,这些特征函数包括如以上式5和式6所示的源句子的词汇串/句法以及目标句子的语音串的一部分的约束条件。约束被反映到式7中的翻译选项特征函数和失真(顺序重新排布)特征函数。特征函数值可以被直接反映到基于短语的解码期间的短语选项约束和失真约束。在该情况下,可以将特征函数F1和F2选择作为系统选项,并且用户可以根据短语表的大小来选择特征函数F1和F2
具体地说,根据本发明的词翻译器420的解码处理如图5所示。
这里,作为与现有技术的组件不同的组件,下文将分别描述特征提取器421、翻译选项约束装置423、翻译失真约束装置425和M-最佳跟踪器427。
特征提取器421基于输入到词翻译器420中的源句子的词汇串、源句子的句法和目标句子的句法,来提取特征。
翻译选项约束装置423可以明确地约束根据由特征提取器421生成的语音串Pos(e)的一部分和翻译顺序Dst的翻译选项。当未明确执行剪枝时,将非常低的概率值赋予根据现有方法生成的翻译选项。这里,翻译选项指的是可以是词汇翻译的单位的所有可用短语。
根据现有技术,翻译失真约束装置425随机地确定翻译顺序而无固定顺序,但是在本发明中,可以通过经由特征提取器421获取的词序的约束明确地确定翻译顺序,或者通过关于概率确定翻译顺序,来约束翻译顺序。
例如,翻译选项不是随机选择的,而是可以被明确约束,以便通过目标顺序来确定翻译顺序,或者可以关于概率进行约束,以便在违反目标位置的顺序的情况下具有非常低的概率。
M-最佳跟踪器427是用于在执行假设空间搜索424之后选择具有最高分数的M个假设的模块,该M-最佳跟踪器427通过在搜索结束的点执行反向跟踪来输出N个词汇串(导数集合)。现有技术中最终仅选择一个假设,而在式3中可见,针对生成同一e的所有可用的情况需要概率的组合,因此,在本发明中,选择了M个假设。
最后,在关于针对N个句法中生成的M个假设生成同一句子e的情况对概率进行了组合之后,具有最高概率的目标词汇串被选择作为要输出的翻译句子。
图7是完整地描述根据本发明的另一示例性实施方式的机器翻译方法的流程图。
当首先输入源时,翻译句子生成器的句法转换器对实时输入的源句子进行句法分析,以提取针对目标句子的句法转换知识和句法转换概率(S100和S110)。可以经由预先学习的翻译模型(即,句法转换模型)来提取针对目标句子的句法转换知识和句法转换概率。
此后,从所提取的句法转换知识生成目标词汇串(S120)。可以经由预先学习的翻译模型(即,词翻译模型)来提取目标词汇串。
换言之,基于句法分析信息和从翻译句子生成器的句法转换器输入的源句子的词重新排序信息,来提取目标句子的特征,在特征中设置要约束的翻译选项,并且通过将所设置的翻译选项反映到特征来检索假设。通过计算针对检索后的假设生成同一目标词汇串的概率,来使用选择具有高概率的目标词汇串的方法。这里,翻译选项包括一些条件,这些条件包括语音串的一部分、翻译词序等。
此后,通过将目标词汇串的句法转换概率与创建概率进行组合,来将具有高概率的目标词汇串生成为翻译句子(S130和S140)。
图8是例示根据本发明的示例性实施方式的构造针对机器翻译的翻译模型的方法的流程图。
首先,利用源句子与目标句子之间的词重新排序信息和源句子的句法分析信息,从平行语料库提取针对目标句子的句法转换知识(S200)。提取句法转换知识的方法包括以下处理:利用源句子的词重新排序信息和目标句子的词重新排序信息来生成目标句子的句法树,基于所生成的句法树和通过源句子的句法分析的源树来排布节点,并且此后,提取各个节点中的子树的转换知识。
此后,利用源句子与目标句子之间的词重新排序信息和源句子的句法分析信息,从平行语料库提取词翻译知识(S210)。
此后,分别计算针对句法转换知识和词翻译知识的转换概率,并且学习针对各个转换概率的权重,以分别形成句法转换模型和词翻译模型(S220和S230)。
此外,本发明可以在软件程序中实现使用依存丛林(dependency forest)的翻译规则生成和使用该翻译规则的机器翻译方法,并通过将该程序记录在预定的计算机可读记录介质中,来将该程序应用于各种再现设备。
该各种再现设备可以是PC、笔记本、便携式终端等。
例如,记录介质可以是作为各种再现设备的内部装置的硬盘、闪存、RAM、ROM等,或者是作为各种再现设备的外部装置的光盘(例如CD-R或CD-RW)、微型闪存卡、智能介质、记忆棒、多媒体卡等。
在以上描述中,本发明仅是示例性的,并且在不脱离本发明的精神的范围内,本领域技术人员可以做出各种修改。因此,本发明的说明书中描述的示例性实施方式并不限制本发明。本发明的范围应当由所附权利要求来解释,并且本发明的等效范围内的所有技术应当解释为被包括在本发明的范围内。
工业实用性
现有技术中的基于短语或基于句法的统计机器翻译无法改变长距离词序来生成完全不同的句子,或者现有技术中的基于短语或基于句法的统计机器翻译具有的问题在于:目标句子的词序是正确的,但是由于翻译知识的缺乏而实现了简单的逐词翻译,但是在本发明中,从源语言和目标语言的平行语料库执行句法转换和词翻译的两种建模,可以解决基于短语的统计机器翻译和基于句法的统计机器翻译的缺点,并且可以通过基于此进行解码来组合这些翻译的优点,结果,执行适合于上下文的适当翻译,以改进翻译句子的适当性和自然性。

Claims (19)

1.一种统计机器翻译装置,该统计机器翻译装置包括:
翻译模型构造器,该翻译模型构造器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和句法分析信息来提取所述目标句子的句法转换知识和词翻译知识,并且针对所述各个提取的知识计算转换概率;
翻译模型学习装置,该翻译模型学习装置通过学习经由所述翻译模型构造器提取的所述各个翻译知识和转换概率,来生成句法转换模型和词翻译模型;以及
翻译句子生成器,该翻译句子生成器通过针对实时输入的源句子应用经由所述翻译模型学习装置学习的所述句法转换模型和所述词翻译模型,来将所述源句子解码为所述目标句子。
2.根据权利要求1所述的统计机器翻译装置,其中,
所述翻译模型构造器还包括语言模型生成器,该语言模型生成器通过从所述目标句子的单语料库提取目标词汇串的创建概率,来生成语言模型。
3.根据权利要求1所述的统计机器翻译装置,其中,
所述翻译句子生成器通过将由所述句法转换模型输出的多个句法转换概率与由所述词翻译模型输出的多个词翻译概率进行组合,来将具有高概率的目标词汇串生成为最终的翻译句子。
4.一种翻译模型构造装置,该翻译模型构造装置包括:
句法转换知识提取器,该句法转换知识提取器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和所述源句子的句法分析信息来提取针对目标句子的句法转换知识,并且针对所提取的知识计算转换概率;以及
词翻译知识提取器,该词翻译知识提取器利用所述多个平行语料库中的所述源句子与所述目标句子之间的所述词重新排序信息和所述源句子的所述句法分析信息来提取词翻译知识,并且针对所提取的知识计算所述转换概率。
5.根据权利要求4所述的翻译模型构造装置,其中,
所述句法转换提取器包括:
树生成器,该树生成器利用所述多个平行语料库中的所述源句子和所述目标句子的所述词重新排序信息来生成所述目标句子的句法树(目标树);
树节点重新排序器,该树节点重新排序器基于在所述树生成器中生成的所述目标树和根据所述源句子的所述句法分析信息的源树,来对节点重新排序;
树转换知识提取器,该树转换知识提取器提取各个节点中的子树的转换知识;以及
概率计算器,该概率计算器针对由所述树转换知识提取器提取的所述知识,以统计方式计算所述转换概率。
6.根据权利要求4所述的翻译模型构造装置,其中,
所述词翻译提取器通过应用特征函数来提取所述词翻译概率,在该特征函数中,在所述源句子与所述目标句子之间的所述词重新排序信息和所述源句子的所述句法分析信息中限定预定的约束条件。
7.根据权利要求6所述的翻译模型构造装置,其中,
所述特征函数是根据所述目标句子的句法和所述源句子的句法以及句法间排布信息来约束所述目标句子的语音串的一部分和包括在所述源句子中的词的翻译顺序,并且将所述受约束的语音串的一部分和翻译顺序作为特征输出的函数。
8.根据权利要求6所述的翻译模型构造装置,其中,
所述特征函数是仅将包括在所述源句子中的所述词的根据所述目标句子的所述句法和所述源句子的所述句法以及所述句法间排布信息的所述翻译顺序作为所述特征输出的函数。
9.一种翻译句子生成装置,该翻译句子生成装置包括:
句法转换器,该句法转换器对实时输入的源句子进行句法分析,从所述经分析的源句子的句法提取目标句子的句法转换知识,并且使得针对所提取的知识学习转换概率;
词翻译器,该词翻译器基于词翻译模型生成目标词汇串,在该词翻译模型中,约束条件被施加于经由所述句法转换器提取的所述目标句子的所述句法;以及
概率计算器,该概率计算器将经由所述词翻译器生成的所述目标词汇串的创建概率与经由所述句法转换器学习的所述转换概率进行组合,并且此后,将具有最高概率的目标词汇串生成为翻译句子。
10.根据权利要求9所述的翻译句子生成装置,其中,
所述词翻译器包括:
特征提取器,该特征提取器基于句法分析信息、所述目标句子的句法分析信息以及从所述句法转换器输入的所述源句子的词重新排序信息,来提取特征;
翻译选项约束装置,该翻译选项约束装置根据由所述特征提取器提取的语音串的一部分和翻译顺序来约束翻译选项;
翻译失真约束装置,该翻译失真约束装置通过对由所述特征提取器提取的所述词序进行约束,来重新排布所述翻译顺序;
假设搜索器,该假设搜索器通过将经由所述翻译选项约束装置和所述翻译失真约束装置确定的约束条件反映到经由所述特征提取器提取的所述特征,来搜索假设;以及
M-最佳跟踪器,该M-最佳跟踪器通过针对在所述假设搜索器中搜索的所述假设计算创建目标词汇串的概率,来选择具有高概率的该同一目标词汇串。
11.一种机器翻译方法,该机器翻译方法包括以下步骤:
(a)对实时输入的源句子进行句法分析,并且从所述经分析的源句子的句法提取目标句子的句法转换知识和转换概率;
(b)基于词翻译模型生成目标词汇串,在该词翻译模型中,约束条件被施加于从所述目标句子的所述句法转换知识提取的所述目标句子的所述句法;以及
(c)通过将所述目标句子的所述句法转换概率与所述目标词汇串的创建概率进行组合,来将具有高概率的目标词汇串生成为翻译句子。
12.根据权利要求11所述的机器翻译方法,其中,
步骤(b)包括以下步骤:
基于句法分析信息、所述目标句子的句法分析信息以及从所述句法转换器输入的所述源句子的词重新排序信息,来提取特征;
设置翻译选项,以约束所述特征;
通过将所述翻译选项反映到所述特征,来搜索假设;以及
通过针对所搜索的假设计算生成目标词汇串的概率来选择具有高概率的该同一目标词汇串。
13.根据权利要求11所述的机器翻译方法,其中,
所述翻译选项选择性地包括语音串的一部分和翻译顺序中的至少一个。
14.一种翻译模型构造方法,该翻译模型构造方法包括以下步骤:
(a)利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和所述源句子的句法分析信息来提取针对目标句子的句法转换知识;
(b)利用所述多个平行语料库中的所述源句子与所述目标句子之间的所述词重新排序信息和所述源句子的所述句法分析信息来提取词翻译知识;以及
(c)分别计算针对所述句法转换知识和所述词翻译知识的转换概率,并且使得针对各个转换概率学习权重。
15.根据权利要求14所述的翻译模型构造方法,其中,
步骤(a)包括以下步骤:
利用所述多个平行语料库中的所述源句子的所述词重新排序信息和所述目标句子的词重新排序信息来生成所述目标句子的句法树;
基于所述目标句子的句法树和根据所述源句子的句法分析信息的源树,来排布节点;以及
提取各个节点中的子树的转换知识。
16.根据权利要求14所述的翻译模型构造方法,其中,
在步骤(c)中的所述词翻译概率的计算过程中,
通过应用特征函数来提取信息,在该特征函数中,在所述源句子的所述词重新排序信息和所述目标句子的所述词重新排序信息以及所述目标句子的所述句法分析信息中限定预定的约束条件。
17.根据权利要求16所述的翻译模型构造方法,其中,
所述特征函数使用根据所述目标句子的句法和所述源句子的句法以及句法间排布信息约束所述目标句子的语音串的一部分和包括在所述源句子中的词的翻译顺序,并且将所述受约束的语音串的一部分和翻译顺序作为特征输出的函数。
18.根据权利要求16所述的翻译模型构造方法,其中,
所述特征函数使用仅将包括在所述源句子中的所述词的根据所述目标句子的所述句法和所述源句子的所述句法以及所述句法间排布信息的所述翻译顺序作为所述特征输出的函数。
19.一种计算机可读记录介质,该计算机可读记录介质中记录有用于执行根据权利要求11至18中的任一项所述的处理的程序。
CN201180053404.1A 2010-11-05 2011-07-20 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法 Active CN103189860B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2010-0109546 2010-11-05
KR1020100109546A KR101762866B1 (ko) 2010-11-05 2010-11-05 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
PCT/KR2011/005325 WO2012060540A1 (ko) 2010-11-05 2011-07-20 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법

Publications (2)

Publication Number Publication Date
CN103189860A true CN103189860A (zh) 2013-07-03
CN103189860B CN103189860B (zh) 2017-10-27

Family

ID=46024637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180053404.1A Active CN103189860B (zh) 2010-11-05 2011-07-20 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法

Country Status (4)

Country Link
US (1) US10198437B2 (zh)
KR (1) KR101762866B1 (zh)
CN (1) CN103189860B (zh)
WO (1) WO2012060540A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468585A (zh) * 2014-09-30 2016-04-06 株式会社东芝 机器翻译装置和机器翻译方法
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN108363702A (zh) * 2017-01-26 2018-08-03 三星电子株式会社 翻译方法和设备以及翻译系统
CN109558570A (zh) * 2017-09-25 2019-04-02 三星电子株式会社 句生成方法和设备
CN110598222A (zh) * 2019-09-12 2019-12-20 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
CN111382581A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种机器翻译中的一次剪枝压缩方法
CN116304217A (zh) * 2023-03-31 2023-06-23 易智瑞信息技术有限公司 地理空间数据查询方法、装置、电子设备和可读存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
KR102577584B1 (ko) 2016-08-16 2023-09-12 삼성전자주식회사 기계 번역 방법 및 장치
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
US10346547B2 (en) * 2016-12-05 2019-07-09 Integral Search International Limited Device for automatic computer translation of patent claims
KR102424540B1 (ko) * 2017-10-16 2022-07-25 삼성전자주식회사 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
CN110413753B (zh) * 2019-07-22 2020-09-22 阿里巴巴集团控股有限公司 问答样本的扩展方法及装置
US11100412B2 (en) 2019-07-22 2021-08-24 Advanced New Technologies Co., Ltd. Extending question and answer samples
KR102296405B1 (ko) * 2019-12-11 2021-08-31 김월수 출입국 민원 대행 서비스 제공 방법 및 시스템
CN110728156B (zh) 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
US11797781B2 (en) * 2020-08-06 2023-10-24 International Business Machines Corporation Syntax-based multi-layer language translation
CN112668326B (zh) * 2020-12-21 2024-03-08 平安科技(深圳)有限公司 语句翻译方法、装置、设备及存储介质
CN112633019B (zh) * 2020-12-29 2023-09-05 北京奇艺世纪科技有限公司 一种双语样本生成方法、装置、电子设备及存储介质
US20230095352A1 (en) * 2022-05-16 2023-03-30 Beijing Baidu Netcom Science Technology Co., Ltd. Translation Method, Apparatus and Storage Medium

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023423A1 (en) * 2001-07-03 2003-01-30 Kenji Yamada Syntax-based statistical translation model
US20040193401A1 (en) * 2003-03-25 2004-09-30 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
CN1677388A (zh) * 2004-03-30 2005-10-05 微软公司 用于逻辑形式的统计语言模型
US20060142995A1 (en) * 2004-10-12 2006-06-29 Kevin Knight Training for a text-to-text application which uses string to tree conversion for training and decoding
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20080154577A1 (en) * 2006-12-26 2008-06-26 Sehda,Inc. Chunk-based statistical machine translation system
US20090043564A1 (en) * 2007-08-09 2009-02-12 Electronics And Telecommunications Research Institute Method and apparatus for constructing translation knowledge
CN101398815A (zh) * 2008-06-13 2009-04-01 中国科学院计算技术研究所 一种机器翻译方法
CN101520775A (zh) * 2009-02-17 2009-09-02 北京大学 一种融入语义信息的中文句法分析方法
US20100138213A1 (en) * 2008-12-03 2010-06-03 Xerox Corporation Dynamic translation memory using statistical machine translation

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0261763A (ja) * 1988-08-29 1990-03-01 Sharp Corp 機械翻訳装置
JP3220560B2 (ja) * 1992-05-26 2001-10-22 シャープ株式会社 機械翻訳装置
JP3066274B2 (ja) * 1995-01-12 2000-07-17 シャープ株式会社 機械翻訳装置
CN1643512A (zh) * 2002-03-27 2005-07-20 南加利福尼亚大学 统计机译中短语化联合概率模型的短语
KR100559472B1 (ko) 2003-12-24 2006-03-10 한국전자통신연구원 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US20070265826A1 (en) * 2006-05-10 2007-11-15 Stanley Chen Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
US8886518B1 (en) * 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
KR100911372B1 (ko) 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US8452585B2 (en) * 2007-06-21 2013-05-28 Microsoft Corporation Discriminative syntactic word order model for machine translation
US8423346B2 (en) * 2007-09-05 2013-04-16 Electronics And Telecommunications Research Institute Device and method for interactive machine translation
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8046211B2 (en) * 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8060360B2 (en) 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
WO2009129315A1 (en) * 2008-04-15 2009-10-22 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
US8494835B2 (en) * 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US8265923B2 (en) * 2010-05-11 2012-09-11 Xerox Corporation Statistical machine translation employing efficient parameter training

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023423A1 (en) * 2001-07-03 2003-01-30 Kenji Yamada Syntax-based statistical translation model
US20040193401A1 (en) * 2003-03-25 2004-09-30 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
CN1677388A (zh) * 2004-03-30 2005-10-05 微软公司 用于逻辑形式的统计语言模型
US20060142995A1 (en) * 2004-10-12 2006-06-29 Kevin Knight Training for a text-to-text application which uses string to tree conversion for training and decoding
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20080154577A1 (en) * 2006-12-26 2008-06-26 Sehda,Inc. Chunk-based statistical machine translation system
US20090043564A1 (en) * 2007-08-09 2009-02-12 Electronics And Telecommunications Research Institute Method and apparatus for constructing translation knowledge
CN101398815A (zh) * 2008-06-13 2009-04-01 中国科学院计算技术研究所 一种机器翻译方法
US20100138213A1 (en) * 2008-12-03 2010-06-03 Xerox Corporation Dynamic translation memory using statistical machine translation
CN101520775A (zh) * 2009-02-17 2009-09-02 北京大学 一种融入语义信息的中文句法分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RICHARD ZENS等: "a comparative study on reordering constraints in statistical machine translation", 《ACL ’03 PROCEEDINGS OF THE 41ST ANNUAL MEETING ON ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
巢文涵: "基于双语语料库的机器翻译关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468585A (zh) * 2014-09-30 2016-04-06 株式会社东芝 机器翻译装置和机器翻译方法
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN108363702B (zh) * 2017-01-26 2023-10-31 三星电子株式会社 翻译方法和设备以及翻译系统
CN108363702A (zh) * 2017-01-26 2018-08-03 三星电子株式会社 翻译方法和设备以及翻译系统
US11954452B2 (en) 2017-01-26 2024-04-09 Samsung Electronics Co., Ltd. Translation method and apparatus, and translation system
CN109558570A (zh) * 2017-09-25 2019-04-02 三星电子株式会社 句生成方法和设备
CN109558570B (zh) * 2017-09-25 2024-01-23 三星电子株式会社 句生成方法和设备
CN110598222B (zh) * 2019-09-12 2023-05-30 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
CN110598222A (zh) * 2019-09-12 2019-12-20 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
CN111382581B (zh) * 2020-01-21 2023-05-19 沈阳雅译网络技术有限公司 一种机器翻译中的一次剪枝压缩方法
CN111382581A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种机器翻译中的一次剪枝压缩方法
CN116304217A (zh) * 2023-03-31 2023-06-23 易智瑞信息技术有限公司 地理空间数据查询方法、装置、电子设备和可读存储介质
CN116304217B (zh) * 2023-03-31 2024-04-26 易智瑞信息技术有限公司 地理空间数据查询方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
KR20120048104A (ko) 2012-05-15
US20130226556A1 (en) 2013-08-29
KR101762866B1 (ko) 2017-08-16
WO2012060540A1 (ko) 2012-05-10
US10198437B2 (en) 2019-02-05
CN103189860B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN103189860A (zh) 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
Ojokoh et al. A review of question answering systems
CN112559556B (zh) 表格模式解析和序列掩码的语言模型预训练方法及系统
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
CN107818141B (zh) 融入结构化要素识别的生物医学事件抽取方法
CN106484682A (zh) 基于统计的机器翻译方法、装置及电子设备
CN112989004B (zh) 面向知识图谱问答的查询图排序方法及系统
Jin et al. ComQA: Question answering over knowledge base via semantic matching
JP2022111261A (ja) 質問生成装置、質問生成方法及びプログラム
KR20170122755A (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
CN116910086B (zh) 一种基于自注意力句法感知的数据库查询方法和系统
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Kumar et al. Deep learning driven natural languages text to sql query conversion: A survey
Park et al. Frame-Semantic Web: a Case Study for Korean.
JP2013250926A (ja) 質問応答装置、方法、及びプログラム
Ma et al. Joint pre-trained Chinese named entity recognition based on bi-directional language model
JP2006072787A (ja) 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム
Pradhan et al. Knowledge graph generation with deep active learning
He et al. English-to-chinese transliteration with phonetic auxiliary task
CN101630313A (zh) 单词对齐装置、例句对译词典及单词对齐方法
Nabende Applying dynamic Bayesian Networks in transliteration detection and generation
Chen et al. Eliciting knowledge from language models with automatically generated continuous prompts
Khan et al. A corpus based sql formation from bangla language using neural machine translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190410

Address after: Seoul special city

Patentee after: 11th Street Co., Ltd.

Address before: Seoul, South Kerean

Patentee before: SK Telecom Co., Ltd.

TR01 Transfer of patent right