CN102023972A - 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法 - Google Patents
基于结构化的翻译记忆的自动翻译系统及其自动翻译方法 Download PDFInfo
- Publication number
- CN102023972A CN102023972A CN2009102662208A CN200910266220A CN102023972A CN 102023972 A CN102023972 A CN 102023972A CN 2009102662208 A CN2009102662208 A CN 2009102662208A CN 200910266220 A CN200910266220 A CN 200910266220A CN 102023972 A CN102023972 A CN 102023972A
- Authority
- CN
- China
- Prior art keywords
- sentence
- normal form
- translation
- language
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
提供了一种基于结构化的翻译记忆的自动翻译系统及使用其的自动翻译方法。在该自动翻译系统中,翻译记忆建立模块将预定语言范式改变为部分翻译范式,并将所改变的部分翻译范式登记在结构化的翻译记忆中。句子单元翻译模块基于翻译记忆对输入句子执行句子单元的翻译。部分组合翻译模块分析小于包括在输入句子中的句子单元的语言范式的结构,基于翻译记忆搜索与所分析的语言范式匹配的已登记的部分翻译范式,并组合所搜索到的部分翻译范式以输出与输入句子对应的翻译。
Description
技术领域
以下公开涉及自动翻译系统及使用其的自动翻译方法,而且具体地,涉及基于结构化的翻译记忆的自动翻译系统及使用其的自动翻译方法。
背景技术
作为翻译系统,有翻译记忆(TM)、使用TM的计算机辅助翻译工具(以下称为CAT)、自动翻译系统、以及连接TM和自动翻译系统的系统。
CAT通过TM支持译员的翻译。TM是一种数据库,在其中成对配置原文和翻译。TM以数据库类型存储先前已经由译员翻译的句子。当从用户接收到具有与先前的翻译相同的表达的输入句子的翻译请求时,CAT搜索TM并将搜索结果应用于翻译。在CAT中,通过重用先前的翻译,不用重复地翻译该先前的翻译或重复的句子。也就是说,CAT提供翻译的一致性和高效率。另一方面,因为TM以字符串存储先前翻译的句子,所以即使当仅仅一个字母被错误翻译时,搜索与输入句子相同的句子的成功率很低。也就是说,在TM中,覆盖率很低。
自动翻译系统是这样的系统,其将第一语言的输入句子自动翻译成第二语言的翻译,并通过使用存在于其内的翻译词典、翻译规则、翻译范式(pattern)和统计的翻译信息来提供快速和一致的翻译结果。另一方面,自动翻译系统的翻译结果是不自然的,并且自动翻译系统的总翻译率很低。其原因是自动翻译中使用的翻译规则、翻译范式或统计的翻译信息在结构和词汇的含义和风格方面具有多义性(ambiguity)。
当由TM搜索到与输入句子相同或类似的句子时,将TM与自动翻译系统连接的系统在翻译中使用搜索结果。当从TM中没有搜索到时,自动翻译系统不执行自动翻译。在连接TM和自动翻译系统的系统中,自动翻译系统补充了TM的低覆盖率,但是TM的覆盖率仍然很低,并且自动翻译系统的不自然的翻译结果仍未得到改善。
发明内容
在一个一般方面,一种自动翻译系统包括:翻译记忆建立模块,通过改变、删除和替代小于句子单元的预定语言范式来将预定语言范式改变为部分翻译范式,并将所改变的部分翻译范式登记在结构化的翻译记忆中;句子单元翻译模块,基于翻译记忆对输入句子执行句子单元的翻译;和部分组合翻译模块,当句子单元的翻译失败时,分析小于包括在输入句子中的句子单元的语言范式的结构,基于翻译记忆搜索与所分析的语言范式匹配的已登记的部分翻译范式,并组合所搜索到的部分翻译范式以输出与输入句子对应的翻译。
在另一个一般方面,一种自动翻译方法包括:通过改变、删除和替代小于句子单元的预定语言范式来将预定语言范式改变为部分翻译范式以建立结构化的翻译记忆;基于翻译记忆对输入句子执行句子单元的翻译;当句子单元的翻译失败时,分析小于包括在输入句子中的句子单元的语言范式的结构,搜索翻译记忆,并组合与所分析的语言范式对应的部分翻译范式以输出翻译。
通过以下详细描述、附图和权利要求书,其他的特征和方面将显而易见。
附图说明
图1是示出根据示范性实施例的基于结构化的翻译记忆的自动翻译系统的框图;
图2是示出建立图1中的翻译记忆数据库的操作的流程图;
图3是其中以模块类型实现图2中的建立第一语言句子的结构化的翻译记忆的操作的框图;
图4是详细地示出图2中的建立与第一语言句子的结构化的翻译记忆对应的第二语言句子的结构化的翻译记忆的操作的流程图;
图5是示出图1的句子单元翻译模块中执行的操作的示例的流程图;
图6是示出图1的句子分段模块中执行的操作的示例的流程图;以及
图7是示出图1的部分组合翻译模块中执行的操作的示例的流程图。
具体实施方式
在下文中,将参考附图详细描述示范性实施例。贯穿附图和详细描述,除非有特别说明,相同的附图参考数字将被理解为指代相同的元件、特征和结构。为了清楚、图示和方便,可以放大这些元件的相对大小和描述。提供以下详细描述以便帮助读者获得对这里描述的方法、装置和/或系统的全面理解。因此,本领域普通技术人员不难想到这里描述的方法、装置和/或系统的各种改变、修改和等效。此外,为了更清楚和简明,可以省略公知的功能和结构的描述。
图1是示出根据示范性实施例的基于结构化的翻译记忆的自动翻译系统的框图。
参考图1,根据示范性实施例的基于结构化的翻译记忆的自动翻译系统100包括句子单元翻译模块102、句子分段模块109、部分组合翻译模块103、和结构化的翻译记忆建立模块106。
句子单元翻译模块102接收第一语言的句子作为输入句子10。句子单元翻译模块102搜索构成输入句子10的每个句子是否存在于结构化的翻译记忆数据库(TM DB)105中。也就是说,句子单元翻译模块102搜索与每个句子范式相同或类似的句子范式是否存在于结构化的TM DB 105中。当与每个句子范式相同或类似的句子范式存在于TM DB 105中时,句子单元翻译模块102基于TM DB 105,将每个句子改变为第二语言的翻译20,并输出翻译20作为自动翻译30。当与每个句子范式相同或类似的句子范式不存在于TM DB 105中时,句子单元翻译模块102将输入句子12传送到句子分段模块109。
句子分段模块109接收未由句子单元翻译模块102处理的输入句子12,并且当接收的输入句子12是长句子时,句子分段模块109将输入句子12分段。当输入句子是长句子时,句子分析的准确度大大地降低。从而,因为经分段的长句子大大地降低了句子分析的复杂度,所以句子分析的准确度可以大大地提高。已分段的句子14通过句子分段模块109传送到句子单元翻译模块102。
部分组合翻译模块103通过句子单元翻译模块102接收已分段的句子14,并基于结构化的TM DB 105自动翻译已分段的句子范式14。也就是说,部分组合翻译模块103组合存在于结构化的TM DB 105中的部分翻译范式以自动地执行翻译,并输出翻译结果作为自动翻译30。
TM DB建立模块106通过使用自动翻译30、第一语料库(corpus)107以及第一和第二对齐(alignment)语料库108来半自动地建立TM DB 105。
图2是示出建立图1中的TM DB的操作的流程图。
参考图2,在操作S210,自动翻译系统100基于自动翻译30、第一语料库107以及第一和第二对齐语料库108确定第一语言句子是否为最后的句子。
当当前第一语言句子是最后的句子时,终止处理操作。
当第一语言句子不是最后的句子时,在操作S220,自动翻译系统100确定与第一语言句子对应的第二语言句子是否存在。当第二语言句子不存在时,在操作S230执行人工翻译,在其中将句子人工翻译成与第一语言句子对应的第二语言句子。因此,对比地建立第一和第二语言句子。当第二语言句子存在时,在操作S240执行建立第一语言句子的结构化的TM的操作。
在对比地建立的第一和第二语言句子中,通过建立第一语言句子的结构化的TM的操作S240,以结构化的翻译记忆类型暂时完成第一和第二语言句子。
在操作S250,自动翻译系统100确定在结构化的TM中建立的第一语言句子是否与先前已经建立的结构化的TM DB 105匹配。
当第一语言句子与结构化的TM DB 105匹配时,自动翻译系统100对于新的句子再次执行操作S210到S240。当第一语言句子与结构化的TM DB105不匹配时,在操作S260,自动翻译系统100建立与第一语言句子的结构化的TM对应的第二语言句子的结构化的翻译记忆。从而,通过建立与第一语言句子的结构化的TM对应的第二语言句子的结构化的TM的操作来建立结构化的TM DB 105。
图3是其中以模块类型实现图2中的建立第一语言句子的结构化的TM的操作的框图。
参考图3,第一语言句子的结构化的TM的建立模块包括分类(sorting)/重复去除单元302、展开(expansion)/重复去除单元304、标准化(normalization)/重复去除单元306、替代(substitution)/重复去除单元308和分块(chunking)/重复去除单元310。
分类/重复去除单元302接收第一语言句子301,其包括自动翻译30、第一语料库107以及第一和第二对齐语料库108。分类/重复去除单元302根据长度将构成第一语言句子310的词分类。分类/重复去除单元302删除包括在第一语言句子310中的重复的句子范式、简单词和句子(其利用复合名词构成)。
展开/重复去除单元304删除存在于第一语言句子中的句子副词(sentence adverb)范式和附加疑问句(tag question)范式。从而,将第一语言句子展开。此外,当第一语言句子的长度大于临界值时,展开/重复去除单元304将作为长句子的第一语言句子分段成简单句子并将第一语言句子意译(paraphrase)。
标准化/重复去除单元306将存在于第一语言句子中的大写字母标准化成小写字母,并删除存在于第一语言句子中的标点符号。此外,标准化/重复去除单元306通过删除标点符号来恢复被缩写的第一语言句子。
替代/重复去除单元308用特定符号替代存在于第一语言句子中的专有名词(proper noun)范式和数字(figure)范式。在此实施例中,描述了分别用第一符号(NNP)和第二符号(NUM)替代专有名词范式和数字范式的示例。此外,替代/重复去除单元308用其他特定符号替代人称代词,如“he”或“she”。在此实施例中,描述用第三符号(PRP)替代人称代词的示例。
分块/重复去除单元310将存在于第一语言句子中的基本名词(basenoun)短语范式和习惯用语(idiom)范式分块,并用其他特定符号替代经分块的基本名词短语范式和习惯用语范式。这里,分块表示捆绑相关的信息,而基本名词分块表示捆绑基本名词和与其相关的信息。在此实施例中,描述了其中用第四符号(NP)和第五符号(VP)替代名词短语范式和习惯用语范式的示例。
通过上述单元302、304、306、308和310中执行的操作将第一语言句子301组织成图1的TM DB 105中的第一部分翻译范式。
以下将描述反映在通过图3的单元302、304、306、308和310中执行的操作组织的TM中的第一语言句子的示例句子。
(1)[输入句子]Good Morning
[登记在结构化的TM中的第一语言句子]good morning
在示例句子(1)中,大写字母出现在输入句子中,而在结构化的TM中登记向其应用了将包括在输入句子中的大写字母改变为小写字母的操作的第一语言句子。
(2)[输入句子]Yes
[登记在结构化的TM中的第一语言句子]删除
在示例句子(2)中,利用简单词构成的句子出现在输入句子中,而在这种情况下,在结构化的TM中登记删除利用简单词构成的句子的操作。
(3)[输入句子]Room 777 has a beautiful view ofthe city
[登记在结构化的TM中的第一语言句子]room NUM1 has a beautifulview ofthe city room NUM1 has NP1
在示例句子(3)中,大写字母、数字和基本名词短语出现在输入句子中。在这种情况下,在结构化的TM中登记向其依次应用了将大写字母“R”改变为小写字母“r”的操作、用符号NUM1替代数字“777”的操作、和用符号NP1替代基本名词短语“a beautiful view of the city”的操作的第一语言句子。
(4)[输入句子]Please state your name,address and occupation.
[登记在结构化的TM中的第一语言句子]state NP1,NP2 and NP3
在示例句子(4)中,标点符号“,”和“.”、大写字母“P”、句子副词“Please”和三个基本名词短语“your name”、“address”和“occupation”出现在输入句子中。在这种情况下,通过去除标点符号以及将大写字母改变为小写字母的操作将输入句子改变为“please state your name address andoccupation”。接着,通过去除句子副词“please”的操作将输入句子改变“stateyour name address and occupation”,并且通过用符号NP1、NP2和NP3替代基本名词短语的操作来将输入句子改变为“state NP1,NP2and NP3”。将最终改变后的句子“state NP1,NP2 and NP3”登记在结构化的TM中。
(5)[输入句子]I′m sorry,but I can′t share that with you.
[登记在结构化的TM中的第一语言句子]i can not VP1.
在示例句子(5)中,两个缩写词汇“I′m”和“I can′t”、标点符号“,”和“.”、句子副词“I′m sorry,but”、基本名词短语“that”和“you”和习惯用语“share that with you”出现在该输入句子中。在这种情况下,通过将大写字母改变为小写字母、去除标点符号以及恢复缩写的词汇的操作将输入句子改变为“i am sorry but I can not share that with you”。然后,通过去除句子副词的操作将输入句子改变为“i can not share that with you”,并通过替代基本名词短语的符号的操作将输入句子改变为“i can not share NP1 with NP2”。最后,通过替代习惯用语的符号的操作将输入句子改变为“i can not VP1(VP1=share NP1 with NP2)”,并且将最终改变后的句子登记在结构化的TM中。
(6)[输入句子]It′s nice party,isn′t it?
[登记在结构化的TM中的第一语言句子]it is NP1
在示例句子(6)中,附加疑问句“isn′t it?”、大写字母“I”、标点符号“,”和基本名词短语“nice party”出现在输入句子中。在这种情况下,通过去除附加疑问句、将大写字母改变为小写字母以及去除标点符号的操作将输入句子改变为“it is nice party”。最后,通过替代基本名词短语的符号的操作将输入句子改变为“it is NP1”,并且将最终改变后的句子登记在结构化的TM中。
(7)[输入句子]He stole away from the scene
[登记在结构化的TM中的第一语言句子]PRP1 VP1(VP1=stole awayfrom NP1)
在示例句子(7)中,大写字母、人称代词“He”、基本名词短语“the scene”和习惯用语“stole away from”出现在输入句子中。在这种情况下,通过将大写字母改变为小写字母以及替代人称代词的符号的操作将输入句子改变为“PRP stole away from the scene”。最后,通过分别替代基本名词短语的符号和习惯用语的符号的操作将输入句子改变为“PRP1 VP1(VP1=stole awayNP1)”,并且将最终改变后的句子登记在结构化的TM中。
图4是详细地示出图2中的建立与第一语言句子的结构化的TM对应的第二语言句子的结构化的TM的操作的流程图。
参考图4,建立第二语言句子的结构化的TM的操作可以大致包括三个操作。
具体地说,建立第二语言句子的结构化的TM的操作可以包括:操作S262,对齐并展开与第一语言句子的第1-1语言范式对应的第二语言句子的第2-1语言范式;操作S264,对齐并替代与第一语言句子的第1-2语言范式对应的第二语言句子的第2-2语言范式;以及操作S266,对齐并替代与第一语言句子的第1-3语言范式对应的第二语言句子的第2-3语言范式。这里,第2-1语言范式包括句子副词和附加疑问句。第2-2语言范式包括专有名词、数字和代词。第2-3语言范式包括基本名词短语和习惯用语。
对齐并展开第2-1语言范式的操作包括对齐句子副词和附加疑问句的操作、以及通过去除已对齐的句子副词和已对齐的附加疑问句的操作来展开第二语言句子的操作。此外,当第2-1语言范式是长句子时,对齐并展开第2-1语言范式的操作还可以包括将第2-1语言范式分段的操作。
对齐并替代第2-2语言范式的操作包括对齐专有名词、数字和代词的操作、以及用特定符号替代专有名词、数字和代词的操作。例如,用特定符号替代的操作包括用符号NNP替代专有名词的操作、用符号NUM替代数字的操作、以及用符号PRP替代代词的操作。
对齐并替代第2-3语言范式的操作包括对齐基本名词短语和习惯用语的操作、分别用其他特定符号替代已对齐的基本名词短语和已对齐的习惯用语的操作。用其他特定符号替代已对齐的基本名词短语和已对齐的习惯用语的操作包括用符号NP替代已对齐的基本名词短语的操作、以及用符号VP替代已对齐的习惯用语的操作。
以下将描述登记在与第一语言句子对应的结构化的TM中的第二语言句子的各种建立结果。在此实施例中,描述了用朝鲜语建立第二语言句子的结果,但是其不限于朝鲜语并且可以用各种语言建立。
(1)[输入句子]Good Morning
[登记在结构化的TM中的第一语言句子]good morning
(2)[输入句子]Yes
[登记在结构化的TM中的第一语言句子]
[登记在结构化的TM中的第二语言句子]
(3)[输入句子]Room 777 has a beautiful view of the city
[登记在结构化的TM中的第一语言句子]room NUM1 has NP1
(4)[输入句子]Please state your name,address and occupation.
[登记在结构化的TM中的第一语言句子]state NP1,NP2 and NP3
(5)[输入句子]I′m sorry,but I can′t share that with you.
[登记在结构化的TM中的第一语言句子]i can not VP1.
(6)[输入句子]It′s nice party,isn′t it?
[登记在结构化的TM中的第一语言句子]it is NP1
[登记在结构化的TM中的第二语言句子]NP1
(7)[输入句子]He stole away from the scene
[登记在结构化的TM中的第一语言句子]PRP1 VP1(VP1=stole awayfrom NP1)
为了提供对上述建立结果当中的将输入句子“Room 777 has a beautifulview of the city”建立为登记在结构化的TM中的第二语言句子的描述,进行如下描述。以下建立操作将同样应用于上述建立结果当中的其他建立结果的建立操作。
[输入句子]
Room 777 has a beautiful view of the city.
[将大写字母改变为小写字母]
room 777 has a beautiful view of the city.
[对齐与第1-1语言对应的第2-2语言当中的数字,并用符号NUM替代所述数字]
room NUM 1has a beautiful view of the city.
[对齐与第1-3语言对应的第2-3语言当中的基本名词短语,并用符号NP1替代已对齐的基本名词短语]
room NUM1 has NP1.
图5是示出图1的句子单元翻译模块中执行的操作的示例的流程图。
参考图1和5,当输入输入句子10时,在操作S510中,图1中的句子单元翻译模块102确定包括在输入句子10中的句子是否为最后的句子。当是最后的句子时,结束在句子单元翻译模块102中执行的所有操作。当不是最后的句子时,将执行以下操作。
在操作S520中,句子单元翻译模块102执行分析构成输入句子10的语素的操作和标准化操作。句子单元翻译模块102通过所述分析包括在输入句子10中的第一语言的语素的操作和标准化操作,分析以语素单元构成第一语言句子的词,将所分析的词改变为原形并同时确定所分析的词的词类(partof speech)。接着,句子单元翻译模块102执行将包括在第一语言句子中的大写字母改变为小写字母、去除标点符号以及恢复缩写的部分的标准化操作。
随后,通过搜索结构化的TM DB 105,句子单元翻译模块102确定是否存在与通过执行语素分析操作和标准化操作的操作S520产生的字符串句子相同或相似的字符串句子。
当通过语素分析操作和标准化操作产生的字符串句子存在于结构化的TM DB 105中时,在操作S540中,句子单元翻译模块102输出与第一语言句子对应的第二语言句子。
当输出第二语言句子时,句子单元翻译模块102接收后续的第一语言句子作为输入句子并再次执行操作S510到S530。
当通过语素分析操作和标准化操作产生的字符串句子不存在于结构化的TM DB 105中时,在操作S550中,句子单元翻译模块102执行替代操作和分块操作。在执行替代操作和分块操作的操作S550中,识别第一语言句子的专有名词、数字和包括人称代词的代词的范式识别器用符号NNP替代专有名词、用符号NUM替代数字、并且用符号PRP替代代词。同时,分块器对基本名词短语范式和习惯用语范式执行分块操作。
接着,在操作S560中,句子单元翻译模块102确定执行替代操作和分块操作的操作S550的执行结果是否存在于结构化的TM DB 105中。当执行结果存在于结构化的TM DB 105中时,在操作S570中,句子单元翻译模块102自动翻译诸如符号NNP、NUM、PRP、NP和VP的变量部分。句子单元翻译模块102输出与执行结果对应的最终的自动翻译30。
当替代操作和分块操作的执行结果不存在于结构化的TM DB 105中时,句子单元翻译模块102将替代操作和分块操作的执行结果传送到句子分段模块109。
图6是示出图1的句子分段模块中执行的操作的示例的流程图。
参考图1和6,不存在于结构化的TM DB 105中的输入句子10由句子单元翻译模块102传送到句子分段模块109。
在操作S610中,句子分段模块109确定输入句子10是否是最后的句子。当输入句子10是最后的句子时,结束在句子分段模块109中执行的所有操作。当输入句子10不是最后的句子时,执行以下操作S620。
在操作S620中,用户确定是否使能将构成输入句子10的第一语言句子分段成简单句子。也就是说,句子分段模块109通过诸如显示器屏幕之类的用户界面向用户显示询问语言,其询问是否使能读取包括在第一语言句子中的语言范式。
当用户通过用户界面向句子分段模块109传送指示可以读取语言范式的响应消息时,在操作S630中,句子分段模块109根据该响应消息将第一语言句子分段成简单句子。
接着,在操作S640中,句子分段模块109建立用于连接被分段成简单句子的语言范式的连接词,并且再次将所建立的连接词和已分段的语言范式传送到句子单元翻译模块102。通过搜索结构化的TM DB 105,句子单元翻译模块105执行组合连接词和已分段的语言范式的自动翻译操作。
当用户将不会读取包括在第一语言句子中的语言范式时,即当用户将不会将第一语言句子分段时,输入句子10被传送到部分组合翻译模块103。
图7是示出图1的部分组合翻译模块中执行的操作的示例的流程图。
参考图1和7,部分组合翻译模块103接收未在句子单元翻译模块102中处理的输入句子10。
在操作S710中,部分组合翻译模块103确定输入句子10是否为最后的句子。
当输入句子10是最后的句子时,结束在部分组合翻译模块103中执行的所有操作。
当输入句子10不是最后的句子时,部分组合翻译模块103执行分析构成输入句子10的语素的操作。
接着,部分组合翻译模块103在操作S720中基于结构化的TM DB 105分析小于句子单元的语言范式的结构。
部分组合翻译模块103将所分析的小于句子单元的语言范式改变为第二语言句子,以与单独准备的翻译词典DB 706相关地产生之。所产生的第二语言句子被提供给用户作为自动翻译30。
如上所述,根据示范性实施例的基于结构化的翻译记忆的自动翻译系统100半自动地建立结构化的TM,同时通过使用结构化的TM自动翻译输入句子。
在半自动地建立结构化的TM的操作中,通过基于大量英语-朝鲜语对比语料库恢复缩写的词汇、去除标点符号、去除句子副词、将专有名词分块、将数字分块、将基本名词短语分块、以及将习惯用语分块,来半自动地建立结构化的TM DB。
在通过使用结构化的TM自动翻译输入句子的操作中,根据示范性实施例的自动翻译系统100搜索利用英语句子构成的输入句子是否与翻译记忆匹配,以及当输入句子与翻译记忆匹配时,输出朝鲜语句子。
当输入句子与翻译记忆不匹配时,自动翻译系统100进行到上一级。在上一级中,将专有名词、数字、代词和基本名词短语与用符号替代的翻译记忆相比较。当专有名词、数字、代词和基本名词短语与翻译记忆匹配时,通过改变和产生符号来输出朝鲜语句子。当专有名词、数字、代词和基本名词短语与翻译记忆不匹配时,分析句子的结构。通过分析句子的结构的解析操作来识别习惯用语,并且由短语单元的翻译记忆执行自动翻译。
上面已经描述了几个示范性实施例。然而,应当理解,可以做出各种修改。例如,如果以不同的顺序执行所述的技术和/或如果将所述的系统、结构、设备或电路中的组件按照不同的方式组合和/或替换或补充其他的组件或它们的等效物,则可以实现合适的结果。因此,其他的实施方式也在所附权利要求书的范围之内。
对相关申请的交叉引用
本申请要求于2009年9月10日向韩国特许厅提交的韩国专利申请No.10-2009-0085422的优先权,其全部内容通过引用而被合并于此。
Claims (17)
1.一种自动翻译系统,包括:
翻译记忆建立模块,通过改变、删除和替代小于句子单元的预定语言范式来将预定语言范式改变为部分翻译范式,并将所改变的部分翻译范式登记在结构化的翻译记忆中;
句子单元翻译模块,基于翻译记忆对输入句子执行句子单元的翻译;和
部分组合翻译模块,当句子单元的翻译失败时,分析小于包括在输入句子中的句子单元的语言范式的结构,基于翻译记忆搜索与所分析的语言范式匹配的已登记的部分翻译范式,并组合所搜索到的部分翻译范式以输出与输入句子对应的翻译。
2.如权利要求1所述的自动翻译系统,还包括句子分段模块,当对输入句子的句子单元的翻译失败时,从句子单元翻译模块接收输入句子,将接收的输入句子分段成小于句子单元的语言范式,并且通过句子单元翻译模块将已分段的语言范式传送到部分组合翻译模块。
3.如权利要求2所述的自动翻译系统,其中当输入句子是长句子时,句子分段模块将输入句子分段成小于句子单元的预定语言范式。
4.如权利要求3所述的自动翻译系统,其中句子分段模块通过用户界面向用户传送询问消息以询问是否使能读取长句子的输入句子,通过用户界面接收指示用户能够读取长句子的输入句子的响应消息,并将长句子的输入句子分段。
5.如权利要求1所述的自动翻译系统,其中翻译记忆建立模块将包括简单词范式、复合名词范式、专有名词范式、数字范式、代词范式、名词短语范式和习惯用语范式的预定语言范式改变为部分翻译范式。
6.如权利要求5所述的自动翻译系统,其中翻译记忆建立模块用特定符号替代与预定语言范式匹配的输入句子的语言范式以建立与输入句子对应的第一语言句子,用特定符号替代与预定语言范式匹配的翻译的语言范式以建立与翻译对应的第二语言句子,并基于所建立的第一和第二语言句子建立翻译记忆数据库。
7.如权利要求6所述的自动翻译系统,其中翻译记忆建立模块包括:
分类/重复去除单元,根据长度将包括在第一语言句子中的词分类,并删除包括在第一语言句子中的简单词范式和复合名词范式;
展开/重复去除单元,通过删除包括在第一语言句子中的句子副词范式和附加疑问句范式来展开第一语言句子;
标准化/重复去除单元,删除包括在第一语言句子中的标点符号范式,并通过删除句子副词范式、附加疑问句范式和标点符号范式来恢复被缩写的第一语言句子的句子范式;
替代/重复去除单元,分别用第一符号、第二符号和第三符号替代专有名词范式、数字范式和代词范式;以及
分块/重复去除单元,将名词短语范式和习惯用语范式分块,并用第四符号和第五符号替代已分块的名词短语范式和习惯用语范式。
8.如权利要求7所述的自动翻译系统,其中当第一语言句子的长度大于临界值时,展开/重复去除单元将第一语言句子分段成多个简单句子。
9.如权利要求7所述的自动翻译系统,其中标准化/重复去除单元将包括在第一语言句子内的大写字母改变为小写字母。
10.一种自动翻译方法,包括:
通过改变、删除和替代小于句子单元的预定语言范式来将预定语言范式改变为部分翻译范式以建立结构化的翻译记忆;
基于翻译记忆对输入句子执行句子单元的翻译;
当句子单元的翻译失败时,分析小于包括在输入句子中的句子单元的语言范式的结构,搜索翻译记忆,并组合与所分析的语言范式对应的部分翻译范式以输出翻译。
11.如权利要求10所述的自动翻译方法,还包括:当输入句子是长句子时,将输入句子分段成小于句子单元的预定语言范式。
12.如权利要求10所述的自动翻译方法,其中所述建立结构化的翻译记忆的步骤将包括简单词范式、复合名词范式、专有名词范式、数字范式、代词范式、名词短语范式和习惯用语范式的预定语言范式构造到部分翻译范式中。
13.如权利要求12所述的自动翻译方法,其中所述建立结构化的翻译记忆的步骤包括:
用特定符号替代与预定语言范式匹配的输入句子的语言范式以建立与输入句子对应的第一语言句子;
用特定符号替代与预定语言范式匹配的翻译的语言范式以建立与翻译对应的第二语言句子;以及
基于所建立的第一和第二语言句子建立翻译记忆数据库。
14.如权利要求13所述的自动翻译方法,其中所述建立第一语言句子的步骤包括:
根据长度将包括在第一语言句子中的词分类,并删除包括在第一语言句子中的简单词范式和复合名词范式;
通过删除包括在第一语言句子中的句子副词范式和附加疑问句范式来展开第一语言句子;
删除包括在第一语言句子中的标点符号范式,并通过删除句子副词范式、附加疑问句范式和标点符号范式来恢复被缩写的第一语言句子的句子范式;
分别用第一符号、第二符号和第三符号替代专有名词范式、数字范式和代词范式;以及
将名词短语范式和习惯用语范式分块,并用第四符号和第五符号替代已分块的名词短语范式和习惯用语范式。
15.如权利要求14所述的自动翻译方法,其中所述建立第二语言句子的步骤包括:
分类并删除与第一语言句子的句子副词范式和附加疑问句范式对应的第二语言句子的句子副词范式和附加疑问句范式;
将与第一语言句子的专有名词范式、数字范式和代词范式对应的第二语言句子的专有名词范式、数字范式和代词范式分类,并分别用第一到第三符号替代所分类的第二语言句子的专有名词范式、数字范式和代词范式;以及
将与第一语言句子的名词短语范式和习惯用语范式对应的第二语言句子的名词短语范式和习惯用语范式分类,并分别用第四和第五符号替代所分类的第二语言句子的名词短语范式和习惯用语范式。
16.如权利要求15所述的自动翻译方法,还包括:当第二语言句子是其中第二语言句子的长度大于临界值的长句子时,将第二语言句子分段成多个简单句子。
17.如权利要求10所述的自动翻译方法,其中所述组合部分翻译范式的步骤包括:
分析构成输入句子的语素;
通过使用所分析的语素和翻译记忆数据库来分析小于构成输入句子的句子单元的语言范式;以及
通过使用翻译词典数据库输出所分析的语言范式作为最终的翻译。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090085422A KR101266361B1 (ko) | 2009-09-10 | 2009-09-10 | 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법 |
KR85422/09 | 2009-09-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102023972A true CN102023972A (zh) | 2011-04-20 |
Family
ID=43648396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102662208A Pending CN102023972A (zh) | 2009-09-10 | 2009-12-30 | 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110060583A1 (zh) |
KR (1) | KR101266361B1 (zh) |
CN (1) | CN102023972A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819593A (zh) * | 2012-08-08 | 2012-12-12 | 东莞康明电子有限公司 | 全句翻译与词典混合搜索方法 |
CN103218354A (zh) * | 2013-03-28 | 2013-07-24 | 曾立人 | 一种在线翻译记忆交换方法和系统 |
CN103838716A (zh) * | 2012-11-27 | 2014-06-04 | 英业达科技有限公司 | 将目标资料拆分至服务器与客户端翻译的系统及其方法 |
CN105279153A (zh) * | 2014-05-27 | 2016-01-27 | 纳宝株式会社 | 提供词典功能的方法、系统和记录介质及文件分发系统 |
CN108345590A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种翻译方法、装置、电子设备以及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101745349B1 (ko) * | 2010-09-02 | 2017-06-09 | 에스케이플래닛 주식회사 | 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법 |
WO2013102052A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
WO2014130132A2 (en) * | 2012-12-06 | 2014-08-28 | Raytheon Bbn Technologies Corp. | Active error detection and resolution for linguistic translation |
CN104216934B (zh) * | 2013-09-29 | 2018-02-13 | 北大方正集团有限公司 | 一种知识抽取方法及系统 |
KR102147670B1 (ko) * | 2013-10-14 | 2020-08-25 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
US20160267075A1 (en) * | 2015-03-13 | 2016-09-15 | Panasonic Intellectual Property Management Co., Ltd. | Wearable device and translation system |
US10152476B2 (en) * | 2015-03-19 | 2018-12-11 | Panasonic Intellectual Property Management Co., Ltd. | Wearable device and translation system |
WO2021182828A1 (ko) * | 2020-03-08 | 2021-09-16 | 주식회사 미리내 | 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3385146B2 (ja) * | 1995-06-13 | 2003-03-10 | シャープ株式会社 | 会話文翻訳装置 |
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
WO1999063456A1 (fr) * | 1998-06-04 | 1999-12-09 | Matsushita Electric Industrial Co., Ltd. | Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme |
US6278969B1 (en) * | 1999-08-18 | 2001-08-21 | International Business Machines Corp. | Method and system for improving machine translation accuracy using translation memory |
KR100327115B1 (ko) | 1999-12-23 | 2002-03-13 | 오길록 | 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 |
WO2004081813A1 (ja) * | 2003-03-14 | 2004-09-23 | Fujitsu Limited | 翻訳支援装置 |
GB2415518A (en) * | 2004-06-24 | 2005-12-28 | Sharp Kk | Method and apparatus for translation based on a repository of existing translations |
KR100687734B1 (ko) | 2004-12-14 | 2007-02-27 | 한국전자통신연구원 | 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 |
JP2006268375A (ja) * | 2005-03-23 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳メモリシステム |
JP2007233486A (ja) * | 2006-02-27 | 2007-09-13 | Fujitsu Ltd | 翻訳者支援プログラム,翻訳者支援装置及び翻訳者支援方法 |
US7657421B2 (en) * | 2006-06-28 | 2010-02-02 | International Business Machines Corporation | System and method for identifying and defining idioms |
JP4481972B2 (ja) * | 2006-09-28 | 2010-06-16 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム |
JP5082374B2 (ja) * | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
-
2009
- 2009-09-10 KR KR1020090085422A patent/KR101266361B1/ko active IP Right Grant
- 2009-12-23 US US12/646,947 patent/US20110060583A1/en not_active Abandoned
- 2009-12-30 CN CN2009102662208A patent/CN102023972A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819593A (zh) * | 2012-08-08 | 2012-12-12 | 东莞康明电子有限公司 | 全句翻译与词典混合搜索方法 |
CN103838716A (zh) * | 2012-11-27 | 2014-06-04 | 英业达科技有限公司 | 将目标资料拆分至服务器与客户端翻译的系统及其方法 |
CN103218354A (zh) * | 2013-03-28 | 2013-07-24 | 曾立人 | 一种在线翻译记忆交换方法和系统 |
CN105279153A (zh) * | 2014-05-27 | 2016-01-27 | 纳宝株式会社 | 提供词典功能的方法、系统和记录介质及文件分发系统 |
CN105279153B (zh) * | 2014-05-27 | 2018-12-04 | 纳宝株式会社 | 提供词典功能的方法、系统和记录介质及文件分发系统 |
CN108345590A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种翻译方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR101266361B1 (ko) | 2013-05-22 |
US20110060583A1 (en) | 2011-03-10 |
KR20110027361A (ko) | 2011-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102023972A (zh) | 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法 | |
CN104679850B (zh) | 地址结构化方法及装置 | |
TW448381B (en) | Automatic segmentation of a text | |
CN109801630B (zh) | 语音识别的数字转换方法、装置、计算机设备和存储介质 | |
CN1954315B (zh) | 用于将汉语拼音翻译成汉字的系统和方法 | |
Shamsfard et al. | STeP-1: A Set of Fundamental Tools for Persian Text Processing. | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN103942192B (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
Dien et al. | POS-tagger for English-Vietnamese bilingual corpus | |
Fung et al. | Multilingual spoken language processing | |
CN105335356B (zh) | 一种面向语义识别的纸质翻译方法及翻译笔装置 | |
Kübler et al. | Part of speech tagging for Arabic | |
Tufis | Using a Large Set of EAGLES-compliant Morpho-syntactic Descriptors as a Tagset for Probabilistic Tagging. | |
Shafi et al. | UNLT: Urdu natural language toolkit | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Li et al. | Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures. | |
Kang et al. | Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval | |
Marcińczuk et al. | Statistical proper name recognition in Polish economic texts | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Lü et al. | Automatic translation template acquisition based on bilingual structure alignment | |
Lin et al. | A Mandarin to Taiwanese Min Nan Machine Translation System with Speech Synthesis of Taiwanese Min Nan | |
Hu et al. | A study of bpe-based language modeling for open vocabulary latin language OCR | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
CN110688840A (zh) | 一种文本转换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110420 |