CN101187922A - 精确机器翻译的方法及其装置 - Google Patents
精确机器翻译的方法及其装置 Download PDFInfo
- Publication number
- CN101187922A CN101187922A CNA2006101367051A CN200610136705A CN101187922A CN 101187922 A CN101187922 A CN 101187922A CN A2006101367051 A CNA2006101367051 A CN A2006101367051A CN 200610136705 A CN200610136705 A CN 200610136705A CN 101187922 A CN101187922 A CN 101187922A
- Authority
- CN
- China
- Prior art keywords
- sentence
- language
- formula
- verb
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及语言机器翻译的方法及其装置。它分以下几个步骤并提供相应的设备:1)以句子为单位,以谓语动词为核心,对句子成分进行精确分类,从而建立“普遍语法公式”;2)建立源语言数据库和目标语言数据库;3)对源语言的具体句子进行分析,推导出源语言的具体句子的象数化公式;4)再转换为目标语言的具体句子的象数化公式;5)在源语言数据库和目标语言数据库中一一检索出相对应的词和词组,从而得到相对应的目标语言的具体句子。本发明能把所有语言程式化,它能完整的根据系统规则进行有序生成与搜索。本发明的翻译设备将极大的提升翻译准确性、传情性、同步性,同时它将大大简化翻译设备,大幅度降低设备制作成本。
Description
技术领域
本发明涉及语言翻译技术,具体是语言机器翻译的方法及其装置。
背景技术
目前多数的机器翻译系统都是先用人工建立的语法分析规则,逐句分析句子的词间关系,并通过字典来确定词意,然后才能将一个句子转换成另一文种。因此,系统必须精确知道句子语法规则才能正确分析语句,产生出准确的译文。同时还必须知道句子中每个单词的精确含义一旦遇到一词多意的单词,系统便无法自行做出正确选择,译文也就会出错。比如基于语法分析的机器翻译技术无法自行判断bank一词应译为“银行”还是“河岸”,cool一词应译为“冷”还是“很棒”。而现有语法规则根本分类不清,不可能覆盖所有的语言现象。目前典型的商用机器翻译系统仅就两种比较复杂语种之间的翻译,就要有25万到50万个词的词典,以及上万条的语法规则。即使规模如此,一旦遇上规则中没有定义的语言现象,系统依旧无计可施。
机器翻译中,英汉两种语言的转换和生成,还有许多难题没有解决:如单复数、时态、语态等各种形态信息的处理,尤其是在篇章中,如何处理按时间顺序、方位关系、因果关系等逻辑概念的过渡词语,如何处理通过省略、替代、照应等句法手段所表示的承接关系或通过词汇的重复、同义词、近义词、反义词的使用所表示的承接关系,都有待进一步完善。而且目前所应用的范围也只限于求达意不求传情的科技文献。
总之机器翻译的障碍就在于现代英语语法规则不系统、不正确、不科学,现代英语基本句型定为五种:
1、主语+谓语动词(SV)
2、主语+谓语动词+宾语(SVO)
3、主语+系动词+表语(SVP)
4、主语+谓语动词+间接宾语+直接宾语(SVOO)
5、主语+谓语动词+宾语+宾语补足语(SVOC)
TOEFL里面用:Vi表示不及物动词或者自动词、Vlink表示系动词、Vmonot表示单宾他动词(及物动词)、Vdit表示双层双宾他动词(及物动词)、Vcomplex表示复宾他动词,即使这样它也不能有效的解决时态的问题,句子中的其它成分是由什么词来充当的也不清楚。“V”按理只能代表原形动词,而在这里它却代表谓语、谓语动词、还代表原形动词、还代表非谓语动词。所以根本没办法搞清楚它在公式里面究竟代表什么。
即使通过这个公式来对句子进行分析,可以把句子形式化,却不能让人一目了然!精确的翻译也就无法做到。
更为复杂的是“及物动词”它可以同时是及物动词,又可以是不及物动词,它还可以是连系动词,即三重谓语。这种情况它就更没办法来表示:举例:you gave your promise to me true.这个句子中的“gave”就是一个三重谓语:它做及物动词带宾语“your promise”、它做不及物动词带述语“to me”、它做连系动词带表语“true”。
退一步,即使这个公式把这些问题都解决了,说清楚了,也没什么意义,它复杂而不具体、粗象而不精确。
全世界在语言研究方面最大的误区就是对谓语动词没有明确的概念。英语语法目前可以说是所有语言中研究最透彻的,它把句子成分分为:主、谓、宾、表、定、状、补存在三个致命的逻辑错误,使英语学习造成了巨大的混乱和人力、物力、财力的浪费,也为机器翻译造成了不可逾越的障碍。第一它没有确定谓语动词是句子的核心;第二,它把补语看成是与主、宾、表、定、状成分同一层面的成分,这个补语本应该是各主、宾、表、定、状内部的成分,不能与这些成分平起平坐;第三、它忽略了一个重要的成分:述语。
现有机器翻译原理构造与说明:
原理说明:可以直接由查词典转到译文输出。这类句子定义为1类句—同汉语语序句。与汉语语序相反的句子,定义为0类句,为了方便,我们将局部(如修饰成分内部而言)语序相同的局部同语序句也简称为1类句,局部语序相反也称为0类句。
上述机译原理从本质上讲,完全依赖语法规则的判断,复杂而不清晰,因为这一规则的不确定性、不全面性、不精确性制约了现有的机译技术的发展。
现有机器翻译的原理如图4所示。
发明内容
本发明需解决的技术问题是:针对现有机器翻译技术中存在的不确定性、不全面性、不精确性等问题,而提供一种精确机器翻译的方法和装置。
本发明所采用的技术方案:该精确机器翻译的方法,包括以下几个步骤:
1)、以句子为单位,以谓语动词为核心,对句子成分进行精确分类,从而建立“普遍语法公式”;
2)、根据上述分类原则和“普遍语法公式”建立源语言数据库和目标语言数据库;
3)、对源语言的具体句子进行分析,根据“普遍语法公式”原理,推导出源语言的具体句子的象数化公式;
4)、根据源语言与目标语言之间的语法对应规则,用源语言的具体句子的象数化公式检索目标语言的数据库,得到目标语言的具体句子的象数化公式;
5)、根据目标语言的具体句子的象数化公式,在源语言数据库和目标语言数据库中一一检索出相对应的词和词组,从而得到相对应的目标语言的具体句子。
该精确翻译的装置,由下列几个部分按循序组合而成:源语言句子分析并写源语言象数化公式部分→检索目标语言数据库并查找目标语言象数化公式部分→目标语言词代入部分→目标语言生成部分。
本发明的有益效果:本发明能把所有语言程式化,它能完整的根据系统规则进行有序生成与搜索。本发明的翻译设备将极大的提升翻译准确性、传情性、同步性,同时它将大大简化翻译设备,大幅度降低设备制作成本。
附图说明
图1为语言桥代词八八表;
图2为语言桥原形动词八八表;
图3为用“左手掌”表示的本发明的形象化的示意图;
图4为现有机器翻译的原理图。
具体实施方式
本发明通过对句子成分的精确分类,运用程式化的象数公式建立科学的目标语言“基础句型库”,然后根据源语言和目标语言的“基础句型库”的对应关系,达到精确翻译和传情翻译的机译技术,同时通过“基础句型库”还可以创造和演绎出全新的句子。
即以掌心(谓语动词)为句子核心,谓语动词又以“桥动词”为核心(因为谓语动词的变化决定句子的成分)。这样就把一个极其复杂的语法问题,变得浅显、简易、精准,人们对语法的理解也就变得极为简单且容易操作。同时,她将谓语动词演绎出:主、宾、定、状、表和述语共六个成分,补语则只是句子六个成分中的成分,不能与句子成分平起平坐,这样精确的分类就让句子结构清晰而科学。同时运用全息理论把“左手掌”作为形式化的具体体现:手臂是主语、中指是宾语为一对;大拇指是状语、小指是定语为第二对;食指为述语、无名指为表语为第三对(请参见附图1)。
本发明通过传统哲学、太极、八卦理论,把人类迄今为止创造出来的两个最好的符号“O”和“一”结合起来,发明了第三个符号把里面的“一”演变成为“三”(太极涵三),使成为动态的动态将成为宇宙间第三个象数符号。这个符号的发明演绎出“普遍语法”公式:通过它语言就能完全形式化。
(一)本发明对句子成分的分类如下:
A.一类成分:谓语动词。有时态的动词就是谓语动词,谓语动词是决定句子中其它成分的成分。谓语动词的核心就是“桥动词”(8个基本谓语动词+15助动词)共二十三个(表I)。谓语动词由“桥动词”+原形动词构成。必须有这23个桥动词才是句子,句子中去掉桥动词就是1C,1C是名词和补语。句子带个帽子就是从句,从句就是9。
B.二类成分:主语、宾语、述语、表语、状语、定语共六个成分。这六个成分它们都有一个共性就是都可以用“C”表示。其中“述语”就是不可以省去的状语、表语是不可以省去的定语。
C.三类成分:补语。它是二类六个成分中的成分。
D.谓语动词用符号表示:
E.语言桥桥动词表(表I)
do do does | shall will |
am are is | can may |
have have has | must need |
Aught to dare | |
did did did | should would |
was were was | could might |
had had had |
确定以谓语动词为核心:(核心桥动词共二十三个:其中斜体字部分八个为基本谓语动词,其它十五个为助动词)
F.语言桥C表:(表II)
n./pron名/代词 | pron./n代/名词 | adj形容词 | adv副词 | to v./v不定式/动词原形 | -ing现在分词 | -ed过去分词 | prep介词 | s.c.从句 | c.c.连词 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | + |
以上将“C”表数字化是本发明又一个重要的思想。
G.语言桥代词八八表:(图1)
H.语言桥原型动词八八表:(图2)
I.语言桥形象图(图3)
J.C表数字化细表
(三)本发明用公式表示:
其中:“S”是主语(Subject)、“C”是补足语(Complement)
(四)通过本发明的方法建立“语言句型库”
本发明只要将分类词代入公式就能创造出程式化的所有语言,所以,我们根据目标语言的习惯就可以很容易“生成目标语言的句型库”,从而大大减轻了原来复杂机译技术,大幅度降低了机译系统的设计成本,实现机器翻译。
英语句型库变化八卦原理示意图
把这八个谓语动词形态导入基本公式通过八卦转化,
我们就可以得到如下64个基本句式:
21C 21 2C 1C 1 2 C 22C
这八个句式又可改成被动态即如下八个句式:
(五)本发明所指的装置就是通过本发明方法的翻译装置。
它包括:1.源语言句子分析并写源语言公式系统;2.检索目标语言句型库查找目标公式系统;3.目标语言词代入系统;4.目标语言输出系统。
根据本发明方法建立的“语言句型库”,它能完整的根据系统规则进行有序生成与搜索。本发明的翻译设备将极大的提升翻译准确性、传情性、同步性,同时它将大大简化翻译设备,大幅度降低设备制作成本,完全可以实现掌中精确机器翻译设备。
本发明能把所有语言程式化。程式化有许多优点:第一,容易检验。程式化语言清楚简练、一目了然,比自然语言精确,不易误解,自然语言难免有歧义,而专用符号没有歧义。第二,容易发现错误,如果论点或论据中出现了漏洞、矛盾或错误,容易检查出来:例如语法说明中的矛盾或者语法概念的前后不一致。第三,容易发现遗漏的环节。如果在推论的过程中缺少某个环节或某个步骤,很容易看出来。所以程式化语言在机器翻译中,机器执行就不会出现偏差,精确程度高。用自然语言作的描写中往往蕴涵着某些假设,而没有明确地表达出来,因而推论往往不够严密,机器无法执行命令。
以下面的几个具体翻译句子为例,可见现有的机译技术(以斜体字表示)与本发明的区别:
(1)英汉翻译现有技术(斜体)与本发明技术对比:
1.Prepare a saturated solution of sugar.
机译(现有技术):准备一种饱和的解决办法的糖。
(多义词与不同的辞搭配具有不同的词义,原文中的solution有“解决办法”、“解决”、“解答”、“溶解”、“溶液”等意思,人工翻译可以根据语境来选择词义,机译尚无法达到通过对语境的分析判断来翻译的水平,计算机往往是根据该词的第一个词典词义来翻译,因此,就出现这样的错误。正确的翻译应该是:准备一份饱和糖溶液。)
Prepare a saturated solution of sugar.
(说明:通过本发明的方法对这个英语句子分析就可以得到英语公式:通过搜索汉语句型库得到汉语公式再根据“Prepare”词对应关系“准备”、a saturated solution词组英汉对应“一份饱和溶液”、of sugar.词组英汉对应“糖的”一一代入公式,of sugar.在句子中作定语,修饰“饱和溶液”,所以,就可以很清楚得到准确的汉语意思,以下例句同此分析)
2.Telescopes are housed in large buildings called observatories.
机译:望远镜坐落在大建筑物调用天文台。
(英语中的一词多类也常常造成机器翻译困难。如do,have等既可作实义动词,又可作助动词,但计算机往往都把它们当作实义动词来译。那些形式上与谓语动词相同,实际上却是作定语或状语的分词,机器翻译时也统统作为与动词处理。“调用天文台”的错误就是这样产生的。正确的翻译应该是:望远镜都是安置在高大建筑物即天文台上。)
Telescopes are housed in large buildings called observatories.
3.Welcome to the world of computer telecommunications.
机译:欢迎您到该计算机的世界远程通信来。
(汉语中没有冠词,英语中的冠词常译成汉语的“这”、“那”、“该”等。但并非所有冠词都要译出来,因而,如何把握成了机器翻译的难题。译文中的错误“该计算机的世界”就是这样产生的。正确的翻译是:欢迎到计算机电信世界来。)
Welcome to the world of computer telecommunications.
4.Water quality has improved in many ways.
机译:水品质有改良的在许多方面。
(“有改良的在许多方面”是不符合汉语习惯的表达,主要是状语的位置不对。计算机尚无法根据状语、定语等在句子中的修饰关系,灵活准确地处理状语、定语等在汉语中的恰当位置。正确的翻译是:水质已在许多方面得到改善。)
Water quality has improved in many ways.
5.张文定在福建南平工作。
机译:Zh Zh is fixed on Nan Ping of Fujian and works.
(某几个汉字的组合是人名、地名或其他词,计算机尚无法作准确判断,这是汉英机器翻译的一个难点。译文错误主要出在对“张文定”这个名字的判断上,正确的翻译应该是:Zhang Wending works inNanping of Fujian.)
张文定 在福建南平 工作。
6.要是没有阳光照射,地球上就没有树木。
机译:If there is no sunshine to shine,there are no trees on the earth.
(根据汉语习惯可以说“阳光照射”,但英语应该说“太阳照射”,另外原文是假设,英文应该用虚拟语气表达。这些在人工翻译时,都可以根据语境来判断,而机器翻译就难以做到。正确的翻译应该是:If the sun didn′t shine on the earth,there would be no trees.)
要是没有阳光照射,地球上就 没有树木。
7.以福州菜为代表的闽菜,是全国八大名菜之一。
机译:Fujian cuisine represented by Foochow cuisine,It is one ofeight major famous dish in the whole country.
(每一个英语句子都有唯一的一个限定形式的谓语中心成分,汉语句子则随意得多,句子之间也没有明确的界限。汉英机器翻译时很难准确断句。另外汉语名词没有复数形式,英语有单复数之分,机器翻译时也很难判断何时该用单数,何时该用复数。正确的翻译应该是:Fujian cuisine represented by Fuzhou cuisine is one of eight famouscuisines in China.)
以福州菜为代表的 闽菜,是 全国 八大名菜之一。
本发明公式:直译:Fujian cuisine represented by Fuzhou cuisine is one of eight famouscuisines in China.
(2)本发明让“模糊语”变清晰:
I want a boy to finish the job.
它有以下几种理解:
我需要一个男孩为了做这工作。
我需要一个做这工作的男孩。
通过转换公式,使其语义变的精确和清晰。
I hope that a boy will finish the jop.
我想要一个男孩去做这事。
I want a boy who can finish the jop.
我需要一个做这事的男孩。
I want a boy in order that I can finish the jop.
我需要一个男孩为了我能做这工作。
(3)多语种互通互译:(除英汉外其它语种由专业翻译而来,仅供参考)
我们的 党 是 真诚的,她 给了 我们 诺言。
Our party was true to give her promise to us.(英语)
Наша партия является искренней,она дала нам обещания.(俄语)
Unsere partei war aufrichtig,sie geben uns ihre Versprechung.(德语)
Notre Partie est sincère de nous donner la promesse.(法语)
私たちの政党は誠意ですが、彼がわたしたちにやくそくをあげます。(日语)
本发明公式:
Claims (4)
1.精确机器翻译的方法,其特征在于包括以下几个步骤:
1)、以句子为单位,以谓语动词为核心,对句子成分进行精确分类,从而建立“普遍语法公式”;
2)、根据上述分类原则和“普遍语法公式”,建立源语言数据库和目标语言数据库;
3)、对源语言的具体句子进行分析,根据“普遍语法公式”原理,推导出源语言的具体句子的象数化公式;
4)、根据源语言与目标语言之间的语法对应规则,用源语言的具体句子的象数化公式检索目标语言的数据库,得到目标语言的具体句子的象数化公式;
5)、根据目标语言的具体句子的象数化公式,在源语言数据库和目标语言数据库中一一检索出相对应的词和词组,从而得到相对应的目标语言的具体句子。
2.根据权利要求1所述的精确机器翻译的方法,其特征在于对句子成分的精确分类为:
1)、一类成分为谓语动词:谓语动词由桥动词+原形动词构成,谓语动词的核心是桥动词;
2)、二类成分为主语、宾语、述语、表语、状语、定语共六个成分:其中述语就是不可以省去的状语、表语是不可以省去的定语;
3)、三类成分为补语:它是二类六个成分中的成分。
4.精确机器翻译的装置,其特征在于它由下列几个部分按循序组合而成:源语言句子分析并写源语言象数化公式部分→检索目标语言数据库并查找目标语言象数化公式部分→目标语言词代入部分→目标语言生成部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101367051A CN101187922A (zh) | 2006-11-17 | 2006-11-17 | 精确机器翻译的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101367051A CN101187922A (zh) | 2006-11-17 | 2006-11-17 | 精确机器翻译的方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101187922A true CN101187922A (zh) | 2008-05-28 |
Family
ID=39480320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101367051A Pending CN101187922A (zh) | 2006-11-17 | 2006-11-17 | 精确机器翻译的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101187922A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010102559A1 (zh) * | 2009-03-11 | 2010-09-16 | Lin Xunzhun | 一种机器翻译方法及系统 |
CN102650996A (zh) * | 2011-02-28 | 2012-08-29 | 国际商业机器公司 | 确定数据库表之间的数据映射关系的方法和装置 |
CN108549644A (zh) * | 2018-04-12 | 2018-09-18 | 苏州大学 | 面向神经机器翻译的省略代词翻译方法 |
CN109145311A (zh) * | 2017-06-19 | 2019-01-04 | 松下知识产权经营株式会社 | 处理方法、处理装置以及处理程序 |
CN112417900A (zh) * | 2020-11-25 | 2021-02-26 | 北京乐我无限科技有限责任公司 | 一种翻译方法、装置、电子设备及计算机可读存储介质 |
-
2006
- 2006-11-17 CN CNA2006101367051A patent/CN101187922A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010102559A1 (zh) * | 2009-03-11 | 2010-09-16 | Lin Xunzhun | 一种机器翻译方法及系统 |
CN102650996A (zh) * | 2011-02-28 | 2012-08-29 | 国际商业机器公司 | 确定数据库表之间的数据映射关系的方法和装置 |
CN102650996B (zh) * | 2011-02-28 | 2015-02-11 | 国际商业机器公司 | 确定数据库表之间的数据映射关系的方法和装置 |
CN109145311A (zh) * | 2017-06-19 | 2019-01-04 | 松下知识产权经营株式会社 | 处理方法、处理装置以及处理程序 |
CN109145311B (zh) * | 2017-06-19 | 2024-04-26 | 松下知识产权经营株式会社 | 处理方法、处理装置以及处理程序 |
CN108549644A (zh) * | 2018-04-12 | 2018-09-18 | 苏州大学 | 面向神经机器翻译的省略代词翻译方法 |
CN112417900A (zh) * | 2020-11-25 | 2021-02-26 | 北京乐我无限科技有限责任公司 | 一种翻译方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9824083B2 (en) | System for natural language understanding | |
US9710458B2 (en) | System for natural language understanding | |
KR100911621B1 (ko) | 한영 자동번역 방법 및 장치 | |
US6760695B1 (en) | Automated natural language processing | |
KR101818598B1 (ko) | 자동 번역 엔진 서버 및 자동 번역 방법 | |
US10503769B2 (en) | System for natural language understanding | |
CN101187922A (zh) | 精确机器翻译的方法及其装置 | |
Anbukkarasi et al. | Neural network-based error handler in natural language processing | |
WO1997040453A1 (en) | Automated natural language processing | |
Schubert | The architecture of DLT| Interlingual or double direct | |
Kituku et al. | Towards Kikamba computational grammar | |
Calzolari et al. | Working on the ltalian Machine Dictionary: a Semantic Approach | |
Tohma et al. | Challenges Encountered in Turkish Natural Language Processing Studies | |
Samy et al. | Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic-Spanish-English). | |
Bahadur et al. | Machine translation—A journey | |
Shalini et al. | Dictionary based machine translation system for pali to sinhala | |
Ariaratnam et al. | A shallow parser for Tamil | |
Schubert | Semantic compositionality: Esperanto word formation for language technology | |
ud Din | Urdu-English machine transliteration using neural networks | |
Bouziane et al. | Annotating Arabic Texts with Linked Data | |
Khatun et al. | Probabilistic Approach of Parsing Bengali Sentences | |
Hossny et al. | Machine translation model using inductive logic programming | |
Singh et al. | Punjabi pos tagger: Rule based and HMM | |
Le Thuyen et al. | Automatic translation of Vietnamese simple sentences based on UNL | |
Dharmasiri et al. | Swa Bhasha 2.0: Addressing Ambiguities in Romanized Sinhala to Native Sinhala Transliteration Using Neural Machine Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080528 |