CN1212406A

CN1212406A - 计算机自动准确翻译系统

Info

Publication number: CN1212406A
Application number: CN 97106621
Authority: CN
Inventors: 金旗
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-09-23
Filing date: 1997-09-23
Publication date: 1999-03-31

Abstract

本发明涉及一种语言自动翻译系统,它基于一种“约定俗成”的语言内在规则,在计算机内建立了包括字符、字母符、词符、词组符、句符、语言环境符以及相对应的特定标识符在内的语言数据库。还设立自动翻译程序,包括对源语句进行识别及赋予特定标识符,对源语句与存贮语句进行比照及增删替换;以及依语言环境进行识别、输出等,从而使本发明具有自动翻译准确性好,可大大提高翻译水平,使用方便、可靠,给使用者带来极大方便等特点。

Description

计算机自动准确翻译系统

本发明基于语言的最基本属性“约定俗成”和人类创建、学习、认识语言的基本过程，解决机器自动翻译过程中的准确性问题。基于对语言内在规则的新的认识而创建新的翻译规则并设计能为机器简便、自动识别的标识符。基于语言的复杂性和发展性，建立“语言服务局”。

从所周知，世界各民族、地区之间的语言沟通问题一直是当今人类极端关注的问题。对于机器翻译的研究，长期以来，已有许多人做了大量的研究工作。但是人们不难注意到，当今计算机领域内的翻译系统的设计大量地存在着翻译偏差问题，或者说无法给人们带来太多的便利。如在中国专利申请公开书中的申请号为92114502.0的专利申请，它表达了一种计算机语言对话系统，该系统配置包括标准健盘、鼠标器、显示器、微机和硬卡；其中系统的词汇编码是以图像代码任何语种共同的词意一一对应，但是无法对一语句进行唯一准确的翻译。事实上，存在一句汉语往往可以翻译成多种不同含义的目的语句，或其它语种的语句，往往可以被译成多个不同含义的汉语。因此，现有的计算机翻译系统无不存在着一语多义的翻译现状。而本发明的翻译规则否定了一语多义，从而创立一语一义的计算机自动准确翻译系统。

为了完成上述发明目的，本发明采取了如下技术方案：首先在计算内建立语言数据库，存贮的内容包括字符、词符、词组符、句符、语言环境符等以及与之相对应的特定标识符等，其次在计算机内设立自动识别程序，它对源语句进行自动识别及赋其依语言内在规则设计的特定标识符，再次计算内设定的自动翻译程序还包括对源语句、存贮语句进行比照、增删、替换。另外在计算机内设立的自动翻译程序还包括对语言环境进行判别以确定其唯一语义或唯一准确的目的语句并相应输出。

上述特定标识符是由表示特定意义的符号或语言文字符及表示语言内在规则的符号组合而成。

本发明按上述技术方案建立的计算机自动准确翻译系统，其特定标识符不仅体现了原语言字符串本身所具有的特定含义，而且体现了这些字符串的各种属性、组词方式及语言环境等语言内在规则。

所述的特定标识符还赋予那些表示相对完整意义的或是具有代表性的词组、句型、句子、语言环境等独立单元并存贮于语言数据库内。

上述独立单元的特定标识符是按小单元组合成大单元的原则给予设定，并且大单元的特定标识符在形式上是可拆分的。

另外，计算机内的自动翻译程序则对源语句按取大优先的原则进行判别，并相应输出。如在语言数据库内存贮有“美丽”、“城市”或“美丽城市”三种独立单元的特定标识符，当源语句为“美丽城市”时计算机判别上述三种特定标识符，以取“美丽城市”这一独立单元特定标识符为优先。

本发明所述的特定标识符，其表示语言内在规则结构的符号或文字符在计算机进行源语句与存贮语句比照及增删替换自动翻译过程中是不得改变增删和替换的。

本发明是基于语言的最基本属性—“约定俗成”和人类创建、学习、认识语言的基本过程，解决了计算机自动翻译过程中的准确性问题，克服了现有计算机自动翻译系统存在的翻译偏差问题，给人们使用计算机自动翻译带来了便利，为世界各地、各民族之间的语言沟通创造了一个良好的翻译环境。因此本发明与现有技术相比，明显地具有语言翻译准确，可大大提高翻译水平，实现的方式简单，使用方法简便，给人们的语言翻译带来方便等特点。

下面，对本发明作详细的介绍：

本发明基于语言的最基本属性—“约定俗成”，它蕴涵了人类语言的起源和发展的基本过程。如汉语中的“杯子”，我们之所以叫“杯子”，是因为很久以前，我们的祖先有人先这样称呼它，后来有人跟着这样称呼，大家都认可了，“杯子”就被称为“杯子”，而语法逻辑是语言发展到一定程度，后人经概括，总结后归纳出来的。因此，本发明指导思想在于，客观事物和各种概念在各民族和地区之间只不过用了不同的“约定俗成”的称呼和符号，这种不同的表达方式在计算机上可以用对应关系将其统一起来，就能实现机器的准确自动翻译。

本发明首先是在计算机中存贮并建立起各种语言的语言数据库，它包括字符、词符、词组符、句符、语言环境符等以及与之相对应的特定标识符。任何需要翻译的源语句，只要比照语言数据库内的存贮语句，当比较结果为真时，即源语句在数据库内搜索到一模一样的字符串时，便能通过语言环境判断限制程序的删选，对应出准确完美的目的语句。如数据库内有C域(汉语库)，D域(德语库)E域(英语库)，要将一句英语语句翻译成汉语和德语。

源语句：A very long time ago horses lived free all over the world.

(选自《伊索寓言》—(The Horse and the Stag.>)

系统首先在“E”域内进行语句字符串的比照、搜索，当比较结果为真时，即搜索到含有同样字符串的某记录x时，则将x记录中“C域”和“D域”的字符串作为翻译结果输出。

如下所示：

C域(汉语)：很久很久以前，马在世界各地自由自在地生活。

D域(Deutsch):Vor langer Zeit hatten die Pferde weltweit ganzesfreies Leben.

不难看出，这样对应输出的翻译结果确实是准确的，这是因为本发明建立的数据库不同于其它的语言数据库。—只有句子的“约定”，才会有句子的“俗成”。

本发明的语言新概念和语言规则是：

1、一个完整的句子无不都是动态时空的事物的动态变化的描述。换句话说，是动态时空的具体或抽象的某点到另一点的动态变化的描述。如：他打狗。主体→客体，动作对象。描述动作从主体这一点移向客体另一点。又如：他是英雄。某范围特性→特定范围特性，判断语句，主体不变，描述主体的特性范围从某点扩大到另一点。再如：他跑步。某一态→另一态，状态变化，主体不变，描述主体从某一状态进入跑步状态。

2、语言本身具有模糊性，我们在翻译语言时，不能言“精确”，但可尽量做到“准确”。人们通过语言环境来理解句子的准确含义。

3、标识符号、时态、从句的连词符，上下文、章节等等都是语言环境的概念范畴，在特定的语言环境内，语句的含义具有唯一性。

4、人类学习语言，识别语言，运用语言，主要的基础也就是存贮记忆，而且不仅要记忆字母、字、词、词组等，同时也要记忆句型、句予、语言环境等。如：我们学英语。尤其在国内研究语法十多年，还不如到美国生活一、二年，讲话更为流利。

因此上述语言内在规则包括“约定俗成”的属性。

本发明依据语言的内在规则为语言数据库内的词、词组、句型、句子等设计了一种能反映语言内在规则的特定标识符，从而为计算机准确、自动、高效地翻译提供了保证。

本发明将语言的表述分为实述、性述、动述、助述、句述五大类。将句子的表述概括为：动态时空事物的动态变化的描述或动态时空的具体或抽象的特点到另一点动态变化的描述。将句子结构分为〖始位〗和〖末位〗，将描述变化过程的动词及词组称为(述语)。

本发明揭示的特定标识符的设计方法，具有以下特征：

一、是由表示特定意义的符号或文字符与表示语言规则的符号组合而成。它既可以是原语言字符，也可以是其它不同于语言文字符的符号。

比如：“美丽”，我们可设计为“□-美丽{AAA}-□”

再如：“西红柿”，我们可以设计为“□-θ{JNA}-□”

(注：本发明举例过程中的所有特定标识符均是用来说明原理的原理性符号，并不表示我们实际采用的符号。)

二、不仅体现原语言字符所本身具有的特定含义，而且体现了这些字符串的属性，组词、组句方式等等语言的内在规则。换句话说，同样的词符、句符等由于处于不同的句子结构和语言环境中，能引起意义上的差异。而本发明所设计的特定标识符一旦放入其中便能体现该种差异。

例：“美丽”我们可以设计为“□-美丽{AAA}-□”

“□”框表示该标识符在组词句时可被空格，填充等，而不在乎填入的字符串的长短、成份等。“{AAA}”表示“美丽”这个词的属性是性述类中形容词分支下的视觉形容词属性，这样，“美丽”该词前后的不同组合，便引起了该词语义上的差异。比如：“美丽”与“姑娘”组合为“美丽姑娘”，其标识符便是“□-美丽{AAA}-姑娘{JNC}-□”，由于姑娘的标识符所带的“{JNC}”，表示该词是实述类中的归纳名词属性，我们可预设规则或公式来规定“{AAA}”与“{JNC}”组合后前后词的语义。在这里“美丽”便成为纯形容词概念上的“美丽”含义。另一方面，若“美丽”后面所跟的是动词或系词等，则“美丽”就可变为名词概念上的“美丽”的含义。

例2：“震”我们可以设计成〖〗(震{VAA})

例3：“打”我们可以设计成〖〗(打{VAB})〈〉“〖〗”、“()”、“〈〉”均为结构符，“〖〗”表示“始位”，“()”表示“述语”，“〈〉”表示“末位”，“{VAA}”表示“震”是动述类中动词分支下的单位动词属性，“{VAB}”表示“打”是动述类中动词分支下的两位动词属性。

三、本发明设计的特定标识符，其特征还在于将那些表示特定完整意义的，或是具有代表性的词组、句型、句子、语言环境符等都作为单元赋予特定标识符并存贮于语言数据内。

例如，本发明将“环境”赋予标识符，并存贮，又将“卫生”赋予标识符并存贮，再将“环境卫生”赋予标识符，也存贮起来。这样，“环境”、“卫生”、“环境卫生”各为单元，被存贮在语言库内。

四、本发明设计的特定标识符作为一个完整的语文单元是不可分的，但在结构形式上有时是可以分的。

例如：说“地震”，标识符可被设计成〖□-地{JNA}-□〗(震{VAA})，可被拆分为“地”的标识符“□-地{JNA}-□”和表示“震”的标识符〖〗(震{VAA})。

五、本发明设计的特定标识符，其特征还在于表示特定意义的符号或文字符及变符等在翻译过程中是可以被增删、替换的，而表示语言内在规则的符号或文字符则不得改变。

本发明在计算机内设立的自动翻译程序包括对源语句进行自动识别及赋其依语言内在规则设计特定的标识符，具体内容描述如下：

一、机器的自动识别是以已存贮的字符串和特定标识符为依据的，没有存贮，就不可能识别，也不存在自动翻译，这就是本发明一直强调的概念。

二、机器在识别并作赋符处理时，是以字符串所对应的特定标识符为基点的。

中国有句古话，叫做“失之毫里，差之千里”。这一原理在此体现得淋漓尽致。

比如下列句子：

a、科学家发现冥王星是一个创举。

a、科学家发现冥王星是一颗卫星。

这两句在字符上相差不大，但在特定标识符的角度看则相差很大，因此语义也有很大差异。

利用以上章节的叙述，我们可以赋予a、b两句不同的特定标识符，其结构差异十分明显。

三、机器的识别和赋符过程，遵循从“大”→“小”的原则顺序。

1、能在语言库内找得到的存贮单元，均不分割识别赋符。

比如有这样一个句子：

发明专利是受到法律保护的。

我们不难想像得到，在我们的语言库内肯定存在“发明”、“专利”两个单个的字符串和相应的标识符。但是，如果搜索结果同时还存在“发明专利”这个字符串和相应的标识符的话，我们就应首先将“发明专利”这一字符串作为整体来标识，而不应将其分割标识。我们上一章所叙述到的“环境卫生”，也是同样的道理。

2、先分析语言环境，再分析句型，再分析……

比如有这样一句：

如果他努力学习，就能取得好成绩。

从语言环境符“如果……就……”和标点符号“，”和“。”。我们可先确定句子的整体模型是从句型，然后以标点为标志，分段处理。

四、机器的识别和赋符，必须符和语言的内在规则。

本章第二点所举的两个例句，系统之所以能将其区分赋符，其原理就是依据了语言的内在规则。

本发明在前面叙述了判断句的概念：主体不变，描述主体的特性范围从某点扩大到另一点。由于a句中，其“末位”的主体成份“创举”是一个述名词，因此与之对应的“始位”的主体成份一般不可能是实述“冥王星”。

本发明在计算机内设定的自动翻译程序包括对源语句与存贮语句及其标识符进行比照及增删和替换。其具体内容是：

特定标识符的增删、替换，指的是需要翻译的源语句一旦被机器识别和赋符之后，机器将其标识符与语言库中已有的存贮单元进行比照，搜索出最接近的特定标识符，用源语句中的字符去替换、增删存贮语句中的相异之处。这是一个翻译阶段，主要特征遵循以下规则和顺序。

一、比照搜索出存贮语句内与待翻译语句的特定标识符的结构符相同的存贮语句。

本发明在上述章节中，对特定标识符的特征描述时提到：表示语言内在规则的图符和文字符在翻译过程中不得增删替换，基于这样一个概念，本发明在该翻译阶段的第一步，就是首先从语言环境符、句型符等一步步深入找出与待翻译语句的特定标识符中的语言环境符、句型符、组词符等具相同符号的语句。

二、在上步的基础上，再按系统予设顺序进行特定意义的符号和文字符的比照，在上步选出的语句中再进行删选。

比如：我们预设顺序是述语主成份→始位主成份→末位主成份→述语修辞符→始位修饰符→末位饱修饰符→……按这样的顺序，我们就可再次删选出一个或多个最接近源语句的句子。

三、比照标识符的相异部分，对删选出来的句子进行替换或增删，形成新的翻译语句。

本发明在计算机内设立依语言环境进行判断，以确认唯一准确的目的语句并输出的自动翻译程序。具体内容有：

语言环境的判断限制程序是针对那些源语种和目的语种间语法差异引起的，而特定标识符又无法覆盖的语言环境来设置的自动翻译程序。

比如说汉语的时态是由上下文来体现的，而英语的语法要求每句话都体现时态。这样，依据汉语为参照模式而设计成的特定标识符是无法做到句句体现时态的。该系统就利用对上文时态的比较来确定该输出哪种时态的英语语句。

另外，语言的无限性和发展性是与时空的无限性和发展性相对应的，宇宙时空是无限的，表示时空概念的语言也肯定是无限的。同时，历史的演变，社会的发展，体现在语言表述上就是不断淘汰旧的语言，产生发展新的语言。一个新的历史事件，就会产生新的语言表述概念。比如，九七年香港回归，就产生了许多新的语言表述概念，诸如：香港特别行政区、行政长官董建华，驻港部队等等、等等。

本发明对应于语言的无限性和发展性，在推出机器自动翻译系统之后，建立永久性的“语言服务局”，通过出售补充盘、网络传输等方式为用户提供永久性的“语言服务”，不断补充完善用户的翻译系统。这就是“语言服务局”的概念。

Claims

1、一种在计算机内建立有存贮数据库的计算机自动准确翻译系统，其特征在于系统包括：a，存贮数据库内存贮有字母符、字符、词符、词组符、句型符、句符、语言环境符等以及与之相对应的特定标识符，并构成相应的语言数据库。b，在计算机内设立对源语句进行自动识别及赋其依语言内在规则设定的特定标识符的自动识别及赋符程序。c，在计算机内设立对源语句与存贮语句的特定标识符进行比照后作增删替换的自动翻译程序。d，在计算机内设立依照语言环境判别出唯一准确的目的语句，并相应输出的翻译程序。

2、如权利要求1所述的计算机自动准确翻译系统，其特征在于所述的特定标识符是由表示特定意义的符号或语言文字符与表示语言内在规则的符号组合而成。

3、如权利要求1或2所述计算机自动翻译系统，其特征在于所述的特定标识符不仅体现原语言字符串本身所具有的特定含义，而且体现了这些字符串的各种属性，组词、组句方式及语言环境等语言内在规则。

4、如权利要求1或2所述的计算机自动准确翻译系统，其特征在于将那些表示相对完整意义的或具有代表性的词、词组、句型、句子、语言环境等作为独立单元赋予特定标识符并存贮于语言字典库内。

5、如权利要求4所述的计算机自动准确翻译系统，其特征在于所述独立单元特定标识符是按小单元组合成大独立单元的原则，给予设定。且大单元的特定标识符在形式上是可拆分的。

6、如权利要求5所述计算机自动准确翻译系统，其特征在于所述独立单元特定标识符在计算机内设定的自动程序按取大优先进行判别。

7、如权利要求1或2所述的计算机自动准确翻译系统，其特征在于所述特定标识符，其表示语言内在规则结构的符号或文字符在计算机内进行源语句与存贮语句比照及增删替换自动过程中不得改变，增删和替换。

8、如权利要求3所述的计算机自动准确翻译系统，其特征在于所述的字符串各种属性的分类是按实述、性述、动述、助述、句述五大类分类。

9、如权利要求8所述的计算机自动准确翻译系统，其特征在于所述的句述概括为：动态时空事物的动态变化的描述或动态时空的具体或抽象的某点到另一点的动态变化的描述。换一句话说，一个完整的句子，包涵了词、词组、句型、语言环境等语言表述信息。