CN101303692B

CN101303692B - 一种供机器语言翻译的通用数码语义库

Info

Publication number: CN101303692B
Application number: CN200810011904A
Authority: CN
Inventors: 徐文和
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-06-19
Filing date: 2008-06-19
Publication date: 2012-08-29
Anticipated expiration: 2028-06-19
Also published as: US20110238404A1; WO2009152732A1; US8655639B2; JP2011524579A; CN101303692A

Abstract

本发明提供了一种机器语言，它可以把各种自然语言依据语法规则，句法公式标准指令，对各种自然语言进行逻辑分析、判断，切分成若干个语义点，换算成为机器语言，又可以根据语种指令，把经过切分换算后机器语言，按指令换算成为指令语言，根据新的句法公式进行重新排列，以切换后的自然语言输出。它可以使各种自然语言之间进行翻译，也可以使机器做指令性操作，通过语音识别技术，利用机器强大的运算功能，有助于提高机器智化能的服务型机器。

Description

一种供机器语言翻译的通用数码语义库

技术领域：

本发明涉及各种语言机器翻译，尤其是用于机器的数码语言语义库。

背景技术：

目前语言机器翻译所使用的依据为字库(GB2312)与词库(GB1375)，词库的主要内容来源是词典，从编码程序所使用的无论音码、形码、音形码都是词典的特征。而词典，历来是为人服务的，只作参考，判断、选择学习使用，以它为基础，就需要使机器具有像人一样的思维判断能力。现有办法是设置各种技术参数，识别模块和矢量模块，由于语言是一门相当复杂的科学，专家们都说是扯不断理还乱，很难通过一些设置的语义树、实量剪枝、虚量剪枝各种参数等技术过程解决所有的问题，所以最终翻译的效果可想而知。

目前的机器智能有限，自然语言信息处理的主要目的是使机器懂得和理解人类的自然语言，也就是使机器能模拟人类的语言机制，而目前阶段寄希望机器能达到与人类一样智商是极不现实的。

目前普遍采用的技术是提取原文与词库比对切分，根据词生成语义单元表示库(树)将识别词展开进行语义分析、剪切、选择最后确定语义，称之谓基于语义翻译。下面引用申请号：200310011433.X一段原文“提取原文一句：根据语义单元表示库(树)，对该句进行

分析，从而得到该句的句义表达式，根据语义单元表示库，将该句义表达式用目的的语种(目的语种词库)的表达展开，将展开后的句子作为译文输出”(说明书第一页第二十行开始至二十三行)本段内容揭示目前所有语言翻译普遍采用的方法。

众所周知，语言是由词组成的，词是由音、形、义构成的，其中音与形是各语种特征，而义是在各语种之间通用的，只有义的存在各语种之间才能互通。如果只把义存储在机器内，任何语种只要把音与形贴上去，就成为任何语种的完整语言了。

单纯的义尽管能在各种语言之间随意互换还远不能达到翻译的目的，还要适用各语种自己的语言习惯，这就需要语种之间通过句法关系调整，而句法关系又需要每个词词性特征、语义特征、语言环境，没有这些句法关系是无法实现的。

针对上述情况，本发明提供了一种综合解决方法。

发明内容：

本发明的一个方面，提供用于机器语言翻译的数码语义库的数码，是由阿拉伯数码组成、纵向分为若干个档次，第一档为两位数，从00～99，第二档为四位数从0000～9999，它是第一档次任何一组数值扩大100倍，以此类推，每增加一档次都增两位数，具体表示如下：例第一档次中的99在第二档下分9900～9999，同样第二档次9999在第三档次下分999900～999999，如果共设九个档次，那么共含有100亿亿个数码组，也就说可设100亿亿个语义点。也可以用字母表示或符号表示，第一档AA、AB、AC……，第二档AAAA、AAAB、AAAC……，第三档AAAAAA、AAAAAB、AAAAAC……。每档次可以是1位数，也可以是三位数，位数少档次多、位数多档次少。

本发明的另一个方面，提供的一种供机器语言翻译应用数码语言语义库，语义库内的语义，没有语音标识语义，也没有字型标识语义，只有数码组供机器识别、运算，所以称为机器数码语言。以语义为识别目的的语义库，语义库内容是由若干个语义单元组成，每个语义单元只有一个语义，也就是本发明称之谓基本语义点。由于没有音码、形码，只有语义，所以本语义库内的基本语义点只要与任何一种语言的语义点相同，该语种相对应的音、形即为该语种语言。

本发明的另一个方面，提供了一种机器识别每个基本语义点的外部特征——即词性特征、背景领域的方法，本发明对每个基本语义点都配有一组数码，纵向的数码排列设立若干个档，第一档两位数，在这范围内基本语义点代表最高领域和最大词性区，每增加两位数为下一个档次，在这一范围内基本语义点是上一档次领域所属范围，其词性特征为中词性区或者小词性区，同档次内只有最后两位数之间数值差，在这一范围内所有基本语义点、语义相近、词性相同领域相同，因此彼此被称为并列关系。模向不同档次之间差别是第一位数不同，在这一范围内，所有的基本语义点词性不同领域不同，不同档次之间关系被称为交叉关系。

把所有的基本语义点按词性特征所属领域、范围、语义特征分门别类，按以上规则进行有序列排序，组成机器数码语义库，也就成为机器数码语言。

本发明的另一个方面，提供了一种供机器识别数码语义库所有的基本语义点，同一格式内，对并排配备的两种以上音、形不同的语种，机器会自动在两种以上语种间任意互换，由于基本语义点自身所显示的词性特征，所属领域，背景环境完全一致，机器按设定语法规则、句法公式指令、进行先后顺序之间交换，达到符合各语种的自身语言习惯互译。

本发明的另一个方面，提供一种供机器识别数码语义库内所有的基本语义点在数码纵向、横向档次内所标示的位置显示其词性特征，其中按语法规则、把12种词性在本库内设为大词性区，以名词为例，在名词大词性区内下分可移动物与不可移动物为中词性区，自动与它动为小词性区，自动区所属动物、植物，其中动物又分为人、禽、兽、昆虫、鱼。在动词大词性区下设及物词区与不及物词区，及物中词性区下设及可移动词区与及不可移动词区，及可移动小词性区下设被趋动词词区及驱动词词区。动词作用与名词区相关，其中名词自动词区是支配动词被趋动词词区，名词不可移动是接受被趋动词词区。副词大词性区内下分设程度、频率等中词性区，以下又分设小词性区等，其它九种以此类推。所有语义点，根据其词性与语义特征分别按以上方法一一分列，其目的使机器对所有基本语义点的词性特征、语义特征、背景特征等所有的外围关系、都有更确切了解，供机器在句法公式计算中更准确的判断与限定。

本发明的另一个方面，提供一种机器识别的数码语义库内的所有基本语义点的词性标识，在语义库内所有的词性区都分别标示不同颜色，其目的就是当个别短语无论通过句法公式识别、背景技术识别语言环境识别都相同，显示几种可能性都存在时，这几种句型同时显示出来，供输入人员识别进行二次手动干预确认。在录入各种名称时要对名称词语标示名词颜色输入。

本发明的另一个方面，提供了一种机器识别数码语义库内的基本语义点的逻辑排序规律、方法与应用关系。纵向排列档次内为从属关系，数码位数多的从属于位数少的档次，是语言环境，背景关系判断依据。同档次内数值之间差异为并列关系，所有的基本语义点各自外部特征完全一致，各自作用独立。纵向排列内所有的基本语义点所对应的数码第一位数相同，第一位数不同为另一领域，不同领域之间的语义交叉为交叉关系，这种关系设置是根据大、中、小词性区的词性特征，设定可交叉区和不可交叉区，可交叉区为交叉关系。不可交叉为对立关系，这就需要对每一个基本语义点，仔细斟酌，综合各方面因素归类排列。

本发明的另一个方面，提供了一种机器识别数码语义库内的所有基本语义点的背景关系识别方法，通过纵向第一位数、前三位、五位、七位数码相同可确定为背景关系中的语言环境，对句子形式增加一种识别方法，特别是针对词性一样，句子形式又一样的词，可以在句子的上下句中寻找同领域的背景，做优先级确定，而这只需在前一位数或者前三位、五位数相同就可以确定背景、语言环境，机器优先级选择以相同位数多确定最佳优先级。

本发明另一个方面，提供了一种供机器识别数码语义库内的所有的基本语义点，在不同句子形式上的作用，由于所有基本语义点都是根据语法规则确定词性特征，传统的词性已不能满足本发明的句法要求，只有原有的词性加以细划，才能满足新的句法，例：被趋动词词区的走、跑、到、来、去等，与名词划分中动物、处所、时间、服饰、建材等各词词区在句法结合是不一致的，其中动物名词词区是支配动词被趋动词词区的，而处所各词词区只能接受动词被趋动词词区。例副词内程度副词和频率副词，前者只能修饰形容词，后者只能与动词结合，所以确定特别是划分中小词性区特征及词性间关系，在设句法公式，判断识别语义是至关重要依据。确定背景环境是根据语义的从属关系，设立新的句法公式。因为一种句法关系可对应多种语义关系，一种语义关系也可通过多种句法关系表现。句法形式有限而语义无限，以有限的形式表达无限的内容，必然产生一对多的结果，给机器在处理句法形式设立更多的可比性选择、设置更多的唯一性选择，是提高语言翻译质量的唯一方法。

附图说明

结合下面附图，对本发明作进一步说明。

图1A、图1B、图1C是根据本发明通用数码语义库中截取的三个片断，关于词汇中的【老】字根据词性特征、词义特征进行分解、直到不可再分解为止，形成多个独立的语义，建立基本语义点的一个实例：其中图1A是动词词区、图1B为形容词词区、图1C为副词区，图中每个数码组为一个独立的基本语义点，数码下方所列，目前所示为中文，可以是任何语种相同义的音和形，也可以多种语言并列，括号所列为同义词、所有同义词只有一个基本语义点，设立一个词为优先级，【死】字为动词【老】的优先级，【很】字为程度词区【老】字的优先级，【经常】为频率词区【老】的优先级，【许久】为时态词区【老】字的优先级。在形容词区及动物词区【老】字语义为年龄，及物称词区【老】字语义为陈旧，及植物词区【老】字语义为过期。有少部分同义词、因语法作用不同、在该同义词下一档次、另行设立数码组和词性代码。

图2是根据本发明关于词的三要素，义的功能特征展示，只有义才能体现出词性特征、背景特征、句法特征，而音与形只是各种语言的外部特征。图中音A与形A和音B与形B，说明是A种语言或B种语言，它们的交换点必须是同一个义，只有保证在同一个义条件交换才能达到互通互译准确性。

图3是根据本发明数码语义库的片断，其中数码组代表基本语义点，字母代表词性区，字母少代表词性区大，字母组多代表词性区相对小，从属大词性区，图中全部为名词区，其中自动词词区范围可支配动词区的被趋动词词区范围，例：走、跑、去、到、跳、爬……，名词不可移动词区为接受动词词区被趋动词区范围，名词可移动词区接受趋动词区、例：搬、拿、运、挪、装、卸……。这就是语法规则形成的环环相扣的结果。数码组位数少代表语义领域大，数码组位数愈多代表语义领域愈小，图中每一个数码组只代表一个独立语义的基本语义点，它们领域大小，背景环境以及从属关系，并列关系都体现在数码语义库的排列组合上。

具体实施方式

本发明的重点是语义库内每一个基本点的外围特征作了多方面标示，其目的就供机器通过语法规则与句法指令，对每一个基本语义点的词性特征，特别是小词性特征，语义背景特征，在实施语言交换时能准确判断、识别，以附图1关于【老】字的运用可看出，在基本语义库内共有7个【老】字，这在常规分词的切分中，无论横向扫描、逆向扫描匹配，都只能找出7个字形完全相同的，最终无法判断是哪一个。根据本发明的句法指令，例：【他太老了】。根据句法公式，程度副词的太、非常、很都只能与形容词结合，只有形容词及动物词区的【老】(年龄)一个，其它6个都不能匹配，这就给机器根据句法指令自动识别、判断提供了一个唯一选择过程。

由于是多语种进行交换，有些与语种之间存在差异，以中英文对照，英文的动词就存在人称差异、时态差异、单、复数差异，无法与中文的直接对接交换，下面结合表1对本发明关于【写】字有关在中英文之间匹配互换具体实施方法，表中数码语义点就是我们所说的基本语义点，中文1是在实际输入中文时利用机器内句法公式与语义库，按最长匹配法在语义库内，扫描找到字符串，匹配成功后找到与其对应的中文4优先级，在同一数码语义点选择英文2交换成功。英文的优先级5内a为第一人称、b为其它人称、c为复数、d为单数，是英文的句法特征，是句子翻译中人称关系，单复数关系不可折解、必不可少的独立语义，只能一一列出，才能达到完整互换的目的。

下面结合表2与表3对本发明关于语言环境、背景选择的实施方法，作进一步说明。英文的【bank】从表3看词性特征Mfa而表4词性特征同样为Mfa，由于它们的数码语义点不是一个，其2330401为【银行】，404030203为【河岸】，从数码结构看【银行】的背景全部为233，这就是本发明所说的语言环境，因为通过句法关系，可在上下全面搜索凡是含有233的货币、财产、支票等与上下句有关的词，就可以确定是【银行】，语言背景环境起到关健作用。

由于本发明对名词、动词结合有多种限定，例：被支配与接受。【bank】为名词不可移动、处所名词词区与【河岸】一样接受趋动动词，而【银行】还要接受专用动词词区，存款、取款、转账、汇款等有关动词词区，专用词区是机器从句法公式的最优先级选择的另一个依据。

下面结合表4、表5对本发明一个句子【中国人热爱祖国】具体实施过程作进一步说明，表4为截取部分数码语义库针对每个数码语义点分别匹配中文1、英文2、词性3、中文优先级4、英文优先级5，其中中文语义码1290505内有：中国人、华人，在中文优先级4，其优先级只有中国人，语义码302060117中文内有祖国、故国，在中文优先级4中是祖国，说明即使说华人热爱故国，经优先级选择也只会是中国人热爱祖国。

表5是本发明的句法公式，它是依据语法规则；词性特征，特别是重点针对中、小词性区、不同词性在句子中的关系，设定的句法公式。从表5的句法公式看出，这是一个双向语言翻译，中译英、英译中，语义交换，语序排列，都是依靠不同的句法公式同步完成的。

发明的意义

本发明意义在于：

1、建立适合机器自动识别各种自然语言的一种机器数码语言，这种数码语言，只有语义，没有供人识别的音与形，只能供机器应用，所以称作机器语言。这种机器语言必须包括各种自然语言所有的基本语义点，对于各种自然语言的语义点，经过机器语言的自动识别，把自然语言自动换算成为机器语言，根据语种选择指令，机器又会把机器语言按指令自动换算出另一种自然语言。

2、机器语言分析各种自然语言的语义时，利用的是语法规则以及句法公式，其识别程度及准确性，都会是准确无误的，除非句法指令存在错误，或由人为造成的语义不准确。机器语言凭借数码语义具备的各种功能使机器达到像人一样思维能力分析能力以及综合判断能力。

3、机器语言，在识别每一个语义时，从词性定义分析，达到了语言专家级水平，它已经不是简单的从名、动、形、数、量、代等词性定义分析，而是从更细致语法规则、句法公式功能分析，在语言环境及各种词性的交叉运用关系处理上，对每一个语义点的外围所存在的特征，都能进行准确计算。这些特征是判断语义点语义必不可少的，只有从外围特征才能准确判断语义，因为人类的语言交流也是凭借上述条件识别语言的。

Claims

1.一种通用数码语义库供机器语言翻译的方法，其特征是：把所有词汇根据词性特征、语义特征进行分解，形成不可再分解的基本语义点，按语义特征、词性特征、背景环境、句法关系，分门别类进行有规律排序，每一种词性标注一种颜色，在基本语义点上按同义词关系配置两种以上语言，利用机器在各语种之间以基本语义点为基础实行任意互换，按语法规则、句法公式指令，在输入中文时，利用机器内句法公式与语义库，按照最长匹配法在语义库内扫描找到字符串，匹配成功后找到其对应的中文优先级，在同一数码语义点选择英文进行顺序上的交换，从而实现符合各语种的语言规律的自动对译，其中所述通用数码语义库的数码，是指数码语义库内所有基本语义点分别配置数码组，用以区别数码语义库内所有的基本语义点，纵向的数码排列设立若干个档，第一档两位数，在此范围内基本语义点代表最高领域和最大词性区，数码组每增加两位数为下一个档次，在此范围内基本语义点是上一档次领域所属范围，无论设多少档次、数码组除最后两位数不同，前面的数码一定要与被扩大的数码组相同，同一档次仅最后两位数值不同，被确定并列关系，模向不同档次之间差别是第一位数不同，在此范围内，所有的基本语义点词性不同领域不同，不同档次之间关系为交叉关系，形成机器数码语义库；所述词性特征是根据基本语义点的词性特征，是依据不同词性的语法功能、结合的性质确定的，语义特征是根据语义的从属关系、并列关系、交叉关系、对立关系的性质，根据词性与语义两方面特征，确定每一个基本语义点，在通用语义库应排列的位置；背景环境是根据基本语义点的语义属性，划分若干个领域，使所有基本语义点都按语义属性，语义的内涵与外延的范围，确立属性领域，从属关系，每一个基本语义从所属范围，确定背景环境；句法关系，是根据基本语义点所属词性区的词性，依照语法规则、编制句法公式，机器根据句法公式指令进行自动语言翻译，每一种语言都有一种语法公式，两种语言之间有相同、也有不相同的，不相同部分根据句法公式调整，经过机器进行顺序交换。

2.根据权利要求1所述的方法，其特征是：其中所述通用数码语义库的通用性，是指数码语义库内的数码组、基本语义点、词性语义分解、语义特征、词性特征、背景领域、句法关系适应任何语种。

3.根据权利要求1所述的方法，其特征是：其中所述通用数码语义库的语义，是根据词的三要素“音、形、义”之一的“义”为主体编制的，是在现有的词汇中经过分解，建立不可再分解的基本语义点，把所有的基本语义点按照语义特征所属领域、从属关系分门别类进行有规则排列，组成数码语义库。

4.根据权利要求1所述的方法，其特征是：其中所述在基本语义点上按同义词关系配置两种以上语言，是根据每一个语义，其基本语义点只有一个，词并不一定是一个，所有同义词只有一个基本语义点，所对应语种也是同一语义的所有同义词。