CN1575467A

CN1575467A - 不受语言和方法限制的计算机化编码器－解码器

Info

Publication number: CN1575467A
Application number: CNA028209699A
Authority: CN
Inventors: 古斯塔沃·波蒂利亚
Original assignee: Digital Esperanto Inc
Current assignee: Digital Esperanto Inc
Priority date: 2001-10-22
Filing date: 2002-03-28
Publication date: 2005-02-02
Also published as: RU2004115749A; WO2003036522A1; US20020052748A1; CA2503329A1; KR20040047939A; JP2005506635A; EP1449118A1; MXPA04003792A; BR0213667A

Abstract

本发明公开了一种计算机化系统，该计算机化系统利用与多种其他语言内的单词和符号有关的唯一语义(101)的索引数据库，编码(606)源语言内的有限数量的单词和符号。编码单词的位置与以单词或符号的类别序列为特征的每种语言内的有限数量文法结构对应。源语言端的用户(301)控制翻译方法，而且允许用户或者要求用户消除歧义性通信。

Description

不受语言和方法限制的计算机化编码器-解码器

技术领域

本发明涉及一种不存在多义性的根据用户的优先词汇编码信息并解码所述信息的系统。

相关申请

本申请是1999年7月9日提交的第09/351,208号未决(复审中)的美国专利申请的继续部分，在此引用该专利申请的内容供参考。

信息以发送该信息的个人选择的方式保持或者传送给其他人。每个人都有发送信息的特征方式，无论该信息基于他或她观察的事件的还是其自己产生的想法。通常，说同一种语言的人们对于发送和接收信息可以进行有效的通信。

本发明利用计算机化系统整理并加密信息，该计算机化系统包括具有无歧义语义和文法结构的索引数据库。对编码信息的解码可以选择性地得到同一种源语言或其他语言，无论该信息是语句、短语还是仅是子句。在这两种情况下，提高了传输和/或存储信息的效率，而需要较窄带宽和/或较小存储量。

过去已经对解决编码信息的问题做了许多尝试，这些尝试是对编码信息进行压缩以实现需要较窄带宽的更有效传输。然而，这些方法通常局限于仅使用一种语言。这些尝试的局限性是所使用的语言固有的，而且这些尝试均包括歧义性。这些歧义性影响了翻译过程和在另一端接收的结果。由于受具有歧义性的可用信息的限制，现有技术的翻译过程很僵硬。

本发明承认每种语言均具有有限数量的语义(主要是单词，但是其他符号也存在这种情况)。此外，众所周知，单词常常不只具有一个语义。而且，每种语言具有有限数量的可接受文法结构，以便在它们之间建立并行或等效结构的连接。本发明使用每种语言中的交叉参考语义，消除歧义性的机构支持该交叉参考语义，而且该交叉参考语义与源语言中使用的而且与接收语言中的文法结构相关的文法结构的规范结合在一起。本发明还允许用户指定给定的语言作为他或她的优选语言。

在该发明中，通过利用对其他编码语言的非对称特性产生中间独立代码(或申请人称为数字世界语(Digital Esperanto)的通用语言)来编码和解码信息。利用每种其他语言的语义和文法结构，中间代码在其每个语义与文法结构之间具有连接。

位于接收端的用户还可以修改该系统以满足他/她的需要或偏爱。因此，用户可以从语义表中选择特定等效语义，以满足他/她的偏爱。在特定地区内，利用特定单词对给定语言中的特定语义的理解比利用在正式文体中适于该语言的其他单词对该语义的理解更好。即，词汇可能位于专业技术层面的，而且复杂想法或语义被编码。

背景技术

本申请人认为最接近的参考文献是授予Asahioca等人的第5,075,850号美国专利和授予Ikuta等人的第5,852,798号美国专利。

Asahioka的专利公开的技术涉及使用“检索标志”，并通过推测在最近的语句中该单词的翻译是“优选的”来获得很高的推断程度。第5列，第8-9行。此外，存在辨别单词的多个语义的问题。然而，本发明不使用该专利公开的技术。该专利技术是有根据的推测(educated guess)，有根据的推测是通过为最近语句中使用的语义赋予优先级来选择具有多个语义的单词。

本发明则精确得多，而且本发明基于使用不同语言、信息单元(包括但并不局限于单词)、信息单元的类别以及结构排列的索引数据库。在此要求保护的本发明以每种语言存在有限数量的这些单元、类别以及排列的这个事实为中心，而且与其他语言建立交叉参考。此外，尽管在一种语言中单词的写法看起来可能是相同的，但是它可以具有不同的语义，因此将它们看作信息单元，而不看作单词。在语句结构排列中的特定位置或者对于给定的类别，这些信息单元常常具有一个语义。

引用的参考文献没有建议使用索引结构排列或交叉参考不同语言中的这些排列。实际上，本专利申请的发明人创建了一种基于对信息单元进行更基本处理的数字世界语(通用语言)，而不考虑如何书写或表示它们。

Ikuta等人未对语法问题以及使用具有多个语义的单词的不确定性提供解决方案。然而，Ikuta等人的发明内容仅概括陈述了取得专利的翻译设备和机器翻译方法的好处。没有认识到在每种语言中可以有有限数量的单元、类别和结构。也没有公开为了避免所有语言中固有的多个语义的不确定性或语法问题，而根据这些单元在结构中位置来匹配这些单元。

即使把归功于Asahioka的变型附加到Ikuta的公开中，所获得的设备仍不能解决语法问题中具有多个语义的单元的不确定性问题。为了“近似”选择对具有多个语义的单元的最正确的翻译，Asahioka使用的机制取决于正在翻译的信息的上面紧接着的内容。本发明脱离了该限制。它不采用Asahioka公开的具有固有不确定性的“检索标志”机制。

描述最接近主题的其他专利提供了许多或多或少更复杂的特性，它们不能以高效经济的方式解决该问题。这些专利均未提出本发明的创新特征。

发明内容

本发明的一个主要目的是提供一种将事件或想法表示为表示唯一语义单元的信息的系统，利用该系统，语义单元不受语言限制，而且不同语言的用户可以使用它。

本发明的另一个目的是提供一种不存在歧义性而且使用源语言的用户对其进行控制以避免歧义性的系统。

本发明的又一个目的是提供一种允许不同语言的用户将他们的单词和符号变换为不同语言可以使用的中间语义单元的系统。

本发明的又一个目的是提供一种特定的、在捕获源语言中的信息时不存在歧义性的系统，该结果代码没有语言限制，而且在解码时，它是灵活的，足以容许接收语言的用户的偏爱，而不丢失所表示信息的语义。

本发明的另一个目的是提供一种利用互相独立的过程编码和解码信息单元(单词和符号)并提供局限于输入没有歧义性的信息单元、短语和句子、与源语言的用户进行交互的机制的非对称系统。

本发明的另一个目的是提供一种用于统一编码和解码准确表示源用户的想法的信息的灵活的非对称系统。

本发明的又一个目的是提供一种实现和维护不昂贵、同时保留了其有效性的系统。

根据该说明书下面的内容，可以明白本发明的其他目的，其中所做的详细描述是为了全面公开本发明，对本发明没有限制意义。

附图说明

鉴于上述以及其他有关目的，本发明要点在于详细结构和各部分的组合，在结合附图阅读下面的描述时，根据下面的描述，可以更全面理解本发明，附图包括：

图1示出分别具有至少一个有关信息单元(单词或符号)和每个语义单元的描述的索引语义单元数据库。索引语义单元构成具有有限数量语义单元的数据库的字段之一。对对应于诸如同义词和描述信息列表的有限数量信息单元的每种语言分配附加字段对。

图2示出对于具有每种文法结构的唯一序列的每种语言的索引文法结构的数据库。在一个字段内对索引文法结构单元进行分组，而且每个单元对应于对其分配了相应字段的不同语言内的其他单元。

图3示出选择性地对用户利用源语言提供的信息进行编码或对先前编码的文本进行解码的软件和方法。

图4示出根据其文法结构，对用户利用源语言提供的信息进行编码的软件和方法。该图示出图3中编号为308的步骤的详细方法。

图5示出之后根据其文法结构，对先前整理的信息进行解码的方法。该图示出图3中编号为314的步骤的详细方法。

图6示出之后根据其文法结构，对先前整理的短语和语句进行编码的方法。该图示出图4中编号为413和415的步骤的详细方法。

图7示出之后根据其文法结构，对先前整理的短语和语句进行解码的方法。该图示出图5中编号为514和516的步骤的详细方法。

图8示出之后根据其文法结构，对先前整理的文本内的单词进行编码的方法。该图示出图4中编号为410的步骤的详细方法。

图9示出之后根据用于解释给定代码的语义的用户优选词汇，对先前整理的文本进行解码的方法。该图示出图5中编号为511的步骤的详细方法。

具体实施方式

为了描述本发明，将参考其中方框示出软件和方法步骤的附图，图1和图2分别示出表示索引语义单元和文法结构的表。图1所示的语义单元广泛覆盖了任何信息单元，例如，单词、符号、图像、具有人类语义的表示或其他内容。又以成分类别，即，动词、形容词等的方式分组语义单元。利用代码的扩展名或者利用存储它们的位置表示这些类别。

图2示出其中以人类可以识别的给定语言列出文法结构字段201内的有限数量描述的数据库。字段202对应于文法结构中每种文法结构的成分类别序列或在字段201的每个描述中描述的文法结构单元。字段203保持文法结构中每种文法结构的唯一代码。字段203中的代码对应于分别包括在字段201和字段202内的描述和序列。

图3示出之后对以他/她的源语言、通常利用输入到具有软件的计算机系统内的正文串且由用户提供的或送到用户的信息选择性地进行编码或解码的一般算法，该计算机系统将在以下描述并要求保护。

我们从给定语言中仅有有限数量的单词和符号的概念开始。而且有有限数量的语义单元。在图1中，可以看到，名词“房屋(house)”对应于第02348号索引，而且它与用作住房的结构有关。同义词“住房(dwelling)”和“住处(home)”提供同样的信息，因此它们对应于同样的第02348号语义单元。包括这3个单词之任一的短语或语句将产生同样的语义单元。如果我们增加其他语言，则可以将它们看作对应于同一个信息单元而且至少具有一个或者多个单词或符号的层次的第三维，如图1中所最佳示出。然而，可以将同一个单词“house”用作动词，而且对于该不同语义，它具有不同的同义词。

第10159号语义单元对应于作为具有不同语义的动词的字段102内的同义词(住(house))。因此，如果作为文本输入，则单词“住”将被赋予不同的语义单元索引。

在图3中，示出了用于处理文本的算法。不同的附图示出如下所述的用于实现不同功能的软件程序。它还可以用于接收符号或较大的信息声音片段、整首歌曲等。为了简洁起见，在该说明书中，我们将限制在对语义单元交叉参考的文本单词上。图3所示的一般算法示出如何处理文法结构以便进行整理或者进行解整理(decodified)。下面的附图示出了其他子进程，而且以下说明其他子进程。

在输入组件301中，用户输入给定源语言的文本。文本由至少一个文法结构单元构成。文法结构单元可以包括整个语句或短语或者至少一个子句。文法结构单元可以由诸如一个或者多个子句或短语的子单元构成。诸如逗号、句号和连接号的标点符号用于检测文法结构单元的开始和结束。用户还需要对用户界面软件302输入命令，以请求进行编码或解码操作。软件303检测用户的请求，并初始化相关表以开始操作。对于编码分支，在软件304中输入文本，然后，在软件305将该文本拆分为可以是整个句子、短语或一组类别的顺序文法结构单元。软件306确定用户提供的文本中存在的文法结构单元的数量，然后，利用软件307开始对它们进行计数。

然后，软件308表示用于解码文法结构单元的子进程，而且图4详细示出该子进程。在此，根据图2所示的源语言索引文法结构的表，整理该文法结构单元。软件309检验最后一个单元，如果它不是最后一个单元，则对下一个单元再一次执行软件309的进程。如果最后一个单元被处理，则将结果，即整理的文法结构单元序列送到软件316，以便进一步处理该编码文本。

相反，如果在301输入整理的序列，而且用户请求编码选项，则该序列进入软件310，在软件310中，识别标点符号标记或其他标记。然后，在软件312中拆分不同的整理的文法结构单元并对它们进行计数时，软件311对它进行处理。然后，将整理的序列和有关信息送到计数器软件310，以对被处理的每个单元进行计数。然后，利用图5详细示出的软件314解整理整理的单元，以下将作进一步说明。然后，将解码的文法结构单元通过接收用户的输出组件送到软件316，进一步进行处理。

正如在图4中看到的那样，图4示出图3所示软件308的详细图解表示，该方法从403开始，在403，输入要整理的第一文法结构单元的文本。输入第一单元作为短语或子句的可能序列，除非该单元是一个完整语句。软件404将文法结构单元拆分为相应子单元：短语或子句。如果存在，则软件405对该单元的短语和/或子句数量进行计数，并将子单元的初始计数器设置为“0”。一旦文本输入到软件406中，则子单元计数器递增1，然后，软件407将不同文法结构子单元拆分为不同语义单元(对应于优选实施例中的文本单词)。软件408对每个子单元内的单词数量进行计数。

图5示出解码方法，其中方框501示出用于输入编码文本并连接到用户界面软件502的输入组件，用户界面软件502用于输入该软件所需的函数，在这种情况下是进行解码所需的函数。

在软件503输入要解码的第一编码短语，然后，利用软件504对文法结构的类别进行解码，从而对该子单元提供特定序列，即，构成它的语句、(各)短语或子句。软件505对保持由索引文法结构的数据库控制的特定排列的每个单元/短语的子单元进行拆分。将子单元计数器初始化为0，然后，由软件506确定给定文法结构单元的子单元的数量。子单元计数器507被递增1。然后，将每个子单元的编码文本拆分为单独编码单词，将单词计数器软件509初始化为0，并确定被处理的子单元的单词总量。软件510使该单词计数器递增1。然后，软件511对被处理的单词进行解码，图9更详细示出软件511，而且以下将对它进行说明。方框512示出用于提取单词的类别(即，动词、形容词等)的软件。在优选实施例中，可以利用该单词(或语义单元)的其他附加代码标记该信息，或者可以容易地从其分组代码中确定该信息。

软件513确定它是否是最后一个单词。如果不是，则从软件510开始处理下一个单词。如果是最后一个单词，则解码该子单元，并软件514在在适当位置正确插入解码的单词序列，正如图7详细示出，而且以下将做进一步说明。软件515确定它是否是被解码的文法结构单元的最后一个子单元。如果它不是最后一个子单元，则从方框507开始处理下一个子单元。如果它是最后一个子单元，则将整个文法结构单元的结果送到软件516，并被软件516组装。将它从软件516送到输出软件517，进一步进行处理、

在图6中，示出用于编码图4中的方框413所示的文法结构单元的子单元的方法。该方法从软件605开始，在软件605中，接收编码子单元或单词的序列。软件606分析语义类别序列。由单词序列获得给定子单元的代码。由子单元的序列组合获得单元的代码(短语或语句)。然后，将结果送到软件609进行组装，之后，送到输出软件610进一步进行处理。

图7示出图5中的方框514所示的用于解码文法结构单元的方法流程和软件算法。软件704接收编码的文法结构单元进行解码，然后，将它送到软件708。将单元代码与图2所示的文法结构的索引数据库进行比较，然后，返回相应的子单元或语言成分(单词)序列。软件709组装解码的结果，然后由输出软件710进行处理。

如上所述，而且正如图4中的方框410所示的那样，图8示出单词的编码方法。软件805接收文本单词，然后，将它送到比较软件806，比较软件806访问图1所示的索引数据库。软件807确定该单词是否具有唯一语义，而且是否对应一个而且仅对应一个语义单元。如果是，则软件812选择语义单元的代码，并将它转发到软件815进行组装，然后由输出软件816进行处理。如果该单词不具有唯一语义，则存在需要解决的歧义性，然后，启动软件808，在软件808中，用户有机会判定该单词是否与特定语义单元对应。如果不对应，则对用户显示另一个语义单元，用户又有机会选择该语义单元，或者检验下一个语义单元。通过利用显示器读出字段102内的同义词和字段101内关于语义单元的描述，用户优先识别语义单元。控制编码过程的原始用户利用其实现消除任何可能歧义性的机制有许多种方式。这样使得解码操作没有歧义性。

图9示出图5中的方框511所示的解码方法，其中软件903接收编码单词，然后，将它转发到软件908，软件908从图1所示的索引数据库中提取唯一语义单元。根据他/她的偏爱或民族用法，用户可以修改其语义单元的数据库，以便特定语义单元输出特定同义词，而不是其他同义词。这样，在解码编码单词时使用优选单词。然后，将解码的单词送到组装软件910，然后，输出软件912对它进行处理。

还应该注意，存在要求两个单词表示特定语义的语言，而在其他语言中一个单词就够了。例如，在英语中，必须使用两个单词说“stoppedraining”，而在西班牙语中仅说“escampó”。同样，英语中存在单词“injunction”，而在西班牙语中需要不只一个单词“orden deprohibición”。但是，显然，信息单元仅表示一个语义。

工业应用

从上述该段落可以明白，用于编码和解码单词和符号的改进型计算机化系统和方法可以如所需地将一种语言无歧义地准确翻译为一种或者多种语言。此外，即使不翻译为不同语言，进行编码也可以实现以更有效方式存储信息，对于后续重构过程要求使用最少的存储和/或带宽。

Claims

1.一种用于编码单词和符号的计算机化系统，该计算机化系统包括：

A)计算机装置，其具有有关存储装置；

B)第一索引数据库，其具有：第一字段，含有多个唯一语义单元的代码；单词或符号的第二字段，该单词或符号语义上对应于每个所述唯一语义单元，而且进一步包括用于将所述语义单元分类到预定数量的类别之一的装置，所述第一索引数据库常驻在所述存储装置内；

C)输入装置，其用于将单词和符号输入到所述计算机装置中；

D)编码软件装置，其用于选择通过所述输入装置输入的每个单词或符号的所述语义单元之一，所述编码软件装置包括用于确定输入的单词或符号是否使唯一语义单元有效，而且如果所述单词或符号确实仅具有一个语义单元，则产生结果代码的装置；而且所述编码软件装置进一步包括如果输入的所述单词或符号使不止一个语义单元有效，则显示选择的语义单元的装置；而且所述编码软件装置进一步包括用户利用其从有效的语义单元的所述显示选择中检测一个语义单元，以产生结果语义代码的装置；以及

E)输出装置，其用于存储所述结果语义代码。

2.根据权利要求1所述的计算机化系统，其中所述第一索引数据库包括多个第二字段，每个第二字段与一种语言有关，该语言至少具有一个其语义与每个所述语义单元对应的单词或符号。

3.根据权利要求2所述的计算机化系统，该计算机化系统进一步包括：

F)第二索引数据库，其具有含有多个文法结构单元的代码的第三字段和多个第四字段，每个第四字段均包括语言中的预定数量的文法结构单元，每个所述第四字段内的每个所述文法结构单元仅与其他第四字段内的第二文法结构单元之一相关，根据每个所述文法结构单元内存在的所述语义单元的类别序列，对所述文法结构单元进行分类；

G)用于识别所述结果语义代码的类别序列，并且使隐藏在所述语义代码内的所述类别序列与所述文法结构单元之一相关，然后产生结果文法结构代码的装置；以及

H)输出装置，其用于存储所述结果文法结构代码。

4.根据权利要求1所述的计算机化系统，该计算机化系统进一步包括：

I)解码软件装置，其用于选择所述结果语义代码之一，并将每个所述结果语义代码交叉参考至唯一单词或符号；以及

J)输出装置，其用于存储所述单词或符号。

5.根据权利要求4所述的计算机化系统，其中所述第一索引数据库包括多个第二字段，每个第二字段与一种语言有关，该语言至少具有一个其语义与每个所述语义单元对应的单词或符号。

6.根据权利要求5所述的计算机化系统，该计算机化系统进一步包括：

F)第二索引数据库，其具有多个第三字段，每个第三字段均包括语言中预定数量的文法结构单元，第三字段内的每个所述文法结构单元仅与其他第三字段内的所述文法结构单元之一相关，根据每个所述文法结构单元内存在的所述语义单元的类别序列，对所述文法结构单元进行分类；

G)用于识别所述结果语义代码的类别序列，使隐藏在所述语义代码内的所述类别序列与所述文法结构单元之一相关，然后产生结果文法结构代码的装置；以及

I)输出装置，其用于存储所述结果文法结构代码；

K)用于利用结果语义单元的唯一类别序列识别所述结果文法结构单元代码的装置；

L)用于以结果语义单元的所述唯一类别序列之一组装所述唯一单词或符号的装置；以及

M)输出装置，其用于存储所述唯一单词或符号序列。

7.一种用于编码单词和符号的方法，该方法包括步骤：

A)在第一索引数据库的第一字段内排列多个唯一语义单元；

B)在所述第一索引数据库的第二字段内排列相应的多个单词或字符；

C)将所述语义单元分组为多个类别之一；

D)将单词或符号输入到计算机化系统内，对输入的每个所述单词或符号选择语义单元；

E)确定每个所述单词或符号是否使一个唯一语义单元有效；

F)为输入的具有不止一个唯一语义单元的单词或符号确定所有唯一语义单元，而且使所述唯一语义单元中的一个有效；

G)选择有效的单词或符号的唯一语义单元，以产生结果代码；以及

H)存储所述结果语义代码。

8.根据权利要求7所述的方法，该方法进一步包括步骤：

I)排列预定数量的第二字段，每种语言一个第二字段，而且每个第二字段至少具有一个在语义上对应于每个所述语义单元的单词或符号。

9.根据权利要求7所述的方法，该方法进一步包括步骤：

J)在第二索引数据库的预定数量的第三字段中的每个第三字段内排列多个文法结构单元，而且所述文法结构单元的特征在于具有语义单元的唯一类别序列，每个第三字段与不同的语言有关，而且每个所述第三字段内的每个所述文法结构单元参考其他第三字段内的其他单元，而且共同利用文法结构单元代码进行识别；

K)识别所述结果语义代码的类别序列，使所述序列与所述第三字段内的所述文法结构单元之一相关；以及

L)存储所述结果文法代码。

10.根据权利要求7所述的方法，该方法进一步包括步骤：

M)将所述结果代码输入到计算机化系统内；

N)选择每个所述结果代码并把每个所述结果代码交叉参考至唯一单词或符号；以及

O)存储所述单词或符号。

11.根据权利要求10所述的方法，该方法进一步包括步骤：

P)排列预定数量的第二字段，每种语言一个第二字段，而且每个第二字段至少具有一个在语义上对应于每个所述语义单元的单词或符号。

12.根据权利要求11所述的方法，该方法进一步包括步骤：

K)识别所述结果语义代码的类别序列，使所述序列与所述第三字段内的所述文法结构单元之一相关；

L)存储所述结果文法代码；

Q)利用结果语义单元的唯一类别序列，识别所述结果文法结构单元代码；

R)将所述唯一单词或符号组装为结果语义单元的所述唯一类别序列之一；以及

S)存储所述序列的唯一单词或符号。