CN1415097A - 用于创建通用语言的表达的系统和记录其使用的转换规则的记录介质 - Google Patents
用于创建通用语言的表达的系统和记录其使用的转换规则的记录介质 Download PDFInfo
- Publication number
- CN1415097A CN1415097A CN00817888A CN00817888A CN1415097A CN 1415097 A CN1415097 A CN 1415097A CN 00817888 A CN00817888 A CN 00817888A CN 00817888 A CN00817888 A CN 00817888A CN 1415097 A CN1415097 A CN 1415097A
- Authority
- CN
- China
- Prior art keywords
- language
- general purpose
- general
- natural language
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
用户可以用来以各种语言通信的一种系统。翻译部分(300)参考通用语言字典(200)将构建给定自然语言表达的构成元素,翻译成对应与该构成元素的通用语言元素并输入该通用语言字典(200)。所翻译成的通用语言元素按照该顺序、翻译规则(220)和关于该二元关系的表达的规则进行连接,从而创建以二元关系表达的通用语言的表达。
Description
技术领域
本发明涉及一种用于克服在翻译、解释等中的语言困难,适用于信息交换和/或信息存储的技术。更具体地说,本发明涉及一种适于在计算机、网络等中执行的信息交换和信息存储的语言转换技术,并且能够应用于机器翻译、机器解释等方面。
背景技术
在今天的因特网时代,人们的活动已经遍布全球。在国际活动中,通信(communications)是最重要的。因而,语言上的差异是个重要的事。然而,目前并不存在完美的全球通用语言。即使被广泛使用的英语也不可能是全球通用语言。事实上,人们属于各种语言区,并且他们中的每个都需要通过使用他/她自己的语言通信。
当前,为了获得在不同语言之间的通信,需要在这些语言之间进行翻译。在某些情形中,必需在两种语言之间存在能够从这两种语言中翻译出的另一语言。翻译一般依靠人力。或者,已经为一些语言开发了翻译软件,并且也可以为其执行机器翻译。
事实上,常规翻译软件分析以一定语言撰写的句子的结构和意思。接着,根据其语法使用要翻译成的单词重新编写所述句子的元素。由此,显然难以实现完美的翻译。即使在两种非常类似的语言之间的翻译也难以实现100%准确。
在考虑到人类所使用的语言的前提下,人类在各种场合中、各种条件下创建用语言表达的信息,诸如报告、论文、文学以及娱乐等。以语言书写的信息一般地以诸如印刷形式、数字数据形式等形式、以该信息原始撰写的语言来分别加以存储。可以将所述信息翻译成为不同的语言,还可以翻译成的形式存储。由此,具有相同内容的信息可以以不同的语言来存储。在网络时代不能认为这是有效率的。尤其是,当该内容改变时,不仅需要改变原始文件,而且所改变的部分还必须以所翻译的文本加以翻译。因而,就文件管理而言这也不是有效的方法。
一般地,在许多情形中,不会将以一种语言所原始撰写的信息翻译为不同的语言。尤其是很少翻译成多种语言。由此,在使用不同语言的人之间的信息交换自然受到限制。
在此条件下,需要开发能够容易和精确地使用各种语言以小的成本在人们之间实现通信的一种系统。另外,需要积累独立于特定语言的信息,并且根据需要将该信息转换成所期望的语言。
发明内容
本发明的目的之一是提供一种创建通用语言的表达的系统,由此能够容易和精确地使用各种语言以小的成本在各种语言之间实现通信。本发明的另一目的之一是提供用于记录为其使用的重写规则的记录介质。
为了实现所述目的,根据本发明的第一方面,提供一种能够由计算机来处理的创建通用语言的表达的系统,能够基于它转换到其它语言,包括:转换规则部分,用于对应于至少一种自然语言来存储重写规则,将参考该规则把自然语言的表达转换到通用语言的表达;以及转换处理部分,用于通过参考存储在转换规则部分中的重写规则将给定自然语言的表达转换为通用语言的表达。其中所述转换规则部分具有:作为重写规则的通用语言字典,用于通过构建通用语言的通用语言元素来定义构建自然语言的自然语言元素,它对应于每个自然语言元素具有的信息;以及重写规则,用于规定在根据以自然语言构建的句子安排的通用语言元素之间的连接关系,并且用于以包括两个通用单词的二元关系和指示它们具有一定关系的关系来表达所述连接关系。并且其所述转换处理部分执行用于将构建以给定自然语言表达的自然语言表达的组元,重写为对应于参考通用语言字典使用通用语言字典的通用语言元素的处理、以及用于通过根据在通用语言元素中的次序应用所述重写规则来连接多个重写的通用语言元素的处理、以及用于创建使用根据在二元关系中的表达规则以二元关系表达的通用语言的表达。
根据本发明的第二方面,提供用于记录与至少一种自然语言兼容的重写规则的记录介质,所述重写规则能够由计算机来处理,在使用自然语言的表达和使用通用语言的表达之间相互转换时参考,所述重写规则具有:通用语言字典,用于通过构建通用语言的通用语言元素来定义构建自然语言的自然语言元素,它对应于每个自然语言元素具有的信息;以及重写规则,用于规定在根据在自然语言构建的句子中安排的通用语言元素之间的连接关系,并且用于以包括两个通用单词的二元关系和指示它们具有一定关系的关系来表达所述连接关系。
附图说明
图1是示出在本发明中使用的硬件系统的结构的一例子的方框图;
图2是根据本发明用于创建通用语言的表达的系统的功能结构的方框图;
图3是示意地示出在本发明中使用的通用语言字典的结构的例子的解释图;
图4是示意地示出在本发明中使用的重写规则的结构的例子的解释图;
实施本发明的最优模式
下面将参考附图描述本发明的实施例。将通过使用以英语作为自然语言的表达和基于此创建通用语言的表达的情形作为一例子来描述本发明。当然,可以基于各种语言创建通用语言的表达。
根据本发明,要用作创建表达的通用语言是一种能够基本上由计算机处理,并且还适用于经由网络通信的语言。由此,如果其能够由计算机处理,通用语言的符号可以是诸如数字就足够了。然而,它可以是以人们可理解的方式来表达。例如,通用语言中的代码能够等同于特定自然语言中的符号。在本实施例中,使用在通用语言中的符号是基于英语的例子。这是因为英语是广泛使用的语言并且被广泛用作计算机语言的符号。当然,通用语言的符号可以基于非英语语言。或者,它可以是其本身能够被人类理解的人造语言中的符号。
图1示出能够用于根据本发明构建通用语言的表达系统的硬件系统的结构的例子。图1示出的是一般的计算机系统。即,图1所示的硬件系统具有:操作设备10、带有键盘21和鼠标22的输入设备20、带有显示设备31和打印机32的输出设备30,包括硬盘等的存储器设备40、以及用于连接网络的通信控制设备50。其中,输入设备20和输出设备30都是一般术语。因而,例如输出设备30不一定是带有显示设备31和打印机32的设备。
操作设备10具有中央处理单元(CPU)11、只读存储器(ROM)12和随机存取存储器(RAM)13。CPU11将应用软件程序装载到RAM13中,并且在存储器设备40中执行相同的安装,以执行不同类型的应用软件的处理。应用软件程序之一是用于执行创建在本实施例中使用的通用语言中的表达的处理的一种程序。该程序是由诸如CD-ROM(只读光盘存储器)和软磁盘的记录介质提供的。另外,该程序可以通过在网络上等从提供程序的服务器上下载来获得。在两种情形中,它都被转换成可执行形式并且存储在根据本实施例的存储器设备40中。
另外,根据本实施例,重写规则是用于在自然语言和通用语言之间的转换。像上述程序,该重写规则可以记录在记录介质上的形式来提供。或者可以在网络上获得它们。接着,该重写规则存储于存储器设备40中。
图2示出了本实施例的功能结构。如图2所示,该结构包括:转换准备处理部分100,用于准备作为通用语言表达的基础的自然语言表达的数据;转换规则部分200,用于存储要参考用于将自然语言的表达转换为通用语言的表达的重写规则,以兼容至少一种自然语言;转换处理部分300,用于通过参考存储在所述转换规则部分200中的重写规则,来执行将由所述转换准备处理部分100给定的自然语言的表达转换为通用语言的表达的转换处理;存储处理部分400,用于执行在存储器设备40中存储所创建的通用语言的表达的处理;以及输出处理部分500,用于执行在创建处理的处理中和创建处理之后输出表达的处理。
转换准备处理部分100执行用于参考转换处理部分300采集自然语言表达的数据的处理。该采集处理可以包括下列步骤,例如:它可以是用于接收代表自然语言表达的字符串数据的输入的处理,所述数据是经由键盘21输入的。另外,它可以是用于从存储器设备40中读取在存储器设备40中保存的代表以自然语言表达的字符串数据的处理。还有,它可以是用于采集经由通信控制设备50接收的字符串数据的处理。
转换规则部分200具有:通用语言字典210,对应于每个自然语言元素具有的信息块,用于以构建通用语言的通用语言元素来定义构建自然语言的自然语言元素;以及重写规则220,用于定义在根据以自然语言构建的句子排列的通用语言元素之间的连接关系,并且用于以包括两种通用语言的二元关系和指示它们具有特定关系的关系来撰写连接关系。它们两个都存储在存储器设备40。其中,所述通用语言字典210和所述重写规则220在本实施例中是分别进行处理的。然而,本发明不限于此。例如,所述通用语言字典210和所述重写规则220能够作为一个重写规则集中处理而不进行区分。或者,能够进一步细分所述通用语言字典210和所述重写规则220中的每一个。
通用语言字典210包括以在通用语言中使用的对应自然语言组元的符号所撰写的通用语言元素的集合。作为通用语言元素,至少写为定义由自然语言的对应组元指示的意思的信息和定义自然语言的对应组元的评定(evaluation)的信息之一。每个通用语言元素提供有指示通用语言元素对应其自然语言的句子元素的句子元素符号。
图3示意地示出了通用语言字典的结构的例子。当然,在图3所示的例子中仅示出部分的字典元素。在图3中所示的例子中的通用语言字典包括诸如‘a(“.@indef”),DET’以及‘man(“person”),N’等的描述。即,所述描述是采用X(“Y”),Z的形式。其中,自然语言的元素,即在本实施例中的英语元素被写为X。在上述例子中,‘a’和‘man’对应于此。多数自然语言的元素是单词。
例如,具有相同的拼写但有不同意思的元素被分别定义。另外,不规则动词的原形、过去式和过去分词被处理为独立的元素。其中这里所描述的元素不限于独立的单词。例如,诸如词干和词尾也可以被分别地加以处理。在此情形中,将它们添加到每个元素上作为指示其特性的信息。例如,指示时态的信息、或指示复数形式的信息等被添加于此。将规则动词的词干和词尾分开并且分别定义为独立的元素。图3所示的‘ask’和‘ed’对应于所述词干和词尾。还有,将‘ed’添加到名词的末端引起该名词作为形容词来使用。在此情形中,它被定义为具有不同于在动词末端词尾的特性的词尾。
对于Y,至少写为定义通过自然语言的对应组元而指示的意思的信息和定义自然语言的对应组的评定的信息之一。
定义意思的信息对应于在上述例子中的‘person’。当然,定义意思的信息不限于名词,还可以是动词或形容词。
定义评定的信息对应于在上述例子中的‘.@indef’。即,它将名词的特性定义为不定冠词、并且能够是定义意思的信息。根据本发明,将它们称为属性符(attributer)。
指示诸如时态、意图、原因和事件的各种特性的信息能够被写为定义意思的信息。另外,取决于目标的条件,通过例如将它们用逗号等分开能够将各种信息写在一起。例如,在图3中所示的英语单词‘question(问题)’是以二元关系定义的。即,它被写为问题(“question(icl>thing)”)。该定义英语的‘question’被写为通用语言的‘question’。还有,它定义通用语言的‘question’具有‘(icl>thing)’的特性。所述‘(icl>thing)’是与概念有关的符号,并且‘question’被定义为包括在‘thing’概念中。其中,‘thing’指示通用语言的事情的概念。
对于Y,通过例如使用逗号将它们分开,能够将定义意思的信息和定义评定的信息写在一起。
句子元素符号被写为Z。它对应上述例子中的‘DET’或‘N’。该句子元素符号对应于指示例如自然语言的名词的信息。例如,‘DET’是意思为确定符的符号,并且指示它是确定诸如冠词的目标名词的特性的句子元素。‘N’是指示它是意思是名词的句子元素的符号。‘VTSTM’和‘ENDING’是分别指示过渡动词的词干和词尾元素的符号。
重写规则220规定根据如图4所示的由编号1至10指示的自然语言的句子结构排列的通用语言元素之间的连接关系。例如,在图4中的编号1中,示出一种关系:句子S具有主语部分NP、和动词部分VP,并且它们通过关系agt连接。在编号2中,示出一种关系:VP具有作为过渡动词的VT和作为名词短语的NP,并且它们通过关系obj连接。稍后将描述所述关系。
在编号3中,示出一种关系:NP对应于连接有DET的名词短语。在编号4中,示出一种关系:VT对应于连接有VTSTM和ENDING的过渡动词。
在编号5或以下的那些规则在规则规定上与编号1至4的规则不同。例如,在编号5中,示出一种关系:通过除去自然语言的元素(即‘DET(“.@indef”)’),DET用‘a(“.@indef”)’来连接。在编号6和其后的规则中同样是如此。
根据本发明,通用语言字典210和重写规则220是在当从自然语言的表达中创建通用语言的表达时使用的。在从通用语言的表达中创建自然语言的表达时可以使用相同的重写规则。由此,一旦创建了通用语言的表达,就能够容易地创建各种自然语言的表达。稍后将描述怎样通过利用通用语言字典210和重写规则220来创建通用语言的表达。
转换处理部分300执行用于参考通用语言字典的通用语言元素重写处理310,以将构建给定自然语言表达的组元重写为在通用语言字典中的对应通用语言元素。另外,该转换处理部分300执行二元关系创建处理320,用于通过根据排列利用重写规则来连接多个被重写的通用语言元素,和用于根据用于二元关系中的符号规则创建以二元关系表达的通用语言表达。该转换处理是通过执行主要在操作设备10中的程序来执行的。
存储处理部分400执行用于存储在存储器设备40中的操作设备10中所处理的结果的处理。该处理是通过操作设备10来执行的,并且存储器设备40响应于该处理存储从所述操作设备中输出的数据。该数据可根据要求来读取。
输出处理部分500执行用于在显示设备31中显示输入数据、处理结果等的处理,和用于引起打印机打印它们的处理。所述显示和打印是以独立处理来执行的。
接着,将描述作为本发明特征的二元关系。在本发明中使用的二元关系是如下列公式来定义的:[公式1]<二元关系>∷=<关系>[“:”<复合通用单词ID>]
“(“{<通用单词1>|”:“<复合通用单词ID1>}”,
“{<通用单词2>|”:“<复合通用单词ID2>}”)”其中
∷=指示将...定义为...;
|指示逻辑和、“或”;
[]指示能够根据需要被添加的可选元素;
{}指示可选择的元素;
“”指示被包括在其中的字符和/或符号;以及
<xxx>是可变名称。
通过利用上述公式,能够精确地获得各种表达。简单的例子包括:
and(quickly,easily),
and(Mary(icl>person),John(icl>person))。前者指示“quickly”和“easily”的意思。后者指示“Mary”和“John”的意思。其中,符号()指示这里有个写在()内的关于该元素的约束。这些将结合在通用语言上的描述来描述。
复合通用单词是基于语言指示复合概念的二元关系的集合。复合通用单词ID是用于识别属于复合通用单词的集合的二元关系的识别符。通过指定该识别符,能够将该复合通用单词作为通用单词使用。其中,该复合通用单词ID是由例如字母表大写字母或两位数字来表达的。
有时,对于通用单词,通过使用如稍后描述的公式6所示的通用单词ID,相同内容的表达也能够被参考。
二元关系是通用语言中的表达,即,句子块。所述二元关系是由两个通用单词和一种关系构成的。在通用语言中,所述二元关系是通过被称为关系的具有三个或更少的字符的符号来预定义和规定的。在通用单词之间的关系取决于该通用单词的特性而不同,并且使用了诸如agt、and、aoj、obj以及icl的对应关系。例如,这些关系预定义如下:agt:引起事件(event)的事情(thing)and:两个概念之间的合并关系aoj:具有属性的事情bas:用作基础和/或比较度的事情cag:引发隐含事件的事情cao:具有隐含属性的事情cnt:等同的概念cob:隐含事件的目标con:以所关注事件或状态为条件的事件和/或状态coo:用于所关注事件或状态的并发事件或状态dur:事件发生或状态存在的时间段fmt:两个事情之间的范围frm:事情的起源gol:目标或与目标相关的事情的最终状态ins:完成事件的仪器man:完成一事件或状态的特性的方式met:完成一事件的装置mod:限制所关注(focus)目标的事情nam:事情的名称obj:直接受一事件影响的所关注的事情or:在两个概念之间的选择关系per:参考单位plc:事情发生的地方或状态存在的地方plf:事件开始的地方或状态为真的地方plt:事件结束的地方或状态为伪的地方pof:整个和部分关系pos:事情的处理器ptn:一起引发事件的非关注事情pur:事件或事情的存在的目的qua:事情或单位的数量rsn:事件或状态发生的原因scn:事件发生的场景seq:所关注事件或状态的在先事件或状态src:目标或与目标相关的事情的初始状态tim:事件发生或状态为真的时间tmf:事件开始或状态为真的时间tmt:事件结束或状态为伪的时间to:事件的目的地via:事件的中间位置或状态
接着,将描述在本发明中使用的通用语言。通用语言将由以下公式来定义。该公式的符号规则与在公式1中符号规则是相同的。[公式2]
<通用单词>∷=<标题>[<约束列表>]
[“:”<通用单词ID>][“.”<属性列表>]
<标题>是由字符串构成的,并且可以包括例如购买或预定。通用语言可以仅需要由计算机来处理。由此,不总是需要以人可读形式来表达它。然而,以人可读形式定义它会更方便。由此,在本实施例中,通用语言是基于如上所述的英语来定义的。即使用其它语言例如日语来定义它也将不会发生问题。
从定义公式的形式中显而易见,在最简单的形式中,通用语言能够仅由标题来构成。
一般地,在语言元素上存在各种约束。因而,在本实施例中,以()来指示一个或多个约束作为约束列表。能够将多个约束写在一起。在该情形中,它们用逗号分开。该约束列表定义如下:[公式3]
<约束列表>∷=“(“<约束>[“,”<约束>]...”)”其中...意指一个或多个对象(subject)出现。
列示在约束列表中约束被定义如下:[公式4]<约束>∷=<关系>{“>”|“<”}<通用单词>[<约束列表>]|<关系>{“>”|“<”}
<通用单词>[<约束列表>][{“>”|“<”}<通用单词>[<约束列表>]]...
在该方式中,通用语言包括:非约束的基本通用单词、带有一些约束的受限通用单词、以及特定类型的受限通用单词。所述基本通用单词包括英语中的例如‘go、take、house’。所述受限通用单词包括能够由上述定义表达的各种通用单词。作为例子,以下示出‘state’的四个不同约束的情形。
state(agt>person(人),obj>information(信息))
state(equ>nation(国家))
state(icl>situation(情形))
state(icl>government(政府))
特定受限通用单词的例子将表达如下:
ikebana(icl>activity(活动),obj>flowers(花))
samba(icl>dance(舞蹈))
识别所述特征的信息包括属性。该属性是由以下公式定义的:[公式5]
<属性列表>∷=<属性符>[“.”<属性符>]...
通用语言中的属性包括:与说话人相关的诸如过去、现在和未来的时间(time);与他/她是否急切相关的说话人的看法;说话人的与共同话题相关的参考观点;说话人在说话人注意点上的关注(focus);说话人对话题的兴趣有多强;以及说话人的观点。典型地,将它们定义如下:属性符@ability: can(能够)@ability-past: could(曾经能够)@ability-future: will be able to(将能够)@affirmative: affirmation(肯定)@apodosis-cond: conditional apodosis(条件归结子句)@apodosis-real: real apodosis(真归结子句)@apodosis-unreal: unreal apodosis(非真归结子句)@begin just: indicates that an event has just begun
(指示事件刚开始)@begin-soon: indicates that an event is about to begin
(指示事件将要开始)@complete: completion(完成)@conclusion: conclusion(结论)@confirmation: confirmation(识别)@custom: custom(惯例)@def: definite(限定的)@emphasis: emphasis(强调)@end-just: indicates that an event has just ended
(指示事件刚结束)@end-soon: indicates that an event is about to end
(指示事件将要结束)@entry: focus(关注)@exclamation: admiration(称赞)@expectation: expectation(期望)@future: future(未来)@generic: a generic term(一般术语)@grant: grant(准予)@grant-not: must not(不一定)@indef: indefinite(非限定的)@imperative: order(命令)@inevitably: inevitably(不可避免地)@nsistence: insistence(坚持)@ntention: intention(意图)@interrogative: question(有疑问的)@invitation: invitation(邀请)@may: permission(许可)@not: denial(否定的)@obligation: duty(责任)@obligation-not: no duty(无责任)@ordinal: ordinal number(顺序编号)@past: past(过去的)@politeness: politeness(礼貌)@possibility: possible(可能)@present: present(当前的)@probability: probability(可能性)@progress: in the middle ofan event(在事件中间)@qfocus: focus of a question(问题的焦点)@repeat: repetition(重复)@respect: respect(尊重)@should: nuturally(自然地)@state: a state,which is reached after an end of an event
(在一事件结束之后实现的状态)@theme: theme(主题)@topic: topic(话题)@unexpectation: unexpectation(不期望)@will: will(意愿)
接着,使用通用单词ID用于通过字母和数字等识别目标,以在当例如存在能够参考的表达、或当存在相同的表达时指定该目标。所述通用单词ID能够被定义如下:[公式6]
<通用单词ID>∷={<字母表大写字母>|<数字>}
{<字母表小写字母>|<数字>}
除了字母表大写字母和小写字母以及数字之外,能够和所述字母和数字一起使用下列符号来指示应用于本实施例中的二元关系:[公式7]
“_”|“*”|“!”|“$”|“%”|“=”|“^”|“~”|“|”|“@”|“+”|“-”|“<”|“>”|“?”
接着,将描述根据本发明创建通用语言的表达的具体例子。在以下例子中,将描述其中表达(句子)是以对应‘the man asked a question(那个男人问了个问题)’的英语表达(句子)的通用语言创建的情形。图3所示的通用语言字典和图4所示的重写规则被用于该创建。其中,图4中的重写规则是从右至左应用到通用语言的创建中的。即,它是以与在该重写规则中所描述的箭头(→)所指示的方向相反的方向来应用的。其中,从通用语言到自然语言的转换是以由箭头指示的方向来执行的。
操作设备10经由转换准备处理部分100采集要翻译的目标句子‘the manasked a question’到RAM13。在该例子中,它是经由键盘21输入的。接着,操作设备10的CPU11搜索在通过通用语言字典210输入的该英语句子中的第一个单词。接着,检索‘(“.@def”),DET’。接着应用图4中的重写规则6以获得以下结果:[公式8]DET(“.@def”)man asked a question
接着,CPU11通过通用语言字典210搜索在英语句子中的下一个单词‘man’。接着,检索‘man(“person”),N’。接着,应用在图4中的重写规则8以获得以下结果:[公式9]DET(“.@def”)N(“person”)asked a question
接着CPU11通过通用语言字典210搜索在英语句子中的下一个单词‘asked’。接着,检索‘ask(“ask(icl>do”),VTSTM’。接着,应用在图4中的重写规则9以获得以下结果:[公式10]DET(“@def”)N(“person”)VTSTM(“ask(icl>do)”)ed a question
接着,CPU11通过通用语言字典210搜索在上述英语句子中的单词‘asked’的结尾‘ed’。接着,检索‘ed(“.@past”),ENDING’。接着,应用在图4中的重写规则10以获得以下结果:[公式11]DET(“.@def”)N(“person”)VTSTM(“ask(icl>do)”)ENDING(“.@past”)a question
接着,CPU11通过通用语言字典210搜索在英语句子中的下一个单词‘a’。接着,检索‘a(“.@def”),DET’。接着,应用在图4中的重写规则5以获得以下结果:[公式12]DET(“.@def”)N(“person”)VTSTM(“ask(icl>do)”)ENDING(“.@past”)DET(“.@indef”)question
接着,CPU11通过通用语言字典210搜索在英语句子中的下一个单词‘question’。接着,检索‘question(icl>thing)’。接着,应用在图4中的重写规则7以获得以下结果:[公式13]DET(“.@def”)N(“person”)VTSTM(“ask(icl>do)”)ENDING(“.@past”)DET(“.@indef”)N(“question(icl>thing)”)
接着,在确定在该英语句子中的‘question’后没有单词之后,CPU11停止字典搜索,并且在所重写的结果上执行进一步的重写处理。能够基于句号、问号、冒号等的出现来执行在该英语句子中再没有要搜索的单词的决定。
此后,CPU11进一步通过应用重写规则1至4执行重写。
CPU11从所述重写结果的开始中读取我们的句子元素,并且参考图4中所示的重写规则决定在来自该句子的开始的邻近句子元素符号之间的关系。例如,在上述重写结果的情形中,句子元素符号的从开始的安排次序是‘DET、N、VTSTM、ENDING、DET、N’。接着,应用重写规则3到‘DET’和‘N’以获得‘NP(“person.@def”)’。由此,获得以下结果:[公式14]NP(“person.@def”)VTSTM(“ask(icl>do)”)ENDING(“.@past”)DET(“.@indef”)N(“question(icl>thing)”)
接着,CPU11将重写规则4应用到‘VTSTM’和‘ENDING’以获得‘VT(“ask(icl>do
.@past”)。由此,获得以下结果:[公式15]NP(“person.@def”)VT(“ask(icl>do).@past”)DET(“.@indef”)N(“question(icl>thing)”)
接着,CPU11将重写规则3应用到‘DET’和‘N’以获得‘NP(“question.@indef”)’。由此,获得以下结果:[公式16]NP(“person.@def”)VT(“ask(icl>do).@past”)NP(“question.@indef”)
接着,CPU11确定在结束时没有将要被重写的目标。接着,CPU11读取句子元素符号,并且参考图4中所示的重写规则从句子的开始确定邻近句子元素符号之间的关系。例如,在上述重写结果的情形中,句子元素符号的安排次序是‘NP’、‘VT’、和‘NP’。其中,在开始处不能够将该重写规则应用到‘NP’和‘VT’。由此,CPU11首先应用重写规则2到‘VT’和‘NP’以获得下列结果:[公式17]
NP(“person.@def”)
VP(“ask(icl>do)(obj>question.@indef).@past”)
还有,CPU11读取包括在重写结果中的句子元素符号并且在其上应用规则1。接着,获得以下结果:[公式18]S(“ask.@entry(agt>person.@def,obj>question.@indef”)
由此,创建了通用语言的表达。该通用语言能够被解释如下:在通用语言中的单词‘ask’意指自然语言中的‘ask’,并且说话人基于属性符‘entry’的出现关注于‘ask’。通用单词‘ask’具有约束,并且该约束的内容意指引发事件的事情(agt),‘ask’是限定的(.@def)‘person’,并且由该事件直接影响的事情是非限定的(.@indef)‘question’。
从该组元中显而易见,通用语言中的表达不包括自然语言中的组元。由此,当从曾经获得的通用语言中创建的自然语言时,如果存在对应于要被翻译成的语言的重写规则,则从/到任意的语言的转换成为可能。
上述例子中使用的通用语言字典和重写规则仅是全体的一部分。例如,为通用语言字典准备大于一百万个单词。当本发明用于特定目的时,有时也能够使用较小数量的单词。
由此,根据本发明,通过准备对应于每个自然语言的重写规则,任何自然语言都能够以通用语言来表达。通用语言还可以不受原本自然语言的元素和语法影响的形式来写。由此,当将一种语言的信息交换为其它语言时,通过使用通用语言以允许信息的国际通信和有效存储。能够容易地使用不同种类的语言以较低的成本将具有较少被翻译信息的语言中的内容像以英语通信一样与许多人通信。
当能够将本发明的通用语言转换为自然语言时,通过检查反转换的表达,能够容易地确定自然语言的原本表达是否经由通用语言的表达被精确地通信。由此,通用语言的表达能够是精确的。还有,可以通过使用二元关系清楚地写出通用语言,并且由此能够精确地执行从通用语言到自然语言的转换。由此,当在国际上通信相同的信息时,使通用语言的表达作为原件是有益的。
虽然在上述例子中描述了自然语言,本发明还能够应用于严格说不是自然语言的语言的表达,例如诸如世界语(Esperanto)的人造语言或诸如计算机语言的机器语言。
根据本发明,以小的成本容易和精确地在各种语言之间通信。
Claims (6)
1.用于创建能够由计算机处理的通用语言表达的一种系统,并且能够基于它转换到其它语言,包括:
转换规则部分,用于通过参考存储在所述转换规则部分中的重写规则将给定自然语言的表达转换到通用语言的表达,
转换处理部分,用于通过参考存储在转换规则部分中的重写规则将给定自然语言的表达转换为通用语言的表达,
其中所述转换规则部分具有这样的重写规则:
通用语言字典,用于通过构建通用语言的通用语言元素来定义构建自然语言的自然语言元素,它对应于每个自然语言元素具有的信息;以及
重写规则,用于规定在根据自然语言的句子结构安排的通用语言元素之间的连接关系、和用于以包括两个通用单词和指示它们具有一定关系的关系的二元关系来表达所述连接关系;以及
其中所述转换处理部分执行用于参考所述通用语言字典将构建给定自然语言的所述表达的自然语言表达的组元重写为对应其的通用语言字典中的通用语言元素的处理;和用于通过根据在通用语言元素中的次序应用所述重写规则连接多个重写的通用语言元素的处理;和用于根据对应在二元关系中的表达的规则创建以二元关系表达的通用语言的表达。
2.根据权利要求1所述的系统,
其中通用语言字典包括由在通用语言中使用的符号表达的通用语言元素的集合,以兼容自然语言中的组元;并且将指示其在自然语言中的对应句子元素对应于每个通用语言元素的句子元素符号添加到每个通用语言元素上;以及
其中所述转换处理部分通过根据基于所述句子元素符号的通用语言元素的次序应用所述重写规则来连接多个被重写的通用元素。
3.根据权利要求1或2所述的系统,
其中所述通用语言元素表达在识别由自然语言中的对应组元表达的意思的信息、和识别与在自然语言中的对应组元相关的评定的信息中的至少一种信息。
4.根据权利要求1所述的系统,还包括存储处理部分,用于执行存储所创建的通用语言的表达的处理。
5.根据权利要求1、2、4和4中的任一权利要求所述的系统,还包括通信控制部分,用于接收在网络上发送的自然语言的表达、和用于在网络上输出翻译成的通用语言的表达。
6.一种用于记录与至少一种自然语言兼容的重写规则的记录介质,所述重写规则被参考用于在自然语言的表达和通用语言的表达之间相互转换,它可以由计算机来处理,所述重写规则具有:
通用语言字典,用于通过构建通用语言的通用语言元素来定义构建自然语言的自然语言元素,它对应于每个自然语言元素具有的信息;以及
重写规则,用于规定在根据自然语言中的句子结构安排的通用语言元素之间的连接关系、和用于以包括两个通用单词和指示它们具有一定关系的关系的二元关系来表达所述连接关系。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP327525/1999 | 1999-11-17 | ||
JP32752599 | 1999-11-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1415097A true CN1415097A (zh) | 2003-04-30 |
Family
ID=18200087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN00817888A Pending CN1415097A (zh) | 1999-11-17 | 2000-11-17 | 用于创建通用语言的表达的系统和记录其使用的转换规则的记录介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6704700B1 (zh) |
EP (1) | EP1241584A4 (zh) |
JP (2) | JP4377096B2 (zh) |
CN (1) | CN1415097A (zh) |
AU (1) | AU1415101A (zh) |
WO (1) | WO2001039034A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1241584A4 (en) * | 1999-11-17 | 2006-05-17 | United Nations | SYSTEM FOR CREATING UNIVERSAL LANGUAGE EXPRESSION AND RECORDING MEDIUM ON WHICH TRANSLATION RULES FOR SAID SYSTEM ARE RECORDED |
EP1233347A4 (en) * | 1999-11-17 | 2006-05-17 | United Nations | TRANSLATION SYSTEM |
JP4410486B2 (ja) | 2003-05-12 | 2010-02-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳装置及びプログラム |
US20100280818A1 (en) * | 2006-03-03 | 2010-11-04 | Childers Stephen R | Key Talk |
US20070206771A1 (en) * | 2006-03-03 | 2007-09-06 | Childers Stephen Steve R | Key talk |
US8463592B2 (en) * | 2010-07-27 | 2013-06-11 | International Business Machines Corporation | Mode supporting multiple language input for entering text |
CN105338161A (zh) * | 2014-06-30 | 2016-02-17 | 展讯通信(上海)有限公司 | 一种语句信息匹配系统及方法以及移动终端 |
FR3117639A1 (fr) | 2020-12-14 | 2022-06-17 | CS GROUP - France | Système et procédé de conversion d’un document source en langage naturel en une représentation abstraite en langage universel ayant un sens garanti |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
JPH0414175A (ja) * | 1990-05-07 | 1992-01-20 | Ricoh Co Ltd | 自然言語文解析装置 |
ES2101613B1 (es) * | 1993-02-02 | 1998-03-01 | Uribe Echebarria Diaz De Mendi | Metodo de traduccion automatica interlingual asistida por ordenador. |
US5587903A (en) * | 1994-06-22 | 1996-12-24 | Yale; Thomas W. | Artificial intelligence language program |
US5884247A (en) * | 1996-10-31 | 1999-03-16 | Dialect Corporation | Method and apparatus for automated language translation |
US6092035A (en) * | 1996-12-03 | 2000-07-18 | Brothers Kogyo Kabushiki Kaisha | Server device for multilingual transmission system |
JP3467159B2 (ja) * | 1996-12-03 | 2003-11-17 | ブラザー工業株式会社 | 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法 |
US6233546B1 (en) * | 1998-11-19 | 2001-05-15 | William E. Datig | Method and system for machine translation using epistemic moments and stored dictionary entries |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
EP1241584A4 (en) * | 1999-11-17 | 2006-05-17 | United Nations | SYSTEM FOR CREATING UNIVERSAL LANGUAGE EXPRESSION AND RECORDING MEDIUM ON WHICH TRANSLATION RULES FOR SAID SYSTEM ARE RECORDED |
-
2000
- 2000-11-17 EP EP00976318A patent/EP1241584A4/en not_active Withdrawn
- 2000-11-17 CN CN00817888A patent/CN1415097A/zh active Pending
- 2000-11-17 US US10/130,358 patent/US6704700B1/en not_active Expired - Lifetime
- 2000-11-17 JP JP2001540628A patent/JP4377096B2/ja not_active Expired - Fee Related
- 2000-11-17 WO PCT/JP2000/008115 patent/WO2001039034A1/ja not_active Application Discontinuation
- 2000-11-17 AU AU14151/01A patent/AU1415101A/en not_active Abandoned
-
2009
- 2009-07-24 JP JP2009173233A patent/JP5037573B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4377096B2 (ja) | 2009-12-02 |
WO2001039034A1 (fr) | 2001-05-31 |
US6704700B1 (en) | 2004-03-09 |
EP1241584A4 (en) | 2006-05-17 |
JP5037573B2 (ja) | 2012-09-26 |
EP1241584A1 (en) | 2002-09-18 |
JP2009238255A (ja) | 2009-10-15 |
AU1415101A (en) | 2001-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1095137C (zh) | 字典检索装置 | |
CN1415096A (zh) | 语言翻译系统 | |
CN1838148A (zh) | 电子设备和记录介质 | |
CN101065746A (zh) | 文件自动丰富的方法和系统 | |
CN1617134A (zh) | 使用机器翻译技术处理释义的系统 | |
CN1702621A (zh) | 采用表的语言的本地化 | |
CN1862489A (zh) | 实现应用程序本地化规则的创作 | |
CN1149737A (zh) | 信息处理方法和装置及存储实施该方法程序的存储介质 | |
CN1834955A (zh) | 多语种翻译存储器、翻译方法以及翻译程序 | |
CN1223733A (zh) | 利用计算机系统的日文文本字的识别 | |
CN1419211A (zh) | 文件转换系统、转换方法和存储文件转换程序的可读介质 | |
CN1627259A (zh) | 软件应用程序中名空间或模式库支持的可编程对象模型 | |
CN1190053C (zh) | 一种通信设备的数据离线配置方法 | |
CN1680935A (zh) | 通过用户建模的有效大写化 | |
CN1286053C (zh) | 可扩展的文件格式 | |
CN1829987A (zh) | 用于标签系统的词语数据库扩展 | |
CN1627300A (zh) | 学习并使用广义串模式用于信息提取 | |
CN1217723C (zh) | 娱乐装置和菜单显示方法 | |
JP5037573B2 (ja) | 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム | |
CN1250189A (zh) | 具有习惯用语处理功能的电子词典 | |
CN1265307C (zh) | 语言本地化中特征字符串的提取与替换方法 | |
CN1547116A (zh) | 软件中语言资源本地化的实现方法 | |
CN1908931A (zh) | 一种文字的可变数据排版的方法 | |
CN1779782A (zh) | 用户界面设计装置和方法 | |
CN1950819A (zh) | 检索信息的系统和方法以及储存信息的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |