CN102272755A - 使用图形国际语对自然语言进行语义处理的方法 - Google Patents

使用图形国际语对自然语言进行语义处理的方法 Download PDF

Info

Publication number
CN102272755A
CN102272755A CN2009801537961A CN200980153796A CN102272755A CN 102272755 A CN102272755 A CN 102272755A CN 2009801537961 A CN2009801537961 A CN 2009801537961A CN 200980153796 A CN200980153796 A CN 200980153796A CN 102272755 A CN102272755 A CN 102272755A
Authority
CN
China
Prior art keywords
language
text
dictionary
module
world
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801537961A
Other languages
English (en)
Inventor
M·曼德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingupedia Investments Sarl
Original Assignee
Lingupedia Investments Sarl
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP08019498A external-priority patent/EP2184685A1/en
Priority claimed from US12/267,461 external-priority patent/US20100121630A1/en
Application filed by Lingupedia Investments Sarl filed Critical Lingupedia Investments Sarl
Publication of CN102272755A publication Critical patent/CN102272755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Abstract

本文描述了使用语言处理系统处理自然语言的方法。将书面或口头文本输入到语言处理系统。该方法包括分析文本的语法的步骤。下一个步骤是选取文本的组件和它们在所述文本中的相互关系。生成文本的图解或图形表示,或所述文本的图解或图形表示用作为文本的意义的语言独立表示。这种图解或图形表示用于执行模型化、知识表示和在语言处理系统进行处理。此外,还描述了处理自然语言的系统和开发语言处理系统的方法。

Description

使用图形国际语对自然语言进行语义处理的方法
技术领域
本发明涉及一种使用语言处理系统,具体地说电子翻译系统,来处理自然语言的方法,其中,将书面或口头文本输入到所述语言处理系统。本发明进一步涉及一种翻译系统,更具体地说涉及一种在线翻译系统。
背景技术
使用语言处理系统处理自然语言是有问题的。自然语言由以特定的方式排列的单词序列组成以表达某些意思。非常简单地说,语言处理系统可以通过逐个单词地查看所述序列来对文本进行分析。不幸的是,单个单词的割裂分析不能够正确地提取所述序列的含义。在某些情况下这样的分析是会成功的,但该分析也是常常会失败的,因为文本并不仅仅是一组单词。句子“colourless green idea sleepfuriously(无色绿色理念睡眠疯狂)”是由排列为语法正确的单词构成的,即正确地应用了语法(规定语言的句子结构的规则和原则)。但可以很容易地看出这个句子是毫无意义的。仅仅集中在个别单词的系统偏要尝试对句子进行处理,很明显,该系统不能适当地进行处理。
例如,电子翻译系统可以按照图1所示的方法处理输入文本序列。在块100中,用户可以通过例如用户界面、电子文件等等输入需要翻译的输入文本序列。在块102中,电子翻译系统可以根据原始语言的语法规则分析该序列。在块104中,电子翻译系统可以对每个单词使用该输入语言作为索引在输出语言词典中进行词典查询。在块106中,电子翻译系统可根据输出语言的语法规则对已翻译的单词进行重组(render),以及在块108中,电子翻译系统可通过例如用户界面、电子文件等等将结果输出给用户。
一些本技术领域已知的系统使用了语义检查。这些系统使用将单词与属性结合的词库。在进行语义检查时该属性必须是一致的。例如,单词“动物”被指定为“有生命的”,石头被指定为“没有生命的”和“吃”被指定为“有生命的”。使用这种语义检查时,句子“石头吃草”可以被指定为错误的,因为石头是没有生命的,而句子“动物吃草”是正确的,因为“动物”和“吃”两种均具有有生命的属性。
这些决定声称是表示在人工智能中的理解过程。不幸的是,这方法是非常有限的。在处理自然语言时,句子一般要复杂得多并且无法由这类系统处理。为了解决这些问题,已经作出了很多努力。一方面有一些立场声称语义的编程是不可能的。另一方面,也有一些公司投资数百万元到语义领域中的研究。但是,在本领域的已知系统中没有一种能够适当地处理自然语言。
除上述之外,电子翻译系统的发展是劳力密集的并且产生一对一的语言对(language pairs)。例如,图2示出了用于四(4)种语言:英语、法语、西班牙语和德语的语言对的概念图。然而,为将该四种语言中的任何一种语言翻译成任何其它语言时,翻译系统实际使用了六(6)组语言对,即英语-德语、英语-法语、英语-西班牙语、法语-西班牙语、西班牙语-德语以及德语-法语的语言对。
当更多语言加入时,该系统的复杂性会显著增加。例如,加入了第五种语言:意大利语,会增加额外四(4)组语言对,使总数达到十(10)对。值得注意的是,每一对均需要使用大量资源来发展复杂的词典、语法和语义规则集。同样地,在该系统中,即使当需要翻译成多国语言时,每个翻译都是独立进行的。
发明内容
因此,本发明的目的是改进和进一步发展处理自然语言的方法,该方法能够适当地处理文本或其它数据诸如输入的语音等等的语义。本发明的进一步目的是改进和进一步发展用于处理自然语言的语言处理系统,该语言处理系统避免上述某些或全部问题。
本发明的上述目的通过一种包括权利要求1的特征的方法来完成。按照这权利要求,这样的方法的特征在于设有分析关于所述文本的语法和词法(morphology)的步骤、选取文本的组件以及它们相对彼此的关系的步骤、生成或者使用所述文本的图解或图形表示作为所述本文的意义的语言独立表示的步骤,以及使用所述图解或图形表示对所述文本进行处理的步骤。
按照本发明,首先被确认的是,上述问题可以使用神经领域中的发现来解决。一个基本发现涉及以下事实:人类的认知能清楚地分开语法和语义。如果几个不同语言的人坐在一起,而且在房间里有一把伞,每个人都“知道”这是一把伞。但这种“知道”并不意味着“伞”这个单词在出席的人的大脑中的任何地方被激活。然而,为了交流目的,用语言特定单词(language specific word)来标签对象“伞”。所涉及的人都在不使用语言的情况下知道该对象。如果,例如,当下雨时他们想要外出,为了交流目的,他们通过语言-专用词典来激活他们的“标签”。例如,他们会问“我可以用这把伞吗(May I have this umbrella)?”。
这种语法和语义(或依赖于语言信息和语言独立信息)的清楚区分被转移到按照本发明的方法中。在第一个步骤中,对输入到语言处理系统中的文本进行分析,其中对关于文本的语法和词法进行分析。在这个步骤中,对文法的结构进行了分析。这产生了文本的第一基本理解(first basic understanding)。在下一个步骤中,选取文本的个别组件。文本一般由分别包括主语、宾语和动词的句子组成。每个组件都可以被选取,以及可以提取它们在句子中的功能。在下一个生成所述文本的图解或图形表示的步骤中,使用这些个别组件及它们相对彼此的关系。该个别组件形成该图解的节点,而组件之间的关系由边缘(edges)表示。该图解一般被表示成矩阵。然而,为了增进人类的理解,逻辑结构也可以被图形表示。已经发现,这种图解可以完全独立于在输入到系统的文本中所使用的语言。该图解包括可以方便地用于进一步处理的语义信息。
除了图解和/或它的图形表示,也可使用其它形式的图形表示。例如,这包括使用视频、象形图等等。
作为替代或附加到该生成图解或图形表示的步骤,可以在使用图解或图形表示的步骤中使用已经存在的图解或图形表示。这图解或图形表示描述了已经存在于语言处理系统的知识。在这步骤,从文本中选取的组件与现存的图解或图形表示的元件匹配。从而确定了该现存的图解或图形表示的子集。
按照一个特别优选的实施方案,输入到语言处理系统的文本以视觉图形,或象形图的方式被模型化。这产生视觉图形模型,该视觉图形模型是文本的语言独立表示并且可以被语言处理系统的每个用户所理解。因此,用户不需要具有关于所涉及的语言的知识。如果用户不理解在所述语言处理系统使用的任何语言,这也是成立的。
在分析文本的步骤,检查有关在输入文本中使用的语言的文法的信息。每一种语言都有其特定的文法来规定单词是如何排列的。为了使用户能够在没有任何编程知识的情况下撰写文法,可以通过文法编辑器输入文法数据。较佳地,这文法编辑器是语言独立的。只需要在手边有所述语言的可能结构的某些形式。由此,可避免对每一种语言的不同文法的耗时发展,相反地,快速且高效的原型制作是有可能的。这样,可以快速地和直接地将新的语言结合到所述语言处理系统中。由文法编辑器生成的文法可与语言分析以及语言生成一起使用。
较佳地,该分析文本的步骤通过语言处理系统的语法层执行。语言处理系统可被模块化配置,使其实现可重用性及模块性。语法层可以执行文本的分割和标记化。分割指出文本的句子单位的确定,而标记化意味着在句子内的具体单词形式的识别。在执行分割和标记化时,可以在语法和词法方面对各个组件以及它们在句子中的关系进行分析。
为了改进模块性并得到可普遍使用的方法,可将语法层设置(docked)在语言处理系统上。这样,通过将新的语法层加到该系统中,可以使不同的语言很容易地结合到所述语言处理系统中。因为在该系统内的处理是用文本的语言独立表示执行的,任何语言均可以使用本发明的方法来处理。通过把新的语法层设置在语言处理系统上,可以将新的语言的文本转化为语言独立表示。因此,该方法可相当普遍地使用。
每种设置在语言处理系统上的语言可以在分开的语法层中被表示。因此,语法议题均可被配置成完全互相独立。
此外,各个语言可以具有语法层的共同部分,这是有可能的。例如高地德语、瑞士的德语和奥地利的德语的文法有很大部分的共同之处。只有几个规则会有所不同。在这种情况下,语法层可以有一部分是与几种语言共用的,而且可具有专门为特定语言而设的部分。这减小了改变个别语言的规则的工作,并有助于输入在语法层使用的数据。从而语言的抽象概念可以在各个语法层中重复使用。
可在关系层中选取语言独立信息。一般来说,语言独立信息包括对象、行为和属性以及它们的关系。在如德语、英语或中文的语言中,对象通常由名词表示。行为通常由文本的动词描述。但形容词也可以表示行为。例如两间公司可以被标签为“竞争”或“具竞争力”。属性可以是感官上的属性如颜色、温度、尺寸或质量,以及如情感的属性。这些对象、行为和属性是通过语法层和关系层从文本中选取的,并发送到语义层。
在生成图解或图形表示的步骤,文本的句子或短语的对象、行为和属性是连接在一起并被表示为图解或图形。该图解表示(例如,作为一个矩阵或一些矩阵)有助于在语言处理系统内处理文本。虽然图解也可以用图形表示,纯粹的图形表示(没有作为图解,例如视频或象形图)可能更有威力,因为它在表示能力方面提供了更大的灵活性。
为了达到语言处理系统的语言独立性,对象、行为和属性可以用图形表示或通过象形图表示。例如,汽车可以由汽车的象形图表示,长椅子可以由长椅子的象形图表示,属性“绿色”可以是绿色的区域,“给予”可以由一个人将对象移交到另一个人的象形图或通过视频来表示,和“吠”可以由音频表示。因此,在对象、行为或属性均没有被特定语言的术语标签的情况下,每个人都可以理解语义的图形表示。
处理文本的步骤可包括对文本的已选取语义进行推理的步骤。这可通过将已选取的语义与模型进行比较、或者确定所涉及的实体之间的差异来完成。
该方法的中心部分可以是意义世界。该意义世界表示对象世界。该对象世界的主要工作是表示对象,所述对象在如德语、英语或中文的语言中通常由名词表示。它由几个存储该对象(或他们的原型)的二维至n维空间构成,并把它们安排成有意义的组合。
该对象世界的对象可以使用将个别对象在逻辑上连接起来的结构树或结构网络组织起来。已经发现,人类以有意义的结构组织关于世界的对象和它们的关系的知识。这组织是以非一致的方式完成。他们使用概念和类目将信息存储和分类。这样的类目的分组可存在于电子设备(例如计算机、打印机和数字电话)、文件(例如信件、公文和发票)、建筑物(例如房屋、博物馆和办公室)等等中。类目的个别对象可以连接到其它的类目。例如办公楼具有几间房间,该房间内设有家具、电子设备、文件等等。该家具可包括办公桌、椅子或书架。另一方面,椅子可以是办公椅以及摇椅。两者都是椅子,但实现完全不同的目的。以此方式,这些个别的单词在类目中连接在一起。
意义世界进一步包括负责表示行为的行为空间。在意义世界中,行为可以与任何其它单位连接,例如被英文单词“withdraw”标签的单位可被关联到对象“人”、“钱”和“提款机”,这些对象是所涉及的参与者。这种连接被称为分子(molecules)。
意义世界进一步可包括包含元件的属性的属性空间。大多数的(如果不是所有的)属性都可以以一些自然的方式被量化。感官属性如颜色、味道、尺寸或压力具有在不同上下文情况下使用的一维至三维表示。例如可以使用由所需颜色的色调、饱和度和亮度限定的颜色轴来再现颜色。还可以使用多维表示来限定情感。关于由心理学家提出的模型,可以使用六维或八维的情感单形(emotionalsimplex)来迭加人类的所有情感。因此,情感也可以用语言独立的方式表示。
文本的语言表示可能是不明确的。例如在句子“the chicken is ready to eat(鸡准备吃)”中,鸡可能被解释为吃东西的动物或者被解释为将被吃掉的菜式。在句子“we saw the man with the telescope(“我们看见一个带望远镜的男人”或“我们用望远镜看见一个男人”)”,该telescope(望远镜)可以是该男人拥有的或者是“我们”拥有的。可以从句子的上下文来解决这些不明确之处。这上下文可以从意义世界中提取。如果在前的句子涉及农业语境,chicken(鸡)最有可能是指吃东西的动物。当在前的句子涉及烹饪时,chicken(鸡)最有可能是指将会被吃掉的鸡。这种与上下文相关的问题可从意义世界中提取。
不明确的文本会对应几个图解或图形表示,其中表示的数目是可以从文本提取的意义的数目。使用意义世界,可以确定最有可能正确的表示。
在语言处理系统中,可以有与语法层和语义层连接的关系层。这关系层可包含关于在该层中的各个对象之间的可能关系的抽象概念。关系层接收由语法层输出的信息并执行进一步概括和抽象。
关于本发明的一个实施方案,该方法可用于翻译系统中。在这种情况下,处理的步骤包括生成文本的翻译的步骤,其将该文本翻译成与文本的原始语言不同的语言。由于图解或图形表示是语言独立的,它可以作为对任何语言进行翻译的基础。在执行该方法的步骤时,首先就原始文本的语法和词法对原始文本进行分析。第二,选取文本的组件以及他们的相互关系,而这信息用于生成文本的图解或图形表示,或者用于使用现有的图解或图形表示作为语言独立表示。在任选的语义检查后,将语言独立表示转换成文字表示(textual representation)。这转换的步骤可以由语法层执行,因为这层使用了目标语言的语法和词法信息。由于系统的模块配置,理论上每种语言均可以翻译成每种其它的语言。因为其中设有语言独立平台,每种语言只需要与语言独立表示相关。因此,可以实现以下情况:不需要将各个语言彼此连接的词典。这对自动翻译系统的发展非常有利。
按照本发明的另一个实施方案,该方法可以用于搜索,因为它能够惊人的改进搜索引擎的结果。用户将问题键入到搜索引擎的网站中。对这问题的语法和词法进行分析,并选取文本的组件及他们的关系。这信息用于生成问题的内部图形表示。可以确定并解决不明确。此外,通过放弃(leaving)以字符串为基础的方法,可以使用在结构树中的抽象概念来概括该问题的各个单词。因此,使该结果的质量得以改进。
关于本发明的另一个实施方案,该方法可用于分析文本。它也可以提取在文本中出现的主题。这可以用来将文本自动分类。此外,它可以用来寻找关于文本中的语义结构的逻辑链或信息。
关于本发明的另一个实施方案,该方法可用于生成对输入到语言处理系统的文字的响应。例如该系统能够对由用户请求支持所发送的问题生成自动的回答。与本领域已知的方法对比,该方法可以分析和“理解”该文本,并能够运用在意义世界模型中表示的知识来产生回答问题的合适答案。
更多的实施方案也是有可能的。由于该方法提供了文本的语言独立表示,该处理步骤可以由大量的不同步骤取代。因此,本发明可以非常普遍地使用。此外,如有需要,本文所述的个别实施方案可以任意组合。
就每个实施方案来说,在处理步骤生成的文本可以书面或口头语言的方式或者以叙述的方式输出到用户。如果处理步骤包括文本分析步骤,该输出也可包括统计数据或主题的列表或用于搜索的输入。
为了改进和帮助建立在该系统内使用的数据库,在按照本发明的方法的步骤中所需要的知识可以通过网络界面输入。该知识可以包括词库标签、意义世界模型的内容、文法信息、属性表示等等。可以通过用户的公开组群(open group)输入这些信息,他们以用户友好的方式输入信息。
关于本发明的用于处理自然语言的语言处理系统,上述的目的通过一种包括权利要求16所述的特征的方法来完成。本发明的优选实施方案在从属权利要求17至27描述。
上述的目的进一步由一种如权利要求28所述的开发语言处理系统的方法以及在从属权利要求29和30中描述的它的实施方案来完成。
附图简述
有几种方法教导如何以有利的方式设计和进一步发展本发明。为此,一方面需要参照权利要求1、16或28的从属权利要求,以及另一方面,参照以下结合附图说明的本发明的实施方案的优选例子。连同透过附图的帮助对本发明的实施方案的优选例子的叙述,将说明该教导的一般优选实施方案和进一步发展。在图中:
图1示出了传统翻译过程的示例性流程图;
图2示出了在图1的传统翻译处理中使用的语言对的实施方案的示例性概念图;
图3示出了翻译过程的结构;
图4是句子的图形表示;
图5是行为的可能的表示;
图6示出了温度((a)部)和情感((b)部)的表示;
图7示出了意义世界翻译过程的示例性流程图;
图8示出了在图7的意义世界翻译过程中使用的语言对的实施方案的示例性概念图;
图9示出了意义世界翻译系统的实施方案的示例性框图;
图10示出了图9的意义世界系统的实施方案的示例性框图;
图11示出了用于将一种语言加到图9的意义世界翻译系统中的语言加入过程的实施方案的示例性流程图;
图12A示出了用于将一术语加到在图9的意义世界翻译系统中的语言词典的术语加入过程的实施方案的示例性流程图;
图12B示出了用于将一术语加到在图9的意义世界翻译系统中的语言词典的术语加入过程的另一个实施方案的示例性流程图;
图13示出了包括一个或多个能够执行图9的意义世界翻译系统的翻译服务器的实施方案的示例性框图;以及
图14示出了能够执行本文所述的一个或多个电子系统的组件的计算系统的实施方案的示例性框图。
具体实施方式
图3示出了按照本发明的实施方案的翻译过程的一个例子。使用本发明将句子“die grüne Bank steht im Wald(绿色的椅子在森林中)”翻译。图3示出了语义层2是语言处理系统1的核心。该语义层嵌入关系层3中。将几个语法层4,5,6设置到关系层3。每个语法层表示一种语言:语法层4表示德语,语法层5表示英语和语法层6表示波兰语。
在语法层4输入需要输入到语言处理系统1中的文本。语法层4对文本的文法和语法进行分析。可以检索到“Bank(椅子)”是句子的主语。“Bank”具有属性“grün(绿色)”。“Bank”执行行为“stehen(站立)”,而且这是在“Wald(森林)”中完成。这可以通过文本的语法和词法分析被选取。
可以选取文本的组件以及他们的相互关系。这可以用于生成所述句子的普遍适用的语言独立表示,其如图4所示作为图解。这图解可以转化为英语或其它可用的语言。在第一步骤中,表示“Bank”的象形图被翻译成英语单词“bench(长椅)”。bench的属性是“grün”,其被翻译成“green(绿色)”,行为“stehen”被翻译成“is(是)”,以及“Wald”的表示被单词“forest(森林)”标签。将这表示翻译成英语句子会得出“the green bench is in the forest”(绿色的长椅是在森林里)。
可以从这个例子看出,通过用另一种语言标签图形表示以及通过把单词以语法上正确的次序排列,每种语言可以分别是原始语言及目标语言。
图5表示了几种由人类执行的有可能的行为,该人类显示在图的中心。图中示出了“思考”、“坐”、“步行”和“给予”等行为。
图6示出了两个属性的样本表示。图6a)表示温度尺度及相应的属性。一般来说,这些表示是模糊的,而且不能指出特定的值。如果热菜的温度是10℃或更低,它们将被视为冷。在温度为20℃时,它们会被标记为微温。当温度为70℃时,会感觉为热。
图6b)描述了用于表示情感的4维空间。可以被表示的情感是单形“可怕”、“惊讶”、“快乐”和“愤怒”的迭加。这里所表示的情感是在这4维空间内的一个点或一个区域。
在许多实施方案中,关系、模型、语法要求等等可以是一个或多个相互工作的计算机处理的一部分。因此,在本文公开的实施方案中,计算机系统采用语言独立的对象世界,从而提供了用于语言翻译的中心枢纽(central hub)。在一个实施方案中,文本或语音先从原始语言翻译成语言独立表示,再将这表示翻译成用于输出的一种或多种目标语言。
例如,本文公开的语言系统提供了从输入语言的语法和语义到例如在语言独立的意义世界中的图解的映射(mapping)。从这种语言独立表示,翻译成任何语言或多种语言均可以完成。在一个实施方案中,语言独立图解还可以连接到图形或多媒体显示和/或以图形或多媒体显示的方式输出。相关的翻译过程包括对输入文本(或语音)就它的语法和词法进行分析,选取文本的内容和他们相对彼此的关系,生成所述文本的图解作为所述文本的意义的语言独立表示,并使用所述图解执行所述文本的处理。
这样的系统一般与在神经领域中的发现相一致。一个基本的发现包括认识到人类的认知把语法和语义分开。回想一下上述有关伞的讨论。这种语法和语义的分开(或者依赖于语言信息和语言独立信息的分开)是本文公开的翻译过程的一部分。例如,当对文本的语法和词法进行分析时,对文法结构进行了分析。这导致对文本的基本理解。选取该文本的内容。例如,文本一般包括句子,该句子可包括主语、宾语和动词。在一个实施方案中,可以选取每个组件,而且可以提取它在句子内的功能。这些组件及它们的相互关系在将文本处理成图解的过程中使用。该组件形成图解的节点,而组件之间的关系由边缘表示。在一个实施方案中,这图解可以有些或完全独立于在输入(或输出)文本中使用的语言。该图解主要包括语义信息,该语义信息可直接用于进一步处理。
在分析文本期间,系统检查关于所用语言的文法的信息。每种语言包括它自己的特定文法,所述文法提供单词应如何排列的规则。本申请的另一个方面是提供一相对直接的、非技术性的方式来生成这些文法规则。为了使具有很少或没有编程知识的用户能够编写文法规则,可通过文法编辑器输入文法数据。文法规则包括给定语言的可能结构的某些公式。由此,可避免或减小对每种个别语言的不同文法的耗时发展,相反,快速且高效的原型制作是有可能的。这样,可以将新的语言快速地、容易地结合到本文所公开的语言处理系统中。
在一个实施方案中,文本分析是由在语言处理系统的语法层起作用的分析器执行。在本文公开的一个方面中,语言处理系统可以被模块化配置,使其实现系统的可重用性、适应性和可扩展性。分析器可执行文本的分割和标记化。分割指出对文本的句子单位的确定,而标记化包括对在句子内的具体单词形式的识别。在执行分割和标记化之后,元件以及它们在句子内的关系可以在语法和词法方面进行分析。
为了改进模块化并得到可以普遍使用的方法,语法层对象可与语言处理系统相关。这样,通过加入新的分析器和用于每种语言的字典,可以很容易地将不同的语言结合到语言处理系统中。因为在系统内的处理是用文本的语言独立表示来执行的,可以处理任何语言。将新语言的文本转化为语言独立表示,然后任何其它现有的语言对均可用于转换。因此,所述方法可以相当普遍地使用。
设置到语言处理系统的每种语言可以一套分开的语法层对象来表示。因此,语法议题可以相互独立地配置。此外,各个语言有可能具有共同的语法层对象,诸如分析器或分析器的主要部分。例如高地德语、瑞士的德语和奥地利的德语具有大部分共同的文法规则。只有几个规则会有所不同。在这种情况下,单个分析器可以处理每种语言,所述每种语言具有的大部分规则是几种语言共用的,而有一些规则是依赖于语言的。这减小了改变各个语言的规则的工作。
在这语法层和/或(任选的)关系层选取语言独立信息。一般来说,语言独立信息包括对象、行为和属性以及它们的关系。在如德语、英语或中文的语言中,对象通常由名词表示。行为通常由文本的动词描述。但形容词也可以表示行为。例如两间公司可以被标签为“竞争”或“具有竞争力”。属性可以是感官上的属性如颜色、温度、尺寸或质量,以及如情感的属性。这些对象、行为和属性是通过语法或关系层对象从文本中选取的,并且被翻译成意义世界表示(其在本文中称为语义层)。
在处理句子的步骤,文本的句子或短语的对象、行为和属性连接在一起并被表示为图解。该图解有助于在语言处理系统内对文本进行处理,因为图解可以很易于被表示为矩阵。
为确保意义世界系统的语言独立性,对象、行为和属性可以根据独特的ID(标识符)来表示。然而,优选的是,术语的每个意义世界表示也具有该意义的照片或插图,以便于与意义世界一起工作(特别是通过非程序员)。例如,汽车可以由汽车的象形图表示,长椅子可以由长椅子的象形图表示,属性“绿色”可以是一个绿色区域,“给予”可以由一个人将对象移交到另一个人的象形图表示。因此,在对象、行为或属性均没有被特定语言的术语标签的情况下,通过图形显示可以理解图解和意义世界对象。
处理文本的步骤可包括对文本的已选取的语义进行推理的步骤。这可以通过将已选取的语义与意义世界模型进行比较、或确定所涉及的意义世界对象之间的差异来完成。“差异”在这种情况下表示在意义世界中不同的对象之间的相对关系。较紧密的对象是那些有直接连接或密切相关的对象。在意义世界内越紧密连接一组对象,翻译就越有可能是正确的。
意义世界包括语言独立术语对象(“LIT对象”)。LIT对象的主要工作是表示在如德语、英语或中文的语言中通常由名词表示的对象。它由多个存储所述对象(或他们的原型)的二维至n维(2-n)空间构成,并将它们排列成在有意义的组合。语音的其它部分诸如动词也可以由对象表示。
在一个方面中,本文提供了用于提供翻译系统的系统和方法。在这种情况下,输入文本的图解、或其它语义表示是语言独立的,而且它可以是翻译到任何语言的基础。一般来说,所述方法的步骤包括对文字的语法和词法方面进行分析,使用所述本文的组件和它们的相互关系生成文本的图解作为语言独立表示。在任选的语义检查后,将语言独立表示转换成目标语言的文字表示。这转换的步骤可以由语法层执行,因为这层已经包括了目标语言的语法和词法信息。理论上每种语言均可以翻译成每种其它的语言,其中对于每种新加入到系统的语言,只很小地增加复杂程度。因为其中设有语言独立平台,只需要使每种语言适应上述语言独立表示。因此,不需要用于将各个语言彼此连接的词典(与上述现有技术的模型不同)。这有利于自动翻译系统的发展。
按照另一个方面,本公开可提供一种方法以改进在搜索引擎中的搜索。例如,用户将一个问题键入搜索引擎的网页。对这个问题的语法和词法进行分析,并且选取上述文本的组件和它们的关系。这个信息用于生成上述问题的内部图解。使用语言独立意义世界的模型,可以确定和解决不明确性。此外,通过背离以字符串为基础的方法来搜索查询,可以使用如在结构树中的抽象概念和单词之间的关系来概括所述问题的各个单词。因此,可以提高结果的质量。
在又一个方面中,本公开提供了分析文本以及检索关于例如文本的主题的信息的方法。这可以用于将文本自动分类。此外,它可以用于在文本中寻找逻辑链或关于语义结构的信息。
对于每个实施方案,在处理步骤生成的文本可作为书面或口头语言或者作为叙述输出到用户。如果处理的步骤包括对文本进行分析的步骤,输出也可包括统计数据或者主题的列表或者用于搜索或其它处理的输入。
为了改善和有助于在该系统内建立所使用的数据结构、数据库和表示,可通过网络界面来输入在按照本发明的处理步骤中所使用的知识。该知识可包括词库标签、意义世界的内容、文法信息、属性表示等等。可以通过用户的公开组群来输入这信息,其中所述用户以用户友好的方式而不是程序型界面来输入信息。
为了便于完全理解本发明,本详细说明书的剩余部分将参照附图对本发明进行描述,在全文中类似的元件用类似的标号标注。
与图1和图2的相关缺点相比较,图7示出了本文揭示的实施方案的意义世界翻译方法300的示例性流程图。如图7所示,在块310,将任何长度的文本,例如一个句子或段落,输入到按照本文揭示的实施方案的电子翻译系统中。例如,可以在块310输入“the boy is running to the park(那个男孩正跑向公园)”。在块312,系统对该句子进行分析以选取文本的关键概念的词根形式(root form)。通常,这至少会是句子的主语、动词,以及有时是句子的宾语。在附图中,有三个关键术语:(1)boy(男孩);(2)run(跑);以及(3)park(公园)。这些术语被翻译成语言独立“意义世界”的图解(块314)。在一个实施方案中,该图解包括用于每个关键概念术语的节点以及用于表示它们与其它术语之间的连接的边缘。这些关键概念被翻译成所选择的语言(块316)。在这个例子中,目标语言是德语:(1)Junge(男孩);(2)laufen(跑);以及(3)Park(公园)。语言特定的分析器模块用正确的冠词、动词形式等等重组该句子(块318),并且将完成的句子“Der Junge
Figure BPA00001392902700151
zum Park(那个男孩正跑向公园)”输出到用户(块320)。
虽然是简化的例子,图7所示的方法300示出了意义世界的基本概念以及它的图形性质。技术人员会从本文的揭示认识到,许多复杂且富有挑战性的自然语言输入情况以及如以下所叙述的意义世界表示提供了很大的灵活性和能力来解决这些情况。
图8示出了本文揭示的语言对的示例性概念图。如图所示8,例如图2的四种语言使用四(4)对语言对而不是六(6)对。另外,加入一种额外的语言,意大利语,使用一个额外的语言对。因此,五种语言的差异在于用于本申请的五(5)对语言对与用于图2的十(10)对语言对。
因此,如图8所示,每种语言与中央意义世界连接,而不是任何其它特定语言。这提供了翻译系统的模块化方案,因为没有语言必须独立地连接到任何其它语言。此外,按照本申请的系统和方法产生了很低复杂性的系统,其开发成本通常也比现有技术的系统低得多。
本发明的实施方案可以例如特别有用于国际互联网聊天或即时消息传送会话。所揭示的系统的实施方案可以并入后端即时消息传送系统,在消息传送期间,可以将每个消息翻译成各个终端用户的优选语言。本文揭示的翻译系统的许多其它应用将在以下作详细讨论。
所述翻译系统的实施方案的特征在于用于多种语言的自然语言处理和多模块交互的模块化设计。不同语言的专用模块和语言独立的其它模块可以结合到能够进行分析、推理、搜索、翻译并生成自然语言的工作系统中。所述系统的实施方案处理多模块交互:书面和口语自然语言的输入和输出,以及输出为语言、语音、叙述或它们的组合。这些模块较佳地以可以由其它编程序重复使用的这样一种方式设计。如果可能的话,这些模块是语言独立的,因此有助于可重用性。严格定义的界面和通用接口程序管理所述系统组件之间的通信。通过这种设计,可以将每种语言翻译成每种其它语言。待翻译的语言也可以在单个语言内变化,例如将瑞士的德语翻译成高地德语,或将口语风格翻译成正式风格。有利地,不同的实施方案的特征可包括部分或全部以下的特征:
模块化:易于处理,可重复使用,可配置;
以网络为基础的:可从任何地方访问;
符合人体工程学的高度完善的软件:可由每个人使用;
以社区为基础的:可由每个人扩展;
普遍性:每种语言都可以结合;以及
视觉图形的核心:语言独立和可认知的充分性。
本申请的实施方案模型化和模拟人类的认知处理,以便于优化自然语言的理解和生成、翻译、搜索引擎或其它交流工作。
以人类的认知为基础的方案,如在这里所述的,按照人脑处理将语法和语义分开,并且它在单词的多重意义之间进行区别。在特定的组件中处理语法规则或依赖于语言的单词形式。在称为意义世界的语言独立层中处理语义。这种方案基于最近在神经学研究中的发现。如上述的伞例子所述,当沟通时,概念“伞”是被语言特定单词标签的对象。所涉及的人在不使用语言的情况下知道该对象。当下雨时如果他们要到外面,他们通过语言特定词典激活“标签”以与其它人进行沟通:“May I take this umbrella?”或“ich diesen Schirm nehmen?”(我可以用这把伞吗?)。
这有助于解释本语言处理方法的好处在于:将意义以人类的方式表示,并因此是语言独立的。可以加入所有的自然语言,因为它们使用相同的意义世界。这种方案不仅对翻译有用,而且它也有助于很多其它工作。在意义世界的实施方案中,在不需要特定语言的语法的情况下,可以加入、处理和储存信息。只要信息单位在意义世界中存在,可以很容易通过将语法表示与语言独立单元相结合来加入新的语言。
图9示出了意义世界翻译系统的实施方案的示例性框图。例如,图9包括系统组件或模块,它们可用于实现所揭示的语言处理和翻译系统。意义世界系统522包括概念的语言独立表示。意义世界系统522还给某些用户提供多媒体访问,以对存储在其中的术语和概念进行视觉或听觉表示。如图所示,每个语言语义系统524均与中央意义世界522连接。这是通过一个或多个语言工具526完成的。语言语义系统524还包括一个或多个语言词典528。在翻译系统内表示的每种语言通常会具有它自己的词典528以提供该语言的特定术语。词典条目与在意义世界系统522中的特定对象连接。然而,在某些情况下,语言可以充分地相关以能够分享全部或部分语言工具526。例如,不同的方言可用不同的语言表示,但一般遵循类似的语法规则诸如句子结构和词序。在这情况下,可用单个语言工具处理每种语言的分析,其中该语言分享一些、全部或基本上全部的文法规则。在一个实施方案中,语言工具提供了分析器530,该分析器用于从待翻译的句子选取术语,以及从对象世界图解制定合乎文法的句子。分析器530依靠文法规则532、词尾种类534、模板536等等适当地构成和拆开在相关语言中的句子。语言工具模板536有助于提供在语言词典中的术语的直接扩展以便于建设或修改系统内的语言。例如,该模板可以提供句子片段,这将有助于将新的术语适当地分类。更具体地说,如果用户希望将单词“tiger(虎)”加到语言词典,例如,他或她可以用模板显示以帮助该系统理解语音的部分或参考帧。一个很简单的例子,一组模板可以是“Atiger(一只虎)”、“I tiger(I虎)”和“the tiger ball(虎球)”。用户可以选择运用哪一个,而系统可以学习将该新的术语分类。在这情况下,系统能够认识到“tiger”是一个可采用不定冠词的名词,而不是分别为动词或形容词。同样地,该系统可能会显示模板以确定动词是否遵循规则或不规则的动词变化。通过这过程,该系统可以在不需要语言上的知识或关于系统的其它语言的知识的情况下由每个人扩展。
如上所述,分析器530是用于翻译到意义世界图解和从意义世界图解翻译的组件。然而,在另一个实施方案中,关系处理器527将语义系统524和分析器530连接到意义世界系统522。在这样的实施方案中,语义系统可生成仍然与原始语言连接的输入文本的图解。这图解可以进一步通过关系处理器527抽象成它的语言独立形式。关系处理器527可选取动词时态、介词短语信息,以及其它句子细节以帮助组织或增加上述语言独立图解。例如,在图7所示的例子中,关系处理器可指出“定冠词”、“连续形式”或“定向信息”。在不同的实施方案中,本领域的技术人员容易理解到,分析器530和关系处理器527可以是一个或多个同时共同行动或分别顺次行动的模块,并能够以除本文所述的那些方式之外的许多方式分担责任。本领域的技术人员还将从本文的揭示认识到其它将提供相同的或基本上类似的功能的配置。
转到图10,图10示出了表示意义世界522的数据结构的实施方案。一般来说,每个LIT对象638表示一个语言独立的特定术语,例如图中所示的术语“建筑物”、“房间”、“城市”、“房子”和“办公楼”。在一个实施方案中,每个对象均是数据结构,该数据结构包括对象ID 640、一个或多个关系连接644的组以及任选的一个或多个层次连接646的组。对象ID 640可以是识别在存储对象的计算机中的计算机记录的数字或代码,但通常是用户无法识别的。在一个实施方案中,LIT对象638使用关系连接644与其它相关术语连接。如图所示,“城市”和“建筑物”是相关的,因为城市包括许多建筑物;同样地,“建筑物”由许多“房间”构成,所以这两个对象是相连接的。在一个实施方案中,可以将这关系连接644加权以指出更强或更弱的连接。同样地,以分类-类型-子-类型(class-type-sub-type)这种关系相关的对象可以通过层次连接646连接,并且可形成一种树状结构。在图10中,这关系由“建筑物”、“房子”和“办公楼”的对象说明。“建筑物”是一个通用术语,它包括“房子”和“办公楼”等更具体的建筑物类型。虽然没有被描绘,“房子”本身然后可与子类型例如“农舍”、“大牧场”和“市政厅”连接。
LIT对象638还可以包括词典连接648。另外,词典对象528包括从特定语言术语650到适当的LIT对象638的连接。例如,图10示出了来自法语词典对象526的术语“
Figure BPA00001392902700191
(建筑物)”,来自英语词典的术语“building(建筑物)”以及其它已包括的语言将连接到“建筑物”对象638。同样地,英语术语“officebuilding”、德语术语
Figure BPA00001392902700192
以及法语术语“immeuble de bureaux”将连接到“办公楼”对象638。
每个对象还可以包括或连接到一个或多个媒体表示,诸如视觉表示642。视觉表示642可用于说明在多种情况中的相关术语。这对帮助将新的语言加入到系统中的用户特别有用,因为该视觉表示可以向用户显示以使用户认识到:他们应将该视觉表示与新的语言词典528中的什么术语连接。在一些实施方案中,所有音频文件、视频文件、图片文件等等都可以用作为相关的媒体表示。例如,“吹口哨”可以较佳地与音频文件或音频文件和图片关联,而不是仅仅与视觉表示关联。
对象的属性也可以连接在对象世界系统522中,并可具有特定的关系连接。例如,属性可以是情感尺度、颜色表示诸如温度、尺寸或质量的或物理属性。关系连接可允许沿一尺度放置特定的术语,使得有关的术语可沿该尺度连接到特定的或相对的值。例如,“极小”、“小”,“正常”、“大”、“极大”、“巨大”和“无限”都可落入尺寸尺度。属性空间本身可以是多维的。属性还可以结构树表示,例如“鲜红”、“胭脂红”和“紫红”都是“红色”的子类型。意义世界的单位在网络中以多种方式互相连接的那种方式,允许处理自然语言所需要的复杂性降低。
另外,在一个实施方案中,可以将意义世界系统522表示为一个虚拟世界或一组虚拟世界。例如,可以提供用户界面,该用户界面允许用户走查(walkthrough)意义世界系统522的虚拟表示。例如,用户可首先看到“城市”由“建筑物”组成,并能够放大到任何特定建筑物,诸如“房子”或“办公楼”。从那里,用户可以能够走进房子的“房间”,而每个房间可具有表示其它术语诸如“长沙发椅”、“椅子”、“床”、“桌子”等等的对象。每个对象还可被标签以显示被连接到该LIT对象638的词典连接648的该术语的语言表示。虚拟世界还可以包括人和行为的表示,以及修改属性。因此,在虚拟世界中导航到“门”对象可不只显示“门”的英文标签,但还显示“红色”的标签、“木制”的标签等等。
在另一个实施方案中,可存在多个“世界”而且在它们之间有连接。直接的对象可开发新的世界。例如,房间的景色可描绘为具有月亮在外面的窗口。在月亮上点击便可通向另一个空间导向的对象世界。人类的表示可通向模拟细胞的原理或人类的身体部位的对象世界。如果用户导航到在办公楼中的办公室,有可能是在办公桌上的文件的表示,导航到文件(诸如用例如光标和鼠标输入工具在它们上点击)还可打开一个树界面以显示通过层次连接646连接的对象638。例如,“文件”可与“广告”、“报告”、“期刊”等等相关。反之,“期刊”可连接到“报纸”和“杂志”等等。
通过这样的世界进行导航本身可作为有用的学习工具,因为用户可以选择观看在任何与意义世界连接的语言中的语言标签。在一个实施方案中,用户可以选择观看他们想知道的语言的标签,以帮助他们学习该语言。同样地,在一个实施方案中,可以显示以用户的主要语言和另一种语言表示的术语,以致于用户可以通过该视觉表示把两者联系起来。
在意义世界522中的对象638之间的各种关系还可被图形模块化。意义世界对象638之间的空间的、时间的、因果关系的、或隐喻的关系(还有其它类型的关系)非常适合于图形叙述。对于翻译来说,这些关系的性质是用于确定哪些结构和措辞会被口头表达的基础,因为各种语言以不同的方式表达这些关系:一些语言使用介词,其它语言视它们为附加到名词的语素等等。生成适当的结构和措辞的最好方式是根据中立的、抽象的以及图形的表示。通过这过程,生成组件不需要对输入结构进行复杂的重组(如由经典的机器翻译系统所完成的),而是简单地通过使用从关系至结构的映射而在目标语言的可用结构之间进行选择。
回到图7的翻译过程,现在可以说明关于意义世界系统522的更多细节。当选择合适的翻译时,关于所涉及的主题的知识通过过滤不属于这些主题的不明确意义来改进翻译。主题往往可以从翻译文本的图形表示的关系辨别出来(见块314)。对于几个主题来说,在N-维语义空间中会有许多词组。使用高效且快速的词组算法(clustering algorithms)如K平均(K-means)词组算法来寻找词组中心。这些词组中心表示文本的主题。如果有不明确的翻译,主题可以用来解决这些问题。例如,输入文本可包括“The dog was a Siberian Husky.(该狗是西伯利亚雪橇犬)”。术语“dog(狗)”实际上具有多重意义,包括“驯养犬”、“卑鄙的人”或“把铁棍打入一块石头或木材以提供将它举起的手段”。每个这些定义在其它语言中可能具有不同的翻译,因此对于对象世界系统522也是不明确的。然而,可以用句子的上下文帮助选择正确要使用的对象世界的对象(对应于“驯养犬”的那一个对象),因为句子的其它对象,尤其是“Siberian Husky(西伯利亚雪橇犬)”,将在对象意义世界中,较与其它的对象,与该对象更紧密地连接在一起。在概念上,例如“Siberian Husky”和适当的“dog”对象将同时出现在对象世界的与动物或宠物相关的子集中。
文本的语法分析往往产生许多语法图解和一些尚未解决的图解节点之间的连接,如上述“dog”的例子。在一个实施方案中,一般使用统计的方法来选择最佳的图解以区分不明确之处:贝叶斯定理(Bayes’theorem)。贝叶斯定理指出:给出证据(语义实体)的某些图解的概率是与待在该图中的语义实体的可能性乘以该实体在该图中的在前概率成正比。本领域的技术人员已知的是,由标准统计原理已知或衍生的其它算法和统计分析也可以用来帮助由原始语言至LIT对象解释(interpretation)的明确翻译。
本文揭示的语言处理系统的一个实施方案的一个方面是一组可以帮助用户编辑语言或将新的语言全体加入的工具。如已经解释过,用户可以通过虚拟世界进行导航,该虚拟世界有助于表示包括在语言独立意义世界中的术语。这将是很有用处的,其允许多个有兴趣的参与者帮助加入新的语言术语、改正错用的术语、甚至将新的语言加入到意义世界。虽然所有这些均可以通过熟练的程序员完成,但更快且更容易的是让许多用户的集体能力能够发展和改正意义世界。这种类型的小组工作业已由“维基”运动及网站诸如“维基百科”说明了。在一个实施方案中,可允许经挑选的符合条件的用户诸如语言学家、语言教授等等加入语言或编辑现有的语言;在另一个实施方案中,可允许任何有兴趣的用户加入或编辑语言。
在一个实施方案中,该系统产生了语言的可能结构的某些形式。由此,可避免对每一种语言的不同语法的耗时发展,相反,快速且高效的原型制作是有可能的。这样,可以快速地和容易地插入新的语言。该文法被语言分析和组件生成这两方面使用。
另外,可称为Lexi-Wiki(乐喜-维基)的图形用户界面允许用户将单词输入到特定语言词典528中。Lexi-Wiki被设计成每个人都可使用。从各自的单词,该工具生成待用户进行简单选择或修改的例句。由不同的语言特定词尾算法确定哪些形式和有多少单词形式需要向用户提出。将用户选择的例子翻译成可以通过所述程序进行处理的复合表示(complex representation)。在一个实施方案中,在下面的语形学过程使用语言学知识和频率信息来确定用户需要提供的最少信息。因此,它能够预测最有可能的单词形式,使得需要向用户要求尽量少的单词形式和尽量少的行为。通过这过程,精神负担或智力从客户方面转移到软件方面。
很多时候,用户将不能够对语义实体进行绝对定位,但他们很会辨别与其它语义实体的相异之处。使用多维尺度(multi-dimensional scaling),它是一种被设计成根据相异矩阵(dissimilarity matrix)放置多维点的算法,相异矩阵是一个包括与其它语义实体的差异(或相异)的矩阵。这些算法必须可以是模糊的,因为没有两个人会选择完全相同的差异。他们宁愿有概括强度的共识(如“遥远”或“非常接近于”)。
转到图11,其叙述了将一种语言加入到意义世界系统的过程。在块760中,用户登入到系统。在一些实施方案中,用户可以选择登入到特定的“用户修改”模式,其可以帮助防止对系统进行未经授权的或无意的变更。从菜单中,用户可以选择加入新的语言(块762)。在建立一种新的语言中,必须建立语法分析器来解构和生成句子。在一个实施方案中,该系统包括适当时用户可以选择的模板规则(块764)。例如,一个规则可指出形容词通常对在它们之后的名词进行修饰(例如英语),或形容词通常对在它们前面的名词进行修饰(例如法语)。修饰规则也可以解释这个规则的例外情况等等。一旦建立了分析器,可以将术语加入到新语言的词典中(块766)。每个术语均连接到意义世界对象(块768)。
可用许多的方式将新的术语连接,包括关于图12A和图12B所述的过程。在一个实施方案中,用户诸如通过菜单系统登入到系统中(块670)并选择将术语加到特定语言词典(块872)。用户可以输入术语(块874)。该系统可提供模板问题以帮助提供适当的使用语境(块878)。例如,模板可以帮助系统通过词性、规则或不规则的动词的变化等等对术语进行分类。回应还可有助于提供特定的意义世界语境以帮助指引用户到正确的意义世界或意义世界的区域,该术语的语言独立对象存在于其中。用户还可以浏览虚拟意义世界(块878)并选择应当与新的词典条目连接的虚拟表示(块880)。
在替换的实施方案中,图12B示出了用户可以将单词加到词典中的另一个过程。如图12B所示,用户登入到系统中(块882)。用户可以浏览意义世界(块884)。在特定的语境中选择对象(块886)可显示连接到该对象的术语,诸如通过在虚拟世界中显示一个弹出气球。当用户选择了一个对象,如果没有术语是相关联的,用户可以加入一个术语以“标签”该对象(块888)。同样地,用户可以改变标签以改正或增强语言词典。例如,可在英语词典中用“instrument(仪器)”或“musical instrument(乐器)”标签萨克斯管(saxophone)的意义世界表示。用户可以通过加入“萨克斯管”来编辑该标签以在层次方面显示更精确的术语。
另外,可以将外部资源连接到系统中,使得在互联网上、在公共或私人数据库等等可以得到的知识表示可以在语言系统的组件内使用。待连接的资源可包括例如语意网范例(DBpedia)、维基词典、开放街道地图(Open Street Map)、科学分类法、来自语义网
Figure BPA00001392902700241
(Semantic Web
Figure BPA00001392902700242
)的实体论、用户自己的分类法等等。在一个实施方案中,一致性检查组件验证不同表示的一致性并且能够对潜在的不同种类的知识来源进行正确计算。甚至可以不同的媒体类型诸如图形、视频和音频结合在一起。
转到图13,其示出了基本翻译系统和访问它的装置的实施方案。虽然这个翻译系统可以采用多种形式,以网络为基础的翻译系统可向大量感兴趣的用户提供容易的访问。例如,计算机系统994诸如服务器,可以存储部分或全部的编程代码,当执行该编程代码时会产生包括语言语义系统524的意义世界系统522的某些或全部功能。服务器994可与公共或私人的,局域或广域网992例如互联网电子通信。其次,不同的用户可以通过使用其它具有网络功能的装置990a,990b与翻译计算系统电子通信。适当的用户装置包括个人计算机、膝上型计算机、具有数据网络功能的手机或其它移动装置(例如黑莓
Figure BPA00001392902700243
装置、苹果iPhone
Figure BPA00001392902700244
装置、其它个人数字助理、移动电话等等)。在一些实施方案中,使用者可通过经由浏览器的网络界面或通过安装在用户装置上的独立编程序访问所述翻译系统。
如图7所示,一个用户可以使用个人计算机990b访问翻译服务、输入待翻译的文字、选择原始语言和目标语言,以及接收适当的已翻译的文本。同时,另一个用户可以通过在他们的计算机990a上的不同界面进行编辑或将语言加到该系统。该语言翻译系统较佳是可扩展的以允许许多用户在任何给定时间访问该系统。通过这方法,多个用户可尝试同时编辑语言。在优选的实施方案中,该翻译系统可提供封锁机构以允许仅仅一个用户在例如任何给定时间编辑特定词典528条目或特定意义世界LIT对象638。
虽然本说明书的许多内容都集中在使用意义世界和语言分析能力来产生翻译系统,这样的意义世界系统还有其它用途。例如,意义世界系统可以帮助增强搜索引擎的能力。本文所述的该系统的一个实施方案可以分析自然语言搜索查询诸如句子或问题。它可以选取关键术语以及生成图解和/或图形的语言独立等同物。由于这些语言独立对象638还与相关的LIT对象连接,用户的直接问题都可以扩大到包括类似的单词、其它单词形式、语义相关的单词等等。
作为例子,用户将问题“最近什么法院判决限定合资格的所得税(What recentcourt decisions define qualifying income tax)?”键入搜索引擎的网页中。对这问题的语法和词法进行了分析,以及选取文本的组件和它们的关系:“court(法院)”、“decision(判决)”、“define(限定)”、“qualifying(合资格)”和“income tax(所得税)”。可将这些信息用来生成问题的图解,好像正在进行翻译一样。然而,这些术语或意义世界对象638单独是不可提供所有主题的结果。这样,可以使用对象世界的关系连接644和层次连接646来扩大搜索的术语。例如,“decision”可连接到术语“判断”和“命令”。同样地,“court”可连接到“法官”,而“incometax”可连接到“美国国税局(IRS)”。可以使用这些附加的术语来扩大最终的搜索。因此,在没有用户需要扩大他们的术语或执行多次搜索的情况下,搜索结果的质量得到改善。
本文所揭示的另一个方面可以用来分析文本。有可能使用分析器来提取在文本中出现的主题。这可用于自动地对文本进行分类。此外,它可用于寻找关于在文本中语义结构的逻辑链或信息。继续上述的例子,这文本分析可以由网络爬虫程序(web-crawler program)使用,该网络爬虫程序为了搜索的目的尝试将新的网页分类。当分析文本时,输出可包括统计或主题的列表,该输出可用于标签用于搜索查询的网页。同样地,图书馆也可以使用类似的系统来帮助新书、期刊、文章等等的分类以生成主题的卡片目录和搜索数据库。
同样地,主题的选取能有助于在正确的环境中扩大搜索查询。例如,来自上述的搜索查询的“decision”也可连接到“选择”,而“court”可连接到“篮球”或“网球”。用这些术语来扩大搜寻很明显是将搜索扩大到一个不适当的对象世界空间。因此,确定该主题是“税收”和/或“法律”可以帮助搜索引擎在适当的语境内扩大术语。
更多的实施方案是有可能的。由于本揭示提供了文本的语言独立表示,可采用许多不同的形式来处理该表示。因此,本文的系统可以用于许多不同的应用。此外,可以将本文所述的不同的实施方案根据需要结合起来。
图13示出了计算系统994的一个实施方案的框图,该计算系统可以用于执行本文所述的某些系统和程序。例如,在一个实施方案中,计算系统994可被配置为接收由另一个计算机系统(诸如用户个人计算机990a,990b)要求的翻译、使用意义世界实现将该要求翻译成适当的语言,并将翻译返回。在计算系统994的组件和模块中规定的功能可合并到较少的组件及模块或进一步分割成额外的组件及模块。
计算系统994包括例如是IBM、Macintosh(麦金托什机)、Linux操作系统/Unix操作系统兼容的服务器或个人计算机等等。在一个实施方案中,计算装置包括例如服务器、膝上型计算机、手机、个人数字助理、公用电话亭或音频播放器。在一个实施方案中,示范性的计算系统994包括中央处理单元(“CPU”)1095,其可包括传统的微处理器。计算系统994进一步包括存储器1097,诸如用于临时储存信息的随机存取存储器(“RAM”)和用于永久存储信息的只读存储器(“ROM”),以及大容量存储装置1098,诸如硬盘驱动器、软盘或光媒存储装置。通常情况下,使用标准基于总线的系统将计算系统994的模块连接到计算机。在不同的实施方案中,标准基于总线的系统可以是例如外围组件互连接口(PCI)、微信道、小型计算机系统接口(SCSI),工业标准结构(ISA)和扩展工业标准结构(EISA)。
计算系统994一般由操作系统软件诸如视窗95、视窗98、视窗NT、视窗2000、视窗XP、视窗Vista、Linux操作系统、SunOS(Sun公司的操作系统)、SUN微系统公司开发的一种网络操作系统Solaris或其它兼容的操作系统控制和协调。在Macintosh系统中,操作系统可以是任何可用的操作系统诸如MAC OSX。在其它的实施方案中,计算系统994可由专有操作系统控制。除了其它事情以外,传统的操作系统控制和安排计算机过程的执行、执行存储器管理、提供文件系统、连网和输入/输出服务,以及提供用户界面诸如图形用户界面(“GUI”)。
示范性的计算系统994包括一个或多个常用的输入/输出(I/O)装置和界面1096,诸如键盘、鼠标、触摸板、调制解调器、以太网卡、扩音器和/或打印机。在一个实施方案中,I/O装置和界面1096包括一个或多个显示设备诸如显示器,该显示设备能够向用户显示数据的视觉表示。更具体地说,显示设备提供例如用于图形用户界面、应用软件的数据和多媒体显示的表示。计算系统994还可包括一个或多个多媒体装置1099,例如扬声器、视频卡、图形加速器和扩音器。在一个实施方案中,用户通过键盘或键盘的触摸板表示(输入设备1096)输入待翻译或处理的文本。在另一个实施方案中,扩音器(另一输入设备1096)接受口述的文本。该口述的文本可以任何众多的音频格式例如WAV、MP3或其它格式存储。中央处理器1095可处理这音频文本,并将它转换成书面文本诸如字符串数据对象、纯文本数据文件、微软
Figure BPA00001392902700271
Word文档等等。
在图13的实施方案中,I/O装置和界面1096对不同的外部装置提供了通信界面。在一个实施方案中,计算系统994通过有线、无线或有线和无线结合的通信链路与网络992例如局域网、广域网或互联网接合(见图13)。网络992通过有线或无线通信链路与不同的计算装置和/或其它电子装置通信。在图13的示范性实施方案中,网络992接合到一个或多个用户终端或计算装置990a,990b。计算装置990b将以音频或书面的文本格式的文本输入传达到计算系统994以进行处理。除了如图13所示的装置之外,网络992可与其它数据来源或其它计算装置通信。另外,数据来源可包括一个或多个内部和/或外部数据来源。在一些实施方案中,一个或多个数据库或数据来源可使用关系数据库来执行,诸如美国Sybase(赛贝斯公司)、Oracle(甲骨文)、CodeBase(基本代码公司)和微软的结构化查询语言服务器(SQL Server)以及其它类型的数据库,例如平面文件数据库、实体-关系数据库、面向对象(object-oriented)数据库和/或以记录为基础的数据库。
在图14所示的实施方案中,计算系统994还包括可以由中央处理器1095执行的应用模块。在图13所示的实施方案中,应用模块管理意义世界模型和数据。这模块可包括,作为例子,组件诸如软件组件、面向对象的软件组件、类组件和任务组件、过程、功能、属性、程序、子程序、程序编码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、图表、数组和变量。
一般来说,本文所用的单词“模块”是指在硬件或固件中体现的逻辑,或者软件指令的集合,其可能具有进入和退出点,以程序设计语言例如Java、Lua、C或C++编写。软件模块可以被编译及连接到可执行程序中,该可执行程序安装在动态连接库中的或可以用解释性编程语言例如BASIC、Perl或Python编写。值得赞赏的是软件模块可由其它模块或由它们自己调用,和/或可响应于已检测的事件或中断而调用。软件指令可嵌入固件如EPROM中。进一步值得赞赏的是,硬件模块可由连接的逻辑单元诸如门(gates)和触发器构成,和/或由可编程的单元诸如可编程的门阵列或处理器构成。本文所述的模块较佳地实施为软件模块,但也可以作为硬件或固件。一般来说,本文所述的模块是指逻辑模块,其可与其它模块结合或分割成子模块,而不管它们的物理构造或存储。
关于本发明的另一个示范性实施方案,本发明的一些基本特征将在以下的文本进行概述。它应当被视为支持理解本发明的教导的一个例子。
该语言处理系统在以下将被称为“Lingupedia(语言百科)”,其是卢森堡的Lingupedia投资有限公司(Lingupedia Investment S àrl)的商标。Lingupedia是指用于对文本进行自动翻译的模块化系统。
Lingupedia采用了完全模块化设计,提供多语种自然语言处理和多方式交互。任何类型的模块可以组合成工作系统,该工作系统能够分析、推论、搜索、翻译和生成自然语言。该系统处理多方式交互:书面和口语自然语言的输入和输出,以及作为语言、语音、叙述或它们的组合的输出。该模块以这样的方式设计,以致于它可以由不同的其它程序重复使用,或者是在Lingupedia系统内例如用于分析和生成,或者是由其它软件程序重复使用。如果可能的话,该模块是语言独立的,因此能够确保可重用性。严格定义的界面和通用界面程序管理各系统组件之间的通信。通过这个设计,可以将每种语言都翻译成任何其它语言。待翻译的语言甚至可以在个别语言内变化,例如将瑞士的德语翻译成高地德语,或者将口语化风格翻译成正式的风格。Lingupedia的核心特征是:
●模块化:易于处理,可重复使用,可配置;
●以网络为基础的:可从任何地方访问;
●高度完善的符合人体工程学的软件:可由每个人使用;
●以社区为基础的:可由每个人扩展;
●普遍的:每种语言都可以结合;以及
●视觉图形核心:语言独立和认知的充分性。
Lingupedia系统的中心思想是模型和模拟用于优化自然语言的理解和生成、翻译、搜索引擎或其它交流工作的人类认知处理的过程。
大多数算法都是基于正字法的形式,其意味着只是一种象征或字节字符串,而没有任何意义。即使实体论使用“房子是建筑物”的这种方法,有时具有数学的距离或空间,但它们总是用这毫无意义的字节链(byte chains)。该字节链的主要缺点是它们往往具有多种意义,其可能包括完全毫无意义:狗可以是宠物、抓钩、钢筋…
以人类认知为基础的方法如Lingupedia根据人脑过程来将语法和语义清楚地分开,且它从单词的多重意义进行区别。语法规则或依赖于语言的单词形式在特定的组件中被处理。语义在语言独立层-即Lingupedia意义世界(LMW)中进行处理。这方法根据最近在神经学研究中的发现。例如:如果几个不同语言的人坐在一起,而且在这房间里有一把伞,每个人都“知道”这是一把伞。但这“知道”并不意味着“伞”这个单词在出席的人的大脑中以任何的方式被激活。只用于交流目的,对象“伞”被语言特定单词标签。所涉及的人知道该对象而不需使用语言。如果当下雨时他们想要外出,他们通过语言-专用词典激活该“标签”但只与其它人进行沟通:“May I take this umbrella(我可以用这把伞吗)?”或“
Figure BPA00001392902700301
ich diesen Schirm nehmen(我可以用这把伞吗)?”。
Lingupedia方法的优点在于意义是以人类的方式表示,因此是语言独立的。因此,可以加入所有的自然语言,因为它们使用相同的意义世界。Lingupedia的主张在于:它不仅可以进行翻译,而且任何使用自然语言的工作或软件均可以通过我们的方案进行优化。在LMW的核心组件中,可以在不需要特定语言语法的情况下加入、处理和储存信息。只要信息单元是在LWM中存在,就可以很容易通过将依照语法表示与语言独立单元相结合来加入新的语言。
还可以语言独立地存储用户的意义:例如生产特定打印机的公司可以在LMW中从给定的打印机模板衍生这个打印机,用特定的部件适应所述被衍生的打印机并且用一种或多种语言标签它。对一种限定的语来说,带部件的和特征的描述的图象可以很容易地从LMW衍生。因此,多语种产品信息(如文件、市场信息、或错误报告)可自动由语言独立的意义世界生成。可以使以不同语言和形式(电子邮件、信件、电话)进行的客户沟通自动化,即分析、解释、分发到不同的部门和生成以回答客户。
除了这种CRM(客户关系管理)应用,LMW可用作为一种快速且高效的信息搜索机,因为在精神表示方面,它较其它方法更接近于人类知识表示。Linupedia方法既优于传统的以字符串为基础的搜索(需要在正字法形式的水平上完全符合),亦优于最近的语义网络搜索(需要对其中信息将被搜索的文本的专用注释)。
在LMW内的核心方法是标签方法。为了简化在LMW内的导航,语言特定的所谓标签可以被激活。例如,如果英语标签被激活,而用户导航到“umbrella(伞)”,标签算法查询英语词典以得到条目,并将它向用户显示。因此,另一种语言的用户在寻找所需信息方面得到援助。
在不同的世界中表示在LMW内的知识。一般使用“对象世界”、“结构树/网络”、“行为空间”和“属性空间”。
对象世界的主要工作是表示对象,在如德语、英语或中文的语言中该对象通常由名词表示。它由几个存储该对象(或他们的原型)的二维至n维空间构成,并把它们安排成有意义的组合。
在结构树或网络中组织这些对象。人类将关于世界的对象的知识以及它们的关系组织成有意义的结构。这组织以非一致的方式完成。它们使用概念和类目来存储信息和把信息分类。这样的类目的分组可以在“电子装置”(计算机、打印机、数字电话),或“文件”(信件、公文、发票)存在。
LMW的行为空间部分负责行为的表示。行为可以与LMW中的任何其它单位连接,例如被英语“withdraw(提取)”或德语单词“abheben(提取)”标签的单位可以被关联到对象“人”、“钱”和“自动提款机”作为所涉及的参与者。行为不须一定是动词:借助于行为被关联到例如两间公司的分子可以被标签为“竞争”或“作为竞争对手”。这种连接被称为分子(molecule)。
属性空间以简单的方式构成,也考虑到可用性问题。大多数(如果不是所有的)属性都可以一些自然的方式量化。感官属性如颜色、味道、尺寸或压力已经具有在不同语境下使用的一维至三维表示。
Lingupedia的部分也是以下的进一步表示和算法:
●知识表示的外部资源的整合
●在LMW中的单位的自然显示的叙述
●在LMW中的单位之间的图形关系
●文本中的主题的词组
●用于消除不明确性的统计分析
●用于计算相似性的多维缩放尺度
除了上述的组件,以下Lingupedia的部分被设计成用于将特定自然语言模型化:
●用于对每种语言的文法进行定义的语言独立文法编辑器
●用于对每种语言的单词进行定义的Lexi-Wiki
●多用途配置的词典
一般词典不能提供确切的意义:词典对单词dog(狗)提供以下英语到德语的翻译:Anschlag(吠犬)、Bauklammer(抽筋)、Finger(手指)、Gerüstklammer(脚手架)、Greifhaken(钩)、Hund(狗),和对单词Hund提供以下德语到英语的翻译:canine(犬科)、dog、hound(猎狗)。于是,对个别单词给出了几个不同的意义。LWM可以以完善方式将这些意义区分。这意味着首先具有被单词“dog”英语标签的,或者具有也是被相同的正字法形式“dog”(德语为“Gerüstklammer”)标签的构台(gantry)的专用部分的语言独立意义表示如多毛的动物。因此,如果字典通常具有30,000条英语条目,LMW将需要大约100,000个意义表示。可以通过查看上下文来解决语言独立意义:这dog-标签对象是否在建筑工地的领域中使用或者它是与用动词吠或步行标签的行为结合?一旦通过在LMW中找到正确的单位而使意义清楚,翻译或进一步处理可以较任何现有的系统做得更好。
Lingupedia可以a)利用和结合来自网络的现有的外部资源,以及b)开放所有Lingupedia组件给公众访问,包括语言特定的语法组件以及语言独立的语义区域LMW。此外,从一开始,甚至进一步有增长的LMW,很容易结合新的语言的语法部分,因为只需要完成简单的标签。Lingupedia提供了用于由没有专门知识的非专家用户进行快速而容易的标签的、并且涵盖所有人类语言的语言工具。
以下将说明该组件的一些细节。
在对象世界内,所有语义实体以语言独立的方式表示。该表示是图形,即以不同的形式被显现。语义实体对应生活在所谓“原型的”世界中的抽象或现实世界的对象。它们在二维至n维空间中和以有意义的结构来组织。
简单对象可以打开新的世界。例如,月球可以通向另一空间,如轨道。或者人类的表示可通向用于模拟细胞的原理或人类的身体部位的空间。对象的关系可以这样被表示,例如在设有建筑物、公园和花园的小镇中。所述建筑物可以是私人建筑物、公共建筑物或是办公楼。这建筑物包括办公室;办公室包括例如办公桌、计算机、架子、时钟和文件的对象。那样,对象与知识领域在空间或功能上相关,该知识领域由办公室或建筑物表示。该对象可由部件构成,例如时钟可由机械机构及设有部件时针和分针的显示装置构成。在这原型的世界中,对象的欧几里得几何学距离(Euclidean distance)表示两个对象之间的差异性。欧几里得几何学距离在语义空间中并不等于现实世界的欧几里得几何学距离。它是基于差异性或功能性的紧密度。
LMW使用相关联的网络或定向树作为知识表示。用户可从对象,例如躺在图形世界的办公桌上的“文件”对象,去到相应的树以找到例如对象“显示器”。每个对象可以被关联到多个结构树,例如对象“纸”被关联到“文件”,也被关联到“材料”的树,该“材料”的树有同类型的节点(sister nodes)如木材、金属等等。
在LMW中,在网络内有不同类型的关系:一种关系的类型可以是“is-a(是一种)”。在这里,对象是包括父型的亲代节点的子类型。子类型继承它们的父型的性质。多重继承是有可能的。这“is-a”树用于翻译在目标语言中没有标签的子类型。更一般的父型是用词语表达而不是用特定术语表达(用“公文”而不是“信函”、用“拿”而不是“提取”),或者选择同义字或反义词的否定措词。除了词义之间的下义关系,其他关系也用于推论和翻译:紧密度、相关性、的例子(instance-of)、的子句(member-of)、帧相关性、相似于、同义词、反义词、局部关系词(meronymy)等等。各种语言会有不同的词库清单。这种关系的网络允许以灵活的方式在需要处理每种语言的系统内产生自然语言,在所述系统中,不同的语言因为语言固有的原因或者因为某些单词还没有被标签在Lingupedia系统中而缺乏了某些单词。在LMW中的单位可以是这样人造的,以致于它们只是结构树的一部分。对于一些关系或构造的节点,也是这样。
尤其对于行为来说,可显视的表示是充分认知的,因为用词语表达的定义是很难理解并且与视觉的表示相比较少被用户直观得到。采用电影、图形显示运动或原理图叙述来说明不同的行为。也可采用行为空间表示动词的主题角色或其他实体。主题角色涉及对于它的代理、主题、目标等等的行为。该角色由用户限定或者从以图形显示的行为的性质推论。这是以优雅和直观的方式把内部、主题结构分配到行为和事件。这种关于所涉及的角色的知识用于消除不明确性及用于正确生成目标句子。
对象的属性可以是情感的尺度,色彩表示或物理属性如温度、尺寸或质量。例如股票可被关联到表示代表货币单位的数字尺度的二维空间。其他单位如行为可以被关联到这空间,该行为可用“上升”或“下跌”标签。类似于该行为空间,属性空间可以连接到在LMW中的其他单位。颜色可以被关联到被“车”标签的对象。属性空间本身可以是多维的。属性可表示结构树,例如“鲜红”、“胭脂红”和“紫红”都是“红色”的子类型。那样的话,意义世界的单位是在允许处理自然语言所需要的复杂推导的网络中以多种方式互相连接的。
可以将外部资源连接到系统中,使得在互联网上可用的知识表示可以在系统的组件内使用。待连接的资源例如语意网范例(DBpedia)、维基词典、开放街道地图,科学分类法、来自语义网
Figure BPA00001392902700341
(Semantic Web
Figure BPA00001392902700342
)的实体论、用户自己的分类法等等。非常完善的一致性检查部件验证不同表示的一致性并且能够对全部异质知识来源(heterogenous knowledge sources)进行正确计算。甚至可以结合不同的媒体类型诸如图形、视频和音频。不同的解释或翻译算法允许处理不同种类的表示。
化身表示人类或动物。如在LMW中的所有对象般,化身由别的物体推论出来。因此,给出了依靠已推论对象的固有层次。人类的思想也在有限的世界模拟中工作(这是原创作者的假设):如果人类想象从自动提款机提款,他们不会使用单词“我、银行、自动提款机、提取”。相反,他们使用语言独立“思想的图像”或“思想的场面”来想象该过程。他们甚至可以在没有使用他们的身体的情况下模拟整个故事,例如在梦里。他们想象他们的身体在人工的大脑模拟环境中。稍后,LMW将通过人工智能作为用于该模拟的平台。
不同的关系也可被图形模型化。实体之间的空间、时间、因果关系或隐喻性关系(还有其他类型的关系)非常适合于图形叙述。对于翻译,这种关系是用于确定待口头表达的结构和措辞的基础,因为各语言以不同的方式表达这些关系:一些语言使用介词,其它的语言视它们为附加到名词的语素等等。生成适当的结构和措辞的最好方式是根据中立、抽象及图形的表示,并且是充分认知的。通过这方法,生成组件时不需要对输入结构进行复杂的重组(如由经典的机器翻译系统完成的),而只是使用从关系至结构的映射在目标语言的可用结构之间进行选择。这些映射算法已被发展用于生成待结合的每种语言。
关于主题的知识通过过滤不属于这些主题的不明确意义来改进翻译。对于几个主题来说,在N维的语义空间中会有许多词组。使用高效且快速的词组算法如K-means词组算法来寻找词组中心。这些词组中心表示文本的主题。如果有不明确的翻译,主题可以用来解决这些问题。
文本的语法分析往往产生许多语法图解和一些尚未解决的在图解节点之间的连接。使用统计的方法来选择最佳的图解:贝叶斯定理。贝叶斯定理指出某一图解给予证据(语义实体)的概率是与待在该图中的语义实体的可能性乘以该实体在该图中的在前概率成正比的。
Lingupedia系统的部分是世界上第一个语言独立的文法编辑器:用户可以在没有任何编程知识的情况下撰写文法。只需要有语言的可能结构的某些形式在手。由此,可避免对每一种语言的不同文法的耗时发展,相反,快速且高效的原型制作是有可能的。这样,可以快速地且容易地插入新的语言。该文法被语言分析和组件生成这两方面使用。这种组件的模块化和可重用性的概念适应用于以下的语法的表示和过程:
●语言独立,即文法结构的普遍、抽象表示
●用于分析和生成的文法
●用于分析和生成的语法-语形学规则
称为Lexi-Wiki的图形用户界面允许用户将单词输入到语言特定词典中。Lexi-Wiki不需要任何关于在手语言的专业知识,但被设计成每个人都可使用。从各自的单词,该工具产生待用户进行简单选择或修改的例句。由不同的语言特定词尾算法确定哪些形式和有多少单词形式需要向用户展示。将用户选择的例子翻译成可以通过程序进行处理的复合表示。下层的语形学方法使用语言上的知识和频率信息来确定用户需要提供的最少信息。因此,它能够预测最有可能的单词形式,使得向用户要求尽量少的单词形式和尽量少的行为。通过这方法,精神负担或智力从客户端转移到软件方面。
这词典方法被设计成用于各种自然语言应用和所有类型的语言的普遍的、多用途主词典。这词典提出了新的表示水平:在个别单词和完整的句子之间设置的短语水平。因此,语言的单位可以以非常灵活的方式在连续的单词-短语-句子上进行处理。到目前为止,大多数自然语言系统的主要问题是多字表达,多字表达可以在或多或少固定的结构中被表示:从不变及根本不修改(具有固定的形式及没有内部结构)到具有带某些限制的内部结构(语义、语法、词库、语用、文体等等),一直到开放给任何类型的修改。
词典方法提供了一种用于以不同的自然语言应用可用的特征来注释条目的机构:用于语形学分析和生成的语形学特征、用于语法分析和生成的语法特征、用于语义处理的语义特征、用于文法处理的文法特征以及用于有效设计自然语言对话的对话相关特征。为了解释以特征为基础的方法:使用自然语言的表面形式(字符串)来处理自然语言是不理想的,因为每一个变型及等同物或相关的形式必须分开处理。这方法效率不高:对程序员来说是费力且容易出错的,并且没有给使用者提供与软件互动的灵活性,例如在对话中:他/她必须使用软件已准备好的确切的字符串,否则他/她根本不能被理解。通过使用所述特征,可以利用更高水平的科学抽象概念,导致以更灵活且更自然的方式进行互动。
除了用于书面语言互动的语言信息,该词典还存储关于单词的读音的信息,该关于单词的读音的信息可用于音频输入和输出,两者都是语音识别和合成。可以结合转换算法。该转换算法将发音表示的内部形式翻译成另一种待由不同类型的软件进一步处理或将向用户显示的形式。因此,这信息可以灵活的方式用于不同的应用。配置工具允许选择不同应用所需要的正确的词典部分。
通过存储基本形式(base forms)而不是完整形式(后者是语音相关软件常见的),该词典采用了既有效又灵活的表示和处理形式,并允许动态生成所有可能的词尾、引伸语和复合形式。产生不同的单词形式、同时确保由单词的内部结构衍生的正确发音和适合于单词的内部结构的生成算法是该系统的一部分。该词典还提供用于表示在词库条目之间不同的关系的方法。该关系是指不同的语言处理工作,例如通常不用于语音但用于书面语言的缩写。如果它是用于语音合成,它的完整形式被表示成使它可发音。或者,如果一个条目待通过搜索引擎找到,该条目的各种正字法和词尾形式与搜索工作无关,但直至现在,它们必须被明确表示。用Lingupedia的方法,它们是相关的,而且可以很容易被发现。
本领域的普通技术人员将会想到本发明的许多变型和其它实施方案,其中本发明涉及具有在上述的叙述和相关的附图所提出的教导的好处。因此,应该明白,本发明不应限制于所公开的特定实施方案,变型和其它实施方案应包括在所附权利要求的范围内。虽然本文使用了特定的术语,但它们只是用于一般性的说明,不是为了限制性的目的。

Claims (30)

1.一种使用语言处理系统处理自然语言的方法,其中,将书面或口语文本输入到所述语言处理系统,其特征在于,该方法包括以下步骤:
分析所述文本的语法和词法,
选取所述文本的组件以及它们相对彼此的关系,
生成或者使用所述文本的图解或图形表示作为所述文本的意义的语言独立表示,以及
使用所述图解或图形表示对所述文本进行处理。
2.如权利要求1所述的方法,其特征在于,以视觉图形的方式将所述文本模型化,其中所述视觉图形模型是语言独立的,使用户在不具有关于所涉及的语言的知识的情况下能够扩展所述语言处理系统。
3.如权利要求1或2所述的方法,其特征在于,通过语言独立文法编辑器将用于所述分析步骤的文法数据输入到所述语言处理系统。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述分析步骤是由执行所述文本的分割和标记化的所述语言处理系统的语法层执行,其中,所述语法层可以设置到所述语言处理系统。
5.如权利要求4所述的方法,其特征在于,每种将由所述语言处理系统处理的语言是在分开的语法层中被表示,由此,其它语言的抽象概念可以在个别语法层内重复使用。
6.如权利要求4或5所述的方法,其特征在于,由所述语法层生成的数据的进一步抽象概念和概括化由关系层执行,其中优选地,所述数据描述了对象之间的关系及所述对象的抽象概念。
7.如权利要求4至6中任一项所述的方法,其特征在于,在所述语法层和所述关系层选取所述文本的语言独立信息,其中,将所述语言独立信息发送到语义层,其中所述语言独立信息包括对象、行为和属性。
8.如权利要求1至7中任一项所述的方法,其特征在于,在所述生成图解或图形表示的步骤中,句子或短语的对象、行为和属性是连接在一起的。
9.如权利要求8所述的方法,其特征在于,所述对象、行为和属性是以图形表示的。
10.如权利要求1至9中任一项所述的方法,其特征在于,所述的处理步骤包括在意义世界模型内对所述信息进行推理的步骤,从而校核所述文本的已选取语义以确保一致性。
11.如权利要求1至10中任一项所述的方法,其特征在于,所述的处理步骤包括以不同于所述文本的原始语言的语言生成所述文本的翻译的步骤,其中,所述图解或图形表示是所述翻译的基础。
12.如权利要求1至11中任一项所述的方法,其特征在于,所述的处理步骤包括对所述文本进行分析的步骤,这是为了搜索或其它语言处理工作的目的。
13.如权利要求10至12中任一项所述的方法,其特征在于,所述的处理步骤包括使用由所述意义世界模型提供的信息生成对所述文本的回答的步骤。
14.如权利要求1至13中任一项所述的方法,其特征在于,在所述的处理步骤生成的文本以书面或口语或者作为叙述的方式输出到用户。
15.如权利要求1至14中任一项所述的方法,其特征在于,使用被设计成每个人都适用的网络界面输入在所述个别步骤使用的知识,其中,所述知识可包括词库标签、意义世界模型的内容、文法信息以及属性表示。
16.一种用于处理自然语言的系统,包括:
语言独立模块,其中,所述模块操纵多个表示术语的对象和在对象之间的和关系;
多个依赖于语言的词典模块,每个词典模块均具有多个条目,每个词典的条目与存储在所述语言独立模块中的多个对象中的其中一个连接;
文本分析器,其与一个或多个所述依赖于语言的词典模块相关联;以及
句子发生器,其与一个或多个所述依赖于语言的词典相关联,
其中,所述文本分析器接收输入,从所述输入选取关键术语,并且根据来自所述语言独立核心模块的多个对象使用所述关键术语的图形表示,其中,所述句子发生器根据所述图形表示以其中一种与它相关联的语言表达输出文本。
17.如权利要求16所述的系统,其特征在于,所述输入包括书面文本或口头文本。
18.如权利要求16所述的系统,包括至少一个设有所述一个或多个依赖于语言的词典的语言语法模块,所述语言语法模块包括所述文本分析器、一套文法规则以及一套模板。
19.如权利要求18所述的系统,其特征在于,每个依赖于语言的词典均与不同的语言语法模块相关联。
20.如权利要求18所述的系统,其特征在于,至少两种密切相关的语言的依赖于语言的词典与相同的语言语法模块相关联。
21.如权利要求16所述的系统,其特征在于,所述语言独立模块进一步存储被存储在所述模块中的相关术语的媒体表示。
22.如权利要求21所述的系统,其特征在于,所述媒体表示包括图片、音频或视频。
23.如权利要求21所述的系统,其特征在于还包括编辑组件模块,其中,所述编辑组件模块有利于改变所述词典的条目以及改变它们与存储在所述语言独立模块中的多个对象中的其中一个的连接。
24.如权利要求23所述的系统,其特征在于,所述编辑组件模块进一步适合于帮助将条目加入到所述多个依赖于语言的词典中。
25.如权利要求23所述的系统,其特征在于,所述编辑组件模块适合于从网站访问。
26.如权利要求25所述的系统,其特征在于,所述术语的媒体表示可以在虚拟世界内显示。
27.如权利要求23所述的系统,其特征在于,所述编辑组件模块将访问限制给有资格的用户。
28.一种开发语言处理系统的方法,包括:
制定语言独立核心,所述核心包括语言术语对象,每个语言术语对象均包括语言术语的媒体表示,以及在相关的语言术语之间的连接;
加入与特定语言相关的词典对象;
将来自特定语言的单词加入到所述词典对象;以及
将所述单词与适当的核心语言术语对象连接。
29.如权利要求28所述的方法,其特征在于,在相关联的语言术语之间的连接包括关系连接和层次连接。
30.如权利要求28所述的方法,包括根据文法和语法规则建立用于所述特定语言的语言分析器。
CN2009801537961A 2008-11-07 2009-11-03 使用图形国际语对自然语言进行语义处理的方法 Pending CN102272755A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP08019498A EP2184685A1 (en) 2008-11-07 2008-11-07 Method for semantic processing of natural language using graphical interlingua
EP08019498.8 2008-11-07
US12/267,461 2008-11-07
US12/267,461 US20100121630A1 (en) 2008-11-07 2008-11-07 Language processing systems and methods
PCT/EP2009/007868 WO2010051966A1 (en) 2008-11-07 2009-11-03 Method for semantic processing of natural language using graphical interlingua

Publications (1)

Publication Number Publication Date
CN102272755A true CN102272755A (zh) 2011-12-07

Family

ID=41460497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801537961A Pending CN102272755A (zh) 2008-11-07 2009-11-03 使用图形国际语对自然语言进行语义处理的方法

Country Status (3)

Country Link
CN (1) CN102272755A (zh)
RU (1) RU2509350C2 (zh)
WO (1) WO2010051966A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630771A (zh) * 2015-12-25 2016-06-01 陈福 语句处理方法及装置
CN108460026A (zh) * 2017-02-22 2018-08-28 华为技术有限公司 一种翻译方法及装置
CN108932225A (zh) * 2017-05-26 2018-12-04 通用电气公司 用于将自然语言需求转换成为语义建模语言语句的方法和系统

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
RU2595489C2 (ru) * 2014-06-18 2016-08-27 Самсунг Электроникс Ко., Лтд. Выделение временных выражений для текстов на естественном языке
RU2584457C1 (ru) * 2015-02-03 2016-05-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и способ создания и использования пользовательских семантических словарей для обработки пользовательского текста на естественном языке
RU2605077C2 (ru) * 2015-03-19 2016-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для хранения и поиска информации, извлекаемой из текстовых документов
US10467598B2 (en) * 2015-04-30 2019-11-05 Samsung Electronics Co., Ltd. Apparatus and method for automatically converting note to action reminders
CN105488024B (zh) * 2015-11-20 2017-10-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置
US9836527B2 (en) * 2016-02-24 2017-12-05 Google Llc Customized query-action mappings for an offline grammar model
RU2639652C1 (ru) * 2016-07-13 2017-12-21 Общество с ограниченной ответственностью "ЭсДиАй Рисёчь" Система семантического поиска в объектно-процессной модели данных
RU2635882C1 (ru) * 2016-11-22 2017-11-16 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Устройство для распознавания степени научности опубликованных построений
KR102103563B1 (ko) * 2018-12-31 2020-04-22 충남대학교산학협력단 챗봇을 이용한 사용자 명령어의 태깅처리 시스템
CN109933805A (zh) * 2019-03-26 2019-06-25 深圳Tcl数字技术有限公司 文本解析方法、系统及计算机可读存储介质
RU2714899C1 (ru) * 2019-11-10 2020-02-20 Игорь Петрович Рогачев Способ формирования онтологической базы данных структурированного массива данных
CN112200317B (zh) * 2020-09-28 2024-05-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
RU2759090C1 (ru) * 2020-12-18 2021-11-09 Общество с ограниченной ответственностью "Виртуальные Ассистенты" Способ управления диалогом и система понимания естественного языка в платформе виртуальных ассистентов
CN112883278A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 基于智慧社区大数据知识图谱的不良舆论传播抑制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9716887D0 (en) * 1997-08-08 1997-10-15 British Telecomm Translation
US7016828B1 (en) * 2000-10-23 2006-03-21 At&T Corp. Text-to-scene conversion
KR20020045343A (ko) * 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
US20020165708A1 (en) * 2001-05-03 2002-11-07 International Business Machines Corporation Method and system for translating human language text
WO2003032199A2 (en) * 2001-10-05 2003-04-17 Jarg Corporation Classification of information sources using graph structures
US7346493B2 (en) * 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630771A (zh) * 2015-12-25 2016-06-01 陈福 语句处理方法及装置
CN105630771B (zh) * 2015-12-25 2019-03-26 陈福 语句处理方法及装置
CN108460026A (zh) * 2017-02-22 2018-08-28 华为技术有限公司 一种翻译方法及装置
CN108460026B (zh) * 2017-02-22 2021-02-12 华为技术有限公司 一种翻译方法及装置
US11244108B2 (en) 2017-02-22 2022-02-08 Huawei Technologies Co., Ltd. Translation method and apparatus
CN108932225A (zh) * 2017-05-26 2018-12-04 通用电气公司 用于将自然语言需求转换成为语义建模语言语句的方法和系统
CN108932225B (zh) * 2017-05-26 2023-09-26 通用电气公司 用于将自然语言需求转换成为语义建模语言语句的方法和系统

Also Published As

Publication number Publication date
WO2010051966A1 (en) 2010-05-14
RU2011122784A (ru) 2012-12-20
RU2509350C2 (ru) 2014-03-10

Similar Documents

Publication Publication Date Title
CN102272755A (zh) 使用图形国际语对自然语言进行语义处理的方法
Desagulier et al. Corpus linguistics and statistics with R
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
Androutsopoulos et al. Generating natural language descriptions from OWL ontologies: the NaturalOWL system
US20100121630A1 (en) Language processing systems and methods
Baker Glossary of corpus linguistics
US8521512B2 (en) Systems and methods for natural language communication with a computer
JP2009521029A (ja) 非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム
Nguyen et al. Ensuring annotation consistency and accuracy for Vietnamese treebank
EP2184685A1 (en) Method for semantic processing of natural language using graphical interlingua
Chabata The Nambya verb with special emphasis on the causative
JP2997469B2 (ja) 自然言語理解方法および情報検索装置
Lee Natural Language Processing: A Textbook with Python Implementation
Miesenberger et al. Computers Helping People with Special Needs: 18th International Conference, ICCHP-AAATE 2022, Lecco, Italy, July 11–15, 2022, Proceedings, Part I
Kilgarriff Putting the corpus into the dictionary
Tulsian et al. Generating ISL using audio speech
Dannélls Multilingual text generation from structured formal representations
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Bova et al. Discovering the world city: from texts' analysis to 3D scenes visualization
Gaidienė European Language Equality in the Digital Age: The Case of Lithuania
Plhák Dialogue-based Exploration of Graphics for Users with a Visual Disability
Maisto A Hybrid Framework for Text Analysis
Trandabăţ et al. Linguistic Linked Open Data: 12th EUROLAN 2015 Summer School and RUMOUR 2015 Workshop, Sibiu, Romania, July 13-25, 2015, Revised Selected Papers
Shi et al. Syntactic n-grams in Computational Linguistics, by Grigori Sidorov. Cham, Springer Nature, 2019. ISBN 9783030147716. IX+ 92 pages.
Kammani et al. A review of Quranic computation for e-learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MATROX SPECIALIZED CO., LTD.

Free format text: FORMER OWNER: LINGUPEDIA INVEST SARL

Effective date: 20131105

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131105

Address after: The British Virgin Islands of Tortola

Applicant after: Stride professional company limited

Address before: Luxemburg duchy, Luxemburg

Applicant before: Lingupedia Invest SarL

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111207