CN106055537B - 一种自然语言机器识别方法及系统 - Google Patents

一种自然语言机器识别方法及系统 Download PDF

Info

Publication number
CN106055537B
CN106055537B CN201610349629.6A CN201610349629A CN106055537B CN 106055537 B CN106055537 B CN 106055537B CN 201610349629 A CN201610349629 A CN 201610349629A CN 106055537 B CN106055537 B CN 106055537B
Authority
CN
China
Prior art keywords
sentence
group
predicate
natural language
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610349629.6A
Other languages
English (en)
Other versions
CN106055537A (zh
Inventor
王立山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610349629.6A priority Critical patent/CN106055537B/zh
Priority to US15/224,505 priority patent/US20170337180A1/en
Publication of CN106055537A publication Critical patent/CN106055537A/zh
Application granted granted Critical
Publication of CN106055537B publication Critical patent/CN106055537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自然语言机器识别方法,包括下述步骤:(1)建立似谓词演算形式词义对应的数据库;(2)输入自然语言信息;(3)对所述的自然语言信息的语句进行逐句切分处理,并根据切分规则转换为一个或一个以上的似谓词演算形式句;(4)将所述的多个似谓词演算形式句转换为机器识别的电信号,然后输入至中央处理单元进行搜索或识别或递归或替代中的至少一种方式进行逻辑推理或隐喻或联想创造性思维的功能处理,并生成新的数字代码组合;(5)将所述的数字代码组合回溯转换为与输入的自然语言信息相应的新的自然语句作为输出,或者作为学习结果进行存储。

Description

一种自然语言机器识别方法及系统
技术领域
本发明涉及自然语言文字处理研究领域,特别涉及一种自然语言识别方法及系统。
背景技术
随着人工智能的快速发展,各种人工智能产品在社会各方面获得了愈加广泛的应用。但是,人与机器直接使用人类自然语言交流,是实现人工智能的终极目标。目前,由于方法论和技术路线的欠缺,人工智能尚远远做不到这一点。
发明内容
本发明要解决的技术问题是针对现有人工智能的上述不足,提出对于现有人工智能具有颠覆性的方法论,提供由人类思维通过自然语言文字完全转为机器思维载体的方法,从而实现人机思维的一致性,实现机器像人一样思维和与人互动。
本发明的技术方案是这样的:一种自然语言机器识别方法,包括下述步骤:(S11)建立似谓词演算形式词义对应的数据库;(S12)输入自然语言信息;(S13)对所述的自然语言信息的语句进行逐句切分处理,并根据切分规则转换为一个以上的似谓词演算形式句;(S14)将所述的一个以上的似谓词演算形式句转换为机器识别的电信号,然后输入至中央处理单元进行搜索或识别或递归或替代中的至少一种方式进行自动推理、联想思维的功能处理,并生成新的数字代码组合;(S15)将所述的数字代码组合回溯转换为与输入的自然语言信息相应的新的自然语句作为输出,或者作为学习结果进行存储。
本发明所述的似谓词演算形式的定义为:自然语言句式均是由四种最简思维模式之一或组合构成的句式,每一种最简思维模式句均为包括谓词的最简句式,和现有的谓词演算的表达方式相似,将上述四种最简思维模式定义为似谓词演算形式。本发明所述的自然语言信息转换为似谓词演算形式句后的自动推理、联想过程为:切分后的语句变成了由三项一组的字词构成的最简思维模式的集合,运用搜索或识别或递归或替代中的至少一种方式而实现自动推理、联想思维过程。所述的四种最简思维模式分别为:(1)“WHAT BEWHAT”模式,即“什么是什么”模式;(2)“WHAT DO WHAT”模式,即“什么做什么”模式;(3)“WHAT BE WHERE”模式,即“什么在哪里”模式;以及(4)“WHAT BE STATE”模式,即“什么在何状态”模式。
本发明所述的数据库至少包括用自然数编码的新代码字词库,所述用自然数编码的新代码字词库通过手工输入或利用现有的开放代码源的字词库输入字词的方式来建立。
本发明所述的切分规则为:将输入的自然语言信息的句子切分为一个以上的似谓词演算形式句,把句子每一层的意义完整地保留下来,每一个所述的似谓词演算形式句是由最多三项一组的字词组成的最简句式;所述的自然语言信息对应段落的句子经切分后,转换为多个由三项一组构成的一组数列的集合。
本发明所述的切分规则采用以下的算法模型来实现:
(S21)以句号为一个语句的句义中止标识,以段落为句义群中止标识,以整篇为段义群中止标识;子句以逗号为界,搜索整体句中的最简句式中间项的谓词,依次与字词库进行比对;
(S21.1)以此谓词为界确定第一层面的前部项、后部项的句子成份,从而确定句式前部项为第一层面的最简句式第一项,确定句式后部项为第一层面的最简句式第三项;
(S21.2)如果原句中间项的谓词有省略,则先补足谓词,然后重复步骤(S21.1)的操作;
(S22)按顺序分别对所述的句式前部项和句式后部项为进行第二层面切分,重复进行相同于上述步骤(S21)的切分过程;
(S23)限定词的受限主词作为下一层面的最简句式的第一项,第二项添加谓词,第三项则为该限定词;
(S24)再在下一层面进行上述切分过程,直至全句完成切分。
本发明所述的句子中谓词的搜索算法模型为:
(S31)在一句子中逐次将字与字词库比对,对应字词库输出各词在该句子中的属性/词性,直到搜索出第一个谓词,继续之后的搜索;如果再未有谓词,则搜索完成;判断词或动词之前者为行为使动者,之后者为表述词或行为受动者,得到最简句式。
(S32)如果后边搜索到第二个谓词,继续之后的搜索,如果再未有谓词,则搜索完成;谓词之前者为行为使动者,之后者为表述词或行为受动者,即找出了最简句式的复合结构。
本发明所述的由自然语言信息转换的似谓词演算形式进行演算的推理算法模型:
(S41)按时间优先原则,取首句第一组数列中的第三项减次句中第一组数列中的第一项,如结果为0,并且首句第一组数列中的第二项减次句第二组数列中的第二项的结果也为0,则将次句第二组的第一项替代首句第一组数列的第三项;新的首句第一组数列构造完成;
(S41.1)如未有上述结果,则取首句第一组数列中的第三项减次2句第三组数列中的第一项,如结果为0,并且首句第一组数列中的第二项减次2句第三组数列中的第二项的结果为0,则将次2句第三组的第一项替代首句第一组数列的第三项;新的首句第一组数列构造完成;
(S42)取第一组数列中的第三项减去已成功完成步骤(S41)运算的次组数列中的第一项,如结果为0,并且第一组数列中的第二项减去已成功完成步骤(S41)运算的次组数列中的第二项的结果为0,则将已成功完成步骤(S41)运算的次组数列中的第一项替代第一组数列的第三项;新的第一组数列构造完成;
(S43)继续上述过程直至无法完成上述过程,中止;输出新的第一组数列,得到推理结果;
(S44)如果所选的一组数列无法完成上述过程,则选择次一组数列进行上述过程;
(S45)有推理结果或无推理结果,输出结论。
本发明还提供一种自然语言机器识别系统,包括人机接口模块、句子切分模块、中央处理单元、句式合成模块及数据库模块,所述的句子切分模块和句式合成模块分别与所述中央处理单元的输入端和输出端通过电信号相连,所述的数据库模块至少包括字词库管理模块;
人机接口模块用于输入自然语言信息;所述的句子切分模块对所述的自然语言信息的语句进行逐句切分处理,并根据切分规则转换为一个以上的似谓词演算形式句,将所述的一个以上的似谓词演算形式句转换为机器识别的电信号,然后输入至中央处理单元;所述的中央处理单元进行搜索或识别或递归或替代中的至少一种方式进行自动推理、联想思维的功能处理,并生成新的数字代码组合;所述的句式合成模块将所述的数字代码组合回溯转换为与输入的自然语言信息相应的新的自然语句作为输出,或者作为学习结果进行存储;
所述的似谓词演算形式的定义为:自然语言句式均是由四种最简思维模式之一或组合构成的句式,每一种最简思维模式句均为包括谓词的最简句式,和现有的谓词演算的表达方式相似,将上述四种最简思维模式定义为似谓词演算形式;
所述的自然语言信息转换为似谓词演算形式句后的自动推理、联想过程为:切分后的语句变成了由三项一组的字词构成的最简思维模式的集合,运用搜索或识别或递归或替代中的至少一种方式而实现自动推理、联想思维过程;所述的四种最简思维模式分别为:(1)“WHAT BE WHAT”模式,即“什么是什么”模式;(2)“WHAT DO WHAT”模式,即“什么做什么”模式;(3)“WHAT BE WHERE”模式,即“什么在哪里”模式;以及(4)“WHAT BE STATE”模式,即“什么在何状态”模式。
本发明所述的数据库模块为多库协同模块,还包括知识库管理模块、情景库管理模块、多元语义网络库管理模块及隐喻网络库管理模块。
本发明与现有技术相比,具有下述优点:
自然语言语句的基础是基本思维表达模式,与谓词演算形式相似。本发明可以实现自然语言与谓词演算形式的完全及自动转换,从而为实现机器直接使用人类自然语言的人工智能奠定基础,实现与人的思维使用完全相同的载体——语言文字系统,智能工作的基础机制是相同的。由于转换保留着全部完整句义信息,因而完全实现了机器对人类自然语言直接使用的技术路径,这体现在本发明所提出并论述的自然语言似谓词形式转换后的基本思维表达方式及推理、隐喻、联想等表述之中。
按照本发明的方法实现的人工智能,通过使用和人一样的思维载体——自然语言信息(如文字),使机器能够和人一样对话、推理思考、解决问题,所以,最接近“人脑”。自然语言符号系统直接作为人机交流的工具,其效率是最高的。
本发明的自然语言机器识别方法及系统,应用前景广泛:例如可以应用本发明提炼文章的摘要或主题,可以应用到互联网智能搜领域索,可以实现自动阅读和理解文章及书籍,分类审查以及翻译等工作。本发明可以让机器通过自动学习并自动扩充知识库;还可以通过阅读自然语言文字来使用其它的人工智能专业软件,以及使机器人使用自然语言进行人机交流。
附图说明
图1是本发明工作流程示意图;
图2是本发明的工作原理方框图。
具体实施方式
下面接合具体实施方式对本发明的技术方案做进一步的详细说明,但不构成对本发明的任何限制。
本发明的具体实施方式如图1、图2所示,一种自然语言机器识别方法,包括下述步骤:(S11)建立似谓词演算形式词义对应的数据库;(S12)输入自然语言信息;(S13)对所述的自然语言信息的语句进行逐句切分处理,并根据切分规则转换为一个以上的似谓词演算形式句;(S14)将所述的一个以上的似谓词演算形式句转换为机器识别的电信号,然后输入至中央处理单元进行搜索或识别或递归或替代中的至少一种方式进行自动推理、联想思维的功能处理,并生成新的数字代码组合;(S15)将所述的数字代码组合回溯转换为与输入的自然语言信息相应的新的自然语句作为输出,或者作为学习结果进行存储。
下面将本发明的方法详细叙述如下:
(一)首先,将人类思维归纳为四种简单模式及其少量模式的组合。
人类思维对各种事物的描述可以归纳为四种情形,这就是“什么是什么”、“什么做(引起)什么”、“什么在哪里”、“什么在何状态”四种模式以及它们复合之表达。上述这种四种情形被本发明称为“思维的最基本模式”。
与之相反的是被动性方面,这就是“什么(被认为)是什么”、“什么(被认为)在何状态”、“什么(被认为)在哪里”、和“什么被做(引起)什么,这是由作用是相互的自然原理所决定的,即发生作用的必是作用者与被作用者参与的过程,按照这个作用与反作用同时发生的原理,参与作用过程的二者同时又分别是作用者与被作用者,只是表述的对象因空间与时间特质(由时间与空间限定唯一性原理决定)不同而已。
本发明所述的似谓词演算形式的定义为:自然语言句式均是由四种最简思维模式之一或组合构成的句式,每一种最简思维模式句均为包括谓词(谓词)的最简句式,和现有的谓词演算的表达方式相似,将上述四种最简思维模式定义为似谓词演算形式。
似谓词演算形式句是由最多三项一组的字词构成的最简句式,对应于四种思维的最基本模式,包括以下四种类型:
(1)“WHAT BE WHAT”模式——“什么是什么”模式;
(2)“WHAT DO WHAT”模式——“什么做(引起)什么”模式;
(3)“WHAT BE WHERE”模式——“什么在哪里”模式;
(4)“WHAT BE STATE”模式——“什么在何状态”模式。
(1)WBW模式(“WHAT BE WHAT”模式);
=(determiner[x],noun(WHAT1),IS,determiner[z]noun(WHAT2)).
(2)WDW模式(“WHAT DO WHAT”模式);
=(determiner[x],noun(WHAT),determiner[y]verb(DO),determiner[z]noun).
(3)WBWH模式(“WHAT BE WHERE”模式);
=(determiner[x],noun(WHAT),IS,determiner[z]noun(Where)).
(4)WBST模式(“WHAT BE STATE”模式);
=(determiner[x],noun(WHAT),IS,determiner[z]adjective(State)).
当determiner均为空集时,句子为最简句式。
下面对WDW模式加以举例说明。
假设我们要描述一幕人打狗的情景,造句“人打狗”作为核心句义,这是最简句式。句子中三个词都是抽象概念,一般需要分别加以限定,才更具有描述性,从而成为日常的描述。即“人”是“怎样的人?”、如何“打?”、“狗”是“怎样的狗?”,“事件发生在哪儿?”等等。下面例句即是:
早晨,一个污头诟面的人在大街上狠狠地打一条黃皮狗。
(二)其次,人类自然语言的句式归结为上述四种简单模式及其少量模式的组合。
自然语言是思维的载体,句式是人类思维的组织结构形式。句式由不同层次的一个或几个相同思维模式(即思维的最基本模式)构成。
(三)句式切分
建立以概念生成系统为基础的字词数据库,该数据库至少包括用自然数编码的新代码字词库,所述用自然数编码的新代码字词库通过手工输入或利用现有的开放代码源的字词库输入字词的方式来建立。句式切分时具有自动搜索功能并依据思维的最基本模式将句子分层次逐项分割,自然语言文字的句子经分层次切分后,句子变为三项一组的字词构成的最简思维模式的集合。
一段相对完全的语句以标点为界,逗号之间的语句可以认为是合析(与∧)或者(或∨)关系,也许是因果关系。中文通常将限定成分放在主题词——名词或代词主语及动词谓词,它们是WHAT和DO的基本核心。在句子后部动词之前的名词,特别是前面有“的”的名词及其前面的句子成分通常是WHAT,其后的动词为DO,再后边的成分为另一个WHAT。另一种情形恰好相反,当句首为名词或代词,紧接着动词BE,则可直接套用基本思维模式对句子切分。
具体切分规则为:将输入的自然语言信息的句子切分为一个以上的似谓词演算形式句,把句子每一层的意义完整地保留下来,每一个所述的似谓词演算形式句是由最多三项一组的字词组成的最简句式;所述的自然语言信息对应段落的句子经切分后,转换为多个由三项一组构成的一组数列的集合。
所述的切分规则采用以下的算法模型来实现,此算法模型适用于大部分的规整句式:
(S21)以句号为一个语句的句义中止标识。以段落为句义群中止标识,以整篇为段义群中止标识。子句以逗号为界,搜索整体句中的最简句式中间项“BE,DO”,依次与字词库进行比对;
(S21.1)以此“BE”或“DO”为界确实第一层面的前后两个“WHAT”句子成份,从而确定前WHAT1为第一层面的最简句式第一项,确定后WHAT2为第一层面的最简句式第三项;
(S21.2)如果原句中间项“BE,DO”有省略,则先补足谓词,然后重复步骤(S21.1)的操作。
(S22)按序分别对WHAT1和WHAT2进行第二层面切分,重复进行相同于上述步骤(S21)的
切分过程;
(S23)限定词的受限主词作为下一层面的最简句式的第一项,第二项添加“BE”,第三项则为该限定词。限定词指“……的,……地,摹状词,数量词等起限定作用的词,包括主名词之前的起限定作用的名词。
(S24)再在下一层面进行上述切分过程,直至全句完成切分。
自然语言以逗号作为子句的分界标识,各子句间有某种逻辑关系或为并列表述。以条件词引出的子句,逗号位置替换为结果子句,下文例句中用标识“→”来表示两子句的因果关系。
句子中BE或DO的谓词搜索算法模型:
(S31)在一句子中逐次将字与字词库比对,对应字词库输出各词在该句子中的属性/词性,直到搜索出第一个谓词(判断词或动词),继续之后的搜索,如果再未有谓词(判断词或动词),则搜索完成。判断词或动词之前者为行为使动者(主语),之后者为表述词或行为受动者。得到最简句式。
(S32)如果后边搜索到第二个谓词(判断词或动词),继续之后的搜索,如果再未有谓词(判断词或动词),则搜索完成。谓词(判断词或动词)之前者为行为使动者(主语),之后者为表述词或行为受动者。句子一般最长是这种结构,即找出了最简句式的复合结构。
如果第一个基本句子模式中主语数项少(即数值个数少),则基本可判定此基本句子模式为整句的主结构,第二个基本句子模式是次结构,第一个基本句子模式中的主语即是整句主语。
计算第一个基本句子模式中主语数项数量与谓词后的数项数量并比较,如果主语数项数量小,则输出此基本句子模式为整句的主结构的判定。如非,则进入下一步。
如果第二个基本句子模式中的表述词或行为受者数项比第一个基本句子模式中主语数项数量少(即数值个数少),则基本可判定此基本句子模式为整句的主结构,第一个基本句子模式是整句主语。
计算第二个基本句子模式中的表述词或行为受者数项数量并与第一个基本句子模式中主语数项数量比较。该数项数量小则输出此基本句子模式为整句的主结构的判定。如非,则输出第一个基本句子模式中的主语即是整句主语的判定。
下面是一种较简单的句型,但不同句型的算法类似。
2.找出整句的主结构后,将作为数列形式的句子主结构中的谓词(代码)前的数列各项作为W1,移出作为另一数列,将此谓词(代码)后的数列各项作为W2,移出作为另一数列。
2.1.对W1进行步骤1的搜索判定,找出名词中心词,将名词中心词的代码数与其他词性的词的代码数从新排序,依次为:名词中心词,判定词“是”、“在”或动词,表词或受词;如果W1仅是三个数项,则是最简句式(最简基本句型),切分中止。
2.1.1.复制W1中心词。
2.1.2.如果W1无判定词“是”或“在”,仅是二个数项,则补缺。将“是”或“在”的代码数引入,并将三代码数重新排序为:名词中心词,判定词“是”、“在”,表词,重新排序后的W1设名为RW1。
2.2.对W2进行2.1.搜索判定
如果句子主结构中谓词(代码)是判定词“是”或“在”,则W2的中心词是表词;如果是动词,则为名词。复制W2中心词。重新排序后的W2设名为RW2。
2.3.将W1中心词、W2中心词,句子主结构中谓词排序成W1中心词、句子主结构的谓词,W2中心词。
2.4.将原句数列重新排序为三项数列的集合:
(W1中心词,句子主结构的谓词,W2中心词)∧(RW1)∧(RW2)
句子中判断词组的搜索算法模型:
1.第一个数加第二个数之和(非算术加法之和)与词库比对,识别成功,则由这两数所代码(定义)的两个字词是一个组合词组。则转入步骤2;
反之为单词,判别中止。由此字词(第二个数)重新开始步骤1的过程。
2.加上第三个数再与词库比对,如果依然被识别,则此三个数之和对应的三个字词是一个三字组合词,则转入步骤3;
反之判别中止。由此字词(第三个数)重新开始步骤1的过程;
3.再与第四个数相加,如果依然被识别,则此四个数之和对应的四个字词是一个四字组合词,则转入步骤4;
反之判别中止,由此字词(第四个数)重新开始步骤1的过程;
4.N数再与次邻数n+1相加,如果依然被识别,则此n+1数之和对应的n+1个字词是一个n+1字组合词。
反之判别中止,由此字词(第n+1个数)重新开始步骤1的过程。〕
5.上述过程一直进行到识别失败为止。后面的数再进行上述相同的过程,直到遇到判定词“是”、“在”及唯一词性的动词为止。
6.由上述方式找到主语词组及谓词。输出结果。
重要注释:上述算法是基于最大多数的语句情形,对于语句中省略谓词的和谓词属于较少数的复合词组的,则在字词库特别设定的基础上,对上述语句切分算法的相关部分加以微调即可。
我们以下面具有代表性的例句切分,来说明将自然语句直接转换为似谓词演算的形式的基本方法:
玛丽在过生日时收到两只风筝,所以她把一个退还给商店。
=(玛丽在过生日时,收到,两只风筝)→(所以)(她把一个退还,给,商店)
=((玛丽,在,过生日时),收到,(风筝,是,两只))→(所以)(她,退还,一个(风筝)),把…给,商店)
=((玛丽,在,(时,是,(玛丽,过,生日)),收到,(风筝,是,两只))→(所以)(她,退还,(风筝,是,一只)),把…给,商店)
(她,退还,一个(风筝)),把…给,商店)
=(玛丽,退还,(风筝,是,一只))∧(玛丽,把…给,商店)
((玛丽,在,(时,是,(玛丽,过,生日)),收到,(风筝,是,两只))
→(玛丽,退还,(风筝,是,一只))∧(玛丽,把风筝给,商店)
可以逆方向从底部的最简句式抽取始,将不同层面的结构简化为最简句式抽取出来。具体操作如下:
((玛丽,在,(时,是,(玛丽,过,生日)),收到,(风筝,是,两只))
→(玛丽,退还,(风筝,是,一只))∧(玛丽,把风筝给,商店)
(1)抽取最底部的最简句式:(玛丽,过,生日)∧(风筝,是,两只)
→(风筝,是,一只)
(2)将上一层面的结构简化为最简句式抽取出来
(时,是,生日)
(3)将再上一层面的结构简化为最简句式抽取出来
(玛丽,在,时)
(4)将最上一层面的结构简化为最简句式抽取出来
(玛丽,收到,风筝)
→(玛丽,退还,风筝)∧(玛丽,把风筝给,商店)
将以上四个层面合併,有
(玛丽,在,时)∧(时,是,生日)∧(玛丽,过,生日)∧(玛丽,收到,风筝)
∧(风筝,是,两只)
→(风筝,是,一只)∧(玛丽,退还,风筝)∧(玛丽,把风筝给,商店)
注:
((玛丽,在,(时,是,(玛丽,过,生日)),收到,(风筝,是,两只))中,“玛丽、收到、风筝”是整句的核心词,其他可取消,则有
((玛丽,收到,风筝)
另外,(时,是,(玛丽,过,生日)中核心句义是(时,是,生日)
(她,退还,(风筝,是,一只))∧(她,把…给,商店)中核心句义是
(她,退还,风筝)∧(她,把风筝给,商店)
“把…退还给…”是个复合行为表述,即“退还”和“把…给…”的两种连续行为的表述。
上段中没有与下段中完全相同的或可递归的最简句式,故不能合一。由之判断二者不直接相干,即不能构成二者的直接因果关系。换言之,此上下文因果关系为假。由上面两项相同的最简句式
(风筝,是,两只)→(风筝,是,一只)
可以判断这正是原因所在,进入知识库查询。
可连接指令,由(玛丽过生日→收到两只风筝)发出疑问句。
玛丽过生日→玛丽应该收到一只风筝?
注:由陈述句改疑问句有简单的固定摸式,如
“时间到了,我去上班”可改为疑问句“时间到了,我应该去上班?”
如果在切分语句时注意到动词隐含的主动性还是被动性,从而利用它在句中因果关系的位置,该语句也可以这样切分:
玛丽在过生日时收到两只风筝,所以她把一个退还给商店。
=(玛丽在过生日时→(…,收到,两只风筝))→(她把一个退还,给,商店)
=(玛丽,在(时,是,过生日)→(玛丽,收到,两只风筝))→((玛丽,把…退还,一个(风筝)),给,商店)
=(玛丽,在(时,是,(玛丽,过,生日))→(玛丽,收到,(风筝,是,两只)))→((玛丽,把…退还,(风筝,是,一只)),给,商店)
=(玛丽,在(时,是,(玛丽,过,生日))→(玛丽,收到,(风筝,是,两只)))
→(她,把…退还,(风筝,是,一只))∧(她,把…给,商店)
简化后得到
(玛丽,过,生日)→(玛丽,收到,风筝)∧(风筝,是,两只)
→(她,退还,风筝)∧(她,把风筝给,商店)∧(风筝,是,一只)
注:收到=→,
因为……原因,才收到……。所以“收到……”是因果关系中的结果部分。
自然语言句式的构成及其切分详述:
基本思维模式为上述的四种最简句式,自然语言句式就由基本思维模式(最简句式)构成。
WBW模式(“WHAT BE WHAT”模式)
determiner[x]noun(WHAT1),IS,determiner[z]noun(WHAT2).
WDW模式(“WHAT DO WHAT”模式)
determiner[x]noun(WHAT1),determiner[y]verb(DO),determiner[z]noun(WHAT2).
WBWH模式(“WHAT BE WHERE”模式,WHERE指时空位置)
determiner[x]noun(WHAT),IS,determiner[z]noun(Where).
WBST模式(“WHAT BE STATE”模式)
determiner[x]noun(WHAT),IS,determiner[z]adjective(State).
当determiner均为空集时,句子为最简句式。
一般的句子(这里指的句子是以标点符号为界的表述部分)不会太长,在整句层面以单一模式构成主体框架的句子为多,最多不会超过三个基本模式。下面以部分句式加以说明。
1.WDW模式(“WHAT DO WHAT”模式)
determiner[x]noun(WHAT1),determiner[y]verb(DO),determiner[z]noun(WHAT2).
当determiner均为空集时,句子为最简句式。
1.1 adj[x]noun(WHAT1),determiner[y]verb(DO),determiner[z]noun(WHAT2).
determiner[x]=adjective[x],quantifier[x]————[x]是与名词匹配的表达某种表现、性质、关系、数量状态的形容词类属,包括数量词等。
determiner[x]=adj[X1,X2,…]
=(WHAT1,IS,X1∧X2,…)
如果x中有归属性的类形容词,如“名词+的”,则也可变换为
=(WHAT1,has,X1)∧(WHAT1,IS,X2,…)
例句:他的漂亮的房子就位于湖岸。
他的漂亮的房子就位于湖岸
=(他的漂亮的房子,就位于,湖岸)
=((他,有,房子)∧(房子,IS,漂亮的),位于,湖岸)
得到
(他,有,房子)∧(房子,IS,漂亮的)∧(房子,位于,湖岸)
1.2 determiner[x]noun(WHAT1),adverb[y]verb(DO),determiner[z]noun(WHAT2).
determiner[y]=adverb[y]————[y]是与动词匹配的表达行为某种程度、特性、状态的副词类属
determiner[y]=adverb[Y1,Y2,…]
=(DO,IS,Y1∧Y2,…)
例句:他流利地回答了外宾三个问题。
他流利地回答了外宾三个问题
=(他,流利地回答了,外宾三个问题)
=(他,(回答,IS,流利的),(外宾,has,三个问题))
=(他,(回答,IS,流利的),(外宾,has,(问题,IS,三个)))
底层:(问题,IS,三个)
第二层:(外宾,has,问题)∧(回答,IS,流利的)
顶层:(他,回答,外宾)∧(他,回答,问题)
=(他,回答,外宾∧问题)
合并:(外宾,has,问题)∧(问题,IS,三个)→(他,回答,外宾∧问题)
注:“回答”决定了(他,回答,外宾∧问题)在全句因果关系中的“果”之特性。所以
“回答”=←
利用Prolog语言表达,即
reply(he,guest,question):-has(guest,question),three(question).
1.3 determiner[x]noun(WHAT1),determiner[y]verb(DO),adjective[z]noun(WHAT2).
determiner[z]=adjective[z],quantifier[z]————[z]是与名词匹配的表达某种表现、性质、关系、数量状态的形容词类属,包括数量词等。。
以上句式是完全表示,从中可以演变出许许多多句型来。例如,有下面句型
adj[x]noun(WHAT1),adverb[y]verb(DO),adj[z]noun(WHAT2).
伟大的人民一定创造出伟大的成绩。
伟大的人民一定创造出伟大的成绩
=(伟大的人民,一定创造出,伟大的成绩)
=((人民,IS,伟大的),(创造出,IS,一定的),(成绩,IS,伟大的))
或=((人民,IS,伟大的)→(创造出,(成绩,IS,伟大的))
由上式,得出
底层:(人民,IS,伟大的)→(创造出,IS,一定的)∧(成绩,IS,伟大的)
顶层:(人民,创造出,成绩)
合并:(人民,IS,伟大的)→(人民,创造出,成绩)∧(创造出,IS,一定的)∧(成绩,IS,伟大的)
2.(WDW)DW模式(“WHAT DO WHAT”模式中前部项(主语位)是另一个WDW模式)
(determiner[x1]noun(WHAT3),determiner[y1]verb(DO1),determiner[z1]noun(WHAT4)),determiner[y]verb(DO),determiner[z]noun(WHAT2).
基本模式中WHAT1=determiner[x1]noun(WHAT3),determiner[y1]verb(DO1),determiner[z1]noun(WHAT4)
当determiner[x]noun(WHAT1)=WHAT DO WHAT,如:
他打开抽屉拿出词典来。
他打开抽屉拿出词典来
=(他打开抽屉,拿出…来,词典)
=((他,打开,抽屉),拿出…来,词典)
底层:(他,打开,抽屉)
顶层:(他,拿出…来,词典)
他打开抽屉拿出词典来
或(他,打开,抽屉)∧(他,拿出…来,词典),
opens(he,drawer)∧takes out(he,dictionary)
这是两个WHAT DO WHAT构成的语句,(他,打开,抽屉)所表述的时间特性在先,从时序上可知
(他,打开,抽屉)→(他,拿出…来,词典)
opens(he,drawer)→takes out(he,dictionary)
3.WD(WDW)模式(“WHAT DO WHAT”模式中后部项(宾语位)是另一个WDW模式)
determiner[x]noun(WHAT1),determiner[y]verb(DO),(determiner[x1]noun(WHAT3),determiner[y1]verb(DO1),determiner[z1]noun(WHAT4)).
下面列举一个符合上式变形之一的复杂语句:
我站在高耸得像一株亭亭玉立的玉兰花似的灯柱下。
语句切分如下:
底层:(玉兰花,IS,一株∧亭亭玉立的)
第四层:(灯柱,像…似的,玉兰花)
第三层:(灯柱,IS,高耸的)
第二层:(灯柱,IS,高耸的)
顶层:(我,站∧在…下,灯柱)
合并:(我,站∧在…下,灯柱)∧(灯柱,IS,高耸的)∧(灯柱,像…似的,玉兰花)∧(玉兰花,IS,一株∧亭亭玉立的)
利用Prolog语言表达,即
stand_beneath(i,lamp standard),tower(lamp standard),like(lampstandard,magnolia),
is a(magnolia,slim,graceful).
4.(WBWHERE)DW模式(“WHAT DO WHAT”模式),前部项(主语位)是另一个WBW模式。
(determiner[x1]noun(WHAT3),IS,adjective[z1]noun(WHAT4)),determiner[y]verb(DO),determiner[z]noun(WHAT2).
基本模式中WHAT1=determiner[x1]noun(WHAT3),IS,determiner[z1]noun(WHAT4)
例句:他在取得重大科研成果之后就走上了经商的道路。
他(X)
道路(X,Y)
道路(X,Y,Z)
is(Y,Z)
道路(Y)
经商的(Z)
用Prolog表示即
he(X),go_on(X,Y,Z),is(Y,Z),road(Y),mercantile(Z).
5.(WBWHERE)D((WBWHERE)DW)模式,“WHAT DO WHAT”模式中前部项(主语位)是WBWHERE模式,后部项(宾语位)则是自相似的(WBWHERE)DW模式。
(determiner[x1]noun(WHAT3),IS,determiner[z1]noun(WHAT4)),verb(DO),(determiner[x2]noun(WHAT5),IS,determiner[z2]noun(WHAT6)),determiner[y2]verb(DO2),determiner[z2]noun(WHAT7)).
基本模式中WHAT1=determiner[x]noun(WHAT3),IS,determiner[z1]noun(WHAT4)
WHAT2=((WISWHERE)DW)模式
例句:他在大街上邂逅了那位日后成为他妻子的漂亮女孩。
他在大街上邂逅了那位日后成为他妻子的漂亮女孩
=((他在大街上)邂逅了,那位日后成为他妻子的漂亮女孩)
=((他,在…上,大街)邂逅了,(女孩,IS,那位日后成为他妻子的∧漂亮的))
=((他,在…上,大街)邂逅了,(女孩,IS,((那位,在,日后),成为,他的妻子)∧漂亮的))
得到
(他,在…上,大街),(他,邂逅了,女孩),(女孩,IS,漂亮的),(女孩,在,日后)→(女孩,成为,他的妻子).
注:在此句中,“那位日后成为他妻子的漂亮女孩”是另一个相同的(WISWHERE)DW模式,所以切分过程也相同。
(四)语句切分后的计算
切分后的自然语言语句转换为由三项字词构成的最简思维模式的集合,运用搜索匹配识别,进行递归替代等计算过程而实现自动推理、联想等思维过程。
将自然语言语句切分后的似谓词演算形式的完全自动转换为谓词演算形式,从而利用现有的人工智编程软件,以实现特定的功能。
由句子进行似谓词演算形式切分后与谓词演算形式的完全对应,将二者通过机器自动转换,进而参照规划算法及描述,用Prolog编程语言对转换为谓词演算形式后的句式加以表达。
【实例】将下面的句子转换为谓词演算形式:
从此句可得到最基础的核心句义,即IF(人,通过,历史考试)∧(人,中,奖)THEN(人,是,快乐的),由三项组成的表述式,与谓词演算直接转换。
sentence(人,是,快乐的):-WDW(人,通过,历史考试),WDW(人,中,奖).
WDW(人,通过,历史考试):-
WDW(人,中,奖):-
回应这句话,可以从上面三个基本句子引起。
注:(考试,是,历史)表示“考试”与“历史”等价,为了简洁,可取消“考试”一词。并将“人”一词替换为变量x。
由上面
比较上式(pass(x,history)∧win(x,lottery)→happy(x))
利用规划算法及描述,用Prolog编程语言将句式转换为谓词形式:
句式开始状态为
转换步骤如下:
1、transform(add(whole_curves),out_of_whole_curves(universalquantification全称量化),(add(curves1),put_in_curves1(noun),put_in_curves1(comma),add_in_curves1(BE),add_in_curves1(comma),put_in_curves1(determiner[x]),add(comma),change(BE,implication→),add(comma),determiner(x))
2、transform(add(whole_curves),out_of_whole_curves(universalquantification全称量化),(add(curves1)(add(curves2),put_in_curves2(noun),add_in_curves2(comma),put_in_curves2(DO1),add_in_curves2(comma),(put_in_curves2(determiner X1[x]),add(conjunction∧),add(curves3),put_in_curves3(noun),add_in_curves3(comma),(put_in_curves3(DO2),add_in_curves3(comma),(put_in_curves3(determiner X2[x])),add_in_whole_curves(comma),(change(BE,implication→),determiner X3(x))
3、transform(add(whole curves),out_of_curves(universal quantification全称量化),(add(curves1),(add(curves2),out_of_curves2(DO1),put_in_curves2(noun),add_in_curves2(comma),(put_in_curves2(determiner(X1)[x]),add(conjunction∧),add(curves3),out_of_curves3(DO2),put_in_curves3(noun),add_in_curves3(comma),(put_in_curves3(determiner(X2)[x])),add_in_whole_curves(comma),(change(BE,implication→),determiner(X3)(x))
4、transform(add(whole curves),out_of_curves(universal quantification全称量化),(curves(curves1),(curves(curves2),out_of_curves2(DO1),change_to(x),in_curves2(comma),(determiner(X1),conjunction(∧),curves(curves3),out_of_curves3(DO2),change_to(x),in_curves3(comma),(determiner(X2)),(implication(→),determiner(X3)(x))
自然语言信息转换为似谓词演算形式句后的自动推理、联想过程为:切分后的语句变成了由三项一组的字词构成的最简思维模式的集合,运用搜索或识别或递归或替代中的至少一种方式而实现自动推理、联想思维过程。段落的句子经切分后,段落变为多个由三项构成的一组数列的集合。由最简句式三项构成的一组数列分放在寄存器地址。
自然语言似谓词演算形式的自动推理
【实例】作为“事”的描述的主语包含两种情形,一种是行为事件,另一种是某种关系表述。关于作为“事”的描述的主语,在句中则以独立的子句(即另一个基本思维模式)存在为多见。例如
短语:在年青时,我做了一个重大决定,这就是去林场工作,在那里我遇到了一位美丽的姑娘,她给我带来一生的幸福。如果一个决定给你带来幸福,这个决定就是明智的。
得出结论:我去林场工作是明智的决定。
在年青时,我做了一个重大决定,这就是去林场工作,在那里我遇到了一位美丽的姑娘,她给我带来一生的幸福。如果一个决定给你带来幸福,这个决定这个就是明智的。
=(我,在…时,年青)∧(我,做了,一个重大决定)∧(决定,是,去林场工作)→(我,在,那里(林场))∧(我,遇到了,一位美丽的姑娘)→(她,给我带来,一生的幸福)。if(一个决定,给你带来,幸福),→then(这个决定,是,明智的)。
一系列的行为动作构成因果关系链条,这隐含在上面语句分解后的行为动作次序中。
注:去…(那里),“去”后边的词即是“那里”。
上式=(我,在…时,年青)∧(我,做了,(决定,IS,一个∧重大)∧(决定,是,(我,去…工作,林场))→(我,在,林场)∧(我,遇到了,(姑娘,IS,一位∧美丽的)→(她,给∧带来,(幸福,IS,我的∧一生的)。if((决定,IS,一个),给∧带来,(幸福,IS,你的)),→(then)((决定,IS,这个),是,明智的)。
将各层面核心句义提取出来,得到
(我,做了,决定)(决定,是,(我,去∧工作,林场))
→(我,在,林场)(我,遇到了,姑娘)
→(姑娘,给∧带来,幸福)
if((决定,给∧带来,幸福)then((决定,是,明智的)
将(姑娘,给∧带来,幸福)代入(我,遇到了,姑娘),得到
(我,在,林场)(我,遇到了,(姑娘,给∧带来,幸福)),再代入(决定,是,(我,去∧工作,林场)),得到
((决定,是,(我,去∧工作,林场),(我,遇到了,(姑娘,给∧带来,幸福))
取消因果关系链条中“结果”的行为主体,只保留原因的行为主体“决定”,简化得到
(决定,给∧带来,幸福),
由if((决定,给∧带来,幸福)then((决定,是,明智的),将(决定,是,(我,去∧工作,林场))代入,得到
((决定,给∧带来,幸福)→((我,去∧工作,林场),是,明智的)
注:在因果关系链条中,作为“结果”的行为主体词(即主语),可由作为原因的行为主体词(即主语)替代,因为因果关系传递的原因,它的因果关系的本质意义不变。例如,“他的话把她说哭了,她生气地吃不饭,于是几天后她瘦了三公斤”,这段话中的因果关系可以追溯为“他的话使她瘦了三公斤”。
输出短语的中心意义:
我去林场工作是明智的决定
=(我去林场工作,是,(决定,是,明智的)
将都含有“决定”的语句再抽取出来,得到
核心句义:
(我,去…工作,林场),((我,去…工作,林场),是,决定),(决定,是,明智的)
设w1=(我,去…工作,林场)
w1(X)
决定(X,Y,Z)
is(Y,Z)
决定(X,Y)
决定(Y)
明智的(Z)
用Prolog表示即
w1(X),decide(X,Y,Z),is(Y,Z),decide(Y),wise(Z).
下面举例两种典型的推理模式,来说明本发明的推理方法。
逻辑推理模式一:
自然语言似谓词演算形式的自动推理算法模型(三段式形式逻辑):
1.在句式中以个体替代类属作为对类属这一变量的赋值,也可用类属替代个体——这要看推理目标的需要。终极的抽象概念(如“秩序”与“紊乱”,“好”与“坏”等成对的两极抽象概念)与被它所包括的具体概念之关系均如此。
2.在句式中,如果说明子句与主体表达相矛盾,则句子无效。
3.同一行为链中具有因果关系链的行为主体,在句式中可按照因果次序前者替换后者(这由因果关系的时空限定的唯一性所决定)。
4.What1 BE What2反过来也是一样,What2 BE What1,二者等价。
5.What1 Do What2模式中,Do等价于What2
6.作为句中第三项的WjDWj+1都可以独立地提出来,有完整的意义,并与其他WDW进行归结合一并形成新句子。而且作为第三项,可以取消WjD,只保留Wj+1,句子缩減为中心意义句。
7.将句中最初切分为四种基本思维模式之一的DO的限定表述消去,并将同一句中最后一个DO的WHAT保留,如果WHAT是BE型的,则BE两边等值而形成两个简化句。
8.一段话的分解充分的基本模式中的三项参数,除BE(即谓词)外,在同一情境中等价,即可以互相替代。可将这一段落中每一句话中的相同的词用同一个等价的词替换。
下面,我们详述借助本发明的方法,将自然语言切分后通过相同词替代及全称、单体替代进行推理。人工智能所谓的谓词演算的归一算法与之相同。
【实例】假设有这样一些事实表述的句子(括号内为操作之表述):
⑴Tony是Graham的朋友;(Tony,是,Graham的(朋友))
(由原句“Tony是Graham的朋友”,得出
Tony是(Graham的)朋友。由这句话,因为没有特别说明,按照名字可知
Graham和Tony均是人。)———将句子切分为思维基本模式之一。
⑵Graham的所有朋友都喜欢酒;(Graham的(朋友),喜欢,酒)
(由原句“Graham的所有朋友都喜欢酒”,将
“所有……都”取消,获得———将句子中“所有……都”取消。
“Graham的朋友喜欢酒”,然后用———将句子中变成抽象(无具体限定)表述。
Tony置換“Graham的朋友喜欢酒”中的“Graham的朋友”,则得出
“Tony喜欢酒”。———将句子中“朋友”具体化。赋值,即给出确定值。
“所有……都”只是强调语气而已)
⑶每个喜欢酒的人都喝酒精饮料。(喜欢酒的(人),喝,酒精饮料)=((人,喜欢,酒),喝,酒精饮料);(人,喜欢,酒)与(Graham的(朋友),喜欢,酒)结构相同,则可以Graham的(朋友)替代“人”;而Tony,是,Graham的(朋友),所以Tony可以替代“人”。替换后有
(喜欢酒的(Tony),喝,酒精饮料),即
(Tony,喝,酒精饮料),同时,酒=酒精饮料。替代后又有
(喜欢酒精饮料的(Tony),喝,酒),即
Tony喜欢酒精饮料。
(由原句“每个喜欢酒的人都喝酒精饮料”,将
“每个……都”取消,获得———将句子中“每个……都”取消。
“喜欢酒的人喝酒精饮料”,———将句子中变成抽象(无具体限定)表述。
因为“Tony是人”,和“Tony是喜欢酒的人”,用
Tony置換“喜欢酒的人喝酒精饮料”中的“喜欢酒的人”,则得出
“Tony喝酒精饮料”,同吋,“酒是酒精饮料”。然后用
“酒精饮料”置換“Tony喜欢酒”中的“酒”,则有
“Tony喜欢酒精饮料”。———用等值的词置換。思维基本模式中两边是等值的。
“所有……都”只是强调语气而已)
⑷推理得出结论:Tony喜欢酒精饮料。
这些事实表述的句子,因为相互有共同的构成主题,所以,可以构成一个复合句或段落:
S1=(Is,What1,What2(likes,What2,What3∧(drinks,What4,What5))
What1=Tony;What2=Graham的所有朋友;What3=酒;What4=每个喜欢酒的人(自然包括Tony)=(likes,What2,What3);What5=酒精饮料。其中What2与What4包含What1,What5包含What3,分别是类属(抽象的概念)与个体的关系,二者相互依存和部分特性一样,故某些情形中可相互替代。在句式中可以个体替代类属作为对类属这一变量的赋值,也可用类属替代个体——这要看推理目标的需要。所以上式
=(Is,What1,(likes,What1,What3∧(drinks,(likes,What1,What3),What5))
=(Is,What1,(drinks,(likes,What1,What5),What5))
句子中己有了(likes,What1,What5)这一结论,这句子意指“Tony是喝酒精饮料——Tony喜欢酒精饮料”。
如果推理得出结论:Graham的所有朋友喜欢酒精饮料,则在句中是以What2替代What1,所以上式
=(Is,What2,(likes,What2,What3∧(drinks,(likes,What2,What3),What5))
=(Is,What2,(drinks,(likes,What2,What5),What5))
如果将What3替代What5。(句子中以个体替代类属作为对类属这一变量的赋值),所以上式
=(Is,What2,(drinks,(likes,What2,What3),What3))
=(Is,What2,(drinks+likes,What2,What3)),这里Is,What2,可省去,即有:
=(drinks+likes,What2,What3)
(drinks,(likes,What2,What3),What3)意指“Graham的所有朋友喜欢酒——因而饮酒”。推理得出结论:Graham的所有朋友饮酒。
句子的主题词(表达的主体)由动机和语境决定。上述是以Tony为主题,则推理结论表达Tony。以Graham的所有朋友为主题,则有了“Graham的所有朋友饮酒”的推论。
逻辑推理模式二
由自然语言信息转换的似谓词演算形式进行演算的推理算法模型:
(S41)按时间优先原则,取首句第一组数列中的第三项减次句中第一组数列中的第一项,如结果为0,并且首句第一组数列中的第二项减次句第二组数列中的第二项的结果也为0,则将次句第二组的第一项替代首句第一组数列的第三项;新的首句第一组数列构造完成;
(S41.1)如未有上述结果,则取首句第一组数列中的第三项减次2句第三组数列中的第一项,如结果为0,并且首句第一组数列中的第二项减次2句第三组数列中的第二项的结果为0,则将次2句第三组的第一项替代首句第一组数列的第三项;新的首句第一组数列构造完成;
(S42)取第一组数列中的第三项减去已成功完成步骤(S41)运算的次组数列中的第一项,如结果为0,并且第一组数列中的第二项减去已成功完成步骤(S41)运算的次组数列中的第二项的结果为0,则将已成功完成步骤(S41)运算的次组数列中的第一项替代第一组数列的第三项;新的第一组数列构造完成;
(S43)继续上述过程直至无法完成上述过程,中止;输出新的第一组数列,得到推理结果;
(S44)如果所选的一组数列无法完成上述过程,则选择次一组数列进行上述过程;
(S45)有推理结果或无推理结果,输出结论。
【实例】将下面自然语句完全地转换为谓词形式并完成推理:
任何通过历史考试和中奖的人是快乐的,
任何努力学习或者幸运的人能够通过所有考试,
约翰不学习但是很幸运,
任何幸运的人能中奖,
推理证明:约翰是快乐的。
(pass(x,history)∧win(x,lottery)→happy(x))
下面是中文句子与谓词形式完全对应过程,并可知能将二者通过机器自动转换。
从此句可得到最基础的核心句义,即IF(人,通过,历史考试)∧(人,中,奖)THEN(人,是,快乐的),由三项组成的表述式,与谓词演算直接转换。
以x取取代抽象主语词“人”,另外取“通过(人,考试)”和中(人,奖),得到
注:(考试,是,历史)表示“考试”与“历史”等价,为了简洁,可取“通过(人,考试)”,当然,也可取“通过(人,历史)”。
将下面自然语句完全地转换为谓词形式:
②任何努力学习或者幸运的人能够通过所有考试。
(study(x)∨lucky(y)→pass(x,y))
“能够”、“原来”=“→”。另外,“决定”的行为同时隐含着已经“计划”了什么。所以,“决定‘WHAT’”=“计划‘WHAT’”。这是描述行为时,因行为的连续性、因果关系而决定的概念之间的关系。
从此句可得到最基础的核心句义,即IF(x人,努力,学习)∨(y人,是,幸运的)THEN((x,y)人,通过,考试),由三项组成的表述式。
“通过考试”与“通过”在句中等价,为了简洁,可取“pass(x,y)”。
将下面自然语句完全地转换为谓词形式:
③约翰不学习但是很幸运,
study(john)∧lucky(john)
S3=约翰不学习但是很幸运
=((约翰,不,学习)∧(约翰,是,很幸运))
=((约翰,不,学习)∧(约翰,是,(幸运,是,很的)))
从此句可得到最基础的核心句义,即(john,不,学习)∨(john,是,幸运的),得到
S3==study(john)∧lucky(john)
④任何幸运的人能中奖,
下面看推理证明:
由sentence(x,中,奖):-WBW(x,是,幸运的).
(john,是,幸运的):-(john,是,x),得到
sentence(john,中,奖):-WBW(john,是,幸运的).
再由sentence(x,是,快乐的):-WDW(x,通过,考试),WDW(x,中,奖).得到
sentence(john,是,快乐的):-WDW(john,中,奖)
推理证明:约翰是快乐的。
将上例S1、S2、S3、S4分别泛化为句式,则有
S5=任何通过历史考试和中奖的人是快乐的。
……的人→“人”泛化为变量x;x前是以“的”为标识的一个或多个WDW或WBW限定成分。
……的人是→“是”泛化为变量BE;
……的人是快乐的→“快乐的”泛化为变量y,y域为限定单词类集。
换一下表达方式,有:
从此句可得到最基础的核心句义,即IF(人,通过,历史考试)∧(人,中,奖)THEN(人,是,快乐的),由三项组成的表述式,与谓词演算直接转换。
sentence(人,是,快乐的):-WDW(人,通过,历史考试),WDW(人,中,奖).
WDW(人,通过,历史考试):-
WDW(人,中,奖):-
回应这句话,可以从上面三个基本句子引起。
注:(考试,是,历史)表示“考试”与“历史”等价,为了简洁,可取消“考试”一词。并将“人”一词替换为变量x。
比较上式(pass(x,history)∧win(x,lottery)→happy(x))
(五)句子生成
句式切分的回溯过程就是新句子的生成过程。在句式切分基础上,依据相同字词的替代而完成的逻辑推理过程,将产生新的最简句式(最简思维模式)的集合,进行切分的逆向回溯,就会产生一个新的句子作为输出结果,从而实现机器与人的逻辑思维的结果相同。
1.生成句子就是以最简单的基本思维模式为基础,通过增加WHAT——名词或代词主语和DO——动词谓词的限定成份而逐步形成。设定determiner[x]为限定词集合,把限定词集合与WHAT和DO结合一起,四种基本思维模式就组成了自然语言句式。生成语句是语句切分后的反操作,一种回溯方式。由于我们的计算机的数据库都以最简句式——即似谓词演算的形式构成,所以可以很便捷地把知识重新组合成语句输出。句式切分的回溯过程就是新句子的生成过程。在句式切分基础上,依据相同字词的替代而完成的逻辑推理过程,将产生新的最简思维模式的集合,进行切分的逆向回溯,就会产生一个新的句子作为输出结果(与人的逻辑思维的结果相同)。
【实例】依据语句内在相同成分而形成的复合语句
依据最简句式或简单的语句内在相同成分而形成复合语句,即通过逆分解过程回溯并泛化生成句式。
例如下面的语句:
建筑风格是维多利亚式。
按照句式切分方法,可以得到
底层:(建筑,有,风格)
顶层:(风格,是,维多利亚式)
建筑(x)=building(x)
风格(x,y)=style(x,y)
维多利亚式(y)=victorian(y)
风格(z).=style(z)
building(x)∧style(x,y)∧style(z)→victorian(y)
泛化句式是
(what1,HAS,what2)和
(what2,IS,what3)
is_contained_in(what3,what2):-location(what3,what2).
(what3属于what2类集。)
回溯得到语句“what1 what2 IS what3”。
逆分解过程回溯上面的例句:
将(风格,是,维多利亚式)代入(建筑,有,风格)中,操作步骤是
(1)将(建筑,有,风格)复原,取消“有”及括号内逗号,得到(建筑风格);
(2)由(风格,是,维多利亚式),取消括号内逗号,替換(建筑风格)中的“风格”,得到:
(3)建筑风格是维多利亚式。
注:上述泛化句式的各项可能是词组或语句。
采用本发明的方法,可以实现对自然语言整篇的进行切分,这是实现机器思维与人类思维完全一致的基础。
采用本发明的方法,可以实现对两种不同的语言通过切分后进行机器自动翻译。本发明方法依据人类思维的本质模式,所以,不同语言体系只有表达方式的细节差异,基本结构是相同的。切分后的最简思维模式之集合会有另一种语言相对应,翻译即是将最简思维模式中的词汇相应转换为匹配的另一种语言的词汇。
采用本发明的方法,可以实现对数学的机器思维完全以自然语言表达并自动完成解决问题过程。通过泛化处理,可以归纳出各种类型题的题目的自然语言似谓词形式转换后的解题模式。
采用本发明的方法,切分后的语句变成了由三项字词构成的最简思维模式的集合,运用搜索匹配识别,进行递归替代等计算过程而实现自动推理、联想等思维过程。
采用本发明的方法,通过词(概念)的格式塔结构维度的相似度,机器可以自动搜索识别,找出同类属的概念(词)和相反的概念(词),表述行为的系列词汇也可以同样的方法寻出,并作为学习结果储存入字词数据库。
采用本发明方法,对自然语言表述进行似谓词形式的转换,泛化的基础上实现机器自动编程。
本发明的一种自然语言机器识别系统,包括人机接口模块、句子切分模块、中央处理单元、句式合成模块及数据库模块,所述的句子切分模块和句式合成模块分别与所述中央处理单元的输入端和输出端通过电信号相连,所述的数据库模块为多库协同模块,包括字词库管理模块、知识库管理模块、情景库管理模块、多元语义网络库管理模块及隐喻网络库管理模块。
以下为本发明的多库协同模块的建立方法:
建立字词库管理模块的新代码字词库
1.采用自然数编码的新代码字词库,所述用自然数编码的新代码字词库通过手工输入或利用现有的开放代码源的字词库输入字词的方式来建立。
建立数字代码字词库,并能输出相应数字(如:0,1,2,……9)用本身数字作代码,另加数位标识代码。数字以数位标识和单数字共同定义。词义特定的如“是、在、的、地”等和标点符号,以及词类确定的(如植物名称、专有名词等)用某个区间的数字作代码。作为表达行为的词,在句式中位置决定其词性(动词性或名词性),这部分词在字词库的构成及形式有不同情形而有不同输出。
在字词库建立各种行为动作模式,作为最简句式中间项“DO”的组成部分;
考虑到为词的常规搭配及固定词组,建立字词库初期赋词代码数字之间留足间隔。
在构造字词库时,将词之间的固有搭配变为连续的两个或多个数之数列,固有搭配的词组或成语也具有唯一性,那么,对于原有字词库中没有的统计概率大的搭配一起的词,将其作为固有搭配的词组进入字词数据库。这将成为机器自动学习方式之一。
建立了字词库后,该库具有纳入输入字词、进行搜索比对,并输出相应数字代码的功能。
2.建立句式切分模块。句子切分模块与词性分类的字词库相联,并有分类的寄存地址所构成的句式。分层将数列句子分成由三项的数或数组组成的数列。
由字词库管理模块输出的数组替代原句子,由之一个句子变为一组数列,并进入句式切分模块。句式切分模块具备搜索比对功能,按自然顺序逐一进行。识别采用减法的计算,结果为0即成功,字词库功能之一是比对识别。
由两个字以上构成的词组比对识别的算法模型:
1.按先后次序,先在作为词组代码的数之区间判别,再依次将作为词组代码的一数减字词数据库该区间首遇的第一个代码数,差为零,则该词组第1个字为首遇的数代码定义的字;如果差不为零,则余数依次减后面的代码数,直至差为零,另一字识别方式相同,由之,词组均得到比对识别。如果差数为非0,则判断字词库无此词组。
2.如果1.判断未完成与该词组比对识别。则转入下一词组比对;
2.1.重复上述1.过程。如果仍未完成与词组比对识别,则
3.重复上述过程,直至完成比对识别。如果比对成功或比对失败,则
4.输出结果。
以似谓词演算形式定义并诠释一个词,建立自然语言理解的字词库
词的定义是最主要的基础工作,应在高度统一的层面开始,逐层将格式塔结构维度确定为某词的基础意义。层面越低越具体化———这就是现在词典的表述方式。
利用一系列的谓词形式定义一个词,再构造出相应的例句句式,建立自然语言理解的词典。以此方法建立常用字词典。例如,在《汉字源流字典》p22有“才”的释义,按我们的方法可表达为:
原义:“才”像草木之初,由之可知,衍生出的意义都有隐喻的特性。
(才,像,草木之初)→(才,是,初始)→(才,是,刚刚)
(才,像,草木之初)→(才,是,质性)→(才,是,能力)→(才,是,有能力的人)
(才,像,草木之初)→(才,是,质性)→(才,是,才能)→(才,是,有才能的人)
(才,像,草木之初)→(才,是,草木)→(才,是,木材)∧(才,是,材)→(才,是,材料)→(才,是,棺材)
一个词以似谓词演算形式表示是为了转换为谓词形式,从而进行谓词演算和用Prolog表示。这样,词与词之间的匹配就变成了谓词演算的递归、合一的替换操作。
上面的每一条关于“才”的定义可以写成谓词形式
BE(y,Z),或
Z(y).
“人”与“才”在语句中的匹配就有了内在的逻辑运算的依据。在涉及“人”或拟人化的描述中,有关“人”或类人者之质性的描述,“人”或类人者的词与“才”匹配。譬如,人之有才能的人,组合成“人才”、“才子”、“男才女貌”、“你太有才了!”等匹配。
下面看如何利用上面词之定义的方法,通过同义词替换,自动生成同义句:
“你太有才了!”原句为“你太有能力了!”由(才,是,能力)有(能力,是,才),“是”两边等价。将(能力,是,才)代入“你太有能力了”,以“才”替换“能力”一词,就得到“你太有才了!”
用Prolog的语言来表达,有
[DO](x,y):-[DO](x,z),BE(y,z).
[DO](x,z),
BE(y,z).
建立字词库(词典)的算法模型:
1.选择一个简单字词进行定义(如上面“才”之定义),建立词库,依次将第一个词定义中出现的词加以定义;
2.当下词定义完毕,重新进行1.操作。
按此算法,将上面“才”之定义中出现的第一个词“像”加以定义,然后依次是“草,木,之,初,……,棺”。此轮定义完毕,则从第二个出现的词“草”开始新的定义过程,此轮定义完毕后,又重新进行相似操作。此算法经过编程,将可以利用已有电子辞典而自动获取该辞典中的释词而建立词库。
词典的另一个用途是传统的查字。由于词典采用谓词形式建立,即一个词都以语句的形式存在于数据库中。作为例句的句式则可直接输出并自动依照当前语句替换相关词汇,谓词形式为这种替换提供了可能。
建立词汇数据库
将词汇按事物类别分列构成“词林”,并将常用词组合列入单词名下。参考《诗韵合璧》作法,([1]清·汤文璐编.诗韵合璧.上海:上海古籍书店,1982.)摘取书中p1内容如下。
根据《诗韵合璧》词林典股目录·天文门,扩大词汇:
天·日月
[日]={(春日,IS,(日子,IS,春季的))=(春日,IS,日子)∧(日子,IS,春季的),(夏日,IS,日子)∧(日子,IS,夏季的),(秋日,IS,日子)∧(日子,IS,秋季的),(冬日,IS,日子)∧(日子,IS,冬季的)}
下面词的数据库组成形式与[日]相同。
[月]={新月,残月,月桂,中秋月}∧{戴月,岁月,日月}
[星]={天河,云,庆云,云峰}∧{愁云,云山,云雨,云飞,云锁,星光,披星}
天·风雨
[风]={春风,夏风,秋冈,冬风}
[雨]={夜雨,喜雨,黄梅雨,久雨,春雨,夏雨,秋雨,冬雨}
[雷]={}
[电]={}
[虹]={}
[霞]={}
[露]={}
[霜]={}
[雪]={喜雪,春雪}
[雾]={}
[霁]={}
[烟]={游丝}空中飘浮着游丝,游丝即细细的烟。
[晴]={}
[阴]={}
建立情景库
建立情景词汇和专门词汇数据库的算法模型:
1.情景构成(字词库或知识库构成):以似谓词演算形式的表达式聚集而构成。包含:事物命名;时间与空间特性;限定词:回应语句自动生成及输出,等等。应能通过机器自动学习增加知识。
2.将描述情景中各主要物体及相关事件的字词以数列表达,作为词库的子库。此子库中各字词有紧密的相关性。
3.情景库由情景特征词汇为构成基础。在此基础上,增加可被用于新的句子、段落生成的描述句及段落,此由数列表达。
4.大的方面分,词义分为:表事、物命名的;表时间、空间存在、位置、数量特性的;表行为动作的;表状态的;表抽象限定的如“是”、“在”等。
参考图文词典建立分类的情景词汇和专门词汇数据库。譬如参考《英汉图文对照词典》,建立起非常丰富的语境数据库和生成句子用的词汇数据库,([2]《英汉图文对照词典》翻译组.英汉图文对照词典.上海:上海科学技术出版社,1984.)摘取书中p265咖啡室,茶室内容如下:
(咖啡店(室),有,X1|X2|X3|…|Xn[X])
[X]表示情境中构成部分或特征集合。
柜台(糕点柜台){X1},——{X1}是关于柜台特性、特征及样式的列表,下面{X}也均是同类的列表。就样式(style)而言,如果需要“样式”输出,可自动联结。——(咖啡店(室),有,柜台(糕点柜台)[X])
咖啡壶{X2},——(咖啡店(室),有,咖啡壶[X])
放货币盘子{X3},——(咖啡店(室),有,放货币盘子[X])
蛋糕{X4},——(咖啡店(室),有,蛋糕[X])
带掼奶油蛋白甜饼{X5},——(咖啡店(室),有,带掼奶油蛋白甜饼[X])
制糕点学徒{X6},
柜台女服务员{X7},
报架{X8},
壁灯{X9},
拐角软垫沙发{X10},
咖啡室小圆桌{X11},
大理石台面{X12},
女侍应生{X13},
托盘{X14},
一瓶柠檬水{X15},
柠檬水杯{X16},
对局下棋者{X17},
咖啡餐具{X18},
一杯咖啡{X19},
方糖小钵{X20},
奶油壶{X21},
咖啡室顾客{X22},
先生{X23},
女士{X24},
正在看报的人{X25},
报纸{X26},
报夹{X27}。
以上词汇表达那个时代英国咖啡室,茶室主要内容特征。
任何词汇的意义都与语境相关,所以,非常重要是,指明词义是在何种情境中才成立的。这是词汇数据库中的词的标识之一。
建立隐喻网络库
建立用于隐喻生成的词汇数据库,也需要象上面那样去做。
建立可输出的能用于生成语句的知识库。
将知识全部表达为谓词形式,以此建立能用于生成语句的知识库可以很方便地组合成语句输出。知识库中知识的谓词形式不一定非基本思维模式的最简句式不可,也可部分为复式。
如果是WBW的简式,即只有形容词和名词组成的词组NP,那么由ADJ N有
(noun(x),BE,adj(y)),或(noun(x),BE,noun(y))。当名词为常项N时,由
(noun(N),BE,adj(y))或(noun(x),BE,noun(y)),
可知不同的形容词或名词y同属于N的类属集合。按照上式,将在文章中搜索到的y自动地归属到N的类属集合,由此实现机器自动学习。
N=装饰风格[古罗马式,拜占庭式,维多利亚式,洛可可式,巴洛克式,中国汉代式,中国明式,中国清式……]
实例:设输入语句(建筑,有,风格)和(风格,是,简洁的)。这两条语句由原句“建筑有简洁的风格”切分而来。
在建筑条目下有关于建筑造型样式的知识,其中有一条对建筑的定义是:
(建筑,有,风格)————知识语句存在形式是(建筑,有,风格)
依据“建筑”、“风格”这两个词可以展开相关知识的自动搜索。
而在艺术条目下有关于艺术造型样式的知识,其中有“风格”词目,风格包含许多不同的样式,关于建筑造型的有:
建筑风格[古罗马式,拜占庭式,维多利亚式,洛可可式,巴洛克式,现代式,中国汉式,中国藏式,……]
知识语句存在形式是(风格,是,样式(x))。
其中的样式之一是“现代式”,关于“现代式”的知识语句存在形式是(现代式,是,简洁的)。
还需要有一个另外的约束条件才能在(风格,是,样式(x))中确定与知识语句(建筑,有,风格)的最佳匹配。这另一个约束条件就来自另一个输入的语句(风格,是,简洁的)。
当搜索进行到知识语句(风格,是,样式(x))类集之后,还可以再搜索到下一层面的知识语句类集,这是定义样式的状态的类属集合:
(样式(x),是,adj(y))
按照相同词进行递归操作,可以得到
(现代式,是,简洁的)—————“是”两边等价。
代入(风格,是,简洁的),得到
(风格,是,现代式)
再与(建筑,有,风格)进行回溯,得到新的语句:
建筑风格是现代式。
以此语句作为输出。
这样由输入的原句“建筑有简洁的风格”,得到输出语句“建筑风格是现代式”。
7.建立多元语义网络库管理模块
以下语句表述一条知识:
小燕从春天到秋天占有一个巢。
传统方法是
二元关系的合取:
■start(占有1,春天),finish(占有,秋天),
■owner(占有1,小燕),owner(占有1,巢1)
采用本发明的方法,完全用似谓词演算形式的自然语句表示,并进一步以Prolog语言自动编程,将一种知识片断建立起来,构成语义网络的一部分:
补充:(小燕,占有,一个巢)→(燕,占有)→(燕,是,占有者),————(自动生成)
(燕,是,鸟)。
利用Prolog语言自动编程,将上式①表述的知识片断建立起来,构成关于鸟类的语义网络的一部分。
“小燕从春天到秋天占有一个巢”程序这样编写:
program swallows(x):-own(swallow,一个巢),own_start(swallow,春天),own_finish(swallow,秋天),start(own,春天),finish(own,秋天),start(time,春天),finish(time,秋天),owner(swallow),swallows(x).
swallows_report:-
write('Known swallows are:'),nl,swallows(x),write(x),nl,
fail.
把这个程序调入Listener中,运行swallows_report.。
采用本发明方法,对自然语言表述进行似谓词演算形式的转换,泛化的基础上实现机器自动编程。
本发明的方法在隐喻、联想机制中的表达
按照本发明方法,首先以格式塔结构维度为基础将信息与知识形式化,与推理机制结合,并以前者为基础进行联结、转换,实现联想的思维过程和结果。而且,一般在一个语句中词汇多数都有扩展意义,这用格式塔结构维度将它表达出来,“词”的格式塔结构维度正是表述的词的“语境”。从下面用BNF(Bachus-Naur Form)表述式来表示“我在读书”句子的理论分析,可见其独特性。
a.首先按照词义和位置进行转换
赋值语句::=匹配<WHAT的定义>|设<WHAT的定义>
b.WHAT(1,2)的定义::=<WHAT(1,2)的名称><具有><格式塔结构维度集合>|<格式塔结构维度集合><属于><WHAT(1,2)的名称>
c.动词::=具有|属于
d.格式塔结构维度集合::=<维度1>,<维度2>,<维度3>,…<维度n>
e.格式塔结构维度::=<空间限定>,<时间限定>,<量>,<相互关系>,……
f.WHAT(1,2)名称::=(WHAT(1,2))<设定的符号>|(WHAT(1,2))<设定的符号>的格式塔结构维度集合
g.选择新的WHAT(R)的定义::=<WHAT(1)or WHAT(2)的名称><具有><格式塔结构维度集合>|<格式塔结构维度集合><属于><WHAT(1)or WHAT(2)的名称>
h.回应赋值语句::=设<what’(1,2)的定义><具有><格式塔结构维度集合>|<格式塔结构维度集合><属于><what’(1,2)>
i.由省缺的原WHAT(1,2)的格式塔结构维度中匹配提取某维度作为新句子的议题。
(g)~(i)的行为由“语境”决定。语境由已设定的模式中按目标状态、时间状态和空间状态等综合因素决定激活其一。
【实例】首—中—尾(3段组合)模式是隐喻式表述,是抽象模式上—中—下(以大地重力为参照系,垂直向)、前—中—后(水平向)、左—中—右(水平向)的限定形态之一。这三种形态模式统一表达为一端(start)—中间(middle)—另一端(end)的离散的空间限定的终极抽象形式。用形式化的自然语言的表述方法,这属于关系概念集合smea。
设Q为n维关系元,则有
Q=(smea,(W1,BE,SME))和n维关系元
SME=[start]∧[middle]∧[end]
[start],[middle],[end]分别是一端(start)—中间(middle)—另一端(end)的概念集合。
W1是WHAT的一个常项。
如婆媳关系:母—子—儿媳;社会成员角色分类关系:精英分子—社会大众—弱势群体。此二例均为隐喻式表述。
“不受苦中苦,难为人上人”则属于两极概念的结构模式。此类可表示为:
两个相对矛盾终极概念表达为一端(start)——另一端(end),由上述方法表示即
SE=[start]∧[end]
Q=(SE,(W1,BE,SE)a,w)和n维关系元
隐喻式推理
这是联想、隐喻的形成方式。
在隐喻的源体与目标体关系中,相对应的组成元素即相似的格式塔结构维度。找出隐喻的可自动分解的操作模式就解决了创新性思维的可行模式问题。利用格式塔结构维度部分相似来达到创新。从思维的角度看,创新是隐喻的结果。
我们在此以相互关系的征象之一——形态的“聚”的格式塔结构维度集合来加以说明:
“聚”的关系征象:①基元的数量2以上;②相互依存性;③形态相向的态势;④互补性;⑤相似性;⑥有序性。
显然,直线形态不具有“聚”的特征,所以变曲的河流才有“聚气”的功能,这已反映在中国古代建筑“风水术”的相关理论中。我们再以情感之表述词“爱”的格式塔结构维度集合来加以说明:
1)“爱”的格式塔结构维度:①非平衡性。即“爱”是倾向性的,偏向的。②控制关系。即对心灵的影响,对其有约束作用。③主体与客体(或称施方与受方)。施方受“爱”的控制最强。④相互作用关系,付出与回报同时存在。“爱”是付出(心灵的或行为的),但同时也使施爱方得到“愿望的满足”,即付出“爱”的愿望得到实现。⑤在刺激——反应关系中,“爱”最先显现为一种接受刺激的倾向,然后才引起生理——心理情感的相关激发体验,即进入“爱”的状态。这种接受刺激的倾向被称为“态度”。
2)“恨”与爱方向相反,部分结构维度相同。但第⑤点不同,它具有排斥刺激的倾向。
一个事物A由一系列由符号系统的概念所命名的中间过程和事物所组成,例如一座房屋,一台机器等等。将一个符号作为上述表示方式中的一个格式塔结构维度,则该事物就可以由一系列的格式塔结构维度所定义。显然,这是另一层面的格式塔结构维度表示方式,每一个维度又有与之相似的更深层面的格式塔结构维度集合所定义。如此递归至上述的最基础的格式塔结构维度表达方式。呈现为树形构成结构。变化某一层面的某个或某些维度的量值或进行相似事物的代换,就能使事物A发生形态甚至性质变异,而转变为另一个事物B,这就是我们创造思维的“机械化”方式。循着这一思路,利用人工智能技术对此进行表述,例如利用现在关于知识的产生式表示法,框架表示法和语义网络表示法,只是表达的内容有所不同。
相似的概念在其格式塔结构维度集中,维度相同相似的数量大,例如,“肥”与“密”;“瘦”与“疏”作为现象描述时,都是对表面形态体量的描述,在量的维度是“多”或“少”的界定,它们每组都是相似的。而对于“全”与“缺”,除了“多”或“少”的界定,还有量的变化的表述,“缺”隐含着量未达标准。这两个概念更加抽象,并不是直接地对表面形态的表述。这组相反概念组与上述概念组部分相似维度数量是不同的,差异性更大些。差异性大的相似概念相互替代,创新性和创新程度大,但也可能被认为荒谬。下面以实例看看:
隐喻的逻辑
以“月光如水”来说明,
月(“月”的特性集合——格式塔结构维度集合,就是“月”的抽象的语义网络):
在“阴阳”概念上属“阴”。
其形态与物理属性:⑴有光、但柔和;⑵园形或扁圆形;⑶不发热;⑷光色与水色相似;⑸弱。
其空间属性:⑴与太阳同在天上;⑵尺度较太阳为小;
其时间属性:夜间
其环境属性:⑴静寂;⑵温度低;⑶[视觉环境]模糊,故统一性极强。
水(“水”的特性集合——格式塔结构维度集合,就是“水”的抽象的语义网络):
在“阴阳”概念上属“阴”。
其形态与物理属性:⑴有光(反射光),但柔和;⑵有线状纹理(当风吹动时);⑶不发热,可使人产生凉的记忆;⑷、光色与月色相似;⑸弱;⑹可有声响;⑺清晰或模糊(依光照而定)。
其空间属性:⑴、随处而形,有依附性;⑵、尺度不定
其时间属性:⑴或静止或流动
其环境属性:地上的诸多因素而定。
比较“水”与“月”之属性,可见二者在光、色、温度、柔弱、模糊等诸方面同一,即G与G相似度大,故可以形成隐喻的关系。可用G≌G表示格式塔维度相似数量大的关系,简称G与G相似。
设g为格式塔结构分维度。
如果以似谓词形式表达,即
【隐喻生成实例】
虚拟(非感觉性)的思维中的信息或情感像一件东西,语言是思维的载体,词语像装载东西的容器,交谈像信息或情感的传递,按隐喻生成机制,用语言交流信息和情感,这个复杂概念由三个相关联的隐喻有机地组成一个整体(引自《语法隐喻和隐喻语法》(沈家煊讲稿p1),这就是下面的三个相关联的隐喻陈述:
①信息或情感是一件东西
②词语是装载东西的容器
③交谈过程是物件的传递过程
下面我们看利用自然语言如何从①、②及补充的另外一些相关知识得出③:
⒈相似性:(信息或情感,像,一件东西)→隐喻:(信息或情感,是,一件东西)
⒉相似性:(词语,像,装载东西的容器)→隐喻:(词语,是,容器)
=相似性:(词语,像,(容器,装载,东西))→隐喻:(词语,是,容器)
=相似性:(词语,像,容器)∧(容器,装载,东西)→隐喻:(词语,是,容器)→(词语,装载,东西)
词语∈语言,思维单元∈思维
(语言,是,载体)∧(载体,装载,思维)
(词语,属于,语言)→(词语,装载,思维单元)
(容器,属于,载体)→(容器,裝载,东西)
⒊相似性:(交谈,像,信息或情感的传递)→隐喻:(交谈,是,信息或情感的传递)
=相似性:(交谈,像,(信息或情感的传递))→隐喻:(交谈,是,(信息或情感的传递))
=相似性:(交谈,像,(…,传递,信息或情感))→隐喻:(交谈,是,(…,传递,信息或情感))
=相似性:(交谈,像,传递)∧(…,传递,信息或情感)→隐喻:(交谈,是,传递)∧(…,传递,信息或情感)
代入⒈式,得到
相似性:(交谈,像,传递)∧(…,传递,一件东西)→隐喻:(交谈,是,传递)∧(…,传递,一件东西)
由物件∈东西,代入上式得到
相似性:(交谈,像,传递)∧(…,传递,物件)→隐喻:(交谈,是,传递)∧(…,传递,物件)→(交谈过程,是,传递过程)∧(…,传递,物件)
(…,传递,物件)是对“传递”的限定,“传递”可以变换为“物件的传递”,所以,回溯得到
交谈过程是物件的传递过程。
泛化上述的变换,
(…,DO,W)等价于WS DON
WS是原名词形容词化
DON是原动词名词化
创造思维最终目标以计算机的无与伦比的记忆、联结和极速来非常高效地模仿实现人的创造思维。
本发明将自然语言似谓词演算形式转換后可以实现机器自动学习:
人类知识由各种具体景象中获得,并通过发现它们的相似性而归纳出类属,即一些具有相似性的不同事物从某种角度看,被认定为一些相同的东西。按照本发明方法,通过词(概念)的格式塔结构维度的相似度,机器可以自动搜索识别,找出同类属的概念(词)和相反的概念(词),表述行为的系列词汇也可以同样的方法寻出,并作为学习结果储存入字词数据库。
本发明可以实现机器通过对某事实表述的学习,从中找寻因果关系并推理得出某个结论:
进行这类推理,需要有知识库提供不同的但是意义相同的概念(词)和因果关系句子最简似谓词演算形式联结。
本发明的自然语言似谓词演算形式转換后可以实现机器自动编程:
11.自动编程
11.1程序“自变量为a时,执行p,q这种谓词,自变量为b时,执行r,s这种谓词”。
pred(a):-p,q
pred(b):-r,s
Pred(abbr.断言;宣布;谓词(predicate))
first(初始)
rest(剩余部分)
cons(construction的缩写,建立,解释)
初始(first)元素为a,剩余的元素(rest)为[b,c],这时的表可以表示为[a|[b,c]]。若将这种表示进行复原,即从表中取出初始元素first,和初始元素以外的元素rest,或者构成以谓词描述的cons,则会变成下列形式:
first first([X|Y],X)
rest rest([X|Y],Y)
cons cons(X,Y,[X|Y])
11.2需要编制的程序
11.2.1自动生成词库和知识库
设从辞典中抽取一词“读——看着文字念出声来或学习”,把这个词及其释义转换为以Prolog建立的词库中的词。
【实例】从已有辞典得到“读,看着文字念出声来或学习”,先转成英文:
Read is Look at words and sound or learn。
问题1:能否直接联结电子辞典而将汉字对应转换为英文词?如果不行,则建立英汉对应的字库(是字库而不是辞库,如“读——read”对应)。
2.先人工将read的定义转成似谓词演算形式:
Read is Look at words and sound
=(read,is,(X1,Look at,words)∧(X1,sound)∨(X1,learn))
=(read,is,W1∧W2∨W3)
=(read,is,W1)∧(read,is,W2)∨(read,is,W3)
W1=(X1,Look at,words)
W2=(X1,sound)
W3=(X1,learn)
3.进而机器自动直接转换为似谓词演算形式并编程:
似谓词演算形式均是
(N1,DO,N2),
或(N1,IS,N2),
或(N,IS,WHERE),
或(N,IS,STATE),
最后分解后的似谓词演算形式均是最简句式,即最多只有三个单词,且第二个词是谓词。一个语句可能分解为数个“与”关系的最简句式,并由它们构成完整句义。
按最简句式一组三词的次序转换为谓词形式并编程,完成一组后,再进行另一组的相同操作,如此到完毕。
significance(read):-W1,W2
significance(read):-W3
W1:-Look_at(X,words),person(X)
W2:-sound(X),person(X)
W3:-learn(X),person(X)
person(X)
如此就是“读——read”在我们自建的词库中的形态,所有的最简句式都有自己的编号Wj,以避免在定义其他词时出现重复。其他词均如此建立。
以上对本发明实施例所提供的自然语言机器识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种自然语言机器识别方法,其特征在于包括下述步骤:(S11)建立似谓词演算形式词义对应的数据库;(S12)输入自然语言信息;(S13)对所述的自然语言信息的语句进行逐句切分处理,并根据切分规则转换为一个以上的似谓词演算形式句;(S14)将所述的一个以上的似谓词演算形式句转换为机器识别的电信号,然后输入至中央处理单元进行搜索或识别或递归或替代中的至少一种方式进行自动推理、联想思维的功能处理,并生成新的数字代码组合;(S15)将所述的数字代码组合回溯转换为与输入的自然语言信息相应的新的自然语句作为输出,或者作为学习结果进行存储;
所述的似谓词演算形式的定义为:自然语言句式均是由四种最简思维模式之一或组合构成的句式,每一种最简思维模式句均为包括谓词的最简句式,和现有的谓词演算的表达方式相似,将上述四种最简思维模式定义为似谓词演算形式;
所述的自然语言信息转换为似谓词演算形式句后的自动推理、联想过程为:切分后的语句变成了由三项一组的字词构成的最简思维模式的集合,运用搜索或识别或递归或替代中的至少一种方式而实现自动推理、联想思维过程;
所述的四种最简思维模式分别为:(1)“WHAT BE WHAT”模式,即“什么是什么”模式;(2)“WHAT DO WHAT”模式,即“什么做什么”模式;(3)“WHAT BE WHERE”模式,即“什么在哪里”模式;以及(4)“WHAT BE STATE”模式,即“什么在何状态”模式。
2.根据权利要求1所述的自然语言机器识别方法,其特征在于所述的数据库至少包括用自然数编码的新代码字词库,所述用自然数编码的新代码字词库通过手工输入或利用现有的开放代码源的字词库输入字词的方式来建立。
3.根据权利要求1所述的一种自然语言机器识别方法,其特征在于所述的切分规则为:将输入的自然语言信息的句子切分为一个以上的似谓词演算形式句,把句子每一层的意义完整地保留下来,每一个所述的似谓词演算形式句是由最多三项一组的字词组成的最简句式;所述的自然语言信息对应段落的句子经切分后,转换为多个由三项一组构成的一组数列的集合。
4.根据权利要求3所述的一种自然语言机器识别方法,其特征在于所述的切分规则采用以下的算法模型来实现:
(S21)以句号为一个语句的句义中止标识,以段落为句义群中止标识,以整篇为段义群中止标识;子句以逗号为界,搜索整体句中的最简句式中间项的谓词,依次与字词库进行比对;
(S21.1)以此谓词为界确定第一层面的前部项、后部项的句子成份,从而确定句式前部项为第一层面的最简句式第一项,确定句式后部项为第一层面的最简句式第三项;
(S21.2)如果原句中间项的谓词有省略,则先补足谓词,然后重复步骤(S21.1)的操作;
(S22)按顺序分别对所述的句式前部项和句式后部项为进行第二层面切分,重复进行相同于上述步骤(S21)的切分过程;
(S23)限定词的受限主词作为下一层面的最简句式的第一项,第二项添加谓词,第三项则为该限定词;
(S24)再在下一层面进行上述切分过程,直至全句完成切分。
5.根据权利要求4所述的一种自然语言机器识别方法,其特征在于所述的句子中谓词的搜索算法模型为:
(S31)在一句子中逐次将字与字词库比对,对应字词库输出各词在该句子中的属性/词性,直到搜索出第一个谓词,继续之后的搜索;如果再未有谓词,则搜索完成;判断词或动词之前者为行为使动者,之后者为表述词或行为受动者,得到最简句式;
(S32)如果后边搜索到第二个谓词,继续之后的搜索,如果再未有谓词,则搜索完成;谓词之前者为行为使动者,之后者为表述词或行为受动者,即找出了最简句式的复合结构。
6.根据权利要求1或2所述的自然语言机器识别方法,其特征在于所述的由自然语言信息转换的似谓词演算形式进行演算的推理算法模型:
(S41)按时间优先原则,取首句第一组数列中的第三项减次句中第一组数列中的第一项,如结果为0,并且首句第一组数列中的第二项减次句第二组数列中的第二项的结果也为0,则将次句第二组的第一项替代首句第一组数列的第三项;新的首句第一组数列构造完成;
(S41.1)如未有上述结果,则取首句第一组数列中的第三项减次2句第三组数列中的第一项,如结果为0,并且首句第一组数列中的第二项减次2句第三组数列中的第二项的结果为0,则将次2句第三组的第一项替代首句第一组数列的第三项;新的首句第一组数列构造完成;
(S42)取第一组数列中的第三项减去已成功完成步骤(S41)运算的次组数列中的第一项,如结果为0,并且第一组数列中的第二项减去已成功完成步骤(S41)运算的次组数列中的第二项的结果为0,则将已成功完成步骤(S41)运算的次组数列中的第一项替代第一组数列的第三项;新的第一组数列构造完成;
(S43)继续上述过程直至无法完成上述过程,中止;输出新的第一组数列,得到推理结果;
(S44)如果所选的一组数列无法完成上述过程,则选择次一组数列进行上述过程;
(S45)有推理结果或无推理结果,输出结论。
7.一种自然语言机器识别系统,其特征在于包括人机接口模块、句子切分模块、中央处理单元、句式合成模块及数据库模块,所述的句子切分模块和句式合成模块分别与所述中央处理单元的输入端和输出端通过电信号相连,所述的数据库模块至少包括字词库管理模块;
人机接口模块用于输入自然语言信息;所述的句子切分模块对所述的自然语言信息的语句进行逐句切分处理,并根据切分规则转换为一个以上的似谓词演算形式句,将所述的一个以上的似谓词演算形式句转换为机器识别的电信号,然后输入至中央处理单元;所述的中央处理单元进行搜索或识别或递归或替代中的至少一种方式进行自动推理、联想思维的功能处理,并生成新的数字代码组合;所述的句式合成模块将所述的数字代码组合回溯转换为与输入的自然语言信息相应的新的自然语句作为输出,或者作为学习结果进行存储;
所述的似谓词演算形式的定义为:自然语言句式均是由四种最简思维模式之一或组合构成的句式,每一种最简思维模式句均为包括谓词的最简句式,和现有的谓词演算的表达方式相似,将上述四种最简思维模式定义为似谓词演算形式;
所述的自然语言信息转换为似谓词演算形式句后的自动推理、联想过程为:切分后的语句变成了由三项一组的字词构成的最简思维模式的集合,运用搜索或识别或递归或替代中的至少一种方式而实现自动推理、联想思维过程;所述的四种最简思维模式分别为:(1)“WHATBE WHAT”模式,即“什么是什么”模式;(2)“WHAT DO WHAT”模式,即“什么做什么”模式;(3)“WHAT BE WHERE”模式,即“什么在哪里”模式;以及(4)“WHAT BE STATE”模式,即“什么在何状态”模式。
8.根据权利要求7所述的一种自然语言机器识别系统,其特征在于所述的数据库模块为多库协同模块,还包括知识库管理模块、情景库管理模块、多元语义网络库管理模块及隐喻网络库管理模块。
CN201610349629.6A 2016-05-23 2016-05-23 一种自然语言机器识别方法及系统 Active CN106055537B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610349629.6A CN106055537B (zh) 2016-05-23 2016-05-23 一种自然语言机器识别方法及系统
US15/224,505 US20170337180A1 (en) 2016-05-23 2016-07-29 Recognition method and system of natural language for machine thinking

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610349629.6A CN106055537B (zh) 2016-05-23 2016-05-23 一种自然语言机器识别方法及系统

Publications (2)

Publication Number Publication Date
CN106055537A CN106055537A (zh) 2016-10-26
CN106055537B true CN106055537B (zh) 2019-03-12

Family

ID=57174292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610349629.6A Active CN106055537B (zh) 2016-05-23 2016-05-23 一种自然语言机器识别方法及系统

Country Status (2)

Country Link
US (1) US20170337180A1 (zh)
CN (1) CN106055537B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018131048A1 (en) * 2017-01-11 2018-07-19 Satyanarayana Krishnamurthy System and method for natural language generation
CN107422691B (zh) * 2017-08-11 2020-05-12 山东省计算中心(国家超级计算济南中心) 一种协同plc编程语言构造方法
CN107633052A (zh) * 2017-09-19 2018-01-26 王振江 机器人智能制造方法
JP6713136B2 (ja) * 2017-11-06 2020-06-24 昭和電工株式会社 因果文解析装置、因果文解析システム、プログラム、及び因果文解析方法
CN107992482B (zh) * 2017-12-26 2021-12-07 科大讯飞股份有限公司 数学主观题解答步骤的规约方法及系统
CN108170679B (zh) * 2017-12-28 2021-09-03 中国联合网络通信集团有限公司 基于计算机可识别自然语言描述的语义匹配方法及系统
CN108255814A (zh) * 2018-01-25 2018-07-06 王立山 一种智能体的自然语言产生式系统及方法
CN110244860B (zh) * 2018-03-08 2024-02-02 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN108536687A (zh) * 2018-04-20 2018-09-14 王立山 基于似谓词演算形式的机器思维语言翻译的方法及系统
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
EP3811245A4 (en) 2018-06-19 2022-03-09 Ellipsis Health, Inc. MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS
CN109241522B (zh) * 2018-08-02 2023-04-07 义语智能科技(上海)有限公司 编码解码方法及设备
CN109241531A (zh) * 2018-08-30 2019-01-18 王立山 自然语言机器思维的学习方法及系统
CN110069786A (zh) * 2019-05-06 2019-07-30 北京理琪教育科技有限公司 语文作文情感倾向的分析方法、装置和设备
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
CN110619123B (zh) * 2019-09-19 2021-01-26 电子科技大学 一种机器阅读理解方法
US11526541B1 (en) * 2019-10-17 2022-12-13 Live Circle, Inc. Method for collaborative knowledge base development
CN110851579B (zh) * 2019-11-06 2023-03-10 杨鑫蛟 用户意图识别方法、系统、移动终端及存储介质
CN110727428B (zh) * 2019-12-19 2020-05-15 杭州健戎潜渊科技有限公司 一种转换业务逻辑层代码的方法、装置和电子设备
CN111159359B (zh) * 2019-12-31 2023-04-21 达闼机器人股份有限公司 文档检索方法、装置及计算机可读存储介质
CN111597790B (zh) * 2020-05-25 2023-12-05 郑州轻工业大学 一种基于人工智能的自然语言处理系统
CN112381219A (zh) * 2020-12-01 2021-02-19 何吴迪 一种模拟思维逻辑的类神经网络构建方法
CN112579735B (zh) * 2020-12-09 2023-04-28 北京字节跳动网络技术有限公司 一种题目生成方法、装置、计算机设备及存储介质
CN112686028B (zh) * 2020-12-25 2021-09-03 掌阅科技股份有限公司 基于相似词的文本翻译方法、计算设备及计算机存储介质
CN112966079B (zh) * 2021-03-02 2022-09-30 中国电子科技集团公司第二十八研究所 一种用于对话系统的面向事件画像的文本分析方法
CN113139657B (zh) * 2021-04-08 2024-03-29 北京泰豪智能工程有限公司 一种机器思维实现方法及装置
US20230161948A1 (en) * 2021-11-24 2023-05-25 International Business Machines Corporation Iteratively updating a document structure to resolve disconnected text in element blocks
CN114417807B (zh) * 2022-01-24 2023-09-22 中国电子科技集团公司第五十四研究所 面向有无人协同场景的类人语言描述表达方法
CN114662496A (zh) * 2022-02-23 2022-06-24 腾讯科技(深圳)有限公司 信息识别方法、装置、设备、存储介质及产品
CN117892818B (zh) * 2024-03-18 2024-05-28 浙江大学 一种基于隐式思维链的大语言模型推理性内容生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US8155951B2 (en) * 2003-06-12 2012-04-10 Patrick William Jamieson Process for constructing a semantic knowledge base using a document corpus
JP2005208782A (ja) * 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN101303692B (zh) * 2008-06-19 2012-08-29 徐文和 一种供机器语言翻译的通用数码语义库
CN101923539B (zh) * 2009-06-11 2014-02-12 珠海市智汽电子科技有限公司 基于自然语言的人机对话系统
CN103150381B (zh) * 2013-03-14 2016-03-02 北京理工大学 一种高精度汉语谓词识别方法
CN103412855A (zh) * 2013-06-27 2013-11-27 华中师范大学 现代汉语复句关系词自动识别方法及系统

Also Published As

Publication number Publication date
CN106055537A (zh) 2016-10-26
US20170337180A1 (en) 2017-11-23

Similar Documents

Publication Publication Date Title
CN106055537B (zh) 一种自然语言机器识别方法及系统
You et al. Robust visual-textual sentiment analysis: When attention meets tree-structured recursive neural networks
Wang et al. Chinese poetry generation with planning based neural network
Wilks Machine translation: Its scope and limits
Trim Metaphor Networks
Tewel et al. Zero-shot image-to-text generation for visual-semantic arithmetic
Chen et al. DialogVED: A pre-trained latent variable encoder-decoder model for dialog response generation
Bian et al. Benchmarking knowledge-enhanced commonsense question answering via knowledge-to-text transformation
Seuren From Whorf to Montague: Explorations in the theory of language
Fox Contextualization, indexicality, and the distributed nature of grammar
WO2019144699A1 (zh) 一种智能体的自然语言产生式系统及方法
Bakshi et al. Structure-to-text generation with self-training, acceptability classifiers and context-conditioning for the GEM shared task
Cahyawijaya et al. Nusawrites: Constructing high-quality corpora for underrepresented and extremely low-resource languages
Macedo Tracking Guarani songs: between villages, cities and worlds
Dutta-Roy Negotiating between languages and cultures: english studies today
Grant et al. The complex of creole typological features: The case of Mauritian Creole
Manfredi et al. The referential prosody of bare arguments
Meyerhoff Be i no gat: Constraints on Null Subjects in Bislama
Aikhenvald Gender, shape, and sociality: How humans are special in Manambu
CN108536687A (zh) 基于似谓词演算形式的机器思维语言翻译的方法及系统
Wei Terminology and ontology for cultural heritage: application to chinese ceramic vessels
Dinkel The Materiality of Metaphor in Mayan Hieroglyphic Texts: Metaphor in Changing Political Climates
Wu Generating Descriptive and Accurate Image Captions with Neural Networks
Rosborough et al. 43 Wakashan Languages
Ruwu et al. Confucian Translation Problems and a Phenomenological Solution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant