CN109241531A - 自然语言机器思维的学习方法及系统 - Google Patents
自然语言机器思维的学习方法及系统 Download PDFInfo
- Publication number
- CN109241531A CN109241531A CN201811003152.1A CN201811003152A CN109241531A CN 109241531 A CN109241531 A CN 109241531A CN 201811003152 A CN201811003152 A CN 201811003152A CN 109241531 A CN109241531 A CN 109241531A
- Authority
- CN
- China
- Prior art keywords
- clause
- natural language
- sentence
- learning
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了自然语言机器思维的学习方法及系统,包括以下步骤:输入自然语言表述语句并转换为似谓词演算形式子句集;依据层次挑出表述抽象特性特征的主子句作为训练实例子句集;输入或自生成学习结果子句集;根据训练实例子句集中的指针词搜索知识库,建立适于目标概念的背景知识;在自然语言产生式系统中或直接利用学习算法对训练实例进行学习,得到学习结果;将学习结果以似谓词演算形式子句集的形式存储至知识库或生成新的自然语句输出。优点在于,通过本发明提供的方法或系统,直接使用自然语言思维的机器将能够学习和使用自然语言来指令智能体行为,以及能自动控制专门程序软件的使用。
Description
技术领域
本发明涉及智能体的知识库内容自动拓展的方法及系统,尤其涉及一种自然语言机器思维的学习方法及系统。
背景技术
本发明要引用到“自然语言似谓词演算形式”和“自然语言产生式系统”,详见发明申请号为:201610349629.6的《一种自然语言机器识别方法及系统》及发明申请号为:201810073361.7的《一种智能体的自然语言产生式系统及方法》中的详细表述。智能体可称为Agent或机器,所述的机器特指智能体机器。
传统的机器学习包括各种实用的理论和算法,例如概念学习、决策树、神经网络、贝叶斯学习、基于实例的学习,遗传算法、规则学习、基于解释的学习和增强学习等,但没有直接使用自然语言的机器学习。由于方法论和技术路线的缺谄,人工智能尚远未达到让机器像人类那样学习的目标。
发明内容
本发明要解决的技术问题是针对现有人工智能的根本不足,提出对于现有人工智能具有颠覆性的方法论,提供由机器直接使用自然语言的方法,从而实现机器学习与人类学习的一致性,实现机器像人一样进行学习过程。
本发明所述的自然语言机器思维的学习方法,包括以下步骤:
输入自然语言表述语句并转换为似谓词演算形式子句集;
从似谓词演算形式子句集依据层次挑出表述抽象特性特征的主子句作为训练实例子句集;
输入或自生成学习结果子句集;
根据训练实例子句集中的指针词搜索知识库,建立适于目标概念的背景知识;
在自然语言产生式系统中或直接利用学习算法对训练实例进行学习,得到学习结果;
将学习结果以似谓词演算形式子句集的形式存储至知识库;
将学习结果生成新的自然语句输出。
所述的学习算法包括泛化算法:训练实例子句集中用变量替换常量;从自然语言表述语句转換为似谓词演算形式子句集中去掉一些限定子句;表达式增加一个析取式;用更高抽象层次属性概念替换对应属性。
所述的学习算法包括学习和解决问题相结合的算法:感测到的信息以似谓词演算形式主子句集形式输入;在景观中识别一个物体,形成的每一个视觉模式,对应输出一个对应的自然语言表述语句;与景观库进行特征比对,匹配成功则输出对应的景观库储存的描述最简子句;将最简子句进行聚群形成整个景观描述;对场所进行划分度量;对目标空间及时间未知进行确定;对不可移动的障碍物位置进行确定;建立同一时空中各事物的关联关系。
所述的学习算法包括概念学习算法:把关于事物的概念表述自然语言语句变换为似谓词演算形式,并表示为包含变量的合取语句;对概念进行泛化;由指针词牵引建立相关的概念网络;进行启发式搜索;将泛化的概念进行联结。
所述的学习算法包括学习识别事物类别的算法:首先,将自然语言表述语句转換为似谓词演算形式子句集;从似谓词演算形式子句集依据层次挑出表述抽象特性特征的主子句;进入建立目标概念的训练实例子句集;进入目标概念的实例训练;通过用变量替换常量来泛化候选慨念,并完成模式识别;输出学习结果。
所述的学习算法包括(x,DO,y)语句学习样例获得泛化句式算法:以28种句型作为学习样例;逆语句切分层次;从最后的切分子句集合中挑出主题子句且组成主子句集;主子句集在新的未处理的语句搜索中作为对照子句;通过学习样例句式获得泛化句式;生成泛化句式输出。
所述的学习算法包括推理学习算法:作为描述的自然语句转換为似谓词演算形式子句集;将自然语句推理样例泛化;进入学习样例语句获得泛化句式算法程序;从样例语句获得泛化句式的主子句集;进入自然语言产生式系统推理程序或进入自然语言似谓词演算形式推理程序进行推理;得到推理结果并生成自然语句输出。
所述的学习算法包括类比推理式学习算法:用格式塔结构维度集定义所有的概念;建立似谓词演算形式为基础的概念库;以指针词牵引搜索建立目标概念和源概念之间类比映射的初始元素;自然语言似谓词演算形式转换为自然语言产生式系统规则表示;把源属性映射到目标领域中;在切分后的最简思维模式子句中用相似的词替代相对位置上的词;泛化学习得到的自然语言似谓词演算形式子句集。
所述的学习算法包括对正与反结论的表述语句的学习算法:建立目标概念;摘取属性或主子句;选择分析表示模式,将摘取的属性置入或主子句罗列;分析处理属性或主子句影响因子在因果关系中的具体作用;将每个语句中的同一属性归类,在表示模式罗列出每个属性可取值;将每个正反例表示归类,罗列每个正例中的所摘取属性作为最一般的假设,罗列每个反例中的所摘取属性作为最特殊的假设;学习结果输出。
所述的学习算法包括从语句表述中获取知识的算法:将正例子句集按维度值减反例子句集,得到的反例子句剩余项就是构成反例的关键词;合併正例子句中的同一维度的不同值,以析取符号∨分开这些值,获得正例子句的合併语句;筛选正例子句中的同一维度值,以合取符号∧分开这些值,获得正例子句的最少维度约束句;合併反例子句中的同一维度的不同值,以析取符号∨分开这些值,获得反例子句的合併语句;将新的子句集生成新表述语句输出,或将新的子句集储存作为学习结果;结束并生成输出结果。
所述的学习算法包括归纳学习算法:作为描述的自然语句转換为似谓词演算形式子句集;由自然语句似谓词演算形式子句集抽取的主题子句构成表述主子句集;假定给定的实例足以建立一个有效的泛化;用测试特定属性值的方法决定对象的分类,区分必要属性和无关属性,利用自然语言似谓词演算形式的FIND~S算法,在自然语言产生式系统,做出对所有给定实例组别正确分类的最小决策归纳,进入统计计算程序。
所述的学习算法包括自然语言似谓词演算形式的FIND~S算法:输入自然语言似谓词演算形式的子句集,利用已输入的子句集形成目标概念和利用已输入的子句集搜索领域空间,进入自然语言产生式系统;将没有赋值的子句集h初始化为假设空间 H中最特殊假设;对每个正例x都对h的每个属性约束在最简思维模式的子句aj;当 x不满足aj,将h中aj替换为x满足的另一个更一般的约束;输出假设。
所述的学习算法包括候选消除学习算法:计算出的变型空间,包含假设集合中所有与训练样例的观察序列一致的假设;将变型空间初始化为假设集合,即将极大一般成员G边界集合初始化为假设集合中最一般的假设:G0←﹛(?,?,?,?,?,?)﹜,并将极大特殊成员S边界集合初始化为最特殊的假设:S0←﹛(Φ,Φ,Φ,Φ,Φ,Φ)﹜,这两个边界集合包含了整个假设空间;在处理每个训练样例时,分别对极大特殊成员 S和极大一般成员G边界集合进行泛化和特殊化,从变型空间中逐步消去与样例不一致的假设。
所述的学习算法包括决策树分类算法:由自然语句似谓词演算形式子句集中抽取不同属性的关键词匹进行配对,构成分类的分支值正例和反例的关系,在自然语言产生式环境下生成属性值约束的合取的析取式。
所述的学习算法包括最佳分类属性选择算法:将表述任务的自然语句转换为似谓词演算形式子句集;在自然语言产生式系统对涉及计算的子句牵引进入计算程序建立对应关系,用相应的子句控制计算过程;预测目标属性值,创建存在关系的最顶端结点,计算每一个候选属性的信息增益,选择信息增益最高者,进行目标概念的训练样例分析过程而得到定性的结论;由反例每组比对,不相同的属性值确定为无影响的属性值,不变的属性值确定为有影响的属性值,生成自然语句作为输出。
所述的学习算法包括训练样例和领域理论一致的假设求解算法,釆用自然语言机器思维的多次序列覆盖实现:在所有可用由自然语言似谓词演算形式子句集表示的训练样例上执行学习一个规则指令,再移去由其学到的规则覆盖的正例,然后在剩余的训练样例上执行学习第二个规则指令;重复若干次,直到最后学习到全部析取规则集。
所述的学习算法包括自然语言机器思维表述学习和分类文本的朴素贝叶思算法LEARN·NAlVE_BAYES_TEXT(Examples,V),用于学习概率项P(wk︱wj)以描述从类别wj中的一个文本中随机抽取的一个单词wk的概率,或用于学习类别的先验概率p(wf);其中Examples为一组自然语言似谓词演算形式子句集文本及推理目标子句值,V为所有可能目标子句值的集合。
所述的学习算法包括梯度下降算法GHA Dl ENT-DESCENT(training_examples,η),其中training_examples是训练样例集合,且每一个训练样例形式为序偶(x∧,t),其中x∧是输入值向量,t是目标输出值,η是学习速率;初始化每个线性单元的权 wi为随机小值,初始化每个权微小变量△wi为0;把每个训练实例的输入值向量x∧输入后计算得到值o;对线性单元的每个权wi依次进行△wi←△wi+η(t-o)xi、wi←wi +△wi运算,或对线性单元的每个权wi进行wi←wi+η(t-o)xi运算;然后将运算结果生成似谓词演算形式主子句集输出。
所述的学习算法包括深化学习算法:以事物的抽象构成因子作为学习基础,所述抽象构成因子的格式塔结构维度表示为:[x|实体或虚体]+有阈值的3D尺度或虚拟量度+表面状态[y|质地]+构成形式;具体算法步骤为:首先检测事物的3D 维度和限定界面或界线,得到实体或虚体的存在结论;然后检测实体或虚体的尺度,识别相似形式累积,得到实体或虚体具有的高度差和相似形式累积的存在结论;最后检测实体或虚体的高度变化的存在结论,检测完成后得到抽象程度高的概念,输出似谓词演算形式主子句集。
所述的学习算法包括分析-归纳学习算法:以主子句集作为自动搜索目标概念的空间,或者目标概念来自样例所附问题;创建一个等价于领域空间的初始网络,对每个案例属性创建一个网络输入,对领域空间的每个自然语句似谓词演算形式子句,创建网络单元;在网络单元之间增加附加的连接,连接深度为i的每个网络单元到深度为i+1的所有网络单元的输入层上,赋予这些附加的连接为接近0的随机权值;然后精化初始网络;应用自然语言机器思维的反向传播算法来调整初始网络权值以拟合训练样例。
所述的学习算法包括整篇文章解读算法:自然语句转換为似谓词演算形式子句集;知识库建立不同的但是意义相同的概念和因果关系句子最简似谓词形式联结;建立数学计算与自然语言似谓词演算形式子句的连接;自然语言似谓词演算形式转换为自然语言产生式系统规则表示,进行推理及归纳,搜索知识库相关知识单元形成领域空间,形成由分阶子目标函数构成的目标函数,将文本简要意义表述;将推理及归纳所得或匹配等价的目标概念构成主子句集存储知识库;对推理及归纳所得或匹配等价的目标概念构成主子句集回溯生成新句输出;将学习结果储存知识库。
所述的学习算法包括通过语句网络学习一个词义的算法:似谓词演算形式子句集中选择目标概念:未知的概念x1;若未知的概念x1|[x]和已知的概念g1|[g]在当下语境中等价,则g1是x1的格式塔结构维度之一,以部分g1代表整体x1;若已知的概念(g1,g2,…,gj|[g])和未知的概念x1在j个语境中等价,则(g1,g2,…, gj)是x1的部分的格式塔结构维度,以部分代表整体x1;若已知的全部概念(g1, g2,…,gn|[g])和未知的概念x1在n个语境中等价,则(g1,g2,…,gn)是x1 的所有的格式塔结构维度,以所有的部分代表整体x1;完成概念x1的词义由(g1, g2,…,gn)确定且在词库中建立对应的释义;结果输出并储存词库。
所述的学习算法包括学习行为概念并抽象化算法:首先将行为概念的自然语句转換为似谓词演算形式子句集,选择一个行为概念作为目标概念;根据现有的词典条目解释重新定义该行为概念,抽象层面泛化而重新定义该行为概念;用自然语言似谓词演算形式表达该行为概念的抽象定义,最后将结果输出并储存知识库。
本发明所述的学习系统应用所述自然语言机器思维学习方法,包括:输入单元,用于输入自然语言表述语句并将自然语言转换为似谓词演算形式子句集;输入学习结果子句集;训练单元,用于从似谓词演算形式子句集依据层次挑出表述抽象特性特征的主子句作为训练实例子句集;自生成学习结果子句集;根据训练实例子句集中的指针词搜索知识库,建立适于目标概念的背景知识;在自然语言产生式系统中利用学习算法对训练实例进行学习,得到学习结果;输出单元,用于将学习结果以似谓词演算形式子句集的形式存储至知识库;将学习结果生成新的自然语句输出。
本发明所述的自然语言机器思维的学习方法及系统,其优点在于,涉及的人工智能问题都是以自然语言似谓词演算形式为基础的,基于自然语句似谓词形式转换后的机器自动学习和实现路径:以自然语言的似谓词形式转换语句进行知识的归纳、类化、相似与差异以及隐喻关系发现;以自然语言的似谓词演算形式转换语句进行模仿性产生语句;从特殊的训练样例中归纳出一般函数是机器学习的中心问题。例如概念学习。机器思维学习任务以自然语言似谓词演算形式表示的自然语句和目标,即所学的知识也是自然语句的表示。搜索以子句关键词为指针词,也是语义网的建立的基础之一。通过本发明提供的方法或系统,直接使用自然语言思维的机器将能够学习和使用自然语言来指令智能体行为,以及能自动控制专门程序软件的使用。
附图说明
图1是本发明所述自然语言机器思维的学习方法的流程示意图。
图2是本发明所述自然语言机器思维的学习方法的学习和解决问题相结合的算法示意图。
图3是本发明所述自然语言机器思维的学习方法的决策树示意图。
具体实施方式
如图1所示,本发明所述的自然语言机器思维的自动学习方法涉及的人工智能问题都是以自然语言似谓词演算形式为基础的。本发明基于自然语句似谓词形式转换后的机器自动学习和实现路径是:
①以自然语言的似谓词形式转换语句进行知识的归纳、类化、相似与差异以及隐喻关系发现
②以自然语言的似谓词演算形式转换语句进行模仿性产生语句
③从特殊的训练样例中归纳出一般函数﹙语句泛式或共有的表达﹚是机器学习的中心问题。学习方式一是灌输式,只是把表述语句转换为似谓词演算形式子句集储存知识库。二是将笫一种方式经过泛化﹙归纳﹚后储存知识库。三是对同一事物有正与反结论的表述语句进行分析处理后,将必然得到正面结论的新生成子句集储存知识库。
机器具有自动学习能力之后就具有了解决问题的相应能力,如图2所示情况为例,讲述机器102/智能体/Agent如何将目标块103绕过障碍物101后到达G点。
自然语言机器思维学习和解决问题相结合的算法/*Agent接受和完成任务的算法。*/
·感应器感测到的信息以似谓词演算形式主子句集形式输入
·在景观中识别一个物体,形成的每一个视觉模式,对应输出一个自然语言表述语句
·识别图像模式从图景中採摘有意义的形状,输出;
·与景观库进行特征比对,匹配成功则输出该图形所对应的景观库储存的描述最简子句
·一些最简子句形式的表述语句的聚群;
·进入语句改写处理单元;
·生成语句聚群,形成整个景观描述输出。
·对场所进行某种形式的划分度量
·目标x空间及时间位置确定
·不可移动的障碍物位置确定
·同一时空中各事物关联关系
·自然语句转換为似谓词演算形式子句集形式输入
·选择关键信息子句构成传达给agent的主子句集
·agent按接收到的主子句集进行思维活动并控制行为动作
·else agent由机器视觉获得任务指令
·形成目标函数
·搜索知识库获得领域空间B
·进行任务解决过程
·按领域空间B和感应器感测信息做出移动路线规划
·在目标明确和领域空间B背景下对问题求解
·当下环境状况描述语句牵引搜索相应控制agent行为的子句
·运用各种适合的问题解决算法。
·任务完成,生成新语句输出
语句指令:
目标函数:推动一个目标块到G点格子单元中。/*假定由任务提供此目标函数。*/
领域空间B:在知识库搜索到如下知识单元:/*知识库中知识单元以自然语言似谓词演算形式子句集表示。*/
①IF(朝向,目标x)∧(不重复,路线),THEN走出迷宫/*走出迷宫原理:朝向目标;不重复路线。*/
②IF(目标x,在,北∧东向),THEN x4=1∧x1=0
③IF(北边,是,障碍物)∧(障碍物,BE,一个∧不可移动),THEN x1=1∧ x2=0
④IF(到…尽端,障碍物)∧(目标x,在,北向),THEN x4=1∧x1=0
⑤IF(目标x,在,西向),THEN x3=1∧x4=0
Agent的感应器感测到并输入的信息:
·对场所进行网格划分度量
·目标x位置:目标块和目标G在北东向,且目标块与Agent在网格纵向距离2 格
·北边是一个不可移动的障碍物
·障碍物尽端与网格关系
按领域空间B和感应器感测信息做出移动路线规划:
目标块和目标G在北东向,且目标块在网格纵向距离2格→(初始向北移且移2 格→若x4=1且x1=0,则向北移2格)→向东移且到达可推动目标块前的网格→继续向东移且推动目标块前进到障碍物尽端的网格﹐即前方第四个格子→转向北移且移5格,与目标G齐平→转向西移且移4格到目标G
此时环境状况是:
目标块和目标G在北东向,且目标块在网格纵向距离2格
=(目标块∧目标G,在,北∧东向)∧︱(目标块,在,2格)∧(2格,BE,网格纵向距离)︱
IF(目标块∧目标G,在,北∧东向),THEN x4=1∧x1=0/*朝向目标行进。方快是目标之一。*/
IF(目标块,在,2格)∧(2格,BE,网格纵向距离),THEN(向…移,北) ∧(移,BE,2格)
得到:
若x4=1且x1=0,则向北移2格
IF x4=1∧x1=0,THEN(向…移,北)∧(移,BE,2格)
IF向…移,THEN北
IF向,THEN北
IF移,THEN北
IF移,THEN 2格
IF(目标块,在,东向),THEN x1=1∧x2=0
若x1=1且x2=0,则向东移且到达可推动目标块前的网格
IF x1=1∧x2=0,THEN(向…移,东)
IF向…移,THEN东
IF向,THEN东
IF移,THEN东
IF到达,THEN(网格,BE,前)∧(前,可推动,目标块)
IF到达,THEN网格
IF网格,THEN前
IF前,THEN(可推动,目标块)
IF可推动,THEN目标块
此吋环境状况是:
北边是一个不可移动的障碍物。
IF(北边,是,障碍物)∧(障碍物,BE,一个∧不可移动),THEN x1=1∧x2 =0
IF x1=1∧x2=0,THEN(向…移,东)
IF(IF x1=1∧x2=0,THEN(向…移,东))∧(IF可推动,THEN目标块), THEN(…,继续,(向…移,东))
继续向东移且推动目标块前进到障碍物尽端的网格﹐即前方第四个格子
IF继续向东移,THEN(…,继续,(向…移,东))
IF继续,THEN(向…移,东)
IF向…移,THEN东
IF向,THEN东
IF移,THEN东
此吋环境状况是:
北边是一个不可移动的障碍物。
IF(北边,是,障碍物)∧(障碍物,BE,一个∧不可移动),THEN x1=1∧x2 =0
IF x1=1∧x2=0),THEN(向…移,东)
IF(到…尽端,障碍物)∧(目标G,在,北向),THEN x4=1∧x1=0
IF x4=1∧x1=0,THEN(向…移,北)
推动目标块前进到障碍物尽端的网格
=(目标块,被推动∧前进到,障碍物尽端的网格)∧(网格,BE,前方第四个格子)
=(目标块,被推动∧前进到,网格)∧(网格,在,障碍物尽端)∧(网格, BE,第四个格子)∧(第四个格子,在,前方)/*在=BE。*/
IF推动目标块前进到障碍物尽端的网格,THEN(目标块,被推动∧前进到,网格)∧(网格,在,障碍物尽端)∧(网格,BE,第四个格子)∧(第四个格子,在,前方)
IF目标块,THEN(被推动∧前进到,网格)
IF目标块,THEN被推动∧前进到
IF被推动∧前进到,THEN网格
IF网格,THEN(在,障碍物尽端)
IF网格,THEN障碍物尽端
IF网格,THEN第四个格子
IF第四个格子,THEN前方
此吋环境状况是:
到障碍物尽端且目标G在北向。
IF(到…尽端,障碍物)∧(目标G,在,北向),THEN x4=1∧x1=0
IF x4=1∧x1=0,THEN(向…移,北)
转向北移且移5格,与目标G齐平
IF(转∧向…移,北)∧(移,BE,5格),THEN(与…齐平,目标G)
IF转∧向…移,THEN北
IF向,THEN北
IF移,THEN北
IF移,THEN 5格
IF与…齐平,THEN目标G
此吋环境状况是:
目标G在西向。
IF(目标G,在,西向),THEN x3=1∧x4=0
IF x3=1∧x4=0,THEN(转∧向…移,西)
转向西移且移4格到目标G
IF(转∧向…移,西)∧(移,BE,4格),THEN(到,目标G)
IF转∧向…移,THEN西
IF向,THEN西
IF移,THEN西
IF移,THEN 4格
IF到,THEN目标G
自然语言机器思维用网络表示知识
通常,常识和专家领域的知识库知识单元都被安排在层次结构中,用以组织和简化推理。
以概念为指针词的子句集构造知识库知识单元。
假定想表达如下的事实:Snoopy是一台激光打印机,所有的激光打印机都是打印机,所有的打印机都是机器,附加一些相关的信息。将自然语句转換似谓词演算形式子句集,可能有
Laser printer(Snoopy,BE,Laser printer)∧(Snoopy,BE made by,Q公司) ∧(Snoopy,HAS,…)∧……
还有泛式:
以自然语言产生式系统规则表示:
(IF Office machine,THEN x
IF x,THEN Office machine)
←(IF printer,THEN x
IF x,THEN printer)
←(IF Laserprinter,THEN x
IF x,THEN Laserprinter)
指针词Laserprinter,Printer和Office machine用一个分类法表达分类。使用分类知识的一个重要推理涉及到分类传递。例如,给定前面的事实,能推导出: 和Office machine(Snoopy,BE,Office machine)。
每个分类类别的成员都有一定的属性。例如
IF x,THEN(HAS,energy source=wall outlet)
←(IF Office machine,THEN x
IF x,THEN Office machine)
子类别的成员一般继承了它们父类别的属性:
即有
Laserprinter(Snoopy,HAS,energy source=wall outlet)
IF x,THEN(HAS,energy source=wall outlet)
←(IF Laserprinter,THEN Snoopy
IF Snoopy,THEN Laser printer)
IF Snoopy,THEN(HAS,energy source=wall outlet)
可用语义网络表示这种关系。
语义网络是对对象及其属性分类知识编码的关系结构。
自然语言机器思维的概念学习
概念学习:给定某一概念类型的若干正例和反例的表述,机器将这种表述的自然语句首先转換为似谓词演算形式的子句集,选择相关联子句组成学习对象,从中得到该类别的一般定义,即(该类别,是,什么)。
传统概念学习的基本定义
定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
布尔函数值只有0或1。
对于自然语句作为函数来说,主要以词、片语或语句作为函数值。
每个概念都是某个或某类事、物的命名,所以可被看作某个物之对象或事件集合,是从更大的集合中选取的子集(如从动物的集合中选取鸟类),或者是在这个较大集合中定义的布尔函数(如在动物集合中定义的函数,它对鸟类产生true并对其他动物产生false)。
智能体学习,常用变量替代常量的方法来泛化出定义。如果一概念由自然语句表述的似谓词演算形式相关子句定义:size(obj1,BE,the size ofsmall one)∧color(obj1, BE,red)∧shape(obj1,BE,round)
用变量来替換单个常量,产生出下面的泛化:
size(obj1,BE,the size ofX one)∧color(obj1,BE,red)∧shape(obj1,BE,round)。
size(obj1,BE,the size ofsmall one)∧color(obj1,BE,X)∧shape(obj1,BE,round)。
size(obj1,BE,the size ofsmall one)∧color(obj1,BE,red)∧shape(obj1,BE,X)。
size(X,BE,the size ofsmall one)∧color(X,BE,red)∧shape(X,BE,round)。
注:子句括号外的词是该子句的指针词(标识),应用于搜索识别等。
来看“三角”的概念,这是个只有正例的学习:
三角关系或形态有三个元素主体,是由三条关系或线段顺次首尾相连构成的一个闭合的形态(相互关系,平面图形)。
这个概念涉及形式和关系的基本结构。而“球”的定义:
size(obj1,BE,the size ofsmall one)∧color(obj1,BE,red)∧shape(obj1,BE, round)
则涉及形态和尺度。
当机器思维在阅读资料时,首先是将其进行语句切分,使之转換似谓词演算形式,获得以上判定表述(主要内容)后,然后再进行泛化处理。
三角关系或三角形有三个元素主体,是由三条关系或线段顺次首尾相连构成的一个闭合的形态(相互关系,平面图形)
=……(中间语句切分过程省略)
=(三角关系∨三角形,是,形态)∧(三角关系∨三角形,有,三个元素主体) ∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段, BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形), BE,一个闭合的)
自然语言机器思维的概念学习的算法:
·把关于事物(“三角”)的概念表述自然语言语句变换为似谓词演算形式,并表示为包含变量的合取语句
·泛化概念
·由指针词牵引建立相关概念网络
·启发式搜索
·联结泛化概念
·联结下一层面相关泛化概念
·机器学习获取较大差异资料
1.把关于事物(“三角”)的概念表述自然语言语句变换为似谓词演算形式,并表示为包含变量的合取语句.在此例中,两个"三角"可以表示如下:
(三角关系1∨三角形1,是,形态)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形),BE,一个闭合的)
(三角关系2∨三角形2,是,形态)∧(三角关系2∨三角形2,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形),BE,一个闭合的)
2.泛化概念
“三角”的泛化概念可以定义为:
形态(X,三角关系∨三角形)∧三个元素主体(X,Y)∧形态(相互关系,平面图形)(X,三条关系∨线段)∧构成(X,Z)∧顺次首尾相连(X,Q)∧形态(相互关系,平面图形)(X,三角关系∨三角形)∧闭合的(X,R)
符合这个通用定义的任何语句都表示一个三角。
可以通过用变量替換常量的方法来泛化出定义。
如果初始概念为:
(三角关系1∨三角形1,是,形态)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形),BE,一个闭合的)
用变量来替換单个常量,产生出下面的泛化:
形态(三角关系1∨三角形1,X)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形),BE,一个闭合的)
(三角关系1∨三角形1,是,形态)∧三个元素主体(三角关系1∨三角形1, X)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形), BE,一个闭合的)
(三角关系1∨三角形1,是,形态)∧(三角关系1∨三角形1,有,三个元素主体)∧三条关系∨线段(形态(相互关系,平面图形),X)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形), BE,一个闭合的)
(三角关系1∨三角形1,是,形态)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧构成(三条关系∨线段,X)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形), BE,一个闭合的)
(三角关系1∨三角形1,是,形态)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧顺次首尾相连(构成,X))∧(形态(相互关系,平面图形), BE,一个闭合的)
形态(三角关系1∨三角形1,X)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧闭合的(形态(相互关系,平面图形),X)
形态(X,三角关系∨三角形)∧有(X,三个元素主体)∧形态(相互关系,平面图形)(X,三条关系∨线段)∧三条关系∨线段(X,构成)∧构成(X,顺次首尾相连))∧形态(相互关系,平面图形)(X,闭合的)
注意:BE前后两边的项是等价的。
还需要学习“关系”、“三个元素主体”、“顺次首尾相连”的定义。
3.由指针词牵引建立相关概念网络
概念空问。上面讨论的表示语言和操作定义了潜在概念定义的空间.机器思维必须搜索这个空间来寻找所期望的概念,在上例中如“关系”、“三个元素主体”、“顺次首尾相连”等概念。概念空间的复杂度是机器学习问题难度的主要量度。
可以用集合论的术语来考虑泛化:令P和Q分别为匹配谓词演算表达式p 和q的语句集合。表达式p比q更泛化当且仅当
4.启发式搜索
机器思维必须给出搜索的方向和顺序.并且要利用可用的训练数据和启发式信息来有效地捜索。在学习“三角”的概念的例子中,算法可以把第一个阅读的文字资料当作候选概念,对它进行泛化,使之能够包含接下来阅读的文字资料。例如,给定单一的训练实例:
(三角关系1∨三角形1,是,形态)∧(三角关系1∨三角形1,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形),BE,一个闭合的)
机器思维就可以把这个文字资料当作候选概念,这个概念能对当前仅有的一个正例进行正确的分类。
如果现在给定算法的第二个正例:
(三角关系2∨三角形2,是,形态)∧(三角关系2∨三角形2,有,三个元素主体)∧(形态(相互关系,平面图形),BE,三条关系∨线段)∧(三条关系∨线段,BE,构成)∧(构成,BE,顺次首尾相连))∧(形态(相互关系,平面图形),BE,一个闭合的)
机器思维会通过用变量替换常量来泛化候选慨念,以使概念能够匹配这两个实例。这个结果比候选慨念更加泛化,更接近于的目标慨念"三角":
形态(X,三角关系∨三角形)∧三个元素主体(X,Y)∧形态(相互关系,平面图形)(X,三条关系∨线段)∧三条关系∨线段(X,构成)∧构成(X,顺次首尾相连))∧形态(相互关系,平面图形)(X,闭合的)
5.联结泛化概念的“关系”、“三个元素主体”、“顺次首尾相连”,等等。
联结下一层面相关泛化概念,才能使机器学习所取资料有较大差异(文字表述不同的资料)。
自然语言机器思维的学习识别事物类别的算法:
1.首先,将自然语言表述语句转換为似谓词演算形式子句集;
2.从子句集依据层次挑出表述抽象特性特征的主子句;
3.进入建立目标概念的训练实例子句集;
4.进入目标概念的实例训练;
5.通过用变量替换常量来泛化候选慨念,并完成模式识别;
6.输出学习结果,结束。
通过学习而获得抽象概念的子句表达的实例:
1.Agent首先通过输入得到关于杯子和类似杯子﹙更髙层次的抽象﹚自然语句描述,这种描述是其学习而获得抽象概念的premise﹙前提﹚。目标概念则产生自被提问或自动推理的结果。并且将将自然语言表述语句转換为似谓词演算形式子句集;
2.对已得到的子句集中依据层次挑出表述抽象特性特征的主子句;
目标概念是可以用来推断一个物体是否是杯子和类似杯子﹙更髙层次的抽象﹚的一条规则:
premise(Y,BE,premise)→cup(X,BE,cup)
IF Y,THEN premise=(IF X,THEN cup)
IF X,THEN cup
其中premise是步骤(2)所提取出来的包含变量X的子合取表达式。接下来,假设已有的知识库有关杯子和类似杯子﹙更髙层次的抽象﹚的领域理论知识包含以下规则:
liftable(X,BE,liftable)
(X,BE,liftable)∧(X,BE,holds∧liquid)→(X,BE,cup)
(X,BE,可位移or静止)∧(X,HAS,空间限定因子)→(X,like,cup)/*类似杯子的抽象定义*/
(Z,part of,W)∧(W,BE,concave)∧(W,BE,points up)→(Z,BE, holds∧liquid)
(Z,part of,W)∧(W,HAS,容纳性)∧(W,BE,points up)→(W,HAS,容纳性)/*类似杯子的抽象定义*/
(Y,BE,light)∧(Y,HAS,handle)→(Y,BE,liftable)
(Y,HAS,以小喻大的功效)∧(Y,like,handle)→like_liftable(Y,BE,like_liftable)
(A,BE,small)→(A,BE,light)
(A,HAS,以小喻大的功效)→(A,BE,light)
(A,BE made_of,feathers)→(A,BE,light)
(A,BE made_of,量小的因子)→(A,BE,light)
3.对训练实例进行学习
4.进入目标概念的实例训练;
训练实例是目标概念的一个实例,即有:
cup(obj1,BE,cup)/*似谓词演算形式替代原谓词演算形式。子句括号外的 cup是该子句指针词。下面的子句相同。*/
small(obj1,BE,small)
handle(obj1,HAS,handle)/*似谓词演算形式替代原谓词演算形式。*/
owns(bob,HAS,obj1)
part(obj1,HAS,bottom)
part(obj1,HAS,bowl)
points_up(bowl,BE,points_up)
concave(bowl,BE,concave)
color(obj1,BE,the color ofred)
另有一个抽象的训练实例:
“杯”隐喻实例:奖杯是用来盛荣誉的杯子。
trophy cup(obj2,BE,trophy cup)/*trophy cup奖杯。*/
small(obj2,BE,small)
handle(obj2,HAS,handles)∧(handle,BE,double)
owns(bob,HAS,obj2)
part(obj2,HAS,bottom)
part(obj2,HAS,bowl)
points_up(bowl,BE,points_up)
concave(bowl,BE,concave)
color(obj2,BE,the color ofgold)
souvenir(owner,HAS,souvenir obj2)
还有一种,和盛水的杯子相似度极高,是用来种花的杯。它借用和放大杯形,所盛纳之物是土质和植物:
cup(obj3,BE,cup)
big(obj3,BE,big)
part(obj3,HAS,no handle)
owns(obj3,HAS,Pottedplant soil)
part(obj3,HAS,bottom)
part(obj3,HAS,bowl)
points_up(bowl,BE,points_up)
concave(bowl,BE,concave)
color(obj3,BE,the color ofwhite)
5.通过用变量替换常量来泛化候选慨念,并完成模式识别;
泛化就是抽象,但泛化是分层次的。抽象层次不同,需要的属性数量和抽象程度成反比。
将样例对象常量替換为变量,保留领域理论知识的一部分的那些常量和限制。例如:
cup(obj3,BE,cup)
=cup(x3,BE,cup)
对照所选取的空间理论B中的泛式子句,以变量替换样例中相同子句中的常量,如此得以验证。如果全部领域理论B都匹配,说明样例具有目标概念的最小格式塔结构维度集合。或者通俗地说,它具有目标概念所指称事物的最基本特征。这属于模式识别。
上面关于三种“杯”的学习,需要领域理论B不仅含有实在的物理描述,还要有隐喻的识别知识。
6.生成泛化句式并输出学习结果,结束。
(x,DO,y)语句学习样例获得泛化句式算法(自然语句深化学习)
·28种句型作为学习样例
·逆语句切分层次
·从最后的切分子句集合中挑出主子句且组成主子句集
·主子句集在新的未处理的语句搜索中作为对照子句
·通过学习样例句式获得泛化句式
·以变量替代样例常量
·IF样例语句中心子句是(x,DO,y)
THEN以DO为指针词,在含有相同函数DO的值的语句集(S1,S2,S3,…, Sj)中搜索这个子句,得到(x,y)
·IF第二层子句是(y1,HAS,y2)∧(DO,IS,state)
THEN(S1,S2,S3,…,Sj)中搜索子句y=(y1∧y2)和(state∧DO)
·IF底层子句是(y2,IS,state)
THEN(S1,S2,S3,…,Sj)中搜索子句(state∧y1);/*state=(ST1,ST 2, ST3,…,STj)
·按照样例句式切分层次逐层回溯
·用各子句泛化式替換样例句式相应子句
else用IF\THEN的自然语言产生式系统规则表示
·生成泛式输出
例举:
一种句型:determiner[x]noun(WHAT1),adverb[y]verb(DO),determiner [z]noun(WHAT2).
determiner[y]=adverb[y]————[y]是与行为词匹配的表达行为某种程度、特性、状态的限定成分类属词
determiner[y]=adverb[Y1,Y2,…]
=(DO,BE,Y1∧Y2,…)
实例原句:他流利地回答了外宾三个问题。
他流利地回答了外宾三个问题
=(他,流利地回答了,外宾三个问题)
=(他,回答(回答,IS,流利的),外宾(外宾,HAS,三个问题))
=(他,回答(回答,IS,流利的),外宾(外宾,HAS,问题(问题,IS,三个)))
=(他,回答,外宾(外宾,HAS,问题)∧问题(问题,IS,三个)) ∧(回答,IS,流利的)
=(他,回答,外宾∧问题)∧|(外宾,HAS,问题)∧(回答,IS,流利的)|∧(问题,IS,三个)
底层:(问题,IS,三个)
第二层:(外宾,HAS,问题)∧(回答,IS,流利的)
顶层:(他,回答,外宾)∧(他,回答,问题)
=(他,回答,外宾∧问题)
合并:(外宾,HAS,问题)∧(问题,IS,三个)→(他,回答,外宾∧问题)
注:“回答”决定了(他,回答,外宾∧问题)在全句因果关系中的“果”之特性。所以
“回答”=←
通过学习样例句式获得泛化句式:
以变量替代样例常量。
1)顶层(他,回答,外宾∧问题)是语句的中心子句。函数DO的值是已知,即常量“回答”,该子句的泛化式是(x,DO,y)。其他含有相同函数DO的值的语句设为
(S1,S2,S3,…,Sj)
则
(S1,S2,S3,…,Sj)中各语句Sj必含有子句(x,DO(回答),y)。
IF样例语句中心子句是(x,DO,y)
THEN在含有相同函数DO的值的语句(S1,S2,S3,…,Sj)集中搜索这个子句,得到(x,y);/*这是个集合。*/
x和y均为变量。
用IF\THEN的产生式系统规则表达:
IF样本语句中心子句,THEN(x,DO,y)
IF语句集(S1,S2,S3,…,Sj),THEN(x,DO,y)
IF DO,THEN(x,DO,y)/*以DO(回答)为指针词,在语句集(S1, S2,S3,…,Sj)中搜索子句(x,DO(回答),y),得到(x,y)*/
2)第二层:(外宾,HAS,问题)∧(DO(回答),IS,流利的)
该子句的泛化式是(y1,HAS,y2)∧(DO,IS,state)。
/*Y2∈y1y=(y1∧y2),(DO,IS,流利的)=(流利地,DO),“流利地”是摹状限定词;
state是函数DO的限定域,state的值集元素为质、量限定成分和摹状成分,可能是单词或词组。*/
IF第二层子句是(y1,HAS,y2)∧(DO,IS,state)
THEN(S1,S2,S3,…,Sj)中搜索子句y=(y1∧y2)和(state∧DO);/* 子句(y1,has,y2)∧(DO,IS,state)在语句S中相应的形态是y=(y1∧y2) 和(state∧DO)。质、量限定词如“好”、“缓慢地”等,摹状词如“红的”、“浅浅(的)”等*/
y1、y2和DO均为变量。
用IF\THEN的产生式系统规则表达:
IF(y1,HAS,y2)∧(DO,IS,state),THEN(S1,S2,S3,…,Sj)中搜索子句y=(y1∧y2)和(state∧DO)/*(y1∧y2)在自然语句中形态是(y1 y2);(DO,IS,state)是(stateDO)*/
IF y1y2,THEN(y1,has,y2)
IF(y1,has,y2),THEN(y1∧y2)
IF state DO,THEN(DO,IS,state)
IF(DO,IS,state),THEN(state∧DO)
3)底层:(问题,IS,三个)
该子句的泛化式是(y2,IS,state)。
IF底层子句是(y2,IS,state)
THEN(S1,S2,S3,…,Sj)中搜索子句(state∧y1);/*state=(ST1,ST 2, ST3,…,STj)*/
用state替代常量“三个”,得到state的值集表示。
用IF\THEN的产生式系统规则表达:
IF state y2,THEN(y2,IS,state)
IF y2,THEN state
4)按照样例句式切分层次逐层回溯。
用各子句泛化式替換样例句式相应子句:
(他,回答,外宾∧问题)∧|(外宾,HAS,问题)∧(回答,IS,流利的)|∧ (问题,IS,三个)
=(x,DO,y1∧y2)∧|(y1,HAS,y2)∧(DO,IS,state)|∧(y2,IS, state)
=(他,回答,外宾(外宾,has,问题)∧问题(问题,IS,三个))∧(回答,IS,流利的)
=(x,DO,y1(y1,HAS,y2)∧y2(y2,IS,state))∧(DO,IS,state)
=(他,回答(回答,IS,流利的),外宾(外宾,HAS,问题(问题,IS,三个)))
=(x,DO(DO,IS,state),y1(y1,HAS,y2(y2,IS,state)))
=(他,流利地回答了,外宾三个问题)
=(x,state1DO,y1state2y2)
=他流利地回答了外宾三个问题
=x state1DO y1state2y2
用IF\THEN的自然语言产生式系统规则表示:
①IF DO,THEN y1∧y2
IF x,THEN DO
IF x,THEN(DO,y1∧y2)
IF x,THEN DO(DO,IS,state)
②IF HAS,THEN y2
IF y1,THEN(HAS,y2)
IF(y1,HAS,y2),THEN y1y2
IF y1,THEN(HAS,y2(y2,IS,state))
③IF DO,THEN state
IF(DO,IS,state),THEN state DO
④IF x,THEN(DO,y1(y1,HAS,y2)∧y2(y2,IS,state))∧(DO, IS,state)
⑤IF x,THEN(DO(DO,IS,state),y1(y1,HAS,y2(y2,IS,state)))
⑥IF x,THEN(state1DO,y1state2y2)
⑦IF(x,state1DO,y1state2y2),THEN x state1DO y1state2y2/* 得到句式:xstate1DO y1state2y2*/
注:
“把这一件事做好”属于模式“WHAT DO WHAT”中的“WHAT DO STATE”。函数 DO中的不及物动词之后的为表语成份。“把这一件事做好”即“这一件事”被动进行并完成。
把这一件事做好
=(这一件事,被做,好)
如果函数DO的值是已知,那么,搜索与已知函数WTAT和STATE值相似的值难以精确,只能有类别的确定,如果这两个函数有一个已有确定值,显然可精确确定第三个函数的值。
自然语言机器思维推理学习算法
·作为描述的自然语句转換为似谓词演算形式子句集
·将自然语句推理样例泛化
·进入学习样例语句获得泛化句式算法程序
·从样例语句获得泛化句式的主子句集
·进行推理过程
·进入自然语言产生式系统推理程序
·推理算法
else进入自然语言似谓词演算形式推理程序
·推理算法
·推理结果生成自然语句输出
看下面的例子:
①膜是可用于建筑的半透明覆盖用材;
②覆盖用材都注重光色效果;
③注重光色效果的半透明材料都适于与LED发光体结合。
④推理得出结论:膜适于与LED发光体结合。
①膜是可用于建筑的半透明覆盖用材
=(膜,是,(可用于建筑的半透明覆盖用材))
=(膜,是,用材((用材,是,半透明∧覆盖)∧用于建筑))
=(膜,是,用材((用材,是,半透明∧覆盖)∧(膜,用于,建筑)))
=(W1,is,W2A((W2A,is,State1∧State2)∧(W1,D1,W3)))
=(W1,is,W2A)∧(W2A,is,State1∧State2)∧(W1,D1,W3)
/*W1是对概念W2A的限定。为了与自然语句一致,所以,统一使用W1。*/
将式中完整基本思维模式取出:
(W1,is,W2A)=(W1=W2A)/*按等价原理*/
(W1,is,State1∧State2)
(W1,D1,W3)
(W1,is,State1∧State2)→(W1,D1,W3),即
(膜,是,半透明∧覆盖)→用于建筑)
由(膜,是,半透明∧覆盖),得到
膜=半透明∧覆盖(用材)
W1(膜)=半透明∧覆盖(用材)
W2(可用于建筑的半透明覆盖用材)
W2A(用材)
W3(建筑)
D1(用于)
State1(半透明)
State2(覆盖)
②覆盖用材都注重光色效果
=(覆盖用材,注重,光色效果)
=((用材,是,覆盖),注重,(光色,有,效果))
=((W2A,is,State2),emphasize,(W4,has,effect))
由((用材,是,覆盖),注重,(光色,有,效果)),可简化为
((用材,是,覆盖),注重,光色),和
(用材,注重,光色)=(W2A,D2,W4A)
W4(光色效果)
W4A(光色)
W5(效果)
D2(注重)
③注重光色效果的半透明材料都适于与LED发光体结合。
=(注重光色效果的半透明材料,适于∧与…结合,LED发光体)
=((材料,is,注重光色效果的∧半透明),适于∧与…结合,LED发光体)
=((材料,is,(材料…,注重,光色效果)∧(材料,is,半透明)),适于∧与…结合,LED发光体)
=((W2A,is,(W2A,D2,W4)∧(W2A,is,State1)),D3∧D4, W6)
W2A=(W2A,D2,W4)∧(W2A,is,State1)
=(W2A∨(D2,W4))∧(W2A∨State1)/*按等价原理,由(W2A, D2,W4),有
W2A=(D2,W4),二者等价。所以,有
(W2A,D2,W4)=(W2A∨(D2,W4))
由(W2A,is,State1),有W2A=State1,二者等价。所以,有
(W2A,is,State1)=(W2A∨State1)*/
W6(LED发光体)
D3(适于)
D4(与…结合)
④推理得出结论:膜适于与LED发光体结合。
按语句构成的方法,在上式中抽取整句核心词保留,将其他描述性词取消,得出:
(W2A,D3∧D4,W6)/*W2A=(D3∧D4,W6)。*/
将(W2A=W1)代入替换,得到/*从词义上讲,W2A包含W1。*/
(W1,D3∧D4,W6)
=(膜,适于∧与…结合,LED发光体)/*推理学习的结果。*/
回溯成句,即:膜适于与LED发光体结合。
注:“用材”与“材料”大体同义,可以替换。整段落同义词应同一。
上面的自然语句的似谓词演算形式表示可转換为一組n条自然语言产生式规则表示并进行推理计算:
①(W1,is,State1∧State2)→(W1,D1,W3)
IF W1,THEN State1∧State2
IF State1∧State2,THEN W1
IF W1,THEN(D1,W3)
IF State1∧State2,THEN(D1,W3)
②((W2A,is,State2),emphasize,(W4,has,effect))
IF W2A,THEN State2
IF State2,THEN W2A
IF W2A,THEN(emphasize,(W4,has,effect))
IF State2,THEN(emphasize,(W4,has,effect))
IF(emphasize,(W4,has,effect)),THEN W2A
IF(emphasize,(W4,has,effect)),THEN State2
IF W4,THEN(has,effect)
IF(has,effect),THEN W4
③((W2A,is,(W2A,D2,W4)∧(W2A,is,State1)),D3∧D4,W6)
IF W2A,THEN(W2A,D2,W4)∧(W2A,is,State1)
IF(W2A,D2,W4)∧(W2A,is,State1),THEN W2A
IF W2A,THEN(D2,W4)
IF(D2,W4),THEN W2A
IF W2A,THEN State1
IF State1,THEN W2A
IF W2A,THEN(D3∧D4,W6)
IF(D3∧D4,W6),THEN W2A
IF W2A,THEN(W2A,D2,W4)∧(W2A,is,State1)
→IF(D3∧D4,W6),THEN(W2A,D2,W4)∧(W2A,is,State1)
IF(D3∧D4,W6),THEN(W2A,D2,W4)∧(W2A,is,State1)
=IF(D3∧D4,W6),THEN((IF W2A,THEN(D2,W4))∧(IF(D2, W4),THEN W2A))∧((IF W2A,THEN State1)∧(IF State1,THEN W2A))
④(W2A,D3∧D4,W6)
IF W2A,THEN(D3∧D4,W6)
IF(D3∧D4,W6),THEN W2A
(W2A,包含,W1)即W2A蕴含W1
用W1代入替换W2A,得到
IF W1,THEN(D3∧D4,W6)
IF(D3∧D4,W6),THEN W1
还原IF W1,THEN(D3∧D4,W6),得到自然语句:
IF W1,THEN(D3∧D4,W6)
=(W1,D3∧D4,W6)
=(膜,适于∧与…结合,LED发光体)
回溯成句,即:膜适于与LED发光体结合。
类比推理式学习
类比的标准计算模型定义类比的源(source)为问题的解、实例或者易于理解的理论.目标(target)是还没有完全理解的理论。类比在源和目的相应元素之间建立一个映射。类比推理把这个映射扩展到目标领城中新的元素。
作为源的自然语句中可能包含与类比不相关的断言,或转換为似谓词演算形式子句集后有与类比不相关的子句,这些需要去除。如﹝Sun,is hotter than,earth﹞
类比推理是利用相似性占比标准加以判断。设有A与B,如果A与B相似程度大于50%,则如何判断二者是同类的或者是特征相仿的。可采用下例判断,判断三角形相似,则以三角构成的格式塔结构维度一一对照为准。类比推理也即隐喻式推理。自然界万物的性质分别被归纳为一些相对的模式。譬如,产生与终结,获得与付出,作用与反作用,增加与缩减,……等等。
类比推理是利用相似性占比标准加以判断
=﹙类比推理,利用…加以判断,相似性占比标准﹚
=﹙类比推理,利用,相似性占比标准﹚∧﹙类比推理,以相似性占比标准判断,…﹚
=﹙类比推理,利用,相似性占比标准﹚∧﹙类比推理,判断﹙判断,以,相似性占比标准﹚,…﹚
=﹙类比推理,利用,相似性占比标准﹚∧﹙类比推理,判断,…﹚∧﹙判断,以,相似性占比标准﹚
=﹙类比推理,利用,相似性﹙相似性,HAS,占比标准﹚﹚∧﹙类比推理,判断,…﹚∧﹙判断,以,占比标准﹙相似性,HAS,占比标准﹚﹚
=﹙类比推理,利用,相似性﹚∧﹙相似性,HAS,占比标准﹚∧﹙类比推理,判断,…﹚∧﹙判断,以,占比标准﹚
自然语言机器思维类比推理式学习算法:
·用格式塔结构维度集定义所有的概念
·建立似谓词演算形式为基础的概念﹙词﹚库
·以指针词牵引搜索建立目标概念和源概念之间类比映射的初始元素。
·有必要获取源的额外的特征和关系。
·自然语言似谓词演算形式为基础的类比推理
·自然语言似谓词演算形式转换为自然语言产生式系统规则表示
·进行类比推理过程
·把源属性映射到目标领域中去
·相关词的并列表达事物
·相关词的并列募状
·相关词的并列表示空间特征
·相关词的并列表示时间特征
·相关词的并列表示量度
·在切分后的最简思维模式子句中用相似的词替代相对位置上的词
·泛化学习得到的自然语言似谓词演算形式子句集
Gentner(1983)对此进行了说明。源领域包括谓词表达:
yellow(sun,BE,yellow)
blue(earth,BE,blue)
﹝Sun,is hotter than,earth﹞
causes(more-massive(sun,BE more-massive than,earth),attract(sun,attracts,earth))
causes(attract(sun,attracts,earth),revolves-around(earth,revolves-around,sun))
类比要解释的目的领域包括:
more-massive(nucleus,BE more-massive than,electron)
revolves-around(electron,revolves around,nucleus)
利用自然语言表述类比推理,如果已经用格式塔结构维度集表示了所有的概念,并建立了概念数据库,则类比推理自然地实现。实例:
生产的母体:大地与母亲。
古诗词中,一句中的词汇常常是相关词的并列,这些词可以是表达事物(墅、寺、春、和)、募状(红、绿、肥、瘦、曲、直等)、空间特征(如远、近、位置、方向等)、时间特征(缓、急等)和量度(轻、重等)。学习即模仿已有的,借助切分后的最简思维模式,用相似的词替代相对位置上的词。而对于并列的词句,只需一一替代即可。这也是一种学习方法。
自然语言机器思维对正与反结论的表述语句的学习算法:
·自然语言描述语句经转換为似谓词演算形式并输入
·还可用自然语言产生式系统规则表示
·建立目标概念。摘取属性或主子句
·选择分析表示模式﹙模板﹚,将摘取的属性置入或主子句罗列
·分析处理属性或主子句等影响因子在因果关系中的具体作用
·将每个语句中的同一属性归类
·在表示模式﹙模板﹚罗列出每个属性可取值
·将每个正反例表示归类
·罗列每个正例中的所摘取属性作为最一般的假设
·罗列每个反例中的所摘取属性作为最特殊的假设
·学习结果输出
自然语言机器思维之目标概念的机器学习
对同一事物有正与反结论的表述语句的学习例举(笫三种学习方式):
概念学习任务:
这是一个概念学习的例子,通过对被提供的统计资料进行分析,获得本例的目标概念:"Andy进行水上运动的日子"。
注意,目标概念有的是外部事先提供的,也可能是未知的,需要从提供的语句表述中推理出的。与传统完全不同,用自然语言似谓词演算形式子句集表示,这个子句集是从自然语言经转換为似谓词演算形式的描述语句的实例中抽取出来的主子句集合:
ExampIe 1:Sky(Sky,BE,Sunny)∧AirTemp(AirTemp,BE,Warm)∧Humidity(Humidity,BE,Normal)∧Wind(Wind,BE,Strong)∧Water(Water,BE,Warm) ∧
Forecast(Forecast,BE,Same)∧EnjoySport(EnjoySport,BE,Yes)
ExampIe 2:Sky(Sky,BE,Sunny)∧AirTemp(AirTemp,BE,Warm)∧Humidity(Humidity,BE,High)∧Wind(Wind,BE,Strong)∧Water(Water,BE,Warm) ∧Forecast(Forecast,BE,Same)∧EnjoySport(EnjoySport,BE,Yes)
ExampIe 3:Sky(Sky,BE,Rainy)∧AirTemp(AirTemp,BE,Cold)∧Humidity(Humidity,BE,High)∧Wind(Wind,BE,Strong)∧Water(Water,BE,Warm) ∧Forecast(Forecast,BE,Change)∧EnjoySport(EnjoySport,BE,No)
ExampIe 4:Sky(Sky,BE,Sunny)∧AirTemp(AirTemp,BE,Warm)∧Humidity(Humidity,BE,High)∧Wind(Wind,BE,Strong)∧Water(Water,BE,Cool) ∧Forecast(Forecast,BE,Change)∧EnjoySport(EnjoySport,BE,Yes)
EnjoySport是布尓函数值。
进一步,还可用自然语言产生式系统规则表示:
IF ExampIe 1,THEN(EnjoySport,BE,Yes)
IF EnjoySport,THENYes
IF Sky,THEN Sunny
IF AirTemp,THEN Warm
IF Humidity,THEN Normal
IF Wind,THEN Strong
IF Water,THEN Warm
IF Forecast,THEN Same
其余实例表示类推。
表1作为一个模板,表示了由相关联子句摘取来的一系列日子的样例表示,每个样例表示为属性(即训练日子Day的格式塔结构维度)的集合。属性EnjoySport表示这一天Andy是否乐于进行水上运动。这个任务的目的是基于某天的各属性,以预测出该天EnjoySport的值。
由自然语句转換为似谓词演算形式子句集,再抽取出相关联子句,再由这些相关联子句中摘取属性,就形成了模板表1中的属性(格式塔结构维度)值。
表1目标概念EnjoySport的正例和反例
上面的模板表1的表示可由机器思维对自然语言的描述语句加工提取而来。
在这种情况下,可以先采取一种较为简单的形式表示假设,即实例的各属性约束的合取式。在这里,可令每个假设为6个约束的向量(训练日子Day的格式塔结构维度),这些约束指定了维度SkyAirTemp Humidity WindWaterForecast的值。每个子句中的维度可取值为:
“?”表示任意本维度可接受的值,是一种计算机语言符号。
明确指定的子句中的维度值(如Warm)。
由“Φ”表示不接受任何值,也是一种计算机语言符号。
如果某些实例x满足假设h的所有约束,那么h将x分类为正例(h(x)=I)。比如,为判定Andy只在寒冷和潮湿的日子里进行水上运动(并与其他属性无关),这样的假设可表示为下面的表达式:
(?,Cold,High,?,?,?)
最一般的假设是每一天都是正例子句中的维度,可表示为:
(?,?,?,?,?,?)
而最特殊的假设即每一天都是反例子句中的维度,表示为:
(Φ,Φ,Φ,Φ,Φ,Φ)
综上所述,EnjoySport这个概念学习任务需要学习的是使EnjoySport=Yes 的日子,并将其表示为维度约束的合取式。通俗地说,就是从训练日子和取消训练的日子的天气情况记录中,总结出运动员进行水上训练运动的最低天气条件。
一般说来,任何概念学习任务能被描述为:实例的集合、实例集合上的目标函数、候选假设的集合以及训练样例的集合。
注:6个属性SkyAirTemp Humidity WindWater Forecast也即训练日子﹙Day﹚的格式塔结构维度。这些属性由一些自然语句似谓词演算形式的子句而来。
实例集是对该实例类型的所有可能情形的属性描述。
自然语言机器思维的正例和反例的学习算法:
Procedure Machine Learning(机器学习)
if语句为空
then(宣布切分后的似谓词演算形式的语句输入无效)
if进入Machine Learning流程。输入切分后的自然语句似谓词演算形式子句集表述
then将一个似谓词演算形式子句表述转換为列表表示
·成功则输入下一个
else宣布切分后的语句输入无效,退出。
if语句为空
then提取与目标概念相关的子句
else宣布提取子句无效,退出。
if语句为空
then输入似谓词演算形式子句集实例集X,得到训练样例集D:计算格式塔结构维度(属性)组合并列出,每个组合是一个维度(属性)描述子句
﹙if X=〔x1,x2,x3,…,xn〕
then计算维度(属性)组合并列出,每个组合是一个维度(属性)描述子句(x, BE,维度)进一步对所选维度进行组合计算,依次形成所有正反例子句﹚
·成功则输入下一个
else输入……,重复……;
直至再无待处置的子句集。
else if釆用模板输入
then将摘取的维度输入模板实例集X中相应位置:计算维度组合并列出,每个组合是一个维度排列
if自然语言似谓词演算形式的子句集完成前期相关程序
then利用已输入的子句集形成目标概念
利用得到的子句集搜索相应的知识库以形成领域理论B。
if得到训练样例集D:目标函数的正例和反例
then求解:H中的一假设h,使对于X中任意x,h(x)=c(x)
·进入从语句表述中获取知识的学习程序
else if语句为空
then结束
else语句为空
)end if
从语句表述中获取知识的学习算法:
·将正例子句集按维度值减反例子句集
·得到的反例子句剩余项就是构成反例的关键词
·合併正例子句中的同一维度的不同值,以析取符号∨分开这些值
·获得正例子句的合併语句
·筛选正例子句中的同一维度值,以合取符号∧分开这些值
·获得正例子句的最少维度约束句
·合併反例子句中的同一维度的不同值,以析取符号∨分开这些值
·获得反例子句的合併语句
·将新的子句集生成新表述语句输出,
·或将新的子句集储存作为学习结果
·结束并生成输出结果
注释:促成事、物整体现象的特性特征被称为格式塔结构维度。
/*(1)自然语句表述转換为概念学习任务表示:
Andy只在寒冷和潮湿的日子里进行水上运动
=(Andy,只在寒冷和潮湿的日子里进行,水上运动)
=(Andy,(进行,只在…里,寒冷和潮湿的日子)进行,水上运动)
=(Andy,进行,水上运动)∧(进行,只在…里,寒冷和潮湿的日子)
=(Andy,进行,水上运动)∧(进行,只在…里,(日子,BE,寒冷和潮湿的)日子)
=(Andy,进行,水上运动)∧(进行,只在…里,日子)∧(日子,BE,寒冷和潮湿的)
如果已有模板列表,则可以反向操作,将列表表示转为自然语句的似谓词演算形式的子句(日子,BE,寒冷Cold和潮湿的High)。/*Cold和High就是训练日子﹙Day﹚的格式塔结构维度。格式塔结构维度是促成事、物整体现象的特性特征。 */
(2)提取与目标概念EnjoySport相关的子句,这些子句集合被称为假设集合H,也构成了学习算法的搜索空间:
训练日子Day包含几个格式塔结构维度类别:
训练日子Day包含格式塔结构维度类别
=﹛Sky,AirTemp,Humidity,Wind,Water﹜
每个格式塔结构维度类别又包含几个不同维度值:
Sky=〈Sunny,Cloudy,Rainy〉
由模板表1,可做下面表示:
(日子Day,BE,寒冷Cold和潮湿的High)
=(?,Cold,High,?,?,?)/*二者等价。*/
即Day蕴涵(Sky,AirTemp,Humidity,Wind,Water,Forecast,EnjoySport)6 个格式塔结构维度。*/
所以,Day日子可以分别和6个格式塔结构维度等价。
EnjoySport概念学习任务
设定已由自然语句转換为似谓词演算形式子句集,并抽取出相关联子句集。
已知:
实例集X:日子的可能情形。每个日子由下面的关于其格式塔结构维度的子句描述;
X=Sky(Sky,BE,Sunny∨Cloudy∨Rainy)∧/*子句括号外的Sky是该子句指针词。下面的子句相同。*/
AirTemp(AirTemp,BE,Warm∨Cold)∧
Humidit(Humidity,BE,Normal∨High)∧
Wind(Wind,BE,Strong∨Weak)∧
Water(Water,BE,Warm∨Cool)∧
Forecast(Forecast,BE,Same∨Change)/*进一步对样例形成正反例子句。
例如
x1=Sky(Sky,BE,Sunny)∧
AirTemp(AirTemp,BE,Warm)∧
Humidity(Humidity,BE,Normal)∧
Wind(Wind,BE,Strong)∧
Water(Water,BE,Warm)∧
Forecast(Forecast,BE,Same)
目标慨念c:EnjoySport=Yes,c(x)=1
……,
xj=(Sky,BE,Rainy)∧
(AirTemp,BE,Cold)∧
(Humidity,BE,High)∧
(Wind,BE,Strong)∧
(Water,BE,Warm)∧
(Forecast,BE,Change)
目标慨念c:EnjoySport=No,c(x)=0
……。*/
假设集H:每个假设描述语句为6个格式塔结构维度SkyAirTemp Humidity WindWater Forecast的值约束的子句合取。约束可以为“?”(表示接受任意值);“Φ”(表示拒绝所有值);或一特定值。/*除样例外,进一步对所选维度值进行组合计算,依次改变维度值组合而形成所有正反例子句。例如
x i=Sky(Sky,BE,Sunny)∧
AirTemp(AirTemp,BE,Cold)∧
Humidity(Humidity,BE,High)∧
Wind(Wind,BE,Strong)∧
Water(Water,BE,Warm)∧
(Forecast,BE,Change)
目标慨念c:EnjoySport=Yes,c(x)=1*/
目标慨念c:EnjoySport:X→﹛0,1﹜
训练样例集D:目标函数的正例和反例(见表1)
求解:
H中的一假设h,使对于X中任意x,h(x)=c(x)/*对目标慨念c泛化表示:用泛化式替代所有正例子句。*/
(1)将正例子句集按属性减反例子句集,得到的反例子句剩余项就是构成反例的关键词;/*从表1可得到,构成反例的关键词是“Rainy︱[Sky]”、“Cold︱ [AirTemp]”。*/
注:[Sky]表示的是“Sky”的值域,或者说Sky值的集合。
(2)合併正例子句中的同一维度的不同值,以析取符号∨分开这些值,获得正例子句的合併语句;/*对目标慨念c泛化表示:用泛化式替代所有正例子句。
正实例集X:由四个样例,可知这一天Andy乐于进行水上运动,每个日子由下面的维度描述:
X=Sky(Sky,BE,Sunny)∧
AirTemp(AirTemp,BE,Warm)∧
Humidity(Humidity,BE,Normal∨High)∧
Wind(Wind,BE,Strong∨Weak)∧
Water(Water,BE,Warm∨Cool)∧
Forecast(Forecast,BE,Same∨Change)*/
(3)筛选正例子句中的同一维度值,以合取符号∧分开这些值,获得正例子句的最少维度值约束句。
筛选算法:以所有正例子句中的不同维度值组成最一般的集合,依次逐一比对各正例子句,相异者清除,相同者保留,最后留下来的维度值就是所有正例子句的最少维度约束句。覆盖所有的正例,还要能排除所有的反例。
(4)合併反例子句中的同一维度的不同值,以析取符号∨分开这些值,获得反例子句的合併语句;/*由四个样例,可知反例子句中的同一维度的不同值Rainy, Cold是正例子句中的同一维度所沒有的,所以这是反例的关键词。可生成反例表述子句(注意:和正例子句中的维度值重复的项可省略):
x反=Sky(Sky,BE,Rainy)∧
AirTemp(AirTemp,BE,Cold)
目标慨念c:EnjoySport=No,c(x)=0*/
(5)将新的子句集生成新表述语句输出,或将新的子句集储存作为学习结果,结束。
自然语言机器思维的归纳学习
自然语言机器思维的归纳算法模型
·作为描述的自然语句转換为似谓词演算形式子句集
·与表格表示的模板有特别的对接
·由自然语句似谓词演算形式子句集抽取的主子句构成表述主子句集
·假定给定的实例足以建立一个有效的泛化
·用测试特定属性值的方法决定对象的分类
·区分必要属性和无关属性
·自然语言似谓词演算形式的FIND~S算法
·自然语言产生式系统
·做出对所有给定实例组别正确分类的最小决策归纳
·进入统计计算程序
首先要注意,所有的表述都设定来自自然语句似谓词演算形式子句集,它们与表格表示的模板有特别的对接,正像下面的表10–1那样。按照本书的方法,可以省略决策树。由自然语句似谓词演算形式子句集抽取的主子句构成的表述基本子句集是:
(风险,是,V)←(信用历史,是,x)∧(债务,是,y)∧(债务,是,z)
子句的笫一项是属性函数变量,笫三项是变量的值。
如果假定给定的实例足以建立一个有效的泛化.则的问题就变成了区分必要属性和无关属性的问题。
模板表2借贷应用中信用历史的数据
釆用上面论述的自然语言似谓词演算形式的FIND~S算法,可求出覆盖所有训练实例组别的极简单的决策归纳,即能够对所有给定实例组别正确分类的最小决策归纳.。
收入类别被分为3个组别:
﹝收入﹞=﹝0-15000,15000-35000,超过35000﹞
在﹝收入﹞=﹝0-15000﹞组别,有
1收入=0-15000←(高︱﹝风险﹞∧坏︱﹝信用历史﹞∧高︱﹝债务﹞∧无︱﹝抵押﹞)
4收入=0-15000←(高︱﹝风险﹞∧未知︱﹝信用历史﹞∧低︱﹝债务﹞∧无︱﹝抵押﹞)
7收入=0-15000←(高︱﹝风险﹞∧坏︱﹝信用历史﹞∧低︱﹝债务﹞∧无︱﹝抵押﹞)
11收入=0-15000←(高︱﹝风险﹞∧好︱﹝信用历史﹞∧高︱﹝债务﹞∧无︱﹝抵押﹞)
收入0-15000的集合是﹝1,4,7,11﹞。
因为﹝风险﹞=﹝低,中等,高﹞←﹝信用历史﹞=﹝好,中等,坏﹞∧﹝债务﹞=﹝低,中等,高﹞∧﹝抵押﹞=﹝无,中等,充分﹞,
从上表的数据,取收入﹝1,4,7,11﹞四种情形中最不利的值,机器学习得到
收入=0-15000组的最小决策归纳:
收入=0-15000:高︱﹝风险﹞←(坏︱﹝信用历史﹞∧高︱﹝债务﹞)
同样,收入15000-35000的集合是﹝2,3,12,14﹞。
收入=15000-35000组的最小决策归纳:
收入=15000-35000:高︱﹝风险﹞←(坏︱﹝信用历史﹞∧高︱﹝债务﹞)
收入超过35000的集合是﹝5,6,8,9,10,13﹞。
收入=超过35000组的最小决策归纳:
收入=超过35000:中等︱﹝风险﹞←坏︱﹝信用历史﹞
对于这三組别,共同的最小决策归纳是:
高︱﹝风险﹞←(坏︱﹝信用历史﹞∧高︱﹝债务﹞∧充分︱﹝抵押﹞)
所以,有
IF(坏︱﹝信用历史﹞∧高︱﹝债务﹞∧充分︱﹝抵押﹞),THEN高︱﹝风险﹞
在收入=0-15000组别中,由于全部样例﹝1,4,7,11﹞中,第三项全都是无︱﹝抵押﹞,抵押这种属性对风险的影响值不明确,在此样例组别中是无关属性。因此如果一个人有好的信用历史和低的债务,可以忽略掉他的抵押和收入,而把他归类为低风险。
IF(0-15000︱﹝收入﹞∧好︱﹝信用历史﹞∧低︱﹝债务﹞),THEN低︱﹝风险﹞
对于另外的组别,有
IF(15000-35000︱﹝收入﹞∧好︱﹝信用历史﹞∧低︱﹝债务﹞),THEN低︱﹝风险﹞
IF(超过35000︱﹝收入﹞∧好︱﹝信用历史﹞﹝,THEN低︱﹝风险﹞
接下来,可进入风险计算。
自然语言机器思维的归纳学习细节算法:
归纳学习细节算法
if语句为空
then(宣布切分后的似谓词演算形式的语句输入无效)
if输入切分后的自然语句似谓词演算形式子句集表述
then抽取主子句集作为一个正例
·以子句的指针词为指引在知识库搜索知识单元作为领域空间B
·进入自然语言产生式系统进行归纳学习
else宣布提取切分后的语句正例无效,退出。
·对正例进行推理运作
·if正例推理因子不充分
then以子句指针词为牵引,搜索知识库中相应知识单元﹙领域空间﹚
·正例推理运作的结果回溯得到新语句
·泛化新语句作为正例推理运作的结果输出
if语句为空
then提取另一个正例
·重复前一个正例学习过程
else宣布提取切分后的语句正例无效
else if语句为空
then结束
else语句为空
end if
归纳学习假设:任一假设如果在足够大的训练样例集中很好地逼近目标函数,则也能在未见实例中很好地逼近目标函数。
进入自然语言产生式系统进行归纳学习。
下面一个例子,假设已从语句中提取了下面表述的子句集。
其中待学习的目际概念是"两个人u和v中,u的孩子是v,且u是v的Parent",它表示了似谓词演算形式:
Child(u,has,Childv)。
假定给出了单个正例,其中实例描述为子句集:
Male(Bob,BE,Male)∧Female(Sharon,BE,Female)∧father(Bob,is,the fatherofSharon)
进一步假定在知识库有下面知识单元作为领域空间(DomainTheory)B:
Parent(u,BE,Parent ofv)←father∨mather(u,BE,the father∨mather ofv)。
ifu,then(has,Childv)
ifu,then has
ifhas,then Child v
ifChild,then v
通过这个子句集机器思维将进行下面的学习过程和结果:
(Bob,BE,Male)∧(Sharon,BE,Female)∧(Bob,is,the father ofSharon)
→(Bob,has,Child Sharon)
→(u,has,Child v)∧(u,BE,Parent ofv)
对正例进行学习:
ifBob,then Male
ifSharon,then Female
ifBob,then the father ofSharon
→ifthe father,then(has,Child Sharon)
ifBob then the father
→ifBob,then(has,Child Sharon)/*ifBob,then(has,Child Sharon)=(Bob,has,Child Sharon),将(Bob,has,Child Sharon)泛化,用变量u、v分别取代Bob 和Sharon,得到:
(u,has,Child v)*/
→ifBob,then has
ifBob,then Child Sharon
ifhas,then Child Sharon
ifChild,then Sharon
因为在知识库中已有下面知识单元并被搜索出形成本学习案例的领域空间:
ifu,then the father ofv
→ifu,then Parent ofv
if(ifBob,then the father ofSharon),then(ifu,then the father ofv)
ifBob,then u
ifSharon,then v
→if(ifu,then Parent ofv),then(ifBob,then Parent ofSharon)
去掉if/then符号,回溯得到语句,得到学习结果:
(Bob,BE,Parent ofSharon)
/*将(Bob,BE,Parent ofSharon)泛化,用变量u、v分别取代Bob和Sharon,得到:
(u,BE,Parent ofv)*/
自然语言机器思维的FIND-S:寻找极大特殊假设
如果使用(hj,more general than,hk)偏序句式来搜索与训练样例相一致的假设,一种办法是从H中最特殊假设开始,然后在该假设覆盖正例失败时将其一般化(当一假设能正确地划分一个正例时,称该假设"覆盖"该正例)。使用偏序实现的FIND~S 算法的精确描述见下面。
自然语言机器思维的FIND~S算法:
·输入自然语言似谓词演算形式的子句集
·完成前期相关程序
·利用已输入的子句集形成目标概念
·利用已输入的子句集搜索领域空间
·进入自然语言产生式系统
1.将h初始化为H中最特殊假设;
2.对每个正例x
·对h的每个属性约束aj/*每个属性约束在自然语句似谓词演算形式表示为最简思维模式的子句。*/
Ifx满足aj,
then不做任何处理
else将h中aj替换为x满足的另一个更一般的约束/*泛化子句集。*/
3.输出假设h/*输出泛化句式。*/
为说明这一算法,假定给予Agent的一系列学习样例在模板表上表示。FIND-S 的第一步是将h初始化为H中最特殊的假设:
h←(Φ,Φ,Φ,Φ,Φ,Φ)/*在每个属性约束位:Φ=(What1,BE,What2),是个子句形式。換句话说,这时h是沒有赋值的子句集:
h←((What1,BE,What2),(What3,BE,What4),(What5,BE,What6),(What7, BE,What8),(What9,BE,What10),(What11,BE,What12))*/
在模板表2~1中第一个训练样例刚好是个正例,很清楚,这时的h太特殊了。 h中的每一个Φ都不满足该样例的约束,因此,每个属性都被替换成能满足该例的另一个更一般的值约束,也就是这一样例的属性值本身:
h←(Sunny,Warm,Normal,Strong,Warm,Same)
/*h←((Sky,BE,Sunny),(AirTemp,BE,Warm),(Humidity,BE,Normal),(Wind,BE,Strong),(Water,BE,Warm),(Forecast,BE,Same)),这来自第一个训练样例子句集:
Sky(Sky,BE,Sunny)∧
AirTemp(AirTemp,BE,Warm)∧
Humidity(Humidity,BE,Normal)∧
Wind(Wind,BE,Strong)∧
Water(Water,BE,Warm)∧
Forecast(Forecast,BE,Same)*/
这个h仍旧太特殊了,它把除了第一个训练样例以外的所有实例都划分为反例。
下一步,第2个训练样例(仍然为正例)迫使该算法进一步将h泛化。这次使用"?"代替h中不能被新样例满足的属性值,这样假设变为:
h←(Sunny,Warm,?,Strong,Warm,Same)
/*h←((Sky,BE,Sunny),(AirTemp,BE,Warm),(What5,BE,What6),(Wind, BE,Strong),(Water,BE,Warm),(Forecast,BE,Same))*/
然后处理第三个训练样例,这是一个反例,h不变。实际上.FIND-S算法简单地忽略每一个反例,这时假设h仍然与新的反例一致(即h能将此例正确地划分为反例),因此不需要对h作任何更改。一般情况下,只要假定假设空间H确实包含真正的目标概念c,而且训练样例不包含错误,那么当前的假设h不需要因反例的出现而更改。原因在于当前假设h是H中与所观察到的正例相一致的最特殊的假设,由于假定目标概念c在H中,而且它一定是与所有正例一致的,那么c一定比 h更一般,而目标概念c不会覆盖一个反例,因此h也不会(由(hj,more general than, hk)的定义)。因此,对反例,h不需要作出任何更改。
接着完成FIND-S算法,第四个正例使得h更一般:
h←(Sunny,Warm,?,Strong,?,?)
/*h←((Sky,BE,Sunny),(AirTemp,BE,Warm),(What5,BE,What6),(Wind, BE,Strong),(What9,BE,What10),(What11,BE,What12))。这即是由四个实例机器学习获得的"Aldo进行水上运动的日子"的一般情景条件。其实,这算法只是将正例中的共有属性提取出来而已。
这样,结合"Andy进行水上运动的日子",可以生成下面语句输出:
Andy在(Sky,BE,Sunny)(AirTemp,BE,Warm)(Wind,BE,Strong)日子进行水上运动
=Andy在阳光温暖风劲的日子进行水上运动
Andy进行水上运动的日子
=(Andy,BE,进行水上运动的日子)
=(Andy,在,进行水上运动的日子)
=(Andy,在,日子(日子,BE,进行水上运动))
=(Andy,在,日子)∧(日子,BE,进行水上运动)————①
(日子,BE,(Sky,BE,Sunny)∧(AirTemp,BE,Warm)∧(Wind,BE,Strong))
=(日子,BE,Sunny∧Warm∧Wind Strong)∧(Sky,BE,Sunny)∧(AirTemp, BE,Warm)∧(Wind,BE,Strong)
(日子,BE,Sunny∧Warm∧Wind Strong)
=(Sunny,Warm,and Strong Wind的日子)————②
将主子句②式代入①式,得到
Andy在阳光温暖风劲的日子进行水上运动。
用IF\THEN的产生式系统规则表达:
由①得到
IF(Andy,在,日子),THEN(日子,BE,进行水上运动)
→IF Andy,THEN(在,日子)
→IF(Andy,在),THEN日子
→IF Andy,THEN在
IF在,THEN日子
IF日子,THEN进行水上运动————③
由②得到
IF日子,THEN Sunny∧Warm∧Wind Strong
IF(IF日子,THEN Sunny∧Warm∧Wind Strong),THEN(Sunny,Warm,and StrongWind的日子)
→IF日子,THEN(Sunny,Warm,and Strong Wind的日子)————④
将③④两式合併,得到:
IF日子,THEN(Sunny,Warm,and Strong Wind的日子)∧进行水上运动 /*日子=(Sunny,Warm,and StrongWind的日子)∧进行水上运动。二者等价。*/
由(IF(Andy,在),THEN日子),将“日子”用等价值替代,得到:
IF(Andy,在),THEN(Sunny,Warm,and Strong Wind的日子)∧进行水上运动
取消IF\THEN符号,有
IF(Andy,在),THEN(Sunny,Warm,and Strong Wind的日子)∧进行水上运动
=Andy在Sunny,Warm and StrongWind的日子进行水上运动*/
注:关于语句生成的方法及方式另有篇幅详细论述。
自然语言机器思维的FIND-S算法中,目标概念是在算法进程中新形成的,这是自然语言机器思维和人类思维设计算法的不同。
候选消除
概念学习的另一种方式即候选消除(CANDIDATE.ELIMINATION)算法。它能解决FIND-S中的若于不足之处。FIND-S输出的假设只是H中能够拟合训练样例的多个假设中的一个。而在候选消除算法中,输出的是与训练样例一致的所有假设的集合。
候选消除算法可以表示与训练样例一致的所有假设。在假设空间中的这一子集被称为关
于假设空间H和训练样例B的变型空间(version space)。因为它包含了目标概念的所有合理的变型。
定义:关于假设空间H和由训练样例集D的变型空间,标记为VSH.D是H 中与训练样例
D一致的所有假设构成的子集。
VSH.D≡﹛h∈H︱Consistent(h.D)﹜
候选消除算法通过使用极大一般成员(在图中标为G)和极大特殊成员(图中标为S)来表示变型空间。只给定这两个集合S和G.就可以列举出变型空间中的所有成员,方法是使用一般到特殊偏序结构来生成S和G集合之间的所有假设。
表示变型空间的一种方法是列出其所有成员。这样可产生一个简单的算法,传统上称为列表后消除(LJST-THEN-ELl MINATE)算法。
自然语言机器思维的列表后消除算法:
1.变型空间VersionSpace←(列表,包含,假设)∧(假设,BE…中,H)∧(假设, BE,所有)
2.训练样例(…,对,训练样例〈x,c(x)〉)∧(训练样例〈x,c(x)〉,BE,每个)
移除(…,移除,假设h)∧变型空间(移除,从…中,变型空间)∧假设h(假设h, BE,h(x)≠c(x))∧(h(x)≠c(x))(h(x)≠c(x),BE,所有)
3.输出(…,输出,列表)∧(列表,BE,假设)∧变型空间(假设,BE…中,变型空间)
注:括号外的概念(词)是搜索指针词。
自然语言机器思维的候选消除学习算法
候选悄除算法计算出的变型空间,包含H中所有与训练样例的观察序列一致的假设。开始,变型空间被初始化为H中所有假设的集合。即将边界集合初始化为H 中最一般的假设:
G0←﹛(?,?,?,?,?,?)﹜/*括号内含任何正例子句中的格式塔结构维度。*/
并将S边界集合初始化为最特殊(最不一般)的假设:
S 0←﹛(Φ,Φ,Φ,Φ,Φ,Φ)﹜/*括号内含所有反例子句中的格式塔结构维度。*/
这两个边界集合包含了整个假设空间。因为H中所有假设都比S 0更一般,且比G0更特殊。算法在处理每个训练样例时,S和G边界集合分别被泛化和特殊化,从变型空间中逐步消去与样例不一致的假设。在所有训练样例处理完后,得到的变型空间就包含了所有与样例一致的假设,而且只包含这样的假设。
使用变型空间的自然语言机器思维的候选消除算法
/*﹙候选消除算法,使用,变型空间﹚∧﹙自然语言机器思维,HAS,候选消除算法﹚*/
﹙…,输入,自然语言似谓词演算形式的子句集﹚
·﹙…,完成,前期相关程序﹚
·﹙已输入的子句集,被利用∧形成,目标概念﹚
·﹙已输入的子句集,被利用∧搜索,领域空间﹚
﹙G集合,被初始化∧为,一般假设﹚∧﹙一般假设,BE,极大﹚∧﹙极大, BE,H中﹚
﹙S集合,被初始化∧为,特殊假设﹚∧﹙特殊假设,BE,极大﹚∧﹙极大, BE,H中﹚
﹙…,进入,自然语言产生式系统﹚
﹙训练样例d,BE,每个﹚∧﹙训练样例d,被进行…操作,以下﹚∧﹙以下, BE,…﹚:
IF﹙d,是,一正例﹚
THEN﹙G,除去,假设s﹚∧﹙假设s,与…不一致,d﹚
·IF﹙假设s,与…不一致,d﹚
THEN﹙S,除去,假设s﹚
·﹙s,HAS,极小泛化式h﹚∧﹙极小泛化式h,BE,所有的﹚∧﹙极小泛化式h,被加入到…中,S﹚
·﹙h与d,BE,一致﹚∧﹙G的某个成员,比…更一般,h﹚
·IF﹙假设si,比…更一般,S中另一假设sj﹚
THEN﹙S,被除去,所有这样的假设si﹚
IF﹙d,是,一个反例﹚
THEN﹙S,被除去,所有假设s﹚∧﹙假设s,与…不一致,d﹚
·IF﹙每个假设g,in,G﹚∧﹙假设g,与…不一致,d﹚
THEN﹙G,被除去,g﹚
·IF﹙h,与…一致,d﹚∧﹙某个成员sm,比…更特殊,h﹚∧﹙S, HAS,sm﹚
THEN﹙所有的极小特殊化式h,加入到…中,G﹚∧﹙g,HAS, h﹚∧﹙h,BE,其中﹚
·IF﹙假设gi,比…更特殊,假设gj﹚∧﹙假设gj,BE,另一﹚∧﹙另一,BE,G中﹚
THEN﹙G,被除去,假设gi﹚∧﹙假设gi,BE,所有这样﹚
注:注意正例和反例是怎样同时影响S和G的。/*﹙…,注意,正例和反例﹚∧﹙正例和反例,怎样同时影响,S和G﹚。是…的=…。*/
注意算法中的操作,包括对给定假设的极小泛化式和极小特殊化式的计算,和确定那些非极小和非极大的假设。具体的实现当然依赖于实例和假设的表示方式。
上面自然语言似谓词演算形式表达的算法可进一步自动转換为自然语言产生式系统规则表示:IF…,THEN…。如此可以方便地自动编制程序。
自然语言产生式系统的候选消除算法
IF输入,THEN自然语言似谓词演算形式的子句集
·IF完成,THEN前期相关程序﹚
·IF已输入的子句集,THEN﹙被利用∧形成,目标概念﹚
IF被利用∧形成,THEN目标概念
IF已输入的子句集,THEN被利用∧形成
IF已输入的子句集,THEN目标概念
·IF已输入的子句集,THEN﹙被利用∧搜索,领域空间﹚
IF被利用∧搜索,THEN领域空间
IF已输入的子句集,THEN被利用∧搜索
IF已输入的子句集,THEN领域空间
IF G集合,THEN﹙被初始化∧为,H中极大一般假设﹚
IF被初始化∧为,THEN H中极大一般假设
IF G集合,THEN被初始化∧为
IF G集合,THEN H中极大一般假设
IF一般假设,THEN极大
IF极大,THENH中
IF S集合,THEN﹙被初始化∧为,H中极大特殊假设﹚
IF被初始化∧为,THEN H中极大特殊假设
IF S集合,THEN被初始化∧为,
IF S集合,THEN H中极大特殊假设
IF特殊假设,THEN极大
IF极大,THENH中
IF进入,THEN自然语言产生式系统
IF对每个训练样例d,THEN﹙进行…操作,以下﹚∧﹙以下,BE,…﹚ IF进行…操作,THEN以下
IF对每个训练样例d,THEN进行…操作
IF对每个训练样例d,THEN以下
·IF﹙IF d,THEN一正例﹚
THEN(IF G,THEN(除去,假设s)
IF除去,THEN假设s
IF G,THEN除去
IF G,THEN假设s)
∧(IF假设s,THEN(与…不一致,d)
IF与…不一致,THEN d
IF假设s,THEN与…不一致
IF假设s,THEN﹁d)
·IF﹙假设s,与…不一致,d﹚
THEN﹙S,除去,假设s﹚
IF假设s,THEN﹙与…不一致,d﹚
IF与…不一致,THEN d
→IF S,THEN﹙除去,假设s﹚
IF除去,THEN假设s
IF s,THEN﹙HAS,极小泛化式h﹚
IF极小泛化式h,THEN所有的
IF极小泛化式h,THEN﹙被加入到…中,S﹚
IF被加入到…中,THEN S
IF h∧d,THEN一致
IF G的某个成员,THEN﹙比…更一般,h﹚
·IF﹙假设si,比…更一般,S中另一假设sj﹚
THEN﹙S,被除去,所有这样的假设si﹚
IF假设si,THEN﹙比…更一般,假设sj﹚∧﹙假设sj,BE,另一﹚∧﹙假设sj, BE…中,S﹚
IF假设si,THEN﹙比…更一般,假设sj﹚
IF比…更一般,THEN假设sj
IF假设sj,THEN另一
IF假设sj,THEN S
→IF S,THEN﹙被除去,假设si﹚∧﹙假设si,BE,所有﹚∧﹙假设si,比…更一般,假设sj﹚
←IF这样,THEN﹙假设si,比…更一般,假设sj﹚
IF被除去,THEN假设si
IF假设si,THEN所有
·IF﹙d,是,一个反例﹚
THEN﹙S,被除去,假设s﹚∧﹙假设s,BE,所有﹚∧﹙假设s,与…不一致, d﹚
IF d,THEN一个反例
→IF S,THEN﹙被除去,假设s﹚
IF被除去,THEN假设s
IF假设s,THEN所有
IF假设s,THEN﹙与…不一致,d﹚
IF与…不一致,THEN d
IF假设s,THEN﹁d
·IF﹙每个假设g,in,G﹚∧﹙假设g,与…不一致,d﹚
THEN﹙G,被除去,g﹚
IF每个假设g,THEN﹙in,G﹚
IF in,THEN G
IF假设g,THEN﹙与…不一致,d﹚
IF假设g,THEN与…不一致
IF与…不一致,THEN d
IF假设g,THEN﹁d
→IF G,THEN﹙被除去,g﹚
IF被除去,THEN g
·IF﹙h,与…一致,d﹚∧﹙某个成员sm,比…更特殊,h﹚∧﹙S,HAS,sm﹚
THEN﹙所有的极小特殊化式h,加入到…中,G﹚∧﹙g,HAS,h﹚∧﹙h, BE,其中﹚
·IF﹙假设gi,比…更特殊,假设gj﹚∧﹙假设gj,BE,另一﹚∧﹙另一,BE…中,G﹚
THEN﹙G,被除去,假设gi﹚∧﹙假设gi,BE,所有这样﹚
IF所有的极小特殊化式h,THEN﹙加入到…中,G﹚
IF加入到…中,THEN G
IF g,THEN﹙HAS,h﹚
IF h,THEN其中
IF h,THEN满足
IF满足,THEN﹙h,与…一致,d﹚∧﹙某个成员sm,比…更特殊,h﹚∧﹙S, HAS,sm﹚
IF h,THEN﹙与…一致,d﹚
IF与…一致,THEN d
IF h,THEN d
IF某个成员sm,THEN﹙比…更特殊,h﹚
IF比…更特殊,THEN h
IF S,THEN﹙HAS,sm﹚
IF S,THEN sm
IF假设gi,THEN﹙比…更特殊,假设gj﹚
IF比…更特殊,THEN假设gj
IF假设gj,THEN另一
IF假设gj,THEN﹙BE…中,G﹚
IF BE…中,THEN G
IF假设gj,THEN G
→IF G,THEN﹙被除去,假设gi﹚
IF被除去,THEN假设gi
IF假设si,THEN所有这样
IF这样,THEN﹙假设gi,比…更特殊,假设gj﹚
IF假设gi,THEN﹙比…更特殊,假设gj﹚
IF比…更特殊,THEN假设gj
自然语言机器思维的决策树学习
传统的图示方式是决策树图形,而在本发明中,发明人提出的方法则以自然语句似谓词演算形式子句集中抽取不同属性的关键词或关键子句构成存在关系,并以此为基础以自然语言产生式系统规则表示。
附图3表示决策树根据天气情况分类"星期六上午是否适合打网球"。
分类一个样例的方法是,将其沿根结点排列到合适的叶子结点,然后返回与这个叶子结点关联的分类(本例中分类的分支值为Yes或No)。
自然语言机器思维的决策树分类算法:
·由自然语句似谓词演算形式子句集中抽取不同属性的关键词匹配对
·构成分类的分支值yes和no的关系
·进入自然语言产生式系统
·取代传统的属性值约束的合取的析取式
图3表示的决策树对应于以下表达式:
由自然语句似谓词演算形式子句集中抽取不同属性的关键词匹配对,并构成分类的分支值yes和no的关系:
(Outlook=Sunny∧Humidity=Normal→yes∨Humidity=High→no)
∨(Outlook=Overcast→yes)
∨(Outlook=Rain∧Wind=Strong→no∨Wind=Weak→yes)
进入自然语言产生式系统﹙用IF\THEN的产生式系统规则表达﹚:
IF Outlook,THEN Sunny∧Humidit/*Outlook=Sunny∧Humidity*/
IF Sunny,THEN Humidit
IF Humidit,THEN Normal
IF(IF Humidit,THEN Normal),THEN yes/*yes是布尔逻辑值*/
即IF Normal,THEN yes
或者IF Humidit,THEN High
IF High,THEN no/*no是布尔逻辑值*/
∨IF Outlook,THEN Overcast
IF Overcast,THEN yes
∨IF Outlook,THEN Rain∧Wind
IF Rain,THEN Wind/*IF Wind,THEN(IF Wind=Weak,THEN(IF Wind, THENWeak),IF Wind=Strong,THEN(IF Wind,THEN Strong)
IF Wind,THEN Weak=(Wind,BE,Weak)
IF(IF Wind,THEN Weak=(Wind,BE,Weak)),THEN yes
即IF Weak=(Wind,BE,Weak),THEN yes*/
或者IF Wind,THEN Strong=(Wind,BE,Strong)
IF(IF Wind,THEN Strong=(Wind,BE,Strong)),THEN no
即IF Strong=(Wind,BE,Strong),THEN no
布尔逻辑值为no的分支为反例(即这棵树预测这个实例PlayTennis=No)。
上面的表示取代了传统的属性值约束的合取(conjunction)的析取式(disjunction)。
自然语言机器思维的最佳分类属性选择算法
·将任务表述自然语句转换为似谓词演算形式子句集
·对涉及计算的子句牵引进入计算程序,或
·子句集进入自然语言产生式系统
·对涉及计算的子句牵引进入计算程序
·建立相关计算的词与计算公式、术语等对应关系
·用相应的子句控制计算过程
·预测目标属性值
·创建存在关系的最顶端结点
·计算每一个候选属性的信息增益
·选择信息增益最高者
·进行目标概念的训练样例分析过程而得到定性的结论
·由反例每组比对﹙相减﹚,
·不相同的属性值是无影响的属性值
·不变的属性值是有影响的属性值
·生成自然语句作为输出
自然语言机器思维的分析学习
在分析学习中,学习器的输入包含与归纳学习同样的假设空间H和训练样例D。学习器还有另一输入:一个领域理论(domain theory)可用,它由可用于解释训练样例的背景知识组成。学习器希望的输出为H中的假设h,它既与训练样例D一致,也与领域理论B一致。
假设空间H为自然语言似谓词演算形式的Horn子句集(也即if-then规则)。
自然语言机器思维的训练样例和领域理论一致的假设求解算法:
PROGAM-EBG(TargerConcep,DomainTheory)
⑴LearnedRules←{对输入的自然语言似谓词演算形式子句集分类的相关子句}
⑵Pos←TrainingExample中的正例/*正例由自然语言似谓词演算形式子句集表示*/
/*⑴和⑵具体地以下面序列覆盖算法实现。
釆用自然语言机器思维的序列覆盖算法
序列覆盖算法是在所有可用由自然语言似谓词演算形式子句集表示的训练样例上执行LEARN_ONE_RULE.再移去由其学到的规则(此规则由子句集中的某些相关子句组成)覆盖的正例,然后在剩余的训练样例上执行,学习第二个规则。此过程可重复若干次,直到最后学习到全部析取规则集。
SEQUENTIAL-Covering(Target_atribute,Attribute,Example,Threshold)
Learned_Rules←{对输入的自然语言似谓词演算形式子句集分类的相关子句}/*自然语句被转換为自然语言似谓词演算形式子句集。由专门算法及系统完成转換。 */
Rule←Learn_one_rule(Target_atribute,Attribute,Example)
IF Performance〈rule,Example〉>Threshold
THEN Learned_Rules←Learn_one_rule+Rule
else Example←Example{被Rule正确分类的样例}
Rule←Learn_one_rule(Target_atribute,Attribute,Example)
Learned_Rules←按照在Example上的Performance排序的Learn_rules
返回Learned_Rules
注:Learn_one_rule必须返回单个能覆盖某些Example的规则。 PERFORMANCE是用户提供的子程序,以评估规则的质量。当算法再也不能学习到一个性能超过给定阈值Thnιmold的规则时,终止该算法。*/
else
⑶IF Pos中存在沒有被LearnedRules覆盖的PositiveExample
THEN 1.解释
·Explanation←以DomainTheory表示的解释(证明),说明PositiveExample满足TargetConcept
2.分析
·SufficiensConditions←按照Explanation能够充分满足TarsetConcept的PositiveExample的最一般特征集合
3.改进
·LearnedRules←LearnedRules+New子句(HornClause),其中New子句(HornClause)形式为TarsetConcept←SufficiensConditions
⑷返回LearnedRules
举例:
自然语言机器思维的分析学习问题:SafeToStack(y,BE safe to stack,x)
己知:从自然语句转換为自然语言似谓词演算形式子句集合中选取主子句构成用于分析学习的子句集。本说明中的子句可以用实际选取的等价的子句替代。
·实例空间X:每个实例以似谓词演算形式子句描述了一对对象,描述子句中包含关键表述词Type、Color、Volume、Owner,Materíal,Density和On
·假设空间H:/*假设空间H如果是人的假设,可能来自外界的要求或任务书,或者由样例本身推理而来。*/
每个假设是一组似谓词演算形式(Horn)子句规则。每个似谓词演算形式(Horn)子句的头部为一个包含目标关键表述词SafeToStack的文字。每个似谓词演算形式(Horn) 子句为最简思维模式文字的合取,这些文字基于描述实例的关键表述词以及关键表述词LessThan、Equal、GreatThan和函数plus、minus和times.例如下面的似谓词演算形式(Horn)子句是假设空间中的一员:
SafeToStack(x,BE safe to stack on,y)←Volume(v x,BE,volume ofx)∧Volume(v y,BE,volume ofy)∧LessThan(v x,BE less than,v y)
·目标概念:/*目标概念如果是人的假设,可能来自外界的要求或任务书。或者由样例子句集在领域空间辅助下推理而来。*/
SafeToStack(x,BE safe to stack on,y)
·训练样例D:/*训练样例D来自描述的自然语句似谓词演算形式子句。它是对事实或关系的描述。*/
下面显示一个典型的正例SafeToStack(Obj1,BE safe to stack on,Obj2):
·领域理论B:/*领域空间来自知识库的知识单元。或者对训练样例D的附加解释语句。由训练样例D子句括号前的关键表述词及其群组是搜索领域空间B的指针词。*/
SafeToStack(x,BE safe to stack on,y)←Fragile(y,BE,no fragile)
SafeToStack(x,BE safe to stack on,y)←Lighter(x to y,BE,lighter)
Lighter(x to y,BE,lighter)←Weight(w x,BE,the weight ofx)∧Weight(wy,BE,the weight ofy)∧LessThan(wx,BE less than,wy)
/*LessThan(wx,BE less than,wy)=GreatThan(wy,BE great than,wx),等价关系。*/
Weight(w,BE,the weight ofx)←Volume(v,BE,the volume ofx)∧Density(d,BE,the density ofx)∧Equal(w,equal to,(v×d))
Weíght(the weight ofx,BE,≥5)←Type(x,BE,the type ofendtable)
Fragile(x,BE,fragile)←Meterial(x,BE,the meterial glass)
Fragile(the meterial wood,BE,no fragile)
…
求解:
训练样例和领域理论一致的假设。/*其实是机器思维推理的结果。*/
注:关键表述词大部分类似传统的谓词。
如果领域空间有更为丰富的知识单元,并被机器思维自动搜索到,机器学习会有更好的结果。
机器思维:训练样例和领域理论一致的假设求解过程:
在机器思维的情形,不存在假设空间H的分析学习(假设空间是人的思维产物)。因为机器思维并不会有预先的假设。只有现实当下的训练样例和由机器思维本身的知识库提供的领域空间。
先决条件:
①IF Volume(vx,BE,volume ofx)∧Volume(vy,BE,volume ofy)∧LessThan(vx,BE less than,vy)THEN SafeToStack(x,BE safe to stack on,y)/*假设空间 H*/
②IF Volume(vx,BE,volume ofx)∧Volume(vy,BE,volume ofy)∧LessThan(vx,BE less than,vy)/*假设空间H*/
/*在机器思维的情形,不存在假设空间。*/
③THEN Type(Obj2,BE,the type ofendtable)∧Density(the density ofObj1,BE,0.3)∧Volume(the volume Obj1,BE,2)/*训练样例:IF Type(Obj2,BE,the typeofendtable)∧Meterial(Obj1,BE,the meterial cardboard)∧Meterial(Obj2,BE, themeterial wood)∧Density(the density of Obj1,BE,0.3)∧Volume(the volume Obj1,BE,2)THEN SafeToStack(Obj1,BE safe to stack on,Obj2)
∧IF Type(Obj2,BE,the type ofendtable)THEN④(IF Type(x,BE,the type ofendtable)THEN Weíght(the weight ofx,BE,≥5))*/
∧④THEN Volume(v,BE,the volume of x)∧Density(d,BE,the density of x)∧Equal(w,equal to,(v×d))∧(IF Type(x,BE,the type ofendtable)THEN Weíght(theweight ofx,BE,5))
∧IF(IF Type(x,BE,the type ofendtable)THEN Weíght(the weight ofx,BE,≥5))THEN(IF Weíght(the weight ofx,BE,≥5)THEN Type(x,BE,the typeofendtable))
/*领域空间:IF Volume(v,BE,the volume ofx)∧Density(d,BE,the densityof x)∧Equal(w,equal to,(v×d))THEN Weight(w,BE,the weight ofx),IF Type(x,BE,the type ofendtable)THEN Weíght(the weight ofx,BE,≥5)*/
求解:
⑴由训练样例③Type(Obj2,BE,the type ofendtable),搜索领域空间④,得到
IF(IF Type(x,BE,the type ofendtable)THEN Weíght(the weight ofx,BE,≥5)) THEN(IF Type(Obj2,BE,the type ofendtable)THEN Weíght(the weight ofObj2,BE,≥5))
即得到
Weíght(the weight ofObj2,BE,≥5)
⑵由训练样例③Density(the density ofObj1,BE,0.3)∧Volume(the volumeObj1, BE,2),搜索领域空间④,得到
IF(IF Volume(v,BE,the volume ofx)∧Density(d,BE,the density ofx)∧Equal(w, equal to,(v×d))THEN Weight(w,BE,the weight ofx)THEN(IF Density(thedensity of Obj1,BE,0.3)∧Volume(the volume Obj1,BE,2)THEN Weight(w(v×d)),BE,the weight ofObj1))
∧IF Weight(w(v×d)),BE,the weight ofObj1)THEN Weight(the weightofObj1, BE,w(v×d)=Weight(the weight ofObj1,BE,w(2×0.3)=Weight(the weightofObj1,BE,0.6)
⑶由⑵和⑴,有
Weight(the weight ofObj1,BE,0.6)<Weíght(the weight ofObj2,BE,≥5)
由领域空间B,有
Lighter(x to y,BE,lighter)←Weight(w x,BE,the weight ofx)∧Weight(wy,BE,the weight ofy)∧LessThan(wx,BE less than,wy),则得到
Lighter(Obj1to Obj2,BE,lighter)
由领域空间B,有
SafeToStack(x,BE safe to stack on,y)←Lighter(x to y,BE,lighter),则
IF Lighter(Obj1to Obj2,BE,lighter)THEN SafeToStack(Obj1,BE safe tostack on,Obj2)
由领域空间B,有
SafeToStack(x,BE safe to stack on,y)←Fragile(y,BE,no fragile),
Fragile(the meterial wood,BE,no fragile),
由训练样例,有
Type(Obj2,BE,the type ofendtable)∧Meterial(Obj2,BE,the meterialwood),则
IF Type(Obj2,BE,the type ofendtable)∧Fragile(Obj2,BE,no fragile)THEN SafeToStack(Obj1,BE safe to stack on,Obj2)
合併上面两式前项,得
IF Lighter(Obj1to Obj2,BE,lighter)∨Type(Obj2,BE,the type ofendtable)∧Fragile(Obj2,BE,no fragile)THEN SafeToStack(Obj1,BE safe tostack on,Obj2)
结论:如果假设空间H缺失,则单纯从训练样例和领域空间中,机器思维可以获得上述结论。知识库对于机器思维的分析学习很重要。
将这个结论泛化并输出作为知识库的新的知识单元。
自然语言机器思维的贝叶斯学习
在的论述中,学习实例以及新实例的目标值都是自然语言似谓词演算形式子句集文本。设x是表示一个子句集的函数式,则有
x=(a1,a2,a3),(a4,a5,a6),……,(an-1,an-2,an)
=(determiner[x]noun(WHAT1),verb(DO)(verb(DO),BE,determiner [y]),noun(WHAT2)(noun(WHAT2),HAS,WHAT3)∧WHAT3(WHAT3, BE,determiner[z])((WHAT1,DO,WHAT2)的切分句型)
每个实例x由作为属性值元组的子句的合取描述,而目标函数f(x)从某有限集合V(即知识库)中取值。学习器被提供一系列关于目际函数的训练样例(譬如,就像下面例举的知识库中某个社会原理知识单元)以及新实例的(描述为属性值的元组)(a1, a2,a3),(a4,a5,a6),……,(an-1,an-2,an),然后要求预测新实例的目标值(或分类)。
考虑实例空间X包含了所有的自然语言似谓词演算形式子句集文本(即任意长度的所有可能的单词组及其组合中的单词和标点符号串)。由子句集文本已从知识库捜索并设定出了某未知目标函数f(x)一组训练样例,f(x)的取值来自于某有限集合 V(即知识库)。此任务是从训练样例中学习,以预测后续推理出的生成子句文本的目标值。
例如:
x=(a1,a2,a3),(a4,a5,a6)=人(人,与,Joe)∧人(人,住∧在,一起)
住在=住∧在,这是个行为和限定词的组合。
每个单词包括括号的位置定义一个属性,该属性的值为在此位置上找到的英文单词和括号,相同者为同一属性,每个语句的原标点符号是特别的属性。指针词“人”也可以是一个属性。上例中的文本被表示为7个属性。第一个属性的值为“人”,第二个为“()”,以此类推。
自然语言似谓词演算形式子句集文本这样表示,就可以应用朴素贝叶斯分类器进行学习了。
假定有700个训练文本语句,并且已由输入时被分类为dislike,而另外300个文本语句则是like现在有了一个新文本要分类。为明确起见,该文本语句就是上面的两个子句。在此情况下,可应用下面的式(10.3)计算朴素贝叶斯分类器如:
vNB=argmaxp(vj)Π(ai︱vj),vj∈V;i∈Positions,i=1,n=7
=argmaxp(vj)(p(al=“人”︱vj)P(a2=“()”︱vj)…p(a7=“一起”︱vj)
总的来说,朴素贝叶斯分类器是使该文本语句中的符号在此处被选择的概率最大的一个分类,它遵循通常的朴素贝叶斯独立性假定。
独立性假定P(a1,a2,a3…︱vj)=Π(ai︱vj),i=1,n=7
说明在一个位置上出现某语句符号的概率独立于另外一个位置的语句符号。但需要引入搜索指针词以极大减少需要估计的概率数量,这又与知识库的构成机制相一致。
自然语言机器思维表述的学习和分类文本的朴素贝叶思算法
LEARN·NAlVE_BAYES_TEXT(Examples,V)
Examples为一组自然语言似谓词演算形式子句集文本以及它们的推理目标子句值。V为所有可能目标子句值的集合。此函数作用是学习概率项P(wk︱wj),它描述了从类别wj中的一个文本中随机抽取的一个单词wk的概率,该函数也学习类别的先验概率p(wf)。
1.(…,收集,单词∧标点符号∧其他记号)∧(单词∧标点符号∧其他记号, BE,所有的)∧(单词∧标点符号∧其他记号,BE…中,Examples)
·Vocabulary←(集合,BE,单调及记号的)∧(集合,BE,所有的)∧(集合,出现…中,任意文本)∧(集合,BE…中,Examples)
2.(…,计算,概率项p(vj)∧P(wk︱wj))∧(概率项p(vj),BE,所需要的)
·(…,对,目标值vj)∧(目标值vj,BE,每个)∧(目标值vj,BE…中,V)
·(文本子句集,HAS,目标值vj)∧(目标值vj,BE…中,Examples)
·p(vj)←︱docsj︱/︱Examples︱
·Textj←(单个文本,被…连接起来∧建立,所有成员)∧(所有成员,BE…中,docsj)
·n←(总数,BE,单词位置的)∧(单词位置,BE…中,Textj)∧(单词位置,BE,不同的)
·(…,对,单词wk)∧(单词wk,BE,每个)∧(单词wk,BE…中,Vocabulary) /*(…,对,单词wk)∧(单词wk,BE,每个)∧(单词wk,BE…中,Vocabulary)。
再由(单词wk,BE…中,Vocabulary),转換为自然语言产生式系统规则表示:
IF单词wk,THEN Vocabulary
IF Vocabulary,THEN(搜索,单词wk)
IF搜索,THEN单词wk
IF单词wk,THEN每个*/
·nk←(次数,BE,单词wk的)∧(单词wk,出现在…中,Textj)
·P(wk︱vj)←(nk+1)/(n+︱Vocabulary︱)
CLASSIFY_NAIVE_BAYES_TEXT(Doc)
(文本Doc,被返回,其估计的目标值)∧(目标值,BE,估计的)。(ai,代表,单词)∧(单词,出现在,第i个位置)∧(第i个位置,BE…中,Doc)
·Positions←(单词位置,BE,所有)∧(单词位置,BE…中,Doc),(它,包含,记号)∧(记号,能被找到,…)∧(记号,在…中,Vocabulary)
·(…,返回,vNB)
vNB=argmaxp(vj)Π(ai︱vj),vj∈V;i∈Positions
注:除通常的朴素贝叶斯假定外,算法还假定单词出现的概率独立于其在文本中的位置。
算法表述在自然语言似谓词演算形式子句集的基础上,可进一步转換为自然语言产生式系统规则表示。
自然语言机器思维的人工神经网络学习
自然语言机器思维的训练线性单元的梯度下降算法
GHADl ENT-DESCENT(training_examples,η)
training_examples中每一个训练样例形式为序偶(x∧,t),其中x∧是输入值向量,t是目标输出值,η是学习速率(例如0.05)/*(训练样例,BE,training_examples 中)∧(训练样例,BE,每一个)∧(训练样例,HAS,形式)∧(形式,为,序偶(x∧,t)), (x∧,BE,序偶(x∧,t)中)∧(x∧,是,输入值向量)∧(t,是,目标输出值)∧(η,是,学习速率∧(例,如,0.05))。
用自然语言产生式系统规则表示:
IF训练样例,THEN(HAS,形式)
IF形式,THEN序偶(x∧,t)
IF训练样例,THEN training_examples中
IF训练样例,THEN每一个
IF x∧,THEN序偶(x∧,t)中
IF x∧,THEN输入值向量
IF t,THEN目标输出值
IFη,THEN学习速率∧(例,如,0.05)*/
IF学习速率,THEN例
IF例,THEN(如,0.05)
IF学习速率,THEN(如,0.05)*/
·初始化每个wi为某个小的随机值/*(每个wi,被初始化为,随机值)∧(随机值,BE,某个小的)。
用自然语言产生式系统规则表示:
IF每个wi,THEN(被初始化为,随机值)
IF被初始化为,THEN随机值
IF随机值,THEN某个小的
IF某个小的,THEN选择某个小的*/
·遇到终止条件之前,做以下操作:/*(…,遇到,终止条件之前)∧((…,遇到,终止条件之前),做,操作)∧(操作,BE,以下))
IF遇到,THEN终止条件之前
IF(IF遇到,THEN终止条件之前),THEN(做,操作)∧(操作,BE,以下)
IF做,THEN操作
IF操作,THEN以下
IF做,THEN以下/*行为词“做”控制“以下”的思维和行为。*/
*/
·初始化每个△wi为0/*(△wi,被初始化为,0)∧(△wi,BE,每个)。初始化…为=被初始化为。
用自然语言产生式系统规则表示:
IF△wi,THEN(被初始化为,0)
IF被初始化为,THEN0
IF△wi,THEN每个*/
·对于训练样例training_examples中的每个(x∧,t),做:/*((x∧,t),BE,每个)∧((x∧,t),做,…)∧((x∧,t),在,训练样例training_examples中)。在=BE。
IF(x∧,t),THEN每个
IF(x∧,t),THEN(做,…)
IF(x∧,t),THEN(在,训练样例training_examples中)*/
·把实例x∧输入到此单元,计算输出o/*(实例x∧,被输入到,此单元)→(…,计算,输出o)。把…DO=被DO。
用自然语言产生式系统规则表示:
IF(实例x∧,被输入到,此单元),THEN(…,计算,输出o)
IF实例x∧,THEN(被输入到,此单元)
IF实例x∧,THEN被输入到
IF被输入到,THEN此单元
IF实例x∧,THEN此单元
IF计算,THEN输出o
IF(IF实例x∧,THEN此单元),THEN(IF计算,THEN输出o)
IF(输出,o),THENo*/
·对于线性单元的每个权wi,做/*(线性单元,HAS,权wi)∧(权wi,BE,每个)∧(权wi,做,△wi←△wi+η(t-o)xi)。…的=…HAS。
用自然语言产生式系统规则表示:
IF线性单元,THEN(HAS,权wi)
IF权wi,THEN每个
IF权wi,THEN(做,△wi←△wi+η(t-o)xi)
IF做,THEN△wi←△wi+η(t-o)xi*/
△wi←△wi+η(t-o)xi(4.8)
IF△wi+η(t-o)xi,THEN wi
IF(△wi+η(t-o)xi,BE,完成),THEN(生成∧输出,子句集)*/
·对于线性单元的每个权wi,做/*(线性单元,HAS,权wi)∧(权wi,BE,每个)∧(权wi,做,wi←wi+△wi)。
用自然语言产生式系统规则表示:
IF线性单元,THEN(HAS,权wi)
IF权wi,THEN每个
IF权wi,THEN(做,wi←wi+△wi)
IF做,THEN wi←wi+△wi*/
wi←wi+△wi(4.9)
IF wi+△wi,THEN wi
IF(wi+△wi,BE,完成),THEN(生成∧输出,子句集)*/
注:要实现梯度下降的随机近似,剔除公式(4.9),并把公式(4.8)替换为wi←wi +η(t-o)xi。
/*(…,要实现,梯度下降的随机近似)→(…,做,wi←wi+η(t-o)xi)。
IF(…,要实现,梯度下降的随机近似),THEN(…,做,wi←wi+η(t-o)xi)*/
IF要实现,THEN梯度下降的随机近似
IF做,THEN wi←wi+η(t-o)xi
IF梯度下降的随机近似,THEN wi←wi+η(t-o)xi
IF(wi←wi+η(t-o)xi,BE,完成),THEN(生成∧输出,子句集)
例举:图形识别
应用于视觉设计中的图形识别。例如对某种(譬如建筑类)形式风格的学习。
形式风格学习算法:
1.对某种(如建筑)形式风格的不同姿态的摄影图像进行分类,并对应生成自然语言似谓词演算形式子句集的分类描述:
收集若干种不同的(建筑)形式风格的摄影图像,每种风格大约有若干张图像,对应每种风格不同透视、角度的形态;
2.收集同一建筑的若干幅灰度图像,从这些图像数据中可以学习很多不同的目标函数;选择不太大的分辨率,图像的每个像素使用0(黑色)到255(白色)的灰度值描述;
3.使用灰度某种(建筑)形式风格的灰度图像训练一个选定的网络,(建筑)形式风格整体和局部构件形状轮廓进行预测这个轮廓的凸凹方向;
4.使用训练样例迭代获得网络权值。每个输出单元(左、前、右、上)有四个权值,用用某个终极对立概念对(如正负、明暗等)表达。包括每个像素输入到隐藏层的权值,都且对应的关系;
5.设计要素
5.1输入编码
对图像外轮廓和构件轮廓进行预处理,分解出边缘、亮度,质地,色彩一致的区域或其他局部图像特征,然后把这些特征输入网络。这种作法会导致每幅图像有不同数量的特征参数(例如,边缘的数量)。然而,ANN具有固定数量的输入单元。为此,应把图像编码成某种像素的亮度值,每个像素对应一个网络输入。并且把范围为0 到255的亮度值按比例线性缩小到0至1的区间内,以便网络输入与隐藏单元和输出单元在同样的区间取值。
5.2输出编码
ANN必须输出四个值中的一个来表示输入图像中(建筑)形式透视的朝向(左、前、右、上),可以使用单一的输出单元来编码这四种情况的分类,并用子句描述作为目标中间输出值。例如,指定输出值0.2、0.4、0.6、0.8来编码这四个可能值。
进一步设计这4个输出单元的目标值,一个办法是用4个目标值(1,0,0,0)来编码形式透视朝向左,(0,1,0,0)来编码透视朝向正前,依次类推。这里使用0.1 和0.9.而不是0和1,而(0.9,0.1,0.1,0.1)表示形式透视朝向左的目标输出向量。避免使用0和1作为目标值的原因是sigmoid单元对于有限权值不能产生这样的输出。
如果要训练在网络来准确匹配目标值0和1,梯度下降将会迫使权值无限增长。而值0.1和0.9是sigmoid单元在有限权值情况下可以完成的。
对于亮度,质地,色彩等非形状特征还要以数组的方式另外统合编码。
对应生成目标值描述的自然语言似谓词演算形式子句集作为输出。
5.3网络结构图的选择
反向传播算法可以被应用到任何有向无环sigmoid单元的网络,采用最普遍的网络结构是分层网络,一层的每个单元向前连接到下一层的每一个单元。
5.4学习算法的其他参数选择
训练的选代次数的选择可以通过分割可用的数据为训练集合和独立的验证集合来实现。梯度下降方法被用于最小化训练集合上的误差,井且每隔50次梯度下降选代根据验证集合评估一次网络的性能,而最终选择对验证集合精度最高的网络。
6.学习到的隐藏层表示
7.其他可选的误差函数
8.其他可选的误差最小化过程
9.递归网络
10.动态修改网络结构
注意:为了节约篇幅,这里的表述依然采用人类自然语言语句,而非自然语言机器思维的似谓词演算形式子句集表示。
自然语言机器思维的深化(度)学习算法
深化学习(包括隐喻的学习)
深化学习的定义:以事物的抽象构成因子开启学习过程的学习。
“物”的概念抽象构成因子=[x|实体(或虚体)]+有某个阈值的3D尺度或虚拟量度+表面状态[y|质地]+构成形式。(格式塔结构维度)
虚拟量度指概念的程度、量度。如“很”、“急”、“特别”、“少”、“小”,等等。
学习的训练样例以自然语句表述概念抽象构成因子。对这类自然语句处置依上面讲述的算法。
一个“台阶”的概念学习过程:
一个台阶由(实体(或虚体)和有某个阈值的高度差及脚踏(或向前跃行)行为) 等概念而组成。
台阶←(实体(或虚体)+有某个阈值的高度差+相似形式累积+脚踏(或向前跃行)行为)
实体(或虚体)←3D维度+限定界面(或界线)
有某个阈值的高度差←尺度
相似形式累积←单个台步斜向累积
脚踏(或向前跃行)行为←高度变化急且尺(程)度大
一种自然语言机器思维的深化学习算法:
①检测“3D维度+限定界面(或界线)”,得到“实体(或虚体)”存在结论,转入②,或者否定;/*学习的训练样例以自然语句表述“3D维度+限定界面(或界线)”,其余概念抽象构成因子相同。*/
②检测“实体(或虚体)”尺度和识别“相似形式累积”,得到“实体(或虚体)有某个阈值的高度差”和“相似形式累积”存在结论,转入③,或者否定;
③检测“实体(或虚体)高度变化急且尺(程)度大”存在结论,转入④,或者否定;
④检测完成,得到抽象程度高的“台阶”概念,输出。
注:“台阶”的另一个特殊定义:一个台阶由一个矮盒子和个高盒子放在一起而组成。
“台阶”的特殊定义还有其他不同表述。
自然语言机器思维的分析-归纳学习算法:
分析-归纳(Domain Theory,Training Examples)
Domain Theory:非递归自然语句似谓词演算形式子句集。以主子句集作为自动搜索目标概念的空间。或者目标概念来自样例所附问题。
Training Examples:目标函数的<input,output>对的集合
分析步:创建一个等价于领域空间﹙Domain Theory﹚B的初始网络
l.对每个案例属性创建一个网络输入
2.对领域空间B的每个自然语句似谓词演算形式子句,创建如下的网络单元
·连接此单元的输入到此子句的较早进行词测试的属性描述词
·对子句的每个非负指针词属性描述词,赋予权值W给对应的sigmoid单元输入
·对子句的每个非负指针词属性描述词,赋予权值-W给对应的sigmoid单元输入
·设置此单元的阈值w0为-(n-0.5)W,其中n为子句的非负指针词属性描述词的数目
3.在网络单元之间增加附加的连接,连接深度为i的每个网络单元到深度为i+1的所有网络单元的输入层上。赋予这些附加的连接为接近0的随机权值
归纳步:精化此初始网络
4.应用自然语言机器思维的反向传播算法来调整初始网络权值以拟合TrainingExamples
注:自然语言领域理论被转換为等效的神经网络(步骤1-3),然后用反向传播算法归纳精化(第4步)。W常量的典型值为0.4。
自然语言机器思维的整篇文章解读算法:
·自然语句转換为似谓词演算形式子句集
·知识库建立不同的但是意义相同的概念(词)和因果关系句子最简似谓词形式联结
·建立数学计算与自然语言似谓词演算形式子句的连接
·自然语言似谓词演算形式为基础的推理及归纳
·自然语言似谓词演算形式转换为自然语言产生式系统规则表示
·进行推理及归纳过程
·搜索知识库相关知识单元形成领域空间
·形成由分阶子目标函数构成的目标函数:文本简要意义表述
·将推理及归纳所得或匹配等价的目标概念等构成主子句集存储知识库
·对推理及归纳所得或匹配等价的目标概念等构成主子句集回溯生成新句输出
·将学习结果储存知识库
进行这类解读,需要有知识库提供不同的但是意义相同的概念(词)和因果关系句子最简似谓词演算形式联结。
【实例】解放初期,森林覆盖率为19%,算是林木茂密的地区。但是这些年来,采伐量超过生产量,森林资源遭到严重破坏。60年代,覆盖率下降到11%,70年代降到6%,现在还不足4%,由于森林植被的大量损失,大大削弱了土地对雨水的拦蓄作用,一下暴雨水,水卷泥沙顺势而下,急流滚滚,势不可挡。如此年甚一年。人们清楚地看到,森林遭到严重的人为破坏,是酿成今年大水灾的主要原因。(引自陈忠明著《逻辑与语言表达》p272)
目标函数:文本简要意义。即
由于森林覆盖率下降,森林植被的大量损失,大大削弱了土地对雨水的拦蓄作用。一下暴雨水,大洪水就来了。/*由文本通过推理提供此目标函数。目标函数由分阶子目标函数构成。整篇的意义是由表述或论证等功能的各段落意义构成因果链而形成的。*/
领域空间B:由在知识库搜索到如下知识单元组成:/*领域空间的作用:将使原文意义得以证实并产生变异的表述形式。*/
泛式:時间(時间,是,t1年代<t2(t1+i)年代<t3(t1+i+j)<…∨现在) ∧(与時间对应)比率(x比率,是,x1%>x2%>x3%…>xn%)→(x比率,是,下降趋势)。
(森林覆盖率,下降)=(森林植被,损失)/*两者等价。*/
特征(水,卷…顺势而下,泥沙)∧((水),BE,急流滚滚)∧((水), BE,势不可挡)→“大洪水”。/*匹配等价的目标概念。*/
求解:/*为节省篇幅这里省略将文本转換为自然语言产生式系统规则表示。*/
(1)解放初期,森林覆盖率为19%,算是林木茂密的地区。
=((時间),BE,解放初期)∧(森林覆盖率,为,19%)→(算是)(地区,BE,林木茂密)
(2)但是这些年来,采伐量超过生产量,森林资源遭到严重破坏。
=(但是)((時间),BE,…来,这些年)∧((森林资源)采伐量,超过, (森林资源)生产量)→(森林资源,遭到,严重破坏)
(3)60年代,覆盖率下降到11%,70年代降到6%,现在还不足4%,
=時间(時间),BE,60年代)∧比率(森林覆盖率,下降到,11%);時间 (時间),BE,70年代)∧比率(森林覆盖率),降到,6%);時间(時间), BE,现在)∧比率(森林覆盖率),还不足,4%)
=時间(時间,BE,60年代∨70年代∨现在)∧(与時间对应)比率(森林覆盖率,BE,11%∨6%∨4%)
[计算:按数目大小排列。]
時间(時间,BE,60年代<70年代<现在)∧(与時间对应)比率(森林覆盖率,BE,11%>6%>4%)
/*将上面这段语句子句指针词对知识库相应知识单元搜索比对,得到领域空间:
泛式:時间(時间,BE,t1年代<t2(t1+i)年代<t3(t1+i+j)<…∨现在) ∧(与時间对应)比率(x比率,BE,x1%>x2%>x3%…>xn%)→(x比率,BE,下降趋势)。在替代计算时,常量子句集和泛式函数式两者等价。
需要在知识库建立“趋势”概念的定义模板,由子句集构造而成。上面的泛式就是“趋势模板”的一种。通过与“趋势模板”的比对,证明匹配,因此得到结论:森林覆盖率是下降趋势。
按照同样的程序,得到另一知识单元:森林覆盖率下降=森林植被损失
森林覆盖率下降趋势
=……(中间语句切分过程省略)
=覆盖率(覆盖率,是,下降)∧(森林,有,覆盖率)∧(下降,HAS,趋势)
森林植被损失
=植被(植被,是,损失)
即有(覆盖率,是,下降)=(植被,是,损失)
注:“下降”与“损失”是等价关系。“森林”与“森林植被”正相关。*/
(4)由于森林植被的大量损失,大大削弱了土地对雨水的拦蓄作用,一下暴雨水,水卷泥沙顺势而下,急流滚滚,势不可挡。如此年甚一年。
=……(中间语句切分过程省略)
=(由于)((植被,BE,损失)∧(损失,BE,大量)∧(植被,属,森林))→((植被,削弱,土地)∧(植被,属,森林)∧(削弱,BE,大大…了)∧(土地,对…作用∧(作用,BE,拦蓄),雨水)),(…,一下,暴雨∧(暴雨,BE,水))→(水,卷…顺势而下,泥沙)∧((水),BE,急流滚滚)∧((水),BE,势不可挡)∧(如此,BE,年甚一年)
/*注:因为有“由于”,所以逗号后引入“→”引介后边的句子。
注:“一下暴雨水,……”中的“一”是“一…就…”的省略表达。所以,“一下暴雨水”是原因子句,它的后面是结果主句,所以,二者之间用“→”,表示“一…就…”中的“就…”。*/
(损失,BE,植被)=(植被,BE,损失)
由上面(覆盖率,BE,下降)=(植被,BE,损失),二者可以相互替代,代入上式,有
(由于)((植被,BE,损失)∧(损失,BE,大量)∧(植被,属,森林)) →((植被,削弱,土地)∧(植被,属,森林)∧(削弱,BE,大大…了)∧(土地,对…作用∧(作用,BE,拦蓄),雨水))
=(由于)((覆盖率,BE,下降),(覆盖率,属,森林),(损失,BE,大量)∧(植被,属,森林))→((植被,削弱,土地)∧(植被,属,森林)∧ (削弱,BE,大大…了)∧(土地,对…作用∧(作用,BE,拦蓄),雨水)))
=由于森林覆盖率下降,森林植被的大量损失,大大削弱了土地对雨水的拦蓄作用。/*句式回溯操作,输出语句。这是个子目标函数。*/
(5)一下暴雨水,水卷泥沙顺势而下,急流滚滚,势不可挡。
/*此描述进入知识库与相应知识单元比对,匹配为等价的子目标概念:“大洪水”。*/
一下暴雨水,水卷泥沙顺势而下,急流滚滚,势不可挡
=(…,一下,暴雨∧(暴雨,BE,水))→(水,卷…顺势而下,泥沙)∧ ((水),BE,急流滚滚)∧((水),BE,势不可挡)
由(暴雨,BE,水)进入知识库搜索匹配,再由特征(水,卷…顺势而下,泥沙)∧((水),BE,急流滚滚)∧((水),BE,势不可挡),匹配为等价的目标概念:“大洪水”。
生成新语句输出:一下暴雨水,大洪水就生成了。或:一下暴雨水,大洪水就来了。
即文章简要意义是:
由于森林覆盖率下降,森林植被的大量损失,大大削弱了土地对雨水的拦蓄作用。一下暴雨水,大洪水就来了。
自然语言机器思维的通过语句的网络学习概念的算法
通过语句的网络学习得到一个词的意义
由(x1|[x])=(g1|[g]),
[g]为格式塔结构维度集,g1为维度集中的一个元素;[x]为类概念集。x1 为此概念集中的一个元素。
机器学习:IF“g1”和“x1”在一个语境中等价,即是以部分代表整体。“g1”是“x1”的特性格式塔结构维度之一,即二者匹配,g1也是一个元概念,
二者有相同或相似的格式塔结构维度。如果g1已知,据此可以确定未知词x1 与g1有格式塔结构维度重叠。如果匹配对数量足够多,达到全部重叠,则可确定这个未知词x1的全部格式塔结构维度,从而确定了其词义。词义由它的格式塔结构维度集合确定,因此,
IF“(g1,g2,…,gj|[g])”和“x1”在j个语境中等价,即是所有部分代表整体。“gj”是“x1”的特性格式塔结构维度之一,即二者匹配,gj也是一个元概念,
THEN x1由(g1,g2,…,gj|[g])定义。
注释:概念的格式塔结构维度是其特性及隐喻功能的集合,基本特性是元概念,包括时间与空间限定、方位关系、作用方式等物理特性,和大小、强弱、硬软、刚柔、聚集、分离、几何关系诸程度等量度,以及因果联结、趋向性、持续与间断等相互关系模式。通常可以从空间限定、时间限定(次序)、作用机制、量度、趋势等等诸元概念分析列出。[1]它本身可构成由抽象到具体概念的不同层次的树形结构,其不同组合构成了不同概念的内在结构。
自然语言机器思维的通过语句网络学习一个词义的算法:
·自然语句转換为似谓词演算形式子句集
·在子句中选择目标概念:未知的概念x1
IF未知的概念x1|[x]和已知的概念g1|[g]在当下语境中等价
THEN g1是x1的格式塔结构维度之一
以部分g1代表整体x1
else IF已知的概念(g1,g2,…,gj|[g])和未知的概念x1在j个语境中等价
THEN(g1,g2,…,gj)是x1的相当多的格式塔结构维度
以相当多的部分代表整体x1
IF已知的全部概念(g1,g2,…,gn|[g])和未知的概念x1在n个语境中等价
THEN(g1,g2,…,gn)是x1的所有的格式塔结构维度
以所有的部分代表整体x1
·完成概念x1的词义由(g1,g2,…,gn)的确定且在知识库中建立“冰”的释义
·结果输出并储存知识库
实例一ablock ofice=cold
ablock ofice
=ice﹙ice,BE,the shape block﹚
由ablock ofice=cold
“ice”和“cold”在此语境中等价,是以部分代表整体。“cold”是“ice”的特性格式塔结构维度之一,即二者匹配,冰蕴涵冷(cold还是一个元概念)
g1=cold
二者有相同或相似的格式塔结构维度。如果一个词已知,据此可以确定那个未知词与已知词有格式塔结构维度重叠。如果匹配对数量足够多,达到全部重叠,则可确定这个未知词的全部格式塔结构维度(g1,g2,…,gn|[g]),从而确定了其词义。即
x1由格式塔结构维度集(g1,g2,…,gn|[g])定义。
再由ablock ofice=ice或者由ice is ablock of,有
ice=ablock of
得到ice的笫二个表征格式塔结构维度之一,
g2=ablock of
g3=易固易化
再如下例:
由“冰释前嫌”,有等价关系:
冰ice=﹙释,前嫌﹚
冰ice=释
冰ice=前嫌
抽象表达即
冰ice=改变前相反状态/*“释”的格式塔结构维度之一是“改变”。也是其抽象意义*/
在知识库中建立“冰”的释义:﹙冰ice,是,冷的∧块状的∧易固易化的∧可改变前相反状态﹚
如此通过一个词ice在最简思维模式中与不同的已知词的匹配,得到这个词ice的词义表示。这是自然语言机器思维的机器学习的功能之一。这涉及词义的构成方法。
学习行为概念﹙词﹚并抽象化的算法
·将词典中行为概念﹙词﹚释文的自然语句转換为似谓词演算形式子句集
·选择一个行为概念﹙词﹚作为目标概念
·重新定义该行为概念﹙词﹚并参考现在的词典条目解释
·抽象层面泛化而重新定义该行为概念﹙词﹚
·抽象的算法
·行为的格式塔结构维度集﹙基本特性或特征集合﹚作为领域空间
·检验行为概念﹙词﹚表述与领域空间的一致性
·用自然语言似谓词演算形式表达该行为概念﹙词﹚的抽象定义
·自然语言似谓词演算形式表达转換为产生式系统规则表示
·对行为概念﹙词﹚的释义语句似谓词演算形式子句中的关键词和领域空间中相应的抽象概念进行匹配,检验二者的一致性。
·结果输出并储存知识库
求解:
⑴行为的格式塔结构维度集﹙基本特性或特征集合﹚作为领域空间
在抽象层面,“抓grasp”的定义是:
一物X通过某种途径r(几种途径,直接与间接,实在与虚无等类别)、某种中介j(几种中介,类爪工具是一类)、某种方式s(几种方式,类爪抓取是一类)控制住另一事、物Y。
领域空间B:
抓grasp←控制住另一事、物Y
直接、实在、类爪、类爪抓取类←某种方式s(几种方式,类爪抓取是一类):
手指聚拢,使物体固定在手中、感情支配、深刻的了解←通过某种途径r(几种途径,直接与间接,实在与虚无等类别);
例举如下:
直接的物理的抓取类:
Take a firm grasp ofthe handle andpull.抓住把手用力拉。
间接、虚无、精神、心智抓取类:
in the grasp ofpowerful emotions he could not control在他难以控制的强烈感情支配下;
She has a good grasp ofthesubject.她对该学科有深刻的了解。
图像的“抓grasp”是实在的行为动作
⑵用自然语言似谓词演算形式表达“抓grasp”的抽象定义是:
一物X通过某种途径r(几种途径,直接与间接,实在与虚无等类别)、某种中介j(几种中介,类爪工具是一类)、某种方式s(几种方式,类爪抓取是一类)控制住另一事、物Y
=(一物[X]通过某种途径[r]∨某种中介[j]∨某种方式[s],控制住,另一事∨物[Y])
=(一物[X](一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s]),控制(控制,BE,住),另一事∨物[Y])
=(一物[X],控制,另一事∨物[Y])∧(一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s])∧(控制,BE,住)
控制住=(控制,BE,住)
⑶用IF\THEN的自然语言产生式系统规则表示:
IF IF(抓grasp表现1,抓grasp表现2,抓grasp表现3,……),THEN抓grasp
THEN(一物[X],控制,另一事∨物[Y])∧(一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s])∧(控制,BE,住)
IF(一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s])∧(控制,BE,住)THEN(一物[X],控制,另一事∨物[Y])
IF(一物[X],控制,另一事∨物[Y])THEN(一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s])∧(控制,BE,住)
IF(一物[X],控制,另一事∨物[Y])THEN(控制,另一事∨物[Y])
IF(一物[X])THEN(控制,另一事∨物[Y])
IF(一物[X])THEN(控制)/*把“控制”看成“一个控制概念集”,是个函数变量。*/
IF(一物[X])THEN(另一事∨物[Y])
IF(控制)THEN(另一事∨物[Y])
IF(一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s])THEN (控制)
IF(控制)THEN(一物[X],通过,某种途径[r]∨某种中介[j]∨某种方式[s])
IF(一物[X])THEN(通过,某种途径[r]∨某种中介[j]∨某种方式[s])
IF(控制)THEN(一物[X])
IF(控制)THEN(通过,某种途径[r]∨某种中介[j]∨某种方式[s])
IF(通过)THEN(某种途径[r]∨某种中介[j]∨某种方式[s])
还可以有更详细的产生式系统规则表示。为节约篇幅从略。
⑷检验行为概念﹙词﹚表述与领域空间的一致性
对行为概念﹙词﹚的释义语句似谓词演算形式子句中的关键词和领域空间中相应的抽象概念进行匹配,检验二者的一致性。
抓住把手用力拉
=﹙抓住∧用力拉,把手﹚
=﹙抓(抓,BE,住)∧拉(拉,BE,用力),把手﹚
=﹙抓∧拉,把手﹚∧(抓,BE,住)∧(拉,BE,用力)
=抓﹙抓,把手﹚∧(抓,BE,住)∧拉﹙拉,把手﹚∧(拉,BE,用力)
抓﹙抓,把手﹚∈某种途径[r]/*此“抓﹙抓,把手﹚”是某种方式集合s(几种方式,类爪抓取是一类)中的元素,抓︱[s]。*/
在他难以控制的强烈感情支配下
=﹙…,在,他难以控制的强烈感情支配下﹚
=﹙…,在,﹙强烈感情﹙他,HAS,强烈感情﹙强烈感情,BE,难以控制﹚﹚,支配,下﹚﹚
=﹙…,在,﹙强烈感情,支配,下﹚﹚∧﹙他,HAS,强烈感情﹚∧﹙强烈感情,BE,难以控制﹚
﹙…,在,﹙强烈感情,支配,下﹚﹚=支配﹙强烈感情,被支配﹚
支配﹙强烈感情,被支配﹚∈某种途径[r]
她对该学科有深刻的了解
=﹙她,对该学科有,深刻的了解﹚
=﹙她,有﹙有,对,该学科﹚,了解﹙了解,BE,深刻的﹚﹚
=﹙她,有,了解﹚∧﹙有,对,该学科﹚∧﹙了解,BE,深刻的﹚
﹙了解,BE,深刻的﹚∈某种途径[r]
结论:行为概念﹙词﹚表述与领域空间的一致性得到检验。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (24)
1.自然语言机器思维的学习方法,其特征在于,包括以下步骤:
输入自然语言表述语句并转换为似谓词演算形式子句集;
从似谓词演算形式子句集依据层次挑出表述抽象特性特征的主子句作为训练实例子句集;
输入或自生成学习结果子句集;
根据训练实例子句集中的指针词搜索知识库,建立适于目标概念的背景知识;
在自然语言产生式系统中或直接利用学习算法对训练实例进行学习,得到学习结果;
将学习结果以似谓词演算形式子句集的形式存储至知识库;
将学习结果生成新的自然语句输出。
2.根据权利要求1所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括泛化算法:训练实例子句集中用变量替换常量;从自然语言表述语句转換为似谓词演算形式子句集中去掉一些限定子句;表达式增加一个析取式;用更高抽象层次属性概念替换对应属性。
3.根据权利要求2所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括学习和解决问题相结合的算法:感测到的信息以似谓词演算形式主子句集形式输入;在景观中识别一个物体,形成的每一个视觉模式,对应输出一个对应的自然语言表述语句;与景观库进行特征比对,匹配成功则输出对应的景观库储存的描述最简子句;将最简子句进行聚群形成整个景观描述;对场所进行划分度量;对目标空间及时间未知进行确定;对不可移动的障碍物位置进行确定;建立同一时空中各事物的关联关系。
4.根据权利要求3所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括概念学习算法:把关于事物的概念表述自然语言语句变换为似谓词演算形式,并表示为包含变量的合取语句;对概念进行泛化;由指针词牵引建立相关的概念网络;进行启发式搜索;将泛化的概念进行联结。
5.根据权利要求4所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括学习识别事物类别的算法:首先,将自然语言表述语句转換为似谓词演算形式子句集;从似谓词演算形式子句集依据层次挑出表述抽象特性特征的主子句;进入建立目标概念的训练实例子句集;进入目标概念的实例训练;通过用变量替换常量来泛化候选慨念,并完成模式识别;输出学习结果。
6.根据权利要求5所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括(x,DO,y)语句学习样例获得泛化句式算法:以28种句型作为学习样例;逆语句切分层次;从最后的切分子句集合中挑出主题子句且组成主子句集;主子句集在新的未处理的语句搜索中作为对照子句;通过学习样例句式获得泛化句式;生成泛化句式输出。
7.根据权利要求6所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括推理学习算法:作为描述的自然语句转換为似谓词演算形式子句集;将自然语句推理样例泛化;进入学习样例语句获得泛化句式算法程序;从样例语句获得泛化句式的主子句集;进入自然语言产生式系统推理程序或进入自然语言似谓词演算形式推理程序进行推理;得到推理结果并生成自然语句输出。
8.根据权利要求7所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括类比推理式学习算法:用格式塔结构维度集定义所有的概念;建立似谓词演算形式为基础的概念库;以指针词牵引搜索建立目标概念和源概念之间类比映射的初始元素;自然语言似谓词演算形式转换为自然语言产生式系统规则表示;把源属性映射到目标领域中;在切分后的最简思维模式子句中用相似的词替代相对位置上的词;泛化学习得到的自然语言似谓词演算形式子句集。
9.根据权利要求8所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括对正与反结论的表述语句的学习算法:建立目标概念;摘取属性或主子句;选择分析表示模式,将摘取的属性置入或主子句罗列;分析处理属性或主子句影响因子在因果关系中的具体作用;将每个语句中的同一属性归类,在表示模式罗列出每个属性可取值;将每个正反例表示归类,罗列每个正例中的所摘取属性作为最一般的假设,罗列每个反例中的所摘取属性作为最特殊的假设;学习结果输出。
10.根据权利要求9所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括从语句表述中获取知识的算法:将正例子句集按维度值减反例子句集,得到的反例子句剩余项就是构成反例的关键词;合併正例子句中的同一维度的不同值,以析取符号∨分开这些值,获得正例子句的合併语句;筛选正例子句中的同一维度值,以合取符号∧分开这些值,获得正例子句的最少维度约束句;合併反例子句中的同一维度的不同值,以析取符号∨分开这些值,获得反例子句的合併语句;将新的子句集生成新表述语句输出,或将新的子句集储存作为学习结果;结束并生成输出结果。
11.根据权利要求10所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括归纳学习算法:作为描述的自然语句转換为似谓词演算形式子句集;由自然语句似谓词演算形式子句集抽取的主题子句构成表述主子句集;假定给定的实例足以建立一个有效的泛化;用测试特定属性值的方法决定对象的分类,区分必要属性和无关属性,利用自然语言似谓词演算形式的FIND~S算法,在自然语言产生式系统,做出对所有给定实例组别正确分类的最小决策归纳,进入统计计算程序。
12.根据权利要求11所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括自然语言似谓词演算形式的FIND~S算法:输入自然语言似谓词演算形式的子句集,利用已输入的子句集形成目标概念和利用已输入的子句集搜索领域空间,进入自然语言产生式系统;将没有赋值的子句集h初始化为假设空间H中最特殊假设;对每个正例x都对h的每个属性约束在最简思维模式的子句aj;当x不满足aj,将h中aj替换为x满足的另一个更一般的约束;输出假设。
13.根据权利要求12所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括候选消除学习算法:计算出的变型空间,包含假设集合中所有与训练样例的观察序列一致的假设;将变型空间初始化为假设集合,即将极大一般成员G边界集合初始化为假设集合中最一般的假设:G0←﹛(?,?,?,?,?,?)﹜,并将极大特殊成员S边界集合初始化为最特殊的假设:S0←﹛(Φ,Φ,Φ,Φ,Φ,Φ)﹜,这两个边界集合包含了整个假设空间;在处理每个训练样例时,分别对极大特殊成员S和极大一般成员G边界集合进行泛化和特殊化,从变型空间中逐步消去与样例不一致的假设。
14.根据权利要求13所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括决策树分类算法:由自然语句似谓词演算形式子句集中抽取不同属性的关键词匹进行配对,构成分类的分支值正例和反例的关系,在自然语言产生式环境下生成属性值约束的合取的析取式。
15.根据权利要求14所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括最佳分类属性选择算法:将表述任务的自然语句转换为似谓词演算形式子句集;在自然语言产生式系统对涉及计算的子句牵引进入计算程序建立对应关系,用相应的子句控制计算过程;预测目标属性值,创建存在关系的最顶端结点,计算每一个候选属性的信息增益,选择信息增益最高者,进行目标概念的训练样例分析过程而得到定性的结论;由反例每组比对,不相同的属性值确定为无影响的属性值,不变的属性值确定为有影响的属性值,生成自然语句作为输出。
16.根据权利要求15所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括训练样例和领域理论一致的假设求解算法,釆用自然语言机器思维的多次序列覆盖实现:在所有可用由自然语言似谓词演算形式子句集表示的训练样例上执行学习一个规则指令,再移去由其学到的规则覆盖的正例,然后在剩余的训练样例上执行学习第二个规则指令;重复若干次,直到最后学习到全部析取规则集。
17.根据权利要求16所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括自然语言机器思维表述学习和分类文本的朴素贝叶思算法LEARN·NAlVE_BAYES_TEXT(Examples,V),用于学习概率项P(wk︱wj)以描述从类别wj中的一个文本中随机抽取的一个单词wk的概率,或用于学习类别的先验概率p(wf);其中Examples为一组自然语言似谓词演算形式子句集文本及推理目标子句值,V为所有可能目标子句值的集合。
18.根据权利要求17所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括梯度下降算法GHADlENT-DESCENT(training_examples,η),其中training_examples是训练样例集合,且每一个训练样例形式为序偶(x∧,t),其中x∧是输入值向量,t是目标输出值,η是学习速率;初始化每个线性单元的权wi为随机小值,初始化每个权微小变量△wi为0;把每个训练实例的输入值向量x∧输入后计算得到值o;对线性单元的每个权wi依次进行△wi←△wi+η(t-o)xi、wi←wi+△wi运算,或对线性单元的每个权wi进行wi←wi+η(t-o)xi运算;然后将运算结果生成似谓词演算形式主子句集输出。
19.根据权利要求18所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括深化学习算法:以事物的抽象构成因子作为学习基础,所述抽象构成因子的格式塔结构维度表示为:[x|实体或虚体]+有阈值的3D尺度或虚拟量度+表面状态[y|质地]+构成形式;具体算法步骤为:首先检测事物的3D维度和限定界面或界线,得到实体或虚体的存在结论;然后检测实体或虚体的尺度,识别相似形式累积,得到实体或虚体具有的高度差和相似形式累积的存在结论;最后检测实体或虚体的高度变化的存在结论,检测完成后得到抽象程度高的概念,输出似谓词演算形式主子句集。
20.根据权利要求19所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括分析-归纳学习算法:以主子句集作为自动搜索目标概念的空间,或者目标概念来自样例所附问题;创建一个等价于领域空间的初始网络,对每个案例属性创建一个网络输入,对领域空间的每个自然语句似谓词演算形式子句,创建网络单元;在网络单元之间增加附加的连接,连接深度为i的每个网络单元到深度为i+1的所有网络单元的输入层上,赋予这些附加的连接为接近0的随机权值;然后精化初始网络;应用自然语言机器思维的反向传播算法来调整初始网络权值以拟合训练样例。
21.根据权利要求20所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括整篇文章解读算法:自然语句转換为似谓词演算形式子句集;知识库建立不同的但是意义相同的概念和因果关系句子最简似谓词形式联结;建立数学计算与自然语言似谓词演算形式子句的连接;自然语言似谓词演算形式转换为自然语言产生式系统规则表示,进行推理及归纳,搜索知识库相关知识单元形成领域空间,形成由分阶子目标函数构成的目标函数,将文本简要意义表述;将推理及归纳所得或匹配等价的目标概念构成主子句集存储知识库;对推理及归纳所得或匹配等价的目标概念构成主子句集回溯生成新句输出;将学习结果储存知识库。
22.根据权利要求21所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括通过语句网络学习一个词义的算法:似谓词演算形式子句集中选择目标概念:未知的概念x1;若未知的概念x1|[x]和已知的概念g1|[g]在当下语境中等价,则g1是x1的格式塔结构维度之一,以部分g1代表整体x1;若已知的概念(g1,g2,…,gj|[g])和未知的概念x1在j个语境中等价,则(g1,g2,…,gj)是x1的部分的格式塔结构维度,以部分代表整体x1;若已知的全部概念(g1,g2,…,gn|[g])和未知的概念x1在n个语境中等价,则(g1,g2,…,gn)是x1的所有的格式塔结构维度,以所有的部分代表整体x1;完成概念x1的词义由(g1,g2,…,gn)确定且在词库中建立对应的释义;结果输出并储存词库。
23.根据权利要求1至22任一所述自然语言机器思维的学习方法,其特征在于,所述的学习算法包括学习行为概念并抽象化算法:首先将行为概念的自然语句转換为似谓词演算形式子句集,选择一个行为概念作为目标概念;根据现有的词典条目解释重新定义该行为概念,抽象层面泛化而重新定义该行为概念;用自然语言似谓词演算形式表达该行为概念的抽象定义,最后将结果输出并储存知识库。
24.应用权利要求23所述自然语言机器思维学习方法的学习系统,其特征在于,包括:
输入单元,用于输入自然语言表述语句并将自然语言转换为似谓词演算形式子句集;输入学习结果子句集;
训练单元,用于从似谓词演算形式子句集依据层次挑出表述抽象特性特征的主子句作为训练实例子句集;自生成学习结果子句集;根据训练实例子句集中的指针词搜索知识库,建立适于目标概念的背景知识;在自然语言产生式系统中利用学习算法对训练实例进行学习,得到学习结果;
输出单元,用于将学习结果以似谓词演算形式子句集的形式存储至知识库;将学习结果生成新的自然语句输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811003152.1A CN109241531A (zh) | 2018-08-30 | 2018-08-30 | 自然语言机器思维的学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811003152.1A CN109241531A (zh) | 2018-08-30 | 2018-08-30 | 自然语言机器思维的学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241531A true CN109241531A (zh) | 2019-01-18 |
Family
ID=65068098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811003152.1A Pending CN109241531A (zh) | 2018-08-30 | 2018-08-30 | 自然语言机器思维的学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241531A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800344A (zh) * | 2019-01-28 | 2019-05-24 | 王立山 | 一种自然语言机器思维的自动编程方法及其系统 |
CN113094399A (zh) * | 2021-04-22 | 2021-07-09 | 西安交通大学 | 网络流量多序列匹配方法、系统、设备及可读存储介质 |
CN113139657A (zh) * | 2021-04-08 | 2021-07-20 | 北京泰豪智能工程有限公司 | 一种机器思维实现方法及装置 |
CN113761145A (zh) * | 2020-12-11 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 语言模型训练方法、语言处理方法和电子设备 |
CN117271767A (zh) * | 2023-09-15 | 2023-12-22 | 上海海启科技有限公司 | 基于多智能体的运维知识库的建立方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055537A (zh) * | 2016-05-23 | 2016-10-26 | 王立山 | 一种自然语言机器识别方法及系统 |
CN108255814A (zh) * | 2018-01-25 | 2018-07-06 | 王立山 | 一种智能体的自然语言产生式系统及方法 |
-
2018
- 2018-08-30 CN CN201811003152.1A patent/CN109241531A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055537A (zh) * | 2016-05-23 | 2016-10-26 | 王立山 | 一种自然语言机器识别方法及系统 |
CN108255814A (zh) * | 2018-01-25 | 2018-07-06 | 王立山 | 一种智能体的自然语言产生式系统及方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800344A (zh) * | 2019-01-28 | 2019-05-24 | 王立山 | 一种自然语言机器思维的自动编程方法及其系统 |
CN113761145A (zh) * | 2020-12-11 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 语言模型训练方法、语言处理方法和电子设备 |
CN113139657A (zh) * | 2021-04-08 | 2021-07-20 | 北京泰豪智能工程有限公司 | 一种机器思维实现方法及装置 |
CN113139657B (zh) * | 2021-04-08 | 2024-03-29 | 北京泰豪智能工程有限公司 | 一种机器思维实现方法及装置 |
CN113094399A (zh) * | 2021-04-22 | 2021-07-09 | 西安交通大学 | 网络流量多序列匹配方法、系统、设备及可读存储介质 |
CN113094399B (zh) * | 2021-04-22 | 2022-12-30 | 西安交通大学 | 网络流量多序列匹配方法、系统、设备及可读存储介质 |
CN117271767A (zh) * | 2023-09-15 | 2023-12-22 | 上海海启科技有限公司 | 基于多智能体的运维知识库的建立方法 |
CN117271767B (zh) * | 2023-09-15 | 2024-02-13 | 上海海启科技有限公司 | 基于多智能体的运维知识库的建立方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241531A (zh) | 自然语言机器思维的学习方法及系统 | |
CN109992783B (zh) | 中文词向量建模方法 | |
Yüksel et al. | Review of artificial intelligence applications in engineering design perspective | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
Townsend et al. | Extracting relational explanations from deep neural networks: A survey from a neural-symbolic perspective | |
CN110502749A (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN107992597A (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN110096711B (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN112364638B (zh) | 一种基于社交文本的人格识别方法 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN109992779A (zh) | 一种基于cnn的情感分析方法、装置、设备及存储介质 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN110826639B (zh) | 一种利用全量数据训练零样本图像分类方法 | |
CN113343690B (zh) | 一种文本可读性自动评估方法及装置 | |
CN113947161A (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN113553440A (zh) | 一种基于层次推理的医学实体关系抽取方法 | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN113743083B (zh) | 一种基于深度语义表征的试题难度预测方法及系统 | |
Suddle et al. | Metaheuristics based long short term memory optimization for sentiment analysis | |
Khaleel et al. | Hierarchical visual concept interpretation for medical image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |