CN103500208A

CN103500208A - 结合知识库的深层数据处理方法和系统

Info

Publication number: CN103500208A
Application number: CN201310459692.1A
Authority: CN
Inventors: 郝红卫; 孙正雅; 梁倩; 王桂香
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2014-01-08
Anticipated expiration: 2033-09-30
Also published as: CN103500208B

Abstract

本发明公开了一种结合知识库的深层数据处理方法，该方法包括以下步骤：对于本体库中的概念元组集合进行归并；得到不同类型谓词的链接路径和相应的逻辑规则集合；对逻辑规则集合初步筛选获得候选规则集合；得到深层概率图模型；基于待处理数据得到结构化元组并映射到层次化概念空间；生成目标元组并进行语义泛化；得到逻辑规则集合和证据元组集合；对马尔可夫逻辑网络进行实例化，计算目标元组成立的条件概率，得到数据处理结果。本发明还提供了一种深层数据处理系统，该系统包括结构化模块、概念化模块、目标生成模块、泛化模块、激活模块和概率计算模块。利用本发明，可以充分融合上下文语境以及背景知识，从而真正达到语义理解的目的。

Description

结合知识库的深层数据处理方法和系统

技术领域

本发明涉及自然语言处理和人工智能领域，更具体而言，涉及一种面向文本理解的结合知识库的深层数据处理方法。

背景技术

随着网络信息化的日渐普及，数据正在以前所未有的广度和深度迅猛膨胀，增强从非结构化文本中分析萃取知识的能力变得愈发重要。来自真实世界的文本除了规模庞大，更为重要的挑战就是表示和推理知识的复杂性和不确定性。前者体现在知识的高度异质性，不仅包含关于各个对象的事实和概念，还包含一般的推理规则和本体关系；后者源于知识本身的客观现实和对知识的主观认识水平，而且大量的知识可能是根据似然、统计或者联想而得到的猜测，因此预测是固有不确定的。在传统人工智能框架下，复杂性和不确定性分属于两个独立的研究分支，常用的计算模型分别是基于逻辑规则的分析模型和基于统计随机的概率模型。

分析模型试图把数据之间的依存关系用规则的形式表达出来，然后通过构造推理机制自动地进行数据解码和理解，通常规则的构造需要大量的人工操作，在提高规则完备性的同时，不可避免地要面临规则之间的相互冲突和不一致性，因此该模型只能在极其受限的子问题中获得有限的成功，代表系统包括20世纪70～80年代开发的LUNAR系统、SHRDLU系统、MARGIE系统、SAM系统和PAM系统等，并且大量地用于自然语言分析；概率模型则试图从大量有标签数据资源中自动学习包括依存结构和数值参量在内的各种知识，并且保证在统计意义上具有可解释性，非常适合于求解大规模真实数据，但同时需要足够多有标签样本，否则将面临严重的“数据稀疏”问题，而且从可计算性角度，该模型不能考虑复杂的依存关系，代表系统包括由IBM于1994年开发的统计翻译系统，在完成从法语到英语的翻译任务中取得了实质性进展。

从模型的可表达力和可计算性角度来看，无论是理性的分析模型还是经验的概率模型都不足以解决复杂性和不确定性并存的挑战。作为人工智能领域的新兴研究方向，马尔可夫逻辑结合了两者的优势，旨在建立融合逻辑规则与统计随机的混合模型，被视为数据深度分析的最重要技术手段之一，同时也为文本理解提供了普遍有效的表示和推理框架，代表系统由华盛顿大学于2010年开发的OntoUSP机器阅读系统，与当时最先进系统相比取得了非常明显的性能提升。然而为了使机器的语义认知能力接近人类智能，系统不仅需要获取关于外在世界的广泛知识，还需要运用操作这些知识的能力，包括上下文（语境）的结合能力和背景知识的利用能力。目前在马尔可夫逻辑框架下开发的自然语言系统还不能较好地解决这些需求，首先多层次是大规模知识表示的基本组织结构，但是在生成候选规则的过程中通常只考虑两谓词之间具有共同概念变量的情形，于是忽视了概念之间固有的层次关系以及所描述范围可能存在的重叠和交叉现象，因此在给定规则长度的约束下很容易损失掉大量重要的语义信息进而影响所产生的逻辑规则的质量；其次不确定规则作为知识表示的重要组成部分，其自动获取的规模直接受限于参数学习算法（也就是为逻辑规则赋值合适的权重）的复杂度，尽管原则上两层足以表达任何函数，但是在表达大多数函数时效率却是非常低的，而且已有方法在优化过程中通常需要计算所有候选子句的实例化及其取值情况，将消耗很大的时间和空间开销，因此并不适宜大规模知识的自动处理；再次泛化和激活是知识运用能力的具体体现，然而关于复杂关系的概率推理还没有在实体或者关系层面充分考虑有效的知识泛化，于是难以应对知识不完备比如证据覆盖不全的问题，另外目前的激活策略更多的是依据实例元组及其所在逻辑规则的取值情况，尚未考虑目标元组与实例元组或者逻辑规则的相关度，于是容易产生大量弱关联甚至无关的规则或者元组，从而为不确定推理带来庞大的计算开销，影响语义分析的效率。因此，现有语义分析系统在很多方面仍然存在不足。

发明内容

鉴于以上提出的问题，本发明提出一种面向文本理解的结合知识库的深层数据处理方法和系统，亦称为计算大脑系统，旨在克服现有技术中存在的问题。

具体地，根据本发明的一个方面，提供了一种结合知识库的深层数据处理方法，该方法包括以下步骤：

步骤S1，基于本体库中概念的层次组织结构，对于所述本体库中的概念元组集合进行归并处理，这些元组的谓词包括概念的属性或者概念之间的关系；

步骤S2，基于归并处理后得到的概念元组集合，得到不同类型谓词的链接路径，以及相应的逻辑规则集合；

步骤S3，对所述逻辑规则集合进行初步筛选，获得候选规则集合；

步骤S4，基于深层和积网络（Sum-Product Network,SPN）得到用来计算所述候选规则集合不确定性的深层概率图模型，继而得到赋值权重的逻辑规则集合，即马尔可夫逻辑网络，并存储于规则库中；

步骤S5，利用汉语分词技术将待处理数据转化为词语的有序元组，并且每个词语都具有相应的词性标注，再结合基本的句式结构提取得到结构化元组；

步骤S6，将所述步骤S5得到的所有结构化元组中的实例分别映射到层次化概念空间中，依据实例所属概念，以及谓词对应的概念搭配，对结构化元组中的实例和谓词分别进行语义标识；

步骤S7，基于所述步骤S6得到的语义标识结果，生成待推理的有标识结构化元组，即目标元组；

步骤S8，对所述步骤S7得到的目标元组进行语义泛化，并将泛化后产生的结构化元组与原目标元组一起形成目标元组集合；

步骤S9，基于所述步骤S8得到的目标元组集合，对规则库中的逻辑规则进行有效的激活，对事实库中的结构化元组以及上下文知识进行有效的激活，所述上下文知识为所述步骤S5中得到的结构化元组中的非目标元组集合，得到逻辑规则集合和支撑后续推理的证据元组集合；

步骤S10，基于所述步骤S9中激活得到的证据元组集合，对所述步骤S9得到的逻辑规则集合进行实例化，同时计算所述目标元组成立的条件概率，得到待处理数据的最终处理结果。

根据本发明的另一个方面，提供了一种结合知识库的深层数据处理系统，该系统包括结构化模块、概念化模块、目标生成模块、泛化模块、激活模块和概率计算模块，其中：

所述结构化模块用来生成非结构化文本的结构化表示；

所述概念化模块与所述结构化模块连接，用于将所述结构化模块得到的结构化元组分别映射到本体库中对应的概念元组上；

所述目标生成模块与所述概念化模块连接，用于基于所述结构化和概念元组，根据待求解的应用问题，产生待推理的目标元组；

所述泛化模块与所述目标生成模块连接，用于从谓词、实例和概念三个层面实现对所述目标元组的语义泛化，用来解决知识库不完备的情况；

所述激活模块用于生成支持高效率推理的证据元组和逻辑规则；

所述概率计算模块用于根据所述激活模块生成的逻辑规则和证据集合，对于相应的局部马尔可夫逻辑网络进行实例化，实现对目标元组及其泛化结果的条件概率计算，并将最终的数据处理结果进行输出。

利用本发明的方法和系统，在知识获取方面，可以在层次化概念空间中自动归纳生成结构化特征，也就是逻辑规则，克服单纯依赖领域专家和人工干预来设计特征的局限性，适应数据类型多样化、关系复杂化的特点，并且在迭代过程中充分利用深层概率图模型所具有的紧凑的函数表达形式以及在计算上的优势，实现高效率的参数更新；在知识运用方面，融合上下文（语境）和背景知识进行语义推理的同时，有效结合了知识泛化和激活策略，使得系统具备举一反三的聚合思维的能力，从而更加接近人类的认知水平，真正地在语义层次上实现非结构化文本的自动理解。

附图说明

图1为根据本发明一个方面的结合知识库的深层数据处理方法流程图；

图2为本发明一个优选实施例的用于确定逻辑规则权重的深层概率图模型示意图；

图3为本发明一个优选实施例对不具有属性的实体概念识别的例子；

图4为本发明一个实施例对待推理元组进行泛化的示意图；

图5为本发明一个方面的结合知识库的深层数据处理系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

首先需要说明的是：计算大脑的知识库由本体库、事实库和规则库构成，其中本体库中存放的是概念之间的结构化元组及其权重，事实库中存放的是实例之间的结构化元组，规则库中存放的是逻辑规则及其权重，并且其中所有的谓词、实例和概念均经过唯一性的语义标识。

图1为根据本发明一个方面的结合知识库的深层数据处理方法流程图，接下来以语义分析为例对于本发明方法进行说明，如图1所示，所述方法包括以下步骤：

所述步骤S1进一步包括以下步骤：

步骤S11，根据所涉及谓词的不同将所述概念元组集合划分为若干子集Τ；

步骤S12，为每个子集Τ设置候选集Γ来记录归并处理过程中产生的中间结果，最终得到归并后的概念元组集合，所述归并为给定任意两个具有相同谓词的元组γ_i和γ_j，逐步扫描每个元组的语法成分，如果这些语法成分所对应的两个概念都具有上下位关系，则将下位概念分别替换为相应的上位概念，值得注意的是上位概念的属性和关系对于所有子概念依然适用，于是可以得到更具概括意义的元组表示，比如元组“推广(文化/媒体/互联网/网站,物品/产品)”和“推广(文化/媒体,物品/产品/电器)”可以归并为“推广(文化/媒体,物品/产品)”，其中斜杠“/”左侧的实体是右侧实体的上位概念。

所述步骤S12进一步包括以下步骤：

步骤S121，初始化：令迭代步数τ=0，候选集

子集Τ={γ}；

步骤S122，随机选取γ₀∈Τ构成候选集Γ={γ₀}，同时令Τ=Τ-{γ₀}；

步骤S123，对于迭代步数τ，选取元素γ_τ∈Τ，将γ_τ与Γ中的所有元素进行匹配；

步骤S124，如果γ₀∈Γ与γ_τ满足归并条件并且得到归并元组γ’，则利用归并元组γ’替换γ₀，同时令Τ=Τ-{γ_τ}；

步骤S125，重复所述步骤S123-S124直到

则此时得到的候选集Γ即为最后的归并结果；

步骤S126，重复所述步骤S121-S125，直至遍历所有子集Τ，最终得到归并后的概念元组集合

。这样就可以在不损失语义的条件下大规模压缩概念元组的规模，在一定程度上缓解指数量级搜索空间所带来的庞大计算成本。

步骤S2，基于归并处理后得到的概念元组集合

，得到异质（不同类型）谓词的链接路径，以及相应的逻辑规则集合；

所述步骤S2进一步包括以下步骤：

步骤S21，对于归并处理后得到的概念元组集合，令候选集

从Γ中选取概念元组γ添加到空路径中，同时令Γ=Γ-{γ}；

步骤S22，从所述概念元组集合

中搜索与当前路径中已有概念元组具有链接概念对的元组，链接概念对中的两概念既可以相同也可以具有上下位关系，并且将搜索到的概念元组递归地添加到当前路径中，直至链接路径达到预定义最大长度或者再无新的概念元组添加；

步骤S23，利用逻辑运算符，比如“与”（^）、“或”（∨）、“非”（!）、“条件”（=>）等，将得到的链接路径中的各个概念元组关联起来，得到多种逻辑规则，所述逻辑规则比如可以为如下形式：

登录(人物/用户,文化/媒体/互联网/网站)^推广(文化/媒体,物品/产品)

=>购买(人物/用户,物品/产品)，

其中，符号“=>”左侧的部分称为前提，右侧的部分称为结论。

步骤S24，重复所述步骤S21-S23，直到

得到多条链接路径以及相应的多种逻辑规则，组成逻辑规则集合。

所述步骤S3进一步包括以下步骤：

步骤S31，将所述逻辑规则集合中的每条逻辑规则进行实例化，也就是将逻辑规则中的概念分别替换为相应的实例，使得逻辑规则中的每个实例结构化元组与相应的概念结构化元组具有一一映射关系，链接概念对所对应的两个实例既可以相同，也可以具有包含关系；

比如某一逻辑规则的一种实例化结果可表示为：

登录(张三,天猫)^推广(淘宝网,净化器)=>购买(张三,净化器).

其中，实例“淘宝网”和“天猫”之间具有自顶向下的包含关系，从而使得概念的层次化组织结构有效地融合到逻辑规则的自动挖掘过程中。

步骤S32，基于事实库中的结构化元组集合，统计实例化逻辑规则前提成立（取值为真）的次数及其前提和结论同时成立的次数，然后基于两者的比值得到所述逻辑规则成立的置信度，并且将置信度超过某个给定阈值的逻辑规则筛选出来，得到候选规则集合。

需要说明的是，上述举例仅为了更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何基于所述逻辑规则生成策略得到的表达形式（而不限于霍恩子句），根据所述置信度计算结果，来确定所述候选规则集合的自动筛选方式，均应包含在本发明的范围内。

通常地，基于归一化的因子乘积公式，概率图模型可以紧凑地表示候选规则集合的联合分布，然而计算归一化函数往往需要对指数量级的乘积项进行求和，成为影响概率推理进而限制参数学习可扩展性的重要计算瓶颈，为此从可表达力和可计算性的角度出发，这里采用具有多层隐藏变量的概率图模型实现参数学习。相对于深度置信网、深度玻尔兹曼机等深层学习结构，深层和积网络可以视为一类新的深层结构，其中隐藏变量为求和或者求积，并且被交替排列在相邻层次上，在计算上具有潜在的可扩展性，也使得学习和推理更加便于处理。

所述步骤S4进一步包括以下步骤：

步骤S41，将所述候选规则集合分解为大量不相交的候选规则子集，也就是任意两个候选规则子集之间都不含有相同的概念元组；

步骤S42，针对每个候选规则子集R={R_b:b=1,2,...,n}，其中，R_b表示候选规则子集R中的第b个候选规则，令X={X_b:b=1,2,...,n}表示二值随机变量的集合，其中变量X_b取值为1对应规则R_b取值为真的某实例化，取值为0对应规则R_b取值为假的某实例化，这些变量分别作为深层和积网络的终端结点，不失一般性地，在所述SPN中，求和与求积结点交替排列，其中求和结点的子结点为求积或者终端结点，同时边上赋值非负参数w，而所有求积结点的子结点为求和，同时边上赋值的默认参数均为1，如图2所示；

步骤S43，基于候选规则子集R中所涉及的语义谓词从事实库中筛选得到相关的结构化元组，用来对R中的逻辑规则进行实例化；

步骤S44，估计非负参数w，最终得到计算所述候选规则集合不确定性的深层概率图模型，继而得到赋值权重的逻辑规则集合，即马尔可夫逻辑网络，并存储于规则库中。

由于随着SPN层数的增加，梯度信号迅速衰减为零，使得学习效果变差，而传统的EM算法也存在这样的问题，于是本发明采用hard-EM算法进行迭代优化来估计非负参数w，在E步骤从根结点起自顶向下递归地选取求和结点中具有最大取值的子结点以及所有求积子结点，同时记录每个被选中的求和子结点，在M步骤则简单地累计子结点被选中的次数，经过归一化之后得到更新后的权重，两个步骤交替循环直到收敛（如果训练数据可分解为不同的样本，那么每个迭代步骤只需处理单个样本，实现在线参数更新，从而避免完全实例化以及在此基础上计算子句成立次数所带来的庞大计算开销），之后删除权重为零的边以及无父亲非根结点；最后计算SPN中终端结点的边缘概率取值，由根节点输出相应逻辑规则的权重，这些赋值权重的逻辑规则集合称为马尔可夫逻辑网络，并且存储于计算大脑的规则库中。

需要说明的是，上述过程仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何基于所述深层和积网络模型，根据所述权重更新结果（亦适用于在线学习），来确定所述逻辑规则对应参数的实现方式，均应包含在本发明的范围内。

步骤S5，利用汉语分词技术将待处理数据，比如文本语句转化为词语的有序元组，并且每个词语都具有相应的词性标注，再结合基本的句式结构提取得到结构化元组，其中，这些基本句式包括：①NP+VP、②NP+[把+宾语]+VP、③NP+[被+宾语]+VP、④NP₁+[是]+NP₂等，其中NP表示名词性短语、VP表示动词性短语，并且抽取得到的结构化元组分别对应于：①VP中心词(s:NP中心词,o:VP宾语)、②VP(s:NP中心词,o:宾语)、③VP(s:宾语,o:NP中心词)、④是(s:NP1中心词,o:NP2中心词)，其中，s表示主语，o表示宾语。

比如例句：中国古代许多著名诗词都描写了杜鹃，如陆游创作的《杜宇行》、李商隐创作的《锦瑟》等。

经过汉语分词后可以得到有序元组如下：

<中国/ns,古代/t,许多/m,著名/a,诗词/n,都/d,描写/v,了/ule,杜鹃/n,如/v,陆游/nr,创作/v,的/ude1,《/wkz,杜宇行/n,》/wky,李商隐/nr,创作/v,的/ude1,《/wkz,锦瑟/n,》wky,等/udeng>，其中，ns表示地名，t表示时间，m表示数词，a表示形容词，n表示名词，d表示副词，v表示动词，ule表示助词了，nr表示人名，ude1表示助词的，wkz表示左括号，wky表示右括号，udeng表示助词等；

结合词性标注信息可以判断上述例句符合句式①，于是可以抽取得到如下形式的结构化元组：

描写(s:诗词,o:杜鹃,ns:中国,t:古代)

创作(s:陆游,o:杜宇行)

创作(s:李商隐,o:锦瑟)

除此以外，为了保留尽可能多的语义信息，考虑“共现”关系的元组抽取，也就是通过依次抽取句子中的名词性词语得到“共现”关系的相关实体。对于上述例句，抽取得到的“共现”结构化元组为：

共现(中国,古代,诗词,杜鹃,陆游,杜宇行,李商隐,锦瑟)。

步骤S6，将所述步骤S5得到的所有结构化元组中的实例分别映射到层次化概念空间中，依据实例所属概念，以及谓词对应的概念搭配，对结构化元组中的实例和谓词分别进行语义标识，支撑后续基于知识库进行的语义泛化、激活和概率计算；

所述步骤S6进一步包括以下步骤：

步骤S61，针对所述结构化元组中具有属性信息的实例，利用归纳决策树模型实现实例的层次概念化，该模型通过保证聚类内方差最小为准则启发式地选择合适的属性作为分割点，从而得到上述实例的若干候选概念，于是上面示例中的实例分别映射为：

中国：地理/地区/国家

诗词：文化/作品/篇章

杜鹃：生物/人物、生物/植物/花、生物/动物

陆游：生物/人物/名家

李商隐：生物/人物/名家

锦瑟：文化/作品/篇章

由于实例的属性描述往往可以离线抽取，比如来自百度百科和互动百科等的信息框，那么上述过程可以离线执行完成，并将产生的预测结果进行存储和索引，这样在线分析时只需进行直接查询即可。

步骤S62，针对不具有属性信息的实例，则在多元谓词及其所在元组的其他实例的概念约束下，通过本体库中赋值权重的概念元组集合来判断该实例可能的候选概念。

比如，对于例句中的结构化元组，实例“杜宇行”不具有属性信息，但是该实例出现在结构化元组“创作(s:陆游,o:杜宇行)”和“共现(中国,古代,诗词,杜鹃,陆游,杜宇行,李商隐,锦瑟)”中，此时基于概念元组及其频次信息（如图3所示）可以判断该实例最有可能的三个候选概念为“文化/作品”、“物品/用品/器物”、“生物/人物”。如果该实例仅出现在共现元组中，那么利用最为邻近的无歧义实例来判断其候选概念。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据其他方式来综合基于属性的层次化分类以及概念元组匹配结果以得到候选概念的实现方式，均应包含在本发明的范围内。

步骤S63，基于上述实例的候选概念，对所述结构化元组进行一对多概念映射，假设结构化元组中包含两个实例，其中一个实例的候选概念个数为n，另一实例的候选概念个数为m，那么在同一谓词约束下可以产生的概念元组个数为n*m。

举例来讲，对于例句中的结构化元组“描写(s:诗词,o:杜鹃)”，由于“诗词”的候选概念是“文化/作品/篇章”，“杜鹃”的候选概念是“生物/植物/花”、“生物/动物”和“生物/人物”，那么该结构化元组映射得到的概念元组如下：

描写(s:文化/作品/篇章,o:生物/植物/花)

描写(s:文化/作品/篇章,o:生物/动物)

描写(s:文化/作品/篇章,o:生物/人物)

类似地，结构化元组“创作(s:陆游,o:杜宇行)”、“创作(s:李商隐,o:锦瑟)”和“共现(中国,古代,诗词,杜鹃,陆游,杜宇行,李商隐,锦瑟)”可以分别映射为如下形式的概念元组：

创作(s:生物/人物/名家,o:文化/作品/篇章)

创作(s:生物/人物/名家,o:文化/作品)

创作(s:生物/人物/名家,o:物品/用品/器物)

创作(s:生物/人物/名家,o:生物/人物)

共现(地理/地区/国家,古代,文化/作品/篇章,杜鹃,生物/人物/名家,文化/作品,生物/人物/名家,文化/作品/篇章)

共现(地理/地区/国家,时间/时期/古代,文化/作品/篇章,杜鹃,生物/人物/名家,物品/用品/器物,生物/人物/名家,文化/作品/篇章)

共现(地理/地区/国家,时间/时期/古代,文化/作品/篇章,杜鹃,生物/人物/名家,生物/人物,生物/人物/名家,文化/作品/篇章)。

为了方便使用，通常根据实际需求将共现谓词元组进一步分解为但不限于三元组的形式。

步骤S64，基于本体库中有标识的概念元组，对所述步骤S63产生的概念元组进行标识对齐，也就是在保证谓词一致的条件下，对齐概念子序列，其特殊情况就是概念完全对齐，通常地优先选择所有概念对齐下的谓词和概念标识，并对相应结构化元组进行标注，同时这里的对齐考虑下位概念与上位概念的广义匹配。

于是上例中经过标识对齐得到的事实元组如下：

描写_69(s:诗词_80,o:杜鹃_10,ns:中国_52,t:古代_142)

描写_83(s:诗词_80,o:杜鹃_8,ns:中国_52,t:古代_142)

描写_18(s:诗词_80,o:杜鹃_2,ns:中国_52,t:古代_142)

创作_30(陆游_4,杜宇行_73)

创作_171(陆游_4,杜宇行_2)

创作_121(杜宇行_22)

创作_23(李商隐_4,锦瑟_80)

共现_23231(诗词_80,杜鹃_10)

共现_18852(诗词_80,杜鹃_8)

共现_3810(诗词_80,杜鹃_2)

共现_61303(陆游_4,杜宇行_73)

共现_33753(陆游_4,杜宇行_22)

共现_34462(陆游_4,杜宇行_2)

一般地，在本体库中谓词的标识记录其对应的各种不同搭配组合，实例的标识即为该实例所属概念的标识，并且每个标识对应唯一的语义，要说明的是，事实库中的结构化元组也经过了这样的语义标识。

步骤S7，基于所述步骤S6得到的语义标识结果，生成待推理的有标识的结构化元组，也称为目标元组，通常所生成的目标元组取决于实际的应用问题，比如对于词义消歧问题，目标元组涉及有歧义实例或者谓词；对于信息检索问题，目标元组表征用户查询或者用户意图；对于情报分析问题，目标元组则表征文本背后隐含的语义知识等。事实上，目标元组的生成并不限于上述应用领域。

接下来在步骤S8中需要对所述步骤S7得到的目标元组实施语义泛化，这样原目标元组可以泛化得到若干新的目标元组，这些目标元组之间具有某种语义相似性，一并用于后续的激活和概率计算，尽可能避免由于知识库中规则不完备、或者证据覆盖不全等问题，导致对原目标元组的推理结果为空或者可信度过低的情形。在本发明一实施例中，所述语义泛化包括谓词、实例和概念在内的三个层面，参照图4所示，并将泛化后产生的结构化元组与原目标元组一起形成目标元组集合。下面结合具体实施例对目标元组的泛化过程分别予以详述。

如图4所示，所述步骤S8进一步包括以下步骤：

步骤S81，将所述目标元组中无规则支持的谓词泛化为具有相同概念搭配的同义谓词；

所述步骤S81进一步包括以下步骤：

步骤S811，判断所述目标元组中的带标识谓词是否出现在规则库中，如果否，则执行步骤S812，如果是，则保留该谓词，同时算法终止；

步骤S812，基于同义词典获取该谓词的同义词，比如“描写”的同义词有描绘、描述等；

步骤S813，利用同义词分别替换目标元组中相应的谓词，然后返回步骤S811。举例来说，假如不包含谓词“描写_83”相关的逻辑规则，但包含“描绘_83”相关的逻辑规则，于是为了支持有效的推理，则将谓词“描写_83”泛化为“描绘_83”。

步骤S82，将所述目标元组中有概念但无证据的实例泛化为同一概念下的若干相近实例；

所述步骤S82进一步包括以下步骤：

步骤S821，判断所述目标元组中的实例是否出现在事实库中，如果否，则执行步骤S823，如果是，则执行步骤S822；

步骤S822，判断所述目标元组中的谓词是否出现在规则库中，如果否，则执行步骤S823，如果是，算法终止；

步骤S823，从规则库中提取逻辑规则集合R，其中每条逻辑规则至少包含一次所述目标元组中的谓词；

步骤S824，从规则库中提取逻辑规则集合R’，其中每条规则至少包含一次R中出现过的谓词，并且令R=R∪R’，重复执行步骤S824，直到满足预先设置的迭代次数τ，为了节省计算时间，τ通常设置为2。举例来说，给定目标元组“描写_83(s:诗词_80,o:杜鹃_8)”，根据给定谓词“描写_83”经过一轮提取的规则列表如下但不限于下面列出的内容：

1.00表达_561(v0,v2)^象征_134(v1,v2)=>描写_83(v0,v1)

0.93创作_23(v2,v0)^引用_227(v2,v1)=>描写_83(v0,v1)

0.85作者_1(v0,v2)^喜爱_37(v2,v1)=>描写_83(v0,v1)

0.50描写_83(v2,v1)^共现_18566(v0,v2)=>描写_83(v0,v1)

0.33描写_83(v0,v1)^共现_38990(v2,v1)=>歌颂_56(v0,v2)

……

如上所述，每个谓词对应唯一的概念搭配，比如表达_561(v0,v2)对应表达_561(文化/作品/篇章,实践/心里活动/情感)，其余类似，不再赘述。

步骤S825，解析所述步骤S824中得到的规则集合R，从中提取所有出现过的谓词，继而依据这些谓词以及待泛化的实例，从事实库中筛选相应的结构化元组，并得到用于泛化目标实例的候选实例；

例如，利用谓词“表达_561”和实例“诗词_80”从事实库中筛选得到如下结构化元组，但不限于如下列出：

1）表达_561(夜闻子规_80,凄婉_202)

2）表达_561(锦瑟_80,凄婉_202)

3）表达_561(春夜喜雨_80,喜悦_202)

……

其中，“夜闻子规_80”、“锦瑟_80”、“春夜喜雨_80”均可以视为用于泛化“诗词_80”的候选实例。

步骤S826，统计所述步骤S825中候选实例在事实库中出现的频次，在上例中就是统计“夜闻子规_80”、“锦瑟_80”和“春夜喜雨_80”等实例出现的频次。给定用于泛化的候选实例的频次列表，选择频次排在前k列的实例用来对所述目标元组中有概念但无证据的实例进行泛化。如果实例个数小于k时，k则取为实例数目。假设目标元组中存在两个待泛化实例，那么经过实例泛化后得到的结构化元组个数为k*k。

例如，在上面的示例中，令k=3，则实例“诗词_80”可以分别泛化为“古诗”、“唐诗”和“诗经”，类似地，实例“杜鹃_8”可以分别泛化为“子规_8”、“猿_8”和“鸳鸯_8”，于是得到经过泛化的结构化元组如下：

描写_83(古诗_80,子规_8)

描写_83(唐诗_80,子规_8)

描写_83(诗经_80,子规_8)

描写_83(古诗_80,猿_8)

描写_83(唐诗_80,猿_8)

描写_83(诗经_80,猿_8)

描写_83(古诗_80,鸳鸯_8)

描写_83(唐诗_80,鸳鸯_8)

描写_83(诗经_80,鸳鸯_8)

步骤S83，将所述目标元组中有谓词但无实例的概念泛化为相同谓词约束下的若干相近并且存在实例描述的概念。

所述步骤S83进一步包括以下步骤：

步骤S831，确定所述目标元组中待泛化实例的所属概念；

步骤S832，在当前谓词约束下，结合概念的属性向量计算得到概念之间的语义相似度，直观地，概念“生物/植物/蔬菜”和“物品/饮食/食品/水果”、概念“文化/作品”和“类别/领域/艺术”均具有一定的语义相似性，继而根据相似度大小筛选用于泛化的概念。

例如，目标元组的概念化形式“描写_83(s:文化/作品/篇章,o:生物/动物)”中，根据相似度计算得到用于泛化概念“文化/作品/篇章”的概念为“文化/作品”和“文化/作品/书画”，而用于泛化概念“生物/动物”的概念为“生物”。

步骤S833，利用所述步骤S832中得到的泛化概念对所述目标元组中的原始概念进行替换，并且根据本体库有标识概念元组，对新生成的概念元组进行标识对齐。比如，如果将“描写_83(s:文化/作品/篇章,o:生物/动物)”中的“文化/作品/篇章”泛化为“文化/作品/书画”，那么经过标识对齐后的概念元组为“描写_17(s:文化/作品/书画,o:生物/动物)”。

步骤S834，在事实库中搜索所述泛化概念（如上例中的“文化/作品/书画”）的候选实例，并且根据候选实例在事实库中出现的频次，选择排在前列的若干实例，分别用来实例化所述步骤S833中得到的概念元组。

仍然考虑上述例子，于是可以得到如下所示经过泛化的结构化元组：

描写_17(古画_78，杜鹃_8)

描写_17(山水画_78，杜鹃_8)

描写_17(漫画_78，杜鹃_8)

……

步骤S9，为了支撑高效率的推理，基于所述步骤S8得到的目标元组集合，对规则库中的逻辑规则进行有效的激活、对事实库中的结构化元组，以及上下文知识进行有效的激活，所述上下文知识为所述步骤S5中得到的结构化元组中的非目标元组集合，得到逻辑规则集合和支撑后续推理的证据元组集合；

所述步骤S9进一步包括以下步骤：

步骤S91，根据所述目标元组中的谓词，在规则库中循环提取规则子集，这一步骤与S823、S824类似，这里不再详细描述。

步骤S92，对所提取的规则子集进行启发式过滤得到过滤后的规则子集，并构成局部马尔可夫逻辑网络；

由于规则子集的规模可以达到上千甚至上万条，使得后续推理的计算复杂度指数量级增长，非常不利于在线实时处理。为此从规则子集中抽取非目标元组中涉及的谓词，进而从事实库中提取包含这些谓词的结构化元组，如果这些结构化元组中所包含实例与目标元组中实例无关，则将该结构化元组去掉，由此可以得到过滤后的谓词，然后逐条扫描所述步骤S91中得到的规则子集，如果这些规则子集所包含的谓词与过滤后谓词没有交集，那么过滤该条规则，否则将其激活。比如，规则“0.33描写_83(v0,v1)^共现_38990(v2,v1)=>歌颂_56(v0,v2)”中非目标元组所涉及的谓词为“歌颂_56”和“共现_38990”，由于在事实库中它们对应的结构化元组与实例“诗词_80”或者“杜鹃_8”均无关，因此过滤掉该条规则。

步骤S93，基于所述步骤S92得到的规则子集，提取其中所有谓词，并从事实库中提取包含这些谓词的所有结构化元组；

步骤S94，对所述步骤S93所提取得到的结构化元组集合进行启发式过滤，也就是检测结构化元组中是否有一个以上的实例出现频次低于给定阈值，如果是，则将其过滤掉，否则将其激活，并将激活得到的结构化元组作为支撑后续推理的证据元组的一部分。比如，结构化元组“共现_38990(悲鸟_8，哀猿_8)”中“悲鸟_8”在事实库中出现的频次低于给定阈值20，于是过滤掉该结构化元组。

步骤S95，生成所述目标元组的上下文知识，所谓上下文知识指的是所述步骤S5中所生成结构化元组中的非目标元组集合，由于它们体现着上下文（语境）的知识，因此将其作为证据元组的一部分用于支撑语义推理。

比如例句中的“创作_23(李商隐_4,锦瑟_80)”元组为非目标元组，因此可视为上下文知识，将上下文知识与所述S94步骤激活得到的结构化元组合在一起，作为支撑后续推理的证据元组。在上例中，所生成的证据元组集合如下但又不限于如下所示：

上下文知识：创作_23(李商隐_4,锦瑟_80)

激活元组：描写_83(绝句_80,黄鹂_8)

激活元组：描写_83(如梦令_80,鸥鹭_8)

激活元组：描写_83(诗经_80,鸳鸯_8)

激活元组：表达_561(夜闻子规_80,凄婉_202)

激活元组：表达_561(锦瑟_80,凄婉_202)

……

步骤S10，基于所述步骤S9中激活得到的证据元组集合，实例化所述步骤S9中激活得到的逻辑规则集合，即局部马尔可夫逻辑网络，同时利用推理技术比如MC-SAT（一种切片抽样的马尔可夫链蒙特卡罗算法）计算所述目标元组成立的条件概率，得到待处理数据的最终处理结果。比如，对于上面词义消歧的例子，可以计算得到目标元组“描写_83(s:诗词_80,o:杜鹃_8)”、“描写_69(s:诗词_80,o:杜鹃_10)”和“描写_18(s:诗词_80,o:杜鹃_2)”的条件概率分别为0.69、0.27和0.04，于是可以判断文本中出现的杜鹃指的是“生物/动物”。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述泛化和激活技术解决不确定推理（归结为概率计算）的问题，均应包含在本发明的范围内。

图5给出结合知识库的深层语义分析系统结构示意图，根据本发明的另一方面，还提出一种结合知识库的深层数据处理系统，该系统包括结构化模块、概念化模块、目标生成模块、泛化模块、激活模块和概率计算模块六个核心功能模块，其中：

所述结构化模块用来生成非结构化文本的结构化表示，其由汉语分词、词性标注和句式分析三个子模块构成，其中：汉语分词子模块用于将待处理数据比如文本语句转化为词语的有序元组；词性标注子模块用于对有序元组中的每个词语进行词性标注；句式分析子模块用于基于有词性标注的有序元组，实现结构化元组的抽取；

所述概念化模块与所述结构化模块连接，用于将所述结构化模块得到的结构化元组分别映射到本体库中对应的概念元组上，其包括实例概念识别、概念元组生成和概念元组标识三个子模块，其中：实例概念识别子模块用于对所述结构化元组中出现的所有实例进行一对多的概念映射；概念元组生成子模块用于基于所述映射关系，获得所述结构化元组对应的概念化表达；所述概念元组标识子模块用于基于本体库，完成上述概念化表达的对齐和标识；

所述泛化模块与所述目标生成模块连接，用于从谓词、实例和概念三个层面实现对所述目标元组的语义泛化，用来解决知识库不完备的情况，并由谓词泛化、实例泛化和概念泛化三个子模块构成；

所述激活模块用于生成支持高效率推理的证据元组和逻辑规则，其由上下文知识激活、逻辑规则激活和事实激活三个子模块构成，其中，上下文知识激活子模块用于将所述结构化和概念化模块生成的非目标元组进行激活并视为证据集合的一部分；逻辑规则激活子模块用于基于目标元组及其泛化结果，对规则库中的逻辑规则进行启发式过滤；事实激活子模块用于基于筛选得到的逻辑规则，从事实库中筛选得到部分结构化元组并作为证据集合的一部分；

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合知识库的深层数据处理方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1进一步包括以下步骤：

步骤S12，为每个子集Τ设置候选集Γ来记录归并处理过程中产生的中间结果，最终得到归并后的概念元组集合，所述归并为给定任意两个具有相同谓词的元组γi和γj，逐步扫描每个元组的语法成分，如果这些语法成分所对应的两个概念都具有上下位关系，则将下位概念分别替换为相应的上位概念。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2进一步包括以下步骤：

步骤S21，对于归并处理后得到的概念元组集合

，令候选集从Γ中选取概念元组γ并添加到空路径中，同时令Γ=Γ-{γ}；

步骤S22，从所述概念元组集合

中搜索与当前路径中已有概念元组具有链接概念对的元组，将搜索到的概念元组递归地添加到当前路径中，直至链接路径达到预定义最大长度或者再无新的概念元组添加；

步骤S23，利用逻辑运算符将得到的链接路径中的各个概念元组关联起来，得到多种逻辑规则；

步骤S24，重复所述步骤S21-S23，直到

4.根据权利要求1所述的方法，其特征在于，所述步骤S3进一步包括以下步骤：

步骤S31，将所述逻辑规则集合中的每条逻辑规则进行实例化，使得所述逻辑规则中的每个实例结构化元组与相应的概念结构化元组具有一一映射关系；

步骤S32，基于事实库中的结构化元组集合，统计实例化逻辑规则前提成立的次数及其前提和结论同时成立的次数，然后基于两者的比值得到评测所述逻辑规则成立的置信度，并且将置信度超过某个给定阈值的逻辑规则筛选出来，得到候选规则集合。

5.根据权利要求1所述的方法，其特征在于，所述步骤S4进一步包括以下步骤：

步骤S41，将所述候选规则集合分解为大量不相交的候选规则子集；

步骤S42，针对每个候选规则子集R={R_b:b=1,2,...,n}，其中，R_b表示候选规则子集R中的第b个候选规则，令X={X_b:b=1,2,...,n}表示二值随机变量的集合，其中变量X_b取值为1对应规则R_b取值为真的某实例化，取值为0对应规则R_b取值为假的某实例化，这些变量分别作为SPN的终端结点，SPN中，求和与求积结点交替排列，其中求和结点的子结点为求积或者终端结点，同时边上赋值非负参数w，而所有求积结点的子结点为求和，同时边上赋值的默认参数均为1；

6.根据权利要求1所述的方法，其特征在于，所述步骤S6进一步包括以下步骤：

步骤S61，针对所述结构化元组中具有属性信息的实例，利用归纳决策树模型实现实例的层次概念化，该模型通过保证聚类内方差最小为准则启发式地选择合适的属性作为分割点，从而得到上述实例的若干候选概念；

步骤S62，针对所述结构化元组中不具有属性信息的实例，在多元谓词及其所在元组的其他实例的概念约束下，通过本体库中赋值权重的概念元组集合来判断该实例可能的候选概念；

步骤S63，基于上述实例的候选概念，对所述结构化元组进行一对多概念映射；

步骤S64，基于本体库中有标识的概念元组，对所述步骤S63产生的概念元组进行标识对齐，并对相应结构化元组进行语义标识。

7.根据权利要求1所述的方法，其特征在于，所述语义泛化包括谓词、实例和概念三个层面，所述步骤S8进一步包括以下步骤：

8.根据权利要求1所述的方法，其特征在于，所述步骤S9进一步包括以下步骤：

步骤S91，根据所述目标元组中的谓词，在规则库中循环提取规则子集；

步骤S94，对所述步骤S93所提取得到的结构化元组集合进行启发式过滤，并将得到的结构化元组作为证据元组的一部分；

步骤S95，生成所述目标元组的上下文知识，作为证据元组的一部分。

9.一种结合知识库的深层数据处理系统，其特征在于，该系统包括结构化模块、概念化模块、目标生成模块、泛化模块、激活模块和概率计算模块，其中：

所述结构化模块用来生成非结构化文本的结构化表示；

10.根据权利要求9所述的系统，其特征在于，

所述结构化模块由汉语分词、词性标注和句式分析三个子模块构成，其中：汉语分词子模块用于将待处理数据转化为词语的有序元组；词性标注子模块用于对有序元组中的每个词语进行词性标注；句式分析子模块用于基于有词性标注的有序元组，实现结构化元组的抽取；和/或

所述概念化模块包括实例概念识别、概念元组生成和概念元组标识三个子模块，其中：实例概念识别子模块用于对所述结构化元组中出现的所有实例进行一对多的概念映射；概念元组生成子模块用于基于所述映射关系，获得所述结构化元组对应的概念化表达；所述概念元组标识子模块用于基于本体库，完成上述概念化表达的对齐和标识；和/或

所述泛化模块由谓词泛化、实例泛化和概念泛化三个子模块构成；和/或

所述激活模块由上下文知识激活、逻辑规则激活和事实激活三个子模块构成，其中，上下文知识激活子模块用于将所述结构化和概念化模块生成的非目标元组进行激活并视为证据集合的一部分；逻辑规则激活子模块用于基于目标元组及其泛化结果，对规则库中的逻辑规则进行启发式过滤；事实激活子模块用于基于筛选得到的逻辑规则，从事实库中筛选得到部分结构化元组并作为证据集合的一部分。