CN103207856B

CN103207856B - 一种本体概念及层次关系生成方法

Info

Publication number: CN103207856B
Application number: CN201310114031.5A
Authority: CN
Inventors: 王俊丽; 王志成; 赵卫东; 柳先辉; 余淼淼; 梁梅连
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2015-10-28
Anticipated expiration: 2033-04-03
Also published as: CN103207856A

Abstract

本发明涉及本体学习领域，特别涉及到一种本体概念及层次关系生成方法。本发明的技术方案是将PAM概率主题模型应用于本体概念及层次的抽取，改进本体概念及层次关系学习的效果，以达到更加准确有效地生成本体概念。该方法首先通过建立基于PAM的本体概念及层次生成模型，将领域本体概念学习问题有效地转化为基于领域文档集的统计推断问题，采用Gibbs抽样的方法来获取概率分布特征向量；然后进行基于Wordnet的语义相似度计算，根据相似度关联关系生成概念，从而得到本体概念的集合及其层次关系。本发明能够更加准确有效地获取领域本体中的概念集合及概念间层次关系。

Description

一种本体概念及层次关系生成方法

技术领域

本发明涉及本体学习领域，特别涉及到一种本体概念及层次关系生成方法。

背景技术

在语义网体系结构中，用于表示Web信息语义的本体是系统的核心和关键所在。作为一种能在语义和知识层次上描述概念模型的建模工具和表达知识的共享概念模型，本体在语义Web、知识工程、自然语言处理、多Agent系统、信息检索、智能信息集成等相关领域中发挥着重要作用。

本体学习是通过机器学习和统计学等技术自动或半自动地从已有的数据资源中获取期望的本体知识。由于实现完全自动的知识获取技术尚不现实，所以，通常整个本体学习过程是在用户指导下进行的一个半自动的过程。

概念是构成本体的一个基本要素，是对领域内知识实体的抽象描述。概念学习就是从选择的文本中获取领域相关的概念，并建立概念之间的分类关系。本体概念及层次的抽取在本体学习具体任务的层次中处于核心位置。

自动或半自动本体概念的获取方法大体上可以分为三类：基于语言学的方法、基于统计学的方法和两者混合方法。

基于语言学的方法依赖于自然语言处理工具，使用浅层解析技术或模板方法获取概念。这类方法在语言消歧、准确率等方面有明显优势，但是在很多情况下，是依赖于具体语言的。

基于统计学的方法主要思想是依据样本中词汇单元的共现来证明语义关系。优点是易于实现且不依赖于某一专门领域和任何外部资源。

混合方法是采用语言学和数学统计方法相结合来获取概念。其中，语言学规则侧重于获取待选概念，而数学统计方法则用以获取前或者获取后的筛选，从而提高概念获取的准确性和效率。目前大多数的本体学习系统一般都采用混合方法来获取本体概念。

概率主题模型是在潜在语义分析技术基础上发展起来的，它使用概率图模型和主题模型的理论和方法，通过使用图表示联合概率分布，将图论和概率论进行有机结合，从而使用一个多变量进行统计模拟的形式体系。可以在不需要计算机真正理解自然语言的情况下，提取可以被人理解的、相对稳定的隐含语义结构，为大规模数据集中的文档寻找一个相对短的描述。概率主题模型可以为本体学习中概念获取提供数理基础和准确性保障，从而提高了概念获取的可靠性。

PAM是目前应用非常广泛的概率主题模型之一，它将每个文档表示成主题的混合，而主题是单词或其他主题上的的多项式分布，不但可以获得词之间的关联，而且可以的到不同主题之间的相关性。特殊形式的四层PAM(PAM4L)，是一个多层的生成式概率模型，该模型包含四层：第一层是文本，第二层是S个主题，第三层是S’个主题，最底层是单词。根节点和所有超主题相关联，每个超主题和所有子主题全相关，每个子主题是词集上的全分布。不但可以获取词和主题的关联，而且可以得到主题之间的关联性。

发明内容

本发明目的要克服现有技术中本体概念及层次学习效果欠佳的不足，提供一种改进的本体概念及层次关系生成方法，结合基于概率统计和基于语言学模式的本体概念学习方法，将PAM概率主题模型应用于本体的概念学习阶段，改进本体概念及层次学习的效果，以达到更加准确有效地生成本体概念及层次关系。

为达到上述发明目的，本发明采用结合词性标注、词干提取、去除停用词和相似度计算等语言学方法和PAM概率主题模型等统计学方法的混合方法，来实现本体学习过程中最核心的概念及概念层次学习。本发明首先在对语料库进行预处理后，使用PAM概率主题模型的方法自动获取主题层次信息，然后使用基于Wordnet的相似度计算方法从主题集合中提取概念，从而建立完整的本体概念及层次结构。

本发明需要保护的技术方案表征为：

一种本体概念及层次关系生成方法，其特征在于,包括如下步骤:

(1)文档预处理，构建本体术语集合:

给定关于某专业领域的一组文档集合，通过词性标注、词干提取、去掉停用词等预处理技术，获取语料库中的有用信息，进而构成术语集；

(2)词频统计，生成词频矩阵：

基于文档中术语出现频率的统计，生成一个文档-术语的频率矩阵，即词频矩阵，矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率；

(3)模型推断：

概率主题模型通过引入隐藏变量的中间层以表达文档和词之间的连接关系，根据语料库中的文档以及文档中观测到的词频矩阵，通过PAM概率主题模型的迭代，采用Gibbs抽样算法，统计推断出隐含变量的后验分布信息，每个概念主题关联的术语及其关联概率特征项；

(4)语义关联度判定，概念学习：

通过基于Wordnet的Jiang&Conrath语义相似度判定方法，结合已获得的后验分布信息，根据每个子主题分布下的一组术语间的语义相似度来抽象出一个概念；

(5)关系抽取：

根据步骤(3)得出的后验分布信息，重复所述步骤(4)，直至所有的主题-词分布都抽样生成概念，得到概念集；再根据主题间的概率分布以及相似度计算方法，抽样得到超主题层对应的概念，从而得到概念集中概念间的层次关系。在上述方法中，所述步骤(3)进一步包括下列步骤:

a)确定所使用PAM概率主题模型主题数，将术语集中的每个术语都随机初始化分布指派到某一个主题下，得到初始模型分布信息，变量服从后验分布：

P(z_w＝t_i,z’_w＝t’_j|D,z_-w,z’_-w,α,β)；

b)进入PAM概率主题模型的迭代过程，采用Gibbs抽样算法，按照a)中所列后验分布公式将单词进行分配，得到模型分布的下一个状态；

C)确定抽样间距和抽样次数，重复执行步骤b)到一定的次数，得到目标最优分布，其中变量z_w和z’_w是每个词的超主题分布和子主题分布，z_w＝t_i,z’_w＝t’_j表示将标记为w的单词分配给超主题i和子主题j’；-w表示除了词w以外的所有观测值和主题分布；D是整个文档集；α是超主题的先验，β是子主题的先验。

在上述方法中，所述步骤(4)采用Jiang&Conrath相似度计算方法，同时使用了共享父节点和被比较概念词所包含的信息内容，计算公式为：Sim(c₁,c₂)＝-2ln p_mis(c₁,c₂)-(ln p(c₁)+ln p(c₂))，

其中c为实例概念词，p(c)为实例概念词出现的概率，ic(c)＝-ln p(c)为实例概念词c所包含的信息内容；为被比较概念词c₁和c₂的公共父节点概念词最小的那个。

在上述方法中，所述步骤(4)进一步包括下列子步骤:

a)对经过步骤(3)迭代得到的每个子主题-词分布对应的术语集合{t₁,t₂,...,t_n}中的每个术语对进行Jiang&Conrath相似度计算sim(t_i,t_j)(1＜i＜n,1＜j＜n)；

b)选择相似度值最大的术语对(t_x,t_y)，根据Wordnet上位词得到公共父节点t_z；

c)将得到的新的术语值t_z并入集合T，取代t_x和t_y；

d)重复调用步骤(a)和(b)，直至集合T中只有一个术语时止，最终得到的值就是提取出的概念。

本发明的技术方案是将PAM概率主题模型应用于本体概念及层次的抽取，改进本体概念及层次关系学习的效果，以达到更加准确有效地生成本体概念。该方法首先通过建立基于PAM的本体概念及层次生成模型，将领域本体概念学习问题有效地转化为基于领域文档集的统计推断问题，采用Gibbs抽样的方法来获取概率分布特征向量；然后进行基于Wordnet的语义相似度计算，根据相似度关联关系生成概念，从而得到本体概念的集合及其层次关系。与现有技术相比，本发明的有益效果：将PAM概率主题模型这一具有层次关系的模型应用于本体概念及层次学习阶段，能够更加准确有效地获取领域本体中的概念集合及概念间层次关系

附图说明

图1是本发明结构的方框图。

图2是本发明PAM概率主题模型的结构图。

图3是本发明的一个具体实施例学习的概念及层次关系图。

具体实施方式

如图1的结构框图所示，将本发明方法应用于生物医学领域本体知识学习,本应用例的本体概念及层次学习方法实施步骤为：

1)术语提取模块：

本实施例采用本发明本体概念及层次关系生成方法，使用生物医学领域的Genia语料库来进行预处理，由2000篇摘要组成，共有168384个生物学术语。使用Pos-tagger进行词性标注、Stemming进行词干提取，并且按照停用词表去掉停用词，经过这些自然语言处理技术的处理之后，得到的词语集合就是领域术语集T。

2)统计推断模块：

本实施例将提取出来的术语集合T，进行词频统计处理，基于文档中术语出现频率的统计，生成一个文档-术语的频率矩阵，即词频矩阵M。矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率。

本实施例根据观测到的词频矩阵M，进行PAM4L概率主题模型的迭代，确定所使用PAM4L概率主题模型的超主题数和子主题数，将术语集中的每个术语都随机初始化分布指派到某一个主题下，得到初始模型分布信息。采用Gibbs抽样算法，按照后验分布公式P(z_w＝t_i,z’_w＝t’_j|D,z_-w,z’_-w,α,β)将单词进行分配，得到模型分布的下一个状态。确定抽样间距和抽样次数，重复执行达到一定的次数，得到目标稳定分布。从而确定每个概念主题关联的术语及其关联概率特征项集合F。

其中变量z_w和z’_w是每个词的超主题分布和子主题分布，z_w＝t_i,z’_w＝t’_j表示将标记为w的单词分配给超主题i和子主题j’；-w表示除了词w以外的所有观测值和主题分布；D是整个文档集；α是超主题的先验，β是子主题的先验。

经过统计推断模块的处理后，得到主题分布信息，包括文档的超主题分布，超主题下的子主题分布，子主题和术语词的概率分布信息。

附表1举例展示了本实施例中超主题1对应子主题分布信息和主题比例，也就是说超主题1由如下图示的四个子主题构成。

附表2展示了本实施例中子主题5对应的主题词和每个词的权重。

3)概念获取模块：

本实施例使用Jiang&Conrath相似度计算方法，对每个子主题分布下的术语词两两进行相似度计算。该方法同时使用了共享父节点和被比较概念词所包含的信息内容，计算公式为：Sim(c₁,c₂)＝-2ln p_mis(c₁,c₂)-(ln p(c₁)+ln p(c₂))。

选择相似度值最大的术语对(t_x,t_y)，根据Wordnet寻找公共上位词得到术语t_z；用t_z取代t_x和t_y，并入术语集合；重复进行相似度计算和术语的替换，直至集合中只有一个术语词时止，最终得到的这个值就是提取出的概念c。将每个子主题-词分布抽象得到的概念c合并形成概念集合C₁。

比如本实施例中子主题5的主题词集合为{neutrophil,platelet,lymphocyte,erythrocyte,monocyte}，基于Wordnet使用Jiang&Conrath相似度计算方法，对术语词两两进行相似度计算。经过计算可知Sim(neutrophil,lymphocyte)＝0.5065648201964191是最大的，通过寻找上位词得到术语词leukocyte，将该词并入集合取代neutrophil和lymphocyte，得到新的集合{leukocyte,platelet,erythrocyte,monocyte}。

重复以上过程，直至集合中只有一个术语词{cell}。可以得到子主题5对应概念cell(细胞)。对子主题382、41和92，同样按照上述过程进行相似度计算得到对应概念blood(血液)、tissue(组织)和organ(器官)，由此得到超主题1对应的四个子主题概念，如图3示。

4)关系抽取模块：

根据子主题层对应的概念集合C₁，以及已经得到的超主题-子主题分布，再次使用Jiang&Conrath相似度计算方法，抽象得到超主题层对应的概念集C₂，从而得到概念集之间的层次关系R。

比如本实施例中超主题1对应的四个子主题概念集为{cell,blood,tissue,organ}，使用基于Wordnet的Jiang&Conrath相似度计算方法，重复步骤3)的过程，得到超主题1对应的概念anatomy(解剖学)。

本实施例提取了该领域的本体概念集合及概念层次关系，生成的部分概念及层次关系如图3示。

Claims

1.一种本体概念及层次关系生成方法，其特征在于,包括如下步骤:

(1)文档预处理，构建本体术语集合：

(2)词频统计，生成词频矩阵：

(3)模型推断：

(4)语义关联度判定，概念学习：

步骤(4)进一步包括下列子步骤：

c)将得到的新的术语值t_z并入集合T，取代t_x和t_y；

d)重复调用步骤(a)和(b)，直至集合T中只有一个术语时止，最终得到的值就是提取出的概念；

(5)关系抽取：

根据步骤(3)得出的后验分布信息，重复所述步骤(4)，直至所有的主题-词分布都抽样生成概念，得到概念集；再根据主题间的概率分布以及相似度计算方法，抽样得到超主题层对应的概念，从而得到概念集中概念间的层次关系。

2.根据权利要求1所述的方法，其特征在于，所述步骤(3)进一步包括下列步骤：

a)确定所使用PAM概率主题模型主题数，将术语集中的每个术语都随机初始化分布指派到某一个主题下，得到初始模型分布信息，变量服从后验分布：P(z_w＝t_i,z’_w＝t’_j|D,z_-w,z’_-w,α,β)；

c)确定抽样间距和抽样次数，重复执行步骤b)到一定的次数，得到目标最优分布，

3.根据权利要求1所述的方法，其特征在于，所述步骤(4)采用Jiang&Conrath相似度计算方法，同时使用了共享父节点和被比较概念词所包含的信息内容，计算公式为：Sim(c₁,c₂)＝-2lnp_mis(c₁,c₂)-(lnp(c₁)+lnp(c₂))，