CN102779288B - 一种基于场理论的本体分析方法 - Google Patents

一种基于场理论的本体分析方法 Download PDF

Info

Publication number
CN102779288B
CN102779288B CN201210213291.3A CN201210213291A CN102779288B CN 102779288 B CN102779288 B CN 102779288B CN 201210213291 A CN201210213291 A CN 201210213291A CN 102779288 B CN102779288 B CN 102779288B
Authority
CN
China
Prior art keywords
concept
ontological
ontological concept
field
conceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210213291.3A
Other languages
English (en)
Other versions
CN102779288A (zh
Inventor
王志晓
夏士雄
牛强
周勇
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201210213291.3A priority Critical patent/CN102779288B/zh
Publication of CN102779288A publication Critical patent/CN102779288A/zh
Application granted granted Critical
Publication of CN102779288B publication Critical patent/CN102779288B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于场理论的本体分析方法,首先对本体进行预处理,计算本体概念质量及概念间的语义相似度;然后将本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场,选取合适的影响因子,使概念场的分布体现本体概念的自组织聚集特性;在概念场中,连接等势值点即可得到一系列等势线,等势线呈现自然嵌套结构,势心是等势线在一定范围内的局部极大值点,反映了本体概念聚集的中心位置。因势的叠加作用势心与本体概念不重合,选取距离势心最近的本体概念作为初始聚类中心,根据两个局部极大值点之间的鞍点迭代合并初始聚类,形成不同层次的聚类划分,进而得到本体概念的层次化聚类谱图,准确度高,并具有良好的可扩展性。

Description

一种基于场理论的本体分析方法
技术领域
本发明涉及一种基于场理论的本体分析方法,尤指一种基于场理论的本体概念层次化聚类方法。
背景技术
本体是“概念模型的明确的规范说明”,其作为一种在语义层次上描述信息和数据的概念模型,在知识的获取、表示、分析和应用等方面发挥着重要的作用。为了使本体有更为广阔的发展前景,充分发挥知识共享的作用,近年来出现了各种各样的本体分析方法和工具。本体分析是保证本体工程质量的重要途径,也是本体选择及本体复用的基本前提。本体分析涉及本体的正确性、完整性、一致性、可重用性、适用性以及结构特性等多个方面。
ODEval,OntoQA,Core,OntoManage等基于本体的不同侧面来分析本体构建规划、本体构建过程、本体应用以及本体维护等阶段出现的问题或错误,包括本体句法层面的正确与否、本体设计结构上的合适与否以及本体相对于领域知识表示完整与否等。
研究者还从本体结构的特点出发,将本体结构与复杂网络结构进行类比,借鉴复杂网络的研究方法和性质参数对本体结构进行研究,对本体的度分布、平均最短路径、聚集系数等进行统计分析,评估本体概念,考察本体结构特性。
研究者还从适应性的角度进行本体分析,通过本体的内聚程度衡量本体适应演化的能力,本体内聚度越低,本体越适合演化,内聚度越高,越不适合演化。
然而,在现有技术中,尚没有一种基于场理论的本体概念层次化聚类技术,可以得到本体概念的层次化聚类谱图。
发明内容
鉴于以上所述,本发明的目的在于提供一种基于场理论的本体分析方法,从本体概念层次化聚类的角度对本体进行分析。
为实现上述目的及其他相关目的,本发明提供一种基于场理论的本体分析方法,至少包括以下步骤:
1)本体概念预处理的步骤,计算输入本体的本体概念质量及本体概念间语义相似度;
2)概念场构建的步骤,将所述步骤1)中处理过的本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场;
3)初始聚类中心选取的步骤,在所述步骤2)中建立的概念场中选择本体概念的初始聚类中心;
4)概念层次化聚类的步骤,根据所述3)中确定的初始聚类中心,迭代合并初始聚类,形成不同层次的聚类划分,以本体概念类谱图的形式展示本体分析的最终结果。
于本发明的基于场理论的本体分析方法的步骤1)中,输入的本体采用OWL语言描述。
于本发明的基于场理论的本体分析方法的步骤1)中,所述本体概念质量的计算采用如下公式:
m ( A ) = ( 1 - d ) + d · ( m ( c 1 ) s ( c 1 ) + m ( c 2 ) s ( c 2 ) + · · · + m ( c i ) s ( c i ) + · · · m ( c k ) s ( c k ) ) ;
其中:A是本体概念;m(A)是概念A的质量;ci是概念A的直接子类;k为概念A直接子类的个数;m(ci)是ci的质量;s(ci)是ci直接父类的个数;d是阻尼因子,0<d<1,d取值为0.85。
所述本体概念间的语义相似度计算采用如下公式:
其中:l为ci和cj在本体中的语义距离;h为ci和cj第一个共同父类在本体中所处的深度;α和β为控制l和h作用的参数,α和β的值为α=0.2,β=0.6,e为常数。
于本发明的基于场理论的本体分析方法的步骤1)中,根据输入本体包含的概念集C={c1,c2,…,ci,…,cn},构建一个n维空间Rn,空间的第i维为概念ci与各本体概念的语义相似度(1≤i≤n),称Rn为输入本体对应的多维空间。
于本发明的基于场理论的本体分析方法的步骤1)中,输入本体及其对应的多维空间ΩO,本体概念ci在语义空间中的位置向量为xci=(si1,si2,…,sik,…,sin),向量第k维sik为概念ci和概念ck的语义相似度。
于本发明的基于场理论的本体分析方法的步骤2)中,给定概念场中的概念集C={c1,c2,…,ci,…,cn}、及概念的位置集P={xc1,xc2,…,xci,…,xcn}。概念场中任一场点x的势值为:
其中:n为概念数量;为概念ci在x处产生的势值;mci为概念ci的质量,mci≥0;σ为影响因子,σ∈(0,+∞);||xci-x||为xci到x的距离,e为常数。其中,所述影响因子σ的取值公式为:
min H ( σ ) = min - Σ i = 1 n φ ci Z · log ( φ ci Z ) ;
其中,为概念c1,c2,…,ci,…,cn所在位置的势值;为标准化因子。
于本发明的基于场理论的本体分析方法的步骤3)及步骤4)中,对于概念场空间进行网格划分并构建索引树,根据Hesse矩阵的特征值对临界点分类,找出局部极大值点和鞍点,然后,根据局部极大值点选取本体概念的初始聚类中心进行初始划分,最后,根据鞍点对初始聚类进行迭代合并。
如上所述,本发明的基于场理论的本体分析方法,具有以下有益效果:从本体概念层次化聚类的角度对本体进行分析,对本体概念的重要性评估提供依据,本方法准确度高,并具有良好的可扩展性。
附图说明
图1为本发明的基于场理论的本体分析方法的流程示意图。
图2为实施例中构造概念场使用的部分SWRC本体概念示意图。
图3为应用图2的本体概念在二维平面上生成的概念场图。
图4为应用图3的概念场进行概念层次化聚类的类谱图。
图5为所选取的ka、hu、finance三个本体进行概念层次化聚类的聚类错误率图。
图6为本发明方法对所选取的20个本体进行概念层次化聚类的可扩展性图。
图7为图2中“F:管理人员”概念删除后二维平面上概念场的变化情况图。
图8为图2中在“H:教学人员”概念下增加一新概念“J:助理教授”后二维平面上概念场的变化情况图。
元件标号说明
S1~S4    步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1,为本发明的基于场理论的本体分析方法的流程示意图。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图所示,本发明提供一种基于场理论的本体分析方法,至少包括以下步骤:
首先执行步骤S1,本体概念预处理的步骤,计算输入本体的本体概念质量及本体概念间语义相似度;在本实施例中,输入的本体采用OWL语言描述。
所述本体概念质量的计算采用如下公式:
m ( A ) = ( 1 - d ) + d · ( m ( c 1 ) s ( c 1 ) + m ( c 2 ) s ( c 2 ) + · · · + m ( c i ) s ( c i ) + · · · m ( c k ) s ( c k ) ) ;
其中:A是本体概念;m(A)是概念A的质量;ci是概念A的直接子类;k为概念A直接子类的个数;m(ci)是ci的质量;s(ci)是ci直接父类的个数;d是阻尼因子,0<d<1,d通常取值为0.85。
所述本体概念间的语义相似度计算采用如下公式:
其中:l为ci和cj在本体中的语义距离;h为ci和cj第一个共同父类在本体中所处的深度;α和β为控制l和h作用的参数,α和β的值为α=0.2,β=0.6,e为常数,e≈2.71828182845904523536 02874713526(第31位小数四舍五入为7)。
其次执行步骤S2,概念场构建的步骤,将所述步骤S1中处理过的本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场;在本实施例中,根据输入本体包含的概念集C={c1,c2,…,ci,…,cn},构建一个n维空间Rn,空间的第i维为概念ci与各本体概念的语义相似度(1≤i≤n),称Rn为输入本体对应的多维空间。
输入本体及其对应的多维空间ΩO,本体概念ci在语义空间中的位置向量为xci=(si1,si2,…,sik,…,sin),向量第k维sik为概念ci和概念ck的语义相似度。
给定概念场中的概念集C={c1,c2,…,ci,…,cn}、及概念的位置集P={xc1,xc2,…,xci,…,xcn}。概念场中任一场点x的势值为:
其中:n为概念数量;为概念ci在x处产生的势值;mci为概念ci的质量,mci≥0;σ为影响因子,σ∈(0,+∞);||xci-x||为xci到x的距离e为常数,e≈2.71828 18284590452353602874713526(第31位小数四舍五入为7)。
影响因子σ的值将影响概念场的结构,引入势熵来选取最优影响因子σ,使概念场的分布真正体现本体概念的自组织聚集特性。满足下列条件的影响因子是最优的:所述影响因子σ的取值公式为:
min H ( σ ) = min - Σ i = 1 n φ ci Z · log ( φ ci Z ) ;
其中,为概念c1,c2,…,ci,…,cn所在位置的势值;是一个标准化因子。
在本实施例中,图2显示了部分SWRC本体概念,图3显示了利用所述本体概念预处理步骤和所述概念场构建步骤处理后图2所示本体概念在二维平面上形成的概念场。
接着执行步骤S3,初始聚类中心选取的步骤,在所述步骤S2中建立的概念场中选择本体概念的初始聚类中心;在概念场中,连接等势值点即可得到一系列等势线,等势线呈现自然嵌套结构,势心是等势线在一定范围内的局部极大值点,反映了本体概念聚集的中心位置。对概念场空间进行网格划分并构建索引树,根据Hesse矩阵的特征值对临界点分类,找出局部极大值点和鞍点,根据局部极大值点选取本体概念的初始聚类中心。
最后执行步骤S4,概念层次化聚类的步骤,根据所述S3中确定的初始聚类中心,迭代合并初始聚类,形成不同层次的聚类划分,以本体概念类谱图的形式展示本体分析的最终结果。图4显示了利用所述初始聚类中心选取步骤和所述概念层次化聚类步骤处理后图3所示概念场中概念层次化聚类的类谱图,图3中横线轴表示为本体概念与概念D的语义相似度,纵线轴表示为本体概念与概念H的语义相似度。
为更详尽了解应用本发明的基于场理论的本体分析方法的原理及功效,以下结合图5来说明应用本发明进行概念层次化聚类的准确性。
从斯坦福大学的Protégé本体库中选择3个本体:
(1)ka本体。该本体描述学术研究领域的相关概念。
(2)hu本体。该本体描述水文领域的相关概念。
(3)finance本体。该本体描述经济领域的相关概念。应用本发明基于场理论的本体分析方法对所述3个本体进行本体概念层次化聚类。图5显示了3个本体在不同聚类层次的错误率,显示本发明能够很好地完成概念层次化聚类,准确度高。图5中纵线轴表示为聚类错误率。
为了更进一步详尽了解应用本发明的基于场理论的本体分析方法,以下结合图6来说明基于场理论的本体分析方法的可扩展性,图6中横线轴表示为本体概念数量(×100),纵线轴表示为执行时间/秒。
从斯坦福大学的Protégé本体库中选择20个本体,本体概念规模从4633至102不等。应用本发明基于场理论的本体分析方法对所述20个本体进行概念层次化聚类。图6显示了所述20个本体进行概念层次化聚类的执行时间,显示本发明具有良好的可扩展性。
为更再一步详尽了解应用本发明的基于场理论的本体分析方法,以下结合图7以及图8来说明本体演变对概念层次化聚类结果的影响。
将图2所示的本体删除概念“F:管理人员(Manage)”,图7显示了所述概念删除后二维平面上概念场的变化情况图。图7中横线轴表示为本体概念与概念D的语义相似度,纵线轴表示为本体概念与概念H的语义相似度。所述概念删除后,概念层次化聚类结果没有因此出现错误。在图2所示的本体“H:教学人员(Faculty Member)”概念下增加一新概念“J:助理教授(Assistant Professor)”,图8显示了所述概念增加后二维平面上概念场的变化情况图。所述概念增加后,概念层次化聚类结果没有因此出现错误。图8中横线轴表示为本体概念与概念D的语义相似度,纵线轴表示为本体概念与概念H的语义相似度。
综上所述,本发明主要通过本体概念预处理的步骤对输入本体进行预处理,计算本体概念质量及概念间语义相似度;然后,概念场构建的步骤将所述本体概念预处理的步骤中处理过的本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场;接着,初始聚类中心选取的步骤在所述概念场构建的步骤中建立的概念场中选择本体概念的初始聚类中心;最后,概念层次化聚类的步骤根据所述初始聚类中心选取的步骤中确定的初始聚类中心,迭代合并初始聚类,形成不同层次的聚类划分。本发明可以得到本体概念的层次化聚类谱图,准确度高,并具有良好的可扩展性。所以,本发明有效弥补现有本体分析方法的空白而具高度产业利用价值
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (1)

1.一种基于场理论的本体分析方法,其特征在于,所述本体分析方法至少包括以下步骤:
1)本体概念预处理的步骤,计算输入本体的本体概念质量及本体概念间语义相似度;输入的本体采用OWL语言描述;所述本体概念质量的计算采用如下公式:
m ( A ) = ( 1 - d ) + d · ( m ( c 1 ) s ( c 1 ) + m ( c 2 ) s ( c 2 ) + . . . + m ( c i ) s ( c i ) + . . . + m ( c k ) s ( c k ) ) ;
其中:A是本体概念;m(A)是概念A的质量;ci是概念A的直接子类;k为概念A直接子类的个数;m(ci)是ci的质量;s(ci)是ci直接父类的个数;d是阻尼因子,0<d<1,d取值为0.85;
所述本体概念间的语义相似度计算采用如下公式:
其中:l为ci和cj在本体中的语义距离;h为ci和cj第一个共同父类在本体中所处的深度;α和β为控制l和h作用的参数,α和β的值为α=0.2,β=0.6,e为常数;
根据输入本体包含的概念集C={c1,c2,…,ci,…,cn},构建一个n维空间Rn,空间的第i维为概念ci与各本体概念的语义相似度(1≤i≤n),称Rn为输入本体对应的多维空间;
输入本体及其对应的多维空间ΩO,本体概念ci在语义空间中的位置向量为xci=(si1,si2,…,sik,…,sin),向量第k维sik为概念ci和概念ck的语义相似度;
2)概念场构建的步骤,将所述步骤1)中处理过的本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场;
给定概念场中的概念集C={c1,c2,…,ci,…,cn}、及概念的位置集P={xc1,xc2,…,xci,…,xcn};概念场中任一场点x的势值为:
其中:n为概念数量;为概念ci在x处产生的势值;mci为概念ci的质量,mci≥0;σ为影响因子,σ∈(0,+∞);||xci-x||为xci到x的距离,e为常数;
所述影响因子σ的取值公式为:
min H ( σ ) = min - Σ i = 1 n φ ci Z · log ( φ ci Z ) ;
其中,为概念c1,c2,…,ci,…,cn所在位置的势值;为标准化因子;
3)初始聚类中心选取的步骤,在所述步骤2)中建立的概念场中选择本体概念的初始聚类中心;
4)概念层次化聚类的步骤,根据所述3)中确定的初始聚类中心,迭代合并初始聚类,形成不同层次的聚类划分,以本体概念类谱图的形式展示本体分析的最终结果;
其中,于所述步骤3)及步骤4)中,对于概念场空间进行网格划分并构建索引树,根据Hesse矩阵的特征值对临界点分类,找出局部极大值点和鞍点,然后,根据局部极大值点选取本体概念的初始聚类中心进行初始划分,最后,根据鞍点对初始聚类进行迭代合并。
CN201210213291.3A 2012-06-26 2012-06-26 一种基于场理论的本体分析方法 Expired - Fee Related CN102779288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210213291.3A CN102779288B (zh) 2012-06-26 2012-06-26 一种基于场理论的本体分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210213291.3A CN102779288B (zh) 2012-06-26 2012-06-26 一种基于场理论的本体分析方法

Publications (2)

Publication Number Publication Date
CN102779288A CN102779288A (zh) 2012-11-14
CN102779288B true CN102779288B (zh) 2015-09-30

Family

ID=47124198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210213291.3A Expired - Fee Related CN102779288B (zh) 2012-06-26 2012-06-26 一种基于场理论的本体分析方法

Country Status (1)

Country Link
CN (1) CN102779288B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239546B (zh) * 2014-09-23 2021-11-23 北京理工大学 一种基于场论的本体中概念相似度计算方法
CN106611038A (zh) * 2016-07-28 2017-05-03 四川用联信息技术有限公司 基于本体概念的词汇语义相似度求解方法
US20180101773A1 (en) * 2016-10-07 2018-04-12 Futurewei Technologies, Inc. Apparatus and method for spatial processing of concepts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1278967A (zh) * 1997-09-17 2001-01-03 单一检索有限公司 量子计算机
CN101494535A (zh) * 2009-03-05 2009-07-29 范九伦 基于隐马尔可夫模型的网络入侵场景构建方法
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1278967A (zh) * 1997-09-17 2001-01-03 单一检索有限公司 量子计算机
CN101494535A (zh) * 2009-03-05 2009-07-29 范九伦 基于隐马尔可夫模型的网络入侵场景构建方法
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种基于数据场的层次聚类方法";淦文燕等;《电子学报》;20060228;第34卷(第2期);第258-261页 *
"语义场模型研究";王志晓等;《同济大学学报(自然科学版)》;20091130;第37卷(第11期);第1526-1530页 *

Also Published As

Publication number Publication date
CN102779288A (zh) 2012-11-14

Similar Documents

Publication Publication Date Title
CN103226741B (zh) 城市供水管网爆管预测方法
Zhu Functions of uncertain variables and uncertain programming
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
CN102622609B (zh) 一种基于支持向量机的三维模型自动分类方法
CN105893669A (zh) 一种基于数据挖掘的全局仿真性能预测方法
CN103778304A (zh) 一种机动车驱动桥的设计方法
Guo et al. An automatic machining process decision-making system based on knowledge graph
CN105912773A (zh) 一种新的基于数据挖掘技术的智能冲压工艺设计方法
US20240190442A1 (en) Complex network-based complex environment model, cognition system, and cognition method of autonomous vehicle
CN102779288B (zh) 一种基于场理论的本体分析方法
CN107633294A (zh) 一种应用于RBF 神经网络的改进Sobol 敏感性分析方法
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN104537280B (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN104317853B (zh) 一种基于语义Web的服务簇构建方法
Liu et al. Illustration design model with clustering optimization genetic algorithm
Köseoğlu et al. Correlation coefficients of simplified neutrosophic multiplicative sets and their applications in clustering analysis
CN105956318A (zh) 基于改进分裂 h-k 聚类方法的风电场机群划分方法
CN102629278B (zh) 一种基于问题本体的语义标注和检索方法
CN104102716A (zh) 基于聚类分层抽样补偿逻辑回归的失衡数据预测方法
Jiang et al. Parameters calibration of traffic simulation model based on data mining
CN104615438B (zh) 一种软件产品线的特征切片模型检测方法
Gu et al. Employment Quality Evaluation Model Based on Hybrid Intelligent Algorithm
Cao Design and optimization of a decision support system for sports training based on data mining technology
CN105701594A (zh) 用于大电网安全稳定特性和机理分析的可视化交互式系统
Selvan On the effect of shape parameterization on aerofoil shape optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150930

Termination date: 20200626

CF01 Termination of patent right due to non-payment of annual fee