CN102117281B - 一种构建领域本体的方法 - Google Patents

一种构建领域本体的方法 Download PDF

Info

Publication number
CN102117281B
CN102117281B CN 200910243990 CN200910243990A CN102117281B CN 102117281 B CN102117281 B CN 102117281B CN 200910243990 CN200910243990 CN 200910243990 CN 200910243990 A CN200910243990 A CN 200910243990A CN 102117281 B CN102117281 B CN 102117281B
Authority
CN
China
Prior art keywords
term
field term
field
seed
information tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200910243990
Other languages
English (en)
Other versions
CN102117281A (zh
Inventor
赵琦
高建忠
黄毓瑜
焦希泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Original Assignee
YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING filed Critical YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority to CN 200910243990 priority Critical patent/CN102117281B/zh
Publication of CN102117281A publication Critical patent/CN102117281A/zh
Application granted granted Critical
Publication of CN102117281B publication Critical patent/CN102117281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种构建领域本体的方法,包括步骤:1)选取种子领域术语,建立领域本体,并设定种子领域术语的信息具化度;2)根据种子领域术语抽取领域术语,并根据种子领域术语的信息具化度计算领域术语的信息具化度;3)将领域术语按照其信息具化度排列,计算当前领域术语和领域本体中任一领域术语的相似度;4)根据信息具化度和相似度选择当前领域术语的可能的关联术语;5)在语料库中验证当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度,如果可信,则将当前领域术语加入领域本体,否则,删除当前领域术语;6)重复步骤3)、4)和5),直到所有领域术语均已经加入领域本体或被删除。由此,更加准确有效地建立领域本体。

Description

一种构建领域本体的方法
技术领域
本发明涉及信息系统建模领域,尤其涉及一种构建领域本体(DomainOntology)的方法。
背景技术
本体(Ontology)是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。一般认为本体就是Gruber提出的“本体是概念模型的明确的规范说明”。
本体是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。
典型的应用有:
(1)基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。
(2)基于本体的数据集成、机器学习等。
(3)领域本体的应用。比如,在生物信息学中已建成的GeneOntology,尽管只包括了part-of等简单的关系,但是对生物信息学界已经有巨大的影响。
(4)语义Web服务。
(5)在线元数据管理和自动信息发布。
本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,并从不同层次的形式化模式上给出了这些词汇(术语)和词汇间相互关系的明确定义。
Perez等人用分类法组织了本体,并归纳出本体的五个基本构成元素(建模元语),即:①类(Classes)或概念(Concepts);②关系(Relations);③函数(Functions);④公理(Axioms);⑤实例(Instances)。
从语义上讲,基本的关系共有4种,如表1所示:
表1  基本的关系种类
  关系名   关系描述
  part-of   表达概念之间部分与整体的关系。
  kind-of   表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系。给出两个概念C和D,记C′={x|x是C的实例},D′={x|x是D的实例},如果对任意的x属于D′,x都属于C′,则称C为D的父概念,D为C的子概念
  instance-of   表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系。
  attribute-of   表达某个概念是另一个概念的属性。如概念“颜色”是概念“玫瑰花”的一个属性。
在实际建模过程中,不一定要严格地按照上述5类基本建模元素来创建本体,概念之间的关系也不限于上面列出的4种基本关系,可以根据领域的具体情况定义相应的关系,以满足应用的需要。
领域本体是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。
本体的构建过程是个费时费力的过程,需要完整的工程化、系统化的方法来支持,目前特定的领域本体的构建过程还需要专家进行参与。
目前本体构建主要有手工构建、复用已有本体(半自动构建)以及自动构建本体三种方法。
比较有名的本体构建工程思想有:IDEF-5方法、骨架法、TOVE企业建模法、循环获取法(Cyclic Acquisition Process)等。这几种方法体系的成熟度依次为:IDEF-5方法>企业建模法>骨架法>循环获取法。
其中,Alexander Maedche等的循环获取法,是一种环状结构的构建思路,类似于软件工程中的原型法思想。基本流程如下:
(1)资源选取:这是环形的起点,是一个通用的核心本体的选择。任何大型的通用本体(像Cyc、Dahlgren的本体)、词汇-语义网(像WordNet,GermaNet)、或者领域相关的本体(像TOVE)都可以作为这个过程的开始。选定基础本体后,用户必须确定用于抽取领域相关实体的文本。
(2)概念学习:从选择的文本中获取领域相关的概念,并建立概念之间的分类关系。
(3)领域集中:除去领域无关的概念,只留下和领域相关的。这时,建立起了目标本体的概念结构。
(4)关系学习:除了从基础本体中继承的一些关系,其它的关系需要通过学习的方法从文本中抽取。
(5)评价:对得到的领域相关的本体进行评价,接着还可以进一步地重复上述过程。
在上述步骤中,步骤(4)关系学习和(5)评价主要涉及到获取和验证词汇语义关系问题的解决,目前解决该问题的方法主要有两种:基于概率统计的方法和基于模式的方法。
基于概率统计的方法利用词语上下文信息,根据一些经典的统计分布假设,计算词语间相关性。这种方法从某种程度上表达了词语之间一种宽泛的关系。它不能精确地定义词语之间具体的语义关系,只是提供二者具有某种关系的佐证。基于模式的方法通过发现词语同时出现的固定模式,用这种模式来直接地表示某种固定的语义关系。实际实验中,基于模式的方法找到的语义关系的精确度更高。但是模式在文本中出现的频率较低,因此需要更多包含目标词语对的句子,以找到包含此种模式的实例。而基于概率统计的方法能够对语料中包含目标词语对的句子极尽其用,因此同样适合于非大规模语料。从总体上看,基于模式的方法和基于概率统计的方法在抽取语义关系时能够很好的互补。
发明内容
本发明要解决的技术问题是结合基于概率统计和基于模式的本体学习方法,改进本体关系学习和评价的效果,以达到更加准确有效地建立领域本体的目的。
为实现上述目的,根据本发明的一个方面,提供了一种构建领域本体的方法,包括下列步骤:
1)选取种子领域术语,建立领域本体,并设定所述种子领域术语的信息具化度;
2)根据所述种子领域术语抽取领域术语,并根据所述种子领域术语的信息具化度计算所述领域术语的信息具化度;
3)将所述领域术语按照其信息具化度排列,计算当前领域术语和领域本体中任一领域术语的相似度;
4)根据所述信息具化度和所述相似度选择所述当前领域术语的可能的关联术语;
5)在语料库中验证所述当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度,如果可信,则将所述当前领域术语加入所述领域本体,否则,删除所述当前领域术语;
6)重复所述步骤3)、4)和5),直到所有领域术语均已经加入所述领域本体或被删除。
在上述方法中,所述步骤3)后还包括领域集中的步骤。
在上述方法中,利用如下公式计算所述领域术语的信息具化度spec(c):
spec ( c ) = S + log ( l n ) ,
其中,c为领域术语,l为c的长度,n为与c有重合部分的种子领域术语的个数,S为与c有重合部分的种子领域术语中的、信息具化度最高的种子领域术语的信息具化度。
在上述方法中,利用如下公式计算所述领域术语的信息具化度spec(c):
spec ( c ) = 1 n Σ k = 1 n spec ( t k ) 2 - S m 2 spec ( t k ) 2 + S m ,
其中,c为领域术语,n为与c有重合部分的种子领域术语的个数,tk为与c有重合部分的种子领域术语,Sm为与C有重合部分的种子领域术语的信息具化度的算术平均数。
在上述方法中,利用如下公式计算所述领域术语的信息具化度spec(c):
spec ( c ) = - Σ k = 1 n P ( t k c ) log P ( t k c ) × spec ( t k ) ,
其中,c为领域术语,n为与c有重合部分的种子领域术语的个数,tk为与c有重合部分的种子领域术语,P(tk|c)表示与c有重合部分的种子领域术语tk出现的概率。
在上述方法中,利用如下公式计算当前领域术语和领域本体中任一领域术语的相似度:
SIM(ti,tj)=SIMdoc(ti,tj)+SIMin(ti,tj),
其中,SIMdoc(ti,tj)表示当前领域术语ti和领域本体中任一领域术语tj的文档相似度,SIMin(ti,tj)表示ti和tj的内部相似度,
SIM doc ( t i , t j ) = 2 * df ( t i , t j ) df ( t i ) + df ( t j ) ,
其中,df(ti,tj)表示ti和tj都出现的文档数,df(ti)和df(tj)分别表示ti出现的文档数和tj出现的文档数。
SIM in ( t i , t j ) = 2 * cwc ( t i , t j ) | t i | + | t j | ,
其中,|ti|表示ti的词频,|tj|表示tj的词频,cwc(ti,tj)表示构成ti和tj的相同术语的个数。
在上述方法中,所述步骤4)进一步包括下列步骤:
(1)在领域本体中选择与所述当前领域术语相似度大于阈值的领域术语;
(2)从所选择的领域术语中选择信息具化度小于/大于所述当前领域术语的领域术语作为候选上/下位术语;
(3)从所述候选上/下位术语中选择信息具化度最高/最低的领域术语作为所述当前领域术语的可能的上/下位术语。
在上述方法中,所述步骤(1)还包括从所选择的领域术语中,再选择出与所述当前领域术语相似度最高的m个领域术语,其中m为正整数。
在上述方法中,所述验证进一步包括下列步骤:
根据所述当前领域术语与其可能的同义/上下位术语构建验证术语对;
将所述验证术语对表示为符合可能的同义/上下位关系模式的表达式;
在领域语料库中选取存在所述验证术语对的句子作为模式上下文,判断所述模式上下文中所述当前领域术语与其可能的同义/上下位术语之间的关系的可信度。
本发明的有益效果在于,通过改进本体关系学习和评价的过程,提供一种更加准确有效地建立领域本体的方法。
附图说明
图1是根据本发明一个具体实施例的领域本体构建流程图;
图2是根据本发明一个具体实施例的新领域术语按照信息具化度顺序插入领域本体的示意图;
图3是根据本发明一个具体实施例的选择新领域术语的可能的同义术语的示意图;
图4是根据本发明一个具体实施例的选择新领域术语的可能的上位术语的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明实施例的构建领域本体的方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1的流程图所示,根据本发明具体实施例的领域本体构建方法包括下列步骤:
a)资源选取:可以采用循环获取法。
人工选取种子领域术语,其是由人初始选择的核心术语,然后建立一个领域本体,并设定领域本体中每个种子领域术语的信息具化度。
一个术语代表一个概念,一个概念的信息具化度反映了该概念在领域中包含信息量的多少。包含领域信息量越多的概念,在领域中的信息具化度越高,即在分类体系中的层次越深。术语的信息具化度(以下简称为信息具化度)表示了概念间的上下位关系,上位概念比下位概念更泛化;反之,下位概念比上位概念更细化。
信息具化度可以用术语与给定领域分类体系之间的函数来表示,每个术语在该领域的信息具化度都可以表示为一个正实数。如公式(1)所示。
spec(c|D)∈R+                                (1)
其中c是一个术语,spec(c|D)是术语c在给定领域D中的信息具化度。若给定领域,则可以简单地用spec(c)来表示术语c的领域信息具化度。
根据每个种子领域术语在该领域本体中的位置设定该种子领域术语的信息具化度,按照种子领域术语所处层次从顶层到底层给出由低到高的信息具化度,即,最顶层的种子领域术语的信息具化度最低,最底层的种子领域术语的信息具化度最高,例如,设定顶层信息具化度为1.0,第二层信息具化度为2.0,以此类推。
b)概念学习。
依据种子领域术语从领域语料库中抽取领域术语列表。具体过程为:选取一个领域语料库,该领域语料库应选择特定领域的领域文档,如:专利、论文、技术期刊等,该特定领域与种子领域术语所属领域相同。采用自展(bootstrapping)方法,通过对种子领域术语的组合和扩展从领域语料库中抽取一组领域术语列表。其中,自展方法是统计领域常用方法,在本领域中被应用于信息扩展抽取等。该方法只需提供少量种子领域术语和一个未标注语料库作为输入,由种子领域术语开始学习抽取模式,再由学习到的模式发现新的领域术语,进一步由新发现的领域术语学习新的抽取模式,如此循环迭代。
根据种子领域术语的信息具化度计算所抽取的领域术语列表中每个领域术语的信息具化度,其表示为spec(c)。
根据本发明的一个具体实施例,设领域术语c的长度为l,领域本体中与领域术语c有重合部分的种子领域术语个数为n,与领域术语c有重合部分的种子领域术语中的其信息具化度最高为S,则 spec ( c ) = S + log ( 1 n ) . 例如:领域术语c为:“NPN型二级晶体管”,有两个种子领域术语与领域术语c有重合部分:“晶体管”、“二级晶体管”。即:“晶体管”与“NPN型二级晶体管”重合部分为“晶体管”;“二级晶体管”与“NPN型二级晶体管”重合部分为“二级晶体管”,因此n=2。而假设种子领域术语“晶体管”和“二级晶体管”其信息具化度分别为2.0和3.0,则选择S为信息具化度最高的“二级晶体管”的信息具化度3.0,即S=3.0。因此,
Figure G2009102439900D00072
Figure G2009102439900D00073
根据本发明的另一个具体实施例,设领域本体中与领域术语c有重合部分的种子领域术语有n个,分别为t1、t2...tn,它们的信息具化度分别为spec(t1)、spec(t2)...spec(tn),它们的信息具化度的算术平均数为Sm。则
spec ( c ) = 1 n Σ k = 1 n spec ( t k ) 2 - S m 2 spec ( t k ) 2 + S m - - - ( 2 )
根据本发明的再一个具体实施例,设领域本体中与领域术语c有重合部分的种子领域术语有n个,分别为t1、t2...tn,它们的信息具化度分别为spec(t1)、spec(t2)...spec(tn)。则
spec ( c ) = - Σ k = 1 n P ( t k c ) log P ( t k c ) × spec ( t k ) - - - ( 3 )
其中,概率P(tk|c)表示与c有重合部分的种子领域术语tk出现的概率,可以用词频freq(tk,c)/freq(c)来计算。
将领域本体中的领域术语按照从顶层到底层(信息具化度从低到高)顺序建立树。领域术语列表中的所有领域术语作为待插入的新领域术语,按照信息具化度升序排列,构成待插入的新领域术语队列,选择其中信息具化度最低的领域术语作为当前领域术语tnew。如图2所示,其左图表示将待插入的新领域术语按照信息具化度升序排列的队列(从右至左方向),最右边的新领域术语即为当前领域术语tnew1。右图表示待插入的树,该树初始状态为将种子领域术语按照从顶层到底层顺序建立的领域本体。
计算当前领域术语与领域本体中每个领域术语的相似度,其表示为SIM(ti,tj),其中ti和tj为两个不同术语。术语的相似度即术语间的语意重合度,如果术语共享了某些语义,则称它们相似。
根据本发明的一个具体实施例,SIM(ti,tj)=SIMdoc(ti,tj)+SIMin(ti,tj),其中,SIMdoc(ti,tj)表示两个术语的文档相似度,SIMin(ti,tj)表示两个术语的内部相似度。
如果两个术语在大多数文档中同时出现,那么它们语义相似。基于以上假设,可通过比较ti和tj的共现频率和它们分别出现频率来估计它们的文档相似度,SIMdoc(ti,tj)的计算如式(4)所示。
SIM doc ( t i , t j ) = 2 * df ( t i , t j ) df ( t i ) + df ( t j ) - - - ( 4 )
其中,df(ti,tj)表示在领域语料库中ti和tj都出现的文档数,df(ti)和df(tj)分别表示在领域语料库中ti出现的文档数和tj出现的文档数。
对于由多个基本术语组成的复合术语,词语内部信息也是计算相似度的重要线索。如果两个术语共享相同的基本术语,那么它们在给定领域中共享相同的特征,SIMin(ti,tj)的计算如式(5)所示。
SIM in ( t i , t j ) = 2 * cwc ( t i , t j ) | t i | + | t j | - - - ( 5 )
其中,|t|表示t的词频,cwc(ti,tj)表示构成ti和tj的相同术语的个数,当cwc(ti,tj)>0时,认为公式(5)所得的相似度是有效的。
根据本发明的又一个实施例,根据公式(6)计算当前领域术语与另一个领域术语的相似度:
SIM(ti,tj)=α×Match(ti,tj)Num(ti)+Match(ti,tj)Num(tj)/2   (6)
其中,Match(ti,tj):表示两个术语中含有相同字符的个数,如“计算机”与“微处理机”含有的相同字符是“机”,含有相同字符的个数是“1”;
Num(ti)、Num(tj):分别表示术语ti与tj所含字符总数;
α:表示两个术语中含有相同字符的个数对语义相似度的影响权重,在该实施例中设为0.6。
根据本发明的又一个实施例,还可以根据如下方法计算两个术语之间的相似度,计算两个术语ti与tj分别对应的向量之间的夹角的余弦值来作为相似度,余弦值越大其向量之间的夹角越小,ti与tj越相似。
如果SIM(ti,tj)大于某个经验值H(SIM(ti,tj)>H),则可认为两个术语是很相似的。根据本发明的一个具体实施例,设定H值为0.8,即SIM(ti,tj)>0.8,则认为两个术语很相似。
本领域的普通技术人员可以理解,在该实施例中,由于概念学习的步骤中选择的目标文本来源于同一个特定领域,已经限定了领域范围,所以可以省略领域集中的步骤。如果目标文本来源于不同的领域,则需要在此进行领域集中。
c)关系学习。
根据术语的相似度和信息具化度选择当前领域术语的可能的关联术语,包括同义术语和上下位术语,确定该当前领域术语与其可能的关联术语间可能存在的关系模式——同义或上下位。
如图3所示,选择当前领域术语tnew的可能的同义术语的具体步骤如下:
(1)选择领域本体中与tnew相似度为1的领域术语。例如在图3所示的示例中:满足该条件的领域术语只有1个,即t1。
(2)选择和tnew信息具化度也相同的作为tnew的可能的同义术语,则tnew可能会合并至该同义术语所在的结点。图3中的上图表示tnew可能会合并至t1的示例情况一,图3中的下图表示tnew可能会合并至t1的示例情况二。
如图4所示,选择新领域术语tnew的可能的上位术语的具体步骤如下:
(1)选择领域本体中与tnew很相似的领域术语,优选地,为了提高计算效率,再从中选择出与tnew相似度最高的m个领域术语,其中m为正整数。例如在图4所示的示例中:假设m为5,其该示例中存在4个满足与tnew很相似条件的领域术语,分别为t2、t4、t5和t6。
(2)从所选择的领域术语中选择信息具化度小于tnew的领域术语作为候选上位术语。
(3)从候选上位术语中选择信息具化度最高的领域术语作为tnew的可能的上位术语。
如图4所示,t2、t4、t5和t6与tnew相似,其中只有t2和t4比tnew更泛化,那么它们是tnew的候选上位术语。由于spec(t2)<spec(t4),所以t4是tnew可能的上位术语。
选择当前领域术语tnew的可能的下位术语的具体步骤与选择其可能的上位术语类似,此处不再具体举例说明。
获得当前领域术语的可能的同义/上下位术语后,确定该新领域术语与其可能的同义/上下位术语间可能存在的关系模式,例如图4的示例中,t4和tnew间可能存在上下位关系。
d)评价,在领域语料库中验证上述可能存在的关系模式的可信度,更具体地,对于步骤3)中获得的当前领域术语与其可能的同义/上下位术语间可能存在的关系模式,从领域语料库中获取模式上下文并判断该可能存在的关系模式的可信度。
从领域语料库中获取模式上下文具体包括下列步骤:
(1)获取验证术语对。
将上述获得的当前领域术语与其可能的同义/上下位术语表示为验证术语对,例如:
同义关系:设A为当前领域术语,B为其可能的同义术语,则验证术语对表示为(A,B),例如:(发动机,引擎);
上下位关系:设A为当前领域术语,C为其可能的上下位术语,则验证术语对表示为(C,A),例如:(燃料,汽油)。
(2)将验证术语对表示成符合组成该验证术语对的当前领域术语与其可能的同义/上下位术语的关系模式的表达式。
同义关系:术语A、B组成符合以下模式规则的表达式,且使A、B组成的验证术语对间的关系模式规则双向成立。本领域普通技术人员可以理解,以下所列举同义关系模式规则仅为示例,在此并未列举出全部关系模式规则:
A是B/B是A;
A也称为B/B也称为A;
A俗称B/B俗称A;
等等。
上下位关系:术语A、C组成符合以下模式规则的表达式,其中*匹配任意文字。本领域普通技术人员可以理解,以下所举上下位关系模式规则仅为示例,在此并未列举出全部关系模式规则:
C*包括*A;
C*可分为*A;
等等。
(3)模式上下文获取。
在领域语料库中检索验证术语对,选取存在验证术语对的句子作为模式上下文。获得模式上下文后,判断模式上下文中验证术语对内术语间的关系的可信度。
利用具有改进用户词典功能的分词器分词和词性标注方法,去掉模式上下文中“又、的、了、嘛”等停用词,将模式上下文中当前领域术语可能的同义/上下位术语用ATT标注,当前领域术语用T标注,得到该关系模式的实例。如果ATT和T间关系符合上述关系模式的表达式,则认为ATT和T间存在预期的关系。
例如:
同义关系:synonymy<脱氧核糖核酸,DNA>
脱氧核糖核酸\ATT也叫DNA\T<=>DNA\T也叫脱氧核糖核酸\ATT
上下位关系:hyponymy<晶体管,低频晶体管>样例集合:
晶体管\ATT按工作频率可分为低频晶体管\T1、高频晶体管\T2和超高频晶体管\T3等。
设可获得的存在验证术语对的句子数为N,句子中包含的ATT和T间符合关系模式的句子数为M。根据实例的数目(查询命中率)计算验证术语对的关系置信度,置信度低于阈值的即视为具有该关系。设验证术语对的关系置信度为T,则验证术语对的关系置信度公式如下:
T=log(N/M),
在本发明的一个具体实施例中,如果T<0.42,则认为该关系模式被验证为可信,将tnew1真正插入领域本体,具体地,若上面所验证的同义关系模式可信,则在领域本体中将tnew1合并至具有同义关系的结点;若上面所验证的上下位关系模式可信,则在领域本体中添加tnew1作为上位结点和/或下位结点;从而更新了领域本体。否则,该关系模式被验证为不可信,将该领域术语tnew1从待插入的新领域术语的队列中删除。
将待插入的新领域术语队列中信息具化度最低的新领域术语作为tnew2。将当前的领域本体作为领域术语tnew2在计算相似度所要用到的领域本体,重复上述计算相似度的步骤、步骤c)和步骤d)。领域术语tnew2如果插入该新领域本体,则该新领域本体再次被更新;否则,从待插入的新领域术语队列删除领域术语tnew2。对待插入的新领域术语队列中的每个领域术语都进行上述操作,如此循环迭代计算,所构建的领域本体不断扩充变大,每个待插入的当前领域术语都要和最新更新的领域本体进行相似度计算,直到所有的领域术语都插入领域本体或被从队列中删除,则该领域本体构建完成,获得最终的领域本体。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (7)

1.一种用于在基于语义的信息检索中构建领域本体的方法,包括下列步骤:
1)选取种子领域术语,建立领域本体,并设定所述种子领域术语的信息具化度,其中,所述信息具化度反映了所述种子领域术语所代表的概念在领域中包含信息量的多少;
2)根据所述种子领域术语抽取领域术语,并根据所述种子领域术语的信息具化度计算所述领域术语的信息具化度;
3)将所述领域术语按照其信息具化度从低到高的顺序建立树,构成待插入的新领域术语队列,并选择其中信息具化度最低的领域术语作为当前领域术语,计算所述当前领域术语和领域本体中每个领域术语的相似度;
4)根据所述信息具化度和所述相似度选择所述当前领域术语的可能的关联术语;
5)在语料库中验证所述当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度,如果可信,则将所述当前领域术语加入所述领域本体,否则,删除所述当前领域术语;
6)重复所述步骤3)、4)和5),直到所有领域术语均已经加入所述领域本体或被删除;
其中,所述步骤4)进一步包括下列步骤:
(1)在领域本体中选择与所述当前领域术语相似度大于阈值的领域术语;
(2)从所选择的领域术语中选择信息具化度小于/大于所述当前领域术语的领域术语作为候选上/下位术语;
(3)从所述候选上/下位术语中选择信息具化度最高/最低的领域术语作为所述当前领域术语的可能的上/下位术语;
并且其中,所述验证进一步包括下列步骤:
根据所述当前领域术语与其可能的同义/上下位术语构建验证术语对;
将所述验证术语对表示为符合可能的同义/上下位关系模式的表达式;
在领域语料库中选取存在所述验证术语对的句子作为模式上下文,判断所述模式上下文中所述当前领域术语与其可能的同义/上下位术语之间的关系的可信度。
2.根据权利要求1所述的方法,其特征在于,所述步骤3)后还包括领域集中的步骤。
3.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算所述领域术语的信息具化度spec(c):
spec ( c ) = S + log ( l n ) ,
其中,c为领域术语,l为c的长度,n为与c有重合部分的种子领域术语的个数,S为与c有重合部分的种子领域术语中的、信息具化度最高的种子领域术语的信息具化度。
4.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算所述领域术语的信息具化度spec(c):
spec ( c ) = 1 n &Sigma; k = 1 n spec ( t k ) 2 - S m 2 spec ( t k ) 2 + S m ,
其中,c为领域术语,n为与c有重合部分的种子领域术语的个数,tk为与c有重合部分的种子领域术语,Sm为与c有重合部分的种子领域术语的信息具化度的算术平均数。
5.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算所述领域术语的信息具化度spec(c):
spec ( c ) = - &Sigma; k = 1 n P ( t k c ) log P ( t k c ) &times; spec ( t k ) ,
其中,c为领域术语,n为与c有重合部分的种子领域术语的个数,tk为与c有重合部分的种子领域术语,表示与c有重合部分的种子领域术语tk出现的概率。
6.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算当前领域术语和领域本体中任一领域术语的相似度:
SIM(ti,tj)=SIMdoc(ti,tj)+SIMin(ti,tj),
其中,SIMdoc(ti,tj)表示当前领域术语ti和领域本体中任一领域术语tj的文档相似度,SIMin(ti,tj)表示ti和tj的内部相似度,
SIM doc ( t i , t j ) = 2 * df ( t i , t j ) df ( t i ) + df ( t j ) ,
其中,df(ti,tj)表示ti和tj都出现的文档数,df(ti)和df(tj)分别表示ti出现的文档数和tj出现的文档数,
SIM in ( t i , t j ) = 2 * cwc ( t i , t j ) | t i | + | t j | ,
其中,|ti|表示ti的词频,|tj|表示tj的词频,cwc(ti,tj)表示构成ti和tj的相同术语的个数。
7.根据权利要求1所述的方法,其特征在于,所述步骤(1)还包括从所选择的领域术语中,再选择出与所述当前领域术语相似度最高的m个领域术语,其中m为正整数。
CN 200910243990 2009-12-30 2009-12-30 一种构建领域本体的方法 Active CN102117281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910243990 CN102117281B (zh) 2009-12-30 2009-12-30 一种构建领域本体的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910243990 CN102117281B (zh) 2009-12-30 2009-12-30 一种构建领域本体的方法

Publications (2)

Publication Number Publication Date
CN102117281A CN102117281A (zh) 2011-07-06
CN102117281B true CN102117281B (zh) 2013-05-08

Family

ID=44216055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910243990 Active CN102117281B (zh) 2009-12-30 2009-12-30 一种构建领域本体的方法

Country Status (1)

Country Link
CN (1) CN102117281B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699568A (zh) * 2013-11-16 2014-04-02 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN105654144B (zh) * 2016-02-29 2019-01-29 东南大学 一种基于机器学习的社交网络本体构建方法
CN106446093B (zh) * 2016-09-12 2020-03-13 百度在线网络技术(北京)有限公司 一种聚合概念的方法和装置
CN106599117B (zh) * 2016-12-01 2019-12-03 安徽农业大学 一种茶学领域虚拟本体建模方法
CN106776558B (zh) * 2016-12-14 2020-06-19 北京工业大学 融合语境信息的领域术语识别方法
CN106650940B (zh) * 2016-12-26 2019-01-22 东软集团股份有限公司 一种领域知识库构建方法及装置
CN106599609A (zh) * 2017-01-13 2017-04-26 景德镇陶瓷大学 一种新的基于ChEBI描述的药物分子相似性计算方法
CN107967261B (zh) * 2017-11-17 2021-05-25 康成投资(中国)有限公司 智能客服中交互式问句语义理解方法
CN109284395B (zh) * 2018-09-13 2021-05-11 中国电子科技集团公司第二十八研究所 一种基于通用内核本体的军事领域本体构建方法
CN110610318B (zh) * 2019-09-18 2020-09-22 金润方舟科技股份有限公司 一种基于大数据的工程造价管理系统
CN110597882A (zh) * 2019-09-19 2019-12-20 北京明略软件系统有限公司 数据处理方法及装置、存储介质、电子装置
CN111008337B (zh) * 2019-11-06 2022-04-15 武汉大学 一种基于三元特征的深度注意力谣言鉴别方法及装置
US11568151B2 (en) * 2019-11-20 2023-01-31 Academia Sinica Natural language processing method and computing apparatus thereof
CN111444310A (zh) * 2019-12-02 2020-07-24 北京中科院软件中心有限公司 一种构建制造领域术语库的方法及系统
CN111597315A (zh) * 2020-05-13 2020-08-28 中国标准化研究院 一种基于多特征的术语检索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419680A (zh) * 2008-12-04 2009-04-29 复旦大学 增量迭代的领域本体协同构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419680A (zh) * 2008-12-04 2009-04-29 复旦大学 增量迭代的领域本体协同构建方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
刘仁宁等.领域本体构建方法.《武汉工业学院学报》.2008,第27卷(第1期),46-49.
学科领域本体的构建与进化-以经济学领域本体为例;杜小勇等;《现代图书情报技术》;20070325(第3期);7-12 *
杜小勇等.学科领域本体的构建与进化-以经济学领域本体为例.《现代图书情报技术》.2007,(第3期),7-12.
陈杰等.领域本体的概念相似度计算.《计算机工程与应用》.2006,(第33期),163-166.
领域本体构建方法;刘仁宁等;《武汉工业学院学报》;20080331;第27卷(第1期);46-49 *
领域本体的概念相似度计算;陈杰等;《计算机工程与应用》;20061121(第33期);163-166 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699568A (zh) * 2013-11-16 2014-04-02 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法
CN103699568B (zh) * 2013-11-16 2016-08-24 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法

Also Published As

Publication number Publication date
CN102117281A (zh) 2011-07-06

Similar Documents

Publication Publication Date Title
CN102117281B (zh) 一种构建领域本体的方法
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Khashabi et al. Question answering via integer programming over semi-structured knowledge
Xiaoxue et al. Review and trend analysis of knowledge graphs for crop pest and diseases
CN103207856B (zh) 一种本体概念及层次关系生成方法
CN105528349B (zh) 知识库中问句解析的方法及设备
CN101777042B (zh) 信息检索领域中基于神经网络和标签库的语句相似度算法
CN108710663B (zh) 一种基于本体模型的数据匹配方法及系统
US11775594B2 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN103154936A (zh) 用于自动化文本校正的方法和系统
Giordani et al. Semantic mapping between natural language questions and SQL queries via syntactic pairing
CN105279264A (zh) 一种文档的语义相关度计算方法
CN111625622B (zh) 领域本体构建方法、装置、电子设备及存储介质
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
CN112597316A (zh) 一种可解释性推理问答方法及装置
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Chen et al. A synergistic framework for geographic question answering
Nakashole Automatic extraction of facts, relations, and entities for web-scale knowledge base population
Huang et al. An effective method for constructing knowledge graph of online course
Nováček et al. Empirical merging of ontologies—a proposal of universal uncertainty representation framework
Khashabi Reasoning-Driven Question-Answering for Natural Language Understanding
Gajderowicz Using decision trees for inductively driven semantic integration and ontology matching
Lu et al. Semantic similarity measurement using knowledge-augmented multiple-prototype distributed word vector
Ning Research on the extraction of accounting multi-relationship information based on cloud computing and multimedia
Bai et al. Domain ontology learning and consistency checking based on TSC approach and racer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant