CN102117281B

CN102117281B - 一种构建领域本体的方法

Info

Publication number: CN102117281B
Application number: CN 200910243990
Authority: CN
Inventors: 赵琦; 高建忠; 黄毓瑜; 焦希泉
Original assignee: YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Current assignee: YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority date: 2009-12-30
Filing date: 2009-12-30
Publication date: 2013-05-08
Anticipated expiration: 2029-12-30
Also published as: CN102117281A

Abstract

本发明提供一种构建领域本体的方法，包括步骤：1)选取种子领域术语，建立领域本体，并设定种子领域术语的信息具化度；2)根据种子领域术语抽取领域术语，并根据种子领域术语的信息具化度计算领域术语的信息具化度；3)将领域术语按照其信息具化度排列，计算当前领域术语和领域本体中任一领域术语的相似度；4)根据信息具化度和相似度选择当前领域术语的可能的关联术语；5)在语料库中验证当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度，如果可信，则将当前领域术语加入领域本体，否则，删除当前领域术语；6)重复步骤3)、4)和5)，直到所有领域术语均已经加入领域本体或被删除。由此，更加准确有效地建立领域本体。

Description

一种构建领域本体的方法

技术领域

本发明涉及信息系统建模领域，尤其涉及一种构建领域本体(DomainOntology)的方法。

背景技术

本体(Ontology)是用于描述一个领域的术语集合，其组织结构是层次结构化的，可以作为一个知识库的骨架和基础。一般认为本体就是Gruber提出的“本体是概念模型的明确的规范说明”。

本体是近年来计算机及相关领域普遍关注的一个研究热点，作为一种能在语义和知识层次上描述信息系统的概念模型建模工具，已被广泛应用于知识工程、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。

典型的应用有：

(1)基于语义的信息检索，特别是网络搜索引擎和数字化图书馆。

(2)基于本体的数据集成、机器学习等。

(3)领域本体的应用。比如，在生物信息学中已建成的GeneOntology，尽管只包括了part-of等简单的关系，但是对生物信息学界已经有巨大的影响。

(4)语义Web服务。

(5)在线元数据管理和自动信息发布。

本体的目标是获取、描述和表示相关领域的知识，提供对该领域知识的共同理解，确定领域内共同认可的词汇，并从不同层次的形式化模式上给出了这些词汇(术语)和词汇间相互关系的明确定义。

Perez等人用分类法组织了本体，并归纳出本体的五个基本构成元素(建模元语)，即：①类(Classes)或概念(Concepts)；②关系(Relations)；③函数(Functions)；④公理(Axioms)；⑤实例(Instances)。

从语义上讲，基本的关系共有4种，如表1所示：

表1 基本的关系种类

关系名	关系描述
		part-of	表达概念之间部分与整体的关系。
kind-of	表达概念之间的继承关系，类似于面向对象中的父类与子类之间的关系。给出两个概念C和D，记C′＝{x\|x是C的实例}，D′＝{x\|x是D的实例}，如果对任意的x属于D′，x都属于C′，则称C为D的父概念，D为C的子概念
		instance-of	表达概念的实例与概念之间的关系，类似于面向对象中的对象和类之间的关系。
attribute-of	表达某个概念是另一个概念的属性。如概念“颜色”是概念“玫瑰花”的一个属性。

在实际建模过程中，不一定要严格地按照上述5类基本建模元素来创建本体，概念之间的关系也不限于上面列出的4种基本关系，可以根据领域的具体情况定义相应的关系，以满足应用的需要。

领域本体是用于描述指定领域知识的一种专门本体，它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。

本体的构建过程是个费时费力的过程，需要完整的工程化、系统化的方法来支持，目前特定的领域本体的构建过程还需要专家进行参与。

目前本体构建主要有手工构建、复用已有本体(半自动构建)以及自动构建本体三种方法。

比较有名的本体构建工程思想有：IDEF-5方法、骨架法、TOVE企业建模法、循环获取法(Cyclic Acquisition Process)等。这几种方法体系的成熟度依次为：IDEF-5方法＞企业建模法＞骨架法＞循环获取法。

其中，Alexander Maedche等的循环获取法，是一种环状结构的构建思路，类似于软件工程中的原型法思想。基本流程如下：

(1)资源选取：这是环形的起点，是一个通用的核心本体的选择。任何大型的通用本体(像Cyc、Dahlgren的本体)、词汇-语义网(像WordNet，GermaNet)、或者领域相关的本体(像TOVE)都可以作为这个过程的开始。选定基础本体后，用户必须确定用于抽取领域相关实体的文本。

(2)概念学习：从选择的文本中获取领域相关的概念，并建立概念之间的分类关系。

(3)领域集中：除去领域无关的概念，只留下和领域相关的。这时，建立起了目标本体的概念结构。

(4)关系学习：除了从基础本体中继承的一些关系，其它的关系需要通过学习的方法从文本中抽取。

(5)评价：对得到的领域相关的本体进行评价，接着还可以进一步地重复上述过程。

在上述步骤中，步骤(4)关系学习和(5)评价主要涉及到获取和验证词汇语义关系问题的解决，目前解决该问题的方法主要有两种：基于概率统计的方法和基于模式的方法。

基于概率统计的方法利用词语上下文信息，根据一些经典的统计分布假设，计算词语间相关性。这种方法从某种程度上表达了词语之间一种宽泛的关系。它不能精确地定义词语之间具体的语义关系，只是提供二者具有某种关系的佐证。基于模式的方法通过发现词语同时出现的固定模式，用这种模式来直接地表示某种固定的语义关系。实际实验中，基于模式的方法找到的语义关系的精确度更高。但是模式在文本中出现的频率较低，因此需要更多包含目标词语对的句子，以找到包含此种模式的实例。而基于概率统计的方法能够对语料中包含目标词语对的句子极尽其用，因此同样适合于非大规模语料。从总体上看，基于模式的方法和基于概率统计的方法在抽取语义关系时能够很好的互补。

发明内容

本发明要解决的技术问题是结合基于概率统计和基于模式的本体学习方法，改进本体关系学习和评价的效果，以达到更加准确有效地建立领域本体的目的。

为实现上述目的，根据本发明的一个方面，提供了一种构建领域本体的方法，包括下列步骤：

1)选取种子领域术语，建立领域本体，并设定所述种子领域术语的信息具化度；

2)根据所述种子领域术语抽取领域术语，并根据所述种子领域术语的信息具化度计算所述领域术语的信息具化度；

3)将所述领域术语按照其信息具化度排列，计算当前领域术语和领域本体中任一领域术语的相似度；

4)根据所述信息具化度和所述相似度选择所述当前领域术语的可能的关联术语；

5)在语料库中验证所述当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度，如果可信，则将所述当前领域术语加入所述领域本体，否则，删除所述当前领域术语；

6)重复所述步骤3)、4)和5)，直到所有领域术语均已经加入所述领域本体或被删除。

在上述方法中，所述步骤3)后还包括领域集中的步骤。

在上述方法中，利用如下公式计算所述领域术语的信息具化度spec(c)：

spec (c) = S + \log (\frac{l}{n}),

其中，c为领域术语，l为c的长度，n为与c有重合部分的种子领域术语的个数，S为与c有重合部分的种子领域术语中的、信息具化度最高的种子领域术语的信息具化度。

spec (c) = \frac{1}{n} Σ_{k = 1}^{n} \frac{spec {(t_{k})}^{2} - S_{m}^{2}}{spec {(t_{k})}^{2}} + S_{m},

其中，c为领域术语，n为与c有重合部分的种子领域术语的个数，t_k为与c有重合部分的种子领域术语，S_m为与C有重合部分的种子领域术语的信息具化度的算术平均数。

spec (c) = - Σ_{k = 1}^{n} P (\frac{t_{k}}{c}) \log P (\frac{t_{k}}{c}) \times spec (t_{k}),

其中，c为领域术语，n为与c有重合部分的种子领域术语的个数，t_k为与c有重合部分的种子领域术语，P(t_k|c)表示与c有重合部分的种子领域术语t_k出现的概率。

在上述方法中，利用如下公式计算当前领域术语和领域本体中任一领域术语的相似度：

SIM(t_i，t_j)＝SIM_doc(t_i，t_j)+SIM_in(t_i，t_j)，

其中，SIM_doc(t_i，t_j)表示当前领域术语t_i和领域本体中任一领域术语t_j的文档相似度，SIM_in(t_i，t_j)表示t_i和t_j的内部相似度，

{SIM}_{doc} (t_{i}, t_{j}) = \frac{2 * df (t_{i}, t_{j})}{df (t_{i}) + df (t_{j})},

其中，df(t_i，t_j)表示t_i和t_j都出现的文档数，df(t_i)和df(t_j)分别表示t_i出现的文档数和t_j出现的文档数。

{SIM}_{in} (t_{i}, t_{j}) = \frac{2 * cwc (t_{i}, t_{j})}{| t_{i} | + | t_{j} |},

其中，|t_i|表示t_i的词频，|t_j|表示t_j的词频，cwc(t_i，t_j)表示构成t_i和t_j的相同术语的个数。

在上述方法中，所述步骤4)进一步包括下列步骤：

(1)在领域本体中选择与所述当前领域术语相似度大于阈值的领域术语；

(2)从所选择的领域术语中选择信息具化度小于/大于所述当前领域术语的领域术语作为候选上/下位术语；

(3)从所述候选上/下位术语中选择信息具化度最高/最低的领域术语作为所述当前领域术语的可能的上/下位术语。

在上述方法中，所述步骤(1)还包括从所选择的领域术语中，再选择出与所述当前领域术语相似度最高的m个领域术语，其中m为正整数。

在上述方法中，所述验证进一步包括下列步骤：

根据所述当前领域术语与其可能的同义/上下位术语构建验证术语对；

将所述验证术语对表示为符合可能的同义/上下位关系模式的表达式；

在领域语料库中选取存在所述验证术语对的句子作为模式上下文，判断所述模式上下文中所述当前领域术语与其可能的同义/上下位术语之间的关系的可信度。

本发明的有益效果在于，通过改进本体关系学习和评价的过程，提供一种更加准确有效地建立领域本体的方法。

附图说明

图1是根据本发明一个具体实施例的领域本体构建流程图；

图2是根据本发明一个具体实施例的新领域术语按照信息具化度顺序插入领域本体的示意图；

图3是根据本发明一个具体实施例的选择新领域术语的可能的同义术语的示意图；

图4是根据本发明一个具体实施例的选择新领域术语的可能的上位术语的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明实施例的构建领域本体的方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1的流程图所示，根据本发明具体实施例的领域本体构建方法包括下列步骤：

a)资源选取：可以采用循环获取法。

人工选取种子领域术语，其是由人初始选择的核心术语，然后建立一个领域本体，并设定领域本体中每个种子领域术语的信息具化度。

一个术语代表一个概念，一个概念的信息具化度反映了该概念在领域中包含信息量的多少。包含领域信息量越多的概念，在领域中的信息具化度越高，即在分类体系中的层次越深。术语的信息具化度(以下简称为信息具化度)表示了概念间的上下位关系，上位概念比下位概念更泛化；反之，下位概念比上位概念更细化。

信息具化度可以用术语与给定领域分类体系之间的函数来表示，每个术语在该领域的信息具化度都可以表示为一个正实数。如公式(1)所示。

spec(c|D)∈R⁺ (1)

其中c是一个术语，spec(c|D)是术语c在给定领域D中的信息具化度。若给定领域，则可以简单地用spec(c)来表示术语c的领域信息具化度。

根据每个种子领域术语在该领域本体中的位置设定该种子领域术语的信息具化度，按照种子领域术语所处层次从顶层到底层给出由低到高的信息具化度，即，最顶层的种子领域术语的信息具化度最低，最底层的种子领域术语的信息具化度最高，例如，设定顶层信息具化度为1.0，第二层信息具化度为2.0，以此类推。

b)概念学习。

依据种子领域术语从领域语料库中抽取领域术语列表。具体过程为：选取一个领域语料库，该领域语料库应选择特定领域的领域文档，如：专利、论文、技术期刊等，该特定领域与种子领域术语所属领域相同。采用自展(bootstrapping)方法，通过对种子领域术语的组合和扩展从领域语料库中抽取一组领域术语列表。其中，自展方法是统计领域常用方法，在本领域中被应用于信息扩展抽取等。该方法只需提供少量种子领域术语和一个未标注语料库作为输入，由种子领域术语开始学习抽取模式，再由学习到的模式发现新的领域术语，进一步由新发现的领域术语学习新的抽取模式，如此循环迭代。

根据种子领域术语的信息具化度计算所抽取的领域术语列表中每个领域术语的信息具化度，其表示为spec(c)。

根据本发明的一个具体实施例，设领域术语c的长度为l，领域本体中与领域术语c有重合部分的种子领域术语个数为n，与领域术语c有重合部分的种子领域术语中的其信息具化度最高为S，则

spec (c) = S + \log (\frac{1}{n}) .

例如：领域术语c为：“NPN型二级晶体管”，有两个种子领域术语与领域术语c有重合部分：“晶体管”、“二级晶体管”。即：“晶体管”与“NPN型二级晶体管”重合部分为“晶体管”；“二级晶体管”与“NPN型二级晶体管”重合部分为“二级晶体管”，因此n＝2。而假设种子领域术语“晶体管”和“二级晶体管”其信息具化度分别为2.0和3.0，则选择S为信息具化度最高的“二级晶体管”的信息具化度3.0，即S＝3.0。因此，

根据本发明的另一个具体实施例，设领域本体中与领域术语c有重合部分的种子领域术语有n个，分别为t₁、t₂...t_n，它们的信息具化度分别为spec(t₁)、spec(t₂)...spec(t_n)，它们的信息具化度的算术平均数为S_m。则

spec (c) = \frac{1}{n} Σ_{k = 1}^{n} \frac{spec {(t_{k})}^{2} - S_{m}^{2}}{spec {(t_{k})}^{2}} + S_{m} - - - (2)

根据本发明的再一个具体实施例，设领域本体中与领域术语c有重合部分的种子领域术语有n个，分别为t₁、t₂...t_n，它们的信息具化度分别为spec(t₁)、spec(t₂)...spec(t_n)。则

spec (c) = - Σ_{k = 1}^{n} P (\frac{t_{k}}{c}) \log P (\frac{t_{k}}{c}) \times spec (t_{k}) - - - (3)

其中，概率P(t_k|c)表示与c有重合部分的种子领域术语t_k出现的概率，可以用词频freq(t_k，c)/freq(c)来计算。

将领域本体中的领域术语按照从顶层到底层(信息具化度从低到高)顺序建立树。领域术语列表中的所有领域术语作为待插入的新领域术语，按照信息具化度升序排列，构成待插入的新领域术语队列，选择其中信息具化度最低的领域术语作为当前领域术语tnew。如图2所示，其左图表示将待插入的新领域术语按照信息具化度升序排列的队列(从右至左方向)，最右边的新领域术语即为当前领域术语tnew₁。右图表示待插入的树，该树初始状态为将种子领域术语按照从顶层到底层顺序建立的领域本体。

计算当前领域术语与领域本体中每个领域术语的相似度，其表示为SIM(t_i，t_j)，其中t_i和t_j为两个不同术语。术语的相似度即术语间的语意重合度，如果术语共享了某些语义，则称它们相似。

根据本发明的一个具体实施例，SIM(t_i，t_j)＝SIM_doc(t_i，t_j)+SIM_in(t_i，t_j)，其中，SIM_doc(t_i，t_j)表示两个术语的文档相似度，SIM_in(t_i，t_j)表示两个术语的内部相似度。

如果两个术语在大多数文档中同时出现，那么它们语义相似。基于以上假设，可通过比较t_i和t_j的共现频率和它们分别出现频率来估计它们的文档相似度，SIM_doc(t_i，t_j)的计算如式(4)所示。

{SIM}_{doc} (t_{i}, t_{j}) = \frac{2 * df (t_{i}, t_{j})}{df (t_{i}) + df (t_{j})} - - - (4)

其中，df(t_i，t_j)表示在领域语料库中t_i和t_j都出现的文档数，df(t_i)和df(t_j)分别表示在领域语料库中t_i出现的文档数和t_j出现的文档数。

对于由多个基本术语组成的复合术语，词语内部信息也是计算相似度的重要线索。如果两个术语共享相同的基本术语，那么它们在给定领域中共享相同的特征，SIM_in(t_i，t_j)的计算如式(5)所示。

{SIM}_{in} (t_{i}, t_{j}) = \frac{2 * cwc (t_{i}, t_{j})}{| t_{i} | + | t_{j} |} - - - (5)

其中，|t|表示t的词频，cwc(t_i，t_j)表示构成t_i和t_j的相同术语的个数，当cwc(t_i，t_j)＞0时，认为公式(5)所得的相似度是有效的。

根据本发明的又一个实施例，根据公式(6)计算当前领域术语与另一个领域术语的相似度：

SIM(t_i，t_j)＝α×Match(t_i，t_j)Num(t_i)+Match(t_i，t_j)Num(t_j)/2 (6)

其中，Match(t_i，t_j)：表示两个术语中含有相同字符的个数，如“计算机”与“微处理机”含有的相同字符是“机”，含有相同字符的个数是“1”；

Num(t_i)、Num(t_j)：分别表示术语t_i与t_j所含字符总数；

α：表示两个术语中含有相同字符的个数对语义相似度的影响权重，在该实施例中设为0.6。

根据本发明的又一个实施例，还可以根据如下方法计算两个术语之间的相似度，计算两个术语t_i与t_j分别对应的向量之间的夹角的余弦值来作为相似度，余弦值越大其向量之间的夹角越小，t_i与t_j越相似。

如果SIM(t_i，t_j)大于某个经验值H(SIM(t_i，t_j)＞H)，则可认为两个术语是很相似的。根据本发明的一个具体实施例，设定H值为0.8，即SIM(t_i，t_j)＞0.8，则认为两个术语很相似。

本领域的普通技术人员可以理解，在该实施例中，由于概念学习的步骤中选择的目标文本来源于同一个特定领域，已经限定了领域范围，所以可以省略领域集中的步骤。如果目标文本来源于不同的领域，则需要在此进行领域集中。

c)关系学习。

根据术语的相似度和信息具化度选择当前领域术语的可能的关联术语，包括同义术语和上下位术语，确定该当前领域术语与其可能的关联术语间可能存在的关系模式——同义或上下位。

如图3所示，选择当前领域术语tnew的可能的同义术语的具体步骤如下：

(1)选择领域本体中与tnew相似度为1的领域术语。例如在图3所示的示例中：满足该条件的领域术语只有1个，即t1。

(2)选择和tnew信息具化度也相同的作为tnew的可能的同义术语，则tnew可能会合并至该同义术语所在的结点。图3中的上图表示tnew可能会合并至t1的示例情况一，图3中的下图表示tnew可能会合并至t1的示例情况二。

如图4所示，选择新领域术语tnew的可能的上位术语的具体步骤如下：

(1)选择领域本体中与tnew很相似的领域术语，优选地，为了提高计算效率，再从中选择出与tnew相似度最高的m个领域术语，其中m为正整数。例如在图4所示的示例中：假设m为5，其该示例中存在4个满足与tnew很相似条件的领域术语，分别为t2、t4、t5和t6。

(2)从所选择的领域术语中选择信息具化度小于tnew的领域术语作为候选上位术语。

(3)从候选上位术语中选择信息具化度最高的领域术语作为tnew的可能的上位术语。

如图4所示，t2、t4、t5和t6与tnew相似，其中只有t2和t4比tnew更泛化，那么它们是tnew的候选上位术语。由于spec(t2)＜spec(t4)，所以t4是tnew可能的上位术语。

选择当前领域术语tnew的可能的下位术语的具体步骤与选择其可能的上位术语类似，此处不再具体举例说明。

获得当前领域术语的可能的同义/上下位术语后，确定该新领域术语与其可能的同义/上下位术语间可能存在的关系模式，例如图4的示例中，t4和tnew间可能存在上下位关系。

d)评价，在领域语料库中验证上述可能存在的关系模式的可信度，更具体地，对于步骤3)中获得的当前领域术语与其可能的同义/上下位术语间可能存在的关系模式，从领域语料库中获取模式上下文并判断该可能存在的关系模式的可信度。

从领域语料库中获取模式上下文具体包括下列步骤：

(1)获取验证术语对。

将上述获得的当前领域术语与其可能的同义/上下位术语表示为验证术语对，例如：

同义关系：设A为当前领域术语，B为其可能的同义术语，则验证术语对表示为(A，B)，例如：(发动机，引擎)；

上下位关系：设A为当前领域术语，C为其可能的上下位术语，则验证术语对表示为(C，A)，例如：(燃料，汽油)。

(2)将验证术语对表示成符合组成该验证术语对的当前领域术语与其可能的同义/上下位术语的关系模式的表达式。

同义关系：术语A、B组成符合以下模式规则的表达式，且使A、B组成的验证术语对间的关系模式规则双向成立。本领域普通技术人员可以理解，以下所列举同义关系模式规则仅为示例，在此并未列举出全部关系模式规则：

A是B/B是A；

A也称为B/B也称为A；

A俗称B/B俗称A；

等等。

上下位关系：术语A、C组成符合以下模式规则的表达式，其中*匹配任意文字。本领域普通技术人员可以理解，以下所举上下位关系模式规则仅为示例，在此并未列举出全部关系模式规则：

C*包括*A；

C*可分为*A；

等等。

(3)模式上下文获取。

在领域语料库中检索验证术语对，选取存在验证术语对的句子作为模式上下文。获得模式上下文后，判断模式上下文中验证术语对内术语间的关系的可信度。

利用具有改进用户词典功能的分词器分词和词性标注方法，去掉模式上下文中“又、的、了、嘛”等停用词，将模式上下文中当前领域术语可能的同义/上下位术语用ATT标注，当前领域术语用T标注，得到该关系模式的实例。如果ATT和T间关系符合上述关系模式的表达式，则认为ATT和T间存在预期的关系。

例如：

同义关系：synonymy<脱氧核糖核酸，DNA>

脱氧核糖核酸\ATT也叫DNA\T<＝>DNA\T也叫脱氧核糖核酸\ATT

上下位关系：hyponymy<晶体管，低频晶体管>样例集合：

晶体管\ATT按工作频率可分为低频晶体管\T1、高频晶体管\T2和超高频晶体管\T3等。

设可获得的存在验证术语对的句子数为N，句子中包含的ATT和T间符合关系模式的句子数为M。根据实例的数目(查询命中率)计算验证术语对的关系置信度，置信度低于阈值的即视为具有该关系。设验证术语对的关系置信度为T，则验证术语对的关系置信度公式如下：

T＝log(N/M)，

在本发明的一个具体实施例中，如果T＜0.42，则认为该关系模式被验证为可信，将tnew₁真正插入领域本体，具体地，若上面所验证的同义关系模式可信，则在领域本体中将tnew₁合并至具有同义关系的结点；若上面所验证的上下位关系模式可信，则在领域本体中添加tnew₁作为上位结点和/或下位结点；从而更新了领域本体。否则，该关系模式被验证为不可信，将该领域术语tnew₁从待插入的新领域术语的队列中删除。

将待插入的新领域术语队列中信息具化度最低的新领域术语作为tnew₂。将当前的领域本体作为领域术语tnew₂在计算相似度所要用到的领域本体，重复上述计算相似度的步骤、步骤c)和步骤d)。领域术语tnew₂如果插入该新领域本体，则该新领域本体再次被更新；否则，从待插入的新领域术语队列删除领域术语tnew₂。对待插入的新领域术语队列中的每个领域术语都进行上述操作，如此循环迭代计算，所构建的领域本体不断扩充变大，每个待插入的当前领域术语都要和最新更新的领域本体进行相似度计算，直到所有的领域术语都插入领域本体或被从队列中删除，则该领域本体构建完成，获得最终的领域本体。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种用于在基于语义的信息检索中构建领域本体的方法，包括下列步骤：

1）选取种子领域术语，建立领域本体，并设定所述种子领域术语的信息具化度，其中，所述信息具化度反映了所述种子领域术语所代表的概念在领域中包含信息量的多少；

2）根据所述种子领域术语抽取领域术语，并根据所述种子领域术语的信息具化度计算所述领域术语的信息具化度；

3）将所述领域术语按照其信息具化度从低到高的顺序建立树，构成待插入的新领域术语队列，并选择其中信息具化度最低的领域术语作为当前领域术语，计算所述当前领域术语和领域本体中每个领域术语的相似度；

4）根据所述信息具化度和所述相似度选择所述当前领域术语的可能的关联术语；

5）在语料库中验证所述当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度，如果可信，则将所述当前领域术语加入所述领域本体，否则，删除所述当前领域术语；

6）重复所述步骤3）、4）和5），直到所有领域术语均已经加入所述领域本体或被删除；

其中，所述步骤4）进一步包括下列步骤：

(3)从所述候选上/下位术语中选择信息具化度最高/最低的领域术语作为所述当前领域术语的可能的上/下位术语；

并且其中，所述验证进一步包括下列步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤3）后还包括领域集中的步骤。

3.根据权利要求1或2所述的方法，其特征在于，利用如下公式计算所述领域术语的信息具化度spec(c)：

spec (c) = S + \log (\frac{l}{n}),

4.根据权利要求1或2所述的方法，其特征在于，利用如下公式计算所述领域术语的信息具化度spec(c)：

spec (c) = \frac{1}{n} Σ_{k = 1}^{n} \frac{spec {(t_{k})}^{2} - S_{m}^{2}}{spec {(t_{k})}^{2}} + S_{m},

5.根据权利要求1或2所述的方法，其特征在于，利用如下公式计算所述领域术语的信息具化度spec(c)：

spec (c) = - Σ_{k = 1}^{n} P (\frac{t_{k}}{c}) \log P (\frac{t_{k}}{c}) \times spec (t_{k}),

其中，c为领域术语，n为与c有重合部分的种子领域术语的个数，t_k为与c有重合部分的种子领域术语，表示与c有重合部分的种子领域术语t_k出现的概率。

6.根据权利要求1或2所述的方法，其特征在于，利用如下公式计算当前领域术语和领域本体中任一领域术语的相似度：

SIM(t_i,t_j)=SIM_doc(t_i,t_j)+SIM_in(t_i,t_j)，

其中，SIM_doc(t_i,t_j)表示当前领域术语t_i和领域本体中任一领域术语t_j的文档相似度，SIM_in(t_i，t_j)表示t_i和t_j的内部相似度，

{SIM}_{doc} (t_{i}, t_{j}) = \frac{2 * df (t_{i}, t_{j})}{df (t_{i}) + df (t_{j})},

其中，df(t_i,t_j)表示t_i和t_j都出现的文档数，df(t_i)和df(t_j)分别表示t_i出现的文档数和t_j出现的文档数，

{SIM}_{in} (t_{i}, t_{j}) = \frac{2 * cwc (t_{i}, t_{j})}{| t_{i} | + | t_{j} |},

其中，|t_i|表示t_i的词频，|t_j|表示t_j的词频，cwc(t_i,t_j)表示构成t_i和t_j的相同术语的个数。

7.根据权利要求1所述的方法，其特征在于，所述步骤（1）还包括从所选择的领域术语中，再选择出与所述当前领域术语相似度最高的m个领域术语，其中m为正整数。