CN102436480B

CN102436480B - 一种面向文本的知识单元关联关系挖掘方法

Info

Publication number: CN102436480B
Application number: CN 201110312882
Authority: CN
Inventors: 刘均; 郑庆华; 叶俊挺
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-10-15
Filing date: 2011-10-15
Publication date: 2013-11-06
Anticipated expiration: 2031-10-15
Also published as: CN102436480A

Abstract

本发明公开了一种面向文本的知识单元关联关系挖掘方法，按照如下步骤：(1)对文本集合进行聚类，找到具有相似主题的文本子集合，在此基础上，利用文本中术语分布的不对称性，挖掘文本间的线性关联关系；(2)利用知识单元对关联关系的局部性，产生候选知识单元对；(3)基于知识单元对的术语词频、距离和语义类型特征，对候选的知识单元对进行二值分类，识别知识单元对的关联关系。本发明可大大减少候选知识单元个数，在保证精度的前提下，有效地降低了关系挖掘的时间复杂度。

Description

一种面向文本的知识单元关联关系挖掘方法

技术领域

本发明涉及一种网络数据的检索方法，特别涉及一种面向文本的知识单元关联关系挖掘方法。

背景技术

随着计算机网络的迅速发展和日益普及，因特网上的信息以指数增长。信息时代带来了海量的数字化文本，日益积累的数据使得信息的获取越来越困难。人们的时间和精力是有限的，面对如此巨大的数字资源，无法从大量数据中迅速而准确地找到有用的信息，因而需要自动化的抽取工具，来帮助人们检索海量数据。申请人经过查新，没有找到面向文本的知识单元关联关系挖掘方法的专利，因而检索了三篇与关系挖掘相关的专利，它们分别是：

1.Relation extraction system[International Publication Number：WO2009/017464A1]；

2.Method and a system for semantic relation extraction[PublicationNumber：US 2009/0019032 A1]；

3.一种词关系挖掘方法和装置[申请公布号：CN 102129427 A]。

在专利1中，发明人提出一种将有监督学习和半监督学习相结合的方法，抽取出文本间的关系，在专利2中，发明人提出一种基于概率统计模型抽取出两个词条间的语义关系，在专利3中，发明人提出一种通过计算候选关系、关系频度以及词条的词频计算互信息，根据互信息对关系进行排序，将符合预设阈值的关系作为词条关系输出。上述三种相关专利发明所述方法都需要对所有可能的关系对进行分类，存在计算量大、计算复杂度高的缺点。

发明内容

本发明的目的是提供一种面向文本的知识单元关联关系挖掘方法，通过挖掘文本间的关系、筛选候选知识单元对和知识单元特征抽取的方法，对文本中的知识单元关联关系进行挖掘，从而可以大大减少计算量，降低计算复杂度。所述知识单元是指具有完备知识表达的最小单元。所述知识单元关联关系是指知识单元间内在的语义关系。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种面向文本的知识单元关联关系挖掘方法，包括如下步骤：

(1)文本关联挖掘：对文本集合进行聚类，找到具有相似主题的文本对，并利用核心术语分布的不对称性，挖掘文本间的线性关联关系；

(2)生成候选知识单元对：利用知识单元关联关系的局部性，产生候选的知识单元对；

(3)特征选择及知识单元关联关系挖掘：基于知识单元对的术语词频、距离和语义类型特征，使用SVM分类器将候选的知识单元对进行二值分类，挖掘知识单元间的关联关系。

其中，步骤(1)所述挖掘文本间的线性关联关系按照如下过程：

1)依据向量空间模型VSM，将文本转换为对应的术语向量；

2)根据欧式距离的定义，计算任意两个术语向量之间的距离；

3)基于术语向量之间的距离，使用AGNES聚类方法对文本集合进行聚类，在AGNES聚类过程中，以下三种情况生成文本对k＝(t_i，t_j)：

a.如果文本t_i与文本t_j的术语向量距离最小，将文本t_i和文本t_j合并为一个簇；

b.如果文本t_i与文本t_j的术语向量距离最小，且t_i属于簇S中，将文本t_j放入簇S中；

c.如果文本t_i与文本t_j的术语向量距离最小，且t_i属于簇S，t_j属于簇S′，将簇S和簇S′合并为一个新的簇；

当集合中只存在一个簇，且所有文本都在此簇中，则聚类过程结束；

4)在文本线性关联关系已知的文本集合T中，文本t_m线性关联于文本t_n，计算其术语分布特征值F(m，n)；

术语分布特征值F(m，n)的定义如下：

F (m, n) = \frac{f (C_{n}, t_{m})}{f (C_{m}, t_{n})}, f (C_{m}, t_{n}) = Σ_{ck &Element; C_{m}} tf (c_{k}, t_{n}) / | C_{m} | - - - (1)

在式(1)中，C_m表示文本t_m中的核心术语集合，c_k表示C_m中的第k个核心术语，tf(c_k，t_n)表示c_k在文本t_n中的频率；

设置阈值参数F₀的值，使其大于文本集合T中90％的F(i，j)且F₀＜1；对于文本线性关联未知的文本t_i和t_j，若F(i，j)∈[F₀，1/F₀]，则文本t_i及文本t_j判为不关联；否则文本t_i及文本t_j判为关联。

步骤(2)所述的候选知识单元对符合下述两种情况之一：

a、A_i＝{(u_ix，u_iy)|u_ix，u_iy∈t_i∧x＜y∧r(u_ix，u_iy)}，其中x，y是知识单元u_ix和知识单元u_iy在文本t_i中的序号，r(u_ix，u_iy)表示知识单元u_ix和知识单元u_iy具有相同的术语；

b、A_i′＝{(u_ix，u_jx)|u_ix∈t_i∧u_jx∈t_j∧r(u_ix，u_jx)}，其中r(u_ix，u_jx)表示知识单元u_ix和知识单元u_jx具有相同的术语，并且文本t_i和文本t_j线性关联。

所述步骤(3)的具体方法如下：

1)知识单元对的术语词频特征：

知识单元u_f和知识单元u_b之间的术语词频特征F_fb定义如下：

F_{fb} = \frac{F_{f}}{F_{f} + F_{b}} - - - (2)

其中F_f代表知识单元u_f的核心术语出现在知识单元u_b内容中的次数；同理，F_b代表知识单元u_b的核心术语出现在知识单元u_f内容中的次数；

2)知识单元对的距离特征：

知识单元对k＝(u_f，u_b)的距离d_fb的定义如下：

知识单元u_f和知识单元u_b之间的距离d_fb可以按照以下规则进行计算：

a.如果知识单元u_f和知识单元u_b属于相同文本，则距离d_fb可以表示为：

d_fb＝|f′-b′| (3)

在式(3)中，f′和b′分别表示知识单元u_f和知识单元u_b在文本中的序号值；

b.如果知识单元u_f属于文本t_a，知识单元u_b属于文本t_b，且t_a线性关联于t_b，则距离d_fb可以表示为：

d_fb＝b′-f′+n_a (4)

在式(4)中，f′和b′分别表示知识单元u_f和知识单元_ub在文本中的序号值，n_a是文本t_a中知识单元的个数；

知识单元u_f和知识单元u_b之间的距离特征D_fb的定义如下：

D_{fb} = e^{- β d_{fb}} - - - (5)

d_fb表示知识单元u_f和知识单元u_b之间的距离；β是指数系数，一般定义在0.15到0.3之间；

3)知识单元对间的语义类型特征：

5种最常见的知识单元类型对KP_max和5种最不常见的知识单元类型对KP_min，如下式所示：

对于知识单元u_f和知识单元u_b，知识单元对间的语义类型特征KP_fb定义如下：

{KP}_{fb} = \{\begin{matrix} 1 & (u_{f}, u_{b}) &Element; {KP}_{\max} \\ - 1 & (u_{f}, u_{b}) &Element; {KP}_{\min} \\ 0 & otherwise \end{matrix} - - - (8) .

本发明的优点是，利用文本中核心术语分布的不对称性，挖掘文本间的线性关联关系，并发现了知识单元对关联关系所具有的局部性，将距离小且具有相同术语的知识单元作为候选知识单元对，从而大大减少候选知识单元个数，在保证精度的前提下，有效地降低了关系挖掘的时间复杂度。

附图说明

图1是对5个知识单元之间的学习依赖关系的说明。

图2是面向文本的知识单元关联关系的挖掘过程。

具体实施方式

以下结合附图对本发明的具体技术方案作进一步的详细描述。

如图2所示，本发明的面向文本的知识单元关联关系的挖掘方法包括3个步骤，其具体流程为：

1、文本关联挖掘：

文本是存储知识单元的一种载体。知识单元是指具有完备知识表达的最小单元。知识单元之间存在关联关系(也称作学习依赖关系)，学习一个知识单元之前往往需要先学习某些其它的知识单元。例如，在平面几何中，需要先学习知识单元“三角形的定义”，才能学习知识单元“三角形的内角和定理”，因此知识单元“三角形的内角和定理”和知识单元“三角形的定义”具有关联关系，知识单元“三角形的定义”是知识单元“三角形的内角和定理”的前驱(图1)。

表1是平面几何课程中部分知识单元与学习依赖关系的例子。

从表1中可以看出，知识单元5的前驱是知识单元1、2、3、4，即在学习知识单元“三角形外角定理”之前，需要先学习知识单元“内角的定义”、“三角形的定义”、“外角的定义”和“三角形内角和定理”。

如果文本t_i和文本t_j内容相关，且文本t_i中的知识单元大多为文本t_j中知识单元的前驱，则称文本t_i线性关联于文本t_j。通过对已有标注数据的统计分析，发现在大部分具有线性关联关系的文本之间存在核心术语分布不对称的现象，即若文本t_i线性依赖于文本t_j，则文本t_i中的核心术语出现在文本t_j中的次数会远远大于文本t_j中的核心术语出现在文本t_i中的次数。我们用术语分布特征值F(m，n)【其中参数i、j与权利要求中的m、n不一致？下同】描述这一特征，用于挖掘文本间的线性关联关系。

表1知识单元和学习依赖关系

术语分布特征值F(m，n)的定义如下：

F (m, n) = \frac{f (C_{n}, t_{m})}{f (C_{m}, t_{n})}, f (C_{m}, t_{n}) = Σ_{c_{k} &Element; C_{m}} tf (c_{k}, t_{n}) / | C_{m} | - - - (1)

在式(1)中，C_n表示文本t_n中的核心术语集合，c_k表示C_m中的第k个核心术语，tf(c_k，t_n)表示c_k在t_n中出现的次数。

文本关联挖掘按照如下过程：

(1)依据向量空间模型VSM，将文本转换为对应的术语向量；

(2)根据欧式距离的定义，计算任意两个术语向量之间的距离；

(3)基于术语向量之间的距离，使用AGNES聚类方法对文本集合进行聚类，在AGNES聚类过程中，以下三种情况生成文本对k＝(t_i，t_j)：

当集合中只存在一个簇，且所有文本都在此簇中，则聚类过程结束。

(4)在已经标注的数据中，文本线性关联关系已知，计算出其中所有线性关联文本的术语分布特征值F(m，n)(文本t_m线性关联于文本t_n)；设置阈值参数F₀的值，使其大于文本集合T中90％的F(i，j)且F₀＜1。

在AGNES聚类过程中生成了文本对k＝(t_i，t_j)，若其术语分布特征值F(i，j)∈[F₀，1/F₀]，则文本t_i及文本t_j不存在线性关联关系；否则文本t_i及文本t_j存在线性关联关系。

2.生成候选知识单元对：

知识单元u_f和知识单元u_b之间的距离根据以下两种情况分别定义为：

a.如果知识单元u_f和知识单元u_b属于同一文本，则两个知识单元之间的距离d_fb为：

d_fb＝|f′-b′| (3)

其中，f′和b′分别表示知识单元u_f和知识单元u_b在文本中的序号值。

b.如果知识单元u_f属于文本t_a，知识单元u_b属于文本t_b，且文本t_a线性关联于文本t_b，则距离d_fb定义为：

d_fb＝b′-f′+n_a (4)

在式(4)中，f′和b′分别表示知识单元u_f和知识单元u_b在文本中的序号值，n_a是文本t_a中知识单元的个数。

根据上述对知识单元间距离的定义，对标注数据中的具有学习依赖关系的知识单元对进行统计分析，得到学习依赖关系的知识单元的距离分布，对该数据进行曲线拟合，得到以下结果：

s_d∝e^-βd (9)

其中s_d表示存在学习依赖关系且距离为d的知识单元的比例，β是指数分布系数且β＞0，若β的值越小，则具有学习依赖关系的知识单元的分布就越紧密。

知识单元间距离的局部性说明若两个知识单元之间存在学习依赖关系，则这两个知识单元间的距离很有可能较小，因而在判断知识单元间是否存在关联关系时，就没有必要将某个知识单元与所有其他知识单元进行匹配，而只需要与其距离小于某一阈值的知识单元进行匹配(将一个文本中存在的知识单元个数的最大值作为该阈值)，作为候选的知识单元对，从而大大地减少了计算量，由于将计算的复杂度由原来的O(n²)降低为O(n)，从而提高了效率。

基于以上分析，我们将符合下述两种情况之一的知识单元对定义为候选知识单元对：

(1)A_i＝{(u_ix，u_iy)|u_ix，u_iy∈t_i∧x＜y∧r(u_ix，u_iy)}，其中x，y是知识单元u_ix和知识单元u_iy在文本t_i中的序号，r(u_ix，u_iy)表示知识单元u_ix和知识单元u_iy具有相同的术语；

(2)A_i′＝{(u_ix，u_jx)|u_ix∈t_i∧u_jx∈t_j∧r(u_ix，u_jx)}，其中r(u_ix，u_jx)表示知识单元u_ix和知识单元u_jx具有相同的术语，并且文本t_i和文本t_j线性关联。

3.特征选择及知识单元关联挖掘：

选定候选知识单元对之后，抽取出知识单元的特征，使用支持向量机对其进行二值分类，判断两个知识单元之间是否存在关联关系。通过对标注过的数据的分析，我们提取了三种对判断关联关系影响最大的特征，其分别为知识单元对的术语词频特征、知识单元对的距离特征以及知识单元对间的语义类型特征。

(1)知识单元对的术语词频特征：

知识单元u_f和知识单元u_b之间的术语词频特征F_fb定义如下：

F_{fb} = \frac{F_{f}}{F_{f} + F_{b}} - - - (2)

其中F_f代表知识单元u_f的核心术语出现在知识单元u_b内容中的次数；类似地，F_b代表知识单元u_b的核心术语出现在知识单元u_f内容中的次数。

(2)知识单元对的距离特征：

知识单元u_f和知识单元u_b之间的距离特征D_fb的定义如下：

D_{fb} = e^{- β d_{fb}} - - - (5)

d_fb表示知识单元u_f和知识单元u_b之间的距离，D_fb说明u_f和u_b之间存在关联关系的可能性随着距离d_fb的增加而指数减少。

(3)知识单元对间的语义类型特征：

知识单元具有8种语义类型：定义类、属性类、示例类、实例类、方法类、分类类、区别类和演化类。通过统计分析已标注的数据，挖掘出5种最常见的知识单元类型对KP_max和5种最不常见的知识单元类型对KP_min，如下所示：

{KP}_{fb} = \{\begin{matrix} 1 & (u_{f}, u_{b}) &Element; {KP}_{\max} \\ - 1 & (u_{f}, u_{b}) &Element; {KP}_{\min} \\ 0 & otherwise \end{matrix} - - - (8)

基于上述三种特征，对候选知识单元对进行二值分类。通过实验比较，发现使用支持向量机分类器可以得到较为理想的分类结果，从而实现了面向文本的知识单元关联关系挖掘功能。

Claims

1.一种面向文本的知识单元关联关系挖掘方法，其特征在于，按照如下步骤：

（1）文本关联挖掘：对文本集合进行聚类，找到具有相似主题的文本对，并利用核心术语分布的不对称性，挖掘文本间的线性关联关系；

（2）生成候选知识单元对：利用知识单元关联关系的局部性，产生候选的知识单元对；

（3）特征选择及知识单元关联关系挖掘：基于知识单元对的术语词频、距离和语义类型特征，使用SVM分类器将候选的知识单元对进行二值分类，挖掘知识单元间的关联关系；

其中，步骤（1）所述挖掘文本间的线性关联关系按照如下过程：

1）依据向量空间模型VSM，将文本转换为对应的术语向量；

2）根据欧式距离的定义，计算任意两个术语向量之间的距离；

3）基于术语向量之间的距离，使用AGNES聚类方法对文本集合进行聚类，在AGNES聚类过程中，以下三种情况生成文本对k＝(t_i,t_j)：

c.如果文本t_i与文本t_j的术语向量距离最小，且t_i属于簇S，t_j属于簇S'，将簇S和簇S'合并为一个新的簇；

4）在文本线性关联关系已知的文本集合T中，文本t_m线性关联于文本t_n，计算其术语分布特征值F(m,n)；

术语分布特征值F(m,n)的定义如下：

F (m, n) = \frac{f (C_{n}, t_{m})}{f (C_{m}, t_{n})},

f (C_{m}, t_{n}) = Σ_{c_{k} &Element; C_{m}} tf (c_{k}, t_{n}) / | C_{m} | - - - (1)

在式（1）中，C_m表示文本t_m中的核心术语集合，c_k表示C_m中的第k个核心术语，tf(c_k,t_n)表示c_k在文本t_n中的频率；

设置阈值参数F₀的值，使其大于文本集合T中90%的F(i,j)且F₀＜1；对于文本线性关联未知的文本t_i和t_j，若F(i,j)∈[F₀,1/F₀]，则文本t_i及文本t_j判为不关联；否则文本t_i及文本t_j判为关联。

2.根据权利要求1所述的一种面向文本的知识单元关联关系挖掘方法，其特征在于，所述步骤（3）的具体方法如下：

1）知识单元对的术语词频特征：

知识单元u_f和知识单元u_b之间的术语词频特征F_fb定义如下：

F_{fb} = \frac{F_{f}}{F_{f} + F_{b}} - - - (2)

2）知识单元对的距离特征：

知识单元对k＝(u_f,u_b)的距离d_fb的定义如下：

知识单元u_f和知识单元u_b之间的距离d_fb按照以下规则进行计算：

a.如果知识单元u_f和知识单元u_b属于相同文本，则距离d_fb表示为：

d_fb＝|f'-b'| （3）

在式（3）中，f'和b'分别表示知识单元u_f和知识单元u_b在文本中的序号值；

b.如果知识单元u_f属于文本t_a，知识单元u_b属于文本t_b，且t_a线性关联于t_b，则距离d_fb表示为：

d_fb＝b'-f'+n_a （4）

在式（4）中，f'和b'分别表示知识单元u_f和知识单元u_b在文本中的序号值，n_a是文本t_a中知识单元的个数；

知识单元u_f和知识单元u_b之间的距离特征D_fb的定义如下：

D_fb＝e^-βdfb （5）

d_fb表示知识单元u_f和知识单元u_b之间的距离；β是指数系数，定义在0.15到0.3之间；

3）知识单元对间的语义类型特征：

{KP}_{fb} = \{\begin{matrix} 1 & (u_{f}, u_{b}) &Element; {KP}_{\max} \\ - 1 & (u_{f}, u_{b}) &Element; {KP}_{\min} \\ 0 & otherwise \end{matrix} - - - (8) .