CN105654144A

CN105654144A - 一种基于机器学习的社交网络本体构建方法

Info

Publication number: CN105654144A
Application number: CN201610115254.7A
Authority: CN
Inventors: 吴天星; 李丞; 漆桂林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-02-29
Filing date: 2016-02-29
Publication date: 2016-06-08
Anticipated expiration: 2036-02-29
Also published as: CN105654144B

Abstract

本发明公开了一种基于机器学习的社交网络本体构建方法，主要用于处理社交网络上的标签之间的上下位关系(即传统意义上的包含关系)的判定以及相应的本体的构建问题；从社交网络上抓取标签作为原始的数据集。本发明首先设计了6个特征值用于刻画任意两个标签之间的相似性，接着从原始数据集中挑选了部分标签对，结合它们的相似性特征值构成训练数据集，并人工对训练数据集中的标签对是否具有上下位关系进行标注；然后利用RandomForest的机器学习模型训练我们的训练数据集得到分类器模型；之后利用分类器模型对原始数据中任意两个标签之间的上下位关系进行判定并标注；抽取出所有具有上下位关系的标签对，构建出最终的社交网络本体。

Description

一种基于机器学习的社交网络本体构建方法

技术领域

本发明属于本体构建领域，涉及一种基于机器学习的社交网络本体构建方法。

背景技术

近年来，社交网络飞速发展，越来越多的人开始使用社交网络。随着社交网络的普及，社交网络之中的数据量也越来越大。很多社交站点允许用户通过自定义标签的方式对一些内容进行标注和分类，即我们所说的分众分类法。这些通过用户自定义的方式产生的分类标签缺乏规范性，可能会有语义模糊、用词不准确、一词多义以及同词异意等问题。这就给基于分众分类法的社交本体的构建带来了极大的挑战。

社交网络上存在大量的平面的、杂乱的、无组织的数据，这些数据得不到充分的利用。而构建本体就是对这些数据进行建模的一个很好的方式。将这些平面的数据通过本体组织起来，能让我们更好的去利用这些数据，同时也可以利用本体的结构去挖掘更多社交网络上不断涌现的新知识。

不同的本体构建方法，其构建效果也千差万别。近年来，国内外研究人员为了解决分众分类的本体构建问题，提出了许多不同的本体构建方法，包括周鑫等人提出的基于概念外延的Folksonomy语义关系挖掘方法、XianceSi等人提出的基于标签共现的本体构建方法、HuairenLin等人提出的一种基于关联规则挖掘和本体概念匹配的社交本体的构建方法以及Wen-haoChen等人提出的一种基于基础概念的分众分类本体构建方法等。但这些方法都是仅仅基于标签共现和关联规则挖掘来实现本体的构建，无法深入挖掘本体中标签之间的语义关系，因此构建效果并不尽如人意，达不到实用要求。

本文中所提出的基于机器学习的社交本体的构建方法，通过设计包括标签共现在内的七个相似性特征值去刻画两个标签之间的相似程度，从语言学、语义以及标签共现三个角度，全方位描述两个标签的语义关系，让计算机能够深入理解这两个标签的语义关系，而不仅仅停留于字面的意思，很好地提升了最终的社交的本体构建的效果。

发明内容

技术问题：本发明提供一种对于给定的两个标签，能够自动判断这两个标签是否具有上下位关系的基于机器学习的社交网络本体构建方法。同时，本发明从社交网络上抓取标签，对这些标签自动进行上下位关系的标注之后，抽取出所有具有上下位关系的标签对，并利用这些标签，构建出最终的社交本体。

技术方案：本发明的基于机器学习的社交网络本体构建方法，首先从社交网络上抓取标签作为原始数据集；然后从原始数据集中随机生成m对标签并人工从原始数据抽取出n对具有上下位关系的标签作为训练数据集，m和n的比例在3∶1到5∶1之间；接着人工对训练数据集中的每对标签是否具有上下位关系进行标注；然后设计了6个用于刻画两个标签之间的相似性的特征，并计算训练数据集中每对标签的这七个特征值，一并加入到训练数据集之中；使用机器学习中的RandomForest分类模型和十层交叉验证的方式对我们的训练数据集进行分类和验证之后，导出该训练数据集对应的分类器模型；利用导出的分类器模型对原始数据进行自动标注；最后抽取出所有被标注为具有上下位关系的标签对，构建最终的社交本体。

本发明的基于机器学习的社交网络本体构建方法，包括如下步骤：

1)从社交网络抓取标签构成原始数据集。

2)从所述原始数据集中随机生成n对标签，从原始数据集抽取m对具有上下位关系的标签对构成训练数据集，n和m的比例保持在3∶1到5∶1之间；然后计算所述训练数据集中每对标签的相似性特征值，并把它们加入到训练数据集之中；

3)使用机器学习中的RandomForest分类模型和十层交叉验证的方式对所述步骤2)最终得到的训练数据集进行自动分类后，导出该训练数据集对应的分类器模型；

4)考虑标签的前后顺序，将原始数据中所有标签两两搭配，得到所有的标签对，然后利用所述步骤3)中所得的分类器模型对所有的标签对是否具有上下位关系自动进行判定并标注；

5)抽取出所有被标注为具有上下位关系的标签对，按照如下规则构建一个有向无环图，即为社交网络本体：

a)在构建过程中，如果出现环路，则去除该环路中权值最小的边；

b)在构建过程中，如果两个节点之间不止一条路径，则保留最长的路径，即保留边的数目最多的路径。

本发明的优选方案中，所述步骤2)中计算训练数据集中每对标签的相似性特征值，具体是按如下各公式分别计算用于刻画标签之间相似性的6个特征值：

CLsim (c_{1}, c_{2}) = \frac{LCS (L (c_{1}), L (c_{2}))}{| L (c_{1}) |}

其中，c₁，c₂为任意两个标签，L(c₁)表示标签c₁的文本字符串，L(c₂)表示标签c₂的文本字符串，LCS(L(c₁)，L(c₂))表示标签c₁，c₂的公共字符串长度，|L(c₁)|表示标签c₁的字符串长度；

RCSsim (c_{1}, c_{2}) = \frac{| RCS (c_{1}) \cap RCS (c_{2}) |}{| RCS (c_{1}) |}

其中，RCS(c₁)表示标签c₁的relatedcategory集合，RCS(c₂)表示标签c₂的relatedcategory集合，|RCS(c₁)|表示标签c₁的relatedcategory集合中的元素个数，|RCS(c₁)∩RCS(c₂)|表示标签c₁的relatedcategory集合和标签c₂的relatedcategory集合的交集的元素个数；

RCVsim (c_{1}, c_{2}) = \frac{Σ_{r &Element; RCS (c_{1}) \cap RCS (c_{2})} rc (c_{1}) * rc (c_{2})}{Σ_{r &Element; RCS (c_{1})} rc (c_{1})^2}

其中，rc(c₁)表示标签r在RCS(c₁)中的权重，rc(c₂)表示r在RCS(c₂)中的权重；

TCsim (c_{1}, c_{2}) = \frac{Σ_{i = 1}^{n} TC {(c_{1})}_{i} * TC {(c_{2})}_{i}}{Σ_{i = 1}^{n} TC {(c_{1})}_{i}^2}

其中，TC(c₁)为c₁的相似性特征向量，TC(c₂)为c₂的相似性特征向量，TC(c₁)_i是TC(c₁)的第i维的值，TC(c₂)_i是TC(c₂)的第i维的值，n是TC(c₁)和TC(c₂)的维度；

CAGsim (c_{1}, c_{2}) = \frac{| C (c_{1}) \cap C (c_{2}) |}{| C (c_{1}) |}

其中，C(c₁)＝(c₁₁，c₁₂，….，c_1n)，c₁₁～c_1n是与标签c1标注过同一个问题的所有标签，C(c₂)＝(c₂₁，c₂₂，….，c_2n)，c₂₁～c_2n是与标签c₂标注过同一个问题的所有标签，C(c₁)∩C(c₂)表示C(c₁)和C(c₂)的交集，|C(c₁)∩C(c₂)|等于C(c₁)和C(c₂)的集合的交集标签个数，|C(c₁)|表示C(c₁)的集合内的标签个数；

CAVsim (c_{1}, c_{2}) = \frac{Σ_{c &Element; C (c_{1}) \cap C (c_{2})} V_{1} (c) * V_{2} (c)}{Σ_{c &Element; C (c_{1})} V_{1} (c)^2}

其中，V₁(c)表示标签c在C(c₁)的集合中的权重，V₂(c)表示标签c在C(c₂)的集合中的权重。

本发明的优选方案中，所述步骤2)中，权重rc(c₁)设置为r在RCS(c₁)中重复出现的次数；权重rc(c₂)设置为r在RCS(c₂)中重复出现的次数；权重V₁(c)设置为c在C(c₁)中重复出现的次数；权重V₂(c)设置为c在C(c₂)中重复出现的次数。

有益效果：本发明与现有技术相比，具有以下优点：

由于本体的构建方法不同，因此不同方法构建本体的效果也千差万别。近年来，国内外研究人员为了解决基于分众分类的本体的构建问题，提出了很多不同的本体构建方法，其中与本发明最接近的是基于概念外延的Folksonomy语义关系挖掘方法、基于标签共现的本体构建方法以及基于关联规则挖掘和本体概念匹配的社交本体的构建方法。

基于概念外延的Folksonomy语义关系挖掘方法，引入了一个“概念外延”的概念。一个标签Tag₁的概念外延是指所有被Tag₁标注的次数大于某一阈值的资源的集合。通过界定两个标签的概念外延之间的关系来判断两个标签的语义关系。该方法提出：如果Tag₂的外延是Tag₁的外延的真子集，那么Tag₂和Tag₁具有上下位关系，并且Tag₁是Tag₂的上位。用公式来刻画该观点即：

P (A | B) = \frac{P (A \cap B)}{P (B)} = \frac{| EO (A) \cap EO (B) |}{| EO (B) |}

其中EO(A)和EO(B)分别表示标签A的概念外延和标签B的概念外延。如果P(A|B)大于某一阈值，则可判定标签A和B是具有上下位关系的。

通过以上对该方法的过程分析可以看出，基于概念外延的Folksonomy语义挖掘方法本质上是用一系列和该标签相关的资源所构成的集合来代表该标签。通过两个标签的集合的相交的情况来判定两个标签的语义关系。该方法和本发明的6个特征之一的RCSsim特征最为类似。但是由于该方法没有考虑集合中每个资源的权值是不一样的，所以在很多情况下该方法效果不理想。

本发明受该方法的启发，在该方法的基础上创新性地进行了改进。相比较而言，本发明在相似性特征的设计方面进行了创新性的改变。本发明不仅设计了和该方法类似的RCSsim这个特征，利用两个标签的相关资源集合的相交情况来刻画两个标签的语义关系，还更进一步地考虑不了资源集合中每个资源的权值，设计了RCVsim这个特征。通过为集合中每个资源引入权值，使得这些资源对该标签的刻画更加精确，一些重要的资源被赋予较高的权值，而集合中的噪声数据在被赋予一个较小的权值之后，就减弱了噪声数据对实验结果的影响，这使得本发明相较于该方法效果更加理想。除此之外，该方法仅仅从集合相交这一个角度来设计相似性特征，非常容易受到一些不稳定因素的影响，如异常数据等。而本发明除了从这个角度之外，还从语言学以及标签共现的角度对两个标签之间的语义关系进行相似性特征的设计。通过从三个方面进行相似性特征设计，对两个标签之间的语义关系进行全面的刻画，使得原来单一角度的异常数据所造成的不稳定缺陷被其他特征所弥补，效果更加理想。

基于标签共现的本体构建方法，该方法提出了基于标签和标签的共现、标签和文档的共现以及标签和描述信息的共现三种共现的刻画方式，该方法使用了三个不同的方式来刻画了标签之间的共现关系。该方法于本发明所采用的方法的区别在于，该方法虽然使用了三种共现方式，但其仍然是仅仅从共现这一个角度来进行相似性特征设计，单一角度的相似性特征对标签之间的语义关系的刻画不够深入，必然会导致结果的不稳定性，结果容易受到异常数据、噪声数据的影响而导致效果不佳。本发明受该方法的启发，在该方法的基础上，对相似性特征设计的方法做了改进。在相似性特征设计方面，本发明除了从标签共现角度，还从语言学以及语义关系的角度进行了相似性特征的设计。通过设计这三个角度的相似性特征，利用它们共同去刻画标签间的语义关系而不仅仅采用标签共现这个单一的角度，可以使相似性特征对标签间的语义关系的刻画更加精确深入。因而最终的效果更加理想。

基于关联规则挖掘和本体概念匹配的社交本体的构建方法，该方法首先采用了关联规则挖掘对标签之间的关联规则进行挖掘，对标签之间的语义关系首先进行了一个模糊的判定，接着利用一些已有的本体库中的语义关系和已有的关系进行匹配，最终得到标签之间的语义关系。该方法和本发明所采用的方法的区别在于，该方法在判定两个标签的语义关系之前并未设计相关相似性特征对两个标签间的语义关系进行刻画，而是直接使用关联规则挖掘和本体概念匹配的方式确定两个标签之间的语义关系。而本发明是先设计了相似性特征对两个标签间的语义关系进行定量的刻画，然后再使用机器学习中的监督学习法确定标签间的语义关系。该方法的缺陷在于：第一步关联规则挖掘得到的语义关系大部分都是模糊的、不精确的语义关系，即使通过第二步的和本体库中的语义关系进行匹配后，部分语义关系变精确，但是对于本体库中不存在的，无法进行匹配的标签对间的语义关系，仍然存在大量语义模糊、不精确的现象。而本发明所采用的方法的核心是设计相似性特征，通过相似性特征的设计并不需要依赖于已有的本体库，相较于该方法适用的情形更广。本发明也并未使用关联规则挖掘的方法，而是通过设计相关相似性特征去精确刻画两个标签的语义关系，再使用机器学习中的监督学习法，确定两个标签间的语义关系，因此语义关系中语义模糊、不精确的现象也不存在。

此外，以上几种方法，在对规范化的词语构成的标签之间的语义关系进行判定时，效果都比较好。然而它们对社交网络上涌现出的一些新词的判定效果都不太理想。这是因为以上几种方法对标签间的语义关系的刻画都不够深入，仅仅从单一的角度或者根本没有对标签间的语义关系进行刻画，相似性特征设计也只考虑到了单一的角度。而本发明的发明点在于，受已有方法的启发，不仅设计了相似性特征，而且在设计相似性特征的方法上做出了创新。本发明从语言学、语义以及标签共现三个角度，设计了6个相似性特征，来对标签间的语义关系进行刻画。这种刻画更加全面深入，使计算机能够“理解”标签间的语义关系，因此本发明在对社交网络上出现的一些新词间的语义关系的判定上表现的也很好。

经对实验结果的抽样统计，本发明对不具备上下位关系的标签对的判定正确率高达96％，而我们重点关注的具有上下位关系的标签对的判定正确率为88％，最终的效果很好。

附图说明

图1是本发明的基本过程示意图；

图2是层次体系结构构建算法图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

本发明的基于机器学习的本体构建方法，包括以下几个步骤：

1)利用爬虫技术，从社交网络中抓取标签。可根据本体构建规模的需要调整原始数据集中标签对的数量，原始数据集中标签对数量越多，则最终的本体构建的规模也越大

2)生成训练数据集。

(2a)利用已有的随机函数从原始数据集随机生成m对的标签对。

(2b)人工从原始数据集中挑选n对具有上下位关系的标签对。这n对标签均匀地分布在整个原始数据集中，而不是集中在某一区域。

(2c)m和n的比例在3∶1到5∶1之间均可。

(2d)以上三个步骤得到的标签是初始的训练数据集，人工对训练数据集中的标签对进行标注，具有上下位关系，则标注为“Y”，不具有上下位关系则标注为“N”。

3)计算训练数据集中每对标签的相似特征值，并加入到训练数据集之中。具体按如下公式计算6个用于刻画标签之间相似性的特征值：

CLsim (c_{1}, c_{2}) = \frac{LCS (L (c_{1}), L (c_{2}))}{| L (c_{1}) |}

RCSsim (c_{1}, c_{2}) = \frac{| RCS (c_{1}) \cap RCS (c_{2}) |}{| RCS (c_{1}) |}

标签c₁的relatedcategory集合是指：将标签c₁提交到百度知道搜索引擎，获取搜索结果的前n页的所有问题，n大于等于10。每一个问题都有标签(category)来标注它们。由所有的这些category构成的集合就是标签c₁的relatedcategory集合。

RCVsim (c_{1}, c_{2}) = \frac{Σ_{r &Element; RCS (c_{1}) \cap RCS (c_{2})} rc (c_{1}) * rc (c_{2})}{Σ_{r &Element; RCS (c_{1})} rc (c_{1})^2}

其中，rc(c₁)表示标签r在RCS(c₁)中的权重，即r在RCS(c₁)中重复出现的次数，rc(c₂)表示r在RCS(c₂)中的权重，即r在RCS(c₂)中重复出现的次数；

TCsim (c_{1}, c_{2}) = \frac{Σ_{i = 1}^{n} TC {(c_{1})}_{i} * TC {(c_{2})}_{i}}{Σ_{i = 1}^{n} TC {(c_{1})}_{i}^2}

任意一个标签c₁的特征向量的计算方法如下：

将标签c₁提交到百度搜索引擎，获取前m条搜索记录，m大于等于20。抓取每条记录的snippet部分，即我们通常所说的百度快照部分。

这些内容用来代表标签c₁。接着我们使用中文分词算法来对每一个标签的这些内容进行分词，得到n个关键词。这n个关键词形成一个虚拟的文档来表示标签c₁，记为l(c₁)＝(k₁，k₂，...，k_n)。

我们定义标签c₁的特征向量为TC(c₁)。TC(c₁)是一个N维的向量。N是所有标签的所有关键词个数总和。

TC(c₁)的第i维TC(c₁)_i的值等于第i个关键词在标签c₁的文档中的TF-IDF值

CAGsim (c_{1}, c_{2}) = \frac{| C (c_{1}) \cap C (c_{2}) |}{| C (c_{1}) |}

其中，C(c₁)＝(c₁₁，c₁₂，….，c_1n)，c₁₁～c_1n是与标签c₁标注过同一个问题的所有标签，C(c₂)＝(c₂₁，c₂₂，….，c_2n)，c₂₁～c_2n是与标签c₂标注过同一个问题的所有标签，C(c₁)∩C(c₂)表示C(c₁)和C(c₂)的交集，|C(c₁)∩C(c₂)|等于C(c₁)和C(c₂)的集合的交集标签个数，|C(c₁)|表示C(c₁)的集合内的标签个数；

CAVsim (c_{1}, c_{2}) = \frac{Σ_{c &Element; C (c_{1}) \cap C (c_{2})} V_{1} (c) * V_{2} (c)}{Σ_{c &Element; C (c_{1})} V_{1} (c)^2}

其中，V₁(c)表示标签c在C(c₁)中的权重，即标签c在C(c₁)中出现的次数，V₂(c)表示标签c在C(c₂)中的权重，即标签c在C(c₂)中出现的次数；

4)使用机器学习中的RandomForest分类模型和十层交叉验证的方式对以上步骤最终得到的训练数据集进行自动分类后，导出该训练数据集对应的分类器模型；

5)设原始数据集内任意两个标签c₁和c₂，考虑标签的前后顺序，将这两个标签搭配成两对标签：c₁，c₂和c₂，c₁；将原始数据集内的所有标签按此方式两两搭配，得到所有的标签对。

6)利用导出分类器模型，自动给出标签对的两个标签之间具有上下位关系的预测概率，并标注。如果两个标签具有上下位关系预测概率大于0.9，则标注为“Y”，否则标注为“N”。

7)抽取出所有被分类器自动标注为具有上下位关系(“Y”类别)的标签对，按照如下规则构建一个有向无环图，即为社交网络本体：

b)在构建过程中，如果两个节点之间不止一条路径，则保留最长的路径，即保留边的数目最多的路径；

具体构建的算法流程如下：

算法：构建层次体系结构

输入：R＝{t_a→t_b|t_a∈T，t_b∈T}

输出：G＝(V，E)

该算法中T表示标签集，R表示所有上下位关系的集合。每个上下位关系的权值设置为该上下位关系的预测概率，由分类器在自动标注时给出。该算法首先从R中取出权值最大的上下位关系，作为初始的层次结构。接着从R中取出所有和当前的层次结构有交集的上下位关系并将其加入到当前的层次结构中，对当前层次结构进行扩展。如若R中不再有与当前层次结构有交集的上下位关系，重复第一步的步骤，从R中重新选择权值最大的一个上下位关系，继续重复上述步骤，直到所有的上下位关系都被加入到当前层次体系结构之中。每次往当前层次结构中加入一个新的上下位关系之后，都要判断当前层次结构中是否有环，如若有环，则去掉该环中权值最小的边，以保证无环。层次结构构建完毕之后，对层次结构中任意两个节点而言，如果有不止一条路径连接这两个节点，则只保留最长的路径。

通过以上的层次体系构建算法，所有的上下位关系便被连接成了一个层次体系结构。至此，本发明所提出的基于机器学习的社交网络本体构建方法已经构建成功。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于机器学习的社交网络本体构建方法，其特征在于，该方法包括如下步骤：

1)从社交网络抓取标签构成原始数据集；

2.根据权利要求书1所述的基于机器学习的社交网络本体构建方法，其特征在于，所述步骤2)中计算训练数据集中每对标签的相似性特征值，具体是按如下各公式分别计算用于刻画标签之间相似性的6个特征值：

CLsim (c_{1}, c_{2}) = \frac{LCS (L (c_{1}), L (c_{2}))}{| L (c_{1}) |}

RCSsim (c_{1}, c_{2}) = \frac{| RCS (c_{1}) \cap RCS (c_{2}) |}{| RCS (c_{1}) |}

RCVsim (c_{1}, c_{2}) = \frac{Σ_{r &Element; RCS (c 1) \cap RCS (c 2)} rc (c_{1}) * rc (c_{2})}{Σ_{r &Element; RCS (c 1)} rc (c_{1})^2}

TCsim (c_{1}, c_{2}) = \frac{Σ_{i = 1}^{n} TC {(c_{1})}_{i} * TC {(c_{2})}_{i}}{Σ_{i = 1}^{n} TC {(c_{1})}_{i}^2}

CAGsim (c_{1}, c_{2}) = \frac{| C (c_{1}) \cap C (c_{2}) |}{| C (c_{1}) |}

CAVsim (c_{1}, c_{2}) = \frac{Σ_{c &Element; C (c 1) \cap C (c 2)} V_{1} (c) * V_{2} (c)}{Σ_{c &Element; C (c 1)} V_{1} (c)^2}

3.根据权利要求2所述的基于机器学习的社交网络本体构建方法，其特征在于，所述步骤2)中，权重rc(c₁)设置为r在RCS(c₁)中重复出现的次数，权重rc(c₂)设置为r在RCS(c₂)中重复出现的次数，权重V₁(c)设置为c在C(c₁)中重复出现的次数，权重V₂(c)设置为c在C(c₂)中重复出现的次数。