CN109815495B

CN109815495B - 一种通过标签传播算法进行主题分面挖掘的方法

Info

Publication number: CN109815495B
Application number: CN201910041002.8A
Authority: CN
Inventors: 魏笔凡; 郭朝彤; 刘均; 郑庆华; 吴蓓; 吴科炜; 张铎; 李鸿轩; 肖天安
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2020-06-05
Anticipated expiration: 2039-01-16
Also published as: CN109815495A

Abstract

本发明公开了一种通过标签传播算法进行主题分面挖掘的方法：对于每个主题，把页面的简介部分的单词用词向量表示，形成一个矩阵，计算每两个主题简介部分矩阵之间的相似度作为主题之间的相似度；爬取每个主题对应的页面的目录部分的内容；对目录部分内容进行预处理，得到主题的初始分面集；把主题之间的相似度用一个相似矩阵P来表示；把主题的初始分面集用一个主题‑分面矩阵F⁰来表示；对两个矩阵迭代地进行乘法运算从而实现分面的传播；对于收敛之后的主题‑分面矩阵，对每个主题，选取矩阵中对应的分面作为最终分面集中的分面。本发明利用标签传播算法在领域主题之间传播分面，使得所有主题都可以被挖掘到较为完整的分面。

Description

一种通过标签传播算法进行主题分面挖掘的方法

技术领域

本发明涉及对主题分面的挖掘方法，具体涉及一种通过标签传播算法进行主题分面挖掘的方法。

背景技术

随着科学技术的迅猛发展，网络上的知识资源呈现爆炸式的增长。而人们对网络知识的组织速度远远达不到知识增长的速度，这导致了某一主题的相关知识分布在不同数据源中，每一数据源只包括主题的部分数据。用户很难从零散的数据源中对某个主题进行系统而完整的学习。解决现有问题的最直接的方法是通过主题分面来组织知识：把某一主题的知识根据分面(facet)进行组织，使一个主题的知识完整的存在于同一个数据源中，相同分面的知识放在一起，方便用户的学习。那么为每个主题找到分面集就是一个重要的任务。

现有技术中分面的挖掘(例如，发表于TKDE2016的论文“Automatically MiningFacets for Queries from Their Search Results”)包括四个步骤：(1)以主题名为关键字在搜索引擎中进行搜索，对返回的网页，提取其HTML的标签和重复过的词语；(2)根据与文本的匹配度计算出每个标签和词语的权重值；(3)根据语义对提取出来的标签和词语进行聚类，对每个聚类给出候选分面；(4)对每个聚类的每个候选分面计算与聚类的相关度，选择相关度最大的分面作为最终分面集中的分面。

现有技术依据搜索引擎返回结果中的HTML标签和重复词语对主题进行分面挖掘，对于没有出现在搜索引擎返回结果中的分面无法被挖掘到。因此，现有技术进行分面挖掘的依据是不完整的，导致不能对所有主题都挖掘到完整分面。

发明内容

为了解决现有技术中的问题，本发明提出一种通过标签传播算法进行主题分面挖掘的方法，能根据主题之间的相似度进行分面的传播，克服了因网络中某些主题资源不足而无法挖掘到相关分面的情况。

为了实现以上目的，本发明所采用的技术方案为：

1)计算领域中主题之间的相似度

对于待挖掘分面的每个主题，将该主题在某个百科类网站对应页面上的用于简要介绍所述主题的若干个单词分别用词向量表示，得到与所述主题对应的简介部分矩阵；计算待挖掘分面的每个主题中任意两个主题的简介部分矩阵之间的相似度，得到对应主题之间的相似度；

2)获取主题初始分面集

根据待挖掘分面的每个主题在所述对应页面上的目录内容，获得所述主题的初始分面集；

3)根据主题之间的相似度对分面进行传播

用一个矩阵P表示步骤1)得到的各对应主题之间的相似度；用一个主题-分面矩阵F⁰表示步骤2)得到的各主题的初始分面集，自F⁰开始对主题-分面矩阵与矩阵P进行迭代乘法运算，直到主题-分面矩阵收敛；

4)获取最终分面集

对于收敛之后的主题-分面矩阵，按主题选取该矩阵中较F⁰值增大的元素对应的分面作为挖掘得到的对应主题的最终分面集中的分面。

优选的，所述步骤1)中，对于每个主题，简介部分矩阵的获得具体包括以下步骤：以所述主题为关键字搜索百科类网站，找到所述主题在该百科类网站中的对应页面，然后爬取该页面并解析出简介部分；将简介部分的停用词去除，将简介部分剩余的每个单词分别用词向量表示，将每个词向量作为一行，得到所述主题的k×A的简介部分矩阵，其中，k是简介部分去掉停用词后的单词数量，A为词向量维数，A取值为50～500。

优选的，所述步骤1)中，任意两个主题的简介部分矩阵之间的相似度采用以下公式计算：

其中，s表示任意两个主题之间的相似度，x和y表示任意两个主题中一个主题和另一个主题的简介部分矩阵词向量对应词语的个数；MaxS(W_a，W_b)表示任意两个主题中一个主题的简介部分矩阵词向量对应第a个词语和另一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值，MaxS(W_b，W_a)表示所述另一个主题的简介部分矩阵词向量对应第b个词语和所述一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值；β是由词性决定的参数，不同词性的词语在表达句子语义中的地位不一样。

优选的，所述步骤2)具体包括以下步骤：对于每个主题，以所述主题为关键字搜索百科类网站，找到所述主题在该百科类网站中的对应页面，然后爬取该页面并解析出目录部分的内容；对目录部分的内容按词语语义进行提取处理，得到所述主题的初始分面集。

优选的，所述提取处理具体包括以下步骤：

2.1)去除目录部分的内容中的固定条目，其中，固定条目包括“参见”、“参考文献”、“外部链接”、“概述”、“注释”、“引用”或“同时参阅”中的一个或多个目录条目；然后提取剩余目录条目中的名词性单词或短语并作为中心词；

2.2)如果中心词是一个主题名，则去掉该中心词；然后将剩余中心词作为所述主题的初始分面集的分面(即初始分面)。

优选的，所述步骤3)中，将主题之间的相似度用一个矩阵P表示具体包括以下步骤：

3.1.1)用一个维度为n×n的方阵P⁰表示整个领域内主题之间的相似度，其中，P⁰的元素

代表s_ij的值，s_ij表示第i个主题和第j个主题之间的相似度，i＝1，2...，n，j＝1，2...，n，n代表领域中的主题数量；

3.1.2)把方阵P⁰按行进行归一化，得到矩阵P。

优选的，所述步骤3.1.2)具体包括以下步骤：对方阵P⁰的每一行按照以下公式执行操作：

其中，

是方阵P⁰的第i行对应的行向量；

是行向量

中每个元素之和，P_i是矩阵P的第i行对应的行向量。

优选的，所述步骤3)中，将各主题的初始分面集用一个主题-分面矩阵F⁰表示具体包括以下步骤：

3.2.1)统计领域中所有主题的初始分面集，形成一个包括所有初始分面的集合F_o(即各主题的初始分面集的并集)，集合F_o中的元素个数是m；

3.2.2)用0-1行向量

表示主题t_i初始分面集中的分面，其中，行向量

的元素

代表主题t_i的初始分面集中包括了分面f_j，行向量

的元素

代表主题t_i的初始分面集中不包括分面f_j，i＝1，2...，n，j＝1，2...，m；

3.2.3)对行向量

进行归一化得到行向量

其中，

是行向量

中每个元素的和；

3.2.4)将行向量

依次合并得到大小为n×m的矩阵F⁰。

优选的，所述步骤3)中，迭代乘法运算具体包括以下步骤：从l＝0起迭代地执行F^l ⁺¹＝PF^l和l＝l+1直到矩阵F^l收敛。

优选的，所述步骤4)中，对收敛之后的主题-分面矩阵的每一行，若对应主题的初始分面集中有h个分面，则选取收敛之后的主题-分面矩阵在该行中值最大的B×h个元素对应的分面作为最终分面集中的分面，B取值为1.5～1.6。

本发明的有益效果体现在：

与现有技术相比，本发明提出的标签传播算法先计算主题之间的相似度，再基于主题之间的相似度进行主题之间分面的传播。分面传播过程可以对主题的分面集进行补全，从而无论主题相关的信息量如何，都能获取较为完整的分面集。

附图说明

图1是本发明的流程框图。

图2是本发明实施例中的维基百科页面的结构图。

图3是本发明实施例中相似矩阵P的生成过程示意图；图3中t₁～t₆表示六个主题，以这六个主题作为示例来示意P的生成过程。

图4是本发明实施例中主题-分面矩阵F⁰的生成过程示意图；图4中以4个主题、集合F_o中元素个数m＝10作为示例来示意F⁰的生成。

具体实施方式

下面结合附图和实施例对本发明作进一步的解释说明。

本发明提出了一种通过标签传播算法进行主题分面挖掘的方法，以下以在维基百科中进行主题分面的挖掘为例对该方法的步骤进行说明，但应理解的是，对于与维基百科具有相同或相似的较为标准的结构组织的知识页面的百科类网站均可适用。

(一)通过标签传播算法进行主题分面挖掘

参见图1，所述主题分面发掘包括以下步骤：

(1)计算领域中每两个主题之间的相似度，包括4个步骤：

第1.1步：对于每个主题，找到其维基百科对应页面上的简介部分，具体步骤如下；

以主题名为Octree的页面为例，首先以主题为关键字搜索维基百科，找到主题对应的维基百科页面(图2)，然后爬取该维基百科页面并解析出简介部分(该部分在页面中一般位于目录之前)；

第1.2步：以整个英文维基为语料，用word2vec训练出400维的词向量；

第1.3步：把简介部分的单词用词向量表示，对简介部分形成一个矩阵，具体步骤如下；

把简介部分先去掉停用词，剩余每个单词用词向量表示；每个单词的词向量作为一行，简介部分就形成一个k×400的矩阵，其中，k是简介部分去掉停用词后的单词数量；

第1.4步：计算每两个主题简介部分矩阵之间的相似度作为主题之间的相似度s，计算公式如下；

其中，x和y表示两个词向量矩阵所对应主题(某主题与其自身，或某主题与其他某一个主题)的简介部分中词语的个数(即矩阵的行数)；MaxS(W_a，W_b)表示其中一个词向量矩阵的第a个词语和另一个词向量矩阵中任意一个词语的语义相似度中的最大值，MaxS(W_b，W_a)表示其中一个词向量矩阵的第b个词语和另一个词向量矩阵中任意一个词语的语义相似度中的最大值；β_a、β_b是参数，该参数是由词性决定的，不同词性的词语在表达句子语义中的地位不一样(以上公式的参考文献：Tom，K.，Maarten，D.R.：Short text similaritywith word embeddings.In：Proceedings of the 24th ACM international onconference on information and knowledge management.pp.1411-1420.ACM(2015))。

(2)对每个主题获取初始分面集，包括2个步骤：

第2.1步：爬取每个主题对应的维基百科页面的目录(Contents)部分的内容，具体步骤如下；

按照步骤1.1找到每个主题对应的维基百科页面，然后爬取维基百科页面并解析出目录部分的内容；

第2.2步：对目录部分内容进行预处理，得到主题的初始分面集，具体步骤如下；

2.2.1)把维基百科目录中的固定条目删掉，其中，固定条目包括“参见(Seealso)”、“参考文献(References)”、“外部链接(External links)”、“概述(Overview)”、“注释(Notes)”、“引用(Citations)”和“同时参阅(Further reading)”；

2.2.2)提取出条目中的名词性短语或单词作为中心词；

2.2.3)如果中心词是一个主题名，则去掉该中心词。

(3)根据主题之间的相似度对分面进行传播，包括3个步骤：

第3.1步：把步骤(1)中计算出来的主题之间的相似度用一个相似矩阵P来表示，具体步骤如下，参见图3；

3.1.1)用一个维度是n×n的方阵P⁰来表示整个领域中每两个主题之间的相似度，其中，元素

代表s_ij的值，s_ij表示第i个主题和第j个主题之间的相似度，i＝1，2...，n，j＝1，2...，n，n代表的是领域中的主题数量；

3.1.2)把方阵P⁰按行进行归一化，得到相似矩阵P，归一化的具体过程为：为方阵P⁰的每一行i执行如下操作：

其中，

是矩阵P⁰的行向量；

是行向量

中每个元素之和；

第3.2步：把步骤(2)中获得的主题的初始分面集用一个主题-分面矩阵F⁰来表示，具体步骤如下，参见图4；

3.2.1)统计领域中所有主题的初始分面集，形成一个包括所有初始分面(互不相同)的总集合F_o，集合F_o中的元素个数是m，m对不同领域取值不同，一般取值在100～200之间；

3.2.2)用0-1行向量

表示主题t_i初始分面集中的分面，其中，行向量

的元素

代表主题t_i的初始分面集中包括了分面f_j，行向量

的元素

代表主题t_i的初始分面集中不包括分面f_j；

3.2.3)把行向量

安行进行归一化得到行向量

计算公式如下：

其中，

是行向量

中每个元素的和；

3.2.4)把行向量

依次合并得到大小为n×m的矩阵F⁰；

第3.3步：对两个矩阵迭代地进行乘法运算从而实现分面的传播，直到主题-分面矩阵收敛，具体步骤如下；

从l＝0起迭代地执行F^l+1＝PF^l和l＝l+1直到矩阵F^l收敛，这里，收敛是指矩阵F^l与矩阵F^l-1每个对应元素的差值基本不再变化(例如，差值在±0.001之间)；

(4)获取最终分面集，包括1个步骤：

第4.1步：对于步骤(3)中收敛之后的主题-分面矩阵，对每个主题，选取该矩阵对应行中值比较大的元素对应的分面(例如，若初始分面集中有h个分面，则选取收敛矩阵对应行中值最大的1.5×h个元素对应的分面)作为最终分面集中的分面。

(二)与现有分面挖掘算法比较

为检验本发明所提方法的性能，对三个领域的1000多个主题进行了实验。其中，“数据结构”领域包括170个主题，“数据挖掘”领域包括528个主题，“计算机网络”领域包括351个主题。数据源选择维基百科页面。

将本发明所提出的方法和现有技术，例如，论文“Automatically Mining Facetsfor Queries from Their Search Results”中所提方法(QDMiner)进行比较。三个领域的实验结果如表1所示。

表1.实验结果对比

实验结果表明：本发明所提出的分面挖掘方法通过利用标签传播算法并选取收敛矩阵中一定数量的值最大的元素对应的分面作为最终分面集中的分面，在挖掘主题分面时，准确率(P)可达到86％，召回率(R)可达到85％，F1值可达到86％。与现有技术相比，各指标均提高了20％左右。总之，本发明利用标签传播算法可以在领域主题之间传播分面，使得所有主题都可以被挖掘到较为完整的分面。

Claims

1.一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：包括以下步骤：

1)计算领域中主题之间的相似度

2)获取主题初始分面集

3)根据主题之间的相似度对分面进行传播

所述步骤3)中，将主题之间的相似度用一个矩阵P表示具体包括以下步骤：

代表s_ij的值，s_ij表示第i个主题和第j个主题之间的相似度，i＝1,2…,n，j＝1,2…,n，n代表领域中的主题数量；

3.1.2)把方阵P⁰按行进行归一化，得到矩阵P；

所述步骤3)中，将各主题的初始分面集用一个主题-分面矩阵F⁰表示具体包括以下步骤：

3.2.1)统计领域中所有主题的初始分面集，形成一个包括所有初始分面的集合F₀，集合F_o中的元素个数是m；

3.2.2)用0-1行向量

表示主题t_i初始分面集中的分面，其中，行向量

的元素

代表主题t_i的初始分面集中包括了分面f_j，行向量

的元素

代表主题t_i的初始分面集中不包括分面f_j，i＝1,2…,n，j＝1,2…,m；

3.2.3)对行向量

进行归一化得到行向量

其中，

是行向量

中每个元素的和；

3.2.4)将行向量

依次合并得到大小为n×m的矩阵F⁰；

4)获取最终分面集

2.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述步骤1)中，对于每个主题，简介部分矩阵的获得具体包括以下步骤：以所述主题为关键字搜索百科类网站，找到所述主题在该百科类网站中的对应页面，然后爬取该页面并解析出简介部分；将简介部分的停用词去除，将简介部分剩余的每个单词分别用词向量表示，将每个词向量作为一行，得到所述主题的k×A的简介部分矩阵，其中，k是简介部分去掉停用词后的单词数量，A为词向量维数，A取值为50～500。

3.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述步骤1)中，任意两个主题的简介部分矩阵之间的相似度采用以下公式计算：

其中，s表示任意两个主题之间的相似度，x和y表示任意两个主题中一个主题和另一个主题的简介部分矩阵词向量对应词语的个数；MaxS(W_a,W_b)表示任意两个主题中一个主题的简介部分矩阵词向量对应第a个词语和另一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值，MaxS(W_b,W_a)表示所述另一个主题的简介部分矩阵词向量对应第b个词语和所述一个主题的简介部分矩阵任意词向量对应的词语的语义相似度中的最大值；β是由词性决定的参数。

4.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述步骤2)具体包括以下步骤：对于每个主题，以所述主题为关键字搜索百科类网站，找到所述主题在该百科类网站中的对应页面，然后爬取该页面并解析出目录部分的内容；对目录部分的内容按词语语义进行提取处理，得到所述主题的初始分面集。

5.根据权利要求4所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述提取处理具体包括以下步骤：

2.2)如果中心词是一个主题名，则去掉该中心词；然后将剩余中心词作为所述主题的初始分面集的分面。

6.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述步骤3.1.2)具体包括以下步骤：对方阵P⁰的每一行按照以下公式执行操作：

其中，

是方阵P⁰的第i行对应的行向量；

是行向量

中每个元素之和，P_i是矩阵P的第i行对应的行向量。

7.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述步骤3)中，迭代乘法运算具体包括以下步骤：从l＝0起迭代地执行F^l+1＝PF^l和l＝l+1直到矩阵F^l收敛。

8.根据权利要求1所述一种通过标签传播算法进行主题分面挖掘的方法，其特征在于：所述步骤4)中，对收敛之后的主题-分面矩阵的每一行，若对应主题的初始分面集中有h个分面，则选取收敛之后的主题-分面矩阵在该行中值最大的B×h个元素对应的分面作为最终分面集中的分面，B取值为1.5～1.6。