CN104933032A

CN104933032A - 一种基于复杂网络的博客关键词提取方法

Info

Publication number: CN104933032A
Application number: CN201510368622.4A
Authority: CN
Inventors: 屈鸿; 王晓斌; 吴诗雯; 冯旻昱; 冯鲁桥
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2015-09-23

Abstract

本发明公开了一种基于复杂网络的博客关键词提取方法，涉及基于复杂网络建模技术领域，解决所提取的关键字不包括高频单词和短语问题。本发明步骤为通过爬虫获取博客文本；对爬虫获取的博客文本进行预处理；对博客文本进行预处理后，将博客文本中单词之间的相邻关系对应于博客文本网络节点之间公知的连接关系，根据博客文本中单词之间的相邻关系进行网络模型构建；运用节点拓扑性质制定节点重要性指标计算公式；根据节点重要性指标计算公式提取的关键词；输出提取的对博客文本进行预处理后的博客文本中的关键词。本发明利用复杂网络的拓扑特性中的节点介数、节点的度，提出节点综合重要性计算公式进行博客文本关键词的提取。

Description

一种基于复杂网络的博客关键词提取方法

技术领域

一种基于复杂网络的博客关键词提取方法，利用复杂网络的拓扑特性中的节点介数、节点的度，提出节点综合重要性计算公式进行博客文本关键词的提取,涉及复杂网络建模，复杂网络拓扑特性，机器学习等领域，具体涉及基于复杂网络建模技术领域。

背景技术

随着信息技术的飞速发展和互联网的普及，博客的文本数据库呈现出几何级数的增长。如何快速掌握某篇文章的主题、把握作者思想，成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决这个问题，然而除学术论文包含关键字外，大量的文档没有关键字，尤其是互联网上的众多网页。语言专家手工提取关键字，其准确率较高，但对海量文档信息手工提取是一个繁重并不可行的方法。如果能采用人工智能的方法提取关键字，会大大地提高效率。因此，运用何种方法进行关键词自动提取的研究具有重要的现实意义。

关键词提取算法可分为两类：基于训练集的关键词提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键词提取视为分类问题，通过将文档中出现的词语划分到关键字类或非关键字类，再从关键字类中选择若干个词语作为关键字，该类算法由Peter.D.Turney首次提出，其技术己日趋成熟。不需要训练集的算法，可分为以下四类：基于统计的方法，如频率统计；基于词语图的方法，如KeyGraph；基于词语网络的方法，如中介性指标(BC，Betweenness Centrality)；基于SWN的方法；上述四种方法都是建立在词频基础上。基于统计的方法简单快速，能够提取高频词语，却忽略对文档具有重要意义但出现频率不高的词语，因此提取的关键字具有片面性传统的关键词提取算法只注重文档表层统计特性(如词频、词句位置、词语长度等)，忽略文档的语义结构和结构信息，导致关键词语义和结构信息的缺失。

随着网络科学已被越来越多的人了解与熟知，并且已经成为许多的科学家进行跨领域研究的工具，其中运用网络科学进行自然语言分析也是研究者所热衷的课题。其中运用复杂网络理论对实际网络进行建模进而根据网络拓扑特性进行具体问题的分析已成为研究者进行实际问题的探索中有力的方式。现有关键词提取方法的不足之处在于：在分析已有基于词语网络的关键字提取算法的基础上，所提取的关键字不包括高频单词和短语，而且对文档中心内容贡献大但出现频率不高的单词和短语提取不到。

发明内容

本发明针对现有技术的不足之处提供了一种基于复杂网络的博客关键词提取方法，可以提取包括高频词汇和短语的关键字，而且对提取文档中心内容贡献大但出现频率不高的单词短语有较好的效果。

为了实现上述目的，本发明采用的技术方案为：

一种基于复杂网络的博客关键词提取方法，其特征在于，如下步骤：

(1)通过爬虫获取博客文本；

(2)对爬虫获取的博客文本进行预处理，即得到已断句、分词和无停用词的格式规范的博客文本；

(3)对博客文本进行预处理后，将博客文本中单词之间的相邻关系对应于博客文本网络节点之间的连接关系，根据博客文本中单词之间的相邻关系进行网络模型构建；

(4)根据博客文本中单词之间的相邻关系进行网络模型构建后，运用节点拓扑性质制定节点重要性指标计算公式，节点的重要性是指节点的度和节点的介数；

(5)根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词；

(6)输出提取的对博客文本进行预处理后的博客文本中的关键词。

进一步，所述步骤(2)中，对爬虫获取的博客文本进行预处理的具体步骤如下：

(21)文本规范化，即将其他格式的博客文本转化成标准的txt格式进行关键词的提取；

(22)断句、分词处理，即根据博客文本中标点符号以及单词与单词之间的空格进行单词与短语的分割；

(23)大小写变换，即将断句、分词处理后的博客文本中的大写字母全部改为小写字母；

(24)词态变换，即将大小写变换后的博客文本中存在英文单词的，将英文单词统一变换成该单词的原型模式；

(25)去停用词，即预先收集好停用词，实验中去除这些停用词，减少无关词的干扰，提高关键词提取的准确率。

进一步，所述步骤(3)中，根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下：

(31)对经过预处理后的博客文本的单词进行标号，标号对应于构建的博客文本中单词网络的节点编号，网络的节点编号是根据阿拉伯数字顺序增长进行标记，同一个单词有且仅有一个标号；

(32)根据博客文本中单词之间的位置关系构建单词网络，若两个单词是相邻的，那么这两个单词在网络中对应标号的节点之间则增加一条连边，否则这两个单词在网络中对应标号的节点之间则不增加连边；

(33)根据步骤(31)和步骤(32)遍历博客文本中的单词，得到网络模型。

进一步，所述步骤(4)中，运用节点拓扑性质制定节点重要性指标计算公式的具体步骤如下：

(41)计算构建的网络模型的每一个节点的度和节点的介数；

(42)通过计算的节点的度和节点的介数，对比PageRank算法，制定出节点重要性计算公式。

进一步，所述步骤(41)中，计算构建的网络模型的每一个节点的度和节点的介数的公式如下：

B_{i} = \frac{\underset{m &NotEqual; n &NotEqual; i}{Σ} p_{m n} (i)}{\underset{m &NotEqual; n &NotEqual; i}{Σ} p_{m n}},

其中m,n,i均代表网络中节点编号，B_i代表网络中节点v_i的介数值，p_mn代表网络中任意的两个节点v_m,v_n之间最短路径的总条数，p_mn(i)代表网络中任意两个节点v_m,v_n之间的需要经过该节点v_i的最短路径的条数。

进一步，所述步骤(42)中，制定出节点重要性计算公式如下：

{DB}_{i} = α \frac{D_{i}}{\underset{k}{Σ} D_{k}} + (1 - α) B_{i},

其中i和k均表示节点编号，DB_i表示节点v_i重要性指标，D_i表示节点v_i的度，D_k表示节点v_k的度，B_i表示节点v_i的介数，α表示阻尼系数。

进一步，所述步骤(5)中，根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词的具体步骤如下：

(51)利用制定出节点重要性指标计算公式对网络中的所有节点进行节点重要性指标的计算，并按降序排列各节点的重要性指标；

(52)根据降序排列后的各节点的重要性指标，提取所要的关键词的个数，即选择前k个节点所对应的单词为该博客文本的关键词。

与现有技术相比，本发明的优点在于：

一、不需要训练集样本，节约了时间和空间成本；

二、在网络模型构建前，进行博客文本预处理，防止提取出的关键词中含有停用词等；

三、以单词间的邻居关系基础，并以跨度为1、2建网络的依据，跨度适中，使得数据处理不会那么繁重，也全面体现了博客文本中单词之间的关系；

四、综合考虑单词所对应节点的度以及介数，从局部和全局两个方面综合衡量节点重要程度；

五、通过对比PageRank方法，采用其中的阻尼系数取为0.85，把综合重要性指标计算式中的参数设为0.15，使得计算方法更具有现实价值。

附图说明

图1为本发明的整体流程示意图；

图2为本发明的预处理流程示意图；

图3为本发明的网络构建流程示意图；

图4为本发明的计算节点综合重要性指标流程图；

图5为本发明的提取关键词的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

一种基于复杂网络的博客关键词提取方法，首先需要对博客进行文本单词网络模型的构建，包括：网络节点之间的连边，节点如何对应于博客的文本中的单词，如何输出得到的结果。本发明通过分析博客的文本单词之间的语义与位置关系，进而利用词与词之间的关系进行博客文本单词网络的建模。然后对所构建的网络中节点进行分析，找出节点的度以及节点介数两个衡量指标，它们可以从局部和全局两个方面共同决定节点综合重要程度。最后进行关键词提取时依据节点综合重要性指标由小到达选取所需的k个关键词。一种基于复杂网络的博客关键词提取方法，如下步骤：

(1)通过爬虫获取博客文本。

(2)对爬虫获取的博客文本进行预处理，即得到已断句、分词和无停用词等的格式规范的博客文本。对爬虫获取的博客文本进行预处理的具体步骤如下：

(21)文本规范化，即将其他格式的博客文本转化成标准的txt格式进行关键词的提取，本发明处理的博客文本均为txt格式，获取的任何其他格式的博客文本均需通过转化成标准的txt格式才可以进行关键词的提取；

(23)大小写变换，即将断句、分词处理后的博客文本中的大写字母全部改为小写字母，本发明由于文本中有单词有大小写的不同，为了避免单词不受大小写影响，把文本中的字母全部改为小写形式；

(24)词态变换，即将大小写变换后的博客文本中存在英文单词的，将英文单词统一变换成该单词的原型模式，通过本发明获取的博客文本可能存在英文，英文单词中，同一个单词存在多种形式，为了不错分单词，必须对文本中的单词统一变换成该单词的原型模式；

(25)去停用词，即预先收集好停用词，实验中去除这些停用词，减少无关词的干扰，提高关键词提取的准确率，本发明获取的博客文本可能存在很多无意义的单词，比如：the、a、and等等，预先收集好大部分的停用词，关键词的提取中去除这些停用，减少无关词的干扰，提高关键词提取的准确率。

(3)对博客文本进行预处理后，将博客文本中单词之间的相邻关系对应于博客文本网络节点之间公知的连接关系，根据博客文本中单词之间的相邻关系进行网络模型构建；根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下：

(32)根据博客文本中单词之间的位置关系(即单词之间是否是相邻关系)构建单词网络，若两个单词是相邻的，那么这两个单词在网络中对应标号的节点之间则增加一条连边，否则这两个单词在网络中对应标号的节点之间则不增加连边。

(4)根据博客文本中单词之间的相邻关系进行网络模型构建后，运用节点拓扑性质制定节点重要性指标计算公式，节点的重要性是指节点的度和节点的介数。运用节点拓扑性质制定节点重要性指标计算公式的具体步骤如下：

(41)计算构建的网络模型的每一个节点的度以及节点的介数；节点的度表示该节点在网络图形中与之相连的边的数目，计算构建的网络模型的节点的度以及节点的介数的公式如下：

B_{i} = \frac{\underset{m &NotEqual; n &NotEqual; i}{Σ} p_{m n} (i)}{\underset{m &NotEqual; n &NotEqual; i}{Σ} p_{m n}},

(42)通过计算的节点的度和节点的介数，对比PageRank算法，制定出节点重要性计算公式。制定出节点重要性计算公式如下：

{DB}_{i} = α \frac{D_{i}}{\underset{k}{Σ} D_{k}} + (1 - α) B_{i},

其中i和k均表示节点编号，DB_i表示节点v_i重要性指标，D_i表示节点v_i的度，D_k表示节点v_k的度，B_i表示节点v_i的介数，α表示阻尼系数，本公式中把α设为0.15。

(5)根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词；根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词的具体步骤如下：

本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

1.一种基于复杂网络的博客关键词提取方法，其特征在于，如下步骤：

(1)通过爬虫获取博客文本；

2.根据权利要求1所述的一种基于复杂网络的博客关键词提取方法，其特征在于，所述步骤(2)中，对爬虫获取的博客文本进行预处理的具体步骤如下：

3.根据权利要求1所述的一种基于复杂网络的博客文本关键词提取方法，其特征在于，所述步骤(3)中，根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下：

4.根据权利要求1所述的一种基于复杂网络的博客关键词提取方法，其特征在于，所述步骤(4)中，运用节点拓扑性质制定节点重要性指标计算公式的具体步骤如下：

(41)计算构建的网络模型的每一个节点的度和节点的介数；

5.根据权利要求4所述的一种基于复杂网络的博客关键词提取方法，其特征在于，所述步骤(41)中，计算构建的网络模型的每一个节点的度和节点的介数的公式如下：

B_{i} = \frac{\underset{m &NotEqual; n &NotEqual; i}{Σ} p_{m n} (i)}{\underset{m &NotEqual; n &NotEqual; i}{Σ} p_{m n}},

6.根据权利要求4所述的一种基于复杂网络的博客关键词提取方法，其特征在于，所述步骤(42)中，制定出节点重要性计算公式如下：

{DB}_{i} = α \frac{D_{i}}{\underset{k}{Σ} D_{k}} + (1 - α) B_{i},

7.根据权利要求1所述的一种基于复杂网络的博客关键词提取方法，其特征在于，所述步骤(5)中，根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词的具体步骤如下：