CN106682172A

CN106682172A - 一种基于关键词的文献研究热点推荐方法

Info

Publication number: CN106682172A
Application number: CN201611234922.4A
Authority: CN
Inventors: 曹静; 薛安荣; 夏欢欢
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-17

Abstract

本发明公开了一种基于关键词的文献研究热点推荐方法，首先对数据进行预处理，每个关键词当作一个独立的热点，利用TF‑IDF对数据中的泛词进行过滤，合并同形异构关键词。为了充分挖掘热点间潜在的关系，以关键词作为节点将出现在同一文献中的关键词相连，计算两关键词间的Jaccard相似度作为网络的边权重，建立带权重关键词共现网络。针对文献热点研究中对用户感兴趣关键词缺乏针对性推荐问题，用社区划分方法将网络中关键词划分在不同的主题域中，当用户输入感兴趣关键词时自动将关键词映射到最有可能的主题域，在该领域中采用随机游走算法进行快速推荐。考虑到时间属性对推荐结果的影响，在随机游走算法加入时间权重，为用户生成相关的研究热点推荐列表。

Description

一种基于关键词的文献研究热点推荐方法

技术领域

本发明属于数据挖掘技术领域，具体涉及网络社区划分、推荐系统和学科热点研究技术。

背景技术

随着科学的蓬勃发展以及跨学科研究的快速发展，各个学科领域积累了大量的文献资料，为科研人员及时、准确地获取其研究领域的热点和动向提出了更高的要求。针对专业领域的科技文献分析有助于包括非专业领域在内的研究人员快速地从海量的科技文献获得所关注领域的知识结构和研究热点，有助于交叉学科的研究。

热点识别是指发现一个科学领域的研究热点及其连接关系，是文献分析中重要任务之一。最近几年，在大数据时代背景的推动下，越来越多的新闻、微博和社会网络热点挖掘方法和工具被研究和应用，为用户从大量的复杂网络信息中发现有用的信息提供了便捷。网络分析法已经逐渐地被用于热点识别。

目前，文献热点研究发现技术大都通过词频、引文以及聚类等传统方法识别学科研究热点。网络分析法也已经逐渐地被用于热点识别。2009年，Wallace等人通过作者共引网络识别出学科主题分类，并证明该分类与现实学科分类是一致的。2010年，Chen等分析了近100多年来物理评论期刊文献之间的引用网络，通过网络分析法识别出该领域的研究热点，并对研究热点进行了拓扑分析。在2011年，Liu R和Zhao H采用网络分析法对地球系统科学中的文献数据进行关键词共现网络分析，识别出该领域的主题。在这些方法中，大多是通过频数统计来表示关键词间的边权重，忽略了关键词本身之间的联系。除此之外，科研者并不简单的想知道单一的研究热点，更希望能了解和自己感兴趣的研究相关其它研究热点，但是，目前的方法虽然在识别热点的准确度上有提高，可以准确识别某一领域的研究热点，但是没有考虑与它相关的实时的其他热点词的推荐问题。

发明内容

本发明的目的在于提供一种基于关键词的文献研究热点推荐方法，以解决文献热点推荐中缺乏实时的相关热点推荐和推荐范围过广，推荐精度不高的问题。为了解决以上技术问题，本发明基于复杂网络方法来表示文献关键词间错综复杂的关系，将文献数据中提取出来的所有关键词通过频数分析进行过滤，将过滤后的关键词集作为节点构建关键词共现网络，利用Jaccard相似度方法计算网络中关键词的关联度w_ij，作为边权重值。接下来，对关键词权重共现网络进行社区划分，挖掘网络包含的主题域，最后，在PersonalRank算法中加入时间属性权重，为用户提供更加准确有效的相关热点推荐。具体技术方案如下：

一种基于关键词的文献研究热点推荐方法，包括以下步骤：

步骤1：对数据进行预处理，对文献关键词中的泛词进行过滤，并将同一关键词的不同表述标记为相同的特征变量；

步骤2：建立关键词共现网络，在科研过程中，研究的对象和方法等都可以成为研究热点，因此本发明将研究热点定义为独立的关键词，将步骤1中得到的所有规范关键词作为网络的节点，将关键词在同一篇文献中的出现的关系表示为边，用Jaccard相似度方法计算两个关键词的相关性，作为对应边的权重w_ij，将权值小于设定阈值的边以及相关的点除去；

步骤3：对步骤2中建立的权重网络进行社区划分，挖掘该学科的主题域，每一主题域中包含一组紧密相关的关键词；

步骤4：针对用户输入的感兴趣的关键词，将关键词映射到相关性最大的主题域，将该主题域中的其他关键词推荐给用户；在确定了所属的主题域后，在主题域中用时间加权的随机游走算法，为用户快速推荐近期的相关研究热点。

所述对文献数据进行预处理过程具体包含以下步骤：

步骤1.1，用TF-IDF方法对关键词中出现的一些无特性但频繁出现的词进行过滤；

步骤1.2，以该学科的主题词表为依据，合并同义异形的关键词，最终得到规范化的关键词集S。

所述关键词共现网络建立过程具体包括以下步骤：

步骤2.1，节点变量定义：将步骤1.2中规范化后的所有关键词作为关键词共现网络的节点；

步骤2.2，边定义：遍历一遍文献数据集，在同一篇文献中出现的关键词之间有边连接，利用Jaccard相似度方法计算当前文献样本对关联词关联度的增益，当所有样本遍历完，即得到所有关键词对的关联度，将得到的关联度作为关键词网络中的边权重w_ij；

步骤2.3，建立关键词共现网络：选择一个文献样本，将样本包含的所有关键词作为初始节点，形成一个完全图，接下来的每一次迭代，在关键词集S中选择一个关键词，遍历文献数据集，如果初始节点与所选的关键词有共现关系，就将他们用边连接，当关键词集S中的所有关键词都连接完成，即得到了一个完整的关键词共现网络G。

所述对关键词共现权重网络G进行社区划分的具体过程如下：

步骤3.1，将网络G中的每个关键词节点看作一个热点，即初始化为一个社区；

步骤3.2，依次合并有边连接的社区对，并计算合并后模块度Q的增量，设i，j是网络G中的节点，计算社区划分的模块度的公式为：其中，W表示加权网络G的邻接矩阵，M表示网络中边权值总和，W_ij表示加权网络G的邻接矩阵中节点i，j对应的权重值，Wi表示节点i的度，ci表示节点i所属的社区，若节点i和j在同一个社区，则σ(c_i,c_j)为1，否则为0。Q值越接近于1，表明相应网络的社区结构越好；

步骤3.3，根据贪婪算法原理每次合并都沿着Q增大最多的方向进行，重复上述过程，直到整个网络合并成为一个社区；

步骤3.4，选择局部最大Q值对应的社区结构，将其作为基于社区划分的主题域的最终结果。

所述基于时间加权PersonalRank算法推荐文献研究热点的具体过程如下：

步骤4.1，针对用户输入的感兴趣的关键词，将关键词映射到相关性最大的主题域，将该主题域中的其他关键词推荐给用户；

步骤4.2，时间属性权重计算：在进行推荐时，人们往往对该领域近期内的研究有很大的兴趣，即时间因素对研究热点的推荐有很大的影响，因此，在PersonalRank算法中加入时间权重向用户推荐更符合实际，采用公式来计算时间因子，t₁表示当前年份，t₀表示文献发表的年份，时间间隔Δt越大，e_t的值越小；

步骤4.3，在步骤4.1的基础上，在相应的主题域中，用时间加权的PersonalRank算法为用户推荐该主题域中的K个相关的热点。

本发明的有益效果：

(1)采用复杂网络分析方法来对海量的文献关键词建模，可以充分发掘出各个关键词间的内在联系，为下面进行快速准确的相关热点推荐提供了支持。

(2)本发明用社区划分方法对网络中的关键词进行划分，挖掘出了网络中所包含的主题域。

(3)本发明利用PersonalRank算法时，加入了时间属性约束，可以更加有效地为用户推荐感兴趣的近期内且相关性较大的研究热点，提高了推荐速度，同时降低了计算复杂性。

附图说明

图1为本发明的基于关键词的文献研究热点推荐方法总体流程示意图；

图2为本发明的关键词共现网络构建过程。

具体实施方式

本发明提出了一种基于关键词的文献研究热点推荐方法，采用复杂网络分析方法建立关键词共现图，并对网络进行社区划分，找出其中包含的主题域，在主题域中用加入时间属性权值的PersonalRank推荐算法推荐相关研究热点，更加符合实际。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。如图1所示，本发明基于关键词的文献研究热点推荐方法主要包含四个基本步骤：数据预处理、建立关联词共现网络、网络社区划分、集成最终推荐模型。

一、数据预处理

文献数据预处理，本实施例中选取的计算机类文献(2008—2016年)，涉及13022个关键词，这些关键词存在大量的泛词和同义异形词问题，需要规范化。

首先利用TF-IDF方法对关键词中出现的一些无特性但频繁出现的词，例如“中国”、“问题”、“方法”等泛词进行过滤，用公式计算词语i在文献j中的得分，将得分高于设定值的词语作为描述文献的的关键词。然后将同一关键词的不同表述进行合并，即得到规范化的文献关键词数据集S。

二、建立关键词共现网络

将预处理得到的所有规范的词作为关键词共现网络的节点，将在同一篇文献中出现的关键词用边连接，利用Jaccard相似度方法计算关键词间的关联度作为关键词网络中的边权重。

本实施例中，关键词共现网络图建立具体包括以下步骤：

步骤1，关联度边权重计算：假设x_i，x_j是属于关键词集S的两个关键词，利用Jaccard相似度方法计算x_i和x_j的关联度，即边权重w_ij，其计算公式为：其中|x_i∩x_j|表示x_i，x_j共同出现在一篇文献中的次数，|x_i∪x_j|表示x_i文献和x_j文献出现的次数之和；

步骤2，建立关键词共现网络：在步骤2的基础上，选择某一个样本，将样本包含的所有关键词作为初始节点，形成一个完全图，接下来的每一次迭代，在关键词集S中选择一个关键词，遍历文献数据集，如果初始节点与所选的关键词有共现关系，就将他们用边连接，当关键词集S中的所有词都连接完成，即得到了一个完整的带权重的关键词共现网络G。

三、权重网络社区划分，包括以下步骤：

步骤1，将网络G中的每个关键词节点看作一个热点，即初始化为一个社区；

步骤2，依次合并有边连接的社区对，并计算合并后模块度Q的增量，设i，j是网络G中的节点，计算社区划分的模块度的公式为：其中，W表示加权网络G的邻接矩阵，M表示网络中边权值总和，W_ij表示加权网络G的邻接矩阵中节点i，j对应的权重值，W_i表示节点i的度，W_j表示节点j的度，c_i表示节点i所属的社区，c_j表示节点j所属的社区，若节点i和j在同一个社区，则σ(c_i,c_j)为1，否则为0。Q值越接近于1，表明相应网络的社区结构越好。

步骤3，根据贪婪算法原理每次合并都沿着Q增大最多的方向进行，重复上述过程，直到整个网络合并成为一个社区；

步骤4，选择局部最大Q值对应的社区结构，将其作为基于社区划分的主题域的最终结果。

四、集成最终推荐模型

对用户u输入的感兴趣的关键词进行相关学科的研究热点推荐问题，就转化为计算用户输入的关键词节点和所有关键词节点之间的访问概率问题，然后取与用户输入的关键词没有直接边相连的关键词，按照概率值的高低生成推荐列表，本文将基于时间属性的边权重加入PersonalRank算法的推荐过程中，有助于算法提前收敛，执行的时间会有所减少。

集成最终推荐模型具体包含以下步骤：

步骤1，对用户输入的关键词信息r0，首先遍历关键词集S，判断r0是否在关键词共现网络中，如果是，则进行步骤2；如果不是，则结束；

步骤2，用社区划分中的模块度计算公式计算关键词r0属于的各个主题域社区中关键词节点的Q值，将r0映射到Q值最大的社区中；

步骤3，在步骤2选择的主题域中用PersonalRank算法针对输入的关键词信息进行相关的研究热点推荐，并在算法中加入时间因子，其计算公式为：其中参数d是一个随机值，表示继续游走的概率；r_i表示关键词i的访问概率；r_j表示关键词j的访问概率，out_j表示关键词j指向的其他关键词的集合，采用公式来计算时间因子，t₁表示当前年份，t₀表示文献发表的年份，时间间隔Δt越大，e_t的值越小；

步骤4，将步骤3推荐出的关键词按照概率值的高低生成推荐列表，将前5个关键词作为相关的研究热点推荐给用户。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于关键词的文献研究热点推荐方法，其特征在于，包括如下步骤：

步骤1：对数据进行预处理：对文献关键词中的泛词进行过滤，并将同一关键词的不同表述标记为相同的特征变量；

步骤2：建立关键词共现网络：将研究热点定义为独立的关键词，将步骤1中得到的所有规范关键词作为网络的节点，将关键词在同一篇文献中的出现的关系表示为边，用Jaccard相似度方法计算两个关键词的相关性，作为对应边的权重w_ij，将权值小于设定阈值的边以及相关的点除去；

2.根据权利要求1所述的一种基于关键词的文献研究热点推荐方法，其特征在于，所述步骤1的预处理包括：

3.根据权利要求2所述的一种基于关键词的文献研究热点推荐方法，其特征在于，所述步骤2的实现包括：

4.根据权利要求1所述的一种基于关键词的文献研究热点推荐方法，其特征在于，所述步骤3的实现包括：

步骤3.2，依次合并有边连接的社区对，并计算合并后模块度Q的增量，设i，j是网络G中的节点，计算社区划分的模块度的公式为：其中，W表示加权网络G的邻接矩阵，M表示网络中边权值总和，W_i表示节点i的度，c_i表示节点i所属的社区，若节点i和j在同一个社区，则σ(c_i,c_j)为1，否则为0；Q值越接近于1，表明相应网络的社区结构越好；

5.根据权利要求1所述的一种基于关键词的文献研究热点推荐方法，其特征在于，所述步骤4的实现包括：

步骤4.2，时间属性权重计算：在进行推荐时，针对该领域近期内的研究有很大的兴趣，即时间因素对研究热点的推荐有很大的影响，在PersonalRank算法中加入时间权重向用户推荐，采用公式来计算时间因子，e₀表示当前年份，e₁表示文献发表的年份，时间间隔Δt越大，e_t的值越小；

6.根据权利要求3所述的一种基于关键词的文献研究热点推荐方法，其特征在于，步骤2.2的具体实现方法：假设x_i，x_j是属于关键词集S的两个关键词，利用Jaccard相似度方法计算x_i和x_j的关联度，即边权重w_ij，其计算公式为：其中|x_i∩x_j|表示x_i，x_j共同出现在一篇文献中的次数，|x_i∪x_j|表示x_i文献和x_j文献出现的次数之和。