CN113642323A

CN113642323A - 基于网络结构的研究热点演变趋势检测方法、介质及设备

Info

Publication number: CN113642323A
Application number: CN202110952630.9A
Authority: CN
Inventors: 胡艳梅; 刘佳; 刘宏
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-12
Anticipated expiration: 2041-08-19
Also published as: CN113642323B

Abstract

本发明请求保护一种基于网络结构的研究热点演变趋势检测方法、介质及设备，其包括以下步骤：A依照年份划分子集，将论文数据集以年为单位进行切割，得到每年的子论文数据集；B针对单一年的子论文数据集，构建作者合著网，其中每个节点代表一个作者，每条边代表对应的两个作者合著了论文，边的权值则设定为合著的论文篇数；为每个节点设定一个属性：对应作者在当年所发表论文的关键词集；C研究群体检测，包括对研究群体的划分和研究群体的表示；D研究热点检测；E对所有年的作者合著网进行研究群体和研究热点检测；F研究群体和研究热点演变分析，得到研究热点的演变趋势图。

Description

基于网络结构的研究热点演变趋势检测方法、介质及设备

技术领域

本发明属于文献研究热点检测和研究热点演变趋势检测技术领域，具体涉及一种基于网络结构的研究热点演变趋势检测方法。

背景技术

随着科学研究的持续深入以及跨学科研究的不断融合，文献资料作为学者研究的成果展示，逐渐在各个学术领域中被大量积累。学术领域的研究热点也随着时间不断变化。如何运用科学、智能的方法对文献进行综合分析，从庞大的文献数据库资源中，快速准确地检测出研究主题和研究热点并掌握其演变趋势，对科研人员选取研究方向，制定研究计划具有重要意义。

科研人员在进行学术调研时，为了快速掌握学术领域的研究热点，除了通过自身科研经验，查询、阅读和整理出学术领域研究热点外，常采用传统文献计量学的方法，即统计不同研究方向对应的文献发表数量以及相关作者发文数量等，确定研究热点。但仅通过关键词搜索文献来确定研究方向会在一定程度上漏掉某些研究内容，从而使得结果不够准确。同时，以上方法均需要科研人员亲自参与，势必会在结果上掺杂主观因素。

常见的文献计量工具通过突显检测查找出一段时间内数量急剧上升的突显词并以此为前沿术语。不过，科研人员在使用文献计量工具时普遍采用如下做法：以突显词作为特征词构建词共现网络，然后通过词共现网络探索研究热点。词共现网络是当下研究热点提取的主要方式。有学者(对比专利一、一种基于知识图谱的科学研究热点分析与预测方法)首先构建关键词共现网络，然后根据关键词共现频率衡量网络的点间距离并以此聚类关键词确定研究主题，接着将学科信息等结构化数据关联到关键词进行数据融合，形成科学知识图谱，最后解读知识图谱探测主题演变趋势。还有学者(对比专利二、融合词语义与词共现信息的研究前沿识别方法及设备)选择将论文数据进行时间切片并依据关键词共现频率构建单一时间切片的论文数据的关键词共现网络，然后使用词向量嵌入技术表示关键词并计算关键词之间语义相似度并对关键词共现网络节点做出基于语义的调整。进一步地，对调整后的关键词网络进行聚类形成多个簇团。最后对相邻时间切片的簇团进行相似度计算形成主题演化脉络图并基于此探究前沿主题及其热门技术。这些方法仅能从关键词共现的角度寻找研究热点，而未考虑研究热点的主要贡献者：论文作者。

科研合作是当今科学研究的主流形式，而作者间合作的相异紧密度会产生不同的研究群体。并且，作者合作的前提必定是具有相似或相同的研究内容，这使得同一研究群体内的部分研究内容是趋于一致的。因此，研究热点与背后的研究群体息息相关。越多的研究群体关注的研究内容就越能成为研究热点。作者合著网直观地体现了作者之间的合作关系。因此，本发明从作者合著网出发，利用其拓扑结构找出所有研究群体，然后通过研究群体中各作者所著论文关键词的语义确定研究主题，最后在各研究主题中依据关键词频次高低检测出研究热点。通过对不同年份的论文集做上述处理，除了可以检测出研究热点的演变趋势外，还能检测出为研究热点的形成做出贡献的研究群体。进一步地，通过追踪研究群体及其研究主题的演变情况，还可获得研究群体和研究主题的演变脉络。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于网络结构的研究热点趋势检测方法、介质及设备。本发明的技术方案如下：

基于网络结构的研究热点演变趋势检测方法，其包括以下步骤：

A依照年份划分子集

将论文数据集以年为单位进行切割，得到每年的子论文数据集；

B构建作者合著网

针对单一年的子论文数据集，构建作者合著网，其中每个节点代表一个作者，每条边代表对应的两个作者合著了论文，边的权值则设定为合著的论文篇数；为每个节点设定一个属性：对应作者在当年所发表论文的关键词集；

C研究群体检测，包括对研究群体的划分和研究群体的表示；

D研究热点检测；

E循环步骤B-D，直到所有年的研究群体和研究热点都已检测；

F研究群体和研究热点演变分析，得到研究热点的演变趋势图。

一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如以上任一项所述的基于网络结构的研究热点提取分析方法。

一种基于网络结构的研究热点演变趋势检测设备，其包括所述的计算机可读存储介质以及处理器，处理器用于调用和处理计算机可读存储介质中存储的计算机程序。

本发明的优点及有益效果如下：

本发明突破了传统探索研究热点普遍使用词共现网络的束缚，认为研究热点的形成离不开研究群体的支持，越多研究群体关注的研究内容越热门。本发明从作者合著网出发，通过检测研究群体达到检测研究热点及其演变趋势的目的。除此之外，本发明还可以：1)检测出为研究热点的形成做出贡献的研究群体，以及这些研究群体同时还关注了哪些其他研究内容；2)获得研究群体及其研究主题的演变脉络，为研究热点的演变做出更清晰的解释。

附图说明

图1是本发明提供优选实施例基于网络结构的研究热点趋势检测方法的工作流程图；

图2是研究群体-研究主题-研究热点关系图

图3是研究群体演变图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1为基于网络结构的研究热点趋势检测方法的工作流程图，具体包括以下步骤：

A依照年份划分子集

将论文数据集以年为单位进行切割，得到每年的子论文数据集。

B构建作者合著网

针对单一年的子论文数据集，构建作者合著网。其中每个节点代表一个作者，每条边代表对应的两个作者合著了论文，边的权值则设定为合著的论文篇数。为每个节点设定一个属性：对应作者在当年所发表论文的关键词集。

C研究群体检测

C.a研究群体划分

利用作者合著网的拓扑结构将作者划分到不同的研究群体，同一研究群体内的作者交互密集(即合作密切)，而不同研究群体之间的作者交互稀疏(即合作很少或几乎不合作)。

C.b研究群体表示

C1：针对每个研究群体，合并其所有作者的关键词集，并累计每个关键词出现的频次，然后将频次最高的3个关键词挑选出来构成该研究群体的高频关键词集。

C2：运用word2vec模型对研究群体的高频关键词集进行向量化：针对每个高频关键词，通过word2vec模型得到其中每个单词的词向量，然后将这些词向量的均值作为该高频关键词的词向量。

D研究热点检测

D1：研究主题检测：汇总所有研究群体对应的高频关键词集，并依照词向量对这些关键词进行聚类，每个类对应一个研究主题。

D2：研究群体-研究主题-研究热点关系图构建：1)针对每个研究群体，通过高频关键词集关联到研究主题：如果某个高频关键词属于某个研究主题，则这个研究主题就是该研究群体的一个研究主题。2)关联研究主题与研究热点：针对每个研究主题，其中频次高于阈值的关键词即为一个研究热点。

E循环步骤B-D，直到所有年的研究群体和研究热点都已检测；

F研究群体和研究热点演变分析

F1：对相邻年份的研究群体进行相似度计算，构建研究群体的演变图。

第t年的研究群体

到第t+1年的研究群体

的相似度计算如下：

第t+1年的研究群体

到第t年的研究群体

的相似度计算如下：

研究群体演变图通过如下步骤构建：a)将每个研究群体看作一个节点，同一年份的研究群体对应的节点为一组。b)在相邻年份的节点组之间建立连边：1)针对第t+1年的研究群体

如果对于第t年的每个研究群体

满足：

和

均小于阈值，则

为一个在t+1年新形成的研究群体，且对应的节点不与第t年的任何节点产生连接。2)针对第t+1年的研究群体

如果在第t年仅存在一个研究群体

满足：

和

均大于阈值，则

和

为相邻年份的同一研究群体，且对应节点由一条边连接起来。3)针对第t年的研究群体

如果在第t+1年的每一个研究群体

满足：

和

均小于阈值，则

在第t+1年消失了，且对应的节点不与第t+1年的任何节点产生连接。4)针对第t+1年的研究群体

如果在第t年存在两个研究群体

和

满足：

和

均大于阈值，则

和

在第t+1年合并为

且

和

对应的节点分别连接到

对应的节点。5)针对第t年的研究群体

如果在第t+1年存在两个研究群体

和

满足：

和

均大于阈值，则

在第t+1年分裂为

和

且

对应的节点连接到

和

对应的节点。

F2：通过上述的研究群体演变图，还可进一步得出对应研究主题的演变：如果研究群体

对应的一个研究主题

与研究群体

对应的一个研究主题

之间的相似度大于阈值，则

和

属于同一个研究主题，也就是说相应研究群体的研究主题未发生明显变化。两个研究主题的相似度采用词向量均值的欧氏距离进行度量，计算公式如下：

其中vⁱ为研究主题

中全部关键词的词向量均值，v^j为研究主题

中全部关键词的词向量均值，K为词向量维度。

F3：统计每年的研究热点，以年份为横轴，频次为纵轴，画出每个研究热点的频次变化曲线，即可得到研究热点的演变趋势图。

图2为研究群体-研究主题-研究热点关系图。根据研究群体C的高频关键词集关联得到研究主题T，一个研究群体的研究内容可能属于多个研究主题，一个研究主题可能被多个研究群体关注。研究热点H由研究主题的高频关键词确定。

图3为研究群体演变图。研究群体随着时间变化可能发生的演变事件分为：分裂、消失、保持不变、合并和出现等。其中t时刻的研究群体C₁在t+1时刻分裂成了C_1,1和C_1,2；t时刻的研究群体C₂在t+1时刻消失；t时刻的研究群体C₃在t+1时刻保持不变；t时刻的C₄、C₅在t+1时刻合并成一个研究群体C_4,5；研究群体C₆则是在t+1时刻新出现的一个研究群体。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。