CN111832815B

CN111832815B - 科研热点预测方法及系统

Info

Publication number: CN111832815B
Application number: CN202010628406.XA
Authority: CN
Inventors: 马艳; 邹立达; 韩英昆; 齐达立; 马雷
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2023-12-05
Anticipated expiration: 2040-07-02
Also published as: CN111832815A

Abstract

本发明属于科研热点预测领域，提供了一种科研热点预测方法及系统。其中，科研热点预测方法包括提取当前周期内科技文本中所有热点关键词；根据热点关键词的TF‑IDF值，生成当前周期内所有热点关键词的时序数据；基于时序特征前置比较的方式，初步过滤当前周期内的热点关键词；将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算，筛选距离值不大于距离半径值对应的热点关键词作为科研热点；其中，距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。

Description

科研热点预测方法及系统

技术领域

本发明属于科研热点预测领域，尤其涉及一种科研热点预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

科研热点预测是科技情报领域较新的应用需求。科研工作者、科研项目管理者在选题、立项必须有一定的前瞻性，即立足于当前科学技术现状与社会发展情况，对未来可能产生的新理论或者产生应用价值的新技术做出判断。目前科研热点预测的方法严重依赖于本领域高级专业人员通过文献查阅与市场调研的方法确定热点出现的方向。另外，当一个新的理论与技术诞生后，其关联应用领域还需要大量的工作去发掘。科研领域中，科研热点词汇数量巨大，每种热点呈现的走势不尽相同，例如：以某热点科研词汇的点击量为例，其随着时间变化的趋势完全不同，如图1(a)和图1(b)所示。发明人发现，基于标准的机器学习模型拟合热点走势准确率不高。

发明内容

为了解决上述问题，本发明的第一个方面提供一种科研热点预测方法，其使得用户可以及时地获得未来一段时间科研热点主题预测推荐。

为了实现上述目的，本发明采用如下技术方案：

一种科研热点预测方法，包括：

提取当前周期内科技文本中所有热点关键词；

根据热点关键词的TF-IDF值，生成当前周期内所有热点关键词的时序数据；

基于时序特征前置比较的方式，初步过滤当前周期内的热点关键词；

将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算，筛选距离值不大于距离半径值对应的热点关键词作为科研热点；

其中，距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。

为了解决上述问题，本发明的第二个方面提供一种科研热点预测系统，其使得用户可以及时地获得未来一段时间科研热点主题预测推荐。

为了实现上述目的，本发明采用如下技术方案：

一种科研热点预测系统，包括：

热点关键词提取模块，其用于提取当前周期内科技文本中所有热点关键词；

时序数据生成模块，其用于根据热点关键词的TF-IDF值，生成当前周期内所有热点关键词的时序数据；

预测加速模块，其用于基于时序特征前置比较的方式，初步过滤当前周期内的热点关键词；

热点预测模块，其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算，筛选距离值不大于距离半径值对应的热点关键词作为科研热点；

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的科研热点预测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的科研热点预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)采用标准热点时序生成技术手段，获取各类热点关键词趋势特征，从而获得提升科研热点预测准确率的效果；

(2)采用基于时序特征前置比较技术手段，通过简化比较的特征，提高了在线预测的时间效率，获得该方法适应大规模在线数据预测的效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是科研词汇的点击量时序趋势图示例一；

图2是科研词汇的点击量时序趋势图示例二；

图3是本发明实施例的科研热点预测方法流程图；

图4是本发明实施例的科研热点预测系统结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

结合附图3，本实施例提供的一种科研热点预测方法，包括：

S101：提取当前周期内科技文本中所有热点关键词。

在具体实施中，提取当前周期内科技文本中所有热点关键词的过程为：

提取当前周期内科技文本的关键词；根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较，得到前周期内科技文本中所有热点关键词。

在具体实施中，利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。

爬取的文章文本化，设一段时间内抓取的科技信息文章集合为T_t，其中t表示周期序号。

基于权重TF-IDF算法获得T_t的关键词向量，记为Q为科技词库中词的数量。设a_i为词库中词汇分量第i个关键词，b_i为对应关键词a_i所得权重TF-IDF值。b_i计算具体步骤为：

1)设t_j是T_t的一个本文，基于标准TF-IDF算法获得t_j第i个词汇的TF-IDF值，设为

2)设t_j的下载量或阅读量为n_j，引用量为m_j。那么其中/>与/>分别表示该周期内所有文章n_j与m_j的平均值。

S102：根据热点关键词的TF-IDF值，生成当前周期内所有热点关键词的时序数据。

其具体实施过程如下：

1)设置b_i的热点阈值当/>时，则标记b_i对应的a_i为热点关键词。

2)生成a_i的权重TF-IDF时间序列B_i＝{b_i,t,t＝1,2,...,n}，其中b_i,t表示第t个周期b_i的值。b_i,t需从历史数据中获取。

S103：基于时序特征前置比较的方式，初步过滤当前周期内的热点关键词。

每个关键词都要与每个标准热点时序进行距离计算，因此其时间复杂度为w·|Z|，其中w为过滤掉过低b_i,t的关键词a_i的数量，|Z|为Z标准热点时序的数量。此方法比较耗时，本实施例基于时序特征前置比较的方式，加快预测时间。具体方法如下：

1)提取每个的时序特征。这些时序特征包括均值、方差、最大值、最小值等，/>的时序特征用V_β表示。

2)初步检测a_i检测序列B_i与的距离。提取B_i的时序特征V_i，基于欧氏距离计算V_i与V_β的距离，若此距离小于阈值/>则再进行热点预测；若大于/>则放弃B_i与/>的距离计算。

S104：将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算，筛选距离值不大于距离半径值对应的热点关键词作为科研热点；

作为一种具体实施方式，基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。

具体步骤如下：

1)过滤掉过低b_i,t的关键词a_i，以减少检测数量。设置过滤阈值γ，若当前周期其中/>表示近s′个周期b_i,x的平均值，则认为关键词a_i有可能成为热点关键词，进行检测。反之，则不进行检测。

2)设a_i通过1)步骤中的过滤，则生成a_i检测序列B_i，B_i＝{b_i,t,t＝1,2,...,n}。

3)对于每个计算B_i与/>的DTW距离d_i,β。若有d_i,β≤m_β，则判定a_i为热点关键词。设C_β|arc min d_i,β，则认为a_i时序B_i的未来趋势与C_β里的时序样本相似。

在其他实施例中，也可采用其他现有的算法来计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离，并不影响本实施例的预测结果。

在具体实施中，标准热点时序数据的生成过程为：

步骤1：基于热点TF-IDF阈值比较的方式，标记历史周期时间段内所有热点关键词，生成历史热点关键词的时序数据；

步骤2：从历史热点关键词的时序数据中筛选首次热点出现序列；

在具体实施中，筛选首次热点出现序列。首次热点出现序列是指之前关键词a_i不是热点词汇，而本周期变为热点词汇，基于此序列训练预测模型可以有效感知未来的热点关键词。设当前周期为t，若且/>则标记B_i为首次热点出现序列。

步骤3：从首次热点出现序列中截取预设长度的时序数据并存储至样本集合；

设B_i,(t-s+1,t)为首次热点出现序列的一个截取样本，B_i,(t-s+1,t)＝{b_i,x,x＝t-s+1,t-s+2,...,t-1,t}，其中s为截取长度，所有的样本长度固定为s。

步骤4：聚类样本集合中时序数据样本，根据聚类结果生成多个标准热点时序数据。

结合附图2，采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。

首先，基于动态时间规整算法(DTW)计算两个时序样本B_i,(t-s+1,t)、B_j,(x-s+1,x)的距离，x，t表示起止时间可不同。具体公式如下：

D(t₁,t₂)＝Dist(t₁,t₂)+min[D(t₁-1,t₂),D(t₁,t₂-1),D(t₁-1,t₂-1)]

公式中，D(t₁,t₂)是两个时序分别在t₁周期与t₂周期的DTW距离，

其次，基于DBSCAN聚类算法对样本库的时序数据样本进行聚类，设生成的聚类为C_β|β＝1,2，...，n。

再次，生成标准热点时序，即基于一个时序聚类中所有时序数据样本计算出一个标准时序，作为该聚类的标准示例。用表示标准热点时序，其计算公式如下：每个时序聚类对应生成一个标准热点时序，设Z为生成标准热点时序的集合，/>

最后，计算每个聚类中的时序样本与其标准热点时序距离半径，距离半径设为m_β。

本实施例通过聚类生成多个标准热点时序，该技术可以将各类热点关键词的时序特征概括表示，从而提高科研热点的准确率；采用摘要特征预比较技术，筛选热点时序，提高热点加速预测的时间效率与应用规模。

实施例二

结合附图4所示，本实施例提供了一种科研热点预测系统，其包括：

(1)热点关键词提取模块，其用于提取当前周期内科技文本中所有热点关键词。

(2)时序数据生成模块，其用于根据热点关键词的TF-IDF值，生成当前周期内所有热点关键词的时序数据。

其具体实施过程如下：

(3)预测加速模块，其用于基于时序特征前置比较的方式，初步过滤当前周期内的热点关键词。

(4)热点预测模块，其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算，筛选距离值不大于距离半径值对应的热点关键词作为科研热点。

在具体实施过程中，科研热点预测系统可以采用云计算平台并行预测各关键词是否为热点关键词。

具体步骤如下：

在具体实施中，标准热点时序数据的生成过程为：

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的科研热点预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的科研热点预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种科研热点预测方法，其特征在于，包括：

提取当前周期内科技文本中所有热点关键词；

其中，距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离；

所述基于时序特征前置比较的方式具体为：

提取每个的时序特征；这些时序特征包括均值、方差、最大值、最小值，/>的时序特征用/>表示；初步检测/>与/>的距离；提取/>的时序特征/>，基于欧氏距离计算/>与/>的距离，若此距离小于阈值/>，则再进行热点预测；若大于/>则放弃/>与/>的距离计算；

其中，表示标准热点时序，且/>，Z为生成标准热点时序的集合；/>为a_i的权重TF-IDF时间序列，a_i为词库中词汇分量第i个关键词；

所述标准热点时序数据为：

基于热点TF-IDF阈值比较的方式，标记历史周期时间段内所有热点关键词，生成历史热点关键词的时序数据；从历史热点关键词的时序数据中筛选首次热点出现序列；从首次热点出现序列中截取预设长度的时序数据并存储至样本集合；聚类样本集合中时序数据样本，根据聚类结果生成多个标准热点时序数据。

2.如权利要求1所述的科研热点预测方法，其特征在于，提取当前周期内科技文本中所有热点关键词的过程为：

3.如权利要求1所述的科研热点预测方法，其特征在于，基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。

4.如权利要求1所述的科研热点预测方法，其特征在于，采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。

5.一种科研热点预测系统，其特征在于，包括：

所述基于时序特征前置比较的方式具体为：

所述标准热点时序数据为：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的科研热点预测方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的科研热点预测方法中的步骤。