具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
结合附图3,本实施例提供的一种科研热点预测方法,包括:
S101:提取当前周期内科技文本中所有热点关键词。
在具体实施中,提取当前周期内科技文本中所有热点关键词的过程为:
提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。
在具体实施中,利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。
爬取的文章文本化,设一段时间内抓取的科技信息文章集合为Tt,其中t表示周期序号。
基于权重TF-IDF算法获得Tt的关键词向量,记为Q为科技词库中词的数量。设ai为词库中词汇分量第i个关键词,bi为对应关键词ai所得权重TF-IDF值。bi计算具体步骤为:
1)设tj是Tt的一个本文,基于标准TF-IDF算法获得tj第i个词汇的TF-IDF值,设为
2)设tj的下载量或阅读量为nj,引用量为mj。那么其中/>与/>分别表示该周期内所有文章nj与mj的平均值。
S102:根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据。
其具体实施过程如下:
1)设置bi的热点阈值当/>时,则标记bi对应的ai为热点关键词。
2)生成ai的权重TF-IDF时间序列Bi={bi,t,t=1,2,...,n},其中bi,t表示第t个周期bi的值。bi,t需从历史数据中获取。
S103:基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词。
每个关键词都要与每个标准热点时序进行距离计算,因此其时间复杂度为w·|Z|,其中w为过滤掉过低bi,t的关键词ai的数量,|Z|为Z标准热点时序的数量。此方法比较耗时,本实施例基于时序特征前置比较的方式,加快预测时间。具体方法如下:
1)提取每个的时序特征。这些时序特征包括均值、方差、最大值、最小值等,/>的时序特征用Vβ表示。
2)初步检测ai检测序列Bi与的距离。提取Bi的时序特征Vi,基于欧氏距离计算Vi与Vβ的距离,若此距离小于阈值/>则再进行热点预测;若大于/>则放弃Bi与/>的距离计算。
S104:将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。
作为一种具体实施方式,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。
具体步骤如下:
1)过滤掉过低bi,t的关键词ai,以减少检测数量。设置过滤阈值γ,若当前周期其中/>表示近s′个周期bi,x的平均值,则认为关键词ai有可能成为热点关键词,进行检测。反之,则不进行检测。
2)设ai通过1)步骤中的过滤,则生成ai检测序列Bi,Bi={bi,t,t=1,2,...,n}。
3)对于每个计算Bi与/>的DTW距离di,β。若有di,β≤mβ,则判定ai为热点关键词。设Cβ|arc min di,β,则认为ai时序Bi的未来趋势与Cβ里的时序样本相似。
在其他实施例中,也可采用其他现有的算法来计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离,并不影响本实施例的预测结果。
在具体实施中,标准热点时序数据的生成过程为:
步骤1:基于热点TF-IDF阈值比较的方式,标记历史周期时间段内所有热点关键词,生成历史热点关键词的时序数据;
步骤2:从历史热点关键词的时序数据中筛选首次热点出现序列;
在具体实施中,筛选首次热点出现序列。首次热点出现序列是指之前关键词ai不是热点词汇,而本周期变为热点词汇,基于此序列训练预测模型可以有效感知未来的热点关键词。设当前周期为t,若且/>则标记Bi为首次热点出现序列。
步骤3:从首次热点出现序列中截取预设长度的时序数据并存储至样本集合;
设Bi,(t-s+1,t)为首次热点出现序列的一个截取样本,Bi,(t-s+1,t)={bi,x,x=t-s+1,t-s+2,...,t-1,t},其中s为截取长度,所有的样本长度固定为s。
步骤4:聚类样本集合中时序数据样本,根据聚类结果生成多个标准热点时序数据。
结合附图2,采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。
首先,基于动态时间规整算法(DTW)计算两个时序样本Bi,(t-s+1,t)、Bj,(x-s+1,x)的距离,x,t表示起止时间可不同。具体公式如下:
D(t1,t2)=Dist(t1,t2)+min[D(t1-1,t2),D(t1,t2-1),D(t1-1,t2-1)]
公式中,D(t1,t2)是两个时序分别在t1周期与t2周期的DTW距离,
其次,基于DBSCAN聚类算法对样本库的时序数据样本进行聚类,设生成的聚类为Cβ|β=1,2,...,n。
再次,生成标准热点时序,即基于一个时序聚类中所有时序数据样本计算出一个标准时序,作为该聚类的标准示例。用表示标准热点时序,其计算公式如下:每个时序聚类对应生成一个标准热点时序,设Z为生成标准热点时序的集合,/>
最后,计算每个聚类中的时序样本与其标准热点时序距离半径,距离半径设为mβ。
本实施例通过聚类生成多个标准热点时序,该技术可以将各类热点关键词的时序特征概括表示,从而提高科研热点的准确率;采用摘要特征预比较技术,筛选热点时序,提高热点加速预测的时间效率与应用规模。
实施例二
结合附图4所示,本实施例提供了一种科研热点预测系统,其包括:
(1)热点关键词提取模块,其用于提取当前周期内科技文本中所有热点关键词。
在具体实施中,提取当前周期内科技文本中所有热点关键词的过程为:
提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。
在具体实施中,利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。
爬取的文章文本化,设一段时间内抓取的科技信息文章集合为Tt,其中t表示周期序号。
基于权重TF-IDF算法获得Tt的关键词向量,记为Q为科技词库中词的数量。设ai为词库中词汇分量第i个关键词,bi为对应关键词ai所得权重TF-IDF值。bi计算具体步骤为:
1)设tj是Tt的一个本文,基于标准TF-IDF算法获得tj第i个词汇的TF-IDF值,设为
2)设tj的下载量或阅读量为nj,引用量为mj。那么其中/>与/>分别表示该周期内所有文章nj与mj的平均值。
(2)时序数据生成模块,其用于根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据。
其具体实施过程如下:
1)设置bi的热点阈值当/>时,则标记bi对应的ai为热点关键词。
2)生成ai的权重TF-IDF时间序列Bi={bi,t,t=1,2,...,n},其中bi,t表示第t个周期bi的值。bi,t需从历史数据中获取。
(3)预测加速模块,其用于基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词。
每个关键词都要与每个标准热点时序进行距离计算,因此其时间复杂度为w·|Z|,其中w为过滤掉过低bi,t的关键词ai的数量,|Z|为Z标准热点时序的数量。此方法比较耗时,本实施例基于时序特征前置比较的方式,加快预测时间。具体方法如下:
1)提取每个的时序特征。这些时序特征包括均值、方差、最大值、最小值等,/>的时序特征用Vβ表示。
2)初步检测ai检测序列Bi与的距离。提取Bi的时序特征Vi,基于欧氏距离计算Vi与Vβ的距离,若此距离小于阈值/>则再进行热点预测;若大于/>则放弃Bi与/>的距离计算。
(4)热点预测模块,其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点。
在具体实施过程中,科研热点预测系统可以采用云计算平台并行预测各关键词是否为热点关键词。
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。
作为一种具体实施方式,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。
具体步骤如下:
1)过滤掉过低bi,t的关键词ai,以减少检测数量。设置过滤阈值γ,若当前周期其中/>表示近s′个周期bi,x的平均值,则认为关键词ai有可能成为热点关键词,进行检测。反之,则不进行检测。
2)设ai通过1)步骤中的过滤,则生成ai检测序列Bi,Bi={bi,t,t=1,2,...,n}。
3)对于每个计算Bi与/>的DTW距离di,β。若有di,β≤mβ,则判定ai为热点关键词。设Cβ|arc min di,β,则认为ai时序Bi的未来趋势与Cβ里的时序样本相似。
在其他实施例中,也可采用其他现有的算法来计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离,并不影响本实施例的预测结果。
在具体实施中,标准热点时序数据的生成过程为:
步骤1:基于热点TF-IDF阈值比较的方式,标记历史周期时间段内所有热点关键词,生成历史热点关键词的时序数据;
步骤2:从历史热点关键词的时序数据中筛选首次热点出现序列;
在具体实施中,筛选首次热点出现序列。首次热点出现序列是指之前关键词ai不是热点词汇,而本周期变为热点词汇,基于此序列训练预测模型可以有效感知未来的热点关键词。设当前周期为t,若且/>则标记Bi为首次热点出现序列。
步骤3:从首次热点出现序列中截取预设长度的时序数据并存储至样本集合;
设Bi,(t-s+1,t)为首次热点出现序列的一个截取样本,Bi,(t-s+1,t)={bi,x,x=t-s+1,t-s+2,...,t-1,t},其中s为截取长度,所有的样本长度固定为s。
步骤4:聚类样本集合中时序数据样本,根据聚类结果生成多个标准热点时序数据。
结合附图2,采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。
首先,基于动态时间规整算法(DTW)计算两个时序样本Bi,(t-s+1,t)、Bj,(x-s+1,x)的距离,x,t表示起止时间可不同。具体公式如下:
D(t1,t2)=Dist(t1,t2)+min[D(t1-1,t2),D(t1,t2-1),D(t1-1,t2-1)]
公式中,D(t1,t2)是两个时序分别在t1周期与t2周期的DTW距离,
其次,基于DBSCAN聚类算法对样本库的时序数据样本进行聚类,设生成的聚类为Cβ|β=1,2,...,n。
再次,生成标准热点时序,即基于一个时序聚类中所有时序数据样本计算出一个标准时序,作为该聚类的标准示例。用表示标准热点时序,其计算公式如下:每个时序聚类对应生成一个标准热点时序,设Z为生成标准热点时序的集合,/>
最后,计算每个聚类中的时序样本与其标准热点时序距离半径,距离半径设为mβ。
本实施例通过聚类生成多个标准热点时序,该技术可以将各类热点关键词的时序特征概括表示,从而提高科研热点的准确率;采用摘要特征预比较技术,筛选热点时序,提高热点加速预测的时间效率与应用规模。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的科研热点预测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的科研热点预测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。