CN111832815B - 科研热点预测方法及系统 - Google Patents

科研热点预测方法及系统 Download PDF

Info

Publication number
CN111832815B
CN111832815B CN202010628406.XA CN202010628406A CN111832815B CN 111832815 B CN111832815 B CN 111832815B CN 202010628406 A CN202010628406 A CN 202010628406A CN 111832815 B CN111832815 B CN 111832815B
Authority
CN
China
Prior art keywords
hot spot
time sequence
sequence data
keywords
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010628406.XA
Other languages
English (en)
Other versions
CN111832815A (zh
Inventor
马艳
邹立达
韩英昆
齐达立
马雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010628406.XA priority Critical patent/CN111832815B/zh
Publication of CN111832815A publication Critical patent/CN111832815A/zh
Application granted granted Critical
Publication of CN111832815B publication Critical patent/CN111832815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于科研热点预测领域,提供了一种科研热点预测方法及系统。其中,科研热点预测方法包括提取当前周期内科技文本中所有热点关键词;根据热点关键词的TF‑IDF值,生成当前周期内所有热点关键词的时序数据;基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。

Description

科研热点预测方法及系统
技术领域
本发明属于科研热点预测领域,尤其涉及一种科研热点预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
科研热点预测是科技情报领域较新的应用需求。科研工作者、科研项目管理者在选题、立项必须有一定的前瞻性,即立足于当前科学技术现状与社会发展情况,对未来可能产生的新理论或者产生应用价值的新技术做出判断。目前科研热点预测的方法严重依赖于本领域高级专业人员通过文献查阅与市场调研的方法确定热点出现的方向。另外,当一个新的理论与技术诞生后,其关联应用领域还需要大量的工作去发掘。科研领域中,科研热点词汇数量巨大,每种热点呈现的走势不尽相同,例如:以某热点科研词汇的点击量为例,其随着时间变化的趋势完全不同,如图1(a)和图1(b)所示。发明人发现,基于标准的机器学习模型拟合热点走势准确率不高。
发明内容
为了解决上述问题,本发明的第一个方面提供一种科研热点预测方法,其使得用户可以及时地获得未来一段时间科研热点主题预测推荐。
为了实现上述目的,本发明采用如下技术方案:
一种科研热点预测方法,包括:
提取当前周期内科技文本中所有热点关键词;
根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;
基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;
将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。
为了解决上述问题,本发明的第二个方面提供一种科研热点预测系统,其使得用户可以及时地获得未来一段时间科研热点主题预测推荐。
为了实现上述目的,本发明采用如下技术方案:
一种科研热点预测系统,包括:
热点关键词提取模块,其用于提取当前周期内科技文本中所有热点关键词;
时序数据生成模块,其用于根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;
预测加速模块,其用于基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;
热点预测模块,其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的科研热点预测方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的科研热点预测方法中的步骤。
与现有技术相比,本发明的有益效果是:
(1)采用标准热点时序生成技术手段,获取各类热点关键词趋势特征,从而获得提升科研热点预测准确率的效果;
(2)采用基于时序特征前置比较技术手段,通过简化比较的特征,提高了在线预测的时间效率,获得该方法适应大规模在线数据预测的效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是科研词汇的点击量时序趋势图示例一;
图2是科研词汇的点击量时序趋势图示例二;
图3是本发明实施例的科研热点预测方法流程图;
图4是本发明实施例的科研热点预测系统结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
结合附图3,本实施例提供的一种科研热点预测方法,包括:
S101:提取当前周期内科技文本中所有热点关键词。
在具体实施中,提取当前周期内科技文本中所有热点关键词的过程为:
提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。
在具体实施中,利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。
爬取的文章文本化,设一段时间内抓取的科技信息文章集合为Tt,其中t表示周期序号。
基于权重TF-IDF算法获得Tt的关键词向量,记为Q为科技词库中词的数量。设ai为词库中词汇分量第i个关键词,bi为对应关键词ai所得权重TF-IDF值。bi计算具体步骤为:
1)设tj是Tt的一个本文,基于标准TF-IDF算法获得tj第i个词汇的TF-IDF值,设为
2)设tj的下载量或阅读量为nj,引用量为mj。那么其中/>与/>分别表示该周期内所有文章nj与mj的平均值。
S102:根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据。
其具体实施过程如下:
1)设置bi的热点阈值当/>时,则标记bi对应的ai为热点关键词。
2)生成ai的权重TF-IDF时间序列Bi={bi,t,t=1,2,...,n},其中bi,t表示第t个周期bi的值。bi,t需从历史数据中获取。
S103:基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词。
每个关键词都要与每个标准热点时序进行距离计算,因此其时间复杂度为w·|Z|,其中w为过滤掉过低bi,t的关键词ai的数量,|Z|为Z标准热点时序的数量。此方法比较耗时,本实施例基于时序特征前置比较的方式,加快预测时间。具体方法如下:
1)提取每个的时序特征。这些时序特征包括均值、方差、最大值、最小值等,/>的时序特征用Vβ表示。
2)初步检测ai检测序列Bi的距离。提取Bi的时序特征Vi,基于欧氏距离计算Vi与Vβ的距离,若此距离小于阈值/>则再进行热点预测;若大于/>则放弃Bi与/>的距离计算。
S104:将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。
作为一种具体实施方式,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。
具体步骤如下:
1)过滤掉过低bi,t的关键词ai,以减少检测数量。设置过滤阈值γ,若当前周期其中/>表示近s′个周期bi,x的平均值,则认为关键词ai有可能成为热点关键词,进行检测。反之,则不进行检测。
2)设ai通过1)步骤中的过滤,则生成ai检测序列Bi,Bi={bi,t,t=1,2,...,n}。
3)对于每个计算Bi与/>的DTW距离di,β。若有di,β≤mβ,则判定ai为热点关键词。设Cβ|arc min di,β,则认为ai时序Bi的未来趋势与Cβ里的时序样本相似。
在其他实施例中,也可采用其他现有的算法来计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离,并不影响本实施例的预测结果。
在具体实施中,标准热点时序数据的生成过程为:
步骤1:基于热点TF-IDF阈值比较的方式,标记历史周期时间段内所有热点关键词,生成历史热点关键词的时序数据;
步骤2:从历史热点关键词的时序数据中筛选首次热点出现序列;
在具体实施中,筛选首次热点出现序列。首次热点出现序列是指之前关键词ai不是热点词汇,而本周期变为热点词汇,基于此序列训练预测模型可以有效感知未来的热点关键词。设当前周期为t,若且/>则标记Bi为首次热点出现序列。
步骤3:从首次热点出现序列中截取预设长度的时序数据并存储至样本集合;
设Bi,(t-s+1,t)为首次热点出现序列的一个截取样本,Bi,(t-s+1,t)={bi,x,x=t-s+1,t-s+2,...,t-1,t},其中s为截取长度,所有的样本长度固定为s。
步骤4:聚类样本集合中时序数据样本,根据聚类结果生成多个标准热点时序数据。
结合附图2,采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。
首先,基于动态时间规整算法(DTW)计算两个时序样本Bi,(t-s+1,t)、Bj,(x-s+1,x)的距离,x,t表示起止时间可不同。具体公式如下:
D(t1,t2)=Dist(t1,t2)+min[D(t1-1,t2),D(t1,t2-1),D(t1-1,t2-1)]
公式中,D(t1,t2)是两个时序分别在t1周期与t2周期的DTW距离,
其次,基于DBSCAN聚类算法对样本库的时序数据样本进行聚类,设生成的聚类为Cβ|β=1,2,...,n。
再次,生成标准热点时序,即基于一个时序聚类中所有时序数据样本计算出一个标准时序,作为该聚类的标准示例。用表示标准热点时序,其计算公式如下:每个时序聚类对应生成一个标准热点时序,设Z为生成标准热点时序的集合,/>
最后,计算每个聚类中的时序样本与其标准热点时序距离半径,距离半径设为mβ
本实施例通过聚类生成多个标准热点时序,该技术可以将各类热点关键词的时序特征概括表示,从而提高科研热点的准确率;采用摘要特征预比较技术,筛选热点时序,提高热点加速预测的时间效率与应用规模。
实施例二
结合附图4所示,本实施例提供了一种科研热点预测系统,其包括:
(1)热点关键词提取模块,其用于提取当前周期内科技文本中所有热点关键词。
在具体实施中,提取当前周期内科技文本中所有热点关键词的过程为:
提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。
在具体实施中,利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。
爬取的文章文本化,设一段时间内抓取的科技信息文章集合为Tt,其中t表示周期序号。
基于权重TF-IDF算法获得Tt的关键词向量,记为Q为科技词库中词的数量。设ai为词库中词汇分量第i个关键词,bi为对应关键词ai所得权重TF-IDF值。bi计算具体步骤为:
1)设tj是Tt的一个本文,基于标准TF-IDF算法获得tj第i个词汇的TF-IDF值,设为
2)设tj的下载量或阅读量为nj,引用量为mj。那么其中/>与/>分别表示该周期内所有文章nj与mj的平均值。
(2)时序数据生成模块,其用于根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据。
其具体实施过程如下:
1)设置bi的热点阈值当/>时,则标记bi对应的ai为热点关键词。
2)生成ai的权重TF-IDF时间序列Bi={bi,t,t=1,2,...,n},其中bi,t表示第t个周期bi的值。bi,t需从历史数据中获取。
(3)预测加速模块,其用于基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词。
每个关键词都要与每个标准热点时序进行距离计算,因此其时间复杂度为w·|Z|,其中w为过滤掉过低bi,t的关键词ai的数量,|Z|为Z标准热点时序的数量。此方法比较耗时,本实施例基于时序特征前置比较的方式,加快预测时间。具体方法如下:
1)提取每个的时序特征。这些时序特征包括均值、方差、最大值、最小值等,/>的时序特征用Vβ表示。
2)初步检测ai检测序列Bi的距离。提取Bi的时序特征Vi,基于欧氏距离计算Vi与Vβ的距离,若此距离小于阈值/>则再进行热点预测;若大于/>则放弃Bi与/>的距离计算。
(4)热点预测模块,其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点。
在具体实施过程中,科研热点预测系统可以采用云计算平台并行预测各关键词是否为热点关键词。
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。
作为一种具体实施方式,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。
具体步骤如下:
1)过滤掉过低bi,t的关键词ai,以减少检测数量。设置过滤阈值γ,若当前周期其中/>表示近s′个周期bi,x的平均值,则认为关键词ai有可能成为热点关键词,进行检测。反之,则不进行检测。
2)设ai通过1)步骤中的过滤,则生成ai检测序列Bi,Bi={bi,t,t=1,2,...,n}。
3)对于每个计算Bi与/>的DTW距离di,β。若有di,β≤mβ,则判定ai为热点关键词。设Cβ|arc min di,β,则认为ai时序Bi的未来趋势与Cβ里的时序样本相似。
在其他实施例中,也可采用其他现有的算法来计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离,并不影响本实施例的预测结果。
在具体实施中,标准热点时序数据的生成过程为:
步骤1:基于热点TF-IDF阈值比较的方式,标记历史周期时间段内所有热点关键词,生成历史热点关键词的时序数据;
步骤2:从历史热点关键词的时序数据中筛选首次热点出现序列;
在具体实施中,筛选首次热点出现序列。首次热点出现序列是指之前关键词ai不是热点词汇,而本周期变为热点词汇,基于此序列训练预测模型可以有效感知未来的热点关键词。设当前周期为t,若且/>则标记Bi为首次热点出现序列。
步骤3:从首次热点出现序列中截取预设长度的时序数据并存储至样本集合;
设Bi,(t-s+1,t)为首次热点出现序列的一个截取样本,Bi,(t-s+1,t)={bi,x,x=t-s+1,t-s+2,...,t-1,t},其中s为截取长度,所有的样本长度固定为s。
步骤4:聚类样本集合中时序数据样本,根据聚类结果生成多个标准热点时序数据。
结合附图2,采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。
首先,基于动态时间规整算法(DTW)计算两个时序样本Bi,(t-s+1,t)、Bj,(x-s+1,x)的距离,x,t表示起止时间可不同。具体公式如下:
D(t1,t2)=Dist(t1,t2)+min[D(t1-1,t2),D(t1,t2-1),D(t1-1,t2-1)]
公式中,D(t1,t2)是两个时序分别在t1周期与t2周期的DTW距离,
其次,基于DBSCAN聚类算法对样本库的时序数据样本进行聚类,设生成的聚类为Cβ|β=1,2,...,n。
再次,生成标准热点时序,即基于一个时序聚类中所有时序数据样本计算出一个标准时序,作为该聚类的标准示例。用表示标准热点时序,其计算公式如下:每个时序聚类对应生成一个标准热点时序,设Z为生成标准热点时序的集合,/>
最后,计算每个聚类中的时序样本与其标准热点时序距离半径,距离半径设为mβ
本实施例通过聚类生成多个标准热点时序,该技术可以将各类热点关键词的时序特征概括表示,从而提高科研热点的准确率;采用摘要特征预比较技术,筛选热点时序,提高热点加速预测的时间效率与应用规模。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的科研热点预测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的科研热点预测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种科研热点预测方法,其特征在于,包括:
提取当前周期内科技文本中所有热点关键词;
根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;
基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;
将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离;
所述基于时序特征前置比较的方式具体为:
提取每个的时序特征;这些时序特征包括均值、方差、最大值、最小值,/>的时序特征用/>表示;初步检测/>与/>的距离;提取/>的时序特征/>,基于欧氏距离计算/>与/>的距离,若此距离小于阈值/>,则再进行热点预测;若大于/>则放弃/>与/>的距离计算;
其中,表示标准热点时序,且/>,Z为生成标准热点时序的集合;/>为ai的权重TF-IDF时间序列,ai为词库中词汇分量第i个关键词;
所述标准热点时序数据为:
基于热点TF-IDF阈值比较的方式,标记历史周期时间段内所有热点关键词,生成历史热点关键词的时序数据;从历史热点关键词的时序数据中筛选首次热点出现序列;从首次热点出现序列中截取预设长度的时序数据并存储至样本集合;聚类样本集合中时序数据样本,根据聚类结果生成多个标准热点时序数据。
2.如权利要求1所述的科研热点预测方法,其特征在于,提取当前周期内科技文本中所有热点关键词的过程为:
提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。
3.如权利要求1所述的科研热点预测方法,其特征在于,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。
4.如权利要求1所述的科研热点预测方法,其特征在于,采用DBSCAN聚类算法对样本集合中的时序数据样本进行聚类。
5.一种科研热点预测系统,其特征在于,包括:
热点关键词提取模块,其用于提取当前周期内科技文本中所有热点关键词;
时序数据生成模块,其用于根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;
预测加速模块,其用于基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;
热点预测模块,其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离;
所述基于时序特征前置比较的方式具体为:
提取每个的时序特征;这些时序特征包括均值、方差、最大值、最小值,/>的时序特征用/>表示;初步检测/>与/>的距离;提取/>的时序特征/>,基于欧氏距离计算/>与/>的距离,若此距离小于阈值/>,则再进行热点预测;若大于/>则放弃/>与/>的距离计算;
其中,表示标准热点时序,且/>,Z为生成标准热点时序的集合;/>为ai的权重TF-IDF时间序列,ai为词库中词汇分量第i个关键词;
所述标准热点时序数据为:
基于热点TF-IDF阈值比较的方式,标记历史周期时间段内所有热点关键词,生成历史热点关键词的时序数据;从历史热点关键词的时序数据中筛选首次热点出现序列;从首次热点出现序列中截取预设长度的时序数据并存储至样本集合;聚类样本集合中时序数据样本,根据聚类结果生成多个标准热点时序数据。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的科研热点预测方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的科研热点预测方法中的步骤。
CN202010628406.XA 2020-07-02 2020-07-02 科研热点预测方法及系统 Active CN111832815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010628406.XA CN111832815B (zh) 2020-07-02 2020-07-02 科研热点预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010628406.XA CN111832815B (zh) 2020-07-02 2020-07-02 科研热点预测方法及系统

Publications (2)

Publication Number Publication Date
CN111832815A CN111832815A (zh) 2020-10-27
CN111832815B true CN111832815B (zh) 2023-12-05

Family

ID=72900058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010628406.XA Active CN111832815B (zh) 2020-07-02 2020-07-02 科研热点预测方法及系统

Country Status (1)

Country Link
CN (1) CN111832815B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722424B (zh) * 2021-07-20 2024-02-02 国网山东省电力公司电力科学研究院 一种基于新闻事件的科研方向推荐方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107992976A (zh) * 2017-12-15 2018-05-04 中国传媒大学 热点话题早期发展趋势预测系统及预测方法
CN108415910A (zh) * 2017-02-09 2018-08-17 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
CN110134839A (zh) * 2019-03-27 2019-08-16 平安科技(深圳)有限公司 时序数据特征处理方法、装置及计算机可读存储介质
CN110188263A (zh) * 2019-05-29 2019-08-30 国网山东省电力公司电力科学研究院 一种面向异构时距的科学研究热点预测方法及系统
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110472004A (zh) * 2019-08-23 2019-11-19 国网山东省电力公司电力科学研究院 一种科技情报数据多级缓存管理的方法及系统
CN110488218A (zh) * 2019-08-26 2019-11-22 国网重庆市电力公司电力科学研究院 一种电能表运行状态评估方法和评估装置
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110688477A (zh) * 2019-10-10 2020-01-14 华夏幸福产业投资有限公司 一种技术热点领域的预测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393378B (zh) * 2009-04-07 2013-04-11 Inst Information Industry 熱點分析系統及方法,及其電腦程式產品
US10496927B2 (en) * 2014-05-23 2019-12-03 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415910A (zh) * 2017-02-09 2018-08-17 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107992976A (zh) * 2017-12-15 2018-05-04 中国传媒大学 热点话题早期发展趋势预测系统及预测方法
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
CN110134839A (zh) * 2019-03-27 2019-08-16 平安科技(深圳)有限公司 时序数据特征处理方法、装置及计算机可读存储介质
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110188263A (zh) * 2019-05-29 2019-08-30 国网山东省电力公司电力科学研究院 一种面向异构时距的科学研究热点预测方法及系统
CN110472004A (zh) * 2019-08-23 2019-11-19 国网山东省电力公司电力科学研究院 一种科技情报数据多级缓存管理的方法及系统
CN110488218A (zh) * 2019-08-26 2019-11-22 国网重庆市电力公司电力科学研究院 一种电能表运行状态评估方法和评估装置
CN110688477A (zh) * 2019-10-10 2020-01-14 华夏幸福产业投资有限公司 一种技术热点领域的预测方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于内容分析的中文BBS话题检测系统的设计与实现;赵艳红;聂哲;;计算机应用与软件(第06期);242-246 *

Also Published As

Publication number Publication date
CN111832815A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
CN107943847B (zh) 企业关系提取方法、装置及存储介质
US9542477B2 (en) Method of automated discovery of topics relatedness
US20200311207A1 (en) Automatic text segmentation based on relevant context
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
US10402752B2 (en) Training sequence natural language processing engines
WO2017184371A1 (en) Correlating distinct events using linguistic analysis
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
EP3598436A1 (en) Structuring and grouping of voice queries
CN110909125B (zh) 推文级社会媒体谣言检测方法
CN110297885B (zh) 实时事件摘要的生成方法、装置、设备及存储介质
US20210004693A1 (en) Real-Time On the Fly Generation of Feature-Based Label Embeddings Via Machine Learning
EP3884426A1 (en) Action classification in video clips using attention-based neural networks
Yang Dynamic risk identification safety model based on fuzzy support vector machine and immune optimization algorithm
CN111078858A (zh) 文章搜索方法、装置及电子设备
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
JP7287699B2 (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
CN111832815B (zh) 科研热点预测方法及系统
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
KR101946842B1 (ko) 데이터 탐색 장치
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
CN114546326A (zh) 一种虚拟人手语生成方法和系统
CN114491038A (zh) 一种基于会话场景的流程挖掘方法、装置及设备
CN112287215A (zh) 一种智能就业推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220126

Address after: 250003 No. 2000, Wang Yue Road, Shizhong District, Ji'nan, Shandong

Applicant after: ELECTRIC POWER RESEARCH INSTITUTE OF STATE GRID SHANDONG ELECTRIC POWER Co.

Applicant after: STATE GRID CORPORATION OF CHINA

Address before: 250003 No. 2000, Wang Yue Road, Shizhong District, Ji'nan, Shandong

Applicant before: SHANDONG ELECTRIC POWER Research Institute

Applicant before: ELECTRIC POWER RESEARCH INSTITUTE OF STATE GRID SHANDONG ELECTRIC POWER Co.

Applicant before: STATE GRID CORPORATION OF CHINA

GR01 Patent grant
GR01 Patent grant