CN110188263A - 一种面向异构时距的科学研究热点预测方法及系统 - Google Patents

一种面向异构时距的科学研究热点预测方法及系统 Download PDF

Info

Publication number
CN110188263A
CN110188263A CN201910460301.5A CN201910460301A CN110188263A CN 110188263 A CN110188263 A CN 110188263A CN 201910460301 A CN201910460301 A CN 201910460301A CN 110188263 A CN110188263 A CN 110188263A
Authority
CN
China
Prior art keywords
rnn
training
prediction
prediction model
research hotspot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910460301.5A
Other languages
English (en)
Other versions
CN110188263B (zh
Inventor
马艳
邹立达
齐达立
陈玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910460301.5A priority Critical patent/CN110188263B/zh
Publication of CN110188263A publication Critical patent/CN110188263A/zh
Application granted granted Critical
Publication of CN110188263B publication Critical patent/CN110188263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向异构时距的科学研究热点预测方法及系统,方法包括以下步骤:1)提取特征:在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;2)分析预测需求:分析用户需要预测热点的时间跨度;3)生成预测模型:生成嵌入BP神经网路的RNN预测模型;4)训练预测模型:对嵌入BP神经网路的RNN预测模型进行逐层训练;5)生成预测结果:将数据输入训练后预测模型生成研究热点预测结果。该方法不仅能够感知任意时间跨度的出现的研究热点,为不同需求的科研人员提供研究方向;而且提出的嵌入式RNN预测模型,有较快的训练效率,可以基于最新数据实时训练模型,并迅速准确地返回预测结果。

Description

一种面向异构时距的科学研究热点预测方法及系统
技术领域
本发明涉及一种面向异构时距的科学研究热点预测方法及系统,属于大数据技术领域。
背景技术
科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。科研热点预测是科技情报领域较新的应用需求。科研工作者、科研项目管理者在选题、立项必须有一定的前瞻性,即立足于当前科学技术现状与社会发展情况,对未来可能产生的新理论或者产生应用价值的新技术做出判断。
目前科研热点预测的方法严重依赖于本领域高级专业人员通过文献查阅与市场调研的方法确定热点出现的方向。随着人工智能、云计算等技术领域的发展,使得基于机器学习去预测科研热点成为可能。较为可行、直观的方法是通过爬虫技术将文献数据库的文献下载,并通过特征表示与特征提出,将这此文本数据转换为时序数据,最后基于RNN、LSTM、GRU等时序预测算法获得未来的热点。
然而,用户对未来时长的定义不同,也即预测的时间跨度需求不同,热点预测是异构时距的。比如有的用户需要预测一周后的热点,有的用户需要预测一个后甚至一年后热点。针对此类场景,并没有一个很好的模型可以很好的适用。因此,亟需设计一种科研热点预测与推送措施,可以对异构时距的科学研究热点给出较为快速准确的预测。
发明内容
针对以上方法存在的不足,本发明提出了一种面向异构时距的科学研究热点预测方法及系统,其能够较为准确快速地预测未来任意时间跨度的科研热点,并将其推送到科研用户,辅助科研工作者及科研项目管理者的工作。
本发明解决其技术问题采取的技术方案是:
一方面,本发明实施例提供的一种面向异构时距的科学研究热点预测方法,包括以下步骤:
1)提取特征:在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;
2)分析预测需求:分析用户需要预测热点的时间跨度;
3)生成预测模型:生成嵌入BP神经网路的RNN(Recurrent Neural Network,循环神经网络)预测模型;
4)训练预测模型:对嵌入BP神经网路的RNN预测模型进行逐层训练;
5)生成预测结果:将数据输入训练后预测模型生成研究热点预测结果。
作为本实施例一种可能的实现方式,所述提取特征的具体过程为:利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章,同时利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取;最终提取的向量表示为一个时序数据X,时序数据X是模型训练模块、预测结果模块的数据来源。
作为本实施例一种可能的实现方式,所述分析预测需求的具体过程为:基于与用户的交互,分析用户需要预测热点的时间跨度,并利用时间跨度数据生成预测模型。
作为本实施例一种可能的实现方式,所述嵌入BP神经网路的RNN预测模型的最底层是一个经典RNN,在每个循环中嵌入一个子RNN,子RNN的每个循环还嵌入孙RNN。
作为本实施例一种可能的实现方式,在训练预测模型的过程中,首先训练最高层RNN,依次训练下一层RNN。
作为本实施例一种可能的实现方式,所述训练预测模型的过程包括以下步骤:
a)确定每层的训练数据:
{xi|i∈[t-hKg,t],i%K=0},
其中g为层号,h为训练数据周期系数,K为每层长度,xi为训练数据,t为周期终止时刻,i为训练数据标识;
b)对BP神经网络采用通用方法进行训练,在研究热点预测时接收RNN前向传播的特征,并在求梯度时向RNN传递误差项;
c)采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练,并计算梯度。
作为本实施例一种可能的实现方式,所述步骤c)具体过程为:
C1)标准RNN前向传播训练过程:
向量netk表示循环神经元在k时刻的加权输入,其计算方法为:
nett=Uxt+WSt-1
其中,Sk为k时刻循环层的值,且Sk=G(netk),G()为激活函数;W为循环权重,U为输入权重;
C2)多层前向传播训练过程:
上层即G1层,G1层训练完成后,训练下层即G0层;
G0层前向传播在标准前向传播训练过程基础上,还在G1层时用以下公式进行传递:
其中,带点符号代表G1层的对应参数,采用X中时序点数据的均值;
C3)多层误差反向传播训练过程:
G1层在训练时采用标准的RNN误差反向传播方法,G0层训练时,除了用标准的RNN误差反向传播训练过程基础上,还在G1层时用以下公式进行传递误差:
其中,δ表示各循环周期的误差项,diag[x]表示根据向量x创建一个对角矩阵;
C4)计算误差函数E对任意周期k权重矩阵Wk的梯度:
G1层用如下公式计算梯度:
G0层用如下公式计算梯度:
其中δk,i表示δk误差项向量的第i个分量,表示的第j个神经元的输出值,为δk左邻子模块;
误差函数E对循环层权重矩阵W的梯度是各个时刻的梯度之和,计算公式如下:
作为本实施例一种可能的实现方式,所述预测结果发送给用户界面。
另一方面,本发明实施例提供的一种面向异构时距的科学研究热点预测系统,包括:
特征提取模块,用于在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;
预测需求分析模块,用于分析用户需要预测热点的时间跨度;
预测模型生成模块,用于生成嵌入BP神经网路的RNN预测模型;
预测模型训练模块,用于对嵌入BP神经网路的RNN预测模型进行逐层训练;
预测结果生成模块,用于将数据输入训练后预测模型生成研究热点预测结果。
作为本实施例一种可能的实现方式,所述预测模型训练模块包括:
训练数据确定模块,用于确定每层的训练数据;
BP神经网络训练模块,用于对BP神经网络采用通用方法进行训练,在研究热点预测时接收RNN前向传播的特征,并在求梯度时向RNN传递误差项;
RNN网络训练模块,用于采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练,并计算梯度。
本发明实施例的技术方案可以具有的有益效果如下:
本发明实施例的技术方案的一种面向异构时距的科学研究热点预测方法,包括以下步骤:1)提取特征:在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;2)分析预测需求:分析用户需要预测热点的时间跨度;3)生成预测模型:生成嵌入BP神经网路的RNN预测模型;4)训练预测模型:对嵌入BP神经网路的RNN预测模型进行逐层训练;5)生成预测结果:将数据输入训练后预测模型生成研究热点预测结果。该方法不仅能够感知任意时间跨度的出现的研究热点,为不同需求的科研人员提供研究方向;而且提出的嵌入式RNN预测模型,有较快的训练效率,可以基于最新数据实时训练模型,并迅速准确地返回预测结果。
本发明实施例的技术方案的一种面向异构时距的科学研究热点预测系统,包括:特征提取模块,用于在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;预测需求分析模块,用于分析用户需要预测热点的时间跨度;预测模型生成模块,用于生成嵌入BP神经网路的RNN预测模型;预测模型训练模块,用于对嵌入BP神经网路的RNN预测模型进行逐层训练;预测结果生成模块,用于将数据输入训练后预测模型生成研究热点预测结果。该系统不仅能够感知任意时间跨度的出现的研究热点,为不同需求的科研人员提供研究方向;而且提出的嵌入式RNN预测模型,有较快的训练效率,可以基于最新数据实时训练模型,并迅速准确地返回预测结果。
附图说明:
图1是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测方法的流程图;
图2是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测系统的示意图;
图3是本发明的一种面向异构时距的科学研究热点预测系统的应用示意图;
图4是本发明的一种嵌入BP神经网路的RNN预测模型的结构示意图;
图5是本发明的一种前向传播与误差反向传播的模型训练示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
热点预测是指预测未来一段时间e后,出现的研究热点;不定周期是指可以根据需求的不同,设定不同的时间长度e。由于周期化的爬取科技信息数据,所以得到的是时间序列数据。RNN适用于时序数据预测,为使其可预测不定周期热点,对其进行改造。
图1是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测方法的流程图。如图1所述,本发明实施例提供的一种面向异构时距的科学研究热点预测方法,包括以下步骤:
1)提取特征:在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;
2)分析预测需求:分析用户需要预测热点的时间跨度;
3)生成预测模型:生成嵌入BP神经网路的RNN(Recurrent Neural Network,循环神经网络)预测模型;
4)训练预测模型:对嵌入BP神经网路的RNN预测模型进行逐层训练;
5)生成预测结果:将数据输入训练后预测模型生成研究热点预测结果。
作为本实施例一种可能的实现方式,所述提取特征的具体过程为:利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章,同时利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取;最终提取的向量表示为一个时序数据X,时序数据X是模型训练模块、预测结果模块的数据来源。
作为本实施例一种可能的实现方式,所述分析预测需求的具体过程为:基于与用户的交互,分析用户需要预测热点的时间跨度,并利用时间跨度数据生成预测模型。
作为本实施例一种可能的实现方式,所述嵌入BP神经网路的RNN预测模型的最底层是一个经典RNN,在每个循环中嵌入一个子RNN,子RNN的每个循环还嵌入孙RNN。为适应不定时间跨度模型预测任务,本发明提出了嵌入式RNN预测模型,本发明可以有效加速模型的训练速度。该模型是基于经典RNN模型改进,如图4,G0层的每个循环嵌入G1,G1的每个循环嵌入G2。若迭代嵌入的次数为σ-1,则该模型则被称为σ层嵌入式RNN预测模型。
作为本实施例一种可能的实现方式,在训练预测模型的过程中,首先训练最高层RNN,依次训练下一层RNN。
作为本实施例一种可能的实现方式,所述训练预测模型的过程包括以下步骤:
a)确定每层的训练数据:
假定系统连续记录之前任意时刻的数据。A)设定训练数据周期系数h,该系数表示用多长的时间序列训练一层RNN。B)那么每层的训练数据为:{xi|i∈[t-hKg,t],i%K=0},其中g为层号。如若h=2,k=2,当前时刻为8,第一层的训练数据为<5,6,7,8>,第二层为<2,4,6,8>。
b)对右侧3层BP神经网络采用通用方法进行训练,在研究热点预测时接收RNN前向传播的特征,并在求梯度时向RNN传递误差项。
采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练,并计算梯度。
c)标准前向传播方法:
标准RNN前向传播方法如下:Sk为k时刻循环层的值,且Sk=G(netk),其中G()为激活函数。向量netk表示循环神经元在k时刻的加权输入,其计算方法为:
nett=Uxt+WSt-1。W为循环权重。
d)多层前向传播方法:为方便描述且不失一般性,本发明以两层嵌入式RNN预测模型为例介绍其训练方法,如图5所示。上层即G1层,训练完成后,训练下层即G0层。G0层前向传播除了用标准前向传播方法以外,再涉及到G1层时用以下公式传递:
其中,带点符号代表G1层的对应参数,采用X中时序点数据的均值;
d)多层误差反向传播方法:
G1层在训练时采用标准的RNN误差反向传播方法,G0层训练时,除了用标准的RNN误差反向传播训练过程基础上,还在G1层时用以下公式进行传递误差:
其中,δ表示各循环周期的误差项,diag[x]表示根据向量x创建一个对角矩阵;
e)计算误差函数E对任意周期k权重矩阵Wk的梯度:
误差函数E表达预测值与实际值的偏差,其可用交叉熵等方法计算,本申请不再详述。
G1层用如下公式计算梯度:
G0层用如下公式计算梯度:
其中δk,i表示δk误差项向量的第i个分量,表示的第j个神经元的输出值,为δk左邻子模块;
循环层权重矩阵W的梯度是各个时刻的梯度之和,计算公式如下:
作为本实施例一种可能的实现方式,所述预测结果发送给用户界面。基于训练好的模型预测研究热点,并发送给用户。不仅对异构时距的科学研究热点给出较为快速准确的预测,而且将其推送到科研用户,用于辅助科研工作者及科研项目管理者的工作。
本实施例不仅能够感知任意时间跨度的出现的研究热点,为不同需求的科研人员提供研究方向;而且提出的嵌入式RNN预测模型,有较快的训练效率,可以基于最新数据实时训练模型,并迅速准确地返回预测结果。
图2是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测系统的示意图。如图2所示,本实施例提供的一种面向异构时距的科学研究热点预测系统,包括:
特征提取模块,用于在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;
预测需求分析模块,用于分析用户需要预测热点的时间跨度;
预测模型生成模块,用于生成嵌入BP神经网路的RNN预测模型;
预测模型训练模块,用于对嵌入BP神经网路的RNN预测模型进行逐层训练;
预测结果生成模块,用于将数据输入训练后预测模型生成研究热点预测结果。
作为本实施例一种可能的实现方式,所述预测模型训练模块包括:
训练数据确定模块,用于确定每层的训练数据;
BP神经网络训练模块,用于对BP神经网络采用通用方法进行训练,在研究热点预测时接收RNN前向传播的特征,并在求梯度时向RNN传递误差项;
RNN网络训练模块,用于采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练,并计算梯度。
如图3所示,本发明的科学研究热点预测系统主要由五个模块:特征提取模块、预测需求模块、生成模型结构模块、模型训练模块、结果预测模块。图3中,虚线为控制流、实线为数据流。
1)特征提取模块。该模块利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。同时,利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取。最终表示为一个时序数据X,X是模型训练模块、预测结果模块的数据来源。
2)预测需求分析模块,该模块负责与用户的交互,分析用户需要预测热点的时间跨度,并将时间跨度数据传送给生成模型结构模块。
3)预测模型生成模块。为适应不定时间跨度模型预测任务,本发明提出嵌入式RNN预测模型,本发明可以有效加速模型的训练速度。该模型是基于经典RNN模型改进,生成模型结构如图4所示,最底层是一个经典RNN,在每个循环中嵌入一个子RNN。子RNN的每个循环还可以嵌入孙RNN。例如,G0层的每个循环嵌入G1,G1的每个循环嵌入G2。若迭代嵌入的次数为σ-1,则该模型则被称为σ层嵌入式RNN预测模型。图4中左侧为RNN网络,右侧为3层BP神经网络。
以下给出确定模型层数σ与每层周期的长度K的方法:a)设T为需预测热点的时间跨度。b)若T≤ξ,则模块为单层RNN,即σ=1,K=[T],[]为四舍五入取整。其中,ξ为固定参数,其意义为每层RNN最大的长度。3)否则,模块为多层模型,层数为每层长度
生成模型结构后,将模型发送到模型训练模块。
4)预测模型训练模块。嵌入式RNN预测模型采用逐层训练的方法,即先训练最高层RNN,再依次训练下层RNN。具体训练方法由以下步骤组成:
a)确定每层训练数据。假定系统已连续记录了之前任意时刻的数据。A)设定训练数据周期系数h,该系数表示用多长的时间序列训练一层RNN。B)那么每层的训练数据为:{xi|i∈[t-hKg,t],i%K=0},其中g为层号,从0起始编号。例如,如若h=2,k=2,当前时刻为8,第一层的训练数据为<5,6,7,8>,第二层为<2,4,6,8>。
b)右侧3层BP神经网络通用方法训练预测,预测时接收RNN前向传播的特征,求梯度时向RNN传递误差项。
c)标准前向传播方法:
标准RNN前向传播方法如下:Sk为k时刻循环层的值,且Sk=G(netk),其中G()为激活函数。向量netk表示循环神经元在k时刻的加权输入,其计算方法为:
nett=Uxt+WSt-1。W为循环权重。
d)多层前向传播方法:为方便描述且不失一般性,本发明以两层嵌入式RNN预测模型为例介绍其训练方法,如图5所示。上层即G1层,训练完成后,训练下层即G0层。G0层前向传播除了用标准前向传播方法以外,在涉及到G1层时用以下公式传递:
其中,带点符号代表G1层的对应参数,采用X中时序点数据的均值,即
d)多层误差反向传播方法:
G1层在训练时采用标准的RNN误差反向传播方法,G0层训练时,除了用标准的RNN误差反向传播方法以外,在涉及到G1层时用以下公式传递误差:
其中,δ表示各循环周期的误差项,diag[x]表示根据向量x创建一个对角矩阵。
e)计算误差函数E对任意周期k权重矩阵Wk的梯度。G1层如下公式计算。
G0层用如下公式计算梯度:
其中δk,i表示δk误差项向量的第i个分量,表示的第j个神经元的输出值。注:为δk左邻子模块。
循环层权重矩阵W的梯度是各个时刻的梯度之和,公式如下:
该模块训练完成后,将模型发送到结果预测模块。
5)结果预测模块。该模块将最新的数据输入模型,基于训练好的模型预测研究热点,并发送给用户。
本实施例的系统不仅能够感知任意时间跨度的出现的研究热点,为不同需求的科研人员提供研究方向;而且提出的嵌入式RNN预测模型,有较快的训练效率,可以基于最新数据实时训练模型,并迅速准确地返回预测结果。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视作为本发明的保护范围。

Claims (10)

1.一种面向异构时距的科学研究热点预测方法,其特征是,包括以下步骤:
1)提取特征:在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;
2)分析预测需求:分析用户需要预测热点的时间跨度;
3)生成预测模型:生成嵌入BP神经网路的RNN预测模型;
4)训练预测模型:对嵌入BP神经网路的RNN预测模型进行逐层训练;
5)生成预测结果:将数据输入训练后预测模型生成研究热点预测结果。
2.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法,其特征是,所述提取特征的具体过程为:利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章,同时利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取;最终提取的向量表示为一个时序数据X,时序数据X是模型训练模块、预测结果模块的数据来源。
3.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法,其特征是,所述分析预测需求的具体过程为:基于与用户的交互,分析用户需要预测热点的时间跨度,并利用时间跨度数据生成预测模型。
4.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法,其特征是,所述嵌入BP神经网路的RNN预测模型的最底层是一个经典RNN,在每个循环中嵌入一个子RNN,子RNN的每个循环还嵌入孙RNN。
5.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法,其特征是,在训练预测模型的过程中,首先训练最高层RNN,依次训练下一层RNN。
6.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法,其特征是,所述训练预测模型的过程包括以下步骤:
a)确定每层的训练数据:
{xi|i∈[t-hKg,t],i%K=0},
其中g为层号,h为训练数据周期系数,K为每层长度,xi为训练数据,t为周期终止时刻,i为训练数据标识;
b)对BP神经网络采用通用方法进行训练,在研究热点预测时接收RNN前向传播的特征,并在求梯度时向RNN传递误差项;
c)采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练,并计算梯度。
7.根据权利要求6所述的一种面向异构时距的科学研究热点预测方法,其特征是,所述步骤c)具体过程为:
C1)标准RNN前向传播训练过程:
向量netk表示循环神经元在k时刻的加权输入,其计算方法为:
nett=Uxt+WSt-1
其中,Sk为k时刻循环层的值,且Sk=G(netk),G()为激活函数;W为循环权重,U为输入权重;
C2)多层前向传播训练过程:
上层即G1层,G1层训练完成后,训练下层即G0层;
G0层前向传播在标准前向传播训练过程基础上,还在G1层时用以下公式进行传递:
其中,带点符号代表G1层的对应参数,采用X中时序点数据的均值;
C3)多层误差反向传播训练过程:
G1层在训练时采用标准的RNN误差反向传播方法,G0层训练时,除了用标准的RNN误差反向传播训练过程基础上,还在G1层时用以下公式进行传递误差:
其中,δ表示各循环周期的误差项,diag[x]表示根据向量x创建一个对角矩阵;
C4)计算误差函数E对任意周期k权重矩阵Wk的梯度:
G1层用如下公式计算梯度:
G0层用如下公式计算梯度:
其中δk,i表示δk误差项向量的第i个分量,表示的第j个神经元的输出值,为δk左邻子模块;
误差函数E对循环层权重矩阵W的梯度是各个时刻的梯度之和,计算公式如下:
8.根据权利要求1-7任意一项所述的一种面向异构时距的科学研究热点预测方法,其特征是,所述预测结果发送给用户界面。
9.一种面向异构时距的科学研究热点预测系统,其特征是,包括:
特征提取模块,用于在科技新闻网站、文献数据库爬取科技信息文章,并对文本数据进行向量表示与向量提取;
预测需求分析模块,用于分析用户需要预测热点的时间跨度;
预测模型生成模块,用于生成嵌入BP神经网路的RNN预测模型;
预测模型训练模块,用于对嵌入BP神经网路的RNN预测模型进行逐层训练;
预测结果生成模块,用于将数据输入训练后预测模型生成研究热点预测结果。
10.根据权利要求9所述的一种面向异构时距的科学研究热点预测系统,其特征是,所述预测模型训练模块包括:
训练数据确定模块,用于确定每层的训练数据;
BP神经网络训练模块,用于对BP神经网络采用通用方法进行训练,在研究热点预测时接收RNN前向传播的特征,并在求梯度时向RNN传递误差项;
RNN网络训练模块,用于采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练,并计算梯度。
CN201910460301.5A 2019-05-29 2019-05-29 一种面向异构时距的科学研究热点预测方法及系统 Active CN110188263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910460301.5A CN110188263B (zh) 2019-05-29 2019-05-29 一种面向异构时距的科学研究热点预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910460301.5A CN110188263B (zh) 2019-05-29 2019-05-29 一种面向异构时距的科学研究热点预测方法及系统

Publications (2)

Publication Number Publication Date
CN110188263A true CN110188263A (zh) 2019-08-30
CN110188263B CN110188263B (zh) 2021-11-30

Family

ID=67718743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910460301.5A Active CN110188263B (zh) 2019-05-29 2019-05-29 一种面向异构时距的科学研究热点预测方法及系统

Country Status (1)

Country Link
CN (1) CN110188263B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688477A (zh) * 2019-10-10 2020-01-14 华夏幸福产业投资有限公司 一种技术热点领域的预测方法、装置、设备及存储介质
CN111832815A (zh) * 2020-07-02 2020-10-27 山东电力研究院 科研热点预测方法及系统
CN112650847A (zh) * 2019-10-11 2021-04-13 中国农业科学院农业信息研究所 一种科技研究热点主题预测方法
CN113782092A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 一种生存期预测模型的生成方法及装置、存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379043A1 (en) * 2004-10-01 2015-12-31 Ricoh Co., Ltd. System and Methods for Creation and Use of a Mixed Media Environment
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107103758A (zh) * 2017-06-08 2017-08-29 厦门大学 一种基于深度学习的城市区域交通流量预测方法
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN108428023A (zh) * 2018-05-24 2018-08-21 四川大学 基于量子加权门限重复单元神经网络的趋势预测方法
AU2018101313A4 (en) * 2018-09-07 2018-10-11 Gao, Jiafan Mr Image recognition of dangerous tools based on deep learning
CN108764539A (zh) * 2018-05-15 2018-11-06 中国长江电力股份有限公司 一种梯级电站的上下游水位预测方法
CN108830487A (zh) * 2018-06-21 2018-11-16 王芊霖 基于长短时神经网络的电力负荷预测方法
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
CN109670568A (zh) * 2017-10-16 2019-04-23 优酷网络技术(北京)有限公司 神经网络预测方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379043A1 (en) * 2004-10-01 2015-12-31 Ricoh Co., Ltd. System and Methods for Creation and Use of a Mixed Media Environment
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107103758A (zh) * 2017-06-08 2017-08-29 厦门大学 一种基于深度学习的城市区域交通流量预测方法
CN109670568A (zh) * 2017-10-16 2019-04-23 优酷网络技术(北京)有限公司 神经网络预测方法及装置
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN108764539A (zh) * 2018-05-15 2018-11-06 中国长江电力股份有限公司 一种梯级电站的上下游水位预测方法
CN108428023A (zh) * 2018-05-24 2018-08-21 四川大学 基于量子加权门限重复单元神经网络的趋势预测方法
CN108830487A (zh) * 2018-06-21 2018-11-16 王芊霖 基于长短时神经网络的电力负荷预测方法
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
AU2018101313A4 (en) * 2018-09-07 2018-10-11 Gao, Jiafan Mr Image recognition of dangerous tools based on deep learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI QIUDAN等: "mining opinion summarizations using convolutional neural networks in Chinese microblogging systems", 《KNOWLEDGE-BASED SYSTEM》 *
李静等: "基于机器学习算法的研究热点趋势预测模型对比与分析——BP神经网络、支持向量机与LSTM模型", 《现代情报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688477A (zh) * 2019-10-10 2020-01-14 华夏幸福产业投资有限公司 一种技术热点领域的预测方法、装置、设备及存储介质
CN110688477B (zh) * 2019-10-10 2022-11-15 华夏幸福产业投资有限公司 一种技术热点领域的预测方法、装置、设备及存储介质
CN112650847A (zh) * 2019-10-11 2021-04-13 中国农业科学院农业信息研究所 一种科技研究热点主题预测方法
CN112650847B (zh) * 2019-10-11 2023-05-09 中国农业科学院农业信息研究所 一种科技研究热点主题预测方法
CN111832815A (zh) * 2020-07-02 2020-10-27 山东电力研究院 科研热点预测方法及系统
CN111832815B (zh) * 2020-07-02 2023-12-05 国网山东省电力公司电力科学研究院 科研热点预测方法及系统
CN113782092A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 一种生存期预测模型的生成方法及装置、存储介质
CN113782092B (zh) * 2021-09-16 2023-06-02 平安科技(深圳)有限公司 一种生存期预测模型的生成方法及装置、存储介质

Also Published As

Publication number Publication date
CN110188263B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN110188263A (zh) 一种面向异构时距的科学研究热点预测方法及系统
Papalampidi et al. Movie plot analysis via turning point identification
Shen et al. Reasonet: Learning to stop reading in machine comprehension
Xu et al. Learning multimodal attention LSTM networks for video captioning
Zeng et al. Leveraging video descriptions to learn video question answering
Severyn et al. Twitter sentiment analysis with deep convolutional neural networks
KR102415506B1 (ko) 뉴럴 네트워크 간소화 방법 및 장치
CN103679611B (zh) 基于案例推理的城市综合应急智能仿真系统的运行方法
CN109214562A (zh) 一种基于rnn的电网科研热点预测与推送方法
CN110928993A (zh) 基于深度循环神经网络的用户位置预测方法及系统
CN108733742A (zh) 全局归一化阅读器系统和方法
CN110032630A (zh) 话术推荐设备、方法及模型训练设备
Li et al. Deep face beautification
CN109858046A (zh) 利用辅助损失来学习神经网络中的长期依赖性
Lee Big Data, Cloud Computing, and Data Science Engineering
CN109889923A (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
Gray et al. A model for calculating the mechanical demands of overground running
Marculescu et al. Edge AI: Systems design and ML for IoT data analytics
Holmes et al. Characterizing the limits of human stability during motion: perturbative experiment validates a model-based approach for the Sit-to-Stand task
Gupta et al. Prediction of omicron virus using combined extended convolutional and recurrent neural networks technique on CT-scan images
CN108229714A (zh) 预测模型构建方法、门诊量预测方法及装置
Morais et al. Race Analysis and Determination of Stroke Frequency–Stroke Length Combinations during the 50-M Freestyle Event
Colyer et al. The effect of altering loading distance on skeleton start performance: Is higher pre-load velocity always beneficial?
Wang et al. Neural-SEIR: A flexible data-driven framework for precise prediction of epidemic disease
Woo et al. Improving recall and security of passphrases through use of mnemonics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant