CN110188263A

CN110188263A - 一种面向异构时距的科学研究热点预测方法及系统

Info

Publication number: CN110188263A
Application number: CN201910460301.5A
Authority: CN
Inventors: 马艳; 邹立达; 齐达立; 陈玉峰
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-30
Anticipated expiration: 2039-05-29
Also published as: CN110188263B

Abstract

本发明公开了一种面向异构时距的科学研究热点预测方法及系统，方法包括以下步骤：1)提取特征：在科技新闻网站、文献数据库爬取科技信息文章，并对文本数据进行向量表示与向量提取；2)分析预测需求：分析用户需要预测热点的时间跨度；3)生成预测模型：生成嵌入BP神经网路的RNN预测模型；4)训练预测模型：对嵌入BP神经网路的RNN预测模型进行逐层训练；5)生成预测结果：将数据输入训练后预测模型生成研究热点预测结果。该方法不仅能够感知任意时间跨度的出现的研究热点，为不同需求的科研人员提供研究方向；而且提出的嵌入式RNN预测模型，有较快的训练效率，可以基于最新数据实时训练模型，并迅速准确地返回预测结果。

Description

一种面向异构时距的科学研究热点预测方法及系统

技术领域

本发明涉及一种面向异构时距的科学研究热点预测方法及系统，属于大数据技术领域。

背景技术

科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。科研热点预测是科技情报领域较新的应用需求。科研工作者、科研项目管理者在选题、立项必须有一定的前瞻性，即立足于当前科学技术现状与社会发展情况，对未来可能产生的新理论或者产生应用价值的新技术做出判断。

目前科研热点预测的方法严重依赖于本领域高级专业人员通过文献查阅与市场调研的方法确定热点出现的方向。随着人工智能、云计算等技术领域的发展，使得基于机器学习去预测科研热点成为可能。较为可行、直观的方法是通过爬虫技术将文献数据库的文献下载，并通过特征表示与特征提出，将这此文本数据转换为时序数据，最后基于RNN、LSTM、GRU等时序预测算法获得未来的热点。

然而，用户对未来时长的定义不同，也即预测的时间跨度需求不同，热点预测是异构时距的。比如有的用户需要预测一周后的热点，有的用户需要预测一个后甚至一年后热点。针对此类场景，并没有一个很好的模型可以很好的适用。因此，亟需设计一种科研热点预测与推送措施，可以对异构时距的科学研究热点给出较为快速准确的预测。

发明内容

针对以上方法存在的不足，本发明提出了一种面向异构时距的科学研究热点预测方法及系统，其能够较为准确快速地预测未来任意时间跨度的科研热点，并将其推送到科研用户，辅助科研工作者及科研项目管理者的工作。

本发明解决其技术问题采取的技术方案是：

一方面，本发明实施例提供的一种面向异构时距的科学研究热点预测方法，包括以下步骤：

1)提取特征：在科技新闻网站、文献数据库爬取科技信息文章，并对文本数据进行向量表示与向量提取；

2)分析预测需求：分析用户需要预测热点的时间跨度；

3)生成预测模型：生成嵌入BP神经网路的RNN(Recurrent Neural Network，循环神经网络)预测模型；

4)训练预测模型：对嵌入BP神经网路的RNN预测模型进行逐层训练；

5)生成预测结果：将数据输入训练后预测模型生成研究热点预测结果。

作为本实施例一种可能的实现方式，所述提取特征的具体过程为：利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章，同时利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取；最终提取的向量表示为一个时序数据X，时序数据X是模型训练模块、预测结果模块的数据来源。

作为本实施例一种可能的实现方式，所述分析预测需求的具体过程为：基于与用户的交互，分析用户需要预测热点的时间跨度，并利用时间跨度数据生成预测模型。

作为本实施例一种可能的实现方式，所述嵌入BP神经网路的RNN预测模型的最底层是一个经典RNN，在每个循环中嵌入一个子RNN，子RNN的每个循环还嵌入孙RNN。

作为本实施例一种可能的实现方式，在训练预测模型的过程中，首先训练最高层RNN，依次训练下一层RNN。

作为本实施例一种可能的实现方式，所述训练预测模型的过程包括以下步骤：

a)确定每层的训练数据：

{x_i|i∈[t-hK^g,t],i％K＝0}，

其中g为层号，h为训练数据周期系数，K为每层长度，x_i为训练数据，t为周期终止时刻，i为训练数据标识；

b)对BP神经网络采用通用方法进行训练，在研究热点预测时接收RNN前向传播的特征，并在求梯度时向RNN传递误差项；

c)采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练，并计算梯度。

作为本实施例一种可能的实现方式，所述步骤c)具体过程为：

C1)标准RNN前向传播训练过程：

向量net_k表示循环神经元在k时刻的加权输入，其计算方法为：

net_t＝Ux_t+WS_t-1；

其中，S_k为k时刻循环层的值，且S_k＝G(net_k)，G()为激活函数；W为循环权重，U为输入权重；

C2)多层前向传播训练过程：

上层即G1层，G1层训练完成后，训练下层即G0层；

G0层前向传播在标准前向传播训练过程基础上，还在G1层时用以下公式进行传递：

其中，带点符号代表G1层的对应参数，采用X中时序点数据的均值；

C3)多层误差反向传播训练过程：

G1层在训练时采用标准的RNN误差反向传播方法，G0层训练时，除了用标准的RNN误差反向传播训练过程基础上，还在G1层时用以下公式进行传递误差：

其中，δ表示各循环周期的误差项，diag[x]表示根据向量x创建一个对角矩阵；

C4)计算误差函数E对任意周期k权重矩阵W_k的梯度：

G1层用如下公式计算梯度：

G0层用如下公式计算梯度：

其中δ_k,i表示δ_k误差项向量的第i个分量，表示的第j个神经元的输出值，为δ_k左邻子模块；

误差函数E对循环层权重矩阵W的梯度是各个时刻的梯度之和，计算公式如下：

作为本实施例一种可能的实现方式，所述预测结果发送给用户界面。

另一方面，本发明实施例提供的一种面向异构时距的科学研究热点预测系统，包括：

特征提取模块，用于在科技新闻网站、文献数据库爬取科技信息文章，并对文本数据进行向量表示与向量提取；

预测需求分析模块，用于分析用户需要预测热点的时间跨度；

预测模型生成模块，用于生成嵌入BP神经网路的RNN预测模型；

预测模型训练模块，用于对嵌入BP神经网路的RNN预测模型进行逐层训练；

预测结果生成模块，用于将数据输入训练后预测模型生成研究热点预测结果。

作为本实施例一种可能的实现方式，所述预测模型训练模块包括：

训练数据确定模块，用于确定每层的训练数据；

BP神经网络训练模块，用于对BP神经网络采用通用方法进行训练，在研究热点预测时接收RNN前向传播的特征，并在求梯度时向RNN传递误差项；

RNN网络训练模块，用于采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练，并计算梯度。

本发明实施例的技术方案可以具有的有益效果如下：

本发明实施例的技术方案的一种面向异构时距的科学研究热点预测方法，包括以下步骤：1)提取特征：在科技新闻网站、文献数据库爬取科技信息文章，并对文本数据进行向量表示与向量提取；2)分析预测需求：分析用户需要预测热点的时间跨度；3)生成预测模型：生成嵌入BP神经网路的RNN预测模型；4)训练预测模型：对嵌入BP神经网路的RNN预测模型进行逐层训练；5)生成预测结果：将数据输入训练后预测模型生成研究热点预测结果。该方法不仅能够感知任意时间跨度的出现的研究热点，为不同需求的科研人员提供研究方向；而且提出的嵌入式RNN预测模型，有较快的训练效率，可以基于最新数据实时训练模型，并迅速准确地返回预测结果。

本发明实施例的技术方案的一种面向异构时距的科学研究热点预测系统，包括：特征提取模块，用于在科技新闻网站、文献数据库爬取科技信息文章，并对文本数据进行向量表示与向量提取；预测需求分析模块，用于分析用户需要预测热点的时间跨度；预测模型生成模块，用于生成嵌入BP神经网路的RNN预测模型；预测模型训练模块，用于对嵌入BP神经网路的RNN预测模型进行逐层训练；预测结果生成模块，用于将数据输入训练后预测模型生成研究热点预测结果。该系统不仅能够感知任意时间跨度的出现的研究热点，为不同需求的科研人员提供研究方向；而且提出的嵌入式RNN预测模型，有较快的训练效率，可以基于最新数据实时训练模型，并迅速准确地返回预测结果。

附图说明：

图1是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测方法的流程图；

图2是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测系统的示意图；

图3是本发明的一种面向异构时距的科学研究热点预测系统的应用示意图；

图4是本发明的一种嵌入BP神经网路的RNN预测模型的结构示意图；

图5是本发明的一种前向传播与误差反向传播的模型训练示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

热点预测是指预测未来一段时间e后，出现的研究热点；不定周期是指可以根据需求的不同，设定不同的时间长度e。由于周期化的爬取科技信息数据，所以得到的是时间序列数据。RNN适用于时序数据预测，为使其可预测不定周期热点，对其进行改造。

图1是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测方法的流程图。如图1所述，本发明实施例提供的一种面向异构时距的科学研究热点预测方法，包括以下步骤：

2)分析预测需求：分析用户需要预测热点的时间跨度；

作为本实施例一种可能的实现方式，所述嵌入BP神经网路的RNN预测模型的最底层是一个经典RNN，在每个循环中嵌入一个子RNN，子RNN的每个循环还嵌入孙RNN。为适应不定时间跨度模型预测任务，本发明提出了嵌入式RNN预测模型，本发明可以有效加速模型的训练速度。该模型是基于经典RNN模型改进，如图4，G0层的每个循环嵌入G1，G1的每个循环嵌入G2。若迭代嵌入的次数为σ-1，则该模型则被称为σ层嵌入式RNN预测模型。

a)确定每层的训练数据：

假定系统连续记录之前任意时刻的数据。A)设定训练数据周期系数h，该系数表示用多长的时间序列训练一层RNN。B)那么每层的训练数据为：{x_i|i∈[t-hK^g,t],i％K＝0}，其中g为层号。如若h＝2，k＝2，当前时刻为8，第一层的训练数据为<5,6,7,8>，第二层为<2,4,6,8>。

b)对右侧3层BP神经网络采用通用方法进行训练，在研究热点预测时接收RNN前向传播的特征，并在求梯度时向RNN传递误差项。

采用标准前向传播方法、多层前向传播方法和多层误差反向传播方法对RNN网络进行训练，并计算梯度。

c)标准前向传播方法：

标准RNN前向传播方法如下：S_k为k时刻循环层的值，且S_k＝G(net_k)，其中G()为激活函数。向量net_k表示循环神经元在k时刻的加权输入，其计算方法为：

net_t＝Ux_t+WS_t-1。W为循环权重。

d)多层前向传播方法：为方便描述且不失一般性，本发明以两层嵌入式RNN预测模型为例介绍其训练方法，如图5所示。上层即G1层，训练完成后，训练下层即G0层。G0层前向传播除了用标准前向传播方法以外，再涉及到G1层时用以下公式传递：

d)多层误差反向传播方法：

e)计算误差函数E对任意周期k权重矩阵W_k的梯度：

误差函数E表达预测值与实际值的偏差，其可用交叉熵等方法计算，本申请不再详述。

G1层用如下公式计算梯度：

G0层用如下公式计算梯度：

循环层权重矩阵W的梯度是各个时刻的梯度之和，计算公式如下：

作为本实施例一种可能的实现方式，所述预测结果发送给用户界面。基于训练好的模型预测研究热点，并发送给用户。不仅对异构时距的科学研究热点给出较为快速准确的预测，而且将其推送到科研用户，用于辅助科研工作者及科研项目管理者的工作。

本实施例不仅能够感知任意时间跨度的出现的研究热点，为不同需求的科研人员提供研究方向；而且提出的嵌入式RNN预测模型，有较快的训练效率，可以基于最新数据实时训练模型，并迅速准确地返回预测结果。

图2是根据一示例性实施例示出的一种面向异构时距的科学研究热点预测系统的示意图。如图2所示，本实施例提供的一种面向异构时距的科学研究热点预测系统，包括：

训练数据确定模块，用于确定每层的训练数据；

如图3所示，本发明的科学研究热点预测系统主要由五个模块：特征提取模块、预测需求模块、生成模型结构模块、模型训练模块、结果预测模块。图3中，虚线为控制流、实线为数据流。

1)特征提取模块。该模块利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。同时，利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取。最终表示为一个时序数据X，X是模型训练模块、预测结果模块的数据来源。

2)预测需求分析模块，该模块负责与用户的交互，分析用户需要预测热点的时间跨度，并将时间跨度数据传送给生成模型结构模块。

3)预测模型生成模块。为适应不定时间跨度模型预测任务，本发明提出嵌入式RNN预测模型，本发明可以有效加速模型的训练速度。该模型是基于经典RNN模型改进，生成模型结构如图4所示，最底层是一个经典RNN，在每个循环中嵌入一个子RNN。子RNN的每个循环还可以嵌入孙RNN。例如，G0层的每个循环嵌入G1，G1的每个循环嵌入G2。若迭代嵌入的次数为σ-1，则该模型则被称为σ层嵌入式RNN预测模型。图4中左侧为RNN网络，右侧为3层BP神经网络。

以下给出确定模型层数σ与每层周期的长度K的方法：a)设T为需预测热点的时间跨度。b)若T≤ξ，则模块为单层RNN，即σ＝1，K＝[T]，[]为四舍五入取整。其中，ξ为固定参数，其意义为每层RNN最大的长度。3)否则，模块为多层模型，层数为每层长度

生成模型结构后，将模型发送到模型训练模块。

4)预测模型训练模块。嵌入式RNN预测模型采用逐层训练的方法，即先训练最高层RNN，再依次训练下层RNN。具体训练方法由以下步骤组成：

a)确定每层训练数据。假定系统已连续记录了之前任意时刻的数据。A)设定训练数据周期系数h，该系数表示用多长的时间序列训练一层RNN。B)那么每层的训练数据为：{x_i|i∈[t-hK^g,t],i％K＝0}，其中g为层号，从0起始编号。例如，如若h＝2，k＝2，当前时刻为8，第一层的训练数据为<5,6,7,8>，第二层为<2,4,6,8>。

b)右侧3层BP神经网络通用方法训练预测，预测时接收RNN前向传播的特征，求梯度时向RNN传递误差项。

c)标准前向传播方法：

net_t＝Ux_t+WS_t-1。W为循环权重。

d)多层前向传播方法：为方便描述且不失一般性，本发明以两层嵌入式RNN预测模型为例介绍其训练方法，如图5所示。上层即G1层，训练完成后，训练下层即G0层。G0层前向传播除了用标准前向传播方法以外，在涉及到G1层时用以下公式传递：

其中，带点符号代表G1层的对应参数，采用X中时序点数据的均值，即

d)多层误差反向传播方法：

G1层在训练时采用标准的RNN误差反向传播方法，G0层训练时，除了用标准的RNN误差反向传播方法以外，在涉及到G1层时用以下公式传递误差：

其中，δ表示各循环周期的误差项，diag[x]表示根据向量x创建一个对角矩阵。

e)计算误差函数E对任意周期k权重矩阵W_k的梯度。G1层如下公式计算。

即

G0层用如下公式计算梯度：

其中δ_k,i表示δ_k误差项向量的第i个分量，表示的第j个神经元的输出值。注：为δ_k左邻子模块。

循环层权重矩阵W的梯度是各个时刻的梯度之和，公式如下：

该模块训练完成后，将模型发送到结果预测模块。

5)结果预测模块。该模块将最新的数据输入模型，基于训练好的模型预测研究热点，并发送给用户。

本实施例的系统不仅能够感知任意时间跨度的出现的研究热点，为不同需求的科研人员提供研究方向；而且提出的嵌入式RNN预测模型，有较快的训练效率，可以基于最新数据实时训练模型，并迅速准确地返回预测结果。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视作为本发明的保护范围。

Claims

1.一种面向异构时距的科学研究热点预测方法，其特征是，包括以下步骤：

2)分析预测需求：分析用户需要预测热点的时间跨度；

3)生成预测模型：生成嵌入BP神经网路的RNN预测模型；

2.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法，其特征是，所述提取特征的具体过程为：利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章，同时利用权重TF-IDF算法及深度玻尔兹曼机方法对文本数据进行向量表示与向量提取；最终提取的向量表示为一个时序数据X，时序数据X是模型训练模块、预测结果模块的数据来源。

3.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法，其特征是，所述分析预测需求的具体过程为：基于与用户的交互，分析用户需要预测热点的时间跨度，并利用时间跨度数据生成预测模型。

4.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法，其特征是，所述嵌入BP神经网路的RNN预测模型的最底层是一个经典RNN，在每个循环中嵌入一个子RNN，子RNN的每个循环还嵌入孙RNN。

5.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法，其特征是，在训练预测模型的过程中，首先训练最高层RNN，依次训练下一层RNN。

6.根据权利要求1所述的一种面向异构时距的科学研究热点预测方法，其特征是，所述训练预测模型的过程包括以下步骤：

a)确定每层的训练数据：

{x_i|i∈[t-hK^g,t],i％K＝0}，

7.根据权利要求6所述的一种面向异构时距的科学研究热点预测方法，其特征是，所述步骤c)具体过程为：

C1)标准RNN前向传播训练过程：

net_t＝Ux_t+WS_t-1；

C2)多层前向传播训练过程：

上层即G1层，G1层训练完成后，训练下层即G0层；

C3)多层误差反向传播训练过程：

C4)计算误差函数E对任意周期k权重矩阵W_k的梯度：

G1层用如下公式计算梯度：

G0层用如下公式计算梯度：

8.根据权利要求1-7任意一项所述的一种面向异构时距的科学研究热点预测方法，其特征是，所述预测结果发送给用户界面。

9.一种面向异构时距的科学研究热点预测系统，其特征是，包括：

10.根据权利要求9所述的一种面向异构时距的科学研究热点预测系统，其特征是，所述预测模型训练模块包括：

训练数据确定模块，用于确定每层的训练数据；