CN111966829A

CN111966829A - 一种基于深度生存分析的网络话题爆发时间预测方法

Info

Publication number: CN111966829A
Application number: CN202010738271.2A
Authority: CN
Inventors: 田玲; 罗光春; 陈爱国; 张栗粽; 唐文佚; 吴东东
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-18
Filing date: 2020-07-28
Publication date: 2020-11-20
Anticipated expiration: 2040-07-28
Also published as: CN111966829B

Abstract

本发明公开了一种基于深度生存分析的网络话题爆发时间预测方法，属于网络话题预测领域。本发明包括以下步骤：获得数值时间序列数据，将网络话题相关数值量转化为时间序列；获得文本时间序列数据，将网络话题相关时变文本转化为时间序列；获得文本特征时间序列，基于所设置的文本特征提取器，通过文本时间序列数据获得文本特征时间序列；构建基于生存分析的深度学习模型，深度生存模块进行回归预测，输出话题危险率；模型训练，模型训练基于全新设计的损失函数进行训练；确定判断阈值，通过枚举法找到最优判断阈值，实现网络话题爆发时间预测。本发明用于网络话题的爆发预测，能有效提升预测准确性。

Description

一种基于深度生存分析的网络话题爆发时间预测方法

技术领域

本发明涉及网络话题预测领域，具体涉及一种适用于网络话题爆发预测的深度学习方法。

背景技术

现有用以解决网络话题爆发时间的预测方法可分为两类，一类是针对网络话题爆发时间专门的预测方法，另一类是针对关键时间点的通用预测方法。两类方法虽然可以在一定程度上解决网络话题爆发时间预测问题，但是由于两类方法存在的固有缺陷，实际预测效果不佳，难以满足实际使用需求。

针对网络话题爆发时间专门的预测方法，基于传统的机器学习技术，通过预设网络话题爆发时间满足特定的概率分布，利用话题热度的数值型相关量作为机器学习训练数据的输入，通过拟合概率分布的各参数，最终形成一个网络话题爆发时间预测模型。该类方法的实际预测效果不佳，主要原因有三点：首先预测效果严重依赖于人工预设概率分布的适用性；其次基于单一分布的模型假设使得到的模型泛化能力效果差；最后跟网络话题爆发密切相关的话题相关时变文本信息未被利用。

针对关键时间点的通用预测方法，即各种生存模型，基于生存分析理论，通过传统生存模型或深度学习模型，利用数值型的时间序列数据作为模型训练数据的输入，模型输出为生存概率的分布或风险率的分布。目前效果最优、并与本文最相关的生存模型为基于深度学习的生存模型，包含基于普通深度网络的和基于循环神经网络的。基于深度学习的生存模型直接应用于网络话题爆发时间预测问题时，仅使用数值型的时间序列数据训练模型，缺乏对话题相关时变文本信息的挖掘，未充分利用话题相关时变文本与话题爆发时间的相关性，因此实际预测效果一般。

发明内容

本发明的发明目的在于：针对上述现有技术存在的技术缺陷，提供一种基于生存分析的深度学习方法。其旨在解决现有针对网络话题爆发时间专门的预测方法和针对关键时间点的通用预测方法，受限于预设概率分布，或未有效利用网络时变文本信息的技术问题，最终实现网络话题爆发时间的准确预测。

为达到上述目的，本发明采用的技术方案如下：

一种基于深度生存分析的网络话题爆发时间预测方法，包括如下步骤，

步骤1、根据预设的时间区间数量，采集基于网络话题的热度时间序列数据和时变文本时间序列数据；

其中，热度时间序列数据为：网络话题在不同时间区间的热度值；

时变文本时间序列数据为：网络话题在不同时间区间所相关的文本(即在采集的时间区间内，包含当前网络话题的文本)；

本发明中，一条时间序列数据对应一个网络话题，可根据实际需求设定总时间区间数量，基于不同时间区间的网络话题的热度值，形成基于网络话题的热度时间序列数据，即热度时间序列；以及基于不同时间区间的网络话题相关文本，形成基于网络话题的时变文本时间序列数据，即文本时间序列。

步骤2、提取文本特征时间序列数据：

基于中文短文本分类数据集，训练得到一个短文本分类器，并将训练得到的短文本分类器去掉分类输出层后的网络模型作为文本特征提取器；

基于所述文本特征提取器获取文本时间序列中的各文本的文本特征向量，得到文本特征时间序列；

步骤3、构建基于生存分析的深度学习模型：

所述深度学习模型包含数据融合模块和深度生存模块；

其中，数据融合模块用于融合步骤1采集的时间序列数据和步骤3得到的文本特征时间序列，得到融合向量时间序列并输入深度生存模块；

深度生存模块用于回归预测，输出网络话题的离散风险率；

其中，假定预设的时间区间数量为m，任意一个时间区间t可表示为I₀=(t-1,t]，令随机变量T表示“网络话题爆发的时刻”，则网络话题i在时间区间u的离散风险率为：

步骤4、训练深度生存模块：

基于预置的训练数据对所述深度生存模块进行深度学习训练，当满足预置的停止训练条件时，得到训练好的深度生存模型并作为爆发时间预测器；

其中，训练时所采用的损失函数为：L＝L₁+L₂，其中，损失函数的L₁、L₂分别为；

其中，D_un表示在观察周期内已爆发的网络话题集合，D_ce表示在观察周期内未爆发的网络话题集合，zⁱ表示网络话题爆发时间，τ^j表示观察时间，

表示网络话题i在爆发时间zⁱ的离散风险率，

分别表示网络话题i、j在不同爆发时间区间的离散风险率(即

分别表示网络话题i、j在不同爆发时间点的风险率)，超参数α∈(0,1)；

步骤5、基于爆发时间预测器输出待预测的网络话题爆发时间预测结果：

对给定的待预测的网络话题，基于预设的时间区间数量采集基于当前待预测的网络话题的热度时间序列数据、时变文本时间序列数据；

基于文本特征提取器提取待预测的网络话题的文本特征时间序列数据，并将提取的文本特征时间序列数据与采集的热度时间序列数据通过深度学习模型的数据融合模块进行数据融合处理，得到待预测的网络话题的融合向量时间序列并输入爆发时间预测器；

基于发时间预测器输出的待预测的网络话题的离散风险率，得到离散生存概率，基于预置的爆发概率阈值(判断阈值)，将首次低于所述爆发概率阈值的生存概率所对应的时间区间作为预测的网络话题爆发时间。

进一步的，步骤1中，网络话题的热度由网络话题的总转发量确定，即网络话题的热度与其总转发量正相关，总转发量越高，代表话题热度越高。

进一步的，步骤1中，网络话题非时变文本包含话题源头微博的文本内容、随时间变化的转发的微博文本内容。

进一步的，步骤2中，训练短文本分类器所采用的分类数据集为：基于微博的短文本文本数据，且分类标签为支持和反对两类。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明基于生存分析理论，针对网络话题爆发时间预测，提供一种基于生存分析的深度学习方法。通过有效利用话题相关时变文本，从而弥补了现有方法仅利用话题热度信息的不足，克服了依赖预设概率分布导致预测结果受限这一缺陷，从而提高了预测效果；本发明通过针对性的设计预测模型损失函数，进一步提升针对网络话题爆发时间的预测性能。

附图说明

图1为本发明的网络话题爆发时间预测原理图；

图2为本发明的文本特征提取器获取；

图3为本发明的模型总体结构图；

图4为本发明的训练过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，对于给定的一个待预测的网络话题，通过下列步骤预测其爆发时间：

首先，根据预设的时间区间数量，步骤S1获得基于话题热度的时间序列数据；

步骤S2获得基于话题时变文本的时间序列数据；

步骤S3将步骤S2获得的基于话题时变文本的时间序列数据转换为文本特征时间序列；

步骤S4将步骤S1获得的基于话题热度的时间序列数据和步骤S3获得的文本特征时间序列，进行拼接，最终形成一个融合的特征向量时间序列，即融合向量时间序列，完成数据融合；

步骤S5将步骤S4所得的融合向量时间序列作为输入，通过已训练好的深度生存模型，预测该话题的离散危险率分布，基于此计算得到离散生存概率分布；

步骤S6基于所设置的爆发概率判断阈值，对步骤S5得到的离散生存概率进行比较，取概率首次低于爆发概率判断阈值对应的时间区间为预测的话题爆发时间。

本具体实施方式中，基于深度生存分析的网络话题爆发时间预测包含训练和预测两部分，训练部分主要是获得训练好的(即训练完善的)深度生存模型，其中步骤S3中，通过所设置的文本特征提取器获得文本特征时间序列，该文本特征提取器由训练部分获得；获得训练完善的深度生存模型后，输入需要预测的话题相关热度和文本时间序列，即可得到话题爆发时间的预测结果。预测部分即基于所训练好的深度生存模型执行上述步骤S1-S6。

其中，训练部分的具体实施如下：

训练主要包括三部分，即文本特征提取器训练、深度生存模型构建、深度生存模型训练，具体参见图2、图3、图4。

本领域内的技术人员可以理解，文本特征提取器训练主要是获得一个可输出文本特征向量的神经网络模型，如图2所示，分为以下两个步骤：

步骤301，短文本语料预处理。参见图2，首先是过滤停用词，即对于无有效语义的停用词(例如“的”、“我”、“啊”等)进行过滤，去除停用词使训练数据的冗余度降低；然后分词处理，对于没有自然分词的语言需要利用分词工具(例如开源的jieba分词工具)进行分词；接着将全角字符转换为半角字符，并对过滤后得到的语料库中句子进行编码转换，从而使得语料库更为规范统一；最后对每个分词进行词向量转换处理，例如通过wiki公开的词向量表转换为词向量。一个短文本所包含的多个词向量通过求和取均值的方式，最终获得每一个短文本对应的词向量。

步骤302，短文本分类器训练。以步骤301所得短文本对应的词向量，作为输入数据，训练短文本分类器。该分类器是一个基于多个全连接层的神经网络，具体共包含3个隐藏层。第一层包含50个神经节点，对应于步骤301所得词向量的维度；第二层包含25个神经节点，即第一层节点数的一半；第三层包含12个神经节点，即第二层节点数的一半；输出层(也可称为分类输出层)用于输出文本分类概率。

训练时，采用基于绝对误差的损失函数和批梯度下降优化器。短文本分类器训练完成后，输入任意一个词向量，取其第3隐藏层的输出向量作为文本特征向量，即将训练好的短文本分类器去掉分类输出层后作为本具体实施方式的文本特征提取器。

本领域的技术人员可以理解，深度生存模型构建过程如下：

令网络话题的离散风险率表示为h＝{h₁,h₂,…,h_m}，离散生存概率表示为S＝{S₁,S₂,…,S_m}，其中m为预设的时间区间数量。本具体实施方式中，使用Python语言构建深度生存模型，模型输入为话题热度时间序列γ＝{γ₁,γ₂,…,γ_m}与话题相关文本时间序列∈＝{∈₁,∈₂,…,∈_m}，输出为离散风险率h＝{h₁,h₂,…,h_m}，其中m为预设的总时间区间数量。

且步骤S6的生存概率S＝{S₁,S₂,…,S_m}基于离散风险率h＝{h₁,h₂,…,h_m}通过下式计算所得。

其中，t表示时间区间，即t＝1,2,…,m。

模型结构如图3所示，深度生存模型由数据融合模块和深度生存模块构成。

其中，数据融合模块首先通过文本特征提取器将步骤2所得的文本时间序列转换为文本特征时间序列(即通过文本特征提取器将文本序列中的每个文本词向量转换为文本特征向量)，图3中的MLP部分即为文本特征提取器。数据融合通过拼接方法，将步骤S1所得数值时间序列与步骤S3所得文本特征时间序列，根据对应的时间区间进行拼接，形成一个融合向量时间序列。

深度生存模块由基于长短期记忆网络(Long Short-Term Memory，LSTM)单元的循环网络模型构成，对应图3中LSTM部分，其输入输出的纬度均为m，LSTM内为包含5*m个神经元的单层结构。

本领域的技术人员可以理解，深度生存模型训练包含模型训练和确定判断阈值，具体实现过程如下：

1)模型训练(深度生存模块的网络参数训练)过程如图4所示，训练数据(即训练用的网络话题所对应的融合向量时间序列)采用128的批大小，每一次训练，计算模型的损失函数值，基于损失函数值，使用Adam优化算法调整模型参数，当本次损失函数值高于前次损失函数值时，模型训练终止。

特别的，本发明还设置了一个全新的损失函数，以提高模型的预测效果。参考图4，本申请中对深度生存模型训练时所采用的损失函数由两部分(分别定义为损失函数L₁、L₂)组成，即损失函数L＝L₁+L₂，其中组成损失函数的L₁、L₂分别为；

其中，D_un表示在观察周期内爆发了的话题，zⁱ表示话题爆发时间，D_ce表示在观察周期内未爆发的话题，τⁱ表示观察时间，α∈(0,1)为用于控制损失函数前后两部分均衡的超参数，

分别表示不同爆发时间区间的离散风险率。

2)确定判断阈值。

深度生存模型输出离散危险率h＝{h₁,h₂,…,h_m}，基于此计算离散生存概率S＝{S₁,S₂,…,S_m}，每个训练数据对应一个离散生存概率。对于所有离散生存概率，以0.0001的间隔递增设置爆发概率阈值，取预测准确度最高的值作为爆发概率判断阈值。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于深度生存分析的网络话题爆发时间预测方法，其特征在于，包括如下步骤，

时变文本时间序列数据为：网络话题在不同时间区间所相关的文本；

步骤2、提取文本特征时间序列数据：

步骤3、构建基于生存分析的深度学习模型：

所述深度学习模型包含数据融合模块和深度生存模块；

深度生存模块用于回归预测，输出网络话题的离散风险率；

步骤4、训练深度生存模块：

基于预置的训练数据对所述深度生存模块进行深度学习训练，当满足预置的停止训练条件时，得到训练好的深度生存模块做为爆发时间预测器；

其中，D_un表示在观察周期内已爆发的网络话题集合，D_ce表示在观察周期内未爆发的网络话题集合，zⁱ表示网络话题爆发时时刻τ^j表示观察周期对应时长，

表示网络话题i在爆发时间zⁱ所属时间区间的离散风险率，

分别表示网络话题i、j在不同爆发时间区间的离散风险率，超参数α∈(0,1)；

步骤5、基于爆发时间预测器输出待预测的网络话题爆发时间的预测结果：

基于爆发时间预测器输出的待预测的网络话题的离散风险率，得到离散生存概率，基于预置的爆发概率阈值，将首次低于所述爆发概率阈值的生存概率所对应的时间区间作为预测的网络话题爆发时间。

2.如权利要求1所述的方法，其特征在于，爆发概率阈值的设置具体为：

根据训练时深度生存模型输出的离散危险率h＝{h₁,h₂,…,h_m}，根据公式

计算离散生存概率S_t，得到离散生存概率S＝{S₁,S₂,…,S_m}，其中，时间区间标识t表t＝1,2,…,m，m为预设的时间区间数量；

对所有离散生存概率S_t，预设的间隔步长递增设置爆发概率阈值，取预测准确度最高的值作为最终的爆发概率阈值。

3.如权利要求2所述的方法，其特征在于，间隔步长设置为0.0001。

4.如权利要求1所述的方法，其特征在于，步骤1中，网络话题的热度由网络话题的总转发量确定，即网络话题的热度与其总转发量正相关，总转发量越高，代表话题热度越高。

5.如权利要求1所述的方法，其特征在于，步骤1中，网络话题非时变文本包含话题源头文本内容、随时间变化的转发文本内容。

6.如权利要求1所述的方法，其特征在于，步骤2中，训练短文本分类器所采用的分类数据集为：基于微博的短文本文本数据，且分类标签为支持和反对两类。