CN109063927B

CN109063927B - 一种基于ts-lstm和dnn的微博转发量预测方法

Info

Publication number: CN109063927B
Application number: CN201810989381.9A
Authority: CN
Inventors: 张路桥; 穆圣坤; 王娟; 李飞; 石磊
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2021-12-07
Anticipated expiration: 2038-08-28
Also published as: CN109063927A

Abstract

本发明属于网络信息处理技术领域，公开了一种基于TS‑LSTM和DNN的微博转发量预测方法,利用用户所发布的所有微博作为源数据，提取出用户10个特征作为输入，微博转发数量量级作为输出，建立TS‑LSTM的预测模型，预测出指定微博的转发指数；根据用户自身影响力、用户粉丝影响力、用户与粉丝的微博特征相似度、微博特征以及预测出的转指定微博的转发指数的特征作为输入，以活跃粉丝是否会转发作为输出，最后统计会转发的数量得出预测目标微博最终转发量级。本发明提出的TS‑LSTM算法并使其与DNN结合对微博转发进行了建模预测，实验论证较以往方法至少有5％的提升。

Description

一种基于TS-LSTM和DNN的微博转发量预测方法

技术领域

本发明属于网络信息处理技术领域，尤其涉及一种基于TS-LSTM和DNN的微博转发量预测方法。

背景技术

目前，业内常用的现有技术是这样的：

微博由于其便捷的应用方式以及开放的信息平台，已经成为了信息扩散和舆论传播的重要平台。微博转发是微博传播的重要途径，也是研究微博信息传播、舆情监控的最关键问题之一。解决这个问题不仅可以更好地理解微博的舆情传播特点，为舆情分析与监控打下基础；还可以通过挖掘用户微博内容的兴趣特点，对用户进行微博推荐或者广告推荐等。

目前，在对微博转发预测方面的文献主要是根据用户历史微博的数据信息来进行训练，进而建立微博转发预测的模型，或者是基于用户自身兴趣的影响力来建立预测模型等，这些方法也存在不足，用户影响力计算中，只是单纯的通过用户的粉丝数和关注数来利用PageRank进行计算，并没有结合更多的用户特征，故影响力计算并不准确。同时随着互联网的发展，微博用户的增多，用户浏览微博的时长增多，微博的转发量也会随着时间呈递增趋势，以往的文献并没有考虑到此问题。另外针对微博转发量预测来说，大多是根据用户微博特征和微博历史转发量来建立预测模型，并没有将微博转发量与该用户粉丝相联系，这样必然会导致最终的结果不准确。

在微博转发预测方面张旸等人针对Twitter用户的转发行为提出了一种基于特征加权的预测模型，最后通过SVM来训练得到预测模型。Bandari等人提出了一种算法来预测新闻能否在Twitter上流行，或者在社交网站上引发热烈讨论，在预测时，文中将流行度按照转发量分为三个档次，即1～20次为低流行度、20～100次为中流行度、100～2400次为高流行度，对这三个档次进行了预测。

综上所述，现有技术存在的问题是：

(1)用户影响力计算中，只是单纯的通过用户的粉丝数和关注数来利用PageRank进行计算，并没有结合更多的用户特征，故影响力计算并不准确。

(2)同时随着互联网的发展，微博用户的增多，用户浏览微博的时长增多，微博的转发量也会随着时间呈递增趋势，以往的文献并没有考虑到此问题。

(3)针对微博转发量预测来说，大多是根据用户微博特征和微博历史转发量来建立预测模型，并没有将微博转发量与该用户粉丝相联系，这样必然会导致最终的结果不准确。

解决上述技术问题的意义：

本发明提出的方法再重新选择特征并改进PageRank算法来计算用户及粉丝影响力，使得其更加准确，同时提出一种TS-LSTM的神经网络模型，将微博转发量随网络发展而呈递增状态考虑在内，另外还有将不同主题的微博进行筛选过滤，使得微博转发量的预测更加准确。最后将微博转发量的预测细化到每个活跃粉丝上，通过用户微博文本特征与粉丝微博兴趣相似度来细化微博转发量的预测。

发明内容

针对现有技术存在的问题，本发明提供了一种基于TS-LSTM和DNN的微博转发量预测方法。

本发明是这样实现的，一种基于TS-LSTM和DNN的微博转发量预测方法，包括：

利用用户所发布的所有微博作为源数据，提取出用户活跃粉丝数，关注数，用户是否认证，会员等级，微博发布时间，微博图片数量，微博是否有视频，微博是否有链接，是否包含主题以及微博特相似度的特征作为输入，微博转发数量量级作为输出，建立TS-LSTM的预测模型，预测出指定微博的转发指数；

根据用户自身影响力、用户粉丝影响力、用户与粉丝的微博特征相似度、微博特征以及预测出的转指定微博的转发指数的特征作为输入，以活跃粉丝是否会转发作为输出，最后统计会转发的数量得出预测目标微博最终转发量级。

进一步，用户自身影响力USIR的构建方法包括：

通过提取出用户的活跃粉丝数、关注用户数、微博数、是否为认证用户、微博等级、会员等级、微博质量七类特征总计100分计算用户自身影响力；

用户活跃粉丝数FN：提取出用户一年之内发布的所有微博的转发用户，并记录所有转发次数之和ALLPN，用户的转发次数FPN；总计30分，每满1000记1分，超过30分记30分；

关注用户数AUM：用户关注其他用户的数量；总计10分，每满300记1分，超过10分记10分；

微博数ALLWN：用户所有发布的微博数，每满1000个记1分，共10分；

是否为认证用户UV：微博提供个人认证和官方认证；认证用户为10分，非认证用户为0分；

微博等级UR：指用户微博的经验所达到的级别；共10分，每满5级记1分；会员等级VIP：用户办理会员有相应的特权；非会员为1分，会员1-7级，对应2-8分；

微博质量WQ：计算公式如下

其中：平均微博转发数AWP：用户一年之内发布所有微博的转发数总和ALLPN比上微博数量ALLWN；平均微博评论数AWC：用户一年之内发布所有微博的评论数总和ALLCN比上微博数量ALLWN；同时微博质量总计22分；WQ以1000为最高值，最后所得分数计算方式为：22*(WQ/1000)，若WQ＞1000，则记22分；

用户影响力计算公式如下：USIR＝FN+AUN+UV+UR+VIP+WQ。

进一步，用户粉丝影响力UFIR包括：

根据PageRank算法的提出基于用户自身影响力的用户粉丝影响力计算；

计算公式：

其中，d是逃脱因子，d∈(0，1)，FN是本发明统计的用户活跃粉丝数，ω_uv是用户分配给粉丝v的权重，

意为用户转发次数FPN比上所有用户总转发次数ALLPN的值。USIR(v)是上文所计算出的粉丝自身的影响力；AUN(v)是用户粉丝v的关注数。

进一步，用户与粉丝的微博特征相似度UFS包括：

提取出用户一年内每条微博文本内容，利用TF-IDF提取出前m个微博内容的关键词,记为UT＝{u₁，u₂...u_n，...u_m-1，u_m}；

根据每个粉丝近期内的所有微博，提取出最高的前m个关键词，组成集合为FT＝{f₁，f₂...f_n，...f_m-1，f_m}，并统计词频，记为ω＝{ω₁，ω₂...ω_n，...ω_m-1，ω_m}；关键词的权重集合FTω＝{f₁*ω₁，f₂*ω₂...f_n*ω_n，...f_m-1*ω_m-1，f_m*ω_m}；

计算用户微博提取出的关键词集合与粉丝微博提取出的关键词集合的文本相似度：利用余弦相似度来计算：

上式中，FT为每个粉丝近期内的所有微博中提取出最高的前m个关键词集合向量，并统计词频，记为ω；关键词的权重集合FTω；用户一年内每条微博文本内容中利用TF-IDF提取出前m个微博内容关键词集合的向量。

根据向量点积公式，设向量a,b得：

推广到多维：A＝(A₁，A₂，...，A_n),B＝(B₁，B₂，...，B_n)

故：

微博特征包括：

微博图片的个数，记为PICN，PICN∈R；

微博是否有视频，记为VIDEON，VIDEON∈{0，1}；

是否有外部链接，记为LINKN，LINKN∈{0，1}。

进一步，

TS-LSTM预测模型中，加入两个控制门，前一时刻的细胞状态C^(t-1)和输出的h^(t-1)进入当前时刻时会先进入ts门，ts门是微博相似度的余弦函数，ts值大于0时：进入遗忘门输入门依次更新细胞状态最后得到C^(t)和h^(t)；当ts值小于0时：细胞状态直接输出上一时刻的细胞状态和上一时刻的隐藏层状态即C^(t)＝C^(t-1)，h^(t)＝h^(t-1)；

具体包括：

输入：用户活跃粉丝数、关注数、用户是否认证、会员等级、微博发布时间、微博图片数量、微博是否有视频、微博是否有链接、是否包含主题以及微博特相似度10类特征；

输出：微博转发指数LSTM_P为1-10级对应区间，包括：

转发指数LSTM_P对应该条微博转发量，

10个数量级对应：

[0,10],[10,50],[50,100],[100,300],[300,600],[600,1000],[1000,1500],[1500,2000],[2000,5000],[5000,+∞]；

LSTM模型包括：

ts判断门；改进的判断控制函数ts，

当判断的ts值大于0时：按照原来LSTM依次更新细胞状态；当ts值小于0时：细胞状态直接输出上一时刻的细胞状态和上一时刻的隐藏层状态；

LSTM的遗忘门：输入是前一时刻的隐藏状态h^(t-1)和本序列数据X^(t),通过的激活函数提出ts函数，得到遗忘门输出：

f^(t)＝ts(θ)*δ(W_fh^(t-1)+U_fX^(t)+b_f),

其中W_f、U_f、b_f是线性关系的系数和偏倚,X^(t)是10个转发指数LSTM_P对应的微博转发量级；

LSTM的输入门：包括i^(t)和a^(t),

i^(t)＝ts(θ)*δ(W_ih^(t-1)+U_iX^(t)+b_i)，

i^(t)＝ts(θ)*δ(W_ah^(t-1)+U_aX^(t)+ba)，

W_i、U_i、b_i、W_a、U_a、b_a是线性关系的系数和偏倚；

LSTM的细胞状态更新：

细胞状态更新C^(t)有两部分组成：遗忘门输出f^(t)和C^(t-1)的乘积、输入门i^(t)和i^(t)的乘积；

C^(t)＝C^(t-1)⊙f^(t)+i^(t)⊙a^(t)

其中⊙是Hadamard积；

LSTM的输出门：

o^(t)＝ts(θ)*δ(W_oh^(t-1)+U_oX^(t)+b_o)

h^(t)＝o^(t)⊙tanh(C^(t))。

进一步，微观角度DNN神经网络模型，包括：

输入：用户自身影响力USIR、用户粉丝影响力UFIR、用户与粉丝的微博特征相似度UFS、微博图片的个数PICN、微博是否有视频VIDEON、是否有外部链接LINKN，LSTM模型的预测量级LSTM_P；

激活函数：Sigmoid函数和Softmax函数；

隐藏层的激活函数为Sigmoid函数，公式如下：

输出层的激活函数是Softmax函数，定义如下：

式中n_L是输出层第L层的神经元个数，即分类问题的类别数。可以看出

都是在(0,1)之间的数字值，而

作为归一化因子保证了所有的

之和为1。

损失函数：对数似然损失函数；

式中y_k取值为0或1，若某一训练样本输出为第i类,则y_i＝1,其余i≠j,都有y_i＝0，由于每个样本只属于一个类别，所以该公式可以简化为：

输出：0和1，0代表该粉丝不会转发，1代表该粉丝会转发；最终统计用户会转发的个数。

本发明的另一目的在于提供一种实现所述基于TS-LSTM和DNN的微博转发量预测方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于TS-LSTM和DNN的微博转发量预测方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于TS-LSTM和DNN的微博转发量预测方法。

本发明的另一目的在于提供一种实现所述基于TS-LSTM和DNN的微博转发量预测方法的基于TS-LSTM和DNN的微博转发量预测系统，所述基于TS-LSTM和DNN的微博转发量预测系统包括：

指定微博的转发指数预测单元，利用用户所发布的所有微博作为源数据，提取出用户活跃粉丝数，关注数，用户是否认证，会员等级，微博发布时间，微博图片数量，微博是否有视频，微博是否有链接，是否包含主题以及微博特相似度的特征作为输入，微博转发数量量级作为输出，建立TS-LSTM的预测模型，预测出指定微博的转发指数；

目标微博最终转发量级预测单元，根据用户自身影响力、用户粉丝影响力、用户与粉丝的微博特征相似度、微博特征以及预测出的转指定微博的转发指数的特征作为输入，以活跃粉丝是否会转发作为输出，最后统计会转发的数量得出预测目标微博最终转发量级。

综上所述，本发明的优点及积极效果为：

基于此，本发明首先从宏观角度利用提出的TS-LSTM建立微博的转发量级预测模型，得出预测结果，同时利用该结果和用户自身影响力、用户粉丝影响力、用户与粉丝微博文本相似度、微博特征五个大方面的因素来建立神经网络预测模型，最后得到目标微博的最终预测结果。

较以往的预测方法，本发明提出的方法，重新定义了用户自身影响力，利用了更多的特征来计算它，使其更加准确；同时又提出了基于PageRank改进的粉丝影响力计算方法，最后，在微博相似度计算方面，在以往的余弦相似度计算方法上给每个关键词向量加入权重，使得相似度计算更准确。此外本发明评估计算方式：令得出预测结果y^-微博真实的结果y。

准确率

本发明对微博特征进行了优化处理，提出了一种独立的影响力计算方法，同时在模型方面提出的TS-LSTM算法并使其与DNN结合对微博转发进行了建模预测，实验论证较以往方法有5％的提升。

在刘同学的微博用户行为分析一文中，也是预测微博转发量级，同时经过本人实验的出的结果在其基础上有了至少5％的提高。

在她的方法中Logistic Regression的准确率为73.26％，

Bayes的准确率为72.63％，SVM的准确率为71.74％，C4.5 Decision的准确率为69.85％，最好的准确率为76.43％，而本发明的方法的准确率最好时达到84.3％，至少有5％的提高。

附图说明

图1是本发明实施例提供的基于TS-LSTM和DNN的微博转发量预测方法流程图。

图2是本发明实施例提供的TS-LSTM模型图。

图3是本发明实施例提供的基于TS-LSTM和DNN的微博转发量预测系统示意图。

图中：1、指定微博的转发指数预测单元；2、目标微博最终转发量级预测单元。

图4是本发明实施例提供的TS-LSTM模型图的ts判断门。

图5是本发明实施例提供的TS-LSTM模型图的遗忘门。

图6是本发明实施例提供的TS-LSTM模型图的输入门。

图7是本发明实施例提供的TS-LSTM模型图的更新门。

图8是本发明实施例提供的TS-LSTM模型图的输出门。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术没有把用户微博内容和用户粉丝的兴趣结合其来，同时在影响力计算方式上利用的特征向量也存在不足。

从宏观角度看：随着网络的快速发展，微博平台从推出到现在的逐渐普及，微博用户的越来越多，相对应的用户粉丝也逐年增加，微博转发量也会逐年程递增趋势，故而，本发明定义这种随着时间推移，网络的迅速发展，用户粉丝的逐年增多，不同主题的热度不同而导致用户转发的几率也不同的影响因素为转发指数。活跃粉丝越多转发指数越高，不同的主题也对应不同的转发指数，转发指数越高用户转发的几率越大，用户转发率越大，对微博的传播的范围及影响也会变大，所以对本发明来说是个非常重要的因素。

从微观角度看：发布一条微博后粉丝会转发此微博，主要原因在于①对用户主体感兴趣，也就是说用户本身的影响力的因素促使粉丝会转发该微博。②对用户发布的微博的内容感兴趣，③是以上两点都有。

本发明结合LSTM(Long Short-Term Memory)是长短期记忆网络，并在此基础上提出一种基于TS-LSTM微博转发量级的预测模型，来预测用户微博的转发指数。

如图1，本发明实施例提供的基于TS-LSTM和DNN的微博转发量预测方法，包括：

S101：从宏观角度预测：本发明利用用户所发布的所有微博作为源数据，提取出用户活跃粉丝数，关注数，用户是否认证，会员等级，微博发布时间，微博图片数量，微博是否有视频，微博是否有链接，是否包含主题以及微博特相似度这10类特征作为输入，微博转发数量量级作为输出，建立TS-LSTM的预测模型，预测出指定微博的转发指数。

S102：从微观角度预测：本发明根据本发明提出的用户自身影响力、用户粉丝影响力、用户与粉丝的微博特征相似度、微博特征以及第一步宏观预测出的转发量级结果这五大类特征作为输入，以活跃粉丝是否会转发作为输出，最后统计会转发的数量得出预测目标微博最终转发量级。

下面结合特征构建具体分析对本发明作进一步描述。

2.2特征构建

2.2.1用户自身影响力USIR；

本发明的自身影响力采用百分制来计算；通过提取出用户的活跃粉丝数、关注用户数、微博数、是否为认证用户、微博等级、会员等级、微博质量七类特征总计100分来计算用户自身影响力。

用户活跃粉丝数FN：提取出用户一年之内发布的所有微博的转发用户，并记录所有转发次数之和ALLPN，用户的转发次数FPN。总计30分，每满1000记1分，超过30分记30分。

关注用户数AUN：用户关注其他用户的数量。总计10分，每满300记1分，超过10分记10分。

微博数ALLWN：用户所有发布的微博数，每满1000个记1分，共10分。

是否为认证用户UV：微博提供个人认证和官方认证。认证用户为10分，非认证用户为0分。

微博等级UR：指用户微博的经验所达到的级别。共10分，每满5级记1分。

◆会员等级VIP：用户办理会员有相应的特权。非会员为1分，会员1-7级对应2-8分。

◆微博质量WQ：计算公式如下

其中：平均微博转发数AWP：用户一年之内发布所有微博的转发数总和ALLPN比上微博数量ALLWN。平均微博评论数AWC：用户一年之内发布所有微博的评论数总和ALLCN比上微博数量ALLWN。同时微博质量总计22分。WQ以1000为最高值，最后所得分数计算方式为：22*(WQ/1000)，若WQ＞1000，则记22分。

即：用户影响力计算公式如下：

USIR＝FN+AUN+UV+UR+VIP+WQ

2.2.2用户粉丝影响力UFIR

本发明对用户粉丝影响力方法是根据PageRank算法的思想提出了基于用户自身影响力的用户粉丝影响力计算方法。

计算公式：

意为用户转发次数FPN比上所有用户总转发次数ALLPN的值。USIR(v)是上文所计算出的粉丝自身的影响力。AUN(v)是用户粉丝v的关注数。

2.2.3用户与粉丝的微博特征相似度UFS

计算用户与粉丝的微博特征相似度，本发明对余弦相似度算法中向量加了权重，使其更加准确的计算文本相似度。

●提取出用户一年内每条微博文本内容，利用TF-IDF提取出前m个微博内容的关键词,记为UT＝{u₁，u₂...u_n，...u_m-1，u_m}。

●针对用户所有活跃粉丝，根据每个粉丝近期内的所有微博，提取出最高的前m个关键词，组成集合为FT＝{f₁，f₂...f_n，...f_m-1，f_m}，并统计词频，记为ω＝{ω₁，ω₂...ω_n，...ω_m-1，ω_m}。则关键词的权重集合

FTω＝{f₁*ω₁，f₂*ω₂...f_n*ω_n，...f_m-1*ω_m-1，f_m*ω_m}

●计算用户微博提取出的关键词集合与粉丝微博提取出的关键词集合的文本相似度：利用余弦相似度来计算：

2.2.4微博特征

此部分微博特征主要包括一下几个特征：

微博图片的个数，记为PICN，PICN∈R；

微博是否有视频，记为VIDEON，VIDEON∈{0，1}；

是否有外部链接，记为LINKN，LINKN∈{0，1}。

下面结合神经网络模型具体分析对本发明作进一步描述。

3.神经网络模型

3.1 TS-LSTM预测模型：

原理：训练集和测试集是由用户所有的微博组成，随着时间的推移用户的粉丝越来越多，相应的转发指数也会呈递增趋势，但是微博内容主题不同转发指数也不同(例如：同一时期内，用户发布人工智能类型的微博转发量级在1000左右，发布美食类型的微博转发量级在100左右，一年后，随着人工智能的发展也随着博主粉丝的增多，人工智能类型的转发量会不断上升至5000，但是，发布美食类型的微博只会上升至500量级)，所以要预测出微博转发指数需要过滤筛选出微博内容相似度较高的微博来做训练建立预测模型。故而，提出了一种基于TS-LSTM神经网络的预测模型。

相较于传统的LSTM，本发明新加入了两个控制门，前一时刻的细胞状态C^(t-1)和输出的h^(t-1)进入当前时刻时会先进入ts门，ts门是微博相似度的余弦函数，ts值大于0时：进入遗忘门输入门依次更新细胞状态最后得到C^(t)和h^(t)；当ts值小于0时：细胞状态直接输出上一时刻的细胞状态和上一时刻的隐藏层状态即C^(t)＝C^(t-1)，h^(t)＝h^(t-1)。

TS-LSTM神经网络模型可以根据微博的主题来选取相关性大的微博来作为训练集，使得训练数据之间的关系更加紧密，避免了多主题微博引起的微博指数震荡影响微博的预测效果，故采用此结构可以有效的过滤掉不相关的训练数据，从而达到更加准确的预测效果。

输入：用户活跃粉丝数、关注数、用户是否认证、会员等级、微博发布时间、微博图片数量、微博是否有视频、微博是否有链接、是否包含主题以及微博特相似度10类特征。

输出：微博转指数LSTM_P为1-10级对应区间如下。

转发指数LSTM_P对应该条微博转发量，10个数量级对应0-9

[0,10],[10,50],[50,100],[100,300],[300,600],[600,1000],[1000,1500],[1500,2000],[2000,5000],[5000,+∞]

LSTM模型图如图2所示。

图4是ts判断门；是改进的判断控制函数ts，

此公式在2.23节有详细讲述。

当判断的ts值大于0时：按照原来LSTM依次更新细胞状态；当ts值小于0时：细胞状态直接输出上一时刻的细胞状态和上一时刻的隐藏层状态。

图5是LSTM的遗忘门：输入是前一时刻的隐藏状态h^(t-1)和本序列数据X^(t),此处通过的激活函数是本发明提出的ts函数，得到遗忘门输出：

f^(t)＝ts(θ)*δ(W_fh^(t-1)+U_fX^(t)+b_f),

其中W_f、U_f、b_f是线性关系的系数和偏倚,X^(t)是本发明上面提到的10类特征。

图6是LSTM的输入门：它的输入是包括两部分是i^(t)和a^(t),

i^(t)＝ts(θ)*δ(W_ih^(t-1)+U_iX^(t)+b_i)

i^(t)＝ts(θ)*δ(W_ah^(t-1)+U_aX^(t)+b_a)

同理W_i、U_i、b_i、W_a、U_a、b_a是线性关系的系数和偏倚。

激活函数是本发明提出的ts函数

图7是LSTM的细胞状态更新：

细胞状态更新C^(t)有两部分组成：遗忘门输出f^(t)和C^(t-1)的乘积、输入门i^(t)和i^(t)的乘积。

C^(t)＝C^(t-1)⊙f^(t)+i^(t)⊙a^(t)

其中⊙是Hadamard积。

图8是LSTM的输出门：

o^(t)＝ts(θ)*δ(W_oh^(t-1)+U_oX^(t)+b_o)

h^(t)＝o^(t)⊙tanh(C^(t))

3.2微观角度DNN神经网络模型：

输入：用户自身影响力USIR、用户粉丝影响力UFIR、用户与粉丝的微博特征相似度UFS、微博图片的个数PICN、微博是否有视频VIDEON、是否有外部链接LINKN，LSTM模型的预测量级LSTM_P。

损失函数：对数似然损失函数。

激活函数：Sigmoid函数和Softmax函数。

输出：0和1，0代表该粉丝不会转发，1代表该粉丝会转发。最终统计用户会转发的个数。

如图3，本发明实施例提供的基于TS-LSTM和DNN的微博转发量预测系统包括：

指定微博的转发指数预测单元1，利用用户所发布的所有微博作为源数据，提取出用户活跃粉丝数，关注数，用户是否认证，会员等级，微博发布时间，微博图片数量，微博是否有视频，微博是否有链接，是否包含主题以及微博特相似度的特征作为输入，微博转发数量量级作为输出，建立TS-LSTM的预测模型，预测出指定微博的转发指数；

目标微博最终转发量级预测单元2，根据用户自身影响力、用户粉丝影响力、用户与粉丝的微博特征相似度、微博特征以及预测出的转指定微博的转发指数的特征作为输入，以活跃粉丝是否会转发作为输出，最后统计会转发的数量得出预测目标微博最终转发量级。

下面结合具体分析对本发明作进一步描述。

对于隐藏层的数目和其中的节点数如果节点选取的过多，则会使得训练模型的时间边长严重是会出现过拟合现象，节点选取的过少又不能很好的达到预期的结果。目前还没有方法可以确定神经网络的隐层数和节点数，比较有效的方法是通过选取不同的隐层数和节点数来对误差进行训练和判断，选取效果较好的那一模型。本发明正是借助此方法得到隐藏层数为6，节点数目为7的神经网络模型。

经过实验得，DNN神经网络在采用六层隐藏层，同时隐藏层的神经元数目均为7个的网络结构下得到的预测值的准确率最高，达到84.3％，相较于以往的方法有了5％的提升。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于TS-LSTM和DNN的微博转发量预测方法，其特征在于，所述于TS-LSTM和DNN的微博转发量预测方法包括：

根据用户自身影响力、用户粉丝影响力、用户与粉丝的微博特征相似度、微博特征以及预测出的转指定微博的转发指数的特征作为输入，以活跃粉丝是否会转发作为输出，最后统计会转发的数量得出预测目标微博最终转发量级；

具体包括：

输出：微博转指数LSTM_P为1-10级对应区间，包括：

转发指数LSTM_P对应该条微博转发量，

10个数量级对应：

[0，10]，[10，50]，[50，100]，[100，300]，[300，600]，[600，1000]，[1000，1500]，[1500，2000]，[2000，5000]，[5000，+∞]；

LSTM模型包括：

ts判断门；改进的判断控制函数ts，

LSTM的遗忘门：输入是前一时刻的隐藏状态h^(t-1)和本序列数据X^(t)，通过的激活函数提出ts函数，得到遗忘门输出：

f^(t)＝ts(θ)*δ(W_fh^(t-1)+U_fX^(t)+b_f)，

其中W_f、U_f、b_f是线性关系的系数和偏倚，X^(t)是10个转发指数LSTM_P对应的微博转发量级；

LSTM的输入门：包括i^(t)和a^(t)，

i^(t)＝ts(θ)*δ(W_ih^(t-1)+U_iX^(t)+b_i)，

a^(t) ＝ts(θ)*δ(W_ah^(t-1+U_aX^(t)+b_a)，

W_i、U_i、b_i、W_a、U_a、b_a是线性关系的系数和偏倚；

LSTM的细胞状态更新：

细胞状态更新C^(t)有两部分组成：遗忘门输出f^(t)和C^(t-1)的乘积、输入门i^(t)和a^(t)的乘积；

C^(t)＝C^(t-1)⊙f^(t)+i^(t)⊙a^(t)

其中⊙是Hadamard积；

LSTM的输出门：

o^(t)＝ts(θ)*δ(W_oh^(t-1)+U_oX^(t)+b_o)

h^(t)＝o^(t)⊙tanh(C^(t))。

2.如权利要求1所述的基于TS-LSTM和DNN的微博转发量预测方法，其特征在于，用户自身影响力USIR的构建方法包括：

关注用户数AUN：用户关注其他用户的数量；总计10分，每满300记1分，超过10分记10分；

微博等级UR：指用户微博的经验所达到的级别；共10分，每满5级记1分；

会员等级VIP：用户办理会员有相应的特权；非会员为1分，会员1-7级，对应2-8分；

微博质量WQ：计算公式如下

用户影响力计算公式如下：USIR＝FN+AUN+UV+UR+VIP+WQ。

3.如权利要求1所述的基于TS-LSTM和DNN的微博转发量预测方法，其特征在于，用户粉丝影响力UFIR包括：根据PageRank算法的提出基于用户自身影响力的用户粉丝影响力计算；

计算公式：

其中，d是逃脱因子，d∈(0，1)，FN是统计的用户活跃粉丝数，ω_uv是用户分配给粉丝v的权重，

意为用户转发次数FPN比上所有用户总转发次数ALLPN的值；USIR(v)是计算出的粉丝自身的影响力；AUN(v)是用户粉丝v的关注数。

4.如权利要求1所述的基于TS-LSTM和DNN的微博转发量预测方法，其特征在于，用户与粉丝的微博特征相似度UFS包括：

提取出用户一年内每条微博文本内容，利用TF-IDF提取出前m个微博内容的关键词，记为UT＝{u₁，u₂...u_n，...u_m-1，u_m}；

上式中，FT为每个粉丝近期内的所有微博中提取出最高的前m个关键词集合向量，并统计词频，记为ω；关键词的权重集合FTω；用户一年内每条微博文本内容中利用TF-IDF提取出前m个微博内容关键词集合的向量；

根据向量点积公式，设向量a，b得：

推广到多维：A＝(A₁，A₂，...，A_n)，B＝(B₁，B₂，...，B_n)

微博特征包括：

微博图片的个数，记为PICN，PICN∈R；

微博是否有视频，记为VIDEON，VIDEON∈{0，1}；

是否有外部链接，记为LINKN，LINKN∈{0，1}。

5.如权利要求1所述的基于TS-LSTM和DNN的微博转发量预测方法，其特征在于，微观角度DNN神经网络模型，包括：

输入：用户自身影响力USIR、用户粉丝影响力UFIR、用户与粉丝的微博特征相似度UFS、微博图片的个数PICN、微博是否有视频VIDEON、是否有外部链接LINKN，TS-LSTM模型的预测量级LSTM_P；

激活函数：Sigmoid函数和Softmax函数；

隐藏层的激活函数为Sigmoid函数，公式如下：

输出层的激活函数是Soft max函数，定义如下：

式中n_L是输出层第L层的神经元个数，分类问题的类别数；

为在(0，1)的数字值，

作为归一化因子保证所有的

之和为1；

损失函数：对数似然损失函数；

式中y_k取值为0或1，若某一训练样本输出为第i类，则y_i＝1，其余i≠j，都有y_i＝0，由于每个样本只属于一个类别，对数似然损失函数公式简化为：

6.一种实现权利要求1～5任意一项所述基于TS-LSTM和DNN的微博转发量预测方法的信息数据处理终端。

7.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的基于TS-LSTM和DNN的微博转发量预测方法。

8.一种实现权利要求1所述基于TS-LSTM和DNN的微博转发量预测方法的基于TS-LSTM和DNN的微博转发量预测系统，其特征在于，所述基于TS-LSTM和DNN的微博转发量预测系统包括：