CN107292390A

CN107292390A - 一种基于混沌理论的信息传播模型及其传播方法

Info

Publication number: CN107292390A
Application number: CN201710371282.XA
Authority: CN
Inventors: 韦世红; 弭宝松; 肖云鹏; 刘宴兵; 孙华超; 宋晨光
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2017-10-24

Abstract

本发明请求保护一种基于混沌理论的信息传播预测模型，属于信息传播分析领域。它包括了从社交网络获取真实数据源，构筑用户静态多维转发因素属性机制，预测用户动态行为特征，构建热点话题传播模型四个部分。首先，获取相关数据，获得数据集。其次，从用户、信息、用户关系三个角度出发，提取影响用户的多种行为特征，量化信息传播概率。然后，根据混沌理论预测用户的动态行为。最后，在传统传染病SIR模型基础上，结合信息扩散与传染病蔓延相似的传播机理，综合考虑动态性的行为特征，改进得到一种基于混沌理论和用户行为的信息传播模型。该发明可以有效表征在线社交网络中的信息传播动态趋势，发现信息传播中的重要影响因素。

Description

一种基于混沌理论的信息传播模型及其传播方法

技术领域

本发明涉及社交网络分析领域，涉及在线社交网络信息传播的建模，揭示了热点话题的传播内在规律及趋势。

背景技术

随着信息技术和互联网的发展，特别是近几年移动终端的快速普及，以脸书,推特，微信，微博为代表的在线社交网络软件越来越成为人们日常生活的重要工具。在线社交网络的蓬勃发展和活跃用户的急剧增长、使得拥有社交性、信息共享性等多种属性的在线社会网络迅速成为人们信息传播、舆论管制、商品营销、观点表达、产生社会影响力的理想平台，吸引了越来越多的高校及企业研究机构的关注。

目前国内外在信息传播领域的研究多是从三个角度出发的，第一种是基于复杂网络的信息传播研究，主要以传染病动力学应用最为广泛；第二种是融入用户影响力在线社交网络信息传播研究，从用户差异性角度探索信息传播演化过程，其中影响力传播的线性阈值模型和独立级联模型得到了广泛应用；第三种是在线社交网络信息转发相关因素研究，目前主要的转发预测方法是可以分为基于用户过往行为的预测、基于用户文本兴趣的预测、基于用户所受群体影响、基于混合特征学习的预测。

目前的研究主要集中在网络静态特征对信息传播的影响，但忽视了网络的动态特征，如用户影响力、用户间的关注关系等都在社交网络中不断的变化。因此在网络静态特征的基础上，充分考虑用户行为等动态特性，更加真实的揭示信息传播的内在规律。

发明内容

本发明旨在解决以上现有技术的问题，从新的角度提出一种基于在线社交网络的信息传播模型及方法。

本发明的技术方案如下：一种基于在线社交网络的信息传播模型，包括获取数据集模块，用户静态状态变化因素提取模块，动态状态特征预测模块和热点话题传播模型构建模块。

其中所述获取数据集模块，用于在在线社交网络平台的公共API下获取相关热点话题下的相关信息。相关热点话题下的相关信息包括用户自身信息、用户的历史行为记录和用户间的关系。

所述用户静态状态变化因素提取模块，用于从用户属性、内容属性和用户关系属性三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，构建用户静态状态改变机制。

所述动态状态特征预测模块，用于将用户的历史行为中，每日参与话题数据整理为时间序列形式，然后利用混沌时间序列方法预测下一步动态，最后再将预测的结果归一化，以预测用户动态行为特征。

所述热点话题传播模型构建模块，将用户静态状态改变属性机制与动态状态特征预测模块所得到的归一化预测结果结合，将二者相乘后的结果作为SIR模型的传染率μ，以(1-μ)作为恢复率，构建新的热点话题信息传播模型。

本发明还提供一种基于混沌理论的信息传播方法，包括以下步骤：

S1：获取数据集，在线社交网络平台的公共API下爬取相关热点话题下的相关信息。

S2：提取用户静态状态变化因素，构建用户静态状态改变机制，从用户属性、内容属性和用户关系属性三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，构建用户静态状态改变机制。

S3:预测用户动态行为特征，将用户的历史行为中，每日参与话题数据整理为时间序列形式，然后利用混沌时间序列方法预测下一步动态，最后再将预测的结果归一化，以预测用户动态行为特征。

S4：构建热点话题传播模型，将用户静态状态改变属性机制与动态状态特征预测模块所得到的归一化预测结果结合，将二者相乘后的结果作为SIR模型的传染率μ，以(1-μ)作为恢复率，构建新的热点话题信息传播模型。

步骤S2所述构建用户静态状态改变机制包括以下步骤：

S21：从用户属性维度出发，提取用户影响状态改变的特征因子。

S22：从用户社交关系维度出发，提取该用户与上游用户主题兴趣相似度和用户间的交互强度特性因子。

S23：从内容属性维度出发，提取用户是否包含url、是否为转发微博、微博主题和用户主题兴趣相似度的特征因子；

S24：采用逻辑回归算法计算用户的转发概率

其中y表示用户参与话题的决策，当其为1的时候表示用户参与了话题，其为0的时候表示用户未参与了话题；θ是模型参数，即回归系数；σ是sigmoid函数，p()函数代表计算转发概率的函数，x表示该微博的特征集合，包含了S21、S22、S23中提取的特征因子，为模型自变量。用获取的用户的历史数据对上述公式进行训练，通过对用户的历史行为进行分析从而得到用户的状态改变概率。

步骤S3预测用户动态行为特征的具体步骤为：

S31：将用户的行为时间序列{x(i)，i＝1，2，...，N}根据C-C算法，将行为时间序列分为t个不相交的时间序列，计算各个子序列的统计量S(m，N，r，τ)＝C(m,N,r,τ)-C^m(1，N，r，τ)，C(m,N,r,τ)为时间序列的关联积分，S(m，N，r，τ)为反映序列的自相关特性的统计量，C^m(1，N，r，τ)为关联积分C(m,N,r,τ)的m次方。

S32：重构相空间：对行为时间序列为{x(i)，i＝1，2，...，N}，τ为时间延迟，m为嵌入维数，N为数据组的大小，M＝N-(m-1)*τ，M为相点个数，此时间序列嵌入m维相空间得到N个相点的空间轨迹为：

式中，X即为表示空间轨迹的矩阵，X_N为其中某个m维相空间点，x(n)为其中某个时间序列。

S33：用户行为时间序列的混沌性识别：采用小数据量方法，寻找给定轨道上每个点的最近邻近点，即

其中p为时间序列的平均周期，d_j(0)为在初始时刻一对最近邻点之间的距离，Y_I为相空间状态点，Y_j为相空间中的任一点，即为Y_j的最近邻点，j都表示某个时刻，且

S34：根据一阶加权的行为进行预测计算，得到用户的下一步行为特征。先对时间序列{x(i)，i＝1，2，...，N}进行相空间重构，在重构的相空间中计算各点到中心点Y_k之间的空间距离，找出Y_k的参考向量集为Y_ki，i＝1，2，…，q,并且点Y_ki到Y_k的距离为d_i，从而寻找邻近点，然后进行计算预测。

本发明的优点及有益效果如下：

本发明从用户静态状态改变概率和用户动态行为特征出发，构建热点话题信息传播模型。对于用户静态属性，从用户、内容和用户关系三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，从而构建用户静态参与概率机制。对于用户动态行为预测机制，利用混沌时间序列预测，重构相空间，结合RBF神经网络预测出用户的下一步动态行为。最后，将用户的静态属性与动态特征结合起来，融入到传统的传染病动力学机制中，改进得到一种基于混沌理论和用户行为的信息传播模型，能有效表征在线社交网络中的信息传播动态趋势，发现信息传播中的重要影响因素。

附图说明

图1是本发明提供优选实施例基于在线社交网络的信息传播模型的整体框；

图2是本发明基于混沌理论的信息传播模型框图。

具体实施方式

下面将结合发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

如图1为本发明的主要整体架构，表明本发明的输入是热点话题的初始信息，在热点话题传播模型的处理上，输出信息已知者、信息未知者、信息免疫者的最终演化趋势。如图2所示为本发明的总体流程图，包括：包括获取数据集模块，用户静态状态变化因素提取模块，动态状态特征预测模块和热点话题传播模型构建模块，共四大模块。基于以上各模块本发明的详细实施过程，包括如下四个步骤：

S1：获取数据集。本发明需要的数据集是在在线社交网络平台的API获取的。

S2：用户静态状态变化因素提取。从用户、内容和用户关系三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，从而构建用户静态参与概率f_static。

S3:预测用户动态行为特征。将爬取话题下的所有用户的每日参与话题数据整理为以时间序列形式，然后利用混沌时间序列方法预测下一步动态，最后再将预测的结果归一化，得到用户的预测结果。

S4：构建热点话题传播模型，将用户的静态属性与动态特征结合，将相乘后的结果作为SIR模型的传染率μ，在以(1-μ)作为恢复率，进而构建新的热点话题信息传播模型。

上述步骤S1获取数据源，提取相关属性。主要分以下2个步骤：

S11：抓取数据。在某社交媒体上，抓取某个热点话题下的用户信息，主要包括用户信息、用户社交关系、用户历史行为记录三个方面。

S12：数据处理。首先，对数据进行时间分片，将数据按照时间区间进行划分。然后，在单位时间内，从数据中找出已参与该话题的用户及其粉丝，据此建立网络拓扑。

上述步骤S2用户静态状态变化因素提取机制。主要分以下四个步骤：

S21：从用户属性维度出发，提取用户的粉丝数、转发活跃度、性别、是否为注册用户、用户的网络行为动态数目和用户的PageRank值等影响状态改变的特征因子，其中用户的转发活跃度是指用户近期发表的微博中属于转发的概率，用户的PageRank值是采用PageRank算法计算用户在关注网络中的PageRank值，作为用户影响力的度量指标之一。

S22：从社交关系度出发，提取用户的与上游用户主题兴趣相似度和用户间的交互强度特性因子，其中与上游用户主题兴趣相似度是考虑到相同兴趣的传递者的影响，因为用户的邻居节点的相似度同样影响到其状态改变。

S23：从内容维度出发，提取用户的是否包含url、是否为转发和主题和用户主题兴趣相似度特征因子。

S24：采用逻辑回归算法，

其中y表示用户参与话题的决策，当其为1的时候表示用户参与了话题，其为0的时候表示用户未参与了话题。θ是模型参数，也就是回归系数，σ是sigmoid函数，用获取的用户的历史数据进行训练，通过对用户的历史行为进行分析从而得到用户的状态改变概率。p()函数代表计算转发概率的函数，x表示该微博的特征集合，包含了S21、S22、S23中提取的特征因子，为模型自变量。

上述步骤S3预测用户动态行为特征机制。主要分以下四个步骤：

S31：将用户的行为时间序列{x(i)，i＝1，2，...，N，根据C-C算法采用下列方式进行计算：首先将行为时间序列分为t个不相交的时间序列，然后计算各个子序列的统计量S(m，N，r，τ)＝C(m,N,r,τ)-C^m(1，N，r，τ)，C(m,N,r,τ)为时间序列的关联积分，S(m，N，r，τ)为反映序列的自相关特性的统计量，C^m(1，N，r，τ)为关联积分C(m,N,r,τ)的m次方，其中关联积分描述了系统的动态过程中全部变量的相关程度，其定义为

Ψ(·)为Heaviside单位函数，m为嵌入维数，r为邻域半径大小，Y_ki+1＝ae+bY_ki,i＝1,2,…,q为相空间重构的值。

将结果

其中差量为ΔS(m，t)＝max[S(m，N，r_j，τ)]-min[S(m，N，r_k，τ)]j≠k，为所有子序列的统计量S(m,N,r,t)的均值。最终根据得到的结果，取的第一个极小值点对应得时间点为时间延迟τ，取S_cor(t)的最小点对应的时间点为时间延迟窗口。S(m,N,r,t)反映了序列的自相关性。S(m,N,r,t)反映了序列的自相关性。为所有子序列的统计量的均值。S_cor(t)为中间变量，没有具体含义，是数理统计中表达式，其中，的第一个极小值点对应得时间点为时间延迟τ，取S_cor(t)的最小点对应的时间点为时间延迟窗口。

S32：重构相空间：对行为时间序列为{x(i)，i＝1，2，...，N}，τ为时间延迟，m为嵌入维数，N为数据组的大小，M＝N-(m-1)*τ,此时间序列嵌入m维相空间的到N个相点的空间轨迹为：

S33：用户行为时间序列的混沌性识别，采用小数据量方法：

在重构相空间中，寻找给定轨道上每个点的最近邻近点，即

其中d_j(0)为在初始时刻一对最近邻点之间的距离，Y_I为相空间状态点，Y_j为相空间中的任一点，即为Y_j的最近邻点，j都表示某个时刻，且p为时间序列的平均周期，可以通过能量光谱的平均频率的倒数估计出来，那么最大的Lyapunov(李雅普诺夫)就可以通过基本轨道上每个点的最近点的平均发散速率估计出来。Sato等估计最大Lyapunov指数为

其中Δt为样本周期；d_j(i)为基本轨道上第j对最近邻点对经过i个离散时间步长后的距离，后来Sato改进了估计表达式，λ₁(i)为估计的李雅普诺夫指数表达式，i为离散时间，d_j(i)表示步长的距离。

式中，λ₁(i,k)表示最大李雅普诺夫指数估计表达式，k为常数，最大Lyapunov指数的几何意义是量化初始闭轨道的指数发散和估计系统的总体混沌水平的量，所以结合Sato的估计式有

且C_j＝d_j(0)

两边取对数得

ln d_j(i)≈λ₁(iΔt)+ln C_j

所以，最大的Lyapunov指数可以近似看成上式这组直线的斜率，可以用过最小二乘逼近这组直线而得到，即

式中ω为非零d_j(i)的数目,结果发现大部分用户的行为是处于混沌的。

S34：基于加权一阶的行为发展预测模型，其步骤可分为如下四步：

Step1：重构相空间。根据C-C算法计算出时间序列的嵌入维数m和时间延迟τ，得到重构相空间为Y(t)＝(x(t)，x(t+τ)，…，x(t+(m-1)τ))∈R^m，t＝1，2，…，M,其中M为重构相空间点的个数M＝N-(M-1)τ。如果S33步骤后发现时间序列具有混沌特性，则可省略Step1：重构相空间，直接进行Step2：计算最近邻点。

Step2：计算最近邻点。在相空间中计算各点到中心点Y_k之间的空间距离，找出Y_k的参考向量集为Y_ki，i＝1，2，…，q,并且点Y_ki到Y_k的距离为d_i，设d_m是d_i中的最小值，定义点Y_ki的权值为：

a为参数，不妨取a＝1。如果步骤S33发现时间序列具有混沌特性，则进入下一步，进行预测。

Step3：进行计算预测。一阶加权局域线性拟合为

其中中心点Y_k(即预测的起始点)的临近点为Y_ki,i＝1,2,…,q，q为一个整数，它依赖于指定的临近距离的大小，，a,b为待求的未知数。

就m＝1的情况进行讨论，m>1的情况类似，即

应用加权最小二乘法有

将上式看成是关于未知数a,b的二元函数，两边求偏导得到

即简化得到未知数a,b方程组得：

Step4：将上式得到的未知数a,b带入公式：Y_ki+1＝ae+bY_ki,i＝1,2,…,q。参考向量集为Y_ki，i＝1，2，…，q的一步预测为Y_ki+1，i＝1，2，…，q，从而得到预测结果。

从而最后得到用户的下一步行为特征。

上述步骤S4构建热点话题传播模型，将用户的静态属性与动态特征结合，将相乘后的结果作为SIR模型的传染率λ，在以μ＝1-λ作为恢复率，进而构建新的热点话题信息传播模型。将参数带入如下传染病动力学方程，从而得到话题的演化趋势：

S+R+I＝1

SIR模型中，用户群体有三种状态：易感染状态S，感染状态I，免疫状态R，λ为感染概率，μ为恢复率。

本发明从用户静态状态改变概率和用户动态行为特征出发，构建热点话题信息传播模型。对于用户静态属性，从用户、内容和用户关系三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，从而构建用户静态参与概率机制。对于用户动态行为预测机制，利用混沌时间序列预测，重构相空间，结合加权一阶预测出用户的下一步动态行为。最后，将用户的静态属性与动态特征结合起来，融入到传统的传染病动力学机制中，改进得到一种基于混沌理论和用户行为的信息传播模型，能有效表征在线社交网络中的信息传播动态趋势，发现信息传播中的重要影响因素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于混沌理论的信息传播模型，其特征在于：包括获取数据集模块，用户静态状态变化因素提取模块，动态状态特征预测模块和热点话题传播模型构建模块；

其中所述获取数据集模块，用于在在线社交网络平台的公共API下获取相关热点话题下的相关信息；

所述用户静态状态变化因素提取模块，用于从用户属性、内容属性和用户关系属性三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，构建用户静态状态改变机制；

所述动态状态特征预测模块，用于将用户的历史行为中，每日参与话题数据整理为时间序列形式，然后利用混沌时间序列方法预测下一步动态，最后再将预测的结果归一化，以预测用户动态行为特征；

2.根据权利要求1所述一种基于混沌理论的信息传播模型，其特征在于：所述相关热点话题下的相关信息包括用户自身信息、用户的历史行为记录和用户间的关系。

3.根据权利要求1所述一种基于混沌理论的信息传播模型，其特征在于：所述的构建用户静态状态改变机制包括以下步骤：

S21：从用户属性维度出发，提取用户影响状态改变的特征因子；

S22：从用户社交关系维度出发，提取该用户与上游用户主题兴趣相似度和用户间的交互强度特性因子；

S24：采用逻辑回归算法计算用户的转发概率

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>=</mo> <mn>1</mn> <mo>|</mo> <mi>x</mi> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中y表示用户参与话题的决策，当其为1的时候表示用户参与了话题，其为0的时候表示用户未参与了话题；θ是模型参数，即回归系数；σ是sigmoid函数，p()函数代表计算转发概率的函数，x表示该微博的特征集合。

4.根据权利要求3所述一种基于混沌理论的信息传播模型，其特征在于：所述S21中提取用户影响状态改变的特征因子，包括用户的粉丝数、用户转发活跃度、性别、是否为注册用户、用户的网络行为动态数目和用户的PageRank值。

5.根据权利要求1所述一种基于混沌理论的信息传播模型，其特征在于：所述的预测用户动态行为特征，包括以下步骤：

S31：将用户的行为时间序列{x(i)，i＝1，2，...，N}根据C-C算法，将行为时间序列分为t个不相交的时间序列，计算各个子序列的统计量S(m，N，r，τ)＝C(m,N,r,τ)-C^m(1，N，r，τ)，C(m,N,r,τ)为时间序列的关联积分，S(m，N，r，τ)为反映序列的自相关特性的统计量，C^m(1，N，r，τ)为关联积分C(m,N,r,τ)的m次方；

式中，X即为表示空间轨迹的矩阵，X_N为其中某个m维相空间点，x(n)为其中某个时间序列；

S34：根据一阶加权的行为进行预测计算，得到用户的下一步行为特征。

6.根据权利要求5所述一种基于混沌理论的信息传播模型，其特征在于：S34中所述根据一阶加权的行为进行预测计算为：先对时间序列{x(i)，i＝1，2，...，N}进行相空间重构，在重构的相空间中计算各点到中心点Y_k之间的空间距离，找出Y_k的参考向量集为Y_ki，i＝1，2，…，q,并且点Y_ki到Y_k的距离为d_i，从而寻找邻近点，然后进行计算预测。

7.一种基于混沌理论的信息传播方法，其特征在于，包括以下步骤：

S1：获取数据集，在线社交网络平台的公共API下爬取相关热点话题下的相关信息；

S2：提取用户静态状态变化因素，构建用户静态状态改变机制，从用户属性、内容属性和用户关系属性三个维度，量化影响用户参与话题的静态因素，利用逻辑回归方法衡量每个因素的权重，构建用户静态状态改变机制；

S3:预测用户动态行为特征，将用户的历史行为中，每日参与话题数据整理为时间序列形式，然后利用混沌时间序列方法预测下一步动态，最后再将预测的结果归一化，以预测用户动态行为特征；

8.根据权利要求7所述一种基于混沌理论的信息传播方法，其特征在于：步骤S2所述构建用户静态状态改变机制包括以下步骤：

S24：采用逻辑回归算法计算用户的转发概率

9.根据权利要求7所述一种基于混沌理论的信息传播方法，其特征在于：步骤S3预测用户动态行为特征的具体步骤为：