CN109525428A

CN109525428A - 基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法

Info

Publication number: CN109525428A
Application number: CN201811353308.9A
Authority: CN
Inventors: 刘小洋; 何道兵
Original assignee: Chongqing University of Technology
Current assignee: Shenzhen Ningze Financial Technology Co.,Ltd.
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-26
Anticipated expiration: 2038-11-14
Also published as: CN109525428B

Abstract

本发明提出了一种基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，包括如下步骤：S1，获取在线社交网络信息数据，对于A信息数据处于在线社交网络上传播扩散时，匹配B竞争性的信息数据来抑制A信息数据的蔓延，遏制A信息的进一步传播扩散，对A信息数据和B信息数据进行竞争性信息数据分析；S2，建立竞争性信息传播概率模型，选择B信息数据的时间点和空间节点以最大限度地抑制A信息数据传播，将A信息数据和B信息数据共同传播时的规律以及传播过程中的影响发送到远程终端。

Description

基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法。

背景技术

随着移动互联网的发展、5G时代的来临，在线社交网络越来越流行，人们的日常工作和生活已经离不开这些社交网络，随之产生的大量信息也充斥着网络，无论是谣言还是商品广告信息等都会在网络上蔓延，因而了解信息背后的传播机理能够帮助人们更好地管理和控制网络上信息的传播。

在线社交网络上的信息传播在诸多因素的影响下进行演化，既包括传播速度和扩散范围的演化也包括信息自身内容的演化。影响因素有很多，但归结起来不外乎信息自身特征、传播信息的网络用户的特征与行为、承载信息传播的社交网络的拓扑结构，以及信息传播的宏观环境。此外，社交媒体上信息传播有时还受到社会媒体服务所提供的信息推送功能的影响，比如Facebook的News Feed、新浪微博的即时推、腾讯视频的消息推荐等。这几个方面是在线社交网络中信息传播的关键因素，它们共同决定了信息传播与演化的行为与模式。

基于传染病的多信息建模方法是从用户的角度出发，认为用户以一定概率传播事件信息，传染病模型是信息传播领域公认比较成熟的模型，传统模型有SI、SIR、SIS，其中SIR模型是将人群分为易感者S状态、感染者I状态和治愈者R状态，信息从感染者传到易感者，易感者收到信息并成功转发后，自身转变为治愈者，完成个体状态的转换，直至系统达到一种稳定态。SIS和SIR模型产生了很多变体，如SIRS、SIDR和SAIR。但是这些模型均无法反映S状态节点转化为I状态节点之前有一个潜伏期的事实，为此将潜伏状态引入SIR模型，产生了SEIR模型。在此基础上，为了刻画信息传播中广泛存在的点到群的传播模式，提出了e-SEIR模型。随着研究工作的不断深入，传染病模型在许多实际应用领域得到了进一步的发展，例如，研究新产品在社交网络中扩散的Bass-SIR模型，恢复时间是幂律分布的SIR生命动力学模型，基于情感交流的HIT-SCIR模型和具有两个时滞和垂直转移的SEIRS模型。

但是，这些研究工作基本上都是将网络信息抽象为一种单一信息或同一类型的多信息在在线社交网络上传播，但现实网络中往往存在多种类型信息同时传播的情形，这些信息间可能具有合作或竞争的关系，即呈现出正相关或负相关的外在表现。现有技术所构造的模型无法实现相应的关联关系。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法。

为了实现本发明的上述目的，本发明提供了一种基于在线社交网络数据的竞争性信息传播概率模型构建方法，包括如下步骤：

S1，获取在线社交网络信息数据，对于A信息数据处于在线社交网络上传播扩散时，匹配B竞争性的信息数据来抑制A信息数据的蔓延，遏制A信息的进一步传播扩散，对A信息数据和B信息数据进行竞争性信息数据分析；

S2，建立竞争性信息传播概率模型，选择B信息数据的时间点和空间节点以最大限度地抑制A信息数据传播，将A信息数据和B信息数据共同传播时的规律以及传播过程中的影响发送到远程终端。

所述的基于在线社交网络数据的竞争性信息传播概率模型构建方法，优选的，所述S1包括：

S1-1，假设在竞争性信息传播模型中，网络上同时存在A信息数据和B信息数据两种不同类型的信息，随着时间的变化进行竞争性传播；

S1-2，按信息传播过程中网络节点所处的状态，将网络节点划分为四类，分别为未传播任何信息节点的S状态、已经收到A信息并积极传播的节点的I_A网络状态、已经收到B信息并积极传播的节点的I_B网络状态、已失去信息传播兴趣对所有信息持抵制态度的遗弃状态节点的R状态。

所述的基于在线社交网络数据的竞争性信息传播概率模型构建方法，优选的，所述S1还包括：

S1-3，在线社交网络数据的网络节点状态空间为C＝{S,I_A,I_B,R}，每一个网络节点的状态转换是一个相对随机的过程，下一时刻的状态与该节点的历史状态无关，只与当前状态有关，用分布函数来描述节点状态转换的马尔可夫性，用X表示网络节点状态转换的随机变量，随机过程{X(t),t∈T}的状态空间为C，T为离散的时间序列集合，在条件X(t_i)＝x_i,x_i∈C下，X(t_n)的条件分布函数恰等于在条件X(t_n-1)＝x_n-1下X(t_n)的条件分布函数，下标n＝1,2,3...i，即

P{X(t_n)≤x_n|X(t₀)＝x₀,X(t₁)＝x₁,…,X(t_n-1)＝x_n-1}

＝P{X(t_n)≤x_n|X(t_n-1)＝x_n-1}

网络节点从状态u迁移到状态v的转移概率记为p_ij。

p_ij＝P{X(t_n)＝v|X(t_n-1)＝u}

S1-4，获得转移概率矩阵P；

将竞争性信息数据传播模型的节点状态规则代入，则转移概率矩阵P简化为：

在竞争性信息数据传播过程，一个网络节点从S随机状态X(t_s)＝S出发，在t_i时刻转化为I_A状态X(t_i)＝I_A或I_B状态X(t_i)＝I_B，再经过若干个时间步的竞争，最后在t_n时刻转化为R状态X(t_n)＝R，从此退出竞争而网络节点状态不再改变，直至传播过程结束；

在t∈(t_i,t_n)期间，由于A信息和B信息相互竞争，一个I_A网络状态可能转化为I_B网络状态，或者一个I_B网络状态可能转化为I_A网络状态；在这个随机过程中，转移概率矩阵P只与节点状态和时间t有关，节点状态的n步转移概率矩阵P(n)为P(n)＝Pⁿ，即竞争性信息传播过程中，n步转移概率矩阵P(n)是一步转移概率矩阵P的n次方。

所述的基于在线社交网络数据的竞争性信息传播概率模型构建方法，优选的，所述S2包括：

S2-1，设置邻接矩阵，该邻接矩阵表示网络节点之间的邻接关系，在线社交网络抽象为一个无向图，则邻接矩阵D是一个N阶方阵，其元素为

网络中某节点的邻边数量称为该节点的度，用k表示。网络拓扑结构的邻接矩阵表示方法与节点度表示方法二者本质上是等价的。邻接矩阵D与节点i的度k_i满足如下函数关系式；

邻接矩阵二次幂D²的对角元素就是节点i的邻边数，即节点i的度。

所述的基于在线社交网络数据的竞争性信息传播概率模型构建方法，优选的，所述S2还包括：

S2-2，S→I_A,I_B，节点从S网络状态转化为I_A,I_B状态；在线社交网络上节点总量为N是稳定的，假设t时刻一个S网络状态的节点i同时与I_A,I_B网络状态传播节点相邻，S网络状态的节点i与I_A，I_B状态节点信息交互关系为，每一个I_A状态节点成功将自身持有的A网络信息传播给节点i的概率为λ₁，传播不成功的概率为1-λ₁，如果网络节点i的邻居节点中所有I_A网络状态节点均传播不成功的概率为λ_SS1，则t时刻λ_SS1(t)表示为

表示t时刻网络节点j为I_A状态的概率；

同理，每一个I_B状态节点成功将自身持有的B网络信息传播给节点i的概率为λ₂，传播不成功的概率为1-λ₂，如果网络节点i的邻居节点中所有I_B网络状态节点均传播不成功的概率为λ_SS2，则t时刻λ_SS2(t)表示为表示t时刻网络节点j为I_B状态的概率；

所以，t时刻网络节点i无法接收到任何信息的概率λ_SS为

t时刻S网络状态的节点个数为S(t)，用表示S网络状态的节点无法接收到任何网络信息的概率的期望值，则

实际上，也表示S网络状态的节点i在下一时刻仍保持为S网络状态的概率，也就是转移概率矩阵P中的转移概率p₁₁，即

所以，S网络状态的节点i转化为I_A,I_B状态的转移概率p₁₂,p₁₃分别表示为

S2-3，I_A,I_B→R，节点从I_A,I_B状态转化为R状态，

处于I_A,I_B网络状态的节点，随着在线社交网络数据收集过程时间的推移，网络节点会逐渐对网络信息数据降低热度值，I_A,I_B网络状态节点对信息数据的遗弃率分别为δ₁,δ₂，由于I_A,I_B网络状态节点转化到R网络状态与R网络状态节点自身无关，仅由I_A,I_B网络状态节点的遗弃率决定，因此，转移概率矩阵P中的转移概率p₂₄,p₃₄取值为

p₂₄＝δ₁，

p₃₄＝δ₂。

S2-4，在信息传播过程中，一个I_A网络状态节点和一个I_B网络状态节点进行竞争，在下一时刻都希望对方转化为本方相同的状态，社交网络数据竞争力度的大小取决于I_A网络状态和I_B网络状态的置换率θ₁,θ₂；当t时刻在线社交网络上同时存在多个I_A和I_B网络状态节点，分别用I_A(t),I_B(t)分别表示I_A网络状态和I_B网络状态的数量，通过S2-2的步骤，推导出转移概率矩阵P中的转移概率p₂₂,p₂₃,p₃₂,p₃₃分别为

至此，即把转移概率矩阵P表示为：

将相应网络状态的节点i的状态S_i表示为则S,I_A,I_B,R状态节点的状态取值分别为(1,0,0,0)^T，(0,1,0,0)^T，(0,0,1,0)^T，(0,0,0,1)^T，因而有节点在t时刻属于某一状态的概率表示该种状态的数学期望：

其中，分别表示在t时刻相应网络状态的节点i分别属于S,I_A,I_B,R状态的概率值，其满足概率的规范性和可列可加性，即

根据转移概率矩阵P，通过平均场理论得到CISIR概率模型：在t+1时刻

d_ij为网络节点邻接矩阵D中第i行第j列的取值。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

提出的竞争性信息传播宏观模型CISIR是合理、有效的，为解决在线社交网络上不同类型信息的竞争性传播这一类问题提供了一种新的科学方法和研究途径，具有较高的应用价值，能够很好地描述复杂网络的传播特性，通过该CISIR概率模型挖掘出在线网络数据的正相关关联数据，对于数据收集整理提供了极大的帮助，形成独特的数据流分析效果，通过该传播概率模型能够提取出稳定的特征数据进行在线社交网络数据的趋势判别，同时对于在线网络数据的各项信息因素在传播中所具有的影响力提供了初步判断，并发现该信息因素的发展规律。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明数据结构节点状态转换示意图；

图2是本发明节点状态转化过程图；

图3是本发明S状态节点与I_A，I_B状态节点信息交互关系；

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明是基于在线社交网络的竞争性信息传播宏观模型CISIR(CompetitiveInformation Susceptible Infected Recovered)提出的技术方案。

假设在竞争性信息传播模型中，网络上同时存在A信息和B信息两种不同类型的信息，随着时间的变化进行竞争性传播。按信息传播过程中网络节点所处的状态，可将节点划分为四类，分别为未传播任何信息节点(S状态)、已经收到A信息并积极传播的节点(I_A状态)、已经收到B信息并积极传播的节点(I_B状态)、已失去信息传播兴趣对所有信息持抵制态度的遗弃状态节点(R状态)。

如图1至3所示，λ₁和λ₂分别表示A信息和B信息的信息传播概率，刻画一个未传播任何信息状态下的节点对某种类型信息的响应程度，传播率越高，表示该节点有更高的可能性去选择传播该条信息。δ₁和δ₂分别表示对A信息和B信息的遗弃率，随着时间的推移，节点会逐渐对传播过的信息失去兴趣，在沉寂中慢慢遗忘。θ₁和θ₂分别表示A信息和B信息的置换率，即相互影响力，θ₁越大，则表示B信息的吸引力更大，能把传播A信息的节点状态转化为传播B信息；反之，θ₂越大，则表示A信息的吸引力更大，能把传播B信息的节点状态转化为传播A信息。

由上述转化规则可知，网络节点的状态空间C＝{S,I_A,I_B,R}，每一个节点的状态转换是一个相对随机的过程，下一时刻的状态与该节点的历史状态无关，只与当前状态有关，也就是说节点的“将来”不依赖于“过去”，仅由“现在”决定，整个传播过程可以看成一个马尔可夫随机过程。因此，可用分布函数来描述节点状态转换的马尔可夫性，用X表示节点状态转换的随机变量，随机过程{X(t),t∈T}的状态空间为C，T为离散的时间序列集合，在条件X(t_i)＝x_i,x_i∈C下，X(t_n)的条件分布函数恰等于在条件X(t_n-1)＝x_n-1下X(t_n)的条件分布函数，即

因此，竞争性信息传播过程本质上是每一个网络节点在状态空间C中不断进行状态转换的马尔可夫链。节点从状态u迁移到状态v的转移概率记为p_ij。

p_ij＝P{X(t_n)＝v|X(t_n-1)＝u} (14)

由此获得转移概率矩阵P。

将竞争性信息传播模型的节点状态规则代入(15)式，则转移概率矩阵P可简化为

在竞争性信息传播过程，一个节点从S状态X(t_s)＝S出发，在t_i时刻转化为I_A状态X(t_i)＝I_A或I_B状态X(t_i)＝I_B，再经过若干个时间步的竞争，最后在t_n时刻转化为R状态X(t_n)＝R，从此退出竞争而节点状态不再改变，直至传播过程结束，如图3所示。

在t∈(t_i,t_n)期间，由于A信息和B信息相互竞争，一个I_A状态节点可能转化为I_B状态，或者一个I_B状态节点可能转化为I_A状态。在这个随机过程中，转移概率矩阵P只与节点状态和时间t有关，因此，竞争性信息传播过程是齐次的马尔可夫链，根据C-K方程(Chapman-Kolmogorov Equation)可知，节点状态的n步转移概率矩阵P(n)为P(n)＝Pⁿ。

也就是说，竞争性信息传播过程中，n步转移概率矩阵P(n)是一步转移概率矩阵P的n次方。从而可知，竞争性信息传播过程中网络节点状态的分布可由初始分布与一步转移概率完全确定。

提出的宏观CISIR概率模型

网络节点的转移概率不仅与信息传播率λ₁，λ₂、信息遗弃率δ₁，δ₂、信息置换率θ₁，θ₂有关，而且与网络拓扑结构关系密切，对于网络拓扑结构有两种表示方式：

1)邻接矩阵；

2)节点度。

邻接矩阵表示了网络节点之间的邻接关系，本模型中将在线社交网络抽象为一个无向图，则邻接矩阵D是一个N阶方阵，其元素为

网络中某节点的邻边数量称为该节点的度，用k表示。网络拓扑结构的邻接矩阵表示方法与节点度表示方法二者本质上是等价的。邻接矩阵D与节点i的度k_i满足如下函数关系式。

(18)式中，邻接矩阵二次幂D²的对角元素就是节点i的邻边数，即节点i的度。

下面分别考虑节点在不同状态下的转换概率。

1)S→I_A,I_B，节点从S状态转化为I_A,I_B状态。

假设t时刻一个S状态节点i同时与多I_A,I_B状态传播节点相邻，如图3所示，S状态节点与I_A，I_B状态节点信息交互关系。

每一个I_A状态节点成功将自身持有的A信息传播给节点i的概率为λ₁，传播不成功的概率为1-λ₁，如果相邻的所有I_A状态节点均传播不成功的概率为λ_SS1，则t时刻λ_SS1(t)表示为

(19)式中，表示t时刻节点j为I_A状态的概率。

同理，可得节点i的邻居节点中所有I_B状态节点均传播不成功的概率λ_SS2为

(20)式中，表示t时刻节点j为I_B状态的概率。

综合(19)，(20)式可知，t时刻节点i无法接收到任何信息的概率λ_SS为

t时刻网络上S状态节点个数为S(t)，用表示S状态节点无法接收到任何信息的概率的期望值，则

实际上，也表示S状态节点在下一时刻仍保持为S状态的概率，也就是转移概率矩阵P中的转移概率p₁₁，即

由(19)，(20)式易知，S状态节点转化为I_A,I_B状态的转移概率p₁₂,p₁₃可表示为

2)I_A,I_B→R，节点从I_A,I_B状态转化为R状态。

处于I_A,I_B状态的节点，随着时间的推移，节点会逐渐对信息失去兴趣，慢慢遗忘，I_A,I_B状态节点对信息的遗弃率分别为δ₁,δ₂。由于I_A,I_B状态节点转化到R状态与R状态节点无关，仅由I_A,I_B状态节点的遗弃率决定。因此，转移概率矩阵P中的转移概率p₂₄,p₃₄可取值为

p₂₄＝δ₁ (26)

p₃₄＝δ₂ (27)

3)I_A→I_B、I_B→I_A，节点从I_A状态转化为I_B状态，或从I_B状态转化为I_A状态。

在信息传播过程中，一个I_A状态节点和一个I_B状态节点进行竞争，在下一时刻都希望对方转化为本方相同的状态，这种竞争力度的大小取决于各自的置换率θ₁,θ₂。当t时刻在线社交网络上同时存在多个I_A和I_B状态节点，分别用I_A(t),I_B(t)表示它们的数量。根据1)中类似的方法，推导出转移概率矩阵P中的转移概率p₂₂,p₂₃,p₃₂,p₃₃分别为

至此，将各种状态之间的转移概率代入(15)式，即把转移概率矩阵P表示为：

将一个节点i的状态表示为则S,IA,I_B,R状态节点的状态取值分别为(1,0,0,0)^T，(0,1,0,0)^T，(0,0,1,0)^T，(0,0,0,1)^T。因此，节点的状态变量是离散形随机变量，因而有节点在t时刻属于某一状态的概率可表示该种状态的数学期望，如式(33)所示。

其中，分别表示t时刻节点i属于S,I_A,I_B,R状态的概率，一个节点在某一时刻一定属于四种状态中的其中一种，因此，一定满足概率的规范性和可列可加性，即

根据移概率矩阵P，结合(33)式，通过平均场理论得到CISIR概率模型：

d_ij为网络节点邻接矩阵D中第i行第j列的取值。

由概率模型可见，竞争性信息传播过程中网络节点状态转化不仅与信息传播率λ₁，λ₂、信息遗弃率δ₁，δ₂、信息置换率θ₁，θ₂有关，而且还受到网络结构的影响。

形成该概率模型后，将在线社交网络数据进行收集，判断在线社交网络数据的发展趋势，准确的进行网络数据预判。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，所述S1包括：

3.根据权利要求2所述的基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，所述S1还包括：

P{X(t_n)≤x_n|X(t₀)＝x₀,X(t₁)＝x₁,…,X(t_n-1)＝x_n-1}

＝P{X(t_n)≤x_n|X(t_n-1)＝x_n-1}

网络节点从状态u迁移到状态v的转移概率记为p_ij。

p_ij＝P{X(t_n)＝v|X(t_n-1)＝u}

S1-4，获得转移概率矩阵P；

X(t_n)的状态

4.根据权利要求1所述的基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，所述S2包括：

5.根据权利要求4所述的基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，所述S2还包括：

表示t时刻网络节点j为I_A状态的概率；

所以，t时刻网络节点i无法接收到任何信息的概率λ_SS为

6.根据权利要求4所述的基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，所述S2还包括：

S2-3，I_A,I_B→R，节点从I_A,I_B状态转化为R状态，

p₂₄＝δ₁，

p₃₄＝δ₂。

7.根据权利要求5所述的基于在线社交网络数据的竞争性信息传播概率模型挖掘构建方法，其特征在于，所述S2还包括：

至此，即把转移概率矩阵P表示为：

d_ij为网络节点邻接矩阵D中第i行第j列的取值。