CN107145517A

CN107145517A - 微博群组间具有全局最小代价的信息传播路径生成方法

Info

Publication number: CN107145517A
Application number: CN201710227761.4A
Authority: CN
Inventors: 黄震华; 程久军
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2017-09-08
Anticipated expiration: 2037-04-10
Also published as: CN107145517B

Abstract

本发明公开一种微博群组间具有全局最小代价的信息传播路径生成方法，主要包括路径代价建模、初始路径生成和路径深度优化3个步骤。其中，步骤1实现群组间信息传播路径的形式化表示及其时间代价模型构建，步骤2生成群组间具有局部最小代价的信息传播路径，而步骤3通过交叉和变异两个操作算子的迭代优化，来最终产生并输出具有全局最小代价的信息传播路径。与现有技术相比，本发明具有准确度高、速度快、可扩展性强和简单易实现等优点，能够有效应用于舆情监控、数据可视化、电子商务、智能交通以及医疗健康等领域。

Description

微博群组间具有全局最小代价的信息传播路径生成方法

技术领域

本发明涉及网络空间大数据信息服务技术领域，尤其是涉及一种微博群组间具有全局最小代价的信息传播路径生成方法。

背景技术

进入Web2.0时代，以微博为主的社交网络系统的崛起为人们提供了高度自由分析信息和交流观点的重要平台。借助基于用户微博关系的信息分享、传播以及获取技术，可以使用户通过WEB、WAP以及各种客户端组建不同的社区，从而较之传统的平面媒体、网络媒体等，获得更大程度和规模的信息，同时产生更为丰富的互动交流体验，增进用户的实际使用感受。正是凭借这种社交关系产生的特有的裂变式信息传播分享模式，微博迅速席卷网络，从政府、名人、明星，到普通民众，已经成为特有用户群体的网络汇集重要平台。

近年来，群组模式被广泛引入微博等社交网络平台中，群组模式的出发点是基于某种紧密的关系将不同用户组合在一个社区中，从而把用户从相对封闭的好友关系疏导至群组，并创建一种新的更开放的社交关系，实现信息的传播和分享。在微博平台中，将源群组中的一些重要信息在第一时间里面以最小的时间代价来完成处理、加工、数据传输等行为，并传播到目标群组中，让目标群组中的每个用户都能及时了解到这些重要信息，是近些年学术界和工业界的一个研究热点和重点，目前已广泛应用于舆情监控、数据可视化、电子商务、智能交通以及医疗健康等领域。

然而，根据深入的调研和分析，我们发现现有微博群组间具有全局最小代价的信息传播路径生成方法在模型准确性、模型可理解性以及处理效率方面均存在缺陷。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确度高、处理速度快且可扩展性强的微博群组间具有全局最小代价的信息传播路径生成方法，工作流程如图1所示。

本发明主要由路径代价建模、初始路径生成和路径深度优化三个步骤完成。

步骤1(路径代价建模)：

以微博平台中的源群组和目标群组为输入，首先构造源群组到目标群组的信息传播过程模型，

然后对源群组到目标群组一条可行的信息传播路径进行形式化表示，最后构造信息传播路径的时间代价模型。

步骤2(初始路径生成)：以步骤1中构造的信息传播过程模型为输入，产生具有局部最小代价的信息传播路径。

步骤3(路径深度优化)：以步骤1中构造的信息传播路径的时间代价模型和步骤2中所生成的具有局部最小代价的信息传播路径为输入，基于遗传算法，通过两点交叉和两点变异两个操作算子对具有局部最小代价的信息传播路径进行迭代优化，并最终输出群组间具有全局最小代价的信息传播路径。

本发明具有以下优点：

1、本发明能够在多项式时间复杂度内生成具有全局最小代价的群组间信息传播路径，从而具有较高的处理效率和较短的用户响应时间。

2、本发明基于遗传算法中交叉和变异两个操作算子的迭代优化来实施群组间具有全局最小代价信息传播路径的生成，从而克服了陷入局部最优解的问题，因此具有较高的准确度。

3、本发明主要由3个算法步骤组成，每个步骤的实施过程简单、容易实现，同时不受具体开发工具和编程软件的限制，并且能够快速扩展到分布式和并行化的开发环境中。

附图说明

图1本发明的工作流程图

具体实施方式

在步骤1中，本发明通过两个步骤来构造源群组G_s到目标群组G_g的信息传播过程模型：

步骤1.1：首先构造信息传播过程模型

步骤1.1.1：获取G_s和G_g之间可信度最高的2个群组G₁和G₂。对于某一个具体群组G，使用下列公式来获取它的可信度c[G]：

c[G]＝ln∑_u∈Ge^r(u)+b(u)，

其中ln为自然对数，e为自然对数的底数，r(u)为用户u在微博中的客观信誉度，b(u)为G_s和G_g对用户u的平均主观信任度，表示为：

其中b(su,u)为G_s中用户su对u的主观信任度，b(gu,u)为G_g中用户gu对u的主观信任度，|G_s|和|G_g|分别表示G_s和G_g中用户的数量。

步骤1.1.2：将G_s、G_g、G₁和G₂四个群组组成一个加权有向图L＝(N,E,W)，其中：

1)N为L的顶点(用户)集合，N＝G_s∪G₁∪G₂∪G_g；

2)E为L的有向边集合，E由三个子集E₁、E₂和E_g组成，即E＝E₁∪E₂∪E_g，E₁＝{<u₁→u₂>|u₂∈G₁∧u₁∈G_s∧u₂能够在微博平台中直接接收u₁传播的信息}，E₂＝{<u₁→u₂>|u₂∈G₂∧u₁∈G_s∪G₁∧u₂能够在微博平台中直接接收u₁传播的信息}，E_g＝{<u₁→u₂>|u₂∈G_g∧u₁∈G_s∪G₁∪G₂∧u₂能够在微博平台中直接接收u₁传播的信息}；

3)W为L的权重映射函数，对于每一个用户u∈G_s∪G₁∪G₂，W(u)取值为u处理所接收信息的CPU和I/O时间代价，而对于每条有向边<u₁→u₂>∈E，W(<u₁→u₂>)取值为用户u₁上的信息传播给用户u₂的通讯时间代价。

经过步骤1.1.1和1.1.2得到的加权有向图L即为源群组G_s到目标群组G_g的信息传播过程模型L。

步骤1.2，构造信息传播路径的时间代价模型

基于信息传播过程模型L，本发明将源群组G_s到目标群组G_g一条可行的信息传播路径定义为L的一个子图SL＝(SN,SE,SW)，同时满足如下4个条件：

1)顶点集合SN中必须包含G_g中的所有用户，即

2)对于G_g中的每一个用户gu，有向边集合SE中均有一条且仅有一条有向边指向gu，即gu的入度必须为1；

3)对于SN-G_g中每个的用户u，如果u是G_s中的用户，那么u的出度必须大于0，如果u是G₁∪G₂中的用户，那么u的出度和入度均必须大于0；

4)SW为SL的权重映射函数，且和L中的权重映射函数W相同。

最后，信息传播路径SL＝(SN,SE,SW)的时间代价模型F(SL)表示为：

在步骤2中，本发明获取源群组G_s到目标群组G_g具有局部最小代价的信息传播路径，具体实施步骤如下：

步骤2.1：基于步骤1中的加权有向图L＝(N,E,W)，删除L中的所有有向边，从而得到一个新的加权有向图L’＝(N,E’,W)，其中

步骤2.2：对于G_g中的每个用户gu，执行下列操作：在加权有向图L上获取SN-G_g中的用户mu，使得W(mu)+W(<mu→gu>)的取值最小，并在E’中增加一条有向边<mu→gu>，然后，判断mu属于G_s、G₁和G₂中的哪一个群组：

2.2.1)如果mu是G_s中的用户，那么结束对gu的操作；

2.2.2)如果mu是G₁中的用户，那么在L上获取G_s中的用户su，使得W(su)+W(<su→mu>)的取值最小，然后在E’中增加一条有向边<su→mu>；

2.2.3)如果mu是G₂中的用户，那么在L上获取G_s∪G₁中的用户tu，使得W(tu)+W(<tu→mu>)的取值最小，并在E’中增加一条有向边<tu→mu>，然后，判断tu属于G_s和G₁中的哪一个群组：

2.2.3.1)如果tu是G_s中的用户，那么结束对gu的操作；

2.2.3.2)如果tu是G₁中的用户，那么在L上获取G_s中的用户su，使得W(su)+W(<su→tu>)的取值最小，然后在E’中增加一条有向边<su→tu>。

步骤2.3：删除L’中入度和出度均为0的顶点，得到新的顶点集合N’。

经过上述步骤21-23，步骤2最终产生的加权有向图L’＝(N’,E’,W)即为所要获取的具有局部最小代价的信息传播路径。

在步骤3中，本发明迭代优化步骤2中产生的信息传播路径L’＝(N’,E’,W)，具体实施步骤如下：

步骤3.1：基于步骤1中的时间代价模型，计算L’的时间代价：

步骤3.2：对于N’-G_g中的每个用户u，生成一个长度为|G_g|的位串V(u)，初始化所有位为0，然后，对于G_g中的每个用户gu，检查E’中是否包含有向边<u→gu>，如果包含，那么将gu在V(u)中对应的位设置为1。当N’-G_g中所有用户处理完毕之后，将它们的位串组成一个集合VS。

步骤3.3：迭代执行步骤3.4-3.9，迭代次数为2000。

步骤3.4：对位串集合VS执行两点交叉操作，处理过程如下：

步骤3.4.1：在VS中随机挑选出半数的位串，构成集合TS，如果TS中包含奇数个位串，那么再增加一个位串进TS中，并且将VS中剩下的位串构成集合IS；

步骤3.4.2：依次处理TS中的每对位串V(u₁)和V(u₂)：首先随机产生两个选择点s₁和s₂，接着，在集合IS中获取满足如下条件的第一对位串V(u₃)和V(u₄)：V(u₁)[s₁,s₂]∨V(u₂)[s₁,s₂]＝V(u₃)[s₁,s₂]∨V(u₄)[s₁,s₂]，其中V(u_i)[s₁,s₂](1≤i≤4)表示位串V(u_i)在选择点s₁和s₂之间的子串，然后，在V(u₁)和V(u₃)之间交换V(u₁)[s₁,s₂]和V(u₃)[s₁,s₂]，同时，在V(u₂)和V(u₄)之间交换V(u₂)[s₁,s₂]和V(u₄)[s₁,s₂]；

步骤3.4.3：基于TS∪IS中的位串构造加权有向图IL＝(IN,IE,W)，实施过程如下：

步骤3.4.3.1：初始化IN和IE为空集；

步骤3.4.3.2：将TS∪IS中位串不全为0的所有用户添加到IN中，并将G_g中的用户添加到IN中；

步骤3.4.3.3：初始化三个集合N_s、N₁和N₂为空集，并针对IN-G_g中的每个用户u，判断u的归属，如果u是G_s中的用户，那么将u添加进N_s中，如果u是G₁中的用户，那么将u添加进N₁中，如果u是G₂中的用户，那么将u添加进N₂中；

步骤3.4.3.4：对于N₂中的每个用户u，获取它对应的位串V(u)，然后对于V(u)中每个为1的位，获取它在G_g中对应的用户gu，然后在IE增加一条有向边<u→gu>；

步骤3.4.3.5：对于N₁中的每个用户u，获取它对应的位串V(u)，然后对于V(u)中每个为1的位，获取它在G_g中对应的用户gu，并做如下检测：

如果gu在当前加权有向图IL中的入度为0，那么在IE增加一条有向边<u→gu>，否则在IL中获取N₂里面指向gu的用户tu，然后在IE增加一条有向边<u→tu>；

步骤3.4.3.6：对于N_s中的每个用户u，获取它对应的位串V(u)，然后对于V(u)中每个为1的位，获取它在G_g中对应的用户gu，并做如下检测：

如果gu在当前加权有向图IL中的入度为0，那么在IE增加一条有向边<u→gu>，否则在IL中获取N₂里面指向gu的用户tu，并做进一步检测：

如果tu在当前加权有向图IL中的入度为0，那么在IE增加一条有向边<u→tu>，否则在IL中获取N₁里面指向tu的用户fu，然后在IE增加一条有向边<u→fu>；

步骤3.5：基于步骤1中的时间代价模型，计算IL的时间代价：

步骤3.6：比较F(IL)与F(L’)取值的大小，如果F(IL)<F(L’)，那么将集合VS替换成集合TS∪IS、将加权有向图L’替换成IL并且将F(L’)替换成F(IL)，即VS＝TS∪IS、L’＝IL以及F(L’)＝F(IL)。

步骤3.7：对位串集合VS执行两点变异操作，处理过程如下：

步骤3.7.1：在VS中随机挑选出半数的位串，构成集合MS，并且将VS中剩下的位串构成集合HS；

步骤3.7.2：依次处理MS中的每个位串V(u)：首先随机产生两个选择点s₁和s₂，然后对于子串V(u₁)[s₁,s₂]中的每个位V(u₁)[j](s₁≤j≤s₂)，做如下检测：

如果V(u₁)[j]＝0，那么将V(u₁)[j]置为1，接着在集合HS中获取第一个第j位为1的位串V(u₂)，并将V(u₂)[j]置为0，反之，如果V(u₁)[j]＝1，那么将V(u₁)[j]置为0，接着在集合HS中获取第一个第j位为0的位串V(u₂)，并将V(u₂)[j]置为1；

步骤3.7.3：使用与步骤3.4.3相同的实施方式，基于MS∪HS中的位串构造加权有向图QL＝(QN,QE,W)；

步骤3.8：基于步骤1中的时间代价模型，计算QL的时间代价：

步骤3.9：比较F(QL)与F(L’)取值的大小，如果F(QL)<F(L’)，那么将集合VS替换成集合MS∪HS、将加权有向图L’替换成QL并且将F(L’)替换成F(QL)，即VS＝MS∪HS、L’＝QL以及F(L’)＝F(QL)。

步骤3.10：将具有全局最小代价的信息传播路径L’＝(N’,E’,W)输出给用户。

Claims

1.一种微博群组间具有全局最小代价的信息传播路径生成方法，其特征在于，包括步骤如下：

步骤1(路径代价建模)：

2.如权利要求1所述的方法，其特征在于，

步骤1.1：首先构造信息传播过程模型

c[G]＝ln∑_u∈Ge^r(u)+b(u)，

<mrow> <mi>b</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mi>u</mi> <mo>&Element;</mo> <msub> <mi>G</mi> <mi>s</mi> </msub> </mrow> </msub> <mi>b</mi> <mrow> <mo>(</mo> <mi>s</mi> <mi>u</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>g</mi> <mi>u</mi> <mo>&Element;</mo> <msub> <mi>G</mi> <mi>g</mi> </msub> </mrow> </msub> <mi>b</mi> <mrow> <mo>(</mo> <mi>g</mi> <mi>u</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mrow> <mo>|</mo> <msub> <mi>G</mi> <mi>s</mi> </msub> <mo>|</mo> </mrow> <mo>+</mo> <mrow> <mo>|</mo> <msub> <mi>G</mi> <mi>g</mi> </msub> <mo>|</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

1)N为L的顶点(用户)集合，N＝G_s∪G₁∪G₂∪G_g；

步骤1.2，构造信息传播路径的时间代价模型

1)顶点集合SN中必须包含G_g中的所有用户，即

4)SW为SL的权重映射函数，且和L中的权重映射函数W相同。

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>S</mi> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>S</mi> <mi>N</mi> <mo>-</mo> <msub> <mi>G</mi> <mi>g</mi> </msub> </mrow> </msub> <mi>S</mi> <mi>W</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mo>&Sigma;</mo> <mrow> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>&Element;</mo> <mi>S</mi> <mi>E</mi> </mrow> </msub> <mi>S</mi> <mi>W</mi> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

2.2.1)如果mu是G_s中的用户，那么结束对gu的操作；

2.2.3.1)如果tu是G_s中的用户，那么结束对gu的操作；

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msup> <mi>L</mi> <mo>,</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <msup> <mi>L</mi> <mo>&prime;</mo> </msup> <mo>-</mo> <msub> <mi>G</mi> <mi>g</mi> </msub> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mo>&Sigma;</mo> <mrow> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>&Element;</mo> <msup> <mi>E</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

步骤3.3：迭代执行步骤3.4-3.9，迭代次数为2000。

步骤3.4：对位串集合VS执行两点交叉操作，处理过程如下：

步骤3.4.3.1：初始化IN和IE为空集；

步骤3.5：基于步骤1中的时间代价模型，计算IL的时间代价：

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>I</mi> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>I</mi> <mi>L</mi> <mo>-</mo> <msub> <mi>G</mi> <mi>g</mi> </msub> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mo>&Sigma;</mo> <mrow> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>&Element;</mo> <mi>I</mi> <mi>E</mi> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

步骤3.7：对位串集合VS执行两点变异操作，处理过程如下：

步骤3.8：基于步骤1中的时间代价模型，计算QL的时间代价：

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>Q</mi> <mi>L</mi> <mo>-</mo> <msub> <mi>G</mi> <mi>g</mi> </msub> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mo>&Sigma;</mo> <mrow> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>&Element;</mo> <mi>Q</mi> <mi>E</mi> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mo><</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>></mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow>