CN113643144A

CN113643144A - 一种在线社交网络环境下信息传播范围最大化方法

Info

Publication number: CN113643144A
Application number: CN202110962091.7A
Authority: CN
Inventors: 李辉; 许梦婷
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-12

Abstract

本发明公开了一种在线社交网络环境下信息传播范围最大化方法，包括以下步骤：1)构建在线社交网络；2)提取在线社交网络中节点的特征；3)利用在线社交网络中节点的特征构建深度增强学习模型；4)对深度增强学习模型进行训练；5)利用训练后的深度增强学习模型进行在线社交网络中信息传播范围的最大化，该方法能够实现在线社交网络环境下信息传播范围的最大化。

Description

一种在线社交网络环境下信息传播范围最大化方法

技术领域

本发明属于计算机技术领域，涉及一种在线社交网络环境下信息传播范围最大化方法。

背景技术

互联网带来了信息产生方式和传播模式的深刻变革，社会网络目前已成为了人们互相沟通、知识共享和信息传播的重要媒介和平台。在营销领域中，某公司为了推广他们的新产品,希望能够借助目前有限的资源，然后通过选取一小部分影响力比较大的用户来免费体验他们的新产品,并利用口碑效应和病毒式营销结合的推广方式使产品最终的影响力达到最大化，如何更好的实现已成为公司的核心问题。为了创建一个成功的病毒式营销活动，需要将这些内容与一组具有高度社交网络影响力的个人分享，这些用户通过自己的社会影响力，通过网络向自己的同事朋友推荐该商品，使得更多的人了解并最终购买该商品，进而推动了整个商品在社会网络中的推广和宣传。因此公司只需要花费较少的费用就可以达到了更好的新产品的推广工作。

现有专利CN111445291A公开了一种为社交网络影响力最大化问题提供动态决策的方法，其中包括智能体动作、动作的奖赏值、智能体与环境进行交互的过程以及更新Q函数的策略等部分。每次迭代智能体都会从网络中选取一个未被激活的能使影响范围最大的节点并计算奖赏值，然后基于奖赏值更新Q函数以提升策略。该动态决策方法的不足之处在于，由于社交网络状态s和节点选取动作a都是极大的值，造成Q函数矩阵(大小为s*a)过大。当社交网络规模较大时，该策略耗费存储资源的同时还会造成很难在训练过程中确定矩阵中的全部值。

现有专利CN111275565A公开了一种基于局部和全局影响的社交网络影响力最大化方法，步骤包括根据顶点的局部影响力选取源顶点、寻找源顶点的祖先顶点并根据顶点对源顶点的预期影响筛选候选节点、根据候选节点对源定点的影响力选取种子节点。该方法的不足之处在于源顶点的选取只考虑了顶点二跳范围内邻居顶点的激活概率，范围过小影响其准确性。

现有专利CN110990716A公开了一种基于影响力最大化的抑制虚假消息传播方法。其中在选取影响力最大的节点集合步骤中采用了采用Louvain聚类局部度中心性算法LCLD，通过多次迭代为节点生成多层社团结构，然后计算聚类局部度中心CLD的值，对划分得到的网络中所有节点进行打分，根据打分选取影响力大的节点。该方法的缺点在于每层社团结构中社团的平均大小差距很大，造成CLD值的计算并不准确，结果受社团大小的影响远大于节点的拓扑结构。

此外，目前解决影响力最大化问题的TIM/TIM+技术、IMM算法等，都试图用更小数量的RIS样本生成(1–1/e-∈)-近似解。他们使用高度复杂的估计方法来使得RIS样本的数量更接近某些理论阈值。然而，它们都有两个缺点：1)生成的样本数量可以任意大于θ，2)阈值θ未显示为其种类中的最小值。所以通过减少RIS样本使影响力最大化达到更好的效果的这类问题已经处于瓶颈。

综上所述，如何在满足精度要求的前提下，实现大规模在线社会网络信息传播范围最大化问题的高效处理是社会网络需要解决而又充满挑战的研究问题。网络的规模巨大，连接结构复杂，导致在当前大规模社会网络下高效发现最有影响力用户十分困难，这意味着问题的解决方案需要非常有效和可扩展。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种在线社交网络环境下信息传播范围最大化方法，该方法能够实现在线社交网络环境下信息传播范围的最大化。

为达到上述目的，本发明所述的在线社交网络环境下信息传播范围最大化方法包括以下步骤：

1)构建在线社交网络；

2)提取在线社交网络中节点的特征；

3)利用在线社交网络中节点的特征构建深度增强学习模型；

4)对深度增强学习模型进行训练；

5)利用训练后的深度增强学习模型进行在线社交网络中信息传播范围的最大化。

利用Structure2vec提取在线社交网络中节点的特征。

深度强化学习模型中考虑代理人与环境之间的交互，代理人为具有行为的对象，代理人包括动作、状态及奖励。

训练过程中的损失函数为标签与深度强化学习模型输出之间的偏差。

训练过程中，通过反向传播使用梯度下降的方法更新深度强化学习模型的参数。

深度强化学习模型中的损失函数为：

将在线社交网络进行节点特征的提取，输入到训练后的深度增强学习模型中，计算每个节点的Q值，根据当前Q值选择最佳节点添加到种子集合中，然后根据当前种子集合的状态从剩余节点中继续选取影响力最大的节点，即当前种子集合的状态下Q值最大的节点，最终在选取包含k个节点的种子集合结束。

本发明具有以下有益效果：

本发明所述的在线社交网络环境下信息传播范围最大化方法在具体操作时，利用图嵌入方法及机器学习方法相结合来解决在线社交网络信息传播范围最大化的问题，完成预测节点的预期影响，通过深度神经网络取代Q-Learning矩阵来表示，利用训练后的深度增强学习模型进行在线社交网络中信息传播范围的最大化。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明中信息在社交网络中的传播模型图；

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

参考图1，本发明所述的在线社交网络环境下信息传播范围最大化方法包括以下步骤：

1)在线社交网络的建模

将在线社交网络建模成一个有向图G＝(V，E，W)，V为一个大小为n的节点集合，用于对网络中的个体进行建模，E为大小为m的边的集合，用于对个体之间的关系进行建模，对于任意两个节点u，v∈V，当u及v为E中的边，则认为v为u的输出邻居，并且u为v的输入邻居。W为一个传播可能性函数，传播可能性函数代表一对节点之间影响的强度，W的取值范围为0到1之间。

2)训练图采样

在对于没有任何演化日志的大型固定网络中，采用子图采样技术来生成足够的同质训练网络的应用策略，然后，利用来自网络的学习参数，解决目标大型网络的问题，将使用现有的子图采样方法，包括BFS(广度优先采样)，简单随机游走(SRW)及其改进算法，即随机游走反激式(RWF)和诱导子图随机游走采样，以及Snowball Sampling，广度优先搜索的改进算法等。

当给定动态网络G，在每个节点/边缘插入时间戳，其在时间t的快照被称为Gt，使用一系列时间(采样的)网络快照来训练模型。

3)在线社交网络节点特征的提取

对于每个采样好的在线社交网络的训练图，根据拓扑信息提取节点的特征，为完全编码网络中节点的拓扑上下文，有效融合网络结构与节点外部信息，形成更具区分性的网络表示，使用Structure2vec提取节点的特征，Structure2vec使用随机梯度下降学习具有判别信息的非线性映射，并将潜在变量模型嵌入特征空间，结合目标网络中节点，边缘和网络结构的特征，该特征将根据目标网络的状态进行递归聚合。

Structure2vec具体实现步骤为：给定当前的局部解S，初始化所有节点的向量，并将每个节点设置为q维零向量1。然后基于输入网络结构G递归定义网络体系结构，在I迭代之后，每个节点v均达最终状态，此时的嵌入可以同时进行考虑这些节点之间的拓扑特征和远程交互。

4)深度增强学习模型DQN的设置

深度强化学习模型DQN中需要考虑代理人和环境之间的交互，对于在线社交网络信息传播范围最大化的场景，将代理人称为具有行为的对象，无论应用何种场景，代理人都包含一系列动作、状态和奖励。对于影响力最大化问题，则将强化学习组件定义为：

动作：动作A代表代理人的行为，一个动作是将节点v添加到当前种子集S，使用节点的嵌入向量来表示动作。

状态：状态S为代理人可以感知的世界状态，在影响力最大化问题中，使用当前的种子集合来表示状态S，最终状态S表示为已经选择出k个节点，状态S由当前选择出来的节点嵌入表示。

奖励：奖励R为真实值。每当代理人与环境交互时，环境返回用于评估动作的奖励，其表示奖励或惩罚，在将节点v添加到当前种子集之后，状态也需要随之发生改变。影响范围的增量为状态S下的v节点的奖励，学习的最终目标是最大化累积奖励。

转换：当选择一个节点加入种子集时，节点的状态会发生改变，将未在种子集合中的节点设为0，反之为1，节点从0变为1，将该过程定义为P。

基于以上这些定义，构建强化学习策略。策略为代理人的行为功能，基从一个状态到另一个动作的映射，以告诉代理人如何合理的选择下一个动作，本发明中采用贪婪策略根据当前Q值选择最佳操作的策略。在寻找最佳集合的过程中容易陷入局部最优的状态，我们希望找到一种策略能够解决这个问题。因此我们使用ε-策略，ε-策略的优点为：随机策略的使用可以扩展搜索范围，而贪婪策略可以促进Q值的重新定义。其中，ε为选择随机动作的概率的值，在这个过程中通过改变ε值可以来平衡探索和开发两个过程。

5)深度增强学习模型的训练

基于上述针对大型静态网络和具有演化日志的动态网络的不同策略，以及采用网络嵌入方法将社会网络拓扑表示为基于矢量的特征，进一步作为深层学习的输入的过程，使深度学习模型更好的获得图中的信息。为训练出一个好的模型，定义损失函数为标签和网络输出的偏差，通过使损失函数最小化指导训练过程，对于函数优化问题，监督学习的一般方法是先确定损失函数，然后求梯度，使用随机梯度下降等方法更新参数，该过程需要有样本，巨量的有标签数据，然后通过反向传播使用梯度下降的方法来更新神经网络的参数，因此在深度深度增强学习中要训练网络，要能够为网络提供有标签的样本，但是在影响力最大化问题中无法给网络提供最终的标签，也就是影响力最大的种子集合。为给网络提供有用的标签的样本，利用Q-Learning算法。Q值的更新依靠的是利用奖励及Q值计算出来的目标Q值，因此，将目标Q值作为标签，目标就变为使Q值趋近于目标Q值，因此网络训练的损失函数为：

Q-Learning的损失函数中，每次得到样本就会更新Q值，在影响力最大化问题中，只有在一系列动作之后才能准确计算动作的奖励，因此如果每进行一个动作就更新一次效果会不好。所以，1步更新可能太过相近了，一个很直接的解决想法就是把样本先存起来，然后进行随机采样，也就是将1步Q-learning的一个自然延伸n步Q-learning。

本发明中决定使用n步Q-learning，有效地处理延迟奖励的问题，其中代理人的最终兴趣奖励仅在未来一段时间才会收到。具体而言，在更新参数之前等待n步骤，以更准确地收集未来的奖励，将目标设置为

神经网络中的损失函数设计为：

其中，训练中具体的等待步数和相关参数的具体设置方法还需针对问题进行进一步研究，在影响力最大化问题损失函数中的Q函数需要进一步具体设计，在Q函数中还需要整合节点的嵌入信息，确定还Q函数后，可以评估每个节点的质量，然后通过最大化Q函数值，将具有最佳边际预期影响的节点通过贪婪算法添加到种子集合中，直到种子数达到k。

6)深度增强学习模型用于在线社交网络中信息传播范围最大化：

获得训练好的深度增强学习模型后，将深度增强学习模型应用于在线社交网络中信息传播范围最大化问题，具体的，首先将在线社交网络进行节点特征的提取，输入到深度增强学习模型中，计算每个节点的Q值，根据当前Q值选择最佳节点添加到种子集合中，然后根据当前种子集合的状态从剩余节点中继续选取影响力最大的节点，即当前种子集合的状态下Q值最大的节点，最终在选取包含k个节点的种子集合结束。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种在线社交网络环境下信息传播范围最大化方法，其特征在于，包括以下步骤：

1)构建在线社交网络；

2)提取在线社交网络中节点的特征；

3)利用在线社交网络中节点的特征构建深度增强学习模型；

4)对深度增强学习模型进行训练；

2.根据权利要求1所述的在线社交网络环境下信息传播范围最大化方法，其特征在于，利用Structure2vec提取在线社交网络中节点的特征。

3.根据权利要求1所述的在线社交网络环境下信息传播范围最大化方法，其特征在于，深度强化学习模型中考虑代理人与环境之间的交互，代理人为具有行为的对象，代理人包括动作、状态及奖励。

4.根据权利要求1所述的在线社交网络环境下信息传播范围最大化方法，其特征在于，训练过程中的损失函数为标签与深度强化学习模型输出之间的偏差。

5.根据权利要求1所述的在线社交网络环境下信息传播范围最大化方法，其特征在于，训练过程中，通过反向传播使用梯度下降的方法更新深度强化学习模型的参数。

6.根据权利要求1所述的在线社交网络环境下信息传播范围最大化方法，其特征在于，深度强化学习模型中的损失函数为：

7.根据权利要求1所述的在线社交网络环境下信息传播范围最大化方法，其特征在于，将在线社交网络进行节点特征的提取，输入到训练后的深度增强学习模型中，计算每个节点的Q值，根据当前Q值选择最佳节点添加到种子集合中，然后根据当前种子集合的状态从剩余节点中继续选取影响力最大的节点，即当前种子集合的状态下Q值最大的节点，最终在选取包含k个节点的种子集合结束。