CN113569142B

CN113569142B - 一种基于全阶邻居覆盖策略的网络谣言溯源方法

Info

Publication number: CN113569142B
Application number: CN202110819543.6A
Authority: CN
Inventors: 王震; 侯东鹏; 李向华; 朱培灿; 高超
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2022-08-26
Anticipated expiration: 2041-07-20
Also published as: CN113569142A

Abstract

本发明公开了一种基于全阶邻居覆盖策略的网络谣言溯源方法，包括：根据目标区域用户间的联系构建图网络，将实际的区域转化到复杂网络中以了解区域中每个用户对应的节点属性；在复杂网络上使用全阶邻居覆盖策略确定观察点，在实际目标区域中将这些观察点对应的用户部署为观察用户；当目标区域爆发了谣言且收到谣言的观察用户达到规定规模，即可将目标区域中所有观察用户的状态、感染时间等信息映射到复杂网络中执行溯源算法；计算非观察点的源估计值；为估计值增加惩罚从而排除定位中的混淆点；输出最小估计值点对应在社交区域的用户即为传播源。本发明可以实现社交网络中传播源的早发现和早定位，从而及时阻止谣言传播造成的损失。

Description

一种基于全阶邻居覆盖策略的网络谣言溯源方法

技术领域

本发明涉及网络信息传播技术领域，尤其涉及一种基于全阶邻居覆盖策略的网络谣言溯源方法。

背景技术

传播源定位是指追溯现实中爆发的谣言、生物疾病、计算机病毒等传播性信息的源头，从而对传播进行控制。在联系日益紧密的今天，有风险的传播过程会危害社会的稳定性。谣言的传播会伤害个人，伤害群体，伤害社会，甚至是伤害国家，会让一个团体变得散乱，造成社会的恐慌等，从而对民众的生产生活、社会的稳定、国家的治理带来严重干扰。

复杂网络能够合理描述社交平台下用户之间的交互关系。实际的社交网络中两个不认识用户的疏远距离、联系程度等都不易观察，而利用复杂网络对互联网世界建模是一种非常有效的方法。互联网中的用户可以用复杂网络中的节点来表示，而有联系的用户则可以用复杂网络中的边来描述。因此转换到复杂网络中将可以直观、高效地实现对谣言散播源的定位。由于现实世界中有关传播的真实数据集数量比较少，为了能够执行溯源算法，需要预定义一个传播模型，从而获取传播数据集。基于复杂网络常见的传播模型包括SI(Susceptible-Infected)模型和SIR(Susceptible-Infected-Recovery)模型。这些模型主要表示了在网络下节点的状态随时间的转移。比如说在最初的时候网络中所有的用户都是易感(susceptible)状态，也就是没有收到谣言的状态，而一旦成为感染(infected)状态，那么这些用户就将尝试对邻居进行谣言传播，同时受谣言影响的用户也由于发觉并被迫采取手段而有一定概率变为恢复(recovery)状态，从而对谣言有质疑能力，即不再相信和传播谣言。将这些模型运用在互联网中，可以较好地描述用户受谣言的影响、传播和抵抗等过程。但这些传播模型过于简单与现实应用差距较大。以社交平台为例，每个人对于谣言的反应和转发消息的积极度都不一样，因此他们的传染率是不可能相同的。而且也需要考虑两个用户间的亲密程度和发消息频率，因此传播时间也不相同。但是现在的传播模型一般都默认传染率相同或传播时间一样，这些简单的传播模型不能很好地反应现实中的传播情况。那么定位算法在现实情况下的可解释性就有待提高。本发明使用一种符合实际情况的异构传播模型来映射复杂的互联网环境，即每个用户都有自己的传播谣言的概率，用户与用户之间也有不同的传播时间。在该模型上拥有较好预测效果的算法也会更具有现实意义，才能更好在现实场景中应用。

传播源定位的算法具体上分为三大类：基于全局信息的方法、基于局部信息的方法和基于传感器观察(即观察点)的方法。基于全局信息的方法需要获取网络中所有点的感染信息，然后利用这些全局信息对传播源进行推导；而基于局部信息的方法则是用网络中局部点的感染信息去推导传播源；基于传感器观察的方法则是提前在网络中布置一定数量的观察点，这些观察点通过捕获传染信息达到监控网络的目的。最后通过这些观察点的信息去推导网络中的传播源。Paluch等人在2020年通过对比三类观测方法(基于全局信息的方法、基于局部信息的方法和基于传感器观察的方法)已经证明了基于传感器观察方法的定位效率是最高的。Pinto等人最早在2012年提出了这类定位算法。他们的算法流程是以候选源点为根节点生成基于BFS的网络拓扑图，然后通过时延协方差矩阵将观察点的观测时延和理论时延联系在一起，使得似然函数值最大的非观察点便是求得的传播源。

但是现在的传播源定位问题依旧面临很多挑战。

以往的定位算法想要得到较为准确的定位效果，需要获取较多的传播信息。实际应用场景下，想要收集足够的传播信息是耗时耗力的，因此难以实现。

现在的定位算法在大多数情况下都是默认传染沿着最短路径传播。这是一个很强的假设。因为在现实情况下无论是网络病毒还是流感病毒，它们的传染率都比较低，在较低的传染率下传播路径都是链式传播的，很难沿着最短路径往下传播。因此默认传染沿着最短路径进行就是默认传播率比较高的假设与实际场景有很大偏差，是不合理的。

现在传播源定位算法在真实网络下的准确率依旧在50％以下。虽然在一些人工合成网络中，现有的传播源定位算法准确率比较高，但是由于真实网络的规模比较大，部分定位算法还是较难达到一个理想的准确率。

解决以上问题及缺陷的难度在于：

获取较多的传播信息不仅仅需要人工成本，时间成本的开销也会大幅增加。而定位的目的就是尽早找到传播源，越早找到传播源就能降低更多的损失。因此增加时间成本是不可取的，只能对算法结构进行大幅优化从而使用较少的传播信息获得较好的定位效率；

放弃“沿着最短路径传播”的假设将会导致模型的传播率变低，高传染率下被感染节点会最大限度感染其所有邻居，但在低传染率下，被感染点会随机感染其邻居，那么传播也将变得更加随机，定位的难度也会更大；

现实中的网络规模对应的节点更多，关系也更为复杂，定位算法更容易出现定位误差。

发明内容

本发明的目的在于解决上述现有技术存在的缺陷，提供一种基于全阶邻居覆盖策略的网络谣言溯源方法。该方法通过优化算法结构，令定位算法使用较少的传播信息即可获得50％以上的定位准确率，同时可以节省时间，减少负面消息等造成的损失。

一种基于全阶邻居覆盖策略的网络谣言溯源方法，所述网络谣言溯源方法包括以下步骤：

S1，输入目标区域的用户关系库：输入需要进行谣言监测和定位的目标区域的用户关系；

S2，构建图网络G＝(V,E)并初始化：在输入了用户关系后，将实际关系映射到所述图网络G中，其中V为点集合，用于对应目标区域的用户，E为边集合，连边表示两个用户在社交网络中认识，将G中所有节点初始化为未收到谣言的状态；

S3，根据所述图网络G为区域部署观察用户：使用全阶邻居覆盖策略在网络中选择

比例的观察点，该策略保证网络中任意节点的每一阶邻居中都存在观察点，然后在实际目标区域中将这些与观察点一一对应的用户标记为观察用户，他们的职责是当谣言发生时需要记录自身收到谣言的时间；

S4，区域中收到谣言的观察用户达到规模：当区域中已经发生了新的谣言，且收到谣言的观察用户为4个时即可执行溯源过程；

S5，将观察用户信息映射到G：将社交区域中观察用户收到谣言的状态以及收到谣言的时间映射到网络G中，使用含有拓扑关系结构的复杂网络对谣言散播源进行定位；

S6，根据G计算非观察用户的源估计值：利用网络G的拓扑结构以及观察用户收集到的信息，在网络上使用结合了“最小感染中心”和“时间-距离比”的公式对非观察点对应的非观察用户进行谣言散播源的估计值计算；

S7，差异化处理估计值：在相应的非观察用户计算完源估计值以后，该用户每存在一个未收到谣言消息的一阶观察用户，那么估计值就乘以一次惩罚系数α来降低该用户成为源的可能，且α为1到1.1之间的实数；

S8，输出最小估计值点对应的用户：遍历该社交区域内的所有非观察用户，选出估计值最小的用户作为预测的谣言散播源。

进一步地，如上所述的网络谣言溯源方法，所述S3包括以下步骤：

S31:在网络G中使用全阶邻居覆盖策略初步选取观察点，保证对于网络中的每个节点来说，从该点的一阶邻居到该点的离心率阶邻居，每一阶邻居中都至少存在一个观察点，从而保证观察点可以广泛覆盖于网络中；

S32:判断该策略筛选的观察点占网络比是否达到观察点部署比例

如果没有达到部署比例，可以进一步使用其他策略；选取网络中的非观察点直到观察点的部署比例达到

S33:在实际目标区域中将这些与观察点相对应的用户标记为观察用户。

进一步地，如上所述的网络谣言溯源方法，所述S6中，所述计算非观察用户的源估计值，包括：

其中，Score_v为候选源用户v成为传染源的估计值，

为收到谣言信息的观察用户集合，

为集合

的元素数量，在发明实施例中

为4，d_i,v为观察用户i和候选源用户v在图G的最短距离，t_i为观察用户i的相对感染时间；

进一步地，如上所述的网络谣言溯源方法，所述S7中，所述为估计值增加惩罚，包括：

其中，Score_v是候选源用户v经过步骤六计算得到的估计值,α是一个介于1到1.1的惩罚系数，用于给不太可能成为谣言传播源的用户增加惩罚，在发明实施例为1.05，neighbor(v)是用户v的一阶邻居，O是目标区域中部署比例为

(在发明实施例中分别使用20％、30％和40％)的观察用户集合，

是目标区域中收到谣言信息的观察用户集合，在发明实施例中为4；

进一步地，如上所述的网络谣言溯源方法，所述比例

为20％、30％或40％。

进一步地，如上所述的网络谣言溯源方法，所述惩罚系数α为1.05。

进一步地，如上所述的网络谣言溯源方法，步骤S32中所述其他策略包括：随机选择观察点，选择网络中度最大的点作为观察点。

有益效果：

1、提高了定位效率(更早更准确地找出传播源)：本发明提出了“早发现早定位”的思想，该思想保证尽早找到传播源，因此基于这样的思想提出在较小的区域预测源点不仅能提高定位准确率，同时较早侦测出传染源可以将谣言造成的危害和损失降到最低；由于我们的算法总是可以将传染源锁定在一个很小的区域，因此该算法不仅在小网络上有较高的定位准确度，而且在大网络中的定位准确度也较高。

2、减少定位需要的必要信息：基于全阶邻居覆盖策略的网络谣言溯源方法仅需要少量的观察点即可将谣言散播源锁定在一个很小的区域。因此我们只需要区域内的局部观察点信息而非全局观察点信息即可执行谣言定位算法，从而减少了定位所需信息。

3、算法的时间复杂度较低：溯源算法在观察点部署阶段已经完成了必要的准确工作，结合算法的思想和原理，使用的源估计值公式只需要O(1)的时间复杂度即可对实现对单个点的计算，全局所有点的计算也仅需要O(|V|)的复杂度。其中V是网络G的节点集合。

附图说明

图1为本发明实施例提供的一种基于全阶邻居覆盖策略的网络谣言溯源方法的流程图；

图2为本发明实施例提供的一种基于全阶邻居覆盖策略的网络谣言溯源方法的完整图解；图3为本发明实施例提供的适用于传播源定位的异构网络的图解；

图4为本发明实施例提供的适用于传播源定位的异构传播模型的图解；

图5为本发明实施例提供的用于筛选观察点的全邻居覆盖策略的图解；

图6为本发明实施例提供的在Jazz、Facebook和Twitch-ES三个真实网络上单源定位的平均准确率示意图；

图7为本发明实施例提供的在Jazz、Facebook和Twitch-ES三个真实网络上单源定位的平均错误距离示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施方式的流程图；如图1所示，本发明提供了一种基于全阶邻居覆盖策略的网络谣言溯源方法，包括：

S2，构建图网络G＝(V,E)并初始化：在输入了用户关系后，将实际关系映射到复杂网络G中，其中V为点集合，用于对应目标区域的用户，E为边集合，连边表示两个用户在社交网络中认识，将G中所有节点初始化为未收到谣言的状态；

S3，根据G为区域部署观察用户：使用全阶邻居覆盖策略在网络中选择

比例(在发明实施例中分别使用20％、30％和40％)的观察点，该策略保证网络中任意节点的每一阶邻居中都存在观察点，然后在实际目标区域中将这些与观察点一一对应的用户标记为观察用户，他们的职责是当谣言发生时需要记录自身收到谣言的时间；

S7，差异化处理估计值：在相应的非观察用户计算完源估计值以后，该用户每存在一个未收到谣言消息的一阶观察用户，那么估计值就乘以一次惩罚系数α，且α为1到1.1之间的实数，在发明实施例中的惩罚系数α为1.05；

S8，输出最小估计值点对应的用户：遍历该社交区域内的所有非观察用户，选出估计值最小的用户作为预测的谣言散播源；

进一步，步骤三中，所述根据G为区域部署观察用户，包括：

在网络G中使用全阶邻居覆盖策略初步选取观察点，首先保证对于网络中的每个节点来说，从该点的一阶邻居到该点的离心率阶邻居，每一阶邻居中都至少存在一个观察点，从而保证观察点可以广泛覆盖于网络中。然后判断该策略筛选的观察点占网络比是否达到观察点部署比例

(在发明实施例中依次使用20％、30％和40％)。如果没有达到部署比例，可以进一步使用其他策略(随机选择观察点，选择网络中度最大的节点作为观察点等，(在发明实施例中使用度最大策略)选取网络中的非观察点直到观察点的部署比例达到

然后在实际目标区域中将这些与观察点相对应的用户标记为观察用户；

进一步，步骤六中，所述计算非观察用户的源估计值，包括：

其中，Score_v为候选源用户v成为传染源的估计值，

为收到谣言信息的观察用户集合，

为集合

的元素数量，在发明实施例中

进一步，步骤七中，所述差异化处理估计值，包括：

表1展示了测试数据集的规模；

表1测试数据集的规模

图2所示的是本发明的完整图解。具体来说，本发明的执行过程可以分为四个模块：(a)确定网络结构、观测点部署比例和观测点工作数量，(b)全邻居覆盖策略(详解见图3)筛选出所有观察点。值的一提的是，在现实中，当我们确定了需要部署的观察点，在实际社交平台区域中将这些与观察点对应的用户标记为观察用户，等待谣言出现并捕获到一定量的信息即可进行溯源工作了。但是为了证明我们算法的可行性，我们在里需要自行定义一个上文中说到的符合实际情况的传播模型，以保证算法流程的完整性。图4和图5为本发明专利定义的具有实际意义的异构网络传播模型。(c)按照图4图5对应的传播模型，假如谣言已经出现且进行了传播，对应的观察用户收集到了时间信息，将观察用户信息映射到复杂网络中。然后执行结合了最小感染中心和时间-距离比的公式对非观察点的节点进行源估计值计算。节点

和

的估计值计算均为

(d)通过加入惩罚系数确定最小的估计值为预测源点。节点

和

加上惩罚系数后的估计值计算分别为

因此最终的传染源为估计值最小的

则

对应在社交平台中的用户即为本发明实施例预测的谣言散播源；

图3展示了本发明具体实施方式中用于筛选观察点的全邻居覆盖策略的图解。Mat是一个矩阵，用于记录每个节点的第n阶邻居的数量。由于图例中的网络G的半径为2，因此Mat只有两行。第一行代表每个节点的1阶邻居的数量，第二行代表每个节点2阶邻居的数量。矩阵H就是网络G中每个点的最短距离矩阵。假设我们希望在网络中部署四个观察点。图a到图d是筛选覆盖全网络观察点的过程。对于方框中的计算公式，第n行等号右边的值代表节点n在该步骤计算出的选择值，每一步总是选择值最大的点作为该步骤的观察点。其中等式左边每一个元素的右下标代表节点i到节点j的最短距离h_ij，可以在矩阵H中查找。而主体数代表对于节点j来说有几个h_ij，可以在Mat中查找。对于图例中的a，第一行等式左边的第二个元素的右下角代表节点1和节点2的最短距离，通过查找a图中的H可以得到是1.然后以节点2为中心，寻找距离为1的邻居的个数，通过查Mat表可以发现是5，因此第一行第二个元素参与计算的数是5，其他点也是这么计算。最后可以发现点1、点3和点5的选择值是相同的。因此我们随机选择点1为第一个观察点。然后将H中每一行对应的相同数记为空(即H中的-元素，在计算时作0)。通过a到d可以筛选出3个观察点，即为图中的实心节点。此时H矩阵已经没有非0值了。但是还没有筛选够4个观察点，因此这里采用最大度策略，节点2的度为剩下的点中最大的，因此将e加入到观察点的集合，即图e中的蓝色节点。

图4展示了本发明使用的异构传播模型的异构网络部分。图例中椭圆形框内的表示传染率比较高的对象，矩形框内的表示传染率中等的对象，三角形框内的表示传染能力较弱的对象。标注为“3”的线表明这两个线对应的两个对象联系不频繁或实际距离比较远，平均三个时间步进行一次数据交互。而标注为“1”的线表明两个对象联系较频繁，平均一个时间步进行一次数据交互。

图5展示了本发明具体实施方式中用于构建传播数据集的基于异构网络的异构传播模型。图例中，假设所有节点的感染率均为50％。s^*代表源节点，o₁和o₂代表预先部署在网络中的传感器。感染沿着两实心节点之间的箭头从尾部节点传播到箭头节点。箭头线条细的表示在此时间戳下感染未成功。对于o₁，该节点在t＝3时被感染，并尝试在t＝4时刻感染其邻居v₁，但未成功。对于o₂来说，在t＝1的时刻，它的被感染的邻居v₂就开始发送病毒，且病毒在t＝4的时刻达到o₂，但是未成功，同理t＝3时刻被感染的v₃向o₂发送病毒，且在t＝4的时刻到达o₂，但是没有感染成功。

构建了传播数据集以后，即可根据有效的信息推导区域对应的谣言散播源。为了证明本发明的准确性和可行性，在找到谣言散播源以后，需要进一步对预测结果进行证实。图6为本发明实施例提供的在Jazz、Facebook和Twitch-ES三个真实网络上单源定位的平均准确率的预测效果。单次预测中，如果真实传播源和预测传播源一致，那么单次实验的准确率为1，否则为0。我们通过对1000次独立的实验取平均值进而获得平均准确率。其中横坐标代表观察点部署比例，为本发明实施例中分别选择了20％、30％和40％的观察点部署比例。纵坐标中的“Detection Rate”代表预测的平均准确率。准确率越高，则说明算法预测真实源的能力越强。从图6中可以看出本发明所提出的基于全阶邻居覆盖策略的溯源算法(FNSI)在所有网络上均优于其他方法，且定位的平均准确率比其他对比算法中定位最好的算法高30％左右。

图7为本发明实施例提供的在Jazz、Facebook和Twitch-ES三个真实网络上单源定位的平均错误距离的预测效果。如果真实传播源和预测传播源一致，那么单次实验的错误距离为0，否则为真实传播源和预测传播源在网络中的最小距离，为正整数。我们通过对1000次独立的实验取平均值进而获得平均错误距离。其中横坐标代表观察点部署比例，我们分别选择了20％、30％和40％的观察点部署比例。纵坐标中的“Average ErrorDistance”代表预测的平均错误距离。错误距离越小，则说明算法预测真实源的能力越强。从图7中可以看出本发明所提出的方法(FNSI)在所有网络上均优于其他方法，且平均错误距离比其他对比算法中定位最好的算法降低30％左右。

综上所述，本发明涉及的网络表示学习算法是一种基于全阶邻居覆盖策略的网络谣言溯源方法，能够通过全阶邻居覆盖的观测点部署策略，并有效利用网络拓扑信息和观察点收集策略，将传染源锁定在一个很小的区域。在小范围中定位传染源不仅能提高预测准确率，同时早期的定位还能保证将损失降到最低。该算法是基于部署观察点的策略实现溯源问题，因此需要的先验信息少，这在现实中不需要高代价和高开销的传染信息的收集即可执行本发明的溯源算法。同时，本发明使用的异构传播模型具有实际网络的特点和实际病毒传播的特征，这使得本发明的溯源算法是有现实指导意义的。最后，将本发明的传播模型和溯源方法应用到实际网络的传播源定位中，成功预测传播源的能力较强，这为互联网的谣言溯源方案提供了科学依据。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。