CN113114657B

CN113114657B - 一种网络病毒溯源方法、系统、设备、处理终端

Info

Publication number: CN113114657B
Application number: CN202110373987.1A
Authority: CN
Inventors: 朱培灿; 成乐; 侯东鹏; 高超; 王震; 李向华
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-06-03
Anticipated expiration: 2041-04-07
Also published as: CN113114657A

Abstract

本发明属于智能方法和传播动力学技术领域，公开了一种网络病毒溯源方法、系统、设备、介质、处理终端，所述网络病毒溯源方法包括：初始化参数；在网络中随机布置观察点；在网络中随机选择传播源；按照SI模型进行传播过程；判断网络中感染用户的个数是否到达设定数目；根据用户状态给每个用户赋予标签值；根据设定规则进行标签值迭代过程；判断每个用户标签值是否收敛；根据用户标签值选出传播源；测试分析。本发明在基于传播源中心性原理方法的基础上加入观察点用于记录真实的传播路径，并且定义具体的标签值迭代过程，能够提高低感染率情况下传播源定位的准确性，提高传播源定位方法在现实中的适用性，在低感染率情况下准确性更高。

Description

一种网络病毒溯源方法、系统、设备、处理终端

技术领域

本发明属于智能方法和传播动力学技术领域，尤其涉及一种网络病毒溯源方法、系统、设备、介质、处理终端。

背景技术

目前，传播源定位是指对于现实中爆发的疾病、谣言、计算机病毒等传播性信息追溯其爆发的源头从而进行控制的过程。由传播源触发的传播现象在现实世界中是普遍存在的。比如，影响数百万公民的谣言、造成巨大经济损失的计算机病毒和影响人类健康的流行病等。因此，及时有效地定位传播源对于减少人们的损失有比较重要的意义。

若将互联网抽象成一个网络G＝(V，E)，其中V是网络中所有节点的集合，每个节点代表互联网中的一个用户；E是网络中所有边的集合，每条边代表两个用户之间可以相互联系。那么常见的病毒传播过程可以概括为SI(Susceptible-Infected)模型和SIR(Susceptible-Infected-Recovery)模型等。以SI模型为例，初始网络中每个用户都处于易被攻击，即易感染(Susceptible)的状态，从某时刻开始，网络中一个或多个用户由于被病毒感染而成为已感染(Infected)状态，这些最早成为感染状态的用户被认为是传播源，这些传播源以一定的概率p去感染和他在网络上有联系且处于易感染状态的邻居，之后的每个时刻，每个受到感染的用户都以相同的方式感染其处于易感染状态的邻居。SIR模型和SI模型的不同点在于：SIR模型中已感染个体会以一定的概率恢复成R(Recovery)状态，并且处于R状态的个体不会再次受到感染。

在网络中布置“蜜罐”(即一些作为诱饵的主机，诱使攻击方对它们实施攻击，从而可以对攻击行为进行捕获和分析)，利用这些“蜜罐”记录的首次感染时间或感染路径(感染传来的方向)来定位传播源是目前比较常用的方法，在下文中把布置在网络中的“蜜罐”统称为“观察点”。Pinto等人于2012年提出了在网络中布置观察点，利用观察点记录的首次感染时间定位传播源。具体做法：在一场真实病毒传播中，提前布置的观察点会在首次被感染时记录感染时间，所有观察点记录的时间序列组成一个观测时间向量d；之后对于网络中的每个用户，假设其是传播源模拟传播过程，病毒从他出发到每个观察点的时间组成另一个理论时间向量μ；利用多元正态分布概率密度计算这两个向量的相似性，使这个相似性最高的用户就被认为是传播源。

利用传播源中心性(Source Centrality)原理定位传播源是另一个比较常用的方法。在SI模型中，传播源从传播过程开始直至结束有最长的时间去感染他周围的邻居，所以理论上传播源的邻居中应该有更多的用户被感染，这样传播源就应该处于感染区域最中心的位置。Wang等人基于传播源中心性原理，提出通过标签值迭代的方法使处于感染区域最中心的用户的标签值大于其周围邻居的标签值从而实现传播源定位(Thirty-FirstAAAIConference on Artificial Intelligence)。具体做法：在网络中一定规模的用户受到感染时停止传播，根据用户的状态(是否受到感染)对每个用户赋予标签值(若用户处于已感染状态，则赋予+1，若处于易感染状态，则赋予-1)；之后进行标签值迭代过程，在每一步迭代中遍历网络中所有用户，使每个用户保留原来一部分标签值的同时从每个邻居处得到一部分标签值。重复这个迭代过程直至所有用户的标签值收敛。找出局部标签值最大(标签值大于其所有邻居的标签值)的用户作为传播源。

现实生活中网络病毒感染用户的成功率是很低的。在用观察点记录感染时间定位传播源的方法中，感染率较高时，从同一个传播源先后两次发出病毒信息，这两个信息传播到观察点的时间可能变化不大；但是在感染率较低时，即使观察点和传播源之间只有一条最短路径，由同一个传播源两次发出的信息到达观察点的时间也会发生较大的变化，这导致低感染率情况下用观察点记录感染时间定位传播源的方法效率比较低。

基于传播源中心性原理定位传播源的方法也存在同样的问题，感染率较高时，感染路径主要呈“扇形”，这时传播源处于感染区域的最中心；但感染率较低时，感染路径主要呈“链形”，这时传播源的位置将随机发生偏移从而难以确定，在这种情况下基于传播源中心性原理定位传播源的方法将会产生较大的误差。

综上，低感染率情况下上述两种方法的适用性不是很高。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现实生活中网络病毒感染用户的成功率是很低的。在用观察点记录感染时间定位传播源的方法中，感染率较高时，从同一个传播源先后两次发出病毒信息，这两个信息传播到观察点的时间可能变化不大；但是在感染率较低时，即使观察点和传播源之间只有一条最短路径，由同一个传播源两次发出的信息到达观察点的时间也会发生较大的变化，这导致低感染率情况下用观察点记录感染时间定位传播源的方法效率比较低。

(2)基于传播源中心性原理定位传播源的方法也存在同样的问题，感染率较高时，感染路径主要呈“扇形”，这时传播源处于感染区域的最中心；但感染率较低时，感染路径主要呈“链形”，这时传播源的位置将随机发生偏移从而难以确定，在这种情况下基于传播源中心性原理定位传播源的方法将会产生较大的误差。

(3)在低感染率情况下现有方法的适用性不是很高。

解决以上问题及缺陷的难度为：现实中网络病毒感染用户的成功率是很低的，这种情况下病毒信息在网络上的传播路径随机性比较高，每次仿真与测试都会得到不同的传播路径及感染区域，这给病毒溯源带来了较大的困难。

解决以上问题及缺陷的意义为：现已提出的病毒溯源方法，无论是基于观察点还是基于传播源中心性原理，取得较高准确率的前提是假设网络中的感染率很高，但是现实中感染率往往是很低的，这导致已提出方法在现实中的适用性不高，有较大的误差。解决低感染率情况下的病毒溯源问题有利于提高溯源方法在现实中的适用性及准确率。

发明内容

针对现有技术存在的问题，本发明提供了一种网络病毒溯源方法、系统、设备、介质、处理终端，尤其涉及一种基于观察点及标签值迭代的网络病毒溯源的方法、系统、设备、介质、处理终端。

本发明是这样实现的，一种网络病毒溯源方法，所述网络病毒溯源方法包括以下步骤：

步骤一，初始化各主要参数：将网络中所有用户置于易感染S状态，所述网络包括Ego-Facebook；初始化是为了模拟现实中病毒传播前所有用户均处于未感染状态。

步骤二，在网络中随机布置观察点：在网络中随机选取不超过总用户数θ％的用户作为观察点，并保持观察点的数量和位置直至试验结束不再发生变化；布置观察点是为了记录真实的感染路径。

步骤三，在网络中随机选择传播源：观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；

步骤四，按照SI模型进行传播过程：确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居；

步骤五，判断网络中感染用户的个数是否到达设定数目；当网络中η％的用户受到感染时停止传播，否则继续执行步骤四；当一定规模的用户受到感染时停止传播是为了及时地定位传播源将损失控制到最小。

步骤六，根据用户的状态给每个用户赋予标签值：当网络中η％的用户受到感染后停止传播并获得此时的网络快照；

步骤七，根据设定规则进行标签值迭代过程：给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户；

步骤八，判断每个用户的标签值是否收敛；当网络中所有用户的标签值都收敛时停止迭代过程，否则继续执行步骤七；

步骤九，根据用户的标签值选出传播源：遍历网络中所有用户，重复所述迭代过程直至所有用户的标签值收敛；当所有用户的标签值都收敛时选出传播源；这样的测试结果比较稳定。

步骤十，测试分析：选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性。

进一步，步骤三中，所述在网络中随机选择传播源，包括：

观察点部署完成后，在单源定位，即传播源只有一个测试中随机选取一个不属于观察点集合的用户作为传播源；在多源定位中随机选取多个，在Ego-Facebook网络上分别选取3、5、10个，将这些用户置于感染I状态。

进一步，步骤四中，所述按照SI模型进行传播过程，包括：

确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居，已感染用户保持感染状态不变，在感染过程中观察点记录首次成功感染它的用户。

进一步，步骤六中，所述根据用户的状态给每个用户赋予标签值，包括：

当网络中η％的用户受到感染后停止传播并获得此时的网络快照，快照中包含的信息有：网络中所有用户的状态，即是否感染；根据每个用户的状态对其赋予标签值，已感染的用户赋予+1，易感染的用户赋予-1。

进一步，步骤七中，所述根据设定规则进行标签值迭代过程，包括：

给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户，迭代规则如下：

(1)对于用户i和他的邻居j；如果j是一个观察点，并且他是被i感染的，那么用户i将从用户j那里得到式(1)中情况1对应的标签值。

(2)如果上述(1)的情况不成立，即j不是观察点，或者j是观察点但没有被感染；在这个基础上，如果i不是观察点，或者i是观察点但不是被j感染的，那么用户i将从用户j那里得到式(1)中情况2对应的标签值；

(3)如果上述(1)和(2)的情况都不成立，那么用户i从用户j那里得到的标签值为0，即式(1)中的情况3；

综上，用户i从他的邻居j处得到的标签值可以用下式概括：

式(1)中α∈(0，1)，β∈(α，1)，T_j表示用户i从他的邻居用户j处得到的标签值，S_ij表示矩阵S中第i行第j列对应的元素，矩阵S的构造方式见式(2)，

表示用户j在时刻t的标签值。

S＝D^-1/2WD^-1/2 (2)

式(2)中W为网络的邻接矩阵，若用户i和用户j之间可以相互联系，则W中第i行第j列的元素为1，否则为0；D是一个对角矩阵，并且它第i行第i列的元素等于W第i行不为零的元素个数之和。

式(1)阐述了用户i在时刻t从他的邻居处得到的标签值，与此同时用户i会保留一部分自己的初始标签值，那么用户i在t+1时刻的标签值可以用式(3)表示：

式(3)中

表示用户i在时刻t+1的标签值，N(i)表示用户i在网络中所有的邻居，这里j：j∈N(i)的意思是遍历网络上用户i的所有邻居，∑_j：j∈N(i)T_j表示将用户i从其所有邻居用户j处得到的标签值T_j相加，参数α的取值范围为(0，1)，Y_i表示赋予用户i的初始标签值，即+1或-1。

进一步，步骤九中，所述根据用户的标签值选出传播源，包括：

重复上述迭代过程直至所有用户的标签值收敛。遍历网络中所有用户，对于每一个用户i，若i满足以下条件，则认为i是定位得到的传播源：

(1)Y_i＝+1，即用户i的初始标签值为正1，这表示停止传播时i处于感染状态；

(2)在单源定位中，G_i是所有用户中最大的；即i的标签值是所有用户中最大的；

(3)在多源定位中，用户i的标签值G_i大于他所有邻居的标签值。

进一步，步骤十中，所述测试分析，包括：

测试采用与现有方法对比的方式来验证本模型的有效性，测试方法选取传播源定位方法。首先定义SC是真实的传播源集合，

是定位得到的传播源集合。在此介绍两个常用的传播源定位方法的评估指标，即错误距离和F-Score；用错误距离评估单源定位，指定位得到的传播源和实际传播源在网络G上的最短路径的长度。用F-Score指数评估多源定位，计算公式见式(4)：

其中，Precision表示

集合中真实传播源的比例，Recall表示SC集合中被正确定位到的用户的比例，γ在这里取0.5。

本发明的另一目的在于提供一种应用所述的网络病毒溯源方法的网络病毒溯源系统，所述网络病毒溯源系统包括：

参数初始化模块，用于初始化各主要参数，将网络中所有用户置于易感染S状态，所述网络包括Ego-Facebook；

观察点布置模块，用于在网络中随机布置观察点，在网络中随机选取不超过总用户数θ％的用户作为观察点，并保持观察点的数量和位置直至试验结束不再发生变化；

传播源选择模块，用于在观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；

传播模块，用于按照SI模型进行传播过程，确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居；

感染数目判断模块，用于判断网络中感染用户的个数是否到达设定数目；当网络中η％的用户受到感染时停止传播，否则继续执行传播过程；

标签值赋予模块，用于根据用户的状态给每个用户赋予标签值：当网络中η％的用户受到感染后停止传播并获得此时的网络快照；

标签值迭代模块，用于根据设定规则进行标签值迭代过程：给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户；

标签值收敛判断模块，用于判断每个用户的标签值是否收敛；当网络中所有用户的标签值都收敛时停止迭代过程，否则继续执行标签值迭代过程；

传播源选择模块，用于根据用户的标签值选出传播源：遍历网络中所有用户，重复所述迭代过程直至所有用户的标签值收敛；

测试分析模块，用于选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

初始化各主要参数，将网络中所有用户置于易感染S状态，所述网络包括Ego-Facebook；

在网络中随机布置观察点，在网络中随机选取不超过总用户数θ％的用户作为观察点，并保持观察点的数量和位置直至试验结束不再发生变化；

在网络中随机选择传播源，观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；

按照SI模型进行传播过程，确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居；

判断网络中感染用户的个数是否到达设定数目；当网络中η％的用户受到感染时停止传播，否则继续执行传播过程；

根据用户的状态给每个用户赋予标签值，当网络中η％的用户受到感染后停止传播并获得此时的网络快照；

根据设定规则进行标签值迭代过程，给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户；

判断每个用户的标签值是否收敛，当网络中所有用户的标签值都收敛时停止迭代过程，否则继续执行标签值迭代过程；

根据用户的标签值选出传播源，遍历网络中所有用户，重复所述迭代过程直至所有用户的标签值收敛；

测试分析，选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的网络病毒溯源系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的网络病毒溯源方法，提高低感染率情况下传播源定位的准确性，提高传播源定位方法在现实中的适用性。得益于用观察点记录真实的传播路径，并且用记录的真实传播路径影响标签值迭代过程，使得低感染率情况下传播路径随机性高的问题得到改善。和现有方法相比，本发明在低感染率情况下准确性更高。

不同于直接用传播源中心性原理定位传播源的方法，本发明考虑了低感染率情况下传播路径随机性高从而传播源位置难以确定的问题，在基于传播源中心性原理方法的基础上加入了观察点用于记录真实的传播路径，并且定义了具体的标签值迭代过程。

经测试结果分析表明，在单源定位中，本发明在基于观察点记录感染时间方法(GAU)的基础上错误距离降低了40％，在基于传播源中心性原理方法(LPSI)的基础上错误距离降低了28％；在多源定位中，本发明得到的F-Score甚至是基于观察点方法(SCCE)的20倍，在基于传播源中心性原理方法(LPSI和EPA)的基础上F-Score提高了30％左右。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的网络病毒溯源方法流程图。

图2是本发明实施例提供的网络病毒溯源方法原理图。

图3是本发明实施例提供的网络病毒溯源系统结构框图；

图中：1、参数初始化模块；2、观察点布置模块；3、传播源选择模块；4、传播模块；5、感染数目判断模块；6、标签值赋予模块；7、标签值迭代模块；8、标签值收敛判断模块；9、传播源选择模块；10、测试分析模块。

图4是本发明实施例提供的感染率较高时网络中传播源与感染区域的具体情况示意图。

图5是本发明实施例提供的感染率较低时网络中传播源与感染区域的具体情况示意图。

图6是本发明实施例提供的定义的标签值具体迭代方式示意图。

图7是本发明实施例提供的一种例子的示意图。

图8是本发明实施例提供的在Ego-Facebook网络上单源定位的结果示意图。

图9是本发明实施例提供的在Ego-Facebook网络上多源(感染源分别为3、5、10个)定位的结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种网络病毒溯源方法、系统、设备、介质、处理终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的网络病毒溯源方法包括以下步骤：

S101，初始化各主要参数：将网络中所有用户置于易感染S状态，所述网络包括Ego-Facebook；

S102，在网络中随机布置观察点：在网络中随机选取不超过总用户数θ％的用户作为观察点，并保持观察点的数量和位置直至试验结束不再发生变化；

S103，在网络中随机选择传播源：观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；

S104，按照SI模型进行传播过程：确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居；

S105，判断网络中感染用户的个数是否到达设定数目；当网络中η％的用户受到感染时停止传播，否则继续执行S104；

S106，根据用户的状态给每个用户赋予标签值：当网络中η％的用户受到感染后停止传播并获得此时的网络快照；

S107，根据设定规则进行标签值迭代过程：给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户；

S108，判断每个用户的标签值是否收敛；当网络中所有用户的标签值都收敛时停止迭代过程，否则继续执行S107；

S109，根据用户的标签值选出传播源：遍历网络中所有用户，重复所述迭代过程直至所有用户的标签值收敛；

S110，测试分析：选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性。

本发明提供的网络病毒溯源方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的网络病毒溯源方法仅仅是一个具体实施例而已。

本发明实施例提供的网络病毒溯源方法原理图如图2所示。

如图3所示，本发明实施例提供的网络病毒溯源系统包括：

参数初始化模块1，用于初始化各主要参数，将网络中所有用户置于易感染S状态，所述网络包括Ego-Facebook；

观察点布置模块2，用于在网络中随机布置观察点，在网络中随机选取不超过总用户数θ％的用户作为观察点，并保持观察点的数量和位置直至试验结束不再发生变化；

传播源选择模块3，用于在观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；

传播模块4，用于按照SI模型进行传播过程，确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居；

感染数目判断模块5，用于判断网络中感染用户的个数是否到达设定数目；当网络中η％的用户受到感染时停止传播，否则继续执行传播过程；

标签值赋予模块6，用于根据用户的状态给每个用户赋予标签值：当网络中η％的用户受到感染后停止传播并获得此时的网络快照；

标签值迭代模块7，用于根据设定规则进行标签值迭代过程：给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户；

标签值收敛判断模块8，用于判断每个用户的标签值是否收敛；当网络中所有用户的标签值都收敛时停止迭代过程，否则继续执行标签值迭代过程；

传播源选择模块9，用于根据用户的标签值选出传播源：遍历网络中所有用户，重复所述迭代过程直至所有用户的标签值收敛；

测试分析模块10，用于选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性。

下面结合实施例对本发明的技术方案作进一步描述。

1、本发明模型的具体实现过程如下：

S1.初始化各主要参数：

测试选用了Ego-Facebook。首先将网络中所有用户置于易感染(S)状态。

S2.在网络中随机布置观察点：

在该网络中随机选取不超过总用户数θ％的用户作为观察点并且这些观察点的数量和位置直至试验结束不再发生变化。

S3.在网络中随机选择传播源：

观察点部署完成后，在单源定位(即传播源只有一个)测试中随机选取一个不属于观察点集合的用户作为传播源；在多源定位中随机选取多个(在Ego-Facebook网络上分别选取3、5、10个)，将这个(些)用户置于感染(I)状态。

S4.按照SI模型进行传播过程：

确定传播源之后的每个时刻所有受感染用户以概率p感染其周围的邻居，已感染用户保持感染状态不变。在感染过程中观察点记录首次成功感染它的用户。

S5.网络中感染用户的个数是否到达设定数目？

当网络中η％的用户受到感染时停止传播，否则继续执行S4步骤。

S6.根据用户的状态给每个用户赋予标签值：

当网络中η％的用户受到感染后停止传播并获得此时的网络快照，快照中包含的信息有：网络中所有用户的状态，即是否感染。根据每个用户的状态对其赋予标签值，已感染的用户赋予+1，易感染的用户赋予-1。

S7.根据设定规则进行标签值迭代过程：

1)对于用户i和他的邻居j；如果j是一个观察点，并且他是被i感染的，那么用户i将从用户j那里得到式(1)中情况1对应的标签值。

2)如果上述1)的情况不成立，即j不是观察点，或者j是观察点但没有被感染；在这个基础上，如果i不是观察点，或者i是观察点但不是被j感染的，那么用户i将从用户j那里得到式(1)中情况2对应的标签值。

3)如果上述1)和2)的情况都不成立，那么用户i从用户j那里得到的标签值为0，即式(1)中的情况3。

综上，用户i从他的邻居j处得到的标签值可以用下式概括：

表示用户j在时刻t的标签值。

S＝D^-1/2WD^-1/2 (2)

式(3)中

表示用户i在时刻t+1的标签值，N(i)表示用户i在网络中所有的邻居，这里j：j∈N(i)的意思是遍历网络上用户i的所有邻居，∑_j：j∈N(i)T_j表

示将用户i从其所有邻居用户j处得到的标签值T_j相加，参数α的取值范围为(0，1)，Y_i表示赋予用户i的初始标签值，即+1或-1。

S8.每个用户的标签值是否收敛？

当网络中所有用户的标签值都收敛时停止迭代过程，否则继续执行S7步骤。

S9.根据用户的标签值选出传播源：

1)Y_i＝+1，即用户i的初始标签值为正1，这表示停止传播时i处于感染状态。

2)在单源定位中，G_i是所有用户中最大的；即i的标签值是所有用户中最大的。

3)在多源定位中，用户i的标签值G_i大于他所有邻居的标签值。

S10.测试分析

测试采用与现有方法对比的方式来验证本模型的有效性。测试方法选取为第一节中提到的两种常用的传播源定位方法。首先定义SC是真实的传播源集合，

是定位得到的传播源集合。在此介绍两个常用的传播源定位方法的评估指标，即错误距离(errordistance)和F-Score；用错误距离评估单源定位，指定位得到的传播源和实际传播源在网络G上的最短路径的长度。用F-Score指数评估多源定位，计算公式见式(4)，其中Precision表示

测试结果分析：在单源定位中，本方法在基于观察点记录感染时间方法(GAU)的基础上错误距离降低了40％，在基于传播源中心性原理方法(LPSI)的基础上错误距离降低了28％；在多源定位中，本方法得到的F-Score甚至是基于观察点方法(SCCE)的20倍，在基于传播源中心性原理方法(LPSI和EPA)的基础上F-Score提高了30％左右。

2、本发明得益于用观察点记录真实的传播路径，并且用记录的真实传播路径影响标签值迭代过程，使得低感染率情况下传播路径随机性高的问题得到改善。和现有方法相比，本方法在低感染率情况下准确性更高。

3、本发明不同于直接用传播源中心性原理定位传播源的方法，本方法考虑了低感染率情况下传播路径随机性高从而传播源位置难以确定的问题，在基于传播源中心性原理方法的基础上加入了观察点用于记录真实的传播路径，并且定义了具体的标签值迭代过程。

4、上述用观察点记录真实传播路径及标签值迭代的具体过程。

5、附图

图2是本发明的总体流程图，它列出了发明框架包含的主要步骤。

图4是感染率较高时网络中传播源与感染区域的具体情况。

图5是感染率较低时网络中传播源与感染区域的具体情况。

图6是本发明中定义的标签值具体迭代方式。

图7是本方法的一个例子。

图8是在Ego-Facebook网络上单源定位的结果。

图9是在Ego-Facebook网络上多源(感染源分别为3、5、10个)定位的结果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种网络病毒溯源方法，其特征在于，所述网络病毒溯源方法包括以下步骤：

步骤一，初始化各主要参数：将Ego-Facebook网络中所有用户置于易感染S状态，初始化用于模拟现实中病毒传播前所有用户均处于未感染状态；

步骤二，在网络中随机布置观察点：在网络中随机选取不超过总用户数θ％的用户作为观察点，并保持观察点的数量和位置直至试验结束不再发生变化；

步骤三，在网络中随机选择传播源：观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；所述在网络中随机选择传播源，包括：观察点部署完成后，在单源定位中，随机选取一个不属于观察点集合的用户作为传播源；在多源定位中随机选取多个不属于观察点集合的用户作为传播源，将这些用户置于感染I状态；

步骤五，判断网络中感染用户的个数是否到达设定数目；当网络中η％的用户受到感染时停止传播，否则继续执行步骤四；

所述根据设定规则进行标签值迭代过程，包括：给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户，迭代规则如下：

(1)对于用户i和他的邻居j；如果j是一个观察点，并且他是被i感染的，那么用户i将从用户j那里得到式(1)中情况1对应的标签值；

综上，用户i从他的邻居j处得到的标签值可以用下式概括：

式(1)中α∈(0,1)，β∈(α,1)，T_j表示用户i从他的邻居用户j处得到的标签值，S_ij表示矩阵S中第i行第j列对应的元素，矩阵S的构造方式见式(2)，

表示用户j在时刻t的标签值；

S＝D^-1/2WD^-1/2 (2)

式(2)中W为网络的邻接矩阵，若用户i和用户j之间可以相互联系，则W中第i行第j列的元素为1，否则为0；D是一个对角矩阵，并且它第i行第i列的元素等于W第i行不为零的元素个数之和；

式(3)中

表示用户i在时刻t+1的标签值，N(i)表示用户i在网络中所有的邻居，这里j：j∈N(i)的意思是遍历网络上用户i的所有邻居，∑_j：j∈N(i)T_j表示将用户i从其所有邻居用户j处得到的标签值T_j相加，参数α的取值范围为(0,1)，Y_i表示赋予用户i的初始标签值，即+1或-1；

步骤九，根据用户的标签值选出传播源；

步骤十，测试分析：选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性；

步骤九中，所述根据用户的标签值选出传播源，包括：遍历网络中所有用户，对于每一个用户i，若i满足以下条件，则认为i是定位得到的传播源：

(3)在多源定位中，用户i的标签值G_i大于他所有邻居的标签值；

步骤十中，所述测试分析，包括：测试采用与现有方法对比的方式来验证本模型的有效性，测试方法选取传播源定位方法；首先定义SC是真实的传播源集合，

是定位得到的传播源集合；采用两个传播源定位方法的评估指标，即错误距离和F-Score；用错误距离评估单源定位，指定位得到的传播源和实际传播源在网络上的最短路径的长度；用F-Score指数评估多源定位，计算公式见式(4)：

其中，Precision表示

2.如权利要求1所述的网络病毒溯源方法，其特征在于，步骤四中，所述按照SI模型进行传播过程，包括：确定传播源之后的每个时刻所有受感染用户以概率p感染周围的邻居，已感染用户保持感染状态不变，在感染过程中观察点记录首次成功感染它的用户。

3.如权利要求1所述的网络病毒溯源方法，其特征在于，步骤六中，所述根据用户的状态给每个用户赋予标签值，包括：当网络中η％的用户受到感染后停止传播并获得此时的网络快照，快照中包含的信息有：网络中所有用户的状态，即是否感染；根据每个用户的状态对其赋予标签值，已感染的用户赋予+1，易感染的用户赋予-1。

4.一种实施权利要求1～3任意一项所述的网络病毒溯源方法的网络病毒溯源系统，其特征在于，所述网络病毒溯源系统包括：

参数初始化模块，用于将Ego-Facebook网络中所有用户置于易感染S状态，初始化用于模拟现实中病毒传播前所有用户均处于未感染状态；

传播源选择模块，用于在观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；在多源定位中随机选取多个不属于观察点集合的用户作为传播源，将这些用户置于感染I状态；

综上，用户i从他的邻居j处得到的标签值可以用下式概括：

表示用户j在时刻t的标签值；

S＝D^-1/2WD^-1/2 (2)

式(3)中

传播源选择模块，用于根据用户的标签值选出传播源；所述根据用户的标签值选出传播源，遍历网络中所有用户，对于每一个用户i，若i满足以下条件，则认为i是定位得到的传播源：

测试分析模块，用于选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性；所述测试分析，包括：测试采用与现有方法对比的方式来验证本模型的有效性，测试方法选取传播源定位方法；首先定义SC是真实的传播源集合，

其中，Precision表示

5.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

初始化各主要参数，将Ego-Facebook网络中所有用户置于易感染S状态，初始化用于模拟现实中病毒传播前所有用户均处于未感染状态；

在网络中随机选择传播源，观察点部署完成后，在单源定位中随机选取一个不属于观察点集合的用户作为传播源；在多源定位中随机选取多个不属于观察点集合的用户作为传播源，将这些用户置于感染I状态；

根据设定规则进行标签值迭代过程，给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户；所述根据设定规则进行标签值迭代过程，包括：给用户赋予标签值之后进行标签值迭代过程，在每一次迭代中遍历所有用户，迭代规则如下：

综上，用户i从他的邻居j处得到的标签值可以用下式概括：

表示用户j在时刻t的标签值；

S＝D^-1/2WD^-1/2 (2)

式(3)中

根据用户的标签值选出传播源，包括：遍历网络中所有用户，对于每一个用户i，若i满足以下条件，则认为i是定位得到的传播源：

测试分析，选取传播源定位方法，采用与现有方法对比的方式来验证本模型的有效性；所述测试分析，包括：测试采用与现有方法对比的方式来验证本模型的有效性，测试方法选取传播源定位方法；首先定义SC是真实的传播源集合，

其中，Precision表示

6.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现所述如权利要求4的网络病毒溯源系统。