CN116611508A

CN116611508A - 面向无感染时间戳数据的传播网络重构方法与装置

Info

Publication number: CN116611508A
Application number: CN202310393066.0A
Authority: CN
Inventors: 黄浩; 吴伟观; 刘玉生; 王章野
Original assignee: Jiangxi Qiushi Higher Research Institute
Current assignee: Jiangxi Qiushi Higher Research Institute
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-08-18

Abstract

本发明公开了一种面向无感染时间戳数据的传播网络重构方法与装置，属于信息传播技术领域。所述方法通过获取传播网络中各结点的无感染时间戳数据；根据所述数据计算各结点间的信息分数；根据信息分数筛选候选候选父结点；在候选父结点集合内采用贪婪方法寻找结点的边，构建所述传播网络的影响关系图。所述方法能够利用无感染时间戳数据准确地推断出结点之间的影响关系，不需要传播过程中每个结点的确切感染时间，不依赖结点感染之间的时间序列来确定结点之间的潜在影响关系，提高了影响关系确定精度，提高了传播网络管控速度和效率，有利于后续传播网络管控方案的制定和实施。

Description

面向无感染时间戳数据的传播网络重构方法与装置

技术领域

本发明涉及信息传播技术领域，尤其涉及一种面向无感染时间戳数据的传播网络重构方法与装置。

背景技术

传播网络是一种研究物质、信息传播规律的数学模型。观点、谣言和疾病的传播通常被建模为传播网络上的概率过程。在网络中，有向边表示父子关系，父结点可以以一定概率影响子结点。传播网络结构重构旨在从观测数据推断传播网络结构(即影响关系的拓扑结构)。在大多数情况下，这种影响关系是不可见的，只能观察到有限数量的历史传播过程。如何从有限数量的历史传播过程数据还原准确的传播网络结构这一问题在社交网络、病毒营销和流行病预防等领域受到了相当大的关注，因为重构出的传播网络结构能够直观地揭示结点之间的潜在交互，对于制定控制未来传播过程的策略至关重要，可以帮助研究人员更好地预测、促进或组织未来的物质、信息传播。

已有的重构方法假设观测数据包含每个结点感染的确切发生时间，并且包含每个扩散过程中结点的感染状态；在不太理想和更现实环境中，结点感染的时间信息是未知的。例如，在病毒传播过程中，患者从感染病毒到表现症状存在一段潜伏期，所以获取患者是否被感染的确定状态的时间不太可能反映感染的确切发生时间；在这种环境下，只能获取没有时间信息的感染数据(即无感染时间戳数据)，传统的传播网络重构方法无法应用，因此需要新的方法来基于结点无感染时间戳数据推断传播网络中的影响关系。

发明内容

本发明的主要目的在于提供一种面向无感染时间戳数据的传播网络重构方法与装置，旨在解决现有技术中传播网络重构方法中，过于依赖结点感染之间的时间序列来确定结点之间的潜在影响关系问题，本发明具有更好的重构精度，从而得以快速制定和实施后续传播网络管控方案，提高传播网络管控速度和效率。

为了实现上述目的，本发明所采用的技术方案是：

第一方面，本发明公开了面向无感染时间戳数据的传播网络重构方法，定义传播网络中潜在的影响关系图为G＝{V，E}，其中V＝{v₁，v₂，...，v_n}表示组成传播网络的n个结点，E表示影响关系图中的有向边集合，从父结点v_i∈V到子结点v_j∈V的有向边(v_i，v_j)∈E表示若结点v_i被感染且结点v_j未被感染，那么有α_ij概率结点v_j会被结点v_i感染，其中α_ij为感染传播概率。同时，使用集合S＝{S₁，S₂，...，S_β}来记录传播网络中β次传播过程结束后的感染状态信息，其中表示第l次传播过程结束后传播网络中n个结点的感染状态，/>表示第l次传播过程结束后结点v_i的感染状态，0表示未感染，1表示感染。传播网络结构重构就是在已知感染状态信息S的情况下，推测出传播网络的边集E。

所述传播网络结构重构方法包括以下步骤：

步骤1：获取传播网络G的历史感染状态数据S＝{S₁，S₂，...，S_β}。

步骤2：初始化传播网络边集，令

步骤3：计算传播网络G中两两结点间的信息分数F。

步骤4：采用K-means算法将信息分数F分为两类，其中将K-means的一个聚类中心固定为0，记录均值更接近0的类中的最大信息分数，记为两类间的分界值τ。

步骤5：获取每个结点的父结点，得到连接每个结点的边。

步骤6：返回传播网络边集E。

进一步的，所述步骤3中信息分数的计算公式为：

其中，X_i表示结点v_i的历史感染状态序列H(X_j)表示信息熵，计算公式为/>其中x_j表示X_j的一个不重复的值，V(X_j)表示X_j的一个不重复的值的集合，p(·)表示概率。H(X_j|X_i)表示条件信息熵，计算公式为/>

进一步的，所述步骤5中单一结点v_i的父结点的获取方法如下：

步骤5.1：初始化结点v_i的候选父结点集合候选父结点组合集合/>推测父结点集合/>

步骤5.2：计算结点v_i与其他每一个结点的信息分数F(X_i，X_j)，v_j∈V，j≠i，然后将满足信息分数F＞τ的结点v_j加入到集合P_i。

步骤5.3：对于P_i的每一个子集W，若子集基数满足则计算W的分数并将W加入到集合C_i。

步骤5.4：若C_i非空，重复以下操作：

步骤5.4.1：判断F_i基数是否满足若是则继续，否则结束步骤5.4。

步骤5.4.2：选出当前C_i中分数最低的父结点组合W_best；

步骤5.4.3：将W_best中的结点加入到F_i，更新F_i←F_i∪W_best；

步骤5.4.4：从集合C_i中去掉元素W_best；

若C_i为空，结束步骤5.4。

进一步的，所述步骤5.3的分数计算公式为：

其中，λ是一个值大于等于0的参数，X_W表示子集W的历史感染状态序列。

第二方面，本发明公开了一种面向无感染时间戳数据的传播网络重构装置，包括：

数据初始化模块，其用于获取传播网络的历史感染状态数据S＝{S₁，S₂，...，S_β}，其中，S_β表示传播网络中第β次传播结束后的感染状态信息；初始化传播网络边集E为空；

信息分数计算模块，其用于传播网络中两两结点间的信息分数F；

聚类模块，其用于采用K-means算法将信息分数F分为两类，其中将K-means的一个聚类中心固定为0，记录均值更接近0的类中的最大信息分数，记为两类间的分界值τ；

父结点获取模块，其用于获取每个结点的父结点，得到连接每个结点的边；

关系图生成模块，其用于输出传播网络边集E，得到重构后的传播网络的影响关系图。

本发明提出的传播网络结构重构方法，通过获取传播网络中各结点的无时间戳感染状态信息来重构网络，解决了过于依赖结点感染之间的时间序列来确定结点之间的潜在影响关系问题，并且具有更好的重构精度，从而得以快速制定和实施后续传播网络管控方案，提高传播网络管控速度和效率。

附图说明

图1为本发明传播网络结构重构方法的流程示意图；

图2为发明实施例和对比例在人工数据集上取不同结点数量的结果图；

图3为发明实施例和对比例在人工数据集上取不同平均度数的结果图；

图4为发明实施例和对比例在真实数据集NetSci上取不同初始感染比例的结果图；

图5为发明实施例和对比例在人工数据集上取不同分散度的结果图；

图6为发明实施例和对比例在真实数据集DUNF上取不同初始感染比例的结果图；

图7为发明实施例和对比例在人工数据集上取不同感染传播概率的结果图；

图8为发明实施例和对比例在真实数据集NetSci上取不同感染状态数据条数的结果图；

图9为发明实施例和对比例在真实数据集DUNF上取不同感染传播概率的结果图；

图10为发明实施例和对比例在真实数据集DUNF上取不同感染状态数据条数的结果图；

本发明的实现、功能特点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例采用算法生成的人工数据集LFR1-5，数据集对应的传播网络结点数分别为100、150、200、250、300，对应传播网络平均结点度数均为4，感染状态数据条数β＝150，初始感染率设为0.15，感染传播概率设为0.3。本实施例步骤如下：

步骤2：初始化传播网络边集，令

步骤3：计算传播网络G中两两结点间的信息分数F。

步骤5：获取每个结点的父结点，得到连接每个结点的边。

步骤6：返回传播网络边集E。

所述步骤3中信息分数的计算公式为：

所述步骤5中单一结点v_i的父结点的获取方法如下：

步骤5.4：若C_i非空，重复以下操作：

步骤5.4.2：选出当前C_i中分数最低的父结点组合W_best；

步骤5.4.3：将W_best中的结点加入到F_i，更新F_i←F_i∪W_best；

步骤5.4.4：从集合C_i中去掉元素W_best；

若C_i为空，结束步骤5.4。

所述步骤5.3的分数计算公式为：

其中，λ＝logβ，分数越低越好。

所有步骤完成后，记录召回率和准确率。召回率表示方法正确找出的传播网络的边占真实边的比例，准确率表示方法找出的边中正确的比例。对于召回率和准确率，将两者进行调和平均，得到F-score值，其反应了方法在召回率和准确率上的综合表现，范围为[0，1]，值越高说明表现越好。

参考图2为本实施例结果，可以看出本发明综合表现最好，且在对比方法随着结点数量增加综合表现下降的情况下，本发明方法表现平稳，对结点数量不敏感。

对比例1

作为对比，在人工数据集LFR1-5上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图2为本对比例结果。

对比例2

作为对比，在人工数据集LFR1-5上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图2为本对比例结果。

对比例3

作为对比，在人工数据集LFR1-5上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图2为本对比例结果。

实施例2

本实施例与实施例1不同之处在于：数据集为LFR6-10，网络结点数量均为200，平均结点度数依次为2、3、4、5、6。其余部分与实施例1相同。参考图3为本实施例结果，随平均结点度数增加，传播网络越复杂，可以看出本发明方法综合表现最好。

对比例4

作为对比，在人工数据集LFR6-10上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图3为本对比例结果。

对比例5

作为对比，在人工数据集LFR6-10上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图3为本对比例结果。

对比例6

作为对比，在人工数据集LFR6-10上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图3为本对比例结果。

实施例3

本实施例与实施例1不同之处在于：使用真实网络NetSci生成的数据集，其中初始感染率依次为0.05、0.10、0.15、0.20、0.25，感染状态数据条数β＝150，感染传播概率均设为0.3。其余步骤与实施例1相同。参考图4为本实施例结果，可以看出本发明方法综合表现最好，且对比方法随初始感染率变化而波动，而本发明方法表现平稳，对初始感染率不敏感。

对比例7

作为对比，在与实施例3同样的在真实网络NetSci生成的数据集上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图4为本对比例结果。

对比例8

作为对比，在与实施例3同样的在真实网络NetSci生成的数据集上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图4为本对比例结果。

对比例9

作为对比，在与实施例3同样的在真实网络NetSci生成的数据集上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图4为本对比例结果。

实施例4

本实施例与实施例1不同之处在于：使用算法生成的人工数据集LFR11-15，数据集结点分散度分别为1.0、1.5、2.0、2.5、3.0，数据集对应的传播网络结点数为200，对应传播网络平均结点度数均为46，感染状态数据条数β＝150，初始感染率设为0.15，感染传播概率设为0.3。其余步骤与实施例1相同。参考图5为本实施例结果，可以看出本实施例综合表现最好，本实施例对结点分散度不敏感，表现平稳。

对比例10

作为对比，在人工数据集LFR11-15上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图5为本对比例结果。

对比例11

作为对比，在人工数据集LFR11-15上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图5为本对比例结果。

对比例12

作为对比，在人工数据集LFR11-15上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图5为本对比例结果。

实施例5

本实施例与实施例1不同之处在于：使用真实网络DUNF生成的数据集，其中初始感染率依次为0.05、0.10、0.15、0.20、0.25，感染状态数据条数β＝150，感染传播概率均设为0.3。其余步骤与实施例1相同。参考图6为本实施例结果，可以看出本发明方法综合表现最好，且对比方法随初始感染率变化而波动，而本发明方法表现平稳，对初始感染率不敏感。

对比例13

作为对比，在与实施例5同样的在真实网络DUNF生成的数据集上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图6为本对比例结果。

对比例14

作为对比，在与实施例5同样的在真实网络DUNF生成的数据集上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图6为本对比例结果。

对比例15

作为对比，在与实施例5同样的在真实网络DUNF生成的数据集上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图6为本对比例结果。

实施例6

本实施例与实施例1不同之处在于：使用真实网络NetSci生成的数据集，其中感染传播概率依次为0.20、0.25、0.30、0.35、0.40，感染状态数据条数β＝150，初始感染率均设为0.15。其余步骤与实施例1相同。参考图7为本实施例结果，可以看出本发明方法综合表现最好，且随着感染传播概率增加而增加。

对比例16

作为对比，在与实施例6同样的在真实网络NetSci生成的数据集上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图7为本对比例结果。

对比例17

作为对比，在与实施例6同样的在真实网络NetSci生成的数据集上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图7为本对比例结果。

对比例18

作为对比，在与实施例6同样的在真实网络NetSci生成的数据集上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图7为本对比例结果。

实施例7

本实施例与实施例1不同之处在于：使用真实网络NetSci生成的数据集，其中感染状态数据条数依次为β＝50、100、150、200、250，初始感染率均设为0.15，感染传播概率均为0.3。其余步骤与实施例1相同。参考图8为本实施例结果，可以看出本发明方法综合表现最好，且随着感染状态数据条数增加而增加。

对比例19

作为对比，在与实施例7同样的在真实网络NetSci生成的数据集上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图8为本对比例结果。

对比例20

作为对比，在与实施例7同样的在真实网络NetSci生成的数据集上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图8为本对比例结果。

对比例21

作为对比，在与实施例7同样的在真实网络NetSci生成的数据集上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图8为本对比例结果。

实施例8

本实施例与实施例1不同之处在于：使用真实网络DUNF生成的数据集，其中感染传播概率依次为0.20、0.25、0.30、0.35、0.40，感染状态数据条数β＝150，初始感染率均设为0.15。其余步骤与实施例1相同。参考图9为本实施例结果，可以看出本发明方法综合表现最好，且随着感染传播概率增加而增加。

对比例22

作为对比，在与实施例8同样的在真实网络DUNF生成的数据集上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图9为本对比例结果。

对比例23

作为对比，在与实施例8同样的在真实网络DUNF生成的数据集上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图9为本对比例结果。

对比例24

作为对比，在与实施例8同样的在真实网络DUNF生成的数据集上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图9为本对比例结果。

实施例9

本实施例与实施例1不同之处在于：使用真实网络DUNF生成的数据集，其中感染状态数据条数依次为β＝50、100、150、200、250，初始感染率均设为0.15，感染传播概率均为0.3。其余步骤与实施例1相同。参考图10为本实施例结果，可以看出本发明方法综合表现最好，且随着感染状态数据条数增加而增加。

对比例25

作为对比，在与实施例9同样的在真实网络DUNF生成的数据集上，使用当前先进方法MulTree重构网络，并记录F-score值，参考图10为本对比例结果。

对比例26

作为对比，在与实施例9同样的在真实网络DUNF生成的数据集上，使用当前先进方法NetRate重构网络，并记录F-score值，参考图10为本对比例结果。

对比例27

作为对比，在与实施例9同样的在真实网络DUNF生成的数据集上，使用当前先进方法LIFT重构网络，并记录F-score值，参考图10为本对比例结果。

实施例10：相应地，本发明提供一种提供面向无感染时间戳数据的传播网络重构装置，本实施例中，该传播网络重构装置包括：

在一项具体实施中，信息分数计算模块中的计算公式为：

其中，X_i表示结点v_i的历史感染状态序列，H(X_j)表示X_j的信息熵，V(X_j)表示X_j中的一个不重复的值的集合，p(·)表示概率，H(X_j|X_i)表示条件信息熵，F(X_i，X_j)表示结点v_i、v_j两条历史感染状态序列的信息分数。

在一项具体实施中，所述的父结点获取模块，包括：

集合初始化单位，其用于初始化结点v_i的候选父结点集合候选父结点组合集合/>推测父结点集合/>

候选父结点集合更新单元，其用于根据结点v_i与其他每一个结点的信息分数F(X_i，X_j)，v_j∈V，j≠i，将满足信息分数F＞τ的结点v_j加入到集合P_i，其中，V表示传播网络中的结点集合；

候选父结点组合集合更新单元，其用于对候选父结点集合P_i的每一个子集W，若子集W基数满足则计算子集W的分数，并将子集W加入到集合C_i，其中，β表示历史感染状态数据对应的传播次数；

推测父结点集合更新单元，其用于从候选父结点组合集合C_i中依次挑选最优子集W_best加入推测父结点集合F_i，直至推测父结点集合F_i的基数满足

结点遍历单元，其用于遍历传播网络中的所有结点，根据各结点的推测父结点集合F_i，更新传播网络边集E，得到连接每个结点的边。

在一项具体实施中，所述的推测父结点集合更新单元的计算过程包括：

若C_i非空，重复以下操作：

判断F_i基数是否满足若是则继续，否则结束该结点的推测父结点集合更新过程；

选出当前C_i中分数最低的父结点组合W_best；

将W_best中的结点加入到F_i；

从集合C_i中去掉元素W_best；

若C_i为空，结束该结点的推测父结点集合更新过程。

在一项具体实施中，候选父结点组合集合更新单元中，子集W的分数计算公式为：

其中，λ是大于等于0的参数，g(v_i，W)表示结点v_i对应的子集W的分数，H(·|·)表示条件信息熵，X_i表示表示结点v_i的历史感染状态序列，X_W表示子集W的历史感染状态序列，|F_i|表示推测父结点集合F_i的基数。

以上所描述的装置实施例仅仅是示意性的，可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。本发明的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向无感染时间戳数据的传播网络重构方法，其特征在于，包括以下步骤：

步骤1：获取传播网络的历史感染状态数据S＝{S₁，S₂，...，S_β}，其中，S_β表示传播网络中第β次传播结束后的感染状态信息；

步骤2：初始化传播网络边集E为空；

步骤3：计算传播网络中两两结点间的信息分数F；

步骤4：采用K-means算法将信息分数F分为两类，其中将K-means的一个聚类中心固定为0，记录均值更接近0的类中的最大信息分数，记为两类间的分界值τ；

步骤5：获取每个结点的父结点，得到连接每个结点的边；

步骤6：输出传播网络边集E，得到重构后的传播网络的影响关系图。

2.根据权利要求1所述的一种面向无感染时间戳数据的传播网络重构方法，其特征在于，所述步骤3中信息分数的计算公式为：

其中，X_i表示结点v_i的历史感染状态序列，H(X_j)表示X_j的信息熵，H(X_j|X_i)表示条件信息熵，F(X_i，X_j)表示结点v_i、v_j两条历史感染状态序列的信息分数。

3.根据权利要求1所述的一种面向无感染时间戳数据的传播网络重构方法，其特征在于，所述步骤5包括：

步骤5.2：计算结点v_i与其他每一个结点的信息分数F(X_i，X_j)，v_j∈V，j≠i，然后将满足信息分数F＞τ的结点v_j加入到集合P_i，其中，V表示传播网络中的结点集合；

步骤5.3：对于P_i的每一个子集W，若子集W基数满足则计算子集W的分数，并将子集W加入到集合C_i，其中，β表示历史感染状态数据对应的传播次数；

步骤5.4：从集合C_i中依次挑选最优子集W_best加入推测父结点集合F_i，直至推测父结点集合F_i的基数满足

步骤5.5：遍历传播网络中的所有结点，根据各结点的推测父结点集合F_i，更新传播网络边集E，得到连接每个结点的边。

4.根据权利要求3所述的一种面向无感染时间戳数据的传播网络重构方法，其特征在于，所述的步骤5.4具体为：

若C_i非空，重复以下操作：

步骤5.4.1：判断F_i基数是否满足若是则继续，否则结束步骤5.4；

步骤5.4.2：选出当前C_i中分数最低的父结点组合W_best；

步骤5.4.3：将W_best中的结点加入到F_i；

步骤5.4.4：从集合C_i中去掉元素W_best；

若C_i为空，结束步骤5.4。

5.根据权利要求3所述的一种面向无感染时间戳数据的传播网络重构方法，其特征在于，所述步骤5.3的分数计算公式为：

6.一种面向无感染时间戳数据的传播网络重构装置，其特征在于，包括：

7.根据权利要求6所述的一种面向无感染时间戳数据的传播网络重构装置，其特征在于，信息分数计算模块中的计算公式为：

8.根据权利要求6所述的一种面向无感染时间戳数据的传播网络重构装置，其特征在于，所述的父结点获取模块，包括：

集合初始化单位，其用于初始化结点v_i的候选父结点集合候选父结点组合集合推测父结点集合/>

9.根据权利要求8述的一种面向无感染时间戳数据的传播网络重构装置，其特征在于，所述的推测父结点集合更新单元的计算过程包括：

若C_i非空，重复以下操作：

选出当前C_i中分数最低的父结点组合W_best；

将W_best中的结点加入到F_i；

从集合C_i中去掉元素W_best；

若C_i为空，结束该结点的推测父结点集合更新过程。

10.根据权利要求8述的一种面向无感染时间戳数据的传播网络重构装置，其特征在于，候选父结点组合集合更新单元中，子集W的分数计算公式为：