CN116611508A - 面向无感染时间戳数据的传播网络重构方法与装置 - Google Patents
面向无感染时间戳数据的传播网络重构方法与装置 Download PDFInfo
- Publication number
- CN116611508A CN116611508A CN202310393066.0A CN202310393066A CN116611508A CN 116611508 A CN116611508 A CN 116611508A CN 202310393066 A CN202310393066 A CN 202310393066A CN 116611508 A CN116611508 A CN 116611508A
- Authority
- CN
- China
- Prior art keywords
- node
- infection
- propagation network
- propagation
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000015181 infectious disease Diseases 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000012216 screening Methods 0.000 abstract 1
- 230000000052 comparative effect Effects 0.000 description 63
- 241000700605 Viruses Species 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000014599 transmission of virus Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种面向无感染时间戳数据的传播网络重构方法与装置,属于信息传播技术领域。所述方法通过获取传播网络中各结点的无感染时间戳数据;根据所述数据计算各结点间的信息分数;根据信息分数筛选候选候选父结点;在候选父结点集合内采用贪婪方法寻找结点的边,构建所述传播网络的影响关系图。所述方法能够利用无感染时间戳数据准确地推断出结点之间的影响关系,不需要传播过程中每个结点的确切感染时间,不依赖结点感染之间的时间序列来确定结点之间的潜在影响关系,提高了影响关系确定精度,提高了传播网络管控速度和效率,有利于后续传播网络管控方案的制定和实施。
Description
技术领域
本发明涉及信息传播技术领域,尤其涉及一种面向无感染时间戳数据的传播网络重构方法与装置。
背景技术
传播网络是一种研究物质、信息传播规律的数学模型。观点、谣言和疾病的传播通常被建模为传播网络上的概率过程。在网络中,有向边表示父子关系,父结点可以以一定概率影响子结点。传播网络结构重构旨在从观测数据推断传播网络结构(即影响关系的拓扑结构)。在大多数情况下,这种影响关系是不可见的,只能观察到有限数量的历史传播过程。如何从有限数量的历史传播过程数据还原准确的传播网络结构这一问题在社交网络、病毒营销和流行病预防等领域受到了相当大的关注,因为重构出的传播网络结构能够直观地揭示结点之间的潜在交互,对于制定控制未来传播过程的策略至关重要,可以帮助研究人员更好地预测、促进或组织未来的物质、信息传播。
已有的重构方法假设观测数据包含每个结点感染的确切发生时间,并且包含每个扩散过程中结点的感染状态;在不太理想和更现实环境中,结点感染的时间信息是未知的。例如,在病毒传播过程中,患者从感染病毒到表现症状存在一段潜伏期,所以获取患者是否被感染的确定状态的时间不太可能反映感染的确切发生时间;在这种环境下,只能获取没有时间信息的感染数据(即无感染时间戳数据),传统的传播网络重构方法无法应用,因此需要新的方法来基于结点无感染时间戳数据推断传播网络中的影响关系。
发明内容
本发明的主要目的在于提供一种面向无感染时间戳数据的传播网络重构方法与装置,旨在解决现有技术中传播网络重构方法中,过于依赖结点感染之间的时间序列来确定结点之间的潜在影响关系问题,本发明具有更好的重构精度,从而得以快速制定和实施后续传播网络管控方案,提高传播网络管控速度和效率。
为了实现上述目的,本发明所采用的技术方案是:
第一方面,本发明公开了面向无感染时间戳数据的传播网络重构方法,定义传播网络中潜在的影响关系图为G={V,E},其中V={v1,v2,...,vn}表示组成传播网络的n个结点,E表示影响关系图中的有向边集合,从父结点vi∈V到子结点vj∈V的有向边(vi,vj)∈E表示若结点vi被感染且结点vj未被感染,那么有αij概率结点vj会被结点vi感染,其中αij为感染传播概率。同时,使用集合S={S1,S2,...,Sβ}来记录传播网络中β次传播过程结束后的感染状态信息,其中表示第l次传播过程结束后传播网络中n个结点的感染状态,/>表示第l次传播过程结束后结点vi的感染状态,0表示未感染,1表示感染。传播网络结构重构就是在已知感染状态信息S的情况下,推测出传播网络的边集E。
所述传播网络结构重构方法包括以下步骤:
步骤1:获取传播网络G的历史感染状态数据S={S1,S2,...,Sβ}。
步骤2:初始化传播网络边集,令
步骤3:计算传播网络G中两两结点间的信息分数F。
步骤4:采用K-means算法将信息分数F分为两类,其中将K-means的一个聚类中心固定为0,记录均值更接近0的类中的最大信息分数,记为两类间的分界值τ。
步骤5:获取每个结点的父结点,得到连接每个结点的边。
步骤6:返回传播网络边集E。
进一步的,所述步骤3中信息分数的计算公式为:
其中,Xi表示结点vi的历史感染状态序列H(Xj)表示信息熵,计算公式为/>其中xj表示Xj的一个不重复的值,V(Xj)表示Xj的一个不重复的值的集合,p(·)表示概率。H(Xj|Xi)表示条件信息熵,计算公式为/>
进一步的,所述步骤5中单一结点vi的父结点的获取方法如下:
步骤5.1:初始化结点vi的候选父结点集合候选父结点组合集合/>推测父结点集合/>
步骤5.2:计算结点vi与其他每一个结点的信息分数F(Xi,Xj),vj∈V,j≠i,然后将满足信息分数F>τ的结点vj加入到集合Pi。
步骤5.3:对于Pi的每一个子集W,若子集基数满足则计算W的分数并将W加入到集合Ci。
步骤5.4:若Ci非空,重复以下操作:
步骤5.4.1:判断Fi基数是否满足若是则继续,否则结束步骤5.4。
步骤5.4.2:选出当前Ci中分数最低的父结点组合Wbest;
步骤5.4.3:将Wbest中的结点加入到Fi,更新Fi←Fi∪Wbest;
步骤5.4.4:从集合Ci中去掉元素Wbest;
若Ci为空,结束步骤5.4。
进一步的,所述步骤5.3的分数计算公式为:
其中,λ是一个值大于等于0的参数,XW表示子集W的历史感染状态序列。
第二方面,本发明公开了一种面向无感染时间戳数据的传播网络重构装置,包括:
数据初始化模块,其用于获取传播网络的历史感染状态数据S={S1,S2,...,Sβ},其中,Sβ表示传播网络中第β次传播结束后的感染状态信息;初始化传播网络边集E为空;
信息分数计算模块,其用于传播网络中两两结点间的信息分数F;
聚类模块,其用于采用K-means算法将信息分数F分为两类,其中将K-means的一个聚类中心固定为0,记录均值更接近0的类中的最大信息分数,记为两类间的分界值τ;
父结点获取模块,其用于获取每个结点的父结点,得到连接每个结点的边;
关系图生成模块,其用于输出传播网络边集E,得到重构后的传播网络的影响关系图。
本发明提出的传播网络结构重构方法,通过获取传播网络中各结点的无时间戳感染状态信息来重构网络,解决了过于依赖结点感染之间的时间序列来确定结点之间的潜在影响关系问题,并且具有更好的重构精度,从而得以快速制定和实施后续传播网络管控方案,提高传播网络管控速度和效率。
附图说明
图1为本发明传播网络结构重构方法的流程示意图;
图2为发明实施例和对比例在人工数据集上取不同结点数量的结果图;
图3为发明实施例和对比例在人工数据集上取不同平均度数的结果图;
图4为发明实施例和对比例在真实数据集NetSci上取不同初始感染比例的结果图;
图5为发明实施例和对比例在人工数据集上取不同分散度的结果图;
图6为发明实施例和对比例在真实数据集DUNF上取不同初始感染比例的结果图;
图7为发明实施例和对比例在人工数据集上取不同感染传播概率的结果图;
图8为发明实施例和对比例在真实数据集NetSci上取不同感染状态数据条数的结果图;
图9为发明实施例和对比例在真实数据集DUNF上取不同感染传播概率的结果图;
图10为发明实施例和对比例在真实数据集DUNF上取不同感染状态数据条数的结果图;
本发明的实现、功能特点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例采用算法生成的人工数据集LFR1-5,数据集对应的传播网络结点数分别为100、150、200、250、300,对应传播网络平均结点度数均为4,感染状态数据条数β=150,初始感染率设为0.15,感染传播概率设为0.3。本实施例步骤如下:
步骤1:获取传播网络G的历史感染状态数据S={S1,S2,...,Sβ}。
步骤2:初始化传播网络边集,令
步骤3:计算传播网络G中两两结点间的信息分数F。
步骤4:采用K-means算法将信息分数F分为两类,其中将K-means的一个聚类中心固定为0,记录均值更接近0的类中的最大信息分数,记为两类间的分界值τ。
步骤5:获取每个结点的父结点,得到连接每个结点的边。
步骤6:返回传播网络边集E。
所述步骤3中信息分数的计算公式为:
其中,Xi表示结点vi的历史感染状态序列H(Xj)表示信息熵,计算公式为/>其中xj表示Xj的一个不重复的值,V(Xj)表示Xj的一个不重复的值的集合,p(·)表示概率。H(Xj|Xi)表示条件信息熵,计算公式为/>
所述步骤5中单一结点vi的父结点的获取方法如下:
步骤5.1:初始化结点vi的候选父结点集合候选父结点组合集合/>推测父结点集合/>
步骤5.2:计算结点vi与其他每一个结点的信息分数F(Xi,Xj),vj∈V,j≠i,然后将满足信息分数F>τ的结点vj加入到集合Pi。
步骤5.3:对于Pi的每一个子集W,若子集基数满足则计算W的分数并将W加入到集合Ci。
步骤5.4:若Ci非空,重复以下操作:
步骤5.4.1:判断Fi基数是否满足若是则继续,否则结束步骤5.4。
步骤5.4.2:选出当前Ci中分数最低的父结点组合Wbest;
步骤5.4.3:将Wbest中的结点加入到Fi,更新Fi←Fi∪Wbest;
步骤5.4.4:从集合Ci中去掉元素Wbest;
若Ci为空,结束步骤5.4。
所述步骤5.3的分数计算公式为:
其中,λ=logβ,分数越低越好。
所有步骤完成后,记录召回率和准确率。召回率表示方法正确找出的传播网络的边占真实边的比例,准确率表示方法找出的边中正确的比例。对于召回率和准确率,将两者进行调和平均,得到F-score值,其反应了方法在召回率和准确率上的综合表现,范围为[0,1],值越高说明表现越好。
参考图2为本实施例结果,可以看出本发明综合表现最好,且在对比方法随着结点数量增加综合表现下降的情况下,本发明方法表现平稳,对结点数量不敏感。
对比例1
作为对比,在人工数据集LFR1-5上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图2为本对比例结果。
对比例2
作为对比,在人工数据集LFR1-5上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图2为本对比例结果。
对比例3
作为对比,在人工数据集LFR1-5上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图2为本对比例结果。
实施例2
本实施例与实施例1不同之处在于:数据集为LFR6-10,网络结点数量均为200,平均结点度数依次为2、3、4、5、6。其余部分与实施例1相同。参考图3为本实施例结果,随平均结点度数增加,传播网络越复杂,可以看出本发明方法综合表现最好。
对比例4
作为对比,在人工数据集LFR6-10上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图3为本对比例结果。
对比例5
作为对比,在人工数据集LFR6-10上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图3为本对比例结果。
对比例6
作为对比,在人工数据集LFR6-10上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图3为本对比例结果。
实施例3
本实施例与实施例1不同之处在于:使用真实网络NetSci生成的数据集,其中初始感染率依次为0.05、0.10、0.15、0.20、0.25,感染状态数据条数β=150,感染传播概率均设为0.3。其余步骤与实施例1相同。参考图4为本实施例结果,可以看出本发明方法综合表现最好,且对比方法随初始感染率变化而波动,而本发明方法表现平稳,对初始感染率不敏感。
对比例7
作为对比,在与实施例3同样的在真实网络NetSci生成的数据集上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图4为本对比例结果。
对比例8
作为对比,在与实施例3同样的在真实网络NetSci生成的数据集上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图4为本对比例结果。
对比例9
作为对比,在与实施例3同样的在真实网络NetSci生成的数据集上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图4为本对比例结果。
实施例4
本实施例与实施例1不同之处在于:使用算法生成的人工数据集LFR11-15,数据集结点分散度分别为1.0、1.5、2.0、2.5、3.0,数据集对应的传播网络结点数为200,对应传播网络平均结点度数均为46,感染状态数据条数β=150,初始感染率设为0.15,感染传播概率设为0.3。其余步骤与实施例1相同。参考图5为本实施例结果,可以看出本实施例综合表现最好,本实施例对结点分散度不敏感,表现平稳。
对比例10
作为对比,在人工数据集LFR11-15上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图5为本对比例结果。
对比例11
作为对比,在人工数据集LFR11-15上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图5为本对比例结果。
对比例12
作为对比,在人工数据集LFR11-15上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图5为本对比例结果。
实施例5
本实施例与实施例1不同之处在于:使用真实网络DUNF生成的数据集,其中初始感染率依次为0.05、0.10、0.15、0.20、0.25,感染状态数据条数β=150,感染传播概率均设为0.3。其余步骤与实施例1相同。参考图6为本实施例结果,可以看出本发明方法综合表现最好,且对比方法随初始感染率变化而波动,而本发明方法表现平稳,对初始感染率不敏感。
对比例13
作为对比,在与实施例5同样的在真实网络DUNF生成的数据集上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图6为本对比例结果。
对比例14
作为对比,在与实施例5同样的在真实网络DUNF生成的数据集上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图6为本对比例结果。
对比例15
作为对比,在与实施例5同样的在真实网络DUNF生成的数据集上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图6为本对比例结果。
实施例6
本实施例与实施例1不同之处在于:使用真实网络NetSci生成的数据集,其中感染传播概率依次为0.20、0.25、0.30、0.35、0.40,感染状态数据条数β=150,初始感染率均设为0.15。其余步骤与实施例1相同。参考图7为本实施例结果,可以看出本发明方法综合表现最好,且随着感染传播概率增加而增加。
对比例16
作为对比,在与实施例6同样的在真实网络NetSci生成的数据集上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图7为本对比例结果。
对比例17
作为对比,在与实施例6同样的在真实网络NetSci生成的数据集上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图7为本对比例结果。
对比例18
作为对比,在与实施例6同样的在真实网络NetSci生成的数据集上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图7为本对比例结果。
实施例7
本实施例与实施例1不同之处在于:使用真实网络NetSci生成的数据集,其中感染状态数据条数依次为β=50、100、150、200、250,初始感染率均设为0.15,感染传播概率均为0.3。其余步骤与实施例1相同。参考图8为本实施例结果,可以看出本发明方法综合表现最好,且随着感染状态数据条数增加而增加。
对比例19
作为对比,在与实施例7同样的在真实网络NetSci生成的数据集上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图8为本对比例结果。
对比例20
作为对比,在与实施例7同样的在真实网络NetSci生成的数据集上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图8为本对比例结果。
对比例21
作为对比,在与实施例7同样的在真实网络NetSci生成的数据集上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图8为本对比例结果。
实施例8
本实施例与实施例1不同之处在于:使用真实网络DUNF生成的数据集,其中感染传播概率依次为0.20、0.25、0.30、0.35、0.40,感染状态数据条数β=150,初始感染率均设为0.15。其余步骤与实施例1相同。参考图9为本实施例结果,可以看出本发明方法综合表现最好,且随着感染传播概率增加而增加。
对比例22
作为对比,在与实施例8同样的在真实网络DUNF生成的数据集上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图9为本对比例结果。
对比例23
作为对比,在与实施例8同样的在真实网络DUNF生成的数据集上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图9为本对比例结果。
对比例24
作为对比,在与实施例8同样的在真实网络DUNF生成的数据集上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图9为本对比例结果。
实施例9
本实施例与实施例1不同之处在于:使用真实网络DUNF生成的数据集,其中感染状态数据条数依次为β=50、100、150、200、250,初始感染率均设为0.15,感染传播概率均为0.3。其余步骤与实施例1相同。参考图10为本实施例结果,可以看出本发明方法综合表现最好,且随着感染状态数据条数增加而增加。
对比例25
作为对比,在与实施例9同样的在真实网络DUNF生成的数据集上,使用当前先进方法MulTree重构网络,并记录F-score值,参考图10为本对比例结果。
对比例26
作为对比,在与实施例9同样的在真实网络DUNF生成的数据集上,使用当前先进方法NetRate重构网络,并记录F-score值,参考图10为本对比例结果。
对比例27
作为对比,在与实施例9同样的在真实网络DUNF生成的数据集上,使用当前先进方法LIFT重构网络,并记录F-score值,参考图10为本对比例结果。
实施例10:相应地,本发明提供一种提供面向无感染时间戳数据的传播网络重构装置,本实施例中,该传播网络重构装置包括:
数据初始化模块,其用于获取传播网络的历史感染状态数据S={S1,S2,...,Sβ},其中,Sβ表示传播网络中第β次传播结束后的感染状态信息;初始化传播网络边集E为空;
信息分数计算模块,其用于传播网络中两两结点间的信息分数F;
聚类模块,其用于采用K-means算法将信息分数F分为两类,其中将K-means的一个聚类中心固定为0,记录均值更接近0的类中的最大信息分数,记为两类间的分界值τ;
父结点获取模块,其用于获取每个结点的父结点,得到连接每个结点的边;
关系图生成模块,其用于输出传播网络边集E,得到重构后的传播网络的影响关系图。
在一项具体实施中,信息分数计算模块中的计算公式为:
其中,Xi表示结点vi的历史感染状态序列,H(Xj)表示Xj的信息熵,V(Xj)表示Xj中的一个不重复的值的集合,p(·)表示概率,H(Xj|Xi)表示条件信息熵,F(Xi,Xj)表示结点vi、vj两条历史感染状态序列的信息分数。
在一项具体实施中,所述的父结点获取模块,包括:
集合初始化单位,其用于初始化结点vi的候选父结点集合候选父结点组合集合/>推测父结点集合/>
候选父结点集合更新单元,其用于根据结点vi与其他每一个结点的信息分数F(Xi,Xj),vj∈V,j≠i,将满足信息分数F>τ的结点vj加入到集合Pi,其中,V表示传播网络中的结点集合;
候选父结点组合集合更新单元,其用于对候选父结点集合Pi的每一个子集W,若子集W基数满足则计算子集W的分数,并将子集W加入到集合Ci,其中,β表示历史感染状态数据对应的传播次数;
推测父结点集合更新单元,其用于从候选父结点组合集合Ci中依次挑选最优子集Wbest加入推测父结点集合Fi,直至推测父结点集合Fi的基数满足
结点遍历单元,其用于遍历传播网络中的所有结点,根据各结点的推测父结点集合Fi,更新传播网络边集E,得到连接每个结点的边。
在一项具体实施中,所述的推测父结点集合更新单元的计算过程包括:
若Ci非空,重复以下操作:
判断Fi基数是否满足若是则继续,否则结束该结点的推测父结点集合更新过程;
选出当前Ci中分数最低的父结点组合Wbest;
将Wbest中的结点加入到Fi;
从集合Ci中去掉元素Wbest;
若Ci为空,结束该结点的推测父结点集合更新过程。
在一项具体实施中,候选父结点组合集合更新单元中,子集W的分数计算公式为:
其中,λ是大于等于0的参数,g(vi,W)表示结点vi对应的子集W的分数,H(·|·)表示条件信息熵,Xi表示表示结点vi的历史感染状态序列,XW表示子集W的历史感染状态序列,|Fi|表示推测父结点集合Fi的基数。
以上所描述的装置实施例仅仅是示意性的,可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本发明的装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种面向无感染时间戳数据的传播网络重构方法,其特征在于,包括以下步骤:
步骤1:获取传播网络的历史感染状态数据S={S1,S2,...,Sβ},其中,Sβ表示传播网络中第β次传播结束后的感染状态信息;
步骤2:初始化传播网络边集E为空;
步骤3:计算传播网络中两两结点间的信息分数F;
步骤4:采用K-means算法将信息分数F分为两类,其中将K-means的一个聚类中心固定为0,记录均值更接近0的类中的最大信息分数,记为两类间的分界值τ;
步骤5:获取每个结点的父结点,得到连接每个结点的边;
步骤6:输出传播网络边集E,得到重构后的传播网络的影响关系图。
2.根据权利要求1所述的一种面向无感染时间戳数据的传播网络重构方法,其特征在于,所述步骤3中信息分数的计算公式为:
其中,Xi表示结点vi的历史感染状态序列,H(Xj)表示Xj的信息熵,H(Xj|Xi)表示条件信息熵,F(Xi,Xj)表示结点vi、vj两条历史感染状态序列的信息分数。
3.根据权利要求1所述的一种面向无感染时间戳数据的传播网络重构方法,其特征在于,所述步骤5包括:
步骤5.1:初始化结点vi的候选父结点集合候选父结点组合集合/>推测父结点集合/>
步骤5.2:计算结点vi与其他每一个结点的信息分数F(Xi,Xj),vj∈V,j≠i,然后将满足信息分数F>τ的结点vj加入到集合Pi,其中,V表示传播网络中的结点集合;
步骤5.3:对于Pi的每一个子集W,若子集W基数满足则计算子集W的分数,并将子集W加入到集合Ci,其中,β表示历史感染状态数据对应的传播次数;
步骤5.4:从集合Ci中依次挑选最优子集Wbest加入推测父结点集合Fi,直至推测父结点集合Fi的基数满足
步骤5.5:遍历传播网络中的所有结点,根据各结点的推测父结点集合Fi,更新传播网络边集E,得到连接每个结点的边。
4.根据权利要求3所述的一种面向无感染时间戳数据的传播网络重构方法,其特征在于,所述的步骤5.4具体为:
若Ci非空,重复以下操作:
步骤5.4.1:判断Fi基数是否满足若是则继续,否则结束步骤5.4;
步骤5.4.2:选出当前Ci中分数最低的父结点组合Wbest;
步骤5.4.3:将Wbest中的结点加入到Fi;
步骤5.4.4:从集合Ci中去掉元素Wbest;
若Ci为空,结束步骤5.4。
5.根据权利要求3所述的一种面向无感染时间戳数据的传播网络重构方法,其特征在于,所述步骤5.3的分数计算公式为:
其中,λ是大于等于0的参数,g(vi,W)表示结点vi对应的子集W的分数,H(·|·)表示条件信息熵,Xi表示表示结点vi的历史感染状态序列,XW表示子集W的历史感染状态序列,|Fi|表示推测父结点集合Fi的基数。
6.一种面向无感染时间戳数据的传播网络重构装置,其特征在于,包括:
数据初始化模块,其用于获取传播网络的历史感染状态数据S={S1,S2,...,Sβ},其中,Sβ表示传播网络中第β次传播结束后的感染状态信息;初始化传播网络边集E为空;
信息分数计算模块,其用于传播网络中两两结点间的信息分数F;
聚类模块,其用于采用K-means算法将信息分数F分为两类,其中将K-means的一个聚类中心固定为0,记录均值更接近0的类中的最大信息分数,记为两类间的分界值τ;
父结点获取模块,其用于获取每个结点的父结点,得到连接每个结点的边;
关系图生成模块,其用于输出传播网络边集E,得到重构后的传播网络的影响关系图。
7.根据权利要求6所述的一种面向无感染时间戳数据的传播网络重构装置,其特征在于,信息分数计算模块中的计算公式为:
其中,Xi表示结点vi的历史感染状态序列,H(Xj)表示Xj的信息熵,V(Xj)表示Xj中的一个不重复的值的集合,p(·)表示概率,H(Xj|Xi)表示条件信息熵,F(Xi,Xj)表示结点vi、vj两条历史感染状态序列的信息分数。
8.根据权利要求6所述的一种面向无感染时间戳数据的传播网络重构装置,其特征在于,所述的父结点获取模块,包括:
集合初始化单位,其用于初始化结点vi的候选父结点集合候选父结点组合集合推测父结点集合/>
候选父结点集合更新单元,其用于根据结点vi与其他每一个结点的信息分数F(Xi,Xj),vj∈V,j≠i,将满足信息分数F>τ的结点vj加入到集合Pi,其中,V表示传播网络中的结点集合;
候选父结点组合集合更新单元,其用于对候选父结点集合Pi的每一个子集W,若子集W基数满足则计算子集W的分数,并将子集W加入到集合Ci,其中,β表示历史感染状态数据对应的传播次数;
推测父结点集合更新单元,其用于从候选父结点组合集合Ci中依次挑选最优子集Wbest加入推测父结点集合Fi,直至推测父结点集合Fi的基数满足
结点遍历单元,其用于遍历传播网络中的所有结点,根据各结点的推测父结点集合Fi,更新传播网络边集E,得到连接每个结点的边。
9.根据权利要求8述的一种面向无感染时间戳数据的传播网络重构装置,其特征在于,所述的推测父结点集合更新单元的计算过程包括:
若Ci非空,重复以下操作:
判断Fi基数是否满足若是则继续,否则结束该结点的推测父结点集合更新过程;
选出当前Ci中分数最低的父结点组合Wbest;
将Wbest中的结点加入到Fi;
从集合Ci中去掉元素Wbest;
若Ci为空,结束该结点的推测父结点集合更新过程。
10.根据权利要求8述的一种面向无感染时间戳数据的传播网络重构装置,其特征在于,候选父结点组合集合更新单元中,子集W的分数计算公式为:
其中,λ是大于等于0的参数,g(vi,W)表示结点vi对应的子集W的分数,H(·|·)表示条件信息熵,Xi表示表示结点vi的历史感染状态序列,XW表示子集W的历史感染状态序列,|Fi|表示推测父结点集合Fi的基数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310393066.0A CN116611508A (zh) | 2023-04-13 | 2023-04-13 | 面向无感染时间戳数据的传播网络重构方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310393066.0A CN116611508A (zh) | 2023-04-13 | 2023-04-13 | 面向无感染时间戳数据的传播网络重构方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611508A true CN116611508A (zh) | 2023-08-18 |
Family
ID=87677124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310393066.0A Pending CN116611508A (zh) | 2023-04-13 | 2023-04-13 | 面向无感染时间戳数据的传播网络重构方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118055030A (zh) * | 2024-04-12 | 2024-05-17 | 江西求是高等研究院 | 一种传播网络重构方法、系统、存储介质及设备 |
-
2023
- 2023-04-13 CN CN202310393066.0A patent/CN116611508A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118055030A (zh) * | 2024-04-12 | 2024-05-17 | 江西求是高等研究院 | 一种传播网络重构方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bonchi et al. | Core decomposition of uncertain graphs | |
Ng et al. | The EM algorithm | |
Aliferis et al. | Local causal and Markov blanket induction for causal discovery and feature selection for classification part I: algorithms and empirical evaluation. | |
US8583649B2 (en) | Method and system for clustering data points | |
Lahiri et al. | Periodic subgraph mining in dynamic networks | |
Yu et al. | Protein function prediction using multilabel ensemble classification | |
WO2022179384A1 (zh) | 一种社交群体的划分方法、划分系统及相关装置 | |
US10769140B2 (en) | Concept expansion using tables | |
CN114168608B (zh) | 一种用于更新知识图谱的数据处理系统 | |
CN116611508A (zh) | 面向无感染时间戳数据的传播网络重构方法与装置 | |
Blanca et al. | The statistics of k-mers from a sequence undergoing a simple mutation process without spurious matches | |
Willson | Regular networks can be uniquely constructed from their trees | |
CN116304205A (zh) | 一种传播网络结构重构方法、装置、设备及存储介质 | |
García-Pérez et al. | Precision as a measure of predictability of missing links in real networks | |
Farrow | Modeling the past, present, and future of influenza | |
Ng et al. | Random weighting in LASSO regression | |
WO2022134353A1 (zh) | 硬件状态检测方法、装置、计算机设备及存储介质 | |
CN112820400B (zh) | 基于医疗知识图谱知识推理的疾病诊断装置、设备 | |
Chandra et al. | Bayesian scalable precision factor analysis for massive sparse Gaussian graphical models | |
Ng | Recent developments in expectation‐maximization methods for analyzing complex data | |
Bergmeister et al. | Efficient and scalable graph generation through iterative local expansion | |
Strobl | Root causal inference from single cell rna sequencing with the negative binomial | |
Ren et al. | A combinatorial method for connecting BHV spaces representing different numbers of taxa | |
Fan et al. | Bayesian models for heterogeneous personalized health data | |
CN114465893B (zh) | 传播网络重构方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |