CN111968752B

CN111968752B - 基于最小生成树动态网络标志物的城市流感爆发预测方法

Info

Publication number: CN111968752B
Application number: CN202010730222.4A
Authority: CN
Inventors: 羊坤; 刘锐; 陈培; 钟佳元
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-10-21
Anticipated expiration: 2040-07-27
Also published as: CN111968752A

Abstract

本发明公开了一种基于最小生成树动态网络标志物的城市流感爆发预测方法，该方法使用高维的流感历史就诊人数作为原始输入数据，再根据城市的地理位置和交通情况构建城市网络，然后运用动态网络标志物理论和最小生成树从就诊人数中得出MST‑DNM分数；最后使用一个经过训练的逻辑回归模型根据MST‑DNM分数来得出流感所处的阶段。相对于传统方法中使用大量的额外数据，本发明仅使用高维的长时间序列的流感确诊数据作为原始输入，以动态网络标志物(dynamical network marker,DNM)为基础，结合最小生成树算法和逻辑回归模型，实时且高效地识别出了城市流感爆发地预警信号。

Description

基于最小生成树动态网络标志物的城市流感爆发预测方法

技术领域

本发明涉及大数据分析中的计算生物学技术领域，具体涉及一种基于最小生成树动态网络标志物的城市流感爆发预测方法。

背景技术

随着全球经济发展，人口流动性爆炸增长，流感大流行已经对全世界人民健康和财产造成了巨大而广泛的威胁。制订预测流感爆发的有效策略以预防或至少为新的流感大流行做好准备现在已成为全球公共卫生的重中之重。由于流感爆发的复杂性通常与生物和社会系统的时空特征有关，因此，实现对流感爆发的实时监控是一项艰巨的任务。目前亟待通过探索流感爆发期间丰富的城市网络动态信息，开发了一种计算方法，即基于最小生成树动态网络标记(the minimum-spanning-tree-based dynamical network marker，MST-DNM)的城市流感爆发预测方法，以在流感爆发到来之前识别出临界点或预爆发阶段。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于最小生成树动态网络标志物的城市流感爆发预测方法，并且最终高效地识别出流感爆发的预警信号。

本发明的目的可以通过采取如下技术方案达到：

一种基于最小生成树动态网络标志物的城市流感爆发预测方法，包括如下步骤：

S1、构建城市网络模型，根据城市的行政区划的地理位置和其毗连关系构建一个城市网络模型，该城市网络模型是加权无向图模型，具体地，图模型中的每一个节点都代表城市的一个行政区，每一条边则表示各个行政区之间的毗连关系。

S2、将各个行政区的流感确诊人数除以各个行政区的定点医院数量即得到经过平均处理后的各个行政区的流感确诊人数，然后将经过平均处理后的各个行政区的流感确诊人数以年为单位映射到城市网络模型的相应节点中。

S3、将城市网络用图G＝(V,E)表示，其中

表示网络中M节点的集合，

表示网络中N个节点的集合。

首先，将每个地区每个周的确诊人数看作一个样本，从而得到一系列的时间序列数据。即当城市网络处于第t周时，每个节点v_i都有一个时间序列数据集{s₁,s₂,…,s_t}。

第二步，当城市网络处于第t周时，对于网络中地每一条边e^k，使用如下的公式来计算这条边的两个节点v_i,v_j之间的相关性并将其作为边e^k的权重：

其中，|PCC_t(v_i,v_j)|表示第t周时两个节点v_i,v_j之间的皮尔逊相关系数(PearsonCorrelation Coefficient，PCC)，|PCC_t-1(v_i,v_j)|表示第t-1周时两个节点v_i,v_j之间的皮尔逊相关系数。参数δ由如下公式表示：

δ＝||SD_t(k)|-|SD_t-1(k)||

其中，|SD_t(k)|表示第t周时边e^k的两个节点v_i,v_j所有数据的标准差(standarddeviation，SD)，|SD_t-1(k)|表示第t-1周时边e^k的两个节点v_i,v_j所有数据的标准差。至此，对于每一周都会有一个加权差分网络N_t。

第三步，将Kruskal算法应用于加权差分网络N_t来获取它的最小生成树MST_t。然后，计算最小生成树MST_t的权重和L_t作为第t周的MST-DNM分数：

其中，Weight_i表示最小生成树MST_t中每一条边e_i的权重，K表示最小生成树MST_t中边的数量。

S4、使用如下的逻辑回归模型根据MST-DNM分数识别预警信号：

其中，x_i表示模型的输入数据，y_i表示x_i对应的标签，参数ω由如下的负对数似然函数得到：

其中，||ω||₁表示ω中各个元素的绝对值之和。

本发明相对于现有技术具有如下的优点及效果：

1)本发明使用高维的长时间序列的流感就诊人数数据作为原始输入。

2)本发明将流感爆发过程划分为三个阶段，即正常阶段、预爆发阶段(临界信号)和爆发阶段。其中，预爆发阶段在流感确诊人数上与正常阶段无明显差距，但是在MST-DNM分数上陡然增加，这也是本发明能够正确高效识别临界信号的一个关键点。

3)本发明将最小生成树概念应用于传统的动态网络标志物理论，提高了流感爆发临界点预测的鲁棒性。传统的动态网络标志物方法将网络的全局权重作为一个指标，这使得预测效果容易被局部异常的权重干扰。而使用最小生成树时，它能够有效地避免这些异常信号，从而达到更加准确更加鲁棒的预测效果。

4)相对于传统的使用阈值作为预警信号的标准，本发明使用了更加科学的逻辑回归模型来识别临界状态,使得本发明提出的方法更具有鲁棒性和通用性。

附图说明

图1是本发明实施例中基于最小生成树动态网络标志物的城市流感爆发预测方法的流程图；

图2是本发明实施例中东京城市网络的结构图；

图3是本发明实施例中2009年-2019年期间东京流感爆发预测的效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明的理论基础是动态网络标志物/生物标志物(Dynamic network marker/biomarker，DNM/DNB)，它指明当一个复杂的动力系统在即将到达临界点或者关键状态时会一个DNM组，即(1)DNM组中任何一对成员之间的相关性迅速增加；(2)DNM组的一个成员与任何其他非DNM成员之间的相关性迅速降低；(3)DNM组中任何成员的标准偏差或变异系数急剧增加。与传统的生物标志物不同，DNM方法旨在通过从高维时间序列数据中提取关键信息来检测灾难性事件发生之前的临界状态预警信号。DNM方法一般运用于现实世界的数据集并成功地确定了许多生物学过程的关键状态，例如细胞分化的关键状态、T2D的多阶段恶化、急性肺损伤、HCV诱发的肝癌和癌症转移等。与传统的DNM方法所使用的蛋白质相互作用网络不一样的是，本实施例提出的最小生成树动态网络标志物方法(the minimum-spanning-tree-based dynamical network marker,MST-DNM)将应用于一个根据城市地理信息和邻接关系构建的城市结构网络，以探测城市流感爆发的预警信号。

下面以东京23区2009年-2019年的流感确诊人数作为原始数据，使用基于最小生成树动态网络标志物的城市流感爆发预测方法来识别每一年的预警信号。本实施例不仅指导说明本发明的方法步骤，同时佐证方法的有效性。原始数据收集自日本东京传染病监测中心官方网站。

图1是基于最小生成树动态网络标志物的城市流感爆发预测方法的流程图，以东京的流感爆发预测为例，具体包括以下步骤：

S1、构建东京23区的城市网络模型，具体过程如下：

根据东京23区的地理位置和邻接关系，可以得到一个如图2所示的城市网络结构图。以千代田区为例，与它邻接的有中央区、港区、新宿区、文京区和台东区等五个区，因此在东京城市网络图中，节点1的相邻节点有节点2、3、4、5、6。至此，得到了一个23个节点、53条边的东京城市网络模型。

S2、将城市网络模型中各个行政区的流感确诊人数进行平均处理并将其映射到城市网络模型中，具体过程如下：

由于各区的定点医院数量不一致，因此需要将各个区的流感确诊人数做平均处理，也就是各个行政区的流感确诊人数除以各个行政区的定点医院数量。以2019年第6周的千代田区为例，该区当周流感确诊人数为59例，定点医院共4所，因此平均化处理后的该区当周流感确诊人数数据为14.75例。

将东京23区2009年-2019年期间的各个行政区预处理后的数据以年为单位映射到东京城市网络图的相应节点中，以得到10个随流感确诊人数而动态变化的东京城市网络模型。

S3、使用最小生成树动态网络标志物算法计算MST-DNM分数；

以2013年-2014年进行说明，具体步骤如下：

1)将东京城市网络图用图G＝(V,E)表示，其中

表示网络中23个节点的集合，其中

表示网络中53个节点的集合。

2)将每个地区每个周的确诊人数看作一个样本，这样就可以得到一系列的时间序列数据。具体地，当网络处于第30周时，每个节点v_i都有一个时间序列数据集{s₁,s₂,…,s₃₀}。

3)当网络处于第t周时，对网络中地每一条边e^k，用如下的公式计算这条边两个节点v_i,v_j的相关性并将其作为边e^k的权重：

以第10周的东京城市网络图中的边e¹⁰为例，可以得到

4)将Kruskal算法应用于第t周的加权差分网络N_t来获取其最小生成树MST_t。然后，计算最小生成树MST_t的权重和L_t作为城市网络第t周的MST-DNM分数：

以第10周的东京城市网络图为例，可以得到它的MST-DNM分数为0.00114。这样就得到了9个1*52的MST-DNM分数向量。

S4、使用逻辑回归模型根据MST-DNM分数识别流感爆发预警信号。

该步骤中使用逻辑回归模型根据步骤S3得到MST-DNM分数向量来识别每一年的流感爆发预警信号。

本实施例中，逻辑回归模型表达式如下：

其中，||ω||₁表示ω中各个元素的绝对值之和。

使用步骤S3得到MST-DNM分数向量作为输入数据x_i，其标签y_i为相对应的状态(1为预爆发阶段，0为其他阶段)。以2018年的第50周为例，

因此该周被视为预爆发状态。

在本实施例中，展示了2009年-2019年期间一共10年的东京城市流感爆发预测结果，如图2所示。本发明作出的预警信号周距离流感确诊人数爆发周平均提前了4周，这证明本发明有助于东京疾控预防中心能够及早做出预防措施以减少流感带来的经济损失。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于最小生成树动态网络标志物的城市流感爆发预测方法，其特征在于，所述的预测方法包括如下步骤：

S1、构建城市网络模型，根据城市的行政区划的地理位置和其毗连关系构建一个城市网络模型，该城市网络模型是加权无向图模型，图模型中的每一个节点都代表城市的一个行政区，每一条边则表示各个行政区之间的毗连关系；

S2、将城市网络模型中各个行政区的流感确诊人数进行平均处理并将其映射到城市网络模型中；

S3、使用最小生成树动态网络标志物算法计算MST-DNM分数，其中，MST-DNM表示最小生成树动态网络标志物；所述的步骤S3使用最小生成树动态网络标志物算法计算MST-DNM分数的过程如下：

城市网络用图G＝(V，E)表示，其中

表示城市网络中M个节点的集合，

表示城市网络中N条边的集合；将每个地区每个周的确诊人数看作一个样本，从而得到一系列的时间序列数据；即当城市网络处于第t周时，每个节点v_i都有一个时间序列数据集{s₁，s₂，...，s_t}；当城市网络处于第t周时，对于城市网络中的每一条边e^k，使用如下的公式来计算这条边的两个节点v_i，v_j之间的相关性并将其作为边e^k的权重：

其中，|PCC_t(v_i，v_j)|表示第t周时两个节点v_i，v_j之间的皮尔逊相关系数，|PCC_t-1(v_i，v_j)|表示第t-1周时两个节点v_i，v_j之间的皮尔逊相关系数，参数δ由如下公式表示：

δ＝||SD_t(k)|-|SD_t-1(k)||

其中，|SD_t(k)|表示第t周时边e^k的两个节点v_i，v_j所有数据的标准差，|SD_t-1(k)|表示第t-1周时边e^k的两个节点v_i，v_j所有数据的标准差，至此，对于每一周都会有一个加权差分网络N_t；

将Kruskal算法应用于加权差分网络N_t来获取它的最小生成树MST_t，然后，计算最小生成树MST_t的权重和L_t作为第t周的MST-DNM分数：

其中，Weight_i表示最小生成树MST_t中每一条边e_i的权重，K表示最小生成树MST_t中边的数量；

S4、使用逻辑回归模型根据MST-DNM分数识别预警信号。

2.根据权利要求1中所述的基于最小生成树动态网络标志物的城市流感爆发预测方法，其特征在于，所述的步骤S2过程如下：

将各个行政区的流感确诊人数除以各个行政区的定点医院数量即得到经过平均处理后的各个行政区的流感确诊人数，然后将经过平均处理后的各个行政区的流感确诊人数以年为单位映射到城市网络模型的相应节点中。

3.根据权利要求1中所述的基于最小生成树动态网络标志物的城市流感爆发预测方法，其特征在于，所述的步骤S4使用的逻辑回归模型如下：

其中，||ω||₁表示ω中各个元素的绝对值之和。