CN111968752B - 基于最小生成树动态网络标志物的城市流感爆发预测方法 - Google Patents
基于最小生成树动态网络标志物的城市流感爆发预测方法 Download PDFInfo
- Publication number
- CN111968752B CN111968752B CN202010730222.4A CN202010730222A CN111968752B CN 111968752 B CN111968752 B CN 111968752B CN 202010730222 A CN202010730222 A CN 202010730222A CN 111968752 B CN111968752 B CN 111968752B
- Authority
- CN
- China
- Prior art keywords
- network
- spanning tree
- influenza
- minimum spanning
- urban
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于最小生成树动态网络标志物的城市流感爆发预测方法,该方法使用高维的流感历史就诊人数作为原始输入数据,再根据城市的地理位置和交通情况构建城市网络,然后运用动态网络标志物理论和最小生成树从就诊人数中得出MST‑DNM分数;最后使用一个经过训练的逻辑回归模型根据MST‑DNM分数来得出流感所处的阶段。相对于传统方法中使用大量的额外数据,本发明仅使用高维的长时间序列的流感确诊数据作为原始输入,以动态网络标志物(dynamical network marker,DNM)为基础,结合最小生成树算法和逻辑回归模型,实时且高效地识别出了城市流感爆发地预警信号。
Description
技术领域
本发明涉及大数据分析中的计算生物学技术领域,具体涉及一种基于最小生成树动态网络标志物的城市流感爆发预测方法。
背景技术
随着全球经济发展,人口流动性爆炸增长,流感大流行已经对全世界人民健康和财产造成了巨大而广泛的威胁。制订预测流感爆发的有效策略以预防或至少为新的流感大流行做好准备现在已成为全球公共卫生的重中之重。由于流感爆发的复杂性通常与生物和社会系统的时空特征有关,因此,实现对流感爆发的实时监控是一项艰巨的任务。目前亟待通过探索流感爆发期间丰富的城市网络动态信息,开发了一种计算方法,即基于最小生成树动态网络标记(the minimum-spanning-tree-based dynamical network marker,MST-DNM)的城市流感爆发预测方法,以在流感爆发到来之前识别出临界点或预爆发阶段。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于最小生成树动态网络标志物的城市流感爆发预测方法,并且最终高效地识别出流感爆发的预警信号。
本发明的目的可以通过采取如下技术方案达到:
一种基于最小生成树动态网络标志物的城市流感爆发预测方法,包括如下步骤:
S1、构建城市网络模型,根据城市的行政区划的地理位置和其毗连关系构建一个城市网络模型,该城市网络模型是加权无向图模型,具体地,图模型中的每一个节点都代表城市的一个行政区,每一条边则表示各个行政区之间的毗连关系。
S2、将各个行政区的流感确诊人数除以各个行政区的定点医院数量即得到经过平均处理后的各个行政区的流感确诊人数,然后将经过平均处理后的各个行政区的流感确诊人数以年为单位映射到城市网络模型的相应节点中。
首先,将每个地区每个周的确诊人数看作一个样本,从而得到一系列的时间序列数据。即当城市网络处于第t周时,每个节点vi都有一个时间序列数据集{s1,s2,…,st}。
第二步,当城市网络处于第t周时,对于网络中地每一条边ek,使用如下的公式来计算这条边的两个节点vi,vj之间的相关性并将其作为边ek的权重:
其中,|PCCt(vi,vj)|表示第t周时两个节点vi,vj之间的皮尔逊相关系数(PearsonCorrelation Coefficient,PCC),|PCCt-1(vi,vj)|表示第t-1周时两个节点vi,vj之间的皮尔逊相关系数。参数δ由如下公式表示:
δ=||SDt(k)|-|SDt-1(k)||
其中,|SDt(k)|表示第t周时边ek的两个节点vi,vj所有数据的标准差(standarddeviation,SD),|SDt-1(k)|表示第t-1周时边ek的两个节点vi,vj所有数据的标准差。至此,对于每一周都会有一个加权差分网络Nt。
第三步,将Kruskal算法应用于加权差分网络Nt来获取它的最小生成树MSTt。然后,计算最小生成树MSTt的权重和Lt作为第t周的MST-DNM分数:
其中,Weighti表示最小生成树MSTt中每一条边ei的权重,K表示最小生成树MSTt中边的数量。
S4、使用如下的逻辑回归模型根据MST-DNM分数识别预警信号:
其中,xi表示模型的输入数据,yi表示xi对应的标签,参数ω由如下的负对数似然函数得到:
其中,||ω||1表示ω中各个元素的绝对值之和。
本发明相对于现有技术具有如下的优点及效果:
1)本发明使用高维的长时间序列的流感就诊人数数据作为原始输入。
2)本发明将流感爆发过程划分为三个阶段,即正常阶段、预爆发阶段(临界信号)和爆发阶段。其中,预爆发阶段在流感确诊人数上与正常阶段无明显差距,但是在MST-DNM分数上陡然增加,这也是本发明能够正确高效识别临界信号的一个关键点。
3)本发明将最小生成树概念应用于传统的动态网络标志物理论,提高了流感爆发临界点预测的鲁棒性。传统的动态网络标志物方法将网络的全局权重作为一个指标,这使得预测效果容易被局部异常的权重干扰。而使用最小生成树时,它能够有效地避免这些异常信号,从而达到更加准确更加鲁棒的预测效果。
4)相对于传统的使用阈值作为预警信号的标准,本发明使用了更加科学的逻辑回归模型来识别临界状态,使得本发明提出的方法更具有鲁棒性和通用性。
附图说明
图1是本发明实施例中基于最小生成树动态网络标志物的城市流感爆发预测方法的流程图;
图2是本发明实施例中东京城市网络的结构图;
图3是本发明实施例中2009年-2019年期间东京流感爆发预测的效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明的理论基础是动态网络标志物/生物标志物(Dynamic network marker/biomarker,DNM/DNB),它指明当一个复杂的动力系统在即将到达临界点或者关键状态时会一个DNM组,即(1)DNM组中任何一对成员之间的相关性迅速增加;(2)DNM组的一个成员与任何其他非DNM成员之间的相关性迅速降低;(3)DNM组中任何成员的标准偏差或变异系数急剧增加。与传统的生物标志物不同,DNM方法旨在通过从高维时间序列数据中提取关键信息来检测灾难性事件发生之前的临界状态预警信号。DNM方法一般运用于现实世界的数据集并成功地确定了许多生物学过程的关键状态,例如细胞分化的关键状态、T2D的多阶段恶化、急性肺损伤、HCV诱发的肝癌和癌症转移等。与传统的DNM方法所使用的蛋白质相互作用网络不一样的是,本实施例提出的最小生成树动态网络标志物方法(the minimum-spanning-tree-based dynamical network marker,MST-DNM)将应用于一个根据城市地理信息和邻接关系构建的城市结构网络,以探测城市流感爆发的预警信号。
下面以东京23区2009年-2019年的流感确诊人数作为原始数据,使用基于最小生成树动态网络标志物的城市流感爆发预测方法来识别每一年的预警信号。本实施例不仅指导说明本发明的方法步骤,同时佐证方法的有效性。原始数据收集自日本东京传染病监测中心官方网站。
图1是基于最小生成树动态网络标志物的城市流感爆发预测方法的流程图,以东京的流感爆发预测为例,具体包括以下步骤:
S1、构建东京23区的城市网络模型,具体过程如下:
根据东京23区的地理位置和邻接关系,可以得到一个如图2所示的城市网络结构图。以千代田区为例,与它邻接的有中央区、港区、新宿区、文京区和台东区等五个区,因此在东京城市网络图中,节点1的相邻节点有节点2、3、4、5、6。至此,得到了一个23个节点、53条边的东京城市网络模型。
S2、将城市网络模型中各个行政区的流感确诊人数进行平均处理并将其映射到城市网络模型中,具体过程如下:
由于各区的定点医院数量不一致,因此需要将各个区的流感确诊人数做平均处理,也就是各个行政区的流感确诊人数除以各个行政区的定点医院数量。以2019年第6周的千代田区为例,该区当周流感确诊人数为59例,定点医院共4所,因此平均化处理后的该区当周流感确诊人数数据为14.75例。
将东京23区2009年-2019年期间的各个行政区预处理后的数据以年为单位映射到东京城市网络图的相应节点中,以得到10个随流感确诊人数而动态变化的东京城市网络模型。
S3、使用最小生成树动态网络标志物算法计算MST-DNM分数;
以2013年-2014年进行说明,具体步骤如下:
2)将每个地区每个周的确诊人数看作一个样本,这样就可以得到一系列的时间序列数据。具体地,当网络处于第30周时,每个节点vi都有一个时间序列数据集{s1,s2,…,s30}。
3)当网络处于第t周时,对网络中地每一条边ek,用如下的公式计算这条边两个节点vi,vj的相关性并将其作为边ek的权重:
4)将Kruskal算法应用于第t周的加权差分网络Nt来获取其最小生成树MSTt。然后,计算最小生成树MSTt的权重和Lt作为城市网络第t周的MST-DNM分数:
以第10周的东京城市网络图为例,可以得到它的MST-DNM分数为0.00114。这样就得到了9个1*52的MST-DNM分数向量。
S4、使用逻辑回归模型根据MST-DNM分数识别流感爆发预警信号。
该步骤中使用逻辑回归模型根据步骤S3得到MST-DNM分数向量来识别每一年的流感爆发预警信号。
本实施例中,逻辑回归模型表达式如下:
其中,xi表示模型的输入数据,yi表示xi对应的标签,参数ω由如下的负对数似然函数得到:
其中,||ω||1表示ω中各个元素的绝对值之和。
在本实施例中,展示了2009年-2019年期间一共10年的东京城市流感爆发预测结果,如图2所示。本发明作出的预警信号周距离流感确诊人数爆发周平均提前了4周,这证明本发明有助于东京疾控预防中心能够及早做出预防措施以减少流感带来的经济损失。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种基于最小生成树动态网络标志物的城市流感爆发预测方法,其特征在于,所述的预测方法包括如下步骤:
S1、构建城市网络模型,根据城市的行政区划的地理位置和其毗连关系构建一个城市网络模型,该城市网络模型是加权无向图模型,图模型中的每一个节点都代表城市的一个行政区,每一条边则表示各个行政区之间的毗连关系;
S2、将城市网络模型中各个行政区的流感确诊人数进行平均处理并将其映射到城市网络模型中;
S3、使用最小生成树动态网络标志物算法计算MST-DNM分数,其中,MST-DNM表示最小生成树动态网络标志物;所述的步骤S3使用最小生成树动态网络标志物算法计算MST-DNM分数的过程如下:
城市网络用图G=(V,E)表示,其中表示城市网络中M个节点的集合,表示城市网络中N条边的集合;将每个地区每个周的确诊人数看作一个样本,从而得到一系列的时间序列数据;即当城市网络处于第t周时,每个节点vi都有一个时间序列数据集{s1,s2,...,st};当城市网络处于第t周时,对于城市网络中的每一条边ek,使用如下的公式来计算这条边的两个节点vi,vj之间的相关性并将其作为边ek的权重:
其中,|PCCt(vi,vj)|表示第t周时两个节点vi,vj之间的皮尔逊相关系数,|PCCt-1(vi,vj)|表示第t-1周时两个节点vi,vj之间的皮尔逊相关系数,参数δ由如下公式表示:
δ=||SDt(k)|-|SDt-1(k)||
其中,|SDt(k)|表示第t周时边ek的两个节点vi,vj所有数据的标准差,|SDt-1(k)|表示第t-1周时边ek的两个节点vi,vj所有数据的标准差,至此,对于每一周都会有一个加权差分网络Nt;
将Kruskal算法应用于加权差分网络Nt来获取它的最小生成树MSTt,然后,计算最小生成树MSTt的权重和Lt作为第t周的MST-DNM分数:
其中,Weighti表示最小生成树MSTt中每一条边ei的权重,K表示最小生成树MSTt中边的数量;
S4、使用逻辑回归模型根据MST-DNM分数识别预警信号。
2.根据权利要求1中所述的基于最小生成树动态网络标志物的城市流感爆发预测方法,其特征在于,所述的步骤S2过程如下:
将各个行政区的流感确诊人数除以各个行政区的定点医院数量即得到经过平均处理后的各个行政区的流感确诊人数,然后将经过平均处理后的各个行政区的流感确诊人数以年为单位映射到城市网络模型的相应节点中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010730222.4A CN111968752B (zh) | 2020-07-27 | 2020-07-27 | 基于最小生成树动态网络标志物的城市流感爆发预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010730222.4A CN111968752B (zh) | 2020-07-27 | 2020-07-27 | 基于最小生成树动态网络标志物的城市流感爆发预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968752A CN111968752A (zh) | 2020-11-20 |
CN111968752B true CN111968752B (zh) | 2022-10-21 |
Family
ID=73362746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010730222.4A Active CN111968752B (zh) | 2020-07-27 | 2020-07-27 | 基于最小生成树动态网络标志物的城市流感爆发预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968752B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096276A (zh) * | 2016-06-13 | 2016-11-09 | 江南大学 | 一种基于动态网络标志物的甲流疫情早期预警模型 |
CN107871538A (zh) * | 2016-12-19 | 2018-04-03 | 平安科技(深圳)有限公司 | 基于宏观因子的大数据预测方法及系统 |
CN110444298A (zh) * | 2019-07-02 | 2019-11-12 | 北京大学 | 基于高斯过程模型的流感预测建模方法及装置 |
-
2020
- 2020-07-27 CN CN202010730222.4A patent/CN111968752B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096276A (zh) * | 2016-06-13 | 2016-11-09 | 江南大学 | 一种基于动态网络标志物的甲流疫情早期预警模型 |
CN107871538A (zh) * | 2016-12-19 | 2018-04-03 | 平安科技(深圳)有限公司 | 基于宏观因子的大数据预测方法及系统 |
CN110444298A (zh) * | 2019-07-02 | 2019-11-12 | 北京大学 | 基于高斯过程模型的流感预测建模方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111968752A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akhtar et al. | A dynamic neural network model for predicting risk of Zika in real time | |
Anderson et al. | Identifying clusters in Bayesian disease mapping | |
Dasanayaka et al. | Deep learning methods for screening pulmonary tuberculosis using chest X-rays | |
Chung et al. | Health and GIS: toward spatial statistical analyses | |
CN112820415B (zh) | 一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法 | |
CN106056577B (zh) | 基于mds-srm混合级联的sar图像变化检测方法 | |
CN108986142A (zh) | 基于置信图峰值旁瓣比优化的遮挡目标跟踪方法 | |
WO2022198947A1 (zh) | 密接人群识别方法、装置、电子设备及存储介质 | |
Praveen et al. | Chronic kidney disease prediction using ML-based neuro-fuzzy model | |
EP3584326B1 (en) | Method and system for identification of key driver organisms from microbiome / metagenomics studies | |
Purushotham et al. | A comparative study of RIFCM with other related algorithms from their suitability in analysis of satellite images using other supporting techniques | |
Zhou et al. | The risk management using limit theory of statistics on extremes on the big data era | |
CN111968752B (zh) | 基于最小生成树动态网络标志物的城市流感爆发预测方法 | |
Olivier et al. | Data analytics for improved closest hospital suggestion for EMS operations in New York City | |
Abujayyab et al. | Integrating object-based and pixel-based segmentation for building footprint extraction from satellite images | |
Zhang et al. | Prediction of human protein–protein interaction by a domain-based approach | |
Chen et al. | Predicting temporal propagation of seasonal influenza using improved gaussian process model | |
Kao et al. | Early prediction of coronavirus disease epidemic severity in the contiguous United States based on deep learning | |
CN116756376A (zh) | 一种基于互信息度量的时序数据因果发现方法 | |
Gu et al. | Partitioning around medoids clustering and random forest classification for GIS-informed imputation of fluoride concentration data | |
CN111968757A (zh) | 一种基于动态网络标志物的区域性传染病疫情预警方法 | |
Zaeri | Artificial intelligence and machine learning responses to COVID-19 related inquiries | |
Cecchetti | Why introduce machine learning to rural health care? | |
Mohapatra et al. | Data-driven symptom analysis and location prediction model for clinical health data processing and knowledgebase development for COVID-19 | |
Amshi et al. | Forecasting cholera disease using SARIMA and LSTM models with discrete wavelet transform as feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |