CN111554408A - 城市内部登革热时空预测方法、系统及电子设备 - Google Patents

城市内部登革热时空预测方法、系统及电子设备 Download PDF

Info

Publication number
CN111554408A
CN111554408A CN202010346736.XA CN202010346736A CN111554408A CN 111554408 A CN111554408 A CN 111554408A CN 202010346736 A CN202010346736 A CN 202010346736A CN 111554408 A CN111554408 A CN 111554408A
Authority
CN
China
Prior art keywords
dengue
city
data
dengue fever
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010346736.XA
Other languages
English (en)
Other versions
CN111554408B (zh
Inventor
刘康
尹凌
奚桂锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202010346736.XA priority Critical patent/CN111554408B/zh
Publication of CN111554408A publication Critical patent/CN111554408A/zh
Priority to PCT/CN2020/139657 priority patent/WO2021218207A1/zh
Application granted granted Critical
Publication of CN111554408B publication Critical patent/CN111554408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种城市内部登革热时空预测方法,包括:采集城市内部登革热相关数据并进行预处理;构建反映城市内部区域空间关系的图结构;选择用于登革热时空预测的输入特征;根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行城市内部登革热时空预测。本发明还涉及一种城市内部登革热时空预测系统及电子设备。本发明能够充分考虑城市内部各区域之间的空间关系,实现了更细空间尺度上的预测,提高预测性能,提升登革热的精准防控水平。

Description

城市内部登革热时空预测方法、系统及电子设备
技术领域
本发明涉及一种城市内部登革热时空预测方法、系统及电子设备。
背景技术
近几十年来,作为一种蚊媒传播传染病,登革热(dengue fever)已在热带与亚热带地区流行,尤其是新加坡、马来西亚等东南亚国家和地区。在中国,处于亚热带地区的广东省尤其是广州市作为经济发达、贸易活跃和人员流动频繁的地区,每年夏秋季节均会受登革热病毒侵袭。广州市2014年登革热病例多达三万七千多例,对居民生命健康产生了较严重的威胁。
在目前尚缺有效疫苗的情况下,媒介控制(如喷洒灭蚊剂消除成蚊、清除伊蚊孳生地等)仍然是登革热防控的主要方式。在此背景下,对登革热未来发病数量和发病位置进行准确预测预警成为防控的关键。
目前已存在不少登革热预测预警的相关研究,研究者主要基于传统统计模型和机器学习模型对研究区域未来的登革热病例数量进行预测。然而,目前的研究都是对国家、州(省份)或城市未来一段时段(如1周、2周、1个月等)的病例数进行整体时序预测,但对城市内部进行精细空间尺度(如乡镇/街道行政)的预测却较为鲜见。城市内部精细空间尺度的登革热预测颇具挑战性,其主要原因在于城市人口密集而内部人口流动频繁,疾病在城市内部区域之间的传播更为迅速,对每个区域单独建模进行预测容易忽视区域之间的空间关系而无法达到较好的预测效果。
发明内容
有鉴于此,有必要提供一种城市内部登革热时空预测方法、系统及电子设备。
本发明提供一种城市内部登革热时空预测方法,该方法包括如下步骤:a.采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;b.构建反映城市内部区域空间关系的图结构;c.选择用于登革热时空预测的输入特征;d.根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练。
其中,该方法还包括步骤e:对所述GCN模型的预测性能进行评估。
所述的步骤a具体包括:
对采集的登革热病例数据预处理:将病例家庭住址转为经纬度坐标;确定每个病例所在乡镇;根据每个病例的发病日期,统计每个周次每个乡镇的发病病例数量,构成W*N的病例数量矩阵,W为周次数量,N为乡镇数量;
对采集的气象数据预处理:获取城市内所有气象观测站所记录的每日平均温和降雨量,使用克里金法分别对其进行空间插值;将插值后的数据分周次聚合至乡镇级别,统计每个周次每个乡镇的平均温和累积降雨量,构成W*N的平均温矩阵和累积降雨量矩阵;
对采集的人口分布数据预处理包括:将人口分布数据聚合至乡镇级别,获取每个乡镇的总人口。
所述的步骤b具体包括如下步骤:
获取乡镇与乡镇之间的邻接关系;
将乡镇视为点,乡镇之间的邻接关系视为边,构建图结构。
所述的步骤c具体包括:
选择文献中常用的、与登革热传播和爆发有密切关系的特征作为输入特征。
所述的GCN模型由一层输入层、至少两层隐藏层及一层输出层构成;所述至少两层隐藏层后分别使用整流线性函数ReLU和双曲正切函数tanh作为激活函数。
步骤d中所述对GCN模型进行训练包括:
根据所述GCN模型的输入、输出需求及不同预测窗口,整理K套数据集,每套所述数据集均划分为训练集和验证集;
使用每个预测窗口下的训练集分别对构建的GCN模型进行训练。
所述的步骤e具体包括:
将每个预测窗口下的验证集,分别输入对应训练好的GCN模型,获得未来第t周的预测结果;
使用击中率评估预测性能:第t周预测结果的击中率定义如下:
Figure BDA0002469318320000041
其中,Nm,t表示将第t周所预测的城市内部所有乡镇病例数量按照从高到低排名,排名前m%的高风险街镇的实际病例数量之和;Nt表示第t周该城市的实际病例总数量。
本发明提供一种城市内部登革热时空预测系统,该系统包括预处理单元、图结构构建单元、选择单元、模型构建单元,其中:所述预处理单元用于采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;所述图结构构建单元用于构建反映城市内部区域空间关系的图结构;所述选择单元用于选择用于登革热时空预测的输入特征;所述模型构建单元用于根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练。
其中,所述系统还包括:评估单元,用于对所述GCN模型的预测性能进行评估。
本发明还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述1至8任一项所述的城市内部传染病扩散模拟方法的以下操作:
步骤a:采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
步骤b:构建反映城市内部区域空间关系的图结构;
步骤c:选择用于登革热时空预测的输入特征;
步骤d:根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
相比于现有技术对国家、省(州)和城市的整体时序预测,本发明面向城市内部各区域,实现了更细空间尺度上的预测,在预测城市内部各区域未来的登革热病例数量时,充分考虑各区域之间的空间关系,有助于捕捉登革热在城市内部的传播特征,有效提高预测性能,提升登革热的精准防控水平。
附图说明
图1为本发明城市内部登革热时空预测方法的流程图;
图2为本发明实施例提供的城市内部区域空间关系构建过程示意图;
图3为本发明实施例提供的图卷积神经网络模型的结构示意图;
图4为本发明城市内部登革热时空预测系统的硬件架构图;
图5为本发明实施例提供的城市内部登革热时空预测方法的硬件设备结构示意图;
图6为本发明实施例一广州市乡镇尺度的登革热预测效果对比示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
本实施例以乡镇尺度的预测进行说明,本发明同样适用于以其他方式划分的城市内部空间单元,如行政区、交通分析小区、格网等。
参阅图1所示,是本发明城市内部登革热时空预测方法较佳实施例的作业流程图。
步骤S1,采集城市内部登革热相关数据并进行预处理。具体而言:
所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件(shapefile)。所述气象数据包括城市内气象监测站所采集的每日平均温度与降雨量。
其中,所述登革热病例数据从国家/省/市的疾病预防与控制中心申请获取,所述登革热病例数据包括:每个病例的发病日期及家庭住址;所述气象数据从国家/省/市气象局申请获取;所述人口分布数据从开源的全球人口数据项目WorldPop网站(https://www.worldpop.org/)获取。
对采集的登革热病例数据预处理包括:首先使用地理编码方法将病例家庭住址转换为经纬度坐标,并将所有病例点根据其经纬度坐标导入ArcGIS,获取点类型的矢量文件;然后使用ArcGIS软件中的Spatial Join工具将病例(点类型的矢量文件)与乡镇(面类型的矢量文件,也即乡镇矢量文件)关联起来,确定每个病例所在乡镇;最后根据每个病例的发病日期,统计每个周次每个乡镇的发病病例数量,构成W*N的病例数量矩阵,W为周次数量,N为乡镇数量。
对采集的气象数据预处理包括:获取城市内所有气象观测站所记录的每日平均温和降雨量,首先使用克里金法分别对其进行空间插值;然后将插值后的数据分周次聚合至乡镇级别,统计每个周次每个乡镇的平均温和累积降雨量,构成W*N的平均温矩阵和累积降雨量矩阵。在本实施例中,空间插值及数据聚合使用Python语言的ArcPy工具包批量处理。
对采集的人口分布数据预处理包括:本实施例使用ArcGIS软件将从WorldPop网站下载2015年100米分辨率的人口分布数据聚合至乡镇级别,获取每个乡镇的总人口。
步骤S2,根据区域间的邻近关系构建反映城市内部区域空间关系的图结构。
具体而言,所述步骤S2包括:
步骤201:利用ArcGIS软件的Spatial Join功能从乡镇矢量文件中获取乡镇与乡镇之间的邻接关系。
步骤202:将乡镇视为点,乡镇之间的邻接关系视为边,构建图结构。本实施例图结构A、B的构建过程示意图请参考图2。
步骤S3,选择用于登革热预测的输入特征。具体而言:
本实施例选择文献中常用的、与登革热传播和爆发有密切关系的四类特征,包括当前周及过去周的病例数量、平均温、累积降雨量及人口数量。如表1所示,共计13个特征。其中,所述平均温和所述累积降雨量与蚊媒生存适宜性有关;由于登革热是传染病,因此未来病例数量与过去病例数量及人口数量也密切相关。
值得注意的是,本实施例所选输入特征不强制限定本发明所用的这13种,选择其他合理的输入特征及其组合也在本发明保护范围内。
表1.用于登革热预测的输入特征
Figure BDA0002469318320000081
步骤S4,根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练。
具体而言,所述步骤S4包括:
步骤401:模型构建。本实施例使用的图卷积神经网络模型由Kipf Thomas N和MaxWelling于2016年提出,其基本结构如图3所示。该模型由一层输入层、两层隐藏层(也可设置更多隐藏层)和一层输出层构成;两层隐藏层后分别使用整流线性函数ReLU和双曲正切函数tanh作为激活函数。
所述输入层的输入数据为:1)步骤S2构建的图结构A;2)N*D的特征矩阵X=N*D,其中,N为节点(即乡镇)数量,D为特征数量。所述输出层输出的是N个节点(即乡镇)未来第T+k周的登革热病例数量,其中k为预测窗口,k=1,2,…,K。
步骤402:模型训练。根据GCN模型的输入和输出需求,及预测窗口不同,整理K套数据集;每套所述数据集均以一定比例划分训练集和验证集:在本实施例中,数据集所有周次中前75%周次的数据用以训练,后25%周次的数据用以验证;使用每个预测窗口下的训练集分别对构建的GCN模型进行训练。
实现GCN模型的构建与训练可参考以下基于主流深度学习框架的开源代码:
https://github.com/tkipf/gcn
https://github.com/tkipf/pygcn
https://github.com/tkipf/keras-gcn。
步骤S5:对所述GCN模型的预测性能进行评估。具体而言:
将每个预测窗口下的验证集,分别输入对应训练好的GCN模型,相应获得未来第k周的预测值(即各乡镇的病例数量)。由于预测的主要目的是在城市内部多个街镇中识别其中的高风险街镇,以针对性布设防控措施,因此,本实施例使用击中率(hit rate)评估预测性能。第t周预测结果的击中率定义如下:
Figure BDA0002469318320000091
其中,Nm,t表示将第t周所预测的城市内部所有乡镇病例数量按照从高到低排名,排名前m%的高风险街镇的实际病例数量之和;Nt表示第t周该城市的实际病例总数量。
参阅图4所示,是本发明城市内部登革热时空预测系统10的硬件架构图。该系统包括:预处理单元101、图结构构建单元102、选择单元103、模型构建单元104以及评估单元105。
所述预处理单元101用于采集城市内部登革热相关数据并进行预处理。具体而言:
所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件(shapefile)。所述气象数据包括城市内气象监测站所采集的每日平均温度与降雨量。
其中,所述登革热病例数据从国家/省/市的疾病预防与控制中心申请获取,所述登革热病例数据包括:每个病例的发病日期及家庭住址;所述气象数据从国家/省/市气象局申请获取;所述人口分布数据从开源的全球人口数据项目WorldPop网站(https://www.worldpop.org/)获取。
所述预处理单元101对采集的登革热病例数据预处理包括:首先使用地理编码方法将病例家庭住址转换为经纬度坐标,并将所有病例点根据其经纬度坐标导入ArcGIS,获取点类型的矢量文件;然后使用ArcGIS软件中的Spatial Join工具将病例(点类型的矢量文件)与乡镇(面类型的矢量文件,也即乡镇矢量文件)关联起来,确定每个病例所在乡镇;最后根据每个病例的发病日期,统计每个周次每个乡镇的发病病例数量,构成W*N的病例数量矩阵,W为周次数量,N为乡镇数量。
所述预处理单元101对采集的气象数据预处理包括:获取城市内所有气象观测站所记录的每日平均温和降雨量,首先使用克里金法分别对其进行空间插值;然后将插值后的数据分周次聚合至乡镇级别,统计每个周次每个乡镇的平均温和累积降雨量,构成W*N的平均温矩阵和累积降雨量矩阵。在本实施例中,空间插值及数据聚合使用Python语言的ArcPy工具包批量处理。
所述预处理单元101对采集的人口分布数据预处理包括:本实施例使用ArcGIS软件将从WorldPop网站下载2015年100米分辨率的人口分布数据聚合至乡镇级别,获取每个乡镇的总人口。
所述图结构构建单元102用于根据区域间的邻近关系构建反映城市内部区域空间关系的图结构。具体而言:
所述图结构构建单元102利用ArcGIS软件的Spatial Join功能从乡镇矢量文件中获取乡镇与乡镇之间的邻接关系。
将乡镇视为点,乡镇之间的邻接关系视为边,构建图结构。本实施例图结构A、B的构建过程示意图请参考图2。
所述选择单元103用于选择用于登革热预测的输入特征。具体而言:
本实施例中,所述选择单元103选择文献中常用的、与登革热传播和爆发有密切关系的四类特征,包括当前周及过去周的病例数量、平均温、累积降雨量及人口数量。如表1所示,共计13个特征。其中,所述平均温和所述累积降雨量与蚊媒生存适宜性有关;由于登革热是传染病,因此未来病例数量与过去病例数量及人口数量也密切相关。
值得注意的是,本实施例所选输入特征不强制限定本发明所用的这13种,选择其他合理的输入特征及其组合也在本发明保护范围内。
表1.用于登革热预测的输入特征
Figure BDA0002469318320000121
所述模型构建单元104用于根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练。具体而言:
所述模型构建单元104进行模型构建。本实施例使用的图卷积神经网络模型由Kipf Thomas N和Max Welling于2016年提出,其基本结构如图3所示。该模型由一层输入层、两层隐藏层(也可设置更多隐藏层)和一层输出层构成;两层隐藏层后分别使用整流线性函数ReLU和双曲正切函数tanh作为激活函数。
所述输入层的输入数据为:1)步骤S2构建的图结构A;2)N*D的特征矩阵X=N*D,其中,N为节点(即乡镇)数量,D为特征数量。所述输出层输出的是N个节点(即乡镇)未来第T+k周的登革热病例数量,其中k为预测窗口,k=1,2,…,K。
所述模型构建单元104进行模型训练。根据GCN模型的输入和输出需求,及预测窗口不同,整理K套数据集;每套所述数据集均以一定比例划分训练集和验证集:在本实施例中,数据集所有周次中前75%周次的数据用以训练,后25%周次的数据用以验证;使用每个预测窗口下的训练集分别对构建的GCN模型进行训练。
实现GCN模型的构建与训练可参考以下基于主流深度学习框架的开源代码:
https://github.com/tkipf/gcn
https://github.com/tkipf/pygcn
https://github.com/tkipf/keras-gcn。
所述评估单元105用于对所述GCN模型的预测性能进行评估。
具体而言:
所述评估单元105将每个预测窗口下的验证集,分别输入对应训练好的GCN模型,相应获得未来第k周的预测值(即各乡镇的病例数量)。由于预测的主要目的是在城市内部多个街镇中识别其中的高风险街镇,以针对性布设防控措施,因此,本实施例使用击中率(hit rate)评估预测性能。第t周预测结果的击中率定义如下:
Figure BDA0002469318320000131
其中,Nm,t表示将第t周所预测的城市内部所有乡镇病例数量按照从高到低排名,排名前m%的高风险街镇的实际病例数量之和;Nt表示第t周该城市的实际病例总数量。
图5是本申请实施例提供的城市内部传染病扩散模拟方法的硬件设备结构示意图。如图5所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器作为一种非暂态计算机可读电子设备,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
步骤b:构建反映城市内部区域空间关系的图结构;
步骤c:选择用于登革热时空预测的输入特征;
步骤d:根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机电子设备,所述计算机电子设备存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
步骤b:构建反映城市内部区域空间关系的图结构;
步骤c:选择用于登革热时空预测的输入特征;
步骤d:根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读电子设备上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
步骤b:构建反映城市内部区域空间关系的图结构;
步骤c:选择用于登革热时空预测的输入特征;
步骤d:根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
本申请实施例一实验结果:
本申请实施例一以广东省167个乡镇为例进行了实验。研究时段自2015年1月1日至2019年9月22日,共247个周次。其中,第5周至第195周的数据用于模型训练,第196周至第247周的数据用于模型验证。预测窗口k取1,2,…,8。
对比方法为当前登革热预测研究中常用并被证明效果相对较好的LASSO(leastabsolute shrinkage and selection operator)和SVM(support vector machine)回归模型。使用上述两种模型对各乡镇进行单独预测。
图6为以击中率作为评价指标的模型效果对比图。可以看出,相比基于LASSO和SVM回归模型的登革热预测方法,本发明所提采用GCN的登革热预测方法预测性能整体表现更优,充分说明了本发明的有效性。
本发明首次引入了深度学习模型图卷积神经网络(Graph ConvolutionalNetwork,GCN),充分考虑城市内部区域之间的空间关系以捕捉疾病在空间上的传播,对各区域进行联合预测,取得了更准确的预测效果。从而为防控相关部门提供决策支持,避免浪费人力物力,减少生命健康和财产损失。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (11)

1.一种城市内部登革热时空预测方法,其特征在于,该方法包括如下步骤:
a.采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
b.构建反映城市内部区域空间关系的图结构;
c.选择用于登革热时空预测的输入特征;
d.根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
2.如权利要求1所述的方法,其特征在于,该方法还包括步骤e:
对所述GCN模型的预测性能进行评估。
3.如权利要求1或2所述的方法,其特征在于,所述的步骤a具体包括:
对采集的登革热病例数据预处理:将病例家庭住址转换为经纬度坐标;确定每个病例所在乡镇;根据每个病例的发病日期,统计每个周次每个乡镇的发病病例数量,构成W*N的病例数量矩阵,W为周次数量,N为乡镇数量;
对采集的气象数据预处理:获取城市内所有气象观测站所记录的每日平均温和降雨量,使用克里金法分别对其进行空间插值;将插值后的数据分周次聚合至乡镇级别,统计每个周次每个乡镇的平均温和累积降雨量,构成W*N的平均温矩阵和累积降雨量矩阵;
对采集的人口分布数据预处理包括:将人口分布数据聚合至乡镇级别,获取每个乡镇的总人口。
4.如权利要求3所述的方法,其特征在于,所述的步骤b具体包括如下步骤:
获取乡镇与乡镇之间的邻接关系;
将乡镇视为点,乡镇之间的邻接关系视为边,构建图结构。
5.如权利要求4所述的方法,其特征在于,所述的步骤c具体包括:
选择文献中常用的、与登革热传播和爆发有密切关系的特征作为输入特征。
6.如权利要求5所述的方法,其特征在于,所述的GCN模型由一层输入层、至少两层隐藏层及一层输出层构成;所述至少两层隐藏层后分别使用整流线性函数ReLU和双曲正切函数tanh作为激活函数。
7.如权利要求6所述的方法,其特征在于,步骤d中所述对GCN模型进行训练包括:
根据所述GCN模型的输入、输出需求及不同预测窗口,整理K套数据集,每套所述数据集均划分为训练集和验证集;
使用每个预测窗口下的训练集分别对构建的GCN模型进行训练。
8.如权利要求7所述的方法,其特征在于,所述的步骤e具体包括:
将每个预测窗口下的验证集,分别输入对应训练好的GCN模型,获得未来第t周的预测结果;
使用击中率(hit rate)评估预测性能:第t周预测结果的击中率定义如下:
Figure FDA0002469318310000031
其中,Nm,t表示将第t周所预测的城市内部所有乡镇病例数量按照从高到低排名,排名前m%的高风险街镇的实际病例数量之和;Nt表示第t周该城市的实际病例总数量。
9.一种城市内部登革热时空预测系统,其特征在于,该系统包括预处理单元、图结构构建单元、选择单元、模型构建单元,其中:
所述预处理单元用于采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
所述图结构构建单元用于构建反映城市内部区域空间关系的图结构;
所述选择单元用于选择用于登革热时空预测的输入特征;
所述模型构建单元用于根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
10.如权利要求9所述的系统,其特征在于,所述系统还包括:
评估单元,用于对所述GCN模型的预测性能进行评估。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述权利要求1至8任一项所述的城市内部传染病扩散模拟方法的以下操作:
步骤a:采集城市内部登革热相关数据并进行预处理,所述城市内部登革热相关数据包括:所研究城市的登革热病例数据、气象数据、人口分布数据、乡镇矢量文件;
步骤b:构建反映城市内部区域空间关系的图结构;
步骤c:选择用于登革热时空预测的输入特征;
步骤d:根据预处理后的城市内部登革热相关数据、构建的图结构、选择的输入特征,对GCN模型进行构建与训练,以使用所述GCN模型进行登革热时空预测。
CN202010346736.XA 2020-04-27 2020-04-27 城市内部登革热时空预测方法、系统及电子设备 Active CN111554408B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010346736.XA CN111554408B (zh) 2020-04-27 2020-04-27 城市内部登革热时空预测方法、系统及电子设备
PCT/CN2020/139657 WO2021218207A1 (zh) 2020-04-27 2020-12-25 城市内部登革热时空预测方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010346736.XA CN111554408B (zh) 2020-04-27 2020-04-27 城市内部登革热时空预测方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN111554408A true CN111554408A (zh) 2020-08-18
CN111554408B CN111554408B (zh) 2024-04-19

Family

ID=72004089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010346736.XA Active CN111554408B (zh) 2020-04-27 2020-04-27 城市内部登革热时空预测方法、系统及电子设备

Country Status (2)

Country Link
CN (1) CN111554408B (zh)
WO (1) WO2021218207A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185566A (zh) * 2020-10-14 2021-01-05 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112397205A (zh) * 2020-12-08 2021-02-23 中国气象局广州热带海洋气象研究所 一种基于气象学模型的登革热传染病预测方法
WO2021218207A1 (zh) * 2020-04-27 2021-11-04 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、系统及电子设备
CN114360739A (zh) * 2022-01-05 2022-04-15 中国科学院地理科学与资源研究所 一种基于遥感云计算与深度学习的登革热风险预测方法
CN114464329A (zh) * 2021-12-31 2022-05-10 中国科学院深圳先进技术研究院 一种城市疫情时空预测方法、系统、终端以及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115036040A (zh) * 2022-06-28 2022-09-09 福州大学 融合发热人数和人口背景数据的流行病疫情时空预警方法
CN117973184A (zh) * 2024-01-04 2024-05-03 南京中禹智慧水利研究院有限公司 考虑时空特征的城市内涝智能预报模型构建方法
CN118016318B (zh) * 2024-04-08 2024-06-14 中国科学院地理科学与资源研究所 基于图神经网络的人兽共患病风险预测模型的构建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279076A (ja) * 2001-03-16 2002-09-27 Pasuko:Kk 感染症伝播解析システム及びその伝播シミュレーションシステム
CN102682188A (zh) * 2011-03-15 2012-09-19 中国科学院遥感应用研究所 一种城市级传染病模拟的方法及装置
US20170103172A1 (en) * 2015-10-07 2017-04-13 The Arizona Board Of Regents On Behalf Of The University Of Arizona System And Method To Geospatially And Temporally Predict A Propagation Event
CN108172301A (zh) * 2018-01-31 2018-06-15 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
CN109545386A (zh) * 2018-11-02 2019-03-29 深圳先进技术研究院 一种基于深度学习的流感时空预测方法及装置
CN109859854A (zh) * 2018-12-17 2019-06-07 中国科学院深圳先进技术研究院 传染病预测方法、装置、电子设备及计算机可读介质
CN110136842A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 急性传染病的发病预测方法、装置及计算机可读存储介质
CN110459329A (zh) * 2019-07-11 2019-11-15 广东省公共卫生研究院 一种登革热风险综合评估方法
CN110610767A (zh) * 2019-08-01 2019-12-24 平安科技(深圳)有限公司 发病率监测方法、装置、设备及存储介质
CN110993119A (zh) * 2020-03-04 2020-04-10 同盾控股有限公司 基于人口迁移的疫情预测方法、装置、电子设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554408B (zh) * 2020-04-27 2024-04-19 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、系统及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279076A (ja) * 2001-03-16 2002-09-27 Pasuko:Kk 感染症伝播解析システム及びその伝播シミュレーションシステム
CN102682188A (zh) * 2011-03-15 2012-09-19 中国科学院遥感应用研究所 一种城市级传染病模拟的方法及装置
US20170103172A1 (en) * 2015-10-07 2017-04-13 The Arizona Board Of Regents On Behalf Of The University Of Arizona System And Method To Geospatially And Temporally Predict A Propagation Event
CN108172301A (zh) * 2018-01-31 2018-06-15 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
CN109545386A (zh) * 2018-11-02 2019-03-29 深圳先进技术研究院 一种基于深度学习的流感时空预测方法及装置
CN109859854A (zh) * 2018-12-17 2019-06-07 中国科学院深圳先进技术研究院 传染病预测方法、装置、电子设备及计算机可读介质
CN110136842A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 急性传染病的发病预测方法、装置及计算机可读存储介质
CN110459329A (zh) * 2019-07-11 2019-11-15 广东省公共卫生研究院 一种登革热风险综合评估方法
CN110610767A (zh) * 2019-08-01 2019-12-24 平安科技(深圳)有限公司 发病率监测方法、装置、设备及存储介质
CN110993119A (zh) * 2020-03-04 2020-04-10 同盾控股有限公司 基于人口迁移的疫情预测方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵永谦: "珠三角地区精细空间尺度的登革热风险评估模型构建研究" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218207A1 (zh) * 2020-04-27 2021-11-04 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、系统及电子设备
CN112185566A (zh) * 2020-10-14 2021-01-05 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112185566B (zh) * 2020-10-14 2021-08-13 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112397205A (zh) * 2020-12-08 2021-02-23 中国气象局广州热带海洋气象研究所 一种基于气象学模型的登革热传染病预测方法
CN114464329A (zh) * 2021-12-31 2022-05-10 中国科学院深圳先进技术研究院 一种城市疫情时空预测方法、系统、终端以及存储介质
CN114360739A (zh) * 2022-01-05 2022-04-15 中国科学院地理科学与资源研究所 一种基于遥感云计算与深度学习的登革热风险预测方法

Also Published As

Publication number Publication date
CN111554408B (zh) 2024-04-19
WO2021218207A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
CN111554408A (zh) 城市内部登革热时空预测方法、系统及电子设备
Meyer et al. Power-law models for infectious disease spread
Wu et al. A novel optimal-hybrid model for daily air quality index prediction considering air pollutant factors
JP6770125B2 (ja) 建築物改装に伴う損害防止の推定
CN111639787B (zh) 一种基于图卷积网络的时空数据预测方法
Hashem et al. Change analysis of land use/land cover and modelling urban growth in Greater Doha, Qatar
CN108172301A (zh) 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
CN107045506A (zh) 评估指标获取方法及装置
CN110727717A (zh) 网格化大气污染强度的监控方法、装置、设备和存储介质
US20230153767A1 (en) Method and internet of things system for waste cleaning volume prediction in smart city
CN109242170A (zh) 一种基于数据挖掘技术的城市道路管理系统及方法
CN111079999A (zh) 一种基于cnn和svm的洪水灾害易发性预测方法
Deluca et al. Data-driven prediction of thresholded time series of rainfall and self-organized criticality models
CN114388137A (zh) 城市流感发病趋势预测方法、系统、终端以及存储介质
WO2023151215A1 (zh) 预测模型的建立方法和装置、存储介质及电子装置
CN110989043B (zh) 空气质量指数级别概率预报方法、装置及存储介质
CN117424886A (zh) 一种智慧水务业务管控平台及管控方法
Hy et al. Temporal multiresolution graph neural networks for epidemic prediction
CN112651574B (zh) 基于p中位遗传算法的选址方法、装置及电子设备
CN116721781A (zh) 虫媒传染病传播风险的预测方法、装置、电子设备及介质
CN115456238A (zh) 一种基于动态多视图耦合图卷积的城市出行需求预测方法
CN112686159B (zh) 过敏植物分布统计方法以及装置
CN115375020A (zh) 一种轨道交通关键od对的流量预测方法及系统
CN115858506A (zh) 炼化环境空气清洁度预测方法、装置、电子设备及存储介质
CN117521908B (zh) 一种城市空间区域适配性评估方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant