CN116721781A - 虫媒传染病传播风险的预测方法、装置、电子设备及介质 - Google Patents
虫媒传染病传播风险的预测方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116721781A CN116721781A CN202310844212.7A CN202310844212A CN116721781A CN 116721781 A CN116721781 A CN 116721781A CN 202310844212 A CN202310844212 A CN 202310844212A CN 116721781 A CN116721781 A CN 116721781A
- Authority
- CN
- China
- Prior art keywords
- risk
- target
- determining
- prediction model
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000015181 infectious disease Diseases 0.000 title claims abstract description 88
- 208000035473 Communicable disease Diseases 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000005541 medical transmission Effects 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 title description 17
- 241000238631 Hexapoda Species 0.000 title description 13
- 230000005540 biological transmission Effects 0.000 claims abstract description 78
- 238000013058 risk prediction model Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims description 43
- 238000007637 random forest analysis Methods 0.000 claims description 30
- 238000012952 Resampling Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 201000010099 disease Diseases 0.000 claims description 12
- 239000004973 liquid crystal related substance Substances 0.000 claims description 5
- 208000025729 dengue disease Diseases 0.000 description 32
- 208000001490 Dengue Diseases 0.000 description 30
- 206010012310 Dengue fever Diseases 0.000 description 30
- 241000255925 Diptera Species 0.000 description 13
- 238000005070 sampling Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000001556 precipitation Methods 0.000 description 7
- 230000007480 spreading Effects 0.000 description 7
- 238000003892 spreading Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000003449 preventive effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 241000725619 Dengue virus Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 241000256111 Aedes <genus> Species 0.000 description 2
- 241000256118 Aedes aegypti Species 0.000 description 2
- 241000256173 Aedes albopictus Species 0.000 description 2
- 206010003399 Arthropod bite Diseases 0.000 description 2
- 102000002322 Egg Proteins Human genes 0.000 description 2
- 108010000912 Egg Proteins Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000004681 ovum Anatomy 0.000 description 2
- 230000001766 physiological effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035900 sweating Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000002028 Biomass Substances 0.000 description 1
- 102000006463 Talin Human genes 0.000 description 1
- 108010083809 Talin Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种虫媒传染病传播风险的预测方法、装置、电子设备及介质。本发明涉及传染病传播风险预测技术领域,该方法包括:确定目标区域内影响疾病传播的多个影响变量,并确定每个影响变量对应的第一预测模型;分别基于每个第一预测模型对虫媒传染病传播风险进行预测,并基于每个第一预测模型的传播风险预测结果确定每个影响变量对应的传播风险预测准确度;确定多个影响变量之间的相关性,并基于预测准确度和相关性,从多个影响变量中确定出至少一个目标变量;基于目标变量确定目标风险预测模型,以对待预测区域的虫媒传染病传播风险进行预测。本发明实施例的技术方案实现了在精细空间尺度上对传染病传播风险进行预测。
Description
技术领域
本发明涉及虫媒传染病传播风险预测技术领域,尤其涉及虫媒传染病传播风险的预测方法、装置、电子设备及介质。
背景技术
传染病的传播与流行主要受到自然因素和社会经济因素的共同作用。一些传染病通过蚊虫来传播,温度主要通过影响病毒和蚊虫的生理活性来影响传染病的传播,温度过高或过低都会阻止蚊媒的发育。另一方面温度升高会改变人群的穿着,使更多的皮肤裸露在外,加之出汗等原因也会增加蚊虫叮咬机会。降雨可控制传播媒介的种群数量以及生存环境,蚊虫从卵到孵化都存活在水中,潮湿多雨的地方容易滋生蚊虫,适度的降雨能够为传播媒介提供适宜的栖息地,但强降雨也会冲击蚊虫栖息地,从而不利于蚊虫种群发展。不同的土地利用类型则可直接影响病媒种群的栖息地状态进而影响传染病的传播风险,三种因素都是通过对伊蚊产生影响进而影响传染病的传播。人口密度、道路密度、公共交通站和医疗机构的数量同样对传染病的发病率产生重要影响,在人口密度较高的地区,人口流动量随之升高,感染者的存在可能加速传染病的传播,较密集的道路网和公共交通站(公交车站、地铁站)等基础设施在为中心地区居民的出行提供便利的同时,也增大了传染病传播的空间距离。医疗机构的数量则可以反映出当地对传染病发病率防控的能力,在医疗机构多的地区,传染病疫情控制能力相对较强。
在探究影响虫媒传染病传播因素的基础上,研究者试图通过模拟相关因素与虫媒传染病传播风险的关系来实现疾病风险预测或评估。现有的方案中,主要是从区县的角度上预测了某地区多个县的虫媒传染病暴发风险。还有的方案是应用长短记忆网络,结合温度、相对湿度、气压和社交网络数据,在城市尺度下对某地区的多个城市建立了虫媒传染病预测模型。
但上述研究的空间分析尺度多是从市、区县级尺度下进行的分析,空间尺度较大,得到的风险预测结果也是大尺度空间的结果,难以为传染病的精准防控措施制的定提供直接参考。此外,由于病例在空间尺度上分布是不平衡的,通过现有的技术方案得到的预测结果也是不准确的。因此,如何解决当前传染病预测的方案中,空间尺度较大,难以实现精准预测并精准防控,且未考虑病例分布不平衡的问题。
发明内容
本发明提供了一种虫媒传染病传播风险的预测方法、装置、电子设备及介质,以实现处于病例样本不平衡问题的前提下,在精细空间尺度上对的传染病空间分布进行预测,为风险严重区域优先开展预防工作提供指导。
根据本发明的一方面,提供了一种虫媒传染病传播风险的预测方法,包括:
确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个所述影响变量对应的第一预测模型;
分别基于每个所述第一预测模型对虫媒传染病传播风险进行预测,并基于每个所述第一预测模型的传播风险预测结果确定每个所述影响变量对应的传播风险预测准确度;
确定多个所述影响变量之间的相关性,并基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量;
基于至少一个所述目标变量确定目标风险预测模型,以基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测。
根据本发明的另一方面,提供了一种虫媒传染病传播风险的预测装置,包括:
第一预测模型确定模块,用于确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个所述影响变量对应的第一预测模型;
预测准确度确定模块,用于分别基于每个所述第一预测模型对虫媒传染病传播风险进行预测,并基于每个所述第一预测模型的传播风险预测结果确定每个所述影响变量对应的传播风险预测准确度;
目标变量确定模块,用于确定多个所述影响变量之间的相关性,并基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量;
传播风险预测模块,用于基于至少一个所述目标变量确定目标风险预测模型,以基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的虫媒传染病传播风险的预测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的虫媒传染病传播风险的预测方法。
本发明实施例的技术方案,通过确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个影响变量对应的第一预测模型;分别基于每个第一预测模型对虫媒传染病传播风险进行预测,并基于每个第一预测模型的传播风险预测结果确定每个影响变量对应的传播风险预测准确度;确定多个影响变量之间的相关性,并基于预测准确度和相关性,从多个影响变量中确定出至少一个目标变量;基于至少一个目标变量确定目标风险预测模型,以基于目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测,解决了现有技术是在大尺度空间对虫媒传染病传播风险预测,且未考虑样本不平衡,导致预测结果不准确的问题,实现在精细空间尺度上对的虫媒传染病传播的风险进行预测,为风险严重区域优先开展预防工作提供指导。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供了一种虫媒传染病传播风险的预测方法的流程图;
图2为本发明实施例二适用的单一变量之间相关系数图;
图3为单变量预测模型检验AUC值示意图;
图4为随机森林模型对各变量的重要性排序图;
图5为本发明实施例三提供的一种虫媒传染病传播风险的预测装置的结构示意图;
图6示出了可以用来实施本发明的实施例的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种虫媒传染病传播风险的预测方法的流程图,本实施例可适用于对虫媒传染病传播风险进行预测情况,该方法可以由虫媒传染病传播风险的预测装置来执行,该虫媒传染病传播风险的预测装置可以采用硬件和/或软件的形式实现,该虫媒传染病传播风险的预测装置可配置于计算机设备中。如图1所示,该方法包括:
S110、确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个所述影响变量对应的第一预测模型。
在本实施例中,目标区域指的是预先选择的地理区域,示例性的,将一些发生虫媒传染病传播情况较多的地理区域作为目标区域,例如,将经纬度处于22°26′N—23°56′N,112°57′E—114°03′E之间的地理区域作为目标区域。选择目标区域的目的是,可以基于目标区域内相关的数据,对虫媒传染病传播的风险进行研究。
在一个优选的实施例中,虫媒传染病可以是登革热疾病。在本实施例中,影响变量可以理解为影响虫媒传染病传播的因素,例如,温度、降雨、人口密度、道路密度、公共交通站等,这些因素一定程度上可以影响虫媒传染病的传播;如登革热疾病的传染性较强,登革热病毒主要是通过埃及伊蚊、白纹伊蚊来进行传播,所以温度、潮湿等会影响埃及伊蚊、白纹伊蚊生存和发育,进而影响登革热病毒的传播,因此,可以将温度和湿度作为影响登革热疾病传播的影响变量。需要说明的是,以上内容仅是对影响变量进行举例说明,对影响变量并不做限制。
第一预测预测模型指的是基于影响变量对应的属性数据训练出的机器学习模型,可以将影响变量对应的属性数据作为样本训练初始的机器学习模型,训练一定次数以及对初始的机器学习模型的参数修正之后,得到第一预测模型。其中,影响变量的属性数据可以指的是与影响变量对应的具体数值,例如,当影响变量为温度时,相应的属性数据为当前目标区域内的具体温度值,如属性数据为35摄氏度;类似的,当影响变量为降雨量时,相应的属性数据为目标区域内降雨量大小,如50mm。
在本实施例中,所述确定每个所述影响变量对应的第一预测模型,包括:针对单个所述影响变量,基于所述影响变量对应的属性数据和目标区域内的目标病例数据确定训练数据集;基于所述训练数据集训练随机森林模型,得到与所述影响变量对应的第一预测模型。
其中,目标病例数据用于表示目标区域内出现病例的情况,在一个优选的实施例中,为了在精细尺度上对虫媒传染病传播风险进行研究,将目标区域按照1km*1km的范围,划分多个子区域,并确定每个子区域内的病例情况。针对每个子区域,如果该子区域内出现过病例,就可以将该子区域的病例数据记为1;如果该子区域内没有出现病例,就可以将该子区域的病例数据记为0,所有子区域的病例数据构成目标区域内的目标病例数据。
在本实施例中,将每个子区域中与影响变量对应的属性数据和病例数据作为每个训练样本,将多个训练样本作为训练集对随机森林模型进行训练,最终训练完成以后得到与影响变量对应的第一预测模型。示例性的,如果影响变量为湿度和人口密度,目标区域划分为子区域A、子区域B以及子区域C;将子区域A的湿度值和病例数据作为第一个训练样本,将子区域B的湿度值和病例数据作为第二个训练样本,将子区域C的湿度值和病例数据作为第三个训练样本;将第一个训练样本、第二个训练样本以及第三个训练样本组成训练集,对随机森林模型进行训练,得到与温度这个影响变量对应的第一预测模型。类似的,将子区域A的人口密度和病例数据作为第四训练样本,将子区域B的人口密度和病例数据作为第五训练样本,将子区域C的人口密度和病例数据作为第六训练样本,对另外一个随机森林模型进行训练,得到与人口密度这个影响变量对应的第一预测模型。也即,基于不同的影响变量的属性数据和目标病例数据训练相应的随机森林模型,得到与每个影响变量对应的第一预测模型。
还需要说明的是,上述内容只是对目标区域内子区域划分方式和随机森林模型的训练过程进行解释,并不对子区域的数量、样本的数量以及影响变量的数量进行限制。也即,目标区域内子区域的数量、样本数量、影响变量的数量都可以是多个。
S120、分别基于每个所述第一预测模型对虫媒传染病传播风险进行预测,并基于每个所述第一预测模型的传播风险预测结果确定每个所述影响变量对应的传播风险预测准确度。
在本实施例中,第一预测模型可以对虫媒传染病传播风险进行预测,针对每个第一预测模型,可以预先获取需要预测的属性数据以及与属性数据对应的病例数据,将属性数据输入至第一预测模型,第一预测模型可以输出对应的传播风险预测结果;进一步,根据传播风险结果病例数据之间的差别,确定第一预测模型的预测准确度。
优选的,通过两个指标对第一预测模型的预测准确度评价,其一是采用受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC曲线)的曲线下面积AUC指标评价第一预测模型的预测准确度。AUC的值介于0和1之间,AUC值越大表示模型预测准确度越高。另一指标为召回率,召回率反映了模型的查全率,召回率越高,模型预测正确的格网越多。进一步,将精确度和召回率这两个指标都考虑在内,计算第一预测模型的准确度对应的分值,分值越高,模型的预测性能越好。例如,为AUC指标和召回率指标分别分配对应的权重,根据两个指标的具体值与权重的积,确定模型的准确度对应的分值。
S130、确定多个所述影响变量之间的相关性,并基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量。
可以理解,如果两个影响变量之间的相关性较高,存在的较强相关性导致预测模型产生多重共线性问题,会对预测结果产生影响;在本实施例中,可以基于预测精度和相关性两个维度,从多个影响变量中选择目标变量。
在上述方案的基础上,所述确定多个所述影响变量之间的相关性,包括:针对每两个所述影响变量,确定两个所述影响变量之间的相关系数,并将所述相关系数作为两个所述影响变量之间的相关性。
在本实施例中,可以通过皮尔逊相关系数算法计算每两个影响变量之间的相关系数,将两个变量之间的相关系数作为两个影响变量之间的相关性。
在本实施例中,所述基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量,包括:针对每个所述影响变量,若所述影响变量对应的相关性以及所述影响变量对应的传播风险预测准确度满足预设条件,则将所述影响变量作为所述目标变量。
其中,预设条件可以是预先设置好的准确度阈值和相关系数阈值,目标变量即为符合预设条件的影响变量。
如果多个影响变量中,其中一个影响变量对应的预测准确度较高,例如,准确度值达到了准确度阈值,说明该影响变量可能是影响虫媒传染病传播风险的重要因素;此时,对该影响变量的相关系数进行判断,如果该影响变量与其他影响变量的相关系数均小于相关系数阈值,代表该影响变量与其他影响变量的相关性不大,如果用该影响变量的属性数据对虫媒传染病传播风险进行预测不会产生共线性问题,可以将该影响变量作为目标变量。还需要说明,目标变量可以有多个,符合上述预设条件的影响变量,均可以作为目标变量。
S140、基于至少一个所述目标变量确定目标风险预测模型,以基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测。
其中,目标风险预测模型指的是通过目标变量对应的属性数据训练出来的机器学习模型。在步骤S110-S130中,主要是根据预先确定好的影响变量,训练随机森林模型得到第一预测模型,目的是从多个影响变量中选择出目标变量。在本实施例中,主要是通过多个目标变量训练,得到目标风险预测模型,本实施中训练得到的目标风险预测模型更加准确。待预测区域可以理解为需要进行虫媒传染病传播风险预测的区域,例如,用户为了确定区域A是否有传播风险,即可将区域A作为待预测区域,并通过目标风险预测模型对区域A进行虫媒传染病传播风险预测。
在上述技术方案的基础上,所述基于至少一个所述目标变量确定目标风险预测模型,包括:针对每个所述目标变量,通过至少两种重采样方式对所述目标区域内的目标病例数据进行重采样处理,得到至少两种重采样数据;分别基于每种所述重采样数据和所述目标变量的属性数据,对随机森林模型进行训练,得到与每种所述重采样数据对应的第二预测模型,基于所述第二预测模型确定目标风险预测模型。
可以理解,目标区域内包含多个子区域,有病例的子区域个数远小于无病例的子区域个数,即样本数据存在不平衡问题,样本数据不平衡问题会降低随机森林模型的预测精度。因此,本实施例中分别采用欠采样、过采样和组合采样三种重采样方法对目标区域内的病例数据进行处理,并将基于三种方法的预测结果与原始数据的预测结果进行比较,依据比较结果选择最合适的采样方法。过采样是通过复制一批少数类,使少数类的数量增加,达到数据平衡的目的。欠采样是去除多数类中的部分样本,是多数类的数量减少,使得正反例数目接近。组合采样则是通过增加少数类,减少多数类的方式来达到样本平衡。
在实际应用中,先确定目标变量具体有哪些,例如,目标变量包括变量A、变量B以及变量C,将变量A、变量B以及变量C对应的属性数据融合到一起,融合过程可以是将同一子区域内,与变量A、变量B以及变量C对应的属性数据融合到一起。进一步,对目标区域内的病例数据进行欠采样处理,将欠采样后的目标病例数据和融合后的属性数据作为训练样本,训练随机森林模型,得到与欠采样对应的第二预测模型。类似的,将过采样后的目标病例数据和融合后的属性数据作为训练样本,训练随机森林模型,得到与过采样对应的第二预测模型。类似的,将组合采样后的目标病例数据和融合后的属性数据作为训练样本,训练随机森林模型,得到与组合采样对应的第二预测模型。此外,还要将未经过采样处理的目标病例数据和融合后的属性数据作为训练样本,训练随机森林模型,得到与未经过采样处理对应的第二预测模型。在此基础上,从四个第二预测模型中选择确定出目标风险预测模型。
在上述实施例的基础上,所述基于所述第二风险预测模型确定目标风险预测模型,包括:确定每个所述第二预测模型对应的传播风险预测精确度,并将所述传播风险预测精确度最高的第二预测模型作为所述目标风险预测模型。
在本实施例中,所述基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测,包括:确定待预测区域中与所述目标变量对应的待预测数据;将所述待预测数据输入至所述目标风险预测模型,得到所述待预测区域对应的虫媒传染病风险预测结果。
其中,待测试数据指待预测区域中与目标变量对应的属性数据。示例性的,如果目标变量为温度,相应的,待预测区域中的温度数据就可以作为待预测数据。
具体的,把待预测数据输入到目标风险预测模型中,目标风险预测模型可以输出相应的结果,该结果就是待预测区域的虫媒传染病风险预测结果。虫媒传染病风险预测结果可以用概率值表示,不同概率值表示待预测区域出现虫媒传染病的可能性大小。例如,可以得到待测区域内,各个子区域出现虫媒传染病的概率,实现精细尺度的风险预测。
本发明实施例的技术方案,通过确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个影响变量对应的第一预测模型;分别基于每个第一预测模型对虫媒传染病传播风险进行预测,并基于每个第一预测模型的传播风险预测结果确定每个影响变量对应的传播风险预测准确度;确定多个影响变量之间的相关性,并基于预测准确度和相关性,从多个影响变量中确定出至少一个目标变量;基于至少一个目标变量确定目标风险预测模型,以基于目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测,解决了现有技术是在大尺度空间对虫媒传染病传播风险预测,且未考虑样本不平衡,导致预测结果不准确的问题,实现在精细空间尺度上对的虫媒传染病传播的风险进行预测,为风险严重区域优先开展预防工作提供指导。
实施例二
图2为本发明实施例二适用的单一变量之间相关系数图,本实施例为上述实施例的一优选实施例,其具体的实施方式可以参见本实施例技术方案。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
在一个优选的实施例中,虫媒传染病可以是登革热传染病,以下内容针对登革热传染病的传播风险预测进行详细介绍:
登革热的传播与流行主要受到自然因素和社会经济因素的共同作用。其中,温度主要通过影响登革热病毒和蚊虫的生理活性来影响登革热的传播,温度过高或过低都会阻止蚊媒的发育。另一方面温度升高会改变人群的穿着,使更多的皮肤裸露在外,加之出汗等原因也会增加蚊虫叮咬机会。降雨可控制传播媒介的种群数量以及生存环境,蚊虫从卵到孵化都存活在水中,潮湿多雨的地方容易滋生蚊虫,适度的降雨能够为传播媒介提供适宜的栖息地,但强降雨也会冲击蚊虫栖息地,从而不利于蚊虫种群发展。不同的土地利用类型则可直接影响病媒种群的栖息地状态进而影响登革热的传播风险,三种因素都是通过对伊蚊产生影响进而影响登革热的传播。人口密度、道路密度、公共交通站和医疗机构的数量同样对登革热的发病率产生重要影响,在人口密度较高的地区,人口流动量随之升高,感染者的存在可能加速登革热的传播,较密集的道路网和公共交通站(公交车站、地铁站)等基础设施在为中心地区居民的出行提供便利的同时,也增大了登革热传播的空间距离。医疗机构的数量则可以反映出当地对登革热发病率防控的能力,在医疗机构多的地区,登革热疫情控制能力相对较强。
1.1实验数据与预处理
1.1.1登革热病例数据
登革热病例数据即为前述实施例中的目标病例数据,具体为某段时间目标区域内本地个案病例数据,包括报告病例所处的位置和发病时间等信息。采用高德API对登革热病例数据进行地理编码,其中部分未有效匹配的数据,经优化处理后进行人工地址匹配,处理后共得到多个登革热病例点数据。最后将病例点数据统计映射到1km×1km的格网当中。也即,将目标区域按照1km×1km划分为多个格网,并确定各个病例点数据对应的格网。
1.1.2降水和地表温度数据
降水数据采用1km分辨率逐月降水量数据集,来源于科学数据中心,该数据集是全球0.5°气候数据集以及全球高分辨率气候数据集,通过空间降尺度方法生成,降水单位为0.1mm,空间分辨率约为1km。地表温度数据来自卫星采集到的图像,每个像素值表示8天中的地表温度的平均值,空间分辨率为1km。本实施例中使用获取卫星的遥感影像数据,并将温度值从默认开尔文(K)转换为摄氏度(℃)。本实施例中最后统计每个格网区域内的平均降水量和平均地表温度。
1.1.3土地利用数据
土地利用数据来源于遥感与地理信息系统发布的城市景观数据集,空间分辨率为2.4m。该数据集是基于卫星影像以及ArcGIS底图等数据提取获得。依据土地类型划分标准,将城市功能区划分为林地、水体、绿地、交通用地等12个景观要素类别,具体土地利用类型如表1所示。本实施例中主要采用土地利用的香农均匀度指数(SHEI)来反映各土地利用类型的分布均匀程度。SHEI等于香农多样性指数除以给定土地利用类型下的最大可能多样性。其计算公式如式(1)所示:
其中,pi是栅格单元中第i个土地利用类型要素占栅格总面积的比例;m是景观中土地利用类型的总数;0≤SHEI≤1。在此范围内指数值越大代表土地利用中不同土地利用类型所占面积比越接近,均匀程度越高。SHEI=0表明土地利用类型仅由一种土地利用类型组成,无多样性;SHEI=1表明各土地利用类型均匀分布,有最大多样性。即SHEI值越小则土地利用类型中可能存在占比较大的土地利用类型,值越大接近于1时表明土地利用类型分布均匀不存在明显的优势类型。
表1
1.1.4NDVI数据
归一化植被指数(Normalized Difference Vegetation Index,NDVI)是反映绿色活植被相对丰度和活性的辐射量化值,取值范围介于-1和1之间。常被用于表征研究区域的植被生理状况、绿色生物量及植被生产力等。NDVI数据来源于下载的卫星遥感影像栅格数据,空间分辨率为500m。NDVI的计算公式如式(2)所示:Band1、Band2是植被指数
1.1.5医院可达性
本实施例首先爬取高德地图兴趣点(Point of Interest,POI)数据得到医院(只包含综合类医院和传染病医院,其他专科医院因与登革热的治疗与防治无关,未考虑在内)信息,再使用高德地图的路径规划服务功能计算各格网到医院通行时间(按照驾车方式),以此定义为医院可达性。为保证结果的准确性和道路拥堵情况的一致,本实施例中在同一时间段内多次实验,取其平均值作为最终的医院可达性数值。
1.1.6公交站点、道路密度和人口密度数据
公交站点数据通过高德API爬取POI数据得到。本实施例统计了每个格网单元的公交站点数量作为公交站点密度数据。道路密度数据来自数据网站,包括道路名称、类型、功能、方向、长度等基本信息。本实施例将单位道路长度除以单位面积得到最终实验所需的道路密度数据。人口数据采用下载于人口数据网站上在指定年份的总人口数据,空间分辨率为100m。使用ArcGIS 10.7软件,将1km格网单元内的人口除以面积来计算每个格网单元尺度的人口密度。
1.2研究方法
1.2.1随机森林
本实施例中主要使用随机森林(RandomForest,RF)方法,结合登革热病例数据和其他相关变量来预测1km×1km格网单元尺度下的登革热空间分布。随机森林是一种使用决策树集合进行分类和回归问题的集成机器学习方法,其原理是组合多个二元决策树,这些决策树使用来自学习样本的多个自举样本构建,并在每个决策树的节点上对预测变量的一个小随机子集进行变量选择。随机森林结合了多个决策树的结果,以使用引导方法确定最终预测结果,预测的风险概率通过对所有决策树的预测求平均值获得。本实施例使用R语言中的软件包来实现随机森林分析方法。
1.2.2样本不平衡问题处理
将病例数据映射统计到1km×1km格网后,无病例的格网个数远大于有病例的格网个数,即样本数据存在不平衡问题。已有研究表明,样本数据不平衡问题会降低随机森林模型的预测精度。因此,本实施例分别采用欠采样、过采样和组合采样三种重采样方法进行处理,并将基于三种方法的预测结果与原始数据建模结果进行比较,依据比较结果选择最合适的采样方法。过采样是通过复制一批少数类,使少数类的数量增加,达到数据平衡的目的。欠采样是去除多数类中的部分样本,是多数类的数量减少,使得正反例数目接近。组合采样则是通过增加少数类,减少多数类的方式来达到样本平衡。
1.2.3模型验证与评估
本实施例中采用交叉验证法评估预测模型的精度:随机选择75%样本数据用于模型建立,剩余25%用于验证。为避免随机误差对训练样本与验证样本选择结果的影响,共运行随机森林模型30次,然后取其平均值作为最终运算结果。
采用受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC曲线)的曲线下面积AUC指标评价随机森林模型的预测精度。AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,AUC的值介于0和1之间,AUC值越大表示模型预测精度越高。精确度反映了登革热预测的精度,精确度越高,模型预测的正确率就越高。召回率反映了模型的查全率,召回率越高,模型预测正确的格网越多。F1分数是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。将精确度和召回率这两个指标都考虑在内,F1分值越高,模型综合性能越好。
1.2.4预测变量选择
为避免所选变量之间存在的较强相关性导致预测模型产生多重共线性问题,本实施例中主要采用以下方法进行变量的选择:首先,比较各单变量预测模型检验AUC指标,选择具有更高AUC的变量作为多变量预测模型的候选变量。其次计算皮尔逊相关系数(Pearson CorrelationCoefficient,Pearson相关系数)以确定变量之间的潜在共线性。如果某个预测变量具有较高的AUC值,但与其他变量有很强的相关性,则同时考虑其预测能力和重要性来选择最终预测变量组合。如果预测变量之间Pearson相关系数大于0.75时,则预测模型存在严重的共线性。
3.2结果与分析
2.1变量筛选
单一变量之间的相关性如图2所示,人口密度和公交站点数量的Pearson相关系数最大为0.69,呈正相关关系。医院可达性时间与人口密度之间的相关系数最小为-0.54,呈负相关关系。由此可见,变量之间的Pearson相关系数绝对值均小于0.75。单变量预测模型的检验AUC结果如图3所示,图3为单变量预测模型检验AUC值示意图,人口密度用于单变量建模的检验AUC最大,为0.8962。平均降雨量检验AUC为0.733,是单变量预测中检验AUC值最小的变量。单变量预测模型检验AUC值均大于0.7。综合考虑单变量预测模型检验AUC值和变量之间的相关性后,最终选取平均降雨量(Rain)、平均地表温度(Lst)、人口密度(Pop)、NDVI、医院可达性(Hosp)、公交站点密度(Busstop)和SHEI等8个变量将其用于登革热疫情传播风险空间分布预测模型。
2.2样本数据处理方法评估
分别使用欠采样、过采样和组合采样三种方式与未经处理的原始数据的训练集构建随机森林模型,其他实验参数保持一致。四种采样方法在验证集上的各个指标如表2为采样方法结果对比表:
表2
由实验结果可知,未经过处理的样本得到的AUC值为0.9442,精确度为0.936,但在精确率、查全率和F1上的值较低,模型预测的正确率和综合性能偏低,效果相对较差。欠采样在精确率、查全率和F1相比未处理样本增大,但精确度和AUC的值在四种方法中最低。组合采样的所有评价指标相比于未处理和欠采样的所有指标较大。过采样的各评价指标在四种方法中值最大,因此本实施例中最终选择过采样后的样本用于登革热空间传播的预测,本实施例中也将此结果作为随机森林建模的最终检验结果。
2.3影响因素对登革热传播风险预测的重要性程度
通过计算变量的重要性分数来估计变量对登革热预测的重要性程度。本实施例主要选取均方误差增加量(increase in mean square error,%IncMSE)来作为衡量变量的重要性指标。随机森林模型对各变量的重要性排序如图4所示。图中对各变量按照重要性分数从大到小排列。人口密度的%IncMSE平均值为63.76,远高于其他变量。这表明人口密度是预测登革热传播风险的关键因素,人口密度的变化将引起预测结果的明显变化。医院可达性是影响登革热传播风险的第二个重要特征,该变量的%IncMSE平均值为54.40。其次是公交站点密度和土地利用的香浓均匀度指数的%IncMSE平均值大于40。平均降水量、道路密度、NDVI和平均地表温度等4项变量的%IncMSE平均值均大于30,这些变量也会对登革热的传播风险预测结果产生一定的影响,平均地表温度对预测结果产生的影响最小。
2.4登革热传播风险分布预测
本实施例将登革热出现概率[0.75-1]的区域定义为高风险区域,[0.5-0.75)为中高风险区,[0.25-0.5)为中低风险区,[0-0.25)为低风险区。根据预测结果可知:登革热传播风险区总体呈现大集中、小分散的空间格局,城市中心区是主要流行区,城郊区县是次级流行区。可以发现,高风险区域主要分布于城市中心区域,面积为239.85km2。中高风险区面积为289.88km2。中低风险区域面积为579.60km2。低风险区域总面积为6289.53km2。
虽然登革热高、中高风险区的面积仅占总面积的10.97%,人口却占总人口的53.86%。其中,高风险区的传播面积为457.08平方千米,占总面积的6.18%,处于风险区的人口为642.46万人,占到总人口的39.13%。中高风险区的面积占总面积的4.79%,处于风险区的人口占总人口的14.73%。相较于高、中高风险区,中低风险区和低风险区的面积较大,风险人口数量较小。中低风险区的传播面积为697.04平方千米,占总面积的9.42%,处于风险区的人口为343.76万人,占总人口的20.94%。低风险区的传播面积最多,为2887.16平方千米,占总面积的79.60%,处于风险区的人口为413.73万人,占总人口的25.20%。
本发明实施例的技术方案,通过确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个影响变量对应的第一预测模型;分别基于每个第一预测模型对虫媒传染病传播风险进行预测,并基于每个第一预测模型的传播风险预测结果确定每个影响变量对应的传播风险预测准确度;确定多个影响变量之间的相关性,并基于预测准确度和相关性,从多个影响变量中确定出至少一个目标变量;基于至少一个目标变量确定目标风险预测模型,以基于目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测,解决了现有技术是在大尺度空间对虫媒传染病传播风险预测,且未考虑样本不平衡,导致预测结果不准确的问题,实现在精细空间尺度上对的虫媒传染病传播的风险进行预测,为风险严重区域优先开展预防工作提供指导。
实施例三
图5为本发明实施例三提供的一种虫媒传染病传播风险的预测装置的结构示意图。如图5所示,该装置包括:
第一预测模型确定模块310,用于确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个所述影响变量对应的第一预测模型;
预测准确度确定模块320,用于分别基于每个所述第一预测模型对虫媒传染病传播风险进行预测,并基于每个所述第一预测模型的传播风险预测结果确定每个所述影响变量对应的传播风险预测准确度;
目标变量确定模块330,用于确定多个所述影响变量之间的相关性,并基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量;
传播风险预测模块340,用于基于至少一个所述目标变量确定目标风险预测模型,以基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测。
本发明实施例的技术方案,通过确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个影响变量对应的第一预测模型;分别基于每个第一预测模型对虫媒传染病传播风险进行预测,并基于每个第一预测模型的传播风险预测结果确定每个影响变量对应的传播风险预测准确度;确定多个影响变量之间的相关性,并基于预测准确度和相关性,从多个影响变量中确定出至少一个目标变量;基于至少一个目标变量确定目标风险预测模型,以基于目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测,解决了现有技术是在大尺度空间对虫媒传染病传播风险预测,且未考虑样本不平衡,导致预测结果不准确的问题,实现在精细空间尺度上对的虫媒传染病传播的风险进行预测,为风险严重区域优先开展预防工作提供指导。
可选的,所述第一预测模型确定模块310,包括:
训练数据集确定模块,用于针对单个所述影响变量,基于所述影响变量对应的属性数据和目标区域内的目标病例数据确定训练数据集;
第一预测模型训练模块,用于基于所述训练数据集训练随机森林模型,得到与所述影响变量对应的第一预测模型。
可选的,所述目标变量确定模块330,包括:
相关性计算模块,用于针对每两个所述影响变量,确定两个所述影响变量之间的相关系数,并将所述相关系数作为两个所述影响变量之间的相关性。
可选的,所述目标变量确定模块330,包括:
目标变量选择模块,用于针对每个所述影响变量,若所述影响变量对应的相关性以及所述影响变量对应的传播风险预测准确度满足预设条件,则将所述影响变量作为所述目标变量。
可选的,所述传播风险预测模块340,包括:
重采样处理模块,用于针对每个所述目标变量,通过至少两种重采样方式对所述目标区域内的病例数据进行重采样处理,得到至少两种重采样数据;
训练模块,用于分别基于每种所述重采样数据和所述目标变量的属性数据,对随机森林模型进行训练,得到与每种所述重采样数据对应的第二预测模型,基于所述第二预测模型确定目标风险预测模型。
可选的,所述训练模块,包括:
确定模块,用于确定每个所述第二预测模型对应的传播风险预测精确度,并将所述传播风险预测精确度最高的第二预测模型作为所述目标风险预测模型。
可选的,所述传播风险预测模块340具体用于:
确定待预测区域中与所述目标变量对应的待预测数据;
将所述待预测数据输入至所述目标风险预测模型,得到所述待预测区域对应的虫媒传染病风险预测结果。
本发明实施例所提供的虫媒传染病传播风险的预测装置可执行本发明任意实施例所提供的虫媒传染病传播风险的预测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本实施例所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本实施例中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如虫媒传染病传播风险的预测方法。
在一些实施例中,虫媒传染病传播风险的预测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的虫媒传染病传播风险的预测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行虫媒传染病传播风险的预测方法。
本实施例中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本实施例在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种虫媒传染病传播风险的预测方法,其特征在于,包括:
确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个所述影响变量对应的第一预测模型;
分别基于每个所述第一预测模型对虫媒传染病传播风险进行预测,并基于每个所述第一预测模型的传播风险预测结果确定每个所述影响变量对应的传播风险预测准确度;
确定多个所述影响变量之间的相关性,并基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量;
基于至少一个所述目标变量确定目标风险预测模型,以基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述影响变量对应的第一预测模型,包括:
针对单个所述影响变量,基于所述影响变量对应的属性数据和目标区域内的目标病例数据确定训练数据集;
基于所述训练数据集训练随机森林模型,得到与所述影响变量对应的第一预测模型。
3.根据权利要求1所述的方法,其特征在于,所述确定多个所述影响变量之间的相关性,包括:
针对每两个所述影响变量,确定两个所述影响变量之间的相关系数,并将所述相关系数作为两个所述影响变量之间的相关性。
4.根据权利要求1所述的方法,其特征在于,所述基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量,包括:
针对每个所述影响变量,若所述影响变量对应的相关性以及所述影响变量对应的传播风险预测准确度满足预设条件,则将所述影响变量作为所述目标变量。
5.根据权利要求1所述的方法,其特征在于,所述基于至少一个所述目标变量确定目标风险预测模型,包括:
针对每个所述目标变量,通过至少两种重采样方式对所述目标区域内的病例数据进行重采样处理,得到至少两种重采样数据;
分别基于每种所述重采样数据和所述目标变量的属性数据,对随机森林模型进行训练,得到与每种所述重采样数据对应的第二预测模型,基于所述第二预测模型确定目标风险预测模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二风险预测模型确定目标风险预测模型,包括:
确定每个所述第二预测模型对应的传播风险预测精确度,并将所述传播风险预测精确度最高的第二预测模型作为所述目标风险预测模型。
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测,包括:
确定待预测区域中与所述目标变量对应的待预测数据;
将所述待预测数据输入至所述目标风险预测模型,得到所述待预测区域对应的虫媒传染病风险预测结果。
8.一种虫媒传染病传播风险的预测装置,其特征在于,包括:
第一预测模型确定模块,用于确定目标区域内影响虫媒传染病传播的多个影响变量,并确定每个所述影响变量对应的第一预测模型;
预测准确度确定模块,用于分别基于每个所述第一预测模型对虫媒传染病传播风险进行预测,并基于每个所述第一预测模型的传播风险预测结果确定每个所述影响变量对应的传播风险预测准确度;
目标变量确定模块,用于确定多个所述影响变量之间的相关性,并基于所述预测准确度和所述相关性,从多个所述影响变量中确定出至少一个目标变量;
传播风险预测模块,用于基于至少一个所述目标变量确定目标风险预测模型,以基于所述目标风险预测模型对待预测区域的虫媒传染病传播风险进行预测。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的虫媒传染病传播风险的预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的虫媒传染病传播风险的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310844212.7A CN116721781A (zh) | 2023-07-11 | 2023-07-11 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310844212.7A CN116721781A (zh) | 2023-07-11 | 2023-07-11 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116721781A true CN116721781A (zh) | 2023-09-08 |
Family
ID=87873461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310844212.7A Pending CN116721781A (zh) | 2023-07-11 | 2023-07-11 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423476A (zh) * | 2023-12-18 | 2024-01-19 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354757A (zh) * | 2008-09-08 | 2009-01-28 | 中国科学院地理科学与资源研究所 | 一种精细尺度下的动态风险及易损性预测方法 |
CN105740280A (zh) * | 2014-12-10 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 检测变量重要性的方法和装置 |
CN111785380A (zh) * | 2020-07-01 | 2020-10-16 | 医渡云(北京)技术有限公司 | 传染性疾病患病风险等级的预测方法及装置、介质、设备 |
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN112712903A (zh) * | 2021-01-15 | 2021-04-27 | 杭州中科先进技术研究院有限公司 | 一种基于人机物三元空间协同感知的传染病监测方法 |
CN113113154A (zh) * | 2021-04-16 | 2021-07-13 | 南方科技大学 | 一种传染病防控方法、装置、计算机设备及存储介质 |
CN114520058A (zh) * | 2022-02-18 | 2022-05-20 | 中国科学院地理科学与资源研究所 | 虫媒传染病的传播风险预测方法及装置 |
CN114580178A (zh) * | 2022-03-09 | 2022-06-03 | 中国科学院地理科学与资源研究所 | 一种蚊虫分布预测方法、装置、设备和存储介质 |
CN114819745A (zh) * | 2022-06-01 | 2022-07-29 | 青岛海信网络科技股份有限公司 | 地区传染病的风险测度方法、装置、设备和介质 |
CN115775634A (zh) * | 2022-12-26 | 2023-03-10 | 中国科学院软件研究所 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
-
2023
- 2023-07-11 CN CN202310844212.7A patent/CN116721781A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354757A (zh) * | 2008-09-08 | 2009-01-28 | 中国科学院地理科学与资源研究所 | 一种精细尺度下的动态风险及易损性预测方法 |
CN105740280A (zh) * | 2014-12-10 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 检测变量重要性的方法和装置 |
CN111785380A (zh) * | 2020-07-01 | 2020-10-16 | 医渡云(北京)技术有限公司 | 传染性疾病患病风险等级的预测方法及装置、介质、设备 |
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN112712903A (zh) * | 2021-01-15 | 2021-04-27 | 杭州中科先进技术研究院有限公司 | 一种基于人机物三元空间协同感知的传染病监测方法 |
CN113113154A (zh) * | 2021-04-16 | 2021-07-13 | 南方科技大学 | 一种传染病防控方法、装置、计算机设备及存储介质 |
CN114520058A (zh) * | 2022-02-18 | 2022-05-20 | 中国科学院地理科学与资源研究所 | 虫媒传染病的传播风险预测方法及装置 |
CN114580178A (zh) * | 2022-03-09 | 2022-06-03 | 中国科学院地理科学与资源研究所 | 一种蚊虫分布预测方法、装置、设备和存储介质 |
CN114819745A (zh) * | 2022-06-01 | 2022-07-29 | 青岛海信网络科技股份有限公司 | 地区传染病的风险测度方法、装置、设备和介质 |
CN115775634A (zh) * | 2022-12-26 | 2023-03-10 | 中国科学院软件研究所 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
Non-Patent Citations (5)
Title |
---|
QIAOXUAN LI 等: "Ecological Niche Modeling Identifies Fine-Scale Areas at High Risk of Dengue Fever in the Pearl River Delta, China", ENVIRONMENTAL RESEARCH AND PUBLIC HEALTH, 31 December 2017 (2017-12-31), pages 10 * |
徐铖斌;徐平;葛茂军;刘晓庆;: "基于机器学习的结直肠手术部位感染预测模型建立", 华西医学, no. 07, 31 December 2020 (2020-12-31), pages 77 - 82 * |
赵建国 等: "气温影响登革热传播的机制及未来气温变化 对其传播风险的影响", 环境与职业医学, vol. 39, no. 3, 31 December 2022 (2022-12-31), pages 309 - 314 * |
赵永谦: "珠三角地区精细空间尺度的登革热风险评估模型构建研究", 中国优秀硕士学位论文全文数据库(电子期刊) 医药卫生科技辑, 15 December 2018 (2018-12-15), pages 13 * |
高珍;高屹;余荣杰;黄智强;王雪松;: "连续数据环境下的道路交通事故风险预测模型", 中国公路学报, no. 04, 15 April 2018 (2018-04-15), pages 284 - 291 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423476A (zh) * | 2023-12-18 | 2024-01-19 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
CN117423476B (zh) * | 2023-12-18 | 2024-03-08 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alkhamis et al. | Spatial and temporal epidemiology of lumpy skin disease in the Middle East, 2012–2015 | |
AU2018101946A4 (en) | Geographical multivariate flow data spatio-temporal autocorrelation analysis method based on cellular automaton | |
Cao et al. | A new discovery of transition rules for cellular automata by using cuckoo search algorithm | |
García et al. | Calibration of an urban cellular automaton model by using statistical techniques and a genetic algorithm. Application to a small urban settlement of NW Spain | |
Liao et al. | Assessment of urbanization-induced ecological risks in an area with significant ecosystem services based on land use/cover change scenarios | |
US20230024680A1 (en) | Method of determining regional land usage property, electronic device, and storage medium | |
Li et al. | Using spatial analysis and Bayesian network to model the vulnerability and make insurance pricing of catastrophic risk | |
US8670782B2 (en) | Systems and methods for analyzing spatiotemporally ambiguous events | |
CN116721781A (zh) | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 | |
Hu | Rainstorm flash flood risk assessment using genetic programming: a case study of risk zoning in Beijing | |
Cencerrado et al. | Response time assessment in forest fire spread simulation: An integrated methodology for efficient exploitation of available prediction time | |
Alvarez‐Martínez et al. | Can Eltonian processes explain species distributions at large scale? A case study with Great Bustard (Otis tarda) | |
CN111523088A (zh) | 一种基于dpsir模型的生态环境评价方法 | |
WO2022039675A1 (en) | Method and apparatus for forecasting weather, electronic device and storage medium thereof | |
CN114580178B (zh) | 一种蚊虫分布预测方法、装置、设备和存储介质 | |
CN116151483A (zh) | 一种区域级降雨滑坡概率性预测方法及预测终端 | |
US20240029894A1 (en) | Predictive models for infectious diseases | |
Vega-Oliveros et al. | From spatio-temporal data to chronological networks: An application to wildfire analysis | |
CN115062859B (zh) | 一种对长爪沙鼠的密度进行预测的方法和装置 | |
US20220027516A1 (en) | Data processing device, data processing method, data processing program, terminal device, and data processing system | |
Hu et al. | Framework for prioritizing geospatial data processing tasks during extreme weather events | |
Barbosa et al. | Favourable areas for expansion and reintroduction of Iberian lynx accounting for distribution trends and genetic diversity of the European rabbit | |
CN115453661B (zh) | 气象预报方法、装置、设备以及存储介质 | |
Perdana et al. | WebGIS-Based Soil Fertility Information System in Cibodas Botanical Garden | |
CN116957414B (zh) | 基于人工智能的村庄规划分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |