CN108172301B - 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 - Google Patents

一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 Download PDF

Info

Publication number
CN108172301B
CN108172301B CN201810097508.6A CN201810097508A CN108172301B CN 108172301 B CN108172301 B CN 108172301B CN 201810097508 A CN201810097508 A CN 201810097508A CN 108172301 B CN108172301 B CN 108172301B
Authority
CN
China
Prior art keywords
mosquito
data
infectious disease
borne infectious
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810097508.6A
Other languages
English (en)
Other versions
CN108172301A (zh
Inventor
张凤军
邱晓慧
周红宁
杜龙飞
梁赓
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201810097508.6A priority Critical patent/CN108172301B/zh
Publication of CN108172301A publication Critical patent/CN108172301A/zh
Application granted granted Critical
Publication of CN108172301B publication Critical patent/CN108172301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于梯度提升树的蚊媒传染病疫情预测方法及系统:广泛收集影响蚊媒传染病的各种因素数据;对影响蚊媒传染病的数据进行清洗,进而对影响蚊媒传染病因素基于梯度提升树进行重要性排序;根据选取影响蚊媒传染病的重要因素建立基于泊松回归的蚊媒传染病疫情预测模型;利用选取因素与蚊媒传染病疫情相关系数初始化预测模型,之后用S折交叉验证确定蚊媒传染病预测模型参数;利用基于地理信息的疫情热点图与基于时间轴的疫情爆发图可视化展示模型预测结果。本发明将梯度提升树等机器学习方法应用到蚊媒传染病疫情预测领域,可提高蚊媒传染病疫情预测准确率,辅助疾控人员提前预测蚊媒传染病疫情态势,及时采取相应措施控制传染病大规模爆发。

Description

一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
技术领域
本发明涉及一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,属于计算机应用领域。
背景技术
随着全球气候的变暖、城市化进程的加快、世界各国贸易往来的频繁以及国际间交通工具运输的快捷便利、生态环境的不断恶化,全球蚊媒传染病发病呈上升趋势,原有蚊媒传染病的流行区域不断扩展、疾病的流行频度不断增强。使得原本局限于某一地域或者国家内的疾病突破国境的界限,引起在世界范围内的广泛传播与流行,曾经或正在流行的蚊媒传染病给世界人民带来了巨大危害。因此,对蚊媒传染病的研究迫切需要。
蚊媒传染病是人—蚊—人的传播模式,其具有复杂的时空变异性,受多尺度、随机性、过程特征复性等多因素影响,因果关系之间具备强非线性相关性,预测存在难度。近年来,许多研究者致力于蚊媒传染病研究。大部分基于传统统计方法预测蚊媒传染病疫情态势,如基于时间序列的季节性自回归模型,ARIMA分析等。蚊媒传染病受多种因素影响,不同因素影响程度不同,预测时需综合考虑所有因素。但这些模型考虑因素单一,仅考虑一个或者二个,而且大部分基于经验确定影响因素,预测准确率低,不能较好的应用到实践。
部分研究者将简单的机器学习方法用到蚊媒传染病疫情态势预测中。例如,利用logistic回归基于气象信息来预测蚊媒传染病的出现与否,将月平均降水、最高最低以及平均温度,水汽压力作为模型参数。有研究者研究了温度对蚊媒传染病传播速度的影响,同时基于气象因素计算蚊媒传染病疫情预测参数,进而预测蚊媒传染病态势。但这些模型考虑的因素皆较少,大都基于气象因素,忽略了地理、人文等多方面因素。同时,已有研究都没进行充分的数据清洗与特征选择。原始数据存在很多缺失、重复、不规范的情况,直接建模会对模型预测精度产生较大影响。另一方面,有些因素对传染病影响较小,另外一些因素对其影响较大,当因素较多时,仅依靠经验、已有研究来选择因素,不能有效选出合适因素来建立蚊媒密度预测模型。此外,通过对蚊媒传染病发病态势情况分析,可利用符合态势分布的机器学习模型来预测蚊媒传染病爆发态势。
发明内容
本发明技术解决问题:克服现有技术中存在的不足,提供一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,具有科学可行、预测准确度高的优点,不仅综合考虑影响蚊媒传染病的因素,有效的选取特征,而且建立确切预测模型,极大提高蚊媒传染病疫情态势预测准确率。
本发明解决其技术问题所采用的技术方案是:一种基于梯度提升树的蚊媒传染病疫情预测方法,包括以下步骤:
第一步,收集影响蚊媒传染病疫情的多种因素数据并预处理;
第二步,对预处理后的所述多种因素数据采用梯度提升树方法,计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;
第三步,使用所述特征数据训练预测模型,确定所述预测模型的最优参数;
第四步,通过所述预测模型和最优参数,完成蚊媒传染病疫情预测;
第五步,可视化展示蚊媒传染病疫情预测态势。
所述步骤一中,所述因素数据包括蚊媒及传染病数据、地理数据、气象数据和社会人文数据;所述蚊媒及传染病数据包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据;所述地理数据包括土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积;所述气象数据包括平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数;所述社会人文数据包括人口数据、交通数据和过境数据。
所述步骤一中,所述因素数据不少于10维。
对所述气象数据利用薄板样条插值法进行预处理,具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1);随后构造样条函数
Figure BDA0001565438000000021
式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为相关待定系数,其具体数值需根据气象数据随时间的分布情况通过多次实验确定。
对所述历年蚊媒传染病病例数据利用正则匹配法进行预处理,具体过程如下:针对门诊病例信息中的问询备注构建关键词模板库,通过正则表达式限定符对备注信息中关键词匹配情况进行分类,以确定该病例来源。
所述步骤二中,梯度提升树方法具体如下:
(1)计算每个因素数据在单棵决策树中重要度
Figure BDA0001565438000000031
其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,
Figure BDA0001565438000000032
是第t节点分裂之后平方损失的减少值。
(2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度
Figure BDA0001565438000000033
其中,
Figure BDA0001565438000000034
为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量;
(3)依据(2)的重要度的计算结果,对影响蚊媒传染病全部因素数据依据重要度进行排序,选取若干的因素数据作为特征数据。
所述步骤三中,所述预测模型为泊松回归模型,其具体模型如下所示:
Figure BDA0001565438000000035
C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义了五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(watwed-5,y)为五天前的水域面积情况,
Figure BDA0001565438000000036
为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-5 2,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系。
所述步骤三中,预测模型参数利用S折交叉验证确定,其具体过程如下:首先利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数,之后利用S折交叉验证确定模型参数。
所述步骤四中,预测结果由基于时空结合的可视化展示方法显示,所述展示方法包括基于地理信息的疫情热点图和基于时间轴的疫情爆发图。
一种基于梯度提升树的蚊媒传染病疫情预测系统,包括数据收集模块、数据预处理模块、因素选择模块、模型建立模块、结果展示模块,其中:
数据收集模块:其功能为收集影响蚊媒传染病疫情的多种因素数据;
数据预处理模块:其功能为对影响蚊媒传染病疫情的因素数据进行预处理,对所述气象数据利用薄板样条插值法进行处理,对所述历年蚊媒传染病病例数据利用正则匹配法进行处理;
因素选择模块:对预处理后的所述多种因素数据采用梯度提升树方法计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;
模型建立模块:其功能为使用所述特征数据建立蚊媒传染病预测模型,利用S折交叉验证确定所述模型的最优参数;
结果展示模块:其功能为可视化展示模型预测结果。
与现有技术方案相比,本发明的有益效果是:
(1)本发明通过大范围收集影响蚊媒传染病疫情爆发因素,全面分析因素重要性,提高蚊媒传染病预测合理性与预测精度。
(2)本发明通过对训练数据存在缺失值时,对丢失值采用薄板样条插值法填补,对原始的非结构化数据的数据采用正则匹配进行处理,提升了数据质量。
(3)本发明设计了一种基于梯度提升树对蚊媒传染病因素进行排序,从而选择最主要因素的方法,使预测模型特征更加精确,提高了预测准确率。
(4)本发明基于泊松回归建立蚊媒传染病预测模型,模型采用的因素更加合理,同时基于S折交叉验证确定模型参数,提高模型精度。
(5)本发明提出了一种可视化展示方法,基于地理信息的疫情热点图与基于时间轴的疫情爆发图,直观展示蚊媒传染病疫情态势。
附图说明
图1为本发明方法流程示意图;
图2为数据流示意图;
图3为数据收集过程示意图;
图4为本发明实施例系统布局图;
图5基于地理信息的疫情热点图;
图6为梯度提升树方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,全面收集影响蚊媒传染病的因素,对缺失值、原始值分别采用薄板样条插值与正则匹配方式进行处理,根据梯度提升树对各因素重要度进行排序,基于泊松回归建立蚊媒传染病疫情态势预测模型,之后采用S折交叉验证确定模型参数,利用地理信息的疫情热点图、基于时间轴的疫情爆发图展示预测结果。
如图3所示,为了实现本发明的方法,实施使用了四核阿里云服务器,CPU主频是3.2GHz,内存是8G,操作系统为Windows Server 2008;本地服务器为华为RH2288v3,24核,服务器的CPU主频是2.4GHz,内存是32G,操作系统为Windows Server 2008R2Enterprise;用户设备端CPU主频是3.4GHz,内存是8G,操作系统为Microsoft Windows10。实施实例系统布局如图4所示,本实施实例效果是,用户(疾控相关人员)将现场调查数据通过相关设备如PC、平板利用蚊媒传染病防控平台系统上传到云服务器,本地服务器从云服务器得到所需数据,同时对数据进行清洗、扩展等,之后利用梯度提升树对因素进行选择,利用泊松回归建立预测模型,可视化展示预测结果,之后将系统部署到阿里云服务器,用户通过本地设备即可得到预测结果,其可辅助他们做相关决策。
本发明流程示意图如图1所示,数据流如图2所示,该方法具体步骤如下所示:
第一步,收集数据。
如图2所示,数据主要包括蚊媒及传染病数据、地理数据、气象数据、社会人文数据,共25维,包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据、土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积、平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数、人口数据、交通数据和过境数据。蚊媒及传染病数据由疾控相关人员通过蚊媒传染病防控平台将现场流调数据上报;地理数据由分析遥感数据得到;气象数据由中国气象网以及现场建立监测点得到;社会人文数据通过政府相关资料得到。为了防止过拟合同时提高预测精度,所有数据时间段为2012.1.1~2017.1.1。
第二步,数据清洗。
如图2所述蚊媒及传染病数据由疾控相关人员将流调原始数据直接上传,存在数据缺失、数据杂乱、数据重复等情况。为解决上述问题,对单条记录缺失值采取周围平均化的方式填补数据,直至填补完所有缺失值;对部分区域或者站点缺失值,采用薄板样条插值法,其具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内已经收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1)。随后构造样条函数
Figure BDA0001565438000000061
式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,在此发明中,Ai,a,b,c分别为0.0316、0.1563、0.0075、1.06,此数值根据气象数据随时间的分布情况通过多次实验拟合近似确定,在本发明中采用拟合方法为最小二乘拟合法;对数据杂乱情况,采用正则匹配方式得到有效数据;对数据重复,采用过滤方法对其处理。
第三步,基于梯度提升树选取影响蚊媒传染病因素。
梯度提升树是一种由基函数组成的加法模型,其基函数为决策树,在本发明中其由M棵树组合而成,如图6所示。梯度提升树表示为决策树的加法模型为:
Figure BDA0001565438000000062
其中,fM(x)为梯度提升树函数,T(x;θm)表示单棵决策树函数,θm为第m棵决策树参数,M为决策树的个数。利用2012.1.1~2017.1.1收集的N组蚊媒传染病因素-虫媒传染病爆发态势对即(x1,y1),(x2,y2),…(xN,yN)构建梯度提升树模型,基于此模型选取影响登革热爆发态势的因素。具体过程如下所示:
(1)构建梯度提升树。
(1-1)确定初始梯度提升树f0(x)=0,第m步的提升树为fm(x)=fm-1(x)+T(x;θm);
(1-2)对于m=1,2,.....M
(a)确定参数,
Figure BDA0001565438000000063
在本发明中采用平方误差损失函数即L(y,f(x))=(y-f(x))2,构建梯度提升树的损失为L(y,fm-1(xi)+Tx;θm=(y-fm-1xi-Tx;θm)2=(r-Tx;θm)2,其中r=y-fm-1xi,r为当前模型拟合数据的残差;
(b)计算残差,即计算当前模型预测值与真实蚊媒传染病值的差。rmi=yi-fm-1(xi),i=1,2,…,N。
(c)拟合残差rmi学习一棵决策树,得到T(x;θm)。
(d)更新fm(x)=fm-1(x)+T(x;θm)。
(2)计算单棵决策树经过节点t分裂后,平方损失减少值。
Figure BDA0001565438000000064
其中,
Figure BDA0001565438000000065
为平方损失减少值即不同蚊媒传染病因素在节点t的重要度,T(x;θm)为单棵决策树函数,xi,yi为蚊媒传染病因素-虫媒传染病爆发态势对,Rw为所预测虫媒传染病爆发态势值。
(3)计算蚊媒传染病因素全局重要度排序。
(3-1)计算每个蚊媒传染病因素在单棵蚊媒梯度提升树中重要度,
Figure BDA0001565438000000071
Figure BDA0001565438000000072
其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,
Figure BDA0001565438000000073
是第t节点分裂之后平方损失的减少值;
(3-2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度
Figure BDA0001565438000000074
其中,
Figure BDA0001565438000000075
为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量。
(3-3)对影响蚊媒传染病全部因素依据重要度进行排序。
第四步,选取因素作为特征。
依据第三步对第一步收集的25维因素排序,从中选取重要度最大的5维因素构建蚊媒传染病预测模型。经大量反复实验验证,每天的平均气温、最高气温、输入病例人数,平均相对湿度,水域分布及面积被选取。
第五步,基于泊松回归建立预测模型。
泊松回归主要用于描述单位时间、面积、体积等单位内稀有事件个数的相对频率。蚊媒传染病疫情态势是单位时间内稀有事件,经验证其符合泊松分布。因此,基于泊松回归建立蚊媒传染病预测疫情态势预测模型。
(1)蚊媒传染病预测疫情态势预测模型
蚊媒传染病预测疫情态势预测模型基于泊松回归建立,具体公式如下所示:
Figure BDA0001565438000000076
C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义了五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(waterd-5,y)为五天前的水域面积情况,
Figure BDA0001565438000000077
为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-5 2,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系。
(2)蚊媒传染病疫情态势预测模型参数确定
首先,利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数。之后利用S折交叉验证确定模型参数。在本发明实施例中,收集的数据为2012.1.1~2017.1.1,共五年数据,因此采用十折交叉验证法来确定模型参数。具体如下所示:
(a)初始化蚊媒传染病疫情态势预测模型参数。分别计算基于梯度提升树选取的五维因素与蚊媒传染病疫情态势的相关系数。在本发明中,相关系数计算采用皮尔逊系数。将皮尔逊系数作为模型的初始化参数。
(b)调整蚊媒传染病疫情态势预测模型参数。将数据集按照时间顺序分为十份,每份数据量为180,进行多次实验。每次实验随机选取九份即1620组蚊媒传染病因素-虫媒传染病爆发态势对进行训练即构建基于泊松回归的蚊媒传染病预测模型,剩下的一份即180组蚊媒传染病因素-虫媒传染病爆发态势对进行测试,即评估预测模型准确率,依据模型预测准确率调整其参数。
第六步,可视化展示预测结果。
在此实例中,蚊媒传染病疫情预测模型准确率最终为85%,传统统计方法以及无特征选择的机器学习方法预测准确率最高为73%,由此可见,本发明提出的基于梯度提升树的蚊媒传染病疫情预测方法可提高预测准确率。为更大程度的辅助疾控相关人员,在此实例中,将预测结果进行可视化展示,具体展示如图5所示。图5中基于地理位置信息,对云南省各市县的蚊媒传染病爆发态势进行可视化展示,某市县的动态热点圈颜色越深,范围越大代表该地区的暴发态势越为严重。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于:所述方法全面收集影响蚊媒传染病的因素,对缺失值、原始值分别采用薄板样条插值与正则匹配方式进行处理,根据梯度提升树对各因素重要度进行排序,基于泊松回归建立蚊媒传染病疫情态势预测模型,之后采用S折交叉验证确定模型参数,利用地理信息的疫情热点图、基于时间轴的疫情爆发图展示预测结果;
具体包括以下步骤:
第一步,收集数据
所述数据包括蚊媒及传染病数据、地理数据、气象数据、社会人文数据,共25维,包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据、土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积、平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数、人口数据、交通数据和过境数据;蚊媒及传染病数据由疾控相关人员通过蚊媒传染病防控平台将现场流调数据上报;地理数据由分析遥感数据得到;气象数据由中国气象网以及现场建立监测点得到;社会人文数据通过政府相关资料得到;
第二步,数据清洗
上述数据存在数据缺失、数据杂乱、数据重复情况,为解决上述问题,对单条记录缺失值采取周围平均化的方式填补数据,直至填补完所有缺失值;对部分区域或者站点缺失值,采用薄板样条插值法,其具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内已经收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1),随后构造样条函数
Figure FDA0002819450410000011
式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为相关待定系数,其具体数值根据气象数据随时间的分布情况通过多次实验确定;对数据杂乱情况,采用正则匹配方式得到有效数据;对数据重复,采用过滤方法处理;
第三步,基于梯度提升树选取影响蚊媒传染病因素
梯度提升树是一种由基函数组成的加法模型,其基函数为决策树,由M棵树组合而成,梯度提升树表示为决策树的加法模型为:
Figure FDA0002819450410000021
其中,fM(x)为梯度提升树函数,T(x;θm)表示单棵决策树函数,θm为第m棵决策树参数,M为决策树的个数,利用收集的N组蚊媒传染病因素-虫媒传染病爆发态势对即(x1,y1),(x2,y2),....(xN,yN)构建梯度提升树模型,基于此模型选取影响登革热爆发态势的因素,具体过程如下所示:
(1)构建梯度提升树
(1-1)确定初始梯度提升树f0(x)=0,第m步的提升树为fm(x)=fm-1(x)+T(x;θm);
(1-2)对于m=1,2,.....M
(a)确定参数,
Figure FDA0002819450410000022
在本发明中采用平方误差损失函数即L(y,f(x))=(y-f(x))2,构建梯度提升树的损失为L(y,fm-1(xi)+T(x;θm))=(y-fm-1(xi)-T(x;θm))2=(r-T(x;θm))2,其中r=y-fm-1(xi),r为当前模型拟合数据的残差;
(b)计算残差,即计算当前模型预测值与真实蚊媒传染病值的差;rmi=yi-fm-1(xi),i=1,2,...,N;
(c)拟合残差rmi学习一棵决策树,得到T(x;θm);
(d)更新fm(x)=fm-1(x)+T(x;θm);
(2)计算单棵决策树经过节点t分裂后,平方损失减少值;
Figure FDA0002819450410000023
其中,
Figure FDA0002819450410000024
为平方损失减少值即不同蚊媒传染病因素在节点t的重要度,T(x;θm)为单棵决策树函数,xi,yi为蚊媒传染病因素-虫媒传染病爆发态势对,Rw为所预测虫媒传染病爆发态势值;
(3)计算蚊媒传染病因素全局重要度排序
(3-1)计算每个蚊媒传染病因素在单棵蚊媒梯度提升树中重要度,
Figure FDA0002819450410000025
Figure FDA0002819450410000026
其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,
Figure FDA0002819450410000027
是第t节点分裂之后平方损失的减少值;
(3-2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度
Figure FDA0002819450410000031
Figure FDA0002819450410000032
其中,
Figure FDA0002819450410000033
为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量;
(3-3)对影响蚊媒传染病全部因素依据重要度进行排序;
第四步,选取因素作为特征
依据第三步对第一步收集的25维因素排序,从中选取重要度最大的5维因素构建蚊媒传染病预测模型,经大量反复实验验证,每天的平均气温、最高气温、输入病例人数,平均相对湿度,水域分布及面积被选取;
第五步,基于泊松回归建立预测模型
采用基于泊松回归建立蚊媒传染病预测疫情态势预测模型;
(1)蚊媒传染病预测疫情态势预测模型
蚊媒传染病预测疫情态势预测模型基于泊松回归建立,具体公式如下所示:
Figure FDA0002819450410000035
C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(waterd-5,y)为五天前的水域面积情况,
Figure FDA0002819450410000034
为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-5 2,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系;
(2)蚊媒传染病疫情态势预测模型参数确定
首先,利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数;之后利用S折交叉验证确定模型参数,即采用十折交叉验证法来确定模型参数,具体如下所示:
(a)初始化蚊媒传染病疫情态势预测模型参数,分别计算基于梯度提升树选取的五维因素与蚊媒传染病疫情态势的相关系数;相关系数计算采用皮尔逊系数,将皮尔逊系数作为模型的初始化参数;
(b)调整蚊媒传染病疫情态势预测模型参数,将数据集按照时间顺序分为十份,每份数据量为180,进行多次实验;每次实验随机选取九份即1620组蚊媒传染病因素-虫媒传染病爆发态势对进行训练即构建基于泊松回归的蚊媒传染病预测模型,剩下的一份即180组蚊媒传染病因素-虫媒传染病爆发态势对进行测试,即评估预测模型准确率,依据模型预测准确率调整其参数;
第六步,可视化展示预测结果,预测结果由基于时空结合的可视化展示方法显示,所述展示方法包括基于地理信息的疫情热点图和基于时间轴的疫情爆发图。
2.一种实现如权利要求1所述的基于梯度提升树的蚊媒传染病疫情预测方法的系统,其特征在于:包括数据收集模块、数据预处理模块、因素选择模块、模型建立模块、结果展示模块,其中:
数据收集模块:收集影响蚊媒传染病疫情的多种因素数据;
数据预处理模块:对影响蚊媒传染病疫情的因素数据进行预处理,对所述气象数据利用薄板样条插值法进行处理,对所述历年蚊媒传染病病例数据利用正则匹配法进行处理;
因素选择模块:对预处理后的所述多种因素数据采用梯度提升树方法计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;
模型建立模块:基于所述特征数据建立蚊媒传染病预测模型,利用S折交叉验证确定所述模型的最优参数;
结果展示模块:为可视化展示模型预测结果。
CN201810097508.6A 2018-01-31 2018-01-31 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 Active CN108172301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810097508.6A CN108172301B (zh) 2018-01-31 2018-01-31 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810097508.6A CN108172301B (zh) 2018-01-31 2018-01-31 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统

Publications (2)

Publication Number Publication Date
CN108172301A CN108172301A (zh) 2018-06-15
CN108172301B true CN108172301B (zh) 2021-02-02

Family

ID=62512387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810097508.6A Active CN108172301B (zh) 2018-01-31 2018-01-31 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统

Country Status (1)

Country Link
CN (1) CN108172301B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111902B (zh) * 2019-04-04 2022-05-27 平安科技(深圳)有限公司 急性传染病的发病周期预测方法、装置及存储介质
CN110188963A (zh) * 2019-06-05 2019-08-30 中国矿业大学(北京) 基于最小角回归和梯度提升模型的建筑能耗预测方法
CN110675243A (zh) * 2019-08-30 2020-01-10 北京银联金卡科技有限公司 一种融合机器学习的信贷预测逾期方法及系统
CN110852475B (zh) * 2019-09-24 2020-10-23 广州地理研究所 基于极端梯度提升算法的植被指数预测方法、系统及设备
CN110742595A (zh) * 2019-11-12 2020-02-04 中润普达(十堰)大数据中心有限公司 基于认知云系统的异常血压监护系统
CN113327682A (zh) * 2020-02-28 2021-08-31 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于关键词搜索时间序列的传染病疫情预测与监控系统、方法及其应用
CN111462917B (zh) * 2020-03-02 2023-05-30 珠海中科先进技术研究院有限公司 基于空间地理分析和机器学习的疫情预警方法及系统
CN111564221B (zh) * 2020-03-18 2023-07-21 自然资源部第一海洋研究所 一种由统计数据驱动的传染病疫情预测方法
CN114864104A (zh) * 2020-03-26 2022-08-05 北京懿医云科技有限公司 传染病疫情预测方法及装置、存储介质、电子设备
CN111128398B (zh) * 2020-03-30 2020-08-14 广州地理研究所 一种基于人口迁徙大数据的流行病感染人数估算方法
CN111462919B (zh) * 2020-03-31 2023-01-13 中国科学院软件研究所 一种基于滑动窗口时序模型的虫媒疾病预测方法及系统
CN111554408B (zh) * 2020-04-27 2024-04-19 中国科学院深圳先进技术研究院 城市内部登革热时空预测方法、系统及电子设备
CN113161004B (zh) * 2020-07-15 2023-11-10 泰康保险集团股份有限公司 一种疫情预测系统及方法
CN112164471B (zh) * 2020-09-17 2022-05-24 吉林大学 基于分类回归模型的新冠疫情综合评估方法
US11899694B2 (en) 2020-09-30 2024-02-13 Unitedhealth Group Incorporated Techniques for temporally dynamic location-based predictive data analysis
CN112185566B (zh) * 2020-10-14 2021-08-13 上海玺翎智能科技有限公司 一种基于机器学习预测预警感染性疾病就医人数突增的方法
CN112382407A (zh) * 2020-11-12 2021-02-19 平安科技(深圳)有限公司 一种风险管控方法、装置、电子设备和存储介质
CN113053536B (zh) * 2021-01-15 2023-11-24 中国人民解放军军事科学院军事医学研究院 一种基于隐马尔科夫模型的传染病预测方法、系统和介质
CN114334172B (zh) * 2021-12-13 2022-09-02 北京融信数联科技有限公司 一种疫情风险评估方法、系统及可读存储介质
CN115718901A (zh) * 2022-11-15 2023-02-28 中国南方电网有限责任公司超高压输电公司广州局 基于换流阀的数据处理方法、装置以及计算机设备
CN116168847B (zh) * 2023-04-26 2023-08-11 南京邮电大学 一种基于优化后下一代储备池计算的传染病预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957377A (zh) * 2010-09-17 2011-01-26 山东省农业科学院畜牧兽医研究所 一种检测禽流感病毒的荧光抗体的制备方法及固相免疫荧光检测试剂盒
JP2016081321A (ja) * 2014-10-17 2016-05-16 日本電気株式会社 感染症流行予測装置、感染症流行予測方法及びプログラム
CN206332770U (zh) * 2016-12-21 2017-07-14 郭才华 一种疫情监测预警平台

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7655774B2 (en) * 2000-02-18 2010-02-02 University Of Washington Ancestral and COT viral sequences, proteins and immunogenic compositions
CN103390089B (zh) * 2012-05-07 2016-12-14 中国人民解放军防化学院 一种具有控制变量的传染病疫情预测方法
CN103259855B (zh) * 2013-04-27 2016-03-30 北京福乐云检测科技有限公司 传染病、慢病检测与监视预警系统云平台
US10600007B2 (en) * 2014-08-04 2020-03-24 International Business Machines Corporation Auto-analyzing spatial relationships in multi-scale spatial datasets for spatio-temporal prediction
WO2016064735A1 (en) * 2014-10-20 2016-04-28 University Of Florida Research Foundation, Incorporated Wireless sensor system for mosquito population growth analysis, logging, and reporting
CN106096276B (zh) * 2016-06-13 2018-12-04 江南大学 一种基于动态网络标志物的甲流疫情早期预警模型
CN107392644A (zh) * 2017-06-19 2017-11-24 华南理工大学 一种商品购买预测建模方法
CN107291668B (zh) * 2017-07-14 2018-08-17 中南大学 一种基于机器学习的地铁短时客流预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957377A (zh) * 2010-09-17 2011-01-26 山东省农业科学院畜牧兽医研究所 一种检测禽流感病毒的荧光抗体的制备方法及固相免疫荧光检测试剂盒
JP2016081321A (ja) * 2014-10-17 2016-05-16 日本電気株式会社 感染症流行予測装置、感染症流行予測方法及びプログラム
CN206332770U (zh) * 2016-12-21 2017-07-14 郭才华 一种疫情监测预警平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Inferring the Population History of an Epidemic from a Phylogenetic Tree;CHI-KEONG ONG;《J.theor.Biol》;20090929;173-178 *

Also Published As

Publication number Publication date
CN108172301A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108172301B (zh) 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
Wu et al. Daily urban air quality index forecasting based on variational mode decomposition, sample entropy and LSTM neural network
CN107909206B (zh) 一种基于深层结构循环神经网络的pm2.5预测方法
CN108009674A (zh) 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
CN109947879B (zh) 一种基于复杂网络的海洋观测大数据可视化分析方法
CN111932026B (zh) 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
CN106778894A (zh) 一种学术异构信息网络中作者合作关系预测的方法
CN107133686A (zh) 基于时空数据模型的城市级pm2.5浓度预测方法
CN105335604A (zh) 面向流行病防控的人口动态接触结构建模与发现方法
Huang et al. Research on urban modern architectural art based on artificial intelligence and GIS image recognition system
Mehdipoor et al. Developing a workflow to identify inconsistencies in volunteered geographic information: a phenological case study
Oo et al. Time series prediction based on Facebook Prophet: a case study, temperature forecasting in Myintkyina
CN111882157A (zh) 一种基于深度时空神经网络的需求预测方法、系统及计算机可读存储介质
Liu et al. Hybrid intelligent algorithm and its application in geological hazard risk assessment
CN115775634A (zh) 一种基于多变量核密度估计的虫媒疾病预测方法及系统
CN110322693A (zh) 一种交通数据补全方法、系统、设备及介质
CN112883133B (zh) 基于时序数据和功能演变数据的流量预测方法
Liu et al. Accurate and efficient urban wind prediction at city-scale with memory-scalable graph neural network
Mathon et al. Assessing linkages in stream habitat, geomorphic condition, and biological integrity using a generalized regression neural network
CN116110210B (zh) 复杂环境下数据驱动的滑坡灾害辅助决策方法
CN115965795A (zh) 一种基于网络表示学习的深暗网群体发现方法
CN115375020A (zh) 一种轨道交通关键od对的流量预测方法及系统
Aranay et al. Deep active genetic learning-based assessment of lakes’ water quality using climate data
Cilliers et al. A framework for modelling spatio-temporal informal settlement growth prediction
Fewster et al. Similarity indices for spatia I ecological data

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant