CN110444298A - 基于高斯过程模型的流感预测建模方法及装置 - Google Patents
基于高斯过程模型的流感预测建模方法及装置 Download PDFInfo
- Publication number
- CN110444298A CN110444298A CN201910588107.5A CN201910588107A CN110444298A CN 110444298 A CN110444298 A CN 110444298A CN 201910588107 A CN201910588107 A CN 201910588107A CN 110444298 A CN110444298 A CN 110444298A
- Authority
- CN
- China
- Prior art keywords
- influenza
- time
- covariance
- data
- meteorological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010022000 influenza Diseases 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008569 process Effects 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000005315 distribution function Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 2
- 241001269238 Data Species 0.000 abstract 1
- 230000003442 weekly effect Effects 0.000 abstract 1
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 241000712461 unidentified influenza virus Species 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006806 disease prevention Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000006083 Hypokinesia Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 241000728173 Sarima Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公布了一种基于高斯过程模型的流感预测建模方法及装置,融合每周平均气温、气压、降雨量、相对湿度、最大温差和日照时间等多种气象数据来创建流感预测模型预测流感,较好地反映气象因素,特别是气压和日照时间对流感爆发的显著影响,能够解决现有的流感监测方法导致的滞后性以及流感预测技术大多没有考虑对流感传播具有重要影响的因素的气象因子纳入模型的问题,流感预测的准确性大大提高,能很好地拟合流感发病数的变化趋势,并能准确地预测流感的爆发趋势。
Description
技术领域
本发明属于流行病预测技术领域,涉及一种流感预测方法,具体涉及一种基于高斯过程模型的流感预测建模方法及装置。
背景技术
流行性感冒,简称流感,是由流感病毒引起的一种急性呼吸道传染病,传染性强,发病率高。其主要通过空气中的飞沫、人际接触或与被污染物品的接触进行传播。典型的临床症状有急性发热、全身疼痛、显著乏力和轻度呼吸道症状,一般秋冬季节是高发期。传统的流感监测依赖于疾病预防控制中心(疾控中心)的全国监测网络,通过哨点医院收集流感抽样病例数据及疾控中心进行抽样病例的病毒检测进行监测。但是,疾控中心的统计数据有一定的滞后性,通常之后一到两周左右,不能对流感爆发进行提前预警。因此,利用统计模型,结合多源数据对流感进行预测建模就显得尤为重要。
既往研究资料表明,流感的流行具有明显的季节性,与气候因素有密切联系,有学者曾利用气象因素建立了流感流行的预测模型。此外,流感流行还与流感病毒本身的活动度及病原构成相关,但少有学者将气象因素和流感病毒活动度的周期性这两个因素结合起来构建流感流行的预测模型。但是,一些以流行性感冒为代表的传染疾病,具有病毒变种多、变异速度快的特点,很难对流感流行特征进行预测,对疾病预防控制造成极大的障碍。流行性疾病影响范围广泛,并且由于和人类身体健康与生命安全息息相关,因此危害较大。当前,流感数据收集滞后,现有技术难以对流感的爆发进行预测,更缺乏对流感进行预测建模的有效技术方案,这些都会导致流感爆发无法得到有效控制,会对社会造成极为严重的经济损失,给人民的生命安全带来极大隐患。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于高斯过程模型的流感预测建模方法及装置,针对现有的流感监测方法导致的滞后性以及大多数流感预测技术没有把气象因子这个对流感传播具有重要影响的因素纳入模型的问题,融合每周平均气温、气压、降雨量、相对湿度、最大温差和日照时间等多种气象数据来创建流感预测模型预测流感,较好地反映气象因素,特别是气压和日照时间对流感爆发的显著影响,流感预测的准确性大大提高,能很好地拟合流感发病数的变化趋势,并能准确地预测流感的爆发趋势。
本发明提供的技术方案是:
一种基于高斯过程模型的流感预测装置,包括变量输入模块、变量选择模块、高斯过程模型构造模块、流感预测结果输出模块;变量输入模块用于输入原始数据,包括:气象数据、流感历史数据、时间数据;变量选择模块用于处理气象数据和流感历史数据,选取对流感预测影响最显著的气象因子/变量;高斯过程模型构造模块用于构造和训练高斯模型,并将变量选择模块选取出的变量作为训练好的高斯模型的输入进行预测;流感预测结果输出模块用于输出高斯过程模型构造模块得到的预测结果,例如,未来一周的流感发病量预测值。
上述基于高斯过程模型的流感预测装置工作时,首先,将气象数据、流感历史数据、时间数据等原始数据输入系统;然后将气象数据和流感历史数据输入到变量选择模块,用变量选择算法选取对流感影响最显著的气象因子;接着,将选择出来的变量输入到改进的高斯过程模型中,高斯模型的协方差函数由时间协方差、气象因子协方差、互协方差三部分累加而成,利用原始输入数据对高斯模型进行训练得到相关参数;最后,在输出模块输出预测结果例如未来一周的流感发病量。
本发明提供一种基于高斯过程模型的流感预测建模方法,包括如下步骤:
1)根据气象数据、流感历史数据、时间数据等原始数据,选取对流感影响最显著的气象因子/变量(显著气象因子);
作为一种优选方案,所述气象因子包括相对湿度、气压、24小时降雨量、日照、平均气温、最高气温、最低气温、温差等8种气象因子。
作为一种优选方案,所述变量选择模块中选取显著气象因子的算法是采用最小绝对收缩和选择运算(least absolute shrinkage and selection operator,LASSO)方法。具体为:
假设自变量X∈N×p是输入数据组成的矩阵,N表示样本数量,p表示自变量数量,其中第一列是时间点,剩下的(p-1)列是对应时间的气象指标;Y∈N×1代表对应时间的流感病例数量;给定标准的预测因子xij和yi,其中i=1,2,…,N,j=1,2,…,p,则LASSO估计量表示为式(1):
其中,为LASSO估计所求得的β值集合;argmin表示使目标函数取最小值时的变量值;βj是待估计的参数,λ是调整参数;β0为待估计的参数(表示截距)。
求解式(1)的方法是最小角回归(Least Angle Regression),详细的算法流程如下:
1.将自变量X∈N×p标准化成均值为0和方差为1的标准矩阵。从残差β1,β2,…,βp=0开始。其中,为初始估计值;
2.找出与残差R相关度最高的自变量Xj,其中Xj=[x1j,x2j,…,xNj]T。
3.将βj从0开始沿着最小二乘系数<Xj,R>方向移动,直到有新的自变量Xk与残差R有同样大的相关度而被选入。
4.将βj和βk沿着它们的联合最小二乘系数(Xj,Xk)一起移动,直到有新的自变量与残差R有同样大的相关度而被选入。
5.重复步骤2、3、4,直到所有变量都被选入。最后得到的非零估计对应的自变量就是所选出来的显著气象因子。
2)构造和训练高斯模型,得到训练好的高斯模型,用于流感预测;
构造高斯模型:设输入的训练数据集为由维度为p的自变量Xi和应变量Yi构成,其中Xi包括时间序列和气象因子数据,Yi是对应时间戳上的流感病例数量,N是所记录的时间长度,在本发明中单位是周。高斯过程模型定义如下式(13):
f(X)~GP(0,k(Xi,Xj)) 式(13)
其中,k(Xi,Xj)是高斯函数f(Xi)的协方差函数,可以由训练数据集进行计算得到。
本发明中,高斯模型的协方差函数由时间协方差、气象因子协方差、互协方差三部分累加得到。
作为一种优选方案,为了更好地捕捉流感爆发的周期性、非稳态性和趋势性,所述时间协方差由三个子协方差函数组成,分别为周期时间协方差函数、非稳态时间协方差函数和趋势时间协方差函数。选取输入矩阵X∈N×p中的任意两个时间点(ti,tj),周期时间协方差函数ksin(ti,tj;θsin)由式(2)求得:
其中,Δt=|ti-tj|是距离度量,是需要求解的超参数,fsin表示流感爆发的周期;lsin是特征长度尺度超参数;是带宽超参数。
非稳态时间协方差函数kpac(ti,tj;θpac)可由式(3)求得:
其中,li和lj是长度比例超参数;是需要求解的超参数,表示其带宽和特征长度尺度超参数。
趋势时间协方差函数ktendency(ti,tj;θtendency)由式(4)求得:
其中,是需要求解的超参数,表示其带宽和特征长度尺度超参数。
将上述式(2)~(4)三式累加,则可以得到最终的时间协方差函数ktime,表示如式(5):
ktime=ksin(ti,tj;θsin)+kpac(ti,tj;θpac)+ktendency(ti,tj;θtendency) 式(5)
作为一种优选方案,所述气象因子协方差函数kmeteorology(Xi,Xj;θmeteorology)可由下式(6)求得:
其中,Δx=|Xi-Xj|,所需求解的超参数是
作为一种优选方案,所述互协方差ktime×meteorology可以由时间协方差函数和气象因子协方差函数相乘得到,如下式(7):
ktime×meteorology=kmeteorology(Xi,Xj;θmeteorology)×ktime 式(7)
其中,所需求解的超参数是
最终,高斯模型的协方差函数k表示如下式(8):
k=ktime+kmeteorology+ktime×meteorology 式(8)
作为一种优选方案,所述高斯模型的协方差函数对应的协方差矩阵KNN是由k(Xi,Xj),i,j=1,2,…,N组成。KNN可以由训练数据集求解得到,当新输入一个观察数据X*(包括8种气象因子和对应的时间点)后,预测的流感病例数量Y*可以通过高斯过程模型求解得到,具体如下过程。
当输入一个新的观察数据X*后,新的协方差函数的新协方差矩阵K(N+1)(N+1)可以通过下式(9)求得:
其中,K(X*)是时间标记和输入的新观察数据X*之间的N×1协方差向量。
作为一种优选方案,所需要预测的流感病例数量的分布函数p(Y*|X*,D;θ)表示为式(10):
p(Y*|X*,D;θ)=N(μ*,σ*2) 式(10)
式(10)表示的分布函数可以由以下式(11)和(12)估计得到:
其中,是式(8)对应的协方差矩阵的逆,K(X*)T是时间标记和输入的新观察数据X*之间的N×1协方差向量的转置。
由此得到未来的流感病例数量的分布函数,即为训练好的流感预测模型。
3)将选取出的变量作为训练好的高斯模型的输入进行流感预测;
作为一种优选方案,在得到未来的流感病例数量的分布函数之后,将p(Y*|X*,D;θ)取最大值时对应的Y*作为最终输出的预测值,从而完成流感预测。
与现有技术相比,本发明的有益效果是:
本发明采用高斯过程模型建立了流感预测模型,融合了每周平均气温、气压、降雨量、相对湿度、最大温差和日照时间等多种气象数据来预测流感,最终结果显示本模型较好地反映出气象因素,特别是气压和日照时间对流感爆发的显著影响,与传统单纯的用时间序列模型去预测流感相比,预测的准确性大大提高,本系统能很好地拟合流感发病数的变化趋势,并能准确地预测流感的爆发趋势。通过本发明建立的流感预测模型,有利于早期识别流感爆发趋势,有利于优化公共卫生资源的分配及防控措施的制定,这将对于流感防控具有重要意义。
附图说明
图1为本发明提供的基于高斯模型的流感预测方法的流程框图。
图2是历史流感数据拟合曲线。
图3是流感预测输出结果示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
如图1所示,本发明一种基于高斯过程模型用于流感预测的建模方法,包括变量输入模块、变量选择模块、构造高斯过程模型模块、流感预测结果输出模块:
(1)变量输入模块
输入原始流感历史数据和气象数据,气象数据包括相对湿度(Relativehumidity)、气压(Pressure)、24小时降雨量(Rain24h)、日照(Sunshine)、平均气温(Average temperature)、最高气温(Highest temperature)、最低气温(Lowesttemperature)、温差(Range of temperature)等8种气象因子。
(2)变量选择模块
对输入的8种气象因子进行变量选择,选取显著气象因子的算法是采用最小绝对收缩和选择运算法则(least absolute shrinkage and selection operator,LASSO)。具体为:假设X∈N×p是输入数据组成的矩阵,第一列是时间点,剩下的(p-1)列是对应时间的气象指标;Y∈N×1代表对应时间的流感病例数;给定标准的预测因子xij和yi,其中i=1,2,…,N,j=1,2,…,p,则LASSO估计量为式(1):
求解上式,得到对流感传播影响显著的气象因子,作为高斯过程模型的输入变量。
求解式(1)的方法是最小角回归(Least Angle Regression),详细的算法流程如下:
1.将自变量X∈N×p标准化成均值为0和方差为1的标准矩阵。从残差 β1,β2,…,βp=0开始。
2.找出与残差R相关度最高的自变量Xj,其中Xj=[x1j,x2j,…,xNj]T。
3.将βj从0开始沿着最小二乘系数<Xj,R>方向移动,直到有新的自变量Xk与残差R有同样大的相关度而被选入。
4.将βj和βk沿着他们的联合最小二乘系数(Xj,Xk)一起移动,直到有新的自变量与残差R有同样大的相关度而被选入。
5.重复2,3,4步骤,直到所有变量都被选入。最后得到的非零估计对应的自变量就是所选出来的显著气象因子。
(3)构造高斯过程模型模块
在构建高斯过程模型模块,首先假设输入的训练数据集为由维度为p的自变量Xi和应变量Yi构成,其中Xi包括时间序列和气象因子数据,Yi是对应时间戳上的流感病例数量,N是所记录的时间长度,在本发明中单位是周。高斯过程模型定义如下式(13):
f(X)~GP(0,k(Xi,Xj)) 式(13)
其中,k(Xi,Xj)是高斯函数f(Xi)的协方差函数,可以由训练数据集进行计算得到。
在本发明中,所构造的高斯模型的协方差函数由时间协方差、气象因子协方差、互协方差三部分累加而成。以下具体阐述三部分协方差函数的构造方法。
A.时间协方差
为了更好地捕捉流感爆发的周期性、非稳态性和趋势性,所构建的时间协方差由三个子协方差函数组成,分别为周期时间协方差函数、非稳态时间协方差函数和趋势时间协方差函数。选取输入矩阵中的任意两个时间点(ti,tj),周期时间协方差函数由下式(2)求得:
其中Δt=|ti-tj|是距离度量,是需要求解的超参数,fsin表示流感爆发的周期。
非稳态时间协方差函数可由下式(3)求得:
其中li和lj是长度比例超参数,是需要求解的超参数。
周期时间协方差函数由下式(4)求得:
其中是需要求解的超参数。
将上述三式累加,则可以得到最终的时间协方差函数,如下式(5):
ktime=ksin(ti,tj;θsin)+kpac(ti,tj;θpac)+ktendency(ti,tj;θtendency) 式(5)
B.气象因子协方差
所述气象因子协方差函数可由下式(6)求得:
其中,Δx=|Xi-Xj|,所需求解的超参数是
C.互协方差
所述互协方差可以由时间协方差函数和气象因子协方差函数相乘得到,如下式(7):
ktime×meteorology=kmeteorology(Xi,Xj;θmeteorology)×ktime 式(7)
其中,所需求解的超参数是
最终,本发明构造的高斯模型协方差函数如下式(8):
k=ktime+kmeteorology+ktime×meteorology 式(8)
(4)流感预测结果输出模块
所述协方差函数的协方差矩阵KNN是由k(Xi,Xj),i,j=1,2,…,N组成。KNN可以由训练数据集求解高斯过程模型得到,当新输入一个观察数据X*(包括8种气象因子和对应的时间点)后,预测的流感病例数量Y*可以通过高斯过程模型求解得到,具体如下过程。当输入一个新的观察数据X*后,新的协方差函数的新协方差矩阵K(N+1)(N+1)可以通过下式(9)求得:
其中,K(X*)是时间标记和输入的新观察数据X*之间的N×1协方差向量。
所需要预测的流感病例数量的分布函数如式(10):
p(Y*|X*,D;θ)=N(μ*,σ*2) 式(10)。
式(10)可以由式(11)和式(12)估计得到:
其中,是式(8)对应的协方差矩阵的逆,K(X*)T是时间标记和输入的新观察数据X*之间的N×1协方差向量的转置。
在得到未来的流感病例数量的分布函数之后,将p(Y*|X*,D;θ)取最大值时对应的Y*作为最终输出的预测值,从而完成流感预测。
本发明具体实施时,采用上述方法,利用某市疾病预防控制中心收集的流感历史数据和该市气象局所收集的对应时间的气象因子数据。流感历史数据包括2011年到2015年共260周的流感病例数据。气象因子数据包括对应时间的相对湿度(Relative humidity)、气压(Pressure)、24小时降雨量(Rain24h)、日照(Sunshine)、平均气温(Averagetemperature)、最高气温(Highest temperature)、最低气温(Lowest temperature)、温差(Range of temperature)等8种气象因子,如图2所示。
将前242周的历史数据用于训练上述模型,剩下的18周数据用于测试评估本发明所述模型的准确度。
图2表示采用上述模型对历史数据进行拟合之后的结果。
经过训练之后,本发明对流感的预测结果如图3所示。高斯回归模型表示未增加气象因子,直接作为时间序列采用本发明所述的方法进行预测,本发明方法表示增加了气象因子,从图3可知,增加气象因子之后,预测结果的准确性大大提高,进一步说明本发明对捕捉流感爆发具有很大优势。
为了比较本发明和现有常见的流感预测模型的差异,进行了比较试验,分别与季节时间序列模型(SARIMA)、线性回归模型(Linear regression)、人工神经网络模型(ANN)、多项式核支持向量机(SVR with polynomial kernel)比较。本次试验分别用两个指标评价分类性能,平均绝对百分误差(Mean absolute percent error,MAPE)和均方根误差(Rootmean square error,RMSE)。两个指标的计算公式如下式(14)和式(15)所示:
其中observedt表示t时的观察值,predictedt表示t时的预测值,n表示累计预测的次数。
比较结果如表1所示,可知本发明在RMSE和MAPE两个指标上都比其他常用方法有了很大提高,达到了最优的预测效果,再次验证了本发明的有效性。
表1预测未来18周流感病例的平均RMSE和MAPE
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种基于高斯过程模型的流感预测建模方法,包括如下步骤:
1)根据气象数据、流感历史数据、时间数据,选取对流感影响最显著的气象因子/变量,即显著气象因子;
2)构造和训练高斯模型,得到训练好的高斯模型,用于流感预测;
设输入的训练数据集为由维度为p的自变量Xi和应变量Yi构成,其中Xi包括时间序列和气象因子数据,Yi是对应时间戳上的流感病例数量,N是所记录的时间长度;高斯过程模型定义如下式(13):
f(X)~GP(0,k(Xi,Xj)) 式(13)
其中,k(Xi,Xj)是高斯函数f(Xi)的协方差函数,可以由训练数据集进行计算得到;
设自变量X∈N×p是输入数据组成的矩阵,N表示样本数量,p表示自变量数量,其中第一列是时间点,剩下的(p-1)列是对应时间的气象指标;Y∈N×1代表对应时间的流感病例数量;设定标准的预测因子xij和yi,其中i=1,2,…,N,j=1,2,…,p;
所述高斯模型的协方差函数k由时间协方差ktime、气象因子协方差kmeteorology、互协方差ktime×meteorology累加得到;
2A)所述时间协方差包括三个子协方差函数,分别为周期时间协方差函数ksin(ti,tj;θsin)、非稳态时间协方差函数kpac(ti,tj;θpac)和趋势时间协方差函数ktendency(ti,tj;θtendency);
最终的时间协方差函数ktime表示如式(5):
ktime=ksin(ti,tj;θsin)+kpac(ti,tj;θpac)+ktendency(ti,tj;θtendency) 式(5)
2B)所述气象因子协方差函数kmeteorology(Xi,Xj;θmeteorology)可由下式(6)求得:
其中,Δx=|Xi-Xj|,所需求解的超参数是
2C)所述互协方差ktime×meteorology由时间协方差函数和气象因子协方差函数相乘得到,如下式(7):
ktime×meteorology=kmeteorology(Xi,Xj;θmeteorology)×ktime 式(7)
其中,所需求解的超参数是
2D)高斯模型的协方差函数k表示如下式(8):
k=ktime+kmeteorology+ktime×meteorology 式(8)
2E)所述高斯模型的协方差函数k对应的协方差矩阵KNN由k(Xi,Xj),i,j=1,2,…,N组成;KNN由训练数据集求解得到;
2F)当新输入包括气象因子和对应的时间点的观察数据X*后,预测的流感病例数量Y*可以通过高斯过程模型求解得到,具体如下过程:
2F1)当输入一个新的观察数据X*后,新的协方差函数的新协方差矩阵K(N+1)(N+1)通过式(9)求得:
其中,K(X*)是时间标记和输入的新观察数据X*之间的N×1协方差向量;
2F2)所需要预测的流感病例数量的分布函数p(Y*|X*,D;θ)表示为式(10):
p(Y*|X*,D;θ)=N(μ*,σ*2) 式(10)
式(10)表示的分布函数由以下式(11)和(12)估计得到:
其中,是式(8)对应的协方差矩阵的逆,K(X*)T是时间标记和输入的新观察数据X*之间的N×1协方差向量的转置;
由此得到未来的流感病例数量的分布函数,即为训练好的流感预测模型;
3)将选取出的变量作为训练好的高斯模型的输入进行流感预测,将p(Y*|X*,D;θ)取最大值时对应的Y*作为最终输出的预测值,从而完成流感预测。
2.如权利要求1所述基于高斯过程模型的流感预测建模方法,其特征是,步骤1)中,气象因子包括:相对湿度、气压、24小时降雨量、日照、平均气温、最高气温、最低气温、温差。
3.如权利要求1所述基于高斯过程模型的流感预测建模方法,其特征是,步骤1)中,采用最小绝对收缩和选择运算方法LASSO选取显著气象因子,具体包括如下操作:
11)LASSO估计量表示为式(1):
其中,为LASSO估计所求得的β值集合;argmin表示使目标函数取最小值时的变量值;βj是待估计的参数,λ是调整参数;β0为待估计的参数,即截距;
12)采用最小角回归方法求解式(1),包括如下步骤:
121)将自变量X∈N×p标准化成均值为0和方差为1的标准矩阵。从残差β1,β2,…,βp=0开始;其中,为初始估计值;
122)找出与残差R相关度最高的自变量Xj,其中Xj=[x1j,x2j,…,xNj]T;
123)将βj从0开始沿着最小二乘系数<Xj,R>方向移动,直到有新的自变量Xk与残差R有同样大的相关度而被选入;
124)将βj和βk沿着它们的联合最小二乘系数(Xj,Xk)一起移动,直到有新的自变量与残差R有同样大的相关度而被选入;
125)重复步骤122)~124),直到所有变量都被选入;
由此得到的非零估计对应的自变量即为显著气象因子。
4.如权利要求1所述基于高斯过程模型的流感预测建模方法,其特征是,步骤2A)所述时间协方差包括的周期时间协方差函数ksin(ti,tj;θsin)、非稳态时间协方差函数kpac(ti,tj;θpac)和趋势时间协方差函数ktendency(ti,tj;θtendency)具体为:
选取输入矩阵X∈N×p中的任意两个时间点(ti,tj),周期时间协方差函数ksin(ti,tj;θsin)由式(2)求得:
其中,Δt=|ti-tj|是距离度量,是需要求解的超参数,fsin表示流感爆发的周期;lsin是特征长度尺度超参数;是带宽超参数;
非稳态时间协方差函数kpac(ti,tj;θpac)由式(3)求得:
其中,li和lj是长度比例超参数;是需要求解的超参数,表示带宽和特征长度尺度超参数;
趋势时间协方差函数ktendency(ti,tj;θtendency)由式(4)求得:
其中,是需要求解的超参数,表示其带宽和特征长度尺度超参数。
5.如权利要求1所述基于高斯过程模型的流感预测建模方法,其特征是,记录的时间长度N的单位为周。
6.一种基于高斯过程模型的流感预测装置,包括变量输入模块、变量选择模块、高斯过程模型构造模块、流感预测结果输出模块;
变量输入模块用于输入原始数据,包括:气象数据、流感历史数据、时间数据;
变量选择模块用于处理气象数据和流感历史数据,选取对流感预测影响最显著的气象因子/变量;
高斯过程模型构造模块用于构造和训练高斯模型,并将变量选择模块选取出的变量作为训练好的高斯模型的输入进行预测;
流感预测结果输出模块用于输出高斯过程模型构造模块得到的预测结果。
7.如权利要求1所述基于高斯过程模型的流感预测装置,其特征是,流感预测结果输出模块输出的结果为未来一周的流感发病量预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910588107.5A CN110444298A (zh) | 2019-07-02 | 2019-07-02 | 基于高斯过程模型的流感预测建模方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910588107.5A CN110444298A (zh) | 2019-07-02 | 2019-07-02 | 基于高斯过程模型的流感预测建模方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110444298A true CN110444298A (zh) | 2019-11-12 |
Family
ID=68429053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910588107.5A Pending CN110444298A (zh) | 2019-07-02 | 2019-07-02 | 基于高斯过程模型的流感预测建模方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444298A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816298A (zh) * | 2020-06-05 | 2020-10-23 | 北京先通康桥医药科技有限公司 | 事件预测方法及其装置、存储介质、终端、云服务系统 |
CN111968752A (zh) * | 2020-07-27 | 2020-11-20 | 华南理工大学 | 基于最小生成树动态网络标志物的城市流感爆发预测方法 |
CN113053536A (zh) * | 2021-01-15 | 2021-06-29 | 中国人民解放军军事科学院军事医学研究院 | 一种基于隐马尔科夫模型的传染病预测方法、系统和介质 |
CN118016318A (zh) * | 2024-04-08 | 2024-05-10 | 中国科学院地理科学与资源研究所 | 基于图神经网络的人兽共患病风险预测模型的构建方法 |
WO2024109331A1 (zh) * | 2022-11-23 | 2024-05-30 | 京东方科技集团股份有限公司 | 传染病人数预测方法、系统、电子设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335A (zh) * | 2015-04-10 | 2015-07-29 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测模型 |
CN108197380A (zh) * | 2017-12-29 | 2018-06-22 | 南京林业大学 | 基于偏最小二乘的高斯回归软测量建模方法 |
-
2019
- 2019-07-02 CN CN201910588107.5A patent/CN110444298A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335A (zh) * | 2015-04-10 | 2015-07-29 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测模型 |
CN108197380A (zh) * | 2017-12-29 | 2018-06-22 | 南京林业大学 | 基于偏最小二乘的高斯回归软测量建模方法 |
Non-Patent Citations (1)
Title |
---|
SHANEN CHEN,ET AL: ""Predicting temporal propagation of seasonal influenza using improve gaussian process model"", 《JOURNAL OF BIOMEDICAL INFORMATICS》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816298A (zh) * | 2020-06-05 | 2020-10-23 | 北京先通康桥医药科技有限公司 | 事件预测方法及其装置、存储介质、终端、云服务系统 |
CN111968752A (zh) * | 2020-07-27 | 2020-11-20 | 华南理工大学 | 基于最小生成树动态网络标志物的城市流感爆发预测方法 |
CN111968752B (zh) * | 2020-07-27 | 2022-10-21 | 华南理工大学 | 基于最小生成树动态网络标志物的城市流感爆发预测方法 |
CN113053536A (zh) * | 2021-01-15 | 2021-06-29 | 中国人民解放军军事科学院军事医学研究院 | 一种基于隐马尔科夫模型的传染病预测方法、系统和介质 |
CN113053536B (zh) * | 2021-01-15 | 2023-11-24 | 中国人民解放军军事科学院军事医学研究院 | 一种基于隐马尔科夫模型的传染病预测方法、系统和介质 |
WO2024109331A1 (zh) * | 2022-11-23 | 2024-05-30 | 京东方科技集团股份有限公司 | 传染病人数预测方法、系统、电子设备及可读存储介质 |
CN118016318A (zh) * | 2024-04-08 | 2024-05-10 | 中国科学院地理科学与资源研究所 | 基于图神经网络的人兽共患病风险预测模型的构建方法 |
CN118016318B (zh) * | 2024-04-08 | 2024-06-14 | 中国科学院地理科学与资源研究所 | 基于图神经网络的人兽共患病风险预测模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444298A (zh) | 基于高斯过程模型的流感预测建模方法及装置 | |
CN104933841B (zh) | 一种基于自组织神经网络的火灾预测方法 | |
CN102819673B (zh) | 一种多源灌溉信息融合方法及装置 | |
CN104809335A (zh) | 一种环境变化对疾病发病影响的分析预测模型 | |
EP3193227B1 (en) | Entropy-based validation of sensor measurements | |
Kadir et al. | Wheat yield prediction: Artificial neural network based approach | |
CN105160437A (zh) | 基于极限学习机的负荷模型预测方法 | |
CN112146761A (zh) | 一种基于机器学习的人体测温补偿方法 | |
CN111415752A (zh) | 一种融合气象因素和搜索指数的手足口病预测方法 | |
JP6216294B2 (ja) | 重回帰分析装置および重回帰分析方法 | |
CN110210687A (zh) | 一种基于局部加权慢特征回归的非线性动态生产过程产品质量预测方法 | |
WO2023103130A1 (zh) | 一种基于量子游走的时间序列多尺度分析方法 | |
CN109544926B (zh) | 一种基于路口相关性的交通流量修复方法 | |
CN110991776A (zh) | 一种基于gru网络实现水位预测的方法及系统 | |
CN111709184A (zh) | 基于道面温度预测和模拟的积冰组合决策方法 | |
CN105259318A (zh) | 一种基于气象参数的恶臭ou值预测方法和系统 | |
Abdulhai et al. | Spatio-temporal inductance-pattern recognition for vehicle re-identification | |
CN118094427A (zh) | 基于动态图注意力的物联网时序数据异常检测方法及系统 | |
Wang et al. | Integrated self-consistent macro-micro traffic flow modeling and calibration framework based on trajectory data | |
CN102509020B (zh) | 基于传感器网络的复杂环境下多目标信息融合方法 | |
CN111430040A (zh) | 基于病例、气象和病原监测数据的手足口病疫情预测方法 | |
Dudzik et al. | The structural reliability analysis using explicit neural state functions | |
CN107437112B (zh) | 一种基于改进多尺度核函数的混合rvm模型预测方法 | |
Aggarwal et al. | Effect of training functions of artificial neural networks (ANN) on time series forecasting | |
Souty et al. | Performances of statistical methods for the detection of seasonal influenza epidemics using a consensus-based gold standard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191112 |