CN108538397A - 一种基于粒子滤波模型的流感趋势预测系统及方法 - Google Patents
一种基于粒子滤波模型的流感趋势预测系统及方法 Download PDFInfo
- Publication number
- CN108538397A CN108538397A CN201711411218.6A CN201711411218A CN108538397A CN 108538397 A CN108538397 A CN 108538397A CN 201711411218 A CN201711411218 A CN 201711411218A CN 108538397 A CN108538397 A CN 108538397A
- Authority
- CN
- China
- Prior art keywords
- data
- influenza
- particle filter
- dimensionality reduction
- filter model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明创造提供了一种基于粒子滤波模型的流感趋势预测系统及方法,包括数据源、存储单元、预处理单元、分析处理单元和输出单元,所述的数据源、存储单元、预处理单元、分析处理单元和输出单元依次连接;所述的预处理单元包括数据清洗模块和数据降维模块,数据清洗模块和数据降维模块数据连接;本发明应用于数据预测,也可以作为广泛应用于工程实践的粒子滤波算法。通过网络抓取的数据进行清洗、去噪、归一化和降维,大大降低了计算的复杂度。
Description
技术领域
本发明创造属于公共卫生领域,尤其是涉及一种基于粒子滤波模型的流感趋势预测系统及方法。
背景技术
基于物理学的流行疾病传播模型,如:SIRS模型,主要描述人口被病毒感染,以及从感染中恢复的比例关系。SIRS模型的假设包括不同流感毒株的完全混合种群和相同的传播行为。因此,目前基于流感爆发时间或大小的机制模型的预测能力主要会受到空间异质性、人际交往网络结构优先混合等因素的限制。
除去上述的机制模型,另一类技术主要包括,基于代理的模型、参数统计模型及经验贝叶斯框架。其中,(1)基于代理的模型:依赖于复杂的相互作用和人群的疾病模式,通常适用于一个单一的流感毒株的特殊情况。(2)参数统计模型:利用不同时间序列分析方法预测流感流行趋势,最新的流感预测研究使用了詹金斯盒方法。(3)经验贝叶斯框架:并没有很强的特定领域假设,因此可以相对容易地应用于一些其他季节性流行病的疾病。
但是在目前,流感病毒的传播组主要采用随机差分模型(离散时间)来进行描述,以确定易感染人群或感染人群。除了传输过程中所存在的干扰外,流感计数的实时测量也存在着不确定性,例如低估无症状人群、延迟报告等。
发明内容
有鉴于此,本发明创造旨在提出一种降低计算复杂度的基于粒子滤波模型的流感趋势预测系统及方法。
为达到上述目的,本发明创造的技术方案是这样实现的:
一种基于粒子滤波模型的流感趋势预测系统,包括数据源、存储单元、预处理单元、分析处理单元和输出单元,所述的数据源、存储单元、预处理单元、分析处理单元和输出单元依次连接;所述的预处理单元包括数据清洗模块和数据降维模块,数据清洗模块和数据降维模块数据连接。
所述的数据源为通过网络爬虫形式获取的公开网络信息数据。
所述的存储单元为服务器的存储媒介,至少包括HHD、SSD、SATA中的一种。
一种基于粒子滤波模型的流感趋势预测方法,包括如下步骤:
(1)将数据源以并阵列式存储到本地服务器的存储单元中;
(2)将步骤(1)所述的数据源所包含的数据通过预处理,转换为统一数据规格并降维;
(3)然后采用PF粒子滤波模型算法对数据进行分析处理;
(4)最后输出计算分析结果,并生成列表。
步骤(2)所述的数据预处理包括如下步骤:
(21)对数据进行清洗及去噪处理;
(22)然后将数据进行归一化处理;
(23)最后使用PCA算法对数据降维。
步骤(23)所述的PCA算法包括如下步骤:
(231)根据数据归一化处理得到对应矩阵B,计算求出协方差矩阵C;
(232)然后计算出协方差矩阵C的特征值和特征向量;
(233)根据数据相关性选择相应的特征值和特征向量,得到降维数据。
相对于现有技术,本发明创造所述的一种基于粒子滤波模型的流感趋势预测系统及方法具有以下优势:
(1)本发明应用于数据预测,也可以作为广泛应用于工程实践的粒子滤波算法。通过网络抓取的数据进行清洗、去噪、归一化和降维,大大降低了计算的复杂度;
(2)本发明将数据处理算法和粒子滤波算法相结合应用到数据预测领域,在大大降低计算复杂度的同时,也能有效提高预测准确率。为包括数统计预测及应用提供了有力支持,本发明也可以应用到医患数据领域,可以为及早的提供医疗资源进行准备和预防流感病毒政策的提前发布提供定量支撑。
附图说明
构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解,本发明创造的示意性实施例及其说明用于解释本发明创造,并不构成对本发明创造的不当限定。在附图中:
图1为本发明创造实施例所述的结构示意图;
图2为本发明创造实施例所述的数据清洗流程图;
图3为本发明创造实施例所述的降维算法流程图;
图4为本发明创造实施例所述的整体运行流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
在本发明创造的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。
下面将参考附图并结合实施例来详细说明本发明创造。
如图1所示,一种基于粒子滤波模型的流感趋势预测系统,包括数据源、存储单元、预处理单元、分析处理单元和输出单元,所述的数据源、存储单元、预处理单元、分析处理单元和输出单元依次连接;所述的预处理单元包括数据清洗模块和数据降维模块,数据清洗模块和数据降维模块数据连接。
所述的数据源为通过网络爬虫形式获取的公开网络信息数据。
所述的存储单元为服务器的存储媒介,至少包括HHD、SSD、SATA中的一种。
一种基于粒子滤波模型的流感趋势预测方法,包括如下步骤:
(1)将数据源以并阵列式存储到本地服务器的存储单元中;
(2)将步骤(1)所述的数据源所包含的数据通过预处理,转换为统一数据规格并降维;
(3)然后采用PF粒子滤波模型算法对数据进行分析处理;
(4)最后输出计算分析结果,并生成列表。
如图2所示,步骤(2)所述的数据预处理包括如下步骤:
(21)对数据进行清洗及去噪处理;
(22)然后将数据进行归一化处理;
(23)最后使用PCA算法对数据降维。
步骤(23)所述的PCA算法包括如下步骤:
(231)根据数据归一化处理得到对应矩阵B,计算求出协方差矩阵C;
(232)然后计算出协方差矩阵C的特征值和特征向量;
(233)根据数据相关性选择相应的特征值和特征向量,得到降维数据。
本发明具体而言,实施例(一)一种数据预测的方法,如图4所示,首先数据源获取:
网络公开的数据库会通过网络渠道发布基础数据,通过网络爬虫方式,抓取流感信息数据,并将其存储于本地的数据库服务器,其中存储媒介包括但不限于HHD、SSD、SATA等阵列以及其混合形式的阵列。
然后,数据处理—清洗、去噪、归一化、降维
数据处理的主要目的是将存储的网络原始数据变换为可以进行统一分析的数据格式。
其中,数据清洗的目的是对各种脏数据进行对应处理,得到标准的、干净的、实际内涵一致的数据。从网络抓取的流感数据具有不完整性甚至是非结构化的特点,数据进行去噪、缺失值估计以及数据归一化等处理后,仍然会存在有大量冗余。经过将数据归一化后,然后使用PCA算法进行降维。其目的在于,1)多变量之间关联性,避免导致解空间不稳定;2)高维数据数据稀疏性特性,消除大量的数据冗余。其主要处理流程图如下:
对于原始数据,其中m是样本数,n是样本维度,通过以下公式:
将数据归一化,得到对应矩阵B,利用该矩阵计算协方差矩阵C,计算出协方差矩阵C的特征值和特征向量。
最后,利用粒子滤波模型进行数据分析
粒子滤波特别适用于不同权重的近似分布,而且在低维度数据的计算上有极大的优势。假设作为一组粒子表征后验分布p(x0:k|z1:k),其中分别为状态值和其权重。因此,其后验分布近似可表达为
粒子滤波的权重选择是基于重要性采样原则,并且根据下列原则选择粒子权重。如果p(x)∝π(x)是一个难移进行采样的概率分布,但是π(x)已知,那么可以其权重可以近似为概率密度函数:
其中
通过不同粒子权重的更新,经过k时间步长后,后验概率的分布可以得到相对准确的近似值。如果采样点x0:k,重要性密度函数为q(x0:k|z1:k),那么其权重为:
引入马尔科夫参数q(xk|x0:k-1,z1:k)=q(xk|xk-1,zk),可以得到重要性密度函数只与其上一个状态xk-1和当前观测值zk相关。通常情况下,滤波器只需要进行估计p(xk|z1:k),所以只需要对进行存储,而不需要存储整个链式的状态和所有历史观测值z1:k-1。这将大大节约存储空间和减小计算资源。
如果近似后验密度函数为p(xk|z1:k),那么从k-1时间步进到k时间步进,权重更新的方程为
其中为新的重要性采样分布函数。这里选择先验分布作为重要性采样:
那么每次权重的更新可以大大简化为:
则滤波器的后验概率密度函数可以近似为:
实施例(二)一种应用于流感病毒的预测方法,具体而言,
首先数据的获取,中国国家流感中心、中国疾病预防控制中心等官方机构会通过网络渠道发布中国地区流感人群和状况等数据,其他网络方式如百度指数、新浪微博、腾讯日志等也会发布大量流感病毒信息,通过网络爬虫等方式,抓取流感信息数据,并将其存储于本地存储中心。存储中心包括但不限于HHD、SSD、SATA等阵列以及其混合形式的阵列。
然后,数据处理—清洗、去噪、归一化、降维,对流感数据进行去噪、降维后,大大降低数据的冗余信息,粒子滤波特别适用于不同权重的近似分布,而且在低维度数据的计算上有极大的优势。
最后进行滤波分析,粒子滤波特别适用于不同权重的近似分布,而且在低维度数据的计算上有极大的优势。
其中,假设作为一组粒子表征后验分布p(x0:k|z1:k),其中分别为流感病毒状态值和其权重。那么,所观测地区流感病毒爆发的后验分布近似可表达为
粒子滤波的权重选择是基于重要性采样原则,并且根据下列原则选择粒子权重。假设,p(x)∝π(x)是一个进行采样的概率分布,但是π(x)已知,那么可以其权重可以近似为概率密度函数:
其中
通过不同粒子权重的更新,经过k时间步长后,流感病毒后验概率的分布可以得到相对准确的近似值。如果对某个病毒观测采样点x0:k,流感重要性密度函数为q(x0:k|z1:k),那么其流感爆发权重为:
此外,引入马尔科夫参数模型q(xk|x0:k-1,z1:k)=q(xk|xk-1,zk),可以得到流感病毒重要性密度函数只与其上一个状态xk-1和当前观测值zk相关。
通常情况下,流感趋势预测模型只需要进行估计p(xk|z1:k),所以只需要对当前流感状态进行存储,而不需要存储整个链式流感的状态和所有流感病毒历史观测值z1:k-1。这将大大节约存储空间和减小计算资源。
如果流感病毒爆发的近似后验密度函数为p(xk|z1:k),那么,从k-1时间步进到k时间步进,权重更新的方程为
其中为新的流感爆发重要性采样分布函数。这里选择先验分布作为重要性采样:
那么每次权重的更新可以大大简化为:
则流感趋势预测模型的后验概率密度函数可以近似为:
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。
Claims (6)
1.一种基于粒子滤波模型的流感趋势预测系统,其特征在于:包括数据源、存储单元、预处理单元、分析处理单元和输出单元,所述的数据源、存储单元、预处理单元、分析处理单元和输出单元依次连接;所述的预处理单元包括数据清洗模块和数据降维模块,数据清洗模块和数据降维模块数据连接。
2.一种基于粒子滤波模型的流感趋势预测系统,其特征在于:所述的数据源为通过网络爬虫形式获取的公开网络信息数据。
3.一种基于粒子滤波模型的流感趋势预测系统,其特征在于:所述的存储单元为服务器的存储媒介,至少包括HHD、SSD、SATA中的一种。
4.应用如权利要求1所述的一种基于粒子滤波模型的流感趋势预测系统的方法,其特征在于,包括如下步骤:
(1)将数据源以并阵列式存储到本地服务器的存储单元中;
(2)将步骤(1)所述的数据源所包含的数据通过预处理,转换为统一数据规格并降维;
(3)然后采用PF粒子滤波模型算法对数据进行分析处理;
(4)最后输出计算分析结果,并生成列表。
5.根据权利要求1所述的一种基于粒子滤波模型的流感趋势预测方法,其特征在于:步骤(2)所述的数据预处理包括如下步骤:
(21)对数据进行清洗及去噪处理;
(22)然后将数据进行归一化处理;
(23)最后使用PCA算法对数据降维。
6.根据权利要求5所述的一种基于粒子滤波模型的流感趋势预测方法,其特征在于:步骤(23)所述的PCA算法包括如下步骤:
(231)根据数据归一化处理得到对应矩阵B,计算求出协方差矩阵C;
(232)然后计算出协方差矩阵C的特征值和特征向量;
(233)根据数据相关性选择相应的特征值和特征向量,得到降维数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711411218.6A CN108538397A (zh) | 2017-12-23 | 2017-12-23 | 一种基于粒子滤波模型的流感趋势预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711411218.6A CN108538397A (zh) | 2017-12-23 | 2017-12-23 | 一种基于粒子滤波模型的流感趋势预测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108538397A true CN108538397A (zh) | 2018-09-14 |
Family
ID=63488936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711411218.6A Pending CN108538397A (zh) | 2017-12-23 | 2017-12-23 | 一种基于粒子滤波模型的流感趋势预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108538397A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111902A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 急性传染病的发病周期预测方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014074426A1 (en) * | 2012-11-06 | 2014-05-15 | Intel Corporation | Determining social sentiment using physiological data |
CN104111976A (zh) * | 2014-06-24 | 2014-10-22 | 海南凯迪网络资讯有限公司 | 网络言论情绪态度定位方法及装置 |
CN106030589A (zh) * | 2014-02-19 | 2016-10-12 | 赫尔实验室有限公司 | 使用开源数据的疾病预测系统 |
CN106845511A (zh) * | 2016-11-16 | 2017-06-13 | 吉林大学 | 一种基于组稀疏贝叶斯学习的网络时空监控方法 |
CN107273685A (zh) * | 2017-06-14 | 2017-10-20 | 广东工业大学 | 一种针对临床疾病的多模态大数据的数据分析方法 |
-
2017
- 2017-12-23 CN CN201711411218.6A patent/CN108538397A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014074426A1 (en) * | 2012-11-06 | 2014-05-15 | Intel Corporation | Determining social sentiment using physiological data |
CN106030589A (zh) * | 2014-02-19 | 2016-10-12 | 赫尔实验室有限公司 | 使用开源数据的疾病预测系统 |
CN104111976A (zh) * | 2014-06-24 | 2014-10-22 | 海南凯迪网络资讯有限公司 | 网络言论情绪态度定位方法及装置 |
CN106845511A (zh) * | 2016-11-16 | 2017-06-13 | 吉林大学 | 一种基于组稀疏贝叶斯学习的网络时空监控方法 |
CN107273685A (zh) * | 2017-06-14 | 2017-10-20 | 广东工业大学 | 一种针对临床疾病的多模态大数据的数据分析方法 |
Non-Patent Citations (1)
Title |
---|
金光: "《数据分析与建模方法》", 31 August 2013 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111902A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 急性传染病的发病周期预测方法、装置及存储介质 |
CN110111902B (zh) * | 2019-04-04 | 2022-05-27 | 平安科技(深圳)有限公司 | 急性传染病的发病周期预测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yildiz et al. | Ode2vae: Deep generative second order odes with bayesian neural networks | |
King et al. | Avoidable errors in the modelling of outbreaks of emerging pathogens, with special reference to Ebola | |
Deng et al. | Cola-GNN: Cross-location attention based graph neural networks for long-term ILI prediction | |
Demongeot et al. | SI epidemic model applied to COVID-19 data in mainland China | |
Yao et al. | Rdeepsense: Reliable deep mobile computing models with uncertainty estimations | |
Britton et al. | Bayesian inference for stochastic epidemics in populations with random social structure | |
Koher et al. | Contact-based model for epidemic spreading on temporal networks | |
Yang et al. | Bayesian differential programming for robust systems identification under uncertainty | |
Dawson et al. | Detecting disease outbreaks using a combined Bayesian network and particle filter approach | |
CN109120463B (zh) | 流量预测方法及装置 | |
Dutta et al. | Bayesian inference of spreading processes on networks | |
Upfill-Brown et al. | Predictive spatial risk model of poliovirus to aid prioritization and hasten eradication in Nigeria | |
Gibson et al. | Real-time mechanistic bayesian forecasts of covid-19 mortality | |
Ludkovski | Bayesian quickest detection in sensor arrays | |
Fox et al. | Bayesian nonparametric covariance regression | |
Zimmer et al. | Use of daily Internet search query data improves real-time projections of influenza epidemics | |
Pezzutto et al. | Smart testing and selective quarantine for the control of epidemics | |
Wang et al. | The dynamics of entropy in the COVID-19 outbreaks | |
Elogne et al. | An application of Spartan spatial random fields in environmental mapping: focus on automatic mapping capabilities | |
Muriira et al. | Exploiting linear support vector machine for correlation-based high dimensional data classification in wireless sensor networks | |
Polcz et al. | Reconstruction of epidemiological data in Hungary using stochastic model predictive control | |
CN108538397A (zh) | 一种基于粒子滤波模型的流感趋势预测系统及方法 | |
David et al. | Wireless body area network control policies for energy-efficient health monitoring | |
Papageorgiou et al. | A novel epidemiologically informed particle filter for assessing epidemic phenomena. Application to the monkeypox outbreak of 2022 | |
Akinsolu et al. | Behavioral study of software-defined network parameters using exploratory data analysis and regression-based sensitivity analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |
|
RJ01 | Rejection of invention patent application after publication |