CN104008164A - 基于广义回归神经网络的短期腹泻病多步预测方法 - Google Patents

基于广义回归神经网络的短期腹泻病多步预测方法 Download PDF

Info

Publication number
CN104008164A
CN104008164A CN201410234345.3A CN201410234345A CN104008164A CN 104008164 A CN104008164 A CN 104008164A CN 201410234345 A CN201410234345 A CN 201410234345A CN 104008164 A CN104008164 A CN 104008164A
Authority
CN
China
Prior art keywords
data
input
layer
sigma
generalized regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410234345.3A
Other languages
English (en)
Inventor
顾君忠
周子力
王永明
林晨
兰小敏
陈继智
相晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410234345.3A priority Critical patent/CN104008164A/zh
Publication of CN104008164A publication Critical patent/CN104008164A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks

Abstract

本发明公开了一种基于广义回归神经网络的短期腹泻病多步预测方法,该方法包括读入需要进行训练和测试的数据;对数据进行相关性分析,从中选择显著相关的气象因素;对得到的显著相关因素,进行主成分分析,提取特征;将训练数据作为广义回归神经网络多步预测模型的输入,构建广义回归神经网络多步预测模型;通过不断迭代和递归,建立多步预测模型;广义回归神经网络的预测结果按等级划分;本发明从根本上克服了现有技术的缺陷,对训练样本要求低,不存在局部极小化的问题,参数少,训练速度更快,预测准确度更高,可分别针对儿童和成人进行预测,在缺失气象数据的情况下依然可以准确快速地预测短期腹泻病。

Description

基于广义回归神经网络的短期腹泻病多步预测方法
技术领域
本发明涉及数据挖掘技术领域,具体地说是一种基于广义回归神经网络,在缺乏气象数据或者同时具备气象数据和腹泻数据的情况下,分别对儿童及成人的腹泻病进行多步预测的方法。
背景技术
近年来,人类社会产生越来越多的数据,促进了数据挖掘技术的快速发展。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又潜在有用的信息和知识的过程。
目前,数据挖掘技术已经被应用到金融、制造业、保险业等多个领域。如何利用数据挖掘技术对流行病进行预测引起了不少关注。不少学者试图在各种气象影响因素与腹泻病发病率或发病人数之间建立数学模型,预测在不同的气象因素作用下腹泻发病的变化,但均存在一些不足:
第一种技术是基于传统的统计学方法。这类方法无法很好地反映气象因素与腹泻发病人数之间复杂的非线性关系,预测效果往往不能令人满意;用于建立腹泻预测模型的历史样本数据以及气象数据偏少,从而造成不能很好地挖掘数据中所蕴藏的知识;已有的腹泻预测模型或仅以外部气象因素进行预测的模型,在缺少气象因素数据的情况下无法进行预测;或仅通过腹泻病例历史数据进行时间序列预测,没有同时兼顾这两种情况进行腹泻病的预测;已有的腹泻预测模型多以月腹泻发病人数为预测项,缺乏早期(逐日预测)预测预报功能。
第二种技术是基于BP人工神经网络的方法。BP人工神经网络虽然具有非线性映射能力、自学习和自适应能力、泛化能力、容错能力等优点,但是存在局部极小化问题,容易导致训练失败,同时BP人工神经网络对于初始值非常敏感,不同的初始值往往导致其收敛于不同的局部极小值点;由于BP人工神经网络的目标函数非常复杂,导致其训练速度很慢;BP人工神经网络的预测能力对于训练数据的典型性有较高要求;由于BP人工神经网络的参数较多,即使同样的网络结构和参数,训练最优模型仍需要花费较多时间。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于广义回归神经网络的短期腹泻病多步预测方法,该方法能够分别针对儿童和成人以及在缺乏气象数据或者同时具备气象数据和腹泻数据的情况下,建立对应的模型,进行多步的预测,得到令人较满意的预测结果。
实现本发明目的的具体技术方案是:
一种基于广义回归神经网络的短期腹泻病多步预测方法,该方法包括以下具体步骤:
(1)训练数据和测试数据:在5~7年某地区腹泻发病人数和气象数据中选择最近一年的腹泻发病人数和气象数据作为测试数据,剩余几年的腹泻发病人数和气象数据作为训练数据;
(2)数据预处理:对训练数据进行数据清洗和归一化处理;
(3)相关性分析:对训练数据进行Spearman相关性分析,从中选择显著相关的气象因素;
(4)主成分分析:对步骤(3)选择的因素进行主成分分析,提取特征;
(5)基于广义回归神经网络建模:以步骤(4)提取的特征作为广义回归神经网络的输入,采用高斯函数作为径向基函数,输出腹泻发病预测结果,对广义回归神经网络进行仿真训练,确定广义回归神经网络的权值和阈值,对儿童和成人分别建立24小时单元或多元多步预测模型,通过将数据输入预测模型获得预测结果,按百分位数法对预测结果进行等级划分;
所述步骤(1)中气象数据为日平均气温、日最高气温、日最低气温、日最低相对湿度、日平均相对湿度、日平均气压、日平均风速、日照时数和日累计降雨量。
所述步骤(2)中对训练数据进行数据清洗和归一化处理;具体包括:
数据清洗是检查数据一致性,针对训练数据中存在的缺失数据、噪声数据、错误数据、冗余数据分别进行处理:
缺失数据:使用缺失数据前后一周的数据的平均值进行填充;
噪声数据:通过画散点图识别噪声数据,然后由用户进行确认及更正;
错误数据:通过和用户确认的方式纠正错误数据;
冗余数据:人工删除冗余数据;
归一化处理是为了加快广义回归神经网络的收敛速度,采用公式(1)对训练数据进行归一化处理:
x ij = 0.9 × X ij - min ( X i ) max ( X i ) - min ( X i ) + 0.05 - - - ( 1 )
其中,X为训练数据矩阵,Xij为矩阵中的元素,Xi为矩阵中的一行,xij是归一化后的结果矩阵。
所述步骤(4)中对步骤(3)选择的因素进行主成分分析,提取特征具体包括:
a)原始样本数据m个变量标准化处理
由于各气象因素之间具有不同的量纲和数量级,使得数据之间的差异性比较大,为此在进行主成分分析之前要对原始输入样本进行标准化处理,得到标准化数据集X'=(x'ij)x×p,标准化公式如下:
x ij ′ = x ij - x ‾ j s j - - - ( 2 )
其中:xij为样本原数据, x ‾ j = Σ 1 n x ij / n 为样本均值, s j = Σ j = 1 n ( x ij - x ‾ j ) 2 / ( n - 1 ) 为样本标准差;
b)求标准化数据的相关系数矩阵R
R=(rij)m×m    (3)
其中:(i=1,2,3,...,m,j=1,2,3,...,m);
c)计算相关矩阵R的特征值和特征向量
设计算得到λ1≥λ2≥...≥λm≥0是R的特征值,并使其从大到小排列,α12,...,αm是相应的特征向量,得到一组主成分用Zp表示:
Z p = Σ i = 1 m α i X i   (i=1,2,3,...,m)    (4)
其中,αi为特征向量,X为训练数据矩阵。
d)计算方差贡献率em与累积方差贡献率Em
方差贡献率 e m = λ k Σ i = 1 m λ i - - - ( 5 )
累计方差贡献率 E m = Σ j = 1 k λ j Σ i = 1 m λ i - - - ( 6 )
其中,λk是相关系数矩阵R的特征值。
e)确定主成分个数
为第k个成分的贡献率,称为前k个主成分的累计贡献率,当前k个成分的累积方差贡献率超过95%时,提取前k个作为主成分,来反映原来指标的大部分信息;
f)计算主成分载荷与主成分得分
假设主成分载荷为σi,主成分得分为τi,则:
σ i = Σ i = 1 m λ i α i   (i=1,2,3,...,m)    (7)
其中αi为对应特征值的特征向量;
τi=xi nσi  (i=1,2,3,...,m)    (8)
其中,xi各指标的标准化后的数据;将计算出的各主成分的分值作为广义回归神经网络新的样本输入数据。
所述步骤(5)的广义回归神经网络是由输入层、模式层、求和层和输出层组成。输入层中的神经元接收并存储输入向量X,输入层的神经元数量与输入向量的大小相等,输入层与模式层相连,输入层将数据传递给模式层进行处理;模式层的神经元个数与输入层的神经元个数相同,径向基函数采用高斯函数,通过模式层能够学习到输入变量与输出变量之间的关系;求和层由两类神经元S和D组成,神经元S将模式层中的所有神经元的输出进行求和,神经元D将模式层中的所有神经元的输出进行加权处理,权值默认取值为1;输出层中神经元的个数等于学习样本中输出向量的维数n,该层各神经元将求和的输出值相除,得到网络的估计结果。
Y ( X ) = Σ i = 1 n Y i exp ( - D i 2 / 2 σ 2 ) Σ i = 1 n exp ( - D i 2 / 2 σ 2 ) - - - ( 9 )
其中,,σ是平滑参数,X是来自训练数据的输入向量,Xi是模式层中第i个神经元的输入向量。
所述步骤(5)中对儿童和成人分别建立24小时单元或多元多步预测模型,具体包括:
按照预测对象不同对训练数据进行划分,通过广义回归神经网络,分别获得儿童和成人的训练模型;所述单元预测模型是在气象数据无法获取的情况下,仅以某地区腹泻发病人数作为训练数据;所述多元预测模型是以某地区腹泻发病人数和气象数据作为训练数据;
多步预测模型是指将24小时的单步预测值通过连接,反馈到广义回归神经网络模型的输入层作为下一步预测的输入值,同时结合气象因素预报值,通过不断迭代、递归,预测未来多天的腹泻发病人数;由于采用预测值代替真实值作为预测模型的输入变量得到下一时刻的预测值,采用这种迭代能够得到后续多个时刻预测值,随着预测步数的增加,最终所有的模型输入变量都由预测值组成,从而导致预测精度的逐渐降低或得到不符合实际的预测结果;为了改善多步预测的效果,避免样本由过多预测值代替真实值构成而导致的预测精度降低,采用与预测步数一样的延迟,从而保证模型输入至少有一个真实值。
所述步骤(5)中预测结果按等级划分,具体包括:
采用百分位数法,将预测得到的发病人数四舍五入取整,然后以P50、P75、P95三个值为预报阈值,将其分为四个等级((见表1);若预报等级与实际等级一致,则为预报命中;若预报结果与实际等级一致或相差±1级,则为预报正确,否则为预报失误。
表1
与现有技术相比,本发明的有益结果:
本发明针对传统的统计学方法无法准确地反映出气象因素与腹泻发病人数之间复杂的非线性关系及BP人工神经网络存在局部极小化、训练速度慢等问题,通过数据清洗和归一化技术对原始数据进行预处理,并把数据分为训练数据和测试数据,对数据进行Spearman相关性分析得到显著相关的因素,然后将显著相关因素进行主成分分析,提取特征向量,建立广义回归神经网络,针对儿童和成人分别建立24小时单元或多元单步预测模型,即可解决上述的情况。本发明从根本上克服了现有技术的缺陷,对训练样本要求低,不存在局部极小化的问题,参数少,训练速度更快,预测准确度更高,可分别针对儿童和成人进行预测,在缺失气象数据的情况下依然可以准确快速地预测短期腹泻病。
附图说明
图1为本发明流程图;
图2为本发明多元24小时儿童腹泻神经网络预测模型图;
图3为本发明广义回归神经网络的预测值与实际值的差别示意图。
具体实施方式
为使本发明的上述目的、特征和优点更加清晰易懂,下面结合附图和具体实施例对本发明作进一步的详细说明。
本发明可利用实时气象数据和历史腹泻发病人数数据,通过广义回归神经网络多步预测模型,得到对未来五天的每天腹泻发病人数和发病指数的预测结果。
实施例
本发明以历史、实时的气象数据和腹泻发病人数数据进行训练和学习,实时获得腹泻发病人数和发病指数的预测结果。下面以2006年至2011年上海地区腹泻发病人数数据和气象数据为训练数据,2012年上海地区腹泻发病人数数据和气象数据为测试数据为例,结合附图对本发明做进一步的说明。
读入的气象数据和腹泻发病人数数据,是由气象局和医院提供的数据。在本实施例中,如图2所示,所述的2006年至2011年的数据,包括日平均气温、日最高气温、日最低气温、日最低相对湿度、日平均相对湿度、日平均气压、日平均风速、日照时数和日累计降雨量和感染性腹泻发病人数这些数据。
步骤一、读入数据并归一化
利用气象数据中的日平均气温、日最高气温、日最低气温、日最低相对湿度、日平均相对湿度、日平均气压、日平均风速、日照时数和日累计降雨量和腹泻发病人数数据中的感染性腹泻发病人数数据,作为下一步的输入数据。将2006-2011年的气象数据和腹泻人数数据作为训练数据,2012年的气象数据和腹泻人数数据作为测试数据,数据清洗和归一化过程如下:
数据清洗是指检查数据一致性,针对训练数据中存在的缺失数据、噪声数据、错误数据、冗余数据分别进行处理:
缺失数据:使用缺失数据前后一周的数据的平均值进行填充;
噪声数据:通过画散点图识别噪声数据,然后由用户进行确认及更正;
错误数据:通过和用户确认的方式纠正错误数据;
冗余数据:人工删除冗余数据。
归一化处理是指为了加快广义回归神经网络的收敛速度,采用公式(1)对训练数据进行归一化处理。
x ij = 0.9 × X ij - min ( X i ) max ( X i ) - min ( X i ) + 0.05 - - - ( 1 )
其中,X为训练数据矩阵,Xij为矩阵中的元素,Xi为矩阵中的一行,xij是归一化后的结果矩阵。
步骤二、数据的相关性分析
根据步骤一中的气象数据和腹泻发病人数数据,进行Spearman相关性分析,得到显著相关的气象因素。
步骤三、数据的主成分分析
根据步骤二中得到的显著相关的气象因素进行主成分分析的输入,提取特征向量。
气象数据进行主成分分析的过程如下:
a)数据的标准化处理
由于各气象因素之间具有不同的量纲和数量级,使得数据之间的差异性比较大,为此在进行主成分分析之前要对数据进行标准化处理,得到标准化数据集X'=(x'ij)x×p,公式如下:
x ij ′ = x ij - x ‾ j s j - - - ( 2 )
其中:xij为样本原数据, x ‾ j = Σ 1 n x ij / n 为样本均值, s j = Σ j = 1 n ( x ij - x ‾ j ) 2 / ( n - 1 ) 为样本标准差。
b)求标准化数据的相关系数矩阵R
R=(rij)m×m    (3)
其中:(i=1,2,3,...,m,j=1,2,3,...,m)。
c)计算相关矩阵R的特征值和特征向量
设计算得到λ1≥λ2≥...≥λm≥0是R的特征值,并使其从大到小排列,α12,...,αm是相应的特征向量,可得到一组主成分用表示:
Z p = Σ i = 1 m α i X i   (i=1,2,3,...,m)    (4)
其中,αi为特征向量,X为训练数据矩阵。
d)计算方差贡献率em与累积方差贡献率Em
方差贡献率 e m = λ k Σ i = 1 m λ i - - - ( 5 )
累计方差贡献率 E m = Σ j = 1 k λ j Σ i = 1 m λ i - - - ( 6 )
e)确定主成分个数
一般称为第k个成分的贡献率,称为前k个主成分的累计贡献率,当前k个成分的累积方差贡献率超过95%时,提取前k个作为主成分,来反映原来指标的大部分信息。
f)计算主成分载荷与主成分得分
假设主成分载荷为σi,主成分得分为τi,则:
σ i = Σ i = 1 m λ i α i   (i=1,2,3,...,m)    (7)
其中αi为对应特征值的特征向量。
τi=xi nσi  (i=1,2,3,...,m)    (8)
其中,xi各指标的标准化后的数据。将计算出的各主成分的分值作为广义回归神经网络新的样本输入数据。
通过数据的主成分分析,提取了气象数据特征向量作为广义回归神经网络的训练数据。步骤四、广义回归神经网络的构建
在本实施例中,如图2所示,将步骤一中得到的训练数据,对新建的广义回归神经网络进行训练,得出误差最小的模型,将其中的参数设置为网络预测模型的参数,进而得到网络预测模型,其中作为示例,建立了24小时儿童多元多步预测模型。
广义回归神经网络模型的训练如下:
广义回归神经网络是由输入层、模式层、求和层和输出层组成。输入层中的神经元接收并存储输入向量X,输入层的神经元数量与输入向量的大小相等,输入层与模式层相连,输入层将数据传递给模式层进行处理;模式层的神经元个数与输入层的神经元个数相同,径向基函数采用高斯函数,通过模式层能够学习到输入变量与输出变量之间的关系;求和层由两类神经元S和D组成,神经元S将模式层中的所有神经元的输出进行求和,神经元D将模式层中的所有神经元的输出进行加权处理,权值默认取值为1;输出层中神经元的个数等于学习样本中输出向量的维数n,该层各神经元将求和的输出值相除,得到网络的估计结果。
Y ( X ) = Σ i = 1 n Y i exp ( - D i 2 / 2 σ 2 ) Σ i = 1 n exp ( - D i 2 / 2 σ 2 ) - - - ( 9 )
其中,,σ是平滑参数,X是来自训练数据的输入向量,Xi是模式层中第i个神经元的输入向量。
由上述四个步骤,得到24小时儿童单元广义回归模型,将24小时的单步预测值通过连接,反馈到广义回归神经网络模型的输入层作为下一步预测的输入值,同时结合气象因素预报值,通过不断迭代、递归,预测未来多天的腹泻发病人数。由于采用预测值代替真实值作为预测模型的输入变量得到下一时刻的预测值,采用这种迭代的方法可以得到后续多个时刻预测值,随着预测步数的增加,最终所有的模型输入变量都由预测值组成,从而导致预测精度的逐渐降低或得到不符合实际的预测结果。为了改善多步预测的效果,避免样本由过多预测值代替真实值构成而导致的预测精度降低,采用与预测步数一样的延迟,从而保证模型输入至少有一个真实值。
步骤五、对模型预测性能评估和优化
为评价广义回归神经网络预测模型对腹泻日发病人数的拟合效果和外推预测能力,应用MAE、RMSE、r和r2四个性能指标对模型进行了定量检验。首先,以逐日气象数据和同期腹泻日发病人数对广义回归神经网络预测模型进行拟合效果检验;同时,利用未参与模型拟合的测试样本数据对模型进行检验。图3以图表的形式展现了广义回归模型的预测结果与实际结果的差别,从图中可以看出本发明将广义回归神经网络方法运用到模型数据多步预测中来,其预测结果的准确度较高。

Claims (7)

1.一种基于广义回归神经网络的短期腹泻病多步预测方法,其特征在于该方法包括以下具体步骤:
(1)训练数据和测试数据:在5~7年某地区腹泻发病人数和气象数据中选择最近一年的腹泻发病人数和气象数据作为测试数据,剩余几年的腹泻发病人数和气象数据作为训练数据;
(2)数据预处理:对训练数据进行数据清洗和归一化处理;
(3)相关性分析:对训练数据进行Spearman相关性分析,从中选择显著相关的气象因素;
(4)主成分分析:对步骤(3)选择的气象因素进行主成分分析,提取特征;
(5)基于广义回归神经网络建模:以步骤(4)提取的特征作为广义回归神经网络的输入,采用高斯函数作为径向基函数,输出腹泻发病预测结果,对广义回归神经网络进行仿真训练,确定广义回归神经网络的权值和阈值,对儿童和成人分别建立24小时单元或多元多步预测模型,通过将数据输入预测模型获得预测结果,按百分位数法对预测结果进行等级划分。
2.根据权利要求1所述的方法,其特征在于所述步骤(1)中气象数据为日平均气温、日最高气温、日最低气温、日最低相对湿度、日平均相对湿度、日平均气压、日平均风速、日照时数和日累计降雨量。
3.根据权利要求1所述的方法,其特征在于所述步骤(2)中对训练数据进行数据清洗和归一化处理,具体包括:
数据清洗是检查数据一致性,针对训练数据中存在的缺失数据、噪声数据、错误数据、冗余数据分别进行处理:
缺失数据:使用缺失数据前后一周的数据的平均值进行填充;
噪声数据:通过画散点图识别噪声数据,然后由用户进行确认及更正;
错误数据:通过和用户确认的方式纠正错误数据;
冗余数据:人工删除冗余数据;
归一化处理是为了加快广义回归神经网络的收敛速度,采用公式(1)对训练数据进行归一化处理:
x ij = 0.9 × X ij - min ( X i ) max ( X i ) - min ( X i ) + 0.05 - - - ( 1 )
其中,X为训练数据矩阵,Xij为矩阵中的元素,Xi为矩阵中的一行,xij是归一化后的结果。
4.根据权利要求1所述的方法,其特征在于所述步骤(4)中对步骤(3)选择的气象因素进行主成分分析,提取特征,具体包括:
a)对原始样本数据的m个变量进行标准化处理
对原始输入样本进行标准化处理,得到标准化数据集X'=(x'ij)x×p,标准化公式如下:
x ij ′ = x ij - x ‾ j s j - - - ( 2 )
其中,xij为样本原数据, x ‾ j = Σ 1 n x ij / n 为样本均值, s j = Σ j = 1 n ( x ij - x ‾ j ) 2 / ( n - 1 ) 为样本标准差;
b)求标准化数据的相关系数矩阵R
R=(rij)m×m    (3)
其中,i=1,2,3,...,m,j=1,2,3,...,m;
c)计算相关系数矩阵R的特征值和特征向量
设计算得到λ1≥λ2≥...≥λm≥0是R的特征值,并使其从大到小排列,α12,...,αm是相应的特征向量,得到一组主成分用Zp表示:
Z p = Σ i = 1 m α i X i   i=1,2,3,...,m    (4);
其中,αi为特征向量,X为训练数据矩阵。
d)计算方差贡献率em与累积方差贡献率Em
方差贡献率 e m = λ k Σ i = 1 m λ i - - - ( 5 )
累计方差贡献率 E m = Σ j = 1 k λ j Σ i = 1 m λ i - - - ( 6 )
其中,λk是相关系数矩阵R的特征值。
e)确定主成分个数
为第k个成分的贡献率,称为前k个主成分的累计贡献率,当前k个成分的累积方差贡献率超过95%时,提取前k个作为主成分,来反映原来指标的大部分信息;
f)计算主成分载荷与主成分得分
假设主成分载荷为σi,主成分得分为τi,则:
σ i = Σ i = 1 m λ i α i   i=1,2,3,...,m    (7)
其中αi为对应特征值的特征向量;
τi=xi nσi  i=1,2,3,...,m    (8)
其中,xi各指标的标准化后的数据;将计算出的各主成分的分值作为广义回归神经网络新的样本输入数据。
5.根据权利要求1所述的方法,其特征在于所述步骤(5)的广义回归神经网络是由输入层、模式层、求和层和输出层组成;输入层中的神经元接收并存储输入向量X,输入层的神经元数量与输入向量的大小相等,输入层与模式层相连,输入层将数据传递给模式层进行处理;模式层的神经元个数与输入层的神经元个数相同,径向基函数采用高斯函数,通过模式层能够学习到输入变量与输出变量之间的关系;求和层由两类神经元S和D组成,神经元S将模式层中的所有神经元的输出进行求和,神经元D将模式层中的所有神经元的输出进行加权处理,权值默认取值为1;输出层中神经元的个数等于学习样本中输出向量的维数n,该层各神经元将求和的输出值相除,得到网络的估计结果:
Y ( X ) = Σ i = 1 n Y i exp ( - D i 2 / 2 σ 2 ) Σ i = 1 n exp ( - D i 2 / 2 σ 2 ) - - - ( 9 )
其中,,σ是平滑参数,X是来自训练数据的输入向量,Xi是模式层中第i个神经元的输入向量。
6.根据权利要求1所述的方法,其特征在于所述步骤(5)中对儿童和成人分别建立24小时单元或多元多步预测模型,具体包括:
按照预测对象不同将训练数据划分,通过广义回归神经网络,分别获得儿童和成人的训练模型;所述单元预测模型是在气象数据无法获取的情况下,仅以某地区腹泻发病人数作为训练数据;所述多元预测模型是以某地区腹泻发病人数和气象数据作为训练数据;
所述多步预测模型是指将24小时的单步预测值通过连接,反馈到广义回归神经网络模型的输入层作为下一步预测的输入值,同时结合气象因素预报值,通过不断迭代、递归,预测未来多天的腹泻发病人数。
7.根据权利要求1所述的方法,其特征在于所述步骤(5)中预测结果按等级划分,具体包括:
采用百分位数法,将预测得到的发病人数四舍五入取整,然后以P50、P75、P95三个值为预报阈值,将其分为四个等级;若预报等级与实际等级一致,则为预报命中;若预报结果与实际等级一致或相差±1级,则为预报正确,否则为预报失误。
CN201410234345.3A 2014-05-29 2014-05-29 基于广义回归神经网络的短期腹泻病多步预测方法 Pending CN104008164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410234345.3A CN104008164A (zh) 2014-05-29 2014-05-29 基于广义回归神经网络的短期腹泻病多步预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410234345.3A CN104008164A (zh) 2014-05-29 2014-05-29 基于广义回归神经网络的短期腹泻病多步预测方法

Publications (1)

Publication Number Publication Date
CN104008164A true CN104008164A (zh) 2014-08-27

Family

ID=51368821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410234345.3A Pending CN104008164A (zh) 2014-05-29 2014-05-29 基于广义回归神经网络的短期腹泻病多步预测方法

Country Status (1)

Country Link
CN (1) CN104008164A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809335A (zh) * 2015-04-10 2015-07-29 上海卫生信息工程技术研究中心有限公司 一种环境变化对疾病发病影响的分析预测模型
CN104952024A (zh) * 2015-06-19 2015-09-30 孟桂林 一种预测急诊就诊量的方法以及医院管理系统
CN106651020A (zh) * 2016-12-16 2017-05-10 燕山大学 一种基于大数据简约的短期电力负荷预测方法
CN106933956A (zh) * 2017-01-22 2017-07-07 深圳市华成峰科技有限公司 数据挖掘方法和装置
WO2017148170A1 (zh) * 2016-03-04 2017-09-08 深圳市前海安测信息技术有限公司 医疗大数据分析及预警系统及方法
WO2017152636A1 (zh) * 2016-03-10 2017-09-14 深圳市前海安测信息技术有限公司 基于医疗大数据的疾病预警系统及方法
CN107194821A (zh) * 2017-05-23 2017-09-22 四川省草原科学研究院 一种高寒草甸草地生态系统健康评估方法
CN107463993A (zh) * 2017-08-04 2017-12-12 贺志尧 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN109165556A (zh) * 2018-07-24 2019-01-08 吉林大学 一种基于grnn身份识别方法
CN109346177A (zh) * 2018-09-10 2019-02-15 昆明理工大学 一种基于改进ga-bp算法的疾病症状数量预测方法
CN109917115A (zh) * 2019-01-23 2019-06-21 长安大学 一种沥青混合料综合性能预测方法
CN110517784A (zh) * 2019-08-01 2019-11-29 中国医科大学附属口腔医院 一种基于广义回归神经网络的老年龋病发病预测系统
CN111122171A (zh) * 2018-10-30 2020-05-08 中国汽车技术研究中心有限公司 一种基于vsp工况的柴油车与柴油机多种排放检测方法的多源异构数据关联分析方法
CN112017771A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于精液常规检查数据的疾病预测模型的构建方法及系统
CN112651512A (zh) * 2020-12-10 2021-04-13 北京北大千方科技有限公司 一种勤务合理度计算方法以及装置
CN112951442A (zh) * 2021-02-23 2021-06-11 北京理工大学 儿童病毒性腹泻发病风险的滞后分析方法及装置
CN115372569A (zh) * 2022-08-19 2022-11-22 北京工商大学 基于长短期记忆神经网络的红酒质量评价方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001023966A1 (en) * 1999-09-29 2001-04-05 The University Of Iowa Research Foundation System and method for controlling effluents in treatment systems
CN102073785A (zh) * 2010-11-26 2011-05-25 哈尔滨工程大学 基于广义动态模糊神经网络的燃气日负荷组合预报方法
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法
CN103106535A (zh) * 2013-02-21 2013-05-15 电子科技大学 一种基于神经网络解决协同过滤推荐数据稀疏性的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001023966A1 (en) * 1999-09-29 2001-04-05 The University Of Iowa Research Foundation System and method for controlling effluents in treatment systems
CN102073785A (zh) * 2010-11-26 2011-05-25 哈尔滨工程大学 基于广义动态模糊神经网络的燃气日负荷组合预报方法
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法
CN103106535A (zh) * 2013-02-21 2013-05-15 电子科技大学 一种基于神经网络解决协同过滤推荐数据稀疏性的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
丁鸽等: "基于相关性分析的GRNN在房地产估价中的应用", 《测绘地理信息》 *
刘达等: "电力市场中扩展短期负荷预测的动态支持向量机模型研究", 《陕西电力》 *
廖薇等: "广义回归神经网络的金融预测模型研究", 《商业时代》 *
张贞凯等: "基于改进广义回归神经网络和主成分分析的宽带DOA估计", 《光电子.激光》 *
马小会等: "北京市海淀区腹泻疾病气象指数预报研究及应用", 《沙漠与绿洲气象》 *
黄成钢等: "我国某地区痢疾发病率与气象因素的关系及其预测模型", 《现代预防医学》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809335A (zh) * 2015-04-10 2015-07-29 上海卫生信息工程技术研究中心有限公司 一种环境变化对疾病发病影响的分析预测模型
CN104952024A (zh) * 2015-06-19 2015-09-30 孟桂林 一种预测急诊就诊量的方法以及医院管理系统
WO2017148170A1 (zh) * 2016-03-04 2017-09-08 深圳市前海安测信息技术有限公司 医疗大数据分析及预警系统及方法
WO2017152636A1 (zh) * 2016-03-10 2017-09-14 深圳市前海安测信息技术有限公司 基于医疗大数据的疾病预警系统及方法
CN106651020A (zh) * 2016-12-16 2017-05-10 燕山大学 一种基于大数据简约的短期电力负荷预测方法
CN106651020B (zh) * 2016-12-16 2020-09-11 燕山大学 一种基于大数据简约的短期电力负荷预测方法
CN106933956A (zh) * 2017-01-22 2017-07-07 深圳市华成峰科技有限公司 数据挖掘方法和装置
CN107194821A (zh) * 2017-05-23 2017-09-22 四川省草原科学研究院 一种高寒草甸草地生态系统健康评估方法
CN107463993A (zh) * 2017-08-04 2017-12-12 贺志尧 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN109165556A (zh) * 2018-07-24 2019-01-08 吉林大学 一种基于grnn身份识别方法
CN109165556B (zh) * 2018-07-24 2021-12-07 吉林大学 一种基于grnn身份识别方法
CN109346177A (zh) * 2018-09-10 2019-02-15 昆明理工大学 一种基于改进ga-bp算法的疾病症状数量预测方法
CN111122171A (zh) * 2018-10-30 2020-05-08 中国汽车技术研究中心有限公司 一种基于vsp工况的柴油车与柴油机多种排放检测方法的多源异构数据关联分析方法
CN111122171B (zh) * 2018-10-30 2021-07-20 中国汽车技术研究中心有限公司 一种基于vsp工况的柴油车与柴油机多种排放检测方法的多源异构数据关联分析方法
CN109917115A (zh) * 2019-01-23 2019-06-21 长安大学 一种沥青混合料综合性能预测方法
CN110517784A (zh) * 2019-08-01 2019-11-29 中国医科大学附属口腔医院 一种基于广义回归神经网络的老年龋病发病预测系统
CN112017771A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于精液常规检查数据的疾病预测模型的构建方法及系统
CN112017771B (zh) * 2020-08-31 2024-02-27 吾征智能技术(北京)有限公司 一种基于精液常规检查数据的疾病预测模型的构建方法及系统
CN112651512A (zh) * 2020-12-10 2021-04-13 北京北大千方科技有限公司 一种勤务合理度计算方法以及装置
CN112951442A (zh) * 2021-02-23 2021-06-11 北京理工大学 儿童病毒性腹泻发病风险的滞后分析方法及装置
CN112951442B (zh) * 2021-02-23 2022-09-23 北京理工大学 儿童病毒性腹泻发病风险的滞后分析方法及装置
CN115372569A (zh) * 2022-08-19 2022-11-22 北京工商大学 基于长短期记忆神经网络的红酒质量评价方法及系统

Similar Documents

Publication Publication Date Title
CN104008164A (zh) 基于广义回归神经网络的短期腹泻病多步预测方法
Nikoo et al. Flood-routing modeling with neural network optimized by social-based algorithm
Oladokun et al. Predicting students academic performance using artificial neural network: A case study of an engineering course
CN111310968A (zh) 一种基于互信息的lstm神经网络循环水文预报方法
CN108009674A (zh) 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
Rahimikhoob Comparison between M5 model tree and neural networks for estimating reference evapotranspiration in an arid environment
WO2015172560A1 (zh) 基于bp神经网络的中央空调冷负荷的预测方法
CN108445752B (zh) 一种自适应选择深度特征的随机权神经网络集成建模方法
CN105427138A (zh) 基于神经网络模型的产品市场占有率分析方法及系统
CN109840873A (zh) 一种基于机器学习的无资料地区水文模型参数区域化方法
CN101480143A (zh) 一种预测灌区作物单产量的方法
CN106127303A (zh) 一种面向多源数据的短期负荷预测方法
CN115951014A (zh) 一种结合气象特征的cnn-lstm-bp多模态空气污染物预测方法
CN112836937A (zh) 基于熵权与bp神经网络技术的洪涝灾害损失评估方法
CN110942182A (zh) 一种基于支持向量回归建立台风预测模型的方法
CN112668711B (zh) 基于深度学习的洪水流量预测方法、装置和电子设备
CN105046089A (zh) 一种预测强降雨及洪涝灾害的方法
CN113487069B (zh) 一种基于grace日降尺度和新型dwsdi指数的区域洪涝灾害风险评估方法
CN109541729B (zh) 一种基于narx的中国北方草原地区生长季降雨量的预测方法
CN105825347A (zh) 经济预测模型建立的方法和预测方法
Gupta et al. Time series analysis of forecasting Indian rainfall
CN112183847B (zh) 基于QRNN改进Stacking算法的列车行驶风速概率预测方法
CN115482877A (zh) 一种基于时序图网络的发酵过程软测量建模方法
Barua et al. Drought assessment and forecasting: A case study on the Yarra River catchment in Victoria, Australia
Qing et al. Research on precipitation prediction based on time series model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140827