CN110706823A - 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 - Google Patents

一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 Download PDF

Info

Publication number
CN110706823A
CN110706823A CN201911119117.0A CN201911119117A CN110706823A CN 110706823 A CN110706823 A CN 110706823A CN 201911119117 A CN201911119117 A CN 201911119117A CN 110706823 A CN110706823 A CN 110706823A
Authority
CN
China
Prior art keywords
data
lag
disease
lstm
atmospheric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911119117.0A
Other languages
English (en)
Inventor
夏小琳
姚凌
荆文龙
刘杨晓月
李勇
杨骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Geography of GDAS
Original Assignee
Guangzhou Institute of Geography of GDAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Geography of GDAS filed Critical Guangzhou Institute of Geography of GDAS
Priority to CN201911119117.0A priority Critical patent/CN110706823A/zh
Publication of CN110706823A publication Critical patent/CN110706823A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,结合了大气污染物和气象条件对人体呼吸系统疾病的影响,采用深度学习技术进行目标病种发病人数预测,能够有效地提高呼吸系统疾病人数的预测精度;同时,本申请将大气污染物对呼吸系统疾病影响的滞后效应纳入分析之中,提出了基于滞后分析的深度学习时间步长设置方法,能够在保证模型合理性的前提下,有效地简化LSTM网络参数的调优过程。

Description

一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法
技术领域
本发明涉及疾病防控领域,特别是涉及一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法。
背景技术
近年来国内外学者在大气污染对人体呼吸系统健康的影响方面进行了大量研究,然而此类研究大多采用时间序列研究方法聚焦于二者的相关关系,基于污染物浓度和气象要素的相关敏感性疾病预报研究还较为少见,为数不多的相关研究也大多只是直接基于多元线性回归模型、自回归积分滑动平均模型进行预报,而这几种预测模型的预测结果存在很大的不确定性,精度很低,难以满足业务化应用的实际需求。
发明内容
本发明的目的在于现有技术的局限,提供一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,由以下技术方案实现:
获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据;
根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集;
根据所述时间序列数据集,构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型;
基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数;
以日发病人数作为因变量,以日均大气污染物浓度作为自变量,以人口密度作为辅助参数,参考所述最长滞后天数设置时间步长参数,构建基于长短期记忆网络的疾病人数预测模型;
将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型,获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。
相较于现有技术,本申请结合大气污染物和气象条件对人体呼吸系统疾病的影响,采用深度学习技术进行目标病种发病人数预测,能够有效地提高呼吸系统疾病人数的预测精度;同时,本申请将大气污染物对呼吸系统疾病影响的滞后效应纳入分析之中,提出了基于滞后分析的深度学习时间步长设置方法,能够在保证模型合理性的前提下,有效地简化LSTM网络参数的调优过程。
进一步的,还可包括以下步骤:
以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。
进一步的,根据城市中各设定区域的大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集,可包括以下步骤:
对所述大气污染物数据、气象数据及病例数据进行数据筛选,并对数据缺失值进行插补;
对所述大气污染物数据进行数据空间插值,将离散数据转换为连续的数据曲面;
对所述病例数据进行地理编码赋予其空间位置信息,对所述大气污染物数据、气象数据及病例数据进行空间匹配得到以设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集。
通过上述步骤,能够有效实现数据清洗与去噪,且使得到的数据更加便于进行数据分析与处理。
在一种可选的实施例中,所述暴露-反应关系模型的公式如下:
log[E(Yt)]=α+DOW+βf(xt)+S(time,df)+S(Zt,df);
其中,t为观察日期,E(Yt)为t日疾病人数的期望值,DOW为虚拟变量星期效应,α为截距,β为回归系数,为t日的污染物浓度,S(time,df)、S(Zt,df)分别代表日历效应以及气象条件的平滑函数;所述气象条件包括温度、相对湿度。
进一步的,基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数,可包括以下步骤:
基于所述暴露-反应关系模型,运用分布滞后非线性模型设置滞后天数,获得各个滞后天数下大气污染物对目标疾病的相对危险度以及P值;其中,所述相对危险度表示大气污染物的平均浓度每升高一定单位,相应的目标病种的发病人数增加的倍数;将相对危险度大于1且P值小于0.05对应的滞后天数判断为存在显著的滞后效应,由此得到存在显著滞后效应的最长滞后天数。
进一步的,所述分布滞后非线性模型的公式为:
Figure BDA0002274927870000031
其中,γtj由滞后暴露qt=[xt,...,xt-l,...,xt-L]通过基函数j变换得到;所述滞后暴露qt后为对自变量x进行转化产生的n×(L+1)的矩阵,L为需要进行设置的滞后天数,l=[0,...,l,...,L]T;wt为自变量x的交叉基函数变换。
进一步的,所述基于长短期记忆网络的疾病人数预测模型,包括以下记忆元胞结构:
it=σ(wxixt+whiht-1+wcict-1+bi);
ft=σ(wxfxt+whfht-1+wcfct-i+bf);
ot=σ(wxoxt+whoht-1+wcoct+bo);
ct=ftct-1+it tanh(wxcxt+whcht-1+bc);
ht=ottanh(ct);
其中it、ft、ot和ct分别为时间t输入门、遗忘门、输出门和记忆元胞的向量,与隐藏层ht向量具有相同大小;权重矩阵w是方形矩阵,表示两单元之间的连接,wx、wh和wc分别描述了从记忆元胞、隐藏层向量和记忆元胞激活到另一个单元的权重。
一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统,其特征在于,包括:
数据采集模块,用于获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据;
数据处理模块,用于根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集;
暴露-反应关系模型构建模块,用于根据所述时间序列数据集,构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型;
最长滞后天数获取模块,用于基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数;
疾病人数预测模型建模模块,用于以日发病人数作为因变量,以日均大气污染物浓度作为自变量,以人口密度作为辅助参数,参考所述最长滞后天数设置时间步长参数,构建基于长短期记忆网络的疾病人数预测模型;
发病人数预测模块,用于将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型,获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。
本发明还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的流程图;
图2为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的流程图;
图3为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法中步骤S02的流程图;
图4为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法中步骤S04的流程图;
图5为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统示意图;
图6为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本实施例提供一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,请参阅图1,由以下技术方案实现:
S01,获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据;
S02,根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集;
S03,根据所述时间序列数据集,构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型;
S04,基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数;
S05,以日发病人数作为因变量,以日均大气污染物浓度作为自变量,以人口密度作为辅助参数,参考所述最长滞后天数设置时间步长参数,构建基于长短期记忆网络的疾病人数预测模型;
S07,将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型,获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。
相较于现有技术,本实施例结合大气污染物和气象条件对人体呼吸系统疾病的影响,采用深度学习技术进行目标病种发病人数预测,能够有效地提高呼吸系统疾病人数的预测精度;同时,本实施例将大气污染物对呼吸系统疾病影响的滞后效应纳入分析之中,提出了基于滞后分析的深度学习时间步长设置方法,能够在保证模型合理性的前提下,有效地简化LSTM网络参数的调优过程。
本实施例结合了污染物对人体健康影响的滞后分析方法以及深度学习算法,既能够避免传统ARIMA预测模型无法全面考虑大气污染物和气象因子共同作用的限制,又能够避免人工神经网络常陷入局部最优解的问题。
具体的,所述目标病种包括总呼吸道疾病、上呼吸道感染、下呼吸道感染、急性加重慢性阻塞性肺病以及哮喘。
所述大气污染物数据为包括大气污染物浓度信息的数据,可来自国家环境保护部,可包括城市中个空气质量监测点每天的日均观测值,包括PM2.5、PM10、SO2、O3、NO2、CO六种主要大气污染物浓度。
所述气象数据为反映气象条件的数据,可来自中国气象局公布的数据,包括温度、相对湿度、风速等。
所述病例数据为包括目标病种发病人数信息的数据,可来自计算机化的医疗记录系统,包括年龄,性别,就诊日期和出院时的诊断情况等。可对所述病例数据采用国际疾病分类(ICD)的J00-J99第10版编码或者关键字筛选方式,根据主要诊断结果提取,对目标病种分类统计。
大气污染物浓度的升高以及气象条件的变化与呼吸系统疾病的发生存在紧密的联系以及显著的滞后效应,并且存在区域性差异,因此有必要对城市空间进行针对性划分,根据实际情况分割为设定区域进行分析。
具体的,作为一种可选的实施例,所述城市中各设定区域,可选为我国的乡级行政区“街道”:以街道作为空间统计单位,能够从比直接以整个城市尺度更精确的空间尺度来统计疾病发病人数,还可以更加便捷获取到区域所对应的人口统计数据。并且,以街道为统计单位在能够保证区域样本数量的前提下,又不会太依赖疾病数据的空间精度,可以避免一定程度的空间误差对结果的影响。
所述时间序列数据(time series data)指在不同时间上收集到的数据,用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度;在本实施例中,所述时间序列数据集为包括一年(或者一段较长时间)内各项具体数据每天的日均值的集合。
进一步的,请参阅图2,本实施例还可包括以下步骤:
S06,以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。
利用与构建所述暴露-反应关系模型相同的数据样本对所述疾病人数预测模型进行训练,能够更加深刻地进行深度学习,提高预测精度。
作为一种可选的实施例,S02,根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集,请参阅图3,可包括以下步骤:
S021,对所述大气污染物数据、气象数据及病例数据进行数据筛选,并对数据缺失值进行插补;
S022,对所述大气污染物数据进行数据空间插值,将离散数据转换为连续的数据曲面;
S023,对所述病例数据进行地理编码赋予其空间位置信息,对所述大气污染物数据、气象数据及病例数据进行空间匹配得到以街道为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集。
通过上述步骤,能够有效实现数据清洗与去噪,且使得到的数据更加便于进行数据分析与处理。
作为一种可选的实施例,所述暴露-反应关系模型的公式如下:
log[E(Yt)]=α+DOW+βf(xt)+S(time,df)+S(Zt,df);
其中,t为观察日期,E(Yt)为t日疾病人数的期望值,DOW为虚拟变量星期效应,α为截距,β为回归系数,为t日的污染物浓度,S(time,df)、S(Zt,df)分别代表日历效应以及气象条件的平滑函数;所述气象条件包括温度、相对湿度。
由于疾病的每日发病人数在整个人群中的分布形态呈现离散的小概率分布,即泊松分布,可运用泊松回归模型处理。但是呼吸系统疾病的每日发病人数时间序列多为非平稳的时间序列,具有明显的季节趋势和长期趋势,这些趋势主要反映在气象条件和人体身体健康状况变化;因此,如果在空气污染物对人体健康研究中仅使用泊松回归模型,其计数数据的方差不独立于均值存在,往往随着期望值增加而增加,这样势必无法应对会其他因素如气温、湿度等带来的干扰。因此,可通过所述暴露-反应关系模型,控制日历效应、星期效应、温度、相对湿度等长短期效应和随机变动,通过样条函数将其转化为平稳时间序列之后,使用多种不同的连接函数拟合存在非线性关系的变量,通过相加的方式纳入模型中再对所述暴露-反应关系进行模型拟合。
进一步的,S04,基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数,请参阅图4,可包括以下步骤:
S041,基于所述暴露-反应关系模型,运用分布滞后非线性模型设置滞后天数,获得各个滞后天数下大气污染物对目标疾病的相对危险度以及P值;其中,所述相对危险度表示大气污染物的平均浓度每升高一定单位,相应的目标病种的发病人数增加的倍数;将相对危险度大于1且P值小于0.05对应的滞后天数判断为存在显著的滞后效应,由此得到存在显著滞后效应的最长滞后天数。
其中,P值(P value),为概率模型中用来判定假设检验结果的一个参数,由R·A·Fisher首先提出;指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。P值越小,表明结果越显著。
进一步的,所述分布滞后非线性模型的公式为:
其中,γtj由滞后暴露qt=[xt,...,xt-l,...,xt-L]通过基函数j变换得到;所述滞后暴露qt后为对自变量x进行转化产生的n×(L+1)的矩阵,L为需要进行设置的滞后天数,l=[0,...,l,...,L]T;wt为自变量x的交叉基函数变换。
分布滞后非线性模型(DLNM)的核心思想是交叉基,即对自变量与因变量的关系、滞后效应的分布分别选择合适的基函数,求两个基函数的张量积即得到交叉基函数。具体步骤如下:首先建立因变量与自变量的模型,选择基函数定义因变量随自变量的分布,得到基向量Z;在为暴露添加新的滞后维度后,给矩阵Q每列选择合适的基函数,这样得到n×vx×(L+1)的三维序列R。本案通过运用分布滞后非线性模型分析大气污染物质量浓度对呼吸系统疾病的滞后效应,确定出现最大效应值的滞后天数,以此为建立预测模型提供合理的步长设置。
进一步的,所述基于长短期记忆网络的疾病人数预测模型,包括以下记忆元胞结构:
it=σ(wxixt+whiht-1+wcict-1+bi);
ft=σ(wxfxt+whfht-1+wcfct-i+bf);
ot=σ(wxoxt+whoht-1+wcoct+bo);
ct=ftct-1+it tanh(wxcxt+whcht-1+bc);
ht=ottanh(ct);
其中it、ft、ot和ct分别为时间t输入门、遗忘门、输出门和记忆元胞的向量,与隐藏层ht向量具有相同大小;权重矩阵w是方形矩阵,表示两单元之间的连接,wx、wh和wc分别描述了从记忆元胞、隐藏层向量和记忆元胞激活到另一个单元的权重。
长短期记忆网络的网络超参数主要包括时间步长设置、迭代次数、学习率的设置,时间步长利用滞后分析的结果指导设置,在一种可选的实施例中,迭代次数与学习率的设置通过对比分析不同迭代次数与学习率对网络预测效果的影响确定。
一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统,请参阅图5,包括:
1,数据采集模块,用于获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据;
2,数据处理模块,用于根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集;
3,暴露-反应关系模型构建模块,用于根据所述时间序列数据集,构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型;
4,最长滞后天数获取模块,用于基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数;
5,疾病人数预测模型建模模块,用于以日发病人数作为因变量,以日均大气污染物浓度作为自变量,以人口密度作为辅助参数,参考所述最长滞后天数设置时间步长参数,构建基于长短期记忆网络的疾病人数预测模型;
7,发病人数预测模块,用于将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型,获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。
在一种可选的实施例中,所述基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统请参阅图6,还可包括:
6,疾病人数预测模型训练模块,用于以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。
本实施例还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。
本实施例还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,其特征在于,包括以下步骤:
获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据;
根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集;
根据所述时间序列数据集,构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型;
基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数;
以日发病人数作为因变量,以日均大气污染物浓度作为自变量,以人口密度作为辅助参数,参考所述最长滞后天数设置时间步长参数,构建基于长短期记忆网络的疾病人数预测模型;
将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型,获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。
2.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,其特征在于,还包括以下步骤:
以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。
3.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,其特征在于,根据城市中各设定区域的大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集,包括以下步骤:
对所述大气污染物数据、气象数据及病例数据进行数据筛选,并对数据缺失值进行插补;
对所述大气污染物数据进行数据空间插值,将离散数据转换为连续的数据曲面;
对所述病例数据进行地理编码赋予其空间位置信息,对所述大气污染物数据、气象数据及病例数据进行空间匹配得到以设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集。
4.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,其特征在于,所述暴露-反应关系模型的公式如下:
log[E(Yt)]=α+DOW+βf(xt)+S(time,df)+S(Zt,df);
其中,t为观察日期,E(Yt)为t日疾病人数的期望值,DOW为虚拟变量星期效应,α为截距,β为回归系数,为t日的污染物浓度,S(time,df)、S(Zt,df)分别代表日历效应以及气象条件的平滑函数;所述气象条件包括温度、相对湿度。
5.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,5其特征在于,基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数,包括以下步骤:
基于所述暴露-反应关系模型,运用分布滞后非线性模型设置滞后天数,获得各个滞后天数下大气污染物对目标疾病的相对危险度以及P值;其中,所述相对危险度表示大气污染物的平均浓度每升高一定单位,相应的目标病种的发病人数增加的倍数;将相对危险度大于10且P值小于0.05对应的滞后天数判断为存在显著的滞后效应,由此得到存在显著滞后效应的最长滞后天数。
6.根据权利要求5所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,其特征在于,所述分布滞后非线性模型的公式为:
Figure FDA0002274927860000021
其中,γtj由滞后暴露qt=[xt,...,xt-l,...,xt-L]通过基函数j变换得到;所述滞后暴露qt后为对自变量x进行转化产生的n×(L+1)的矩阵,L为需要进行设置的滞后天数,l=[0,...,l,...,L]T;wt为自变量x的交叉基函数变换。
7.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法,
其特征在于,所述基于长短期记忆网络的疾病人数预测模型,包括以下记忆元胞结构:
it=σ(wxixt+whiht-1+wcict-1+bi);
ft=σ(wxfxt+whfht-1+wcfct-i+bf);
ot=σ(wxoxt+whoht-1+wcoct+bo);
ct=ftct-1+it tanh(wxcxt+whcht-1+bc);
ht=ot tanh(ct);
其中it、ft、ot和ct分别为时间t输入门、遗忘门、输出门和记忆元胞的向量,与隐藏层ht向量具有相同大小;权重矩阵w是方形矩阵,表示两单元之间的连接,wx、wh和wc分别描述了从记忆元胞、隐藏层向量和记忆元胞激活到另一个单元的权重。
8.一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统,其特征在于,包括:
数据采集模块,用于获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据;
数据处理模块,用于根据所述大气污染物数据、气象数据及病例数据,得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集;
暴露-反应关系模型构建模块,用于根据所述时间序列数据集,构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型;
最长滞后天数获取模块,用于基于所述暴露-反应关系模型,选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性,确定存在显著滞后效应的最长滞后天数;
疾病人数预测模型建模模块,用于以日发病人数作为因变量,以日均大气污染物浓度作为自变量,以人口密度作为辅助参数,参考所述最长滞后天数设置时间步长参数,构建基于长短期记忆网络的疾病人数预测模型;
发病人数预测模块,用于将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型,获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。
9.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。
10.一种计算机,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。
CN201911119117.0A 2019-11-15 2019-11-15 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 Pending CN110706823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911119117.0A CN110706823A (zh) 2019-11-15 2019-11-15 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911119117.0A CN110706823A (zh) 2019-11-15 2019-11-15 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法

Publications (1)

Publication Number Publication Date
CN110706823A true CN110706823A (zh) 2020-01-17

Family

ID=69206236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911119117.0A Pending CN110706823A (zh) 2019-11-15 2019-11-15 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法

Country Status (1)

Country Link
CN (1) CN110706823A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063451A (zh) * 2020-03-17 2020-04-24 广州地理研究所 基于输入-扩散函数的传染病疫情早期风险态势分析方法
CN111128398A (zh) * 2020-03-30 2020-05-08 广州地理研究所 一种基于人口迁徙大数据的流行病感染人数估算方法
CN112529289A (zh) * 2020-12-07 2021-03-19 北京嘀嘀无限科技发展有限公司 人流扩散风险的预测方法、装置、电子设备及存储介质
CN112699608A (zh) * 2020-12-31 2021-04-23 哈尔滨工业大学 适用于传感器掉电导致数据缺失的时间序列修复方法
CN113077896A (zh) * 2021-04-27 2021-07-06 郑州大学 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法
CN113191568A (zh) * 2021-05-21 2021-07-30 上海市气象灾害防御技术中心(上海市防雷中心) 基于气象的城市运行管理大数据分析预测方法和系统
WO2021151304A1 (zh) * 2020-07-09 2021-08-05 平安科技(深圳)有限公司 时序数据滞后性处理方法、装置、电子设备及存储介质
CN113571201A (zh) * 2021-08-09 2021-10-29 中国科学院地理科学与资源研究所 一种流行性呼吸系统疾病发病人数和上升趋势预测方法
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809335A (zh) * 2015-04-10 2015-07-29 上海卫生信息工程技术研究中心有限公司 一种环境变化对疾病发病影响的分析预测模型
CN108648829A (zh) * 2018-04-11 2018-10-12 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN110136841A (zh) * 2019-03-27 2019-08-16 平安科技(深圳)有限公司 疾病发病预测方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809335A (zh) * 2015-04-10 2015-07-29 上海卫生信息工程技术研究中心有限公司 一种环境变化对疾病发病影响的分析预测模型
CN108648829A (zh) * 2018-04-11 2018-10-12 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN110136841A (zh) * 2019-03-27 2019-08-16 平安科技(深圳)有限公司 疾病发病预测方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张秉玲 等: ""兰州市大气污染与居民健康效应的时间序列研究"", 《环境卫生学杂志》 *
施敏: ""杭州市流感样病例与气象因素关系的研究"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063451A (zh) * 2020-03-17 2020-04-24 广州地理研究所 基于输入-扩散函数的传染病疫情早期风险态势分析方法
CN111128398A (zh) * 2020-03-30 2020-05-08 广州地理研究所 一种基于人口迁徙大数据的流行病感染人数估算方法
CN111128398B (zh) * 2020-03-30 2020-08-14 广州地理研究所 一种基于人口迁徙大数据的流行病感染人数估算方法
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
WO2021151304A1 (zh) * 2020-07-09 2021-08-05 平安科技(深圳)有限公司 时序数据滞后性处理方法、装置、电子设备及存储介质
CN112529289A (zh) * 2020-12-07 2021-03-19 北京嘀嘀无限科技发展有限公司 人流扩散风险的预测方法、装置、电子设备及存储介质
CN112699608A (zh) * 2020-12-31 2021-04-23 哈尔滨工业大学 适用于传感器掉电导致数据缺失的时间序列修复方法
CN112699608B (zh) * 2020-12-31 2022-05-06 哈尔滨工业大学 适用于传感器掉电导致数据缺失的时间序列修复方法
CN113077896A (zh) * 2021-04-27 2021-07-06 郑州大学 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法
CN113191568A (zh) * 2021-05-21 2021-07-30 上海市气象灾害防御技术中心(上海市防雷中心) 基于气象的城市运行管理大数据分析预测方法和系统
CN113191568B (zh) * 2021-05-21 2024-02-02 上海市气象灾害防御技术中心(上海市防雷中心) 基于气象的城市运行管理大数据分析预测方法和系统
CN113571201A (zh) * 2021-08-09 2021-10-29 中国科学院地理科学与资源研究所 一种流行性呼吸系统疾病发病人数和上升趋势预测方法

Similar Documents

Publication Publication Date Title
CN110706823A (zh) 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法
CN110782093B (zh) 融合ssae深度特征学习和lstm的pm2.5小时浓度预测方法及系统
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN107133686A (zh) 基于时空数据模型的城市级pm2.5浓度预测方法
CN114781538A (zh) 一种ga-bp神经网络耦合决策树的空气质量预测方法和系统
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
Huang et al. Research on urban modern architectural art based on artificial intelligence and GIS image recognition system
Michaelides et al. Synoptic classification and establishment of analogues with artificial neural networks
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN111078859B (zh) 一种基于引用次数的作者推荐方法
Xie et al. Autoencoder-based deep belief regression network for air particulate matter concentration forecasting
CN115099450A (zh) 基于融合模型的家庭碳排放监测核算平台
CN111612491B (zh) 状态分析模型构建方法、分析方法及装置
Wei et al. Data mining methods for hydroclimatic forecasting
CN110377828A (zh) 信息推荐方法、装置、服务器及存储介质
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN106448660A (zh) 一种引入大数据分析的自然语言模糊边界确定方法
CN117408167A (zh) 基于深度神经网络的泥石流灾害易发性预测方法
Chiogna et al. Semiparametric zero‐inflated Poisson models with application to animal abundance studies
Sharmila et al. Chronological pattern exploration algorithm for gene expression data clustering and classification
CN108133296B (zh) 基于活动的社交网络下的一种结合环境数据的活动出席预测方法
CN112801163B (zh) 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法
CN113296947A (zh) 基于改进XGBoost模型的资源需求预测方法
CN111105148B (zh) 离职概率评估方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication