CN110706823A

CN110706823A - 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法

Info

Publication number: CN110706823A
Application number: CN201911119117.0A
Authority: CN
Inventors: 夏小琳; 姚凌; 荆文龙; 刘杨晓月; 李勇; 杨骥
Original assignee: Guangzhou Institute of Geography of GDAS
Current assignee: Guangzhou Institute of Geography of GDAS
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-01-17

Abstract

本发明涉及一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，结合了大气污染物和气象条件对人体呼吸系统疾病的影响，采用深度学习技术进行目标病种发病人数预测，能够有效地提高呼吸系统疾病人数的预测精度；同时，本申请将大气污染物对呼吸系统疾病影响的滞后效应纳入分析之中，提出了基于滞后分析的深度学习时间步长设置方法，能够在保证模型合理性的前提下，有效地简化LSTM网络参数的调优过程。

Description

一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法

技术领域

本发明涉及疾病防控领域，特别是涉及一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法。

背景技术

近年来国内外学者在大气污染对人体呼吸系统健康的影响方面进行了大量研究，然而此类研究大多采用时间序列研究方法聚焦于二者的相关关系，基于污染物浓度和气象要素的相关敏感性疾病预报研究还较为少见，为数不多的相关研究也大多只是直接基于多元线性回归模型、自回归积分滑动平均模型进行预报，而这几种预测模型的预测结果存在很大的不确定性，精度很低，难以满足业务化应用的实际需求。

发明内容

本发明的目的在于现有技术的局限，提供一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，由以下技术方案实现：

获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据；

根据所述大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集；

根据所述时间序列数据集，构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型；

基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数；

以日发病人数作为因变量，以日均大气污染物浓度作为自变量，以人口密度作为辅助参数，参考所述最长滞后天数设置时间步长参数，构建基于长短期记忆网络的疾病人数预测模型；

将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型，获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。

相较于现有技术，本申请结合大气污染物和气象条件对人体呼吸系统疾病的影响，采用深度学习技术进行目标病种发病人数预测，能够有效地提高呼吸系统疾病人数的预测精度；同时，本申请将大气污染物对呼吸系统疾病影响的滞后效应纳入分析之中，提出了基于滞后分析的深度学习时间步长设置方法，能够在保证模型合理性的前提下，有效地简化LSTM网络参数的调优过程。

进一步的，还可包括以下步骤：

以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。

进一步的，根据城市中各设定区域的大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集，可包括以下步骤：

对所述大气污染物数据、气象数据及病例数据进行数据筛选，并对数据缺失值进行插补；

对所述大气污染物数据进行数据空间插值，将离散数据转换为连续的数据曲面；

对所述病例数据进行地理编码赋予其空间位置信息，对所述大气污染物数据、气象数据及病例数据进行空间匹配得到以设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集。

通过上述步骤，能够有效实现数据清洗与去噪，且使得到的数据更加便于进行数据分析与处理。

在一种可选的实施例中，所述暴露-反应关系模型的公式如下：

log[E(Y_t)]＝α+DOW+βf(x_t)+S(time,df)+S(Z_t,df)；

其中，t为观察日期，E(Y_t)为t日疾病人数的期望值，DOW为虚拟变量星期效应，α为截距，β为回归系数，为t日的污染物浓度，S(time,df)、S(Z_t,df)分别代表日历效应以及气象条件的平滑函数；所述气象条件包括温度、相对湿度。

进一步的，基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数，可包括以下步骤：

基于所述暴露-反应关系模型，运用分布滞后非线性模型设置滞后天数，获得各个滞后天数下大气污染物对目标疾病的相对危险度以及P值；其中，所述相对危险度表示大气污染物的平均浓度每升高一定单位，相应的目标病种的发病人数增加的倍数；将相对危险度大于1且P值小于0.05对应的滞后天数判断为存在显著的滞后效应，由此得到存在显著滞后效应的最长滞后天数。

进一步的，所述分布滞后非线性模型的公式为：

其中，γ_tj由滞后暴露q_t＝[x_t,...,x_t-l,...,x_t-L]通过基函数j变换得到；所述滞后暴露q_t后为对自变量x进行转化产生的n×(L+1)的矩阵，L为需要进行设置的滞后天数，l＝[0,...,l,...,L]^T；w_t为自变量x的交叉基函数变换。

进一步的，所述基于长短期记忆网络的疾病人数预测模型，包括以下记忆元胞结构：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i)；

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-i+b_f)；

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t+b_o)；

c_t＝f_tc_t-1+i_t tanh(w_xcx_t+w_hch_t-1+b_c)；

h_t＝o_ttanh(c_t)；

其中i_t、f_t、o_t和c_t分别为时间t输入门、遗忘门、输出门和记忆元胞的向量，与隐藏层h_t向量具有相同大小；权重矩阵w是方形矩阵，表示两单元之间的连接，w_x、w_h和w_c分别描述了从记忆元胞、隐藏层向量和记忆元胞激活到另一个单元的权重。

一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统，其特征在于，包括：

数据采集模块，用于获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据；

数据处理模块，用于根据所述大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集；

暴露-反应关系模型构建模块，用于根据所述时间序列数据集，构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型；

最长滞后天数获取模块，用于基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数；

疾病人数预测模型建模模块，用于以日发病人数作为因变量，以日均大气污染物浓度作为自变量，以人口密度作为辅助参数，参考所述最长滞后天数设置时间步长参数，构建基于长短期记忆网络的疾病人数预测模型；

发病人数预测模块，用于将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型，获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。

本发明还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。

本发明还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的流程图；

图2为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的流程图；

图3为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法中步骤S02的流程图；

图4为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法中步骤S04的流程图；

图5为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统示意图；

图6为本发明实施例基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本实施例提供一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，请参阅图1，由以下技术方案实现：

S01，获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据；

S02，根据所述大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集；

S03，根据所述时间序列数据集，构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型；

S04，基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数；

S05，以日发病人数作为因变量，以日均大气污染物浓度作为自变量，以人口密度作为辅助参数，参考所述最长滞后天数设置时间步长参数，构建基于长短期记忆网络的疾病人数预测模型；

S07，将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型，获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。

相较于现有技术，本实施例结合大气污染物和气象条件对人体呼吸系统疾病的影响，采用深度学习技术进行目标病种发病人数预测，能够有效地提高呼吸系统疾病人数的预测精度；同时，本实施例将大气污染物对呼吸系统疾病影响的滞后效应纳入分析之中，提出了基于滞后分析的深度学习时间步长设置方法，能够在保证模型合理性的前提下，有效地简化LSTM网络参数的调优过程。

本实施例结合了污染物对人体健康影响的滞后分析方法以及深度学习算法，既能够避免传统ARIMA预测模型无法全面考虑大气污染物和气象因子共同作用的限制，又能够避免人工神经网络常陷入局部最优解的问题。

具体的，所述目标病种包括总呼吸道疾病、上呼吸道感染、下呼吸道感染、急性加重慢性阻塞性肺病以及哮喘。

所述大气污染物数据为包括大气污染物浓度信息的数据，可来自国家环境保护部，可包括城市中个空气质量监测点每天的日均观测值，包括PM2.5、PM10、SO2、O3、NO2、CO六种主要大气污染物浓度。

所述气象数据为反映气象条件的数据，可来自中国气象局公布的数据，包括温度、相对湿度、风速等。

所述病例数据为包括目标病种发病人数信息的数据，可来自计算机化的医疗记录系统，包括年龄，性别，就诊日期和出院时的诊断情况等。可对所述病例数据采用国际疾病分类(ICD)的J00-J99第10版编码或者关键字筛选方式，根据主要诊断结果提取，对目标病种分类统计。

大气污染物浓度的升高以及气象条件的变化与呼吸系统疾病的发生存在紧密的联系以及显著的滞后效应，并且存在区域性差异，因此有必要对城市空间进行针对性划分，根据实际情况分割为设定区域进行分析。

具体的，作为一种可选的实施例，所述城市中各设定区域，可选为我国的乡级行政区“街道”：以街道作为空间统计单位，能够从比直接以整个城市尺度更精确的空间尺度来统计疾病发病人数，还可以更加便捷获取到区域所对应的人口统计数据。并且，以街道为统计单位在能够保证区域样本数量的前提下，又不会太依赖疾病数据的空间精度，可以避免一定程度的空间误差对结果的影响。

所述时间序列数据(time series data)指在不同时间上收集到的数据，用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度；在本实施例中，所述时间序列数据集为包括一年(或者一段较长时间)内各项具体数据每天的日均值的集合。

进一步的，请参阅图2，本实施例还可包括以下步骤：

S06，以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。

利用与构建所述暴露-反应关系模型相同的数据样本对所述疾病人数预测模型进行训练，能够更加深刻地进行深度学习，提高预测精度。

作为一种可选的实施例，S02，根据所述大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集，请参阅图3，可包括以下步骤：

S021，对所述大气污染物数据、气象数据及病例数据进行数据筛选，并对数据缺失值进行插补；

S022，对所述大气污染物数据进行数据空间插值，将离散数据转换为连续的数据曲面；

S023，对所述病例数据进行地理编码赋予其空间位置信息，对所述大气污染物数据、气象数据及病例数据进行空间匹配得到以街道为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集。

作为一种可选的实施例，所述暴露-反应关系模型的公式如下：

log[E(Y_t)]＝α+DOW+βf(x_t)+S(time,df)+S(Z_t,df)；

由于疾病的每日发病人数在整个人群中的分布形态呈现离散的小概率分布，即泊松分布，可运用泊松回归模型处理。但是呼吸系统疾病的每日发病人数时间序列多为非平稳的时间序列，具有明显的季节趋势和长期趋势，这些趋势主要反映在气象条件和人体身体健康状况变化；因此，如果在空气污染物对人体健康研究中仅使用泊松回归模型，其计数数据的方差不独立于均值存在，往往随着期望值增加而增加，这样势必无法应对会其他因素如气温、湿度等带来的干扰。因此，可通过所述暴露-反应关系模型，控制日历效应、星期效应、温度、相对湿度等长短期效应和随机变动，通过样条函数将其转化为平稳时间序列之后，使用多种不同的连接函数拟合存在非线性关系的变量，通过相加的方式纳入模型中再对所述暴露-反应关系进行模型拟合。

进一步的，S04，基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数，请参阅图4，可包括以下步骤：

S041，基于所述暴露-反应关系模型，运用分布滞后非线性模型设置滞后天数，获得各个滞后天数下大气污染物对目标疾病的相对危险度以及P值；其中，所述相对危险度表示大气污染物的平均浓度每升高一定单位，相应的目标病种的发病人数增加的倍数；将相对危险度大于1且P值小于0.05对应的滞后天数判断为存在显著的滞后效应，由此得到存在显著滞后效应的最长滞后天数。

其中，P值(P value)，为概率模型中用来判定假设检验结果的一个参数，由R·A·Fisher首先提出；指在一个概率模型中，统计摘要(如两组样本均值差)与实际观测数据相同，或甚至更大这一事件发生的概率。换言之，是检验假设零假设成立或表现更严重的可能性。P值越小，表明结果越显著。

进一步的，所述分布滞后非线性模型的公式为：

分布滞后非线性模型(DLNM)的核心思想是交叉基，即对自变量与因变量的关系、滞后效应的分布分别选择合适的基函数，求两个基函数的张量积即得到交叉基函数。具体步骤如下：首先建立因变量与自变量的模型，选择基函数定义因变量随自变量的分布，得到基向量Z；在为暴露添加新的滞后维度后，给矩阵Q每列选择合适的基函数，这样得到n×v_x×(L+1)的三维序列R。本案通过运用分布滞后非线性模型分析大气污染物质量浓度对呼吸系统疾病的滞后效应，确定出现最大效应值的滞后天数，以此为建立预测模型提供合理的步长设置。

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i)；

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-i+b_f)；

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t+b_o)；

c_t＝f_tc_t-1+i_t tanh(w_xcx_t+w_hch_t-1+b_c)；

h_t＝o_ttanh(c_t)；

长短期记忆网络的网络超参数主要包括时间步长设置、迭代次数、学习率的设置，时间步长利用滞后分析的结果指导设置，在一种可选的实施例中，迭代次数与学习率的设置通过对比分析不同迭代次数与学习率对网络预测效果的影响确定。

一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统，请参阅图5，包括：

1，数据采集模块，用于获取城市中各设定区域的人口密度数据、大气污染物数据、气象数据及病例数据；

2，数据处理模块，用于根据所述大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象条件及目标病种发病人数的时间序列数据集；

3，暴露-反应关系模型构建模块，用于根据所述时间序列数据集，构建大气污染物浓度、气象条件与目标病种发病人数之间的暴露-反应关系模型；

4，最长滞后天数获取模块，用于基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数；

5，疾病人数预测模型建模模块，用于以日发病人数作为因变量，以日均大气污染物浓度作为自变量，以人口密度作为辅助参数，参考所述最长滞后天数设置时间步长参数，构建基于长短期记忆网络的疾病人数预测模型；

7，发病人数预测模块，用于将大气污染物的实际监测数据及对应设定区域的人口密度数据输入所述疾病人数预测模型，获得未来最长滞后天数内对应设定区域内目标病种每日发病人数的预测值。

在一种可选的实施例中，所述基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统请参阅图6，还可包括：

6，疾病人数预测模型训练模块，用于以所述大气污染物浓度及目标病种发病人数的时间序列数据集对所述疾病人数预测模型进行训练。

本实施例还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。

本实施例还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，其特征在于，还包括以下步骤：

3.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，其特征在于，根据城市中各设定区域的大气污染物数据、气象数据及病例数据，得到以各设定区域为空间单位的大气污染物浓度、气象数据及目标病种发病人数的时间序列数据集，包括以下步骤：

4.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，其特征在于，所述暴露-反应关系模型的公式如下：

log[E(Y_t)]＝α+DOW+βf(x_t)+S(time,df)+S(Z_t,df)；

5.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，5其特征在于，基于所述暴露-反应关系模型，选取不同滞后天数验证大气污染物浓度对目标病种发病人数的滞后效应的显著性，确定存在显著滞后效应的最长滞后天数，包括以下步骤：

基于所述暴露-反应关系模型，运用分布滞后非线性模型设置滞后天数，获得各个滞后天数下大气污染物对目标疾病的相对危险度以及P值；其中，所述相对危险度表示大气污染物的平均浓度每升高一定单位，相应的目标病种的发病人数增加的倍数；将相对危险度大于10且P值小于0.05对应的滞后天数判断为存在显著的滞后效应，由此得到存在显著滞后效应的最长滞后天数。

6.根据权利要求5所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，其特征在于，所述分布滞后非线性模型的公式为：

7.根据权利要求1所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法，

其特征在于，所述基于长短期记忆网络的疾病人数预测模型，包括以下记忆元胞结构：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i)；

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-i+b_f)；

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t+b_o)；

c_t＝f_tc_t-1+i_t tanh(w_xcx_t+w_hch_t-1+b_c)；

h_t＝o_t tanh(c_t)；

8.一种基于滞后分析和LSTM的呼吸系统疾病发病人数预测系统，其特征在于，包括：

9.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。

10.一种计算机，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于滞后分析和LSTM的呼吸系统疾病发病人数预测方法的步骤。