CN113077896B - 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 - Google Patents
一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 Download PDFInfo
- Publication number
- CN113077896B CN113077896B CN202110460471.0A CN202110460471A CN113077896B CN 113077896 B CN113077896 B CN 113077896B CN 202110460471 A CN202110460471 A CN 202110460471A CN 113077896 B CN113077896 B CN 113077896B
- Authority
- CN
- China
- Prior art keywords
- model
- pollutant
- data
- cardiovascular
- cerebrovascular diseases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明将空气污染物和心脑血管疾病门诊量联系起来,通过建立单污染物模型和双污染物模型,研究长时间序列下空气污染物在一周滞后期内对心脑血管疾病门诊量的影响,不仅可揭示一周内每天各空气污染物对心脑血管疾病门诊量的影响,还能得到不同污染物组合对心脑血管疾病门诊量的影响。本发明可应用到公共卫生部门制定心脑血管疾病的预防措施制定工作中去。
Description
技术领域
本发明属于环境学与疾病学交叉的技术领域,具体涉及一种基于GAM的心脑血管疾病门诊量评价系统及其使用方法。
背景技术
心脑血管疾病是心血管疾病和脑血管疾病的总称,心脑血管疾病以其“发病率高、致残率高、死亡率高、复发率高,并发症多”等特点,导致心脑血管疾病的医疗成本很高,严重地影响着居民的生活质量及国民经济的发展,同时也加剧了医疗资源分配的紧张。影响心血管及脑血管疾病的因素主要包括生物风险因素(血脂、血压、血糖、肥胖)、生活方式风险因素(吸烟、酒精、饮食、体力活动)、环境风险因素(气象、大气污染和室内空气污染)。在众多影响因素中,只有环境风险因素可以通过制定相关公共政策和规划进行一定程度的改善。因此,如何深入评估大气污染对心脑血管疾病的影响,并得到有效的控制决策和个人防护建议已经受到了世界各地相关学者的广泛关注。
GAM(Generalized Additive Model,广义相加模型):广义线性模型是传统线性回归模型的扩展,是一种自由灵活的统计模型。GAM采用模型中的每个预测变量并将其分成多个部分,然后通过光滑样条函数、核函数或者局部回归光滑函数,将多项式函数分别拟合到每个部分来探测变量之间的非线性回归关系。GAM模型中部分或全部的自变量采用平滑函数,降低线性设定带来的模型风险,并且克服了logistic回归中当解释变量个数较多时容易引起维度灾难的缺点。在保证残差最小化(即最高拟合优度)的同时,还保证模型的最大化简约性(即最低可能自由度)。目前用于评估空气污染物和心脑血管疾病之间关系的模型中,GAM模型是最受欢迎和认可的一种模型。
大气污染对人类健康的危害是不可否认的,目前很多证据表明空气污染物浓度升高会提高人类患病的可能性。“门诊量”是空气污染导致健康结局最为敏感的指标,而GAM模型是评估和预测空气污染与心脑血管等疾病相关关系的最优模型,模型结果不仅可得到各污染物浓度升高单位浓度后,心脑血管疾病门诊量增加的风险值和滞后效应值,还可以根据污染物浓度值预测相应的心脑血管疾病门诊量。每日心脑血管疾病门诊人数统计分布近似服从泊松分布,因此可选用半参数广义相加模型(GAM)评估PM2.5,PM10,NO2,SO2,O3,CO对血脑血管疾病门诊量的影响。评估结果可为阐明各污染物的健康危害特征提供一定参考,为相关部门制定相关防治策略提供科学依据。
发明内容
针对以上问题,本发明的目的是将空气污染物和心脑血管疾病门诊量同时加入GAM模型,提供一种基于GAM的心脑血管疾病门诊量评价系统及其使用方法。
本发明的目的是这样实现的:一包括心脑血管疾病数据收集与处理模块、大气污染物和混杂变量的获取和处理模块、数据相关性分析模块、混杂变量的自由度确定模块、单污染物一周内的滞后效应输出模块、模型敏感性检验模块、双污染物模型结果输出模块、风险评估模块和针对性防控措施制定模块;通过收集并处理心脑血管疾病门诊数据做为模型自变量,收集处理大气污染物数据和混杂变量数据作为模型的因变量和混杂变量,通过数据相关性分析和确定混杂变量自由度来确保模型稳定性,然后建立单污染物模型,在单污染物模型和模型敏感性分析的基础上建立双污染物模型,之后根据单双污染物模型结果评估各污染物单独和两两组合后对心脑血管疾病门诊量的影响,最后根据评估结果,提出针对心脑血管疾病患者的有效防护建议;
心脑血管疾病数据收集与处理模块:按照国际疾病分类(InternationalClassification of Dseases,ICD)第十次修订本分类方法,从医院门诊就诊系统中筛选出心血管(ICD-10分类编号为I21-I22,I46)和脑血管(ICD-10分类编号为I61-I65)心脑血管疾病就诊数据。之后将筛选和分类后的心脑血管疾病就诊数据进行脱敏处理,分别删去患者姓名、相关证件号码和居住地址等敏感信息。最后将筛选、分类和脱敏处理后的心脑血管疾病数据导入Excel表格中,汇总统计每日的心脑血管疾病门诊量;
大气污染物和混杂变量的获取和处理模块:通过查阅文献,根据相关文献中数据来源,下载并处理PM2.5(μg·m-3),PM10(μg·m-3),SO2(μg·m-3),NO2(μg·m-3),CO(mg·m-3),O3(μg·m-3)日均浓度数据(数据获取网址:https://www.aqistudy.cn/historydata/),同时获取并处理对应的混杂变量:日均气象数据(气象数据包括日最高温(℃)、日最低温(℃)、日均温度(℃)、日均风速(m·s-1)、日均大气压强(hpa)、日均相对湿度和日均降水量(mm),数据获取网址:http://data.cma.cn/)、时间长期趋势(Time)、星期几效应值(DOW)和假期效应值(Holiday)。
数据相关性分析模块:分析心脑血管疾病日门诊量与当日污染物浓度、气象数据的相关性:将研究日期内每天的疾病门诊量和污染物、气象因子数据导入IBS SPSSStatistics 22进行相关性分析,得到各因子及其与心脑血管疾病门诊量之间的相关性,筛选出与心脑血管疾病门诊量之间存在显著相关性的气象因子。显著性检验水平为a=0.05。Spearman系相关系数显著高于0.7的两种污染物之间存在高度相关性,同时加入模型可能会造成严重共线性问题;
混杂变量的自由度确定模块:通过确定合适的自由度可以保证模型的稳定性,因此在模型中引入各混杂变量时,首先要确定各因子在模型中的自由度。可通过改变不同的自由度后,计算不同自由度下模型的赤池信息量(AIC值),根据赤池信息量(AIC)最小原则各气象因子和时间长期趋势的自由度;
单污染物一周内的滞后效应输出模块:单污染物模型是把PM2.5,PM10,SO2,NO2,CO,O3分别引入已经确定了各混杂因子自由度的广义相加模型中,记录并分析各个污染物在一周内的单日滞后和累计滞后结果;
模型敏感性检验模块:由于污染物之间可能存在高度相关性,因此同时引入相关性较高的污染物在双污染物模型中时,可能会引起模型的严重共线性问题,从而影响实验结果的可靠性。模型中各污染物的方差膨胀系数(variance inflation factor,VIF)可以作为衡量双污染物模型中多重共线性严重程度的有效指标。为保证模型稳定性,VIF值大于或等于10时说明模型可能存在严重多重共线性;双污染物模型结果输出模块:双污染物模型是根据敏感性分析和单污染物模型结果,在最佳滞后期分别引入另一种污染物分别引入另一种污染物。之后记录并分析双污染物模型结果;
风险评估模块:根据单污染物模型和双污染物模型的结果,分别计算单污染物模型和双污染物模型中各污染物浓度升高10μg/m3后心脑血管疾病门诊量增加的超额危险度(Excess Risk,ER)及其95%置信区间(Confidence Interval,CI),其中ER值作为污染物对心脑血管疾病门诊量风险的量化指标,95%CI可揭示该风险是否具有显著意义,以此评价各污染物对心脑血管疾病门诊量的影响,选择ER值最高并且95%置信区间不包括0的日期为最佳滞后期;
针对性防控措施制定模块:根据单污染物模型和双污染物模型评估结果,,评估出最需要着重防范的单个污染物或污染物组合,以便制定针对心脑血管疾病患者的有效的个人防护措施。
一种基于GAM的心脑血管疾病门诊量评价系统的使用方法,其特征在于:包括以下步骤:
步骤1:采集心脑血管疾病数据:按照国际疾病分类(InternationalClassification of Dseases,ICD)第十次修订本分类方法,从医院门诊就诊系统中筛选出心血管(ICD-10分类编号为I21-I22,I46)和脑血管(ICD-10分类编号为I61-I65)就诊数据;步骤2:处理心脑血管疾病就诊数据:对心脑血管疾病就诊信息进行脱敏处理,删去患者的姓名、住址、证件号等私密信息,仅保留就诊日期、疾病类型、性别和年龄信息)。之后重新对数据进行检核,确保无缺失值和冗余数据。最后将就诊时间处理为“2016/1/1”格式,统计得到每日就诊量数据;步骤3:收集大气污染物和混杂变量:收集同期的大气污染物日均浓度数据(PM2.5,PM10,SO2,NO2,CO,O3)和日均气象数据(日均温度,日最高温,日最低温,日均相对湿度,日均大气压强,日均风速,日均降水量)。之后将每日数据导入Excel表格,重新核查数据,删除重复数据,可通过取前后日平均值的方法补足缺失值,并根据相应就诊日期数据添加时间长期趋势
(Time)、星期几效应变量(DOW,DOW=0,1,2,3,4,5,6,7)和假期效应变量(Holiday,假期:Holiday=1;非假期:Holiday=0)等混杂变量值。最后得到与心脑血管疾病门诊数据同期的每日的污染物数据和混杂变量数据,以及分别计算得到各影响变量一周内的单日滞后和累计滞后数据;步骤4:分析心脑血管疾病日门诊量与当日污染物浓度、气象数据的相关性:根据处理后的数据,按照日期进行汇总,得到研究日期内每天的疾病门诊量和污染物、气象因子数据表,将表格导入SPSS进行相关性分析,得到各因子及其与心脑血管疾病门诊量之间的相关性,筛选出与心脑血管疾病门诊量之间存在显著相关性的气象因子。显著性检验水平为a=0.05。Spearman系数高于0.7的两种污染物之间存在高度相关性,在模型敏感性检验时需要特别注意相关性高于0.7的污染物同时加入双污染物模型是否会造成模型的多重共线性;步骤5:确定混杂变量的自由度:将与心脑血管疾病门诊量之间存在显著相关性的气象因子、时间长期趋势、星期几变量和假期变量加入广义相加模型,采用自然立方样条函数进行气象因子和时间长期趋势参数的平滑,并通过模型AIC最小原则确定各气象因子和时间长期趋势的自由度;步骤6:单污染物一周内的滞后效应输出:将一周滞后期内的单日滞后、累计滞后数据,包括单个污染物和已确定相关参数的混杂变量一起引入模型,进行广义相加的泊松回归分析。根据模型结果中的污染物影响水平P值和模型解释能力值判断一周滞后期内该污染物是否对心脑血管疾病门诊量存在显著影响,及其解释能力的强弱。记录模型的回归系数和模型标准差,用于计算一周滞后期内超额危险度(ER)和95%置信区间(CI):;步骤7:模型敏感性检验模块:模型敏感性可通过方差膨胀系数(variance inflation factor,VIF)来衡量,模型中有任一污染物的VIF值大于或等于10,说某些明污染物之间存在高度相关,不适合同时引入双污染物模型;步骤8:双污染物模型结果输出:根据敏感性分析结果,剔除不适合同时引入双污染物模型的污染物组合,结合单污染物模型结果确定的最佳滞后期,在最佳滞后期分别引入另一种污染物,进行广义相加的泊松回归分析。根据模型结果中的污染物影响水平P值和模型解释能力值判断两种污染物是否对心脑血管疾病门诊量存在显著影响,及两种污染物共同作用下解释能力的强弱。记录双污染物模型的回归系数和模型标准差,用于计算双污染物的超额危险度(ER)和95%置信区间(CI);步骤9:根据单污染物模型结果和双污染物模型结果计算各污染物在一周内对心脑血管疾病影响的超额危险度(ER),评价各污染物对心脑血管疾病门诊量影响;步骤10:根据各污染物对心脑血管疾病门诊量影响的评估结果,提出针对心脑血管疾病患者的自我防护建议。
本发明的有益效果:本发明将空气污染物和心脑血管疾病门诊量联系起来,通过建立单污染物模型和双污染物模型,研究长时间序列下空气污染物在一周滞后期内对心脑血管疾病门诊量的影响,不仅可揭示一周内每天各空气污染物对心脑血管疾病门诊量的影响,还能得到不同污染物组合对心脑血管疾病门诊量的影响。研究结果可为公共卫生部门制定心脑血管疾病预防措施提供有效的科学依据和实际参考。
附图说明
图1为本发明的组成框架;
图2为本发明心脑血管疾病门诊数据收集与处理模块实现流程图;
图3为本发明大气污染物和混杂变量数据的收集与处理图;
图4为单污染物和双污染物模型的建立和模型敏感性检验流程图;
图5展示了2016—2018年洛阳市各污染物对居民心脑血管疾病门诊量的滞后效应的单污染物模型结果。
具体实施方式
下面结合实施例对本发明作以下说明:
如图1所示,一种基于GAM的心脑血管疾病门诊量评价方法,包括心脑血管疾病门诊数据收集与处理模块,大气污染物和混杂变量的获取和处理模块、数据相关性分析模块、混杂变量的自由度确定模块、单污染物一周内的滞后效应输出模块、双污染物模型结果输出模块、模型敏感性检验模块、风险评估模块和针对性防控措施制定模块,通过收集并处理心脑血管疾病门诊数据做为模型自变量,收集处理大气污染物数据和混杂变量数据作为模型的因变量和混杂变量,通过数据相关性分析和确定混杂变量自由度来确保模型稳定性,然后建立单污染物模型,在单污染物模型和模型敏感性分析的基础上建立双污染物模型,之后根据单双污染物模型结果评估各污染物单独和两两组合后对心脑血管疾病门诊量的影响,最后根据评估结果,提出针对心脑血管疾病患者的有效防护建议。
如图2所示,心脑血管疾病数据的收集和处理模型具体实现过程如下:(1)采集心脑血管疾病数据:按照国际疾病分类(International Classification of Dseases,ICD)第十次修订本分类方法,从医院门诊就诊系统中筛选出心血管(ICD-10分类编号为I21-I22,I46)和脑血管(ICD-10分类编号为I61-I65)就诊数据;
(2)处理心脑血管疾病就诊数据:在Excel中对心脑血管疾病就诊信息进行脱敏处理,删去患者的姓名、住址、证件号等私密信息,仅保留就诊日期、疾病类型、性别和年龄信息)。之后重新对数据进行检核,确保无缺失值和冗余数据。最后将就诊时间处理为“2016/1/1”格式,分别得到滞后0-7天的就诊量数据。
如图3所示,本发明的大气污染物和混杂变量的获取和处理模块具体实现过程如下:
(1)首先获取并处理大气污染物数据。通过查阅文献,根据相关文献中数据来源,下载PM2.5(μg·m-3),PM10(μg·m-3),SO2(μg·m-3),NO2(μg·m-3),CO(mg·m-3),O3(μg·m-3)日均浓度数据(数据获取网址:https://www.aqistudy.cn/historydata/),按照心脑血管疾病门诊日期,统计一周内0-7天的单日滞后和累计滞后大气污染物数据;
(2)之后获取并处理对应的混杂变量:日均气象数据(气象数据包括日最高温(℃)、日最低温(℃)、日均温度(℃)、日均风速(m·s-1)、日均大气压强(hpa)、日均相对湿度和日均降水量(mm),数据获取网址:http://data.cma.cn/)、时间长期趋势(Time)、星期几效应值(DOW)和假期效应值(Holiday);
(3)最后计算并统计心脑血管疾病门诊量一周滞后期内对应的单日滞后和累计滞后数据,其中心脑血管疾病门诊量单日滞后第n天对应的大气污染物浓度和混杂变量值即第“n+1”天的大气污染物浓度和混杂变量值,心脑血管疾病门诊量累计滞后第n天对应的大气污染物浓度和混杂变量值即第“0至n+1”天的大气污染物浓度和混杂变量的移动平均值。
数据相关性分析模块,在软件IBS SPSS Statistics 22中,导入2016-2018年洛阳市心脑血管疾病门诊量日均数据、大气污染物日均浓度数据和气象数据,进行双变量相关性分析,相关系数选择用“Spearman”表示。根据相关系数的显著性确定与心脑血管疾病存在显著相关性的因子作为影响因子。最后将筛选出的与心脑血管疾病门诊量相关的大气污染物与气象因子之间进行相关性分析,相关性分析结果如表1所示。
混杂变量的自由度确定模块,通过确定合适的自由度可以保证模型的稳定性,因此在模型中引入各混杂变量时,首先要确定各因子在模型中的自由度。可通过改变不同的自由度后,计算不同自由度下模型的赤池信息量(AIC值),根据赤池信息量(AIC)最小原则各气象因子和时间长期趋势的自由度。
单污染物一周内的滞后效应输出模块:如图4所示,本发明通过建立广义相加模型进行心脑血管疾病门诊量与大气污染物之间的时间序列分析,通过泊松回归模型来评估一周滞后期内每日污染物浓度变化与心脑血管疾病门诊量之间的关系,单污染物模型结果如图5所示。模型的建立及结果的计算如下:(1)建立单污染物GAM模型,本发明中GAM表达式如下:
Ln[E(Yt)]=a+βtXt+ns(time,9)+ns(Zt,df)+DOW+Holiday
式中,Ln[]为泊松分布的连接函数;Yt为第t天实际门诊人数;E(Yt)为第t天门诊量期待值;a为截距;βt为暴露-反应关系系数;Xt为第t日大气颗粒污染物浓度值;ns为三次回归样条;Zt为第t日的气象混杂因素;DOW和Holiday分别为控制星期几效应和假期效应的哑元变量;
(2)根据单污染物的GAM结果中的回归系数及标准差,计算各污染物质量浓度每升高1个单位(10μg·m-3)的ER值及其95%CI,作为PM2.5、PM10、SO2、NO2、CO和O3一周内的单日滞后和累计滞后效应评价指标。检验水准α=0.05。计算公式如下:
ER=ea*β×100%-1
CI=e(β±1.96SE)*a-1
其中ER为超额危险度;a是污染物增加的单位浓度;β为回归系数;SE为模型标准差,CI为95%置信区间。
模型敏感性检验模型:如图4所示,根据双污染物模型中各污染物的VIF值,筛选出会引起模型严重多重共线性的两种污染物,为下一步的双污染物模型建立提供参考依据。敏感性检验结果如表2所示,同时引入所有污染物发现PM2.5的VIF值大于时,结合Spearman相关系数,考虑是PM10和PM2.5之间存在高度相关性造成的模型共线性严重,因此分别除去PM2.5和PM10后建立模型,发现所有污染物的VIF值均小于10。根据模型敏感性检验结果,双污染物模型中未同时引入PM2.5和PM10。
双污染物模型结果输出模块:如图4所示,根据单污染物模型中计算的ER结果,确定最佳滞后日期,各污染物在最佳滞后日期下引入另一种污染物,同时根据敏感性分析结果,排除可能引起模型多重共线性问题的两种污染物来建立双污染物模型。根据双污染物模型的回归系数和方差,计算引入另一种污染物后,各污染物的ER值变化。双污染物模型的结果如表3所示。
风险评估模块和针对性防控措施制定模块:如图1所示,根据单污染物模型和双污染物模型中各污染物对心脑血管疾病影响的超额危险度(ER)及95%CI,评价各污染物对心脑血管疾病门诊量影响。提出针对心脑血管疾病患者的自我防护建议。
表1 2016—2018年洛阳市大气污染物与气象因子的Spearman相关系数
[注(note)]a:P<0.05;b:P<0.01。
表2敏感性检验结果
注:Hum表示相对湿度;Pres表示大气压强;W_S表示风速;Tem表示平均温度。
表3 2016—2018年洛阳市各污染物对洛阳市居民心脑血管疾病门诊量的滞后效应的双污染物模型结果
Claims (1)
1. 一种基于 GAM 的心脑血管疾病门诊量评价系统,其特征在于:包括心脑血管疾病数据收集与处理模块、大气污染物和混杂变量的获取和处理模块、数据相关性分析模块、混杂变量的自由度确定模块、单污染物一周内的滞后效应输出模块、模型敏感性检验模块、双污染物模型结果输出模块、风险评估模块和针对性防控措施制定模块;通过收集并处理心脑血管疾病门诊数据做为模型自变量,收集处理大气污染物数据和混杂变量数据作为模型的因变量和混杂变量,通过数据相关性分析和确定混杂变量自由度来确保模型稳定性,然后建立单污染物模型,在单污染物模型和模型敏感性分析的基础上建立双污染物模型,之后根据单双污染物模型结果评估各污染物单独和两两组合后对心脑血管疾病门诊量的影响,最后根据评估结果,提出针对心脑血管疾病患者的有效防护建议,其中:
心脑血管疾病数据收集与处理模块:从医院门诊就诊系统中获取心脑血管疾病数据,导出数据后对数据进行筛选、分类和脱敏处理;
大气污染物和混杂变量的获取和处理模块:通过查阅文献,根据相关文献中数据来源,下载并处理大气污染物日均浓度数据,大气污染物包括 PM 2.5, PM 10, SO 2, NO 2,CO, O 3 的一种或几种;同时获取并处理对应的混杂变量:日均气象数据、时间长期趋势Time、星期几效应值DOW和假期效应值Holiday;最后分别计算得到各影响变量一周内的单日滞后和累计滞后数据;
数据相关性分析模块:通过“Spearman”相关系数确定各影响因子及其与血脑血管疾病门诊量之间的相关性;根据相关性结果确定各因子之间是否存在显著相关关系;相关系数高于 0.7的因子之间存在高度相关性,同时加入模型可能会造成严重共线性问题;
混杂变量的自由度确定模块:利用处理后的数据建立广义相加时,根据赤池信息量AIC最小原则控制各气象因子和时间长期趋势的自由度,以确保模型可靠性;
单污染物一周内的滞后效应输出模块:在确定了各混杂因子的模型参数后,将各污染物以及一周内的单日滞后和累计滞后数据分别引入广义相加模型,记录并分析模型结果;
模型敏感性检验模块:把所有污染物同时引入模型中,通过模型结果中各污染物的方差膨胀系数VIF来衡量多元线性回归模型中多重共线性严重程度,方差膨胀系数VIF 大于10 说明模型存在严重多重共线性;
双污染物模型结果输出模块:根据单污染物模型和敏感性分析结果,保证模型不存在多重共线性问题后,在最佳滞后期分别引入另一种污染物;最后记录并分析模型结果;
风险评估模块:根据记录的模型回归系数和模型标准差,分别计算一周滞后期内单污染物模型和最佳滞后期下双污染物模型中各污染物浓度升高 10μg/m3 后心脑血管疾病门诊量增加的超额危险度ER及其 95%置信区间CI,将 ER 值作为污染物对心脑血管疾病门诊量风险的量化指标,评价各污染物一周滞后期内对心脑血管疾病门诊量的影响;
针对性防控措施制定模块:根据单污染物模型和双污染物模型评估结果,提出针对心脑血管疾病患者的有效的个人防护建议;
所述基于 GAM 的心脑血管疾病门诊量评价系统的使用方法,包括以下步骤:步骤 1:采集心脑血管疾病数据:按照国际疾病分类(International Classification ofDseases,ICD)第十次修订本分类方法,从医院门诊就诊系统中筛选出心血管(ICD-10 分类编号为 I21-I22,I46)和脑血管(ICD-10 分类编号为 I61-I65)就诊数据;
步骤 2:处理心脑血管疾病就诊数据:对心脑血管疾病就诊信息进行脱敏处理,删去患者的姓名、住址、证件号等私密信息,仅保留就诊日期、疾病类型、性别和年龄信息;之后重新对数据进行检核,确保无缺失值和冗余数据;最后将就诊时间处理为“2016/1/1”格式,统计得到每日就诊量数据;
步骤 3:收集大气污染物和混杂变量:收集同期的大气污染物日均浓度数据和日均气象数据,大气污染物日均浓度数据包括 PM2.5, PM10, SO 2, NO 2, CO 和 O 3 中的一种或几种,日均气象数据包括日均温度、日最高温、日最低温、日均相对湿度、日均大气压强、日均风速和日均降水量的中一种或几种;之后将每日数据导入 Excel 表格,重新核查数据,删除重复数据,可通过取前后日平均值的方法补足缺失值,并根据相应就诊日期数据添加时间长期趋势Time、星期几效应变量DOW和假期效应变量Holiday的混杂变量值,星期几效应变量DOW)=0,1,2,3,4,5,6,7 的任一项;假期效应变量Holiday包括假期和非假期,假期:Holiday=1;非假期:Holiday=0;最后得到与心脑血管疾病门诊数据同期的每日的污染物数据和混杂变量数据,以及分别计算得到各影响变量一周内的单日滞后和累计滞后数据;
步骤 4:分析心脑血管疾病日门诊量与当日污染物浓度、气象数据的相关性:根据处理后的数据,按照日期进行汇总,得到研究日期内每天的疾病门诊量和污染物、气象因子数据表,将表格导入 SPSS 进行相关性分析,得到各因子及其与心脑血管疾病门诊量之间的相关性,筛选出与心脑血管疾病门诊量之间存在显著相关性的气象因子;显著性检验水平为;Spearman 系数高于 0.7 的两种污染物之间存在高度相关性,在模型敏感性检验时需要特别注意相关性高于 0.7 的污染物同时加入双污染物模型是否会造成模型的多重共线性;
步骤 5:确定混杂变量的自由度:将与心脑血管疾病门诊量之间存在显著相关性的气象因子、时间长期趋势、星期几变量和假期变量加入广义相加模型,采用自然立方样条函数进行气象因子和时间长期趋势参数的平滑,并通过模型AIC 最小原则确定各气象因子和时间长期趋势的自由度;
步骤 6:单污染物一周内的滞后效应输出:将一周滞后期内的单日滞后、累计滞后数据,包括单个污染物和已确定相关参数的混杂变量一起引入模型,进行广义相加的泊松回归分析;根据模型结果中的污染物影响水平 P值和模型解释能力值判断一周滞后期内该污染物是否对心脑血管疾病门诊量存在显著影响,及其解释能力的强弱;记录模型的回归系数和模型标准差,用于计算一周滞后期内单污染物模型的超额危险度ER和 95%置信区间CI;
步骤 7:模型敏感性检验模块:模型敏感性可通过方差膨胀系数VIF来衡量,模型中有任一污染物的方差膨胀系数 VIF 值大于或等于10,说某些明污染物之间存在高度相关,不适合同时引入双污染物模型;
步骤 8:双污染物模型结果输出:根据敏感性分析结果,剔除不适合同时引入双污染物模型的污染物组合,结合单污染物模型结果确定的最佳滞后期,在最佳滞后期分别引入另一种污染物,进行广义相加的泊松回归分析;根据模型结果中的污染物影响水平 P 值和模型解释能力值判断两种污染物是否对心脑血管疾病门诊量存在显著影响,及两种污染物共同作用下解释能力的强弱;记录双污染物模型的回归系数和模型标准差,用于计算双污染物模型的超额危险度ER和 95%置信区间CI;
步骤 9:根据单污染物模型结果和双污染物模型结果计算各污染物在一周内对心脑血管疾病影响的超额危险度ER,评价各污染物对心脑血管疾病门诊量影响;
步骤 10:根据各污染物对心脑血管疾病门诊量影响的评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110460471.0A CN113077896B (zh) | 2021-04-27 | 2021-04-27 | 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110460471.0A CN113077896B (zh) | 2021-04-27 | 2021-04-27 | 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077896A CN113077896A (zh) | 2021-07-06 |
CN113077896B true CN113077896B (zh) | 2023-05-26 |
Family
ID=76618877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110460471.0A Active CN113077896B (zh) | 2021-04-27 | 2021-04-27 | 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077896B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335A (zh) * | 2015-04-10 | 2015-07-29 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测模型 |
CN108846503A (zh) * | 2018-05-17 | 2018-11-20 | 电子科技大学 | 一种基于神经网络的呼吸系统疾病患病人次动态预测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3096253A1 (en) * | 2015-05-19 | 2016-11-23 | Universidad de Vigo | System, computer-implemented method and computer program product for individualized multiple-disease quantitative risk assessment |
CN108550400B (zh) * | 2018-04-13 | 2022-02-22 | 成都金盘电子科大多媒体技术有限公司 | 空气污染物对呼吸道疾病病患人数影响的评估方法 |
CN108877905B (zh) * | 2018-06-12 | 2020-11-10 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
JP7174890B2 (ja) * | 2018-06-25 | 2022-11-18 | 国立研究開発法人理化学研究所 | リスク評価方法、リスク評価装置及びリスク評価プログラム |
CN110706823A (zh) * | 2019-11-15 | 2020-01-17 | 广州地理研究所 | 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 |
CN112151185A (zh) * | 2020-09-28 | 2020-12-29 | 山东财经大学 | 一种儿童呼吸疾病与环境数据关联分析方法及系统 |
-
2021
- 2021-04-27 CN CN202110460471.0A patent/CN113077896B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335A (zh) * | 2015-04-10 | 2015-07-29 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测模型 |
CN108846503A (zh) * | 2018-05-17 | 2018-11-20 | 电子科技大学 | 一种基于神经网络的呼吸系统疾病患病人次动态预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113077896A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Andersson et al. | Road traffic noise, air pollution and cardiovascular events in a Swedish cohort | |
Saint-Maurice et al. | Calibration and validation of the youth activity profile: the FLASHE study | |
Brunekreef et al. | Effects of long-term exposure to traffic-related air pollution on respiratory and cardiovascular mortality in the Netherlands: the NLCS-AIR study. | |
Abbasi et al. | Prediction models for risk of developing type 2 diabetes: systematic literature search and independent external validation study | |
Song et al. | The Wuhan-Zhuhai (WHZH) cohort study of environmental air particulate matter and the pathogenesis of cardiopulmonary diseases: study design, methods and baseline characteristics of the cohort | |
Pieters et al. | Blood pressure and same-day exposure to air pollution at school: associations with nano-sized to coarse PM in children | |
Heo et al. | The influence of green space on the short-term effects of particulate matter on hospitalization in the US for 2000–2013 | |
Hoffmann et al. | Air quality, stroke, and coronary events: results of the Heinz Nixdorf Recall Study from the Ruhr Region | |
Jaffe et al. | Air pollution and emergency department visits for asthma among Ohio Medicaid recipients, 1991–1996 | |
Zafeiratou et al. | A systematic review on the association between total and cardiopulmonary mortality/morbidity or cardiovascular risk factors with long-term exposure to increased or decreased ambient temperature | |
Selander et al. | Joint effects of job strain and road-traffic and occupational noise on myocardial infarction | |
Haley et al. | Surveillance of the short-term impact of fine particle air pollution on cardiovascular disease hospitalizations in New York State | |
Buteau et al. | Associations between ambient air pollution and daily mortality in a cohort of congestive heart failure: case-crossover and nested case-control analyses using a distributed lag nonlinear model | |
Golden et al. | Salivary cortisol protocol adherence and reliability by socio-demographic features: the Multi-Ethnic Study of Atherosclerosis | |
Qu et al. | Associations between ambient extreme heat exposure and emergency department visits related to kidney disease | |
Yerramalla et al. | Association of daily composition of physical activity and sedentary behaviour with incidence of cardiovascular disease in older adults | |
Ebisu et al. | Age-specific seasonal associations between acute exposure to PM2. 5 sources and cardiorespiratory hospital admissions in California | |
Afsar | The relationship between cognitive function, depressive behaviour and sleep quality with 24-h urinary sodium excretion in patients with essential hypertension | |
Han et al. | Effects of AIR pollution on cardiopuLmonary disEaSe in urban and peri-urban reSidents in Beijing: protocol for the AIRLESS study | |
Meier-Girard et al. | Association of long-term exposure to traffic-related PM10 with heart rate variability and heart rate dynamics in healthy subjects | |
CN113077896B (zh) | 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 | |
Deng et al. | Disease specific air quality health index (AQHI) for spatiotemporal health risk assessment of multi-air pollutants | |
Sørensen et al. | Effects of sociodemographic characteristics, comorbidity, and coexposures on the association between air pollution and type 2 diabetes: a nationwide cohort study | |
Peila et al. | Association of sleep duration and insomnia with metabolic syndrome and its components in the Women’s Health Initiative | |
Sun et al. | Sensitization characteristics in allergic rhinitis and transport pathway for Artemisia pollen in northern Beijing, China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |