CN111508598B - 一种呼吸系统疾病门诊量预测方法 - Google Patents
一种呼吸系统疾病门诊量预测方法 Download PDFInfo
- Publication number
- CN111508598B CN111508598B CN202010371187.1A CN202010371187A CN111508598B CN 111508598 B CN111508598 B CN 111508598B CN 202010371187 A CN202010371187 A CN 202010371187A CN 111508598 B CN111508598 B CN 111508598B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- holtwinters
- prediction
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 208000023504 respiratory system disease Diseases 0.000 title claims abstract description 24
- 238000012360 testing method Methods 0.000 claims description 17
- 238000007689 inspection Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000001932 seasonal effect Effects 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000000556 factor analysis Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007726 management method Methods 0.000 abstract description 7
- 238000013439 planning Methods 0.000 abstract description 2
- 238000013468 resource allocation Methods 0.000 abstract description 2
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003648 Ljung–Box test Methods 0.000 description 2
- 239000000809 air pollutant Substances 0.000 description 2
- 231100001243 air pollutant Toxicity 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 206010035664 Pneumonia Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 241000728173 Sarima Species 0.000 description 1
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003181 biological factor Substances 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005469 granulation Methods 0.000 description 1
- 230000003179 granulation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种呼吸系统疾病门诊量预测方法,以门诊量数据、空气质量信息以及天气信息为基础,构建时间序列混合预测模型,实现对呼吸系统疾病门诊量的自动化准确预测。该方法既能够刻画门诊量指标的趋势规律,还能够纳入包括空气质量、天气信息在内的多个相关因素对波动规律进行细节刻画。因此,基于该方法能够为医院管理人员提供重要参考,从而帮助管理者判断呼吸系统疾病的发病规律和趋势,辅助管理者进行资源分配、任务规划等决策,为合理分配医疗资源提供量化依据。
Description
技术领域
本发明涉及一种基于HoltWinters-XGBoost的呼吸系统疾病门诊量预测方法,属于时间序列预测领域。
背景技术
呼吸系统疾病是我国最为常见的多发疾病,常年居我国总人口死亡病因首位。呼吸系统疾病种类多,病因复杂,通常受到大气污染、吸烟、工业粒化因子、生物因子吸入和感染以及年龄、个人体质等因素影响。常见的呼吸系统疾病如急性上呼吸道感染、流行性感冒和肺炎、慢性下呼吸道疾病,在人群中发病量大,且呈现出明显的季节周期性和时间趋势性。20世纪90年代以来,时间序列分析已经被广泛应用于呼吸系统疾病的短期发病规律研究。
针对呼吸系统疾病门诊量进行智能预测,不仅能够辅助医院管理者及时、准确的了解医院的综合运营趋势,从而有的放矢的优化医务人员结构,分配医疗资源,实现医院精细化管理。当前,针对呼吸系统疾病的预测方法多集中于单模型预测,包括传统的时间序列模型(如ARIMA、SARIMA、HoltWinters等),机器学习模型(如决策树、GBDT、随机森林等),以及深度学习模型(如BP神经网络、深层信念网络、LSTM等)。然而,两者都有其各自的局限性,传统的时间序列模型通常以单指标形式建模,包含信息有限,无法刻画带漂移的节假日因素(如春节等),同时也无法加入天气和大气污染对就诊人数的影响;机器学习模型能够进行多指标建模,充分纳入一切可搜集的因素进行建模,然而当时间序列有单调趋势规律(不平稳)时,模型预测值范围只能局限在历史信息范围内,所以通常会出现预测值总是偏小或偏大的情况;深度学习模型不仅需要大量的调参实验,而且在样本量较小的情况下,很容易过拟合,因此很难实现自动化建模预测。
发明内容
本发明的目的是:实现对呼吸系统疾病门诊量的自动化准确预测。
为了达到上述目的,本发明的技术方案是提供了一种呼吸系统疾病门诊量预测方法,其特征在于,包括以下步骤:
步骤1、进行数据信息采集,所采集到的数据至少包括门诊量数据;
步骤2、对步骤1采集得到的数据进行数据预处理;
步骤3、采用数据填补方法进行数据填补;
步骤4、数据规律检验,包括以下内容:
(1)白噪声检验:对门诊量数据进行Ljung-Box检验,得到检验p值,若检验p值小于预先设定的值,则通过检验,否则终止方法,返回数据为白噪声,无法建模;
(2)周期性检验:设定周期参数k的取值区间,分别以不同取值下的k作为时间序列周期,对历史的门诊量数据进行标记周期次序;以周期次序数据作为分组因素,对门诊量数据进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标pk,取检验指标最小时的作为最终的周期参数;
步骤5、自变量筛选:将经过步骤3处理的门诊量数据、空气质量数据和天气数据包含的多个指标数据以时间进行关联,得到m个自变量指标数据。针对m个自变量指标,以1为步长分别构造t个滞后指标,分别计算门诊量数据指标与m×t个指标数据计算皮尔逊相关系数γi,i=1,2,…,m×t,设定相关系数阈值αγ,若皮尔逊相关系数γi<αγ,则剔除该指标;反之,则保留该指标作为建模自变量;
步骤6、模型建立和预测:建立HoltWinters-Xgboost混合预测模型,HoltWinters-Xgboost混合预测模型包含HoltWinters模块、Xgboost模块和混合预测模块,其中:
HoltWinters模块:构建HoltWinters加法预测模型,设定模型季节周期长度s=k0,HoltWinters加法预测模型输入数据为历史门诊量数据,即数据结构为q×1的矩阵,q为门诊量数据的样本量,通过模型学习,计算得到q个门诊量数据的拟合残差ei,i=1,2,3,…,q,以及未来p步预测值j=1,…,p;
Xgboost模块:构建XGBoost预测模型,为防止过拟合采取L2正则化,L2表示二范数,采取均方根误差作为损失函数,以步骤5保留的建模自变量作为模型自变量,以HoltWinters加法预测模型残差ei作为模型因变量,进行模型训练,计算得到未来p步的残差预测值j=1,…,p;
混合预测模块:将未来p步的预测值和未来p步的残差预测值/>相加,得到未来p步的混合模型预测值/>j=1,…,p。
优选地,步骤3中,进行数据填补时,针对4种缺失类型的缺失值分别采用不同的数据填补方法进行数据填补,包括以下内容:
(1)农历节日的法定假期的数据使用上一年的当日数据进行填补;
(2)对于一天假期的数据采取三次样条插值进行填补;
(3)对于1天以上的长假期的数据采取线性插值的方式进行填补;
(4)非假期的随机缺失数据采用k近邻均值进行填补。
优选地,步骤6中,HoltWinters加法预测模型表示为:
y′t+k=at+btk+ct+k
其中,y′t+k表示从当前时间t算起未来k个平滑期数的时间的预测值,k为向后平滑期数,大于0;at表示当前时间t的截距;bt表示当前时间t的趋势,t=1,2,…,T,T表示历史数据的样本个数;ct+k为从当前时间t算起未来k个平滑期数的时间的HoltWinters加法预测模型的季节因子;
at、bt、ct的计算公式如下:
at=α(yt-ct-s)+(1-α)(at-1+bt-1)
bt=β(at-at-1)+(1-β)bt-1
ct=γ(yt-at)+(1-γ)ct-s
其中,α、β、γ为阻尼因子,在0-1之间;
HoltWinters加法预测模型的预测值由下式计算:y′T+k=aT+bTk+cT+k-s。
本发明提出了一种基于HoltWinters-XGBoost的呼吸系统疾病门诊量预测方法,以门诊量数据、空气质量信息以及天气信息为基础,构建时间序列混合预测模型,实现对呼吸系统疾病门诊量的自动化准确预测。该方法既能够刻画门诊量指标的趋势规律,还能够纳入包括空气质量、天气信息在内的多个相关因素对波动规律进行细节刻画。因此,基于该方法能够为医院管理人员提供重要的量化依据,从而帮助管理者判断呼吸系统疾病的发病规律和趋势,辅助管理者进行资源分配、任务规划等决策,为合理分配医疗资源提供量化依据。
本发明的优点在于:首先,该方法能够自动识别时间序列的周期性,并以此为依据进行后续建模;然后,基于统计学和机器学习的混合模型,能够抽取数据的趋势信息以及相关影响因素,克服了传统时间序列模型的单指标输入缺点,以及机器学习模型无法准确刻画未来上升的趋势信息的劣势;最后,该方法以HIS数据信息和网络公开数据为基础,便于在不同地区推广使用。
附图说明
图1为本发明提供的一种呼吸系统疾病门诊量预测方法的流程图;
图2为Ljung-Box检验结果。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示,本发明提供的一种呼吸系统疾病门诊量预测方法包括以下步骤:
步骤1、数据信息采集,包括:
(1)医院内部数据采集:从医院信息系统抽取呼吸系统疾病的门诊就诊信息,按天对门诊人次进行统计,得到门诊量数据。
(2)医院外部空气质量信息采集:从空气质量公开网站以天为维度自动爬取医院所在城市的日期、AQI、空气质量等级、PM2.5、PM10、SO2、CO、NO2、O3等空气污染物指标数据,得到空气质量数据。
(3)医院外部天气信息采集:从天气公开网站以天为维度自动爬取医院所在城市的日期、最高气温、最低气温、天气、风力信息数据,得到天气数据。
步骤2、数据预处理,包括以下步骤:
步骤201、数据转换:对空气质量数据和天气数据的多个指标进行数据转换。其中,针对天气进行数值编码,转换规则为:小雨(1)、中雨(2)、阵雨(3)、大雨(4)、暴雨(5);其他字符串类型通过正则表达式抽取出数值信息并转换为整型或浮点型数据。
步骤202、建模样本量核查:对所有建模指标的样本量进行统计,计算指标样本数N,若N小于730,则终止方法,返回建模样本数过少,无法建模。
步骤203、指标完整度核查:对所有指标进行缺失率统计,若缺失率大于阈值30%,则删除指标。若提示门诊量数据被删除,则终止方法,返回数据完整度低,无法建模。
步骤3、缺失值填补:针对4种缺失类型的缺失值分别采用不同的数据填补方法进行数据填补,包括以下内容:
(1)农历节日(包括端午节、清明节、端午节)的法定假期使用上一年的当日数据进行填补。
(2)对于一天假期(包括元旦、劳动节)采取三次样条插值进行填补。
(3)对于1天以上的长假期(包括国庆节)采取线性插值的方式进行填补。
(4)非假期的随机缺失数据采用k近邻均值进行填补。
步骤4、数据规律检验,包括以下内容:
(1)白噪声检验:对门诊量数据进行Ljung-Box检验,得到检验p值,若检验p值小于0.05,则通过检验,否则终止方法,返回数据为白噪声,无法建模。
(2)周期性检验:设定周期参数k的取值区间为2-100的整数,分别以不同取值下的k作为时间序列周期,对历史的门诊量数据进行标记周期次序。以周期次序数据作为分组因素,对门诊量数据进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标pk,k=2,3,…,100。取检验指标最小时的作为最终的周期参数。
步骤5、自变量筛选:将经过步骤3处理的门诊量数据、空气质量数据和天气数据包含的多个指标数据以时间进行关联,得到m个自变量指标数据。针对m个自变量指标,以1为步长分别构造t个滞后指标,分别计算门诊量数据指标与m×t个指标数据计算皮尔逊相关系数γi,i=1,2,…,m×t,设定相关系数阈值αγ。若皮尔逊相关系数γi<αγ,则剔除该指,标;反之,则保留该指标作为建模自变量。
步骤6、模型建立和预测:建立HoltWinters-Xgboost混合预测模型,HoltWinters-Xgboost混合预测模型包含三个计算模块,分别为:HoltWinters模块、Xgboost模块和混合预测模块。
(1)HoltWinters模块:构建HoltWinters加法预测模型,设定模型季节周期长度s=k0。HoltWinters加法预测模型输入数据为历史门诊量数据,即数据结构为q×1的矩阵,q为门诊量数据的样本量。通过模型学习,计算得到q个门诊量数据的拟合残差ei,i=1,2,3,…,q,以及未来p步预测值j=1,…,p。
其中,HoltWinters加法预测模型表示为:
y′t+k=at+btk+ct+k
其中,y′t+k表示从当前时间t算起未来k个平滑期数的时间的预测值,k为向后平滑期数,大于0;at表示当前时间t的截距;bt表示当前时间t的趋势,t=1,2,…,T,T表示历史数据的样本个数;ct+k为从当前时间t算起未来k个平滑期数的时间的HoltWinters加法预测模型的季节因子。at、bt、ct的计算公式如下:
at=α(yt-ct-s)+(1-α)(at-1+bt-1)
bt=β(at-at-1)+(1-β)bt-1
ct=γ(yt-at)+(1-γ)ct-s
其中,α、β、γ为阻尼因子,在0-1之间。HoltWinters加法预测模型的预测值由下式计算:
y′T+k=aT+bTk+cT+k-s
(2)Xgboost模块:构建XGBoost预测模型,为防止过拟合采取L2正则化,L2表示二范数,采取均方根误差作为损失函数。以步骤5保留的特征数据作为模型自变量,以HoltWinters加法预测模型残差ei作为模型因变量,进行模型训练,计算得到未来p步的残差预测值j=1,…,p。
(3)混合预测模块:将未来p步的预测值和未来p步的残差预测值/>相加,得到未来p步的混合模型预测值/>j=1,…,p。
以某医院为例,采用该医院的HIS系统作为原始数据源,实施呼吸系统疾病门诊量预测方法,具体实施步骤为:
步骤1、数据信息采集,包括:
(1)医院内部数据采集:根据ICD10编码,从医院信息系统抽取呼吸系统疾病的门诊就诊历史信息,按天对门诊人次进行统计,得到门诊量数据。
(2)医院外部空气质量信息采集:从空气质量公开网站以天为维度自动爬取医院所在城市的日期、AQI、空气质量等级、PM2.5、PM10、SO2、CO、NO2、O3等空气污染物指标数据,得到空气质量数据。
(3)医院外部天气信息采集:从天气公开网站以天为维度自动爬取医院所在城市的日期、最高气温、最低气温、天气、风力信息数据,得到天气数据。
步骤2、数据预处理,包括以下步骤:
步骤201、数据转换:对空气质量数据和天气数据的多个指标进行数据转换。其中,针对天气进行数值编码,转换规则为:小雨(1)、中雨(2)、阵雨(3)、大雨(4)、暴雨(5);其他字符串类型通过正则表达式抽取出数值信息并转换为整型或浮点型数据。
步骤202、建模样本量核查:对所有建模指标的样本量进行统计,可供建模数据共1095条数据,超过指标样本数阈值730,可进行下一步建模。
步骤203、指标完整度核查:对所有指标进行缺失率统计,统计后得出缺失率为0.196%,低于缺失率阈值30%,可进行下一步建模。
步骤4、缺失值填补:针对4种缺失类型的缺失值分别采用不同的数据填补方法进行数据填补,包括以下内容:
(1)农历节日(包括端午节、清明节、端午节)的法定假期使用上一年的当日数据进行填补。
(2)对于一天假期(包括元旦、劳动节)采取三次样条插值进行填补。
(3)对于1天以上的长假期(包括国庆节)采取线性插值的方式进行填补。
(4)非假期的随机缺失数据采用k近邻均值进行填补。
步骤5、数据规律检验,包括以下内容:
(1)白噪声检验:对门诊量序列数据,进行Ljung-Box检验,得到检验p值如图2所示。
在延迟超过5时,p值均小于0.05,可以认为出现显著的自回归关系,且序列并非白噪声可以建模。
(2)周期性检验:设定周期参数k的取值区间为2-100的整数,分别以不同取值下的k作为时间序列周期,对门诊量历史数据进行标记周期次序。以周期次序数据作为分组因素,对门诊量进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标pk,k=2,3,…,100。得到k=7时检验指标最小,于是取7为周期参数。
步骤6、自变量筛选:将经过步骤3处理的门诊量数据、空气质量数据和天气数据包含的多个指标数据以时间进行关联,得到m个自变量指标数据。m个自变量指标,以1为步长分别构造t个滞后指标,分别计算门诊量数据指标与m×t个指标数据计算皮尔逊相关系数γi,i=1,2,…,m×t,设定相关系数阈值αγ。若皮尔逊相关系数γi<αγ,则剔除该指标;反之,则保留该指标作为建模因变量。该步骤中,设定t为30,相关系数阈值为0.2,最终筛选得到65个指标作为模型因变量。
步骤7、模型建立和预测:建立HoltWinters-XGBoost混合预测模型,其中包含三个计算模块:HoltWinters模块、XGBoost模块和混合预测模块。
(1)HoltWinters模块:构建HoltWinters加法预测模型,设定模型季节周期长度s=k0。模型输入数据为门诊量历史数据,尺寸大小为1095×1。通过模型学习,计算得到1095个门诊数据的拟合残差,以及未来7步的预测值。
(2)Xgboost模块:构建XGBoost预测模型,为防止过拟合采取L2正则化,采取均方根误差作为损失函数。以步骤6保留的65个特征数据作为模型自变量,以HoltWinters加法模型残差e作为模型因变量,进行模型训练,计算得到未来7步的残差预测值。Xgboost模块的参数设置如下表1所示:
表1 Xgboost模块的参数
参数 | 数值 |
learning_rate | 0.15 |
n_estimators | 1000 |
max_depth | 5 |
min_child_weight | 3 |
seed | 0 |
subsample | 0.4 |
colsample_bytree | 0.8 |
gamma | 0.3 |
reg_alpha | 0 |
reg_lambda | 1 |
(3)混合预测模块:将HoltWinters模块的7步预测值和Xgboost模块的7步预测值,得到最终的预测值和真实值对比结果如下表2所示。
表2混合模块7步预测值
Claims (1)
1.一种呼吸系统疾病门诊量预测方法,其特征在于,包括以下步骤:
步骤1、进行数据信息采集,所采集到的数据至少包括门诊量数据;
步骤2、对步骤1采集得到的数据进行数据预处理;
步骤3、采用数据填补方法进行数据填补,其中,进行数据填补时,针对4种缺失类型的缺失值分别采用不同的数据填补方法进行数据填补,包括以下内容:
(1)农历节日的法定假期的数据使用上一年的当日数据进行填补;
(2)对于一天假期的数据采取三次样条插值进行填补;
(3)对于1天以上的长假期的数据采取线性插值的方式进行填补;
(4)非假期的随机缺失数据采用k近邻均值进行填补;
步骤4、数据规律检验,包括以下内容:
(1)白噪声检验:对门诊量数据进行Ljung-Box检验,得到检验p值,若检验p值小于预先设定的值,则通过检验,否则终止方法,返回数据为白噪声,无法建模;
(2)周期性检验:设定周期参数k的取值区间,分别以不同取值下的k作为时间序列周期,对历史的门诊量数据进行标记周期次序;以周期次序数据作为分组因素,对门诊量数据进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标pk,取检验指标最小时的作为最终的周期参数;
步骤5、自变量筛选:将经过步骤3处理的门诊量数据、空气质量数据和天气数据包含的多个指标数据以时间进行关联,得到m个自变量指标数据,针对m个自变量指标,以1为步长分别构造t个滞后指标,分别计算门诊量数据指标与m×t个指标数据计算皮尔逊相关系数γi,i=1,2,…,m×t,设定相关系数阈值αγ,若皮尔逊相关系数γi<αγ,则剔除该指标;反之,则保留该指标作为建模自变量;
步骤6、模型建立和预测:建立HoltWinters-Xgboost混合预测模型,HoltWinters-Xgboost混合预测模型包含HoltWinters模块、Xgboost模块和混合预测模块,其中:
HoltWinters模块:构建HoltWinters加法预测模型,设定模型季节周期长度s=k0,HoltWinters加法预测模型输入数据为历史门诊量数据,即数据结构为q×1的矩阵,q为门诊量数据的样本量,通过模型学习,计算得到q个门诊量数据的拟合残差ei,i=1,2,3,...,q,以及未来p步预测值j=1,...,p;HoltWinters加法预测模型表示为:
y′t+k=at+btk+ct+k
其中,y′t+k表示从当前时间t算起未来k个平滑期数的时间的预测值,k为向后平滑期数,大于0;at表示当前时间t的截距;bt表示当前时间t的趋势,t=1,2,...,T,T表示历史数据的样本个数;ct+k为从当前时间t算起未来k个平滑期数的时间的HoltWinters加法预测模型的季节因子;
at、bt、ct的计算公式如下:
at=α(yt-ct-s)+(1-α)(at-1+bt-1)
bt=β(at-at-1)+(1-β)bt-1
ct=γ(yt-at)+(1-γ)ct-s
其中,α、β、γ为阻尼因子,在0-1之间;
HoltWinters加法预测模型的预测值由下式计算:y′T+k=aT+bTk+cT+k-s;
Xgboost模块:构建XGBoost预测模型,为防止过拟合采取L2正则化,L2表示二范数,采取均方根误差作为损失函数,以步骤5保留的建模自变量作为模型自变量,以HoltWinters加法预测模型残差ei作为模型因变量,进行模型训练,计算得到未来p步的残差预测值j=1,...,p;
混合预测模块:将未来p步的预测值和未来p步的残差预测值/>相加,得到未来p步的混合模型预测值/>j=1,...,p。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371187.1A CN111508598B (zh) | 2020-05-06 | 2020-05-06 | 一种呼吸系统疾病门诊量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371187.1A CN111508598B (zh) | 2020-05-06 | 2020-05-06 | 一种呼吸系统疾病门诊量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508598A CN111508598A (zh) | 2020-08-07 |
CN111508598B true CN111508598B (zh) | 2023-12-08 |
Family
ID=71864970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010371187.1A Active CN111508598B (zh) | 2020-05-06 | 2020-05-06 | 一种呼吸系统疾病门诊量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508598B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112117006A (zh) * | 2020-09-23 | 2020-12-22 | 重庆医科大学 | 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统 |
CN112215424A (zh) * | 2020-10-16 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 医疗指标预测方法、装置、电子设备及存储介质 |
CN112735598A (zh) * | 2021-01-21 | 2021-04-30 | 山东健康医疗大数据有限公司 | 一种对新冠疫情和呼吸道症候群进行分析预警的方法 |
CN113436751A (zh) * | 2021-06-29 | 2021-09-24 | 山东健康医疗大数据有限公司 | 一种周ili占比趋势预测系统及方法 |
CN113823393B (zh) * | 2021-11-22 | 2022-04-22 | 中哲国际工程设计有限公司 | 基于bim技术的医院就医导航系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335A (zh) * | 2015-04-10 | 2015-07-29 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测模型 |
CN106326634A (zh) * | 2016-08-09 | 2017-01-11 | 浙江工业大学 | 一种基于深度信念网络的医院门诊量预测方法 |
CN108073497A (zh) * | 2018-01-29 | 2018-05-25 | 上海洞识信息科技有限公司 | 一种基于数据中心数据采集平台的多指标异动分析方法 |
CN108877905A (zh) * | 2018-06-12 | 2018-11-23 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
CN110110916A (zh) * | 2019-04-29 | 2019-08-09 | 哈尔滨哲锡数据科技合伙企业(有限合伙) | 一种医院门诊就诊量的预测方法及系统 |
CN110766184A (zh) * | 2018-07-25 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 订单量预测方法和装置 |
CN112488396A (zh) * | 2020-12-01 | 2021-03-12 | 国网福建省电力有限公司 | 基于小波变换的Holt-Winters和LSTM组合模型的电力负荷预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11586880B2 (en) * | 2018-08-28 | 2023-02-21 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for multi-horizon time series forecasting with dynamic temporal context learning |
-
2020
- 2020-05-06 CN CN202010371187.1A patent/CN111508598B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335A (zh) * | 2015-04-10 | 2015-07-29 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测模型 |
CN106326634A (zh) * | 2016-08-09 | 2017-01-11 | 浙江工业大学 | 一种基于深度信念网络的医院门诊量预测方法 |
CN108073497A (zh) * | 2018-01-29 | 2018-05-25 | 上海洞识信息科技有限公司 | 一种基于数据中心数据采集平台的多指标异动分析方法 |
CN108877905A (zh) * | 2018-06-12 | 2018-11-23 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
CN110766184A (zh) * | 2018-07-25 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 订单量预测方法和装置 |
CN110110916A (zh) * | 2019-04-29 | 2019-08-09 | 哈尔滨哲锡数据科技合伙企业(有限合伙) | 一种医院门诊就诊量的预测方法及系统 |
CN112488396A (zh) * | 2020-12-01 | 2021-03-12 | 国网福建省电力有限公司 | 基于小波变换的Holt-Winters和LSTM组合模型的电力负荷预测方法 |
Non-Patent Citations (4)
Title |
---|
基于SARIMA-LSTM的门诊量预测研究;卢鹏飞 等;《大数据》;第5卷(第6期);102-110 * |
基于时间序列和Xgboost的钢卷仓储吞吐量预测;孟杭 等;《计算机应用》;第39卷(第S2期);25-27 * |
时间序列分析与机器学习方法在预测肺结核发病趋势中的应用;付之鸥;周扬;陈诚;郑洪伟;宋伟;李苑;陆伟;彭志行;;中国卫生统计(第02期);全文 * |
集成气象环境数据的门诊量预测研究;张家艳;郑建立;;智能计算机与应用(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111508598A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508598B (zh) | 一种呼吸系统疾病门诊量预测方法 | |
CN109002904B (zh) | 一种基于Prophet-ARMA的医院门诊就诊量预测方法 | |
CN107609835B (zh) | 一种电网人力配置应用系统及方法 | |
CN111144286A (zh) | 一种融合emd和lstm的城市pm2.5浓度预测方法 | |
CN108846503B (zh) | 一种基于神经网络的呼吸系统疾病患病人次动态预测方法 | |
CN111415752B (zh) | 一种融合气象因素和搜索指数的手足口病预测方法 | |
CN116384595B (zh) | 一种基于成本联动的工程项目进度预测分析方法 | |
Yang et al. | Effects of Asian dust storm events on hospital admissions for congestive heart failure in Taipei, Taiwan | |
CN110706823A (zh) | 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 | |
CN113611105B (zh) | 一种城市交通出行需求总量预测方法 | |
Zhao et al. | BIM-based multi-objective optimization of low-carbon and energy-saving buildings | |
WO2023039977A1 (zh) | 执法人员调度方法、系统、计算机装置及存储介质 | |
CN112330065A (zh) | 一种基于基流分割和人工神经网络模型的径流预报方法 | |
CN103729796A (zh) | 一种抽样调查的方法及系统 | |
CN110674985A (zh) | 一种城市居民生活用水量预测方法及其应用 | |
Quinn et al. | A critical evaluation of the water supply and stormwater management performance of retrofittable domestic rainwater harvesting systems | |
CN116681176A (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
CN111915076A (zh) | 一种利用人工智能神经网络实现景区观景人员预测的方法 | |
Jeong et al. | Identification of environmental and contextual driving factors of air conditioning usage behaviour in the sydney residential buildings | |
CN109523077B (zh) | 一种风电功率预测方法 | |
CN111063444A (zh) | 基于Excel VBA的死因监测数据分析方法 | |
CN105224801B (zh) | 一种多因子水库入库流量短期预报评价方法 | |
CN109345021A (zh) | 一种采用lstm建模预测劳动力需求增量的方法 | |
CN110852496A (zh) | 一种基于lstm循环神经网络的天然气负荷预测方法 | |
Najini et al. | Techno-economic analysis of green building codes in United Arab Emirates based on a case study office building |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210608 Address after: 200233 5th floor, building 20, 481 Guiping Road, Xuhui District, Shanghai Applicant after: WONDERS INFORMATION Co.,Ltd. Applicant after: SHANGHAI PUBLIC HEALTH CLINICAL CENTER Address before: 200233 5th floor, building 20, 481 Guiping Road, Xuhui District, Shanghai Applicant before: WONDERS INFORMATION Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |