CN109002904B - 一种基于Prophet-ARMA的医院门诊就诊量预测方法 - Google Patents

一种基于Prophet-ARMA的医院门诊就诊量预测方法 Download PDF

Info

Publication number
CN109002904B
CN109002904B CN201810644399.5A CN201810644399A CN109002904B CN 109002904 B CN109002904 B CN 109002904B CN 201810644399 A CN201810644399 A CN 201810644399A CN 109002904 B CN109002904 B CN 109002904B
Authority
CN
China
Prior art keywords
prediction
outpatient service
prophet
clinic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810644399.5A
Other languages
English (en)
Other versions
CN109002904A (zh
Inventor
王建新
李丽萍
肖湘佳慧
安莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201810644399.5A priority Critical patent/CN109002904B/zh
Publication of CN109002904A publication Critical patent/CN109002904A/zh
Application granted granted Critical
Publication of CN109002904B publication Critical patent/CN109002904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Abstract

本发明公开了一种基于Prophet‑ARMA的门诊就诊量预测方法,包括步骤1:获取与待测时段相邻的历史时段的门诊数据并生成每类门诊的门诊数据集;步骤2:将每个门诊数据集分别输入每类门诊的Prophet模型得到第一预测数据和拟合数据;步骤3:计算每类门诊的残差序列;步骤4:分别判断每类门诊的残差序列是否为纯随机序列,若不是,将残差序列输入对应ARMA模型得到第二预测数据,再执行步骤5;若是执行步骤6;步骤5:分别将同一类门诊的第一预测数据、第二预测数据相加得到待测时段的就诊量预测值;步骤6:将第一预测数据作为待测时段的就诊量预测值。本发明通过将Prophet和ARMA相结合来提高就诊量预测精度。

Description

一种基于Prophet-ARMA的医院门诊就诊量预测方法
技术领域
本发明属于数值建模预测领域,具体涉及一种Prophet-ARMA的医院门诊就诊量预测方法。
背景技术
近年来,门诊病人就医难、就医繁是大型综合医院的一大通病,暴露出医疗资源不合理分配与公众的就医需求的矛盾。门诊的任何一个服务环节都有排长队的可能,如何提高医疗资源的配置效率,有效减少门诊患者无效等待一直是管理者所关注的问题。在众多的医院数据指标中,门诊就诊量一直是度量门诊医疗工作质量的重要指标之一,科学的对医院日门诊量进行分析预测,及时、准确地分析门诊部的人流量变化及趋势特征,不仅可以反映出医院规模及医疗水平,而且还可以为管理者统筹安排医护人员和制定工作计划提供科学的决策依据,从而提高医院的工作效率和管理水平,进而提高患者满意度。
时间序列一般都跨较长的时间段才具有研究意义,时间粒度可以是时、分、秒等,按照时间顺序和统一的时间粒度搜集目标对象相关指标的一系列统计值,逐渐形成规模庞大的时间序列数据库。人们希望通过分析和挖掘时间序列来发现和揭示研究对象的发展变化趋势,以便从可用数据中提取尽可能多的数据信息,并将这些信息形成知识来掌握和控制未来行为。现实生活中,普遍存在时间序列数据对象,如医院门诊就诊量、银行日存取款额度、公路车流量的周期序列等等,如何从这些庞大的时间序列库挖掘信息形成知识应用就成为一个有价值的研究分向。可见,不管事工业界还是科学研究中,时间序列有着重要的应用和研究价值。
其中,医院门诊就诊量具有长期趋势性、季节性、节假日等不规则周期性以及部分异常值等序列特性,现有对时间序列研发方法中的Prophet方法只适用于序列具有明显周期性或模式的时序特性,若用Prophet方法进行预测拟合医院门诊就诊量,容易遗漏目标序列不具周期性的平稳成分,降低了预测的准确性。此外还有采用ARMA方法进行预测,但是ARMA方法仅仅适合平稳序列的短期预测,需要若干次的差分变换来消除序列的周期性、季节性等序列特性,造成预测序列具有较大的误差,而平稳性条件往往难以满足,同时,对于周期长度不恒定的周期成分,例如节假日的影响,节假日的时间间隔是不相等的,ARMA模型无法很好的剥离节假日影响,若将其应用于医院门诊的就诊量预测,其预测结果的准确性则难以满足要求。因此,已有的时间序列研究方法不能满足于医院门诊就诊量的预测需求。
发明内容
本发明的目的是提供一种基于Prophet-ARMA的门诊就诊量预测方法,通过将Prophet 模型以及ARMA模型相结合实现就诊量预测精度高的特点。
一种基于Prophet-ARMA的门诊就诊量预测方法,包括如下步骤:
步骤1:获取与待测时段相邻的历史时段的门诊数据,并生成每类门诊的门诊数据集;
其中,所述待测时段为连续时段,门诊数据包括日期、门诊类型以及就诊量,所述门诊数据集包括所述历史时段内每天一类门诊的就诊量;
步骤2:将每个门诊数据集分别输入每类门诊的Prophet模型得到每类门诊的第一预测数据和拟合数据;
所述第一预测数据包括一类门诊在当前待测时段内每天的Prophet就诊量预测值,所述拟合数据包括一类门诊在所述历史时段内每天的就诊量拟合值;
步骤3:填充每个门诊的门诊数据集中的缺失值,并分别计算填充后的每个门诊数据集与对应拟合数据的差得到每类门诊的残差序列;
步骤4:分别判断每类门诊的残差序列是否为纯随机序列,若不是,将残差序列输入对应一类门诊的ARMA模型得到第二预测数据,再执行步骤5;若是,执行步骤6;
所述第二预测数据包括一类门诊在当前待测时段内每天的ARMA就诊量预测值;
步骤5:分别将同一类门诊的所述第一预测数据、所述第二预测数据中同一天的数据相加得到所述当前待测时段内在每天对应一类门诊的就诊量预测值,完成预测;
步骤6:将第一预测数据中的Prophet就诊量预测值作为当前待测时段内在每天对应一类门诊的就诊量预测值,完成预测。
本发明中历史时段和待测时段均为连续时段,且相邻两个待测时段也是连续时段,即本发明是基于就诊量时间序列进行的就诊量预测。第一预测数据为Prophet模型的预测结果,第二预测数据为ARMA模型的预测结果。纯随机序列的判断方式是现有方法可以实现的。
本发明将Prophet模型与ARMA模型相结合并应用于同一个待测时段的就诊量预测,且其结合过程是将Prophet模型的拟合结果以及历史时段的门诊数据集得到残差序列,并将其作为ARMA模型的输入值。一方面,本发明采集历史时段的数据,由于就诊量时间序列是具有明显的周期性,因此充分利用了Prophet模型拟合就诊量时间序列中周期性的特征得到拟合结果以及预测结果,实现就诊量时间序列的动荡成分拟合。第二方面,将残差序列作为ARMA 模型的输入值得到的ARMA模型的预测结果可以更有效地弥补Prophet模型预测结果中因遗漏就诊量时间序列不具周期性的平稳成分而导致的预测误差。第三方面,通过Prophet模型的拟合结果以及历史时段的门诊数据集相减得到的残差序列已经是具有较高的平稳性,可以有效地的避免常规ARMA模型预测时多次差分变化带来的预测误差。
进一步优选,步骤4中将残差序列输入对应一类门诊的ARMA模型得到第二预测数据时,执行如下步骤:
首先,将残差序列输入对应一类门诊的ARMA模型,并获取所述ARMA模型的自相关系数、偏自相关系数以及贝叶斯信息准则数值;
其中,在预设取值范围内进行取值得到自相关系数和偏自相关系数的每种取值组合,并通过现有方法计算每种取值组合下所述ARMA模型的贝叶斯信息准则数值,再获取贝叶斯信息准则数值最小时的取值组合中的自相关系数和偏自相关系数;
最后,基于计算出的自相关系数和偏自相关系数的ARMA模型获取第二预测数据。
进一步优选,自相关系数和偏自相关系数的预设取值范围均为[0,20]。
从0到20遍历自相关系数p和偏自相关系数q,获得ARMA模型的贝叶斯信息准则数值(bic值),将最小bic值对应的p和q取值确定为模型最终的p和q值,以此模型结构进行ARMA模型训练。
进一步优选,步骤4中将每类门诊的残差序列分别输入每类门诊的ARMA模型之前还包括对每类门诊的残差序列进行平稳性处理;
所述平稳性处理过程如下:
首先,通过ADF(Automatic Direction Finder:自动方位搜寻器)单位根检验方法检验残差序列是否平稳;
若是,将残差序列输入对应的ARMA模型;
若不是,对残差序列进行差分处理直至残差序列平稳。
通过Prophet模型的拟合结果以及历史时段的门诊数据集相减得到的残差序列已经是具有较高的平稳性,因此,本发明的差分处理只需要进行一阶或者二阶差分即可达到平稳性。相较于常规的多次差分处理,可以有效地降低差分处理带来的预测误差。
进一步优选,所述每类门诊的Prophet模型均设有模型特征参数,所述模型特征参数包括事件日期列表、就诊量的长期趋势、拐点日期列表;
所述事件日期列表包括历史时段以及待测时段内的事件日、每个所述事件日前t1天和后 t2天,t1、t2均为非零正整数;所述就诊量的长期趋势分为线性趋势和非线性趋势;
所述拐点日期列表包括在历史时段内对应一类门诊的部分或全部就诊量拐点的日期。
事件日包括法定节假日以及就诊量异常日,其中就诊量异常日是指因气候、空气等因素造成就诊量异常且具有周期性的日期。应当理解,未来时段的事件日中节假日是可以确定的,就诊量异常日是可以预计的。
进一步优选,步骤2中将门诊数据集输入的Prophet模型为对应一类门诊的最新Prophet 模型;
若当前预测为第一次预测,所述最新的Prophet模型为预设Prophet模型;
若当前预测非第一次预测,所述最新的Prophet模型为与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型。
后一次预测是基于前一次预测的Prophet模型,其模型特征参数并不需要频繁更换,基于第一次预测时获取的模型特征参数即可,若后续预测结果偏差较大时,再更新模型特征参数。基于上述可以实现迭代滚动预测,即通过往模型中加入最新的实际就诊量数据来预测下一个待测时段的就诊量,而不用实时获取Prophet模型的模型特征参数,ARMA模型的参数是可以自动配置的,因此也不需要实时获取,提高预测效率。
进一步优选,若当前预测为第一次预测时,将每类门诊数据集分别输入每类门诊的 Prophet模型得到每类门诊第一预测数据和拟合数据时,均执行如下步骤;
S1:获取当前待测时段的门诊数据集对应的预设Prophet模型的模型特征参数并设置;
所述事件日期列表包括历史时段以及所有待测时段内的事件日、每个所述事件日前t1天和后t2天,t1、t2均为非零正整数;
所述就诊量的长期趋势为当前待测时段的门诊数据集中门诊量时间序列的长期趋势;
所述拐点日期列表包括当前待测时段的门诊数据集中就诊量拐点对应的日期;
S2:将当前待测时段的门诊数据集输入S1中的Prophet模型得到第一预测数据和拟合数据;
其中,基于输入的门诊数据集对S2中获取的Prophet模型进行n次拟合训练,且每次训练得到一组拟合数据;
再分别将每组拟合数据与当前待测时段的门诊数据集进行对比获取拟合效果最佳的 Prophet模型;
最后,基于拟合效果最佳的Prophet模型生成第一预测数据。
Prophet模型拟合实质是将门诊数据集中就诊量时间序列进行趋势分解来分别学习,然后在组合各学习得到的趋势成分。趋势分解有很多种:Trend趋势、星期、年度、节假日等,通过n次拟合过程修改模型参数得到不同拟合效果,则选择最佳拟合效果时的Prophet模型,再利用Prophet模型得到预测结果。n为正整数。
进一步优选,若当前预测非第一次预测时,将每类门诊数据集分别输入每类门诊的 Prophet模型得到每类门诊第一预测数据和拟合数据时,均执行如下步骤;
S3:获取与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型;
S4:再将对应的门诊数据集输入步骤S3获取的Prophet模型得到当前待测时段对应的第一预测数据和拟合数据;
其中,基于输入的门诊数据集对S4中获取的Prophet模型进行n次拟合训练,且每次训练得到一组拟合数据;
再分别将每组拟合数据与当前待测时段的门诊数据集进行对比获取拟合效果最佳的 Prophet模型;
最后,基于拟合效果最佳的Prophet模型生成第一预测数据。
下一个Prophet预测所使用的模型是基于前一次Prophet预测所使用的模型,其中模型特征参数并未对其进行实时获取,进而实现滚动迭代。
进一步优选,若当前预测为非第一次预测时,将每类门诊数据集分别输入每类门诊的 Prophet模型得到每类门诊第一预测数据和拟合数据时,均执行如下步骤;
S5:获取与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型;
S6:更新S5中获取的Prophet模型的模型特征参数;
其中,获取当前待测时段的门诊数据集对应的长期趋势和拐点日期列表,并更新获取的 Prophet模型;
S7:将对应的门诊数据集输入步骤S6更新的Prophet模型得到当前待测时段对应的第一预测数据和拟合数据;
其中,基于输入的门诊数据集对更新的Prophet模型进行n次拟合训练,且每次训练得到一组拟合数据;
再分别将每组拟合数据与当前待测时段的门诊数据集进行对比获取拟合效果最佳的 Prophet模型;
最后,基于拟合效果最佳的Prophet模型生成第一预测数据。
每次Prophet预测之前均需要更新Prophet模型的模型特征参数,即长期趋势和拐点日期列表,使当前Prophet预测时的Prophet模型的模型特征参数对应于当前待测时段的对应一类门诊的历史数据。
进一步优选,步骤2之前还包括对每类门诊的门诊数据集进行预处理;
分别计算每类门诊的门诊训练集中就诊量的标准差和均值,再计算最大偏差值和最小偏差值;
a1=X+k×σ
a2=X-k×σ
式中,a1为最大偏差值,a2为最小偏差值,X为均值,σ为标准差,k为比例系数;
然后,分别判断每个门诊数据集中每天的就诊量是否大于对应最大偏差值或小于对应最小偏差值,若是,判断对应一天的就诊量是否具有周期性,若具有周期性,则保留,若不具有周期性,则置空;若不大于最大偏差值或不小于对应最小偏差值,则保留。
所谓周期性例如每年春节期间具有异于平常日的较小值。
有益效果
与现有预测方法相比,本发明的优点有:
1、本发明结合Prophet方法和ARMA方法设计了一种混合时间序列预测方法。本发明将 Prophet模型与ARMA模型相结合并应用于同一个待测时段的就诊量预测,且其结合过程是将Prophet模型的拟合结果以及历史时段的门诊数据集得到残差序列,并将其作为ARMA模型的输入值。首先利用Prophet框架有效地拟合门诊数据集中就诊量时间序列中不规则周期以及部分异常点等的特性,实现目标序列的动荡成分拟合。再将残差序列作为ARMA模型的输入值得到的ARMA模型的预测结果可以更有效地弥补Prophet模型预测结果中因遗漏就诊量时间序列不具周期性的平稳成分而导致的预测误差,因此将ARMA模型的预测结果与Prophet 模型预测结果相加得到的预测结果的准确性极大的提高。综上所述,本文通过结合Prophet 与ARMA算法形成Prophet-ARMA混合预测模型,相互取长补短来适用于更多的时序特性,有利于实现高效且准确的门诊就诊量预测。
2、利用原始数据和Prophet预测结果得到的残差序列已经具有较高的平稳性,其有效地避免了ARMA多次差分变换带来的预测误差。
3、本发明提供的Prophet-ARMA预测方案可以实现采用迭代滚动预测,通过往模型中添加最新的数据来预测次日的状态值。对于一个稳健的时序模型而言,不需要每天都去更新模型参数和拟合状态,通常采用设定阀值的方式,如每周或每月更新和拟合一次。在该过程中, Prophet模块的事件日列表可以设定未来值,模型的其他模型特征参数具有较好的适用性,一般无需频繁更改。ARMA预测模块根据BIC最小信息准则实现模型p和q参数的自动配置,使用者只需要定期的添加最新的数据文件到数据库,即可实现按设定的阀值进行滚动预测。
附图说明
图1是本发明提供的一种基于Prophet-ARMA的门诊就诊量预测方法的流程图;
图2是本发明的方法效果验证图;图2(a)~图2(c)分别为在不同门诊就诊量预测效果验证图。
具体实施方式
下面将结合实施例对本发明做进一步的说明。
如图1所示,本发明公开了一种基于Prophet-ARMA的门诊就诊量预测方法,其使用Prophet模型和ARMA模型进行协同预测,具体包括以下步骤:
步骤1:获取与待测时段相邻的历史时段的门诊数据,并生成每类门诊的门诊数据集。
门诊数据包括日期、门诊类型以及就诊量,对医院门诊数据按门诊类型以天为单位进行分类汇总统计,门诊类型包括呼吸科、消化科和心脑血管类疾病,构建逐日门诊就诊量时间序列数据并保存至数据库。一个门诊对应一个就诊量时间序列,即一个门诊数据集。
例如,本实施例中,以呼吸科门诊为例,由某三甲医院提供2013年01月至2017年07月的呼吸科门诊就诊数据信息,数据集中每一行表示每天的就诊量。其中,若待测时段为2016/06,对应的门诊数据集为2013/01至2016/05中每天的就诊量;若待测时段为2016/07,对应的门诊数据集为2013/02至2016/06中每天的就诊量,依次类推。需要说明的是,本实例中待测时段是以一个月为例,对应的历史时段为相邻3年零5个月的数据,其他可行的实施例中,待测时段还可以是一周、半个月、两个月等,对应的历史时段至少是1年以上,以保证数据源的量,进而提高预测结果的可靠性。
本实施例中还优选对门诊数据集进行预处理,过程如下:
分别计算每类门诊的门诊训练集中就诊量的标准差和均值,再计算最大偏差值和最小偏差值;
a1=X+k×σ
a2=X-k×σ
式中,a1为最大偏差值,a2为最小偏差值,X为均值,σ为标准差,k为比例系数,本实施例中比例系数k取值为3.
然后,分别判断每个门诊数据集中每天的就诊量是否大于对应最大偏差值或小于对应最小偏差值,若是,判断对应一天的就诊量是否具有周期性,即在往年历史数据对应时段都出现这类异于平常日的就诊量值,若具有周期性,则保留,若不具有周期性,则置空;若不大于最大偏差值或不小于对应最小偏差值,则保留。
例如,本实施例中的呼吸科在2014-01-03和2015-04-27该天突然出现一个较大值,为不影响整体的数据分布规律,将该天对应的呼吸科就诊量置空。
步骤2:将每个门诊数据集分别输入每类门诊的Prophet模型得到每类门诊的第一预测数据和拟合数据。
本实施例中,下一个Prophet预测所使用的模型是基于前一次Prophet预测所使用的模型,因此若当前预测为第一次预测时,步骤2的执行过程如下S1-S2:
S1:获取当前待测时段的门诊数据集对应的预设Prophet模型的模型特征参数并设置。其中,模型特征参数包括事件日期列表、就诊量的长期趋势、拐点日期列表。
1、事件日期列表:本实施例中事件日期列表的事件日均为中国传统节日,如元旦、清明节、端午节、劳动节和中秋节,以及上述节日的节前2天,国庆节的节后5天,春节的节前1天和节后5天都属于节假日,构建了如表1所示的节假日列表,用于Prophet预测模块实现不规则周期成分的拟合,其他可行的实施例中,不限制于前1天或2天或5天,可以设置其他取值;同时也不限于节假日,还可以包括具有周期性的就诊量异常日,例如某段时间因病毒传播具有较高的就诊量。
表1:事件日期列表
Figure BDA0001703175300000081
2、就诊量的长期趋势(growth)。根据门诊数据集中就诊量时间序列确定序列的长期趋势是线性(line)和非线性(logistic)趋势。实施例呼吸科的就诊量时间序列呈现“V”形分布,将growth确定为“logistic”、消化科和心脑血管就诊量的长期趋势为持平状态,确定其 growth为“line”。
3、拐点日期列表。根据门诊数据集中就诊量时间序列确定序列中拐点及其日期。例如:
呼吸科:
changepoint=['2013-02-14','2014-02-01','2015-02-18','2016-02-18',’2013-04-01’,’2014-04-07’, ’2015-03-30’,’2016-04-06’,’2013-08-15’,’2014-08-25’,’2015-08-22’,’2016-08-18’];
消化科:changepoint=['2013-02-12','2014-01-28','2015-02-14'];
心脑血管:changepoint=['2013-02-13','2014-01-27','2015-02-15']。
S2:将当前待测时段的门诊数据集输入S1中的预设Prophet模型得到第一预测数据predict1和拟合数据predict0
其中,将门诊数据集作为Prophet模型的输入值,基于以上模型特征参数的设置进行 Prophet拟合与预测,其他Prophet模型的模型参数为默认值,其可以满足预测需求。其中, Prophet模型作为一个现有模型,其实质是将门诊数据集中就诊量时间序列进行趋势分解来分别学习,然后在组合各学习得到的趋势成分。趋势分解有很多种:Trend趋势、星期、年度、节假日等,通过n次拟合过程修改模型参数得到不同拟合效果,则选择最佳拟合效果时的 Prophet模型,再利用Prophet模型得到预测结果。例如:季节周期性的趋势通过利用离散化的连续性傅里叶变换函数进行波形过滤:
Figure BDA0001703175300000091
其中s(t)为目标序列的周期成分,如星期周期和年周期等,P代表目标序列的周期,cn为模型要估计的系数参数,且cn服从正态分布,即cn~Normal(0,σ),2N为设定的近似项个数,如星期趋势,将变量P设置为7,对应的变量N用于控制滤波程度,N越大,可能起不到很好的滤波效果,存在过拟合的反作用,N值过小,则不能拟合复杂的星期趋势,通常 P取值为7时,N取值为3,在表示年度趋势时,P取值为365.25,N通常取值为10。通过调整变量N的取值来改变滤波效果,进而影响模型的拟合效果。因此,本发明利用Prophet模型进行拟合预测,其通过合理的设置P、N等取值来获取更佳的预测效果,同时n次拟合训练过程中,通过修改模型参数如上述公式中的cn来得到最佳拟合效果时的Prophet模型。由于Prophet模型的拟合过程为一个现有成熟技术,在此不再赘述。
若当前预测非第一次预测时,步骤2如下步骤S3-S4:
S3:获取与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型;
S4:再将对应的门诊数据集输入步骤S3获取的Prophet模型得到当前待测时段对应的第一预测数据predict1和拟合数据predict0
需要说明的是,本实施例中后续预测时使用前一次预测的Prophet模型,并未实时更改 Prophet模型的模型特征参数,但若最终预测结果与实际结果的误差较大时,则通过更改拐点日期、长期趋势等来修正模型。
其他可行的实施例中,采用Prophet模型预测时,Prophet模型的模型特征参数是实时获取更新的。若当前预测为非第一次预测时,步骤2执行如下步骤S5-S7:
S5:获取与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型;
S6:更新S5中获取的Prophet模型的模型特征参数;
其中,获取当前待测时段的门诊数据集对应的长期趋势和拐点日期列表,并更新获取的 Prophet模型;
S7:再将对应的门诊数据集输入步骤S6更新的Prophet模型得到当前待测时段对应的第一预测数据predict1和拟合数据predict0
步骤3:填充每个门诊的门诊数据集中的缺失值,并分别计算填充后的每个门诊数据集与对应拟合数据的差得到每类门诊的残差序列。
其中,填充的方式有两种,一种是利用历史时段内同期的就诊量均值进行填充,例如每个月的同一日;或者同一个星期几。第二种是用Prophet拟合结果即predict1来填充。
残差序列=门诊数据集的数值-predict0,该残差序列通常较为平稳或者已经是一个白噪声序列;
步骤4:分别判断每类门诊的残差序列是否为纯随机序列,即白噪声序列,若不是,对残差序列进行平稳性处理,并将处理后的残差序列输入对应一类门诊的ARMA模型得到第二预测数据,再执行步骤5;若是,执行步骤6。
本实施例中采用Box-Ljung方法的Box.test函数进行检验是否为纯随机序列,若得到的 p-value值大于0.05,则该残差序列为纯随机序列,否则,不是纯随机序列。
其中,平稳性处理过程如下:
首先,通过ADF单位根检验方法检验残差序列是否平稳;其中,若ADF单位根检验返回值h=1,则表示残差序列平稳;若返回h=0,则表示残差序列不平稳。
若是,将残差序列输入对应的ARMA模型;
若不是,对残差序列进行差分处理直至残差序列平稳。本发明中通常只需要进行二阶差分即可达到平稳性,二阶差分即对一阶差分后的序列再次进行差分变换。
步骤4中ARMA模型的自相关系数p和偏自相关系数q的获取过程如下:
其中,在预设取值范围内进行取值得到自相关系数和偏自相关系数的每种取值组合,并通过现有方法计算每种取值组合下所述ARMA模型的贝叶斯信息准则数值bic值,再获取贝叶斯信息准则数值最小时的取值组合中的自相关系数和偏自相关系数。本实施例中自相关系数p和偏自相关系数q的预设取值范围均为[0,20]。
步骤5:分别将同一类门诊的所述第一预测数据、所述第二预测数据中同一天的数据相加得到所述当前待测时段内在每天对应一类门诊的就诊量预测值。
步骤6:将第一预测数据中的Prophet就诊量预测值作为当前待测时段内在每天对应一类门诊的就诊量预测值。
仿真与验证
根据上述建立Prophet-ARMA混合预测模型,对测试集2016/06-2017/06期间的就诊量进行跨年预测和模型性能评估。如图2(a)~图2(c)为呼吸科、消化科和心脑血管门诊就诊量预测结果,直观上看,该模型达到了较好的预测精度,具有实际应用意义。
为了从不同侧面评价和比较算法的预测精度,将根据平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)三项评价指标对模型进行综合评价,如表2~表4所示:
表2:呼吸科就诊量预测误差分析
Figure BDA0001703175300000111
表3:消化科就诊量预测误差分析
Figure BDA0001703175300000112
表4:心脑血管就诊量预测误差分析
Figure BDA0001703175300000113
对比了Prophet-ARMA模型同Prophet模型和ARMA模型的预测效果,从表2~表4的性能数据可知,本发明所述方法Prophet-ARMA对三类门诊就诊人数的预测都取得了较ARMA模型和Prophet模型更好的预测性能,有助于动态分配医疗资源,提高服务质量。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (9)

1.一种基于Prophet-ARMA的门诊就诊量预测方法,其特征在于:包括如下步骤:
步骤1:获取与待测时段相邻的历史时段的门诊数据,并生成每类门诊的门诊数据集;
其中,所述待测时段为连续时段,门诊数据包括日期、门诊类型以及就诊量,所述门诊数据集包括所述历史时段内每天一类门诊的就诊量;
步骤2:将每个门诊数据集分别输入每类门诊的Prophet模型得到每类门诊的第一预测数据和拟合数据;
所述第一预测数据包括一类门诊在当前待测时段内每天的Prophet就诊量预测值,所述拟合数据包括一类门诊在所述历史时段内每天的就诊量拟合值;
步骤3:填充每个门诊的门诊数据集中的缺失值,并分别计算填充后的每个门诊数据集与对应拟合数据中同一天数据的差得到每类门诊的残差序列;
步骤4:分别判断每类门诊的残差序列是否为纯随机序列,若不是,将残差序列输入对应一类门诊的ARMA模型得到第二预测数据,再执行步骤5;若是,执行步骤6;
首先,将残差序列输入对应一类门诊的ARMA模型,并获取所述ARMA模型的自相关系数和偏自相关系数;最后,基于计算出的自相关系数和偏自相关系数的ARMA模型获取第二预测数据;
其中,在预设取值范围内进行取值得到自相关系数和偏自相关系数的每种取值组合,并计算每种取值组合下所述ARMA模型的贝叶斯信息准则数值,再获取贝叶斯信息准则数值最小时的自相关系数和偏自相关系数的取值;
所述第二预测数据包括一类门诊在当前待测时段内每天的ARMA就诊量预测值;
步骤5:分别将同一类门诊的所述第一预测数据、所述第二预测数据中同一天的数据相加得到所述当前待测时段内在每天对应一类门诊的就诊量预测值,完成预测;
步骤6:将第一预测数据中的Prophet就诊量预测值作为当前待测时段内在每天对应一类门诊的就诊量预测值,完成预测。
2.根据权利要求1所述的方法,其特征在于:自相关系数和偏自相关系数的预设取值范围均为[0,20]。
3.根据权利要求1所述的方法,其特征在于:步骤4中将残差序列输入对应一类门诊的ARMA模型之前还包括对每类门诊的残差序列进行平稳性处理;
所述平稳性处理过程如下:
首先,通过ADF单位根检验方法检验残差序列是否平稳;
若是,将残差序列输入对应的ARMA模型;
若不是,对残差序列进行差分处理直至残差序列平稳。
4.根据权利要求1所述的方法,其特征在于:所述每类门诊的Prophet模型均设有模型特征参数,所述模型特征参数包括事件日期列表、就诊量的长期趋势、拐点日期列表;
所述事件日期列表包括历史时段以及待测时段内的事件日、每个所述事件日前t1天和后t2天,t1、t2均为非零正整数;
所述就诊量的长期趋势分为线性趋势和非线性趋势;
所述拐点日期列表包括在历史时段内对应一类门诊的部分或全部就诊量拐点的日期。
5.根据权利要求4所述的方法,其特征在于:步骤2中将门诊数据集输入的Prophet模型为对应一类门诊的最新Prophet模型;
若当前预测为第一次预测,所述最新的Prophet模型为预设Prophet模型;
若当前预测非第一次预测,所述最新的Prophet模型为与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型。
6.根据权利要求5所述的方法,其特征在于:若当前预测为第一次预测时,步骤2中将每类门诊数据集分别输入每类门诊的Prophet模型得到每类门诊第一预测数据和拟合数据时,均执行如下步骤;
S1:获取当前待测时段的门诊数据集对应的预设Prophet模型的模型特征参数并设置;
所述事件日期列表包括历史时段以及所有待测时段内的事件日、每个所述事件日前t1天和后t2天,t1、t2均为非零正整数;
所述就诊量的长期趋势为当前待测时段的门诊数据集中门诊量时间序列的长期趋势;
所述拐点日期列表包括当前待测时段的门诊数据集中就诊量拐点对应的日期;
S2:将当前待测时段的门诊数据集输入S1中的Prophet模型得到第一预测数据和拟合数据;
其中,基于输入的门诊数据集对获取的Prophet模型进行n次拟合训练,且每次训练得到一组拟合数据;
再分别将每组拟合数据与当前待测时段的门诊数据集进行对比获取拟合效果最佳的Prophet模型;
最后,基于拟合效果最佳的Prophet模型生成第一预测数据。
7.根据权利要求6所述的方法,其特征在于:若当前预测非第一次预测时,将每类门诊数据集分别输入每类门诊的Prophet模型得到每类门诊第一预测数据和拟合数据时,均执行如下步骤;
S3:获取与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型;
S4:再将对应的门诊数据集输入步骤S3获取的Prophet模型得到当前待测时段对应的第一预测数据和拟合数据;
其中,基于输入的门诊数据集对S4获取的Prophet模型进行n次拟合训练,且每次训练得到一组拟合数据;
再分别将每组拟合数据与当前待测时段的门诊数据集进行对比获取拟合效果最佳的Prophet模型;
最后,基于拟合效果最佳的Prophet模型生成第一预测数据。
8.根据权利要求6所述的方法,其特征在于:若当前预测非第一次预测时,步骤2中将每类门诊数据集分别输入每类门诊的Prophet模型得到每类门诊第一预测数据和拟合数据时,均执行如下步骤;
S5:获取与当前待测时段相邻的前一个待测时段在同一类门诊的Prophet就诊量预测时采用的Prophet模型;
S6:更新S5中获取的Prophet模型的模型特征参数;
其中,获取当前待测时段的门诊数据集对应的长期趋势和拐点日期列表,并更新获取的Prophet模型;
S7:将对应的门诊数据集输入步骤S6更新的Prophet模型得到当前待测时段对应的第一预测数据和拟合数据;
其中,基于输入的门诊数据集对S7中更新的Prophet模型进行n次拟合训练,且每次训练得到一组拟合数据;
再分别将每组拟合数据与当前待测时段的门诊数据集进行对比获取拟合效果最佳的Prophet模型;
最后,基于拟合效果最佳的Prophet模型生成第一预测数据。
9.根据权利要求1所述的方法,其特征在于:步骤2之前还包括对每类门诊的门诊数据集进行预处理;
分别计算每类门诊的门诊训练集中就诊量的标准差和均值,再计算最大偏差值和最小偏差值;
a1=X+k×σ
a2=X-k×σ
式中,a1为最大偏差值,a2为最小偏差值,X为均值,σ为标准差,k为比例系数;
然后,分别判断每个门诊数据集中每天的就诊量是否大于对应最大偏差值或小于对应最小偏差值,若是,判断对应一天的就诊量是否具有周期性,若具有周期性,则保留,若不具有周期性,则置空;
若不大于最大偏差值或不小于对应最小偏差值,则保留。
CN201810644399.5A 2018-06-21 2018-06-21 一种基于Prophet-ARMA的医院门诊就诊量预测方法 Active CN109002904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810644399.5A CN109002904B (zh) 2018-06-21 2018-06-21 一种基于Prophet-ARMA的医院门诊就诊量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810644399.5A CN109002904B (zh) 2018-06-21 2018-06-21 一种基于Prophet-ARMA的医院门诊就诊量预测方法

Publications (2)

Publication Number Publication Date
CN109002904A CN109002904A (zh) 2018-12-14
CN109002904B true CN109002904B (zh) 2020-09-08

Family

ID=64600881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810644399.5A Active CN109002904B (zh) 2018-06-21 2018-06-21 一种基于Prophet-ARMA的医院门诊就诊量预测方法

Country Status (1)

Country Link
CN (1) CN109002904B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070208B (zh) * 2019-03-15 2021-09-03 中铁第四勘察设计院集团有限公司 一种基于数据修正的铁路日常客运量获取方法
CN110046757B (zh) * 2019-04-08 2022-11-29 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测系统及预测方法
CN110110916A (zh) * 2019-04-29 2019-08-09 哈尔滨哲锡数据科技合伙企业(有限合伙) 一种医院门诊就诊量的预测方法及系统
CN110210658B (zh) * 2019-05-22 2023-10-03 东南大学 基于小波变换的Prophet与高斯过程用户网络流量预测方法
CN111125195B (zh) * 2019-12-25 2023-09-08 亚信科技(中国)有限公司 一种数据异常检测方法及装置
CN111537938B (zh) * 2020-03-31 2022-12-09 国网江西省电力有限公司电力科学研究院 基于智能算法的电子式互感器误差短时预测方法
CN111768031B (zh) * 2020-06-24 2023-09-19 中电科华云信息技术有限公司 一种基于arma算法预测人群聚集趋势的方法
CN112257915B (zh) * 2020-10-19 2023-10-17 南京南邮信息产业技术研究院有限公司 基于胶囊网络的医院门诊人流量预测方法
CN112232604B (zh) * 2020-12-09 2021-06-11 南京信息工程大学 基于Prophet模型提取网络流量的预测方法
CN112542238B (zh) * 2020-12-24 2022-04-29 南方科技大学 医院门诊规划方法、装置、设备及存储介质
CN112700037A (zh) * 2020-12-28 2021-04-23 成都国铁电气设备有限公司 一种高速铁路接触网异物缺陷数预测方法及预测装置
CN113240162B (zh) * 2021-04-28 2022-03-01 南京天溯自动化控制系统有限公司 一种基于EEMD-Prophet算法的医院能耗预测方法
CN114978956B (zh) * 2022-04-11 2024-04-09 北京邮电大学 智慧城市网络设备性能异常突变点检测方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820697A (zh) * 2015-04-28 2015-08-05 迈德高武汉生物医学信息科技有限公司 一种医疗数据挖掘方法及系统
KR101680726B1 (ko) * 2016-05-04 2016-11-29 숭실대학교산학협력단 목적지 노드로의 메시지 전달 횟수를 이용하는 PRoPHET 프로토콜 제공 방법, 이를 수행하기 위한 기록 매체, 시스템 및 장치
CN106920009A (zh) * 2017-03-03 2017-07-04 北京北青厚泽数据科技有限公司 医院服务量的预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
长沙市某医院门诊量空间分析与预测;李远艺;《医药卫生科技辑》;20140531;60-306 *

Also Published As

Publication number Publication date
CN109002904A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN109002904B (zh) 一种基于Prophet-ARMA的医院门诊就诊量预测方法
Kadri et al. Time series modelling and forecasting of emergency department overcrowding
Zhu et al. Time-series approaches for forecasting the number of hospital daily discharged inpatients
CN107992968B (zh) 基于集成时间序列分析技术的电能表计量误差预测方法
CN107194508B (zh) 一种基于时间序列动态预测中短期区域儿科门诊人次的方法
Harper et al. A hybrid modelling approach using forecasting and real-time simulation to prevent emergency department overcrowding
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
Mielczarek et al. Modeling healthcare demand using a hybrid simulation approach
US20230026758A1 (en) System and method for predicting subject enrollment
Garcia-Vicuña et al. Planning ward and intensive care unit beds for COVID-19 patients using a discrete event simulation model
CN112418699A (zh) 资源分配方法、装置、设备及存储介质
Tricahya et al. Forecasting the amount of pneumonia patients in Jakarta with weighted high order fuzzy time series
El-Darzi et al. Length of stay-based clustering methods for patient grouping
CN111815487A (zh) 基于深度学习的健康教育评估方法、装置及介质
Schmähl et al. The long-term costs of public long-term care insurance in Germany. Some guesstimates
Mielczarek Estimating future demand for hospital emergency services at the regional level
Chen et al. Multi-fidelity simulation modeling for discrete event simulation: An optimization perspective
Sintiya et al. SARIMA and Holt-Winters Seasonal Methods for Time Series Forecasting in Tuberculosis Case
CN115730717A (zh) 基于迁移学习策略结合多通道的电力负荷预测方法及系统
Nandi et al. Univariate time series forecasting: A study of monthly tax revenue of Bangladesh
Clissold et al. Simulating hospital patient flow for insight and improvement
Bicher et al. Calibration of a stochastic agent-based model for re-hospitalization numbers of psychiatric patients
CN115409380A (zh) 医院医保绩效评价方法、装置、电子设备及其存储介质
Gleeson Estimating housing mortality
El-Banna Improving Patients Discharge Process in Hospitals by using Six Sigma Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant