CN114758761A - 基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质 - Google Patents
基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114758761A CN114758761A CN202210309065.9A CN202210309065A CN114758761A CN 114758761 A CN114758761 A CN 114758761A CN 202210309065 A CN202210309065 A CN 202210309065A CN 114758761 A CN114758761 A CN 114758761A
- Authority
- CN
- China
- Prior art keywords
- model
- module
- arima
- variable
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质,基于两步回归的医院门诊就诊人数的预测方法包括:步骤S1:构建基于两步回归的医院门诊就诊人数的预测模型;步骤S2:采用上述预测模型预测未来一段时间内的医院门诊就诊人数。本发明采用带时间序列误差的回归模型来预测人流量,能够在适当的精度内预测比较长时间内的人流量;对于规律性强的时间序列数据表现良好,便于医院进行排班等管理安排。
Description
技术领域
本发明属于时间序列分析领域,具体涉及针对医院科室就诊患者人数的预测方法。
背景技术
医院每天均有巨大的人流量,且这些就诊患者的数量受各类因素的影响不断变化,这给医院的管理制度带来了极大的挑战。过往的人员排班模式可能不适合新环境的变化,这便需要对未来医院的人流量进行预测,以针对性地安排医疗人员的出勤,避免造成人流高峰期过于拥堵,而低谷期人力资源浪费等问题,合理进行资源的分配管理。
医院对于人员排班的安排通常基于经验,好处在于简单易行,但有时不能因为某些因素的变化较为灵活的应对患者人数的变化。构建模型可以有效解决这一问题,但目前没有很好的先例。
多种因素会影响前来就诊患者的数量,如天气、假期、气温等,也有不可知的潜在因素,这些因素使患者人流量的时间序列不断波动。因此,预测的难点在于把握各因素对于人流量的作用,以及各因素之间的相关性,搭建出一个合理可行的预测模型。但是,现有医院并不存在这种能够提前预测门诊科室在未来一段时间内的人流量的技术手段。
发明内容
针对现有医院并不存在这种能够提前预测门诊科室在未来一段时间内的人流量的技术手段的问题,本发明的第一个方面提供一种基于两步回归的医院门诊就诊人数的预测方法,包括:
步骤S1:构建基于两步回归的医院门诊就诊人数的预测模型,预测模型为:
t=1,2,...,T.
yt为第t天人数;
Dit表示第t天是否为星期i,若第t天恰为星期i,则Dit取值为1,否则Dit取值为0,bi为星期i前的系数;
Wt为第t天的天气,若有降雨或降雪则Wt=1,其余天气为0;
a,b,c,d,f,g,h为回归项系数,代表上述因素对于yt的影响大小
et满足一个ARIMA模型:p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;
φ,θ为自回归以及滑动项的系数;
B为延迟算子,其定义为Bet=et-1;
∈t为服从独立同分布的白噪声序列;
n为一周工作的天数,例如n=5、6或7;
步骤S2:采用上述预测模型预测未来一段时间内的医院门诊就诊人数。
进一步地,步骤S1包括:
步骤S1.1:选取影响医院门诊就诊人数的若干变量,所述变量分别为星期数、节假日、气温和天气;
步骤S1.2:将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W),并将X作标准化处理得到X*:
步骤S1.3:将X*进行主成分分析:
Λ=diag(σ1,σ2,...,σm,0,...,0),m≤p且σ1≥σ2≥σm>0;
2)计算主成分方差贡献率
其中p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;φ,θ为自回归以及滑动项的系数;B为延迟算子,其定义为Bet=et-1;∈t为服从独立同分布的白噪声序列;
首先采用Hyndman-Khandakar算法来选择最优的阶数(p,d,q):
(1)通过重复地KPSS测试来确定差分阶数d:0≤d≤2
(2)对数据差分d次之后,通过最小化AICc来选择最优的p,q:
AIC=2k-2log(Likelihood)
(1)拟合四个初始模型:ARIMA(0,d,0)、ARIMA(2,d,2)、ARIMA(1,d,0)、ARIMA(0,d,1),
(2)步骤(1)中拟合出的最好的模型(AICc最小)称为“current model”;
考察“current model”的以下两个变种模型:
1.对p和/或q的值改变±1;
2.包含/不包含常数项c;
(3)将上述变种和原来的current model中AICc最小的模型即为最新的“currentmodel”;
(4)重复(3),直到没有更小的AICc的模型;
步骤S1.6:将原来的线性回归模型调整为:
t=1,2,...,T.
由独立性,得到(∈1,∈2,...,∈T)的联合概率密度函数(pdf)为:
由此得到似然函数Likelihood:
进一步地,步骤S2包括:采用构建完成的所述预测模型来预测未来k天各科室的人流量,已知的数据有前T天的人流量
以及k天的解释变量矩阵
Xforecast=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W)
此处要求出预测值yforecast则需要先计算出eforecast
根据eforecast满足的模型
其中
t=T+1,T+2,...,T+k,
可以将模型中的t用T+l代替:
l=1,2,...,k.
由于T时刻之前事件已经发生,为已知事件,记
对上式求条件期望有:
根据条件期望的性质有:
因此
得出预测值yforecast。
进一步地,采用上述预测模型预测未来1个月内的医院门诊就诊人数。
本申请的第二个方面提供一种基于两步回归的医院门诊就诊人数的预测装置,包括:模型构建模块和预测模块,所述模型构建模块包括变量选取模块、标准化处理模块、主成分分析模块、拟合线性回归模型模块和拟合ARIMA模型模块;
所述变量选取模块用于选取影响医院门诊就诊人数的若干变量,所述变量分别为星期数、节假日、气温和天气;
所述标准化处理模块用于将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W),并将X作标准化处理得到X*:
所述主成分分析模块用于将X*进行主成分分析:
(2)计算主成分方差贡献率
其中p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;φ,θ为自回归以及滑动项的系数;B为延迟算子,其定义为Bet=et-1;∈t为服从独立同分布的白噪声序列;
首先采用Hyndman-Khandakar算法来选择最优的阶数(p,d,q):
(1)通过重复地KPSS测试来确定差分阶数d:0≤d≤2
(2)对数据差分d次之后,通过最小化AICc来选择最优的p,q:
AIC=2k-2log(Likelihood)
(1)拟合四个初始模型:ARIMA(0,d,0)、ARIMA(2,d,2)、ARIMA(1,d,0)、ARIMA(0,d,1),
(2)步骤(1)中拟合出的最好的模型(AICc最小)称为“current model”;
(3)考察“current model”的以下两个变种模型:
1.对p和/或q的值改变±1;
2.包含/不包含常数项c;
将上述变种和原来的current model中AICc最小的模型即为最新的“currentmodel”;
(4)重复(3),直到没有更小的AICc的模型;
所述拟合ARIMA模型模块还用于将原来的线性回归模型调整为:
t=1,2,...,T.
由独立性,得到(∈1,∈2,...,∈T)的联合概率密度函数(pdf)为:
由此得到似然函数Likelihood:
所述预测模块用于采用模型构建模块构建的预测模型预测未来一段时间内的医院门诊就诊人数。
进一步地,所述预测模块用于采用构建完成的所述预测模型来预测未来k天各科室的人流量,已知的数据有前T天的人流量
以及k天的解释变量矩阵
Xforecast=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W)
此处要求出预测值yforecast则需要先计算出eforecast
根据eforecast满足的模型
其中
t=T+1,T+2,...,T+k,
可以将模型中的t用T+l代替:
由于T时刻之前事件已经发生,为已知事件,记
对上式求条件期望有:
根据条件期望的性质有:
根据以上两式可依次求出eT(l),从而
因此
得出预测值yforecast。
本申请的第三个方面提供一种电子设备,包括:存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。
本申请的第四个方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
本发明构建了一个科室患者人数的时间序列模型。该模型考虑了潜在影响患者人数的因素,对每个科室未来1个月的人流量进行了预测,并达到了较为理想的预测精度。
本发明主要采用两种模型进行预测人数,主模型为线性回归模型。模型中选用了天气、星期数、节假日、气温等影响人流量的因素。
在对于回归解释变量X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W)的处理中,我们采用了主成分分析的方式来精简变量提取有效信息,以避免多重共线性的问题。主要的步骤寻找一个正交矩阵Γ,使得为对角矩阵,根据各对角元所占总体的比例来确定选择的主成分,使得回归分析的新的解释变量为X*Γ,避免了多重共线性的问题。
对于回归后的残差,本发明不采用一般线性回归分析中的残差假设,即独立正态分布,而是用ARIMA时间序列模型来拟合残差。这样可以考虑到前些天(例如2周内)的人流量对于当日人流的影响。本发明使用线性回归模型和ARIMA时间序列模型相互嵌套,能够提高数据拟合以及预测的精细程度,而单一的模型不能达到现在的精度。ARIMA模型的定阶采用使AICc最小的方式来完成,具体采用Hyndman-Khandakar算法。AICc为改进的AIC准则,相比AIC,此准则在样本数量小的情形下也适用。
Hyndman-Khandakar算法可以自动化地确定最优的阶数,减少了人工判断的不确定性。目前该算法已被多种统计及数据分析软件(如R语言及Python)使用。
综上,本发明采用带时间序列误差的回归模型来预测人流量,其优势包括能够在适当的精度内(例如误差小于10%)预测比较长时间内(例如一个月内)的人流量;对于规律性强的时间序列数据表现良好,便于医院进行排班等管理安排。
附图说明
图1-图5为19年5月各科室门诊上午的预测就诊人数和实际就诊人数对比图,图1-图5中的纵坐标名称为“就诊人数(单位:人)”,横坐标名称为“就诊时间”。
图6-图10为19年5月各科室门诊下午的预测就诊人数和实际就诊人数对比图,图6-图10中的纵坐标名称为“就诊人数(单位:人)”,横坐标名称为“就诊时间”。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
实施例
在本申请一实施例中,本申请的基于两步回归的医院门诊就诊人数的预测装置包括:模型构建模块和预测模块,所述模型构建模块包括变量选取模块、标准化处理模块、主成分分析模块、拟合线性回归模型模块、拟合ARIMA模型模块、线性回归模型调整模块、极大似然估计模块和训练模块。
在本申请的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
采用上述预测装置进行预测医院门诊就诊人数的预测方法包括以下步骤:
步骤S1:所述模型构建模块构建基于两步回归的医院门诊就诊人数的预测模型,具体包括步骤S1.1-S1.7:
步骤S1.1:所述变量选取模块选取影响医院门诊就诊人数的若干变量,所述变量分别为星期数、节假日、气温和天气;
根据外部因素对于医院患者的影响,选取星期数、节假日、气温、天气这些因素:
1)示例地,星期数以医院一周6天工作日来计,分别为6个向量Di,i=1,2,...,6.Di=(Di1,Di2,...,DiT)T,若第t天是星期i,则Dit=1,否则Dit=0。对于下午一周工作5天的情况,取i=1,2,...,5。
步骤S1.2:所述标准化处理模块将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W),本实施例中,解释变量矩阵为X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W),并将X作标准化处理得到X*:
步骤S1.3:所述主成分分析模块将X*进行主成分分析:
Λ=diag(σ1,σ2,...,σm,0,...,0),m≤p且σ1≥σ2≥σm>0;
2)计算主成分方差贡献率
其中p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;φ,θ为自回归以及滑动项的系数;B为延迟算子,其定义为Bet=et-1;∈t为服从独立同分布的白噪声序列;
首先采用Hyndman-Khandakar算法来选择最优的阶数(p,d,q),Hyndman-Khandakar算法可以自动化地确定最优的阶数,减少了人工判断的不确定性,目前该算法已被多种统计及数据分析软件(如R语言及Python)使用:
(1)通过重复地KPSS测试来确定差分阶数d:0≤d≤2
(2)对数据差分d次之后,通过最小化AICc来选择最优的p,q:
AIC=2k-2log(Likelihood)
(1)拟合四个初始模型:ARIMA(0,d,0)、ARIMA(2,d,2)、ARIMA(1,d,0)、ARIMA(0,d,1),
(2)步骤(1)中拟合出的最好的模型(AICc最小)称为“current model”;
(3)考察“current model”的以下两个变种模型:
1.对p和/或q的值改变±1;
2.包含/不包含常数项c;
将上述变种和原来的current model中AICc最小的模型即为最新的“currentmodel”;
(4)重复(3),直到没有更小的AICc的模型;AICc为改进的AIC准则,相比AIC,此准则在样本数量小的情形下也适用。
步骤S1.6:所述拟合ARIMA模型模块还用于将原来的线性回归模型调整为:
t=1,2,...,T.
由独立性,得到(∈1,∈2,...,∈T)的联合概率密度函数(pdf)为:
由此得到似然函数Likelihood:
步骤S2:所述预测模块采用模型构建模块构建的下述预测模型预测未来一段时间内的医院门诊就诊人数:
采用构建完成的所述预测模型来预测未来k天各科室的人流量,已知的数据有前T天的人流量
以及k天的解释变量矩阵
Xforecast=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W)
此处要求出预测值yforecast则需要先计算出eforecast
根据eforecast满足的模型
其中
t=T+1,T+2,...,T+k,
可以将模型中的t用T+l代替:
l=1,2,...,k.
由于T时刻之前事件已经发生,为已知事件,记
对上式求条件期望有:
根据条件期望的性质有:
因此
得出预测值yforecast。
在另一实施例中,本申请还提供一种电子设备,包括:存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。
电子设备包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。其中,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。
在另一实施例中,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
效果例预测精度验证
1)实验方法
预测值:根据2018年5月至2019年4月的实际就诊人数,采用本申请的预测模型预测2019年5月不同的门诊科室的上午和下午的就诊人数;
真实值:根据医院的挂号信息统计2019年5月不同的门诊科室的上午和下午的实际就诊人数。
2)实验结果
图1-图5为19年5月各科室门诊上午的预测就诊人数和实际就诊人数对比图。各科室预测值的平均绝对误差(|预测值-真实值|/真实值)为:
心内科7.47%,消化科6.21%,内分泌科6.70%,泌尿外科6.18%,神经内科8.43%。
此外,如果采用本申请的预测模型对2019年3月之后的连续9个月的上午各科室人数分别进行预测,则每天的平均相对误差约为8.46%。
图6-图10为19年5月各科室门诊下午的预测就诊人数和实际就诊人数对比图。各科室预测的平均绝对误差(|预测值-真实值|/真实值)为:心内科8.87%,消化科8.83%,内分泌科8.36%,泌尿外科9.26%,神经内科12.38%。
此外,如果对2019年5月后下午6个月的每个科室分别进行预测,则每天的平均相对误差为10.69%。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种基于两步回归的医院门诊就诊人数的预测方法,其特征在于,包括:
步骤S1:构建基于两步回归的医院门诊就诊人数的预测模型,预测模型为:
t=1,2,...,T.
yt为第t天人数;
Dit表示第t天是否为星期i,若第t天恰为星期i,则Dit取值为1,否则Dit取值为0,bi为星期i前的系数;
Wt为第t天的天气,若有降雨或降雪则Wt=1,其余天气为0;
a,b,c,d,f,g,h为回归项系数,代表上述因素对于yt的影响大小
et满足一个ARIMA模型:p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;
φ,θ为自回归以及滑动项的系数;
B为延迟算子,其定义为Bet=et-1;
∈t为服从独立同分布的白噪声序列;
n为一周工作的天数,例如n=5、6或7;
步骤S2:采用上述预测模型预测未来一段时间内的医院门诊就诊人数。
2.如权利要求1所述的基于两步回归的医院门诊就诊人数的预测方法,其特征在于,步骤S1包括:
步骤S1.1:选取影响医院门诊就诊人数的若干变量,所述变量分别为星期数、节假日、气温和天气;
步骤S1.2:将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W),并将X作标准化处理得到X*:
步骤S1.3:将X*进行主成分分析:
1)找到一个正交矩阵Γ,满足ΓTΓ=I,且使得ΓTX*TXΓ为一p×p对角阵
Λ=diag(σ1,σ2,...,σm,0,...,0),m≤p且σ1≥σ2≥σm>0;
2)计算主成分方差贡献率
其中p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;φ,θ为自回归以及滑动项的系数;B为延迟算子,其定义为Bet=et-1;∈t为服从独立同分布的白噪声序列;
首先采用Hyndman-Khandakar算法来选择最优的阶数(p,d,q):
(1)通过重复地KPSS测试来确定差分阶数d:0≤d≤2
(2)对数据差分d次之后,通过最小化AICc来选择最优的p,q:
AIC=2k-2log(Likelihood)
(1)拟合四个初始模型:ARIMA(0,d,0)、ARIMA(2,d,2)、ARIMA(1,d,0)、ARIMA(0,d,1),
(2)步骤(1)中拟合出的最好的模型(AICc最小)称为“current model”;
(3)考察“current model”的以下两个变种模型:
1.对p和/或q的值改变±1;
2.包含/不包含常数项c;
将上述变种和原来的current model中AICc最小的模型即为最新的“current model”;
(4)重复(3),直到没有更小的AICc的模型;
步骤S1.6:将原来的线性回归模型调整为:
由独立性,得到(∈1,∈2,...,∈T)的联合概率密度函数(pdf)为:
由此得到似然函数Likelihood:
3.如权利要求1或2所述的基于两步回归的医院门诊就诊人数的预测方法,其特征在于,步骤S2包括:
采用构建完成的所述预测模型来预测未来k天各科室的人流量,已知的数据有前T天的人流量
y=(y1,y2,...,yT)T,
以及k天的解释变量矩阵
Xforecast=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W)
此处要求出预测值yforecast则需要先计算出eforecast
根据eforecast满足的模型
其中
t=T+1,T+2,...,T+k,
可以将模型中的t用T+l代替:
由于T时刻之前事件已经发生,为已知事件,记
eT(l)=E(eT+l|e1,e2,...,eT),
对上式求条件期望有:
根据条件期望的性质有:
根据以上两式可依次求出eT(l),从而
因此
得出预测值yforecast。
4.如权利要求3所述的基于两步回归的医院门诊就诊人数的预测方法,其特征在于,采用上述预测模型预测未来1个月内的医院门诊就诊人数。
5.一种基于两步回归的医院门诊就诊人数的预测装置,其特征在于,包括:模型构建模块和预测模块;所述模型构建模块包括变量选取模块、标准化处理模块、主成分分析模块、拟合线性回归模型模块和拟合ARIMA模型模块;所述变量选取模块用于选取影响医院门诊就诊人数的若干变量,所述变量分别为星期数、节假日、气温和天气;
所述标准化处理模块用于将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W),并将X作标准化处理得到X*:
所述主成分分析模块用于将X*进行主成分分析:
Λ=diag(σ1,σ2,...,σm,0,...,0),m≤p且σ1≥σ2≥σm>0;
2)计算主成分方差贡献率
其中p为自回归阶数,d为差分的阶数,q为滑动平均的阶数;φ,θ为自回归以及滑动项的系数;B为延迟算子,其定义为Bet=et-1;∈t为服从独立同分布的白噪声序列;
首先采用Hyndman-Khandakar算法来选择最优的阶数(p,d,q):
(1)通过重复地KPSS测试来确定差分阶数d:0≤d≤2
(2)对数据差分d次之后,通过最小化AICc来选择最优的p,q:
AIC=2k-2log(Likelihood)
(1)拟合四个初始模型:ARIMA(0,d,0)、ARIMA(2,d,2)、ARIMA(1,d,0)、ARIMA(0,d,1),
(2)步骤(1)中拟合出的最好的模型(AICc最小)称为“current model”;
(3)考察“current model”的以下两个变种模型:
1.对p和/或q的值改变±1;
2.包含/不包含常数项c;
将上述变种和原来的current model中AICc最小的模型即为最新的“current model”;
(4)重复(3),直到没有更小的AICc的模型;
所述拟合ARIMA模型模块还用于将原来的线性回归模型调整为:
由独立性,得到(∈1,∈2,...,∈T)的联合概率密度函数(pdf)为:
由此得到似然函数Likelihood:
所述预测模块用于采用模型构建模块构建的预测模型预测未来一段时间内的医院门诊就诊人数。
6.如权利要求5所述的基于两步回归的医院门诊就诊人数的预测装置,其特征在于,所述预测模块用于采用构建完成的所述预测模型来预测未来k天各科室的人流量,已知的数据有前T天的人流量
以及k天的解释变量矩阵
Xforecast=(D1,D2,...,Dn,Hbefore,Hafter,Thigh,Tlow,W)
此处要求出预测值yforecast则需要先计算出eforecast
根据eforecast满足的模型
其中
t=T+1,T+2,...,T+k,
可以将模型中的t用T+l代替:
由于T时刻之前事件已经发生,为已知事件,记
eT(l)=E(eT+l|e1,e2,...,eT),
对上式求条件期望有:
根据条件期望的性质有:
根据以上两式可依次求出eT(l),从而
因此
得出预测值yforecast。
7.一种电子设备,其特征在于,包括:存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4中任一项所述的基于两步回归的医院门诊就诊人数的预测方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于两步回归的医院门诊就诊人数的预测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210309065.9A CN114758761A (zh) | 2022-03-28 | 2022-03-28 | 基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210309065.9A CN114758761A (zh) | 2022-03-28 | 2022-03-28 | 基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114758761A true CN114758761A (zh) | 2022-07-15 |
Family
ID=82327399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210309065.9A Pending CN114758761A (zh) | 2022-03-28 | 2022-03-28 | 基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758761A (zh) |
-
2022
- 2022-03-28 CN CN202210309065.9A patent/CN114758761A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huerta et al. | Time-varying models for extreme values | |
CN109002904B (zh) | 一种基于Prophet-ARMA的医院门诊就诊量预测方法 | |
Cheng et al. | Forecasting emergency department hourly occupancy using time series analysis | |
Arief-Ang et al. | Da-hoc: semi-supervised domain adaptation for room occupancy prediction using co2 sensor data | |
Qin et al. | Simulating and Predicting of Hydrological Time Series Based on TensorFlow Deep Learning. | |
US20040193451A1 (en) | System and method for risk-adjusting indicators of access and utilization based on metrics of distance and time | |
Krzysztofowicz et al. | Hydrologic uncertainty processor for probabilistic stage transition forecasting | |
WO2022134649A1 (zh) | 城市人流监控方法、装置、电子设备及存储介质 | |
JP2019040475A (ja) | 人流予測装置、システムおよびプログラム | |
Guo et al. | Using simulation and optimisation to characterise durations of emergency department service times with incomplete data | |
WO2016073776A1 (en) | System for management of health resources | |
CN111968751B (zh) | 一种使用多基线校正模型的传染病趋势预测方法与系统 | |
CN112668238B (zh) | 一种降雨量处理方法、装置、设备和存储介质 | |
Efendi et al. | Maximum-minimum temperature prediction using fuzzy random auto-regression time series model | |
CN113161004A (zh) | 一种疫情预测系统及方法 | |
Shi | Fat-tailed regression models | |
CN113743667A (zh) | 一种台区用电量预测方法、装置、设备及存储介质 | |
US20180075195A1 (en) | System and method for facilitating computer-assisted healthcare-related outlier detection | |
CN112926879A (zh) | 疾病诊断相关分组的支付方案决策方法、装置及设备 | |
CN114758761A (zh) | 基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质 | |
CN112465250A (zh) | 电力负荷预测方法、装置、计算机设备和存储介质 | |
CN116107854A (zh) | 一种计算机运行维护指标预测方法、系统、设备及介质 | |
CN111784071B (zh) | 一种基于Stacking集成的许可占用与预测方法及系统 | |
Ryan | Some flexible families of intensities for non‐homogeneous Poisson process models and their Bayes inference | |
WO2020235520A1 (ja) | 情報処理装置、情報処理システム、および情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |