CN114758761A

CN114758761A - 基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质

Info

Publication number: CN114758761A
Application number: CN202210309065.9A
Authority: CN
Inventors: 李子靖; 陈颢; 张淑芹; 王立鹏; 高卫国; 邓璐; 王孜怡
Original assignee: Fudan University; First Affiliated Hospital of Naval Military Medical University of PLA
Current assignee: Fudan University; First Affiliated Hospital of Naval Military Medical University of PLA
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-15

Abstract

本发明提供一种基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质，基于两步回归的医院门诊就诊人数的预测方法包括：步骤S1：构建基于两步回归的医院门诊就诊人数的预测模型；步骤S2：采用上述预测模型预测未来一段时间内的医院门诊就诊人数。本发明采用带时间序列误差的回归模型来预测人流量，能够在适当的精度内预测比较长时间内的人流量；对于规律性强的时间序列数据表现良好，便于医院进行排班等管理安排。

Description

基于两步回归的医院门诊就诊人数的预测方法、装置、设备和存储介质

技术领域

本发明属于时间序列分析领域，具体涉及针对医院科室就诊患者人数的预测方法。

背景技术

医院每天均有巨大的人流量，且这些就诊患者的数量受各类因素的影响不断变化，这给医院的管理制度带来了极大的挑战。过往的人员排班模式可能不适合新环境的变化，这便需要对未来医院的人流量进行预测，以针对性地安排医疗人员的出勤，避免造成人流高峰期过于拥堵，而低谷期人力资源浪费等问题，合理进行资源的分配管理。

医院对于人员排班的安排通常基于经验，好处在于简单易行，但有时不能因为某些因素的变化较为灵活的应对患者人数的变化。构建模型可以有效解决这一问题，但目前没有很好的先例。

多种因素会影响前来就诊患者的数量，如天气、假期、气温等，也有不可知的潜在因素，这些因素使患者人流量的时间序列不断波动。因此，预测的难点在于把握各因素对于人流量的作用，以及各因素之间的相关性，搭建出一个合理可行的预测模型。但是，现有医院并不存在这种能够提前预测门诊科室在未来一段时间内的人流量的技术手段。

发明内容

针对现有医院并不存在这种能够提前预测门诊科室在未来一段时间内的人流量的技术手段的问题，本发明的第一个方面提供一种基于两步回归的医院门诊就诊人数的预测方法，包括：

步骤S1：构建基于两步回归的医院门诊就诊人数的预测模型，预测模型为：

其中

t＝1，2，...，T.

y_t为第t天人数；

D_it表示第t天是否为星期i，若第t天恰为星期i，则D_it取值为1，否则D_it取值为0，b_i为星期i前的系数；

表示为节假日前，

表示为节假日后；

分别为工作时段最高气温与最低气温；

W_t为第t天的天气，若有降雨或降雪则W_t＝1，其余天气为0；

a，b，c，d，f，g，h为回归项系数，代表上述因素对于y_t的影响大小

e_t满足一个ARIMA模型：p为自回归阶数，d为差分的阶数，q为滑动平均的阶数；

φ，θ为自回归以及滑动项的系数；

B为延迟算子，其定义为Be_t＝e_t-1；

∈_t为服从独立同分布的白噪声序列；

n为一周工作的天数，例如n＝5、6或7；

步骤S2：采用上述预测模型预测未来一段时间内的医院门诊就诊人数。

进一步地，步骤S1包括：

步骤S1.1：选取影响医院门诊就诊人数的若干变量，所述变量分别为星期数、节假日、气温和天气；

步骤S1.2：将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X＝(D₁，D₂，...，D_n，H^before，H^after，T^high，T^low，W)，并将X作标准化处理得到X^*：

设X＝(x_ij)_n×p，则

其中

步骤S1.3：将X^*进行主成分分析：

1)找到一个正交矩阵Γ，满足

且使得

为一p×p对角阵

Λ＝diag(σ₁，σ₂，...，σ_m，0，...，0)，m≤p且σ₁≥σ₂≥σ_m＞0；

2)计算主成分方差贡献率

以及累计贡献率

3)选取i，1≤i≤p，使得γ_i≥0.95，并取Γ的前i列，记为

并记

即为X^*的主成分矩阵；

步骤S1.4：使用解释变量

来拟合线性回归模型：

其中

为科室每天人数，

首先假设满足独立同分布，采用最小二乘法得到估计参数

并计算残差

步骤S1.5：将残差序列

拟合ARIMA模型：

其中p为自回归阶数，d为差分的阶数，q为滑动平均的阶数；φ，θ为自回归以及滑动项的系数；B为延迟算子，其定义为Be_t＝e_t-1；∈_t为服从独立同分布的白噪声序列；

首先采用Hyndman-Khandakar算法来选择最优的阶数(p，d，q)：

(1)通过重复地KPSS测试来确定差分阶数d：0≤d≤2

(2)对数据差分d次之后，通过最小化AICc来选择最优的p，q：

AIC＝2k-2log(Likelihood)

其中n为样本容量，即样本的个数，k为去除噪声方差

后总的参数数量，极大似然函数的计算步骤参见下文步骤S1.7中的系数φ，θ的估计方法：

(1)拟合四个初始模型：ARIMA(0，d，0)、ARIMA(2，d，2)、ARIMA(1，d，0)、ARIMA(0，d，1)，

(2)步骤(1)中拟合出的最好的模型(AICc最小)称为“current model”；

考察“current model”的以下两个变种模型：

1.对p和/或q的值改变±1；

2.包含/不包含常数项c；

(3)将上述变种和原来的current model中AICc最小的模型即为最新的“currentmodel”；

(4)重复(3)，直到没有更小的AICc的模型；

步骤S1.6：将原来的线性回归模型调整为：

t＝1，2，...，T.

步骤S1.7：使用极大似然估计来确定自回归以及滑动项的系数φ，θ的值，从而估计得到参数

并带入模型以完成预测模型的构建：

假设各∈_t是相互独立的，且服从零均值与相同的标准差

则各∈_t的概率密度函数(pdf)为：

由独立性，得到(∈₁，∈₂，...，∈_T)的联合概率密度函数(pdf)为：

由此得到似然函数Likelihood：

其中g_t为将

用y₁，...，y_t，β，φ，θ表示的函数，

可以根据模型公式将∈_t用可以观测到的y以及

表示，并求出

使得(∈₁，∈₂，...，∈_T)的联合概率密度函数(pdf)达到极大值：

将估计得到的参数

带入模型，从而完成了模型的构建。

进一步地，步骤S2包括：采用构建完成的所述预测模型来预测未来k天各科室的人流量，已知的数据有前T天的人流量

以及k天的解释变量矩阵

X_forecast＝(D₁，D₂，...，_Dn，H^before，H^after，T^high，T^low，W)

逐一预测科室后k天的人流量

首先将X_l按步骤S1.2同样的方法进行变换得到

再带入回归模型中：

此处要求出预测值y_forecast则需要先计算出e_forecast

根据e_forecast满足的模型

其中

t＝T+1，T+2，...，T+k，

可以将模型中的t用T+l代替：

l＝1，2，...，k.

由于T时刻之前事件已经发生，为已知事件，记

对上式求条件期望有：

根据条件期望的性质有：

根据以上两式可依次求出

从而

因此

得出预测值y_forecast。

进一步地，采用上述预测模型预测未来1个月内的医院门诊就诊人数。

本申请的第二个方面提供一种基于两步回归的医院门诊就诊人数的预测装置，包括：模型构建模块和预测模块，所述模型构建模块包括变量选取模块、标准化处理模块、主成分分析模块、拟合线性回归模型模块和拟合ARIMA模型模块；

所述变量选取模块用于选取影响医院门诊就诊人数的若干变量，所述变量分别为星期数、节假日、气温和天气；

所述标准化处理模块用于将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X＝(D₁，D₂，...，D_n，H^before，H^after，T^high，T^low，W)，并将X作标准化处理得到X^*：

设X＝(x_ij)_n×p，则

其中

所述主成分分析模块用于将X^*进行主成分分析：

(1)找到一个正交矩阵Γ，满足

且使得

为一p×p对角阵Λ＝diag(σ₁，σ₂，...，σ_m，0，...，0)，m≤p且σ₁≥σ₂≥σ_m＞0；

(2)计算主成分方差贡献率

以及累计贡献率

(3)选取i，1≤i≤p，使得γ_i≥0.95，并取Γ的前i列，记为

并记

即为X^*的主成分矩阵；

所述拟合线性回归模型模块用于使用解释变量

来拟合线性回归模型：

其中

为科室每天人数，

首先假设满足独立同分布，采用最小二乘法得到估计参数

并计算残差

所述拟合ARIMA模型模块用于将残差序列

拟合ARIMA模型：

首先采用Hyndman-Khandakar算法来选择最优的阶数(p，d，q)：

(1)通过重复地KPSS测试来确定差分阶数d：0≤d≤2

(2)对数据差分d次之后，通过最小化AICc来选择最优的p，q：

AIC＝2k-2log(Likelihood)

其中n为样本容量，即样本的个数，k为去除噪声方差

后总的参数数量，极大似然函数的计算步骤参见下文中步骤S1.7中的系数φ，θ的估计方法：

(3)考察“current model”的以下两个变种模型：

1.对p和/或q的值改变±1；

2.包含/不包含常数项c；

将上述变种和原来的current model中AICc最小的模型即为最新的“currentmodel”；

(4)重复(3)，直到没有更小的AICc的模型；

所述拟合ARIMA模型模块还用于将原来的线性回归模型调整为：

t＝1，2，...，T.

所述拟合ARIMA模型模块还用于使用极大似然估计来确定自回归以及滑动项的系数φ，θ的值，从而估计得到参数

并带入模型以完成预测模型的构建：

假设各∈t是相互独立的，且服从零均值与相同的标准差

则各∈_t的概率密度函数(pdf)为：

由此得到似然函数Likelihood：

其中g_t为将

用y₁，...，y_t，β，φ，θ表示的函数，

可以根据模型公式将∈_t用可以观测到的y以及

表示，并求出

将估计得到的参数

带入模型，从而完成了模型的构建；

所述预测模块用于采用模型构建模块构建的预测模型预测未来一段时间内的医院门诊就诊人数。

进一步地，所述预测模块用于采用构建完成的所述预测模型来预测未来k天各科室的人流量，已知的数据有前T天的人流量

以及k天的解释变量矩阵

X_forecast＝(D₁，D₂，...，D_n，H^before，H^after，T^high，T^low，W)

逐一预测科室后k天的人流量

首先将

按标准化处理模块的处理方法进行变换得到

再带入回归模型中：

此处要求出预测值y_forecast则需要先计算出e_forecast

根据e_forecast满足的模型

其中

t＝T+1，T+2，...，T+k，

可以将模型中的t用T+l代替：

由于T时刻之前事件已经发生，为已知事件，记

对上式求条件期望有：

根据条件期望的性质有：

根据以上两式可依次求出e_T(l)，从而

因此

得出预测值y_forecast。

本申请的第三个方面提供一种电子设备，包括：存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。

本申请的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。

采用了上述技术方案后，与现有技术相比，具有以下有益效果：

本发明构建了一个科室患者人数的时间序列模型。该模型考虑了潜在影响患者人数的因素，对每个科室未来1个月的人流量进行了预测，并达到了较为理想的预测精度。

本发明主要采用两种模型进行预测人数，主模型为线性回归模型。模型中选用了天气、星期数、节假日、气温等影响人流量的因素。

在对于回归解释变量X＝(D₁，D₂，...，D_n，H^before，H^after，T^high，T^low，W)的处理中，我们采用了主成分分析的方式来精简变量提取有效信息，以避免多重共线性的问题。主要的步骤寻找一个正交矩阵Γ，使得

为对角矩阵，根据各对角元所占总体的比例来确定选择的主成分，使得回归分析的新的解释变量为X^*Γ，避免了多重共线性的问题。

对于回归后的残差，本发明不采用一般线性回归分析中的残差假设，即独立正态分布，而是用ARIMA时间序列模型来拟合残差。这样可以考虑到前些天(例如2周内)的人流量对于当日人流的影响。本发明使用线性回归模型和ARIMA时间序列模型相互嵌套，能够提高数据拟合以及预测的精细程度，而单一的模型不能达到现在的精度。ARIMA模型的定阶采用使AICc最小的方式来完成，具体采用Hyndman-Khandakar算法。AICc为改进的AIC准则，相比AIC，此准则在样本数量小的情形下也适用。

Hyndman-Khandakar算法可以自动化地确定最优的阶数，减少了人工判断的不确定性。目前该算法已被多种统计及数据分析软件(如R语言及Python)使用。

综上，本发明采用带时间序列误差的回归模型来预测人流量，其优势包括能够在适当的精度内(例如误差小于10％)预测比较长时间内(例如一个月内)的人流量；对于规律性强的时间序列数据表现良好，便于医院进行排班等管理安排。

附图说明

图1-图5为19年5月各科室门诊上午的预测就诊人数和实际就诊人数对比图，图1-图5中的纵坐标名称为“就诊人数(单位：人)”，横坐标名称为“就诊时间”。

图6-图10为19年5月各科室门诊下午的预测就诊人数和实际就诊人数对比图，图6-图10中的纵坐标名称为“就诊人数(单位：人)”，横坐标名称为“就诊时间”。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

实施例

在本申请一实施例中，本申请的基于两步回归的医院门诊就诊人数的预测装置包括：模型构建模块和预测模块，所述模型构建模块包括变量选取模块、标准化处理模块、主成分分析模块、拟合线性回归模型模块、拟合ARIMA模型模块、线性回归模型调整模块、极大似然估计模块和训练模块。

在本申请的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

采用上述预测装置进行预测医院门诊就诊人数的预测方法包括以下步骤：

步骤S1：所述模型构建模块构建基于两步回归的医院门诊就诊人数的预测模型，具体包括步骤S1.1-S1.7：

步骤S1.1：所述变量选取模块选取影响医院门诊就诊人数的若干变量，所述变量分别为星期数、节假日、气温和天气；

根据外部因素对于医院患者的影响，选取星期数、节假日、气温、天气这些因素：

1)示例地，星期数以医院一周6天工作日来计，分别为6个向量D_i，i＝1，2，...，6.D_i＝(D_i1，D_i2，...，D_iT)^T,若第t天是星期i，则D_it＝1，否则D_it＝0。对于下午一周工作5天的情况，取i＝1，2，...，5。

2)节假日变量分为节假日前与节假日后，节假日为除正常周末外的法定节假日，用两个向量H^before，H^after表示。

若t为节假日前1天，则

否则

3)温度变量分为当日工作时段最高气温T^high，以及工作时段最高气温T^low，如

4)天气变量W表明天气情况，

若第t天有降水，则W_t＝1，否则W_t＝0。

步骤S1.2：所述标准化处理模块将星期数变量、节假日变量、气温变量和天气变量组成解释变量矩阵X＝(D₁，D₂，...，D_n，H^before，H^after，T^high，T^low，W)，本实施例中，解释变量矩阵为X＝(D₁，D₂，...，D_n，H^before，H^after，T^high，T^low，W)，并将X作标准化处理得到X^*：

设X＝(x_ij)_n×p，则

其中

步骤S1.3：所述主成分分析模块将X^*进行主成分分析：

1)找到一个正交矩阵Γ，满足

且使得

为一p×p对角阵

2)计算主成分方差贡献率

以及累计贡献率

3)选取i，1≤i≤p，使得γ_i≥0.95，并取Γ的前i列，记为

并记

即为X^*的主成分矩阵；

步骤S1.4：所述拟合线性回归模型模块使用解释变量

来拟合线性回归模型：

其中

为科室每天人数，

首先假设满足独立同分布，采用最小二乘法得到估计参数

并计算残差

步骤S1.5：所述拟合ARIMA模型模块将残差序列

拟合ARIMA模型：

首先采用Hyndman-Khandakar算法来选择最优的阶数(p，d，q)，Hyndman-Khandakar算法可以自动化地确定最优的阶数，减少了人工判断的不确定性，目前该算法已被多种统计及数据分析软件(如R语言及Python)使用：

(1)通过重复地KPSS测试来确定差分阶数d：0≤d≤2

(2)对数据差分d次之后，通过最小化AICc来选择最优的p，q：

AIC＝2k-2log(Likelihood)

其中n为样本容量，即样本的个数，k为去除噪声方差

后总的参数数量，极大似然函数的计算步骤见下文步骤S1.7中的系数φ，θ的估计方法：

(3)考察“current model”的以下两个变种模型：

1.对p和/或q的值改变±1；

2.包含/不包含常数项c；

(4)重复(3)，直到没有更小的AICc的模型；AICc为改进的AIC准则，相比AIC，此准则在样本数量小的情形下也适用。

步骤S1.6：所述拟合ARIMA模型模块还用于将原来的线性回归模型调整为：

t＝1，2，...，T.

步骤S1.7：所述拟合ARIMA模型模块还用于使用极大似然估计来确定自回归以及滑动项的系数φ，θ的值，从而估计得到参数

并带入模型以完成预测模型的构建：

假设各∈_t是相互独立的，且服从零均值与相同的标准差

则各∈_t的概率密度函数(pdf)为：

由此得到似然函数Likelihood：

其中g_t为将

用y₁，...，y_t，β，φ，θ表示的函数，

可以根据模型公式将∈_t用可以观测到的y以及

表示，并求出

将估计得到的参数

带入模型，从而完成了模型的构建。

步骤S2：所述预测模块采用模型构建模块构建的下述预测模型预测未来一段时间内的医院门诊就诊人数：

采用构建完成的所述预测模型来预测未来k天各科室的人流量，已知的数据有前T天的人流量

以及k天的解释变量矩阵

逐一预测科室后k天的人流量

首先将X_l按步骤S1.2同样的方法进行变换得到

再带入回归模型中：

此处要求出预测值y_forecast则需要先计算出e_forecast

根据e_forecast满足的模型

其中

t＝T+1，T+2，...，T+k，

可以将模型中的t用T+l代替：

l＝1，2，...，k.

由于T时刻之前事件已经发生，为已知事件，记

对上式求条件期望有：

根据条件期望的性质有：

根据以上两式可依次求出

从而

因此

得出预测值y_forecast。

在另一实施例中，本申请还提供一种电子设备，包括：存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。

电子设备包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。其中，所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在另一实施例中，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于两步回归的医院门诊就诊人数的预测方法中的步骤。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

效果例预测精度验证

1)实验方法

预测值：根据2018年5月至2019年4月的实际就诊人数，采用本申请的预测模型预测2019年5月不同的门诊科室的上午和下午的就诊人数；

真实值：根据医院的挂号信息统计2019年5月不同的门诊科室的上午和下午的实际就诊人数。

2)实验结果

图1-图5为19年5月各科室门诊上午的预测就诊人数和实际就诊人数对比图。各科室预测值的平均绝对误差(|预测值-真实值|/真实值)为：

心内科7.47％，消化科6.21％，内分泌科6.70％，泌尿外科6.18％，神经内科8.43％。

此外，如果采用本申请的预测模型对2019年3月之后的连续9个月的上午各科室人数分别进行预测，则每天的平均相对误差约为8.46％。

图6-图10为19年5月各科室门诊下午的预测就诊人数和实际就诊人数对比图。各科室预测的平均绝对误差(|预测值-真实值|/真实值)为：心内科8.87％，消化科8.83％，内分泌科8.36％，泌尿外科9.26％，神经内科12.38％。

此外，如果对2019年5月后下午6个月的每个科室分别进行预测，则每天的平均相对误差为10.69％。

应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于两步回归的医院门诊就诊人数的预测方法，其特征在于，包括：

其中

t＝1，2，...，T.

y_t为第t天人数；

表示为节假日前，

表示为节假日后；

分别为工作时段最高气温与最低气温；

W_t为第t天的天气，若有降雨或降雪则W_t＝1，其余天气为0；

φ，θ为自回归以及滑动项的系数；

B为延迟算子，其定义为Be_t＝e_t-1；

∈_t为服从独立同分布的白噪声序列；

n为一周工作的天数，例如n＝5、6或7；

2.如权利要求1所述的基于两步回归的医院门诊就诊人数的预测方法，其特征在于，步骤S1包括：

设X＝(x_ij)_n×p，则

其中

步骤S1.3：将X^*进行主成分分析：

1)找到一个正交矩阵Γ，满足Γ^TΓ＝I，且使得Γ^TX*^TXΓ为一p×p对角阵

2)计算主成分方差贡献率

以及累计贡献率

3)选取i，1≤i≤p，使得γ_i≥0.95，并取Γ的前i列，记为

并记

即为X^*的主成分矩阵；

步骤S1.4：使用解释变量

来拟合线性回归模型：

其中y＝(y₁，y₂，...，y_T)^T为科室每天人数，e＝(e₁，e₂，...，e_T)^T首先假设满足独立同分布，采用最小二乘法得到估计参数

并计算残差

步骤S1.5：将残差序列

拟合ARIMA模型：

首先采用Hyndman-Khandakar算法来选择最优的阶数(p，d，q)：

(1)通过重复地KPSS测试来确定差分阶数d：0≤d≤2

(2)对数据差分d次之后，通过最小化AICc来选择最优的p，q：

AIC＝2k-2log(Likelihood)

其中n为样本容量，即样本的个数，k为去除噪声方差

后总的参数数量，极大似然函数的计算步骤见下文参见步骤S1.7中的系数φ，θ的估计方法：

(3)考察“current model”的以下两个变种模型：

1.对p和/或q的值改变±1；

2.包含/不包含常数项c；

将上述变种和原来的current model中AICc最小的模型即为最新的“current model”；

(4)重复(3)，直到没有更小的AICc的模型；

步骤S1.6：将原来的线性回归模型调整为：

并带入模型以完成预测模型的构建：

假设各∈_t是相互独立的，且服从零均值与相同的标准差

则各∈_t的概率密度函数(pdf)为：

由此得到似然函数Likelihood：

其中g_t为将

用y₁，...，y_t，β，φ，θ表示的函数，

可以根据模型公式将∈_t用可以观测到的y以及

表示，并求出

将估计得到的参数

带入模型，从而完成了模型的构建。

3.如权利要求1或2所述的基于两步回归的医院门诊就诊人数的预测方法，其特征在于，步骤S2包括：

y＝(y₁，y₂，...，y_T)^T，

以及k天的解释变量矩阵

逐一预测科室后k天的人流量

首先将X_l按步骤S1.2同样的方法进行变换得到

再带入回归模型中：

此处要求出预测值y_forecast则需要先计算出e_forecast

根据e_forecast满足的模型

其中

t＝T+1，T+2，...，T+k，

可以将模型中的t用T+l代替：

由于T时刻之前事件已经发生，为已知事件，记

e_T(l)＝E(e_T+l|e₁，e₂，...，e_T)，

对上式求条件期望有：

根据条件期望的性质有：

根据以上两式可依次求出e_T(l)，从而

因此

得出预测值y_forecast。

4.如权利要求3所述的基于两步回归的医院门诊就诊人数的预测方法，其特征在于，采用上述预测模型预测未来1个月内的医院门诊就诊人数。

5.一种基于两步回归的医院门诊就诊人数的预测装置，其特征在于，包括：模型构建模块和预测模块；所述模型构建模块包括变量选取模块、标准化处理模块、主成分分析模块、拟合线性回归模型模块和拟合ARIMA模型模块；所述变量选取模块用于选取影响医院门诊就诊人数的若干变量，所述变量分别为星期数、节假日、气温和天气；