CN108877905B

CN108877905B - 一种基于Xgboost框架的医院门诊就诊量预测方法

Info

Publication number: CN108877905B
Application number: CN201810602381.9A
Authority: CN
Inventors: 王建新; 肖湘佳慧; 李丽萍; 安莹
Original assignee: Central South University
Current assignee: HUNAN CREATOR INFORMATION TECHNOLOGIES Co.,Ltd.
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2020-11-10
Anticipated expiration: 2038-06-12
Also published as: CN108877905A

Abstract

本发明公开了一种基于Xgboost框架的医院门诊就诊量预测方法，包括：获取历史数据，并基于历史数据构建每类门诊的门诊数据集；利用每类门诊的门诊数据集构建每类门诊的Stacking‑Xgboost的预测模型；Stacking‑Xgboost的预测模型包括N₂个的Xgboost基学习器；获取预测日内每个关联特征的量值，并输入至待测门诊类型的Stacking‑Xgboost的预测模型中得到在预测日对应待测门诊的就诊量预测值，预测日的就诊量预测值等于所有Xgboost基学习器的预测值的平均值或加权平均计算结果。上述方法解决了就诊量与天气因素的相关性研究问题，同时具有预测精度高、速度快的优点。

Description

一种基于Xgboost框架的医院门诊就诊量预测方法

技术领域

本发明属于数值建模预测技术领域，具体涉及一种基于Xgboost框架的医院门诊就诊量预测方法。

背景技术

通常，医疗资源实际配置数达到且高于资源需求水平状况，但仍无法避免医疗资源紧张、短缺的困境。同时，现实中存在太多因素影响医疗资源的需求水平，包括飞速发展的社会经济、人口的增长与流动，甚至是时间和气候变化等。通常的资源配置方法是基于平均医疗需求数量来确定资源配置数量的一种相对静态的方式，因此容易在局部时段和局部区域出现明显的资源紧张问题，如果医疗资源配给始终与医疗需求最大峰值相匹配，医疗资源将会出现巨大的浪费。因此，科学的对医院日门诊量进行分析预测，及时、准确地分析门诊部的人流量变化及趋势特征，有助于辅助动态且合理的分配医疗资源。

相关文献表明，医院门诊量受较多因素影响，一方面是医院自身因素，如医疗技术，医疗服务，地理位置等；另一方面是患者自身的就医选择，包括疾病的病种、经济地位、教育水平等因素。此外，还受国家医疗政策、自然环境等因素的影响，但无论是医院自身因素、患者的选择还是外部政策因素，在较短周期内是不会立即影响医院门诊的就诊量，而气候变化可能会在较短时间内对人类的健康状况产生影响进而影响门诊量，如极端天气气候事件引起的中暑、感冒和其他疾病。还有一些疾病并非直接由气象变化引起，但通常伴有一定的季节性和气象条件，在某种气候条件下，它们会导致疾病复发或加重，如慢性支气管炎、哮喘、支气管哮喘等呼吸系统类疾病，高血压、冠心病、中风等心脑血管类疾病，以及常见的腹泻、慢性胃炎、消化性溃疡等消化系统类疾病。因此，研究气象因素与气象疾病门诊量的关系，有望提高就诊量的预测效果，实现对将来就诊量情况的预测具有实际意义。

以往很多学者在门诊就诊量的预测方案中使用如支持向量机、随机森林、人工神经网络等方法，其中，支持向量机具有较好的泛化能力而被广泛应用，在小样本数据中，支持向量机能够有效的抓住数据和特征的相关性，但样本数据较多时，支持向量机就不具有太多优势了。随机森林是一类bagging方法，其注重于降低模型的方差而忽略了模型的拟合能力，而Xgboost注重降低模型的偏差。人工神经网络方法建立的模型相对于样本数据过于复杂，计算开销大且训练过程难以复现的一个“黑盒”操作，并且极易陷入局部极小值以及全局收缩能力弱等状态，所得的预测性能并不理想。

发明内容

本发明的目的是针对缺少就诊量与天气因素的相关性研究问题，以及现有就诊量预测方法存在的预测性能不足的问题，提供一种基于Xgboost框架的医院门诊就诊量预测方法，其具有预测精度高、速度快的特点。

本发明提供一种基于Xgboost框架的医院门诊就诊量预测方法，包括如下步骤：

S1：获取历史数据，并基于所述历史数据构建每类门诊的门诊数据集以及从每个门诊数据集中分别提取门诊训练集；

所述历史数据包括气象数据、空气质量数据以及就诊数据，所述就诊数据包括日期、门诊类型以及就诊量；

所述门诊数据集和所述门诊训练集分别包括历史时段和训练时段内每天一类门诊的就诊量和每天每个关联特征的量值，每天的关联特征是对当天的气象数据、空气质量数据以及相邻历史时段内的气象数据、空气质量数据进行属性重构生成的；

S2：利用所述每类门诊的门诊训练集构建每类门诊的Stacking-Xgboost的预测模型；

所述Stacking-Xgboost的预测模型包括N₂个的Xgboost基学习器；

其中，N₂为正整数，将所述门诊训练集内每天的就诊量以及部分关联特征的量值进行组合得到训练子集，且不同训练子集包含的关联特征存在差异；

不同Xgboost基学习器基于不同的训练子集训练而来，且所述不同Xgboost基学习器的模型参数不同；

S3：获取预测日内每个关联特征的量值，并输入至待测门诊类型的Stacking-Xgboost的预测模型中得到在预测日对应待测门诊的就诊量预测值；

其中，将预测日内关联特征的量值输入至Stacking-Xgboost的预测模型中每个Xgboost基学习器得到一个预测值，再对所有的预测值进行平均值计算或加权平均计算得到在预测日对应待测门诊的就诊量预测值。

训练时段小于或等于历史时段，即门诊训练集是从门诊数据集中抽取的一段时间的数据或者其实际为门诊数据集。本发明的目的是得到当天各类门诊的就诊量的预测值，其中，不同类型的门诊对应不同的Stacking-Xgboost的预测模型。具体实现时，本发明是利用每天的气象数据、空气质量数据以及相邻一段历史时间的气象数据、空气质量数据得到关联特征的量值，将其作为每天的一个特征集；然后再利用一段时间内每天的就诊量以及特征集来训练模型得到预测模型，进而实际预测时，输入当天的特征集后得到当天对应门诊的就诊量预测值。应当理解，当天的关联特征的量值也是从当天的气象数据、空气质量数据、以及相邻历史时段内的气象数据、空气质量数据中得到，当天的气象数据和空气质量数据可以是通过天气预报等手段得到。

本发明基于若干Xgboost基学习器获取预测值，再将所有预测值进行综合处理得到对应门诊的就诊量预测值。其中，不同Xgboost基学习器基于不同的训练子集训练而来，且所述不同Xgboost基学习器的模型参数不同，进而保证了不同Xgboost基学习器之间的差异性，实现Xgboost较低偏差的同时就有较低的方差。

进一步优选，S2中训练子集的构成过程如下：

S11：利用所述门诊训练集中训练时段的数据训练得到平均绝对百分比误差低于50％的Xgboost单模型；

其中，所述Xgboost单模型的模型参数包括子树的最大深度、最小叶子节点样本的权重和、训练数据样本占比、学习率、迭代次数、特征采样比例、划分树的叶节点值、随机种子；

S12：依据所述Xgboost单模型的模型参数值设置每类模型参数的取值区间；

其中，每个模型参数值分别位于对应一类模型参数的取值区间内；

S13：在S12的每类模型参数的取值区间中随机取值并进行模型参数组合得到一个Xgboost子模型，再重复执行N₁次步骤S13得到N₁个Xgboost子模型；

其中，N₁为正整数且取值范围为：[35，60]；

S14：将每个Xgboost子模型的学习任务目标参数均设置为基于二分类算法特征排名“rank:pairwise”，并均采用最小化成对损失函数计算出每个关联特征的评分，再依据所述N₁个Xgboost子模型中每个关联特征的评分进行综合计算得到每个关联特征的最终评分；

S15：按照从高到低的顺序选取最终评分排名前Q的关联特征作为关键的关联特征，剩余的关联特征为常规的关联特征；

其中，Q为正整数；

S16：从常规的关联特征中随机选取关联特征并重复N₂次，再将每次选取的常规的关联特征与所有的关键的关联特征进行组合得到每个训练子集的所有关联特征，再基于每个训练子集的所有关联特征从所述门诊数据集中依次提取对应关联特征的量值以及就诊量得到N₂个训练子集。

S16中从常规的关联特征中每次随机选取的关联特征时，选取的关联特征的数量大于或等于1，再重复随机选取N₂次；每一次随机选取的常规的关联特征与关键的关联特征组合得到1个训练子集的所有关联特征。

本发明先得到一个性能较优的Xgboost单模型，再基于Xgboost单模型实现模型参数区间设置，并随机取值得到若干Xgboost子模型，再基于若干Xgboost子模型对关联特征进行评分实现对关联特征的重要性的评估，进而获取最具相关性和统计意义的训练子集，一方面极大的降低了数据量进而缩短了模型训练时间，同时提高了后续学习模型的稳定性和准确性。此外，通过在常规的关联特征中进行随机抽取弱相关的特征，并与关键的关联特征共同构成训练子集，进而实现了训练子集的关联特征的多样性，保证通过不同训练子集训练的不同Xgboost基学习器之间的差异性。此外，综合计算为均值计算或其他计算方式。

进一步优选，S12中每类模型参数的取值区间的最小、最大边界值不等于所述Xgboost单模型中的对应模型参数值。

通过研究发现，每类模型参数的取值区间是基于Xgboost单模型中的对应模型参数值进行两端延伸确定时，最终结果效果最佳。

进一步优选，S2中所述Stacking-Xgboost的预测模型的构建过程如下：

S21：将所述门诊训练集中训练时段的数据作为输入数据并采用网格搜索以及K折交叉验证对预设的默认Xgboost单模型的模型参数值进行参数优化得到优化的Xgboost单模型；

所述模型参数包括子树的最大深度、最小叶子节点样本的权重和、训练数据样本占比、学习率、迭代次数、特征采样比例、划分树的叶节点值、随机种子；

S22：依据所述优化的Xgboost单模型的模型参数值设置每类模型参数的优化取值区间；

其中，所述优化的Xgboost单模型的每个模型参数值分别位于对应一类模型参数的优化取值区间内；

S23：在S22的每类模型参数的优化取值区间中随机取值并进行模型参数组合得到一个Xgboost基学习器，再重复N₂次步骤S23得到N₂个Xgboost子模型；

其中，N₂≥35：

S24：获取N₂个训练子集，并依次利用每个训练子集训练一个Xgboost子模型得到N₂个Xgboost基学习器。

利用网格搜索和K折交叉验证获得Xgboost单模型的最优参数，即得到优化的Xgboost单模型，以快速获得持有一定准确率的Stacking-Xgboost模型参数的初始值。

进一步优选，步骤S21的执行过程如下：

S31：获取预设的默认Xgboost单模型的模型参数的默认值；

S32：分别将所述默认Xgboost单模型的每类模型参数的默认值缩小和放大2倍，并将缩小值和放大值作为对应一类模型参数的取值范围的最小、最大边界值；

S33：基于S32中每类模型参数的取值范围通过sklearn框架的网格搜索包(grid_search包)进行网格搜索获得两组以上的模型参数组合；

S34：利用sklearn框架下的交叉验证函数(cross_validation.cross_val_score函数)进行k折交叉验证得出所述两组以上的模型参数组合中预测准确率最高的一组模型参数组合，再基于所述预测准确率最高的一组模型参数组合构成优化的Xgboost单模型。

进一步优选，所述k折交叉验证为10折交叉验证。

进一步优选，所述气象数据至少包括日期，且还包括平均气温、最高气温、最低气温、平均湿度、最大湿度、最小湿度、平均风速、最大风速、海平面气压和是否有雾的任意组合；

所述空气质量数据至少包括日期，且还包括逐日的AQI指数、SO₂浓度、NO₂浓度、CO浓度、O₃浓度、PM2.5浓度以及PM10浓度的任意组合。

进一步优选，所述每天的关联特征至少包括日期指标、气象指标、空气指标、滞后数据指标、变化幅度指标、事件日指标、假日指标，若气象数据包括是否有雾，则每天的关联特征还包括数值化分类指标；

其中，将所述当天的气象数据、空气质量数据、就诊数据中日期参数拆分为年、月、日、星期、季度得到日期指标，以及将日期参数与假日的相关性进行编码得到假日指标；

除是否有雾和日期外当天的气象数据构成气象指标，除日期外的当天的空气质量数据构成空气指标；

将当前的气象数据中的是否有雾的数据进行编码得到数值化分类指标，其中，无雾时对应数值化分类指标的编码为a，有雾时对应数值化分类指标的编码为b；

将前q天内除是否有雾和日期外每天的气象数据、除日期外的每天的空气质量数据分别与当天的对应气象数据、空气质量数据进行差值计算得到变化幅度指标，q为正整数。

前d天内除日期外每天的气象数据、前d天内除日期外的每天的空气质量数据以及前d天内每一天的所述变化幅度指标构成滞后数据指标，其中，所述滞后数据指标表示前d天内每天的气象数据和空气质量数据对当天的影响，d为正整数；

例如，采用二进制编码，a的取值为1，b的取0。从上述可知，获取的历史数据中就诊数据对应的历史时段与气象数据、空气质量数据对应的历史时段稍有差异，例如，2013年01月至2017年07月的呼吸科门诊就诊数据，对应需要当地2012年12月至2017年07月的逐日气象数据和空气质量数据。

进一步优选，所述门诊数据集还包括门诊测试集；

其中，S3中将所有的预测值进行加权平均计算得到预测日对应待测门诊的就诊量预测值的公式如下：

式中，Y为预测日对应待测门诊的就诊量预测值，y_i为第i个Xgboost基学习器的预测值，s_i为第i个Xgboost基学习器的权重；

式中，r_i为第i个Xgboost基学习器的投票权重，rmse_i为第i个Xgboost基学习器的均方根误差，α_j为所述门诊测试集中第j天的就诊量实际值，

为通过第i个Xgboost基学习器所述门诊测试集中第j天的就诊量预测值，n₁为所述门诊测试集中测试时段的天数。

例如获取的历史数据中就诊数据的历史时段为2013年01月至2017年07月，则将2013/01至2017/02中每天的就诊量以及每天的关联特征的量值的作为训练集，即门诊数据集；2017/03至2017/06中每天的就诊量以及每天的关联特征的量值的作为测试集，即门诊测试集。

进一步优选，还包括对每类门诊的门诊数据集进行误差处理，再执行S2；

首先，分别计算每类门诊的门诊训练集中就诊量的标准差和均值，再计算最大偏差值和最小偏差值；

a₁＝X+k×σ

a₂＝X-k×σ

式中，a₁为最大偏差值，a₂为最小偏差值，X为均值，σ为标准差，k为比例系数；

然后，分别判断每个门诊数据集中每天的就诊量是否大于最大偏差值或小于最小偏差值，若是，对应一天的就诊量为异常值，并删除所述门诊数据集中对应一天的就诊量和关联特征的量值；否则，就诊量为正常值。

有益效果

1、本发明依据历史数据的气象数据、空气质量数据、就诊数据提取关联特征来训练Stacking-Xgboost的预测模型，解决了就诊量与天气因素的相关性研究问题。同时，本发明基于训练后的若干Xgboost基学习器获取预测值，再将所有预测值进行综合处理得到对应门诊的就诊量预测值。其中，不同Xgboost基学习器基于不同的训练子集训练而来，且所述不同Xgboost基学习器的模型参数不同，进而保证了不同Xgboost基学习器之间的差异性，实现Xgboost较低偏差的同时就有较低的方差，得到可靠性高的预测结果，有效地克服了随机森林忽略模型的拟合能力的问题，同时本发明基于Xgboost框架进行预测时，不论是小样本数据还是大样本数据，均可以有效地进行处理。

2、本发明对关联特征的重要性的评估得出关键的关联特征和常规的关联特征，在常规的关联特征中进行随机抽取弱相关的特征，并与关键的关联特征共同构成训练子集，进而实现了训练子集的关联特征的多样性，保证通过不同训练子集训练的不同Xgboost基学习器之间的差异性，进而获取最具相关性和统计意义的训练子集。

3、本发明还利用网格搜索和K折交叉验证获得Xgboost单模型的最优参数，即得到优化的Xgboost单模型，再通过设置参数区间实现参数区间内随机取值来引入参数多样性，得到差异性大准确率高的不同的Xgboost基学习器，为后续得到可靠性高的预测结果提供基础。

附图说明

图1是本发明实施例提供的供一种基于Xgboost框架的医院门诊就诊量预测方法的流程图；

图2是本发明实施例提供的呼吸科就诊量预测效果图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

如图1所示，本发明提供一种基于Xgboost框架的医院门诊就诊量预测方法，包括如下步骤：

S1：获取历史数据，并基于所述历史数据构建每类门诊的门诊数据集。

本实施例中，历史数据包括气象数据、空气质量数据以及就诊数据。气象数据包括日期、平均气温、最高气温、最低气温、平均湿度、最大湿度、最小湿度、平均风速、最大风速、海平面气压和是否有雾，如表1所示；

表1:气象数据集

空气质量数据包括日期、逐日的AQI指数、SO₂浓度、NO₂浓度、CO浓度、O₃浓度、PM2.5浓度以及PM10浓度，如下表2所示；

表2空气质量数据集

就诊数据包括就诊日期、门诊类型和就诊人数，对医院就诊数据按门诊类型以天为单位进行汇总统计。即每个门诊类型对应一个历史数据集，历史数据集中是以每天的就诊人数以及空气质量数据、气象数据进行汇总统计。

例如，本实施例中，以呼吸科门诊为例，由某三甲医院提供2013年01月至2017年07月的呼吸科门诊就诊数据信息，分别同当地2012年12月至2017年07月的逐日地面气象数据和空气质量数据构成一个历史数据集，再根据历史数据集进行属性特征提取得到2013年01月至2017年07月中每天的关联特征的量值以及每天的就诊量，进而得到呼吸科门诊的门诊数据集，例如：呼吸科门诊的门诊数据集中每一行表示每天的关联特征的量值以及每天的就诊量。进一步将数据集拆分为门诊训练集和门诊测试集，其中，门诊训练集为2013/01至2017/02中每天的关联特征的量值和就诊量，门诊测试集为2017/03至2017/06中每天的关联特征的量值和就诊量。

下述将对关联特征的提取过程进行详细阐述：

1、时间相关的指标：日期指标和假日指标

将门诊数据集中的日期属性进行分解并创建“year”年、“month”月、“day”日和“week”星期以及“seasonal”季节五个指标，将由原来的一列ds日期衍生了year、month、day和week共5列数据特征。

其次，创建假日指标，将中国传统节日以及节假日前t1天和节假日后t2天统一称为节假日，标记为1；将周六、周日以及工作日分别标记为2，3和4，其中节假日优先标记，由此创建“假日”属性。

例如将中国传统节日包括元旦、清明节、端午节、劳动节和中秋节，以及上述节日的节前2天，国庆节的节后5天，春节的节前1天和节后5天都属于节假日，标记为1；将周六、周日以及工作日分别标记为2，3和4，其中节假日优先标记，由此创建“holiday”假日属性。其他可行的实施例中，不限制于前1天或2天或5天，可以设置其他取值。本实施例中构建的时间相关的特征表，如下表3所示：

表3时间相关的特征

2、气象指标

将每天的平均气温、最高气温、最低气温、平均湿度、最大湿度、最小湿度、平均风速、最大风速、海平面气压作为气象指标。

3、变化幅度指标

变化幅度指标包括除日期和是否有雾外的空气质量数据和气象数据中前q天与当天的每类空气质量参数的差值以及每类气象参数的差值。。如构建气象和空气质量同第i(i＝1,2,...,15)天对应指标的变化幅度，通过差值实现，如当日与前1天的气温温差代表第1天的气温变化值，以平均气温(avgTemperature)为例，在平均气温(avgTemperature)的基础上将继续新增15列avgTemperature相关的数据属性：avgTemperature_i(i＝1,2,3,...,15)。

4、滞后数据指标

滞后数据指标包括前d天中除日期外的气象数据以及除日期外的空气质量数据，如气温、气压、风速和湿度和空气质量如AQI、SO2、NO2、CO、O3、PM2.5以及PM10指标在第1天到第15天的滞后效应，如前1天的气温就代表前1天气温在当天的滞后值。以AQI为例，在AQI的基础上将新增15列数据属性：AQI_i(i＝1,2,3,...,15)。另外还包括步骤3构建的前d天中每天的变化幅度指标，也对其进行滞后构建相应的滞后特征。以滞后的平均气温avgTemperature_i(i＝1,2,3,...,15)为例，则每个平均气温滞后属性将再继续新增15列数据属性：avgTemperature_ij(i＝1,2,3,...,15,j＝1,2,3,...,15)。

5、数值化分类指标

每天的气象数据中是否有雾，其取值范围为“是”和“否”，无法代入模型计算，因此重新编码为0和1。

从上述可知，每天的关联特征中部分指标直接是当天的气象数据、空气质量数据，将此部分视为初始指标，部分指标是需要进行重新获取或提炼的。本实施例中，关联特征中初始指标的指标数量为16，依次为每天的平均气温、最高气温、最低气温、平均湿度、最大湿度、最小湿度、平均风速、最大风速、海平面气压、逐日的AQI指数、SO2浓度、NO2浓度、CO浓度、O3浓度、PM2.5浓度以及PM10浓度。

构建门诊数据集后，还包括对门诊数据集进行误差处理，处理过程如下：

a₁＝X+k×σ

a₂＝X-k×σ

式中，a₁为最大偏差值，a₂为最小偏差值，X为均值，σ为标准差，k为比例系数。本实施例中，比例系数k为2.5。

然后，分别判断每个门诊数据集中每天的就诊量是否大于最大偏差值或小于最小偏差值，若是，对应一天的就诊量为异常值，并删除所述门诊数据集中对应一天的就诊量和关联特征的量值；否则，就诊量为正常值。本实施例中，所谓标准差和均值是利用的门诊训练集中的就诊量，其他可行的实施例中，还可以利用门诊数据集中的就诊量来计算。

S2：利用所述每类门诊的门诊训练集构建每类门诊的Stacking-Xgboost的预测模型。

本实施例中，先利用门诊训练集构建N₂个训练子集以及构建N₂个Xgboost子模型，再利用每个训练子集训练一个Xgboost子模型得到N₂个Xgboost基学习器；再利用门诊测试集测试Xgboost基学习器直至满足模型性能要求。其中，N₂个Xgboost基学习器组合成一个Stacking-Xgboost的预测模型。其中，本实施例中N₂为40。

第一方面：训练子集的构成过程如下S11-S16：

S11：利用所述门诊训练集训练得到平均绝对百分比误差低于50％的Xgboost单模型。

其中，所述Xgboost单模型的模型参数包括子树的最大深度、最小叶子节点样本的权重和、训练数据样本占比、学习率、迭代次数、特征采样比例、划分树的叶节点值、随机种子。

平均绝对百分比误差MAPE的计算公式如下：

其中，a_i为第i天的实际值，c_i为第i天数据对应的模型预测值，

为实际值的平均值，n₂为预测记录数，即门诊训练集中的天数。

其中，每个模型参数值分别位于对应一类模型参数的取值区间内。优选每类模型参数的取值区间的最小、最大边界值不等于所述Xgboost单模型中的对应模型参数值。例如树的最大深度max_depth为8，优选两端延伸使其取值区间为[6，10]。其他可行的实施例中，还可以向上延伸或向下延伸，例如取值区间为[8,12]或[4,8]。

其中，N₁为正整数且取值范围为：[35，60]。本实施例中N₁为40，即对所有的参数区间随机取值进行参数组合，循环40次构建40个Xgboost子模型。

S14：将每个Xgboost子模型的学习任务目标参数均设置为“rank:pairwise”，并均采用最小化成对损失函数计算出每个关联特征的评分，再依据所述N个Xgboost子模型中每个关联特征的评分进行综合计算得到每个关联特征的最终评分；

其中，Q为正整数且Q至少大于N`-1，N`为关联特征中初始指标的指标总数。具体实现过程，Q的优值是根据实验验证后得出，一般验证过程为从N`-1取值并依次试验。本实施例中，N`为16，经过试验得出Q取值为20的效果最佳。

即特征随机选择，引入特征多样性。从常规的关联特征中随机抽取部分特征与关键的关联特征构成模型特征，关键特征每次都全部取出，每一次的随机属性抽取构成彼此不同的训练样子集。本实施例中生成40个训练样子集，分别作为40个Xgboost子模型的输入数据集。

第二方面：构建N₂个Xgboost子模型，再利用每个训练子集训练一个Xgboost子模型得到N₂个Xgboost基学习器的过程如下S21-S24：

S21：将门诊训练集作为输入数据并采用网格搜索以及K折交叉验证对预设的默认Xgboost单模型的模型参数值进行参数优化得到优化的Xgboost单模型。

其中，步骤S21的执行过程如下S31-S34：

S31：获取预设的默认Xgboost单模型的模型参数的初始值。S32：分别将所述默认Xgboost单模型的每类模型参数的默认值缩小和放大2倍，并将缩小值和放大值作为对应一类模型参数的取值范围的最小、最大值；例如，树的最大深度max_depth默认为6，则将区间设置为[3，12]。

S33：基于S32中每类模型参数的取值范围通过sklearn框架的grid_search包进行网格搜索获得两组以上的模型参数组合；

S34：利用sklearn框架下的cross_validation.cross_val_score函数进行k折交叉验证得出所述两组以上的模型参数组合中预测准确率最高的一组模型参数组合，再基于所述预测准确率最高的一组模型参数组合构成优化的Xgboost单模型。本实施例中，选择10折交叉验证，得到如下表4所示呼吸科就诊量的优化的Xgboost单模型的模型参数值：

表4

其中，所述优化的Xgboost单模型的每个模型参数值分别位于对应一类模型参数的优化取值区间内。类似步骤S12，本实施例中优选为两端扩展。其他可行的实施例中为向上延伸或向下延伸。如下表5所示：

表5：呼吸系统就诊量Stacking-Xgboost模型参数的优化取值区间

S23：在S22的每类模型参数的优化取值区间中随机取值并进行模型参数组合得到一个Xgboost基学习器，再重复N₂次步骤S23得到N₂个Xgboost子模型。

其中，N₂为正整数且N₂≥35。本实施例中N₂为40。例如，针对每个基学习器从表5中的参数区间分别随机取值构成Xgboost基学习器所需参数，引入参数多样性使得最大化程度获得最优参数组合以及构建模型多样性，依次循环40次构建不同的40个Xgboost子模型。

衡量Xgboost基学习器的模型性能的评价指标设定为均方根误差(rmse)，即eval_metric参数设置为“rmse”来进行模型训练获得40个Xgboost基学习器，若达不到标准，则重新训练。

第三方面，利用门诊测试机测试训练后的40个Xgboost基学习器，即测试Stacking-Xgboost模型。若满足性能要求，如MAPE值小于20，则后续预测时使用生成的Stacking-Xgboost模型进行门诊量预测；若不满足，则返回S1，重新训练。

具体的，将门诊测试集作为训练好的40个Xgboost基学习器的输入数据，进行预测获得40份输出结果，采用集成方法融合这40份输出构成Stacking-Xgboost的最终预测结果。

其中集成方法采用两种方法，一是简单平均法预测，即子模型权重均为1/40，预测结果为

其中Y为预测日对应待测门诊的就诊量预测值，y_i为每个基学习器的预测结果；另一方法是加权平均预测，预测结果为：

其中，s_i为第i个Xgboost基学习器的权重，

式中，r_i为第i个Xgboost基学习器的投票权重，rmse_i为第i个Xgboost基学习器的均方根误差，α_j为所述诊测试集中第j天的就诊量实际值，

通过上述计算方法，将门诊测试集的数据输入40个Xgboost基学习器，得出每天的就诊量预测结果，并将其与门诊测试集中每天实际的就诊量预测结果进行对比，得出模型性能水准。若满足实际需求，则可以用于后续就诊量预测，若不满足，则重新训练。

S3：获取预测日内每个关联特征的量值，并输入至待测门诊类型的Stacking-Xgboost的预测模型中得到在预测日对应待测门诊的就诊量预测值。

参照上述集成方法的表述，得出预测日对应待测门诊的就诊量预测值。

仿真验证：

根据上述建立Stacking-Xgboost优化组合模型和Xgboost模型，另外还有Bagging类方法如随机森林RF模型以及支持向量SVR模型，对测试集2016/07-2016/10期间4个月的就诊量进行预测和模型性能评估。

如图2所示为Stacking-Xgboost+平均加权集成模型的呼吸系统门诊就诊量预测结果，直观上看，该模型达到了较好的预测精度，具有实际应用意义。

为了从不同侧面评价和比较算法的预测精度，将根据平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)三项评价指标对模型进行综合评价，如表6所示：

表6：呼吸科就诊量预测序列误差分析

不管是MAE值、RMSE值还是MAPE值，Stacking-Xgboost模型在三类对象的门诊量预测性能都要优于其他几种模型，并且相较于Xgboost模型有了较大的性能提升，证明了新方法的有效性和准确性，有助于动态分配医疗资源，提高服务质量。

要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于Xgboost框架的医院门诊就诊量预测方法，其特征在于：包括如下步骤：

所述Stacking-Xgboost的预测模型包括N₂个的Xgboost基学习器；

所述训练子集获取过程为：利用所述门诊训练集训练得到性能满足要求的Xgboost单模型，再基于所述Xgboost单模型进行模型参数区间设置，并在所述模型参数区间随机取值得到若干Xgboost子模型，再基于若干Xgboost子模型对关联特征进行评分实现对关联特征的重要性的评估；再按照从高到低的顺序选取最终评分排名前Q的关联特征作为关键的关联特征，剩余的关联特征为常规的关联特征，Q为正整数；最后从常规的关联特征中随机选取关联特征并重复N₂次，再将每次选取的常规的关联特征与所有的关键的关联特征进行组合得到每个训练子集的所有关联特征，再基于每个训练子集的所有关联特征从所述门诊数据集中依次提取对应关联特征的量值以及就诊量得到N₂个训练子集；

2.根据权利要求1所述的方法，其特征在于：S2中训练子集的构成过程如下：

S11：利用所述门诊训练集训练得到平均绝对百分比误差低于50％的Xgboost单模型；

其中，N₁为正整数且取值范围为：[35，60]；

S14：将每个Xgboost子模型的学习任务目标参数均设置为基于二分类算法特征排名，并均采用最小化成对损失函数计算出每个关联特征的评分，再依据所述N₁个Xgboost子模型中每个关联特征的评分进行综合计算得到每个关联特征的最终评分；

其中，Q为正整数；

3.根据权利要求2所述的方法，其特征在于：S12中每类模型参数的取值区间的最小、最大边界值不等于所述Xgboost单模型中的对应模型参数值。

4.根据权利要求1所述的方法，其特征在于：S2中所述Stacking-Xgboost的预测模型的构建过程如下：

S21：将所述门诊训练集的数据作为输入数据并采用网格搜索以及K折交叉验证对预设的默认Xgboost单模型的模型参数值进行参数优化得到优化的Xgboost单模型；

其中，N₂≥35：

5.根据权利要求4所述的方法，其特征在于：步骤S21的执行过程如下：

S31：获取预设的默认Xgboost单模型的模型参数的默认值；

S33：基于S32中每类模型参数的取值范围通过sklearn框架的网格搜索包进行网格搜索获得两组以上的模型参数组合；

S34：利用sklearn框架下的交叉验证函数进行k折交叉验证得出所述两组以上的模型参数组合中预测准确率最高的一组模型参数组合，再基于所述预测准确率最高的一组模型参数组合构成优化的Xgboost单模型。

6.根据权利要求4所述的方法，其特征在于：所述k折交叉验证为10折交叉验证。

7.根据权利要求1所述的方法，其特征在于：所述气象数据至少包括日期，且还包括平均气温、最高气温、最低气温、平均湿度、最大湿度、最小湿度、平均风速、最大风速、海平面气压和是否有雾的任意组合；

8.根据权利要求7所述的方法，其特征在于：所述每天的关联特征至少包括日期指标、气象指标、空气指标、滞后数据指标、变化幅度指标、事件日指标、假日指标，若气象数据包括是否有雾，则每天的关联特征还包括数值化分类指标；

当前的气象数据中除是否有雾和日期之外，气象数据中剩余数据构成气象指标，当前的空气质量数据中除日期之外，空气质量数据中剩余数据构成空气指标；

将前q天内每天的气象数据中除是否有雾和日期之外的剩余数据、每天的空气质量数据中除日期之外的剩余数据分别与当天的对应气象数据、空气质量数据进行差值计算得到变化幅度指标，q为正整数；

前d天内每天的气象数据中除日期之外的剩余数据、前d天内每天的空气质量数据中除日期之外的剩余数据以及前d天内每一天的所述变化幅度指标构成滞后数据指标，其中，所述滞后数据指标表示前d天内每天的气象数据和空气质量数据对当天的影响，d为正整数。

9.根据权利要求1所述的方法，其特征在于：所述门诊数据集还包括门诊测试集；

10.根据权利要求1所述的方法，其特征在于：还包括对每类门诊的门诊数据集进行误差处理，再执行S2；

a₁＝X+k×σ

a₂＝X-k×σ