CN110046757B

CN110046757B - 基于LightGBM算法的门诊量预测系统及预测方法

Info

Publication number: CN110046757B
Application number: CN201910276901.6A
Authority: CN
Inventors: 刘健; 张瑶; 张翼飞; 李宝娟; 黄鹏; 韦磊; 尚子田; 宁玉文; 张军超; 靳豪杰; 许浩; 唐甜; 冯健飞; 沈霞娟
Original assignee: Fourth Military Medical University FMMU
Current assignee: Fourth Military Medical University FMMU
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2022-11-29
Anticipated expiration: 2039-04-08
Also published as: CN110046757A

Abstract

本发明公开了一种基于LightGBM算法的门诊量预测系统及预测方法，属于数据处理领域。本发明在构造了时间特征、门诊量特征以及关键字百度指数三类特征后，利用遗传算法对多种特征进行综合筛选，在此基础上使用LightGBM算法对数据进行训练，建立了某疾病某科室的门诊量的预测模型。通过在测试数据集上对模型的预测性能进行测试，结果表明该模型能够对门诊量作出较为准确的预测，模型的可解释程度也相对较好。

Description

基于LightGBM算法的门诊量预测系统及预测方法

技术领域

本发明属于数据处理技术领域，涉及一种基于LightGBM算法的门诊量预测系统及预测方法。

背景技术

目前，在门诊量预测方面应用的方法大致可以分为两类，即基于时间序列分析的方法和基于机器学习的方法。其中，基于时间序列分析的方法是目前应用的最为广泛的一类方法，主要包括ARMA模型、ARIMA模型以及小波分析等，其基本思想是利用历史数据分析随机序列的模式，进而对未来时间点上的门诊量进行估计。这种方法的优点在于能够充分利用历史数据，分析研究其变化规律，但缺点也十分明显，即仅仅将医院门诊量看作是一组随机序列，而忽略了其他的要素对门诊量的影响。近年来随着人工智能和深度学习的兴起，部分学者开始尝试使用机器学习的方法来对医院的门诊量进行预测并取得了一定的成功。但是目前在该领域，大多数学者所使用的特征大多仍为门诊量自身，未能更多的借助于外部数据。

近年来，随着信息技术的不断发展，使得人们生活的方方面面都发生了翻天覆地的变化。在医疗卫生健康方面，信息技术不仅通过就医卡、移动支付等手段使得就医过程变得更加简单、便捷和安全，同时也使得人们的就医习惯发生了改变。人们在前往医院就诊之前，往往会使用搜索引擎和各类移动App对自己的症状、医院的科室以及相关的知名医师等信息进行搜索。因此，不难推断，特定关键词的检索与病患的就医行为之间可能存在着某种关联关系。但是，当前还鲜有关于此类方法的相关研究。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于LightGBM算法的门诊量预测系统及预测方法，能够充分利用多种外在信息，精准预测某疾病在多种尺度下的门诊量，从而提高医院的管理水平，提升应急处置能力。

为了达到上述目的，本发明采用以下技术方案予以实现：

本发明公开的一种基于LightGBM算法的门诊量预测系统，包括数据预处理模块、特征构建模块、特征选择模块和模型训练模块；其中：

数据预处理模块，用于从原始门诊信息中提取原始门诊量数据；

特征构建模块，用于将原始门诊量数据，以及包含时间信息和百度指数信息的外部数据分别构建得到门诊量特征、时间特征和关键字百度指数特征；

特征选择模块，用于从门诊量特征、时间特征和关键字百度指数特征中选取相关系数≥0.1且置信概率≤0.005的特征，再利用遗传算法，进行筛选确认，获得样本特征；

模型训练模块，用于利用样本特征在训练数据集上使用LightGBM算法对预测模型进行训练，构建得到基于LightGBM的门诊量预测模型。

优选地，数据预处理模块中，从原始门诊信息中提取原始门诊量数据是指移除具有规律性的人员数据和错误的门诊数据。

进一步优选地，原始门诊信息包括门诊用户的来访日期、病人ID、诊断信息以及疾病信息；所述的具有规律性的人员数据包括取药人员、开药人员、复诊人员和复查人员；所述的错误的门诊数据包括挂错号人员、fuchsa人员、fuccha人员和买药人员。其中，fuchsa人员、fuccha人员由于医生个人笔误造成的结果。

优选地，特征构建模块中，构建的时间特征为：当天是否为休息日、当天所在假期的长度、当天到前/后一个假期的时间间隔、当天前/后一个假期的长度、当天是否为周一/二/三/四/五/六/日；

构建的门诊量特征为：一定时间间隔的门诊量特征、一定时间间隔的一定时间范围内的门诊量的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值；

构建的关键字百度指数特征为：利用爬虫获取的与某项疾病相关的关键字的百度指数，然后根据该百度指数计算与当天具有一定时间间隔且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值。

本发明还公开了采用上述的基于LightGBM算法的疾病门诊量预测系统进行疾病门诊量预测的方法，包括以下步骤：

1)数据预处理

获取某疾病对应某医院某科室的原始门诊信息，从该原始门诊信息中提取原始门诊量数据；

2)特征构建

结合经过数据预处理的原始门诊量数据，以及从外部数据中引入的时间信息数据和关键字百度指数信息数据，分别构建得到门诊量特征、时间特征及关键字百度指数特征；

3)特征选择

从步骤2)构建的三类特征中，先选取相关系数≥0.1且置信概率≤0.005的特征，再利用遗传算法，进行筛选确认，获得样本特征；

4)模型训练

利用样本特征，在训练数据集上使用LightGBM算法对预测模型进行训练，构造基于LightGBM的疾病门诊量预测模型，获得某疾病的门诊量预测数据。

优选地，步骤3)特征选择具体方法包括：

(1)初始化种群

从相关系数大于等于0.1的特征中，随机抽取12个特征构建数量为200的种群，个体基因使用固定长度的二进制编码表示，1表示包含某个特征，0表示不包含这个特征；

(2)计算适应度函数

利用上述随机抽取的12个特征构建线性回归模型，预测门诊量，之后使用该线性回归模型的R2指标作为适应度函数；

(3)锦标赛选择

在种群中随机选取5个个体，选取适应度函数最高的2个作为亲代个体；

(4)单点均匀交叉

将选取的2个亲代个体依均匀分布随时选取交叉位置，执行单点均匀交叉，产生2个子代个体；

(5)高斯变异

对2个子代个体执行变异操作，变异率设置为0.01，即子代个体每个基因都有0.01的概率被替换为一个随机数，这个随机数服从均值为0、标准差为1的高斯分布；被随机数替换后，会截断到0或1，以维持原来的二进制编码；

(6)拥挤替换

对于每个子代个体，在种群中先随机选取5个亲代个体，分别计算子代个体与这5个亲代个体的欧几里得距离，如果欧几里得距离最小的亲代个体的适应度小于子代个体，那么用子代个体替换亲代个体；

(7)判断

进化500代后计算终止。

优选地，采用微软发布的LightGBM工具包实现LightGBM算法

与现有技术相比，本发明具有以下有益效果：

1、训练的特征更加丰富

传统的门诊量预测模型，在模型训练过程中仅仅使用了的门诊量特征，用于预测的信息十分有限。本发明的预测系统结合当前互联网用户的就医行为特点，综合使用了门诊量特征、时间特征以及检索关键字的百度指数特征三类特征，对某疾病的门诊量进行预测，特征的类型更加多样，特征的维度更加丰富，为模型预测能力的提升奠定了坚实的基础。

2、模型的预测准确率和精度更高

传统的门诊量预测模型大都使用的是时间序列分析算法，预测的门诊量大多以月或季度为单位，时间粒度十分粗糙。而本发明使用了集成算法——LightGBM算法，其特征和模型的复杂度都能够得到有效的运用，进而从根本上提升模型的预测能力，确保了本发明提出的算法能够以天为单位进行较为精细的预测，模型预测的准确度和精度有了较大程度的提升。

3、系统的扩展性和泛化能力强

本发明提出的基于LightGBM的门诊量预测模型，除了使用门诊量和时间特征外，也将检索关键字的百度指数特征引入到模型中。这一特点极大地提升了模型的可扩展能力，通过引入更多的关键字的百度指数可以进一步优化模型的预测能力。使用该模型预测各种疾病相关科室的门诊量时，只需通过调整检索关键字，而无需对模型的整体结构进行较大的调整。

附图说明

图1为本发明的系统框架示意图；

图2为使用遗传算法挑选特征的算法流程图；

图3为LightBGM分裂算法的算法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明公开的一种基于LightGBM算法的疾病门诊量预测系统，包括数据预处理模块、特征构建模块、特征选择模块和模型训练模块；其中：

数据预处理模块，用于对原始门诊信息进行处理，移除具有规律性的人员数据和错误的门诊数据，得到原始门诊信息；

特征选择模块，用于从门诊量特征、时间特征和关键字搜索指数特征中选取相关系数≥0.1且置信概率≤0.005的特征，再利用遗传算法，进行筛选确认，获得样本特征；

模型训练模块，用于在训练数据集上使用LightGBM算法对预测模型进行训练，构造基于LightGBM的门诊量预测模型。

其中，获取到的原始门诊信息主要包括门诊用户的来访日期、病人ID、诊断信息以及疾病信息。首先，对获取到的精神科门诊量进行排查，从中移除具有规律性的人员数据以及错误的门诊数据，具体而言包括涵盖“取药”、“开药”、“复诊”、“复查”、“挂错号”、“fuchsa”、“fuccha”和“买药”等关键字的门诊信息。然后，统计过滤上述信息之后的每日门诊量。

所使用的特征主要包括三类特征，分别是时间特征、门诊量特征以及关键字百度指数特征。构建过程如下：

1)时间特征构建

本发明所使用特征包括：当天是否为休息日、当天所在假期的长度、当天到前/后一个假期的时间间隔、当天前/后一个假期的长度、当天是否为周一/二/三/四/五/六/日。所选取的时间特征如表1所示。

表1时间特征

2)门诊量特征构建

本发明所使用的门诊量特征包括：一定时间间隔的门诊量特征、一定时间间隔的一定时间范围内的门诊量的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值等。所选择的门诊量特征的具体内容情况如表2所示。

表2门诊量特征

3)关键字的百度指数特征构建

首先利用爬虫获取了与该疾病相关的若干关键字百度指数，然后利用获取到的百度指数，计算与当天有一定时间间隔，且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值等。具体如表3：

表3关键字的百度指数特征

对构建的特征进行选择，方法如下：

首先从构建的上述特征中，选取相关系数大于等于0.1且置信概率小于等于0.005的特征。之后，利用遗传算法，将线性回归的R²指标作为目标函数，将12个特征作为约束条件，对特征进行进一步的筛选(如图2所示)。具体而言：

·初始化种群。从上述相关系数大于等于0.1的特征中，随机抽取12个特征构建数量为200的种群。个体基因使用固定长度的二进制编码表示，1表示包含某个特征，0表示不包含这个特征。

·计算适应度函数。利用这些特征构建线性回归模型，预测精神科门诊量，之后使用该模型的R2指标作为适应度函数。

·锦标赛选择。在种群中随机选取5个个体，选取适应度函数最高的2个作为亲代。

·单点均匀交叉。上述步骤选取的2个亲代个体，依均匀分布随时选取交叉位置，执行单点均匀交叉，产生2个子代个体。

·高斯变异。对2个子代个体执行变异操作，变异率设置为0.01，即子代每个基因都有0.01的概率被替换为一个随机数，这个随机数服从均值为0，标准差为1的高斯分布。被随机数替换后，会截断到0或1，以维持原来的二进制编码。

·拥挤替换。该步骤将新产生的2个子代加入的原种群。具体操作为，对于每个子代个体，在种群中先随机选取5个亲代个体，分别计算子代与这5个亲代个体的欧几里得距离，如果距离最小的亲代个体的适应度小于子代个体，那么用子代替换亲代。

·判断。进化500代后计算终止。

上述遗传算法使用Python中的Inspyred工具包实现。

最后，利用样本特征，在训练数据集上使用LightGBM算法进行训练，构造基于LightGBM的门诊量预测模型，获得某疾病的门诊量预测数据。

其中，训练数据集为历史的门诊数据及其特征构成，主要用于调整预测模型的各类参数，进而提升模型的预测准确率。

如图3所示，LightGBM的实现采用微软发布的LightGBM工具包(可从https://github.com/Microsoft/LightGBM下载)实现。

具体地，由于近年来人们对精神类疾病的关注程度越来越高，由于对精神障碍人群的就医行为规律缺乏足够的认知，因此在精神科的日常就医准备过程中，对于医务人员的分配采用的较多方法仍然是传统的轮休制度与值班制度相结合的方式。这种方式虽然在一定程度上能够较好地解决了医生的工作与休息问题，但是当患者的数量发生较大变化时，医疗资源分配不均衡的问题就会变得极为突出。这不仅影响了病患的就医体验，同时也给医生带来的极大的工作负担。本发明的上述方法以精神科疾病为例，进行说明，具体如下：

某医院精神科门诊量的数据为2016年1月1日-2018年10月1日期间某医院精神科的门诊量，其中2016年1月1日-2017年12月31日为训练数据，2018年1月1日-2018年10月31日的为测试数据，原始数据如表4所示：

表4精神科门诊原始数据(2016年1月1日-2018年10月31日)

具体门诊量预测方法如下：

步骤一：数据清洗和门诊量统计

数据清洗之后的数据如表5所示：

表5清洗后的数据(部分)

步骤二：特征构建

1)时间特征

构建的时间特征(部分)如表6所示：

表6时间特征(部分)

2)门诊量特征

构建的门诊量特征(部分)如表7所示：

表7门诊量特征(部分)

3)关键字的百度指数特征

首先利用爬虫获取了与精神疾病相关的74个关键字的百度指数；然后利用获取到的百度指数，计算与当天有一定时间间隔，且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值。本发明所选取的特征如表3所示，所使用的关键字包括：**医院、精神科、精神病、抑郁、紧张、焦虑、失眠、抑郁症、自杀、沉默、痛苦、噩梦、烦恼、解脱、绝望、沮丧、煎熬、压抑、郁闷、寂寞、多梦、便秘、烦、疲劳、累、纠结、自闭、健忘、呆滞、情绪低落、幻听、敏感、去死、死了、释怀、珍惜、心理、诅咒、头晕、发呆、记忆力下降、担心、乏力、头疼、头痛、胸闷、烦躁、心慌、身体不适、悲观、消极、心悸、气短、心率不齐、消化不良、睡不着、呕吐、矫情、逼、死、杀、生命、刀、世界、哭、心跳快、困难、希望、怒、发脾气、别人、不喜欢、性功能、疑神疑鬼。

使用上述关键字获得的关键字百度指数特征(部分)如表8所示：

表8关键字的百度指数特征(部分)

步骤三：特征选择

使用遗传算法，以线性回归的R²作为目标函数，以特征数量作为约束，选择使得R²最大的12个特征，在本例中得到的特征如表9所示：

表9特征选择的结果

步骤四：模型训练

在训练数据集上，使用LightGBM算法对门诊量特征进行训练，构造基于LightGBM的精神科门诊量预测模型。之后使用训练好的模型对2018年1月1日-2019年10月31日的门诊量进行预测，预测的结果如表10所示：

表10模型训练的结果

从中可见，本发明提出的基于LightGBM门诊量的预测方法，能够较为精准的预测该医院精神科的门诊量，在均方根误差(root mean square error，RMSE)指标上，训练集上的训练结果能够达到14.9，测试集上的结果为24.1；在R²指标上，训练集上的训练结果达到了91.2％，测试集上的结果为82.11％，说明该模型的可解释程度已经超过了82％。

综上所述，本发明提出了一种基于LightGBM的门诊量预测系统，该系统能够以较小的时间单位粒度和较高的准确程度预测某疾病某科室的门诊量，极大地提高了医院的医疗卫生管理水平和应急处置能力。同时由于采用了检索关键字的百度指数特征，使得模型的可扩展能力大大增强。本发明公开的预测方法，在构造了时间特征、门诊量特征以及特定关键字的百度指数三类特征后，利用遗传算法对多种特征进行综合筛选，在此基础上使用LightGBM算法对数据进行训练，建立了某疾病某科室的门诊量的预测模型。通过在测试数据集上对模型的预测性能进行测试，结果表明该模型能够对门诊量作出较为准确的预测，模型的可解释程度也相对较好。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于LightGBM算法的门诊量预测系统，其特征在于，包括数据预处理模块、特征构建模块、特征选择模块和模型训练模块；其中：

模型训练模块，用于利用样本特征在训练数据集上使用LightGBM算法对预测模型进行训练，构建得到基于LightGBM的门诊量预测模型；

其中，特征构建模块中，构建的时间特征为：当天是否为休息日、当天所在假期的长度、当天到前/后一个假期的时间间隔、当天前/后一个假期的长度、当天是否为周一/二/三/四/五/六/日；

2.根据权利要求1所述的基于LightGBM算法的门诊量预测系统，其特征在于，数据预处理模块中，从原始门诊信息中提取原始门诊量数据是指移除具有规律性的人员数据和错误的门诊数据。

3.根据权利要求2所述的基于LightGBM算法的门诊量预测系统，其特征在于，原始门诊信息包括门诊用户的来访日期、病人ID、诊断信息以及疾病信息；所述的具有规律性的人员数据包括取药人员、开药人员、复诊人员和复查人员；所述的错误的门诊数据包括挂错号人员、fuchsa人员、fuccha人员和买药人员；

其中，fuchsa人员、fuccha人员是由于医生个人笔误造成的结果。

4.采用权利要求1～3中任意一项所述的基于LightGBM算法的门诊量预测系统进行疾病门诊量预测的方法，其特征在于，包括以下步骤：