CN110046757B - 基于LightGBM算法的门诊量预测系统及预测方法 - Google Patents

基于LightGBM算法的门诊量预测系统及预测方法 Download PDF

Info

Publication number
CN110046757B
CN110046757B CN201910276901.6A CN201910276901A CN110046757B CN 110046757 B CN110046757 B CN 110046757B CN 201910276901 A CN201910276901 A CN 201910276901A CN 110046757 B CN110046757 B CN 110046757B
Authority
CN
China
Prior art keywords
data
clinic
outpatient
personnel
lightgbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910276901.6A
Other languages
English (en)
Other versions
CN110046757A (zh
Inventor
刘健
张瑶
张翼飞
李宝娟
黄鹏
韦磊
尚子田
宁玉文
张军超
靳豪杰
许浩
唐甜
冯健飞
沈霞娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fourth Military Medical University FMMU
Original Assignee
Fourth Military Medical University FMMU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fourth Military Medical University FMMU filed Critical Fourth Military Medical University FMMU
Priority to CN201910276901.6A priority Critical patent/CN110046757B/zh
Publication of CN110046757A publication Critical patent/CN110046757A/zh
Application granted granted Critical
Publication of CN110046757B publication Critical patent/CN110046757B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于LightGBM算法的门诊量预测系统及预测方法,属于数据处理领域。本发明在构造了时间特征、门诊量特征以及关键字百度指数三类特征后,利用遗传算法对多种特征进行综合筛选,在此基础上使用LightGBM算法对数据进行训练,建立了某疾病某科室的门诊量的预测模型。通过在测试数据集上对模型的预测性能进行测试,结果表明该模型能够对门诊量作出较为准确的预测,模型的可解释程度也相对较好。

Description

基于LightGBM算法的门诊量预测系统及预测方法
技术领域
本发明属于数据处理技术领域,涉及一种基于LightGBM算法的门诊量预测系统及预测方法。
背景技术
目前,在门诊量预测方面应用的方法大致可以分为两类,即基于时间序列分析的方法和基于机器学习的方法。其中,基于时间序列分析的方法是目前应用的最为广泛的一类方法,主要包括ARMA模型、ARIMA模型以及小波分析等,其基本思想是利用历史数据分析随机序列的模式,进而对未来时间点上的门诊量进行估计。这种方法的优点在于能够充分利用历史数据,分析研究其变化规律,但缺点也十分明显,即仅仅将医院门诊量看作是一组随机序列,而忽略了其他的要素对门诊量的影响。近年来随着人工智能和深度学习的兴起,部分学者开始尝试使用机器学习的方法来对医院的门诊量进行预测并取得了一定的成功。但是目前在该领域,大多数学者所使用的特征大多仍为门诊量自身,未能更多的借助于外部数据。
近年来,随着信息技术的不断发展,使得人们生活的方方面面都发生了翻天覆地的变化。在医疗卫生健康方面,信息技术不仅通过就医卡、移动支付等手段使得就医过程变得更加简单、便捷和安全,同时也使得人们的就医习惯发生了改变。人们在前往医院就诊之前,往往会使用搜索引擎和各类移动App对自己的症状、医院的科室以及相关的知名医师等信息进行搜索。因此,不难推断,特定关键词的检索与病患的就医行为之间可能存在着某种关联关系。但是,当前还鲜有关于此类方法的相关研究。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于LightGBM算法的门诊量预测系统及预测方法,能够充分利用多种外在信息,精准预测某疾病在多种尺度下的门诊量,从而提高医院的管理水平,提升应急处置能力。
为了达到上述目的,本发明采用以下技术方案予以实现:
本发明公开的一种基于LightGBM算法的门诊量预测系统,包括数据预处理模块、特征构建模块、特征选择模块和模型训练模块;其中:
数据预处理模块,用于从原始门诊信息中提取原始门诊量数据;
特征构建模块,用于将原始门诊量数据,以及包含时间信息和百度指数信息的外部数据分别构建得到门诊量特征、时间特征和关键字百度指数特征;
特征选择模块,用于从门诊量特征、时间特征和关键字百度指数特征中选取相关系数≥0.1且置信概率≤0.005的特征,再利用遗传算法,进行筛选确认,获得样本特征;
模型训练模块,用于利用样本特征在训练数据集上使用LightGBM算法对预测模型进行训练,构建得到基于LightGBM的门诊量预测模型。
优选地,数据预处理模块中,从原始门诊信息中提取原始门诊量数据是指移除具有规律性的人员数据和错误的门诊数据。
进一步优选地,原始门诊信息包括门诊用户的来访日期、病人ID、诊断信息以及疾病信息;所述的具有规律性的人员数据包括取药人员、开药人员、复诊人员和复查人员;所述的错误的门诊数据包括挂错号人员、fuchsa人员、fuccha人员和买药人员。其中,fuchsa人员、fuccha人员由于医生个人笔误造成的结果。
优选地,特征构建模块中,构建的时间特征为:当天是否为休息日、当天所在假期的长度、当天到前/后一个假期的时间间隔、当天前/后一个假期的长度、当天是否为周一/二/三/四/五/六/日;
构建的门诊量特征为:一定时间间隔的门诊量特征、一定时间间隔的一定时间范围内的门诊量的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值;
构建的关键字百度指数特征为:利用爬虫获取的与某项疾病相关的关键字的百度指数,然后根据该百度指数计算与当天具有一定时间间隔且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值。
本发明还公开了采用上述的基于LightGBM算法的疾病门诊量预测系统进行疾病门诊量预测的方法,包括以下步骤:
1)数据预处理
获取某疾病对应某医院某科室的原始门诊信息,从该原始门诊信息中提取原始门诊量数据;
2)特征构建
结合经过数据预处理的原始门诊量数据,以及从外部数据中引入的时间信息数据和关键字百度指数信息数据,分别构建得到门诊量特征、时间特征及关键字百度指数特征;
3)特征选择
从步骤2)构建的三类特征中,先选取相关系数≥0.1且置信概率≤0.005的特征,再利用遗传算法,进行筛选确认,获得样本特征;
4)模型训练
利用样本特征,在训练数据集上使用LightGBM算法对预测模型进行训练,构造基于LightGBM的疾病门诊量预测模型,获得某疾病的门诊量预测数据。
优选地,步骤3)特征选择具体方法包括:
(1)初始化种群
从相关系数大于等于0.1的特征中,随机抽取12个特征构建数量为200的种群,个体基因使用固定长度的二进制编码表示,1表示包含某个特征,0表示不包含这个特征;
(2)计算适应度函数
利用上述随机抽取的12个特征构建线性回归模型,预测门诊量,之后使用该线性回归模型的R2指标作为适应度函数;
(3)锦标赛选择
在种群中随机选取5个个体,选取适应度函数最高的2个作为亲代个体;
(4)单点均匀交叉
将选取的2个亲代个体依均匀分布随时选取交叉位置,执行单点均匀交叉,产生2个子代个体;
(5)高斯变异
对2个子代个体执行变异操作,变异率设置为0.01,即子代个体每个基因都有0.01的概率被替换为一个随机数,这个随机数服从均值为0、标准差为1的高斯分布;被随机数替换后,会截断到0或1,以维持原来的二进制编码;
(6)拥挤替换
对于每个子代个体,在种群中先随机选取5个亲代个体,分别计算子代个体与这5个亲代个体的欧几里得距离,如果欧几里得距离最小的亲代个体的适应度小于子代个体,那么用子代个体替换亲代个体;
(7)判断
进化500代后计算终止。
优选地,采用微软发布的LightGBM工具包实现LightGBM算法
与现有技术相比,本发明具有以下有益效果:
1、训练的特征更加丰富
传统的门诊量预测模型,在模型训练过程中仅仅使用了的门诊量特征,用于预测的信息十分有限。本发明的预测系统结合当前互联网用户的就医行为特点,综合使用了门诊量特征、时间特征以及检索关键字的百度指数特征三类特征,对某疾病的门诊量进行预测,特征的类型更加多样,特征的维度更加丰富,为模型预测能力的提升奠定了坚实的基础。
2、模型的预测准确率和精度更高
传统的门诊量预测模型大都使用的是时间序列分析算法,预测的门诊量大多以月或季度为单位,时间粒度十分粗糙。而本发明使用了集成算法——LightGBM算法,其特征和模型的复杂度都能够得到有效的运用,进而从根本上提升模型的预测能力,确保了本发明提出的算法能够以天为单位进行较为精细的预测,模型预测的准确度和精度有了较大程度的提升。
3、系统的扩展性和泛化能力强
本发明提出的基于LightGBM的门诊量预测模型,除了使用门诊量和时间特征外,也将检索关键字的百度指数特征引入到模型中。这一特点极大地提升了模型的可扩展能力,通过引入更多的关键字的百度指数可以进一步优化模型的预测能力。使用该模型预测各种疾病相关科室的门诊量时,只需通过调整检索关键字,而无需对模型的整体结构进行较大的调整。
附图说明
图1为本发明的系统框架示意图;
图2为使用遗传算法挑选特征的算法流程图;
图3为LightBGM分裂算法的算法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明公开的一种基于LightGBM算法的疾病门诊量预测系统,包括数据预处理模块、特征构建模块、特征选择模块和模型训练模块;其中:
数据预处理模块,用于对原始门诊信息进行处理,移除具有规律性的人员数据和错误的门诊数据,得到原始门诊信息;
特征构建模块,用于将原始门诊量数据,以及包含时间信息和百度指数信息的外部数据分别构建得到门诊量特征、时间特征和关键字百度指数特征;
特征选择模块,用于从门诊量特征、时间特征和关键字搜索指数特征中选取相关系数≥0.1且置信概率≤0.005的特征,再利用遗传算法,进行筛选确认,获得样本特征;
模型训练模块,用于在训练数据集上使用LightGBM算法对预测模型进行训练,构造基于LightGBM的门诊量预测模型。
其中,获取到的原始门诊信息主要包括门诊用户的来访日期、病人ID、诊断信息以及疾病信息。首先,对获取到的精神科门诊量进行排查,从中移除具有规律性的人员数据以及错误的门诊数据,具体而言包括涵盖“取药”、“开药”、“复诊”、“复查”、“挂错号”、“fuchsa”、“fuccha”和“买药”等关键字的门诊信息。然后,统计过滤上述信息之后的每日门诊量。
所使用的特征主要包括三类特征,分别是时间特征、门诊量特征以及关键字百度指数特征。构建过程如下:
1)时间特征构建
本发明所使用特征包括:当天是否为休息日、当天所在假期的长度、当天到前/后一个假期的时间间隔、当天前/后一个假期的长度、当天是否为周一/二/三/四/五/六/日。所选取的时间特征如表1所示。
表1时间特征
Figure BDA0002020325330000071
2)门诊量特征构建
本发明所使用的门诊量特征包括:一定时间间隔的门诊量特征、一定时间间隔的一定时间范围内的门诊量的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值等。所选择的门诊量特征的具体内容情况如表2所示。
表2门诊量特征
Figure BDA0002020325330000072
Figure BDA0002020325330000081
3)关键字的百度指数特征构建
首先利用爬虫获取了与该疾病相关的若干关键字百度指数,然后利用获取到的百度指数,计算与当天有一定时间间隔,且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值等。具体如表3:
表3关键字的百度指数特征
Figure BDA0002020325330000082
对构建的特征进行选择,方法如下:
首先从构建的上述特征中,选取相关系数大于等于0.1且置信概率小于等于0.005的特征。之后,利用遗传算法,将线性回归的R2指标作为目标函数,将12个特征作为约束条件,对特征进行进一步的筛选(如图2所示)。具体而言:
·初始化种群。从上述相关系数大于等于0.1的特征中,随机抽取12个特征构建数量为200的种群。个体基因使用固定长度的二进制编码表示,1表示包含某个特征,0表示不包含这个特征。
·计算适应度函数。利用这些特征构建线性回归模型,预测精神科门诊量,之后使用该模型的R2指标作为适应度函数。
·锦标赛选择。在种群中随机选取5个个体,选取适应度函数最高的2个作为亲代。
·单点均匀交叉。上述步骤选取的2个亲代个体,依均匀分布随时选取交叉位置,执行单点均匀交叉,产生2个子代个体。
·高斯变异。对2个子代个体执行变异操作,变异率设置为0.01,即子代每个基因都有0.01的概率被替换为一个随机数,这个随机数服从均值为0,标准差为1的高斯分布。被随机数替换后,会截断到0或1,以维持原来的二进制编码。
·拥挤替换。该步骤将新产生的2个子代加入的原种群。具体操作为,对于每个子代个体,在种群中先随机选取5个亲代个体,分别计算子代与这5个亲代个体的欧几里得距离,如果距离最小的亲代个体的适应度小于子代个体,那么用子代替换亲代。
·判断。进化500代后计算终止。
上述遗传算法使用Python中的Inspyred工具包实现。
最后,利用样本特征,在训练数据集上使用LightGBM算法进行训练,构造基于LightGBM的门诊量预测模型,获得某疾病的门诊量预测数据。
其中,训练数据集为历史的门诊数据及其特征构成,主要用于调整预测模型的各类参数,进而提升模型的预测准确率。
如图3所示,LightGBM的实现采用微软发布的LightGBM工具包(可从https://github.com/Microsoft/LightGBM下载)实现。
具体地,由于近年来人们对精神类疾病的关注程度越来越高,由于对精神障碍人群的就医行为规律缺乏足够的认知,因此在精神科的日常就医准备过程中,对于医务人员的分配采用的较多方法仍然是传统的轮休制度与值班制度相结合的方式。这种方式虽然在一定程度上能够较好地解决了医生的工作与休息问题,但是当患者的数量发生较大变化时,医疗资源分配不均衡的问题就会变得极为突出。这不仅影响了病患的就医体验,同时也给医生带来的极大的工作负担。本发明的上述方法以精神科疾病为例,进行说明,具体如下:
某医院精神科门诊量的数据为2016年1月1日-2018年10月1日期间某医院精神科的门诊量,其中2016年1月1日-2017年12月31日为训练数据,2018年1月1日-2018年10月31日的为测试数据,原始数据如表4所示:
表4精神科门诊原始数据(2016年1月1日-2018年10月31日)
Figure BDA0002020325330000101
Figure BDA0002020325330000111
具体门诊量预测方法如下:
步骤一:数据清洗和门诊量统计
数据清洗之后的数据如表5所示:
表5清洗后的数据(部分)
Figure BDA0002020325330000112
步骤二:特征构建
1)时间特征
构建的时间特征(部分)如表6所示:
表6时间特征(部分)
Figure BDA0002020325330000113
2)门诊量特征
构建的门诊量特征(部分)如表7所示:
表7门诊量特征(部分)
Figure BDA0002020325330000121
3)关键字的百度指数特征
首先利用爬虫获取了与精神疾病相关的74个关键字的百度指数;然后利用获取到的百度指数,计算与当天有一定时间间隔,且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值。本发明所选取的特征如表3所示,所使用的关键字包括:**医院、精神科、精神病、抑郁、紧张、焦虑、失眠、抑郁症、自杀、沉默、痛苦、噩梦、烦恼、解脱、绝望、沮丧、煎熬、压抑、郁闷、寂寞、多梦、便秘、烦、疲劳、累、纠结、自闭、健忘、呆滞、情绪低落、幻听、敏感、去死、死了、释怀、珍惜、心理、诅咒、头晕、发呆、记忆力下降、担心、乏力、头疼、头痛、胸闷、烦躁、心慌、身体不适、悲观、消极、心悸、气短、心率不齐、消化不良、睡不着、呕吐、矫情、逼、死、杀、生命、刀、世界、哭、心跳快、困难、希望、怒、发脾气、别人、不喜欢、性功能、疑神疑鬼。
使用上述关键字获得的关键字百度指数特征(部分)如表8所示:
表8关键字的百度指数特征(部分)
Figure BDA0002020325330000122
Figure BDA0002020325330000131
步骤三:特征选择
使用遗传算法,以线性回归的R2作为目标函数,以特征数量作为约束,选择使得R2最大的12个特征,在本例中得到的特征如表9所示:
表9特征选择的结果
Figure BDA0002020325330000132
步骤四:模型训练
在训练数据集上,使用LightGBM算法对门诊量特征进行训练,构造基于LightGBM的精神科门诊量预测模型。之后使用训练好的模型对2018年1月1日-2019年10月31日的门诊量进行预测,预测的结果如表10所示:
表10模型训练的结果
Figure BDA0002020325330000141
从中可见,本发明提出的基于LightGBM门诊量的预测方法,能够较为精准的预测该医院精神科的门诊量,在均方根误差(root mean square error,RMSE)指标上,训练集上的训练结果能够达到14.9,测试集上的结果为24.1;在R2指标上,训练集上的训练结果达到了91.2%,测试集上的结果为82.11%,说明该模型的可解释程度已经超过了82%。
综上所述,本发明提出了一种基于LightGBM的门诊量预测系统,该系统能够以较小的时间单位粒度和较高的准确程度预测某疾病某科室的门诊量,极大地提高了医院的医疗卫生管理水平和应急处置能力。同时由于采用了检索关键字的百度指数特征,使得模型的可扩展能力大大增强。本发明公开的预测方法,在构造了时间特征、门诊量特征以及特定关键字的百度指数三类特征后,利用遗传算法对多种特征进行综合筛选,在此基础上使用LightGBM算法对数据进行训练,建立了某疾病某科室的门诊量的预测模型。通过在测试数据集上对模型的预测性能进行测试,结果表明该模型能够对门诊量作出较为准确的预测,模型的可解释程度也相对较好。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (6)

1.一种基于LightGBM算法的门诊量预测系统,其特征在于,包括数据预处理模块、特征构建模块、特征选择模块和模型训练模块;其中:
数据预处理模块,用于从原始门诊信息中提取原始门诊量数据;
特征构建模块,用于将原始门诊量数据,以及包含时间信息和百度指数信息的外部数据分别构建得到门诊量特征、时间特征和关键字百度指数特征;
特征选择模块,用于从门诊量特征、时间特征和关键字百度指数特征中选取相关系数≥0.1且置信概率≤0.005的特征,再利用遗传算法,进行筛选确认,获得样本特征;
模型训练模块,用于利用样本特征在训练数据集上使用LightGBM算法对预测模型进行训练,构建得到基于LightGBM的门诊量预测模型;
其中,特征构建模块中,构建的时间特征为:当天是否为休息日、当天所在假期的长度、当天到前/后一个假期的时间间隔、当天前/后一个假期的长度、当天是否为周一/二/三/四/五/六/日;
构建的门诊量特征为:一定时间间隔的门诊量特征、一定时间间隔的一定时间范围内的门诊量的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值;
构建的关键字百度指数特征为:利用爬虫获取的与某项疾病相关的关键字的百度指数,然后根据该百度指数计算与当天具有一定时间间隔且在一定时间范围内的百度指数的均值、方差、标准差、偏度、峰度、中位数、最大值以及最小值。
2.根据权利要求1所述的基于LightGBM算法的门诊量预测系统,其特征在于,数据预处理模块中,从原始门诊信息中提取原始门诊量数据是指移除具有规律性的人员数据和错误的门诊数据。
3.根据权利要求2所述的基于LightGBM算法的门诊量预测系统,其特征在于,原始门诊信息包括门诊用户的来访日期、病人ID、诊断信息以及疾病信息;所述的具有规律性的人员数据包括取药人员、开药人员、复诊人员和复查人员;所述的错误的门诊数据包括挂错号人员、fuchsa人员、fuccha人员和买药人员;
其中,fuchsa人员、fuccha人员是由于医生个人笔误造成的结果。
4.采用权利要求1~3中任意一项所述的基于LightGBM算法的门诊量预测系统进行疾病门诊量预测的方法,其特征在于,包括以下步骤:
1)数据预处理
获取某疾病对应某医院某科室的原始门诊信息,从该原始门诊信息中提取原始门诊量数据;
2)特征构建
结合经过数据预处理的原始门诊量数据,以及从外部数据中引入的时间信息数据和关键字百度指数信息数据,分别构建得到门诊量特征、时间特征及关键字百度指数特征;
3)特征选择
从步骤2)构建的三类特征中,先选取相关系数≥0.1且置信概率≤0.005的特征,再利用遗传算法,进行筛选确认,获得样本特征;
4)模型训练
利用样本特征,在训练数据集上使用LightGBM算法对预测模型进行训练,构造基于LightGBM的疾病门诊量预测模型,获得某疾病的门诊量预测数据。
5.根据权利要求4所述的基于LightGBM算法的门诊量预测系统进行疾病门诊量预测的方法,其特征在于,步骤3)特征选择具体方法包括:
(1)初始化种群
从相关系数大于等于0.1的特征中,随机抽取12个特征构建数量为200的种群,个体基因使用固定长度的二进制编码表示,1表示包含某个特征,0表示不包含这个特征;
(2)计算适应度函数
利用上述随机抽取的12个特征构建线性回归模型,预测门诊量,之后使用该线性回归模型的R2指标作为适应度函数;
(3)锦标赛选择
在种群中随机选取5个个体,选取适应度函数最高的2个作为亲代个体;
(4)单点均匀交叉
将选取的2个亲代个体依均匀分布随时选取交叉位置,执行单点均匀交叉,产生2个子代个体;
(5)高斯变异
对2个子代个体执行变异操作,变异率设置为0.01,即子代个体每个基因都有0.01的概率被替换为一个随机数,这个随机数服从均值为0、标准差为1的高斯分布;被随机数替换后,会截断到0或1,以维持原来的二进制编码;
(6)拥挤替换
对于每个子代个体,在种群中先随机选取5个亲代个体,分别计算子代个体与这5个亲代个体的欧几里得距离,如果欧几里得距离最小的亲代个体的适应度小于子代个体,那么用子代个体替换亲代个体;
(7)判断
进化500代后计算终止。
6.根据权利要求4所述的基于LightGBM算法的门诊量预测系统进行疾病门诊量预测的方法,其特征在于,采用微软发布的LightGBM工具包实现LightGBM算法。
CN201910276901.6A 2019-04-08 2019-04-08 基于LightGBM算法的门诊量预测系统及预测方法 Expired - Fee Related CN110046757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910276901.6A CN110046757B (zh) 2019-04-08 2019-04-08 基于LightGBM算法的门诊量预测系统及预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910276901.6A CN110046757B (zh) 2019-04-08 2019-04-08 基于LightGBM算法的门诊量预测系统及预测方法

Publications (2)

Publication Number Publication Date
CN110046757A CN110046757A (zh) 2019-07-23
CN110046757B true CN110046757B (zh) 2022-11-29

Family

ID=67276436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910276901.6A Expired - Fee Related CN110046757B (zh) 2019-04-08 2019-04-08 基于LightGBM算法的门诊量预测系统及预测方法

Country Status (1)

Country Link
CN (1) CN110046757B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446972B (zh) * 2018-10-24 2021-08-31 电子科技大学中山学院 基于肌电信号的步态识别模型建立方法、识别方法及装置
CN111400366B (zh) * 2020-02-27 2022-12-09 西安交通大学 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统
CN112561569B (zh) * 2020-12-07 2024-02-27 上海明略人工智能(集团)有限公司 基于双模型的到店预测方法、系统、电子设备及存储介质
CN116861260A (zh) * 2023-09-04 2023-10-10 成都星云智联科技有限公司 一种基于遗传算法和LightGBM的鼓风机电机故障诊断方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115782A (ja) * 2003-10-09 2005-04-28 Terumo Corp 患者数予測システム
JP2006146762A (ja) * 2004-11-24 2006-06-08 Shimizu Corp 医療機関の患者数予測システム
WO2008005102A2 (en) * 2006-05-13 2008-01-10 Sap Ag Consistent set of interfaces derived from a business object model
US20120173267A1 (en) * 2010-12-31 2012-07-05 Julian Omidi Database System for Medical Back-Office
CN104537592A (zh) * 2014-09-26 2015-04-22 尉子旺 自我诊疗及预防保健引导系统
US20170024523A1 (en) * 2015-07-23 2017-01-26 Uptake Technologies, Inc. Requirement Forecast for Health Care Services
CN106326634A (zh) * 2016-08-09 2017-01-11 浙江工业大学 一种基于深度信念网络的医院门诊量预测方法
CN106407690B (zh) * 2016-09-28 2018-05-04 厦门理工学院 一种基于自动深度置信网络的门诊量预测方法及系统
CN107192098B (zh) * 2017-06-09 2019-10-08 重庆科技学院 医院通风调控方法及调控系统
CN107294993B (zh) * 2017-07-05 2021-02-09 重庆邮电大学 一种基于集成学习的web异常流量监测方法
US20190060766A1 (en) * 2017-08-25 2019-02-28 SixtyFive02, Inc. Systems and methods of persistent, user-adapted personas
CN108491956A (zh) * 2018-02-07 2018-09-04 链家网(北京)科技有限公司 一种经纪人离职预估系统及方法
CN108829810A (zh) * 2018-06-08 2018-11-16 东莞迪赛软件技术有限公司 面向健康舆情的文本分类方法
CN108877905B (zh) * 2018-06-12 2020-11-10 中南大学 一种基于Xgboost框架的医院门诊就诊量预测方法
CN109002904B (zh) * 2018-06-21 2020-09-08 中南大学 一种基于Prophet-ARMA的医院门诊就诊量预测方法
CN109002492B (zh) * 2018-06-27 2021-09-03 淮阴工学院 一种基于LightGBM的绩点预测方法
CN109431521A (zh) * 2018-10-12 2019-03-08 西北工业大学 一种基于音视频信息的多模态双相抑郁障碍自动检测方法
CN109524118A (zh) * 2018-11-01 2019-03-26 上海海事大学 一种基于机器学习和体检数据的妊娠期糖尿病筛查方法
CN109545386B (zh) * 2018-11-02 2021-07-20 深圳先进技术研究院 一种基于深度学习的流感时空预测方法及装置
CN109255506B (zh) * 2018-11-22 2022-05-03 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109344171A (zh) * 2018-12-21 2019-02-15 中国计量大学 一种基于数据流处理的非线性系统特征变量显著性挖掘法

Also Published As

Publication number Publication date
CN110046757A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046757B (zh) 基于LightGBM算法的门诊量预测系统及预测方法
CN108780663A (zh) 数字个性化医学平台和系统
CN110192252A (zh) 用于评估发育状况并提供覆盖度和可靠性控制的方法和装置
CN107785057B (zh) 医疗数据处理方法、装置、存储介质和计算机设备
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
CN109920547A (zh) 一种基于电子病历数据挖掘的糖尿病预测模型构建方法
CN108366763A (zh) 用于评估精神状态的方法和系统
CN110415821B (zh) 一种基于人体生理数据的健康知识推荐系统及其运行方法
WO2016120955A1 (ja) 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム
CN110115563A (zh) 一种中医证型预测系统
CN110584601B (zh) 一种老人认知功能监测和评估系统
EP3545529A1 (en) Patient status monitor and method of monitoring patient status
CN111951965B (zh) 基于时序知识图谱的全景式健康动态监测与预测系统
CN107145715B (zh) 一种基于推举算法的临床医学智能判别装置
Kavitha et al. Monitoring of diabetes with data mining via CART Method
CN109920551A (zh) 基于机器学习的自闭症儿童社会行为表现特征分析系统
Galvan-Tejada et al. Depression episodes detection in unipolar and bipolar patients: a methodology with feature extraction and feature selection with genetic algorithms using activity motion signal as information source
Overweg et al. Interpretable outcome prediction with sparse Bayesian neural networks in intensive care
CN112542242A (zh) 数据转换/症状评分
CN114943629A (zh) 一种健康管理保健服务系统及其健康管理方法
CN114141321A (zh) 一种社区老年轻度认知障碍智能随访服务推荐方法
CN114420279A (zh) 一种医疗资源推荐方法、装置、设备及存储介质
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
Yin et al. A hybrid intelligent diagnosis approach for quick screening of Alzheimer’s disease based on multiple neuropsychological rating scales
KR101274431B1 (ko) 설문 정보를 이용한 건강 상태 판단 장치 및 방법, 건강 분류 함수 생성 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221129