CN111400366B - 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 - Google Patents
一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 Download PDFInfo
- Publication number
- CN111400366B CN111400366B CN202010124669.7A CN202010124669A CN111400366B CN 111400366 B CN111400366 B CN 111400366B CN 202010124669 A CN202010124669 A CN 202010124669A CN 111400366 B CN111400366 B CN 111400366B
- Authority
- CN
- China
- Prior art keywords
- data
- interactive
- outpatient
- prediction
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Fuzzy Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统,包括:构建为用户提供的用于分析数据、选择数据和特征的交互式可视化界面;用户在前端界面选择完数据和特征,按预定时间间隔将信息传给后端,后端对原始输入特征进行更改,建立基于CatBoost的回归模型;模型建立完成后将信息传回前端界面,在可视化界面中更新特征重要程度分析和预测结果,用于帮助用户理解预测结果和交互式地挖掘数据背后的信息。本发明通过将机器学习模型与前端可视化内容结合,能够解决传统方法特征单一,可解释性不足,对于非专业领域人士难以使用,无法交互式分析等缺陷。
Description
技术领域
本发明属于门诊量预测技术领域,特别涉及一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统。
背景技术
随着计算机技术的不断发展,医疗领域也在朝着智能化和信息化的方向发展,合理的门诊量预测是现代医院对医疗资源进行智能化管理的重要前提之一,准确的门诊数量预测可以帮助医院合理配置不同科室的人手和医疗资源。
现有的医院门诊数量预测方法往往只基于某些特定的特征和数据集,或者忽视了对结果的可解释性;以往的门诊数量预测系统对医生等非计算机领域用户存在较高的操作难度,最终对模型的预测效果评估也存在不易理解等问题,无法使医生交互式的对数据进行充分挖掘和深入分析。
以下专利申请和文献提供了可参考的一种旨在对门诊数量进行预测的方法:
文献1.一种环境变化对疾病发病影响的分析预测装置(中国发明专利申请的申请号为201510170135.7);
文献2.基于深度信念网络的医院门诊量预测[J],计算机科学,20(43);
文献1提出了一种基于非参数泊松回归模型的环境变化对疾病发病率的影响的定量分析模型,并在此基础上构建基于支持向量机的环境变化对门诊量影响的预测方法;其输入数据为整理好的气象和环境污染因子的时序数据,输出数据为各科室的门诊预测量,非参数泊松回归模型模块用于构建非参数泊松回归模型、脆弱性分析、敏感性分析,并通过计算气象因子和环境污染因子与门诊人数的相关系数来衡量其影响程度。
文献2提出了一个基于深度信念网络的医院门诊量预测模型,首先用贪婪逐层的无监督算法训练整个深度信念网络,得到数据的良好特征表示,之后使用BP有监督算法微调网络参数来提高网络的预测性能;其通过将急诊、骨科、内分泌、心内科和中医科5个门诊科室的前两个时间段的门诊量作为输入,将中医科的门诊量预测作为输出。
文献1提出的方法只考虑了环境变化对于某些特定疾病发病影响的分析预测,该方法只适用于少数和环境因素影响较大的疾病,而这些疾病在医院的所有科室及下属疾病中只占据极少的一部分,无法达到对医院所有疾病的门诊数量进行预测的效果;该方法在对时间特征进行处理的时候只引入了年份和周日亚元变量来消除季节趋势的影响,忽视了月份信息和星期信息,使得模型的预测效果较差,且在实际的预测中这部分信息具有较高的特征重要程度;该方法在特征对预测结果的影响分析上只考虑了单个特征对预测结果的影响,而没有考虑到组合特征对预测结果的影响,无法衡量单个样本的特征对预测的贡献程度,无法对数据进行充分的分析;最后,该文献只提出了一种理论方法而没有在此基础上建立完整的预测系统。
文献2提出的方法通过若干个科室在某些时间段内的门诊量来预测其他科室的门诊量,该方法同样不适用于所有科室的门诊预测,并且忽视了环境因素的特征;基于神经网络的模型可解释性较差,无法了解到不同特征的重要程度及单个样本的特征对预测的贡献程度;最后,该文献同样也只提出了一种理论方法而没有在此基础上建立完整的预测系统。
综上,亟需一种新的交互式门诊量预测可视分析方法及系统。
发明内容
本发明的目的在于提供一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统,以解决传统预测方法误差较大,可解释性弱,对于医生等非计算机领域使用者存在一定难度的技术问题。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于CatBoost模型的交互式门诊量预测可视分析方法,包括以下步骤:
步骤1,获取历史环境因素数据与历史门诊数量数据载入数据库,对数据库的关系表和数据文件进行记录整理,获得原始医疗数据;
步骤2,从原始医疗数据中抽取出目的数据库系统所需要的数据,形成规范医疗数据库;从规范医疗数据库中提取预设层级关系统计,获得门诊数量的字典类型数据;
步骤3,在可视化交互界面,根据步骤2获得的门诊数量的字典类型数据,绘制获得交互式旭日图,用于展示门诊人数;
步骤4,在可视化交互界面,根据交互式旭日图中用户的选择,绘制获得折线图,用于展示门诊人数随时间的分布情况;根据交互式旭日图中用户的选择,绘制环境特征的交互式相关性分析雷达图,用于初步分析门诊人数和环境特征的相关性;用户根据雷达图选择预测需要的原始特征;其中,所述原始特征包括原始环境特征和原始时序特征;
步骤5,在后端,基于CatBoost建立门诊人数回归模型;将原始特征根据预设的时间间隔值输入后端生成历史门诊人数特征、历史环境特征和时序子序列的tsfresh特征;将tsfresh特征输入门诊人数回归模型,获得门诊量预测值;
步骤6,将获得的门诊量预测值传到可视化交互界面,绘制门诊人数回归模型的预测效果折线图,显示门诊人数回归模型的预测相对误差和均方误差。
本发明的进一步改进在于,步骤1中,还包括:
将获得的原始医疗数据进行预处理,用于发现并纠正数据文件中可识别的错误;其中,所述预处理包括数据筛选、数据清洗和数据抽取的重构转换。
本发明的进一步改进在于,还包括:步骤7,从后端传输特征重要程度数据到可视化交互界面,将交互式相关性分析雷达更新为特征重要程度图;从后端传回每个样本的各个特征SHAP数据并更新门诊时序数据,用户点击折线图中某个具体门诊人数信息,在其上方绘制该样本的各个特征SHAP图。
本发明的进一步改进在于,还包括:绘制医院总门诊人数与月份和星期关系的热力图,用于展示医院总体门诊人数随时间分布情况。
本发明的进一步改进在于,步骤5中,门诊人数回归模型预测的步骤具体包括:
将(I-n)个样本的(1+K)个长度为n的时间子序列通过tsfresh包各提取出设定的29个时序数据;
本发明的进一步改进在于,步骤5中,门诊人数回归模型预测的步骤具体还包括:
步骤5.6,计算I个样本的Shapley value并将值传回前端的可视化交互界面;绘制已训练好的回归模型的各特征重要性排序图,将各特征重要性排序图传回前端的可视化交互界面。
本发明的进一步改进在于,步骤2中,预设层级关系为科室-疾病大类-具体疾病ICD编码。
本发明的进一步改进在于,步骤3具体包括:绘制各科室及下属疾病门诊数量旭日图;其中,内侧表明不同科室的门诊人数对比情况,外侧是该科室下的所有疾病的门诊人数分布情况,不同疾病用ICD-10编码表示;步骤4具体包括:绘制年龄和性别的分布柱状图,初始时分布柱状图为空,通过点击旭日图内侧不同的科室模块或外侧的各疾病模块,在分布柱状图中展示用户所选数据的年龄分布柱状图和性别分布柱状图;绘制门诊人数与时间关系的折线图,初始时折线图为空,通过点击旭日图内侧不同的科室模块或外侧的各疾病模块,在折线图中展示用户所选数据随时间分布的折线图;绘制环境特征的交互式相关性分析雷达图,初始时雷达图为空,通过点击旭日图内侧不同的科室模块或外侧的各疾病模块,展示基于person系数和MIC系数的环境特征相关性雷达图。
本发明的进一步改进在于,原始环境特征包括:平均气温、最低温度、最高温度、平均风速、平均相对湿度、平均气压、降水量、SO2含量、NO2含量、CO含量、PM2.5含量、PM10含量、O3-8h含量和空气质量指数中的一个或多个;原始时序特征包括:day、week和month。
本发明的一种基于CatBoost模型的交互式门诊量预测可视分析系统,包括:
原始医疗数据获取模块,用于获取历史环境因素数据与历史门诊数量数据载入数据库,对数据库的关系表和数据文件进行记录整理,获得原始医疗数据;
字典类型数据获取模块,用于从原始医疗数据中抽取出目的数据库系统所需要的数据,形成规范医疗数据库;从规范医疗数据库中提取预设层级关系统计,获得门诊数量的字典类型数据;
前端可视化交互界面模块,用于根据获得的门诊数量的字典类型数据,绘制获得交互式旭日图,展示门诊人数;用于根据交互式旭日图中用户的选择,绘制获得折线图,展示门诊人数随时间的分布情况;用于根据交互式旭日图中用户的选择,绘制环境特征的交互式相关性分析雷达图,用于初步分析门诊人数和环境特征的相关性;用户根据雷达图选择预测需要的原始特征;其中,所述原始特征包括原始环境特征和原始时序特征;
后端预测模块,用于基于CatBoost建立门诊人数回归模型;将原始特征根据预设的时间间隔值输入后端生成历史门诊人数特征、历史环境特征和时序子序列的tsfresh特征;将tsfresh特征输入门诊人数回归模型,获得门诊量预测值;用于将获得的门诊量预测值传到可视化交互界面,绘制门诊人数回归模型的预测效果折线图,显示门诊人数回归模型的预测相对误差和均方误差。
与现有技术相比,本发明具有以下有益效果:
本发明的方法,通过基于CatBoost的回归模型进行预测,在考虑了环境因素的同时还考虑了历史门诊数量和时间类别特征的影响;通过基于D3的交互式可视化方法构建一个完整的系统使得用户可以在前端选择自己需要的数据,同时可以结合自身需求选择需要的特征,后端接收前端所选择的数据和特征后通过基于CatBoost的回归模型进行预测并将最终的结果通过可视化的方式反馈到前端,方便用户的理解。具体的,将机器学习方法与传统医疗领域进行结合的难点在于专业知识要求过高,操作难度大,此外一些基于深度学习方法的模型还有不具备可解释性等缺点;可视化是利用计算机图形学和图像处理技术,将数据转换成图像或将图像在屏幕上显示出来并进行交互处理的理论、方法和技术。交互式可视化的意义在于,首先是将数据完整地、层次地展现在图像中,使得用户可以根据自己的需求进行选择;其次是增强理解,便于对数据传达的信息进行探索挖掘;最后是简化复杂性,跳过中间繁琐且困难的模型建立步骤,用户只需简单的点击鼠标就可以得到其想要的结果,不需要具备额外的数学知识以及实现代码的能力。
本发明的方法,可解决传统方法特征单一,可解释性不足,对于非专业领域人士难以使用,无法交互式分析等缺陷,其通过前端提供交互式可视化界面,来帮助用户直观地理解数据,同时使用户能够自主选择数据及特征,再在后端通过原始特征和用户自定的时间间隔来生成历史门诊人数特征、历史环境特征和时序数据特征,模型建立后将预测结果传回前端的可视化界面,同时传回特征的重要程度分析和各样本的特征的SHAP(SHapleyAdditive exPlanation)值来帮助用户理解模型并对数据传达的信息进行探索挖掘。本发明的优点具体体现在:(1)提供交互式可视化界面来帮助用户理解和使用:传统的门诊人数预测方法都只提供了一种理论上的算法模型,而门诊人数预测的目的是帮助医院合理配置不同科室的人手和医疗资源,其主要用户是医生或医院管理人员等非计算机领域专业人士,用户对于模型背后的数学知识理解以及如何通过代码实现预测存在一定难度,以及对预测结果的展示和分析也不够直观。本发明方法通过提供交互式可视化界面来帮助用户理解和使用,通过D3丰富的可视化方法使得用户可以在web页面中交互式的了解数据的各种信息,同时用户可以自主选择其感兴趣的数据和特征来构建模型,模型建立后再将预测结果的可视化内容和特征分析的可视化内容传回前端并更新web页面中相应的模块,本发明方法在帮助用户理解和分析数据的同时大大降低了使用难度。(2)生成自定义的历史特征和时序数据特征:传统的门诊人数预测方法使用的特征较为单一,这样会导致模型的泛化性下降,同时导致模型的可解释性不足,此外传统方法无法使用户自主地选择特征。本发明方法通过生成自定义的历史特征和时序数据特征解决上述问题,首先通过原始数据和用户自定的时间间隔值来生成历史门诊人数特征和历史环境特征,再将按照时间间隔值划分的时序数据子序列通过tsfresh提取出丰富的时序数据特征,此外CatBoost回归模型的基模型是CART树,可以自动遍历所有特征选择收益最大的特征作为决策树的划分标准,不需要进行特征筛选的步骤。
本发明系统,通过环境因素以及历史门诊数量信息对未来门诊数量进行预测;通过构建前端的交互式可视化界面结合后端的基于CatBoost的预测模型,是一种预测效果好,泛化性强,操作简单,可解释性强的门诊数量预测系统,可解决目前传统预测方法误差较大,可解释性弱,对于医生等非计算机领域使用者存在一定难度等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中,用户分析数据并选择数据及特征的交互式可视化界面示意图;其中,图1中的(a)为热力图,图1中的(b)为旭日图,图1中的(c)为分布柱状图,图1中的(d)为折线图,图1中的(e)为相关性分析雷达图,图1中的(f)为数据名示意图;
图2是本发明实施例中,特征生成及建模流程示意图;
图3是本发明实施例中,模型建立后更新的交互式可视化界面示意图;其中,图3中的(a)为预测结果对比折线图,图3中的(b)为特征重要程度柱状图,图3中的(c)为各特征贡献程度图;
图4是本发明实施例的一种基于CatBoost模型的交互式门诊量预测可视分析方法的流程示意框图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图4,本发明实施例的一种基于CatBoost模型的交互式门诊量预测可视分析方法,包括以下步骤:
Step1.首先将获取到的历史环境因素数据与历史门诊数量数据载入,对数据库的关系表和数据文件进行记录和预处理,作为原始医疗数据;
Step2.将Step1中所述的原始医疗数据进行预处理,即数据筛选、数据清洗和数据抽取的重构转换,主要用于发现并纠正数据文件中可识别的错误,从源数据库系统中抽取出本发明实施例中目的数据库系统所需要的数据,最终形成规范医疗数据库,并从中提取形如科室-疾病大类-具体疾病ICD编码这种层级关系统计,得到门诊数量的字典类型数据。
Step3.构建门诊随时间分布,包含医院总体门诊随时间分布热力图。
Step4.构建各疾病门诊数量统计模块,将Step2中得到的门诊数量的字典类型数据绘制成交互式旭日图,用户可以点击图中的具体板块渐进的查看按照科室-疾病大类-具体疾病ICD编码分类的门诊人数,在点击旭日图中具体板块的同时,年龄和性别分布模块进行相应的更新。
Step5.构建门诊时序数据及数据选择模块,将Step4中用户所选择的具体模块的门诊人数绘制成折线图展示门诊人数随时间的分布,用户通过点击所需要的数据名选择该数据。
Step6.构建特征相关性模块,绘制环境特征的相关性分析雷达图,来帮助用户进行特征选择,用户通过点击雷达图中的特征名称来选择需要的特征,并提示用户输入时间间隔值,该时间间隔值用于传入后端后的生成历史门诊人数特征、历史环境特征和时序子序列的tsfresh特征。
Step7.构建导航栏及模型生成模块,该模块显示用户所选的数据及特征,以及模型生成按键,点击模型生成按键后会将用户所选的信息传入后端并在后端建立基于CatBoost的门诊人数回归模型。
Step8.构建预测结果模块,接收从后端传回的信息,显示该科室或该疾病的未来门诊人数信息,同时绘制模型在测试集上的预测效果折线图并显示该模型的预测相对误差和MSE。
Step9.构建特征重要程度分析模块,从后端传回特征重要程度数据并将特征相关性模块更新为特征重要程度模块,从后端传回每个样本的各个特征SHAP数据并更新门诊时序数据模块,用户点击折线图中某个具体门诊人数信息,在其上方绘制该样本的各个特征SHAP图。
其中,基于CatBoost的回归模型具体包括:
Step2.接收从前端传入的用户所选择的特征以及时间间隔值n,对原始输入矩阵X进行修改,保留用户选择的特征,J个初始特征降为K个用户所选特征,K≤13,此时输入矩阵接收用户选定的时间间隔值n来生成n天前的历史门诊人数特征以及历史环境特征,则此时输入矩阵其中特征个数M=(K+1)n+3,最后,将(I-n)个样本的(1+K)个长度为n的时间子序列通过tsfresh包各提取出设定的29个时序数据。最终模型的输入矩阵其中,
Step4.设置测试集比例α=0.3,采用CatBoost回归算法构建模型,得到测试集上的预测结果绘制与测试集中门诊人数结果Y=(y1 y2 …yα(I-n))T的对比折线图,并在折线图图例中添加预测结果的和平均相对误差并将对比折线图传回给前端。
Step6.计算I个样本的Shapley value并将值传回前端,同时绘制已训练好的模型的各特征重要性排序图,并将该图传回前端。
本发明的方法是一种基于CatBoost模型的交互式门诊量预测可视分析方法,用于解决传统方法特征单一,可解释性不足,对于非专业领域人士难以使用,无法交互式分析等缺陷,主要通过前端提供交互式可视化界面,来帮助用户直观地理解数据,同时使用户能够自主选择数据及特征,再在后端通过原始特征和用户自定的时间间隔来生成历史门诊人数特征、历史环境特征和时序数据特征,模型建立后将预测结果传回前端的可视化界面,同时传回特征的重要程度分析和各样本的特征的SHAP值来帮助用户理解模型并对数据传达的信息进行探索挖掘。与现有技术相比,本发明的优点是:a.提供交互式可视化界面来帮助用户理解和使用:传统的门诊人数预测方法都只提供了一种理论上的算法模型,而门诊人数预测的目的是帮助医院合理配置不同科室的人手和医疗资源,其主要用户是医生或医院管理人员等非计算机领域专业人士,用户对于模型背后的数学知识理解以及如何通过代码实现预测存在一定难度,以及对预测结果的展示和分析也不够直观。本方法通过提供交互式可视化界面来帮助用户理解和使用,通过D3丰富的可视化方法使得用户可以在web页面中交互式的了解数据的各种信息,同时用户可以自主选择其感兴趣的数据和特征来构建模型,模型建立后再将预测结果的可视化内容和特征分析的可视化内容传回前端并更新web页面中相应的模块,本方法在帮助用户理解和分析数据的同时大大降低了使用难度。b.生成自定义的历史特征和时序数据特征:传统的门诊人数预测方法使用的特征较为单一,这样会导致模型的泛化性下降,同时导致模型的可解释性不足,此外传统方法无法使用户自主地选择特征。本方法通过生成自定义的历史特征和时序数据特征解决上述问题,首先通过原始数据和用户自定的时间间隔值来生成历史门诊人数特征和历史环境特征,再将按照时间间隔值划分的时序数据子序列通过tsfresh提取出丰富的时序数据特征,此外CatBoost回归模型的基模型是CART树,可以自动遍历所有特征选择收益最大的特征作为决策树的划分标准,不需要进行特征筛选的步骤。
本发明的前端可视化交互界面模块可以包括:门诊随时间分布模块,各疾病门诊数量统计模块,年龄和性别分布模块,门诊时序数据及数据选择模块,特征相关性及特征选择模块,导航栏及模型生成模块,特征重要程度分析模块,预测结果模块。
本发明的实施例,利用2013年至2018年西安市某三甲医院的各科室门诊人数数据以及2013年至2018年西安市环境污染数据,通过基于D3的交互式可视界面来展示数据的各种信息,允许用户通过该界面中的不同模块来查看其所需的数据,并选择用于建立模型的数据和特征,选择完成后将信息传入后端建立基于CatBoost的预测模型,并将预测效果、未来门诊人数预测结果和各特征重要性和贡献程度分析传回给前端,展示在相应的可视化界面模块中。本发明实施例,医生能够自主地、方便地通过机器学习模型来分析门诊量和各种因素的关系;使医院可以通过未来门诊人数预测的结果来合理配置各个科室的医护人员个数和各种医疗资源。
请参阅图1,本发明实施例为用户提供的分析数据并选择数据和特征的交互式可视化界面的构建步骤为:
Step1,绘制医院总门诊人数与月份和星期关系的热力图,如图1中的(a)所示。
Step2,绘制各科室及下属疾病门诊数量旭日图,如图1中的(b)所示,内侧表明了不同科室的门诊人数对比情况,其外侧是该科室下的所有疾病的门诊人数分布情况,不同疾病用ICD-10编码表示。
Step3,绘制年龄和性别的分布柱状图,如图1中的(c)所示,初始时本图为空,通过点击Step2中旭日图内侧不同的科室模块或外侧的各疾病模块,在本图中展示用户所选数据的年龄分布柱状图和性别分布柱状图。
Step4,绘制门诊人数与时间关系的折线图,如图1中(d)所示,初始时本图为空,通过点击Step2中旭日图内侧不同的科室模块或外侧的各疾病模块,在本图中展示用户所选数据随时间分布的折线图,可按照用户选择的顺序最多添加两种数据随时间分布的折线图,且可通过移动下方的滑块交互地查看2013年1月至2018年12月的门诊量分布信息。
Step5,绘制环境特征的相关性分析雷达图,如图1中(e)所示,环境特征包括平均气温、最低温度、最高温度、平均风速、平均相对湿度、平均气压、降水量、NO2含量、CO含量、PM2.5含量、PM10含量、O3-8h含量、空气质量指数,初始时本图为空,通过点击Step2中旭日图内侧不同的科室模块或外侧的各疾病模块,在本图中展示基于person系数和MIC系数的环境特征相关性雷达图,可按照用户选择的顺序最多添加两种数据的环境特征相关性雷达图,下方的提示框提示用户输入时间间隔值用于确定生成历史特征的时间长度。
Step6,选择需要预测的门诊量数据,可以是某一科室的门诊量或某一疾病的门诊量,通过点击门诊人数与时间关系的折线图上方的数据名将其选中,选中后该数据名背景框颜色变为深色,同时上方导航栏中的已选数据栏会更新选中的数据名,如图1中的(f)所示。
Step7,选择用于构建模型的环境特征,通过点击通过点击雷达图中的特征名称来选择需要的特征,选中后该特征名背景框颜色变为深色,同时上方导航栏中的已选特征栏会更新选中的特征名,如图1中(f)所示。
Step8,模型生成,通过点击图1中(f)的模型生成按键将所选的数据,特征以及输入的时间间隔值传入后端。
请参阅图2,本发明实施例中,特征生成及模型建立步骤为:
Step1,接收从前端传入的数据选择信息,从服务器中获取用户所选门诊的原始医疗数据,原始输入矩阵的特征包括14个环境特征:平均气温、最低温度、最高温度、平均风速、平均相对湿度、平均气压、降水量、NO2含量、CO含量、PM2.5含量、PM10含量、O3-8h含量、空气质量指数,以及3个类别型时间特征:day,week,month。
Step2,接收从前端传入的特征选择信息,保留用户所选的环境特征。
Step3,接收前端传入的时间间隔值,生成历史门诊量特征,历史环境特征以及各时序特征子序列通过tsfresh方法提取的特征:绝对能量值、一阶差分绝对和、各阶自相关系数的聚合统计特征、基于分块时序聚合值的线性回归、近似熵、自回归系数、ADF检验、lag阶自相关性、分组熵、时序数据非线性度量、给定区间的时序数据描述统计、时序数据复杂度、高于均值个数、低于均值个数、Ricker小波分析、分块局部熵比率、绝对傅里叶变换的谱统计量、傅里叶变换系数、最大值位置、最小值位置、分位数索引、峰度、均值上的最长连续自列长度、均值下的最长连续自列长度、序列的平均值、序列连续两点值的变化绝对值的平均值、序列连续两点值的变化的平均值、二阶导数的中心的均值、序列的中位数。
Step4,判断所有特征的数据类型,并将其中的类别特征名存入列表,完成后将列表内容传给CatBoost的cat_features参数,其他参数使用CatBoost的默认参数,通过设定好的比例将数据划分为训练集和验证集,通过训练集建立模型。
请参阅图3,本发明实施例中,为用户提供的模型建立后的交互式可视化界面的构建步骤为:
Step1,接收从后端传回的预测结果信息,绘制标注了MSE和相对误差的测试集上预测结果对比折线图,并显示该科室或该疾病的未来门诊人数预测信息,如图3中的(a)所示。
Step2,接收从后端传回的特征重要程度信息以及各样本及其特征SHAP值信息,将可视化界面中原本的环境特征的相关性分析雷达图重新绘制为特征重要程度柱状图,如图3中的(b)所示,将可视化界面中原本的门诊人数与时间关系的折线图进行更新,增加交互式查看各样本的基于SHAP的特征贡献程度功能,当用户点击门诊人数与时间关系的折线图中某一具体样本后,上方会出现该样本的各特征贡献程度图,如图3中的(c)所示。
综上所述,本发明实施例公开了一种基于CatBoost模型的交互式门诊量预测可视分析方法,其包括以下步骤:首先,在服务器中对原始医疗数据进行预处理,并构建为用户提供的用于分析数据、选择数据和特征的交互式可视化界面,其主要内容包括门诊随时间分布模块,各疾病门诊数量统计模块,年龄和性别分布模块,门诊时序数据及数据选择模块,特征相关性及特征选择模块,导航栏及模型生成模块,提供丰富的可视化功能来帮助用户交互式分析数据并选择其感兴趣的数据和特征用于建立回归模型。其次,用户在前端选择完数据和特征,并设定时间间隔值后将信息传给后端,后端根据这些信息对原始输入特征进行更改,包括删除用户未选择的环境特征,通过时间间隔值生成历史门诊量特征和历史环境特征,以及通过各长度为时间间隔值的时序特征子序列提取时序特征,判断各特征数据类型并建立基于CatBoost的回归模型。最后,模型建立完成后将信息传回前端,在可视化界面中更新特征重要程度分析模块,预测结果模块,帮助用户理解预测结果和交互式地挖掘数据背后的信息。本发明通过将机器学习模型与前端可视化内容结合,解决传统方法特征单一,可解释性不足,对于非专业领域人士难以使用,无法交互式分析等缺陷,可以协助医生分析数据,使医院能够合理配置各科室人手及医疗资源,并帮助相关卫生安全部门提前规划应急措施。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (10)
1.一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,包括以下步骤:
步骤1,获取历史环境因素数据与历史门诊数量数据载入数据库,对数据库的关系表和数据文件进行记录整理,获得原始医疗数据;
步骤2,从原始医疗数据中抽取出目的数据库系统所需要的数据,形成规范医疗数据库;从规范医疗数据库中提取预设层级关系统计,获得门诊数量的字典类型数据;
步骤3,在可视化交互界面,根据步骤2获得的门诊数量的字典类型数据,绘制获得交互式旭日图,用于展示门诊人数;
步骤4,在可视化交互界面,根据交互式旭日图中用户的选择,绘制获得折线图,用于展示门诊人数随时间的分布情况;根据交互式旭日图中用户的选择,绘制环境特征的交互式相关性分析雷达图,用于初步分析门诊人数和环境特征的相关性;用户根据雷达图选择预测需要的原始特征;其中,所述原始特征包括原始环境特征和原始时序特征;
步骤5,在后端,基于CatBoost建立门诊人数回归模型;将原始特征根据预设的时间间隔值输入后端生成历史门诊人数特征、历史环境特征和时序子序列的tsfresh特征;将tsfresh特征输入门诊人数回归模型,获得门诊量预测值;
步骤6,将获得的门诊量预测值传到可视化交互界面,绘制门诊人数回归模型的预测效果折线图,显示门诊人数回归模型的预测相对误差和均方误差。
2.根据权利要求1所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,步骤1中,还包括:
将获得的原始医疗数据进行预处理,用于发现并纠正数据文件中可识别的错误;其中,所述预处理包括数据筛选、数据清洗和数据抽取的重构转换。
3.根据权利要求1所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,还包括:
步骤7,从后端传输特征重要程度数据到可视化交互界面,将交互式相关性分析雷达更新为特征重要程度图;从后端传回每个样本的各个特征SHAP数据并更新门诊时序数据,用户点击折线图中某个具体门诊人数信息,在其上方绘制该样本的各个特征SHAP图。
4.根据权利要求1所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,还包括:
绘制医院总门诊人数与月份和星期关系的热力图,用于展示医院总体门诊人数随时间分布情况。
5.根据权利要求1所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,步骤5中,门诊人数回归模型预测的步骤具体包括:
将(I-n)个样本的(1+K)个长度为n的时间子序列通过tsfresh包各提取出设定的29个时序数据;
7.根据权利要求1所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,步骤2中,预设层级关系为科室-疾病大类-具体疾病ICD编码。
8.根据权利要求7所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,
步骤3具体包括:绘制各科室及下属疾病门诊数量旭日图;其中,内侧表明不同科室的门诊人数对比情况,外侧是该科室下的所有疾病的门诊人数分布情况,不同疾病用ICD-10编码表示;
步骤4具体包括:绘制年龄和性别的分布柱状图,初始时分布柱状图为空,通过点击旭日图内侧不同的科室模块或外侧的各疾病模块,在分布柱状图中展示用户所选数据的年龄分布柱状图和性别分布柱状图;
绘制门诊人数与时间关系的折线图,初始时折线图为空,通过点击旭日图内侧不同的科室模块或外侧的各疾病模块,在折线图中展示用户所选数据随时间分布的折线图;
绘制环境特征的交互式相关性分析雷达图,初始时雷达图为空,通过点击旭日图内侧不同的科室模块或外侧的各疾病模块,展示基于person系数和MIC系数的环境特征相关性雷达图。
9.根据权利要求1所述的一种基于CatBoost模型的交互式门诊量预测可视分析方法,其特征在于,
原始环境特征包括:平均气温、最低温度、最高温度、平均风速、平均相对湿度、平均气压、降水量、SO2含量、NO2含量、CO含量、PM2.5含量、PM10含量、O3-8h含量和空气质量指数中的一个或多个;
原始时序特征包括:day、week和month。
10.一种基于CatBoost模型的交互式门诊量预测可视分析系统,其特征在于,包括:
原始医疗数据获取模块,用于获取历史环境因素数据与历史门诊数量数据载入数据库,对数据库的关系表和数据文件进行记录整理,获得原始医疗数据;
字典类型数据获取模块,用于从原始医疗数据中抽取出目的数据库系统所需要的数据,形成规范医疗数据库;从规范医疗数据库中提取预设层级关系统计,获得门诊数量的字典类型数据;
前端可视化交互界面模块,用于根据获得的门诊数量的字典类型数据,绘制获得交互式旭日图,展示门诊人数;用于根据交互式旭日图中用户的选择,绘制获得折线图,展示门诊人数随时间的分布情况;用于根据交互式旭日图中用户的选择,绘制环境特征的交互式相关性分析雷达图,用于初步分析门诊人数和环境特征的相关性;用户根据雷达图选择预测需要的原始特征;其中,所述原始特征包括原始环境特征和原始时序特征;
后端预测模块,用于基于CatBoost建立门诊人数回归模型;将原始特征根据预设的时间间隔值输入后端生成历史门诊人数特征、历史环境特征和时序子序列的tsfresh特征;将tsfresh特征输入门诊人数回归模型,获得门诊量预测值;用于将获得的门诊量预测值传到可视化交互界面,绘制门诊人数回归模型的预测效果折线图,显示门诊人数回归模型的预测相对误差和均方误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010124669.7A CN111400366B (zh) | 2020-02-27 | 2020-02-27 | 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010124669.7A CN111400366B (zh) | 2020-02-27 | 2020-02-27 | 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400366A CN111400366A (zh) | 2020-07-10 |
CN111400366B true CN111400366B (zh) | 2022-12-09 |
Family
ID=71432142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010124669.7A Active CN111400366B (zh) | 2020-02-27 | 2020-02-27 | 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400366B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815435A (zh) * | 2020-07-14 | 2020-10-23 | 深圳市卡牛科技有限公司 | 一种群体风险特征的可视化方法、装置、设备及存储介质 |
CN111863276B (zh) * | 2020-07-21 | 2023-02-14 | 集美大学 | 利用细粒度数据的手足口病预测方法、电子设备及介质 |
CN112070154A (zh) * | 2020-09-07 | 2020-12-11 | 常州微亿智造科技有限公司 | 时间序列数据处理方法和装置 |
CN112308299B (zh) * | 2020-10-19 | 2024-04-19 | 新奥数能科技有限公司 | 用于电力系统负荷预测模型的样本数据提取方法和装置 |
CN112215366B (zh) * | 2020-12-07 | 2021-03-02 | 成都数联铭品科技有限公司 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
CN116094169B (zh) * | 2023-01-28 | 2024-04-12 | 国网江苏省电力有限公司连云港供电分公司 | 一种配电网拓扑模型生成方法及终端设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809335B (zh) * | 2015-04-10 | 2019-03-05 | 上海卫生信息工程技术研究中心有限公司 | 一种环境变化对疾病发病影响的分析预测装置 |
CN106326634A (zh) * | 2016-08-09 | 2017-01-11 | 浙江工业大学 | 一种基于深度信念网络的医院门诊量预测方法 |
CN109902112B (zh) * | 2019-01-24 | 2021-02-02 | 西安交通大学 | 一种基于时间轴的电子病历可视化方法及可视化系统 |
CN110046757B (zh) * | 2019-04-08 | 2022-11-29 | 中国人民解放军第四军医大学 | 基于LightGBM算法的门诊量预测系统及预测方法 |
-
2020
- 2020-02-27 CN CN202010124669.7A patent/CN111400366B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111400366A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400366B (zh) | 一种基于CatBoost模型的交互式门诊量预测可视分析方法及系统 | |
US10223498B2 (en) | Discovering population structure from patterns of identity-by-descent | |
US9087306B2 (en) | Computer-implemented systems and methods for time series exploration | |
CN109830303A (zh) | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 | |
Wynn et al. | ProcessProfiler3D: A visualisation framework for log-based process performance comparison | |
US20130057551A1 (en) | Visual Analytics Law Enforcement Tools | |
CN110136837B (zh) | 一种医疗数据处理平台 | |
US20210280320A1 (en) | Community Vulnerability Index Dashboard | |
Liu et al. | An explainable knowledge distillation method with XGBoost for ICU mortality prediction | |
US20140019090A1 (en) | Systems, methods, and logic for generating statistical research information | |
CN116681176A (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
Terbuch et al. | Detecting anomalous multivariate time-series via hybrid machine learning | |
US20110231336A1 (en) | Forecasting product/service realization profiles | |
CN111223567A (zh) | 一种基于区域医学影像的疑似疾病风险范围的计算方法 | |
US20210225513A1 (en) | Method to Create Digital Twins and use the Same for Causal Associations | |
Jiang et al. | A systematic review of the modelling of patient arrivals in emergency departments | |
US11775144B2 (en) | Place-based semantic similarity platform | |
Song et al. | Study on health management decision support system | |
Fulcher et al. | CompEngine: a self-organizing, living library of time-series data | |
Kaushal et al. | Patient journey visualizer: a tool for visualizing patient journeys | |
Tamatta | Time series forecasting of hospital Inpatients and Day case waiting list using ARIMA, TBATS and Neural Network Models | |
Faniriantsoa et al. | ADT: The automatic weather station data tool | |
CN111695989A (zh) | 一种风控信贷模型的建模方法和平台 | |
KR101918359B1 (ko) | 인공지능 기반의 데이터 처리 시스템 | |
CN110110906A (zh) | 一种基于Efron近似优化的生存风险建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |