CN112382395B - 基于机器学习的一体化建模系统 - Google Patents

基于机器学习的一体化建模系统 Download PDF

Info

Publication number
CN112382395B
CN112382395B CN202011256749.4A CN202011256749A CN112382395B CN 112382395 B CN112382395 B CN 112382395B CN 202011256749 A CN202011256749 A CN 202011256749A CN 112382395 B CN112382395 B CN 112382395B
Authority
CN
China
Prior art keywords
data set
disease prediction
model
prediction model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011256749.4A
Other languages
English (en)
Other versions
CN112382395A (zh
Inventor
王福
蔡俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Synyi Medical Technology Co ltd
Original Assignee
Shanghai Synyi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Synyi Medical Technology Co ltd filed Critical Shanghai Synyi Medical Technology Co ltd
Priority to CN202011256749.4A priority Critical patent/CN112382395B/zh
Publication of CN112382395A publication Critical patent/CN112382395A/zh
Application granted granted Critical
Publication of CN112382395B publication Critical patent/CN112382395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Strategic Management (AREA)
  • Epidemiology (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种基于机器学习的一体化建模系统,所述基于机器学习的一体化建模系统包括:数据集模块,用于构建检测指标数据集;异常分析模块,用于对所述检测指标数据集进行异常分析,并生成异常分析结果;模型建立模块,用于结合所述异常分析结果建立疾病预测模型;模拟分析模块,用于构建一模拟数据集,并通过所述模拟数据集对所述疾病预测模型进行评估优化;模型管理模块,用于对多个评估优化后的疾病预测模型进行统一管理。本发明将机器学习模型各个环节进行有机的结合,形成一体化建模系统的解决方案,提升了机器学习模型生产的效率和质量。

Description

基于机器学习的一体化建模系统
技术领域
本发明属于机器模型设计的技术领域,涉及一种一体化建模系统,特别是涉及一种基于机器学习的一体化建模系统。
背景技术
基于机器学习技术的训练模型在临床辅助决策系统中,正发挥越来越大的作用。疾病预测模型的生产开发较为复杂,涉及人群纳排选择,观察点采样,建模特征数据集构建,机器学习模型训练,模型效果模拟验证,模型部署,模型监控等多个环节。
尽管目前在数据集构建,数据探索性,机器学习建模存在一些工具,但是存在一些问题,难以确保产出模型的效率和质量。例如:(1)已有的工具不能覆盖开发一个疾病预测模型所需要的各环节的工作。(2)这些工具之间相互孤立,缺乏统一的过程管理,衔接过程容易出错,过程中的操作参数也难以被完整的记录。例如,机器学习环节训练完成后,不能明确人群纳排选择的逻辑是什么。由此,缺乏统一系统情况下,用户需要利用多个软件或技术配合完成多个环节的工作,会有频繁的结果导出,导入的环节,且中间操作参数难以被完整的保存。如图1所示,现有技术中,通过数据库软件1生成数据集,数据库软件1分别与分析软件2和建模软件3之间存在结果导入导出的关系,分析软件2用于分析数据集,建模软件3用于建模,建模软件3又与分析软件4存在结果导入导出的关系,分析软件4用于分析模型效果。
因此,如何提供一种基于机器学习的一体化建模系统,以解决现有技术无法将疾病预测模型的各个环节集合到同一系统中等缺陷,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于机器学习的一体化建模系统,用于解决现有技术无法将疾病预测模型的各个环节集合到同一系统中的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种基于机器学习的一体化建模系统,所述基于机器学习的一体化建模系统包括:数据集模块,用于构建检测指标数据集;异常分析模块,用于对所述检测指标数据集进行异常分析,并生成异常分析结果;模型建立模块,用于结合所述异常分析结果建立疾病预测模型;模拟分析模块,用于构建一模拟数据集,并通过所述模拟数据集对所述疾病预测模型进行评估优化;所述模拟数据集是根据所述疾病预测模型的使用场景构建的数据集;模型管理模块,用于对多个评估优化后的疾病预测模型进行统一管理,以调用所述疾病预测模型,并通过所述疾病预测模型对真实数据集进行疾病预测;所述真实数据集是所述疾病预测模型应用于实际场景中所用的数据集。
于本发明的一实施例中,所述数据集模块包括:人群纳排单元,用于根据预设人群纳排规则确定纳入的人群和排除的人群;观察点设置单元,用于针对所述纳入的人群设置标识性的观察点,并在所述标识性的观察点获取纳入人群的检测指标数据;构建单元,用于结合所述纳入人群的检测指标数据构建所述检测指标数据集。
于本发明的一实施例中,所述模型建立模块包括:异常判断单元,用于根据所述异常分析结果判断所述检测指标数据集是否出现异常;若是,通过决策单元生成异常提示信息,以使用户通过所述异常提示信息核查异常原因;若否,利用所述决策单元结合所述检测指标数据集建立所述疾病预测模型。
于本发明的一实施例中,所述疾病预测模型的建立过程为:将所述检测指标数据集分为训练集和验证集,将所述验证集用于所述疾病预测模型的训练过程,将所述验证集用于所述疾病预测模型的验证过程。
于本发明的一实施例中,所述疾病预测模型通过在验证过程中进行超参数优化以最终确定;所述超参数优化是指在确定的参数范围内根据超参数优化方向逐步收窄参数范围的过程。
于本发明的一实施例中,所述模拟分析模块包括:场景确定单元,用于确定所述疾病预测模型的使用场景;数据获取单元,用于根据所述使用场景确定数据获取的时间条件,按照所述时间条件在相应时间进行数据的获取,并生成所述模拟数据集。
于本发明的一实施例中,所述模拟分析模块还包括:评分统计单元,用于按照所述时间条件统计所述疾病预测模型的评分;评估单元,用于设置一时间窗,根据所述时间窗内的评分对所述疾病预测模型进行评估;所述时间窗内的评估模式包括平均值模式、最大值模式和最小值模式。
于本发明的一实施例中,所述模型管理模块包括:存储单元,用于将多个评估优化后的疾病预测模型存入统一的模型部署环境中;调用单元,用于由所述模型部署环境中调用与实际应用场景匹配的疾病预测模型,利用所述疾病预测模型对所述真实数据集进行疾病预测。
于本发明的一实施例中,所述基于机器学习的一体化建模系统还包括:模型监控模块,用于在调用所述疾病预测模型并对真实数据集进行疾病预测的同时,对所述疾病预测模型的预测效果是否正常和所述真实数据集的数据源是否正常进行监控。
于本发明的一实施例中,所述模型监控模块包括:预测效果监控单元,用于对所述疾病预测模型的预测效果是否正常进行监控;数据源监控单元,用于通过缺失率和数值统计指标对所述真实数据集的数据源是否正常进行监控。
如上所述,本发明所述的基于机器学习的一体化建模系统,具有以下有益效果:
本发明将疾病预测模型的各个环节进行有机的结合,形成一体化的疾病预测模型解决方案,提升疾病预测模型生产的效率和质量。基于机器学习的一体化建模系统可以实现一个项目涉及的所有环节的参数和结果,都会被集中记录和保存,不会遗漏丢失。避免了工具之间相互孤立,缺乏统一的过程管理,衔接过程容易出错,过程中的操作参数难以被完整的记录等缺点。
附图说明
图1显示为现有技术中模型训练的各环节所涉及的软件关联示意图。
图2显示为本发明的基于机器学习的一体化建模系统于一实施例中的结构原理图。
图3显示为本发明的基于机器学习的一体化建模系统于一实施例中的数据集模块的结构示意图。
图4显示为本发明的基于机器学习的一体化建模系统于一实施例中的模拟效果统计图。
图5显示为本发明的基于机器学习的一体化建模系统于一实施例中的模拟效果评估示意图。
图6显示为本发明的基于机器学习的一体化建模系统于一实施例中的模型生成流程图。
图7显示为本发明的基于机器学习的一体化建模系统于一实施例中的系统界面示意图。
图8显示为本发明的基于机器学习的一体化建模设备于一实施例中的结构连接示意图。
元件标号说明
1 基于机器学习的一体化建模系统
11 数据集模块
111 人群纳排单元
112 观察点设置单元
113 构建单元
12 异常分析模块
13 模型建立模块
14 模型分析模块
15 模型管理模块
8 设备
81 处理器
82 存储器
83 通信接口
84 系统总线
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述的基于机器学习的一体化建模系统提供了一种对业务人员友好的一体式的疾病预测模型生产系统。覆盖了人群纳排选择、观察点采样、建模特征数据集构建、机器学习模型训练、模型效果模拟验证、模型部署及模型监控多个环节。
以下将结合图2至图8详细阐述本实施例的一种基于机器学习的一体化建模系统的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的基于机器学习的一体化建模系统。
请参阅图2,显示为本发明的基于机器学习的一体化建模系统于一实施例中的结构原理图。如图2所示,所述基于机器学习的一体化建模系统1包括:数据集模块11、异常分析模块12、模型建立模块13、模拟分析模块14和模型管理模块15。
所述数据集模块11用于构建检测指标数据集。
请参阅图3,显示为本发明的基于机器学习的一体化建模系统于一实施例中的数据集模块的结构示意图。如图3所示,所述数据集模块11包括:人群纳排单元111、观察点设置单元112和构建单元113。
所述人群纳排单元111用于根据预设人群纳排规则确定纳入的人群和排除的人群。例如,将近三年做过心脏病手术的人群确定为纳入的人群,将近三年未做过心脏病手术的人群确定为排除的人群。
所述观察点设置单元112用于针对所述纳入的人群设置标识性的观察点,并在所述标识性的观察点获取纳入人群的检测指标数据。例如,将入院人员的标志性时间设置为观察点,包括入院时间、第一次做手术的时间和出院时刻的时间以及其他人群的标志性时间点。
所述构建单元113用于结合所述纳入人群的检测指标数据构建所述检测指标数据集。例如,将入院人群检测的心率、血压指标及红细胞计数最大值等检测指标构建检测指标数据集。
所述异常分析模块12用于对所述检测指标数据集进行异常分析,并生成异常分析结果。
所述模型建立模块13用于结合所述异常分析结果建立疾病预测模型。
在本实施例中,所述模型建立模块包括:异常判断单元和决策单元。
所述异常判断单元用于根据所述异常分析结果判断所述检测指标数据集是否出现异常。例如,入院人群的血常规检测为常规检测或者必要的检测,若血常规检测中的红细胞计数值这一检测指标缺失率为90%,则说明所述检测指标数据集出现异常。又比如,红细胞计数值这一检测指标的平均值或最大值超出了该指标的数值范围,也说明所述检测指标数据集出现异常。
若是,通过决策单元生成异常提示信息,以使用户通过所述异常提示信息核查异常原因;若否,利用所述决策单元结合所述检测指标数据集建立所述疾病预测模型。
所述疾病预测模型通过不同的模型算法进行建立,包含但不限于分布式梯度增强库-机器学习算法(xgboost),随机森林分类器(random forest),深度学习(deeplearning),逻辑回归-机器学习算法(logistic regression),决策树-机器学习预测(decision tree),支持向量机-分类器(svm)等,并进行批量实验,针对批量实验的模型进行比较,针对特定的数据集,哪种算法的表现最好,只有通过批量实验,并且比较后,最终决定模型使用的算法类型。
在本实施例中,所述疾病预测模型的建立过程为:将所述检测指标数据集分为训练集和验证集,将所述验证集用于所述疾病预测模型的训练过程,将所述验证集用于所述疾病预测模型的验证过程。
进一步地,针对疾病预测场景需要对所述检测指标数据集作出调整。例如:对于疾病预测场景,建模样本划分时,应该确保同一个患者不同观察点的数据处于同一数据集中,否则存在模型过拟合,导致模型效果虚高的问题。而现有技术常规的建模工具不会考虑这个问题。本发明在划分数据集时,会确保患者为基本单位进行划分,将同一个患者不同观察点的数据只划分在训练集或者只划分在验证集。
将患者id和观察时间进行列表管理,形成表1。将现有技术中训练集和验证集的数据划分进行列表管理,形成表2。
表1患者数据统计表
患者id 观察时间
1 2020-01-01 23:00:00
1 2020-01-02 23:00:00
1 2020-01-03 23:00:00
1 2020-01-04 23:00:00
2 2020-02-01 23:00:00
2 2020-02-02 23:00:00
2 2020-02-03 23:00:00
由表2中可以看出,现有技术中常规的机器学习算法,划分数据集时(例如按照7:3比例划分训练集和验证集),并未考虑不应该把同一患者的样本分散在不同数据集的问题。
表2数据集划分表
Figure BDA0002773353670000061
本发明所述的基于机器学习的一体化建模系统针对医学建模需求定制的数据集划分算法(例如,通过患者id检测,将患者id为1的划分至训练集,将患者id为2的划分至验证集或者将患者id为2的划分至训练集,将患者id为1的划分至验证集)能够确保这一问题在训练-验证集划分,交叉验证等环节均被避免。
进一步地,所述疾病预测模型通过在验证过程中进行超参数优化以最终确定;所述超参数优化是指在确定的参数范围内根据超参数优化方向逐步收窄参数范围的过程。
超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。进而对超参数进行优化,选择一组最优超参数,以提高学习的性能和效果。所述超参数优化的方法包括:网格搜索、贝叶斯优化、随机搜索以及基于梯度的优化中的一种或多种组合。
网格搜索通常通过训练集合上的交叉验证或对被保留验证集进行评估来衡量。贝叶斯优化包括从超参数值到在验证集上评估的目标的功能的统计模型。简单地对参数设置进行固定次数的随机搜索,比在穷举搜索中的高维空间更有效。这是因为事实证明,一些超参数不会显着影响损失。因此,随机分散的数据给出了比最终不影响损失的参数的详尽搜索更多的“纹理”数据。对于特定的学习算法,可以计算相对于超参数的梯度,然后使用梯度下降优化超参数。
所述模拟分析模块14用于构建一模拟数据集,并通过所述模拟数据集对所述疾病预测模型进行评估优化;所述模拟数据集是根据所述疾病预测模型的使用场景构建的数据集。
在本实施例中,所述模拟分析模块包括:场景确定单元、数据获取单元、评分统计单元和评估单元。
所述场景确定单元用于确定所述疾病预测模型的使用场景。
所述数据获取单元用于根据所述使用场景确定数据获取的时间条件,按照所述时间条件在相应时间进行数据的获取,并生成所述模拟数据集。
所述评分统计单元用于按照所述时间条件统计所述疾病预测模型的评分。
请参阅图4,显示为本发明的基于机器学习的一体化建模系统于一实施例中的模拟效果统计图。如图4所示,本发明会按照模型真实调用的使用场景构建模拟数据集。例如如果模型的使用场景是:入院后每24小时获取一次检测数据并调用使用一次疾病预测模型,那么构建模拟数据集时,也按照同样的方式(入院后每24小时)构造样本,并且计算模型分。
如图4所示,对于每个患者,都按照每24小时计算一次疾病预测模型评分的方式获取模型分的曲线。横坐标表示时间,纵坐标表示相应时间疾病预测模型针对模拟数据集计算的评分,可以看出,在8点左右,所述疾病预测模型的评分突然升高,此时需业务人员针对评分的突升进行原因的核查。
所述评估单元用于设置一时间窗,根据所述时间窗内的评分对所述疾病预测模型进行评估;所述时间窗内的评估模式包括平均值模式、最大值模式和最小值模式。
请参阅图5,显示为本发明的基于机器学习的一体化建模系统于一实施例中的模拟效果评估示意图。现有技术的常规评估模型方法,由于大部分患者在入院前期都满足阴性,低分,因此,常规评估模型方式容易导致模型效果虚高。如图5所示,发明的基于机器学习的一体化建模系统支持仅选取有效时间窗内分数(可以选平均,最大,最低不同模式)作为模型评估的标注。例如,将时间窗内的多个评分值求取平均数,以平均数进行模型的效果评估;或者在时间窗内的多个评分值中确定最高点、最低点。进一步地,图5中时间窗范围区域的最右侧粗线表示预测状况实际出现的时刻。设置一模型评分的阈值,将评分中高于阈值的第一时刻判定为可能出现预测状况,第一时刻与预测状况实际出现的时刻越接近说明疾病预测模型的效果越好。例如,预测状况针对高血压患者进行血栓的预测,结合D-二聚体和凝血功能的检测指标数据以及其他相关检测数据预测某一患者可能出现血栓的时刻,当患者实际出现血栓时刻与预测的患者可能出现血栓的时刻相近时,说明疾病预测模型的效果较好。
所述模型管理模块15用于对多个评估优化后的疾病预测模型进行统一管理,以调用所述疾病预测模型,并通过所述疾病预测模型对真实数据集进行疾病预测;所述真实数据集是所述疾病预测模型应用于实际场景中所用的数据集。
在本实施例中,所述模型管理模块包括:存储单元和调用单元。
所述存储单元用于将多个评估优化后的疾病预测模型存入统一的模型部署环境中。具体地,存入模型部署环境的内容包括疾病预测模型的程序文件以及用于驱动疾病预测模型的代码库。所述代码库用于驱动疾病预测模型的程序文件,实现疾病预测模型的运行。
所述调用单元用于由所述模型部署环境中调用与实际应用场景匹配的疾病预测模型,利用所述疾病预测模型对所述真实数据集进行疾病预测。调用是指调用疾病预测模型的程序文件及代码库,利用代码库为疾病预测模型提供运行环境,使其正常运行。
在本实施例中,所述基于机器学习的一体化建模系统还包括模型监控模块。
所述模型监控模块用于在调用所述疾病预测模型并对真实数据集进行疾病预测的同时,对所述疾病预测模型的预测效果是否正常和所述真实数据集的数据源是否正常进行监控。
具体地,所述模型监控模块包括:预测效果监控单元和数据源监控单元。
所述预测效果监控单元用于对所述疾病预测模型的预测效果是否正常进行监控。具体地,监控所述疾病预测模型实际在某医院上线作为产品应用后,预测的评分是否稳定。
所述数据源监控单元用于通过缺失率和数值统计指标对所述真实数据集的数据源是否正常进行监控。具体地,监控所述真实数据集的缺失率与数值型的平均值、众数、中位数等统计指标是否突变。
请参阅图6,显示为本发明的基于机器学习的一体化建模系统于一实施例中的模型生成流程图。如图6所示,针对某一疾病进行人群纳排选择,对多个患者的数据进行选择,将涉及该疾病的患者作为纳入人群,将未涉及该疾病的患者作为排除人群。针对选择后的患者,进行观察点的设置,以明确数据获取的时间,利用特定时间的数据进行建模数据集构建,对患者数据集进行分析和异常识别,以便在建模之前保证数据集的数据结构正常,利用正常的患者数据集进行机器学习建模。在该疾病的预测模型生成后,首先构建模拟数据集对该疾病的预测模型进行模拟分析,在确保模拟分析的效果达到预期后,再将该疾病的预测模型部署于相应的运行环境中进行管理。当某医院针对该疾病需要应用该预测模型时,将模型部署中的程序文件与代码库设置于该医院的服务器中,通过代码库驱动该预测模型正常运转,结合该医院的患者检测数据进行患者的疾病预测。
由于医院数据的敏感性,无法将医院的数据拷出医院后,在进行数据分析、建模等环节;所有的任务必须事先部署在医院,开发成一体化的系统,部署在医院服务器之后,自动化,一气呵成的完成,如果用别的现有的软件拼拼凑凑完成,不仅操作繁琐,更加无法实现系统的不同环节的配合。
请参阅图7,显示为本发明的基于机器学习的一体化建模系统于一实施例中的系统界面示意。如图7所示,本发明的基于机器学习的一体化建模系统将建模信息通过交互界面进行呈现。图7中显示,已有建模项目包括十院VTE疾病建模和九院脓毒症项目。其中,十院VTE疾病建模下可呈现数据集构建、数据分析结果和机器学习建模。机器学习建模包括分布式梯度增强库-机器学习算法(xgboost)、神经网络和支持向量机-分类器(svm)。图7右侧显示了数据集构建的逻辑,以人群纳排为例,纳入条件为:成年、男性、术后卧床,排除条件为:肝素干预。
于本实施例的一实际应用中,所述基于机器学习的一体化建模系统的功能依赖于一设备来运行。所述设备为执行疾病预测模型各环节的服务器。
请参阅图8,显示为本发明的基于机器学习的一体化建模设备于一实施例中的结构连接示意图。如图8所示,本实施例提供一种设备8,所述设备8包括:处理器81、存储器82、通信接口83或/和系统总线84;存储器82和通信接口83通过系统总线84与处理器81连接并完成相互间的通信,存储器82用于存储计算机程序,通信接口83用于和其他设备进行通信,处理器81用于运行计算机程序,使所述设备8执行所述基于机器学习的一体化建模系统的各个步骤。
上述提到的系统总线84可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。通信接口83用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器82可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器81可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Alication SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明所述基于机器学习的一体化建模系统将疾病预测模型的各个环节进行有机的结合,形成一体化的疾病预测模型解决方案,提升疾病预测模型生产的效率和质量。基于机器学习的一体化建模系统可以实现一个项目涉及的所有环节的参数和结果,都会被集中记录和保存,不会遗漏丢失。避免了工具之间相互孤立,缺乏统一的过程管理,衔接过程容易出错,过程中的操作参数难以被完整的记录等缺陷。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (7)

1.一种基于机器学习的一体化建模系统,其特征在于,所述基于机器学习的一体化建模系统包括:
数据集模块,用于构建检测指标数据集;
异常分析模块,用于对所述检测指标数据集进行异常分析,并生成异常分析结果;
模型建立模块,用于结合所述异常分析结果建立疾病预测模型;在模型建立过程中,划分数据集时以患者为基本单位进行划分,将同一个患者不同观察点的数据仅划分在训练集或验证集;所述模型建立模块包括:异常判断单元,用于根据所述异常分析结果判断所述检测指标数据集是否出现异常;若是,通过决策单元生成异常提示信息,以使用户通过所述异常提示信息核查异常原因;若否,利用所述决策单元结合所述检测指标数据集建立所述疾病预测模型;
模拟分析模块,用于构建一模拟数据集,并通过所述模拟数据集对所述疾病预测模型进行评估优化,按照所述时间条件统计所述疾病预测模型的评分,设置一时间窗,根据所述时间窗内的评分对所述疾病预测模型进行评估;所述模拟数据集是根据所述疾病预测模型的使用场景构建的数据集;
模型管理模块,用于对多个评估优化后的疾病预测模型进行统一管理,以调用所述疾病预测模型,并通过所述疾病预测模型对真实数据集进行疾病预测;所述真实数据集是所述疾病预测模型应用于实际场景中所用的数据集;所述模型管理模块包括:存储单元,用于将多个评估优化后的疾病预测模型存入统一的模型部署环境中;调用单元,用于由所述模型部署环境中调用与实际应用场景匹配的疾病预测模型,利用所述疾病预测模型对所述真实数据集进行疾病预测;存入模型部署环境的内容包括疾病预测模型的程序文件以及用于驱动疾病预测模型的代码库;所述代码库用于驱动疾病预测模型的程序文件,实现疾病预测模型的运行;
模型监控模块,用于在调用所述疾病预测模型并对真实数据集进行疾病预测的同时,对所述疾病预测模型的预测效果是否正常和所述真实数据集的数据源是否正常进行监控。
2.根据权利要求1所述的基于机器学习的一体化建模系统,其特征在于,所述数据集模块包括:
人群纳排单元,用于根据预设人群纳排规则确定纳入的人群和排除的人群;
观察点设置单元,用于针对所述纳入的人群设置标识性的观察点,并在所述标识性的观察点获取纳入人群的检测指标数据;
构建单元,用于结合所述纳入人群的检测指标数据构建所述检测指标数据集。
3.根据权利要求1所述的基于机器学习的一体化建模系统,其特征在于:
所述疾病预测模型的建立过程为:将所述检测指标数据集分为训练集和验证集,将所述验证集用于所述疾病预测模型的训练过程,将所述验证集用于所述疾病预测模型的验证过程。
4.根据权利要求3所述的基于机器学习的一体化建模系统,其特征在于:
所述疾病预测模型通过在验证过程中进行超参数优化以最终确定;所述超参数优化是指在确定的参数范围内根据超参数优化方向逐步收窄参数范围的过程。
5.根据权利要求1所述的基于机器学习的一体化建模系统,其特征在于,所述模拟分析模块包括:
场景确定单元,用于确定所述疾病预测模型的使用场景;
数据获取单元,用于根据所述使用场景确定数据获取的时间条件,按照所述时间条件在相应时间进行数据的获取,并生成所述模拟数据集。
6.根据权利要求5所述的基于机器学习的一体化建模系统,其特征在于,
所述时间窗内的评估模式包括平均值模式、最大值模式和最小值模式。
7.根据权利要求1所述的基于机器学习的一体化建模系统,其特征在于,所述模型监控模块包括:
预测效果监控单元,用于对所述疾病预测模型的预测效果是否正常进行监控;
数据源监控单元,用于通过缺失率和数值统计指标对所述真实数据集的数据源是否正常进行监控。
CN202011256749.4A 2020-11-11 2020-11-11 基于机器学习的一体化建模系统 Active CN112382395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011256749.4A CN112382395B (zh) 2020-11-11 2020-11-11 基于机器学习的一体化建模系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011256749.4A CN112382395B (zh) 2020-11-11 2020-11-11 基于机器学习的一体化建模系统

Publications (2)

Publication Number Publication Date
CN112382395A CN112382395A (zh) 2021-02-19
CN112382395B true CN112382395B (zh) 2021-10-15

Family

ID=74582883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011256749.4A Active CN112382395B (zh) 2020-11-11 2020-11-11 基于机器学习的一体化建模系统

Country Status (1)

Country Link
CN (1) CN112382395B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862797B (zh) * 2021-02-23 2024-03-19 复旦大学附属华山医院 一种肝纤维化无损预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN111191792A (zh) * 2019-12-11 2020-05-22 平安医疗健康管理股份有限公司 数据分发方法、装置和计算机设备
CN111599465A (zh) * 2020-05-13 2020-08-28 上海森亿医疗科技有限公司 儿童社区获得性肺炎病原学类型预测方法、装置、终端及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717867A (zh) * 2018-05-02 2018-10-30 中国科学技术大学苏州研究院 基于梯度迭代树的疾病预测模型建立方法及装置
US20200250584A1 (en) * 2019-01-31 2020-08-06 Marketech International Corp. Modeling method for smart prognostics and health management system and computer program product thereof
CN110472743A (zh) * 2019-07-31 2019-11-19 北京百度网讯科技有限公司 样本集中特征穿越的处理方法及装置、设备与可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN111191792A (zh) * 2019-12-11 2020-05-22 平安医疗健康管理股份有限公司 数据分发方法、装置和计算机设备
CN111599465A (zh) * 2020-05-13 2020-08-28 上海森亿医疗科技有限公司 儿童社区获得性肺炎病原学类型预测方法、装置、终端及介质

Also Published As

Publication number Publication date
CN112382395A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
Stoean et al. Modeling medical decision making by support vector machines, explaining by rules of evolutionary algorithms with feature selection
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN108351862A (zh) 利用人工智能和用户输入来确定发育进展的方法和装置
CN109801687B (zh) 一种面向健康领域的因果关系知识库的构建方法和系统
CN107168995B (zh) 一种数据处理方法及服务器
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN112070239B (zh) 基于用户数据建模的分析方法、系统、介质及设备
CN110634563A (zh) 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
JP2023526241A (ja) 複数の機械学習モデルに基づく臨床予測器
Choubey et al. GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis
CN115938590B (zh) 结直肠癌术后lars预测模型的构建方法及预测系统
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
Ashrafuzzaman et al. Prediction of stroke disease using deep CNN based approach
CN112382395B (zh) 基于机器学习的一体化建模系统
Ullah et al. [Retracted] Early Detection and Diagnosis of Chronic Kidney Disease Based on Selected Predominant Features
Lee et al. Smart Robust Feature Selection (SoFt) for imbalanced and heterogeneous data
Pati et al. An ensemble deep learning approach for Chronic kidney disease (CKD) prediction
Al‐Anni et al. Prediction of NSCLC recurrence from microarray data with GEP
NavyaSree et al. Predicting the Risk Factor of Kidney Disease using Meta Classifiers
Cattinelli et al. Computational intelligence for the Balanced Scorecard: Studying performance trends of hemodialysis clinics
CN113936804A (zh) 一种肺癌切除术后持续漏气风险预测模型构建系统
Marwah et al. Lung Cancer Survivability prediction with Recursive Feature Elimination using Random Forest and Ensemble Classifiers
Ichim et al. Neural Network Based System for Disease Prediction
Madhavi et al. Early Discovery of Chronic Kidney Disease by Attributing Missing Values
Bushati et al. Comparison Of Three Classification Methods For Feature Selection In Diabetes Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant