CN110070942A - 一种基于梯度提升树模型的慢性肝病风险评估系统 - Google Patents

一种基于梯度提升树模型的慢性肝病风险评估系统 Download PDF

Info

Publication number
CN110070942A
CN110070942A CN201910325378.1A CN201910325378A CN110070942A CN 110070942 A CN110070942 A CN 110070942A CN 201910325378 A CN201910325378 A CN 201910325378A CN 110070942 A CN110070942 A CN 110070942A
Authority
CN
China
Prior art keywords
tree
gradient
model
test sample
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910325378.1A
Other languages
English (en)
Inventor
贾伟
谢国祥
卫润民
王京晔
陈天璐
李忆涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Piyun Biotechnology Co Ltd
Original Assignee
Shenzhen Piyun Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Piyun Biotechnology Co Ltd filed Critical Shenzhen Piyun Biotechnology Co Ltd
Priority to CN201910325378.1A priority Critical patent/CN110070942A/zh
Publication of CN110070942A publication Critical patent/CN110070942A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开一种基于梯度提升树模型的慢性肝病风险评估系统,由任务输入模块、数据处理模块和输出结果模块组成,数据处理模块包括梯度提升树模型模块和数据库,任务输入模块、梯度提升树模型模块、输出结果模块依次连接,梯度提升树模型模块包括第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型,第一梯度提升树模型用于预测测试样本患慢性肝病的概率,第二梯度提升树模型用于预测测试样本患肝硬化与肝纤维化的概率,第三梯度提升树模型用于预测测试样本肝纤维化所处分期。本发明旨在实现通过四项指标预测目标患者患慢性肝病、肝纤维化和肝硬化的风险概率,以及预测患者肝纤维化所处分期,为临床医生的诊断及治疗提供依据。

Description

一种基于梯度提升树模型的慢性肝病风险评估系统
技术领域
本发明涉及慢性肝病风险测试领域,具体涉及一种基于梯度提升树模型的慢性肝病风险评估系统。
背景技术
肝纤维化是指各种致病因子导致肝内结缔组织增生,如果致病因素不能移除,肝纤维化会进展为肝硬化。肝硬化是指一种或多种致病因子导致肝内持续性肝损坏,病理变化包括肝细胞大面积死亡、残存肝细胞结节状增生及假小叶的形成。临床上肝硬化早期无明显表现,中晚期可表现为腹水、肝癌、上消化道出血、肝性脑病等症状,严重影响患者生活质量。
临床上对于肝纤维化及肝硬化的诊断主要是通过B超、CT的临床影像学等检查,其中肝穿刺活检等病理学检查是肝硬化和肝纤维化及分期检验的金标准,主要通过穿刺活检获得肝组织进行相应的病理分析,该操作假阴性较高,而且会带给病人心理和生理上的痛苦。
近些年,各种疾病数据库出现及海量的疾病样本信息的收录,通过这些海量的信息,选用合适的疾病诊断模型构建的方法,对于这些很难通过常规检测手段诊断的疾病的诊断提供了可能。
发明内容
本发明的目的在于克服现有诊断技术的不足,提供一种基于梯度提升树模型的慢性肝病风险评估系统,旨在实现通过四项指标预测目标患者患慢性肝病、肝纤维化和肝硬化的风险概率,以及预测患者患有轻度肝纤维化和重度肝纤维化的风险概率,为临床医生的诊断及治疗提供依据。
本发明的技术方案如下:一种基于梯度提升树模型的慢性肝病风险评估系统,该系统是由任务输入模块、数据处理模块和输出结果模块三部分组成,所述数据处理模块包括梯度提升树模型模块和数据库,所述任务输入模块、梯度提升树模型模块、输出结果模块依次连接,所述数据库与梯度提升树模型模块相连,所述梯度提升树模型模块包括第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型,所述第一梯度提升树模型用于预测测试样本患慢性肝病的概率,第二梯度提升树模型用于预测测试样本患肝硬化与肝纤维化的概率,第三梯度提升树模型用于预测测试样本肝纤维化所处分期,所述任务输入模块用于输入测试样本基础信息,所述测试样本基本信息依次通过所述第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型测试后,最后通过所述输出结果模块呈现预测结果;所述第一梯度提升树模型、第二梯度提升树模型、第三梯度提升树模型的构建是基于一种迭代的决策回归树算法,该决策回归树算法是由多颗决策树组成,所有决策树的结论累计获得最终结果后,生成多颗回归树,每颗回归树都是从之前所有决策树的残差中学习训练出来,利用的是决策树中损失函数的负梯度值作为决策回归树算法中的残差的近似值,进而拟合一棵提升回归树,通过所述提升回归树生成梯度提升树模型。
在上述技术方案,所述第一梯度提升树模型、第二梯度提升树模型、第三梯度提升树模型的构建过程,包括从数据库中提取多个数据库样本,每个数据库样本中含有多个特征,采用随机有放回的选择数据库样本来构造出多个训练集和至少一个测试集,所述多个训练集分别通过一决策树输出待检样本结果,再经过待检样本结果投票后得出待检样本最终结果,最后根据所述待检样本最终结果生成多颗回归树。
在上述技术方案,该慢性肝病风险评估系统采用分层诊断;当所述第一梯度提升树模型所预测测试样本患慢性肝病的概率大于正常概率时,进一步进入到所述第二梯度提升树模型进行测试,所述输出结果模块包含有预测测试样本患慢性肝病的概率以及测试样本患肝硬化与肝纤维化的概率;当所述第二梯度提升树模型所预测测试样本中患肝纤维化的概率大于患肝硬化的概率,进一步进入到所述第三梯度提升树模型进行测试,所述输出结果模块包括有预测测试样本患肝硬化与患肝纤维化的概率,以及所处肝纤维化分期的概率。
在上述技术方案,所述慢性肝病、肝硬化、肝纤维化、纤维化所处分期的概率结果均以饼图的形式输出。
在上述技术方案,可通过所述输出结果模块查询所测试样本的信息及结果的历史记录。
在上述技术方案,所述任务输入模块通过相应界面输入单个测试样本信息,也可通过excel表格导入多个测试样本信息,进行多个样本预测。
在上述技术方案,所述测试样本基础信息包括样本编号、样本姓名、样本年龄、血清天冬氨酸氨基转移酶含量、血清丙氨酸氨基转移酶含量、血小板计数六项基本信息。
在上述技术方案,所述任务输入模块仅适用于患者年龄大于18岁的测试样本。
相对于现有技术,本发明的有益效果在于:1、本发明通过四项常用的临床指标,预测测试样本患慢性肝病、肝纤维化和肝硬化的风险概率,以及预测患者患有轻度肝纤维化和重度肝纤维化的风险概率,为临床医生的诊断及治疗提供依据;2、采用服务器-浏览器模式,网页界面友好,操作简单,实现了一键式快速分析;3、采用自建数据库构建提升树模型,该数据库样本量庞大且信息完备,所构建的预测模型预测性能准确、可靠;4、可批量、快速预测大量样本并输出结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统框图;
图2为本发明的模型构造框图;
图3为本发明所述决策回归树算法的方法步骤图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例
请参阅图1,本发明提供一种基于梯度提升树模型的慢性肝病风险评估系统,该系统是由任务输入模块、数据处理模块和输出结果模块三部分组成,数据处理模块包括梯度提升树模型模块和数据库,任务输入模块、梯度提升树模型模块、输出结果模块依次连接,数据库与梯度提升树模型模块相连。
进一步地,所述梯度提升树模型模块包括第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型,第一梯度提升树模型用于预测测试样本患慢性肝病的概率,第二梯度提升树模型用于预测测试样本患肝硬化与肝纤维化的概率,第三梯度提升树模型用于预测测试样本肝纤维化所处分期,(轻度肝纤维化和重度肝纤维化),工作原理:通过任务输入模块用于输入测试样本基础信息,测试样本基本信息依次通过第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型测试后,最后通过输出结果模块呈现预测结果,所述慢性肝病、肝硬化、肝纤维化、纤维化所处分期的概率结果均以饼图的形式输出,从而可以直观的看到受试者的健康状况。
所述测试样本基础信息包括样本编号、样本姓名、样本年龄、血清天冬氨酸氨基转移酶含量、血清丙氨酸氨基转移酶含量、血小板计数六项基本信息。仅适用于患者年龄大于18岁的测试样本。
所述任务输入模块通过相应界面输入单个测试样本信息,也可通过excel表格导入多个测试样本信息,进行多个样本预测。可通过输出结果模块查询所测试样本的信息及结果的历史记录。
本实施例,采用服务器-浏览器模式,网页界面友好,操作简单,实现了一键式快速分析。
具体的模型构造方式,请参阅图2,所述第一梯度提升树模型、第二梯度提升树模型、第三梯度提升树模型的构建是基于一种迭代的决策回归树算法,该决策回归树算法是由多颗决策树组成,所有决策树的结论累计获得最终结果后,生成多颗回归树,每颗回归树都是从之前所有决策树的残差中学习训练出来,利用的是决策树中损失函数的负梯度值作为决策回归树算法中的残差的近似值,进而拟合一棵提升回归树,通过提升回归树生成梯度提升树模型。
所述第一梯度提升树模型、第二梯度提升树模型、第三梯度提升树模型的构建过程,包括从数据库中提取多个数据库样本,每个数据库样本中含有多个特征,采用随机有放回的选择数据库样本来构造出多个训练集和至少一个测试集,所述多个训练集分别通过一决策树输出待检样本结果,再经过待检样本结果投票后得出待检样本最终结果,最后根据所述待检样本最终结果生成多颗回归树。
所述决策回归树算法的具体方法步骤如图3所示。
该慢性肝病风险评估系统采用分层诊断:当第一梯度提升树模型所预测测试样本患慢性肝病的概率大于正常概率时,进一步进入到第二梯度提升树模型进行测试,输出结果模块包含有预测测试样本患慢性肝病的概率以及测试样本患肝硬化与肝纤维化的概率;当第二梯度提升树模型所预测测试样本中患肝纤维化的概率大于患肝硬化的概率,进一步进入到第三梯度提升树模型进行测试,输出结果模块包括有预测测试样本患肝硬化与患肝纤维化的概率,以及所处肝纤维化分期的概率。
综上所述,本发明仅需通过年龄、血清天冬氨酸氨基转移酶含量、血清丙氨酸氨基转移酶含量、血小板计数这四项常用的临床指标,预测测试样本患慢性肝病、肝纤维化和肝硬化的风险概率,以及预测患者患有轻度肝纤维化和重度肝纤维化的风险概率,为临床医生的诊断及治疗提供依据。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:该系统是由任务输入模块、数据处理模块和输出结果模块三部分组成,所述数据处理模块包括梯度提升树模型模块和数据库,所述任务输入模块、梯度提升树模型模块、输出结果模块依次连接,所述数据库与梯度提升树模型模块相连,所述梯度提升树模型模块包括第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型,所述第一梯度提升树模型用于预测测试样本患慢性肝病的概率,第二梯度提升树模型用于预测测试样本患肝硬化与肝纤维化的概率,第三梯度提升树模型用于预测测试样本肝纤维化所处分期,所述任务输入模块用于输入测试样本基础信息,所述测试样本基本信息依次通过所述第一梯度提升树模型、第二梯度提升树模型和第三梯度提升树模型测试后,最后通过所述输出结果模块呈现预测结果;所述第一梯度提升树模型、第二梯度提升树模型、第三梯度提升树模型的构建是基于一种迭代的决策回归树算法,该决策回归树算法是由多颗决策树组成,所有决策树的结论累计获得最终结果后,生成多颗回归树,每颗回归树都是从之前所有决策树的残差中学习训练出来,利用的是决策树中损失函数的负梯度值作为决策回归树算法中的残差的近似值,进而拟合一棵提升回归树,通过所述提升回归树生成梯度提升树模型。
2.根据权利要求1所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:所述第一梯度提升树模型、第二梯度提升树模型、第三梯度提升树模型的构建过程,包括从数据库中提取多个数据库样本,每个数据库样本中含有多个特征,采用随机有放回的选择数据库样本来构造出多个训练集和至少一个测试集,所述多个训练集分别通过一决策树输出待检样本结果,再经过待检样本结果投票后得出待检样本最终结果,最后根据所述待检样本最终结果生成多颗回归树。
3.根据权利要求1所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:该慢性肝病风险评估系统采用分层诊断;当所述第一梯度提升树模型所预测测试样本患慢性肝病的概率大于正常概率时,进一步进入到所述第二梯度提升树模型进行测试,所述输出结果模块包含有预测测试样本患慢性肝病的概率以及测试样本患肝硬化与肝纤维化的概率;当所述第二梯度提升树模型所预测测试样本中患肝纤维化的概率大于患肝硬化的概率,进一步进入到所述第三梯度提升树模型进行测试,所述输出结果模块包括有预测测试样本患肝硬化与患肝纤维化的概率,以及所处肝纤维化分期的概率。
4.根据权利要求3所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:所述慢性肝病、肝硬化、肝纤维化、纤维化所处分期的概率结果均以饼图的形式输出。
5.根据权利要求4所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:可通过所述输出结果模块查询所测试样本的信息及结果的历史记录。
6.根据权利要求1所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:所述任务输入模块通过相应界面输入单个测试样本信息,也可通过excel表格导入多个测试样本信息,进行多个样本预测。
7.根据权利要求1或6所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:所述测试样本基础信息包括样本编号、样本姓名、样本年龄、血清天冬氨酸氨基转移酶含量、血清丙氨酸氨基转移酶含量、血小板计数六项基本信息。
8.根据权利要求7所述的一种基于梯度提升树模型的慢性肝病风险评估系统,其特征在于:所述任务输入模块仅适用于患者年龄大于18岁的测试样本。
CN201910325378.1A 2019-04-22 2019-04-22 一种基于梯度提升树模型的慢性肝病风险评估系统 Pending CN110070942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910325378.1A CN110070942A (zh) 2019-04-22 2019-04-22 一种基于梯度提升树模型的慢性肝病风险评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910325378.1A CN110070942A (zh) 2019-04-22 2019-04-22 一种基于梯度提升树模型的慢性肝病风险评估系统

Publications (1)

Publication Number Publication Date
CN110070942A true CN110070942A (zh) 2019-07-30

Family

ID=67368452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910325378.1A Pending CN110070942A (zh) 2019-04-22 2019-04-22 一种基于梯度提升树模型的慢性肝病风险评估系统

Country Status (1)

Country Link
CN (1) CN110070942A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443506A (zh) * 2022-04-07 2022-05-06 浙江大学 一种用于测试人工智能模型的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101023356A (zh) * 2004-08-12 2007-08-22 霍夫曼-拉罗奇有限公司 诊断肝纤维化的方法
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN108717867A (zh) * 2018-05-02 2018-10-30 中国科学技术大学苏州研究院 基于梯度迭代树的疾病预测模型建立方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101023356A (zh) * 2004-08-12 2007-08-22 霍夫曼-拉罗奇有限公司 诊断肝纤维化的方法
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN108717867A (zh) * 2018-05-02 2018-10-30 中国科学技术大学苏州研究院 基于梯度迭代树的疾病预测模型建立方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴红等: "基于决策树的慢性乙型肝炎与肝硬化诊断模型", 《现代医院》 *
蔡加欣等: "基于随机森林的慢性丙型肝炎纤维化和活动度分析", 《中国生物医学工程学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443506A (zh) * 2022-04-07 2022-05-06 浙江大学 一种用于测试人工智能模型的方法及装置
CN114443506B (zh) * 2022-04-07 2022-06-10 浙江大学 一种用于测试人工智能模型的方法及装置

Similar Documents

Publication Publication Date Title
DeWitte et al. The osteological paradox 20 years later: past perspectives, future directions
CN103517668B (zh) 基于新的详细分类来评估肝纤维化的存在或严重度的无创性方法
García-Gallo et al. A machine learning-based model for 1-year mortality prediction in patients admitted to an Intensive Care Unit with a diagnosis of sepsis
CN110070128A (zh) 一种基于随机森林模型的慢性肝病风险评估系统
CN110991536B (zh) 原发性肝癌的早期预警模型的训练方法
CN1973778A (zh) 胃癌术后严重并发症风险度的预测方法
CN105319364B (zh) 用于预测小肝癌复发的联合诊断标记
RU2007124523A (ru) Способы, системы и компьютерные программные продукты для разработки и использования прогнозных моделей для прогнозирования большинства медицинских случаев, оценки стратегий вмешательства и для одновременной оценки нерегулярности биологических маркеров
CN112669960B (zh) 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质
CN113327679A (zh) 一种肺栓塞临床风险及预后评分方法与系统
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
CN112786203A (zh) 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
CN117133439A (zh) 一种卵巢恶性和交界性肿瘤诊断模型构建方法
Bakogiannis et al. Hypertrophic cardiomyopathy or athlete’s heart? A systematic review of novel cardiovascular magnetic resonance imaging parameters
CN110148471A (zh) 肝胆肿瘤患者生存率预测数据收集系统及模型构建方法
CN116884631B (zh) 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统
CN110070942A (zh) 一种基于梯度提升树模型的慢性肝病风险评估系统
CN112216386A (zh) 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法
CN115602319A (zh) 一种无创肝纤维化评估装置
CN114898859A (zh) 急性主动脉夹层院内预后预测系统
CN114783587A (zh) 严重急性肾损伤智能预测系统
CN113936789A (zh) 无创乙肝肝硬化诊断模型的构建方法及诊断列线图的应用
Stachon et al. Estimation of the mortality risk of surgical intensive care patients based on routine laboratory parameters
Saleena Analysis of machine learning and deep learning prediction models for sepsis and neonatal sepsis: A systematic review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination