CN112669960B - 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 - Google Patents

一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 Download PDF

Info

Publication number
CN112669960B
CN112669960B CN202011629398.7A CN202011629398A CN112669960B CN 112669960 B CN112669960 B CN 112669960B CN 202011629398 A CN202011629398 A CN 202011629398A CN 112669960 B CN112669960 B CN 112669960B
Authority
CN
China
Prior art keywords
liver fibrosis
data
prediction
model
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011629398.7A
Other languages
English (en)
Other versions
CN112669960A (zh
Inventor
鲁小杰
王锦程
周建华
余思悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011629398.7A priority Critical patent/CN112669960B/zh
Publication of CN112669960A publication Critical patent/CN112669960A/zh
Application granted granted Critical
Publication of CN112669960B publication Critical patent/CN112669960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质,属于健康管理领域。现有的肝脏纤维化检测准确率低。本发明的肝脏纤维化预测模型的构建方法包括获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;筛选并确定出与肝脏纤维化程度关联的特征指标;肝脏纤维化数据预测算法的训练;验证与比较肝脏纤维化相关数据预测算法的模型,结合所得比较结果,确认出适用于预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。基于多个临床指标的无创诊断肝纤维化模型,不仅使得血清学和影像学之间的优劣进行互补,提高了模型的预测速度和准确性,能够为临床肝脏纤维化诊断提供参考。

Description

一种基于机器学习方法的肝脏纤维化预测模型的构建方法、 预测系统、设备和存储介质
技术领域
本发明涉及一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质。
背景技术
传统的肝纤维化诊断需要通过穿刺针进行肝组织获取,操作过程不仅是有创,而且局部的肝组织获取并不能完全代表整个肝脏的病情发展程度。此外,部分病人会在穿刺术后承担疼痛、出血等术后并发症的风险。虽然国外已经有开发出的血清模型(比如APRI、FIB-4)和先进的肝硬度检测设备(例如超声弹性成像),但是上述方法的肝脏纤维化预测结果的准确率低,血清模型应用在国内病人数据的AUC值通常都在0.7左右。而肝硬度检测设备的准确性虽然相对较高,但很容易出现测量失误,因此也影响了其实用性。
发明内容
本发明的目的是为了解决现有的肝脏纤维化检测准确率低的问题,而提出一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质。
一种基于机器学习方法的肝脏纤维化预测模型的构建方法,所述预测方法通过以下步骤实现:
步骤一、获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
步骤二、筛选并确定出与肝脏纤维化程度关联的特征指标;
步骤三、肝脏纤维化数据预测算法的训练;
步骤四、验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
步骤五、结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型
一种基于机器学习方法的肝脏纤维化预测系统,所述系统包括:
数据预处理模块,用于获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
特征筛选模块,用于筛选并确定出与肝脏纤维化程度关联的特征;
算法训练模块,用于肝脏纤维化数据预测算法的训练;
算法验证模块,用于验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
模型确认模块,用于结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。
一种用于基于机器学习方法的肝脏纤维化预测方法的预测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
一种计算机可读存储介质,用于存储程序,所述程序被执行时实现任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
本发明的有益效果为:
本发明是一种无创预测肝脏纤维化模型,是利用多个临床指标,包括血象检查、实验室生化全套检查、B超检查、弹性成像检查等数据来形成肝脏纤维化相关数据预测模型的。基于多个临床指标的无创诊断肝纤维化模型,不仅使得血清学和影像学之间的优劣进行互补,提高了模型的预测速度和准确性,能够为临床肝脏纤维化诊断提供参考。同时也避免了患者所需要承担的手术痛苦,能在较短的时间内得到较满意的结果,大大提高临床工作效率并减少了患者和医务人员的经济成本和时间成本。
利用本发明的肝脏纤维化预测模型来预测病毒性肝炎或者脂肪肝病人的肝纤维化程度,实现动态监测病情的效果。设定与预测结果相对应的肝纤维化级别,并按照预测结果和肝脏纤维化相适应的由低到高的严重程度设为1级、2级、3级,一般来说,肝纤维化程度达到2级就需要采取干预措施,达到3级以上就要考虑肝移植。
附图说明
图1为本发明的方法流程图;
图2为本发明涉及的针对显著肝脏纤维化(significant fibrosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图3为本发明涉及的肝硬化(cirrhosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图4为本发明涉及的针对显著肝脏纤维化(significant fibrosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图5为本发明涉及的肝硬化(cirrhosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图6为本发明涉及的训练组预测显著肝脏纤维化的受试者工作特征曲线(ROC)曲线图;
图7为本发明涉及的训练组预测肝硬化的受试者工作特征曲线(ROC)曲线图;
图8为本发明涉及的验证组预测显著肝脏纤维化的受试者工作特征曲线(ROC)曲线图;
图9为本发明涉及的验证组预测肝硬化的受试者工作特征曲线(ROC)曲线图;
图10为本发明涉及的训练组预测显著肝脏纤维化决策曲线分析(DCA)曲线图;
图11为本发明涉及的训练组预测肝硬化决策曲线分析(DCA)曲线图;
图12为本发明涉及的验证组预测显著肝脏纤维化决策曲线分析(DCA)曲线图;
图13为本发明涉及的验证组预测肝硬化决策曲线分析(DCA)曲线图。
具体实施方式
具体实施方式一:
本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,如图1所示,所述方法通过以下步骤实现:
步骤一、获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
步骤二、筛选并确定出与肝脏纤维化程度关联的特征指标;
步骤三、肝脏纤维化相关数据预测算法的训练;
步骤四、验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
步骤五、结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,步骤一所述的数据是从医院获取的病人病理信息,例如,淮安市第四人民医院、北京佑安医院、吉林省肝胆医院和安徽中医药大学第一附属医院等四个中心经行,包括:病人的基本信息、肝脏纤维化病理活检数据、超声弹性成像数据、B超图像测量数据和血清实验室检查数据;
步骤一所述的对数据进行预处理为,除了肝脏纤维化病理活检数据不做预处理外,其余的数值型变量统一进行两步处理:
(1)、将每个数值型变量从小到大排列,将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
(2)、将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
其中,
所述的病人的基本信息包括年龄、性别、身高、体重;
所述的B超图像测量数据包括脾脏尺寸、脾静脉直径、门静脉直径、门静脉流速;
所述的血清实验室检查数据包括白细胞计数、血小板计数、谷丙转氨酶、谷草转氨酶、谷氨酰转肽酶、总胆红素、直接胆红素、凝血时间、碱性磷酸酶、白蛋白、血胆固醇、凝血国际标准化比值、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白。
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,步骤二所述的筛选并确定出与肝脏纤维化程度关联的特征指标的步骤具体为:
选取采集的数据中的一部分作为训练组,这里以淮安市第四人民医院和吉林省肝胆医院作为训练组,以北京佑安医院和安徽中医药大学第一附属医院另一部分数据作为两个模型的验证中心;
之后,在训练组里通过斯皮尔曼相关性分析筛选出有显著相关性的特征指标;
之后,通过lasso回归对筛选出的指标进行进一步精筛选,所述的lasso回归的代价函数为:
其中,xij代表了第i个病人数据的第j个特征变量,yi是第i个病人数据的肝脏纤维化程度,q表示特征变量的总数,m是病人数据的总数,λ为惩罚函数,为确定的最优结果,βj为待确定的系数,利用lasso回归筛选非0系数变量作为最终建模的有效特征;
之后,筛选出与肝脏纤维化程度关联的指标包括:谷草转氨酶、谷氨酰转肽酶、血小板计数、凝血时间、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白、超声弹性成像和门静脉直径;
图2-5中,利用lasso回归筛选非0系数变量作为最终建模的输入变量。图2和图4为针对显著肝脏纤维化(significant fibrosis);图3和图5为针对肝硬化(cirrhosis)。图2、3、4、5横坐标都为log lambda(logλ),图2、3的纵坐标为AUC值,4、5的纵坐标为系数值。图2、3为根据AUC值确定最佳输入变量的个数,从而确定最佳lambda值(λ值)。图4、5为根据图2、3确定的lambda值(λ值)而得到的在这lambda值(λ值)时候的非零系数变量。
具体实施方式四:
与具体实施方式三不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,步骤三所述的肝脏纤维化数据预测算法的训练的步骤,具体为:
采用LightGBM算法对筛选出的指标进行训练,拟合肝脏纤维化程度;LightGBM是使用基于树的学习算法的梯度增强框架。它被设计为分布式且高效的。与其他模型相比,它具有许多优势,例如训练速度更快,效率更高,内存使用更少,准确性更高,支持并行和GPU学习,能够处理大规模数据。LightGBM使用逐叶策略来查找具有最大分配器增益的叶子,这与产生冗余计算的低效逐叶策略不同。将学习效率设定为0.1,决策树树叶的数量设定为90;为了防止过拟合和提高运行速度,将列采样技术参数(colsample_bytree)设定为0.9;其中,使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型的步骤如下:
1)、将数据集划分成训练样本集和测试样本集;
2)、使用LightGBM方法建立肝脏纤维化预测模型,设置肝脏纤维化预测模型参数,参数包括决策树树叶叶子数目,迭代次数,学习效率;
3)、将训练样本集输入到肝脏纤维化预测模型中,完成肝脏纤维化预测模型的训练;
4)、将测试样本集输入到肝脏纤维化预测模型中,输出肝脏纤维化程度的相关数据;
5)、根据肝脏纤维化程度的相关数据建立受试者工作特征曲线ROC。
具体实施方式五:
与具体实施方式四不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,所述的步骤四中,验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果的步骤,具体为:
将上一步骤中建立的模型代入北京佑安医院和安徽中医药大学第一附属医院两个验证中心进行验证,同时将此模型与单独的超声弹性成像、APRI和FIB-4进行检验比较;
APRI的公式为:
APRI=(AST(IU/L)/ULN)×100/(Platelet count(10^9/L))
FIB-4的公式为:
FIB-4=age(years)×AST(IU/L)/(Platelet count(10^9/L)×ALT(IU/L)^1/2)
采用ROC曲线和DCA曲线进行效果评价与模型之间对比;
其中,APRI表示AST与PLT的比值;AST表示谷草转氨酶水平,ULN表示AST在正常值上限(即40IU/L),Platelet count表示血小板计数;age表示年龄,ALT表示谷丙转氨酶水平;APRI全名为aspartate transaminase-to-platelet ratio index,是谷草转氨酶与血小板的比值;FIB-4全称fibrosis-4,属于一种无创性评估慢性肝病患者肝脏纤维化的一种方法的专有名词;Platelet count(10^9/L)中,Platelet count为血小板计数,L表示度量单位升;
如图6-13所示。
图6-9为受试者工作特征曲线(ROC)曲线图,为本申请与APRI、FIB-4和TE(超声弹性成像)的模型分类能力评价。可以认为曲线越高能力越出色。图6-7为训练组,图8-9为验证组,图6和图8为预测显著肝脏纤维化,图7和图9为预测肝硬化。
图10-13为决策曲线分析(DCA)曲线图,为本申请与APRI,FIB-4和TE(超声弹性成像)的模型提供的获益程度比较。可以认为曲线越高获益越高。图10-11为训练组,图12-13为验证组,图10和图12为预测显著肝脏纤维化,图11和图13为预测肝硬化。
所述的步骤五中,结合上一步所得比较结果,确认出适用于所述肝脏纤维化相关数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型的过程为,根据ROC曲线的最大约登指数(敏感性加特异性-1)来确认评价2级肝脏纤维化与肝硬化的模型阈值范围,根据确定出的阈值得到最终的模型的合理参数范围,从而确定最终参数固定的模型,并进行预测。
基于多个临床数据的肝脏纤维化模型,能在不做肝穿刺的情况下快速完成肝脏纤维化诊断,以此能高效率随时监测病人肝脏病变程度,制定对应的临床干预措施。不仅减少了病人的经济负担和医生的时间成本,而且也避免了病人需要有创检查带来的痛苦和并发症,减轻了医疗负担。
具体实施方式六:
本实施方式的一种基于机器学习方法的肝脏纤维化预测系统,所述系统包括:
数据预处理模块,用于获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
特征筛选模块,用于筛选并确定出与肝脏纤维化程度关联的特征;
算法训练模块,用于肝脏纤维化数据预测算法的训练;
算法验证模块,用于验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
模型确认模块,用于结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。
具体实施方式七:
本实施方式的一种基于机器学习方法的肝脏纤维化预测系统,所述的数据预处理模块还包括:
数据排列部,用于将每个数值型变量从小到大排列的数据排列部;
异常值更改部,与数据排列部相连,用于将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
数值变量归一化部,与异常值更改部,用于将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
所述的特征筛选模块还包括:
数据分组部,用于将采集的数据中的一部分选取作为训练组,另一部分数据作为验证中心;
筛选相关性特征指标部,与数据分组部连接,用于在训练组里通过斯皮尔曼相关性分析筛选出相关性的特征指标;
精筛选部,与筛选相关性特征指标部连接,从所得相关性的特征指标中通过lasso回归对筛选出的指标进行进一步精筛选;
肝脏纤维化程度关联的指标筛选部,与精筛选部连接,从精筛选部的结果中筛选出与肝脏纤维化程度关联的指标。
具体实施方式八:
本实施方式的一种基于机器学习方法的肝脏纤维化预测系统,
所述的算法训练模块还包括:
指标筛选拟合部,用于对筛选出的指标进行训练,拟合肝脏纤维化程度;采用LightGBM算法对筛选出的指标进行训练;
肝脏纤维化预测模型构造部,用于使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型。
所述的算法验证模块还包括:
效果评价部,用于采用ROC曲线进行效果评价;
所述的模型确认模块还包括:
确认阈值部,用于结合上一步所得比较结果,根据ROC曲线的最大约登指数敏感性加特异性-1来确认评价2级肝脏纤维化与肝硬化的模型阈值范围;
预测模型确认部,与确认阈值部连接,用于根据确定出的阈值得到最终的模型的合理参数范围,从而确定最终参数固定的模型。
具体实施方式九:
本实施方式的一种基于机器学习方法的肝脏纤维化预测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
具体实施方式十:
本实施方式的一种计算机可读存储介质,用于存储程序,所述程序被执行时实现权所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。

Claims (5)

1.一种基于机器学习方法的肝脏纤维化预测模型的构建方法,其特征在于:所述构建方法通过以下步骤实现:
步骤一、获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
步骤二、筛选并确定出与肝脏纤维化程度关联的特征指标;
步骤三、肝脏纤维化相关数据预测算法的训练;
步骤四、验证与比较肝脏纤维化相关数据预测算法的模型,并得出比较结果;
步骤五、结合上一步所得比较结果,确认出适用于所述肝脏纤维化相关数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型;
步骤二所述的筛选并确定出与肝脏纤维化程度关联的特征的步骤具体为:
选取采集的数据中的一部分作为训练组,另一部分数据作为验证中心;
之后,在训练组里通过斯皮尔曼相关性分析筛选出相关性的特征指标;
之后,通过lasso回归对筛选出的指标进行进一步精筛选,所述的lasso回归的代价函数为:
其中,xij代表了第i个病人数据的第j个特征变量,yi是第i个病人数据的肝脏纤维化程度,q表示特征变量的总数,m是病人数据的总数,λ为惩罚函数,为确定的最优结果,βj为待确定的系数,利用lasso回归筛选非0系数变量作为最终建模的有效特征;
之后,筛选出与肝脏纤维化程度关联的指标包括:谷草转氨酶、谷氨酰转肽酶、血小板计数、凝血时间、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白、超声弹性成像和门静脉直径;
步骤三所述的肝脏纤维化数据预测算法的训练的步骤,具体为:
采用LightGBM算法对筛选出的指标进行训练,拟合肝脏纤维化程度;将学习效率设定为0.1,决策树树叶的数量设定为90;将列采样技术参数设定为0.9;其中,使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型的步骤如下:
1)、将数据集划分成训练样本集和测试样本集;
2)、使用LightGBM算法建立肝脏纤维化预测模型,设置肝脏纤维化预测模型参数,参数包括决策树树叶叶子数目,迭代次数,学习效率;
3)、将训练样本集输入到肝脏纤维化预测模型中,完成肝脏纤维化预测模型的训练;
4)、将测试样本集输入到肝脏纤维化预测模型中,输出肝脏纤维化程度的相关数据;
5)、根据肝脏纤维化程度的相关数据建立受试者工作特征曲线ROC;
所述的步骤四中,验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果的步骤,具体为:
将上一步骤中建立的模型代入验证中心进行验证,同时将此模型与单独的超声弹性成像、APRI和FIB-4进行检验比较;
APRI的公式为:
APRI=(AST(IU/L)/ULN)×100/(Platelet count(10^9/L))
FIB-4的公式为:
FIB-4=age(years)×AST(IU/L)/(Platelet count(10^9/L)×ALT(IU/L)^1/2)
采用ROC曲线和DCA曲线进行效果评价与模型之间对比;
其中,APRI表示AST与PLT的比值;AST表示谷草转氨酶水平,ULN表示AST在正常值上限,Platelet count表示血小板计数;age表示年龄,ALT表示谷丙转氨酶水平;APRI全名为aspartate transaminase-to-platelet ratio index,是谷草转氨酶与血小板的比值;FIB-4全称fibrosis-4,属于一种无创性评估慢性肝病患者肝脏纤维化的一种方法的专有名词;Platelet count(10^9/L)中,Platelet count为血小板计数,L表示度量单位升;
所述的步骤五中,结合上一步所得比较结果,确认出适用于所述肝脏纤维化相关数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型的过程为:根据ROC曲线的最大约登指数敏感性加特异性-1来确认评价2级肝脏纤维化与肝硬化的模型阈值范围,根据确定出的阈值得到最终的模型的参数范围,从而确定最终参数固定的模型,并进行预测。
2.根据权利要求1所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,其特征在于:
步骤一所述的预测对象病理信息及肝脏相关数据包括:病人的基本信息、肝脏纤维化病理活检数据、超声弹性成像数据、B超图像测量数据和血清实验室检查数据;
步骤一所述预处理为,除了肝脏纤维化病理活检数据不做预处理外,其余的数值型变量统一进行两步处理:
(1)、将每个数值型变量从小到大排列,将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
(2)、将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
其中,
所述的病人的基本信息包括年龄、性别、身高、体重;
所述的B超图像测量数据包括脾脏尺寸、脾静脉直径、门静脉直径、门静脉流速;
所述的血清实验室检查数据包括白细胞计数、血小板计数、谷丙转氨酶、谷草转氨酶、谷氨酰转肽酶、总胆红素、直接胆红素、凝血时间、碱性磷酸酶、白蛋白、血胆固醇、凝血国际标准化比值、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白。
3.一种用于权利要求1或2中任一项所述的一种基于机器学习方法的肝脏纤维化预测系统,其特征在于,所述系统包括:
数据预处理模块,用于获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
特征筛选模块,用于筛选并确定出与肝脏纤维化程度关联的特征;
算法训练模块,用于肝脏纤维化数据预测算法的训练;
算法验证模块,用于验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
模型确认模块,用于结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型;
所述的数据预处理模块还包括:
数据排列部,用于将每个数值型变量从小到大排列的数据排列部;
异常值更改部,与数据排列部相连,用于将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
数值变量归一化部,与异常值更改部,用于将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
所述的特征筛选模块还包括:
数据分组部,用于将采集的数据中的一部分选取作为训练组,另一部分数据作为验证中心;
筛选相关性特征指标部,与数据分组部连接,用于在训练组里通过斯皮尔曼相关性分析筛选出相关性的特征指标;
精筛选部,与筛选相关性特征指标部连接,从所得相关性的特征指标中通过lasso回归对筛选出的指标进行进一步精筛选;
肝脏纤维化程度关联的指标筛选部,与精筛选部连接,从精筛选部的结果中筛选出与肝脏纤维化程度关联的指标;
所述的算法训练模块还包括:
指标筛选拟合部,用于对筛选出的指标进行训练,拟合肝脏纤维化程度;采用LightGBM算法对筛选出的指标进行训练;
肝脏纤维化预测模型构造部,用于使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型;
所述的算法验证模块还包括:
效果评价部,用于采用ROC曲线进行效果评价;
所述的模型确认模块还包括:
确认阈值部,用于结合上一步所得比较结果,根据ROC曲线的最大约登指数敏感性加特异性-1来确认评价2级肝脏纤维化与肝硬化的模型阈值范围;
预测模型确认部,与确认阈值部连接,用于根据确定出的阈值得到最终的模型的合理参数范围,从而确定最终参数固定的模型。
4.一种用于基于机器学习方法的肝脏纤维化预测方法的预测设备,其特征在于,包括:处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1或2中任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
5.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1或2任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
CN202011629398.7A 2020-12-31 2020-12-31 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 Active CN112669960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011629398.7A CN112669960B (zh) 2020-12-31 2020-12-31 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011629398.7A CN112669960B (zh) 2020-12-31 2020-12-31 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112669960A CN112669960A (zh) 2021-04-16
CN112669960B true CN112669960B (zh) 2023-12-19

Family

ID=75413021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011629398.7A Active CN112669960B (zh) 2020-12-31 2020-12-31 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112669960B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436731A (zh) * 2021-07-15 2021-09-24 王新兴 基于多个肝静脉波形图的肝脏血液动力检测方法及系统
CN114141363B (zh) * 2021-12-07 2023-09-12 川北医学院附属医院 一种基于机器学习方法的重症胰腺炎预测模型构建方法
CN114067092B (zh) * 2022-01-17 2022-04-19 山东药品食品职业学院 一种基于DenseNet和lightGBM的脂肪肝B超图像分类方法
CN114550942B (zh) * 2022-02-16 2023-06-30 四川大学华西医院 一种肝脏显著纤维化预测模型及构建方法
CN115602319B (zh) * 2022-12-07 2023-03-10 南方医科大学南方医院 一种无创肝纤维化评估装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN108990420A (zh) * 2016-05-29 2018-12-11 深圳市绘云生物科技有限公司 肝病相关生物标志物和使用方法及相关应用
CN110151210A (zh) * 2019-05-21 2019-08-23 上海联影医疗科技有限公司 一种医学图像处理方法、系统、装置和计算机可读介质
CN111881724A (zh) * 2020-06-12 2020-11-03 山东师范大学 一种基于LightGBM和特征融合的食管静脉曲张分类系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108990420A (zh) * 2016-05-29 2018-12-11 深圳市绘云生物科技有限公司 肝病相关生物标志物和使用方法及相关应用
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN110151210A (zh) * 2019-05-21 2019-08-23 上海联影医疗科技有限公司 一种医学图像处理方法、系统、装置和计算机可读介质
CN111881724A (zh) * 2020-06-12 2020-11-03 山东师范大学 一种基于LightGBM和特征融合的食管静脉曲张分类系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
lu xj et.al.Assessment of liver fibrosis with the gamma-glutamyl transpeptidase to platelet ratio: a multicentre validation in patients with HBV infection.2017,全文. *
Prediction of liver fibrosis stages by machine learning model: A decision tree approach;Heba Ayeldeen et.al;2015 Third World Conference on Complex Systems (WCCS);全文 *

Also Published As

Publication number Publication date
CN112669960A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN112669960B (zh) 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质
CN115083604B (zh) 一种术后不良事件预测模型的构建方法、系统和预测装置
CN112786204A (zh) 一种机器学习糖尿病发病风险预测方法及应用
CN112786203A (zh) 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
CN110991536A (zh) 原发性肝癌的早期预警模型的训练方法
CN113160994A (zh) 一种无创筛查非酒精性脂肪性肝炎模型的构建方法、预测系统、设备及存储介质
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN116821753A (zh) 一种基于机器学习的社区获得性肺炎病原类型预测方法
CN112990266B (zh) 多模态脑影像数据处理的方法、装置、设备及存储介质
CN112043273A (zh) 一种脑影像数据处理方法、装置、设备以及存储介质
CN111755129A (zh) 多模态骨质疏松分层预警方法及系统
CN117017310A (zh) 基于知识蒸馏的声电双模先天性心脏病预测装置
CN115954102A (zh) 一种人工关节假体周围感染诊断模型及诊断系统
TWI685854B (zh) 肝纖維化評估模型、肝纖維化評估系統及肝纖維化評估方法
CN114842978A (zh) 一种基于医疗大数据的血气分析智能检测系统及方法
CN110706803A (zh) 一种确定心肌纤维化的方法、装置、可读介质及电子设备
CN115064267B (zh) 一种胆道闭锁风险评估系统及其建立方法
CN110070942A (zh) 一种基于梯度提升树模型的慢性肝病风险评估系统
CN113555118B (zh) 一种病症程度的预测方法、装置、电子设备及存储介质
CN113947577B (zh) 基于健康人群分布实现脑影像特征归一化处理的方法、系统、装置、处理器及其存储介质
WO2024051015A1 (zh) 一种基于肌肉超声的影像特征提取及分类方法
CN112530591B (zh) 一种闻诊测试词汇的生成方法和存储设备
Devi et al. Recognition of Human Blood Disease on Sample Microscopic Images
Shehab et al. Accurate Prediction of Pulmonary Fibrosis Progression Using EfficientNet and Quantile Regression: A High Performing Approach
Saleena Analysis of machine learning and deep learning prediction models for sepsis and neonatal sepsis: A systematic review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant