CN112669960B - 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 - Google Patents
一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 Download PDFInfo
- Publication number
- CN112669960B CN112669960B CN202011629398.7A CN202011629398A CN112669960B CN 112669960 B CN112669960 B CN 112669960B CN 202011629398 A CN202011629398 A CN 202011629398A CN 112669960 B CN112669960 B CN 112669960B
- Authority
- CN
- China
- Prior art keywords
- liver fibrosis
- data
- prediction
- model
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000019425 cirrhosis of liver Diseases 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000010801 machine learning Methods 0.000 title claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 41
- 210000004185 liver Anatomy 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000001575 pathological effect Effects 0.000 claims abstract description 8
- MXBCYQUALCBQIJ-RYVPXURESA-N (8s,9s,10r,13s,14s,17r)-13-ethyl-17-ethynyl-11-methylidene-1,2,3,6,7,8,9,10,12,14,15,16-dodecahydrocyclopenta[a]phenanthren-17-ol;(8r,9s,13s,14s,17r)-17-ethynyl-13-methyl-7,8,9,11,12,14,15,16-octahydro-6h-cyclopenta[a]phenanthrene-3,17-diol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1.C1CC[C@@H]2[C@H]3C(=C)C[C@](CC)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 MXBCYQUALCBQIJ-RYVPXURESA-N 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 230000007882 cirrhosis Effects 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 108010003415 Aspartate Aminotransferases Proteins 0.000 claims description 6
- 102000004625 Aspartate Aminotransferases Human genes 0.000 claims description 6
- 206010053567 Coagulopathies Diseases 0.000 claims description 6
- 230000035602 clotting Effects 0.000 claims description 6
- 210000003240 portal vein Anatomy 0.000 claims description 6
- 210000002966 serum Anatomy 0.000 claims description 6
- 238000002091 elastography Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 230000007170 pathology Effects 0.000 claims description 5
- 238000002113 ultrasound elastography Methods 0.000 claims description 5
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 claims description 4
- 108010082126 Alanine transaminase Proteins 0.000 claims description 4
- 102000001187 Collagen Type III Human genes 0.000 claims description 4
- 108010069502 Collagen Type III Proteins 0.000 claims description 4
- 108020004206 Gamma-glutamyltransferase Proteins 0.000 claims description 4
- 108010003272 Hyaluronate lyase Proteins 0.000 claims description 4
- 102000001974 Hyaluronidases Human genes 0.000 claims description 4
- 238000001574 biopsy Methods 0.000 claims description 4
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 102000006640 gamma-Glutamyltransferase Human genes 0.000 claims description 4
- 229960002773 hyaluronidase Drugs 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 210000000952 spleen Anatomy 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012352 Spearman correlation analysis Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 108010088751 Albumins Proteins 0.000 claims description 2
- 102000009027 Albumins Human genes 0.000 claims description 2
- 102000002260 Alkaline Phosphatase Human genes 0.000 claims description 2
- 108020004774 Alkaline Phosphatase Proteins 0.000 claims description 2
- 108010035532 Collagen Proteins 0.000 claims description 2
- 102000008186 Collagen Human genes 0.000 claims description 2
- 102000004266 Collagen Type IV Human genes 0.000 claims description 2
- 108010042086 Collagen Type IV Proteins 0.000 claims description 2
- 238000008789 Direct Bilirubin Methods 0.000 claims description 2
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 claims description 2
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 claims description 2
- 108010085895 Laminin Proteins 0.000 claims description 2
- 238000008050 Total Bilirubin Reagent Methods 0.000 claims description 2
- 108090000340 Transaminases Proteins 0.000 claims description 2
- 102000003929 Transaminases Human genes 0.000 claims description 2
- 229940009098 aspartate Drugs 0.000 claims description 2
- 210000004369 blood Anatomy 0.000 claims description 2
- 239000008280 blood Substances 0.000 claims description 2
- 238000004820 blood count Methods 0.000 claims description 2
- 229920001436 collagen Polymers 0.000 claims description 2
- 229930195712 glutamate Natural products 0.000 claims description 2
- 238000009533 lab test Methods 0.000 claims description 2
- 210000000265 leukocyte Anatomy 0.000 claims description 2
- 208000019423 liver disease Diseases 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 210000003462 vein Anatomy 0.000 claims description 2
- 208000001490 Dengue Diseases 0.000 claims 1
- 206010012310 Dengue fever Diseases 0.000 claims 1
- 241001111948 Spilotes Species 0.000 claims 1
- 238000010219 correlation analysis Methods 0.000 claims 1
- 208000025729 dengue disease Diseases 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000003384 imaging method Methods 0.000 abstract description 2
- 206010016654 Fibrosis Diseases 0.000 description 11
- 238000013211 curve analysis Methods 0.000 description 5
- 230000004761 fibrosis Effects 0.000 description 3
- 210000005228 liver tissue Anatomy 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 1
- 208000004930 Fatty Liver Diseases 0.000 description 1
- 206010019708 Hepatic steatosis Diseases 0.000 description 1
- 206010019799 Hepatitis viral Diseases 0.000 description 1
- 208000035965 Postoperative Complications Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 238000007542 hardness measurement Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 201000001862 viral hepatitis Diseases 0.000 description 1
Abstract
一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质,属于健康管理领域。现有的肝脏纤维化检测准确率低。本发明的肝脏纤维化预测模型的构建方法包括获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;筛选并确定出与肝脏纤维化程度关联的特征指标;肝脏纤维化数据预测算法的训练;验证与比较肝脏纤维化相关数据预测算法的模型,结合所得比较结果,确认出适用于预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。基于多个临床指标的无创诊断肝纤维化模型,不仅使得血清学和影像学之间的优劣进行互补,提高了模型的预测速度和准确性,能够为临床肝脏纤维化诊断提供参考。
Description
技术领域
本发明涉及一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质。
背景技术
传统的肝纤维化诊断需要通过穿刺针进行肝组织获取,操作过程不仅是有创,而且局部的肝组织获取并不能完全代表整个肝脏的病情发展程度。此外,部分病人会在穿刺术后承担疼痛、出血等术后并发症的风险。虽然国外已经有开发出的血清模型(比如APRI、FIB-4)和先进的肝硬度检测设备(例如超声弹性成像),但是上述方法的肝脏纤维化预测结果的准确率低,血清模型应用在国内病人数据的AUC值通常都在0.7左右。而肝硬度检测设备的准确性虽然相对较高,但很容易出现测量失误,因此也影响了其实用性。
发明内容
本发明的目的是为了解决现有的肝脏纤维化检测准确率低的问题,而提出一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质。
一种基于机器学习方法的肝脏纤维化预测模型的构建方法,所述预测方法通过以下步骤实现:
步骤一、获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
步骤二、筛选并确定出与肝脏纤维化程度关联的特征指标;
步骤三、肝脏纤维化数据预测算法的训练;
步骤四、验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
步骤五、结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型
一种基于机器学习方法的肝脏纤维化预测系统,所述系统包括:
数据预处理模块,用于获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
特征筛选模块,用于筛选并确定出与肝脏纤维化程度关联的特征;
算法训练模块,用于肝脏纤维化数据预测算法的训练;
算法验证模块,用于验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
模型确认模块,用于结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。
一种用于基于机器学习方法的肝脏纤维化预测方法的预测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
一种计算机可读存储介质,用于存储程序,所述程序被执行时实现任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
本发明的有益效果为:
本发明是一种无创预测肝脏纤维化模型,是利用多个临床指标,包括血象检查、实验室生化全套检查、B超检查、弹性成像检查等数据来形成肝脏纤维化相关数据预测模型的。基于多个临床指标的无创诊断肝纤维化模型,不仅使得血清学和影像学之间的优劣进行互补,提高了模型的预测速度和准确性,能够为临床肝脏纤维化诊断提供参考。同时也避免了患者所需要承担的手术痛苦,能在较短的时间内得到较满意的结果,大大提高临床工作效率并减少了患者和医务人员的经济成本和时间成本。
利用本发明的肝脏纤维化预测模型来预测病毒性肝炎或者脂肪肝病人的肝纤维化程度,实现动态监测病情的效果。设定与预测结果相对应的肝纤维化级别,并按照预测结果和肝脏纤维化相适应的由低到高的严重程度设为1级、2级、3级,一般来说,肝纤维化程度达到2级就需要采取干预措施,达到3级以上就要考虑肝移植。
附图说明
图1为本发明的方法流程图;
图2为本发明涉及的针对显著肝脏纤维化(significant fibrosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图3为本发明涉及的肝硬化(cirrhosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图4为本发明涉及的针对显著肝脏纤维化(significant fibrosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图5为本发明涉及的肝硬化(cirrhosis)利用lasso回归筛选非0系数变量作为最终建模的输入变量的示意图;
图6为本发明涉及的训练组预测显著肝脏纤维化的受试者工作特征曲线(ROC)曲线图;
图7为本发明涉及的训练组预测肝硬化的受试者工作特征曲线(ROC)曲线图;
图8为本发明涉及的验证组预测显著肝脏纤维化的受试者工作特征曲线(ROC)曲线图;
图9为本发明涉及的验证组预测肝硬化的受试者工作特征曲线(ROC)曲线图;
图10为本发明涉及的训练组预测显著肝脏纤维化决策曲线分析(DCA)曲线图;
图11为本发明涉及的训练组预测肝硬化决策曲线分析(DCA)曲线图;
图12为本发明涉及的验证组预测显著肝脏纤维化决策曲线分析(DCA)曲线图;
图13为本发明涉及的验证组预测肝硬化决策曲线分析(DCA)曲线图。
具体实施方式
具体实施方式一:
本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,如图1所示,所述方法通过以下步骤实现:
步骤一、获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
步骤二、筛选并确定出与肝脏纤维化程度关联的特征指标;
步骤三、肝脏纤维化相关数据预测算法的训练;
步骤四、验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
步骤五、结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,步骤一所述的数据是从医院获取的病人病理信息,例如,淮安市第四人民医院、北京佑安医院、吉林省肝胆医院和安徽中医药大学第一附属医院等四个中心经行,包括:病人的基本信息、肝脏纤维化病理活检数据、超声弹性成像数据、B超图像测量数据和血清实验室检查数据;
步骤一所述的对数据进行预处理为,除了肝脏纤维化病理活检数据不做预处理外,其余的数值型变量统一进行两步处理:
(1)、将每个数值型变量从小到大排列,将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
(2)、将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
其中,
所述的病人的基本信息包括年龄、性别、身高、体重;
所述的B超图像测量数据包括脾脏尺寸、脾静脉直径、门静脉直径、门静脉流速;
所述的血清实验室检查数据包括白细胞计数、血小板计数、谷丙转氨酶、谷草转氨酶、谷氨酰转肽酶、总胆红素、直接胆红素、凝血时间、碱性磷酸酶、白蛋白、血胆固醇、凝血国际标准化比值、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白。
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,步骤二所述的筛选并确定出与肝脏纤维化程度关联的特征指标的步骤具体为:
选取采集的数据中的一部分作为训练组,这里以淮安市第四人民医院和吉林省肝胆医院作为训练组,以北京佑安医院和安徽中医药大学第一附属医院另一部分数据作为两个模型的验证中心;
之后,在训练组里通过斯皮尔曼相关性分析筛选出有显著相关性的特征指标;
之后,通过lasso回归对筛选出的指标进行进一步精筛选,所述的lasso回归的代价函数为:
其中,xij代表了第i个病人数据的第j个特征变量,yi是第i个病人数据的肝脏纤维化程度,q表示特征变量的总数,m是病人数据的总数,λ为惩罚函数,为确定的最优结果,βj为待确定的系数,利用lasso回归筛选非0系数变量作为最终建模的有效特征;
之后,筛选出与肝脏纤维化程度关联的指标包括:谷草转氨酶、谷氨酰转肽酶、血小板计数、凝血时间、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白、超声弹性成像和门静脉直径;
图2-5中,利用lasso回归筛选非0系数变量作为最终建模的输入变量。图2和图4为针对显著肝脏纤维化(significant fibrosis);图3和图5为针对肝硬化(cirrhosis)。图2、3、4、5横坐标都为log lambda(logλ),图2、3的纵坐标为AUC值,4、5的纵坐标为系数值。图2、3为根据AUC值确定最佳输入变量的个数,从而确定最佳lambda值(λ值)。图4、5为根据图2、3确定的lambda值(λ值)而得到的在这lambda值(λ值)时候的非零系数变量。
具体实施方式四:
与具体实施方式三不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,步骤三所述的肝脏纤维化数据预测算法的训练的步骤,具体为:
采用LightGBM算法对筛选出的指标进行训练,拟合肝脏纤维化程度;LightGBM是使用基于树的学习算法的梯度增强框架。它被设计为分布式且高效的。与其他模型相比,它具有许多优势,例如训练速度更快,效率更高,内存使用更少,准确性更高,支持并行和GPU学习,能够处理大规模数据。LightGBM使用逐叶策略来查找具有最大分配器增益的叶子,这与产生冗余计算的低效逐叶策略不同。将学习效率设定为0.1,决策树树叶的数量设定为90;为了防止过拟合和提高运行速度,将列采样技术参数(colsample_bytree)设定为0.9;其中,使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型的步骤如下:
1)、将数据集划分成训练样本集和测试样本集;
2)、使用LightGBM方法建立肝脏纤维化预测模型,设置肝脏纤维化预测模型参数,参数包括决策树树叶叶子数目,迭代次数,学习效率;
3)、将训练样本集输入到肝脏纤维化预测模型中,完成肝脏纤维化预测模型的训练;
4)、将测试样本集输入到肝脏纤维化预测模型中,输出肝脏纤维化程度的相关数据;
5)、根据肝脏纤维化程度的相关数据建立受试者工作特征曲线ROC。
具体实施方式五:
与具体实施方式四不同的是,本实施方式的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,所述的步骤四中,验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果的步骤,具体为:
将上一步骤中建立的模型代入北京佑安医院和安徽中医药大学第一附属医院两个验证中心进行验证,同时将此模型与单独的超声弹性成像、APRI和FIB-4进行检验比较;
APRI的公式为:
APRI=(AST(IU/L)/ULN)×100/(Platelet count(10^9/L))
FIB-4的公式为:
FIB-4=age(years)×AST(IU/L)/(Platelet count(10^9/L)×ALT(IU/L)^1/2)
采用ROC曲线和DCA曲线进行效果评价与模型之间对比;
其中,APRI表示AST与PLT的比值;AST表示谷草转氨酶水平,ULN表示AST在正常值上限(即40IU/L),Platelet count表示血小板计数;age表示年龄,ALT表示谷丙转氨酶水平;APRI全名为aspartate transaminase-to-platelet ratio index,是谷草转氨酶与血小板的比值;FIB-4全称fibrosis-4,属于一种无创性评估慢性肝病患者肝脏纤维化的一种方法的专有名词;Platelet count(10^9/L)中,Platelet count为血小板计数,L表示度量单位升;
如图6-13所示。
图6-9为受试者工作特征曲线(ROC)曲线图,为本申请与APRI、FIB-4和TE(超声弹性成像)的模型分类能力评价。可以认为曲线越高能力越出色。图6-7为训练组,图8-9为验证组,图6和图8为预测显著肝脏纤维化,图7和图9为预测肝硬化。
图10-13为决策曲线分析(DCA)曲线图,为本申请与APRI,FIB-4和TE(超声弹性成像)的模型提供的获益程度比较。可以认为曲线越高获益越高。图10-11为训练组,图12-13为验证组,图10和图12为预测显著肝脏纤维化,图11和图13为预测肝硬化。
所述的步骤五中,结合上一步所得比较结果,确认出适用于所述肝脏纤维化相关数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型的过程为,根据ROC曲线的最大约登指数(敏感性加特异性-1)来确认评价2级肝脏纤维化与肝硬化的模型阈值范围,根据确定出的阈值得到最终的模型的合理参数范围,从而确定最终参数固定的模型,并进行预测。
基于多个临床数据的肝脏纤维化模型,能在不做肝穿刺的情况下快速完成肝脏纤维化诊断,以此能高效率随时监测病人肝脏病变程度,制定对应的临床干预措施。不仅减少了病人的经济负担和医生的时间成本,而且也避免了病人需要有创检查带来的痛苦和并发症,减轻了医疗负担。
具体实施方式六:
本实施方式的一种基于机器学习方法的肝脏纤维化预测系统,所述系统包括:
数据预处理模块,用于获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
特征筛选模块,用于筛选并确定出与肝脏纤维化程度关联的特征;
算法训练模块,用于肝脏纤维化数据预测算法的训练;
算法验证模块,用于验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
模型确认模块,用于结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型。
具体实施方式七:
本实施方式的一种基于机器学习方法的肝脏纤维化预测系统,所述的数据预处理模块还包括:
数据排列部,用于将每个数值型变量从小到大排列的数据排列部;
异常值更改部,与数据排列部相连,用于将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
数值变量归一化部,与异常值更改部,用于将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
所述的特征筛选模块还包括:
数据分组部,用于将采集的数据中的一部分选取作为训练组,另一部分数据作为验证中心;
筛选相关性特征指标部,与数据分组部连接,用于在训练组里通过斯皮尔曼相关性分析筛选出相关性的特征指标;
精筛选部,与筛选相关性特征指标部连接,从所得相关性的特征指标中通过lasso回归对筛选出的指标进行进一步精筛选;
肝脏纤维化程度关联的指标筛选部,与精筛选部连接,从精筛选部的结果中筛选出与肝脏纤维化程度关联的指标。
具体实施方式八:
本实施方式的一种基于机器学习方法的肝脏纤维化预测系统,
所述的算法训练模块还包括:
指标筛选拟合部,用于对筛选出的指标进行训练,拟合肝脏纤维化程度;采用LightGBM算法对筛选出的指标进行训练;
肝脏纤维化预测模型构造部,用于使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型。
所述的算法验证模块还包括:
效果评价部,用于采用ROC曲线进行效果评价;
所述的模型确认模块还包括:
确认阈值部,用于结合上一步所得比较结果,根据ROC曲线的最大约登指数敏感性加特异性-1来确认评价2级肝脏纤维化与肝硬化的模型阈值范围;
预测模型确认部,与确认阈值部连接,用于根据确定出的阈值得到最终的模型的合理参数范围,从而确定最终参数固定的模型。
具体实施方式九:
本实施方式的一种基于机器学习方法的肝脏纤维化预测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
具体实施方式十:
本实施方式的一种计算机可读存储介质,用于存储程序,所述程序被执行时实现权所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
Claims (5)
1.一种基于机器学习方法的肝脏纤维化预测模型的构建方法,其特征在于:所述构建方法通过以下步骤实现:
步骤一、获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
步骤二、筛选并确定出与肝脏纤维化程度关联的特征指标;
步骤三、肝脏纤维化相关数据预测算法的训练;
步骤四、验证与比较肝脏纤维化相关数据预测算法的模型,并得出比较结果;
步骤五、结合上一步所得比较结果,确认出适用于所述肝脏纤维化相关数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型;
步骤二所述的筛选并确定出与肝脏纤维化程度关联的特征的步骤具体为:
选取采集的数据中的一部分作为训练组,另一部分数据作为验证中心;
之后,在训练组里通过斯皮尔曼相关性分析筛选出相关性的特征指标;
之后,通过lasso回归对筛选出的指标进行进一步精筛选,所述的lasso回归的代价函数为:
其中,xij代表了第i个病人数据的第j个特征变量,yi是第i个病人数据的肝脏纤维化程度,q表示特征变量的总数,m是病人数据的总数,λ为惩罚函数,为确定的最优结果,βj为待确定的系数,利用lasso回归筛选非0系数变量作为最终建模的有效特征;
之后,筛选出与肝脏纤维化程度关联的指标包括:谷草转氨酶、谷氨酰转肽酶、血小板计数、凝血时间、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白、超声弹性成像和门静脉直径;
步骤三所述的肝脏纤维化数据预测算法的训练的步骤,具体为:
采用LightGBM算法对筛选出的指标进行训练,拟合肝脏纤维化程度;将学习效率设定为0.1,决策树树叶的数量设定为90;将列采样技术参数设定为0.9;其中,使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型的步骤如下:
1)、将数据集划分成训练样本集和测试样本集;
2)、使用LightGBM算法建立肝脏纤维化预测模型,设置肝脏纤维化预测模型参数,参数包括决策树树叶叶子数目,迭代次数,学习效率;
3)、将训练样本集输入到肝脏纤维化预测模型中,完成肝脏纤维化预测模型的训练;
4)、将测试样本集输入到肝脏纤维化预测模型中,输出肝脏纤维化程度的相关数据;
5)、根据肝脏纤维化程度的相关数据建立受试者工作特征曲线ROC;
所述的步骤四中,验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果的步骤,具体为:
将上一步骤中建立的模型代入验证中心进行验证,同时将此模型与单独的超声弹性成像、APRI和FIB-4进行检验比较;
APRI的公式为:
APRI=(AST(IU/L)/ULN)×100/(Platelet count(10^9/L))
FIB-4的公式为:
FIB-4=age(years)×AST(IU/L)/(Platelet count(10^9/L)×ALT(IU/L)^1/2)
采用ROC曲线和DCA曲线进行效果评价与模型之间对比;
其中,APRI表示AST与PLT的比值;AST表示谷草转氨酶水平,ULN表示AST在正常值上限,Platelet count表示血小板计数;age表示年龄,ALT表示谷丙转氨酶水平;APRI全名为aspartate transaminase-to-platelet ratio index,是谷草转氨酶与血小板的比值;FIB-4全称fibrosis-4,属于一种无创性评估慢性肝病患者肝脏纤维化的一种方法的专有名词;Platelet count(10^9/L)中,Platelet count为血小板计数,L表示度量单位升;
所述的步骤五中,结合上一步所得比较结果,确认出适用于所述肝脏纤维化相关数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型的过程为:根据ROC曲线的最大约登指数敏感性加特异性-1来确认评价2级肝脏纤维化与肝硬化的模型阈值范围,根据确定出的阈值得到最终的模型的参数范围,从而确定最终参数固定的模型,并进行预测。
2.根据权利要求1所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法,其特征在于:
步骤一所述的预测对象病理信息及肝脏相关数据包括:病人的基本信息、肝脏纤维化病理活检数据、超声弹性成像数据、B超图像测量数据和血清实验室检查数据;
步骤一所述预处理为,除了肝脏纤维化病理活检数据不做预处理外,其余的数值型变量统一进行两步处理:
(1)、将每个数值型变量从小到大排列,将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
(2)、将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
其中,
所述的病人的基本信息包括年龄、性别、身高、体重;
所述的B超图像测量数据包括脾脏尺寸、脾静脉直径、门静脉直径、门静脉流速;
所述的血清实验室检查数据包括白细胞计数、血小板计数、谷丙转氨酶、谷草转氨酶、谷氨酰转肽酶、总胆红素、直接胆红素、凝血时间、碱性磷酸酶、白蛋白、血胆固醇、凝血国际标准化比值、透明质酸酶、III型前胶原肽、四型胶原蛋白、层粘连蛋白。
3.一种用于权利要求1或2中任一项所述的一种基于机器学习方法的肝脏纤维化预测系统,其特征在于,所述系统包括:
数据预处理模块,用于获取预测对象病理信息及肝脏相关数据,并对所获取数据进行预处理;
特征筛选模块,用于筛选并确定出与肝脏纤维化程度关联的特征;
算法训练模块,用于肝脏纤维化数据预测算法的训练;
算法验证模块,用于验证与比较肝脏纤维化数据预测算法的模型,并得出比较结果;
模型确认模块,用于结合上一步所得比较结果,确认出适用于所述肝脏纤维化数据预测算法的阈值,进而得到最终的肝脏纤维化数据预测模型;
所述的数据预处理模块还包括:
数据排列部,用于将每个数值型变量从小到大排列的数据排列部;
异常值更改部,与数据排列部相连,用于将小于第2.5%或者大于第97.5%的视为异常值并分别更改为2.5%和97.5%;
数值变量归一化部,与异常值更改部,用于将所有数值型变量归一化,归一化公式如下:
Xn normalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一数值型变量,Xn normalized表示数值型变量Xn的归一化后的值,Xmax表示数值型变量中的最大值,Xmin表示数值型变量中的最小值;
所述的特征筛选模块还包括:
数据分组部,用于将采集的数据中的一部分选取作为训练组,另一部分数据作为验证中心;
筛选相关性特征指标部,与数据分组部连接,用于在训练组里通过斯皮尔曼相关性分析筛选出相关性的特征指标;
精筛选部,与筛选相关性特征指标部连接,从所得相关性的特征指标中通过lasso回归对筛选出的指标进行进一步精筛选;
肝脏纤维化程度关联的指标筛选部,与精筛选部连接,从精筛选部的结果中筛选出与肝脏纤维化程度关联的指标;
所述的算法训练模块还包括:
指标筛选拟合部,用于对筛选出的指标进行训练,拟合肝脏纤维化程度;采用LightGBM算法对筛选出的指标进行训练;
肝脏纤维化预测模型构造部,用于使用LightGBM算法构造基于多个临床数据的肝脏纤维化预测模型;
所述的算法验证模块还包括:
效果评价部,用于采用ROC曲线进行效果评价;
所述的模型确认模块还包括:
确认阈值部,用于结合上一步所得比较结果,根据ROC曲线的最大约登指数敏感性加特异性-1来确认评价2级肝脏纤维化与肝硬化的模型阈值范围;
预测模型确认部,与确认阈值部连接,用于根据确定出的阈值得到最终的模型的合理参数范围,从而确定最终参数固定的模型。
4.一种用于基于机器学习方法的肝脏纤维化预测方法的预测设备,其特征在于,包括:处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1或2中任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
5.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1或2任一项所述的一种基于机器学习方法的肝脏纤维化预测模型的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011629398.7A CN112669960B (zh) | 2020-12-31 | 2020-12-31 | 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011629398.7A CN112669960B (zh) | 2020-12-31 | 2020-12-31 | 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669960A CN112669960A (zh) | 2021-04-16 |
CN112669960B true CN112669960B (zh) | 2023-12-19 |
Family
ID=75413021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011629398.7A Active CN112669960B (zh) | 2020-12-31 | 2020-12-31 | 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669960B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436731A (zh) * | 2021-07-15 | 2021-09-24 | 王新兴 | 基于多个肝静脉波形图的肝脏血液动力检测方法及系统 |
CN114141363B (zh) * | 2021-12-07 | 2023-09-12 | 川北医学院附属医院 | 一种基于机器学习方法的重症胰腺炎预测模型构建方法 |
CN114067092B (zh) * | 2022-01-17 | 2022-04-19 | 山东药品食品职业学院 | 一种基于DenseNet和lightGBM的脂肪肝B超图像分类方法 |
CN114550942B (zh) * | 2022-02-16 | 2023-06-30 | 四川大学华西医院 | 一种肝脏显著纤维化预测模型及构建方法 |
CN115602319B (zh) * | 2022-12-07 | 2023-03-10 | 南方医科大学南方医院 | 一种无创肝纤维化评估装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295148A (zh) * | 2016-08-01 | 2017-01-04 | 苏翀 | 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法 |
CN108990420A (zh) * | 2016-05-29 | 2018-12-11 | 深圳市绘云生物科技有限公司 | 肝病相关生物标志物和使用方法及相关应用 |
CN110151210A (zh) * | 2019-05-21 | 2019-08-23 | 上海联影医疗科技有限公司 | 一种医学图像处理方法、系统、装置和计算机可读介质 |
CN111881724A (zh) * | 2020-06-12 | 2020-11-03 | 山东师范大学 | 一种基于LightGBM和特征融合的食管静脉曲张分类系统 |
-
2020
- 2020-12-31 CN CN202011629398.7A patent/CN112669960B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108990420A (zh) * | 2016-05-29 | 2018-12-11 | 深圳市绘云生物科技有限公司 | 肝病相关生物标志物和使用方法及相关应用 |
CN106295148A (zh) * | 2016-08-01 | 2017-01-04 | 苏翀 | 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法 |
CN110151210A (zh) * | 2019-05-21 | 2019-08-23 | 上海联影医疗科技有限公司 | 一种医学图像处理方法、系统、装置和计算机可读介质 |
CN111881724A (zh) * | 2020-06-12 | 2020-11-03 | 山东师范大学 | 一种基于LightGBM和特征融合的食管静脉曲张分类系统 |
Non-Patent Citations (2)
Title |
---|
lu xj et.al.Assessment of liver fibrosis with the gamma-glutamyl transpeptidase to platelet ratio: a multicentre validation in patients with HBV infection.2017,全文. * |
Prediction of liver fibrosis stages by machine learning model: A decision tree approach;Heba Ayeldeen et.al;2015 Third World Conference on Complex Systems (WCCS);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112669960A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112669960B (zh) | 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 | |
CN115083604B (zh) | 一种术后不良事件预测模型的构建方法、系统和预测装置 | |
CN112786204A (zh) | 一种机器学习糖尿病发病风险预测方法及应用 | |
CN112786203A (zh) | 一种机器学习糖尿病视网膜病变发病风险预测方法及应用 | |
CN110991536A (zh) | 原发性肝癌的早期预警模型的训练方法 | |
CN113160994A (zh) | 一种无创筛查非酒精性脂肪性肝炎模型的构建方法、预测系统、设备及存储介质 | |
CN115099331A (zh) | 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统 | |
CN116821753A (zh) | 一种基于机器学习的社区获得性肺炎病原类型预测方法 | |
CN112990266B (zh) | 多模态脑影像数据处理的方法、装置、设备及存储介质 | |
CN112043273A (zh) | 一种脑影像数据处理方法、装置、设备以及存储介质 | |
CN111755129A (zh) | 多模态骨质疏松分层预警方法及系统 | |
CN117017310A (zh) | 基于知识蒸馏的声电双模先天性心脏病预测装置 | |
CN115954102A (zh) | 一种人工关节假体周围感染诊断模型及诊断系统 | |
TWI685854B (zh) | 肝纖維化評估模型、肝纖維化評估系統及肝纖維化評估方法 | |
CN114842978A (zh) | 一种基于医疗大数据的血气分析智能检测系统及方法 | |
CN110706803A (zh) | 一种确定心肌纤维化的方法、装置、可读介质及电子设备 | |
CN115064267B (zh) | 一种胆道闭锁风险评估系统及其建立方法 | |
CN110070942A (zh) | 一种基于梯度提升树模型的慢性肝病风险评估系统 | |
CN113555118B (zh) | 一种病症程度的预测方法、装置、电子设备及存储介质 | |
CN113947577B (zh) | 基于健康人群分布实现脑影像特征归一化处理的方法、系统、装置、处理器及其存储介质 | |
WO2024051015A1 (zh) | 一种基于肌肉超声的影像特征提取及分类方法 | |
CN112530591B (zh) | 一种闻诊测试词汇的生成方法和存储设备 | |
Devi et al. | Recognition of Human Blood Disease on Sample Microscopic Images | |
Shehab et al. | Accurate Prediction of Pulmonary Fibrosis Progression Using EfficientNet and Quantile Regression: A High Performing Approach | |
Saleena | Analysis of machine learning and deep learning prediction models for sepsis and neonatal sepsis: A systematic review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |