CN117577330A

CN117577330A - 预测非酒精性脂肪性肝病肝纤维化程度的装置及存储介质

Info

Publication number: CN117577330A
Application number: CN202410051334.5A
Authority: CN
Inventors: 王辉; 姚明解; 邢云飞
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-02-20
Anticipated expiration: 2044-01-15
Also published as: CN117577330B

Abstract

本发明公开预测非酒精性脂肪性肝病肝纤维化程度的装置及存储介质。该装置包括：数据获取单元，其用于获取血清学、人口统计学和/或人体测量学变量数据；数据分析单元，其存储有用于非酒精性脂肪性肝病肝纤维化程度的预测模型；输出单元，其用于输出是否患有非酒精性脂肪性肝病显著肝纤维化或患有非酒精性脂肪性肝病显著肝纤维化的风险的高低的结果。本发明对儿童非酒精性脂肪性肝病显著肝纤维化进行更科学的评估，从准确性和简易性角度建立了优于既往指标的预测模型。此外，本发明还开发了机器学习模型来预测显著纤维化，将机器学习方法开发的模型与逻辑回归进行了比较，从而为儿童非酒精性脂肪性肝病肝纤维化的早期筛查提供更可靠的方法。

Description

预测非酒精性脂肪性肝病肝纤维化程度的装置及存储介质

技术领域

本发明属于生物医学领域，特别是涉及预测非酒精性脂肪性肝病肝纤维化程度的装置及存储介质。

背景技术

非酒精性脂肪性肝病(NAFLD)是指在没有过量饮酒和其他明确的损肝因素的情况下肝细胞中甘油三酯(TG)异常蓄积(肝脏脂肪含量＞5%)的肝脏表现，包括单纯性脂肪肝、非酒精性脂肪性肝炎(伴或不伴纤维化)，并可能进一步发展为肝硬化和肝细胞癌，影响了近3-10%的一般儿童人群，在超重/肥胖儿童中患病率更是达到36.1%，是许多地区慢性肝病的最常见原因。肝纤维化是NAFLD进展过程中的一个重要标志，也是肝脏疾病预后的关键因素，约10%的NAFLD儿童会进展为晚期纤维化。当慢性肝病儿童的致病因素持续存在时，会刺激成纤维细胞的持续激活和细胞外基质的逐渐积累，造成肝纤维化的产生和加重，如果没有及时的干预和治疗，可能进一步发展为肝细胞癌和肝功能衰竭，带来巨大的经济和健康负担，因此，对NAFLD患儿肝纤维化的早期筛查就显得尤为重要。

诊断肝纤维化的金标准是肝活检，但由于肝活检方法本身的有创性、高成本、要求专业操作者，以及可能造成疼痛、出血等并发症限制了其在儿童人群中的应用；相比之下，基于无创诊断指标的综合评分由于其简便性更适合在人群中推广，其在肝病的预防、早期发现及治疗等方面具有重要的意义。过去的研究已经开发了许多预测肝纤维化的无创测试，如NAFLD儿童纤维化指数(PNFI)、NAFLD儿童纤维化评分(PNFS)和FibroScan检查，然而这些诊断工具均有各自的缺点，基于血清学指标的综合评分诊断肝纤维化的准确性仍与肝活检存在较大差距，影像学指标虽然有很高的诊断准确性，但成本较高。此外，过去的研究中也出现了许多专利生物标志物，如PRO-C3以及基于肠道菌群或遗传因素的其他指标，尽管诊断的准确性有所提高，但所需的检测成本过高，且均是基于成年人群开发。因此，目前亟需开发无创且具备可靠准确性的预测NAFLD儿童肝纤维化的指标。

发明内容

为解决现有技术中的至少部分问题，本发明利用血清学、人口统计学和人体测量学变量对儿童非酒精性脂肪性肝病(NAFLD)肝纤维化程度进行更科学的评估，从准确性和简易性角度建立更好的预测模型。此外，本发明还开发了机器学习(ML)模型来预测显著纤维化，将ML方法开发的模型与逻辑回归进行了比较，以期为NAFLD儿童肝纤维化的早期筛查提供更可靠的方法。具体地，本发明包括以下内容。

本发明的第一方面，提供一种用于预测非酒精性脂肪性肝病肝纤维化程度的装置，其包括：

数据获取单元，所述数据获取单元用于获取受试者的血清学和/或人口统计学和/或人体测量学变量数据；

数据分析单元，所述数据分析单元存储有用于非酒精性脂肪性肝病肝纤维化程度的预测模型，其用于根据所述数据判断所述受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有非酒精性脂肪性肝病显著肝纤维化的风险；

输出单元，所述输出单元用于输出是否患有非酒精性脂肪性肝病显著肝纤维化或患有非酒精性脂肪性肝病显著肝纤维化的风险的高低的结果。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，其中，所述预测模型为基于机器学习算法构建的模型。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，其中，所述机器学习算法包括以下中的至少一种：神经网络、决策树、随机森林、逻辑回归、支持向量机、朴素贝叶斯、极端梯度提升、K最近邻、K均值和Adaboost。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，其中，所述数据选自血清胰岛素水平(insulin)、血清尿酸水平(UA)、血清血红蛋白水平(HGB)、血清空腹血糖水平(FPG)、血清肌酐水平(creatinine)、血清高密度脂蛋白胆固醇水平(HDL)、血清尿素水平(urea)、血清碱性磷酸酶水平(ALP)、血清总胆汁酸水平(TBA)、血清谷草转氨酶水平(AST)、血清胆碱酯酶水平(cholinesterase)、血清纤维蛋白原水平(fibrinogen)、血清凝血酶原国际标准化比值(INR)、血清前白蛋白水平(prealbumin)、收缩压(SBP)、舒张压(DBP)、年龄(age)、体重(weight)、体重指数(BMI)中的至少一种。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，其中，所述数据包括血清insulin，UA和BMI，所述预测模型为BIU=-0.875+0.063×insulin (mU/L)-0.008×UA (μmol/L)+0.097×BMI (kg/m²)，判断显著肝纤维化的截断值为-0.06。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，其中，所述数据包括以下血清学，人口统计学和/或人体测量学变量数据：血清insulin，UA，HGB，FPG，creatinine，age，BMI，SBP，HDL和urea，所述预测模型为IndexC=5.063+0.072×insulin (mU/L)-0.009×UA (μmol/L)-0.054×HGB-0.644×FPG-0.057×creatinine (μmol/L)+0.271×age (year)+0.164×BMI (kg/m²)+0.022×SBP (mmHg)+2.030×HDL (mmol/L)-0.409×urea (mmol/L)，判断显著肝纤维化的截断值为0.91。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，其中，所述数据包括以下血清学数据：ALP，TBA，AST，cholinesterase，HDL和fibrinogen，所述预测模型为IndexB=0.959+0.073×TBA (μmol/L)+0.006×ALP(U/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)-2.699×HDL (mmol/L)+0.744×fibrinogen (g/L)，判断显著肝纤维化的截断值为0.55。

在某些实施方案中，根据本发明所述的预测非酒精性脂肪性肝病肝纤维化程度的装置，所述数据包括以下血清学、人口统计学和/或人体测量学变量数据：ALP，TBA，creatinine，AST，cholinesterase，weight，UA，HDL，fibrinogen，DBP，BMI，INR和prealbumin，所述预测模型为IndexA=1.968+0.007×ALP (U/L)+0.079×TBA (μmol/L)-0.048×creatinine (μmol/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)+0.046×weight (kg)-0.003×UA (μmol/L)-2.274×HDL (mmol/L)+0.769×fibrinogen (g/L)-0.026×DBP (mmHg)-0.002×BMI (kg/m²)+1.397×INR+0.002×prealbumin (mg/L)，判断显著肝纤维化的截断值为0.31。

本发明的第二方面，提供一种计算机设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现以下步骤：获取受试者的血清学、人口统计学和/或人体测量学变量数据；将所述数据输入数据分析模块，其中所述数据分析模块存储有本发明所述的预测模型，从而确定受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险。

本发明的第三方面，提供一种计算机存储介质，其存储有计算机程序，所述计算机程序被计算机执行时实现以下操作步骤：获取受试者的血清学、人口统计学和/或人体测量学变量数据；将所述数据输入数据分析模块，其中所述数据分析模块存储有本发明所述的预测模型，从而确定受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险。

本发明通过逻辑回归开发了多个预测NAFLD儿童显著肝纤维化的指标，既比较了潜在的预测因子对于显著肝纤维化影响的重要性，也针对不同的检测范围开发了相应的诊断指标，从基于常规学生体质监测数据的IndexC和BIU到需要进行多项额外血清检测的IndexA和IndexB，这些指标在预测集和验证集中的预测效果均优于既往指标，为NAFLD儿童的显著纤维化提供了可靠的筛查手段。

附图说明

图1 示出了研究对象选择流程图。

图2 示出了IndexA和ML模型的预测表现。

图3 示出了IndexB和ML模型的预测表现。

图4 示出了IndexC和ML模型的预测表现。

图5 示出了BIU和ML模型的预测表现。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

装置

本发明的一个方面，提供一种预测或评估非酒精性脂肪性肝病肝纤维化程度的装置，其包括：

本文中，术语“受试者”或“患者”是指脊椎动物，优选为哺乳动物，还优选为人。哺乳动物包括但不限于鼠类、猿、家畜等。具体的哺乳动物包括大鼠、小鼠、猫、狗、猴子和人。非人类哺乳动物包括除人之外的所有哺乳动物。在体外获得或在体外培养的生物实体的组织、细胞及其后代也涵盖在本发明的保护范围之内。

本文中，术语“待测样本”是指来源于受试者/患者的生物样品。可用于本发明的生物样品类型的实例包括但不限于以下的一种或多种：全血、血清、血浆、血液成分、骨髓、组织、细胞、器官、病变渗出物和由身体产生的其他流体。优选地，本发明的待测样本为血液或其成分，特别优选血清。

本发明中，所述血清学、人口统计学和人体测量学数据可通过已知步骤或方法来获取，包括但不限于实验室检查、肝病患者临床数据库、医院住院及门诊电子病历系统内的首诊及随访信息，其中患者一般资料至少包括：患者姓名及编号；人口学特征：性别、种族、常住地、年龄、职业、教育程度；人体测量学特征：身高、体重、收缩压（SBP）、舒张压（DBP）。患者病史资料至少包括：肝病相关信息：发病时间、疾病分型(肝病背景)、既往治疗用药方案、既往治疗转归；基础疾病：基础疾病及目前治疗用药，包括但不限于治疗药物名称、给药剂量、给药频次。另外，实验室检查还可以包括：血常规、肝功能、肾功能等。

本发明中，血清学相关的数据应作广义理解，其是指通过检测血清中的某些抗原或抗体得到血液中的成分，从而确定这些成分的水平或量。这些成分包括但不限于血糖(FPG)，凝血酶原国际标准化比值(INR)，纤维蛋白原(fibrinogen)，脂蛋白a(lipoproteina)，载脂蛋白B(apoB)，载脂蛋白A1(apo A1)，谷草转氨酶(AST)，谷丙转氨酶(ALT)，碱性磷酸酶(ALP)，谷酰转肽酶(GGT)，总胆汁酸(TBA)，胆碱酯酶(cholinesterase)，白蛋白(albumin)，球蛋白(globulin)，前白蛋白(prealbumin)，直接胆红素(direct bilirubin)，总胆红素(total bilirubin)，甘油三酯(TG)，总胆固醇(TC)，血小板(PLT)，肌酐(creatinine)，高密度脂蛋白胆固醇(HDL)，低密度脂蛋白胆固醇(LDL)，尿素(urea)，尿酸(uric acid)和血红蛋白(HGB)中的任意一种或它们的组合。人口统计学和人体测量学变量数据可以包括非血清学的任何指标，其实例包括但不限于：性别，age，weight，BMI，SBP，DBP等。

在一个优选的实施方案中，预测模型为IndexA=1.968+0.007×ALP (U/L)+0.079×TBA (μmol/L)-0.048×creatinine (μmol/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)+0.046×weight (kg)-0.003×UA (μmol/L)-2.274×HDL (mmol/L)+0.769×fibrinogen (g/L)-0.026×DBP (mmHg)-0.002×BMI (kg/m²)+1.397×INR+0.002×prealbumin (mg/L)，判断显著肝纤维化的截断值为0.31。

在进一步优选的实施方案中，预测模型为IndexB=0.959+0.073×TBA (μmol/L)+0.006×ALP(U/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)-2.699×HDL(mmol/L)+0.744×fibrinogen (g/L)，判断显著肝纤维化的截断值为0.55。

在一个更优选的实施方案中，预测模型为IndexC=5.063+0.072×insulin (mU/L)-0.009×UA (μmol/L)-0.054×HGB-0.644×FPG-0.057×creatinine (μmol/L)+0.271×age (year)+0.164×BMI (kg/m²)+0.022×SBP (mmHg)+2.030×HDL (mmol/L)-0.409×urea (mmol/L)，判断显著肝纤维化的截断值为0.91。

在最优选的实施方案中，预测模型为BIU=-0.875+0.063×insulin (mU/L)-0.008×UA (μmol/L)+0.097×BMI (kg/m²)，判断显著肝纤维化的截断值为-0.06。

除了上述基于逻辑回归构建的模型，本发明还以各自的血清学、人口统计学和/或人体测量学变量数据分别构建了基于随机森林(RF)、神经网络(ANN)和极端梯度提升(XGBoost)的预测模型，结果发现，使用血清学、人口统计学和/或人体测量学变量数据在不同的机器学习预测模型中相较于既往研究均取得了可靠的诊断准确性。

本发明的装置进一步包括显示器，其可用于显示和/或打印预测结果。

本发明，既往研究中涉及到的预测纤维化的指标的计算方式如下：

计算机设备和存储介质

本发明的一个方面，提供一种计算机设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现以下步骤：获取受试者的血清学、人口统计学和/或人体测量学数据；将所述数据输入数据分析模块，其中所述数据分析模块存储有根据本发明所述的装置中的预测模型，从而确定受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险。

本发明的一个方面，提供一种计算机存储介质，其存储有计算机程序，所述计算机程序被计算机执行时实现以下操作步骤：获取受试者的血清学、人口统计学和/或人体测量学数据；将所述数据输入数据分析模块，其中所述数据分析模块存储有本发明所述的装置中的预测模型，从而确定受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险。

在一些优选的实施方案中，根据判断阈值或截断值确定是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险，例如当输出的值或预测值等于或低于截断值时，可以认为该受试者不患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险较低；当输出的值或预测值高于截断值时，可以认为该受试者患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险较高。

本领域的技术人员可以理解的是，本发明所述的各种示例性实施方案可以通过软件结合必要的硬件的方式来实现，也可以通过软件实现。因此，根据本发明的具体实施方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质或非暂态计算机可读存储介质(可以是CD-ROM、U盘、移动硬盘等)中或网络上，包括若干指令以使得计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明的方法。

在示例性实施方案中，本发明的程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的实例包括但不限于：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

实施例

本实施例示出了预测非酒精性脂肪性肝病肝纤维化程度的装置中预测模型的建立及优化。

1、人群与方法

1.1 研究对象

本研究基于两组研究对象，第一组研究对象为2011-2018年在医院住院治疗的268名4-18岁儿童，他们均接受了肝活检并确诊为NAFLD，最终纳入了其中拥有完整血生化检查结果的222名NAFLD儿童，变量选择过程如图1所示；第二组研究对象为2022年通过学生体质监测招募的364名8-9岁超重/肥胖儿童，最终纳入了其中拥有完整临床诊断和血生化检查结果的78名NAFLD儿童。活检数据集的研究对象被随机分为训练集和内部验证集(8:2)，体质监测数据集则作为外部验证集。

1.2 人体测量和血生化分析

人体测量由经过培训的人员按照标准方案进行。在参与者脱掉外套和鞋子的情况下，使用机械身高仪测量身高至0.1 cm，使用InBody测量体重至0.01 kg。在参与者休息至少10分钟后，用数字血压计测量收缩压(SBP)和舒张压(DBP)。BMI计算方法为体重/身高的平方(kg/m²)。在禁食至少8小时后采集儿童血样，活检数据集中的儿童血样在医院的检验科进行检测，体质监测数据集中的儿童血样由宁波市第一医院的检验科和进行检测，所有检测均按照标准实验操作进行。

1.3 NAFLD和纤维化的诊断

活检数据集纳入的儿童依据肝活检诊断脂肪肝和纤维化，临床医生采用快速穿刺方法，从儿童肝内抽取少量的肝组织，并在显微镜下观察其组织形态的改变。NAFLD的诊断标准：依据病理报告诊断为非酒精性脂肪性肝病。采用据Metavir评分系统对肝脏的炎症和纤维化程度进行描述，G代表炎症的分级，G的评分0-4分别对应仅有汇管区的炎症、轻微病变、轻度病变、中度病变和重度病变；肝纤维化的诊断标准依对患者肝脏穿刺组织进行肝纤维化程度的评分，F0：无纤维化；F1：有汇管区纤维化，但无纤维间隔；F2：有汇管区纤维化，同时有少量纤维间隔形成；F3：有大量纤维间隔形成，但无假小叶；F4：肝硬化。在体质监测数据集中，同样基于临床诊断判断参与者是否存在脂肪肝及显著肝纤维化。

1.4统计分析

对所有变量进行描述性统计，连续变量以均值和标准差表示，分类变量以百分比表示。连续变量组间差异采用Student’s t检验(正态数据)和Kruskal-Wallis检验(非正态数据)，分类变量组间差异采用卡方检验。

首先本研究考虑了活检数据集中所涉及到的33个因素，包括性别，年龄(age)，体重(weight)，BMI，SBP，DBP，空腹血糖(FPG)，国际标准化比值(INR)，凝血酶原活动度，纤维蛋白原(fibrinogen)，脂蛋白a(lipoprotein a)，载脂蛋白B(apoB)，载脂蛋白A1(apo A1)，谷草转氨酶(AST)，谷丙转氨酶(ALT)，碱性磷酸酶(ALP)，谷酰转肽酶(GGT)，总胆汁酸(TBA)，胆碱酯酶(cholinesterase)，白蛋白(albumin)，球蛋白(globulin)，前白蛋白(prealbumin)，直接胆红素(direct bilirubin)，总胆红素(total bilirubin)，甘油三酯(TG)，总胆固醇(TC)，血小板(PLT)，肌酐(creatinine)，高密度脂蛋白胆固醇(HDL)，低密度脂蛋白胆固醇(LDL)，尿素(urea)，尿酸(uric acid)和血红蛋白(HGB)，本发明采用两种方法确定显著肝纤维化的预测因子，即对总样本进行的最小绝对收缩和选择算子(Lasso)回归分析和对总样本的1000个Bootstrap样本进行的逐步逻辑回归分析，在训练集中基于筛选出的变量构建多变量逻辑回归模型；考虑到模型中纳入的参数过多，检测成本过高，本发明从上一步获得的模型(完整模型)中提取一个或多个参数构建简化模型，并使用似然比检验(结合多重检验校正)判断简化模型是否与完整模型无显着差异(p≥0.01)，如果差异不显著且模型拥有较好的预测效果(AUC值超过0.80)，则选择参数数量较少的简化模型。之后，将上述完整模型和最优简化模型分别应用于验证集，并将其预测效果与既往指标比较，包括B-AST、APRI、M-APRI、FIB-4、M-FIB-4、Forns-Index、HSI、NFS、PNFS、PNFI、VAI和TyG，指标的具体计算方式可见附录。验证集中预测指标所用的截断值均为训练集中约登指数最大时的截断值。

为了进一步比较机器学习(ML)方法与传统的逻辑回归方法在构建预测显著纤维化模型上的表现，基于完整模型或简化模型中包含的变量，本发明应用随机森林(RF)、神经网络(ANN)和极端梯度提升(XGBoost)3种ML方法构建模型，并在训练集和验证集中比较其预测性能。其中RF包含70个决策树，没有最大树深度；ANN模型使用S形交叉熵，并将逻辑函数作为激活函数；XGBoost模型中最大树深度限制为6。

然而，部分上述检测指标不包含在常规学生体质监测中，为了进一步增强其实用性，从生物学合理性和易获得性出发，在上述33个因素中选择了17个因素用于开发新的模型，包括性别，年龄，体重，BMI，SBP，DBP，FPG，HGB，PLT，ALT，creatinine，urea，uric acid，TG，TC，HDL和LDL；除此之外，考虑到insulin与肝纤维化的发生有紧密的关联及其在基层医院检测的可行性，将insulin也作为候选预测因子之一。最终纳入了其中拥有完整检查结果的101名NAFLD儿童。构建模型的步骤与前述相同，分别进行模型的开发、简化与验证，并比较逻辑回归方法与ML方法的表现。

采用Bootstrap方法对各指标的AUC值进行两两比较。所有分析均在R 4.3.1上进行，双侧p值<0.05为显著。

2、结果

两个数据集的研究对象特征如表1所示。在活检数据集中，儿童平均年龄为11.62±3.23，平均BMI为25.02±4.72，存在显著肝纤维化的NAFLD儿童相比于非显著肝纤维化的儿童肥胖特征更明显(BMIz，P<0.05)、拥有更高的炎症水平，血清肝酶(ALT、AST、ALP和GGT)、insulin和UA水平更高(P<0.05)。而在体质监测数据集中也呈现出相似的特征，即肥胖特征更显著(体重，BMI和BMIz，P<0.05)，除此之外，存在显著肝纤维化的NAFLD儿童的SBP水平更高(P<0.05)。

表1 研究对象的基线特征

其中，SBP=收缩压，DBP=舒张压，ALT=丙氨酸氨基转移酶，AST=谷草转氨酶，ALP=碱性磷酸酶，GGT=谷酰转肽酶，apoB=载脂蛋白B，apoA1=载脂蛋白A1，TBA=总胆汁酸，INR=国际标准化比值，FPG=空腹血糖，TC=总胆固醇，TG=甘油三酯，PLT=血小板，HDL=高密度脂蛋白胆固醇，LDL=低密度脂蛋白胆固醇，UA=尿酸，HGB=血红蛋白。a：连续变量采用Student’s t检验(正态数据)和Kruskal-Wallis检验(非正态数据)，分类变量采用卡方检验。

表2给出了基于逐步逻辑回归和Lasso回归的预测因子选择情况，1000个Bootstrap样本中最常选择的前十个变量是ALP，TBA，creatinine，AST，cholinesterase，weight，UA，HDL，fibrinogen和DBP，Lasso回归筛选出的变量为BMI，INR，fibrinogen，prealbumin，AST，ALP，total bile acid, creatinine和HDL，因此在模型纳入的变量为ALP，TBA，creatinine，AST，cholinesterase，weight，UA，HDL，fibrinogen，DBP，BMI，INR和prealbumin共13个变量，方程形式为IndexA=1.968+0.007×ALP (U/L)+0.079×TBA (μmol/L)-0.048×creatinine (μmol/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)+0.046×weight (kg)-0.003×UA (μmol/L)-2.274×HDL (mmol/L)+0.769×fibrinogen (g/L)-0.026×DBP (mmHg)-0.002×BMI (kg/m²)+1.397×INR+0.002×prealbumin (mg/L)，诊断显著肝纤维化的最优截断值为0.31。

表2 候选预测因子的选择

其中，模型1为基于1000个Bootstrap样本的逐步回归分析，表中数字为1000个Bootstrap样本中每个候选预测因子被选择的次数之和；模型2为基于十折交叉验证的Lasso回归分析，选择出的预测因子用“1”表示。包含在最终模型中的预测因子用粗体标记。

表2中，SBP=收缩压，DBP=舒张压，ALT=丙氨酸氨基转移酶，AST=谷草转氨酶，ALP=碱性磷酸酶，GGT=谷酰转肽酶，apoB=载脂蛋白B，apoA1=载脂蛋白A1，TBA=总胆汁酸，INR=国际标准化比值，FPG=空腹血糖，TC=总胆固醇，TG=甘油三酯，PLT=血小板，HDL=高密度脂蛋白胆固醇，LDL=低密度脂蛋白胆固醇，UA=尿酸，HGB=血红蛋白。

IndexA在训练集和内部验证集中的AUC值均达到了0.80(见表3)。在训练集中，IndexA的AUC值显著高于所有其他指标(P<0.05)，拥有最高的准确率、PPV、NPV和kappa值；在内部验证集中，IndexA的AUC值为0.80，显著高于M-APRI、Forns指数和HIS指数(P<0.05)，NPV值也高于其他所有指标。

表3 IndexA与既往指标在训练集和验证集中预测显著纤维化的效果

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
IndexA	0.84[0.78, 0.89]	Ref	0.73	0.82	0.77	0.82	0.73	0.55
									B-AST	0.65[0.57, 0.73]	<0.001	0.45	0.88	0.65	0.81	0.58	0.32
APRI	0.64[0.55, 0.72]	<0.001	0.51	0.80	0.64	0.74	0.59	0.30
									M-APRI	0.63[0.54, 0.70]	<0.001	0.44	0.84	0.63	0.76	0.57	0.27
FIB-4	0.58[0.49, 0.66]	<0.001	0.56	0.61	0.59	0.62	0.55	0.18
									M- FIB-4	0.60[0.52, 0.69]	<0.001	0.46	0.82	0.63	0.74	0.57	0.27
Forns	0.54[0.45, 0.62]	<0.001	0.88	0.30	0.61	0.59	0.69	0.19
									HSI	0.55[0.47, 0.64]	<0.001	0.59	0.57	0.58	0.60	0.55	0.15
NFS	0.54[0.46, 0.63]	<0.001	0.17	0.94	0.53	0.76	0.50	0.11
									PNFS	0.55[0.47, 0.64]	<0.001	0.49	0.74	0.61	0.68	0.56	0.22
TyG	0.56[0.48, 0.65]	<0.001	0.80	0.36	0.59	0.59	0.61	0.16
									内部验证集
IndexA	0.80[0.66, 0.91]	Ref	0.68	0.69	0.69	0.62	0.75	0.37
									B-AST	0.65[0.46, 0.81]	0.058	0.37	0.89	0.67	0.70	0.66	0.27
APRI	0.67[0.50, 0.82]	0.188	0.47	0.92	0.73	0.82	0.71	0.42
									M-APRI	0.62[0.43, 0.79]	0.033	0.32	0.92	0.67	0.75	0.65	0.26
FIB-4	0.63[0.45, 0.78]	0.114	0.53	0.54	0.53	0.46	0.61	0.06
									M- FIB-4	0.62[0.43, 0.79]	0.049	0.42	0.89	0.69	0.73	0.68	0.32
Forns	0.54[0.36, 0.71]	<0.001	0.32	0.73	0.56	0.46	0.59	0.05
									HSI	0.55[0.37, 0.73]	0.002	0.42	0.69	0.58	0.50	0.62	0.12
NFS	0.60[0.41, 0.77]	0.068	0.90	0.12	0.44	0.43	0.60	0.01
									PNFS	0.60[0.41, 0.77]	0.072	0.58	0.65	0.62	0.55	0.68	0.23
TyG	0.67[0.51, 0.82]	0.205	0.26	0.85	0.60	0.56	0.61	0.12

其中，AUC=曲线下面积，PPV=阳性预测值，NPV=阴性预测值。a：Delong检验(双侧5%显著性水平)。

基于十三个参数开发的ML模型的预测效果如表4和图2所示。在训练集中，RF、ANN和XGBoost方法开发的预测模型的AUC值均为1，显著优于IndexA(P<0.001)，灵敏度、特异度、准确率、PPV、NPV和kappa值均高于0.95。在内部验证集中，RF、ANN和XGBoost三种ML方法开发的预测模型的AUC值均高于IndexA，其中RF的AUC值为0.88，高于其他两种ML模型。

表4 IndexA和ML模型在训练集和验证集中预测显著纤维化的效果

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
IndexA	0.84 [0.78, 0.89]	Ref	0.73	0.82	0.77	0.82	0.73	0.55
									RF	1.00 [1.00-1.00]	<0.001	0.98	1.00	0.99	1.00	0.98	0.98
ANN	1.00 [1.00-1.00]	<0.001	0.98	1.00	0.99	1.00	0.98	0.98
									XGBoost	1.00 [1.00-1.00]	<0.001	0.97	0.99	0.98	0.99	0.97	0.96
内部验证集
									IndexA	0.80 [0.66, 0.91]	Ref	0.68	0.69	0.69	0.62	0.75	0.37
RF	0.88 [0.77, 0.96]	0.198	0.58	0.89	0.76	0.79	0.74	0.48
									ANN	0.81 [0.67, 0.92]	0.874	0.63	0.73	0.69	0.63	0.73	0.36
XGBoost	0.81 [0.67, 0.93]	0.885	0.68	0.65	0.67	0.59	0.74	0.33

其中，RF=随机森林，ANN=人工神经网络，XGBoost=极端梯度提升，AUC=曲线下面积，PPV=阳性预测值，NPV=阴性预测值。a：Delong检验(双侧5%显著性水平)。

由于IndexA中纳入的参数过多，检测成本较高，因此通过模型简化提高指标的可行性。模型简化的结果如表4所示，考虑到预测因子的数量和预测性能，最优模型应包含ALP，TBA，AST，cholinesterase，HDL和fibrinogen六个参数，形式为IndexB=0.959+0.073×TBA (μmol/L)+0.006×ALP(U/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)-2.699×HDL (mmol/L)+0.744×fibrinogen (g/L)，诊断显著肝纤维化的最优截断值为0.55。简化指标IndexB在训练集中预测显著肝纤维化的AUC值为0.81，显著高于其他指标(P<0.05)，PPV和kappa值也均高于其他指标，而在内部验证集中其AUC值也最高(AUC=0.70，见表6)。

表5不同数量参数下基于原始模型的最优嵌套模型

变量	AUC(95%CI)	P ^a	P_correcti _on ^b	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
										TBA	0.68[0.61,0.76]	<0.001	<0.001	0.83	0.43	0.64	0.62	0.69	0.27
TBA,AST	0.72[0.64,0.80]	<0.001	<0.001	0.51	0.88	0.68	0.83	0.61	0.38
										ALP,AST,HDL	0.75[0.68,0.82]	<0.001	<0.001	0.72	0.75	0.73	0.76	0.71	0.47
ALP,TBA,cholinesterase,BMI	0.78[0.71,0.85]	<0.001	<0.001	0.78	0.74	0.76	0.77	0.74	0.51
										ALP,TBA,AST,HDL,fibrinogen	0.80[0.73,0.86]	0.004	0.004	0.68	0.83	0.75	0.82	0.70	0.51
ALP,TBA,AST,cholinesterase,HDL,fibrinogen	0.81[0.75,0.87]	0.081	0.081	0.64	0.88	0.75	0.86	0.68	0.51
										ALP,TBA,AST,cholinesterase,weight, HDL,fibrinogen	0.82[0.75,0.88]	0.148	0.148	0.83	0.71	0.77	0.77	0.79	0.54
ALP,TBA,creatinine,AST,cholinesterase,weight, HDL,fibrinogen	0.83[0.77,0.89]	0.681	0.681	0.66	0.88	0.76	0.86	0.70	0.53

其中，AST=谷草转氨酶，ALP=碱性磷酸酶，TBA=总胆汁酸，HDL=高密度脂蛋白胆固醇，LDL=低密度脂蛋白胆固醇，AUC=曲线下面积，PPV=阳性预测值，NPV=阴性预测值。a：似然比检验，b：“bonferroni”校正后的p值。

表6 IndexB与既往指标在训练集和验证集中预测显著纤维化的效果比较

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
IndexB	0.81[0.75, 0.87]	Ref	0.64	0.88	0.75	0.86	0.68	0.51
									B-AST	0.65[0.57, 0.73]	<0.001	0.45	0.88	0.65	0.81	0.58	0.32
APRI	0.64[0.55, 0.72]	<0.001	0.51	0.80	0.64	0.74	0.59	0.30
									M-APRI	0.63[0.54, 0.70]	<0.001	0.44	0.84	0.63	0.76	0.57	0.27
FIB-4	0.58[0.49, 0.66]	<0.001	0.56	0.61	0.59	0.62	0.55	0.18
									M- FIB-4	0.60[0.52, 0.69]	<0.001	0.46	0.82	0.63	0.74	0.57	0.27
Forns	0.54[0.45, 0.62]	<0.001	0.88	0.30	0.61	0.59	0.69	0.19
									HSI	0.55[0.47, 0.64]	<0.001	0.59	0.57	0.58	0.60	0.55	0.15
NFS	0.54[0.46, 0.63]	<0.001	0.17	0.94	0.53	0.76	0.50	0.11
									PNFS	0.55[0.47, 0.64]	<0.001	0.49	0.74	0.61	0.68	0.56	0.22
TyG	0.56[0.48, 0.65]	<0.001	0.80	0.36	0.59	0.59	0.61	0.16
									内部验证集
IndexB	0.70[0.54, 0.85]	Ref	0.53	0.77	0.67	0.63	0.69	0.30
									B-AST	0.65[0.46, 0.81]	0.594	0.37	0.89	0.67	0.70	0.66	0.27
APRI	0.67[0.50, 0.82]	0.810	0.47	0.92	0.73	0.82	0.71	0.42
									M-APRI	0.62[0.43, 0.79]	0.445	0.32	0.92	0.67	0.75	0.65	0.26
FIB-4	0.63[0.45, 0.78]	0.573	0.53	0.54	0.53	0.46	0.61	0.06
									M- FIB-4	0.62[0.43, 0.79]	0.498	0.42	0.89	0.69	0.73	0.68	0.32
Forns	0.54[0.36, 0.71]	0.014	0.32	0.73	0.56	0.46	0.59	0.05
									HSI	0.55[0.37, 0.73]	0.070	0.42	0.69	0.58	0.50	0.62	0.12
NFS	0.60[0.41, 0.77]	0.427	0.90	0.12	0.44	0.43	0.60	0.01
									PNFS	0.60[0.41, 0.77]	0.408	0.58	0.65	0.62	0.55	0.68	0.23
TyG	0.67[0.51, 0.82]	0.816	0.26	0.85	0.60	0.56	0.61	0.12

基于上述六个参数开发的ML模型如表7和图3所示。在训练集中，RF、ANN和XGBoost方法开发的预测模型的AUC值均为1，显著优于IndexA(P<0.001)；而在内部验证集中，RF、ANN和XGBoost三种ML方法开发的预测模型的AUC值均高于IndexA，RF的AUC值最高。

表7 IndexB和ML在训练集和验证集中预测显著纤维化的效果

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
IndexB	0.81 [0.75, 0.87]	Ref	0.64	0.88	0.75	0.86	0.68	0.51
									RF	1.00 [1.00-1.00]	<0.001	0.98	1.00	0.99	1.00	0.98	0.98
ANN	1.00 [1.00-1.00]	<0.001	0.98	1.00	0.99	1.00	0.98	0.98
									XGBoost	1.00 [1.00-1.00]	<0.001	0.97	0.99	0.98	0.99	0.97	0.96
内部验证集
									IndexB	0.70 [0.54, 0.85]	Ref	0.53	0.77	0.67	0.63	0.69	0.30
RF	0.91 [0.82, 0.98]	0.003	0.79	0.89	0.84	0.83	0.85	0.68
									ANN	0.67 [0.51, 0.82]	0.767	0.84	0.58	0.69	0.59	0.83	0.40
XGBoost	0.82 [0.69, 0.93]	0.117	0.74	0.77	0.76	0.70	0.80	0.50

初始纳入18个变量时，逐步回归和Lasso回归方法选择出的最终变量包括insulin，UA，HGB，FPG，creatinine，age，BMI，SBP，HDL和urea(表8)，构建的新指标为IndexC=5.063+0.072×insulin (mU/L)-0.009×UA (μmol/L)-0.054×HGB-0.644×FPG-0.057×creatinine (μmol/L)+0.271×age (year)+0.164×BMI (kg/m²)+0.022×SBP (mmHg)+2.030×HDL (mmol/L)-0.409×urea (mmol/L)，诊断显著肝纤维化的最优截断值为0.91。

表8 候选预测因子的选择

其中，模型1为基于1000个Bootstrap样本的逐步回归分析，表8中数字为1000个Bootstrap样本中每个候选预测因子被选择的次数之和；模型2为基于十折交叉验证的Lasso回归分析，选择出的预测因子用“1”表示。包含在最终模型中的预测因子用粗体标记。

表8中，SBP=收缩压，DBP=舒张压，ALT=丙氨酸氨基转移酶，FPG=空腹血糖，TC=总胆固醇，TG=甘油三酯，PLT=血小板，HDL=高密度脂蛋白胆固醇，LDL=低密度脂蛋白胆固醇，UA=尿酸，HGB=血红蛋白。

IndexC在训练集和内部验证集中的AUC值分别为0.86和0.91(见表9)，显著高于B-AST、FIB-4、NFS等多个指标(P<0.05)，其准确率、PPV和kappa值均最高。在外部验证集中，IndexC的AUC值为0.63，与其他指标间并无显著性差异。

表9 IndexC与既往指标在训练集和验证集中预测显著纤维化的效果比较

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
IndexC	0.86[0.78, 0.94]	Ref	0.67	0.94	0.79	0.94	0.69	0.59
									B-AST	0.65[0.53, 0.77]	0.004	0.80	0.51	0.68	0.68	0.67	0.32
APRI	0.64[0.51, 0.76]	0.006	0.56	0.80	0.66	0.78	0.58	0.34
									M-APRI	0.63[0.50, 0.75]	0.002	0.67	0.66	0.66	0.71	0.61	0.32
FIB-4	0.60[0.47, 0.73]	0.001	0.62	0.63	0.63	0.68	0.56	0.25
									M- FIB-4	0.63[0.51, 0.75]	0.002	0.53	0.74	0.63	0.73	0.55	0.27
Forns	0.52[0.39, 0.66]	<0.001	0.84	0.37	0.64	0.63	0.65	0.23
									HSI	0.54[0.41, 0.66]	<0.001	0.42	0.74	0.56	0.68	0.50	0.16
NFS	0.57[0.44, 0.71]	<0.001	0.62	0.57	0.60	0.65	0.54	0.19
									PNFS	0.62[0.49, 0.74]	0.002	0.60	0.74	0.66	0.75	0.59	0.33
TyG	0.50[0.37, 0.63]	<0.001	0.82	0.31	0.60	0.61	0.58	0.14
									内部验证集
IndexC	0.91[0.75, 1.00]	Ref	0.82	0.90	0.86	0.90	0.82	0.72
									B-AST	0.61[0.36, 0.85]	0.034	0.82	0.40	0.62	0.60	0.67	0.22
APRI	0.69[0.46, 0.91]	0.125	0.46	0.90	0.67	0.83	0.60	0.35
									M-APRI	0.66[0.42, 0.91]	0.078	0.82	0.70	0.76	0.75	0.78	0.52
FIB-4	0.59[0.34, 0.85]	0.028	0.55	0.60	0.57	0.60	0.55	0.15
									M- FIB-4	0.60[0.34, 0.86]	0.033	0.36	0.80	0.57	0.67	0.53	0.16
Forns	0.54[0.26, 0.81]	0.005	1.00	0.40	0.71	0.65	1.00	0.41
									HSI	0.56[0.27, 0.82]	0.013	0.82	0.30	0.57	0.56	0.60	0.12
NFS	0.59[0.32, 0.83]	0.009	0.70	0.60	0.65	0.64	0.67	0.30
									PNFS	0.69[0.42, 0.90]	0.101	0.55	0.80	0.67	0.75	0.62	0.34
TyG	0.64[0.37, 0.88]	0.036	0.82	0.50	0.67	0.64	0.71	0.32
									外部验证集
IndexC	0.63[0.37, 0.86]	Ref	0.33	0.83	0.79	0.14	0.94	0.10
									VAI	0.68[0.46, 0.88]	0.903	0.57	0.83	0.81	0.25	0.95	0.26
TyG	0.60[0.44, 0.75]	0.765	1.00	0.34	0.40	0.13	1.00	0.08

基于上述十个参数开发的ML模型如表10和图4所示。在训练集中，RF和XGBoost方法开发的预测模型的AUC值均为1，显著优于IndexC(P<0.001)；在内部验证集中，RF的AUC值最高，但ML模型的AUC值与IndexC并无显著性差异(P>0.05)，外部验证集中也未发现模型间的显著差异。

表10 IndexC和ML在训练集和验证集中预测显著纤维化的效果

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
IndexC	0.86 [0.78, 0.94]	Ref	0.67	0.94	0.79	0.94	0.69	0.59
									RF	1.00 [1.00, 1.00]	<0.001	1.00	1.00	1.00	1.00	1.00	1.00
ANN	0.85 [0.77, 0.93]	0.810	0.67	1.00	0.81	1.00	0.70	0.64
									XGBoost	1.00 [1.00, 1.00]	<0.001	1.00	1.00	1.00	1.00	1.00	1.00
内部验证集
									IndexC	0.91 [0.75, 1.00]	Ref	0.82	0.90	0.86	0.90	0.82	0.72
RF	0.93 [0.80, 1.00]	0.763	0.91	0.70	0.81	0.77	0.88	0.62
									ANN	0.85 [0.65, 0.98]	0.503	0.55	1.00	0.76	1.00	0.67	0.53
XGBoost	0.85 [0.64, 1.00]	0.484	1.00	0.70	0.86	0.79	1.00	0.71
									外部验证集
IndexC	0.63 [0.37, 0.86]	Ref	0.33	0.83	0.79	0.14	0.94	0.10
									RF	0.59 [0.31, 0.84]	0.720	0.17	0.96	0.90	0.25	0.93	0.15
ANN	0.60 [0.38, 0.82]	0.770	0.33	0.80	0.76	0.13	0.93	0.08
									XGBoost	0.64 [0.44, 0.82]	0.927	0.43	0.83	0.80	0.20	0.94	0.17

对IndexC进行模型简化以提高指标的可行性。结合预测因子的数量和预测性能，最优模型应包含insulin，UA和BMI三个参数，形式为BIU=-0.875+0.063×insulin (mU/L)-0.008×UA (μmol/L)+0.097×BMI (kg/m²)，诊断显著肝纤维化的最优截断值为-0.06。简化指标BIU在训练集中预测显著肝纤维化的AUC值为0.81，显著高于其他指标(P<0.05)，PPV和kappa值也均高于其他指标；在内部验证集和外部验证集中BIU的AUC值也最高，分别为0.88和0.72(见表12)。

表11不同数量参数下基于原始模型的最优嵌套模型

变量	AUC	P ^a	P_correction ^b	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
										Insulin	0.74[0.62,0.85]	0.014	0.014	0.91	0.51	0.74	0.71	0.82	0.44
Insulin, UA	0.80[0.69,0.90]	0.140	0.142	0.71	0.86	0.78	0.87	0.70	0.55
										insulin, UA, BMI	0.81[0.71,0.90]	0.196	0.196	0.84	0.74	0.80	0.81	0.79	0.59
insulin, UA, FPG, BMI	0.82[0.73,0.91]	0.223	0.223	0.84	0.74	0.80	0.81	0.79	0.59
										insulin, UA, FPG, BMI, urea	0.84[0.75,0.92]	0.259	0.259	0.89	0.69	0.80	0.78	0.83	0.59
insulin, UA, FPG, HGB, BMI, HDL	0.84[0.75,0.92]	0.204	0.204	0.84	0.77	0.81	0.83	0.79	0.62

其中，AUC=曲线下面积，PPV=阳性预测值，NPV=阴性预测值，FPG=空腹血糖，HDL=高密度脂蛋白胆固醇，UA=尿酸，HGB=血红蛋白。a：似然比检验，b：“bonferroni”法校正后的p值。

表12 BIU与既往指标在训练集和验证集中预测显著纤维化的效果比较

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
BIU	0.81[0.71, 0.90]	Ref	0.84	0.74	0.80	0.81	0.79	0.59
									B-AST	0.65[0.53, 0.77]	0.034	0.80	0.51	0.68	0.68	0.67	0.32
APRI	0.64[0.51, 0.76]	0.039	0.56	0.80	0.66	0.78	0.58	0.34
									M-APRI	0.63[0.50, 0.75]	0.017	0.67	0.66	0.66	0.71	0.61	0.32
FIB-4	0.60[0.47, 0.73]	0.014	0.62	0.63	0.63	0.68	0.56	0.25
									M- FIB-4	0.63[0.51, 0.75]	0.022	0.53	0.74	0.63	0.73	0.55	0.27
Forns	0.52[0.39, 0.66]	<0.001	0.84	0.37	0.64	0.63	0.65	0.23
									HSI	0.54[0.41, 0.66]	<0.001	0.42	0.74	0.56	0.68	0.50	0.16
NFS	0.57[0.44, 0.71]	0.001	0.62	0.57	0.60	0.65	0.54	0.19
									PNFS	0.62[0.49, 0.74]	0.016	0.60	0.74	0.66	0.75	0.59	0.33
TyG	0.50[0.37, 0.63]	<0.001	0.82	0.31	0.60	0.61	0.58	0.14
									内部验证集
BIU	0.88[0.70, 1.00]	Ref	0.82	0.70	0.76	0.75	0.78	0.52
									B-AST	0.61[0.36, 0.85]	0.071	0.82	0.40	0.62	0.60	0.67	0.22
APRI	0.69[0.46, 0.91]	0.205	0.46	0.90	0.67	0.83	0.60	0.35
									M-APRI	0.66[0.42, 0.91]	0.141	0.82	0.70	0.76	0.75	0.78	0.52
FIB-4	0.59[0.34, 0.85]	0.068	0.55	0.60	0.57	0.60	0.55	0.15
									M- FIB-4	0.60[0.34, 0.86]	0.070	0.36	0.80	0.57	0.67	0.53	0.16
Forns	0.54[0.26, 0.81]	0.020	1.00	0.40	0.71	0.65	1.00	0.41
									HSI	0.56[0.27, 0.82]	0.015	0.82	0.30	0.57	0.56	0.60	0.12
NFS	0.59[0.32, 0.83]	0.029	0.70	0.60	0.65	0.64	0.67	0.30
									PNFS	0.69[0.42, 0.90]	0.158	0.55	0.80	0.67	0.75	0.62	0.34
TyG	0.64[0.37, 0.88]	0.077	0.82	0.50	0.67	0.64	0.71	0.32
									外部验证集
BIU	0.72[0.51, 0.89]	Ref	0.43	0.72	0.69	0.13	0.93	0.07
									VAI	0.68[0.46, 0.88]	0.529	0.57	0.83	0.81	0.25	0.95	0.26
TyG	0.60[0.44, 0.75]	0.279	1.00	0.34	0.40	0.13	1.00	0.08

基于BIU的三个参数开发的ML模型如表13所示。在训练集中，RF和XGBoost方法开发的预测模型的AUC值均为1，显著优于BIU(P<0.001)；在内部验证集中，ANN的AUC值最高，达到了0.90，但ML模型的AUC值与IndexC并无显著性差异(P>0.05)，外部验证集中也并未出现显著差异。

表13 BIU和ML在训练集和验证集中预测显著纤维化的效果

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
BIU	0.81 [0.71, 0.90]	Ref	0.84	0.74	0.80	0.81	0.79	0.59
									RF	1.00 [1.00, 1.00]	<0.001	1.00	1.00	1.00	1.00	1.00	1.00
ANN	0.82 [0.73, 0.91]	0.534	0.84	0.80	0.83	0.84	0.80	0.64
									XGBoost	1.00 [0.99, 1.00]	<0.001	0.98	1.00	0.99	1.00	0.97	0.98
内部验证集
									BIU	0.88 [0.70, 1.00]	Ref	0.82	0.70	0.76	0.75	0.78	0.52
RF	0.86 [0.67, 0.99]	0.841	1.00	0.60	0.81	0.73	1.00	0.61
									ANN	0.90 [0.76, 1.00]	0.762	0.91	0.80	0.86	0.83	0.89	0.71
XGBoost	0.75 [0.50, 0.95]	0.325	0.82	0.60	0.71	0.69	0.75	0.42
									外部验证集
BIU	0.72 [0.51, 0.89]	Ref	0.43	0.72	0.69	0.13	0.93	0.07
									RF	0.63 [0.43, 0.82]	0.493	0.57	0.55	0.55	0.11	0.93	0.04
ANN	0.62 [0.42, 0.80]	0.081	0.43	0.77	0.74	0.16	0.93	0.12
									XGBoost	0.60 [0.40, 0.79]	0.257	0.29	0.62	0.59	0.07	0.90	0.04

鉴于血压具备较低的检测难度及代谢性疾病间的紧密关系，进一步将BIU与血压指标结合以寻找潜在的更优指标，结果如表14所示。从训练集和验证集中的结果可以看到，血压指标的加入并未提高BIU的预测性能。但是收缩压可以略微提高外部验证集的AUC值，但是不具有统计学差异。

表14 BIU和血压指标的组合在训练集和验证集中预测显著纤维化的效果

	AUC (95%CI)	P ^a	Sensitivity	Specificity	Accuracy	PPV	NPV	Kappa
									训练集
BIU	0.81 [0.71, 0.90]	Ref	0.84	0.74	0.80	0.81	0.79	0.59
									BIU+SBP	0.81 [0.71, 0.90]	0.815	0.80	0.74	0.78	0.80	0.74	0.54
BIU+DBP	0.80 [0.71, 0.89]	0.582	0.80	0.71	0.76	0.78	0.74	0.52
									内部验证集
BIU	0.88 [0.70, 1.00]	Ref	0.82	0.70	0.76	0.75	0.78	0.52
									BIU+SBP	0.88 [0.71, 1.00]	1.000	0.82	0.80	0.81	0.82	0.80	0.62
BIU+DBP	0.83 [0.62, 0.97]	0.278	0.82	0.60	0.71	0.69	0.75	0.42
									外部验证集
BIU	0.72 [0.51, 0.89]	Ref	0.43	0.72	0.69	0.13	0.93	0.07
									BIU+SBP	0.73 [0.53, 0.90]	0.430	0.43	0.75	0.72	0.14	0.93	0.09
BIU+DBP	0.66 [0.42, 0.86]	0.087	0.57	0.75	0.73	0.18	0.95	0.16

其中，AUC=曲线下面积，PPV=阳性预测值，NPV=阴性预测值，SBP=收缩压，DBP=舒张压。a：Delong检验(双侧5%显著性水平)。

本发明基于两组医院检查数据，通过逻辑回归开发了多个预测NAFLD儿童显著肝纤维化的指标，既比较了潜在的预测因子对于显著肝纤维化影响的重要性，也考虑了不同机构的检测能力开发了相应的诊断指标，从基于常规学生体质监测数据的IndexC和BIU到需要进行多项额外血清检测的IndexA(三级甲等)和IndexB(基层卫生院)，这些指标在预测集和验证集中的预测效果均优于既往指标，为NAFLD儿童的显著纤维化提供了可靠了筛查手段。

机器学习模型相比于传统的逻辑回归模型具有更好的分类效果，尤其是RF方法在训练集中的诊断准确性显著优于常规方法，即使在外部验证人群的特征与开发集差异较大的情况下，也能达到近似常规方法的预测性能。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应对理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分技术特征进行等同替换。而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，包括：

数据获取单元，所述数据获取单元用于获取受试者的血清学、人口统计学和/或人体测量学变量数据；

数据分析单元，所述数据分析单元存储有用于非酒精性脂肪性肝病肝纤维化的预测模型，其用于根据所述数据判断受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有非酒精性脂肪性肝病显著肝纤维化的风险；

2.根据权利要求1所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，基于机器学习算法构建所述预测模型。

3.根据权利要求2所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，所述机器学习算法包括以下中的任意一种或其组合：神经网络、决策树、随机森林、逻辑回归、支持向量机、朴素贝叶斯、极端梯度提升、K最近邻、K均值和Adaboost。

4.根据权利要求3所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，所述数据选自血清胰岛素水平insulin、血清尿酸水平UA、血清血红蛋白水平HGB、血清空腹血糖水平FPG、血清肌酐水平creatinine、血清高密度脂蛋白胆固醇水平HDL、血清尿素水平urea、血清碱性磷酸酶水平ALP、血清总胆汁酸水平TBA、血清谷草转氨酶水平AST、血清胆碱酯酶水平cholinesterase、血清纤维蛋白原水平fibrinogen、血清凝血酶原国际标准化比值INR、血清前白蛋白水平prealbumin、收缩压SBP、舒张压DBP、年龄age、体重weight、体重指数BMI中的任意一种或其组合。

5. 根据权利要求1-4任一项所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，所述数据包括血清胰岛素水平insulin、血清尿酸水平UA和体重指数BMI，所述预测模型为BIU=-0.875+0.063×insulin (mU/L)-0.008×UA (μmol/L)+0.097×BMI (kg/m²)，判断显著肝纤维化的截断值为-0.06。

6. 根据权利要求1-4任一项所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，所述数据包括血清胰岛素水平insulin、血清尿酸水平UA、血清血红蛋白水平HGB、血清空腹血糖水平FPG、血清肌酐水平creatinine、年龄age、体重指数BMI、收缩压SBP、血清高密度脂蛋白胆固醇水平HDL和血清尿素水平urea，所述预测模型为IndexC=5.063+0.072×insulin (mU/L)-0.009×UA (μmol/L)-0.054×HGB-0.644×FPG-0.057×creatinine (μmol/L)+0.271×age (year)+0.164×BMI (kg/m²)+0.022×SBP (mmHg)+2.030×HDL(mmol/L)-0.409×urea (mmol/L)，判断显著肝纤维化的截断值为0.91。

7. 根据权利要求1-4任一项所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，所述数据包括血清碱性磷酸酶水平ALP、血清总胆汁酸水平TBA、血清谷草转氨酶水平AST、血清胆碱酯酶水平cholinesterase、血清高密度脂蛋白胆固醇水平HDL和血清纤维蛋白原水平fibrinogen，所述预测模型为IndexB=0.959+0.073×TBA (μmol/L)+0.006×ALP(U/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)-2.699×HDL (mmol/L)+0.744×fibrinogen (g/L)，判断显著肝纤维化的截断值为0.55。

8. 根据权利要求1-4任一项所述的预测非酒精性脂肪性肝病肝纤维化的装置，其特征在于，所述数据包括血清碱性磷酸酶水平ALP、血清总胆汁酸水平TBA、血清肌酐水平creatinine、血清谷草转氨酶水平AST、血清胆碱酯酶水平cholinesterase、体重weight、血清尿酸水平UA、血清高密度脂蛋白胆固醇水平HDL、血清纤维蛋白原水平fibrinogen、舒张压DBP、体重指数BMI、血清凝血酶原国际标准化比值INR和血清前白蛋白水平prealbumin，所述预测模型为IndexA=1.968+0.007×ALP (U/L)+0.079×TBA (μmol/L)-0.048×creatinine (μmol/L)+0.007×AST (U/L)-0.001×cholinesterase (U/L)+0.046×weight (kg)-0.003×UA (μmol/L)-2.274×HDL (mmol/L)+0.769×fibrinogen (g/L)-0.026×DBP (mmHg)-0.002×BMI (kg/m²)+1.397×INR+0.002×prealbumin (mg/L)，判断显著肝纤维化的截断值为0.31。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：获取受试者的血清学、人口统计学和/或人体测量学变量数据；将所述数据输入数据分析模块，其中所述数据分析模块存储有根据权利要求1-8任一项所述的预测模型，从而确定受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险。

10.一种计算机存储介质，其特征在于，其存储有计算机程序，所述计算机程序被计算机执行时实现以下操作步骤：获取受试者的血清学、人口统计学和/或人体测量学变量数据；将所述数据输入数据分析模块，其中所述数据分析模块存储有根据权利要求1-8任一项所述的预测模型，从而确定受试者是否患有非酒精性脂肪性肝病显著肝纤维化或患有所述显著肝纤维化的风险。