CN114550921A

CN114550921A - 一种基于li-rads分级的患病风险预测建模方法

Info

Publication number: CN114550921A
Application number: CN202011343525.7A
Authority: CN
Inventors: 刘绵学; 李劲; 黑爱莲; 马洪波; 张波; 周际; 张旻
Original assignee: Shenzhen Sino Swed Tongkang Bio Tech Ltd
Current assignee: Shenzhen Sino Swed Tongkang Bio Tech Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-05-27
Anticipated expiration: 2040-11-26
Also published as: CN114550921B

Abstract

本申请涉及一种基于LI‑RADS分级的患病风险预测建模方法，包括：采集样本数据；将医学影像学检查结果转换为量化的终点事件状态，并设定LR‑3及以上的LI‑RADS分级作为终点事件；将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量；通过回归法进行建模，从而获得肝细胞癌HCC患病风险预测模型。本申请将具有确定HCC风险的影像学检查结果集合设定为风险预测终点事件，从而降低了阳性结果样本的获取成本和难度，阳性样本的稳定积累成为可能，在相同时间段内，该系统获得的风险预测模型的迭代升级可行性更高。

Description

一种基于LI-RADS分级的患病风险预测建模方法

技术领域

本申请涉及患病风险预测建模领域，尤其是涉及一种基于LI-RADS分级的患病风险预测建模方法。

背景技术

肝癌是最常见的恶性肿瘤之一。据2018年统计，全球肝癌患者占癌症总群体的4.7%，死亡率高达8.2%，尤其在男性癌症患者中(死亡率10.2%）与肺癌分列死亡率前两位。肝细胞癌（Hepatocellular carcinoma，HCC）是原发性肝癌的主要分型，占到发病总数的85%-90%。HCC起因复杂，早期无典型症状，病理进展迅速，不同阶段确诊预后差异显著，早期确诊5年生存率达70%，晚期确诊5年生存率小于5%。中国原发性肝癌患病人数约占全球50%，且人数逐年升高，5年生存率仅为14.1%，主要原因之一是70-85%患者确诊时已处于中晚期，丧失了手术机会。因此，加强预防和普遍筛查HCC高危人群，具有重要的现实意义。

近年来筛选HCC高危人群的技术主要包括：1）超声联合血清甲胎蛋白（AFP）；2）其他肿瘤标志物，如甲胎蛋白异质体（AFP-L3）、磷脂酰肌醇聚糖3（GPC3）、骨桥蛋白（OPN）、脱-γ-羧基凝血酶原（DCP）、高尔基蛋白73（GP73）、糖蛋白DKK1、ɑ-L-岩藻糖苷酶（AFU）、糖类抗原19-9（CA19-9）等；3）肿瘤特征核酸鉴定方法，如循环游离微小核糖核酸（cfRNA）、循环肿瘤DNA（ctDNA）、DNA甲基化鉴定、二代测序等；4）肿瘤细胞鉴定法，如循环肿瘤细胞（CTC）等；5）影像学检查方法，如x线计算机体层扫描（CT）、核磁共振（MRI）、超声造影（CEUS）、肝细胞特异性对比剂增强扫描（EOB-MRI）等。

通过开发临床预测模型，构建风险评估系统来测试重疾风险，是国际流行病学及肿瘤学研究的热点。目前主要的HCC相关风险评估系统包括：1）乙肝患者肝癌风险预测(CAMD)，使用年龄、性别、肝硬化、糖尿病信息评估肝乙肝患者3年后的肝癌风险；2）肝癌切除术后早期HCC复发风险模型，通过性别、白蛋白-胆红素指数、AFP、肝癌大小、肿瘤数目评估HCC复发风险；3）慢性肝病患者肝癌风险预测模型(aMAP评分)，通过年龄、性别、总胆红素、白蛋白水平、血小板、血肌酐水平因素，评估受检者30天致死率风险和5年累计肝癌发生率。针对上述中的相关技术，发明人认为存在以下缺陷：超声检查易受主观因素影响，对早期病灶不够敏感；生物标志物AFP、AFP-L3、OPN等绝大多数对早期HCC的敏感性和特异性效果不佳；肿瘤细胞及肿瘤特征核酸鉴定方法由于出现时间较晚，临床转化进展尚早，需积累更多数据对方法有效性进行验证支持；医学影像学方法对间隔周期有着严格限制，短期内多次检查易增大受检者遗传突变风险，而两次检测的时间间隔过长，由于HCC本身病情进展迅猛，易出现“间期性肿瘤”的问题，且该方法用于普遍筛查的仪器投入成本也偏高。现有的HCC相关风险评估系统存在的共有限制，即受检者实际已经处于肝病临床阶段，系统涉及的各种指标大都是在临床阶段的检测结果，这种隐含的基础条件，不符合需进行HCC风险评估的健康群体的初始情况；另外，现有的HCC风险评估体系的样本获取成本高、难度大、样本积累效率偏低，导致现有HCC风险评估模型的迭代升级难度非常大，进而导致风险预测的准确度也有限。

发明内容

为了解决现有的HCC风险评估体系不能适用于健康群体进行肝细胞癌的患病风险监测，且样本获取成本高、难度大、样本积累效率低，导致风险评估模型的迭代升级难度大的问题，本申请提供一种基于LI-RADS分级的患病风险预测建模方法。

一种基于LI-RADS分级的患病风险预测建模方法，包括：采集样本数据；将医学影像学检查结果的集合转换为量化的终点事件状态，并设定LR-3及以上的LI-RADS分级作为终点事件；将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量；通过回归法进行建模，从而获得肝细胞癌HCC患病风险预测模型。

本申请通过设定在体检样本中即可获取的HCC中间状态（该HCC中间状态作为HCC病理进程中必然经过的中间状态，具有确定级别的恶化风险特征）作为终点事件（即将具有确定HCC风险的影像学检查结果集合设定为风险预测终点事件（设定LR-3、LR-4和LR-5作为阳性结果）），多种体检指标项目作为自变量，由于自变量和因变量都设定在体检阶段，仅需提供体检结果就可进行风险预测模型的开发，无需为了收集临床结果进行大量低效的回访工作，从而降低了阳性结果样本的获取成本和难度，阳性样本的稳定积累成为可能，在相同时间段内，该系统获得的风险预测模型的迭代升级可行性更高。另外，通过结合将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量，从而建模获得的预测模型可以更好的适用于HCC患病风险的预测；而且本申请中以多种体检指标项目作为自变量，因而所建立的HCC患病风险预测模型可以普遍适用于一般的健康人群，比如用于体检机构中用于对普通的体检人群进行HCC患病风险预测，可以适应普遍筛查的高频度和高通量需求。

优选的，所述的通过回归法进行建模，从而获得肝细胞癌HCC患病风险预测模型，具体包括以下步骤：

S1，使用三折交叉验证法随机抽样将原始样本数据拆分为训练集与验证集；

S2，针对不同的训练集，通过重复使用不平衡回归ILKL算法进行建模，获得多个预测模型；对应同一个训练集所获得的多个预测模型形成一个预测模型库；

S3，对各个预测模型库中的预测模型进行筛选，若预测模型公式中含有TK1项目自变量，则将该所述的预测模型纳入初筛预测模型组中；

S4，对于初筛预测模型组中的预测模型，使用对应的验证集样本进行受试者工作特征曲线（即ROC曲线）验证并计算曲线下面积AUC值；

S5，若AUC值大于等于0.7，则将对应的初筛预测模型组中的预测模型纳入最终的预测模型组中；

S6，对最终的预测模型组中的各个预测模型，按照参数综合方式进行模型优化,从而得到HCC风险预测模型。

通过采用以上方案，尤其是通过利用TK1项目自变量及受试者工作特征曲线对预测模型进行筛选，TK1检测结果可指示细胞增殖水平，可反映多类型肿瘤细胞的早期异常增殖变化；ACU值大于等于0.7，证明该预测模型具备一定的准确性；另外，通过重复使用不平衡回归ILKL算法进行建模，从而可以在高度不平衡的样本组之间配齐数目，同时保持其样本的高度代表性，从而最终获得更有实用价值的、更准确的HCC早期风险预测模型。

优选的，步骤S2所述的使用不平衡回归ILKL算法进行建模具体包括以下步骤：

S21，将样本根据终点事件状态分为两组，其中，终点事件为“一般风险”（即LR-1和LR-2）的样本为“多数组”，阳性样本（即LR-3及以上的LI-RADS分级）组为少数组；

S22，将作为自变量的体检指标项目设为聚类指标变量，将终点事件设为样本标签，将K（大于2小于等于10的自然数）设定为类别组数；

S23，从多数组样本中随机选择K个样本作为质心，对多数组样本中的每一个点，基于聚类指标变量计算其与每一个质心样本的欧几里德距离，并将其划分到距离最短的质心所属的集合中；

S24，所有数据归入K个集合后，重新计算每个集合的质心点；

S25，若新计算出来的质心样本和原质心样本之间的欧几里德距离小于设置的阈值（即达到收敛状态），则将获得的K个集合作为K-Means聚类分组；否则继续进行迭代，直至最终获得K-Means聚类分组；

S26，按照少数组比多数组的比例对K-Means聚类分组进行随机抽样；

S27，合并所有的抽样样本与少数组样本，通过二分类逻辑回归获得预测模型。

通过采用以上方案，使用不平衡回归ILKL算法进行建模，从而可以有效解决真实体检数据中阳性样本与健康样本之间的样本不平衡性问题。选择终点事件为“一般风险”的样本为“多数组”，阳性样本（即LR-3及以上的LI-RADS分级）组为少数组，此时只要按照终点事件不同状态的比值（阳性组/多数组）在K个类别中随机抽样，即可获得与阳性组样本数持平的“一般风险”样本集；在样本对等的情况下进行二分类逻辑回归，可有效规避因样本不平衡导致的预测模型偏向满足多数组结果的问题，另一方面也通过阳性人群的真实占比率拓展了预测模型的多样性。

优选的，步骤S6中所述的按照参数综合方式进行模型优化具体包括以下步骤：

S61，使用最终的预测模型组中的各个预测模型，分别对全部的训练集加验证集的数据进行受试者工作特征曲线（即ROC曲线）验证并计算曲线下面积AUC值；

S62，根据验证结果中对阳性样本的预测正确率大小对所述的各个预测模型进行排序；

S63，选择预测正确率最高的2-10个模型，进行预测模型的参数优化：

预测模型中包含三种参数——项目自变量、项目自变量的系数以及常数；优化时，将所有模型中的所有项目自变量合并作为最终的HCC风险预测模型的项目自变量；将所有模型中的各个项目自变量的系数相加再求平均后作为HCC风险预测模型的相应项目自变量的系数；将所有模型中的常数相加再求平均后作为HCC风险预测模型的常数。

通过采用以上技术方案，从而可以进一步提高HCC模型预测的准确性。

优选的，通过以下方法对作为自变量的其他体检指标项目进行筛选：

首先，（可通过显著性分析、相关性分析和秩和分析）验证已量化转化项目与终点事件之间的紧密相关性程度；若相关性的显著度P < 0.1，则将该项目纳入待选项目；否则不纳入待选项目；

其次，对筛选获得的待选项目，（可通过Box-Tidwell法、项目间相关性分析法和多重共线性检验法）对项目之间的相关性进行排查，选择满足自变量三项假设的项目纳入回归项目中，最终与血清细胞质胸苷激酶1检测结果一起作为自变量；其中，所述的满足自变量三项假设，即项目与终点事件logit转换值之间存在线性关系、项目间无多重共线性与显著相关性。

通过采用以上技术方案，（尤其是比如进行显著性分析、相关性分析和秩和分析）从而可以保证检测项目与终点事件发生存在显著或较为显著的相关性、（比如通过比如Box-Tidwell法验证），连续自变量与因变量的logit转换值之间存在线性关系、以及（比如通过项目间相关性分析法和多重共线性检验法）保证入选自变量项目之间具有独立性。将满足以上这些条件的自变量纳入“回归项目”，保证了自变量的单因素分析差异具有统计学意义、连续自变量与因变量logit转换值之间存在线性关系假说、同时也避免因放入相关性较高的自变量项目，造成某方面因素的影响权重被放大失真。

优选的，采集样本数据后，还包括以下步骤：提取医学影像学（如CT/MRI/B超/CEUS）检查文字结果中的LI-RADS分级量化结果，并将分类选项结果进行自然数赋值处理，将初始不同格式的检测调查结果数据转换为一致性的量化数据。

通过采用以上技术方案，将医学影像学检查结果以及初始不同格式的检测调查结果数据转换为一致性的量化数据，从而便于进行建模时使用。进一步优选的，利用终点事件提取工具提取医学影像学检查文字结果中的LI-RADS分级量化结果，具体包括以下步骤：

a，通过LEN和SUBSTITUTE命令，输出影像学文字结果中“LI”的出现次数；

b，使用FIND命令获得“LI”在文字中首次出现的定位值N1，并使用MID命令抓取N1位置LI-RADS后的分级字符串；

c，将首次出现定位值N1+1作为起始位置，继续使用FIND命令，获得获得“LI”第二次出现的定位值N2，并抓取N2位置的LI-RADS分级字符串；

d,将第二次出现的定位值N2+1作为起始位置，继续使用FIND命令进行定位，以此类推，得到所有位置对应的LI-RADS后的分级字符串；

e，使用VALUE和IFERROR命令将所有位置得到的字符串均转换为数字（如无数字则赋值“0”）；

f，使用MAX命令输出转换后的数字中的最大值L；

g，使用IF命令，将获得的L值转换为风险分级数1或2。

通过采用以上技术方案，通过终点事件提取工具在海量的医学影像学描述性文字中，针对性发现LI-RADS分类信息，并按照其分级结果的最大值进行转化输出，从而可以提高转换效率，降低出错率。

优选的，所述的将分类选项结果进行自然数赋值处理，即利用逻辑值转换工具将项目按照二分类、有序和无序的不同，分别转换为量化值（比如二分类项目阴性结果赋值为1，阳性结果赋值为2；多分类项目按照顺序转换为自然数数列（如1，2，至n））。

采用以上技术方案，将项目按照二分类、有序和无序的不同进行量化，从而有利于将所述的体检指标数据用于建模使用。

前述的基于LI-RADS分级的患病风险预测建模方法中，通过对风险概率结果的区段识别（如根据CUTOFF =0.500分段，小于0.5的为低风险人群，大于等于0.5的为高风险人群），输出受检者的HCC风险分群信息。

通过采用以上方法，将受检者划分为高风险人群和低风险人群，从而有利于实现将多数的医疗资源倾向于高风险人群。

综上所述，本申请包括以下至少一种有益技术效果：

1.本申请通过设定在体检样本中即可获取的HCC中间状态（该HCC中间状态作为HCC病理进程中必然经过的中间状态，具有确定级别的恶化风险特征）作为终点事件（即将具有确定HCC风险的影像学检查结果集合设定为风险预测终点事件（设定LR-3、LR-4和LR-5作为阳性结果）），多种体检指标项目作为自变量，由于自变量和因变量都设定在体检阶段，仅需提供体检结果就可进行风险预测模型的开发，无需为了收集临床结果进行大量低效的回访工作，从而降低了阳性结果样本的获取成本和难度，阳性样本的稳定积累成为可能，在相同时间段内，该系统获得的风险预测模型的迭代升级可行性更高。另外，通过结合将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量，从而建模获得的预测模型可以更好的适用于HCC患病风险的预测；而且本申请中以多种体检指标项目作为自变量，因而所建立的HCC患病风险预测模型可以普遍适用于一般的健康人群，比如用于体检机构中用于对普通的体检人群进行HCC患病风险预测，可以适应普遍筛查的高频度和高通量需求。

2.本申请通过使用不平衡回归ILKL算法进行建模，从而可以有效解决真实体检数据中阳性样本与健康样本之间的样本不平衡性问题。选择终点事件为“一般风险”的样本为“多数组”，阳性样本（即LR-3及以上的LI-RADS分级）组为少数组，此时只要按照终点事件不同状态的比值（阳性组/多数组）在K个类别中随机抽样，即可获得与阳性组样本数持平的“一般风险”样本集；在样本对等的情况下进行二分类逻辑回归，可有效规避因样本不平衡导致的预测模型偏向满足多数组结果的问题，另一方面也通过阳性人群的真实占比率拓展了预测模型的多样性。

附图说明

图1是本申请的一种实施例的方法流程图；

图2是本申请中HCC风险预测模型的具体建模方法流程图；

图3是本申请中项目筛选及应用ILKL算法进行建模的方法流程图；

图4为利用终点事件提取工具提取医学影像学检查文字结果中的LI-RADS分级量化结果的方法流程图；

图5为采用本申请所建模型进行HCC患病风险评估的方框示意图；

图6为实验例中对所建立的预测模型进行验证的ROC曲线示意图。

具体实施方式

以下结合附图1-5对本申请作进一步详细说明。

现有技术中，比如2020年侯金林等提出的aMAP风险评分系统，仅针对慢性肝炎患者评估其HCC风险，该HCC风险评估体系是以患者最终得肝细胞癌为终点事件进行建模，因而需要将肝细胞癌患者作为样本采集的目标，由于肝癌确证患者实际不足人群总数的百分之一，样本获取成本高、难度大、样本积累效率偏低，导致现有HCC风险评估模型的迭代升级难度非常大。而作为风险评估系统的核心，临床预测模型的迭代升级，是风险评估系统提升评估有效性的关键途径。但因体检数据与临床数据各自普遍隔绝成“信息孤岛”，体检数据完整性、临床结果一致性、体检结果与临床结果的相关性（时间间隔太大导致缺乏对应关系）都会对阳性样本的有效性造成干扰，其结果便是可利用阳性样本数量远低于实际发生情况。这加大了预测模型研究难度，不易获得有应用价值的HCC风险预测模型，风险预测算法迭代的可行性也不高。发明人基于此问题进行研究发现，根据最新版本的LI-RADSv2018，可将影像学发现的肝脏结节分为五类：良性（LR-1）、良性可能性大（LR-2）、怀疑HCC（LR-3）、HCC可能性大（LR-4）、HCC（LR-5）。根据CT/MRI LI-RADS v2018 CORE文件中披露的应用2014版及2017版 LI-RADS文献数据，LR-1时HCC和恶性肿瘤阳性预测率（PPV）为0%；LR-2时HCC阳性预测率（PPV）为16%，恶性肿瘤PPV为18%；LR-3时HCC的PPV达到37%，恶性肿瘤PPV为39%，LR-4和LR-5中PPV值较LR-3更高，故可将LR-1和LR-2结果作为HCC一般风险状态，LR-3、LR-4和LR-5结果作为HCC异常风险状态。

因此，发明人创造性的想到通过设定在体检样本中即可获取的HCC中间状态（该HCC中间状态作为HCC病理进程中必然经过的中间状态，具有确定级别的恶化风险特征）作为终点事件（即将医学影像学检查结果转换为量化的终点事件状态，设定LR-3及以上的LI-RADS分级作为终点事件（也即设定LR-3、LR-4和LR-5作为阳性结果）），多种体检指标项目作为自变量，由于自变量和因变量都设定在体检阶段，仅需提供体检结果就可进行风险预测模型的开发，无需为了收集临床结果进行大量低效的回访工作，降低了阳性结果样本的获取成本和难度，阳性样本的稳定积累成为可能，在相同时间段内，该系统获得的风险预测模型的迭代升级可行性更高。另外，通过结合将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量，从而建模获得的预测模型可以更好的适用于HCC患病风险的预测；而且本申请中以多种体检指标项目作为自变量，因而所建立的HCC患病风险预测模型可以普遍适用于一般的健康人群，比如用于体检机构中用于对普通的体检人群进行HCC患病风险预测，可以适应普遍筛查的高频度和高通量需求。也即，本申请通过改变数据获取模式，降低阳性样本的获取成本，可有效提高HCC风险预测模型的开发效率。在长期稳定的阳性样本积累基础之上，HCC风险预测模型可进行更充分的算法迭代，从而获得更稳定和更有预测效率的HCC风险评估系统，最终达到医疗资源对HCC高危人群的高效能分配。

本申请实施例公开一种基于LI-RADS分级的患病风险预测建模方法。参照图1，一种基于LI-RADS分级的患病风险预测建模方法，包括：

Step1，采集样本数据；

Step2，将医学影像学检查结果转换为量化的终点事件状态，并设定LR-3及以上的LI-RADS分级作为终点事件；将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量；

Step3，通过回归法（如二分类逻辑回归风险模型的普遍公式）进行建模，从而获得患病肝细胞癌HCC风险预测模型。

具体实施时，首先可基于对体检结果的整体观察，选择同一机构同一检测体系下的检测结果，然后可通过终点事件提取工具、逻辑值转换工具等将原有项目的不同形式转换为统一量化形式；再通过数据清洗步骤，将存在数据完整性和规范性缺陷的样本进行清除（如清除TK1值或LI-RADS结果无记录的样本，同时去除转换后量化结果明显超出测量范围的样本，如检测获得负数或离群值样本（离群值的判定依据《GBT 4883-2008 数据的统计处理和解释正态样本离群值的判断和处理》中 6.2.1 “上侧情形”的方法））。最后可借助非结构化数据库来存储原始状态和数值转化的项目结果，并按照分析需求输出为可分析的数据文件形式。

一般将体检结果项目按照项目结果形式分为三大类，1）医学影像学检查结果，包括超声/超声造影（CEUS）项目、CT项目和MRI项目；2）连续值项目；3）分类结果项目，包括二分类项目、有序多分类项目和无序多分类项目。

可选的，所述的通过回归法进行建模，从而获得肝细胞癌HCC患病风险预测模型，如图2所示，具体包括以下步骤：

具体实施时，比如用于模型开发的样本数量为10396例，通过三折法抽样，分别分为三组样本：组1为3465个样本，组2为3465个样本，组3为3466个样本。模型开发中使用ILKL算法进行样本匹配，使用ROC曲线验证方法进行模型的筛选工作。三折法组合一使用组1作为验证集，组2与组3合并形成训练集。如图3，通过对训练集的项目筛选和ILKL算法的循环处理，获得预测模型库1（内含预测模型100个）。然后分别在三折法抽样的组合二和组合三中重复以上步骤，形成不同的预测模型库。

可选的，如图3所示，步骤S2所述的使用不平衡回归ILKL算法进行建模具体包括以下步骤：

S24，所有数据归入K个集合后，重新计算每个集合的质心点；

如阳性样本为120例，在健康组抽样的环节，按照阳性组/健康组比例对K-Means聚类分组进行随机抽样，从而使健康组抽样后的样本数目接近120，从而达到降低预测偏倚性的目的。

可选的，步骤S6中所述的按照参数综合方式进行模型优化具体包括以下步骤：

比如进行参数优化时，预测模型中包含三种参数，A_n为模型中所有自变量项目的固定编号，实际编号为A₁至A_n；B_m-n为项目系数，指模型M（比如M=1~5）中A_n项目的参数，实际编号为B_1-1至B_5-n，若任一模型未含有某A_n项目自变量，其项目参数B值设定为0；C_M为模型M的常数，实际编号为C₁-C₅。优化后模型中包含5个合并模型中所有的A_n项，参数B和C的优化依照如下公式：

C_op = （C1+C2+C3+C4+C5）/5

B_op（m-n）=（B_1-n+B_2-n+B_3-n+B_4-n+B_5-n）/5。

可选的，如图3所示，通过以下方法对作为自变量的其他体检指标项目进行筛选：

其次，对筛选获得的待选项目，（可通过Box-Tidwell法、项目间相关性分析法和多重共线性检验法）对项目之间的相关性进行排查，选择满足自变量三项假设的项目纳入回归项目中，最终与血清细胞质胸苷激酶1检测结果一起作为自变量；其中，所述的满足自变量三项假设，即项目与终点事件（logit）转换值之间存在线性关系、项目间无多重共线性与显著相关性。

在进行样本采集时，采集受检者的以下信息：1）受检者基本信息（去除敏感信息）；2）家族病史/个人病史；3）生活方式调查结果；4）单项检测结果；5）医学影像学检查结果。然后将体检项目与转换后量化项目共同导入形成的数据库存储系统中。按照记录内容的逻辑关系分为受检者基本信息、家族病史/个人病史、生活方式调查结果、单项检测结果和医学影像学检查结果，其中单项检测结果又由血液检验、生化检验、感染免疫检验和体液检验组成。

可选的，采集样本数据后，还包括以下步骤：提取医学影像学（如CT/MRI/B超/CEUS）检查文字结果中的LI-RADS分级量化结果，并将分类选项结果进行自然数赋值处理，将初始不同格式的检测调查结果数据转换为一致性的量化数据。

可选的，利用终点事件提取工具提取医学影像学检查文字结果中的LI-RADS分级量化结果，如图4所示，具体包括以下步骤：

f，使用MAX命令输出转换后的数字中的最大值L；

g，使用IF命令，将获得的L值转换为风险分级数1或2。

具体实施时，比如利用EXCEL 2013中的命令行实现提取医学影像学检查文字结果中的LI-RADS分级量化结果：

步骤1）：

ƒx=0.5*(LEN(初始文字)-LEN(SUBSTITUTE(初始文字,"LI","")))；

步骤2）：

ƒx=MID(A3,FIND("LI",初始文字)+8,1)；

步骤3）：

ƒx=MID(A3,FIND("LI",初始文字,N1+1)+8,1)；

步骤4）：

ƒx=MID(A3,FIND("LI",初始文字,N2+1)+8,1)；

步骤5）：

ƒx=MID(A3,FIND("LI",文字表格,N3+1)+8,1)；

步骤6）：

ƒx=IFERROR(VALUE(抓取LI-RADS分级字符串),0)；

步骤7）：

ƒx=MAX(步骤2提取分级值:步骤5提取分级值)；

步骤8）：

ƒx==IF(L>2,2,1)。

可选的，所述的将分类选项结果进行自然数赋值处理，即利用逻辑值转换工具将项目按照二分类、有序和无序的不同，分别转换为量化值（比如二分类项目按照阳/阴性结果转换0/1或1/2，如男/女可分别转换为1/2；LR-1和LR-2转换为1，LR-3、LR-4和LR-5统一转换为2；多分类项目按照顺序转换为自然数数列（如1，2，至n））。

本申请中，可通过对风险概率结果的区段识别（如根据CUTOFF =0.500分段，小于0.5的为低风险人群，大于等于0.5的为高风险人群），输出受检者的HCC风险分群信息。

具体实施时，可收集同一地点同一机构长期的体检数据，其中包括了TK1检测和其它常规健康体检项目（包括但不限于血常规、肝功能、肿瘤标志物等等）。如图5所示，按照本申请所建立的HCC风险预测模型，选定体检报告中特定项目；联合TK1试剂盒检测结果导入预测模型；通过模型进行风险概率计算和判断；根据计算结果，进行预测结果的文本输出。本申请所建立的HCC患病风险预测模型，可适用于普通的健康人群，具体可以被用于体检机构中进行HCC患病风险预测。

实验例：

采用解放军某医院2017年体检数据（样本总数10639），其中阳性组130人，阴性组10509人（符合真实比例，提高了本申请的回归模型的拓展性和风险评测方法实用意义），基于本申请的建模方法进行建模。最终的预测模型中使用了包括年龄分级以及11种生物标志物或血液指标作为自变量：细胞质胸苷激酶1浓度（TK1）、淋巴细胞计数、红细胞平均体积、血小板压积、白球蛋白比值、血清白蛋白、谷草转氨酶、肌酐、尿素肌酐、甲胎蛋白（AFP）和癌胚抗原（CEA）。

其中，年龄等级值可预设为：20-29岁赋值为1，30-39岁赋值为2，40-49岁赋值为3，50-59岁赋值为4，60-69岁赋值为5，70-79岁赋值为6，80岁及以上赋值为7；TK1值（pM）检测可采用深圳华瑞同康生物技术有限公司生产的CIS系列化学发光数字成像分析仪及胸苷激酶1诊断试剂盒；淋巴细胞计数、红细胞平均体积、血小板压积、白球蛋白比值、血清白蛋白可采用XFA6100全自动血液细胞分析仪检测；谷草转氨酶、肌酐、尿素肌酐可采用MD-100型半自动生化分析仪检测；甲胎蛋白（AFP）和癌胚抗原（CEA）可采用ELISA检测试剂盒（供应商：上海冠导生物工程有限公司）与全自动生化检测仪进行测定。

对应获得的患病肝细胞癌HCC风险预测模型的函数公式为：风险概率P＝ExpX/(1+ExpX)，其中，X＝8.039744953 +(0.2317891×年龄等级)+(0.5909724×TK1)+（0.0386128×淋巴细胞计数）+(- 0.016474096×红细胞平均体积) + (-8.131866143×血小板压积)+（-0.215379×白球蛋白比值）+(-0.151802523×血清白蛋白)+（-0.021515429×谷草转氨酶）+(0.017035858×肌酐) +（-3.000811143×尿素肌酐）+（0.01944881×AFP）+（-0.004730143×CEA）。

风险概率P为医学影像学出现LI-RADS 3类结果的可能性，即使用肝脏影像报告及数据系统中的LI-RADS 3类分级结果作为预测模型的终点事件,锚定了确定的肝细胞肿瘤风险概率；当风险概率P <0.5时，可判定为一般风险；而当风险概率P ≥0.5时，可判定为异常风险。

另外，采用解放军某医院2017年体检数据（样本总数10639）对该预测模型进行验证，如图6所示，获得AUC值为0.730，95%CI 0.722-0.739，Youden指数为0.3633，敏感性为73.08.特异性为63.25（阈值0.5）。

此外，发明人还进行了联合检测方法的价值比较，结果显示，本实验例中采用12个项目同时检测，相较于标志物TK1（<2为正常）、AFP（<35为正常）、CEA(<5为正常)单独使用或TK1、AFP、CEA联合使用，最终建立的HCC风险预测模型的预测准确率更高。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的方法、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种基于LI-RADS分级的患病风险预测建模方法，其特征在于，包括：采集样本数据；将医学影像学检查结果转换为量化的终点事件状态，并设定LR-3及以上的LI-RADS分级作为终点事件；将血清细胞质胸苷激酶1即TK1检测结果为主的多种体检指标项目作为自变量；通过回归法进行建模，从而获得肝细胞癌HCC患病风险预测模型。

2.根据权利要求1所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，所述的通过回归法进行建模，从而获得肝细胞癌HCC患病风险预测模型，具体包括以下步骤：

S4，对于初筛预测模型组中的预测模型，使用对应的验证集样本进行受试者工作特征曲线验证并计算曲线下面积AUC值；

3.根据权利要求2所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，步骤S2所述的使用不平衡回归ILKL算法进行建模具体包括以下步骤：

S21，将样本根据终点事件状态分为两组，其中，终点事件为“一般风险”的样本为“多数组”，阳性样本组为少数组；

S22，将作为自变量的体检指标项目设为聚类指标变量，将终点事件设为样本标签，将K设定为类别组数；

S24，所有数据归入K个集合后，重新计算每个集合的质心点；

S25，若新计算出来的质心样本和原质心样本之间的欧几里德距离小于设置的阈值，则将获得的K个集合作为K-Means聚类分组；否则继续进行迭代，直至最终获得K-Means聚类分组；

4.根据权利要求2所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，步骤S6中所述的按照参数综合方式进行模型优化具体包括以下步骤：

S61，使用最终的预测模型组中的各个预测模型，分别对全部的训练集加验证集的数据进行受试者工作特征曲线验证并计算曲线下面积AUC值；

5.根据权利要求1所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，通过以下方法对作为自变量的其他体检指标项目进行筛选：

首先，验证已量化转化项目与终点事件之间的紧密相关性程度；若相关性的显著度P <0.1，则将该项目纳入待选项目；否则不纳入待选项目；

其次，对筛选获得的待选项目，对项目之间的相关性进行排查，选择满足自变量三项假设的项目纳入回归项目中，最终与血清细胞质胸苷激酶1检测结果一起作为自变量；其中，所述的满足自变量三项假设，即项目与终点事件logit转换值之间存在线性关系、项目间无多重共线性与显著相关性。

6.根据权利要求1所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，采集样本数据后，还包括以下步骤：提取医学影像学检查文字结果中的LI-RADS分级量化结果，并将分类选项结果进行自然数赋值处理，将初始不同格式的检测调查结果数据转换为一致性的量化数据。

7.根据权利要求6所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，利用终点事件提取工具提取医学影像学检查文字结果中的LI-RADS分级量化结果，具体包括以下步骤：

e，使用VALUE和IFERROR命令将所有位置得到的字符串均转换为数字；

f，使用MAX命令输出转换后的数字中的最大值L；

g，使用IF命令，将获得的L值转换为风险分级数1或2。

8.根据权利要求6所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，所述的将分类选项结果进行自然数赋值处理，即利用逻辑值转换工具将项目按照二分类、有序和无序的不同，分别转换为量化值。

9.根据权利要求1所述的基于LI-RADS分级的患病风险预测建模方法，其特征在于，通过对风险概率结果的区段识别，输出受检者的HCC风险分群信息。