CN117253625A

CN117253625A - 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质

Info

Publication number: CN117253625A
Application number: CN202311332707.8A
Authority: CN
Inventors: 周际; 汪海东; 李劲; 黄潇阳
Original assignee: Shenzhen Sino Swed Tongkang Bio Tech Ltd
Current assignee: Shenzhen Sino Swed Tongkang Bio Tech Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-12-19

Abstract

本申请涉及一种肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质，所述的肺癌筛查模型的构建装置包括：样本获取及数据采集模块，用于获取无肺癌的肺结节患者样本，并采集所述肺结节患者样本的基线参数；所述的基线参数包括肺结节径向和血清胸苷激酶1；模型训练模块，用于以所述基线参数作为自变量，以基线访视后3年内新发肺癌风险作为因变量进行模型训练；模型评估及验证模块，用于对训练后的模型进行预测效能评估及内部验证，进而获得无癌肺结节患者3年内新发肺癌风险预测模型。本申请可以用于大样本中国人群实现无肺癌的肺结节患者发展为肺癌的风险预测。

Description

肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质

技术领域

本申请涉及智能医疗检测技术领域，尤其是涉及一种肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质。

背景技术

肺癌是造成全球健康负担的主要原因，因此，早期发现和治疗以降低肺癌死亡率至关重要。

低剂量计算机断层扫描(LDCT)是发现肺结节的常用方法。然而，使用LDCT评估肺结节的癌变风险仍存在挑战。两年随访中的假阳性率高达23.3％，这可能导致不必要的辐射暴露、有创活检、经济成本和患者焦虑。LDCT检查后的肺结节风险评估方法需要改进，以优化随访策略。

目前我国肺癌筛查指南建议仅根据LDCT测量的肺结节径向和密度决定是否进一步检查。欧洲和英国的指南则建议使用预测模型，可显著降低假阳性率。然而，由于预测因素分布的差异，国外的这些模型并不适用于中国人，另外，已发表的中国人群模型由于样本量较小(＜1000)，也限制了其适用性。因此，迫切需要一种基于大样本中国人群的预测模型构建技术，来实现无肺癌的肺结节患者发展为肺癌的风险预测。

发明内容

为了实现无肺癌的肺结节患者发展为肺癌的风险预测，本申请提供一种肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质。

第一方面，本申请提供的一种肺癌筛查模型的构建装置采用如下的技术方案：

一种肺癌筛查模型的构建装置，包括：

样本获取及数据采集模块，用于获取无肺癌的肺结节患者样本，并采集所述肺结节患者样本的基线参数；所述的基线参数包括肺结节径向和血清胸苷激酶1；

模型训练模块，用于以所述基线参数作为自变量，以基线访视后3年内新发肺癌风险作为因变量进行模型训练；

模型评估及验证模块，用于对训练后的模型进行预测效能评估及内部验证，进而获得无癌肺结节患者3年内新发肺癌风险预测模型。

通过采用上述技术手段，尤其是利用所述的基线参数(包括肺结节径向和血清胸苷激酶1)作为自变量，以基线访视后3年内新发肺癌风险作为因变量进行模型训练，从而可以用于大样本中国人群实现无肺癌的肺结节患者发展为肺癌的风险预测。也就是说，本申请可应用于预测未来3年内新发肺癌的概率而不是诊断已有肺癌，因为目前无肺癌的肺结节患者，随着疾病发展在未来也有发展为肺癌的风险，而目前未有技术可以预测，本申请为首个可以预测中短期肺癌风险的实用工具。此外，本申请中，采用肺结节径向和血清胸苷激酶1构建的模型可进一步提高肺癌风险预测的灵敏度和特异度；此外，本申请中的短期肺癌风险预测模型可以在早期发现患者的高风险因素，并提供相关干预措施，从而促进早期诊断和治疗，还将带来以下几个方面的收益：早期发现和诊断：通过使用短期肺癌风险预测模型，医生能够更早地检测到可能有高风险的患者，并及时进行相关检查和诊断。这将有助于尽早发现肺癌，并提供更早的治疗机会，提高患者存活率；个体化治疗方案：预测模型可以根据患者的个体特征和风险因素，为每位患者提供个性化的治疗建议和方案。这样不仅可以提高治疗效果，还能降低不必要的治疗过程或药物副作用；资源利用的高效性：通过使用本申请的风险预测模型，医疗资源可以更有针对性地被分配给那些患者群体，减少了对资源的浪费，包括床位、人力、设备等，在大量患者面前可以提高医疗服务的效率；成本降低：早期诊断和治疗通常比晚期治疗更有效，并且能够减少后续治疗所需的成本，而且通过风险预测模型的使用，可以更好地管理肺癌患者的健康风险，并减轻对医疗系统的经济负担。

优选的，所述的模型训练模块中，进行模型训练具体包括：拟合逻辑回归模型，并使用LASSO正则化来约束模型的参数。

更优选的，所述的使用LASSO正则化来约束模型的参数包括：通过调整正则化参数控制模型的稀疏性，从而筛选得到对所述因变量有最强影响的自变量特征。

本申请中，LASSO通过添加L1正则化项，可以自动将一些不重要的特征的系数收缩到零，从而实现自动变量选择。相比之下，逐步回归法需要手动设置进入和移出模型的阈值，需要进行多次迭代，而LASSO可以一次性筛选出对目标变量具有显著影响的特征，更加简单高效。

优选的，所述的无癌肺结节患者3年内新发肺癌风险预测模型为：

其中，所述的lp＝-7.066+lp(血清胸苷激酶1)+lp(肺结节径向)

(线性预测值)lp(肺结节径向)＝0.3392*肺结节径向；

(线性预测值)lp(血清胸苷激酶1)＝0.3355*血清胸苷激酶1。

通过采用上述技术方案，利用本申请中获得无癌肺结节患者3年内新发肺癌风险预测模型，从而可以准确的计算出无癌肺结节患者3年内新发肺癌风险概率。

优选的，所述的样本获取及数据采集模块中，所述样本排除基线患癌症的个体、有肿瘤史记录的个体，以及基线时有胸外科手术史的个体；

和/或

所述的样本获取及数据采集模块中，所述样本选择首次检出肺结节的30岁或以上、且接受过至少1次随访的无肺癌及肺癌史的且基线时无胸外科手术史的个体。

通过采用上述技术手段，本申请建模时选择的样本排除基线患癌症的个体、有肿瘤史记录的个体，以及基线时有胸外科手术史的个体，从而使得本申请可应用于未有肿瘤史的肺结节患者而不是已有肿瘤患者。而肺结节患者群体庞大，发病率为35.5％，且有一定肺癌风险(0.54％)，因此，本申请可协助预防较大数量的新发肺癌病例产生。本申请中，选择首次检出肺结节的样本，能避免检出结节后可能接受的干预如抗炎治疗等对肺癌风险预测的干扰；另外，选择30岁或以上样本，选择接受过至少1次随访的样本，能确保样本有随访信息，能在随访中确认是否有新发肺癌诊断，以免造成误分类，从而提高所述构建装置所构建模型的精度。

优选的，所述的模型评估及验证模块中，对训练后的模型进行预测效能评估时，通过评估模型的区分度和校准度来评估其预测效能；

具体的，所述的区分度通过受试者工作特征(ROC)曲线下面积(AUC)及其95％CI评估；从而使得对于类别不平衡的数据集更加稳健，使得结果不受类别不平衡影响，能更好地反映模型的性能(而通常在类别不平衡的情况下，准确率等指标可能会受到误导)；另外，使得结果不受阈值选择的影响，对于不同的应用场景和需求，可以提供一个更全面的模型评估；最后，所述的区分度通过受试者工作特征(ROC)曲线下面积(AUC)及其95％CI评估，从而可以直接应用于多类别分类问题，而不需要进行额外的修改或转换。

和/或

所述的校准度通过模型预测概率与实际概率的比值(E:O)、最优校准截距(CITL)和校准斜率评估，从而可以提供多个维度的评估，进而更全面地了解模型的校准性能；具体的，比值指标可以直观地表示模型的校准程度，校准斜率可以衡量模型的校准性能随置信水平的变化情况，而CITL可以在大规模数据集上评估模型的校准性能；此外，校准度通过模型预测概率与实际概率的比值(E:O)、最优校准截距(CITL)和校准斜率评估，可以更准确地评估模型的校准性能，因为每个指标都有其独特的优点和局限性，综合使用这几个指标可以弥补各个指标的不足，提供更全面、准确的评估结果。此外，这些指标都具有可解释性，可以直观地展示模型的校准性能，比如比值指标可以表示模型的预测与实际发生的概率相符程度，校准斜率可以展示模型的校准性能随置信水平的变化情况，而CITL提供的可靠性曲线和可靠性直方图可以直观地展示模型的校准性能。最后，综合使用这些指标可以帮助检测模型中的潜在问题，如过度自信或过度谨慎。通过比较预测概率与实际概率的比值、分析校准斜率的变化以及评估模型在大规模数据集上的校准性能，可以发现模型的不足之处。

优选的，所述的模型评估及验证模块中，使用十折交叉验证对模型进行内部验证；具体包括：

将采用样本数据所构成的数据集划分为十个相等大小的子集；

对于每个子集，依次将其作为测试集，并将其余九个子集合并作为训练集；

在训练集上拟合逻辑回归模型；

使用拟合好的模型对测试集进行预测，并计算模型在测试集上的性能指标，包括受试者工作特征曲线下面积、模型预测概率与实际概率的比值、最优校准截距和校准斜率。

重复步骤对于每个子集，依次将其作为测试集至步骤使用拟合好的模型对测试集进行预测，直到每个子集都被用作测试集，并记录每次的性能指标；

对于每个能指标，计算十次测试的平均值和标准差，用于评估模型的平均性能和稳定性。

通过采用以上技术手段进行模型验证，通过对每个子集都进行一次验证，从而充分利用了整个数据集，并减少了因数据划分不当而引入的偏差。另外，由于每个样本都被用于最终评估结果的一部分，从而使得模型的性能指标更加稳定可靠，可以更好地反映模型的泛化能力。另外，通过采用以上方法不断在不同的训练集和验证集上进行训练和验证，可以及时发现模型在训练集上表现很好但在验证集上表现较差的情况，避免模型过度拟合数据；最后，通过采用以上方法对模型进行内部验证，从而可以从11个变量中找到最佳的参数配置(即基线参数选择肺结节径向和血清胸苷激酶1)，以提高模型性能。

第二方面，本申请提供的一种肺癌筛查装置采用如下技术方案：

一种肺癌筛查装置，包括前述任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

第三方面，本申请提供的一种电子设备采用如下技术方案：

一种电子设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行实现如前述任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

第四方面，本申请提供的一种计算机可读存储介质采用如下技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行实现如前述任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

综上所述，本申请包括以下至少一种有益技术效果：

本申请中尤其是利用所述的基线参数(包括肺结节径向和血清胸苷激酶1)作为自变量，以基线访视后3年内新发肺癌风险作为因变量进行模型训练，从而可以用于大样本中国人群实现无肺癌的肺结节患者发展为肺癌的风险预测。也就是说，本申请可应用于预测未来3年内新发肺癌的概率而不是诊断已有肺癌，因为目前无肺癌的肺结节患者，随着疾病发展在未来也有发展为肺癌的风险，而目前未有技术可以预测，本申请为首个可以预测中短期肺癌风险的实用工具。此外，本申请中，采用肺结节径向和血清胸苷激酶1构建的模型可进一步提高肺癌风险预测的灵敏度和特异度；

本申请建模时选择的样本排除基线患癌症的个体、有肿瘤史记录的个体，以及基线时有胸外科手术史的个体，从而使得本申请可应用于未有肿瘤史的肺结节患者而不是已有肿瘤患者。而肺结节患者群体庞大，发病率为35.5％，且有一定肺癌风险(0.54％)，因此，本申请可协助预防较大数量的新发肺癌病例产生。

附图说明

图1是本申请的一种实施例的肺癌筛查模型的构建装置的方框示意图。

图2是实验例中筛选研究样本的流程图。

图3是实验例中模型构建和验证示意图，其中，(a)为LASSO结果；(b)为3年风险预测模型及各预测因素的受试者工作特征(ROC)曲线；(c)为模型在内部验证中的校准曲线；(d)为模型在内部验证中的ROC曲线。

图4阈值和决策曲线图；其中，a-c分别为3年肺癌风险预测模型、肺结节径向和血清胸苷激酶1阈值对应的Youden指数；(d)为模型决策曲线。

具体实施方式

以下结合附图1-图4对本申请作进一步详细说明。

本申请实施例公开一种肺癌筛查模型的构建装置。参照图1，一种肺癌筛查模型的构建装置，包括：

样本获取及数据采集模块，用于获取无肺癌的肺结节患者样本，并采集所述肺结节患者样本的基线参数；

其中，所述样本排除基线患癌症的个体、有肿瘤史记录的个体，以及基线时有胸外科手术史的个体；

和/或

所述的样本获取及数据采集模块中，所述样本选择首次检出肺结节的30岁或以上、且接受过至少1次随访的无肺癌及肺癌史的(若个体随访期间没有肺癌记录，则至少随访3年)且基线时无胸外科手术史的个体；

所述的基线参数包括肺结节径向和血清胸苷激酶1，具体的说，在训练模型时，所述的基线参数包括：年龄、性别、吸烟状况、三项血清生物标志物——血清胸苷激酶1(STK1p)、癌胚抗原(CEA)和甲胎蛋白(AFP)、四项临床特征——体重指数(BMI)、高血压、高血糖和血脂异常和肺结节径向；

所述的基线参数可通过以下方式获取：

年龄、性别和吸烟状况由患者自我报告，并由医生记录。对于没有吸烟状况记录的患者，医生的文字记录将被进一步审查。无法确认吸烟状况的患者不被纳入研究。

提取的3项血清生物标志物，包括STK1p,CEA和AFP，为在基线访问时的数据。STK1p的检测可采用基于TK1-IgY多克隆抗体的增强型化学发光法(CIS-2)。血清CEA和AFP可采用化学发光(ALINITY ci-series)测定。

4项临床特征，包括BMI、高血压、高血糖和血脂异常，其中，BMI(kg/m2)根据自我报告的身高和体重计算。高血压的定义根据诊断记录、高收缩压(≥130mmHg)或高舒张压(≥80mmHg)。高血糖的定义根据诊断记录、高空腹血糖(≥6.1mmol/L)或高餐后2小时血糖(≥7.8mmol/L)。血脂异常的定义根据诊断记录或总胆固醇(≥6.2mmol/L)、甘油三酯(≥11.3mmol/L)、低密度脂蛋白胆固醇(≥4.14mmol/L)或高密度脂蛋白胆固醇(<1.04mmol/L)水平异常。

LDCT扫描由医院放射科医生根据现有指南常规执行和分析。根据LDCT报告可以获得肺结节径向。结节径向(mm)定义为部分实性和实性结节的实性区的最大直径，或磨玻璃结节的最大直径。患者有多发结节时，取最大结节的最大直径。

肺癌的定义根据医院信息系统记录的ICD-9和ICD-10编码来判断。无编码的个体被认为无肺癌。对于有新发肺癌的患者，研究终点为肺癌诊断的日期。对于没有新发肺癌的患者，研究终点为基线访视后最后一次访视的日期。

具体的，所述的进行模型训练包括：拟合逻辑回归模型，并使用LASSO正则化来约束模型的参数；

所述的拟合逻辑回归模型包括：使用LASSO回归算法建立逻辑回归模型，其中，LASSO的目标是最小化以下损失函数：L(β)＝-loglikelihood(y,Xβ)+α*∑|β|；其中，loglikelihood(y,Xβ)表示逻辑回归的对数似然损失；α是控制正则化强度的超参数，可通过交叉验证等方法选择最优的α值；∑|β|表示参数的L1正则化项，可通过使用选择的最优超参数α值进行模型拟合，得到模型参数β。

本申请中使用LASSO回归算法建立逻辑回归模型，具有以下优点：

1、特征选择：LASSO可以通过对参数进行L1正则化，使得一部分特征的系数趋于零，从而实现特征变量自动选择；这样可以减少模型中不重要的特征，提高模型的解释性和泛化能力；相对于现有的如逐步回归法，其需要手动设置进入和移出模型的阈值，需要进行多次迭代，而本申请中LASSO可以一次性筛选出对目标变量具有显著影响的特征，更加简单高效。

2、模型正则化：LASSO可以通过调整正则化参数来控制模型的复杂度，防止过拟合；另外，L1正则化可以使得模型更加稀疏，减少不必要的特征，从而提高模型的泛化能力。而现有的逐步回归法则没有明确的稀疏性特点。

3、处理共线性：LASSO可以有效处理特征之间的共线性问题，即当输入特征之间存在高度相关性时，LASSO可以将其中一个特征选择为代表，将其他相关特征的系数缩减到零，因此可以减少多重共线性对模型的影响，提高建模效率。而逐步回归法则无法直接处理多重共线性，可能会选择其中一个相关特征而忽略其他相关特征。

4、可解释性：LASSO对于模型参数的约束可以使得模型更具可解释性。由于L1正则化会将一些特征的系数缩减为零，因此可以很清晰地看到哪些特征对目标变量的影响较大或较小。

5、稳定性：LASSO在具有较少样本和大量特征的情况下仍然可以稳定地进行模型拟合，并且具有较好的表现。

6、LASSO非常灵活，可以根据具体问题和数据集的特点进行调整，以获得最佳的模型性能和稀疏性。而逐步回归法则没有明确的参数可以调节。

综上所述，本申请相较于逐步回归法，使用LASSO回归算法建立逻辑回归模型具有特征变量自动选择、模型正则化、稀疏性、处理共线性、可解释性和稳定性等优势，可以帮助提高逻辑回归模型的性能和解释能力。

所述的使用LASSO正则化来约束模型的参数包括：通过调整正则化参数控制模型的稀疏性，从而筛选得到对所述因变量有最强影响的自变量特征，本申请中，最终获得的所述的对所述因变量有最强影响的自变量特征为肺结节径向和血清胸苷激酶1；

具体地说，通过使用交叉验证等技术来选择最佳的正则化参数，然后通过增大正则化参数，可以增加模型的稀疏性，即减少模型中的非零系数数量；反之，减小正则化参数可以减少模型的稀疏性，即增加模型中的非零系数数量，从而筛选得到对所述因变量有最强影响的自变量特征。

通过采用以上方法，从而可以将一些不重要的特征的系数收缩到零，实现变量选择。即采用LASSO可以自动筛选出对目标变量具有显著影响的特征，减少模型中的冗余特征，提高了模型的解释性。

模型评估及验证模块，用于对训练后的模型进行预测效能评估及内部验证，进而获得无癌肺结节患者3年内新发肺癌风险预测模型；

本实施例中，获得的所述的无癌肺结节患者3年内新发肺癌风险预测模型为：

其中，所述的lp＝-7.066+lp(血清胸苷激酶1)+lp(肺结节径向)

(线性预测值)lp(肺结节径向)＝0.3392*肺结节径向；

(线性预测值)lp(血清胸苷激酶1)＝0.3355*血清胸苷激酶1。

本实施例中，对训练后的模型进行预测效能评估时，通过评估模型的区分度和校准度来评估其预测效能；

具体的，所述的区分度通过受试者工作特征(ROC)曲线下面积(AUC)及其95％CI评估；和/或所述的校准度通过模型预测概率与实际概率的比值(E:O)、最优校准截距(CITL)和校准斜率评估。

校准图可用于直观地对比模型预测概率与实际概率。

本实施例中，使用十折交叉验证对模型进行内部验证；具体包括：

S1，将采用样本数据所构成的数据集划分为十个相等大小的子集；

S2，对于每个子集，依次将其作为测试集，并将其余九个子集合并作为训练集；

S3，在训练集上拟合逻辑回归模型；

S4，使用拟合好的模型对测试集进行预测，并计算模型在测试集上的性能指标，包括受试者工作特征曲线下面积、模型预测概率与实际概率的比值、最优校准截距和校准斜率。

S5重复步骤S2-S4，直到每个子集都被用作测试集，并记录每次的性能指标；

S6，对于每个能指标，计算十次测试的平均值和标准差，用于评估模型的平均性能和稳定性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本实施例还公开了一种肺癌筛查装置。一种肺癌筛查装置，包括上述任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

本实施例还公开了一种电子设备。一种电子设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行实现如上述任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

其中，电子设备可以采用台式电脑、笔记本电脑或者云端服务器等电子设备，并且，电子设备包括但不限于处理器以及存储器，例如，电子设备还可以包括输入输出设备、网络接入设备以及总线等。

本申请中的处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集，调用存储在存储器内的数据，执行本申请的各种功能和处理数据。处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器和微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

其中，存储器可以为电子设备的内部存储单元，例如，电子设备的硬盘或者内存，也可以为电子设备的外部存储设备，例如，电子设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等，并且，存储器还可以为电子设备的内部存储单元与外部存储设备的组合，存储器用于存储计算机程序以及电子设备所需的其他程序和数据，存储器还可以用于暂时地存储已经输出或者将要输出的数据，本申请对此不做限制。

本实施例还公开了一种计算机可读存储介质。一种计算机可读存储介质，存储有能够被处理器加载并执行实现如上述任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

实验例：

1.样本获取及数据采集

健康管理中心提供常规健康检查，包括胸部LDCT扫描和血清学检查，本实验例从医院的电子病历(EMR)中获取2018年1月1日至2021年12月31日的13609例肺结节患者进行回顾性筛选；其中6,841人(50.27％)符合纳排标准(如图2所示)——首次检出肺结节的30岁或以上患者，基线访视定义为首次检出肺结节的访视，基线访视具有完整的候选预测因素信息，且接受过至少1次随访；若患者随访期间没有肺癌记录，则应至少随访3年。排除人数为6768人(49.73％)：93人(0.68％)有基线肿瘤(癌症国际疾病分类为(ICD)-9或ICD-10代码)或胸外科手术史，1,117人(8.21％)基线信息不完整，5,558人(40.84％)无随访记录。6841名研究对象的年龄中位数(51岁(IQR＝45—59)比53岁(45—61))和女性比例(40.32％比39.74％)与筛选前的13609例患者相似。研究对象的中位随访时间为3.00年(IQR:3.00—3.40)。研究对象年龄31—91岁。随访期间共52例(0.76％)患者有新发肺癌。有和无新发肺癌的患者在基线时年龄、性别、吸烟和临床特征相似(如表1所示)。有新发肺癌的患者在基线时结节径向(p<0.001)和STK1p(p<0.001)高于无新发肺癌的患者(如表1所示)，说明选择肺结节径向和血清胸苷激酶1是预测肺癌的有效因素。

表1研究对象的基线特征

注：数据为中位数(四分位距)或n(％)。对于吸烟指标，括号外数据为样本量，括号内数据为百分比。对于肺结节径向，括号外为中位数，括号内为四分卫区间。

其中P值代表检验有无新发肺癌组的变量差异的显著性，p<0.05代表有显著差异。对于连续变量如年龄，p值由Wilcoxon秩和检验获得；对于分类变量如性别，p值由卡方检验。

1.预测模型构建

LASSO算法从11个备选指标中选择了结节径向和STK1p作为logistic模型的预测因素(如图3a、表2所示)。

表2

单因素和多因素logistic回归分析显示(表3)，两个预测因素均与3年肺癌风险相关。该模型的AUC为0.92(95％CI:0.87，0.97)，分别高于结节径向的0.89(0.84，0.95)和STK1p的0.74(0.68，0.80)(P<0.001)(图3b)。模型在内部验证中的E:O(0.998)、CITL(0.002)和校准斜率(0.95)(图3c)和AUC(0.92)(图3d)显示了其优秀的效能。

表3通过LASSO程序筛选出预测因素构建logistic回归模型

通过表3可知：肺结节径向和血清胸苷激酶1的比值比大于1且p值<0.05，说明这两个因素与肺癌显著正相关。

在逻辑回归中，常量是指系数为0的变量，它是一个没有因变量的自变量，它的系数在模型中被设置为0。常量通常在线性回归模型中，用于控制其他自变量对因变量的影响。

逻辑回归中的系数是指在模型中用于衡量自变量对因变量影响程度的参数。对于二元逻辑回归来说，系数表示了自变量对因变量的对数几率比的影响。具体地说，当自变量的值增加一个单位时，根据系数的正负不同，对数几率比将相应地增加或减少。

具体的，在逻辑回归中，所述系数是通过最大似然估计来获得的。具体步骤如下：假设有一个二分类问题，其中目标变量取两个值，通常表示为0和1；

使用逻辑函数(也称为sigmoid函数)将线性组合转化为概率值。逻辑函数的公式如下：P(Y＝1)＝1/(1+exp(-z))；

其中P(Y＝1)表示目标变量等于1的概率，exp表示自然指数函数，z表示线性组合；

根据最大似然估计的原理，选择使得观测到的数据出现的概率最高的系数。其中，最大似然估计的目标是最大化所有样本的似然函数，即最大化似然函数的乘积：

L(β)＝P(y＝1|x)^y*P(y＝0|x)^(1-y)，

其中β表示模型的系数，x表示特征向量，y表示实际观察到的目标变量。

将似然函数取对数，方便计算和优化：

log(L(β))＝Σ(y*log(P(y＝1|x))+(1-y)*log(P(y＝0|x)))。

利用优化算法(例如梯度下降、牛顿-拉夫逊等)，找到最大化对数似然函数的系数。

基于Youden指数(如图4所示)，模型预测概率的最优阈值为0.06％。该阈值下的敏感度和特异度分别为88.5％(假阴性率为11.5％)和89.0％(假阳性率为11.0％)，分别高于单独使用结节径向或STK1p的最优阈值(如表4所示)。模型的决策曲线如图4d所示。在阈值范围0％—50％之间，基于模型进行干预的净获益始终高于不干预或干预所有样本(即对本申请所选的2个因素——“肺结节径向和血清胸苷激酶1”进行干预的效果高于不干预，或者干预所有的因素；其中，干预所有样本指假设为所有样本提供后续诊疗，如PET-CT等)。预测概率高于0.06％的高风险组的3年新发肺癌概率高于低风险组(OR＝44.75[95％CI：19.06，105.05]；P<0.001)，说明患新发肺癌的人群相应的模型预测的高风险的几率比低风险高44.75倍。

表4最优阈值

注：AUC＝受试者工作特征(ROC)曲线下面积；95％CI＝95％置信区间。

具体实施时，可以在终端上根据模型开发网页应用程序，然后根据输入的预测因素为个体肺结节患者提供3年内新发肺癌的概率评估。

本申请的技术可以应用于基层医疗机构、体检中心、健康管理中心、公共卫生机构等进行肺癌早期筛查的场景。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的装置、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种肺癌筛查模型的构建装置，其特征在于，包括：

2.根据权利要求1所述的肺癌筛查模型的构建装置，其特征在于，所述的模型训练模块中，进行模型训练具体包括：拟合逻辑回归模型，并使用LASSO正则化来约束模型的参数。

3.根据权利要求2所述的肺癌筛查模型的构建装置，其特征在于，所述的使用LASSO正则化来约束模型的参数包括：通过调整正则化参数控制模型的稀疏性，从而筛选得到对所述因变量有最强影响的自变量特征。

4.根据权利要求1～3任一项所述的肺癌筛查模型的构建装置，其特征在于，所述的无癌肺结节患者3年内新发肺癌风险预测模型为：

其中，所述的lp＝-7.066+lp(血清胸苷激酶1)+lp(肺结节径向)

lp(肺结节径向)＝0.3392*肺结节径向；

lp(血清胸苷激酶1)＝0.3355*血清胸苷激酶1。

5.根据权利要求1所述的肺癌筛查模型的构建装置，其特征在于，所述的样本获取及数据采集模块中，所述样本排除基线患癌症的个体、有肿瘤史记录的个体，以及基线时有胸外科手术史的个体；

和/或

6.根据权利要求1所述的肺癌筛查模型的构建装置，其特征在于，所述的模型评估及验证模块中，对训练后的模型进行预测效能评估时，通过评估模型的区分度和校准度来评估其预测效能；

具体的，所述的区分度通过受试者工作特征曲线下面积及其95％CI评估；

和/或

所述的校准度通过模型预测概率与实际概率的比值、最优校准截距和校准斜率评估。

7.根据权利要求1所述的肺癌筛查模型的构建装置，其特征在于，所述的模型评估及验证模块中，使用十折交叉验证对模型进行内部验证；具体包括：

在训练集上拟合逻辑回归模型；

使用拟合好的模型对测试集进行预测，并计算模型在测试集上的性能指标，包括受试者工作特征曲线下面积、模型预测概率与实际概率的比值、最优校准截距和校准斜率；

8.一种肺癌筛查装置，其特征在于，包括权利要求1-7任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行实现如权利要求1-7任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行实现如权利要求1-7任一项中所述的肺癌筛查模型的构建装置所构建的肺癌筛查模型。