CN117672522A

CN117672522A - 一种基于机器学习模型的骨肉瘤生存预测方法

Info

Publication number: CN117672522A
Application number: CN202311693891.9A
Authority: CN
Inventors: 尹成亮; 何昆仑; 乌日力格; 孙晓春; 陈媛媛; 王万玲; 许嘉宇
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-08

Abstract

本发明涉及一种基于机器学习模型的骨肉瘤生存预测方法，其方法包括：基于SEER数据库得到数据基线资料；从基线资料中运用多种方法筛选出初筛变量作为可选因子组合；基于可选因子组合来构建多种机器学习组合预测模型，并根据平均C‑index值确定最优预测模型；根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入risk score结合最优变量组合临床指标进行包含KM生存曲线、单因素Cox、多因素Cox和建立列线图预测几年生存率的生存分析。本发明解决了现有的临床特征难以评估骨肉瘤患者的真实情况的问题，能给骨肉瘤患者提供合适的高精度的能够纳入多种预后相关的变化因素的预测模型。

Description

一种基于机器学习模型的骨肉瘤生存预测方法

技术领域

本发明涉及预后预测技术领域，尤其涉及一种基于机器学习模型的骨肉瘤生存预测方法。

背景技术

骨肉瘤(osteosarcoma)是一种最常见高度恶性的原发性恶性骨肿瘤，约占恶性肿瘤的35％(Jawad et al.,2011)。主要起源于起源于间充质来源的原始转化细胞(Mirabello et al.,2009)，好发于长骨的干骺端，最好发于膝关节周围，其特征是产生高度恶性的梭形基质细胞。手术切除加术前术后化疗是目前该病的标准化治疗(Messerschmitt,et al.,2011)。有无转移已成为影响骨肉瘤患者预后的重要因素。

目前，最常使用的骨肉瘤分期系统包括美国癌症联合委员会(AJCC)分期(Chou etal.,2008)和Enneking分期(Greene et al.,2017)。这两种分期系统都是根据最初的临床特征，如肿瘤大小、病理分级和转移情况，对骨肉瘤的临床风险进行评估。然而，它们仅能提供对患者疾病风险的粗略估计。由于骨肉瘤的发病机制、生长速度、侵袭性以及对治疗的反应等因素的不同，每个患者的病情都是独特的(Marinaet et al.,2004；Messerschmitt etal.,2009；Meyers et al.,2005；Bacci et al.,2003；Edwards et al.,2008)。因此，单纯依靠这些早期的临床特征进行评估，往往不能全面反映出骨肉瘤患者的真实情况。同时，现在的任意一种预测模型或评估工具难以衡量多种类型的数据，针对特定的数据对象难以筛选到合适的模型进行分析预测，再者现有的预测模型或评估工具也无法考虑到预后过程中的疾病可能发生的变化，如新出现的转移灶、治疗反应等。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种基于机器学习模型的骨肉瘤生存预测方法，其解决了现有的临床特征难以评估骨肉瘤患者的真实情况，以及难以针对骨肉瘤患者提供一个合适的高精度的能够纳入多种预后相关的变化因素的预测模型的技术问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种基于机器学习模型的骨肉瘤生存预测方法，包括：

对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料；

通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量；

将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合；

基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型；

根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析；

其中，最优变量组合中的变量均为与预后相关的独立的变量，包括作为保护因素的手术变量和作为危险变量的年龄、肿瘤分级、肿瘤大小、M分期和肺转移变量。

可选地，对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料包括：

按照设定的入选标准调取SEER数据库中的骨肉瘤患者的资料数据，并针对失访或空缺的患者数据进行删除；

按照cut-off值将骨肉瘤患者的资料数据中的表征骨肉瘤大小的连续变量划分为若干组分类变量；

根据经删除处理的骨肉瘤患者的资料数据和表征骨肉瘤大小的连续变量划分的若干组分类变量，得到包含多个变量的数据基线资料。

可选地，通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量包括：

在单因素Cox回归分析中，以p<0.05为标准筛选了17个变量为：年龄、婚姻状态、肿瘤大小、原发位点、偏侧化、肿瘤分期与分级、肿瘤分组、T分期、N分期、M分期、手术、化疗、放疗、骨转移、脑转移、肝转移和肺转移；

在全子集回归分析中，以最优子集回归模型评价标准筛选了7个变量为：年龄、原发位点、肿瘤分级、肿瘤大小、M分期、手术和肺转移；其中，最优子集回归模型评价标准包括调整R²最大值、马娄斯CP最小值以及贝叶斯信息准则最小值；

在LASSO回归和交叉验证中，以当均方误差最小时对应的调优系数λ值筛选出7个变量为：婚姻状态、原发位点、肿瘤分级、肿瘤分期、手术、放疗和肺转移。

可选地，将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合包括：

将单因素Cox回归分析、全子集回归分析分析以及LASSO回归和交叉验证之中所得到的至少一组初筛变量分别输入至多因素Cox模型；

通过多因素Cox模型对每一组初筛变量进行多因素cox回归分析之后，以AUC值最大且AIC值最小为标准确定其中一组初筛变量作为可选因子组合；

其中，可选因子组合采用全子集回归分析所得到的一组变量为：年龄、原发位点、肿瘤分级、肿瘤大小、M分期、手术和肺转移。

可选地，基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型包括：

基于可选因子组合和百种以上的机器学习模型来构建百种以上的机器学习组合预测模型；

将多个变量的数据基线资料随机划分出包含患者实例数量相同的若干个子样本；

对于每一预测模型来说，选择任意一个子样本作为验证集，选择确定为验证集之外的其他子样本作为训练集，重复多次验证集和训练集的选择过程，得到包含与子样本数量相同的训练集和验证集的中间训练模型；

基于中间训练模型训练并测试每一预测模型，并通过比较百种以上中的每一预测模型的平均C-index值，确定LASSO+随机生存森林模型为最优预测模型。

可选地，根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析包括：

利用LASSO+随机生存森林模型的LASSO部分对可选因子组合进行十折交叉验证，找到交叉验证下的最优参数lambda.min，在得到最优参数之后，使用训练集训练lasso回归模型，得到lasso回归模型的变量及系数，将系数为0的变量剔除，得到包含6个与预后相关的处于独立因素的变量的最优变量组合；

利用LASSO+随机生存森林模型的随机生存森林部分中对从LASSO部分中选择的最优变量组合中的6个变量进行排列组合，得到2⁶-1＝63个预测模型，对63个模型进行评价，根据绘制出的ROC曲线上的AUC值和最优变量组合之中的各个变量的重要性排序确定年龄和肺转移作为优先分析对象；

引入一个新的Signature的风险评估项risk score，根据风险评估项risk score对作为优先分析对象的年龄和肺转移变量构建风险项模型；

对风险评估项risk score以及最优变量组合之中的除年龄和肺转移变量之外的原发位点、肿瘤分级、肿瘤大小和手术进行单因素Cox分析和/或多因素Cox分析，得到单因素Cox分析结果或多因素Cox分析结果；

对风险评估项risk score、原发位点、肿瘤分级、肿瘤大小和手进行术Kaplan-Meier生存曲线的绘制并进行log-rank检验；

对单因素Cox分析结果或多因素Cox分析结果进行量化和视觉化，得到列线图以实现N年期生存率预测分析；

根据Kaplan-Meier生存曲线、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析结果输出生存分析报告；

其中，

风险项模型为：

Risk score(Signature)＝0.0245156974684657·Age+1.19326626353926·lungmetastas，Age为年龄，lung metastas为肺转移。

可选地，根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析之后，还包括：

依据列线图的信息和患者信息，借助于相应的三维仿真组件构建患者的骨肉瘤涉及部分的三维可视化病情进展模型，以供医患查看；

其中，患者信息包括个人年龄、性别、体型、既往病史以及患处医学检测图像。

第二方面，本发明实施例提供一种基于机器学习模型的骨肉瘤生存预测系统，包括：

基线资料提供模块，用于对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料；

初筛变量输出模块，用于通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量；

可选因子输出模块，用于将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合；

最优模型确定模块，用于基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型；

生存预测评价模块，用于根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含KM生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析；

第三方面，本发明实施例提供一种基于机器学习模型的骨肉瘤生存预测设备，包括：

服务器；

与所述服务器通信连接数据库；以及，

与所述数据库通信连接的存储器；

其中，服务器部署有百种以上的机器学习模型，所述存储器存储有可被所述至少一个数据库执行的指令，所述指令被所述至少一个数据库执行，以使所述至少一个数据库能够执行如上所述的基于机器学习模型的骨肉瘤生存预测方法。

第四方面，本发明实施例提供一种计算机可读介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上所述的基于机器学习模型的骨肉瘤生存预测方法。

(三)有益效果

本发明的有益效果是：本发明从SEER数据库中骨肉瘤患者的资料出发，通过多次筛选得到影响骨肉瘤患者整体生存期的最优因子组合，解决了现有的临床特征难以评估骨肉瘤患者的真实情况的问题，进而基于最优因子组合确定最优预测模型，为骨肉瘤患者提供了一个合适的高精度的能够纳入多种预后相关的变化因素的预测能力最强的模型，因此，本发明为制定出更精细化的治疗策略，提高患者的生存率和生活质量打下了坚实了基础，具有临床实用价值。

附图说明

图1为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的具体流程示意图；

图2为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的步骤S1的具体流程示意图；

图3为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的步骤S2的具体流程示意图；

图4为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的单因素Cox回归分析所得的森林图；

图5为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的全子集回归中以调整R²为标准确定变量的组合示意图；

图6中的A、B分别为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的LASSO系数曲线、LASSO模型中调整参数选择的交叉验证示意图；

图7为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的步骤S3的具体流程示意图；

图8为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的步骤S4的具体流程示意图；

图9为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的117种机器学习模型的C-index值；

图10为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的步骤S5的具体流程示意图；

图11为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的单变量Cox森林示意图；

图12为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的训练集的多因素Cox森林示意图；

图13为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的验证集的多因素Cox森林示意图；

图14为本发明实施例提供的一种基于机器学习模型的骨肉瘤生存预测方法的训练集Kaplan-Meier生存曲线。

具体实施方式

为了更好地解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

如图1所示，本发明实施例提出的一种基于机器学习模型的骨肉瘤生存预测方法，包括：对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料；通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量；将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合；基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型；根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析；其中，最优变量组合中的变量均为与预后相关的独立的变量，包括作为保护因素的手术变量和作为危险变量的年龄、肿瘤分级、肿瘤大小、M分期和肺转移变量。

本发明从SEER数据库中骨肉瘤患者的资料出发，通过多次筛选得到影响骨肉瘤患者整体生存期的最优因子组合，解决了现有的临床特征难以评估骨肉瘤患者的真实情况的问题，进而基于最优因子组合确定最优预测模型，为骨肉瘤患者提供了一个合适的高精度的能够纳入多种预后相关的变化因素的预测能力最强的模型，因此，本发明为制定出更精细化的治疗策略，提高患者的生存率和生活质量打下了坚实了基础，具有临床实用价值。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

具体地，本发明提供一种基于机器学习模型的骨肉瘤生存预测方法，其特征在于，包括：

S1、对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料。

进一步地，如图2所示，步骤S1包括：

S11、按照设定的入选标准调取SEER数据库中的骨肉瘤患者的资料数据，并针对失访或空缺的患者数据进行删除，以使后续构建的模型更加精准。

SEER数据库是美国一个权威的癌症统计数据库，它可以为临床研究提供依据。目前，虽然已经有相关基于SEER数据库的关于骨肉瘤的研究，但是其都存在预测生存率方面能力不高(AUC基本上都低于0.8)。这直接影响到对患者预后的判断；这些模型都没有没有进行外部资料验证缺陷。外部验证是一个非常重要的步骤，它能帮助了解模型在不同的资料集或人群中的预测性能，从而检验模型的稳健性和泛化能力。缺乏外部验证，可能会限制这些预测模型的实用价值，使它们在实际临床工作中的应用受到挑战。同时本发明收集来自中国4个不同地区医疗中心的骨肉瘤患者资料，作为验证集对预测模型进行外部验证，增加模型的可信度。

在具体实施例中，本发明为回顾性队列研究，纳入SEER数据库纳入2010-2018年共895名骨肉瘤患者。按照7：3的比例，训练集627人，验证集样本量268。

因此，SEER资料纳入标准为：(1)原发性恶性肿瘤的骨肉瘤(Primary Site-labeled)，国际肿瘤疾病分类ICD-O编码标准提取记录内容为9180、9181、9182、9183、9184、9185、9186、9187、9192、9193、9194或9200。(2)2010年后的SEER数据库纳入了转移部位的相关信息，因此纳入2010年至2018年期间诊断的患者。(3)确保骨肉瘤是第一且唯一的原发性恶性肿瘤(First malignant primary indicator),提取记录内容为YES。(4)经过影像学或病理检查证实肿瘤伴随肺转移、骨转移、脑转移和肝转移。(5)完整的临床信息，包括诊断时的年龄、性别、婚姻状态、种族、原发部位、肿瘤大小、肿瘤分期与分级、转移部位、手术以及是否进行了放疗和化疗；(6)有完整的随访信息；(7)已知死因和诊断后的生存时间。

SEER资料排除标准：(1)不完整的临床病理和生存信息；(2)未知的肿瘤大小、分期和种族；(3)失访数据。(4)空缺的数据。

由此，依据上述步骤获取的数据，对因变量：生存状态、生存时间。数据中缺失的数据进行补全，对于生存时间为0的数据含义是在1个月内发生死亡的患者，在医学上也具有研究意义，因此保留。

S12、按照cut-off值将骨肉瘤患者的资料数据中的表征骨肉瘤大小的连续变量划分为若干组分类变量。

肿瘤大小通常用体积或直径表示，肿瘤大小最佳划分为以下三组：小于等于38mm，38-160mm，大于160mm。因此，肿瘤大小的连续变量被转化为"≤38、38-160、>160"分类变量。其他肿瘤大小编码为"999"的患者被分配到"无法评估"。因此，将连续变量的tumor size，转化为“≤38，38-160，＞160，Unable to evaluate”四组的分类变量。

S13、根据经删除处理的骨肉瘤患者的资料数据和表征骨肉瘤大小的连续变量划分的若干组分类变量，得到包含多个变量的数据基线资料。

最终得到包含多个变量的数据基线资料为：

表1 2010-2019骨肉瘤患者训练组和验证组的基线资料表

表1显示了SEER数据库骨肉瘤患者的人口统计学、临床病理学与治疗资料指标特征情况。在训练集和验证集相比，所有临床指标都没有明显统计学差异，训练集和验证集在临床指标方面具有相似性，这表明分组是合理的。

S2、通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量。

进一步地，如图3所示，步骤S2包括：

S22、参考图4，在单因素Cox回归分析中，以p<0.05为标准筛选了17个变量为：年龄、婚姻状态、肿瘤大小、原发位点、偏侧化、肿瘤分期与分级、肿瘤分组、T分期、N分期、M分期、手术、化疗、放疗、骨转移、脑转移、肝转移和肺转移。

S23、参考图5，在全子集回归分析中，以最优子集回归模型评价标准筛选了7个变量为：年龄、原发位点、肿瘤分级、肿瘤大小、M分期、手术和肺转移；其中，最优子集回归模型评价标准包括调整R²最大值、马娄斯CP最小值以及贝叶斯信息准则最小值。

S24、在LASSO回归和交叉验证中，以当均方误差最小时对应的调优系数λ值筛选出7个变量为：婚姻状态、原发位点、肿瘤分级、肿瘤分期、手术、放疗和肺转移。

LASSO为寻找最佳的模型，引入变量λ(lambda，又叫收缩操作数、模型系数比、调优系数或惩罚值)。如图6所示：随着λ增加，各变量的回归系数β在减小，有些会变为0，说明该变量在此时对模型贡献微乎其微，可以剔除。如图6A中，一条线代表一个变量的回归系数β值的变化，x轴下方的数字为惩罚值(调优系数)，x轴上方为在该值下的剩余的变量个数。LASSO回归就是通过生成一个惩罚函数对回归模型中的变量回归系数进行压缩，达到防止过度拟合，解决严重共线性的问题。所以，λ值确定决定了哪些变量可以使模型最优，使用交叉验证可寻找最佳λ值。当均方误差(MSE)最小时所对应的λ值决定纳入模型的变量，MSE的值越小，说明预测模型具有更好的精确度。

图6B显示了偏似然偏差随Log(λ)变化曲线，图6B给出了两个惩罚值(调优系数)λ：一个是当MSE(均方误差)最小时的λ值，即lambda.min；另一个是在lambda.min值的一个方差范围内得到的最简单模型的λ值，该值给出的是一个具备优良性能且自变量个数最少的模型，因此一般选择该值。最终LASSO回归筛选出6个变量：婚姻状态、原发位点、肿瘤分级、肿瘤分期、手术、放疗和肺转移。

S3、将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合。

进一步地，如图7所示，步骤S3包括：

S31、将单因素Cox回归分析、全子集回归分析分析以及LASSO回归和交叉验证之中所得到的至少一组初筛变量分别输入至多因素Cox模型。

S32、通过多因素Cox模型对每一组初筛变量进行多因素Cox回归分析之后，以AUC值最大且AIC值最小为标准确定其中一组初筛变量作为可选因子组合。其中，可选因子组合采用全子集回归分析所得到的一组变量为：年龄、肿瘤分级、肿瘤大小、M分期、手术和肺转移。

将上述三种方法所筛选的初筛变量分别纳入多因素Cox模型，以最小AIC值确定三种方法的最终模型。最后刻画出三个模型在1年、3年和5年整体生存期的ROC曲线评估三种模型性能，以AUC值评估最佳模型。三个模型AIC分别为：单因素Cox为2733.897，最优子集回归为2688.516，Lasso为2720.877。经比较，无论训练集还是验证集使用BSR筛选的变量所构建的模型更加优秀，其AUC值最大且AIC值最小。因此，最终选择最优子集回7个变量(年龄、原发位点、肿瘤分级、肿瘤大小、M分期、手术和肺转移)来构建预测模型。

S4、基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型。

进一步地，如图8所示，步骤S4包括：

S41、基于可选因子组合和百种以上的机器学习模型来构建百种以上的机器学习组合预测模型。具体为117种机器学习模型。

S42、将多个变量的数据基线资料随机划分出包含患者实例数量相同的若干个子样本。

S43、对于每一预测模型来说，选择任意一个子样本作为验证集，选择确定为验证集之外的其他子样本作为训练集，重复多次验证集和训练集的选择过程，得到包含与子样本数量相同的训练集和验证集的中间训练模型。

S44、基于中间训练模型训练并测试每一预测模型，并通过比较百种以上中的每一预测模型的平均C-index值，确定LASSO+随机生存森林模型为最优预测模型。

为比较117种不同的机器学习模型及其组合在预测预后方面的表现，计算每个模型的平均C-index值，图9发现LASSO+随机生存森林(RSF)C-index值，无论训练集(C-index，0.877)，验证集(C-index，0.795)和训练集和验证集的平均值(C-index，0.836)都是最高。后续将根据最优预测模型进行变量筛选和重要性打分，制定risk score作为一个重要的新的Signature对骨肉瘤预后评价。

S5、根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析。

进一步地，如图10所示，步骤S5包括：

S51、利用LASSO+随机生存森林模型的LASSO部分对可选因子组合进行十折交叉验证，找到交叉验证下的最优参数lambda.min，在得到最优参数之后，使用训练集训练lasso回归模型，得到lasso回归模型的变量及系数，将系数为0的变量剔除，得到包含6个与预后相关的处于独立因素的变量的最优变量组合。

S52、利用LASSO+随机生存森林模型的随机生存森林部分中对从LASSO部分中选择的最优变量组合中的6个变量进行排列组合，得到2⁶-1＝63个预测模型，对63个模型进行评价，根据绘制出的ROC曲线上的AUC值和最优变量组合之中的各个变量的重要性排序确定年龄和肺转移作为优先分析对象。

S53、引入一个新的Signature的风险评估项risk score，根据风险评估项riskscore对作为优先分析对象的年龄和肺转移变量构建风险项模型。

然后对6个变量进行随机生存森林，然后根据AUC选择最优变量数，当变量数是2的时候AUC接近比较大，此时对应的变量是年龄和肺转移，建立风险项模型为：

Risk score(Signature)＝0.0245156974684657·Age+1.19326626353926·lungmetastas。

这个风险项模型的指标就可以说预测病人生存的风险值，这个值越高，风险值大。虽然它本身独立可以预测，但是临床上往往希望得到1，3，5年的生存率，同时结合其它指标预测才能准确性更高。所以进一步建立列线图可以预测1，3，5年的生存率。

S54、对风险评估项risk score以及最优变量组合之中的除年龄和肺转移变量之外的原发位点、肿瘤分级、肿瘤大小和手术进行单因素Cox分析和/或多因素Cox分析，得到单因素Cox分析结果或多因素Cox分析结果。

S55、对风险评估项risk score、原发位点、肿瘤分级、肿瘤大小和手进行术Kaplan-Meier生存曲线的绘制并进行log-rank检验。

S56、对单因素Cox分析结果或多因素Cox分析结果进行量化和视觉化，得到列线图以实现N年期生存率预测分析。

S57、根据Kaplan-Meier生存曲线、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析结果输出生存分析报告。

将signatur进行单因素Cox分析，发现其HR＞1(HR＝3.06(2.59-3.61))。Signature和原发位点、肿瘤分级、肿瘤大小和手术的单因素Cox见表2和图11。同时对这些指标进行训练集多因素Cox分析，并绘制训练集多因素Cox森林图(图12)。对其中的变量绘制Kaplan-Meier生存曲线并进行log-rank检验(图14，其中A sig高低分组。B肿瘤大小：≤38。C肿瘤大小:38-160。D肿瘤大小:＞160。E肿瘤大小:Unable to evaluate。F原发部位上肢。G原发部位:下肢。H原发部位:脊柱，下颌等。I肿瘤分级:高度分化。J肿瘤分级:中度分化。K肿瘤分级:低度分化。L肿瘤分级:未分化。M肿瘤分级:未知。N手术：是。O手术：否)。同时，对SEER资料进行log-rank检验，鉴定两组患者生存率是否有差距。多因素Cox森林图(图12)结果显示，5个参数均为影响骨肉瘤患者整体生存率的独立风险因素，并且可以清晰的分别保护因素(手术)与危险因素(signature、原发位点、肿瘤分级和肿瘤大小)，尤其signature是一个骨肉瘤患者整体生存率的独立风险因素。进行log-rank检验结果显示，5个分类变量P值均小于0.05，有统计学差异，验证集结果也一致(表4和图13)。两组资料的P>0.05，无统计学差异。因此认为训练集与验证集患者生存率无明显区别。

KM曲线训练集，除了肿瘤大小≤38、Grade I期没意义，其余都有意义。验证集，肿瘤大小≤38、Grade I期、原发位点1、Grade I期没意义，其余都有意义，整体上一致。

表2单变量Cox

表3训练集多因素Cox

表4验证集多因素Cox

进一步地，在步骤S5之后，还包括：依据列线图的信息和患者信息，借助于相应的三维仿真组件构建患者的骨肉瘤涉及部分的三维可视化病情进展模型，以供医患查看；其中，患者信息包括个人年龄、性别、体型、既往病史以及患处医学检测图像。

列线图Nomogram是可以对Cox回归结果进行量化和视觉化的方法，是一种常见的预测模型表现形式。Nomogram是将回归系数标准化，然后以数轴上以风险分数显示。目前常见使用Nomogram的方法有两种：1)每个变量单独列出，将各亚变量量化为特定分数(points)。然后，将所有变量的累积得分与结果量表进行匹配获得预测概率。

此外，本发明实施例还提供一种基于机器学习模型的骨肉瘤生存预测系统，包括：

基线资料提供模块，用于对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料。

初筛变量输出模块，用于通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量。

可选因子输出模块，用于将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合。

最优模型确定模块，用于基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型。

生存预测评价模块，用于根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含KM生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析。

以及，本发明实施例还提供一种基于机器学习模型的骨肉瘤生存预测设备，包括：服务器；与所述服务器通信连接数据库；以及，与所述数据库通信连接的存储器；其中，服务器部署有百种以上的机器学习模型，存储器存储有可被至少一个数据库执行的指令，指令被所述至少一个数据库执行，以使至少一个数据库能够执行如上所述的基于机器学习模型的骨肉瘤生存预测方法。

再者，本发明实施例还提供一种计算机可读介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上所述的基于机器学习模型的骨肉瘤生存预测方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

应当注意的是，位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种基于机器学习模型的骨肉瘤生存预测方法，其特征在于，包括：

2.如权利要求1所述的基于机器学习模型的骨肉瘤生存预测方法，其特征在于，对获取的SEER数据库中的骨肉瘤患者的资料数据进行数据筛选、数据填补以及连续变量离散，得到包含多个变量的数据基线资料包括：

3.如权利要求1所述的基于机器学习模型的骨肉瘤生存预测方法，其特征在于，通过单因素Cox回归分析、全子集回归分析和LASSO回归与交叉验证分析之中至少一种方式从数据基线资料中筛选出至少一组初筛变量包括：

4.如权利要求1所述的基于机器学习模型的骨肉瘤生存预测方法，其特征在于，将至少一组初筛变量输入多因素Cox模型进行再次筛选，以最小AIC值确定其中一组初筛变量作为可选因子组合包括：

5.如权利要求1所述的基于机器学习模型的骨肉瘤生存预测方法，其特征在于，基于可选因子组合来构建多种机器学习组合预测模型，并根据计算得到的每个预测模型的平均C-index值确定最优预测模型包括：

6.如权利要求5所述的基于机器学习模型的骨肉瘤生存预测方法，其特征在于，根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析包括：

其中，

风险项模型为：

7.如权利要求1-6任一项所述的基于机器学习模型的骨肉瘤生存预测方法，其特征在于，根据最优预测模型对可选因子组合进行变量筛选和重要性评价，得到最优变量组合，引入一个作为新的Signature的风险评估项risk score对最优变量组合中的变量组合进行包含Kaplan-Meier生存曲线分析、单因素Cox分析、多因素Cox分析和建立列线图N年期生存率预测分析的生存分析之后，还包括：

8.一种基于机器学习模型的骨肉瘤生存预测系统，其特征在于，包括：

9.一种基于机器学习模型的骨肉瘤生存预测设备，其特征在于，包括：

服务器；

与所述服务器通信连接数据库；以及，

与所述数据库通信连接的存储器；

其中，服务器部署有百种以上的机器学习模型，所述存储器存储有可被所述至少一个数据库执行的指令，所述指令被所述至少一个数据库执行，以使所述至少一个数据库能够执行如权利要求1-7任一项所述的基于机器学习模型的骨肉瘤生存预测方法。

10.一种计算机可读介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的基于机器学习模型的骨肉瘤生存预测方法。