CN117116493A

CN117116493A - 一种基于cox回归模型的风险预测方法及系统

Info

Publication number: CN117116493A
Application number: CN202310892714.7A
Authority: CN
Inventors: 吴建艮; 茆晨雪; 马志胜; 王倩倩; 黄雅菊; 邹洁
Original assignee: Chongqing Kingmed Diagnostics Co ltd
Current assignee: Chongqing Kingmed Diagnostics Co ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-24

Abstract

本发明提供一种基于cox回归模型的风险预测方法及系统，运用于风险预测技术领域；本发明通过利用患者临床数据，采用逐步回归地Cox单因素和多因素分析，构建了肢体横纹肌肉瘤的风险预测模型，不仅可以预测相关的独立风险因素，而且绘制了预测Nomogram图，有助于方便临床医师识别高危患者，并制定更好的个体化治疗决策。

Description

一种基于cox回归模型的风险预测方法及系统

技术领域

本发明涉及风险预测技术领域，特别涉及为基于cox回归模型的风险预测方法及系统。

背景技术

横纹肌肉瘤是起源于横纹肌细胞或向横纹肌细胞分化的间叶细胞的一种恶性肿瘤，是儿童软组织肉瘤中最常见的一种。横纹肌肉瘤发病率次于恶性纤维组织细胞瘤和脂肪肉瘤，居软组织肉瘤的第三位，发病率男性多于女性。胚胎型横纹肌肉瘤，多发于8岁前儿童(平均年龄为6岁)；腺泡型横纹肌肉瘤见于青春期男性(平均年龄为12岁)；多型性横纹肌肉瘤常见于成人，也可见于儿童。横纹肌肉瘤几乎可以发生在身体的任何解剖部位，但通常发生在头部和颈部(28％-40％)、泌尿生殖系统(25％)和四肢(19％-20％)。目前，横纹肌肉瘤的主要治疗方法包括手术切除、化疗和放疗，即使采用多模式治疗，转移患者的预后仍然较差故确定预后因素可能有助于优化治疗计划。研究表明，泌尿生殖系统和头颈部横纹肌肉瘤受几个预后因素的影响，大多数转移性横纹肌肉瘤患者在首次出现时都有转移性病变。此外，诊断年龄和原发肿瘤位置是横纹肌肉瘤的关键独立预测因素。肢体横纹肌肉瘤是一种罕见的恶性肿瘤且预后比其他部位的横纹肌肉瘤差，肢体横纹肌肉瘤预后因素和临床诊断模型由于其罕见性而鲜为人知。

关于肢体横纹肌肉瘤，到目前为止，大多数研究方法仅调查了独立的危险因素，并没有建立真实的模型来预测肢体横纹肌肉瘤的风险，近年来，Nomogram图因其方便、精确而被广泛应用于癌症患者的预后评估。

发明内容

本发明旨在解决医师无法根据肢体横纹肌肉瘤患者术后风险预测列线图模型将患者分类为高危患者或低危患者的问题，提供基于cox回归模型的风险预测方法及系统。

本发明为解决技术问题采用如下技术手段：

一种基于cox回归模型的风险预测方法，其特征在于，包括以下步骤：

采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集，其中，所述临床数据包括但不限于是患者性别、患者年龄、患者种族、诊断年龄、手术部位、组织分类；

将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到cox回归模型，将所述验证集输入至所述cox回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证，基于所述cox回归模型生成至少一个与所述临床数据相关的HR值，其中，所述cox回归模型的生成数量具体基于所述临床数据的数量对应变化，所述HR值具体为风险比，所述风险比表示一个临床数据变量与事件风险之间的比例关系；

判断所述HR值是否等于预设风险值；

若否，则在所述HR值大于所述预设风险值时，通过所述cox回归模型预测的临床数据与较高的风险相关联，而在所述HR值小于所述预设风险值时，通过所述cox回归模型预测的临床数据与较低的风险相关联，基于各个HR值进行绘制即可得到Nomogram图，其中，所述Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线。

进一步地，所述基于各个HR值进行绘制即可得到Nomogram图的步骤后，包括：

应用所述cox回归模型预测得到的所述高风险关联组和所述低风险关联组分别作为预设ROC曲线的假阳性率FPR和真阳性率TPR，将所述假阳性率FPR作为所述ROC曲线的坐标系横轴，并将所述真阳性率TPR作为所述ROC曲线的坐标系纵轴；

在所述ROC曲线的坐标系上将各个代表所述假阳性率FPR和所述真阳性率TPR的点进行相连接以生成完整ROC曲线，采用梯形法则对所述完整ROC曲线进行AUC值计算，基于计算得到的AUC值与预设取值范围进行差异性比对，其中，所述预设取值范围具体限定为0.5-1之间；

当所述AUC值处于1以下时，则所述AUC值与1相距越大相应地Nomogram图的预测可靠性越低；

当所述AUC值处于1时，相应地Nomogram图的预测可靠性最佳。

进一步地，所述将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到cox回归模型，将所述验证集输入至所述cox回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证的步骤中，包括：

基于预收录肢体横纹肌肉瘤的相关变量，从所述临床数据中选取对应的第一变量作为训练集，其中，所述第一变量具体包括分期、肿瘤大小、淋巴结转移、年龄；

根据患者肢体横纹肌肉瘤的术后信息，从所述临床数据中选取对应的第二变量作为验证集，其中，所述第二变量具体包括染色体异常、分子标志物和治疗方案；

将所述第一变量和所述第二变量的取值比例控制为7∶3，以所述取值比例构建基于肢体横纹肌肉瘤的风险概率预测模型。

进一步地，所述采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集的步骤中，包括：

将所述临床数据进行随机化处理，打乱所述临床数据的排列顺序，生成所述临床数据的随机排列样本；

判断所述随机排列样本中的样本类别是否平衡；

若否，则对所述样本类别应用stratify参数进行分层划分，确保在划分训练集和验证集时，各个类别的样本比例相对平衡。

进一步地，所述基于各个HR值进行绘制即可得到Nomogram图的步骤中，还包括：

将术后患者的个体化数据输入至Nomogram模型，根据模型计算出每个特征变量对应的至少一项得分，将各项得分相加得到术后患者的总分，基于所述总分可以反映患者的风险水平；

判断所述风险水平是否大于预设风险阈值；

若是，则根据所述风险水平高出的具体值，制定对应的个体化治疗决策，其中，所述个体化治疗决策包括但不限于是调整药物剂量、选择更强效的治疗方案、增加随访频率、提供更积极的支持和管理。

进一步地，所述基于所述cox回归模型生成至少一个与所述临床数据相关的HR值的步骤后，还包括：

根据术后患者的预测概率和观察时间计算风险分数，为所述术后患者提供一个预测的风险分数；

将所述风险分数与观察时间和事件数据进行合并，以便能够对术后患者的风险分数进行分组和绘图，并使用R语言进行数据整理和操作，根据风险分数将术后患者分组为不同的列应用所述R语言的cut()函数或quanti;e()函数来限定术后患者分组的边界，获取术后患者分组的各个统计指标，其中，所述统计指标具体包括平均风险分数和生存率；

对于各个术后患者分组使用所述R语言中的绘图库进行列线图绘制，其中，所述绘制过程具体是将所述术后患者分组的风险分数作为横轴，所述统计指标作为纵轴。

本发明还提供一种基于cox回归模型的风险预测系统，其特征在于，包括：

采集模块，用于采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集，其中，所述临床数据包括但不限于是患者性别、患者年龄、患者种族、诊断年龄、手术部位、组织分类；

生成模块，用于将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到cox回归模型，将所述验证集输入至所述cox回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证，基于所述cox回归模型生成至少一个与所述临床数据相关的HR值，其中，所述cox回归模型的生成数量具体基于所述临床数据的数量对应变化，所述HR值具体为风险比，所述风险比表示一个临床数据变量与事件风险之间的比例关系；

判断模块，用于判断所述HR值是否等于预设风险值；

执行模块，用于在所述HR值大于所述预设风险值时，通过所述cox回归模型预测的临床数据与较高的风险相关联，而在所述HR值小于所述预设风险值时，通过所述cox回归模型预测的临床数据与较低的风险相关联，基于各个HR值进行绘制即可得到Nomogram图，其中，所述Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线

进一步地，还包括：

应用模块，用于应用所述cox回归模型预测得到的所述高风险关联组和所述低风险关联组分别作为预设ROC曲线的假阳性率FPR和真阳性率TPR，将所述假阳性率FPR作为所述ROC曲线的坐标系横轴，并将所述真阳性率TPR作为所述ROC曲线的坐标系纵轴；

计算模块，用于在所述ROC曲线的坐标系上将各个代表所述假阳性率FPR和所述真阳性率TPR的点进行相连接以生成完整ROC曲线，采用梯形法则对所述完整ROC曲线进行AUC值计算，基于计算得到的AUC值与预设取值范围进行差异性比对，其中，所述预设取值范围具体限定为0.5-1之间；

比对模块，用于当所述AUC值处于1以下时，则所述AUC值与1相距越大相应地Nomogram图的预测可靠性越低；

第二比对模块，用于当所述AUC值处于1时，相应地Nomogram图的预测可靠性最佳。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的一种基于cox回归模型的风险预测方法的步骤。

本发明还提供一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的一种基于cox回归模型的风险预测方法的步骤。

本发明提供了一种基于cox回归模型的风险预测方法及系统，具有以下有益效果：

本发明通过应用患者临床数据，采用逐步回归地Cox单因素和多因素分析，构建了肢体横纹肌肉瘤的风险预测模型，不仅可以预测相关的独立风险因素，而且绘制了预测Nomogram图，有助于便临床医师识别高危患者，并制定更好的个体化治疗决策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本发明一种基于cox回归模型的风险预测方法一个实施例的流程示意图；

图2为本发明一种基于cox回归模型的风险预测系统一个实施例的结构框图；

图3为本发明一种基于cox回归模型的风险预测的计算机设备内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考附图1，为本发明一实施例中的基于cox回归模型的风险预测方法，包括：

S1：采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集，其中，所述临床数据包括但不限于是患者性别、患者年龄、患者种族、诊断年龄、手术部位、组织分类；

S2：将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到cox回归模型，将所述验证集输入至所述cox回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证，基于所述cox回归模型生成至少一个与所述临床数据相关的HR值，其中，所述cox回归模型的生成数量具体基于所述临床数据的数量对应变化，所述HR值具体为风险比，所述风险比表示一个临床数据变量与事件风险之间的比例关系；

S3：判断所述HR值是否等于预设风险值；

S4：若否，则在所述HR值大于所述预设风险值时，通过所述cox回归模型预测的临床数据与较高的风险相关联，而在所述HR值小于所述预设风险值时，通过所述cox回归模型预测的临床数据与较低的风险相关联，基于各个HR值进行绘制即可得到Nomogram图，其中，所述Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线。在本实施例中，系统通过采集患者在进行肢体横纹肌肉瘤手术后的临床数据，同时将这些临床数据根据预先设好的比例7：3分类为模型的训练集数据和验证集数据，临床数据包括但不限于是患者的性别信息、患者的年龄信息、患者的种族信息、患者的诊断年龄、患者的手术部位和患者的皮肤组织分类；而后系统将训练集数据输入至预先设有的初始空白回归模型中，作为初始空白回归模型的训练样本对其进行训练，以拟合得到cox回归模型，同时将验证集数据输入至cox回归模型中进行数据验证，通过cox回归模型生成至少一个与临床数据相关的HR值，即关于患者临床时的风险比，便于医师对患者的临床数据进行观察以得知何种临床数据对患者存在风险，以通过cox回归模型提前预测风险发生并为患者的治疗提供参考；系统通过判断该HR值是否等于预先设有的风险值，以执行对应的步骤；例如，当HR值等于预先设有的风险值时，即系统会判定术后患者的临床数据中某个因素存在风险，但还未达到需要进行治疗的风险程度，只需要保持监视其风险是否持续上升即可；例如，当HR值不等于预先设有的风险值时，即系统会在HR值大于预先设有的风险值时，系统会通过cox回归模型将HR值对应的临床数据与高风险组挂钩，同时系统会在HR值小于预先设有的风险值时，系统会通过cox回归模型将HR值对应的临床数据与低风险组挂钩，系统根据cox回归模型分类的高风险组和低风险组，并基于各个HR值绘制得到Nomogram图，Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线，根据KM生存曲线验证肢体横纹肌肉瘤患者术后风险预测列线图模型的可靠性和有效性。

需要说明的是，训练集输入至初始空白回归模型的训练过程如下：

数据准备：收集和准备用于训练模型的数据；这包括确定输入特征和目标变量，以及清理和处理数据，处理缺失值和异常值等；

特征选择：根据问题的背景和目标，选择用于训练模型的特征；可以使用特征选择方法(如相关性分析、方差分析、递归特征消除等)来选择最相关的特征，以提高模型的性能和解释能力；

定义模型结构：选择适当的回归模型结构，如线性回归、岭回归、Lasso回归等；根据问题的复杂性和数据的特征选择合适的模型；

模型训练：使用训练集进行模型训练；根据选择的模型，应用相应的算法和优化方法来拟合模型参数；训练过程的目标是最小化损失函数，使模型能够在训练集上拟合出最佳的预测结果；

模型评估：使用验证集评估训练的模型性能；计算模型在验证集上的性能指标，如均方误差(MSE)、决定系数(R-squared)、平均绝对误差(MAE)等；这些指标可以衡量模型的拟合能力和预测准确性；

模型调优：根据模型在验证集上的性能，进行模型调优；这可以包括调整模型的超参数、特征工程、正则化等方法，以提高模型的性能；

模型应用：当模型经过调优并达到满意的性能时，可以将其应用于新的数据进行预测和决策在本实施例中，基于各个HR值进行绘制即可得到Nomogram图的步骤S5后，包括：

S401：应用所述cox回归模型预测得到的所述高风险关联组和所述低风险关联组分别作为预设ROC曲线的假阳性率FPR和真阳性率TPR，将所述假阳性率FPR作为所述ROC曲线的坐标系横轴，并将所述真阳性率TPR作为所述ROC曲线的坐标系纵轴；

S402：在所述ROC曲线的坐标系上将各个代表所述假阳性率FPR和所述真阳性率TPR的点进行相连接以生成完整ROC曲线，采用梯形法则对所述完整ROC曲线进行AUC值计算，基于计算得到的AUC值与预设取值范围进行差异性比对，其中，所述预设取值范围具体限定为0.5-1之间；

S403：当所述AUC值处于1以下时，则所述AUC值与1相距越大相应地Nomogram图的预测可靠性越低；

S404：当所述AUC值处于1时，相应地Nomogram图的预测可靠性最佳。

在本实施例中，要绘制AUC曲线和ROC曲线，可以按照以下步骤进行操作：

确保有模型预测的概率以及相应的真实标签(例如，真阳性率和假阳性率)，通过计算真阳性率(TPR)和假阳性率(FPR)，真阳性率是指正确预测为阳性样本的比例，而假阳性率是指错误预测为阳性的比例，将计算得到的TPR和FPR值绘制在坐标系中，以FPR为横轴，TPR为纵轴绘制曲线，在ROC曲线上的每个点代表了使用不同阈值时的TPR和FPR值，连接这些点，即可得到ROC曲线，计算绘制的ROC曲线下的面积(AUC)，可以使用数值积分方法(例如，梯形法则)或使用相关的软件包来计算AUC值，AUC的取值范围在0.5到1之间，其中0.5表示模型性能等于假阳性率最大，而1表示真阳性率最大；通常，在ROC曲线上绘制一条对角线(FPR＝TPR)作为参考线，以衡量模型相对于真阳性率和假阳性率的差异；绘制AUC曲线和ROC曲线的具体实现可以使用编程语言库，例如在Python中，系统可以使用scikit-learn库来计算AUC值并绘制ROC曲线，如下是一个简单的示例代码：

python

from sklearn.metrics import roc_curve，auc

import matplotlib.pyplot as plt

#计算真阳性率和假阳性率

fpr，tpr，thresholds＝roc_curve(true_labels，predicted_probs)

#计算AUC

auc_value＝auc(fpr，tpr)

#绘制ROC曲线

plt.plot(fpr，tpr，label＝′ROC Curve(AUC＝{：.2f})′.format(auc_value))

plt.plot([0，1]，[0，1]，linestyle＝′--′，label＝′Random Guess′)

plt.xlabel(′False Positive Rate′)

plt.ylabel(′True Positive Rate′)

plt.title(′Receiver Operating Characteristic(ROC)Curve′)

plt.legend()

plt.show()

在上述代码中，是真实标签的数组，是模型的预测概率数组，通过调用函数计算出TPR、FPR和阈值，然后使用函数计算AUC值。

在本实施例中，将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到cox回归模型，将所述验证集输入至所述cox回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证的步骤S2中，包括：

S21：基于预收录肢体横纹肌肉瘤的相关变量，从所述临床数据中选取对应的第一变量作为训练集，其中，所述第一变量具体包括分期、肿瘤大小、淋巴结转移、年龄；

S22：根据患者肢体横纹肌肉瘤的术后信息，从所述临床数据中选取对应的第二变量作为验证集，其中，所述第二变量具体包括染色体异常、分子标志物和治疗方案；

S23：将所述第一变量和所述第二变量的取值比例控制为7∶3，以所述取值比例构建基于肢体横纹肌肉瘤的风险概率预测模型。

在本实施例中，系统基于预先收录有的肢体横纹肌肉瘤的相关变量，从患者的临床数据中选取对应的第一变量作为初始空白回归模型的训练集数据，并根据患者做完肢体横纹肌肉瘤的手术后的术后信息，从临床数据中选取对应的第二变量作为初始空白回归模型的验证集数据同时将第一变量和第二变量的取值比例控制在7∶3，以该取值比例构建能够预测肢体横纹肌肉瘤的风险概率的cox回归模型；

需要说明的是，构建过程具体为：

数据准备：收集和准备用于建模的肢体横纹肌肉瘤患者的临床数据；包括相关变量如年龄、性别、肿瘤特征(大小、分期、病理类型等)、分子标志物、治疗信息等；确保数据质量和完整性；

变量选择：根据领域知识和数据分析，选择与肢体横纹肌肉瘤风险相关的变量；可以通过统计方法(如单因素分析、相关系数分析)或机器学习方法(如特征选择算法)来筛选最相关的变量；

数据划分：将数据集划分为训练集和验证集，以确保模型的泛化能力；

模型训练：使用训练集对选择的模型进行训练；根据模型的特性，应用相应的算法和优化方法来估计模型参数；训练过程中最常使用的方法是最大似然估计、梯度下降等；

模型评估：使用验证集评估训练好的模型的性能；计算模型的预测准确率、灵敏度、特异度AUC等指标，评估模型的预测能力和稳定性；

模型调优：根据模型的评估结果，进行模型调优；可以尝试不同的特征组合、调整模型参数尝试不同的模型结构等方法来提高模型性能；

模型验证：使用独立的测试集对最终模型进行验证，评估模型的泛化能力和预测效果；

模型应用：将训练好的模型应用于新的患者数据，预测肢体横纹肌肉瘤患者的风险概率；根据预测结果，辅助临床医师制定个体。

在本实施例中，采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集的步骤S1中，包括：

S11：将所述临床数据进行随机化处理，打乱所述临床数据的排列顺序，生成所述临床数据的随机排列样本；

S12：判断所述随机排列样本中的样本类别是否平衡；

S13：若否，则对所述样本类别应用stratify参数进行分层划分，确保在划分训练集和验证集时，各个类别的样本比例相对平衡。

在本实施例中，系统为了消除数据中的任何潜在顺序或偏差，在划分训练集和验证集对数据进行随机化处理，通过将数据的样本随机排列来实现，如果数据集中存在类别不平衡的情况(某个类别的样本数量远大于其他类别)，则在划分数据集时要确保训练集和验证集中各个类别的样本比例相对平衡，此时系统通过使用stratify参数来实现这一点，确保按照类别进行分层划分，以下是如何应用stratify参数进行分层划分的一般步骤：

首先，确定将数据划分为训练集和验证集的比例，导入所需使用的机器学习库，例如Python中的scikit-learn库，将特征数据和相应的标签(类别)数据准备好，确保它们具有一致的顺序，使用划分函数(如train_test_split)进行数据集划分，并设置stratify参数；

python

from sklearn.model_selection import train_test_split

X_train，X_val，y_train，y_val＝train_test_split(X，y，test_size＝0.2，stratify＝y)

在上述代码中，X是特征数据，y是标签数据，test_size参数指定了验证集所占的比例，例如0.2表示20％的数据被划分为验证集，通过设置stratify＝y，确保在划分数据集时根据标签y进行分层划分；可以检查训练集和验证集中各个类别的样本比例，以确保分层划分的效果；

python

#检查训练集中各类别样本比例

unique，counts＝np.unique(y_train，return_counts＝True)

class_counts_train＝dict(zip(unique，counts))

print(″训练集各类别样本数量：″，class_counts_train)

#检查验证集中各类别样本比例

unique，counts＝np.unique(y_val，return_counts＝True)

class_counts_val＝dict(zip(unique，counts))

print(″验证集各类别样本数量：″，class_counts_val)

这将划分出训练集和验证集中各个类别的样本数量，确保它们在分层划分后保持相对平衡。在本实施例中，基于各个HR值进行绘制即可得到Nomogram图的步骤S4中，还包括：

S41：将术后患者的个体化数据输入至Nomogram模型，根据模型计算出每个特征变量对应的至少一项得分，将各项得分相加得到术后患者的总分，基于所述总分可以反映患者的风险水平；

S42：判断所述风险水平是否大于预设风险阈值；

S43：若是，则根据所述风险水平高出的具体值，制定对应的个体化治疗决策，其中，所述个体化治疗决策包括但不限于是调整药物剂量、选择更强效的治疗方案、增加随访频率、提供更积极的支持和管理。

在本实施例中，系统为了使用Nomogram模型进行预测，需要收集患者的相关临床数据，包括与预测模型相关的特征变量，这些变量可能包括年龄、性别、病理类型、分期、分子标志物、治疗方案，确保收集到的数据与Nomogram模型所需的数据相匹配，将患者的个体化数据应用于Nomogram模型，根据模型计算出每个特征变量的得分，然后将各个得分相加，得到总得分，这个总得分可以反映患者的风险水平，将总得分对应到Nomogram图上的总分轴上，可以找到对应的风险预测，Nomogram图包括不同的特征变量的刻度轴，以及每个变量得分的刻度，通过连接各个特征变量的得分，可以找到总得分，并对应到风险预测，根据Nomogram图上的风险预测，可以将患者分类为高风险或低风险组，可以根据临床需要和治疗目标，设置一个阈值来确定高风险患者的定义，高风险患者可能需要更积极的治疗策略或更频繁的随访，根据高风险患者的识别结果，可以制定更好的个体化治疗决策，这可能包括调整药物剂量、选择更强效的治疗方案、增加随访频率、提供更积极的支持和管理。

在本实施例中，基于所述cox回归模型生成至少一个与所述临床数据相关的HR值的步骤S2后，还包括：

S201：根据术后患者的预测概率和观察时间计算风险分数，为所述术后患者提供一个预测的风险分数；

S202：将所述风险分数与观察时间和事件数据进行合并，以便能够对术后患者的风险分数进行分组和绘图，并使用R语言进行数据整理和操作，根据风险分数将术后患者分组为不同的列，应用所述R语言的cut()函数或quantile()函数来限定术后患者分组的边界，获取术后患者分组的各个统计指标，其中，所述统计指标具体包括平均风险分数和生存率；

S203：对于各个术后患者分组使用所述R语言中的绘图库进行列线图绘制，其中，所述绘制过程具体是将所述术后患者分组的风险分数作为横轴，所述统计指标作为纵轴。

在本实施例中，确保系统有患者的术后风险预测概率和相应的观察时间和事件(例如，生存与否)的数据，使用适当的风险预测模型(如Cox回归比例风险模型)，根据患者的预测概率和观察时间计算风险分数，这将为每个患者提供一个预测的风险分数，将风险分数与观察时间和事件数据进行合并，以便能够对风险分数进行分组和绘图，可以使用R中的cut()函数或quantile()函数来进行数据整理和操作，根据风险分数将患者分组为不同的列，可以使用函数来确定分组的边界，对于每个分组，计算统计指标(如平均风险分数、生存率等)以用于绘图，使用R语言来绘制列线图，将分组的风险分数作为横轴，统计指标(如平均风险分数、生存率等)作为纵轴，下面是一个简单的示例代码；

#导入必要的库

library(ggplot2)

#准备数据，包括风险分数、观察时间和事件数据

risk_scores<-c(0.2，0.5，0.3，0.8，0.6，0.9)#风险分数示例数据

observation_time<-c(10，20，15，30，25，35)#观察时间示例数据

events<-c(1，1，0，1，0，1)#事件数据示例(1表示生存，0表示死亡)

#数据整理和分组

data<-data.frame(risk_scores，observation_time，events)

data$risk_groups<-cut(data$risk_scores，breaks＝

上述代码演示如何使用R语言和绘制库以绘制肢体横纹肌肉瘤患者术后风险预测的列线图模型。

参考附图2，为本发明一实施例中基于cox回归模型的风险预测系统，包括：

采集模块10，用于采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集，其中，所述临床数据包括但不限于是患者性别、患者年龄、患者种族、诊断年龄、手术部位、组织分类；

生成模块20，用于将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到cox回归模型，将所述验证集输入至所述cox回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证，基于所述cox回归模型生成至少一个与所述临床数据相关的HR值，其中，所述cox回归模型的生成数量具体基于所述临床数据的数量对应变化，所述HR值具体为风险比，所述风险比表示一个临床数据变量与事件风险之间的比例关系；

判断模块30，用于判断所述HR值是否等于预设风险值；

执行模块40，用于在所述HR值大于所述预设风险值时，通过所述cox回归模型预测的临床数据与较高的风险相关联，而在所述HR值小于所述预设风险值时，通过所述cox回归模型预测的临床数据与较低的风险相关联，基于各个HR值进行绘制即可得到Nomogram图，其中，所述Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线。

在本实施例中，采集模块10通过采集患者在进行肢体横纹肌肉瘤手术后的临床数据，同时将这些临床数据根据预先设好的比例7∶3分类为模型的训练集数据和验证集数据，临床数据包括但不限于是患者的性别信息、患者的年龄信息、患者的种族信息、患者的诊断年龄、患者的手术部位和患者的皮肤组织分类；而后生成模块20将训练集数据输入至预先设有的初始空白回归模型中，作为初始空白回归模型的训练样本对其进行训练，以拟合得到cox回归模型，同时将验证集数据输入至cox回归模型中进行数据验证，通过cox回归模型生成至少一个与临床数据相关的HR值，即关于患者临床时的风险比，便于医师对患者的临床数据进行观察以得知何种临床数据对患者存在风险，以通过cox回归模型提前预测风险发生并为患者的治疗提供参考；判断模块30通过判断该HR值是否等于预先设有的风险值，以执行对应的步骤；例如，当HR值等于预先设有的风险值时，即系统会判定术后患者的临床数据中某个因素存在风险，但还未达到需要进行治疗的风险程度，只需要保持监视其风险是否持续上升即可；例如，当HR值不等于预先设有的风险值时，即系统会在HR值大于预先设有的风险值时，执行模块40会通过cox回归模型将HR值对应的临床数据与高风险组挂钩，同时系统会在HR值小于预先设有的风险值时，系统会通过cox回归模型将HR值对应的临床数据与低风险组挂钩，系统根据cox回归模型分类的高风险组和低风险组，并基于各个HR值绘制得到Nomogram图，Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线，根据KM生存曲线验证肢体横纹肌肉瘤患者术后风险预测列线图模型的可靠性和有效性。

在本实施例中，还包括：

第二比对模块，用于当所述AUC值处于1时，相应地Nomogram图的预测可靠性最佳。在本实施例中，要绘制AUC曲线和ROC曲线，可以按照以下步骤进行操作：

python

from sklearn.metrics import roc_curve，auc

import matplotlib.pyplot as plt

#计算真阳性率和假阳性率

fpr，tpr，thresholds＝roc_curve(true_labels，predicted_probs)

#计算AUC

auc_value＝auc(fpr，tpr)

#绘制ROC曲线

plt.plot(fpr，tpr，label＝′ROC Curve(AUC＝{：.2f})′.format(auc_value))

plt.plot([0，1]，[0，1]，linestyle＝′--′，label＝′Random Guess′)

plt.xlabel(′False Positive Rate′)

plt.ylabel(′True Positive Rate′)

plt.title(′Receiver Operating Characteristic(ROC)Curve′)

plt.1egend()

plt.show()

在本实施例中，生成模块还包括：

选取单元，用于基于预收录肢体横纹肌肉瘤的相关变量，从所述临床数据中选取对应的第一变量作为训练集，其中，所述第一变量具体包括分期、肿瘤大小、淋巴结转移、年龄；

第二选取单元，用于根据患者肢体横纹肌肉瘤的术后信息，从所述临床数据中选取对应的第二变量作为验证集，其中，所述第二变量具体包括染色体异常、分子标志物和治疗方案；构建单元，用于将所述第一变量和所述第二变量的取值比例控制为7：3，以所述取值比例构建基于肢体横纹肌肉瘤的风险概率预测模型。

在本实施例中，系统基于预先收录有的肢体横纹肌肉瘤的相关变量，从患者的临床数据中选取对应的第一变量作为初始空白回归模型的训练集数据，并根据患者做完肢体横纹肌肉瘤的手术后的术后信息，从临床数据中选取对应的第二变量作为初始空白回归模型的验证集数据同时将第一变量和第二变量的取值比例控制在7：3，以该取值比例构建能够预测肢体横纹肌肉瘤的风险概率的cox回归模型；

需要说明的是，构建过程具体为：

在本实施例中，采集模块还包括：

生成单元，用于将所述临床数据进行随机化处理，打乱所述临床数据的排列顺序，生成所述临床数据的随机排列样本；

判断单元，用于判断所述随机排列样本中的样本类别是否平衡；

执行单元，用于对所述样本类别应用stratify参数进行分层划分，确保在划分训练集和验证集时，各个类别的样本比例相对平衡。

python

from sklearn.model_selection import train_test_split

在上述代码中，X是特征数据，y是标签数据，test_size参数指定了验证集所占的比例，例如0.2表示20％的数据被划分为验证集，通过设置stratify＝y，确保在划分数据集时根据标签y进行分层划分；可以检查训练集和验证集中各个类别的样本比例，以确保分层划分的效果；python

#检查训练集中各类别样本比例

unique，counts＝np.unique(y_train，return_counts＝True)

class_counts_train＝dict(zip(unique，counts))

print(″训练集各类别样本数量：″，class_counts_train)

#检查验证集中各类别样本比例

unique，counts＝np.unique(y_val，return_counts＝True)

class_counts_val＝dict(zip(unique，counts))

print(″验证集各类别样本数量：″，class_counts_val)

这将划分出训练集和验证集中各个类别的样本数量，确保它们在分层划分后保持相对平衡。在本实施例中，执行模块还包括：

计算单元，用于将术后患者的个体化数据输入至Nomogram模型，根据模型计算出每个特征变量对应的至少一项得分，将各项得分相加得到术后患者的总分，基于所述总分可以反映患者的风险水平；

第二判断单元，用于判断所述风险水平是否大于预设风险阈值；

第二执行单元，用于根据所述风险水平高出的具体值，制定对应的个体化治疗决策，其中，所述个体化治疗决策包括但不限于是调整药物剂量、选择更强效的治疗方案、增加随访频率提供更积极的支持和管理。

在本实施例中，还包括：

第二计算模块，用于根据术后患者的预测概率和观察时间计算风险分数，为所述术后患者提供一个预测的风险分数；

合并模块，用于将所述风险分数与观察时间和事件数据进行合并，以便能够对术后患者的风险分数进行分组和绘图，并使用R语言进行数据整理和操作，根据风险分数将术后患者分组为不同的列，应用所述R语言的cut()函数或quantile()函数来限定术后患者分组的边界，获取术后患者分组的各个统计指标，其中，所述统计指标具体包括平均风险分数和生存率；绘制模块，用于对于各个术后患者分组使用所述R语言中的绘图库进行列线图绘制，其中，所述绘制过程具体是将所述术后患者分组的风险分数作为横轴，所述统计指标作为纵轴。在本实施例中，确保系统有患者的术后风险预测概率和相应的观察时间和事件(例如，生存与否)的数据，使用适当的风险预测模型(如Cox回归比例风险模型)，根据患者的预测概率和观察时间计算风险分数，这将为每个患者提供一个预测的风险分数，将风险分数与观察时间和事件数据进行合并，以便能够对风险分数进行分组和绘图，可以使用R中的cut()函数或quantile()函数来进行数据整理和操作，根据风险分数将患者分组为不同的列，可以使用函数来确定分组的边界，对于每个分组，计算统计指标(如平均风险分数、生存率等)以用于绘图，使用R语言来绘制列线图，将分组的风险分数作为横轴，统计指标(如平均风险分数、生存率等)作为纵轴，下面是一个简单的示例代码；

#导入必要的库

library(ggplot2)

#准备数据，包括风险分数、观察时间和事件数据

risk_scores<-c(0.2，0.5，0.3，0.8，0.6，0.9)#风险分数示例数据

observation_time<-c(10，20，15，30，25，35)#观察时间示例数据

#数据整理和分组

data<-data.frame(risk_scores，observation_time，events)

data$risk_groups<-cut(data$risk_scores，breaks＝

参考附图3，为本发明一实施例中的基于cox回归模型的风险预测的计算机设备内部结构示意图。该计算机设备具体可以是终端，也可以是服务器。如图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质有存储操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述的一种基于cox回归模型的风险预测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述的一种基于cox回归模型的风险预测方法。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器有存储计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述基于cox回归模型的风险预测方法的步骤。

在一个实施例中，提出了一种计算机可读存储介质，有存储计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种基于cox回归模型的风险预测方法的步骤。

可以理解的是，上述一种基于cox回归模型的风险预测方法及系统、系统、计算机设备以及计算机可读存储介质属于一个总的发明构思，实施例可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于cox回归模型的风险预测方法，其特征在于，包括以下步骤：

将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到co x回归模型，将所述验证集输入至所述co x回归模型中，作为所述co x回归模型的验证样本对所述co x回归模型进行数据验证，基于所述co x回归模型生成至少一个与所述临床数据相关的H R值，其中，所述co x回归模型的生成数量具体基于所述临床数据的数量对应变化，所述H R值具体为风险比，所述风险比表示一个临床数据变量与事件风险之间的比例关系；

判断所述HR值是否等于预设风险值；

若否，则在所述H R值大于所述预设风险值时，通过所述co x回归模型预测的临床数据与较高的风险相关联，而在所述H R值小于所述预设风险值时，通过所述co x回归模型预测的临床数据与较低的风险相关联，基于各个H R值进行绘制即可得到Nomogra m图，其中，所述Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线。

2.根据权利要求1所述的基于co x回归模型的风险预测方法，其特征在于，所述基于各个HR值进行绘制即可得到Nomogram图的步骤后，包括：

应用所述co x回归模型预测得到的所述高风险关联组和所述低风险关联组分别作为预设RO C曲线的假阳性率FP R和真阳性率TP R，将所述假阳性率FP R作为所述RO C曲线的坐标系横轴，并将所述真阳性率TPR作为所述ROC曲线的坐标系纵轴；

在所述RO C曲线的坐标系上将各个代表所述假阳性率FP R和所述真阳性率TP R的点进行相连接以生成完整RO C曲线，采用梯形法则对所述完整RO C曲线进行AU C值计算，基于计算得到的AU C值与预设取值范围进行差异性比对，其中，所述预设取值范围具体限定为0.5-1之间；

当所述AU C值处于1以下时，则所述AU C值与1相距越大相应地Nomogram图的预测可靠性越低；

当所述AUC值处于1时，相应地Nomogram图的预测可靠性最佳。

3.根据权利要求1所述的基于co x回归模型的风险预测方法，其特征在于，所述将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到co x回归模型，将所述验证集输入至所述co x回归模型中，作为所述cox回归模型的验证样本对所述cox回归模型进行数据验证的步骤中，包括基于预收录肢体横纹肌肉瘤的相关变量，从所述临床数据中选取对应的第一变量作为训练集，其中，所述第一变量具体包括分期、肿瘤大小、淋巴结转移、年龄；

将所述第一变量和所述第二变量的取值比例控制为7：3，以所述取值比例构建基于肢体横纹肌肉瘤的风险概率预测模型。

4.根据权利要求1所述的基于co x回归模型的风险预测方法，其特征在于，所述采集术后患者的临床数据，将所述临床数据以预设比例分类为训练集和验证集的步骤中，包括：

判断所述随机排列样本中的样本类别是否平衡；

若否，则对所述样本类别应用stratif y参数进行分层划分，确保在划分训练集和验证集时，各个类别的样本比例相对平衡。

5.根据权利要求1所述的基于co x回归模型的风险预测方法，其特征在于，所述基于各个HR值进行绘制即可得到Nomogram图的步骤中，还包括：

判断所述风险水平是否大于预设风险阈值；

6.根据权利要求1所述的基于co x回归模型的风险预测方法，其特征在于，所述基于所述cox回归模型生成至少一个与所述临床数据相关的HR值的步骤后，还包括：

将所述风险分数与观察时间和事件数据进行合并，以便能够对术后患者的风险分数进行分组和绘图，并使用R语言进行数据整理和操作，根据风险分数将术后患者分组为不同的列应用所述R语言的cut()函数或quantile()函数来限定术后患者分组的边界，获取术后患者分组的各个统计指标，其中，所述统计指标具体包括平均风险分数和生存率；

7.一种基于cox回归模型的风险预测系统，其特征在于，包括：

生成模块，用于将所述训练集输入至预设的初始空白回归模型中，作为所述初始空白回归模型的训练样本对所述初始空白回归模型进行训练，拟合得到co x回归模型，将所述验证集输入至所述co x回归模型中，作为所述co x回归模型的验证样本对所述co x回归模型进行数据验证，基于所述co x回归模型生成至少一个与所述临床数据相关的H R值，其中，所述co x回归模型的生成数量具体基于所述临床数据的数量对应变化，所述H R值具体为风险比，所述风险比表示一个临床数据变量与事件风险之间的比例关系；

判断模块，用于判断所述HR值是否等于预设风险值；

执行模块，用于在所述H R值大于所述预设风险值时，通过所述co x回归模型预测的临床数据与较高的风险相关联，而在所述H R值小于所述预设风险值时，通过所述co x回归模型预测的临床数据与较低的风险相关联，基于各个H R值进行绘制即可得到Nomogram图，其中，所述Nomogram图具体是由高风险关联组和低风险关联组生成的Kaplan-Meier生存曲线

8.根据权利要求7所述的基于cox回归模型的风险预测系统，其特征在于，还包括：

应用模块，用于应用所述co x回归模型预测得到的所述高风险关联组和所述低风险关联组分别作为预设RO C曲线的假阳性率FP R和真阳性率TP R，将所述假阳性率FP R作为所述ROC曲线的坐标系横轴，并将所述真阳性率TPR作为所述ROC曲线的坐标系纵轴；

计算模块，用于在所述RO C曲线的坐标系上将各个代表所述假阳性率FP R和所述真阳性率TP R的点进行相连接以生成完整RO C曲线，采用梯形法则对所述完整RO C曲线进行AUC值计算，基于计算得到的AU C值与预设取值范围进行差异性比对，其中，所述预设取值范围具体限定为0.5-1之间；

比对模块，用于当所述AU C值处于1以下时，则所述AU C值与1相距越大相应地Nomogram图的预测可靠性越低；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的一种基于cox回归模型的风险预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的一种基于co x回归模型的风险预测方法的步骤。