CN116030983B

CN116030983B - 一种基于机器学习的子宫内膜癌组织学等级预测方法

Info

Publication number: CN116030983B
Application number: CN202310322441.2A
Authority: CN
Inventors: 于新迪; 周树森; 王庆军; 臧睦君; 柳婵娟; 刘通
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-16
Anticipated expiration: 2043-03-29
Also published as: CN116030983A

Abstract

本发明涉及人工智能与生物信息学领域，涉及一种基于机器学习的子宫内膜癌组织学等级预测方法，其中包括核糖核酸序列处理、支持向量机、生存分析等技术。首先，对G1G3数据集和G2数据集的核糖核酸序列进行预处理，并对提取完特征的数据集进行去量纲化处理；其次，训练G1、G3级子宫内膜癌分类预测模型，确定支持向量机的最优核函数，并完成模型测试；最后，使用训练好的模型将G2级患者分成G2高风险和G2低风险两个亚组，通过生存分析验证分级的有效性。本发明提高了G1、G3级子宫内膜癌分级预测准确率，并成功地将G2级患者分成了G2高风险和G2低风险两个亚组。本发明能够为子宫内膜癌患者的临床手术决策提供参考。

Description

一种基于机器学习的子宫内膜癌组织学等级预测方法

技术领域

本发明涉及人工智能与生物信息学领域，涉及一种基于机器学习的子宫内膜癌组织学等级预测方法，其中包括核糖核酸序列处理、支持向量机、生存分析等技术。

背景技术

根据细胞分化状况，子宫内膜癌可分为从低到高的G1、G2、G3三个风险等级。患者的风险等级为治疗方案的制定提供了重要参考，合适的治疗方案有可能使患者完全康复。因此，准确的风险级别诊断能够使患者治愈后的复发概率有效降低。

目前，子宫内膜癌患者的风险等级通常由医学专家研究判断，但这种判断方式受较强的主观因素的影响，不同的肿瘤专家可能会给出不同的判断，尤其在G2级患者中容易出现治疗不足或过度的情况。因此，结合人工智能技术建立有效客观的等级预测模型对改善子宫内膜癌预后具有重要意义。近几年，基于图像或其他生物标志物的子宫内膜癌等级预测模型已经被提出，传统机器学习方法也已经被成功地应用于该领域。

基于肿瘤的分子分析方法可以很好地描述癌症，例如，癌症基因组图谱项目通过基于核糖核酸序列和微小核糖核酸表达谱的详细分子分析，在子宫内膜癌中确定了四个风险等级。以下将核糖核酸简称为RNA。该项目为本发明提供了理论基础。本发明基于RNA序列数据，利用机器学习方法，首先提出了一个更有效的G1、G3级子宫内膜癌二元分类预测方法，其次利用该方法，对G2级患者进行高风险低风险亚组分类。本发明提高了G1、G3级子宫内膜癌分级预测准确率，还成功将G2级患者分成了G2高风险和G2低风险两个亚组。本发明可以辅助肿瘤专家更精确地判断子宫内膜癌患者的组织学等级，有助于改善该癌症的预后。

发明内容

提高子宫内膜癌组织学等级预测的准确率能够使更多患者得到合适的治疗，从而降低该癌症治愈后的复发概率。在预后情况较差G2级子宫内膜癌患者中，进一步的分级预测更为重要。因此，本发明提出了一种基于机器学习的子宫内膜癌组织学等级预测方法，该方法有效提高了G1、G3级子宫内膜癌分级预测准确率，并且成功地将G2级患者分成了G2高风险和G2低风险两个亚组。本发明能够为子宫内膜癌患者的临床手术决策提供更有效的参考。

一种基于机器学习的子宫内膜癌组织学等级预测方法，包括RNA序列的预处理、数据去量纲化、G1、G3级子宫内膜癌二元分类模型训练与测试、G2级高低风险亚组分类、生存分析五个过程，其具体步骤如下：

步骤1、使用转录组定量工具featureCounts和差异表达分析工具DESeq2对RNA序列进行预处理；首先计算每个样本的RNA序列中每种转录本的数量，获取基因表达矩阵，删除平均数量小于4的转录本，然后对剩余基因表达矩阵进行归一化，最后对矩阵进行转置变换；其中G1、G3级样本组成一个数据集，以下称此数据集为G1G3数据集，G2级样本组成一个数据集，以下称此数据集为G2数据集，步骤1与步骤2都需要对两个数据集单独处理；

步骤2、对转换后的数据集分别进行去量纲化处理；

步骤3、把步骤2中得到的G1G3数据集作为带有核函数的支持向量机的输入，训练并测试支持向量机模型，得到模型在测试集上的受试者工作特征曲线下面积、准确率和受试者工作特征曲线；以下将受试者工作特征曲线下面积简称为AUC，将受试者工作特征曲线简称为ROC曲线；

步骤4、把步骤2中得到的G2数据集作为步骤3中训练好的支持向量机模型的输入，预测得到G2高风险和G2低风险两个亚组；

步骤5、使用生存分析工具包survival和生存曲线绘制工具包survminer对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析，根据临床数据比较两组的无复发生存期，得到Cox回归检验的显著性水平p值，根据显著性水平p值的大小验证步骤4中的风险分组的有效性。

一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤1的实现过程如下：

将所有RNA序列样本与每种转录本进行比对，统计每个样本中每种转录本的数量，得到一个基因表达矩阵，行表示不同转录本，列表示不同样本，矩阵中的元素为整数，表示该样本RNA序列中该种转录本的数量；进一步需要对这些转录本进行筛选，计算每种转录本数量的平均值，即计算矩阵每行的平均值，得到结果后，删除结果小于4的转录本所在的行；最后将剩余基因表达矩阵输入差异表达分析工具DESeq2进行归一化处理，对归一化后的矩阵进行转置变换，即可得到提取特征后的数据集。

一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤2的实现过程如下：

对提取特征后的G1G3数据集和G2数据集分别进行去量纲化处理；使用机器学习库sklearn中的标准差标准化方法standardscaler处理样本的每个特征值

，无量纲化的特征值/>

由公式 (1) 确定：

(1)

其中，

表示该特征在所有样本中的均值，/>

表示该特征在所有样本中的标准差；公式 (1) 表示数据去量纲化需要三步，计算每个特征在所有样本中的均值/>

和标准差/>

，将所有样本的每个特征值/>

减去对应特征的均值/>

，将得到的结果除以对应特征的标准差/>

，得到的结果即为无量纲化的数据/>

。

一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤3的实现过程如下：

随机划分数据集，80%作为训练集，20%作为测试集；比较的四种常用的核函数分别是线性核、多项式核、高斯核和S型核函数，使用AUC和准确率作为模型性能的评价指标；把步骤2中得到的无量纲化的G1G3数据集作为带有核函数的支持向量机的输入，使用机器学习库sklearn中名为SVC的函数构建和训练模型，将测试集输入训练好的模型，得到每个测试样本的预测结果，通过比较四种模型在测试集上和100次交叉验证的AUC和准确率，确定模型使用哪种核函数；最后得到最优模型在测试集上的AUC、准确率和ROC曲线。

一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤4的实现过程如下：

对步骤2中得到的无量纲化的G2数据集进行分级预测；经过步骤3的模型训练，得到了一个有效的G1G3数据集的二元分类预测模型，猜想G1、G3级癌症与G2级中的高低风险癌症的分类特征相似，因此可以将该训练好的模型应用于G2级癌症的高低风险分级预测；将步骤2中得到的无量纲化的G2数据集作为步骤3中训练好的最优模型的输入，得到G2高风险和G2低风险两个亚组。

一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤5的实现过程如下：

对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析，验证G2分级预测的有效性；由于G2数据集中所有样本的标签都是G2级，更细分的高低风险是没有标注的，所以需要将G2高风险和G2低风险两个亚组的临床数据输入生存分析工具包survival和生存曲线绘制工具包survminer，比较两组的无复发生存期，得到Cox回归检验的显著性水平p值，根据显著性水平p值的大小验证步骤4中的风险分级的有效性，如果显著性水平p值小于0.05，则证明该分级是有效的。

附图说明

图1为训练测试G1、G3级子宫内膜癌二元分类模型和应用于G2级高低风险亚组分类的步骤示意图。

图2为最优模型在测试集上的ROC曲线图。

图3为比较G2高风险和G2低风险两个亚组的无复发生存期的曲线图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明的目的是提出一种基于机器学习的子宫内膜癌组织学等级预测方法，包括RNA序列的预处理、数据去量纲化、G1、G3级子宫内膜癌二元分类模型训练与测试、G2级高低风险亚组分类、生存分析五个过程，其具体过程的实现步骤如下所示：

步骤1、使用转录组定量工具featureCounts和差异表达分析工具DESeq2对RNA序列进行预处理：

使用转录组定量工具featureCounts对每个样本的RNA序列与转录本进行比对分析，统计每种转录本的数量，得到基因表达矩阵；计算矩阵每行的平均值，如果小于4，则删去该行，此时G1G3数据集的基因表达矩阵大小为24349×288，G2数据集的基因表达矩阵大小为24349×118；最后使用差异表达分析工具DESeq2对两个基因表达矩阵进行归一化处理，然后对归一化后的矩阵进行转置变换，即可得到提取特征后的G1G3数据集和G2数据集。

步骤2、使用机器学习库sklearn中的标准差标准化方法standardscaler对步骤1得到的G1G3数据集和G2数据集分别进行去量纲化处理：

每个样本的所有特征值

需要经过两次运算，先减去该特征的均值/>

，再除以该特征的标准差/>

，最终得到标准化后的特征值/>

；经过去量纲化处理的数据集服从标准正态分布，可以使模型性能得到提升。

步骤3、使用步骤2中得到的G1G3数据集训练并测试最优模型：

G1、G3级子宫内膜癌二元分类预测步骤如图1所示。首先将G1G3数据集随机划分为训练集和测试集，分别占80%和20%；模型是带有核函数的支持向量机，为了更好地为子宫内膜癌预测风险级别，本发明使用了四种常用的核函数：线性核、多项式核、高斯核和S型核函数，因此需要基于G1G3数据集训练四种模型；通过比较100次交叉验证的平均AUC和准确率以及测试集的AUC和准确率，得出最优模型由带有S型核函数的支持向量机组成；其中S型核函数的参数设置如下：惩罚系数C= 1.0, 核函数系数

= 1/24349, 核函数常数值coef0 =0。最后得出模型在测试集的ROC曲线如图2所示，ROC曲线下面积为AUC；模型在该实例测试集上的AUC和准确率分别为0.935和0.879，比另一个最新的方法分别提高了0.9%和5.1%。

步骤4、使用步骤3中训练好的支持向量机模型为G2数据集进行进一步的分级预测；

为了降低G2级子宫内膜癌患者的治疗风险，本发明在G2数据集中使用训练好的模型进行进一步的分类。G2级高低风险亚组分类的步骤如图1所示。假设G1、G3二元分类特征与G2高风险、G2低风险二元分类特征相似，将步骤2中提取完特征的G2数据集作为训练好的模型的输入，得到了G2高风险和G2低风险两个亚组。

步骤5、对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析，验证分组的有效性；

将两个亚组的临床信息输入生存分析的工具包，比较他们的无复发生存期，得到Cox回归检验的显著性水平p值，本实例的显著性水平p值为0.0364，该值小于0.05，证明本发明的模型成功将G2级子宫内膜癌患者分成了高风险和低风险两个亚组。比较两组无复发生存期的曲线图如图3所示。

以上实例描述用于对本发明进行进一步的详细说明，但并不说明本发明仅限于以上实例所述范围。本领域的普通技术人员基于本发明构思的简单推演或替换，都应属于本发明的保护范围。

Claims

1.一种基于机器学习的子宫内膜癌组织学等级预测方法，包括核糖核酸序列的预处理、数据去量纲化、G1、G3级子宫内膜癌二元分类模型训练与测试、G2级高低风险亚组分类、生存分析五个过程，其具体步骤如下：

步骤1、使用转录组定量工具featureCounts和差异表达分析工具DESeq2对核糖核酸序列进行预处理；以下将核糖核酸简称为RNA；首先将所有RNA序列样本与每种转录本进行比对，统计每个样本中每种转录本的数量，得到一个基因表达矩阵，行表示不同转录本，列表示不同样本，矩阵中的元素为整数，表示该样本RNA序列中该种转录本的数量；进一步需要对这些转录本进行筛选，计算每种转录本数量的平均值，即计算矩阵每行的平均值，得到结果后，删除结果小于4的转录本所在的行；然后对剩余基因表达矩阵进行归一化，最后对矩阵进行转置变换；其中G1、G3级样本组成一个数据集，以下称此数据集为G1G3数据集，G2级样本组成一个数据集，以下称此数据集为G2数据集，步骤1与步骤2都需要对两个数据集单独处理；

步骤2、对提取特征后的G1G3数据集和G2数据集分别进行去量纲化处理；使用机器学习库sklearn中的标准差标准化方法standardscaler处理样本的每个特征值