CN111944900A

CN111944900A - 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法

Info

Publication number: CN111944900A
Application number: CN202010775532.8A
Authority: CN
Inventors: 刘大海; 李文兴; 孙婷婷; 刘蕾娜
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-17

Abstract

本发明公开了一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法，所述的特征lincRNA表达谱组合的核苷酸探针序列如SEQ ID NO.1‑18所示。本发明的基于lincRNA表达谱组合特征评估子宫内膜癌早期风险具有很高的精确度和准确率(ROC曲线下面积AUC＝0.929)。只需要获取上述18种lincRNA的相对表达量，通过支持向量机模型计算给出子宫内膜癌早期患病概率，可作为子宫内膜癌早期预测的参考依据。

Description

一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法

技术领域

本发明属于生物技术和医学技术领域，具体地说，涉及一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法。

背景技术

子宫内膜癌(uterine corpus endometrial carcinoma)是发生于子宫内膜的一种上皮性恶性肿瘤，多发于围绝经期和绝经后女性。子宫内膜癌是最常见的女性生殖系统肿瘤之一，其发病与生活方式密切相关，发病率在各地区有较大差异。子宫内膜癌最常见的症状是绝经后出血或围绝经期出血，早期诊断较为困难。全球疾病负担(Global Burden ofDisease,GBD)数据显示，2017年全球患有子宫癌的人数超过300万，其中中国患病人数约为53万。2017年全球患有子宫癌的死亡人数约为85万，占总死亡人数的0.15％。中国2017年死亡患者数约为12万，占总死亡人数的0.12％。统计结果显示，从1990年到2017年全球子宫癌患病率和死亡率持续增长。中国子宫内膜癌患病率增长与全球较为一致，死亡数相对稳定。

支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。当训练数据是线性可分时，SVM通过硬间隔最大化学习进行分类。当训练数据线性不可分时，SVM通过使用核技巧以及软间隔最大化学习进行分类。SVM对于特征含义相似的中等大小的数据集很强大，也适用于小型数据集。通常情况下，对样本量小于1万的数据集SVM都有很好的预测效果。SVM在疾病诊断、肿瘤分类、肿瘤基因识别等有着广泛的应用。

肿瘤早期诊断一直是医学界的难题。现有的早期诊断方法多是观测某一个或一类标志物的表达水平，难以达到理想的诊断效果。由于这些标志物在肿瘤患者和正常人群中的表达分布有部分重叠，难以界定标志物的临界值将肿瘤患者和正常人群较好地分开。因此，利用多个标志物表达特征组合可能是肿瘤早期诊断的一种有效方法。长链基因间非编码RNA(long intergenic non-coding RNA,lincRNA)是一类位于基因间非编码序列的长度大于200个核苷酸的非编码单链RNA分子。lincRNA不具有编码潜力并且在不同物种之间不保守。研究表明lincRNA参与多个基因的表达调控，在人体内表达相对稳定且容易检测。由于单个lincRNA分子在肿瘤和正常人群中表达分布有重叠，难以界定早期预测的临界值。

因此，有必要建立一种有助于子宫内膜癌的早期预测的更稳定的多个差异lincRNA表达特征组合的预测模型。

发明内容

有鉴于此，本发明提供了一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法，能够准确地进行子宫内膜癌I/II期预测。

为了解决上述技术问题，本发明公开了一种特征lincRNA表达谱组合，包括AC008124.1、AC068473.5、AC093297.2、AC104825.1、AL355338.1、AP003486.1、BAIAP2-DT、EIF3J-DT、EPB41L4A-AS1、HEIH、ILF3-DT、LINC00294、LINC00467、LINC00909、LINC01963、MIR22HG、NORAD和OSER1-DT，其核苷酸探针序列如SEQ ID NO.1-18所示。

本发明还公开了一种基于上述的特征lincRNA表达谱组合的子宫内膜癌早期预测方法，包括以下步骤：

步骤1、获取子宫内膜癌早期患者稳定差异表达的特征lincRNA；

步骤2、选取特征lincRNA表达数据，对每个样本进行数据标准化；

步骤3、使用支持向量机对标准化后的数据构建早期预测模型；

步骤4、根据患者特征lincRNA的表达水平进行早期预测；

所述方法为非疾病的诊断和治疗目的。

可选地，所述步骤1中的获取子宫内膜癌早期患者稳定差异表达的特征lincRNA，具体为：

步骤1.1、从Genomic Data Commons Data Portal数据库中下载子宫内膜癌患者肿瘤组织和癌旁组织转录组数据以及临床数据，获得子宫内膜癌患者肿瘤组织基因表达谱read counts数值，即为测序读段数值，进行对数转换；

步骤1.2、选取具有一定表达丰度的lincRNA，即在所有样本中lincRNA的readcounts大于等于10；再对所有lincRNA的read counts取对数，设样本总数为n，筛选后lincRNA总数为m，v为lincRNA的read counts，u为取对数之后的表达值，则有：

u_ij＝log₂v_ij，i∈(1，n)，j∈(1，m) (1)

其中，i为样本编号，j为lincRNA编号，u_ij为第i个样本、第j个lincRNA编号取对数之后的表达值，v_ij为第i个样本、第j个lincRNA编号的read counts数值；

步骤1.3、选取疾病分期为I期和II期的子宫内膜癌患者，将这些患者记为子宫内膜癌早期患者，子宫内膜癌早期患者总数记为n′；

步骤1.4、选取肿瘤和正常样本中稳定表达的lincRNA，即在肿瘤和正常样本中变异系数均小于0.2的lincRNA，设μ为所有样本中lincRNA的表达均值，σ为标准差，变异系数的计算公式为：

其中，j为lincRNA编号，c_v为变异系数，c_vj为第j个样本的变异系数，σ_j为第j个lincRNA编号的标准差，μ_j为第j个lincRNA编号的lincRNA的表达均值，设m₁为稳定表达的lincRNA总数，则有：

步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA；使用取对数后的表达值计算肿瘤和正常样本lincRNA取对数后的倍数变化f，公式为：

其中，j为lincRNA编号，f_j为第j个lincRNA编号的倍数变化，μ_1j为第j个lincRNA编号的肿瘤样本的表达均值，μ_2j为第j个lincRNA编号的正常样本的表达均值；

然后使用独立样本t检验比较肿瘤和正常样本中lincRNA的表达差异，独立样本t检验公式为：

其中，n₁为肿瘤样本数，n₂为正常样本数，μ₁为肿瘤样本lincRNA表达均值，μ₂为正常样本lincRNA表达均值，

为肿瘤样本lincRNA方差，

为正常样本lincRNA方差；

对所有t检验得出的p值进行错误发现率(false discovery rate,FDR)校正，定义q为FDR校正后的数值，r为p值在m₁个lincRNA中排序后的位置，则有：

其中，j为lincRNA编号，q_j代表第j个lincRNA编号的FDR校正后的数值，p_j代表第j个lincRNA编号的t检验得出的p值，r_j代表第j个lincRNA编号的p值在m₁个lincRNA中排序后的位置；

最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的lincRNA，记为特征lincRNA，设特征lincRNA总数为m₂，则有：

m₂＝m₁{|f_j|≥1，q_j≤0.05}，j∈(1，m₁) (7)

可选地，所述步骤2中的选取特征lincRNA表达数据，对每个样本进行数据标准化，公式为：

其中，i为样本编号，j为特征lincRNA编号；μ_i为第i个样本所有特征lincRNA表达均值，σ_i为第i个样本所有特征lincRNA标准差，u_ij为取对数后的特征lincRNA表达值，u_ij′为标准化后的lincRNA数值。

可选地，所述步骤3中的使用支持向量机对标准化后的数据构建早期预测模型，具体为：

步骤3.1、先对所有样本进行分组。将全部样本中80％划分为训练集+验证集，余下20％划分为测试集。训练集+验证集用于5折交叉验证，即将训练集+验证集分为相等的5组，按顺序将其中一组作为验证集，其余4组作为训练集；给定参数，训练集用于构建模型，验证集用于检验模型精确度；

步骤3.2、最优参数筛选，SVM中参数gamma控制高斯核的宽度，C是正则化参数，限制每个点的重要性；参数网格设置为：

gamma＝[0.001，0.01，0.1，1，10，100] (9)

C＝[0.001，0.01，0.1，1，10，100] (10)

在交叉验证中，依次使用每两个参数gamma和C的组合构建模型，然后用验证集检验模型精确度；对每个参数组合，5折交叉验证的每次验证产生1个精确度，共进行5次验证即产生5个精确度。选取5次验证的平均精确度最高的参数组合作为最优参数；

步骤3.3、使用最优参数和训练集+验证集的数据构建模型，最后用测试集对模型进行评估，评估指标包括精确度(accuracy)、准确率(precision)、召回率(recall)、特异性(specificity)、F1分数(F1 score)、马修斯相关系数(Matthews correlationcoefficient,MCC)和受试者工作曲线(receiver operating curve,ROC)下面积(areaunder the curve,AUC)；在测试集中，定义实际为肿瘤且预测为肿瘤计数为true positive(TP)，实际为正常但预测为肿瘤计数为false positive(FP)，实际为肿瘤但预测为正常为false negative(FN)，实际为正常且预测为正常为true negative(TN)。以上评估指标计算公式为：

以上评估指标中精确度、准确率、召回率、特异性、F1分数和AUC返回介于(0，1)之间的值。精确度越高表示模型总体预测效率越高；准确率越高说明犯I类错误越小；召回率越高说明犯II类错误越小；特异性高说明在预测为正例的样本中很少有负例混入；F1分数是一个综合指标，为准确率和召回率的调和平均；MCC是观察到的和预测的二元分类之间的相关系数，返回介于(-1，1)之间的值，其中1表示完美预测，0表示不比随机预测好，-1表示预测和观察之间的完全不一致；AUC越高表明分类器预测的正实例概率越高；因此，以上指标越接近1表明模型整体的预测效果越好；

步骤3.4、若以上评估指标都大于0.9，说明模型具有较好的预测效果；则使用所有数据，用最优参数组合构建最终预测模型。

可选地，所述步骤4中的根据患者特征lincRNA的表达水平进行早期预测，具体为：

步骤4.1、对预测样本的特征lincRNA表达数据进行标准化，设u为预测样本特征lincRNA表达值，μ为预测样本特征lincRNA表达均值，σ为预测样本特征lincRNA标准差，公式为：

其中j为特征lincRNA编号，u_j′为标准化后的lincRNA数值；

步骤4.2、将预测样本标准化后的lincRNA数值代入最终预测进行预测；预测结果为1表示患有子宫内膜癌，预测结果为0表示正常。

与现有技术相比，本发明可以获得包括以下技术效果：

1)预测速度快：使用本发明构建的预测模型可以对大规模样本进行快速预测，100个样本的预测时间只需要几秒钟。

2)准确度高：本发明构建的预测模型预测精确度和准确率较高，都达到90％以上，ROC曲线下面积AUC＝0.929。

3)平台异质性影响较小：由于不同分析平台测定的lincRNA表达值有较大差异，本发明预测使用标准化后的特征lincRNA表达值，因此受平台异质性的影响较小。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明数据筛选和模型构建的流程；

图2是本发明支持向量机模型交叉验证参数优化过程；

图3是本发明支持向量机模型测试集评估指标；

图4是本发明支持向量机模型测试集ROC曲线。

具体实施方式

以下将配合实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本发明公开了一种基于特征lincRNA表达谱组合的子宫内膜癌早期预测方法，能够准确地进行子宫内膜癌I/II期预测，包括以下步骤：

步骤1、获取子宫内膜癌早期患者稳定差异表达的lincRNA(特征lincRNA)，具体为：

步骤1.2、选取具有一定表达丰度的lincRNA，即在所有样本中lincRNA的readcounts大于等于10。再对所有lincRNA的read counts取对数，设样本总数为n，筛选后lincRNA总数为m，v为lincRNA的read counts，u为取对数之后的表达值，则有：

u_ij＝log₂v_ij，i∈(1，n)，j∈(1，m) (1)

其中，i为样本编号，j为lincRNA编号，u_ij为第i个样本、第j个lincRNA编号取对数之后的表达值，v_ij为第i个样本、第j个lincRNA编号的read counts数值。

其中，j为lincRNA编号，c_v为变异系数，c_vj为第j个样本的变异系数，σ_j为第j个lincRNA编号的标准差，μ_j为第j个lincRNA编号的lincRNA的表达均值，设m1为稳定表达的lincRNA总数，则有：

步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA。使用取对数后的表达值计算肿瘤和正常样本lincRNA取对数后的倍数变化f，公式为：

其中，j为lincRNA编号，f_j为第j个lincRNA编号的倍数变化，μ_1j为第j个lincRNA编号的肿瘤样本的表达均值，μ_2j为第j个lincRNA编号的正常样本的表达均值。

为肿瘤样本lincRNA方差，

为正常样本lincRNA方差。

其中，j为lincRNA编号，q_j代表第j个lincRNA编号的FDR校正后的数值，p_j代表第j个lincRNA编号的t检验得出的p值，r_j代表第j个lincRNA编号的p值在m₁个lincRNA中排序后的位置。

m₂＝m_i{|f_j|≥1，q_j≤0.05}，j∈(1，m₁) (7)。

步骤2、选取特征lincRNA表达数据，对每个样本进行数据标准化，公式为：

步骤3、使用支持向量机对标准化后的数据构建早期预测模型，具体为：

步骤3.1、先对所有样本进行分组。将全部样本中80％划分为训练集+验证集，余下20％划分为测试集。训练集+验证集用于5折交叉验证，即将训练集+验证集分为相等的5组，按顺序将其中一组作为验证集，其余4组作为训练集。给定参数，训练集用于构建模型，验证集用于检验模型精确度。

步骤3.2、最优参数筛选。SVM中参数gamma控制高斯核的宽度，C是正则化参数，限制每个点的重要性。参数网格设置为：

gamma＝[0.001，0.01，0.1，1，10，100] (9)

C＝[0.001，0.01，0.1，1，10，100] (10)

在交叉验证中，依次使用每两个参数gamma和C的组合构建模型，然后用验证集检验模型精确度。对每个参数组合，5折交叉验证的每次验证产生1个精确度，共进行5次验证即产生5个精确度。选取5次验证的平均精确度最高的参数组合作为最优参数。

步骤3.3、使用最优参数和训练集+验证集的数据构建模型，最后用测试集对模型进行评估。评估指标包括精确度(accuracy)、准确率(precision)、召回率(recall)、特异性(specificity)、F1分数(F1 score)、马修斯相关系数(Matthews correlationcoefficient，MCC)和受试者工作曲线(receiver operating curve，ROC)下面积(areaunder the curve，AUC)。在测试集中，定义实际为肿瘤且预测为肿瘤计数为true positive(TP)，实际为正常但预测为肿瘤计数为false positive(FP)，实际为肿瘤但预测为正常为false negative(FN)，实际为正常且预测为正常为true negative(TN)。以上评估指标计算公式为：

以上评估指标中精确度、准确率、召回率、特异性、F1分数和AUC返回介于(0，1)之间的值。精确度越高表示模型总体预测效率越高；准确率越高说明犯I类错误越小；召回率越高说明犯II类错误越小；特异性高说明在预测为正例的样本中很少有负例混入；F1分数是一个综合指标，为准确率和召回率的调和平均；MCC是观察到的和预测的二元分类之间的相关系数，返回介于(-1，1)之间的值，其中1表示完美预测，0表示不比随机预测好，-1表示预测和观察之间的完全不一致；AUC越高表明分类器预测的正实例概率越高。因此，以上指标越接近1表明模型整体的预测效果越好。

步骤3.4、若以上评估指标都大于0.9，说明模型具有较好的预测效果。则使用所有数据，用最优参数组合构建最终预测模型。

步骤4、根据患者特征lincRNA的表达水平进行早期预测，具体为：

其中j为特征lincRNA编号，u_j′为标准化后的lincRNA数值。

步骤4.2、将预测样本标准化后的lincRNA数值代入最终预测进行预测。预测结果为1表示患有子宫内膜癌，预测结果为0表示正常。

实施例1

一种基于特征lincRNA表达谱组合的子宫内膜癌早期预测方法，包括以下步骤：

步骤1、获取子宫内膜癌早期患者稳定差异表达的lincRNA(特征lincRNA)，详细流程见图1。

步骤1.1、从Genomic Data Commons Data Portal数据库中下载子宫内膜癌患者肿瘤组织和癌旁组织转录组数据以及临床数据，获得子宫内膜癌患者肿瘤组织基因表达谱read counts数值，进行对数转换。

步骤1.2、选取具有一定表达丰度的lincRNA，即在所有样本中lincRNA的readcounts大于等于10，详见公式(1)。

步骤1.3、选取疾病分期为I期和II期的子宫内膜癌患者，详见公式(2)-(3)，将这些患者记为子宫内膜癌早期患者。

步骤1.4、选取肿瘤和正常样本中稳定表达的lincRNA，即在肿瘤和正常样本中变异系数均小于0.2的lincRNA。

步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA，详见公式(4)-(7)。记为特征lincRNA。

经过以上筛选，最终获得18个子宫内膜癌特征lincRNA，见表1。18个子宫内膜癌特征lincRNA的核苷酸探针序列见表2。

表1子宫内膜癌特征lincRNA

表2子宫内膜癌特征lincRNA的核苷酸探针序列

步骤2、对每个样本进行数据标准化，详见公式(8)。

步骤3、使用支持向量机对标准化后的数据构建早期诊断模型。

步骤3.1、先对所有样本进行分组。将全部样本中80％划分为训练集+验证集，余下20％划分为测试集。训练集+验证集用于5折交叉验证，即将训练集+验证集分为相等的5组，按顺序将其中一组作为验证集，其余4组作为训练集。给定参数，训练集用于构建模型，验证集用于检验模型精确度。详见图1。

步骤3.2、最优参数筛选。SVM参数网格设置见公式(9)-(10)。在交叉验证中，依次使用每两个参数gamma和C的组合构建模型，然后用验证集检验模型精确度。对每个参数组合，5折交叉验证的每次验证产生1个精确度，共进行5次验证即产生5个精确度。选取5次验证的平均精确度最高的参数组合作为最优参数。图2所示为交叉验证参数优化过程，当参数gamma＝0.1，参数C＝1时模型交叉验证精确度最高：0.976。因此该模型的最优参数为：gamma＝0.1，C＝1。

步骤3.3、使用最优参数和训练集+验证集的数据构建模型，最后用测试集对模型进行评估。评估指标包括精确度(accuracy)、准确率(precision)、召回率(recall)、特异性(specificity)、F1分数(F1 score)、马修斯相关系数(Matthews correlationcoefficient,MCC)和受试者工作曲线(receiver operating curve,ROC)下面积(areaunder the curve,AUC)。评估指标详见公式(11)-(17)。

步骤3.4、图3所示为以上评估指标中的精确度、准确率、召回率、特异性、F1分数和MCC，这6个指标中有5个指标大于0.90；图4所示为ROC曲线和AUC，测试集中AUC为0.929。说明以上评估指标说明该模型有很好的预测效果。因此使用所有数据，用最优参数组合构建最终预测模型。

步骤4、根据患者特征lincRNA的表达水平进行早期预测：

步骤4.1、对预测样本的特征lincRNA表达数据进行标准化，详见公式(18)。本发明随机选取10例样本进行预测，并在构建最终预测模型时将这10例样本剔除。所选取的10例样本编号和标准化后特征lincRNA数值见表3。

表3. 10例样本编号和特征lincRNA标准化后的数值

步骤4.2、将预测样本标准化后的lincRNA数值代入最终预测进行预测。预测结果为1表示患有子宫内膜癌，预测结果为0表示正常。10例样本编号，对应的TCGA编号，实际状态和预测结果见表4。10例样本预测结果与实际状态完全符合，说明本发明可以对子宫内膜癌进行精确的早期预测。

表4. 10例样本编号，对应的TCGA编号，实际和预测的状态

综上所述，本发明的特征lincRNA表达谱组合具有很高的预测准确性，能够有效地进行子宫内膜癌的早期预测。此外，本发明没有平台依赖性，能够对多种来源的数据进行预测。

上述说明示出并描述了发明的若干优选实施例，但如前所述，应当理解发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围，则都应在发明所附权利要求的保护范围内。

SEQUENCE LISTING

<110> 佛山科学技术学院

<120> 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法

<130> 2020

<160> 18

<170> PatentIn version 3.3

<210> 1

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 1

gtttacattt ttatagtaag gtctcttcaa 30

<210> 2

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 2

ggcacctcca tcgcggacag agggcgggcg 30

<210> 3

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 3

gtagtttctt ttgctgcgca gaggctcttt 30

<210> 4

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 4

tcagtgcaag ttcatgaagt gaaagcaaat 30

<210> 5

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 5

gctccgcagg atccccgcga ggaacagctg 30

<210> 6

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 6

tatgtcctta tgcccccccc ccaactatat 30

<210> 7

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 7

caccacccca gcagcccggg tcccgggtgg 30

<210> 8

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 8

cggcccgcag gccccggcag cgacccgggg 30

<210> 9

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 9

gagatccact tacacttctg aaaacgcaag 30

<210> 10

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 10

cactccagcc tgggtgacag aacagactgt 30

<210> 11

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 11

ctcctgccac agcccgccgg ggtctgcccc 30

<210> 12

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 12

agaatgtccc taatttagct gaggaaccta 30

<210> 13

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 13

tcttcaggaa gccagacaga ttcaagtatt 30

<210> 14

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 14

cttcttaata aggttctgat gagtatatgt 30

<210> 15

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 15

tcctccggag ttccacagat ggaggaggcc 30

<210> 16

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 16

ataagcagcc tcaaggacca agaaccatct 30

<210> 17

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 17

ttccccagcc tctttgctgt tcctggaaca 30

<210> 18

<211> 30

<212> DNA

<213> 人工序列（Artificial sequence）

<400> 18

gagagaaagg actggaaggg gcaaagggcg 30

Claims

1.一种特征lincRNA表达谱组合，其特征在于，包括AC008124.1、AC068473.5、AC093297.2、AC104825.1、AL355338.1、AP003486.1、BAIAP2-DT、EIF3J-DT、EPB41L4A-AS1、HEIH、ILF3-DT、LINC00294、LINC00467、LINC00909、LINC01963、MIR22HG、NORAD和OSER1-DT，其核苷酸探针序列如SEQ ID NO.1-18所示。

2.一种基于权利要求1所述的特征lincRNA表达谱组合的子宫内膜癌早期预测方法，其特征在于，包括以下步骤：

步骤4、根据患者特征lincRNA的表达水平进行早期预测；

所述方法为非疾病的诊断和治疗目的。

3.根据权利要求2所述的子宫内膜癌早期预测方法，其特征在于，所述步骤1中的获取子宫内膜癌早期患者稳定差异表达的特征lincRNA，具体为：

步骤1.1、从Genomic Data Commons Data Portal数据库中下载子宫内膜癌患者肿瘤组织和癌旁组织转录组数据以及临床数据，获得子宫内膜癌患者肿瘤组织基因表达谱readcounts数值，即为测序读段数值，进行对数转换；

步骤1.2、选取具有一定表达丰度的lincRNA，即在所有样本中lincRNA的read counts大于等于10；再对所有lincRNA的read counts取对数，设样本总数为n，筛选后lincRNA总数为m，v为lincRNA的read counts，u为取对数之后的表达值，则有：

u_ij＝log₂v_ij，i∈(1，n)，j∈(1，m) (1)

为肿瘤样本lincRNA方差，

为正常样本lincRNA方差；

对所有t检验得出的p值进行错误发现率(false discovery rate，FDR)校正，定义q为FDR校正后的数值，r为p值在m₁个lincRNA中排序后的位置，则有：

m₂＝m₁{|f_j|≥1，q_j≤0.05}，j∈(1，m₁) (7)。

4.根据权利要求2所述的子宫内膜癌早期预测方法，其特征在于，所述步骤2中的选取特征lincRNA表达数据，对每个样本进行数据标准化，公式为：

5.根据权利要求2所述的子宫内膜癌早期预测方法，其特征在于，所述步骤3中的使用支持向量机对标准化后的数据构建早期预测模型，具体为：

gamma＝[0.001，0.01，0.1，1，10，100] (9)

C＝[0.001，0.01，0.1，1，10，100] (10)

步骤3.3、使用最优参数和训练集+验证集的数据构建模型，最后用测试集对模型进行评估，评估指标包括精确度(accuracy)、准确率(precision)、召回率(recall)、特异性(specificity)、F1分数(F1 score)、马修斯相关系数(Matthews correlationcoefficient，MCC)和受试者工作曲线(receiver operating curve，ROC)下面积(areaunder the curve，AUC)；在测试集中，定义实际为肿瘤且预测为肿瘤计数为true positive(TP)，实际为正常但预测为肿瘤计数为false positive(FP)，实际为肿瘤但预测为正常为false negative(FN)，实际为正常且预测为正常为true negative(TN)。以上评估指标计算公式为：

以上评估指标中精确度、准确率、召回率、特异性、F1分数和AUC返回介于(0，1)之间的值；精确度越高表示模型总体预测效率越高；准确率越高说明犯I类错误越小；召回率越高说明犯II类错误越小；特异性高说明在预测为正例的样本中很少有负例混入；F1分数是一个综合指标，为准确率和召回率的调和平均；MCC是观察到的和预测的二元分类之间的相关系数，返回介于(-1，1)之间的值，其中1表示完美预测，0表示不比随机预测好，-1表示预测和观察之间的完全不一致；AUC越高表明分类器预测的正实例概率越高；因此，以上指标越接近1表明模型整体的预测效果越好；

6.根据权利要求2所述的子宫内膜癌早期预测方法，其特征在于，所述步骤4中的根据患者特征lincRNA的表达水平进行早期预测，具体为：

其中j为特征lincRNA编号，u_j′为标准化后的lincRNA数值；