CN106874705B

CN106874705B - 基于转录组数据确定肿瘤标记物的方法

Info

Publication number: CN106874705B
Application number: CN201510919456.2A
Authority: CN
Inventors: 李姣; 郑思
Original assignee: Institute of Medical Information CAMS
Current assignee: Institute of Medical Information CAMS
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2019-04-02
Anticipated expiration: 2035-12-11
Also published as: CN106874705A

Abstract

本发明公开一种基于转录组数据确定肿瘤标记物的方法，包括：(1)获得转录组数据，包括第一和第二转录组数据，第一和第二转录组数据分别包括第一和第二个体样本的mRNA、lncRNA和miRNA表达数据，第一和第二个体样本的区别包括分别具有一对相对表型特征中的一个；(2)分别建立个体具有表型特征与三种RNA表达量关系的正则化逻辑回归模型，分别利用模型对三种RNA表达数据进行回归，获得三种RNA分子回归系数；(3)利用网格搜索，分别依据三种RNA分子回归系数确定三种RNA阈值；(4)分别将三种RNA分子回归系数与对应阈值比较，确定三种RNA候选标记；(5)混合三种RNA候选标记物获得RNA混合数据，以RNA混合数据替代转录组数据进行(2)‑(4)，确定肿瘤标记物。

Description

基于转录组数据确定肿瘤标记物的方法

技术领域

本发明涉及生物信息学领域，具体的，本发明涉及一种基于转录组数据确定肿瘤标记物的方法和一组肿瘤标记物。

背景技术

每个细胞都有复杂的基因表达调控系统，通过相互协作来行使正常的生物学功能。对于复杂疾病生物系统的研究，需要整合实验和计算学方法来分析多层面的调控关系数据，进而发现致病机理，促进疾病的诊断和治疗。研究发现，一些基因在肿瘤组织中的异常表达，与肿瘤的发生、发展密切相关，进而成为重要的肿瘤标记物。此外，一些非编码RNA(比如microRNA、lncRNA等)在生命活动中也具有重要的调控功能，介导参与肿瘤的发生发展等生理病理过程。高通量组学技术的发展使我们能够从DNA、RNA、DAN蛋白等分子水平去探索生命活动的调节机制，发现跟肿瘤的诊断与治疗相关的分子标志物。

目前，基于肿瘤的基因表达数据的研究，发现了很多跟肿瘤的发生发展相关的异常表达因子，其中差异分析，生存分析，聚类分析等是常用的分析方法。而随着芯片技术的发展，microRNA、lncRNA等非编码RNA的表达数据逐渐获得，并用于肿瘤分子标记物寻找的研究当中。

但是，多数的研究都是基于单一类型的转录组表达数据进行分析，寻找到潜在的分子标记物，用于肿瘤的预后预测等。而对于少数的整合分析的研究，也仅限于对不同类型的RNA分子的表达数据进行相关性分析，预测RNA分子之间潜在的调控关系。

现有的这种基于单一类型的分子标记物进行肿瘤预后风险预测的方法存在一定的局限性，因为肿瘤具有较强的异质性，内部的调控系统是非常复杂的，不同类型的分子在不同层面起调控作用，基于单一类型的组学数据很难找到能够精确预测疾病预后的分子标记物。单一类型的分子标记物只能在一定程度上反应肿瘤内部的一些特征。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种商业选择。

依据本发明的一方面，本发明提供一种基于转录组数据确定肿瘤标记物的方法，该方法包括步骤：(1)获得转录组数据，所述转录组数据包括多个个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述转录组数据包括第一转录组数据和第二转录组数据，所述第一转录组数据包括多个第一个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述第二转录组数据包括多个第二个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述第一个体样本和所述第二个体样本分别具有一对相对表型特征中的一个，所述表型特征与所述肿瘤相关；(2)分别建立个体存在所述表型特征与所述个体的mRNA、lncRNA和miRNA表达量的关系的正则化的逻辑回归模型，分别利用建立的正则化的逻辑回归模型对所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据中的RNA分子进行回归分析，确定mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数；(3)利用网格搜索，分别依据所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数确定mRNA阈值、lncRNA阈值和miRNA阈值；(4)分别将所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数与其对应的阈值比较，以确定mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物；(5)混合所述mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物，获得RNA混合数据，以所述RNA混合数据替代所述转录组数据进行步骤(2)-(4)，以确定所述肿瘤标记物。

依据本发明的另一方面，本发明提供一组肿瘤标记物，所述肿瘤标记物利用上述本发明一方面的方法确定。

上述本发明的一方面的方法，将不同类型的RNA分子进行整合分析，挖掘出跟肿瘤发生发展相关的分子组合标记物，即确定能够预测肿瘤发生发展的RNA分子组合，作为肿瘤标记物。利用本发明的这一方法及确定的RNA特征因子组合能够提高肿瘤的发生风险、预后风险等的预测性能。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的实施例中的mRNA特征因子的分类效果的ROC评估曲线；

图2是本发明的实施例中的miRNA特征因子的分类效果的ROC评估曲线；

图3是本发明的实施例中的lncRNA特征因子的分类效果的ROC评估曲线；

图4是本发明的实施例中的三种类型RNA组合特征因子的分类效果的ROC评估曲线；

图5是本发明的实施例中的基于转录组数据确定肿瘤标记物的方法的流程示意图。

具体实施方式

根据本发明的一个实施方式提供的一种基于转录组数据确定肿瘤标记物的方法，该方法包括步骤以下步骤：

(1)获得转录组数据。

获取转录组数据，所述转录组数据包括多个个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述转录组数据包括第一转录组数据和第二转录组数据，所述第一转录组数据包括多个第一个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述第二转录组数据包括多个第二个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述第一个体样本和所述第二个体样本分别具有一对相对表型特征中的一个，所述表型特征与所述肿瘤相关。

所称的相对表型特征为肿瘤发生发展相关的特征，一对相对表型特征例如为致癌与不致癌、预后生存时间大于5年与小于5年、癌转移与癌未转移等，对应的，最终确定的肿瘤标记物可用于预测个体是否患病、预后情况、癌是否发生等。

转录组数据可以来自基因芯片数据，也可以来自测序数据。根据本发明的一个实施例，所称的转录组数据为经过标准化处理的基因芯片数据。对基因芯片数据的标准化处理，主要目的是消除由于实验技术所导致的表达量的变化，并且使各个样本和平行实验的数据处于相同的水平，从而使可以得到具有生物学意义的基因表达量的变化。根据本发明的一个实施例，所称转录组数据经过分位数标准化处理。分位数标准化(QuantileNormalization)属于芯片间数据标准化，一般芯片的杂交实验很容易产生误差，所以经常一个样本要做3～6次的重复实验；平行实验间的数据差异可以通过QuantileNormalization去处掉。总平行实验的前提条件是假设n次实验的数据具有相同的分布，其算法主要分为三步：1)对每张芯片的数据点排序；2)求出同一位置的几次重复实验数据的均值，并用该均值代替该位置的基因的表达量；3)将每个基因还原到本身的位置上。

根据本发明的一个实施例，发明人从NCBI GEO数据库下载得119个食管癌(ESCC)样本的正常组织和肿瘤组织的mRNA，lncRNA以及miRNA芯片表达数据。所称mRNA表达数据、lncRNA表达数据和miRNA表达数据中的RNA分子均为在正常样本和ESCC肿瘤样本中表达具有显著性差异的RNA分子。按照生存时间是否大于5年，可将这119个ESCC样本分成预后生存时间大于5年(long-term)和小于5年(short-term)两个组。

根据本发明的一个实施例，所称的转录组通过对RNA进行测序文库制备、上机测序获得，获取所称转录组数据，可以包括：获取样本中的RNA，制备RNA测序文库，对RNA测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行，测序方法依据测序平台的不同可选择但不限于Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台和单分子测序平台，测序方式可以选择单端测序，也可以选择双末端测序，获得的下机数据是测读出来的片段，称为读段(reads)。

(2)建立正则化的逻辑回归模型，分别对三种类型的RNA分子进行回归分析。

分别建立个体存在所述表型特征与所述个体的mRNA、lncRNA和miRNA表达量的关系的正则化的逻辑回归模型，分别利用建立的正则化的逻辑回归模型对所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据中的RNA分子进行回归分析，确定mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数。

逻辑回归(Logistic回归)是一种非常高效的分类器，它不仅可以预测样本的类别，还可以计算出分类的概率信息。根据本发明的实施例，利用逻辑回归分析确定各类型RNA表达数据中的RNA分子的回归系数，以确定各种类型RNA表达数据中哪些RNA分子表达对个体具有所称表型特征有显著影响。在模型中，所称表型特征为定性分类变量，为因变量，对应的，最终确定的RNA组合标记物即自变量组合可用于预测个体是否患病、预后情况、癌是否发生等。

逻辑回归模型可以表示为Logit(P(Y＝1|Z))＝ln(P/(1-P))＝a+вZ。根据本发明的实施例，所称一对相对表型特征为肿瘤患者的预后存活时间大于5年和肿瘤患者的预后存活时间小于5年，则上述逻辑回归模型中，Y＝1表示样本来自预后存活时间大于5年的肿瘤患者，Y＝0表示样本来自预后存活时间小于5年的肿瘤患者，Z为不同RNA分子的表达数据矩阵，a为常数项，B为参数向量，B中的每个元素为每个RNA分子的回归系数，回归系数能够用以表明该RNA分子对患者具有该表型特征的预测作用的相对大小，P(Y＝1|Z)表示在Z发生的条件下、Y＝1发生的概率。

根据本发明的一个实施例，进行该步骤之前，分别对所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据进行聚类，获得N1个mRNA簇、N2个lncRNA簇和N3个miRNA簇，并且，以所述mRNA簇、lncRNA簇和miRNA簇分别替代所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据以进行后续步骤。

聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。

聚类可采用各种聚类算法，本实施方式对此不作限定。根据本发明的一个实施例，利用k-means(k均值)算法进行所述聚类。对所称119个ESCC样本，采用k-means聚类，将miRNA，lncRNA，mRNA分子按其在119个ESCC样本中的表达状况，分别分成15,7,10簇，同一个簇的RNA在ESCC患者中具有相似的表达模式。K-Means(K均值)算法首先随机的指定K个簇中心，然后：1)将每个实例分配到距它最近的簇中心，得到K个簇；2)计分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。重复1)和2)，直到K个簇中心的位置都固定，簇的分配也固定。

根据本发明的一个实施例，步骤(2)包括：建立逻辑回归模型，利用组套索算法正则化所述逻辑回归模型，以获得所述正则化的逻辑回归模型。

组套索(Group LASSO)算法是套索(LASSO)算法的延伸，其在对具有多个分类的变量进行选择时以整个变量组为单位，而不是选择其中某个分类。该方法通过对调整参数λ进行控制，可以使得回归系数总体变小，会使其中的某些回归系数变为0，这样就达到了进行变量选择的目的。选择不同的λ可以对回归模型中的自变量个数进行选择。当λ＝0时,所有因素将被包含在模型中，而随着λ的增大，选入模型的变量会减少。当λ＝λmax，只有截距在模型中。

通常可以采用K-倍交叉验证法对最佳λ进行估计。交叉验证是一种用来评价一个统计分析的结果是否可以推广到一个独立的数据集上的技术；主要用于预测，即想要估计一个预测模型的实际应用中的准确度；它是一种统计学上将数据样本切割成较小子集的实用方法；可先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。所称K-倍交叉验证，是将样本分成k个子集，每个子集均做一次测试集，其余的作为训练集。交叉验证重复k次，每次选择一个子集作为测试集，并将k次的平均交叉验证识别正确率作为结果。该交叉验证法的优点是，所有的样本都被作为了训练集和测试集，每个样本都被验证一次。十折交叉验证通常被使用，十折交叉验证(10-fold cross-validation)用来测试算法准确性，是常用的测试方法。具体为：将数据集分成十分，轮流将其中9份作为训练数据，1份作为测试数据，进行试验；每次试验都会得出相应的正确率(或差错率)；10次的结果的正确率(或差错率)的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证(例如10次10折交叉验证)，再求其均值，作为对算法准确性的估计。根据本发明的一个实施例，先将119个ESCC样本随机分成10组，其中有9个组每组含有11个样本，而有1个组只含有10个样本；以便于利用十折交叉验证进行最佳λ估计。

根据本发明的一个实施例，所述建立逻辑回归模型，利用组套索算法正则化所述逻辑回归模型，包括确定最佳调整参数λ，其中包括：确定所述调整参数的最大值λmax；对λ进行从0到λmax的网格化划分，任选的对λ进行从0到λmax的幂函数网格化划分，获得2+Num1个λi，其中i∈[0,Num1]，任选的Num1为该种类型的RNA分子的个数；对于每个λi，基于所述转录组数据中的该种类型的RNA表达数据和所述逻辑回归模型，采用k倍交叉验证，确定其所对应的预测概率，其中包括，基于训练集确定所述逻辑回归模型的回归系数，基于验证集、利用确定了回归系数的逻辑回归模型预测个体样本存在所述表型特征的概率，获得k个所述预测概率；基于比较所述预测概率与其真实值的差异，利用ROC分析进行评估，确定最大AUC对应的λi为所述最佳调整参数。

ROC分析指ROC曲线(receiver operating characteristic curve，接收者操作特征曲线)，是一种二元分类模型，即输出结果只有两种类别的模型。考虑一个二分问题，即将实例分成正类(positive)或负类(negative)，对一个二分问题来说，会出现四种情况：如果一个实例是正类并且也被预测成正类，即为真正类(True positive，TP)，如果实例是负类被预测成正类，称之为假正类(False positive，FP)，相应地，如果实例是负类被预测成负类，称之为真负类(True negative，TN)，正类被预测成负类则为假负类(false negative，FN)。TP：正确肯定的数目；FN：漏报，没有正确找到的匹配的数目；FP：误报，给出的匹配是不正确的；TN：正确拒绝的非匹配对数。为了形象化这一变化，引入ROC，ROC曲线可以用于评价一个分类器，即评价引入不同λ的正则化逻辑回归模型。AUC(Area Under rocCurve)为ROC曲线下方的面积，AUC值介于0.5到1.0之间，AUC越大，分类器分类效果越好。

(3)确定阈值。

利用网格搜索，分别依据所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数确定mRNA阈值、lncRNA阈值和miRNA阈值。通过确定的阈值，以筛选出合适数量的对表型特征影响重大的自变量，即RNA分子。所称的网格搜索，本质上是尝试各种可能的阈值。

采用基于网格搜索的交叉验证法来选择模型参数，避免了模型参数选择的盲目性和随意性。根据本发明的一个实施例，步骤(3)包括：确定所述阈值cutoff的最大值cutoffmax，其中包括，分别将RNA(模型中作为应变量)的回归系数按照绝对值进行排序，分别以mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数中的绝对值最大的回归系数为该种类型RNA的阈值最大值cutoff_max；对cutoff进行从0到cutoff_max的网格化划分，任选的对cutoff进行从0到cutoff_max的幂函数网格化划分，获得2+Num2个cutoff_j，其中j∈[0,Num2]，任选的Num2为该种类型RNA分子的个数；对于每个cutoff_j，采用留一法交叉验证，确定其所对应的预测概率，其中包括，选取该种类型RNA表达数据中回归系数绝对值大于cutoff_j的RNA分子作为新模型的自变量，基于训练集确定所述新模型的回归系数，基于验证集、利用确定了回归系数的新模型预测个体样本存在所述表型特征的概率，获得2+Num2个所述预测概率，所述新模型为一逻辑回归模型；基于比较所述预测概率与其真实值，利用ROC分析进行评估，确定最大AUC对应的cutoff_j为所述阈值。

所称的留一法交叉验证(least-one-out cross-validation，loocv)为：假设样本数据集中有N个样本数据，将每个样本单独作为测试集，其余N-1个样本作为训练集，这样得到了N个分类器或模型，用这N个分类器或模型的分类准确率的平均数作为此分类器的性能指标。该交叉验证法的优点为：每一个分类器或模型都是用几乎所有的样本来训练模型，最接近样本，这样评估所得的结果比较可靠；实验没有随机因素，整个过程是可重复的。

(4)特征提取。

分别将所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数与其对应的阈值比较，以确定mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物。

分别将各种类型RNA表达数据中的RNA分子的回归系数与该种类型RNA阈值比较，筛选各类型RNA回归模型中的回归系数大于其阈值的RNA分子，作为特征因子。所称的特征因子为筛选出的个体具有所称表型特征的影响因素。

根据本发明的一个实施例，依照上述方法，基于119个食管癌(ESCC)样本的正常组织和肿瘤组织的mRNA，lncRNA以及miRNA芯片表达数据，发明人分别筛选得到43个lnRNA特征因子、58个miRNA特征因子和9个mRNA特征因子。基于这些特征因子的表达数据以及确定的调整参数，发明人重新构建回归模型，并用留一法对模型进行了估计，如图1-3所示。从图1-3可看出，筛选的三种类型RNA特征因子都有很强的肿瘤预后预测能力，分别利用基于三种类型特征因子的逻辑回归模型对样本进行分类，AUC值分别为0.8517、0.8502和0.8094。

(5)确定肿瘤标记物。

混合所述mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物，获得RNA混合数据，以所述RNA混合数据替代所述转录组数据进行步骤(2)-(4)，以确定所述肿瘤标记物。

根据本发明的一个实施例，按照这种分析思路基于119个食管癌(ESCC)样本的正常组织和肿瘤组织的mRNA，lncRNA以及miRNA芯片表达数据，发明人最后得到84个组合RNA特征因子(Com-RNA特征因子)，包含9个mRNA、58个miRNA和43个lncRNA。对于这组特征因子的表达数据以及确定的调整参数，发明人重新构建回归模型，并用留一法对模型进行了预测效率检验，如图4所示。

对比图1-3，从图4可看出，组合RNA特征因子对样本的预后情况的分类效果更佳。

利用上述方法，发明人整合分析RNA、microRNA、lncRNA表达数据，发现跟表型特征相关，例如跟肿瘤预后相关的RNA分子特征，再通过筛选将这些分子特征组成一个组合，用于样本具有表型特征预测。主要步骤可归结如下：

1.分别对不同类型的RNA表达数据进行预处理，采用logistic回归，结合Lasso进行参数估计，继而筛选出三组RNA特征因子。用交叉验证进行模型评估，以及不同类型RNA分子对样本表型特征预测效果的比较分析。

2.对1筛选出的三组RNA特征因子进行整合分析，结合lasso-logistic方法进行特征筛选，最后得到一组包含不同种类的RNA分子的特征因子，用于肿瘤的风险预测。

依据本发明的另一个实施方式提供的一组肿瘤标记物，所述肿瘤标记物利用上述本发明任一实施例中的方法确定。

利用上述任一实施例中的方法，将不同类型的RNA分子进行整合分析，挖掘出跟肿瘤发生发展相关的分子组合标记物，即确定能够预测肿瘤发生发展的RNA分子组合，作为肿瘤标记物。不同的RNA分子之间也存在一定的协同或者拮抗效用。利用本发明的方法及确定的RNA特征因子组合能够提高肿瘤的发生风险、预后风险等的预测效率，对于肿瘤的诊断与治疗具有积极的意义。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。需要说明的，本文中所使用的术语“第一”或者“第二”等仅为方便描述，不能理解为指示或暗示相对重要性，也不能理解为之间有先后顺序关系。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。在本文中，除非另有明确的规定和限定，术语“相连”、“连接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

以下结合具体实施例对本发明的方法和/或装置进行详细的描述。除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的，例如购买Illumina的转录组文库构建试剂盒。

实施例

1、数据描述

119个ESCC样本的正常组织和肿瘤组织的mRNA，lncRNA以及miRNA芯片表达数据(Agilent RNA表达芯片)。

2、数据前期处理

对于miRNA，去掉缺失值后选取208个miRNA在119个样本中的表达数据；对于lncRNA，筛选注释到特定数据集(UCSC,ENCODE,Cabili等)的probe，后续进行log转化，筛选表达活跃并且在肿瘤和正常组织中差异表达的分子，最后得到149个lncRNA在119个样本中的表达数据；对于mRNA，筛选方法类似于lncRNA的处理，最后得到175个mRNA在119个样本中的表达数据。对RNA表达数据进行标准化，这些数据被用于后续的分析。

3、采用基于group-lasso的logistic进行miRNA、lncRNA和mRNA的特征筛选

3.1样本分组：将119个ESCC样本按照生存时间是否大于5年，分成long-term(47)和short-term(72)两个组。

3.2RNA分组：采用k-means聚类，将miRNA，lncRNA，mRNA分子按其在119个ESCC样本中的表达状况，分别分成15、7和10簇。同一个簇中的RNA在ESCC患者中具有相似的表达模式(注：RNA的簇数可以调整，此处发明人是综合RNA个数及初步聚类的结果进行确定的)。

3.3特征筛选模型定义：对于三种RNA在ESCC样本中的表达数据，分别采用logistic回归模型：Logit(P(Y＝1|Z))＝а+вZ′，其中Y＝1标示该样本是低风险的(即生存时间大于5年的long-term)，而Y＝0标示该样本是高风险的(即生存时间少于5年的short-term)。Z是RNA分子的表达矩阵。3.2中得到的RNA分类情况来标识RNA不同的组别。采用Rpackage中的group-lasso进行回归系数的参数估计。

3.4在实际计算中，采用十折交叉验证进行参数估计和特征筛选。先将119个ESCC样本随机分成10组，其中有9个组每组含有11个样本，而有1个组只含有10个样本。

Step1.调整参数lambda(λ)估计：

先确定lasso-logistic模型中的调整参数lambda的最大值lambda_max，再对调整参数lambda进行0到lambda_max的幂函数网格化划分，即lambdai＝lambdamax*0.5^i，其中i∈[0,Num(RNA)]，Num(RNA)是RNA分子的个数(注：此处调整参数lamnda也可以用其它方式进行网格化，网格化次数Num(RNA)也可以进行调整)。对于lambda_i，i∈[0,Num(RNA)]，采用10折交叉验证每次采用9组ESCC样本的表达数据，用3.3定义的模型估计回归模型参数，再对剩余1组ESCC样本的生存状况Y’进行预测，最后对10次预测得到的概率p进行汇总，与实际Y比较并采用AUC进行效率评估。选取最好的AUC对应的lambdai确定为最终的调整参数。

Step2.回归模型估计：

采用确定的调整参数lambda，RNA分组信息及表达数据等，采用119个ESCC患者的表达数据，采用(2)定义的模型进行logistic回归估计。得到的回归参数可以标示每个RNA分子对于患者的生存状况Y(long-term或者short-term)的重要性。

Step3.特征提取：

对每种类型RNA的表达数据得到的logistic回归模型，分别将RNA(模型中作为应变量)的回归系数按照绝对值进行排序，确定绝对值最大的为max。对cutoff进行cutoffi＝max*0.9^i，的幂函数网格化划分，其中i∈[0,100](注：此处cutoff的网格化划分也可以用其它方法，网格化次数也可以进行调整)。后续对于每个cutoffi，选取回归系数绝对值大于cutoffi的RNA因子作为新模型中的自变量，并采用留一法进行交叉验证，最后选取效率最高的cutoff，筛选RNA特征因子。依照这种方法，我们分别筛选得到43个lnRNA特征因子、58个miRNA特征因子和9个mRNA特征因子。对于这些特征因子的表达数据以及确定的调整参数，我们重新构建回归模型，并用留一法对模型进行了估计，分别如图1-3所示。

Step4.混合特征因子筛选：

不同的RNA分子之间存在潜在的相互作用，进一步，将Step3得到的不同类型的RNA特征因子的表达数据进行混合。采用Step1、Step2和Step3相同的分析策略，对混合RNA表达数据进行分析，并提取特征因子。按照这种分析思路，最后得到84个Com-RNA特征因子(包含9个mRNA、58个miRNA和43个lncRNA)。对于这组特征因子的表达数据以及确定的调整参数，我们重新构建回归模型，并用留一法对模型进行了预测效率检验，如图4所示。

图5示意以上总体步骤流程。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于转录组数据确定肿瘤标记物的方法，其特征在于，包括：

(1)获得转录组数据，所述转录组数据包括多个个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，所述转录组数据包括第一转录组数据和第二转录组数据，

所述第一转录组数据包括多个第一个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，

所述第二转录组数据包括多个第二个体样本的mRNA表达数据、lncRNA表达数据和miRNA表达数据，

所述第一个体样本和所述第二个体样本分别具有一对相对表型特征中的一个，所述表型特征与所述肿瘤相关；

(2)分别建立个体存在所述表型特征与所述个体的mRNA、lncRNA和miRNA表达量的关系的正则化的逻辑回归模型，分别利用建立的正则化的逻辑回归模型对所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据中的RNA分子进行回归分析，确定mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数，

其中，建立逻辑回归模型，利用组套索算法正则化所述逻辑回归模型，包括确定调整参数λ，包括，

确定所述调整参数的最大值λmax，

对λ进行从0到λmax的网格化划分，任选的对λ进行从0到λmax的幂函数网格化划分，获得2+Num1个λi，其中i∈[0,Num1]，任选的Num1为该种类型的RNA分子的个数，

对于每个λi，基于所述转录组数据中的该种类型的RNA表达数据和所述逻辑回归模型，采用k倍交叉验证，确定其所对应的预测概率，其中包括，基于训练集确定所述逻辑回归模型的回归系数，利用确定了回归系数的逻辑回归模型预测验证集中个体样本存在所述表型特征的概率，获得k个所述预测概率，

基于比较所述k个预测概率与其真实值的差异，利用ROC分析进行评估，确定最大AUC对应的λi为所述调整参数；

(3)利用网格搜索，分别依据所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数确定mRNA阈值、lncRNA阈值和miRNA阈值，

其中，步骤(3)是通过下列方式实现的：

确定所述阈值cutoff的最大值cutoff_max，其中包括，分别以mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数中的绝对值最大的回归系数为该种类型RNA的阈值最大值cutoff_max，

对cutoff进行从0到cutoff_max的网格化划分，任选的对cutoff进行从0到cutoff_max的幂函数网格化划分，获得2+Num2个cutoff_j，其中j∈[0,Num2]，任选的Num2为该种类型RNA分子的个数，

对于每个cutoff_j，采用留一法交叉验证，确定其所对应的预测概率，其中包括，选取该种类型RNA表达数据中回归系数绝对值大于cutoff_j的RNA分子作为新模型的自变量，基于训练集确定所述新模型的回归系数，基于验证集、利用确定了回归系数的新模型预测个体样本存在所述表型特征的概率，获得2+Num2个所述预测概率，所述新模型为另一逻辑回归模型，

基于比较所述2+Num2个预测概率与其真实值的差异，利用ROC分析进行评估，确定最大AUC对应的cutoff_j为所述阈值；

(4)分别将所述mRNA分子回归系数、lncRNA分子回归系数和miRNA分子回归系数与其对应的阈值比较，以确定mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物；

(5)混合所述mRNA候选标记物、lncRNA候选标记物和miRNA候选标记物，获得RNA混合数据，以所述RNA混合数据替代所述转录组数据进行步骤(2)-(4)，以确定所述肿瘤标记物。

2.根据权利要求1所述的方法，其特征在于，所述转录组数据为基因芯片数据，所述mRNA表达数据、lncRNA表达数据和miRNA表达数据中的RNA分子均为在正常样本和肿瘤样本中表达具有显著性差异的RNA分子。

3.根据权利要求2所述的方法，其特征在于，步骤(1)包括，

所述转录组数据为经过标准化处理的数据，任选的经过分位数标准化处理。

4.根据权利要求1所述的方法，其特征在于，进行步骤(2)之前，

分别对所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据进行聚类，获得N1个mRNA簇、N2个lncRNA簇和N3个miRNA簇，

以所述mRNA簇、lncRNA簇和miRNA簇分别替代所述转录组数据中的mRNA表达数据、lncRNA表达数据和miRNA表达数据。

5.根据权利要求4所述的方法，其特征在于，利用k-means算法进行所述聚类。

6.根据权利要求1所述的方法，其特征在于，所述一对相对表型特征为肿瘤患者的预后存活时间大于5年和肿瘤患者的预后存活时间小于5年，表示所述逻辑回归模型为Logit(P(Y＝1|Z))＝a+вZ，其中，

Y＝1表示样本来自预后存活时间大于5年的肿瘤患者，

Y＝0表示样本来自预后存活时间小于5年的肿瘤患者，

Z为不同RNA分子的表达数据矩阵，

a为常数项，

B为向量，B中的每个元素为每个RNA分子的回归系数。

7.一组肿瘤标记物，其特征在于，所述肿瘤标记物利用权利要求1-6任一方法确定。