CN109830264A

CN109830264A - 肿瘤患者基于甲基化位点进行分类的方法

Info

Publication number: CN109830264A
Application number: CN201910197422.5A
Authority: CN
Inventors: 祝让飞
Original assignee: Hangzhou Mu Gu Technology Co Ltd
Current assignee: Hangzhou Mu Gu Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-05-31
Anticipated expiration: 2039-03-15
Also published as: CN109830264B

Abstract

本发明公开了一种肿瘤患者基于甲基化位点进行分类的方法。所述方法包括：获取临床随访信息数据中肿瘤患者基因中的甲基化位点；其中，所述肿瘤患者临床随访信息数据分为训练集数据和验证集数据；对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点；对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点；将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型；其中，每个所述肿瘤患者的第二数目显著甲基化位点都会聚类成一种分子亚型，所述分子亚型包括七种。通过本方法能够为肿瘤的诊断和预后提供指导。

Description

肿瘤患者基于甲基化位点进行分类的方法

技术领域

本发明涉及肿瘤基因分类领域，并且更具体地，涉及一种肿瘤患者基于甲基化位点进行分类的方法。

背景技术

肿瘤是指机体在各种致瘤因子作用下，局部组织细胞增生所形成的新生物。良性肿瘤生长缓慢，不转移，除了有局部压迫症状，一般无全身症状。而恶性肿瘤症状较复杂，根据原发部位与侵犯部位不同，症状也不同，比如食管癌常出现吞咽困难，肺癌有咳嗽、咯血等症状，恶性肿瘤的特点是易发生转移，晚期常常有全身症状，如发热、食欲差、消瘦、贫血等症状。肿瘤具有难以治愈的特点，恶性肿瘤如能早期诊断，可防止病情恶化，提高生存质量，减轻痛苦，延长生命。

现有对肿瘤的诊断依据包括：1.肿瘤标志物，虽然肿瘤标志物缺乏特异性，但在辅助诊断和判断预后等方面仍有一定价值；2.基因检测，可确定是否有肿瘤或癌变的特定基因存在，从而做出诊断；3.内镜检查，应用腔镜和内镜技术直接观察空腔脏器和体腔内的肿瘤或其他病变，并可以通过内镜取组织或细胞进行组织病理学诊断；4.病理学检查，病理学检查为目前具有确诊意义的检查手段。

目前，对于基因检测进行肿瘤的诊断，其关于不同表观遗传亚型的诊断和预后提供的依据较少。

发明内容

基于此，针对上述问题，提供一种能够肿瘤基因进行特征提取的肿瘤患者基于甲基化位点进行分类的方法。

一种肿瘤患者基于甲基化位点进行分类的方法，所述方法包括：

获取临床随访信息数据中肿瘤患者基因中的甲基化位点；

对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点；

对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点；

将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型；其中，每个所述肿瘤患者的第二数目显著甲基化位点都会聚类成一种分子亚型，所述分子亚型包括七种。

在其中一个实施例中，在所述获取临床随访信息数据中肿瘤患者基因中的甲基化位点之前，包括：

下载临床随访信息数据；

获取随访时间超过三十天的所述临床随访信息数据；和/或

在所述对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点之前，包括：对所述甲基化位点进行预处理。

在其中一个实施例中，所述对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点，包括：

对每个所述甲基化位点结合患者的生存数据，分别进行单变量Cox比例风险回归模型分析，得到每个所述甲基化位点的显著性水平阈值；所述单变量包括肿瘤的TNM分期、患者年龄、肿瘤的分期条件和患者性别中的一种；

根据所述显著性水平阈值小于0.05，选取第一数目显著甲基化位点。

在其中一个实施例中，所述对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点，包括：

对每个所述第一数目显著甲基化位点根据协变量进行Cox比例风险回归模型分析，得到每个所述第一数目显著甲基化位点的显著性水平阈值；其中，所述协变量包括TNM分期、患者年龄、肿瘤的分期条件；

根据所述显著性水平阈小于0.05，选取第二数目显著甲基化位点。

在其中一个实施例中，所述将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型，包括：

对所述临床随访信息数据中肿瘤患者按照预设的比例进行多次抽样，获得多个聚类样本；

对每个所述聚类样本中的每个肿瘤患者的第二数目显著甲基化位点，通过K-means聚类方法进行一致性聚类，得到每个所述聚类样本的聚类结果；其中，通过累计分布函数确定K-means聚类方法中聚类数目；

对多个所述聚类结果进行稳定性分析，确定稳定性最高的聚类数目；

根据所述稳定性最高的聚类数目，确定所述肿瘤患者所属的分子亚型；

其中，聚类结果为所述聚类样本中对肿瘤患者分成的分子亚型的数目。

在其中一个实施例中，所述方法还包括：

根据所述临床随访信息数据抽取预设数目的肿瘤患者样本；

将所述肿瘤患者样本中的所有肿瘤患者按照分子亚型分成7类；

将每一类的所述肿瘤患者的第二数目显著甲基化位点进行甲基化表达谱聚类分析，得到每一类的所述肿瘤患者的每个显著甲基化位点的的丰度和每一类的所述肿瘤患者甲基化表达谱的差异。

在其中一个实施例中，所述方法还包括：每一类的所述肿瘤患者的第二数目显著甲基化位点进行临床特征分析，得到每一类的所述肿瘤患者在TNM分期、患者年龄、肿瘤的分期条件和患者性别的分布和预后关系。

在其中一个实施例中，所述方法还包括：

对所述第二数目显著甲基化位点进行基因注释；

根据所述基因注释，从所述第二数目显著甲基化位点中获取特异甲基化位点；

根据所述特异甲基化位点所属的分子亚型，判断每个所述分子亚型中特异甲基化位点所对应的基因参与的通路。

在其中一个实施例中，所述方法还包括：

获取对应的肿瘤患者最多且所述特异甲基化位点最多的分子亚型；

提取所述分子亚型中具有低甲基化特征的特异甲基化位点，和具有高甲基化特征的特异甲基化位点；

根据所述所述具有低甲基化特征的特异甲基化位点和所述具有高甲基化特征的特异甲基化位点，将所述肿瘤患者分为低甲基化组和高甲基化组；

对所述低甲基化组的肿瘤患者基因中和高甲基化组的肿瘤患者基因中的特异甲基化位点分布进行甲基化表达谱聚类分析，得到低甲基化预后特征和高甲基化预后特征；

比较所述低甲基化预后特征和高甲基化预后特征之间的差异，得到所述高甲基化预后效果低于所述低甲基化预后效果。

在其中一个实施例中，所述方法还包括：

获取特异甲基化位点最多的分子亚型，并获取所述分子亚型中的特异甲基化位点；

将每个所述肿瘤患者基因中的所述特异甲基化位点进行Cox比例风险回归模型分析，得到每个所述肿瘤患者的风险得分；其中，所述肿瘤患者属于特异甲基化位点最多的分子亚型；

对所述肿瘤患者根据所述风险得分进行排序和根据所述特异甲基化位点进行甲基化表达谱聚类分析，得到每个所述肿瘤患者的排序位置和每个所述肿瘤患者基因中的所述特异甲基化位点的丰度。

上述根据分子亚型对甲基化位点分类方法，能够根据每个肿瘤患者基因中的甲基化位点进行分析，判断所述肿瘤患者所属的分子亚型，再根据所述分子亚型的分子特征获得预后特征，通过本方法可以帮助识别出新的肿瘤标志物、实现肿瘤患者更加准确的细分，并且可以为关于不同表观遗传亚型的诊断和预后提供指导。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为一个实施例中肿瘤患者基于甲基化位点进行分类的方法的流程示意图；

图2为一个实施例中单变量Cox比例风险回归模型分析步骤的流程示意图；

图3为一个实施例中多变量Cox比例风险回归模型分析步骤的流程示意图；

图4为一个实施例中第二数目显著甲基化位点进行一致性聚类步骤的流程示意图；

图5为一个实施例中每类分子亚型对应的肿瘤患者的甲基化表达谱分析步骤的流程示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

在一个实施例中，如图1所示，提供了一种肿瘤患者基于甲基化位点进行分类的方法，所述方法包括步骤：

S110，获取临床随访信息数据中肿瘤患者基因中的甲基化位点。

其中，临床随访信息数据通过人工或者机器进行临床收集，其中，记录了病人的身份信息、病情信息、用药信息、生存和死亡信息、基因信息等。

具体的，通过TCGA RNA-Seq数据(肿瘤基因组图谱RNA序列数据)来对所述肿瘤患者的基因进行注释，并根据450k甲基化数据和27k甲基化数据用于确定肿瘤患者的甲基化位点，其中450k甲基化数据作为训练集数据，27k甲基化数据作为验证集数据。所述训练集数据用于根据每个肿瘤患者的甲基化位点的表达特征进行分类，所述验证集数据用于对分类结构进行验证分析。

S120，对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点。

其中，Cox比例风险回归模型可以通过R包survival coxph function实现，这是在常用的医学研究调查中用来统计患者和一个预测变量的存活时间之间的关联的回归模型。经过单变量Cox比例风险回归模型分析得到的关于每个甲基化位点的显著性水平阈值p、风险系数和统计学上的置信区间值。

具体的，第一数目显著甲基化位点为864个。

S130，对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点。

具体的，第二数目显著甲基化位点为356个。

S140，将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型。其中，每个所述肿瘤患者的第二数目显著甲基化位点都会聚类成一种分子亚型，所述分子亚型包括七种。

其中，根据每个肿瘤患者基因中的第二数目甲基化位点的表达情况进行分析，通过聚类的方法，获得第二数目甲基化位点总共有七中表达情况，即七种分子亚型，相应的所述肿瘤患者也会分成七个类别，这七个类别的肿瘤患者其诊断和预后均存在不同。

上述肿瘤患者基于甲基化位点进行分类的方法中，能够根据每个肿瘤患者基因中的甲基化位点进行分析，判断所述肿瘤患者所属的分子亚型，再根据所述分子亚型的分子特征获得预后特征，通过本方法可以帮助识别出新的肿瘤标志物、实现肿瘤患者更加准确的细分，并且可以为关于不同表观遗传亚型的诊断和预后提供指导。

在其中一个实施例中，在步骤110之前，即所述获取临床随访信息数据中肿瘤患者基因中的甲基化位点之前，包括步骤：

下载临床随访信息数据。

获取随访时间超过三十天的所述临床随访信息数据。

其中，超过三十天的所述临床随访信息数据能够获取更多的肿瘤患者的信息。

在其中一个实施例中，在所述对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点之前，包括：对所述甲基化位点进行预处理。

其中，所述预处理包括：去除样本中NA值比例超过70％的甲基化位点，去除基因中存在交叉反应(cross-reactive)的甲基化位点，将不稳定的基因组甲基化位点移除(包括性染色体上的CpGs位点和单核苷酸位点的移除)，取450k甲基化数据和27k甲基化数据共同的甲基化位点。最后，通过预处理得到的甲基化位点为22830个。

在其中一个实施例中，如图2所示，在步骤S120中，所述对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点，包括：

S121，对每个所述甲基化位点结合患者的生存数据，分别进行单变量Cox比例风险回归模型分析，得到每个所述甲基化位点的显著性水平阈值。

其中，所述单变量包括肿瘤的TNM分期、患者年龄、肿瘤的分期条件和患者性别中的一种。TNM分期系统是目前国际上最为通用的肿瘤分期系统，美国癌症联合委员会(AJCC，American Joint Committee on Cancer)和国际抗癌联盟(UICC，Union forInternational Cancer Control)逐步开始建立国际性的分期标准，目前已成为临床医生和医学科学工作者对于恶性肿瘤进行分期的标准方法，T分期表示肿瘤原发病灶、N分期表示淋巴结转移情况、M分期表示远端脏器转移情况。肿瘤的分期条件与TNM分期类似，也是一个对肿瘤的状态的评定系统。

其中，单变量Cox比例风险回归模型是根据每一个甲基化位点以及肿瘤患者的生存数据建立的，生存数据是临床随访信息数据中记录患者死亡或者生存状态、从患病到随访截止的天数，如果患者已经死亡记录死亡天数。单变量Cox比例风险回归模型，一次只考虑其中一个变量，因此输入模型的参数只变化其中一个变量，其它的变量不变。

S122，根据所述显著性水平阈值小于0.05，选取第一数目显著甲基化位点。

其中，每个甲基化位点，根据肿瘤患者的生存数据，根据Cox比例风险回归模型能够分析得到显著性水平阈值p、风险系数和统计学上的置信区间值。根据甲基化位点的显著性水平阈值p小于0.05，选出第一数目显著甲基化位点。其中，第一数目为864个。

在其中一个实施例中，如图3所示，在步骤S130中，所述对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点，包括：

S131，对每个所述第一数目显著甲基化位点根据协变量进行Cox比例风险回归模型分析，得到每个所述第一数目显著甲基化位点的显著性水平阈值。

其中，所述协变量包括TNM分期、患者年龄、肿瘤的分期条件。多变量Cox比例风险回归模型与单变量Cox比例风险回归模型不同的是，多变量Cox比例风险回归模型一次考虑多个变量，因此输入模型的参数变化多个协变量。

S132，根据所述显著性水平阈小于0.05，选取第二数目显著甲基化位点。

其中，每个甲基化位点，根据肿瘤患者的生存数据，根据Cox比例风险回归模型能够分析得到显著性水平阈值p、风险系数和统计学上的置信区间值。对第一数目显著甲基化位点，根据协变量通过Cox比例风险回归模型分析，再次计算得到的显著性水平阈p，在根据显著性水平阈p小于0.05，选取第二数目显著甲基化位点。其中，第二数目为356个。

在其中一个实施例中，如图4所示，在步骤S140中，所述将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型，包括：

S141，对所述临床随访信息数据中肿瘤患者按照预设的比例进行多次抽样，获得多个聚类样本。

其中，预设比例为80％。具体的，通过100次抽样，得到100个样本，在对每一个样本进行分析。

S142，对每个所述聚类样本中的每个肿瘤患者的第二数目显著甲基化位点，通过K-means聚类方法进行一致性聚类，得到每个所述聚类样本的聚类结果。

其中，通过累计分布函数确定K-means聚类方法中聚类数目，累计分布函数主要是通过欧氏距离来计算样本中每个肿瘤患者之间的相似性距离，根据相似性距离来对样本中肿瘤患者进行分类。

S143，对多个所述聚类结果进行稳定性分析，确定稳定性最高的聚类数目。

其中，多个聚类样本有多种对肿瘤患者的分类方法，根据每个分类方法来进行稳定性分析，最终确定稳定性最高的分类方法以及对应的聚类数目。

S144，根据所述稳定性最高的聚类数目，确定所述肿瘤患者所属的分子亚型。

其中，聚类结果为所述聚类样本中对肿瘤患者分成的分子亚型的数目。所述聚类数目为7个，即7个分子亚型，每个分子亚型的甲基化位点的综合表达都会有比较相近的特征，因此，能够根据甲基化位点的综合表达的特征确定所述肿瘤患者所属的分子亚型。

在其中一个实施例中，如图5所示，一种肿瘤患者基于甲基化位点进行分类的方法，还包括步骤：

S150，根据所述临床随访信息数据抽取预设数目的肿瘤患者样本。

其中，预设数目为272个，当然272个只是一个例子，并不作为本申请的限定，预设数目还可以为其它数。

S160，将所述肿瘤患者样本中的所有肿瘤患者按照分子亚型分成7类。

具体的，根据上述实施例中的方法，可以知道每个肿瘤患者所属的分子亚型，因此，能够将样本中的肿瘤患者分到七个分子亚型对应的类别中。

S170，将每一类的所述肿瘤患者的第二数目显著甲基化位点进行甲基化表达谱聚类分析，得到每一类的所述肿瘤患者的每个显著甲基化位点的的丰度和每一类的所述肿瘤患者甲基化表达谱的差异。

其中，丰度表示所述显著甲基化位点的甲基化概率，丰度低表示所述显著甲基化位点的甲基化概率低，相应的丰度高表示所述显著甲基化位点的甲基化概率高。聚类分析采用欧式距离计算第二数目显著甲基化位点之间的相似性距离。

在其中一个实施例中，一种肿瘤患者基于甲基化位点进行分类的方法，还包括步骤：每一类的所述肿瘤患者的第二数目显著甲基化位点进行临床特征分析，得到每一类的所述肿瘤患者在TNM分期、患者年龄、肿瘤的分期条件和患者性别的分布和预后关系。

具体的，根据分析结果可以知道，7个分子亚型对应的肿瘤患者样本之间存在显著的预后差异。其中，Cluster3、Cluster4预后最好，Cluster7预后最差，这表示高甲基化样本的预后比低甲基化样本差，Cluster3、Cluster5与高的肿瘤的分期条件相关，Cluster4、Cluster5、Cluster7与低侵袭相关，Cluster4、Cluster7与低的淋巴结转移相关，Cluster3、Cluster4、Cluster5与高的远端脏器转移相关，Cluster7的年龄明显高于其他各组，以上这些结果表明使用这些分子亚型在临床特征上都存在显著的差别，其中，Cluster表示分子亚型的类别，如Cluster3表示第三类分子亚型，Cluster4表示第四类分子亚型。

在其中一个实施例中，一种肿瘤患者基于甲基化位点进行分类的方法，还包括步骤：

对所述第二数目显著甲基化位点进行基因注释。

其中，第二数目显著甲基化位点位于肿瘤患者的415个基因上，通过对这些基因做KEGG功能富集分析(通过R软件包clusterProfiler)，并且选择显著性水平阈小于0.05，所述415个基因能够富集到18个通路上，其中富集的基因最多的3条通路为人乳头瘤病毒的感染(Human papillomavirus infection)、抑癌基因通路(p53signaling pathway)、乳腺癌(Breast cancer)。进一步的使用Cytoscape的EnrichmentMap这个插件对富集到的通路进行串扰分析，通过计算雅卡尔系数和重叠系数来分析两两通路之间的关系，选择雅卡尔系数大于0.375，最终结果可以看出这些通路之间存在紧密的联系，主要与癌、信号传输通路(signaling pathway)、细胞周期(cell cycle)、人体抑癌基因(p53)等有关。

根据所述基因注释，从所述第二数目显著甲基化位点中获取特异甲基化位点。

具体的，对于第二数目显著甲基化位点中的任意一个甲基化位点A，使用Kolmogorov-Smirnov Tests来检验甲基化位点A在某个分子亚型的样本的甲基化水平的分布与非该分子亚型的样本的甲基化水平的分布是否差异记为q，然后再计算甲基化位点A在该分子亚型的甲基化平均水平与非该分子亚型的甲基化平均水平的比值FC，对于甲基化位点A在每个分子亚型都通过上述步骤进行计算，最后计算根据甲基化位点A得到的每一个q值的准确度值(FDR)，最后得到第二数目显著甲基化位点中每个甲基化位点的q、FC和FDR。根据每个甲基化位点的q、FC和FDR，设定满足条件：FDR<0.05和|log2(FC)|>0.585，则为甲基化位点在对应的分子亚型中是有差异的，然后统计每个分子亚型中具有差异的甲基化位点的个数，然后判断所述具有差异的甲基化位点是否满足仅在一个分子亚型中是具有差异的、而在其它分子亚型中不具有差异，如果满足判断条件，则所述所述具有差异的甲基化位点是特异甲基化位点。优选的，最终得到了36个特异甲基化位点，根据对每个分子亚型中的特异甲基化位点进行分析，发现Cluster4具有最多的特异性甲基化位点，全部为超低甲基化，而其他各类存在少量的特异性甲基化位点，大部分为超高甲基化。

具体的，对每个分子亚型中特异甲基化位点位于的基因进行做KEGG功能富集分析，并且选择显著性水平阈小于0.05，这些基因富集到14个通路上，Cluster2、Cluster4、Cluster7富集到相关的通路，Cluster2富集到了细胞凋亡(Apoptosis)、分泌(secretion)等通路，Cluster4富集到了醛固酮调节的钠重吸收(Aldosterone-regulated sodiumreabsorption)通路，Cluster7主要富集到多个代谢(metabolism)通路，这些结果表明这几个分子亚型各自具有不同的分子特征。

本实施例所述技术方案，能够判断甲基化位点如果发生改变，则会导致基因发生改变，进一步引起基因所富集的相关通路发生改变，进而引起疾病的发生。

获取对应的肿瘤患者最多且所述特异甲基化位点最多的分子亚型。

其中，所述肿瘤患者为上述实施例中预设数目的肿瘤患者样本中的肿瘤患者。特异甲基化位点最多的分子亚型可通过上述实施例分析得出。

提取所述分子亚型中具有低甲基化特征的特异甲基化位点，和具有高甲基化特征的特异甲基化位点。

根据所述所述具有低甲基化特征的特异甲基化位点和所述具有高甲基化特征的特异甲基化位点，将所述肿瘤患者分为低甲基化组和高甲基化组。

对所述低甲基化组的肿瘤患者基因中和高甲基化组的肿瘤患者基因中的特异甲基化位点分布进行甲基化表达谱聚类分析，得到低甲基化预后特征和高甲基化预后特征。

其中，对所述低甲基化组的肿瘤患者基因中和高甲基化组的肿瘤患者基因中的特异甲基化位点分布进行甲基化表达谱聚类分析包括：对低甲基化组的肿瘤患者基因中的特异甲基化位点分布进行甲基化表达谱聚类分析，和对高甲基化组的肿瘤患者基因中的特异甲基化位点分布进行甲基化表达谱聚类分析。

本实施例所述技术方法，能够说明甲基化位点能够作为预后标志物，用来预测预后。

获取特异甲基化位点最多的分子亚型，并获取所述分子亚型中的特异甲基化位点。

其中，根据上述实施例得到特异甲基化位点，能够获取特异甲基化位点最多的分子亚型。

将每个所述肿瘤患者基因中的所述特异甲基化位点进行Cox比例风险回归模型分析，得到每个所述肿瘤患者的风险得分。

其中，所述肿瘤患者属于特异甲基化位点最多的分子亚型。

具体的，利用R软件包survival的coxph函数对分析得到的Cluster4的18个特异甲基化位点的甲基化谱结合预后信息构建比例风险模型，计算风险得分：

RiskScore＝0.12*cg02196655+1.35*cg03763616+0.73*cg03944089+0.73*cg06117855+0.76*cg07173760-3.96*cg07293947-0.76*cg07509155+0.58*cg09244244+0.4*cg10451565+0.28*cg12582008+1.99*cg13796218+3.6*cg20247048+1.34*cg21481775+0.42*cg23829949-0.28*cg23964386+0.96*cg24127989-0.45*cg24674703+0.84*cg24938727；

其中，每个加数分别是18个特异甲基化位点的风险系数与甲基化位点水平值相乘得到，如0.12*cg02196655，0.12为风险系数，cg02196655为甲基化位点水平值。

其中，对特异甲基化位点最多的分子亚型对应的所述肿瘤患者计算风险得分，并且根据每个肿瘤患者所述特异甲基化位点进行甲基化表达谱聚类分析，得到每个所述肿瘤患者的排序位置和每个所述肿瘤患者基因中的所述特异甲基化位点的丰度。通过分析发现，可以看出随着风险得分的升高所述肿瘤患者在这18个位点的甲基化水平明显升高，同时风险得分最低的前50个肿瘤患者的特异甲基化位点的丰度明显低于其他样本，同时得到结果：低甲基化组为低风险病人，高甲基化组为高风险病人，并分析两类病人的预后差异，由此可以看出两类病人具有显著的预后差异。

通过上述实施例所述方法，本申请基于TCGA的大肠癌的甲基化谱识别出预后特异的甲基化构建了大肠癌的分类器；所述分类器可以帮助识别出新的大肠癌标志物或者是通过分子分组将大肠癌患者更加准确的细分；所述分类器可以为临床医生关于不同表观遗传亚型的诊断和预后提供指导；本申请实施例通过识别出的亚型特异的分子为大肠癌的精准医疗提供多个靶标。

在一个实施例中，提供一种肿瘤患者基于甲基化位点进行分类装置，所述装置包括：

甲基化位点获取模块，用于获取临床随访信息数据中肿瘤患者基因中的甲基化位点；

单变量Cox比例风险回归模型分析模块，用于对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点；

多变量Cox比例风险回归模型分析模块，用于对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点；

聚类模块，用于将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型；其中，每个所述肿瘤患者的第二数目显著甲基化位点都会聚类成一种分子亚型，所述分子亚型包括七种。

关于肿瘤患者基于甲基化位点进行分类装置的具体限定可以参见上文中对于肿瘤患者基于甲基化位点进行分类的方法的限定，在此不再赘述。上述肿瘤患者基于甲基化位点进行分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种肿瘤患者基于甲基化位点进行分类的方法，其特征在于，所述方法包括：

获取临床随访信息数据中肿瘤患者基因中的甲基化位点；

2.根据权利要求1所述的方法，其特征在于，在所述获取临床随访信息数据中肿瘤患者基因中的甲基化位点之前，包括：

下载临床随访信息数据；

获取随访时间超过三十天的所述临床随访信息数据；和/或

3.根据权利要求1所述的方法，其特征在于，所述对所述甲基化位点进行单变量Cox比例风险回归模型分析，得到第一数目显著甲基化位点，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第一数目显著甲基化位点进行多变量Cox比例风险回归模型分析，得到第二数目显著甲基化位点，包括：

5.根据权利要求1所述的方法，其特征在于，所述将每个所述肿瘤患者的第二数目显著甲基化位点进行一致性聚类，得到所述肿瘤患者所属的分子亚型，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述临床随访信息数据抽取预设数目的肿瘤患者样本；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：每一类的所述肿瘤患者的第二数目显著甲基化位点进行临床特征分析，得到每一类的所述肿瘤患者在TNM分期、患者年龄、肿瘤的分期条件和患者性别的分布和预后关系。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述第二数目显著甲基化位点进行基因注释；

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.根据权利要7所述的方法，其特征在于，所述方法还包括：