CN114023442B

CN114023442B - 基于多组学数据骨肉瘤分子分型的生信分析方法及模型

Info

Publication number: CN114023442B
Application number: CN202111331964.0A
Authority: CN
Inventors: 华莹奇; 王金增; 姜亚飞; 孙梦熊; 田凯; 李胜利; 唐玉杰; 王升跃; 蔡郑东
Original assignee: Shanghai First Peoples Hospital
Current assignee: Shanghai First Peoples Hospital
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-07-14
Anticipated expiration: 2041-11-12
Also published as: CN114023442A

Abstract

本发明涉及生信分析领域，具体提供一种用于基于多组学数据的骨肉瘤分子分型的生信分析方法及模型，所述方法能够高效获取骨肉瘤患者遗传背景信息，利于挖掘潜在个体化靶向治疗策略，为精准分型而治的临床试验提供确切理论依据，能够对患者临床预后进行提前预判。

Description

基于多组学数据骨肉瘤分子分型的生信分析方法及模型

技术领域

本发明属于生物信息学分析领域，具体涉及一种基于多组学数据的骨肉瘤分子分型方法及其模型模型。

背景技术

骨肉瘤(Osteosarcoma,OS)是最常见的原发恶性骨肿瘤，其5年生存率位列所有儿童肿瘤中最差。过去近30年中，骨肉瘤在基础与临床转化研究领域的进展十分缓慢，临床疗效停滞不前，是目前亟待解决的重大难题。骨肉瘤好发于儿童青少年，疗效差，其主要原因肿瘤异质性非常高，是不同患者对化疗的反应差异较大，如果患者化疗效果好，预后好；而对化疗不敏感患者预后极差，易转移。目前缺乏有效的生物标志物可以判断高低危的患者，所有患者采用相同的单一化疗方案，因此近40年来，骨肉瘤的预后无提高。许多新药临床试验在骨肉瘤中都失败了，也是因为高度的肿瘤异质性，针对所有患者的单一的药物方案，很难取得成功。因此，急需一种可以将不同发病驱动机制，不同预后的患者区分出来。

骨肉瘤治疗方法少、预后差，可能的重要原因之一是目前对于入组的骨肉瘤患者遗传背景认识不清，缺乏更准确的分类优化治疗。长久以来，体细胞突变在肿瘤发生发展过程中的作用一直以来备受关注。细胞周期调控基因的突变在骨肉瘤中普遍存在，75％的骨肉瘤存在TP53突变，61％骨肉瘤存在RB1突变，56％骨肉瘤存在TP53和RB1的双重失活，它们常视为骨肉瘤的驱动突变。而对于转移性骨肉瘤，其肺转移灶较原位肿瘤表现出更高的突变负荷和基因组不稳定性，这可能是由于转移性肿瘤中DNA损伤修复基因的大量突变导致突变积累所致。其他的包括Notch、Myc、PTEN、ATRX、DLG2等均在骨肉瘤的发生发展中发挥重要作用，与骨肉瘤的染色体重组模式、转移、预后密切相关，但是相关靶向药物还需要进一步的研究和开发。

肿瘤分子分型和靶向治疗关键技术的研究和转化效率，是未来制约肿瘤患者生存期延长的最大瓶颈，是加强加快新药、特别是原创性靶向药物研发的最大障碍。肿瘤作为一种多基因改变，多步骤发展的复杂疾病，精准治疗直接关系到病人的预后优劣。精准治疗的前提是精准诊断，而肿瘤分子分型对于精准诊断最为关键。骨肉瘤异质性高、遗传背景复杂，以往的研究主要聚焦于骨肉瘤突变信息的揭示，缺乏基于多组学数据的骨肉瘤遗传全景图的精细描绘，而且，而且不同于其他肿瘤分子分型，骨肉瘤的分型实践中存在诸多困难，比如：1)骨肉瘤作为罕见肿瘤，既往的研究样本数较少，多为单组学层面的描述性分析，而且缺乏临床预后数据，使得既往发现的多种突变及拷贝数变异无法与病人的临床预后相关联，难以体现基因组层面改变的临床意义。因此骨肉瘤遗传背景至今仍不十分明晰，分子分型更是空白。本专利研究样本例数大，多组学多维度遗传背景描述，更为重要的是本研究纳入的病人均有较为完整的临床预后数据，这使得本研究可以有效的将病人的基因组层面的改变同临床预后相关联。

有鉴于此，提出本发明。

发明内容

本发明填补了目前骨肉瘤临床上分子分型的空白，提供一种能够高效获取骨肉瘤患者的遗传背景信息的基于多组学数据的骨肉瘤分子分型方法。本发明开展了一项基于多基因组学整合分析的研究，可以将骨肉瘤分为4个分子亚型，分别具有各自特征性的基因突变或表达，并且与其临床治疗及预后相关联。根据本分型方法，可以区分不同预后即不同临床危险级别的患者，进一步开展精准治疗的临床试验，有望提高整体的疗效。

具体的，本发明提出如下技术方案：

本发明首先提供一种用于基于多组学数据的骨肉瘤分子分型方法，所述方法包括如下步骤：

1)数据预处理步骤：获取样本的DNA甲基化、拷贝数变异、转录组三个单组学数据，进行数据预处理；

2)聚类分析步骤：对DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析；

3)分型输出步骤：根据整合聚类分析的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图；

进一步的，所述分型热图包含免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)的任一或多个分型；

更进一步的，所述分型热图包含免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)和MYC驱动亚型(S-MD)的四个分型；

更优选的，所述免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)主要以免疫应答相关信号通路激活，细胞增殖相关信号通路抑制为主要特征；同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)表现为免疫相关信号通路抑制，而增殖相关信号通路显著激活为主要特征。

进一步的，所述1)数据预处理中使用iClusterPlus R包作为输入进行数据预处理。

优选的，将体细胞拷贝数变异SCNA分割后的数据缩减为3000-6000个非冗余区域；对于DNA甲基化和mRNA基因表达数据，使用标准差SD分别选取变量最大的6000-10000个CpG位点和1500-2000个基因；

更优选的，所述mRNA数据为在作为集群输入之前进行log2转换、归一化和缩放处理。

进一步的，所述2)聚类分析步骤为：应用iCluster算法对样本DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析；

优选的，所述iCluster算法中，iClusterPlus具有不同数量的可能集群k，所述k＝1～5。所述集群的数量等于k+1；对于每个k，通过最小化贝叶斯信息准则(BIC)确定最优聚类组合；选择最优数量的集群，以使解释变异的百分比趋于稳定，(优选的，k＝3或4个集群)。

进一步的，所述3)分型输出步骤：利用iClusterPlus R包中的plotHeatmap函数，根据整合聚类的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图。

本发明还提供一种用于骨肉瘤分子分型的检测模型，所述模型包括如下模块：

1)单组学处理模块：用于获取样本的DNA甲基化、拷贝数变异、转录组三个单组学数据，并进行预处理；

2)多组学聚类模块：用于对DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析；

3)分型输出模块：用于根据整合聚类的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图。

更进一步的，所述分型热图包含免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)和MYC驱动亚型(S-MD)的四个分型。

进一步的，所述1单组学处理模块中，使用iClusterPlus R包作为输入进行数据预处理。

优选的，该模块将体细胞拷贝数变异SCNA分割后的数据缩减为3000-6000个非冗余区域；对于DNA甲基化和mRNA基因表达数据，使用标准差SD分别选取变量最大的6000-10000个CpG位点和1500-2000个基因；更优选的，所述mRNA数据为在作为集群输入之前进行log2转换、归一化和缩放处理。

进一步的，所述2)多组学聚类模块具体为：应用iCluster算法对样本DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析；优选的，所述iCluster算法中，iClusterPlus具有不同数量的可能集群k，所述k＝1～5。所述集群的数量等于k+1；对于每个k，通过最小化贝叶斯信息准则(BIC)确定最优聚类组合；选择最优数量的集群，以使解释变异的百分比趋于稳定，(优选的，k＝3或4个集群)。

本发明还提供一种骨肉瘤分子分型检测的装置，包括:至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行上所述的骨肉瘤分子分型方法。

本发明还提供一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现如上所述的骨肉瘤分子分型方法。

本发明还提供一种检测样本的免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)任一或多个的试剂的如下用途：

1)在制备骨肉瘤分型产品中的用途；

2)在制备骨肉瘤预后评估产品中的用途；

3)在制备骨肉瘤伴随诊断产品中的用途。

进一步的，所述检测是通过上述述骨肉瘤分子分型方法来实现。

本发明还提供一种评估骨肉瘤分子分型的体外诊断产品，所述产品包含能够检测样本为免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)的任一或多个(优选全部)的试剂或仪器；

优选的，所述产品为测序类产品。

本发明还提供一种评估骨肉瘤预后的体外诊断产品，所述产品包含能够检测样本为免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)的任一或多个(优选全部)的试剂或仪器；

优选的，所述产品为测序类产品。

进一步的，上述任一所述样本为体内或体外样本；

更进一步的，上述任一所述样本来源于人源样本。

与现有技术相比，本发明至少具有如下优势：

1)骨肉瘤遗传背景不清，基于本发明目前的技术手段，可以高效的获取骨肉瘤患者的遗传背景信息，可以从整体上进一步加深对于骨肉瘤遗传背景的认识，更有利于挖掘潜在的个体化靶向治疗策略。

2)目前的外科分级方式对于患者的临床预后的评估效能较差，而相比之下，本发明的确立的四种分子分型更有利于对患者临床预后进行提前预判；

3)目前的治疗手段单一，以化疗及非特异性抗血管靶向药为主，在通过本发明了解遗传背景的前提下，可以基于相应的肿瘤靶标，前临床阶段探索新的靶向治疗策略的有效性，扩增骨肉瘤药物使用范围。

4)本发明的分型方式，可以为精准分型而治的临床试验提供确切的理论依据，有望提高骨肉瘤的整体预后，尤其是对预后较差的4型患者更有指导意义。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1基于多组学数据的骨肉瘤分子亚型致癌全景图；

图2四种不同的骨肉瘤分子亚型单样本GSEA分析；

图3四种不同的骨肉瘤分子亚型临床预后差异；

图4四种不同的骨肉瘤分子亚型免疫评分比较；

图5四种不同的骨肉瘤CD3克隆数差异。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

本发明所述的“基于多组学数据的骨肉瘤分子分型方法”基本上包括如下步骤：1)数据预处理步骤：获取样本的DNA甲基化、拷贝数变异、转录组三个单组学数据，进行数据预处理；2)聚类分析步骤：对DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析；3)分型输出步骤：根据整合聚类的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图。

进一步的，所述分型热图中包含免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)的任一或多个分型；

可以理解任何通过上述方式对DNA甲基化、拷贝数变异、转录组三个单组学数据进行聚类分析，以获得上述四种或四种中任一或多个分型为目的的方法都在本发明的保护范围内。

在一些实施方式中，所述1)数据预处理为：获取DNA甲基化、拷贝数变异、转录组数据，使用iClusterPlus R包(比如v1.22.0包)作为输入进行数据预处理。

在一些优选的实施方式中，将体细胞拷贝数变异SCNA分割后的数据缩减为3000-6000个个非冗余区域；对于DNA甲基化和mRNA基因表达数据，使用标准差SD分别选取变量最大的6000-10000个CpG位点和1500-2000个基因；

在一些更优选的实施方式中，所述mRNA数据为在作为集群输入之前进行log2转换、归一化和缩放处理。

本发明所述的DNA甲基化、拷贝数变异、转录组数据三个组学数据可以通过本领域熟知的任一方法获取，举例说明，在一些优选的方式中，本发明分别通过如下方法获得：对患者的肿瘤标本和对应白细胞进行DNA抽提质检，建库行全外显子测序；对患者的肿瘤标本抽提RNA进行转录组测序；同时，对患者的肿瘤标本使用Illumina Infinium EPIC 850K甲基化芯片检测。

在一些实施方式中，所述2)聚类分析步骤为：应用iCluster算法对样本DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析；

在一些优选的实施方式中，所述iCluster算法中，iClusterPlus具有不同数量的可能集群k，所述k＝1～5。所述集群的数量等于k+1；对于每个k，通过最小化贝叶斯信息准则(BIC)确定最优聚类组合；选择最优数量的集群，以使解释变异的百分比趋于稳定，优选的，k＝3或4个集群。

在一些实施方式中，3)分型输出步骤为：利用iClusterPlus R包中的plotHeatmap函数，根据整合聚类的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图。示例性的，如本发明图1所示，图中展示了本发明获得的对应四种骨肉瘤的四种分子亚型，分别为免疫激活(S-IA,iCluster1)、免疫抑制(S-IS,iCluster2)、同源重组缺陷(S-HRD,iCluster3)和MYC驱动(S-MD,iCluster4)。

基于此可知，本发明的贡献还包括：通过检测上述四种分子亚型之一或多个的来实现骨肉瘤分型的用途，或骨肉瘤预后评估的用途；能够检测检测上述四种分子亚型之一或多个的产品、模型、计算机程序等。

本发明所述的“骨肉瘤”指最常见的骨恶性肿瘤，它来源于有成骨潜能的间叶细胞，由恶性增殖的肉瘤细胞直接产生肿瘤性骨样组织或不成熟骨，也称为成骨肉瘤，是指瘤细胞能直接产生肿瘤骨及骨样组织的一种恶性结缔组织肿瘤。骨肉瘤分为五大类：髓内高度恶性骨肉瘤、髓内低度恶性骨肉瘤、近皮质高度(高度表面性骨瘤)骨肉瘤、近皮质中度成软骨母细胞瘤(骨膜骨肉瘤)、近皮质低度骨肉瘤(骨旁骨肉瘤)。其中，髓内高度恶性骨肉瘤还可具体分为：成骨细胞性骨肉瘤、成软骨细胞性骨肉瘤、纤维母细胞性骨肉瘤、混合性骨肉瘤、小细胞性骨肉瘤、其他毛细血管扩张性骨肉瘤。本发明所述的骨肉瘤包括但不限于上述类别。

本发明所述的“分子分型”是指通过从肿瘤组织中获得的细胞或通过捕获在血液中的循环肿瘤细胞来评估肿瘤患者的DNA、RNA和/或蛋白质，本文尤其涉及过肉瘤细胞的分子分型。

本发明所述的“DNA甲基化”和“DNA methylation”表示同一意思，其是DNA化学修饰的一种形式，能够在不改变DNA序列的前提下，改变遗传表现。具体的，DNA甲基化是指在DNA甲基化转移酶的作用下，在基因组CpG二核苷酸的胞嘧啶5号碳位共价键结合一个甲基基团。DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变，从而控制基因表达。

本发明所述的“拷贝数变异”和“Copy number variation,(CNV)”表示同一意思，是指是由基因组发生重排而导致的，一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少，主要表现为亚显微水平的缺失和重复，是人类疾病的重要致病因素之一。异常的CNV是许多人类疾病(如癌症、遗传性疾病、心血管疾病)的一种重要分子机制。作为疾病的一项生物标志，染色体水平的缺失、扩增等变化已成为许多疾病研究的热点。CNV在基因组中的存在形式主要有以下几种：2条同源染色体拷贝数同时出现缺失；1条同源染色体发生缺失，1条正常；1条同源染色体出现拷贝数重复，另1条正常；1条同源染色体出现缺失，另1条出现拷贝数重复；2条同源染色体同时出现拷贝数重复。本发明所述的拷贝数变异尤其是指肿瘤细胞拷贝数变异。

本发明所述的“转录组数据”是指：指某一生理条件下，细胞内所有mRNA的集合。

本发明所述的“iCluster”是一种联合多元回归算法，用于协调这些不同组学之间的变量差异，同时从多个平台聚类数据。iCluster算法将基于一组共同潜在变量的多类型数据的联合多元回归，这些潜在变量代表潜在的肿瘤亚型。

本发明通过上述基于多组学数据的骨肉瘤分子分型方法获得了骨肉瘤的四种分子亚型，分别为免疫激活(S-IA,iCluster1)、免疫抑制(S-IS,iCluster2)、同源重组缺陷(S-HRD,iCluster3)和MYC驱动(S-MD,iCluster4)。并进一步通过对不同分子亚型的单样本GSEA分析比较、临床预后差异比较、免疫评分比较和CD3克隆数差异比较等，确认本发明方法的有效性和客观性。

本发明所述的“免疫激活亚型”(S-IA,iCluster1)通常表现出如下特性：具有最低的肿瘤纯度和较高的免疫应答潜能，对应其肿瘤增殖相关信号通路的激活水平较低。预后较好的DNA甲基化亚型1和CNV亚型1-2主要富集于该亚型。与iCluster1亚型相关的分子特征包括低频的MYC扩增、CCNE1扩增和CDKN2A缺失。

iCluster1肿瘤还表现出特异性表达谱变化特征，包括BANK1的过表达(本领域清楚BANK1是一种重要的调节因子，作为肿瘤抑制因子参与B细胞介导的体液免疫和细胞免疫，因此可能参与介导了骨肉瘤亚型1的免疫反应)。

本发明所述的“免疫抑制亚型”(S-IS,iCluster2)通常表现出如下特性：具有较高的免疫应答潜能，肿瘤纯度和染色体倍型也相对较高。iCluster2中的患者是各单组学聚类的混合。与iCluster1相比，iCluster2中脂肪生成、脂肪酸代谢相关通路激活不显著(这与iCluster1中7q21.12位点的位点扩增相对应，该位点编码脂肪酸清除受体CD36)同时，与iCluster1相比，iCluster2的增殖潜力相对较强。JAK-STAT、VEGFA和ERBB信号通路在iCluster1和iCluster2亚型中均被激活(提示相应的靶向治疗可能会使这2个亚型的患者获益)。

本发明所述的“同源重组缺陷亚型”(S-HRD,iCluster3)通常表现出如下特性：相比于Cluster1和2，Cluster3更受到增殖信号驱动，包括细胞周期、MYC、mTOR和Hedgehog在内的信号通路在该亚型中均显著激活，该亚型具有较高的增殖潜能。iCluster3具有最高的肿瘤纯度和基因组不稳定性。iCluster3包含大部分DNA甲基化亚型2和CNV亚型5的患者，其免疫反应最低。iCluster3中大部分患者(84.2％)表现为同源重组缺陷(HRD评分>42)。该亚型还与增殖相关基因如CCL28、HUNK、ZFHX4、GRHL3和CHAF1B的过表达相关，同时NSD1缺失在该亚型中显著富集(这可能与该亚型整体的低甲基化相关)。

本发明所述的“MYC驱动亚型”(S-MD,iCluster4)通常表现出如下特性：相比于Cluster1和2，Cluster 4更受到增殖信号驱动，包括细胞周期、MYC、mTOR和Hedgehog在内的信号通路在该亚型中均显著激活，该亚型具有较高的增殖潜能。iCluster4被确定为恶性程度最高的分子亚型，其5年生存率不足40％。甲基化亚型4在该亚型中高度富集。该亚型的显著特征是MYC扩增、mTOR信号通路激活，均与MYC驱相关。

本发明进一步利用单样本GSEA分析了这四种亚型之间在免疫、增殖等相关信号通路上存在的区别。结果显示亚型1和2主要以免疫应答相关信号通路激活，细胞增殖相关信号通路抑制为主要特征，而亚型3和4则相反，表现为免疫相关信号通路抑制，而增殖相关信号通路显著激活。

下面为本发明具体的实施方法。

本发明涉及人体实验的相关的研究方案符合伦理要求的必要的组织程序，并由上海市第一人民医院伦理委员会批准。本发明所有入组患者均签署了项目知情同意书。本发明执行过程中严格执行了《人类遗传资源管理暂行办法》中对于组织标本采集的具体规定，并以此为基准。

实验中所用到的肿瘤组织为入住我中心的原发骨肉瘤患者手术标本，所有标本均在离体后30分钟内收取，肿瘤组织置于盛有无菌生理盐水的容器中，清洗表面残余的血液组织。用于RNA抽提的标本予以RNA latter保存液保存，所有收集标本均利用液氮速冻，后置于-80℃低温冰箱保存。

实施例1肿瘤组织样本的DNA/RNA的提取与测序

1)肿瘤组织DNA及RNA抽提和质检

a)肿瘤组织DNA抽提

1.低温条件下切取30mg肿瘤组织，将其放置于预冷的2ml规格EP管中，加入组织研磨金属钢珠2颗，后加入200μl Buffer ATL。在对应的EP管标记好样本编号。

2.事先预冷金属研磨器的载物台，将预冷的金属台置于研磨器中，将装有组织的EP管置于载物台中，锁紧EP管后，打开电源，220V、50Hz、每研磨10秒停10秒，总研磨时长2分钟。

3.加入20μl的蛋白酶K，混匀震荡混匀后，放置于55℃金属浴中消化，每间隔10分钟取出混匀、振荡一次，以达到充分裂解。

4.待肿瘤组织彻底裂解后，此时肉眼不可见明显的肿瘤块，加入4μl的RNase A(100mg/ml)，振荡混匀，室温2min后再次充分振荡15秒，随后加入200μl Buffer AL到样品中，再次振荡混匀。

b)血液白细胞对照DNA抽提

1.梯度离心法收集血液中的白细胞，置于1.5ml的EP管中，同时加入20μl蛋白酶K，混匀震荡混匀后，放置于55℃金属浴中消化，每间隔10分钟取出混匀、振荡一次，以达到充分裂解。

2.裂解10分钟后，加入4μl的RNase A(100mg/ml)，振荡混匀，室温2min后再次充分振荡15秒，随后加入200μl Buffer AL到样品中，再次振荡混匀。

后续抽提操作：

1.向EP管中加入200μl的无水乙醇，充分振荡混匀。

2.将上述裂解液全部转移到DNeasy Mini spin column中。8,000rpm离心1分钟，弃去柱子中流过到收集管中的废液。

3.将柱子放置于收集管中，8,000rpm离心1分钟，弃去柱子中流过到收集管中的废液。

4.将柱子放置于收集管中，加入200μl Buffer AE到柱子底部的海绵上，室温放置1min，13,000rpm离心1分钟洗脱得到DNA。

5.DNA定量与质检。DNA质检需满足：OD 260/280值应在1.6～2.1之间，DNA浓度不低于55ng/ul，总量不低于500ng，凝胶电泳主带清晰，可有部分降解，不可有小于2000bp的降解片段，无RNA和蛋白污染。

c)肿瘤组织的RNA抽提

1.低温条件下切取30mg肿瘤组织，将其放置于预冷的2ml规格EP管中，在对应的EP管标记好样本编号，加入组织研磨金属钢珠2颗，后加入1ml Trizol裂解液。

3.每1ml的Trizol中加入200μl的氯仿，盖紧EP管盖，室温剧烈振荡15秒，室温放置5分钟，同时预冷离心机，4℃条件下12000rpm离心15分钟。离心后混合液体将分为下层的红色酚氯仿相，中间蛋白层以及无色上层水相。其中RNA分配于上层水相中。

4.用200μl的移液器小心将上层水相转移到一个干净的EP管中，此步骤要十分小心，避免吸到中间层及下层。待上层液体完全吸入新的EP管后，加入等体积的异丙醇，轻柔混匀，此时即可见絮状沉淀。预冷离心机，4℃下12000rpm离心10分钟。此时可见白色片状沉淀沉于管底，即为RNA沉淀，弃去上清液。

5.洗涤：每1ml Trizol裂解液裂解的组织样品中加入1ml 75％乙醇，充分洗涤RNA沉淀。4℃，7500rpm离心5分钟，弃去上清。

6.小心去用枪头吸去残余液体，室温干燥约5分钟后，加入50μl的DEPC水，用移液枪反复吹打几次，使RNA完全溶解。

7.使用NanoDrop2000检测RNA的浓度，一般OD260/280要求在1.8-2.0之间。RNA电泳胶图，检测条带是否明亮清晰，泳道内是否有降解弥散区，有无DNA和蛋白污染。RNAIntegrity Number(RIN)数值大小反应RNA样品完整性，数值越接近10表明样品完整性越高，反之RIN值越小表示RNA的完整性越差。本发明所有RNA样本均利用Agilent2100Bioanalyzer检测RIN值。综合以上所有RNA测序样本均要求无明显降解，RIN值大于6.5。

2)肿瘤组织及对应的白细胞全外显子测序

质量合格的基因组DNA样品通过超声波高性能样品处理系统(Covaris)随机打断成主峰是200bp-300bp左右的片段。随后进行DNA片段末端修复，3’端加上“A”碱基，两端加上文库接头。接头连接后的文库进行线性扩增(LM-PCR)制备成杂交文库。取适量的杂交文库与外显子芯片进行捕获富集，洗脱掉未富集的片段后进行扩增。扩增产物经Agilent2100bioanalyzer仪器(Agilent DNA 1000Reagents)和QPCR质控，质控合格后即可上机测序。本发明使用Illumina HiSeq系列平台，对每个合格的文库进行高通量测序，并保证每个样品的数据量达标。测序得到的原始图像数据，经Illumina碱基识别软件(Base Calling)转化为原始序列数据(raw reads)，即双末端reads(paired-end reads)，raw data数据以FASTQ文件格式存储。

3)肿瘤组织转录组测序

1)总RNA提取：不同样品的total RNA中mRNA含量差异较大，若total RNA起始投入量过低，不能保证有足够的mRNA用于后续建库，因此建议RNA起始量为1～4μg。

2)mRNA分离与片段化：用oligo dT磁珠与mRNA的poly(A)尾特异性结合从而去除其他RNA。用试剂(fragmentation reagent)将纯化的mRNA片段化。

3)cDNA第一链合成：随机六聚体引物(random hexamer primer)，逆转录酶以mRNA为模版合成cDNA。

4)cDNA第二链合成：第二链合成并删除mRNA，产生双链cDNA(ds cDNA)，纯化双链cDNA。

5)双链cDNA的末端修复：末端补齐，再纯化修复后的cDNA。ds cDNA3‘端加A(dA-tailing)。

6)连接接头：每个接头都有一个index(6bp)，不同的文库构建可以使用不同的index，然后纯化连接了接头的ds cDNA。

7)PCR富集文库：利用PCR对文库进行扩增，扩增完纯化，进行文库质检，质检完的文库即可以上机测序。

4)肿瘤组织DNA甲基化芯片检测

甲基化芯片检测DNA定量与质检要求DNA浓度在25-100ng/ul，DNA总量不低于500ng，OD260/280值应在1.6-2.1之间；主带清晰，可存在部分降解，不存在小于2000bp的降解片段。大体实验流程如下：

1)本部分采Zymo EZ DNA Methylation-Gold试剂盒，根据试剂盒要求操作。

2)碱变性-基因组全扩增(质检)

3)断裂-沉淀-重悬-杂交

4)洗涤-延伸-染色-扫描。

实施例2、数据生信分析

通过实施例1对患者的肿瘤标本和对应白细胞进行DNA抽提质检，建库行全外显子测序；对患者的肿瘤标本抽提RNA进行转录组测序；对患者的肿瘤标本使用IlluminaInfinium EPIC 850K甲基化芯片检测，然后进行生信分析，具体生信分析方法如下：

(1)体细胞突变的calling和过滤

本发明利用Burrows-Wheeler将质控后的外显子组测序数据与UCSC hg19参考序列比对；Picard删除PCR重复，然后BAM文件被Samtools索引；根据GATK最佳实践，使用基因组分析工具包GATK中的BaseRecalibrator和ApplyBQSR工具进行基础质量评分校准。在处理过的肿瘤外显子组数据上，利用GATK中的Mutect2检测体细胞变异，包括单核苷酸变异(SNVs)和小的插入和缺失(indels)。突变由Annovar对Refseq基因模型进行注释；非编码区(TSS上游、TSS下游、基因间区、内含子、非编码RNA、5’UTR、3’UTR等)的变异被排除在分析之外。利用1000Genomes基因组数据库、外显子联盟、NHLBL外显子组测序项目(ESP6500)和基因组聚合数据库(gnomAD)筛选胚系突变。采用更严格下游过滤条件，以获得高质量的体细胞变异信息，具体需要符合以下标准：至少8倍的覆盖；变异等位基因分数(VAF)≥4％，肿瘤样本中至少有4个支持变异的reads，非肿瘤样本中VAF<1％，strand bias≤0.95。

(2)RNA-Seq数据处理

利用STAR和TranscriptomeSAM，将RNA-Seq clean reads映射到人类参考序列UCSC hg19，并进行Ensembl注释。将得到的bam文件放入RSEM-计算-表达程序进行基因表达定量；使用HTSeq计算每个基因的原始计数。

(3)肿瘤细胞拷贝数变异检测

本发明应用conumee R包默认参数，根据Illumina 850K甲基化芯片结果计算了体细胞拷贝数变异(SCNAs)。Affymetrix Genechip Scaner产生的芯片原始数据cel文件，用CHAS软件进行分析将Cel文件转换成OSCHP文件，导出每个样本CNV及LOH结果总表、样本的CNV及LOH染色体分布图和每个样本log2 Ratio、Allele difference总图。然后应用Nexus软件分析＊.OSCHP文件得到相应的图表。还可利用GISTIC软件分析，以鉴定显著扩增或删除区域，并获得拷贝数的基因水平估计数。GISTIC使用0.99置信度和其他默认参数运行。FDR q值≤0.25的异常区域被认为是存在显著拷贝数变异区域。

(4)DNA甲基化分析

对于Illumina Infinium Methylation EPIC芯片(850K)生成的原始IDAT文件(每个样品两个)使用minfi(v1.25.1)R/Bioconductor包进行预处理。预处理步骤包括背景校正、偏置归一化、计算beta值和相应的p值。在给定样本中检测p值大于0.01的探针被认为与背景无统计学差异，因此被排除不纳入后续分析。筛选标准如下:

去除1)针对X、Y染色体序列设计的探针；

去除2)在转录起始位点(TSSs)(-1500，+1500)bp的启动子区域内的探针；

去除3)位于CpG岛的探针。

实施例3、多组学整合聚类分析

肿瘤特征的采集需要综合考量的分子改变不仅仅包括转录组,而是应该囊括包括基因组、表观基因组、转录组等多个层面的信息。这种多组学数据可以提供更加全面的信息来定义骨肉瘤分子亚型的特征。

为了了解骨肉瘤患者间的异质性，本部分利用骨肉瘤基因组学、转录组学和临床数据探索骨肉瘤发展的风险决定因素，并识别对特定治疗可能有反应的患者类别。TCGA已发布的33个癌种中，尚无专门的骨肉瘤数据信息，本部分将进一步填补骨肉瘤分子分型领域相关空白。对于进一步深入细化骨肉瘤分子亚型、研究预后机制、修订各亚型治疗方案以改善预后具有重要意义。

为了研究基于多组学数据的骨肉瘤分子亚型，本发明应用了iCluster进行整合聚类。iCluster是一种联合多元回归算法，用于协调这些不同组学之间的变量差异，同时从多个平台聚类数据。iCluster算法将基于一组共同潜在变量的多类型数据的联合多元回归，这些潜在变量代表潜在的肿瘤亚型。

本部分通过前期探索优化，确立对于患者的DNA甲基化、拷贝数变异、转录组数据的三个组学数据进行整合聚类。数据预处理使用iClusterPlus R包(v1.22.0)作为输入。将SCNA分割后的数据缩减为5,226个非冗余区域。对于DNA甲基化和mRNA基因表达数据，本发明使用标准差(standard deviation,SD)分别选取变量最大的8000个CpG位点和1820个基因。mRNA数据在作为集群输入之前进行log2转换、归一化和缩放。iClusterPlus具有不同数量的可能集群(k＝1-5)。集群的数量等于k+1。对于每个k，通过最小化贝叶斯信息准则(BIC)确定最优聚类组合。选择最优数量的集群，以使解释变异的百分比趋于稳定(k＝3,4个集群)。利用iClusterPlus R包中的plotHeatmap函数，根据整合聚类的各个分子亚型的甲基化，拷贝数变异和转录组数据生成热图。

具体的，对于91例骨肉瘤患者进行了多组学聚类，最终确定了四种不同的分子亚型。其中，多数单组学聚类分型结果可以在四个分子亚型中的一个显著富集(p<0.01)，这进一步说明整合多组学信息的分子亚型策略可以有效的捕捉到每个单组学数据的主要特征。

本部分注释的主要临床信息包括患者的年龄，性别，发病位置，临床分期，病理亚型，复发、转移等临床基本信息。除此之外，还包括基因组HRD评分，染色体倍型，肿瘤纯度等基因组信息。在此基础上，本发明也将前面几个部分中骨肉瘤中的高频突变和拷贝数变异在每个亚型中进行了注释。最终本发明得到了基于多组学数据的骨肉瘤分子亚型致癌全景图，如图1所示。将这四种分子亚型为：免疫激活(S-IA,iCluster1)、免疫抑制(S-IS,iCluster2)、同源重组缺陷(S-HRD,iCluster3)和MYC驱动(S-MD,iCluster4)。结果如图1所示，上图为91例患者的综合分子分型，包括基本临床特征，单组学聚类信息和基因组信息；下图为DNA甲基化、拷贝数变异和mRNA表达的热图。

实施例4、单样本GSEA分析四种分子亚型之间在免疫、增殖等相关信号通路上存在的区别

在此基础上，本发明进一步利用单样本GSEA分析了这四种亚型之间在免疫、增殖等相关信号通路上存在的区别。结果显示亚型1和2主要以免疫应答相关信号通路激活，细胞增殖相关信号通路抑制为主要特征，而亚型3和4则相反，表现为免疫相关信号通路抑制，而增殖相关信号通路显著激活。结果如图2所示。

实施例5、四种分子亚型在临床预后上存在的差异

本发明进一步研究了不同分子亚型在临床预后上存在的差异。结果显示不同临床亚型骨肉瘤的临床预后存在显著的差异。具体地，免疫相关的S-IA和S-IS两种免疫亚型的临床预后要优于增殖相关的S-HRD和S-MD亚型。进一步分析发现S-IA和S-IS免疫亚型的临床预后彼此之间存在一定的差异，同时S-HRD和S-MD也存在一定的差异。其中S-IA临床预后最好，可能是由于该亚型表现为正常的免疫应答相关，而S-MD预后最差，可能与该亚型MYC扩增，MYC显著高表达相关。结果如图3所示。

实施例5、四种分子亚型的免疫评分比较

利用表达数据估计恶性肿瘤组织中的基质细胞和免疫细胞(ESTIMATE)是一种基于基因表达谱预测和估计肿瘤组织中浸润的免疫细胞和基质细胞的工具。在此，估计算法被用于分析整合聚类中每个肿瘤样本的免疫细胞和基质细胞的特异性基因表达特征，以预测其免疫和基质评分，如图4所示，各分子亚型免疫评分比较，iCluster 1-2亚型(热性肿瘤)免疫评分高于iCluster 3-4亚型(冷肿瘤)。

实施例6、四种分子亚型的免疫应答比较

T细胞受体(T cell receptor,TCR)在抗原识别中起着至关重要的作用，体现在最可变的互补决定区3(CDR3)区域中。为了研究肿瘤反应性T细胞克隆，本发明描述了TRUST推断的肿瘤浸润T细胞库，值得注意的是，尽管iCluster 1-2均表现出较强的免疫应答，但本发明意外发现iCluster1中的CDR3数量显著高于iCluster2(Kruskal-Wallis检验，p<0.05)。CDR3多样性在其余iCluster 2/3/4中无明显差异。

总的来说，这些结果表明iCluster1中的肿瘤具有较好的免疫应答能力，属于免疫激活型肿瘤(免疫激活亚型，S-IA)；而相比之下，iCluster2是免疫抑制或衰竭的(免疫抑制亚型，S-IS)，该亚型肿瘤的免疫应答能力较弱。就免疫治疗角度而言，iCluster1中的肿瘤因具有较好的免疫应答潜能，结果如图5所示。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于多组学数据的骨肉瘤分子分型的生信分析方法，其特征在于，所述方法包括如下步骤：

所述分型热图包含免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)的任一或多个分型。

2.根据权利要求1所述的生信分析方法，其特征在于，

所述分型热图包含免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)和MYC驱动亚型(S-MD)的四个分型。

3.根据权利要求1-2任一所述的生信分析方法，其特征在于，

所述1)数据预处理中使用iClusterPlus R包作为输入进行数据预处理：将体细胞拷贝数变异SCNA分割后的数据缩减为3000-6000个非冗余区域；对于DNA甲基化和mRNA基因表达数据，使用标准差SD分别选取变量最大的6000-10000个CpG位点和1500-2000个基因；

所述2)聚类分析步骤为：应用iCluster算法对样本DNA甲基化、拷贝数变异、转录组数据的三个单组学数据进行整合聚类分析。

4.根据权利要求1-2任一所述的生信分析方法，其特征在于，

所述3)分型输出步骤为：利用iClusterPlus R包中的plotHeatmap函数，根据整合聚类的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图。

5.一种用于骨肉瘤分子分型的检测模型，其特征在于，所述模型包括如下模块：

3)分型输出模块：用于根据整合聚类的各个分子亚型的甲基化、拷贝数变异和转录组数据生成骨肉瘤分型热图；

6.根据权利要求5所述的检测模型，其特征在于，

7.一种骨肉瘤分子分型检测的装置，其特征在于，包括:至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行如权利要求1-4任一项所述的生信分析方法。

8.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-4任一项所述的生信分析方法。

9.检测样本的免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)任一或多个的试剂的如下用途：

1)在制备骨肉瘤分型产品中的用途；

2)在制备骨肉瘤预后评估产品中的用途；

3)在制备骨肉瘤伴随诊断产品中的用途。

10.一种评估骨肉瘤分子分型的体外诊断产品，其特征在于，所述产品包含能够检测样本为免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)或MYC驱动亚型(S-MD)的任一或多个的试剂或仪器。

11.根据权利要求10所述的体外诊断产品，其特征在于，所述产品包含能够检测样本为免疫激活亚型(S-IA)、免疫抑制亚型(S-IS)、同源重组缺陷亚型(S-HRD)和MYC驱动亚型(S-MD)的试剂或仪器。

12.根据权利要求11所述的体外诊断产品，其特征在于，所述产品为测序产品。