CN110853706A

CN110853706A - 一种整合表观遗传组学的肿瘤克隆组成构建方法及系统

Info

Publication number: CN110853706A
Application number: CN201810861917.9A
Authority: CN
Inventors: 李霞; 蔡云鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2020-02-28
Anticipated expiration: 2038-08-01
Also published as: CN110853706B

Abstract

本发明提供了一种整合表观遗传组学的肿瘤克隆组成构建方法及系统，涉及生物信息技术领域，本发明提供的肿瘤突变克隆群体组成的构建方法，包括突变克隆组成的预测、表观遗传数据的预测以及二者数据的分析。该方法结合DNA突变图谱与表观遗传组学数据，便于信息的整合。此外，本发明将DNA突变克隆群体信息与表观遗传信息在克隆突变位点、基因启动子、染色质结构以及差异甲基化位点进行多层次数据融合，能够获取克隆群体中染色质结构变化对应的功能模块，具备更好的系统全面性，可以应用于分子层面上肿瘤的克隆演化相关理论研究。

Description

一种整合表观遗传组学的肿瘤克隆组成构建方法及系统

技术领域

本发明涉及生物信息技术领域，尤其是涉及一种整合表观遗传组学的肿瘤克隆组成构建方法及系统。

背景技术

肿瘤突变的异质性已被广泛发现，即在同一肿瘤组织的不同区域的细胞DNA突变位点往往不是一样的，对此异质性产生原因普遍接受的模型是肿瘤突变的克隆演化，认为突变像达尔文物种进化一样最终产生不同的突变克隆群体分布于肿瘤组织中。基于此理论，目前对肿瘤克隆组成的构建方法均基于肿瘤的突变位点，主要是两类，一类是体细胞突变，一类是拷贝数变异。从数据产生来源上来看，多是基于全外显子组测序产生的数据，通过进一步分析突变位点得到。虽然不同的构建方法所依据的算法模型不一样，比如贝叶斯网络聚类方法、二项分布统计模型等，但大多数方法所依据的最基本原理均是按照突变位点的频率大小。一般而言，如果肿瘤组织中所有癌细胞都一样，即癌组织没有产出异质性，只有单一的克隆群体，则所有突变位点的频率接近0.5，如果肿瘤组织中产生了其他子克隆群体，即出现了异质性，那么一部分肿瘤细胞中的突变和另外一部分细胞中的突变不一样，从而导致对应子克隆群体中的突变位点的频率降低，这样依据突变位点频率大小，则可推断出子克隆的存在与否以及克隆群体的数目。

随着对肿瘤发生机制的深刻认识，肿瘤的发生以及恶化的推动因素并非只有突变，除了DNA水平以外的表观遗传因素，比如DNA甲基化、组蛋白修饰以及染色质结构变化等，被认为也对肿瘤的推动起着重要作用。肿瘤组织细胞核中染色质结构要相比正常组织中染色质结构发生开放或压缩的变化，肿瘤组织中不同克隆群体细胞中的染色质结构也会发生相应的不同变化。另一方面，目前各种表观遗传组学检测技术的发展使得表观遗传组学数据日益累计。

目前，大多是基于肿瘤的突变位点情况进行克隆组成的预测，其结果所反应的是肿瘤发生过程中DNA突变这一层信息，然而由于肿瘤发生发展的复杂性以及多因素性，以及目前实际需求中需要整合众多表观组学数据，用单一层面的信息来反应克隆组成情况已经无法在实际中达到人们对肿瘤多维层次认识的需求。另一方面，单纯从表观遗传组学数据出发，只从表观遗传层次来对肿瘤发生进行研究则缺乏肿瘤突变克隆组成情况这些信息，这样一方面导致对肿瘤机制的研究缺乏全面性。然而目前整合表观遗传因素变化的克隆组成构建方法仍是一片空白。

有鉴于此，特提出本发明。

发明内容

本发明的第一个目的在于提供一种整合表观遗传组学的肿瘤克隆组成的构建方法，以缓解现有技术中存在的对克隆组成的构建方法均是基于肿瘤的突变位点，并未考虑表观遗传因素的变化情况，整合表观遗传因素变化的克隆组成构建方法研究空白的技术问题。

本发明的第二个目的在于提供一种实现上述的整合表观遗传组学的肿瘤克隆组成的构建方法的系统，该系统能够从表观遗传和DNA突变多维水平系统性地解构肿瘤克隆组成。

本发明的第三个目的在于提供上述肿瘤突变克隆群体组成的构建方法或系统在构建整合有突变位点以及表观遗传因素变化情况的肿瘤突变克隆群体组成中的应用。

本发明提供了一种整合表观遗传组学的肿瘤克隆组成的构建方法，所述构建方法包括：

对分析样本分别进行突变克隆组成的预测和表观遗传数据的预测，将得到的预测结果进行分析，获得肿瘤突变克隆群体组成，其中，突变克隆组成预测和表观遗传数据预测没有先后次序。

进一步地，根据基因组学数据，进行DNA突变位点的寻找，并进行突变克隆组成的预测；

优选地，所述基因组学数据为经过预处理的基因组学数据；

所述预处理包括剔除原始基因组学数据中碱基质量值低于20的序列；

优选地，所述基因组学数据为成对的数据，包括来自肿瘤组织的数据和正常组织的数据；

优选地，所述基因组学数据为全外显子组测序数据或全基因组测序数据。

进一步地，将预处理后的基因组学数据针对参考基因组进行比对，获取体细胞突变结果和拷贝数变异信息，完成DNA突变位点的寻找；

优选地，在比对结果中剔除重复的比对。

进一步地，根据所述体细胞突变结果提取出突变位点所在染色体位置信息；

其中，突变位点覆盖的序列数目为M，对应的比对位置上覆盖的所有序列数目为T，根据公式M/T计算得到突变位点频率；

优选地，从所述拷贝数变异信息中提取出拷贝数变异区域和拷贝数结果；

优选地，根据所述突变位点频率以及突变位点对应拷贝数变异区域的拷贝数结果预测突变位点为主克隆群体或亚克隆群体。

进一步地，所述表观遗传学数据为经过预处理的表观遗传学数据；

所述预处理包括剔除原始表观遗传学数据中异常检测的甲基化数值；

优选地，通过做图检测甲基化数值中异常检测的甲基化数值；

优选地，使用两种探针对原始表观遗传学数据进行甲基化水平的检测，分别得到对每个位点进行甲基化检测的信号值M和对每个位点进行非甲基化检测的信号值U，根据公式M/(M+U+100)计算得到每个位点的甲基化数值；

优选地，所述表观遗传学数据为成对的数据，包括来自肿瘤组织的数据和正常组织的数据；

优选地，所述表观遗传学数据为全基因组甲基化数据。

进一步地，以10-1000kb DNA碱基的长度将全基因组划分为多段，预测肿瘤组织和正常组织的染色质结构信息，并在每段中比较肿瘤组织和正常组织的染色质结构，得到肿瘤组织中染色质结构的变化信息；

优选地，所述染色质结构信息包括开放的染色质结构或压缩的染色质结构；

优选地，计算每段中所有位点的甲基化数值的平均值，通过特征使用向量分析计算，将全基因组分成片段式的区域，预测所述区域为开放的染色质结构区域或压缩的染色质结构区域；

优选地，在同一段中，肿瘤组织和正常组织的染色质均为开放的染色质结构或压缩的染色质结构，则该段中的染色质结构在肿瘤中未发生变化；

在同一段中，肿瘤组织为开放的染色质结构，正常组织为压缩的染色质结构，则该段中的染色质结构在肿瘤中变为开放的染色质结构；

在同一段中，肿瘤组织为压缩的染色质结构，正常组织为开放的染色质结构，则该段中的染色质结构在肿瘤中变为压缩的染色质结构。

进一步地，根据肿瘤组织和正常组织中的甲基化数值，通过每个位点校正后的P值，结合肿瘤组织和正常组织之间的甲基化水平差异值，阈值过滤后，得到差异甲基化位点。

进一步地，所述二者数据的整合包括：

将位于主克隆群体和/或亚克隆群体中的DNA突变位点根据所处的染色体位置跟开放的染色质结构区域或压缩的染色质结构区域进行比对，得到所述主克隆群体和/或亚克隆群体中的DNA突变位点的染色质结构的变化信息；

优选地，计算所述差异甲基化位点的染色体位置信息与主克隆群体和/ 或亚克隆群体中的DNA突变位点的碱基距离，以所述碱基距离最短的数值为标准获取所述差异甲基化位点的关联的DNA突变位点，然后根据所述关联的DNA突变位点所处的子克隆群体信息获取每个差异甲基化位点的克隆分布信息；

优选地，通过位于主克隆群体和/或亚克隆群体中的DNA突变位点获取对应的突变基因及所述突变基因对应的启动子区域，将所述启动子区域跟开放的染色质结构区域或压缩的染色质结构区域进行比对，得到所述主克隆群体和/或亚克隆群体中的突变基因的启动子区域的染色质结构的变化信息；

优选地，计算所述差异甲基化位点的染色体位置信息，如果与启动子区域的位置存在至少一个碱基的重叠则得到突变基因的启动子区域的差异甲基化修饰情况；

优选地，分别计算所述开放的染色质结构区域的位置信息或压缩的染色质结构区域的位置信息的起始数值和末尾数值与基因组中所有基因的启动子之间的碱基距离，以所述碱基距离最短的数值为标准获取所述开放的染色质结构区域的关联的基因或所述压缩的染色质结构区域的关联的基因，然后分别把开放的染色质结构区域的关联的基因或所述压缩的染色质结构区域的关联的基因与所述突变基因的数据集进行重叠，分别对重叠的开放的染色质结构区域和压缩的染色质结构区域的关联的基因进行功能注释，得到对应的功能模块在子克隆中的分布信息。

本发明还提供了一种实现上述的整合表观遗传组学的肿瘤克隆组成的构建方法的系统。

另外，本发明还提供了上述的系统在构建整合有突变位点对应的表观遗传因素变化情况的肿瘤突变克隆群体组成中的应用。

本发明提供的肿瘤突变克隆群体组成的构建方法，包括突变克隆组成的预测、表观遗传数据的预测以及二者数据的分析。从基因组学测序原始数据到最终DNA突变克隆群体组成的预测提供一套完整的分析体系，使得突变位点结果文件往克隆群体预测分析能顺畅斜街。并且，结合DNA突变图谱与表观遗传组学数据，二者数据分析方法迥异，结果文件信息量大而复杂，本发明从分析流程上创造一套整合分析方案，便于信息的整合。此外，本发明将DNA突变克隆群体信息与表观遗传信息在克隆突变位点、基因启动子、染色质结构以及差异甲基化位点进行多层次数据融合，通过染色质结构关联基因，并将所关联的基因与克隆群体突变基因进行重叠，能够获取克隆群体中染色质结构变化对应的功能模块。

综上所述，本发明充分考虑了表观遗传因素和DNA突变对肿瘤克隆的解构，具备更好的系统全面性，可以应用于分子层面上肿瘤的克隆演化相关理论研究，对该方法进行系统性的梳理以及形成又可实现在实际工作中的可操作性，可普及到多种肿瘤组学研究，将有助于癌症诊断和治疗新技术和新手段的开发和应用。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的整合表观遗传组学的肿瘤突变克隆群体组成的构建方法的流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种肿瘤突变克隆群体组成的构建方法，包括：

基因组学数据是能够阐明整个基因组的结构、结构与功能的关系以及基因之间相互作用的数据。基因组学是以生物体内基因组的全部基因为研究对象，从全基因组的整体水平而不是单个基因水平，研究生物体具有自身组织和自装配特性的复杂系统，认识生命活动的规律，更接近生物的本质和全貌。

表观遗传学是研究基因的核苷酸序列不发生改变的情况下，基因表达的可遗传的变化的一门遗传学分支学科。表观遗传学的主要内容是DNA甲基化、组蛋白修饰和染色质结构。其中，DNA甲基化修饰在基因沉默，肿瘤发生，基因印记，外源核酸识别等领域都起着重关重要的作用。

本发明提供的肿瘤突变克隆群体组成的构建方法，结合了DNA突变图谱与表观遗传组学数据，将DNA突变克隆群体信息与表观遗传信息在克隆突变位点、基因启动子、染色质结构以及差异甲基化位点进行多层次数据融合，在具备更好的系统全面性的基础上，通过染色质结构关联基因，并将所关联的基因与克隆群体突变基因进行重叠，还能够获取克隆群体中染色质结构变化对应的功能模块，便于信息的整合。

在一些优选的实施方案中，根据基因组学数据，进行DNA突变位点的寻找，并进行突变克隆组成的预测。

优选地，基因组学数据为经过预处理的基因组学数据；

所述预处理包括剔除原始基因组学数据中碱基质量值低于20的序列。

在一个具体的实施方式中，分别输入肿瘤病患的来自肿瘤组织和来自正常组织的基因组学数据，计算输入数据中每条序列的碱基质量值，将碱基质量值低于20的对应序列剔除，完成基因组学数据的预处理。

通过对待测数据进行预处理，能够剔除低质量数据，使最终结果准确性更高。

优选地，所述基因组学数据为成对的数据，包括来自肿瘤组织的数据和正常组织的数据。

在一些优选的实施方案中，将预处理后的基因组学数据针对参考基因组进行比对，获取体细胞突变结果和拷贝数变异信息，完成DNA突变位点的寻找；

其中，可采取常规的生物信息分析工具进行基因组学数据和参考基因组的比对，典型的可进行数据比对的生物信息分析工具可以为BWA或 bowtie。参考基因组为已知的该物种所有染色体序列集合。

针对比对后的结果，可采取常规的生物信息分析工具进行体细胞突变和拷贝数变异信息的获取，典型的可获取细胞突变和拷贝数变异信息的生物信息分析工具可以为GATK或MuTect。

体细胞突变是发生在正常机体细胞中的突变，不会造成后代的遗传改变。在肿瘤中，致癌因子引起细胞遗传物质结构或功能异常，从而导致体细胞突变。拷贝数变异包括染色体水平的缺失、倒位、易位、插入、重复等基因组结构的变化。

通过获取肿瘤病患的体基因组学数据的细胞突变结果和拷贝数变异信息，能够准确有效地确定DNA突变位点。

优选地，在比对结果中剔除重复的比对。

在一个具体的实施方式中，可根据比对的染色体和比对的位置，挑选完全一样信息的比对序列进行剔除。

在一些优选的实施方案中，根据所述体细胞突变结果提取出突变位点所在染色体位置信息。

其中，突变位点覆盖的序列数目为M，对应的比对位置上覆盖的所有序列数目为T，根据公式M/T计算得到突变位点频率。

优选地，从所述拷贝数变异信息中提取出拷贝数变异区域和拷贝数结果。

在一个具体的实施方式中，根据所述突变位点频率以及突变位点对应拷贝数变异区域的拷贝数结果在统计计算平台R中采取贝叶斯网络聚类方法或二项分布统计模型、对突变位点进行聚类，根据类别以及每类平均突变频率预测突变位点为主克隆群体或亚克隆群体。

其中，主克隆群体为在所有肿瘤细胞中均存在的突变，表现为突变频率最高，亚克隆群体为只在少部分肿瘤细胞中存在的突变，表现为突变频率较低，一般存在多个亚克隆群体。

在一些优选的实施方案中，所述表观遗传学数据为经过预处理的表观遗传学数据。

所述预处理包括剔除原始表观遗传学数据中异常检测的甲基化数值。

优选地，通过做图检测甲基化数值中异常检测的甲基化数值。

典型的可检测甲基化数值中异常检测的甲基化数值的图可以为散点图。

优选地，使用两种探针对原始表观遗传学数据进行甲基化水平的检测，分别得到对每个位点进行甲基化检测的信号值M和对每个位点进行非甲基化检测的信号值U，根据公式M/(M+U+100)计算得到每个位点的甲基化数值。

在一个具体的实施方式中，可通过统计计算平台R先将原始表观遗传学数据读取，然后再进行计算。典型的，可通过illuminaio包或limma包读取原始表观遗传学数据。

在一个具体的实施方式中，M值和U值均可实现数据的标准化处理，如可以通过常规的统计方法分位数标准化方法来计算

优选地，所述表观遗传学数据为成对的数据，包括来自肿瘤组织的数据和正常组织的数据。

优选地，所述表观遗传学数据为全基因组甲基化数据。

在一些优选的实施方案中，以10-1000kb DNA碱基的长度将全基因组划分为多段，预测肿瘤组织和正常组织的染色质结构信息，并在每段中比较肿瘤组织和正常组织的染色质结构，得到肿瘤组织中染色质结构的变化信息。

其中，DNA碱基的长度例如可以为，但不限于10kb、50kb、100kb、 150kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb 或1000kb，需要注意的是，划分出的每段的DNA碱基的长度相同。

优选地，所述染色质结构信息包括开放的染色质结构或压缩的染色质结构。

优选地，计算每段中所有位点的甲基化数值的平均值，通过特征使用向量分析计算，将全基因组分成片段式的区域，预测所述区域为开放的染色质结构区域或压缩的染色质结构区域。

在一个具体的实施方式中，可通过统计计算平台R中的minfi包结合其他的R包如shinyMethyl实现。

在一些优选的实施方案中，根据肿瘤组织和正常组织中的甲基化数值，通过每个位点校正后的P值，结合肿瘤组织和正常组织之间的甲基化水平差异值，阈值过滤后，得到差异甲基化位点。

其中，P值是用来判定假设检验结果的一个参数，是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。可采用统计计算平台R中的常规生物信息计算软件包，并通过多重检验方法计算每个位点的校正后的P值，典型的常规生物信息计算软件包可以为SAM，典型的多重检验方法可以为FDR。

可采用差异基因分析的方法计算肿瘤组织和正常组织之间的甲基化水平差异值，典型的差异基因分析的方法可以为FoldChange。

在一些优选的实施方案中，突变克隆组成的预测和染色质结构变化的预测的数据的整合包括：

将位于主克隆群体和/或亚克隆群体中的DNA突变位点根据所处的染色体位置跟开放的染色质结构区域或压缩的染色质结构区域进行比对，得到所述主克隆群体和/或亚克隆群体中的DNA突变位点的染色质结构的变化信息。

在一个具体的实施方式中，在比对时，检测DNA突变位点的位置是否和开放的染色质结构区域或压缩的染色质结构区域的位置存在至少一个碱基的重叠，这样可得到在肿瘤组织中产生了主克隆群体和/或亚克隆群体的同时，每个克隆群体中所展示的染色质结构变化信息。

优选地，计算所述差异甲基化位点的染色体位置信息与主克隆群体和/ 或亚克隆群体中的DNA突变位点的碱基距离，以所述碱基距离最短的数值为标准获取所述差异甲基化位点的关联的DNA突变位点，然后根据所述关联的DNA突变位点所处的子克隆群体信息获取每个差异甲基化位点的克隆分布信息。

优选地，通过位于主克隆群体和/或亚克隆群体中的DNA突变位点获取对应的突变基因及所述突变基因对应的启动子区域，将所述启动子区域跟开放的染色质结构区域或压缩的染色质结构区域进行比对，得到所述主克隆群体和/或亚克隆群体中的突变基因的启动子区域的染色质结构的变化信息。

其中，可通过常规生物信息分析方法从位于主克隆群体和/或亚克隆群体中的DNA突变位点获取对应的突变基因，典型的获取突变基因的方法可以为ANNOVAR。

优选地，计算所述差异甲基化位点的染色体位置信息，如果与启动子区域的位置存在至少一个碱基的重叠则得到突变基因的启动子区域的差异甲基化修饰情况。

其中，所述突变基因的数据集为主克隆群体和/或亚克隆群体中的突变基因；

子克隆为预测出来的主克隆群体和亚克隆群体。

可通过常规生物信息分析方法对关联的基因进行功能注释，典型的进行功能注释的方法可以为DAVID。

本发明还提供了一种实现上述的肿瘤突变克隆群体组成的构建方法的系统。

另外，本发明还提供了上述的肿瘤突变克隆群体组成的构建方法或上述的系统在构建整合有突变位点对应的表观遗传因素变化情况的肿瘤突变克隆群体组成中的应用。

综上，一方面，本发明提供的从基因组学测序原始数据到最终DNA突变克隆群体组成的预测的完整的分析体系，缓解了目前寻找DNA体细胞突变以及拷贝数变异结果文件格式不一，导致突变位点往下游进行克隆群体推测往往难以顺畅斜街的问题，提高了实际操作上的效率。另一方面，本发明为从表观遗传组学数据中进行染色体结构信息获取以及差异甲基化位点获取提供一站式解决方案，降低了实际操作的冗余度。本发明首次整合二者信息，从子克隆突变位点、基因、染色质结构以及差异甲基化位点进行多层次数据融合，并且进行了必要的功能模块整合，能满足实际问题更多维层次的需求，覆盖面要更为系统、全面。

下面，通过一些实施例对本发明的有益效果进行进一步的说明。

实施例1

本实施例采取公开的ICGC数据库中的膀胱癌病人的突变图谱和甲基化图谱数据，按照图1所示的流程图进行操作，主要操作流程及结果如下：

1.由于从ICGC获取的突变图谱已经是数据库处理好的突变位点，故本试剂操作跳过突变位点的寻找，在实际操作过程中，可采用常规的生物信息分析工具GATK进行体细胞突变和拷贝数变异信息的获取。

2.计算每一个突变位点的突变频率，在统计计算平台R中对突变频率进行贝叶斯β混合建模，对突变进行聚类并输出类别，即得到子克隆群体，计算每个类别的平均突变频率，根据频率大小判断主克隆和亚克隆状态。该步骤发现存在三个子克隆群体，包括一个主克隆和两个亚克隆，其中主克隆拥有8个突变位点，两个亚克隆分别拥有22个和1056个突变位点。

3.在统计计算平台R中输入甲基化图谱原始数据，格式为IDAT文件格式，利用illuminaio包以及生物信息分析获取甲基化探针的甲基化水平数值。

4.采用perl编程将整个基因组以100kb DNA碱基的长度划分为多个小窗口，计算位于窗口中的所有位点甲基化数值的平均值，通过在统计计算平台R中采用minfi包，通过特征使用向量分析计算，将基因组分成片段式的区域，预测开放染色质区域以及压缩染色质区域。总共从全基因组获取了 11700个长度为100kb大小的开放染色质结构区域，10279个长度为100kb大小的压缩染色质结构区域。

5.将克隆群体中突变位点与染色质结构区域进行比对，发现在主克隆中，存在5个开放染色质结构区域，2个压缩染色质结构区域。在两个亚克隆中，拥有22个突变位点的亚克隆中存在10个开放染色质结构区域，7个压缩染色质结构区域；拥有1056个突变位点的亚克隆中存在622个开放染色质结构区域，344个压缩染色质结构区域。由此可见，在肿瘤组织的三个克隆群体中，开放染色质结构均占主导，本发明能在实际问题中揭示比肿瘤突变更多一维度的信息。

6.对位于三个克隆群体中的开放/压缩染色质结构区域采用 ANNOVAR工具进行基因注释，然后通过DAVID工具进行功能注释，在设置矫正后的P值为0.01水平时，发现存在于一亚克隆中的622个开放染色质结构区域显著性地富集在T细胞调节功能模块，而存在于该亚克隆中的 344个压缩染色质结构区域则显著性地富集在跟染色体20q12-q13该区域扩增相关的功能模块。功能模块的富集表明本方法在实际操作可以实现新知识的获取。

实施例2

本实施例采取另外一公开的TCGA数据库中的肝癌病人的突变图谱和甲基化图谱数据，按照图1所示的流程图进行操作，主要操作流程及结果如下：

1.由于从TCGA获取的突变图谱也是数据库已经处理好的突变位点，故本实际操作跳过突变位点的寻找，在实际操作过程中，可采用常规的生物信息分析工具MuTect进行体细胞突变和拷贝数变异信息的获取。

2.计算每一个突变位点的突变频率，在统计计算平台R中对突变频率根据二项分布进行统计建模，对突变进行聚类并输出类别，即得到子克隆群体，计算每个类别的平均突变频率，根据频率大小判断主克隆和亚克隆状态。该步骤发现也存在三个子克隆群体，包括一个主克隆和两个亚克隆，其中主克隆拥有45个突变位点，两个亚克隆分别拥有34个和964个突变位点。

3.在统计计算平台R中输入甲基化图谱原始数据，格式为IDAT文件格式，利用limma包以及生物信息分析获取甲基化探针的甲基化水平数值。

4.在统计计算平台R中使用常规生物信息计算软件包SAM，获取肿瘤中的差异甲基化位点。

5.采用python编程将整个基因组以10kb DNA碱基的长度划分为多个小窗口，计算位于窗口中的所有位点甲基化数值的平均值，通过在统计计算平台R中采用minfi包结合shinyMethyl包，通过特征使用向量分析，将基因组分成片段式的区域，预测开放染色质区域以及压缩染色质区域。总共从全基因组获取了15730个长度为10kb大小的开放染色质结构区域，8263个长度为10kb大小的压缩染色质结构区域。

6.将克隆群体中突变位点与染色质结构区域进行比对，发现在主克隆中，存在14个开放染色质结构区域，6个压缩染色质结构区域。在两个亚克隆中，拥有34个突变位点的亚克隆中存在5个开放染色质结构区域，14个压缩染色质结构区域；拥有964个突变位点的亚克隆中存在512个开放染色质结构区域，267个压缩染色质结构区域。由此可见，本发明在推广应用在其他肿瘤类型上也能在实际问题中揭示肿瘤突变和染色质结构多维度的信息。

7.将差异甲基化位点与克隆群体中突变位点进行比对，从差异甲基化位点结果文件中提取差异甲基化位点染色体位置信息，计算每个位点与克隆群体中DNA突变位点的碱基距离，以距离最短的数值为标准获取该位点关联的DNA突变位点，发现在主克隆中的突变位点跟50个高水平甲基化位点相关联，跟23个低水平甲基化位点相关联。在两个亚克隆中，分别关联 46个低水平甲基化位点和138个高水平甲基化位点。由此可见，在肿瘤组织的三个克隆群体中，高水平的甲基化位点均占主导，本发明能在实际问题中揭示肿瘤突变和差异甲基化信息的关联情况。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种整合表观遗传组学的肿瘤克隆组成的构建方法，其特征在于，所述构建方法包括：

2.根据权利要求1所述的构建方法，其特征在于，根据基因组学数据，进行DNA突变位点的寻找，并进行突变克隆组成的预测；

优选地，所述基因组学数据为经过预处理的基因组学数据；

3.根据权利要求2所述的构建方法，其特征在于，将预处理后的基因组学数据针对参考基因组进行比对，获取体细胞突变结果和拷贝数变异信息，完成DNA突变位点的寻找；

优选地，在比对结果中剔除重复的比对。

4.根据权利要求3所述的构建方法，其特征在于，根据所述体细胞突变结果提取出突变位点所在染色体位置信息；

5.根据权利要求1所述的构建方法，其特征在于，所述表观遗传学数据为经过预处理的表观遗传学数据；

优选地，所述表观遗传学数据为全基因组甲基化数据。

6.根据权利要求5所述的构建方法，其特征在于，以10-1000kb DNA碱基的长度将全基因组划分为多段，预测肿瘤组织和正常组织的染色质结构信息，并在每段中比较肿瘤组织和正常组织的染色质结构，得到肿瘤组织中染色质结构的变化信息；

7.根据权利要求5所述的构建方法，其特征在于，根据肿瘤组织和正常组织中的甲基化数值，通过每个位点校正后的P值，结合肿瘤组织和正常组织之间的甲基化水平差异值，阈值过滤后，得到差异甲基化位点。

8.根据权利要求1-7任一项所述的构建方法，其特征在于，所述二者数据的整合包括：

优选地，计算所述差异甲基化位点的染色体位置信息与主克隆群体和/或亚克隆群体中的DNA突变位点的碱基距离，以所述碱基距离最短的数值为标准获取所述差异甲基化位点的关联的DNA突变位点，然后根据所述关联的DNA突变位点所处的子克隆群体信息获取每个差异甲基化位点的克隆分布信息；

9.一种实现权利要求1-8任一项所述的整合表观遗传组学的肿瘤克隆组成的构建方法的系统。

10.如权利要求9所述的系统在构建整合有突变位点对应的表观遗传因素变化情况的肿瘤突变克隆群体组成中的应用。