CN115404275B

CN115404275B - 一种基于纳米孔测序技术评估肿瘤纯度的方法

Info

Publication number: CN115404275B
Application number: CN202210990098.4A
Authority: CN
Inventors: 李昕; 卢洋; 许晗; 刘嘉颖
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2023-07-11
Anticipated expiration: 2042-08-17
Also published as: CN115404275A

Abstract

本发明属于肿瘤纯度检测领域，具体涉及一种基于纳米孔测序技术评估肿瘤纯度的方法，包括如下步骤：基于肿瘤细胞系的纳米孔测序数据筛选出相应的PMD区域和HMD区域；基于筛选出的PMD区域和HMD区域分别计算肿瘤细胞系的PMD系数与HX1正常个体的PMD系数，并用于评估肿瘤纯度。本发明充分利用纳米孔测序reads长度较长并且可以横跨PMD和高甲基化区域的特性，通过横跨二者边界区域的reads来筛选并计算含有PMD类型的reads的比例作为肿瘤纯度评估指标，所需肿瘤样本量少，且对肿瘤纯度的评估准确度较高。

Description

一种基于纳米孔测序技术评估肿瘤纯度的方法

技术领域

本发明属于肿瘤纯度检测领域，具体涉及一种基于纳米孔测序技术评估肿瘤纯度的方法。

背景技术

DNA甲基化是一种重要的表观遗传修饰，在维持基因组稳定性、基因沉默、胚胎发育和肿瘤发生等多种生物学过程中发挥着重要作用。与正常的细胞相比，许多肿瘤细胞都具有异常的甲基化模式，这主要体现在异常高甲基化，特别是启动子区域的高甲基化可能会导致某些肿瘤抑制基因的转录沉默；相反的异常的低甲基化可能会导致原癌基因的转录激活，也可能会增加基因组的不稳定性，这些都与肿瘤的发生发展有着密切的关系。由于DNA中的5mC修饰和5hmC修饰在明确肿瘤的发病机制及预后中扮演着非常重要的角色，因此，精确的检测5mC和5hmC修饰的含量及其在基因组上的准确定位就变得极为重要。

目前，重亚硫酸盐测序法被认为是高通量测序检测5mC修饰的金标准，它的原理是DNA在经过重亚硫酸盐处理后，普通的C会变成U，经过PCR反应会变成T，而有甲基化修饰的C则不会变，由此将甲基化的C和未甲基化的C区分开。但是由于有羟甲基化修饰的5hmC也不会被亚硫酸盐转化，所以该测序得到的结果实际上是5mC修饰和5hmC修饰的总和。由于亚硫酸盐作为脱氨剂会大量降解被输入的DNA样品，这一损耗导致测序时对DNA样本的需求量非常大，容易导致基因组信息不全，而且无法实现特异性原代细胞和处于动态遗传表观变化中的稀有细胞类群的基因特征分析。为了解决上述问题从而从达到单碱基分辨率的检测5hmC修饰，研究者在2012年提出了氧化亚硫酸氢盐测序(oxBS-seq)来检测5hmC的方法，这种方法是根据5hmC易于被TET蛋白或一些氧化剂氧化的特性，用KRuO4预处理基因组DNA，使5hmC特异性的被氧化成5fC，而5fC又可以在重亚硫酸盐的处理后变为U，经过测序得到T的信号，结合BS-seq的结果，用BS-seq中每个位点C的含量与之相减即可得到5hmC的含量。此种方法虽然可以准确有效的区分出来5hmC，但是其需要进行两次测序，消耗的成本相对较高。而TAB-seq技术主要是通过β糖基转移酶特异性的在5hmC上引入β糖基，从而免受TET酶的氧化，非甲基化胞嘧啶和5mC则会被TET酶氧化成5caC，然后再用亚硫酸盐处理测序得到5hmC的单碱基定位和甲基化水平。oxBS-seq和TAB-seq二者都可以实现基因组5hmC单碱基分辨率的检测，但是相比之下，TAB-seq只需一次测序就可以得到5hmC位点，比前者更经济，但二者同样面临亚硫酸氢盐对DNA损伤这一非常大的问题。2018年，Emily等新提出了一种在低DNA上样量的单碱基分辨率条件下定位5-羟甲基胞嘧啶的方法(APOBEC-coupledepigenetic sequencing,ACE-Seq)，这一方法基于ADI/APOBEC家族的DNA脱氨酶能有效的区分不同的胞嘧啶修饰状态，特异性的对正常胞嘧啶和5-甲基胞嘧啶进行脱氨，而对β糖基化修饰的5-羟甲基胞嘧啶没有影响，整个过程中无需亚硫酸盐处理，是一种有别于其他化学方法的无损检测技术。

随着测序技术的发展，二代测序的弊端越来越突出，为了解决二代测序的不足，三代长度长测序应运而生。目前主要的三代测序方法是来自于美国太平洋生物科学公司的单分子实时测序技术(Single Molecule Real Time sequencing,SMRT)和牛津生物公司的纳米孔测序技术(Oxford Nanopore Technoligies,ONT)。纳米孔测序的概念最早可以追溯至20世纪80年代，目前的纳米孔测序技术主要包括两个部分：纳米孔蛋白和分子马达蛋白。第一个被用于纳米孔测序的纳米孔蛋白为alpha-hemolysin，其内部直径为1.4至2.4纳米；随后，另外一个具有相似内部直径(1.2纳米)的蛋白MspA也被证实可以用于纳米孔测序。分子马达蛋白的作用则主要是将双链DNA或者RNA-DNA杂合体解链为单链分子，使得待测序的DNA或RNA分子穿过纳米孔蛋白。测序过程中，由于纳米孔蛋白(pore)所在的薄膜两侧的电压不一样，DNA、RNA或者蛋白质分子通过pore时便会产生电流，不同碱基由于其结构的差异在经过通道时引起的电流变化不一样从而会被区分开来。

相对于二代测序技术，纳米孔测序技术的优势主要在于测序速度快，读长非常长，可以达到数千Kb；测序无需PCR扩增，避免了由于扩增偏好性带来的影响。相对于SMRT技术，纳米孔测序还有精确度高，错误率低的特点，并且测序所使用的MinION测序仪还具有携带方便，可以随时随地进行样本的测序。目前，应用纳米孔测序技术已完成许多物种高质量基因组的组装，其特有的全长转录组测序还对很多物种的剪接体种类进行了丰富和完善。纳米孔测序另外一大优势是可以直接从测序数据中识别碱基修饰或者组蛋白修饰，比如5mC和5hmC修饰，与二代测序检测5mC和5hmC修饰的方法相比，纳米孔测序具有成本低、文库构建方便、测序速度快等优点。

胞嘧啶在加上甲基或者羟基之后结构会发生变化，这就导致带有修饰的碱基在通过纳米孔的时候电流的大小也和没有修饰的胞嘧啶不同，因此Nanopore测序也可以通过一定的计算方法达到直接检测DNA、RNA或者蛋白质分子上的各种修饰的效果。目前已经开发除了许多针对5mC修饰的检测方法。2018年，Simpson等开发出Nanopolish软件用于5mC修饰的检测。该团队利用nanopore对Coriell NA12878细胞系DNA进行测序，得到2D的reads，然后用基于隐马尔可夫模型(hidden Markov model,HMM)的算法从测序得到的电流信号中识别碱基序列，然后进行5mC的计算，最后发现该方法可以从用R7.3版本的芯片测序得到的数据中计算出68％的发生在CpG位点的甲基化修饰，准确度可以达到91％，如果是利用R9版本芯片进行测序，则可以计算出77％的发生在CpG位点的甲基化修饰，准确度可以达到94％。相比于之前的方法，利用nanopore测序来检测5mC的准确率有明显的提高，但是该方法的模型目前只适用于检测5mC，不能检测5hmC,并且仅局限于检测CpG位点的甲基化修饰，不能检测CHH和CHG位点的甲基化修饰。同一时间Paten课题组也开发了关于利用nanopore测序的长序列中判断5mC的软件SignalAlign，与Nanopolish不同点在于从电信号中读取碱基的时候基于的模型是HMM-HPD(hidden Markov model–hierarchial Dirichlet process)，该模型在碱基判断的准确性上能明显高于单一的隐马尔可夫模型。然后作者用R7.3版本的芯片对人工合成的但是包含不同甲基化修饰(C、5mC或者5hmC)的标准品以及三者的混合样品进行测序，通过分析发现对C、5mC以及5hmC的检测准确度分别为75％，66％和79％，对于5mC和5hmC来说，发生的错误主要都是判断为C。随后，研究者又基于卷积神经网络(Convolutional Neural Networks,CNN)或者循环神经网络(Recurrent Neural Network，RNN)开发出了Tombo/Nanoraw、Deepmod、Deepsingal、Guppy、Megalodon和METEORE等软件，这些软件相比于前面的Nanopolish和SignalAlign具有更快的速度和更高的精度。目前这些软件除了SignalAlign之外，都只能在全基因组范围内对5mC修饰进行单碱基分辨率的检测，并且精度都有提高的空间。SignalAlign软件虽然可以检测5hmC修饰，但是错误率非常高，5hmC修饰在基因组含量本身很低，所以需要很高精度的软件才能排除假阳性从而得到准确的结果。此外，还有Guppy、Megalodon、METEORE和Tombo/Nanoraw等软件都是利用神经网络模型来从纳米孔测序数据中检测5mC修饰。

肿瘤纯度是指所采的肿瘤样本中所含的肿瘤细胞的比例。肿瘤组织是一个非常复杂的生态系统，除了肿瘤细胞本身，肿瘤微环境中包含免疫细胞、基质细胞等其它细胞类型，因此在临床工作中所采取的肿瘤样本往往并非全部都是肿瘤细胞，也包含了肿瘤微环境中的其它类型的细胞，这些其它细胞都对研究真正的肿瘤细胞本身的特征有很大的干扰。传统的评估肿瘤纯度的方法是根据病理图像分析进行的，比如利用HE染色的图像来评估，但是这个方法易受到载玻片染色质量、仪器精确度以及观察者的主管判断等方面的影响。随着二代测序技术的迅速发展，基因组学、转录组学和表观基因学等测序数据价格越来越低廉，衍生出了许多利用肿瘤样本中的全基因组的核苷酸突变、基因表达以及甲基化水平等指标来计算肿瘤纯度的方法。最常用的评估肿瘤纯度的方法是ABSOLUTE，该方法是基于体细胞拷贝数畸变(somatic copy number aberration,SCNA)的信息，利用极大似然模型来计算肿瘤的纯度。ESTIMATE则是利用基因表达数据评估单个肿瘤样本中的基质分数和免疫分数，用于代表基质细胞和免疫细胞的含量，除去二者得到的即是肿瘤的纯度。肿瘤抑制基因调控区域可能发生高甲基化，导致抑制肿瘤起始和发展的基因失活；或者是原癌基因调控区域的去甲基化会导致起激活，这也是癌症形成的一个重要原因。一项通过对癌症基因组图谱协会(The Cancer Genome Atlas Consortium,TCGA)提供的数千个肿瘤样本的DNA甲基化图谱的泛癌分析，发现在每一种肿瘤类型中都存在高度一致的甲基化类型，比如在前列腺癌症患者中，GSTP1几乎在所有的肿瘤样本中都呈现出了高甲基化；RUNX3和RASSF1A则分别在膀胱癌和头颈部鳞状细胞癌始终保持着甲基化状态。因此，近年来研究者们开发出了越来越多基于甲基化水平来推断和评估肿瘤纯度的方法。Zheng等提出的MethylPurify是基于差异甲基化区域来推断单个肿瘤样本的纯度，但是该方法受限与需要很深的亚硫酸盐测序深度。InfiniumPurify则是基于肿瘤样本与正常样本中有显著差异的甲基化位点，利用高斯核密度估计方法去评估肿瘤样本纯度，该方法需要正常样本的个数至少30个的时候效果比较好，随后其又在此基础上开发了UiInfiniumPurify，可以进行样本较少的肿瘤组织的纯度估计。同时还有利用高度克隆的肿瘤类型中特异性的甲基化CpG位点来评估肿瘤纯度的软件PAMES。但是以上这些方法基本都需要样本量很大的肿瘤组织和正常组织进行比较，而对于样本量很少的珍稀肿瘤样本效果就显得很差。

因此，针对现有肿瘤纯度检测中存在的问题，本发明旨在基于纳米孔测序技术构建合适的计算模型来评估肿瘤纯度，以实现在小样本量下肿瘤纯度的准确评估，为了解肿瘤组织的细胞构成提供可靠的方法基础。

发明内容

针对现有技术存在的问题，本发明旨在提供一种基于纳米孔测序技术评估肿瘤纯度的方法，具有样本量小且对肿瘤纯度评估准确度高的优势。

基于上述目的，本发明采用的技术方案如下：

第一方面，本发明提供一种基于纳米孔测序技术评估肿瘤纯度的方法，包括如下步骤：

将肿瘤细胞系进行纳米孔测序获得肿瘤细胞系的纳米孔测序数据；基于所述纳米孔测序数据筛选出所述肿瘤细胞系的PMD区域和HMD区域；基于筛选出的PMD区域和HMD区域信息，计算所述肿瘤细胞系的PMD系数；

基于HX1个体的纳米孔测序数据、所述肿瘤细胞系的PMD区域和HMD区域信息，计算所述HX1个体的PMD系数；

分别随机抽取肿瘤细胞系的纳米孔测序数据和HX1个体的纳米孔测序数据，并将二者按照一定比例混合作为混合数据集，基于混合数据集的纳米孔测序数据和所述肿瘤细胞系的PMD区域和HMD区域信息，计算所述混合数据集的PMD系数；

基于所述肿瘤细胞系的PMD系数、所述HX1个体的PMD系数和所述混合数据集的PMD系数评估所述混合数据集的肿瘤纯度。

由于癌症基因组中大量PMD区域的存在，其跨越PMD边界区域的reads呈现两种不同的甲基化模式，即每一条边界reads落在PMD区域的部分呈现低甲基化区域，而落在HMD区域则呈现高甲基化。本发明充分利用纳米孔测序reads非常长并且可以横跨PMD和高甲基化区域(highly methylated domains，HMD)的特性，通过横跨二者边界区域的reads来筛选并计算含有PMD类型的reads的比例作为肿瘤纯度评估指标，所需肿瘤样本量少，且对肿瘤纯度的评估准确度较高。

优选地，肿瘤细胞系的纳米孔测序数据在用于筛选出PMD区域、HMD区域和计算PMD系数之前以及HX1个体的纳米孔测序数据在用于计算PMD系数之前，均需进行进行纳米孔测序数据的预处理，预处理的方法如下：

将纳米孔测序数据文件中的电信号进行识别并转换为包含碱基信息的文件，并滤除质量小于7.0的reads，保留其余reads。

优选地，基于肿瘤细胞系的纳米孔测序数据筛选出所述肿瘤细胞系的PMD区域和HMD区域的方法均包括如下步骤：

基于隐马尔可夫模型对纳米孔测序数据进行PMD区域筛选，筛选条件为：每个PMD区域至少包含100个CG位点，PMD区域的长度至少为20000bp；相邻两个PMD区域之间的HMD区域的长度至少为10000bp。

优选地，基于所述纳米孔测序数据筛选出所述肿瘤细胞系的PMD区域和HMD区域的方法还包括如何判断PMD区域是否为正确的PMD区域的方法：

将肿瘤细胞系的PMD区域进行可视化，显示PMD区域中所有的CG位点，若在所述肿瘤细胞系中该PMD区域的CG位点均处于非甲基化状态，同时其两边侧翼的区域均处于甲基化状态，则表明该PMD区域为正确的PMD区域。

优选地，基于肿瘤细胞系的PMD区域和HMD区域信息，计算所述肿瘤细胞系的PMD系数，包括如下步骤：

筛选出同时与PMD区域和HMD区域有交集的reads作为边界reads；

计算每一条边界reads中的所有CG位点的甲基化情况，筛选出甲基化的CG占总CG的比例在0.3和0.7之间的reads作为PMD reads；

统计PMD reads占边界reads数的比例即为所述肿瘤细胞系的PMD系数，记为PMD1。

优选地，基于HX1个体的纳米孔测序数据、肿瘤细胞系的PMD区域和HMD区域信息，计算所述HX1个体的PMD系数，包括如下步骤：

筛选出同时与PMD区域和HMD区域有交集的reads作为边界reads；

统计PMD reads占边界reads数的比例即为所述HX1个体的PMD系数，记为PMD2。

优选地，基于混合数据集的纳米孔测序数据以及肿瘤细胞系的PMD区域和HMD区域信息，计算混合数据集的PMD系数，包括如下步骤：

筛选出同时与PMD区域和HMD区域有交集的reads作为边界reads；

统计PMD reads占边界reads数的比例即为所述混合数据集的PMD系数，记为PMD3。

优选地，基于所述肿瘤的PMD系数、HX1个体的PMD系数以及混合数据集的PMD系数评估所述混合数据集的肿瘤纯度的方法如下：

混合数据集的肿瘤纯度＝(PMD3-PMD2)/(PMD1-PMD2)，其中，PMD1为所述肿瘤细胞系的PMD系数；PMD2为所述HX1个体的PMD系数；PMD3为所述混合数据集的PMD系数。

优选地，肿瘤细胞系为HCT116细胞系，所述肿瘤为结直肠癌。

优选地，混合数据集中随机抽取的肿瘤细胞系的纳米孔测序数据与随机抽取的HX1个体的纳米孔测序数据的混合比例为1:9、3:7、7:3或9:1。

本发明以HCT116结直肠癌细胞系为例进行纳米孔文库构建并测序，并结合下载的HX1正常人类样本的纳米孔测序数据为对照，来寻找基因组中的PMD区域，然后根据横跨PMD和HMD区域并且符合PMD区域特征的reads寻找评估肿瘤纯度的方法，从而解决目前肿瘤纯度评估依赖大量样本的问题，也可以为临床上数量较少的肿瘤样本的纯度估计提供参考。

第二方面，本发明提供一种由上述方法构建得到的基于纳米孔测序技术评估肿瘤纯度的模型。

优选地，基于纳米孔测序技术评估肿瘤纯度模型为基于肿瘤细胞系的PMD系数、HX1个体的PMD系数以及混合数据集的PMD系数，评估混合数据集的肿瘤纯度；

第三方面，本发明提供一种评价上述模型对肿瘤纯度评估的准确度的方法，包括如下步骤：

将所述肿瘤细胞系测序数据与HX1个体测序数据按照一定比例分别随机抽样混合作为混合数据集，基于上述模型，由肿瘤细胞系的PMD系数、HX1个体的PMD系数以及混合数据集的PMD系数计算混合数据集的肿瘤纯度；

将所述混合数据集的肿瘤纯度与实际肿瘤纯度值进行差异分析，以评价本发明所述模型对肿瘤纯度评估的准确度。

优选地，混合数据集中肿瘤细胞系的测序数据与HX1个体的测序数据的混合比例为1:9、3:7、7:3或9:1。

经试验发现，当肿瘤细胞系测序数据与HX1个体测序数据的混合比例为1:9、3:7、7:3或9:1，由本发明所述方法计算所得的肿瘤纯度值与肿瘤实际纯度值无显著差异，表明本发明所述方法对肿瘤纯度评估具有较高的准确性。

与现有技术相比，本发明的有益效果如下：

目前的许多肿瘤纯度的检测方法多是基于二代测序或者芯片得到的甲基化水平来评估，一大弊端是需要很多的肿瘤样本和正常样本才能得到相对可靠的结果，而在样本量较少的情况下结果往往偏差很大，无法满足少量样本情况下纯度的计算。而本发明方法只需要对肿瘤样本进行低深度的纳米孔测序便可以准确对少量或者单个肿瘤样本的纯度进行精确的计算。

本发明充分利用纳米孔测序reads非常长并且可以横跨PMD和高甲基化区域的特性，通过横跨二者边界区域的reads来筛选并计算含有PMD类型的reads的比例作为肿瘤纯度评估指标，所需肿瘤样本量少，且对肿瘤纯度的评估准确度较高。

附图说明

图1为本发明肿瘤纯度评估方法的技术路线图；

图2为HCT116细胞系和HX1个体在PMD区域(chr8:97449200-97544770)及其侧翼区域的CG位点的甲基化情况(蓝色表示C，红色表示mC，绿色表示本条reads没有覆盖到该CG位点)；

图3为HCT116细胞系和HX1个体在PMD区域(chr8:97449200-97544770)的CG位点甲基化情况的IGV软件可视化结果；

图4为五种不同比例混合的混合数据集的肿瘤纯度预测结果。

具体实施方式

为更好地说明本发明的目的、技术方案和优点，下面将结合具体实施例对本发明作进一步说明。本领域技术人员应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例中所用的试验方法如无特殊说明，均为常规方法；所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

本实施例以HCT116细胞系为例说明本发明基于纳米孔测序技术评估肿瘤纯度的方法并评估了本发明所述方法对肿瘤纯度评估的准确性，其技术路线如图1所示，包括如下步骤：

1.实验样品与材料

足够量的HCT116细胞系液氮速冻，然后放置于干冰中送至武汉希望组生物科技有限公司进行DNA提取、纳米孔测序文库构建和上机测序。

2.HCT116细胞系纳米孔测序数据的预处理

Nanopore测序的下机的原始数据格式为包含所有测序电信号的fast5文件，我们首先用从牛津纳米孔公司官网(https://community.nanoporetech.com/downloads/)下载的Guppy软件对fast5文件中的电信号进行识别并转换为包含碱基信息的fastq文件(basecalling)。Guppy软件的主要功能是碱基识别，它是基于卷积神经网络算法(RNN)将fast5文件中的电信号数据解读为DNA或者RNA的5个标准碱基，即腺嘌呤(A)，鸟嘌呤(G)，胞嘧啶(C)，胸腺嘧啶(T)和尿嘧啶(U)。Guppy还能识别添加了条形码的文库数据，basecalling同时直接将带有不同条形码的数据准确分开。然后我们根据basecalling之后的报告文件过滤掉质量小于7.0的reads，剩下的用于后续分析。

3.PMD区域的计算

本部分试验首先根据reads覆盖深度至少为10的CG位点的甲基化状态，运用隐马尔可夫模型进行PMD区域的计算和筛选，筛选条件为每个PMD区域至少包含100个CG位点，PMD区域的长度至少为20000bp，相邻两个PMD之间的区域也即高甲基化区域(highmethylated domains，HMD)至少为10000bp。

3.1基于HCT116细胞系纳米孔测序数据进行PMD区域的计算与筛选结果

本部分实验首先选择HCT116细胞系8号染色体上的60000条reads(一共132848条)进行PMD区域的计算，最终得到了220个PMD区域。如表1所示，表1显示了靠前的5个PMD区域和5个HMD区域，可以发现HMD区域是要远远大于PMD区域的。接着我们随机对HCT116细胞系一个PMD区域(chr8:97449200-97544770)进行可视化，该区域包含了565个CG位点，结果如图2所示，表明在HCT116细胞系中该区域的CG位点基本都处于非甲基化状态，而两边侧翼的HMD区域则基本上都处于甲基化状态(图2中左图)，说明该区域是一个正确的PMD区域。接着我们也对HX1个体的该区域进行了可视化，发现在正常的HX1个体中该区域的CG位点都是甲基化的，并且侧翼区域也都是甲基化的区域(图2中右图)，说明了该区域可能是结直肠癌特有的PMD区域，同时也说明该方法找到的PMD区域是可靠的。IGV可视化结果如图3所示，也显示HCT116细胞系的该区域相对于HX1个体而言的确为PMD区域。

表1 8号染色体5个PMD区域和5个HMD区域的信息统计

4.基于横跨PMD边界区域reads进行PMD系数的计算

本部分实验首先根据上一步找到的PMD和HMD区域的边界信息对reads进行筛选，保留同时和二者有交集的reads作为边界reads。接着通过计算每一条reads中的所有CG位点的甲基化情况，筛选出甲基化的CG占总CG的比例在0.3和0.7之间的reads作为PMDreads。最后统计PMD reads占边界reads数比例即为该类肿瘤细胞系的PMD系数。

同时我们也用同样的方法，基于基于HX1个体的纳米孔测序数据和HCT116细胞系的PMD区间进行边界reads数和PMD reads数的统计，并最终统计PMD reads占边界reads数的比例得到HX1正常个体的PMD系数。

4.1基于横跨PMD边界区域reads对结直肠癌细胞系和HX1个体进行PMD系数的计算结果

接着我们对所选择的60000条reads进行了筛选，得到了3049条边界reads。然后通过对甲基化水平的筛选后得到了1780条PMD reads，最后通过计算PMD reads占边界reads的比例即1802/3019＝59.7％作为HCT116细胞系的PMD系数，记为PMD1。然后我们对HX1个体测序数据也随机选择了60000条reads进行了PMD系数的计算，得到HX1正常个体的PMD系数(记为PMD2)为356/1832＝19.4％，如表2所示。

表2两个数据集PMD系数的计算结果

5.基于PMD系数对肿瘤纯度进行评估

接着我们从HCT116细胞系和HX1个体的测序数据中分别随机抽取reads，并按照1:9、3:7、5:5、7:3、9:1等5种比例组成包含100000条reads的混合数据集，每一种比例随机抽取3次，然后计算15个数据集的肿瘤纯度，并和理论的纯度值进行t检验来检测该方法的准确性。

5.1基于PMD系数对肿瘤纯度的评估结果

接着我们分别用HCT116细胞系的测序数据和HX1测序数据中依次按照1:9、3:7、5:5、7:3和9:1比例随机抽样并计算混合数据集的PMD系数(PMD3)，以混合比例为1:9的三个平行数据集为例，统计得到混合数据集的PMD系数依次为24.5％、25.7％和24.6％，混合数据集的PMD系数的平均值为24.9％。

依据混合数据集的肿瘤纯度的计算公式，估算混合数据集的肿瘤纯度，计算公式如下：

混合数据集的肿瘤纯度＝(PMD3-PMD2)/(PMD1-PMD2)，计算得到的肿瘤纯度依次为12.7％、15.6％和12.9％，混合数据集的肿瘤纯度的均值为13.7％，与实际肿瘤纯度相比没有明显差异(P＝0.06)(如表3所示)。

参照上述方法分别对剩下4种比例3:7、5:5、7:3和9:1混合数据集计算得到混合数据集的PMD系数的均值分别为32.9％、42.1％、48.2％和54.9％，计算所得混合数据集的肿瘤纯度分别为33.4％、56.2％、71.5％和89.8％。t检验结果显示5:5混合数据集的预测肿瘤纯度值和实际纯度值是有明显差异的(P＝0.003)，而其他的分组均无显著差异(如图4所示)。

表3 5种不同比例混合的数据集的肿瘤纯度预测结果

综上，由于癌症基因组中大量PMD区域的存在，其跨越PMD边界区域的reads呈现两种不同的甲基化模式，即每一条边界reads落在PMD区域的部分呈现低甲基化区域，而落在HMD区域则呈现高甲基化。而纳米孔测序得到的reads可以长达10k以上，对于寻找PMD区域以及跨越边界的reads比二代测序的短reads有巨大优势。因此本发明选择用HCT116结直肠癌细胞系的纳米孔测序数据来寻找基因组中的PMD区域和边界reads的甲基化状态作为指标来评估肿瘤纯度。

本发明通过计算一共在HCT116细胞系纳米孔测序数据中得到了220个PMD区域和HMD区域，可视化结果显示HCT116细胞系在PMD区域的CG位点都呈现了低甲基化，而正常的HX1个体在该区域的CG位点依然是高甲基化状态，说明了得到的PMD区域是可靠的。接着分别对两个个体各选取60000条reads进行了边界reads和PMD reads的统计，并计算了各自的PMD系数，发现HCT116细胞系一共得到了3019条边界reads，其中有1802条PMD reads，PMD系数为59.7％，而HX1个体得到了1832条边界reads，PMD reads则只有356条，PMD系数为19.4％，结果表明HX1个体的PMD系数远低于HCT116细胞系的PMD系数，二者相差较大，这也是符合预期的，基于此本发明利用这一系数进行肿瘤纯度的评估。

最后我们分别从肿瘤细胞系和HX1个体数据集中随机抽取reads并按照5种比例组成新的混合数据集来计算肿瘤纯度，与实际纯度相比，在1:9、3:7、7:3以及9:1的混合数据集中，各比例条件下三次随机抽样的计算结果与实际纯度之间是没有显著差异的(P>0.05)，说明该方法可以准确评估肿瘤纯度。总体来说基于纳米孔测序的长reads寻找PMD区域，并计算PMD系数的方法可以在很大程度上准确评估混合数据集的肿瘤纯度，该方法只依赖于被检测样品本身，对少数的稀缺个体依然可以进行肿瘤纯度的评估，这将为肿瘤纯度的评估节省很大成本。

最后所应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于纳米孔测序技术评估肿瘤纯度的方法，其特征在于，包括如下步骤：

将肿瘤细胞系进行纳米孔测序获得肿瘤细胞系的纳米孔测序数据；基于所述纳米孔测序数据筛选出肿瘤细胞系的PMD区域和HMD区域；基于筛选出的PMD区域和HMD区域信息，计算所述肿瘤细胞系的PMD系数；

分别随机抽取肿瘤细胞系的纳米孔测序数据和HX1个体的纳米孔测序数据，并将二者按照一定比例混合作为混合数据集，基于混合数据集的纳米孔测序数据以及所述肿瘤细胞系的PMD区域和HMD区域信息，计算所述混合数据集的PMD系数；

基于所述肿瘤细胞系的PMD系数、所述HX1个体的PMD系数和所述混合数据集的PMD系数评估所述混合数据集的肿瘤纯度；

所述肿瘤细胞系的纳米孔测序数据在用于筛选出PMD区域、HMD区域和计算PMD系数之前以及HX1个体的纳米孔测序数据在用于计算PMD系数之前，均需进行纳米孔测序数据的预处理，所述预处理的方法如下：

将所述纳米孔测序数据文件中的电信号进行识别并转换为包含碱基信息的文件，并滤除质量小于7.0的reads，保留其余reads；

基于肿瘤细胞系的纳米孔测序数据筛选出所述肿瘤细胞系的PMD区域和HMD区域的方法包括如下步骤：

基于隐马尔可夫模型对纳米孔测序数据进行PMD区域筛选，筛选条件为：每个PMD区域至少包含100个CG位点，PMD区域的长度至少为20000bp；相邻两个PMD区域之间的HMD区域长度至少为10000bp；

基于所述纳米孔测序数据筛选出所述肿瘤细胞系的PMD区域和HMD区域的方法还包括如何判断PMD区域是否为正确的PMD区域的方法：

将肿瘤细胞系的PMD区域进行可视化，显示PMD区域中所有的CG位点，若在所述肿瘤细胞系中所述PMD区域的CG位点均处于非甲基化状态，同时其两边侧翼的区域均处于甲基化状态，则表明所述PMD区域为正确的PMD区域；

基于所述肿瘤细胞系的PMD区域和HMD区域信息，计算所述肿瘤细胞系的PMD系数，包括如下步骤：

筛选出同时与PMD区域和HMD区域有交集的reads作为边界reads；

统计PMD reads占边界reads数的比例即为所述肿瘤细胞系的PMD系数，记为PMD1；

基于HX1个体的纳米孔测序数据、所述肿瘤细胞系的PMD区域和HMD区域信息，计算所述HX1个体的PMD系数，包括如下步骤：

筛选出同时与PMD区域和HMD区域有交集的reads作为边界reads；

统计PMD reads占边界reads数的比例即为所述HX1个体的PMD系数，记为PMD2；

基于混合数据集的纳米孔测序数据以及所述肿瘤细胞系的PMD区域和HMD区域信息，计算所述混合数据集的PMD系数，包括如下步骤：

筛选出同时与PMD区域和HMD区域有交集的reads作为边界reads；

统计PMD reads占边界reads数的比例即为所述混合数据集的PMD系数，记为PMD3；

基于所述肿瘤的PMD系数、HX1个体的PMD系数以及混合数据集的PMD系数评估所述混合数据集的肿瘤纯度的方法如下：

混合数据集的肿瘤纯度=(PMD3-PMD2)/(PMD1-PMD2)，其中，PMD1为所述肿瘤细胞系的PMD系数；PMD2为所述HX1个体的PMD系数；PMD3为所述混合数据集的PMD系数；所述混合数据集中随机抽取的肿瘤细胞系的纳米孔测序数据与随机抽取的HX1个体的纳米孔测序数据的混合比例为1:9、3:7、7:3或9:1。

2.根据权利要求1所述方法，其特征在于，所述肿瘤细胞系为HCT116细胞系，所述肿瘤为结直肠癌。

3.一种评价由权利要求1或2所述方法构建得到的模型对肿瘤纯度评估的准确度的方法，其特征在于，包括如下步骤：

将所述肿瘤细胞系测序数据与HX1个体测序数据按照一定比例分别随机抽样混合作为混合数据集，基于由权利要求1或2所述方法构建得到的模型，由所述肿瘤细胞系的PMD系数、HX1个体的PMD系数以及混合数据集的PMD系数计算所述混合数据集的肿瘤纯度；所述混合数据集的肿瘤纯度=(PMD3-PMD2)/(PMD1-PMD2)，其中，PMD1为所述肿瘤细胞系的PMD系数；PMD2为所述HX1个体的PMD系数；PMD3为所述混合数据集的PMD系数；

将所述混合数据集的肿瘤纯度与实际肿瘤纯度值进行差异分析，以评价所述模型对肿瘤纯度评估的准确度；

所述混合数据集中肿瘤细胞系的测序数据与HX1个体的测序数据的混合比例为1:9、3:7、7:3或9:1。