CN110029157A

CN110029157A - 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法

Info

Publication number: CN110029157A
Application number: CN201810026109.0A
Authority: CN
Inventors: 苏哲; 倪晓晖; 高妍; 白凡
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2019-07-19
Anticipated expiration: 2038-01-11
Also published as: CN110029157B

Abstract

本发明公开了一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法。该方法结合肿瘤单细胞的群体多态性位点信息以及基因组拷贝数变化信息，进行肿瘤单细胞基因组等位基因拷贝数异常区域分析，相对于单纯的基因组拷贝数变化或者体细胞突变更增加一个维度，能够有效区分来源于同一病例的不同单细胞等位基因构成比例异常的区间，对肿瘤基因组的异质性描述以及肿瘤基因组演化信息有着重要的意义。

Description

一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法

技术领域

本发明涉及单细胞基因组测序、肿瘤基因组分析、单细胞突变分析和生物信息学领域，具体涉及一种检测肿瘤单细胞基因组单倍体拷贝数变异分析基因组异质性及细胞间演化关系方法。

背景技术

基因组测序技术已经被广泛应用于生命科学的基础研究以及相应的一些转化科学应用领域。目前，以solexa测序技术为主的二代短序列测序技术更展示出了它广泛的适用范围和巨大的应用前景。基于目的不同我们能够对DNA进行直接测序，从而组装新物种或者检测已有参考序列的物种基因组的改变，例如：单核苷酸多态性位点(SNP，singlenucleotide polymorphism)，短序列插入或者缺失(INDEL，insertion and deletion)，基因组结构变异(SV，structural variation)以及基因组拷贝数变化(CNV，copy numbervariation)。

癌症是一种基因组疾病。在癌症基因组研究中，我们通常会对比癌组织和正常组织之间基因组差异来探究与癌症发生、发展、迁移以及耐药有关的基因组变化，包括体细胞单核苷酸变异(sSNV)，体细胞短序列插入或者缺失(sINDEL)，体细胞基因组结构变异(sSV)以及体细胞基因组拷贝数改变(sCNA,somatic copy number alteration)。随着癌症研究的逐步深入，对于这种异质性极强的疾病，我们发现有时利用大量细胞(bulk)测序的技术手段无法更加直观地探究癌细胞异质性发生的原因。另一方面，在临床医学研究中我们经常无法获取足够量的癌细胞以获取足够量的用来测序的DNA进行研究。因此，单细胞扩增技术被引入到癌症基因组研究中。

单细胞扩增技术旨在将仅有数皮克的微量DNA通过相应的技术手段扩增到二代测序技术所需要的最低纳克水平，以达到精确地研究每个细胞中的基因组状态。目前较为广泛使用的单细胞扩增技术包含但不限于：扩增前引物延伸PCR(PEP-PCR，Primer extensionpreamplification PCR)、退变寡核苷酸引物PCR(Degenerate oligonucleotide primer-PCR,DOP-PCR)、多重置换扩增(MALBAC，Multipe Annealing and Looping BasedAmplification Cycles)等。而无论何种单细胞扩增技术都会存在一定的等位基因丢失(ADO，Allele Drop Out)比率，等位基因扩增比例偏差、区域扩增偏好性，碱基扩增错误都对单细胞基因组分析形成了很强的限制。

在肿瘤发生发展过程中会存在广泛的异质性，这种异质性不仅反映在sSNV，sINDEL，sSV和简单的sCNA读数上，还有可能形成一些拷贝数相同但实际父源、母源等位基因构成比例不一致的现象。而这种现象在目前的方法策略中，并没有针对于单细胞测序技术的有效分析方法。另一方面常规大量细胞(bulk)测序方法在单细胞数据上也都无法正常起作用。

发明内容

本发明的目的就是针对上述现有技术缺口，提供一种对肿瘤单细胞基因组单倍体拷贝数异常检测的方法。该方法能够有效地区分来源于同一病例的不同单细胞等位基因构成比例异常的区间，对肿瘤基因组的异质性描述以及肿瘤基因组演化信息有着重要的意义。

本发明的技术方案如下：

一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法，包括以下步骤：

1)取同一病例的多个肿瘤单细胞，并以其正常组织大量细胞为对照样本，同时进行全基因组低深度测序和全外显子(或全基因组)高深度测序，其中单细胞样本需要进行单细胞扩增后再测序；

2)将测序获得的基因组序列与参考基因组比对，根据染色体坐标顺序对比对结果进行排序，并去除PCR形成的重复序列，其中对于全外显子高深度测序数据还需要使用突变检测软件对比对结果进一步进行indel重比对(indel realignment)和碱基质量矫正(basequality recalibration)；

3)利用步骤2)处理后的全基因组低深度测序数据进行全基因组拷贝数状态分析；

4)对步骤2)处理后的全外显子(或全基因组)高深度测序数据通过群体多态性位点检测方法(population SNP calling method)进行突变检测；在检测结果中，对正常组织大量细胞样本中的突变进行过滤，筛选出覆盖深度大于X(X为大于0的某一数值)且突变等位基因频率大于P1而小于P2的突变位点(其中0<P1<0.5<P2<1)，构建可信的遗传的杂合多态性位点(germline heterozygosity single nucleotide polymorphisms)集合；初始化等位基因类型矩阵，即设定该集合的每个位点初始无分类(设定为“0”，后续将用“1”或“-1”设定临近位点以区分来自不同亲本的两个等位基因)；

5)根据步骤4)获得的位点集合，计算每个肿瘤单细胞相应位点的覆盖深度以及突变等位基因频率，通过设定覆盖深度下限标准过滤出该肿瘤单细胞中遗传的杂合多态性位点的突变频率信息(突变频率范围为0到1)；

6)从某个肿瘤单细胞样本开始，以特定大小窗口沿其基因组各染色体滑动，窗口中心每滑动到有突变频率信息的遗传的杂合多态性位点，首先判断该位点突变频率是否大于T1或者小于T2(其中0<T2<0.5<T1<1)，“否”则滑动到下一个位点，“是”则计算窗口内突变频率大于T1或小于T2的位点的数量总和；判断该数量总和占窗口内位点总数量的比例是否大于P(0<P<1，该数值需要根据不同单细胞扩增方法ADO比率进行调整)，“是”则推断窗口内两亲本等位基因频率有偏移，并判断该位点是否满足下述三个条件之一：i)该位点未被定义；ii)该位点被定义为1且突变频率大于T1；iii)该位点被定义为-1且突变频率低于T2；如果满足上述三个条件之一，则将窗口内突变频率大于T1的位点均设定为1，突变频率小于T2的位点设定为-1；如果上述三个条件均不满足，则在等位基因类型矩阵中将窗口内突变频率大于T1的位点设定为-1，而小于T2的位点设定为1；

7)依次对不同的肿瘤单细胞样本重复步骤6)的过程，直至遍历完成所有肿瘤单细胞；

8)以步骤3)所得单细胞基因组拷贝数分析窗口为基本单位，以单细胞基因组拷贝数分析窗口大小的N倍(N大于等于1)为单倍体拆分窗口大小，沿着染色体坐标位置以单倍体拆分窗口大小为步长移动。每个窗口内分别统计标记为1、0和-1的位点突变频率中值r_p、r_z和r_n；如果为0的位点数量占窗口内位点数量50％以上则设定该窗口内1，-1的位点突变频率均为0.5，否则根据窗口内r_p和r_n计算两种单倍体的频率r₁＝r_p/(r_p+r_n)，r_-1＝r_n/(r_p+r_n)；将r₁和r_-1再分别乘以该窗口内单细胞基因组拷贝数数值即得到每个单倍体拷贝数结果。

上述步骤1)中至少取三个肿瘤单细胞样本，使用MALBAC单细胞扩增技术进行单细胞扩增。正常组织大量细胞对照样本通常采用血液大量细胞对照。优选的，对于全基因组低深度测序，每个样本测序量平均为500M-1G原始数据；对于全外显子(或全基因组)高深度测序，每个样本测序量平均为8-10G原始数据。

进一步的，上述步骤2)中需要对测序下机的数据进行质量控制，单细胞的数据需要去除扩增引物序列及结合序列等。对于全外显子高深度测序数据，可以使用GATK软件包对比对结果进行indel局部重比和碱基质量矫正。

上述步骤3)中，对全基因组数据使用有效的全基因组拷贝数分析方法分析全基因组拷贝数状态，其中单细胞全基因组拷贝数需要使用适合的针对单细胞的方法分析。

上述步骤4)是根据对照样本中可信度高且未杂合突变的位点构建标准等位基因类型矩阵。对正常组织对照样本中突变进行过滤时，所述覆盖深度下限标准X的取值优选为4，突变等位基因频率优选介于0.3到0.7之间，即所述P1＝0.3，P2＝0.7，得到高可靠的遗传的杂合多态性位点集合。

优选的，上述步骤5)中设定覆盖深度下限标准为4，过滤掉覆盖深度低于4的位点。

进一步的，上述步骤6)中所述窗口对于全基因组高深度测序数据可选择适当小一些例如10K个碱基长度，对于全外显子高深度测序数据需适当大一些如1M个碱基长度。优选的，所述突变频率的阈值T1＝0.8，T2＝0.2；特定百分比P为70％。

上述步骤7)完成位点等位基因类型矩阵拆分工作，得到拆分完全的等位基因类型矩阵。

上述步骤8)在计算单倍体拷贝数的时候，单倍体拆分窗口大小最好是根据单细胞基因组拷贝数结果进行调整，当单细胞基因组拷贝数分析窗口太小，每个区间内dbsnp数量不够分析单倍体拷贝数时，需要更大的窗口得到足够的采样点才能够达到更加准确的拆分效果，最好就是按照单细胞基因组拷贝数窗口大小为基数扩展拆分窗口，扩展程度就是N个相应的大小。通过分别计算拆分后的两个单倍体在每个区间内所占的比例，获得肿瘤单细胞基因组单倍体拷贝数结果。

本发明结合肿瘤单细胞的群体多态性位点信息以及基因组拷贝数变化信息分析，进行肿瘤单细胞基因组等位基因拷贝数异常区域分析。该方法相对于单纯的基因组拷贝数变化或者体细胞突变更增加一个维度，能够对比来自同一病人的不同肿瘤单细胞之间，有基因组拷贝数异常的区间的关联关系，例如不同细胞发生缺失时缺失的是否为同一单色单体；以及发生拷贝数增加的区域中，是两条染色单体同时增加还是仅单条染色体发生异常；同一区域拷贝数在不同单细胞中差异非常大时，这种差异是何种演化形式等等。本发明为研究肿瘤基因组演化与选择有着重要的意义。

附图说明

图1.本发明检测肿瘤单细胞基因组单倍体拷贝数的一个实例的整体分析流程。

图2.本发明实施例中得到每个肿瘤单细胞和肿瘤组织对照样本的单倍体频率拆分结果。

图3.本发明实施例中每个肿瘤单细胞和肿瘤组织对照样本的单倍体拷贝数拆分结果。

具体实施方式

以下所述是本发明的更加细致的实施描述，其中的参数以及具体实施细节用以解释本发明的可行性及实施效果，并不构成对本发明的限定。

本实施例以一例小细胞肺癌病人的21个循环肿瘤细胞、常规测序的血液大量细胞(bulk)对照以及两个肿瘤组织对照为样本，基于二代测序技术对肿瘤单细胞的基因组单倍体拷贝数进行研究。

1.样本需求及单细胞扩增及测序

样本为来自同一小细胞肺癌病例的21个循环肿瘤细胞，血液大量细胞对照，两个肿瘤组织(bulk)对照，将其中所有单细胞使用MALBAC单细胞扩增技术进行单细胞扩增(所述循环肿瘤细胞亦可为原发灶肿瘤组织单细胞)。分别提取每个样本部分DNA进行外显子捕获，随后对外显子捕获样本使用Hiseq4000测序仪采用PE150双端测序，每个样本测序量平均为8-10G原始数据，同时对未进行捕获的部分进行单细胞全基因组测序，每个样本测序量平均为500M-1G原始数据。

2.全基因组比对及比对数据预处理

将测序下机的数据进行质控，单细胞数据使用cutadapter软件去除序列头部MALBAC扩增引物及5N3T(3G)与基因组结合的引物序列，去除尾部MALBAC扩增反向引物及结合序列，去除序列反向illumina测序所需的adapter序列。然后将序列使用BWA比对到Hg19(GRCh37)全基因组上面(基因组序列是从https://www.genome.ucsc.edu/下载的标准hg19基因组序列，只保留1-22，X，Y，M染色体)。使用samtools将比对结果根据染色体坐标顺序排序，并去除PCR重复序列以及低质量序列，以及去除chrM染色体。对于外显子数据还要使用GATK软件包进行indel局部重比，以及碱基质量值矫正。

3.基因组拷贝数分析

使用单细胞全基因组数据进行单细胞全基因组拷贝数分析。肿瘤组织使用常规肿瘤组织全基因组拷贝数分析策略获得相应全基因组拷贝数状态信息。

4.初始化等位基因拆分序列

使用GATK软件以所有样本的外显子测序数据作为输入bamfiles列表的形式进行群体多态性位点检测。以结果中正常血液大量细胞对照样本中覆盖深度大于4、有突变且突变频率介于0.3到0.7之间的位点构建可信的遗传的杂合多态性位点(germlineheterozygosity single nucleotide polymorphisms)集合。初始化该集合等位基因类型矩阵，即设定初始拆分均为无偏好(即“0”，此后会用“-1”,“1”来区分两个等位基因)。

5.提取样本遗传杂合多态性位点信息

对照步骤4中所获得的位点集合，分别对每个肿瘤单细胞和bulk肿瘤组织计算相应位点的覆盖深度以及突变频率。过滤掉覆盖深度低于4的位点。

6.依据等位基因频率拆分单倍体信息

由于我们使用的是外显子数据进行这一分析，因此在此步骤中选取窗口较大，以1M个碱基作为分析窗口。

选择某肿瘤样本(包括肿瘤单细胞样本和bulk肿瘤组织样本)作为起始。沿着该样本染色体及有信息的体细胞突变位点滑动，每次判断该位点突变频率是否大于0.8或者小于0.2(该数值对于肿瘤含量较低的bulk样本需要进行更加精细的考量)。如果不成立(即位点突变频率在0.2至0.8之间)则继续滑动；如果成立(即位点突变频率大于0.8或者小于0.2)则计算以该位点为中心的两个窗口大小的区间内所有位点是否突变频率有异常，即该区间内突变频率大于0.8或者小于0.2的位点数量是不是占区间内位点总数量的70％以上(对于bulk肿瘤组织，相应数值调整为65％，相应数值需要根据单细胞ADO频率，bulk组织需要考虑到肿瘤含量问题，在此70％以及65％是经过调试可行的参数组合)。如果成立(即区间内位点突变频率有异常)，则推断该区间内两亲本等位基因频率有偏移，进一步判断该位点是否已经被定义为1或者-1。如果该位点未定义，或者被定义为1且突变频率大于0.8，又或者被定义为-1且突变频率低于0.2，则在等位基因类型矩阵中将区间内频率高于0.8的位点修改为1，频率低于0.2的位点修改为-1。如果以上三种条件都不符合，则在等位基因类型矩阵中设定该区间内突变频率大于0.8的位点为-1，突变频率小于0.2的位点为1。

7.遍历样本完善等位基因类型矩阵

以步骤6的逻辑对所有样本依次实施该策略，完善等位基因类型矩阵信息，最终即可得到可以拆分开不同等位基因区域的区间，以及一些未发生CNV(基因组拷贝数变化)或者的确通过突变频率信息无法拆分的区间，如图2所示。图中每个突变频率异常的区间位点都能够清晰地聚成红色或者蓝色(其中标记为1的位点对应红色，-1的位点对应蓝色，0的位点对应灰色)，而多数区域在不同样本之间均是红上蓝下或者蓝上红下，但也有少量区域在不同细胞中有差别，说明不同的肿瘤单细胞中在演化过程中发生异常的是不同的单倍体。

8.拆分单倍体拷贝数

以步骤3获得的肿瘤单细胞基因组拷贝数分析窗口为参考区间，分别统计相应单细胞在该窗口内遗传的杂合多态性位点中在等位基因类型矩阵信息中为1，0，-1的位点的数量以及它们的突变频率均值r_p，r_z，r_n。如0位点数量超过50％则认为该窗口内1和-1的位点比例为1∶1，即1和-1位点的突变频率均为0.5。否则根据窗口内r_p，r_n计算两种单倍体的突变频率(在此考虑到单细胞可能出现的ADO现象并不能直接使用r_p，r_n)分别为r₁＝r_p/(r_p+r_n)，r_-1＝r_n/(r_p+r_n)。再分别乘以该窗口内此单细胞的拷贝数结果，即可计算出单倍体拷贝数信息。

分别对每个样本实施此操作即可绘制出单细胞基因组单倍体拷贝数结果。如图3所示，通过计算每个窗口内来自不同亲本的单倍体占比即可推断出不同单倍体在每个单细胞中的拷贝数状态。例如：图中六号染色体短臂在多数肿瘤单细胞中一个单倍体拷贝数异常高，另一个单倍体仅有一个拷贝，但在编号17，18，19，21四个细胞中仅有一个拷贝的单倍体又发生缺失，这也反应肿瘤单细胞更加细节的异质性。

以上所述仅作为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之类的所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法，包括以下步骤：

1)取同一病例的至少三个肿瘤单细胞样本，并以其正常组织大量细胞为对照样本，同时进行全基因组低深度测序和全外显子或全基因组高深度测序，其中单细胞样本需要进行单细胞扩增后再测序；

2)将测序获得的基因组序列与参考基因组比对，根据染色体坐标顺序对比对结果进行排序，并去除PCR形成的重复序列，其中对于全外显子高深度测序数据还需要使用突变检测软件对比对结果进一步进行indel重比对和碱基质量矫正；

4)对步骤2)处理后的全外显子或全基因组高深度测序数据通过群体多态性位点检测方法进行突变检测；在检测结果中，对正常组织大量细胞样本中的突变进行过滤，筛选出覆盖深度大于X且突变等位基因频率大于P1而小于P2的突变位点，构建可信的遗传的杂合多态性位点集合，其中X为大于0的某一数值，0<P1<0.5<P2<1；然后初始化等位基因类型矩阵，即设定该集合的每个位点初始无分类，定义为“0”；

5)根据步骤4)获得的位点集合，计算每个肿瘤单细胞样本相应位点的覆盖深度以及突变等位基因频率，通过设定覆盖深度下限标准过滤出该肿瘤单细胞中遗传的杂合多态性位点的突变频率信息；

6)从某个肿瘤单细胞样本开始，以特定大小窗口沿其基因组各染色体滑动，窗口中心每滑动到有突变频率信息的遗传的杂合多态性位点，首先判断该位点突变频率是否大于T1或者小于T2，其中0<T2<0.5<T1<1，“否”则滑动到下一个位点，“是”则计算窗口内突变频率大于T1或小于T2的位点的数量总和；判断该数量总和占窗口内位点总数量的比例是否大于P，其中0<P<1，P的数值需要根据不同单细胞扩增方法等位基因丢失比率进行调整，“是”则推断窗口内两亲本等位基因频率有偏移，并判断该位点是否满足下述三个条件之一：i)该位点未被定义；ii)该位点被定义为1且突变频率大于T1；iii)该位点被定义为-1且突变频率低于T2；如果满足上述三个条件之一，则将窗口内突变频率大于T1的位点均设定为1，突变频率小于T2的位点设定为-1；如果上述三个条件均不满足，则在等位基因类型矩阵中将窗口内突变频率大于T1的位点设定为-1，而小于T2的位点设定为1；

8)以步骤3)所得单细胞基因组拷贝数分析窗口为基本单位，以单细胞基因组拷贝数分析窗口大小的N倍为单倍体拆分窗口大小，沿着染色体坐标位置以单倍体拆分窗口大小为步长移动，其中N大于等于1；每个窗口内分别统计标记为1、0和-1的位点突变频率中值r_p、r_z和r_n；如果为0的位点数量占窗口内位点数量50％以上则设定该窗口内1，-1的位点突变频率均为0.5，否则根据窗口内r_p和r_n计算两种单倍体的频率r₁＝r_p/(r_p+r_n)，r_-1＝r_n/(r_p+r_n)；将r₁和r_-1再分别乘以该窗口内单细胞基因组拷贝数数值即得到每个单倍体拷贝数结果。

2.如权利要求1所述的方法，其特征在于，所述步骤1)中，对于全基因组低深度测序，每个样本测序量平均为500M-1G原始数据；对于全外显子或全基因组高深度测序，每个样本测序量平均为8-10G原始数据。

3.如权利要求1所述的方法，其特征在于，步骤2)中比对前需要对测序下机的数据进行质量控制，单细胞样本的数据需要去除扩增引物序列及结合序列。

4.如权利要求1所述的方法，其特征在于，步骤2)中对于全外显子高深度测序数据，使用GATK软件包对比对结果进行indel局部重比和碱基质量矫正。

5.如权利要求1所述的方法，其特征在于，步骤3)中对于单细胞样本的全基因组数据，使用针对单细胞的全基因组拷贝数分析方法分析其全基因组拷贝数状态。

6.如权利要求1所述的方法，其特征在于，步骤4)中所述X的取值为4，所述P1＝0.3，P2＝0.7。

7.如权利要求1所述的方法，其特征在于，步骤5)中设定覆盖深度下限标准为4，过滤掉覆盖深度低于4的位点。

8.如权利要求1所述的方法，其特征在于，步骤6)中突变频率的阈值T1设为0.8，T2设为0.2；特定百分比P为70％。