CN108949911B

CN108949911B - 鉴定和定量低频体细胞突变的方法

Info

Publication number: CN108949911B
Application number: CN201710381726.8A
Authority: CN
Inventors: 魏丽萍; 赵博洵; 黄岳; 伍启熹; 叶永鑫; 郑夏宁
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2022-10-14
Anticipated expiration: 2037-05-25
Also published as: WO2018214989A1; CN108949911A; US20230265496A1

Abstract

本发明提供了鉴定和定量低频体细胞突变的方法，特别涉及鉴定转座子拷贝数和基因组定位的方法。本发明利用不同转座子家族的特异位点，通过构建文库特异性地富集转座子插入序列，利用高通量测序和生物信息学分析，精准的鉴定样本中转座子的基因组定位、拷贝数和类型。使用本发明的方法能够经济地、精准地鉴定转座子的拷贝数和基因组定位。

Description

鉴定和定量低频体细胞突变的方法

技术领域

本公开内容涉及基因检测领域。特别地，本公开内容涉及对基因组中低频突变的鉴定和检测，例如对转座子新发插入事件的检测。

背景技术

转座子(Transposon)也称为转座元件(Transposable element)，是存在于染色体DNA上可自主复制和位移的基本单位。除了在基因组中大量存在以外，转座子在个体中能够以一定频率将其自身序列复制或转移到新的基因组位点。这种转座事件可能影响表型。例如，导致功能基因被破坏的转座事件可能导致疾病(特别是与该功能基因相关的单基因病)。因此，对转座事件的鉴定对于疾病发病机制研究、遗传咨询、诊断和预后具有重要的临床意义。

根据转座的性质，转座子通常可分为两类。第一类转座子称为DNA转座子(DNAtransposon)，以剪切-粘贴方式进行转座。该类转座子发生转座后，基因组中转座子的总拷贝数不变。第二类转座子称为反转录转座子(Retrotransposon)，以复制-粘贴方式进行转座。它首先转录合成mRNA，之后再次插入基因组反转录回DNA，完成转座过程。这意味着，每发生一次转座，基因组中该转座子的拷贝数就会增加1份。反转录转座子又可分类两类：LTR型和非LTR型，前者的末端具有长末端重复序列(LTR，long terminal repeat)，而后者不具有这一结构特征。

根据转座的自主性，转座元件又可以分为自主转座元件和非自主转座元件，前者能够编码转座酶而进行转座，例如L1NE-1转座子家族。后者则需在自主转座元件存在时，通过劫持转座酶完成转座，例如Alu和SVA转座子家族。

LINE-1(Long INterspersed Element-1)，或简称L1，是哺乳动物中主要的转座子，也是人类中唯一活跃的自主转座元件类别。LINE-1是非LTR型反转座子，长度约为6kb。在人类基因组中有超过500,000个拷贝的LINE-1序列，但其中绝大多数是不活跃的，只有约80-100个全长L1会活跃地发生转座。

LINE-1的转座事件分为两种：生殖系插入(Germline insertion)事件和体细胞插入(Somatic insertion)事件。前者在亲代生殖系细胞中就已发生，因此存在于子代个体的所有细胞中。相反，体细胞插入事件发生于合子形成后，从早期胚胎发育至终末分化成熟阶段的体细胞中，因此只存在于个体的少数细胞中。因此，体细胞插入事件也称为新发插入(denovo insertion)或细胞特异性插入(Cell-specific insertion)。在人体中，新发体细胞突变的发生频率很低，但却能够导致多种疾病的发生，例如癌症、增生疾病、神经系统疾病等。因此，对新发插入事件的检测具有重要的意义。

目前，新发转座事件的鉴定在技术上还存在很多困难。

首先，新发插入事件无序列特异性。新发插入的转座子与基因组中固有的转座子在基因序列上没有差异，导致无法通过对序列本身的鉴定将二者相区分。

其次，检测背景极高。如上文所述，在单个细胞的基因组中，基因组中转座子序列是大量存在的，而新发插入事件在所有转座子序列中仅占极小的比例。换言之，在对新发插入进行检测时，必须从基因组中极高的固有转座子背景中将新发事件识别出来。同时，在一份组织样品中，可能只有少数细胞带有特定插入这意味着，样品中新发插入事件的信号又会降低二至三个数量级。而且，由于新发插入事件的发生频率很低，就必须对极大数量的细胞群进行测序，才能确保在取样的样品中包含含有新发插入的细胞。也就是说，不可能通过单细胞测序来排除样品中大量参照细胞的干扰。总之，对新发插入事件的检测方法必须有效排除大量其他细胞的高背景噪音以及含有新发插入细胞本身的固有转座子序列带来的高背景噪音。

另外，现有的测序方法通常首先利用PCR对序列进行扩增，然后取扩增样品进行测序。在PCR指数扩增过程中，不同模板之间对反应底物资源存在激烈竞争，具有高拷贝数的生殖系插入有更高概率完成扩增，这样的富集方法会极度放大生殖系插入事件，造成新发低频插入的相对信号强度进一步减弱。若使用巢式PCR将进一步加剧以上趋势。。

最后，目前使用的高通量测序，又称下一代测序(Next Generation Sequencing，NGS)普遍采用边合成边测序的高通量测序方案。例如，普遍使用的Illumina测序方法利用以不同荧光标记的四种碱基，对定位在同一芯片上的大量序列片段同时进行每轮一个碱基的延伸，利用每一轮扩增中不同位置的荧光信号来获得序列信息。这种方法依赖于每一轮延伸后各不同位置的不同荧光信号作为高通量分析算法的基础。然而，对于PCR扩增产物的测序而言，由于样品中的序列高度一致，导致芯片上每一轮延伸后，各位点的荧光信号完全相同，将导致仪器无法对图像数据进行准确分析而发生测序错误。

美国Salk研究所提出了利用Taqman qPCR的方法对转座子拷贝数变化进行定量分析(Coufal，N.G.et al.L1 retrotransposition in human neural progenitorcells.Nature 460，1127-1131，doi：10.1038/nature08248(2009))。该方法对不同细胞中的转座子序列拷贝数进行定量，并推测拷贝数增加的细胞中即发生了新发转座事件。但是，由于固有的转座子基数巨大，体细胞中新发插入的拷贝数变化很容易被本底的实验随机波动所覆盖，其实验重复性很差。该方法无法将新发插入与生殖系插入区分开来，不能特异性地对新发插入事件进行鉴定和表征，因此不可能对插入事件进行后续的功能研究。

因此，本领域迫切需要新的方法来鉴定新发转座事件，提高检测极限和准确性。此外，本领域还需要能够特异性地鉴定新发插入事件并对其进行表征的方法。

发明内容

本公开内容提供了一种高特异性、高灵敏度地鉴定转座子的基因组位置、拷贝数和类型的方法，称为人活跃转座子测序(Human Active Transposon sequencing，HAT-seq)。特别地，本公开内容的方法用于特异性地鉴定基因组中细胞特异性的新发转座子插入事件的方法。本公开内容的方法可用于鉴定与疾病相关的转座子事件。

更一般地，本公开内容的方法提供了一个检测大量序列样本中低频相似序列的通用检测平台，因此该方法的应用不仅限于新发转座子事件，而是可以普遍用于鉴定其他低频突变事件，例如SNP事件等。

在一些实施方案中，将基因组DNA打断后产生DNA片段并连接接头，以转座子的特异性序列和接头序列为靶点进行引物设计，从而富集特定的转座子家族并将转座子的位置信息纳入文库中。

在一些实施方案中，利用独创的文库序列结构设计，利用核苷酸位移(Nucleotides shifting)处理，使得扩增子文库在测序过程中每一轮检测的碱基产生多样性，解决了Illumina公司的测序仪对于扩增子文库测序质量低的技术难题。

在一些实施方案中，利用高通量测序和生物信息学分析，实现了对转座子的基因组定位和定向。利用插入事件的位置信息，实现了对固有插入与新发插入的区分。由此，利用拷贝数不变的固有插入作为内参，对于新发插入事件实现了更加精确的相对定量。

在一些实施方案中，采用一管式实验方案，样本DNA从打断至文库构建全部在同一容器中完成，确保了新发插入信号不会丢失。

在一些实施方案中，所述方法包括从样品中分离DNA样品的步骤。所述样品可以是与目的应用相关的任何测试细胞。测试细胞可以是人细胞。测试细胞可以是来自任何组织的细胞，例如干细胞，包括但不限于胚胎干细胞、神经干细胞；体细胞，包括但不限于肝、心、脑的细胞、血细胞；神经细胞，包括但不限于神经祖细胞、神经元等；其他疾病相关细胞，包括但不限于肿瘤细胞。

在一些实施方案中，所述方法包括从参照样品中分离DNA样品的步骤。参照样品可以是与目的应用相关的任何参照细胞。参照细胞可以是人细胞。

在一些实施方案中，所述方法包括对DNA样品进行片段化以获得DNA片段文库的步骤。片段化可以根据本领域已知的任何方法来进行，包括但不限于机械处理(如超声处理)、酶处理等；

在一些实施方案中，所述方法包括对在DNA文库的两端连接接头，获得转座子-接头文库。

在一些实施方案中，对转座子-接头文库进行扩增。在一些实施方案中，使用PCR进行上述扩增。在一些实施方案中，所述PCR扩增使用第一引物和第二引物，其中第一引物包含与转座子内部序列杂交的转座子特异性序列，第二引物包含与接头杂交的接头序列，由此对转座子及其侧翼序列进行扩增。在一些实施方案中，所述转座子特异性序列与转座子3’或5’末端附近的转座子内部序列杂交。在一些实施方案中，所述转座子特异性序列覆盖并结合目标转座子家族的特异性核苷酸序列(Dignostic nucleotides)或模体(Motif)。在一些实施方案中，所述转座子特异性序列与距离转座子3’或5’末端不超过约5、10、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250bp的转座子内部序列杂交。

在一些实施方案中，对扩增得到的产物进行测序，以获得侧翼序列。在一些实施方案中，所述测序通过高通量测序方法进行。本领域已知的测序方法均可使用，例如Illumina公司的测序方法或者Ion Torrent公司的测序方法。

在一些实施方案中，将得到的侧翼序列与参考基因组序列进行比对，以获得转座子的基因组定位和定向信息。在一些实施方案中，所述参考基因组为人类参考基因组。

在一些实施方案中，将测试样品中得到的转座子基因组定位与参照样品中的转座子基因组定位进行比较，从而鉴定在测试样品与参照样品中基因组定位存在差异的转座子插入事件。测试样品中中存在而参照样品中不存在的转座子事件将鉴定为细胞特异性插入事件。

在一些实施方案中，统计文库测序数据中组织或细胞特异性转座子插入事件来源的序列总数和该个体的参考基因组转座子插入事件来源的序列总数，取两者比值，对细胞特异性转座子插入事件进行定量。在一些实施方案中，所鉴定的转座子为LINE-1转座子，例如人LINE-1转座子亚家族L1Hs。

本公开内容的方法实现了极高的检测灵敏度和特异性，首次实现了从组织DNA测序数据中鉴定出单细胞水平转座子插入事件以及拷贝数变化的方法。

附图说明

图1是一个实施方案中在5’端和3’端都带有接头序列的扩增子的示意图。文库测序时，从两个接头分别起始以5’-＞3’方向产生测序序列(序列1和序列2)，由此获得包含基因组定位信息的L1Hs 3’侧翼序列。

图2是一个实施方案中用于进行核苷酸位移设计的一组引物。这些引物所产生的扩增子在测序循环的同一轮延伸中添加的碱基将是不同的。

图3是一个实施方案中核苷酸位移设计引物组的具体序列。

图4A和图4B是实施例1中对所检出的ACC1个体特异性插入事件的验证。通过3’junction PCR实验同时使用ACC1和ZBX gDNA进行ACC1非参考基因组生殖系插入位点扩增。将仅在ACC1中存在而ZBX中不存在的插入定义为ACC1特异性插入。图4A中，M代表Marker，A代表ACC1 PCR产物，Z代表ZBX PCR产物，NTC代表阴性对照。图4B中显示代表性位点编号，每个位点先后使用ACC1和ZBX PCR产物上样。Marker＝100bp ladder。

图5是实施例2中对本发明检测极限的验证结果。在ACC1_132特异性插入位点上，在1％、0.1％和0.01％浓度的HAT-seq文库中，支持信号示意图。随着起始量浓度降低，支持信号数目分别为5、2和1种。序列中的单碱基替换突变使用浅色表示。区域单碱基分辨率的覆盖深度由上方灰色柱状图显示。ACC1_132插入位点为向下箭头标注位点。

图6是利用HAT-seq鉴定ACC1特异性插入的泊松分布示意图。使用HAT-seq鉴定ACC1特异性插入，在不同起始量浓度的阳性对照实验中，检测到插入支持信号的次数符合泊松分布。X轴表示某个位点支持信号个数，Y轴表示所占比例。方块表示实际观察值，圆形表示利用最大似然估计(Maximum Likehood Estimation，MLE)拟合得到的泊松分布。

图7是生物分析流程过滤器的过滤效力示意图。在不同浓度梯度的阳性对照实验中，分别针对鉴定到的已知ACC1特异性插入和全部候选体细胞插入，统计通过各个过滤器后的比例。各过滤器如表1描述。已知ACC1特异性插入中，在1％、0.1％和0.01％文库中，分别有76.18％、73.91％和71.43％最终保留。相比之下，在候选体细胞插入中，分别有5.65％、7.48％和7.88％最终保留。

具体实施方式

转座子是基因组的重要组成部分，人类基因组序列中的三分之一属于反转录转座子，其以一定的频率发生新发插入事件。在生殖细胞中，如果新发插入影响了基因的功能，则会导致遗传疾病的发生。在体组织细胞中，已证明转座子可以在胚胎干细胞、神经祖细胞、成熟的神经元和肿瘤细胞中发生转座，因此，转座子插入事件可能参与并影响组织发育和肿瘤发生的全过程。在不同组织中，转座子的发生频率不同，尤其在脑中频率最高，这暗示转座子插入事件可能对神经元多态性有贡献。在不同的生理、病理条件下，转座子的发生频率不同，已证明转座子在雷特综合征(Rett syndrome)和精神分裂症患者中具有更多的拷贝，暗示转座子插入事件可能对神经精神类疾病的易感性和疾病发生有贡献作用。

扩增LINE-1的侧翼序列

在发生了新发插入事件的细胞中，新发插入转座子的序列与不活跃转座子相同，因而无法区分。本发明人提出，与生殖系插入相比，新发插入的转座子的序列相同，但其由于发生了新的转座而出现在基因组中新的位置上。因此，与参照细胞相比，出现在新的基因组位点上的转座子就是新发插入的转座子。如果能够将转座子序列在基因组上的位置进行定位，就可以通过将新发转座事件识别出来。

为此，需要获得转座子序列侧翼的序列，并与基因组序列进行比对从而实现定位。然而，新发转座子序列外侧的基因组位置及其序列都是未知的，无法通过常规引物设计对侧翼序列进行扩增并用于测序。

在一些实施方案中，首先使基因组DNA片段化，然后将DNA片段末端补平，在3’端加A(腺苷酸)后连接接头(Adaptor)，例如Illumina文库接头。然后利用分别靶向LINE-1特异性序列和接头的引物进行PCR，从而将LINE-1及其侧翼序列一起扩增形成扩增子。然后可以利用高通量测序技术对LINE-1及其侧翼序列进行测序。

在一些优选的实施方案中，PCR所使用的5’引物为接头1(例如P7接头)+LINE-1特异性序列，3’引物为接头2(例如P5接头)序列。这样，扩增子的结构为接头1-LINE-1特异性序列-侧翼序列-接头2序列。扩增子的5’和3’端都存在接头序列，因此可从分别从两种接头序列开始沿5’和3’方向对扩增子进行双端测序。Illumina等高通量测序技术通常能够有效测序的片段长度非常有限，例如100-200bp。这种双端测序的设计能够显著延长有效测序长度，并通过使两个测序结果相互校验而大大提高测序准确性。

本公开内容的方法中所用的接头可以是本领域熟知的接头元件，例如Illumina文库P5、P7接头，Ion Torrent文库的接头。

图1显示了这种优选实施方案中扩增子的设计。在图1中，利用双端测序所得序列的重叠序列部分实现双端序列拼接，形成一条完全跨越转座子插入位点的分子片段(Contig)，利用L1Hs序列信息(Read2)筛选正确特异性扩增的L1Hs来源的数据，利用3’侧翼序列(Read1)与参考基因组进行回帖比对(Mapping)，从而得到该插入事件在基因组上的定位和插入方向的信息。

核苷酸位移(Nucleotides shifting)

如上文所述，在对PCR扩增子进行高通量测序时，由于扩增子的序列相同，使得芯片上每轮延伸掺入的碱基相同，造成芯片上绝大多数点上荧光颜色相同，严重影响测序质量。为解决这个问题，本发明人在引物中在5’接头与LINE-1特异性序列之间引入数个随机序列区，产生核苷酸位移(Nucleotides shifting)效果。这样，在不同引物中，LINE-1特异性序列起始于不同的碱基位置编号处。因此，在由测序引物起始的合成测序中，每个测序循环中掺入的碱基不再相同，而是随机交错开，避免了测序芯片上出现单一荧光信号而严重影响测序质量。所引入随机区的长度和序列没有特别限制，只要能够使得不同引物之间LINE-1特异性序列的碱基位置不同即可。例如，可以在不同引物中各自独立地引入长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20bp的随机区。

图2显示了一个实施方案中5’引物的设计。图2上图展示了在三种不同引物中)，接头部分与LINE-1特异性序列之间分别引入了2、4、6个碱基的随机序列区。图2下图是文库在测序时的示意图，Seq primer是测序引物结合位点，深蓝色条为150bp读长的测序序列信息。

测序数据处理

通过高通量测序对扩增子文库进行测序。基于测序的结果输出，通过将侧翼序列与参考基因组(例如人参考基因组)进行比对，将各个LINE-1序列定位在基因组的相应位置上，获得测试基因组中所有LINE-1转座子在基因组位置上的位置图谱。将测试细胞中的LINE-1位置图谱与参照细胞进行比对，参照细胞中不存在的基因位点上的LINE-1即为新发插入。由此，能够获得基因组中发生新发插入的具体位置。

可以进一步计算样本内新发插入事件相对于固有插入事件的比值，以根据固有拷贝数来确定新发插入事件的拷贝数。

实施例

实施例1：检测ACC1个体特异的生殖系转座子插入事件

步骤1：构建样本DNA

在本实施例中，对取自健康受试者1(来自本实验室的健康成人，样本代号为ACC1)的血液样品，分别使用Qiagen公司生产的DNA抽提试剂盒来提取血浆中的DNA(产品号为51104)。

步骤2：将DNA制成可供双端测序的文库

使用Covaris S220(Covaris)对500ng基因组DNA进行超声处理条件如下：样品体积(μl)50，water level 12，温度(℃)7，peak incident power(W)175，duty factor 5％，cycles per burst 200，处理时间(s)55。使用KAPA Biosystems公司生产的文库构建试剂盒(产品号为KK8232)，将提取的DNA末端补平，在3’末端加A并连接接头。

P5_adaptor

(5’-ACACTCTTTCCCTACACGACGCTCTTCCGATC＊T-3’)，和

P7_truncated(5’(P)-GATCGGAAGAGC＊A＊C-3’)，

其中＊表示硫代磷酸酯修饰，而(P)代表磷酸修饰。

将20ng(对应于约3,000个细胞)带有接头的DNA用作PCR富集的模板。

步骤3：从DNA双端测序文库中富集转座子插入事件

利用LINE-1家族的特异性位点设计引物，特异性位点位于引物3’端。引物结构如图3所示，从5，端到3，端方向，依次包括接头序列区，随机序列区和转座子家族特异性引物序列区。PCR方案：12.5μl KAPA2G Robust HotStart ReadyMix(2X)(KAPA Biosystems，KK5702)，1.25μl P7_Ns_L1引物(10μM)，用水补至23.75μl。线性扩增结束之后加入1.25μl另一引物：P5 extension(10μM)

(5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGC-3’)。

循环参数：95℃变性5分钟，之后是95℃40s、61℃15s、72℃15s的5个循环，然后在12℃暂停并加入P5_extension，然后是95℃40s、61℃15s、72℃15s的11个循环，随后72℃30s并保持在4℃，最后以1.05X Agencourt AMPure XP Beads(Beckman Coulter，Inc.)处理。

PCR中使用的P7_Ns_L1(10μM)是以下三种引物的等摩尔混合物：

P7_N2_L1

(5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNGGGAGATATACCTAATGCTAGATGAC＊A＊C-3’)，

P7_N4_L1

(5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNGGGAGATATACCTAATGCTAGATGAC＊A＊C-3’)，和

P7_N6_L1

(5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNGGGAGATATACCTAATGCTAGATGAC＊A＊C-3’)，

其中＊代表硫代磷酸酯修饰。

步骤4：对双端测序文库进行测序

将扩增产物用10μlbuffer EB(QIAGEN)稀释作为模板，通过另一轮PCR掺入带有条码的Illumina测序接头。PCR条件如下：12.5μl KAPA2G Robust HotStart ReadyMix(2X)，1.25μl P5_extention_to_end(10μM)(5’-AATGATACGGCGACCACCGAGATCTACAC-3’)，1.25μlP7_i7_D701)(10μM)(5’-CAAGCAGAAGACGGCATACGAGATATTACTCGGTGACTGGAGTTCAGACGTGTGC-3’)，用水补至25μl。循环程序为：95℃5分钟，然后是95℃40s、60℃15s、72℃15s的5个循环，最后72℃30s，保持在4℃。为了破坏过度扩增产生的“bubble products”，如下进行一个单轮PCR：向PCR管再中加入等体积的KAPA2G Robust HotStart ReadyMix(2X)、P5_extention_to_end(10μM)、P7_i7_D701(10μM)和水，使得终体积为50μl。循环程序为：95℃80s、60℃30s、72℃2分钟，保持在4℃，用1.1X AMPure Beads处理。用30μl buffer EB对文库进行洗脱，并通过Pippin Prep(Sage Science)进行尺寸选择(320bp-550bp)。使用Agilent 2100Bioanalyzer with High Sensitivity DNA Kit(Agilent Technologies)和KAPA Library Quantification Kit Illumina platforms(KAPA Biosystems，KK4824)对文库进行质量检测后，以HiSeq2500(Illumina)对HAT-seq文库进行双向配对测序(2×150bp)。

步骤5：确定DNA片段的基因组位置并分类

首先，利用转座子的序列信息，对高通量测序得到的DNA片段序列进行过滤，保留源自目标转座子家族的DNA片段。接着，与人类参考基因组序列进行比对，确定DNA片段在基因组上的位置。对于本实施例而言，将ACC1个体与另外一位没有血缘关系的健康受试者2(来自本实验室的健康成人，样本代号为ZBX)通过构建HAT-seq文库进行比较，鉴定到64个相对于ZBX而言，ACC1特异性的生殖系插入。

步骤6：结果验证

通过3’PCR，检测上文鉴定到的ACC1特异性插入在无血缘关系的健康受试者2(来自本实验室的健康成人，样本代号为ZBX)中的存在情况。

结果示于图4。图4A中，A泳道代表ACC1个体的信号，Z泳道代表ZBX个体的信号，NTC为阴性对照。鉴定出的ACC1特异性插入在ZBX个体中均不存在相应信号。图4B中标出了所验证ACC1特异性插入事件的编号。

以上结果表明，通过以上HAT-seq方法能够有效地鉴定样品中的特异性转座子插入事件。

使用上述根据转座子插入事件的分类，分别计算固有插入和新发插入产生的DNA片段数目。以固有插入的DNA片段为内参，计算样本中新发插入的相对拷贝数。因为可以确定样本中固有拷贝的位点数目，所以可以估算样本中新发插入事件相对于每个细胞的发生频率。最后，将待测样本的转座子拷贝数和基因组位置信息输出。

实施例2：利用阳性对照测试本方法的检测极限

为了检测HAT-seq方法的检测极限(Limit of Detection)，以实施例1鉴定出的ACC1特异性插入事件为研究靶点，将ACC1样品基因组DNA以1％、0.1％和0.01％的比例混入ZBX样品中，以混合样品中的ACC1特异性插入事件来模拟以不同频率发生的新发插入事件。

以20ng连接接头的混合DNA(约对应于3000个细胞)作为模板，按照实施例1所述方法进行分析。

为了进一步提高检测准确性。我们开发了如表1所示的信号过滤器，以降低文库构建过程中由于PCR扩增过程引入的嵌合分子等假阳性信号。我们将这些技术错误分类为非特异性扩增、嵌合分子、序列回帖错误和系统随机错误。结果显示，在1％浓度阳性对照文库中中，全部64个ACC1特异性插入均被检测到，其中49个位点(76.6％)通过了全部过滤器被成功鉴定。在0.1％浓度文库中，全部64个ACC1特异性插入中有23个被检测到，其中17个(73.9％)通过了全部过滤器被成功鉴定。在0.01％浓度的文库中，全部64个ACC1特异性插入中有7个被检测到，其中5个位点(71.4％)通过全部过滤器被成功鉴定，如图7所示。

阳性对照文库的数据符合泊松分布，如图6所示。针对0.01％浓度文库，使用观察值与泊松分布的期望值进行对比，如表2所示。实验数据说明HAT-seq检测极限达到单一事件(Single event)水平，即只要有一个信号作为文库模板被放入，则在最终的HAT-seq文库数据中就可以被检测到，有信号支持。在表2所示数据中，一些单一拷贝模板被放入，但是没有检测到。这是由于这些位点只有一份拷贝信号，在文库构建、尺寸选择、上机测序这些随机抽样过程中会有不可避免的信号丢失。

这证明，通过HAT-seq方法能够以极高的检测极限鉴定转座事件，从而使得能够有效地对发生率极低的体细胞插入事件进行表征分析。图5为编号ACC1_132代表性插入位点的检测结果图示。ACC1_132是转座子L1正向插入，因此在文库数据中表现为数据以反向回帖至参考基因组，即向左的箭头。左侧箭头终点为插入位点，如向下箭头所示，而右侧不同起始位点代表不同支持信号，即原始插入位点3’侧翼序列模板的不同打断断点。在1％浓度文库中，ACC1_132信号箭头有5种不同的右侧起始位点，表明文库中至少有5种不同模板检测到信号。在0.1％浓度文库中，ACC1_132信号在右侧2个不同起始位点，表明文库中有2种不同模板检测到信号。即便在0.01％浓度文库中，也仍有1种模板检测到ACC1_132信号。这表明，其检测限能够达到对独一插入事件的检测。

表1体细胞突变鉴定流程中使用的过滤器

表2

	泊松分布期望值	0.01％文库观察值
			两个及以上信号输入	2.36	2
一个信号输入	14.22	5

说明：在64个ACC1特异性阳性对照位点中，在0.01％文库中，根据泊松分布(λ＝0.3)计算，有2.36个位点具有两个及以上拷贝，有14.22个位点具有一个拷贝。在0.01％文库中，我们检测到2个位点具有两个及以上信号支持，5个位点具有一个信号支持。

序列表

<110> 北京大学

<120> 鉴定和定量低频体细胞突变的方法

<130> IP1779396ZX

<140> 201710381726.8

<141> 2017-05-25

<160> 8

<170> PatentIn version 3.2

<210> 1

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> 修饰的碱基

<222> (33)..(33)

<223> 硫代磷酸酯修饰

<400> 1

acactctttc cctacacgac gctcttccga tct 33

<210> 2

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> 修饰的碱基

<222> (1)..(1)

<223> 磷酸修饰

<220>

<221> 修饰的碱基

<222> (13)..(14)

<223> 硫代磷酸酯修饰

<400> 2

gatcggaaga gcac 14

<210> 3

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 3

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgc 47

<210> 4

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> misc_feature

<222> (35)..(36)

<223> n为a,t,c或g

<220>

<221> 修饰的碱基

<222> (63)..(64)

<223> 硫代磷酸酯修饰

<400> 4

gtgactggag ttcagacgtg tgctcttccg atctnnggga gatataccta atgctagatg 60

acac 64

<210> 5

<211> 66

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> misc_feature

<222> (35)..(38)

<223> n为a,t,c或g

<220>

<221> 修饰的碱基

<222> (65)..(66)

<223> 硫代磷酸酯修饰

<400> 5

gtgactggag ttcagacgtg tgctcttccg atctnnnngg gagatatacc taatgctaga 60

tgacac 66

<210> 6

<211> 68

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> misc_feature

<222> (35)..(40)

<223> n为a,t,c或g

<220>

<221> 修饰的碱基

<222> (67)..(68)

<223> 硫代磷酸酯修饰

<400> 6

gtgactggag ttcagacgtg tgctcttccg atctnnnnnn gggagatata cctaatgcta 60

gatgacac 68

<210> 7

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 7

aatgatacgg cgaccaccga gatctacac 29

<210> 8

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 8

caagcagaag acggcatacg agatattact cggtgactgg agttcagacg tgtgc 55

Claims

1.检测对象中转座子的基因组定位的方法，其包括以下步骤：

a)从得自该对象的测试样品中分离DNA样品；

b)对该DNA样品进行片段化处理，获得DNA片段；

c)在DNA片段的两端连接接头，获得转座子-接头文库；

d)使用引物对转座子-接头文库进行扩增，其中第一引物包含与转座子内部序列杂交的转座子特异性序列，第二引物包含与接头杂交的接头序列，由此对转座子及其侧翼序列进行扩增；

e)对扩增得到产物进行测序，以获得侧翼序列信息；

f)将得到的侧翼序列与参考基因组序列进行比对，以获得转座子插入的基因组定位和方向信息，

其中第一引物是由3、4、5、6、7、8或更多种第一引物构成的引物组，其中每种第一引物的5’端还包含文库接头序列，并且文库接头序列与转座子特异性序列之间包含数目不等的间隔区，所述间隔区是长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20bp的随机区，

所述方法不用于疾病的诊断或治疗。

2.鉴定组织或细胞特异性的转座子插入事件的方法，其包括以下步骤：

a)从得自个体的测试样品中分离DNA样品；

b)对该DNA样品进行片段化处理，获得DNA片段样本；

c)在DNA片段的两端连接接头，获得转座子-接头文库；

e)对扩增得到产物进行测序，以获得侧翼序列信息；

f)将得到的侧翼序列与参考基因组序列进行比对，以获得转座子插入的基因组定位和方向信息；

g)将f)获得的测试样品的定位信息与参照定位信息进行比较，并将f)中存在而参照定位信息中不存在的位置上的转座子鉴定为测试组织或细胞中的特异性转座子插入事件，

所述方法不用于疾病的诊断或治疗。

3.对个体中转座子的组织或细胞特异性转座子插入事件进行定量的方法，其包括以下步骤：

a)从来自该个体的测试样品中分离DNA样品；

b)对该DNA样品进行片段化处理，获得DNA片段样本；

c)在DNA片段的两端连接接头，获得转座子-接头文库；

e)对扩增得到的产物进行测序，以获得侧翼序列信息；

f)将得到的侧翼序列与参考基因组序列进行比对，以获得转座子插入的基因组位点和方向信息；

g)将f)获得的测试样品的定位信息与参照定位信息进行比较，并将f)中存在而参照定位信息中不存在的位置上的转座子鉴定为测试组织或细胞中的特异性转座子插入事件；

h)统计文库测序数据中，组织或细胞特异性转座子插入事件来源的序列总数和该个体的参考基因组转座子插入事件来源的序列总数，取两者比值，对细胞特异性转座子插入事件进行定量，

所述方法不用于疾病的诊断或治疗。

4.权利要求1至3中任一项的方法，其中所述转座子特异性序列与位于转座子3’或5’末端附近的转座子内部序列杂交。

5.权利要求4的方法，其中所述转座子特异性序列覆盖并结合目标转座子家族的特异性核苷酸序列或模体。

6.权利要求1至3中任一项的方法，其中每种第一引物中间隔区的长度各自独立地为1、2、3、4、5、6、7、8、9或10个核苷酸。

7.权利要求1至3中任一项的方法，其中步骤a)至d)在同一容器中进行。

8.权利要求2或3的方法，其中所述参照定位信息是参考基因组中的转座子定位信息或其他个体中的转座子定位信息，从而鉴定个体中的生殖系转座子插入事件。

9.权利要求2或3的方法，其中所述参照定位信息是来自同一个体的对照组织或细胞中的转座子定位信息，从而鉴定个体中的体细胞转座子插入事件。

10.权利要求1至3中任一项的方法，其中测试样品是干细胞，包括但不限于胚胎干细胞、神经干细胞；体细胞，包括但不限于肝、心、脑的细胞；血液白细胞；神经细胞,包括但不限于神经祖细胞、神经元、外周神经细胞；生殖细胞，包括但不限于卵母细胞、精母细胞、卵子和精子；或其他疾病相关细胞，包括但不限于肿瘤细胞，以及来源于这些细胞的DNA。

11.权利要求10的方法，其中所述来源于这些细胞的DNA是循环肿瘤DNA。

12.权利要求10的方法，其中测试样品是循环肿瘤细胞。

13.权利要求9的方法，其中对照细胞为肝脏、心脏、脑、脾脏、结肠、皮肤、黏膜、毛囊、血液白细胞、唾液来源的细胞。

14.权利要求9的方法，其中测试细胞或对照细胞为哺乳动物细胞。

15.权利要求14的方法，其中所述哺乳动物细胞是人细胞。

16.引物在制备用于检测对象中转座子的基因组定位的试剂盒中的用途，所述检测包括以下步骤：

a)从得自该对象的测试样品中分离DNA样品；

b)对该DNA样品进行片段化处理，获得DNA片段；

c)在DNA片段的两端连接接头，获得转座子-接头文库；

d)使用所述引物对转座子-接头文库进行扩增，其中第一引物包含与转座子内部序列杂交的转座子特异性序列，第二引物包含与接头杂交的接头序列，由此对转座子及其侧翼序列进行扩增；

e)对扩增得到产物进行测序，以获得侧翼序列信息；

其中第一引物是由3、4、5、6、7、8或更多种第一引物构成的引物组，其中每种第一引物的5’端还包含文库接头序列，并且文库接头序列与转座子特异性序列之间包含数目不等的间隔区，所述间隔区是长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20bp的随机区。

17.引物在制备用于鉴定组织或细胞特异性的转座子插入事件的试剂盒中的用途，所述鉴定包括以下步骤：

a)从得自个体的测试样品中分离DNA样品；

b)对该DNA样品进行片段化处理，获得DNA片段样本；

c)在DNA片段的两端连接接头，获得转座子-接头文库；

e)对扩增得到产物进行测序，以获得侧翼序列信息；

18.引物在制备用于对个体中转座子的组织或细胞特异性转座子插入事件进行定量的试剂盒中的用途，所述定量包括以下步骤：

a)从来自该个体的测试样品中分离DNA样品；

b)对该DNA样品进行片段化处理，获得DNA片段样本；

c)在DNA片段的两端连接接头，获得转座子-接头文库；

e)对扩增得到的产物进行测序，以获得侧翼序列信息；

19.权利要求16至18中任一项的用途，其中所述转座子特异性序列与位于转座子3’或5’末端附近的转座子内部序列杂交。

20.权利要求19的用途，其中所述转座子特异性序列覆盖并结合目标转座子家族的特异性核苷酸序列或模体。

21.权利要求16至18中任一项的用途，其中每种第一引物中间隔区的长度各自独立地为1、2、3、4、5、6、7、8、9或10个核苷酸。

22.权利要求16至18中任一项的用途，其中步骤a)至d)在同一容器中进行。

23.权利要求16至18中任一项的用途，其中所述转座子为LINE-1转座子。

24.权利要求23的用途，其中所述转座子为人LINE-1转座子亚家族L1Hs。

25.权利要求17或18的用途，其中所述参照定位信息是参考基因组中的转座子定位信息或其他个体中的转座子定位信息，从而鉴定个体中的生殖系转座子插入事件。

26.权利要求17或18的用途，其中所述参照定位信息是来自同一个体的对照组织或细胞中的转座子定位信息，从而鉴定个体中的体细胞转座子插入事件。

27.权利要求16至18中任一项的用途，其中测试样品是干细胞，包括但不限于胚胎干细胞、神经干细胞；体细胞，包括但不限于肝、心、脑的细胞；血液白细胞；神经细胞,包括但不限于神经祖细胞、神经元、外周神经细胞；生殖细胞，包括但不限于卵母细胞、精母细胞、卵子和精子；或其他疾病相关细胞，包括但不限于肿瘤细胞，以及来源于这些细胞的DNA。

28.权利要求27的用途，其中所述来源于这些细胞的DNA是循环肿瘤DNA。

29.权利要求27的用途，其中测试样品是循环肿瘤细胞。

30.权利要求26的用途，其中对照细胞为肝脏、心脏、脑、脾脏、结肠、皮肤、黏膜、毛囊、血液白细胞、唾液来源的细胞。

31.权利要求26的用途，其中测试细胞或对照细胞为哺乳动物细胞。

32.权利要求31的用途，其中所述哺乳动物细胞为人细胞。