CN110914454B

CN110914454B - 应用全基因组捕获转座子间区段序列对受微生物污染的人类dna样本进行基因组序列分析

Info

Publication number: CN110914454B
Application number: CN201880031942.2A
Authority: CN
Inventors: 薛红
Original assignee: PHAMACOGENETICS Ltd
Current assignee: PHAMACOGENETICS Ltd
Priority date: 2017-05-18
Filing date: 2018-05-18
Publication date: 2023-07-14
Anticipated expiration: 2038-05-18
Also published as: WO2018211477A1; US11634774B2; US20210164049A1; CN110914454A

Abstract

一种用于鉴定人类基因组DNA中一个或多个基因组变异的方法，包括使用Alu、MIR、SVA序列基引物，并对测定混合物进行转座子间聚合酶链式反应(ITE‑PCR)，以产生一阵列包含ITE基因组区段的扩增子。还提供了所述方法在鉴定与性质或者疾病相关的一个或多个基因组变异中的应用。

Description

应用全基因组捕获转座子间区段序列对受微生物污染的人类 DNA样本进行基因组序列分析

电子提交的参考序列表

序列表的正式版本，是以ASCII格式通过ePCT电子方式提交，文档大小2.5千字节(kilobytes)，称为“PHGL1002.WO GENE SEQUENCE LISTING”，于2018年5月18日创建，并与说明书一并提交。所述ASCII格式文档中的序列表属该说明书的一部分，引用时全部内容将并入说明书。

技术领域

本发明大致涉及一种序列和结构变异的分析方法，可应用在被微生物DNA污染的人类DNA样品上。具体地说，本发明利用基因组中众多Alu、MIR和SVA逆转录转座子插入位点，以多核苷酸链式反应(PCR)及基于Alu-、MIR-、SVA-共有序列设计的PCR引物，扩增转座子间(ITE)的基因组区段，并通过‘AlmivaScan’测序平台进行大规模并行测序(MPS)对扩增子进行序列分析。由于没有任何相关报道指出细菌和病毒DNA中存在Alu、MIR和SVA逆转录转座子，采用所述AlmivaScan测序方法，共存微生物DNA对人类基因组分析的干扰将会非常小。这开启了AlmivaScan的应用，使被细菌和病毒污染的人类分泌物和排泄物DNA的序列分析变得可行。

背景技术

虽然有多种方法平台能有效率地分析人类基因组序列，包括全基因组测序(“WGS”)和全外显子测序(“WES”)，但是对DNA样本的需求是不能被其他物种DNA污染。因此，诸如痰液中常带有肺和上呼吸道组织DNA，包括肺癌和上呼吸道癌的DNA，及粪便中常含有胃肠组织DNA，包括胃肠道癌DNA；但因为这些痰液或粪便DNA往往受到肺部和上呼吸道的细菌和病毒及胃肠道的生物群落污染，使DNA分析变得困难。由于Alu逆转录转座子仅在灵长类动物DNA中发现，MIR逆转录转座子仅在哺乳动物中发现，及SVA逆转录转座子仅在人科动物中发现，那使用基于Alu-、MIR-和SVA-共有序列设计的PCR引物扩增人类基因组DNA时，即使当中存在细菌和病毒DNA，仍会获得具人类DNA特异性的扩增子，序列分析也不会受到干扰。因此，本发明的目的是要开发和测试所述方法的实用性，用于分析受微生物污染的人类分泌物和排泄物如痰液和粪便中的人类DNA。痰液中含有来自肺部和上呼吸道的癌症和癌前细胞，而粪便中含有来自胃肠的癌细胞。所以，若可以对这些样本中的人类DNA进行分析，将加速早期癌症检测，及监测治疗后癌细胞存活和/或变异的情况。

转座子是单细胞基因组中一段可移动的DNA序列。转座的发生能改变细胞的基因组，造成表型上的显著突变。人类最常见的转座子形式是逆转录转座子，包括Alu序列，MIR序列和SVA序列，是人类基因组中的重复序列家族。通常，Alu元件长约280个碱基对，MIR元件长约145个碱基对，均为重复性DNA元件类别，且同属短散在元件(“SINEs”)，而SVA元件长约1000个碱基对。在人类基因组中，大约有1,080,000个Alu重复序列、595,000个MIR重复元件和3,700个SVA重复元件。

本文所用术语“Alu元件”包含一短段DNA，具有限制性内切核酸酶Alu(藤黄节杆菌)的识别序列。在灵长类动物基因组中存在着大量不同种类的Alu元件。事实上，Alu元件是人类基因组中最丰富的转座元件。它们源于小胞浆7SL RNA，是信号识别颗粒的一个组成部分。Alu序列的典型结构是5'-A部分-A5TACA6-B部分-PolyA尾-3'(SEQ ID NO:1)。由于A部分和B部分的核苷酸序列相似，其结构揭示了现代人类Alu元件是在1亿年前由两种不同的古化石单体融合而成。Alu家族中不同成员间的Poly-A尾长度参差不一。首被发现的Alu元件亚家族为AluJ和AluS，其它Alu亚家族成员也很快被发现。而其中AluS的其一亚亚家族因包含活跃Alu元件，最终被命名为AluY。

本文所用术语“MIR元件”包含久远的重复序列家族，广泛发生于胎盘哺乳动物、有袋动物和单孔目动物中，并有着序列差异，这显示它们为丰富的全哺乳动物的散在重复序列，或简称MIRs。MIR元件的典型结构是由一段tRNA源性区域与一无相关序列融合组成，而该tRNA源性区域包含RNA聚合酶III启动子共有序列，并与人类Gln-tRNA-CUG基因相似。

本文所用术语“VNTR”代表可变数目串联重复序列，尽管不是所有串联重复结构域中的重复拷贝数均属多态性，但也包含微卫星和小卫星。本文所用术语“SVA元件”涵盖由SINE-VNTR-Alu组成的非自主人科动物逆转录转座子家族，由于SVAs正处于活跃状态，因此它们可以通过多种机制，包括突变、外显子改组、选择性剪接和通过产生差异性甲基化区域，导致基因组变异，甚至能改变人类性状。

表型是指任何受基因型影响的可观察参数，包括RNA和蛋白质类分子。纵使大多数由遗传物质编码合成的分子和结构在生物体上是不可见的，但它们是可观察的(通过表型如细胞形态等)，因此也属表型的一部分。人类血型就是一个典型例子，决定血型的基因型，其表型在细胞水平表达。因此，人类中的基因组序列和结构变异可应用于分析人类受试者之间的基因型及表型差异。在同一个体内，细胞也可能发生体细胞突变，导致基因型及表型改变；如导致癌症的恶性突变。

大规模并行测序技术(MPS)彻底改变了遗传学的进程，它能通过一次运行产生千兆碱基序列信息，大大降低了WGS的成本，并已被广泛用于性状关联和疾病关联的研究。然而，其主要缺点为需要较大的DNA量。在大多数情况下，甚至3微克的基因组DNA仍未能完全达到全基因组测序的严格要求。人类分泌物和排泄物中所含的人类总DNA量通常是有限的，要获取达微克量需求的DNA样品就更加困难。

有鉴于此，须要采用新方法以求降低所需DNA量和测序成本，产生高质相应序列数据。聚合酶链式反应技术(“PCR”)允许用者采集有限量的起始基因组DNA，并从基因组不同区域进行扩增，获取足够DNA量用于序列分析。然而，由于要从基因组不同区域扩增大量序列，需要使用很多昂贵的PCR引物，所以本发明开发了一种能选择性地扩增逆转录转座子间ITE区段序列的方法，仅需使用少量特定设计的PCR引物，如基于Alu元件共有序列设计的PCR引物。

美国专利号5,773,649，标题为“用于检测癌细胞突变体表型的DNA标记物和诊断癌细胞的方法”，发明者为Sinnett等人，于1998年6月30日发布，称之为“Sinnett 649专利”。Sinnett 649专利使用了配对Alu间PCR(inter-Alu PCR)引物进行扩增，扩增片段与对应不稳定易感性基因座的探针杂交，并在聚丙烯酰胺凝胶上进行电泳分级，以确定肿瘤和无肿瘤DNA之间是否存在变异条带。这种inter-Alu PCR系统，仅使用配对PCR引物，而PCR扩增子在凝胶电泳中呈条带状模式。

美国专利号7,537,889，标题为“Alu元件于人类DNA量化检测中的应用”，发明者为Sinha等人，于2009年5月26日发布，称之为“Sinha 889专利”。Sinha 889专利使用了配对inter-Alu PCR引物对DNA样本进行扩增，检测样本中人类DNA的存在及数量，而当中可能存在非人类DNA。检测方法是基于新近融入到人类基因组中的多拷贝Alu元件，这些元件于大部分于非人类灵长动物和其他哺乳动物中均不存在。在Sinha 889专利中，这种Alu间(inter-Alu)PCR方法，是一种仅使用配对引物的PCR系统，而PCR扩增子在凝胶电泳中呈条带状模式。

美国专利申请号2015/0225722A1，标题为“针对构成非编码RNA的异染色质的选择性靶向方法”，发明者是Ozsolak，申请日为2015年4月29日。该方法是使用寡核苷酸来调节由非编码RNA调控的基因异染色质状态。在一些实施方案中，此类基因包含三重重复区域或其它包含Alu元件和MIR元件的重复区域，但并没有使用基于Alu-、MIR-或SVA-共有序列设计的PCR引物。

Sinnett 649专利和Sinha 889专利中所描述的发明，是利用传统PCR配合以Alu-共有序列设计的配对引物进行扩增，获得于凝胶电泳后呈条带状的PCR扩增子。在多项科学研究中(Kass and Batzer1995；Walker et al 2003；Krajinovic et al 2012)，基于Alu序列的PCR被应用在法医案件检验工作，根据人类特异性扩增子条带模式，对含有其他物种DNA的人类DNA进行鉴定和定量。然而，在另一项Mei、Ding、Xue等人所做的研究中(2011)，便应用了Alu间PCR对人类基因组DNA的Alu间序列进行大范围扩增，通过MPS分析，产生具代表性的基因组序列扫描，被称为AluScan平台。为了提高Alu间PCR扩增子序列的多样性，该平台采用了多条基于Alu元件共有序列设计的PCR引物，引物分为头向(H-型，H-type)和尾向(T-型，T-type)。H-型引物是往Alu逆转录转座子的头方向外延伸，而T-型引物则往Alu逆转录转座子的尾方向外延伸。这些H-型和T-型引物能从亚微克DNA样品中产出大量DNA扩增子，经溴化乙锭染色后的凝胶电泳图呈弥散状而不是离散条带。通过MPS对这些扩增子进行测序，可获取众多来自人类基因组不同位置的DNA序列，经进一步分析，鉴定与人类性状的可能性关联。这种AluScan方法的重要性在于仅需少数基于Alu序列设计的PCR引物及亚微克量DNA模板，便能经扩增子捕获大量基因组序列片段进行MPS分析。Kumar、Yang、Xue等人(2015)所进行的研究，显示了AluScan方法的应用，有关研究并揭示癌症中有着大量间质性的杂合性丢失突变的发生。

AluScan平台的应用已通过对源自人类基因组不同区域的Alu间序列进行扩增和测序被证实，而Ng、Hu、Xue等人(2016)的研究更进一步发现人类基因组序列可依据基因组特征分为三种类型的序列区域，就是：451％的基因组序列位于富集基因、CpG岛、调控元件、甲基化位点和Alu元件的基因区内，另31.1％位于富集增强子、保守Indel位点和MIR元件的近端区内，最后23.8％是在富含AT碱基的远端区内，而基因区和近端区在功能上比远端区更重要。由于Alu元件插入较多发生在基因区内：诸如AluJ的基因区/近端区插入比率为2.83、AluS为2.82、AluY为2.04，AluScan中所使用的基于Alu共有序列设计的PCR引物，将有利于捕获基因区域内的Alu间序列。为了均衡基因和近端两个区域中序列和结构变异的代表情况，在设计扩增基因组序列的PCR引物时，不仅采用Alu元件共有序列，还需另一种富集于近端区段的转座子共有序列。人类基因组中存在大量MIR元件，且主要富集于近端区域，其基因区/近端区插入比率为0.68。因此，使用基于Alu-和MIR-共有序列设计的引物进行PCR扩增，产生的Alu间、MIR间和Alu-MIR间扩增子，将能有效覆盖基因和近端两个序列区域。另外，要是想扩大覆盖范围，除了Alu-和MIR-序列基PCR引物外，更可增加使用以其它逆转录转座子序列设计的PCR引物进行序列捕获。就如SVA元件，仅在人科动物的基因组中找到，属最年轻的转座子，主要存在于基因区域，并担当着重要的调控角色(Quinn and Bubb,2014；Gianfrancesco,Bubb and Quinn,2017)。所以SVA相邻序列会具有与人类性状相关的潜在基因组变异，这促使除了使用Alu-和MIR-序列基引物外，使用SVA-序列基引物亦成为对ITE-PCR引物的重要来源。

因此，采用Alu共有序列基的H-型和T-型引物来进行Alu间PCR，仅需使用亚微克量DNA，便可获得大量Alu间扩增子作测序分析之用。同样地，以相同的步骤，分别以MIR共有序列基引物获得大量MIR间扩增子及SVA共有序列基引物获得大量SVA间扩增子，并一拼使用Alu共有序列基引物、MIR共有序列基引物和/或SVA共有序列基引物进行扩增，以获取大量Alu间、MIR间、SVA间、Alu-MIR间、Alu-SVA间和MIR-SVA间扩增子进行测序分析。由于来自人类分泌物及排泄物的DNA样品通常都受细菌和病毒DNA污染，而干扰人类基因组测序的常规操作，所以能否以上述ITE-PCR方法，使用Alu-，MIR-和/或SVA序列基引物从受细菌和/或病毒DNA污染的人类DNA样本中成功扩增人类基因组序列进行MPS分析，乃是关键所在。

发明内容

通过转座子间聚合酶链式反应(ITE-PCR)，获取一系列高产量及高多样性的扩增子。以亚微克量人类DNA为模板，于退火时，通过多条Alu、MIR和SVA序列基的H-型和T-型引物分别从各逆转录转座子的头部和尾部延伸；随后使用大规模并行测序(MPS)对这些ITE-PCR扩增子进行序列分析，生成‘AlmivaScan’DNA序列扫描，当中包含Alu间、MIR间、SVA间、Alu-MIR间、Alu-SVA间和MIR-SVA间区段序列。本发明利用PCR扩增Alu、MIR及SVA逆转录转座子邻近区域序列，发现所捕获的序列当中明显富集基因组的序列和结构变异，例如单核苷酸多态性、微卫星、种系拷贝数变异和体细胞拷贝数变异，显著性达p<0.01。由于个人和细胞性状与基因组变异互相关联，‘AlmivaScan’中的DNA序列所提供的依据，有助分析基因组序列和结构变异与个人或细胞性状之间的关联，包括非医学性状、患病状态、疾病易感性和药物反应。本发明可应用于受细菌和病毒DNA污染的人类分泌物和排泄物DNA样品的基因组分析，这是由于细菌和病毒DNA中不存在Alu、MIR和SVA逆转录转座子，使细菌和病毒DNA对人体DNA分析的干扰減至最低。

本发明所述的多功能AlmivaScan方法平台，是通过ITE-PCR捕获Alu、MIR和SVA逆转录转座子邻近区域的人类基因组DNA序列，再以MPS测序并进行基因组序列分析。平台具三重优点：第一，本发明所发现的Alu、MIR和SVA插入位点，均富集于基因组变异附近，如单核苷酸多态性(SNPs)、微卫星(MSTs)、种系拷贝数变异(CNVGs)和体细胞拷贝数变异(CNVTs)等邻近序列中；这些基因组变异可用于区分不同人类受试者的遗传性状，以及检测带有遗传变异并显示为疾病基因型(如癌症或癌前基因型)的细胞。第二，经AlmivaScan平台产出的ITE-PCR扩增子，于凝胶电泳及溴化乙锭染色后，呈光亮弥散状模式，这表示扩增产物含高量ITE基因组片段，可用于后续序列分析。第三，该平台提供了一种人类基因组序列的分析工具，适用于分析从血浆、痰液、粪便，及任何受细菌和病毒污染的人类分泌物和排泄物中分离出来的人类DNA样品。

提供了一种方法，用于鉴定人类基因组DNA中一或多种的基因组变异。该方法包含制备测定用混合物，内含：人类基因组DNA的测试样品；两条或以上引物；四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；热稳定DNA聚合酶；和缓冲液。所述的两条或以上引物中的每一个均包含基于人类基因组转座子(TE)或其他重复元件序列的共有序列，而所述的人类基因组转座子通常在微生物DNA中不会找到的。然后，所述方法包含把上述测定混合物进行聚合酶链式反应(PCR)，生成一含人类基因组转座子间(ITE)区段的扩增子阵列。

提供一种方法，用于鉴定与性状或疾病关联的一或多种基因组变异体。该方法包含制备第一和第二测定混合物，第一测定混合物内含：第一测试样品；两条或以上引物；四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；热稳定DNA聚合酶；和缓冲液。第一测试样品包含人类基因组DNA，是取自具有某特定性状或疾病的受试者。所述的两条或以上引物中的每一条均包含基于人类基因组转座子(TE)或其它重复元件序列的共有序列，而所述的人类基因组转座子TE或其他重复元件通常是微生物DNA中不会找到的。所述第二测定混合物内含：第二测试样品；两条或以上引物；四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；热稳定DNA聚合酶；和缓冲液。第二测试样品同样包含人类基因组DNA，但取自没有所述特定性状或疾病的另一受试者，所用的两条或以上引物，其序列与第一测定混合物中所使用的一样。然后，把所述第一和第二测定混合物分别进行聚合酶链式反应(PCR)，并分别生成以第一测试样品为模板的基因组转座子间(ITE)序列扩增子，与及以第二测试样品为模板的基因组转座子间(ITE)序列扩增子。

提供了一种试剂盒，用于对内含人类基因组DNA的测试样品进行聚合酶链式反应(PCR)。该试剂盒包含第一寡核苷酸引物和第二寡核苷酸引物，其中，所述寡核苷酸引物包含选自以下的一核苷酸序列：AGCTTGCAGTGAGCTGAGAT(SEQ ID NO:6),GTCCGCAGTCCGGCCTGGGC(SEQ ID NO:7),GATAGCGCCACTGCAGTCC(SEQ ID NO:8),AGCCGAGATGGCAGCAGTA(SEQ ID NO:11),及ACCAGAGACCTTTGTTCACT(SEQ ID NO:12),而第一和第二寡核苷酸引物的序列彼此不同。该试剂盒还附有说明书，指示如何使用第一和第二寡核苷酸引物和人类DNA测试样品进行PCR反应，用于检测样品中的人类基因组变异。

其它目的和特点，部分为显而易见，部分将在下文阐述。

附图说明

以下将详细说明本发明的附图和实施例：

图1为转座子间PCR扩增说明。图中显示扩增点为两个相邻转座子(TEs)(以两个长方形代表)之间的转座子间序列区段(以行线代表)，使用两条TE-共有序列基引物，其中一条用于左边的TE，另一条则是右边的TE(扩增方向以箭头表示)。从上至下是：两个Alu元件之间的Alu间区段的PCR；两个MIR元件之间的MIR间区段的PCR；两个SVA元件之间的SVA间区段的PCR；Alu-和MIR-元件之间的Alu-MIR间区段的PCR；Alu-和SVA-元件之间的Alu-SVA间区段的PCR；以及MIR-和SVA-元件之间的MIR-SVA间区段的PCR。

图2显示扩增点为两个相邻转座子(TEs)(以两个长方形代表)之间的转座子间(ITE)序列区段(以行线代表)，使用两条TE-共有序列基引物，一条用于左边TE，另一条用于右边TE(扩增方向以箭头表示)。在PCR扩增过程中，所用的每条引物可以是通过TE头部进行链延伸的H-型，或是通过TE尾部进行链延伸的T-型。从上至下是：“头对头”扩增；“尾对尾”扩增；“头对尾”扩增；及“尾对头”扩增。这四种扩增模式均可以应用于扩增图1所示的六种转座子间序列。

图3显示不同逆转录转座子群组在离开千人基因组计划(SNP1Ks)中各单核苷酸多态性(SNPs)位点不同距离处的密度变异。是按各逆转录转座子群组在离开“SNP1K”数据库中各SNP不同距离处(单位为kb，以100bp递增)的平均密度绘制。箭头所指位置显示各逆转录转座子群组在基因组的平均密度，虚线以上的密度值显示高于平均密度值，显著性差异达p<0.01。所述的平均密度值是通过蒙特卡罗(Monte Carlo)程序运算1,000,000个SNPs(n＝100x)的随机模拟分布(North et al 2002)计算。如一些逆转录转座子亚家族有着非常近似的SNPs密度分布的，被分组在一起：在此基础上，六个SVA亚家族会被分成SVA_EF组(SVA_E和SVA_F)、SVA_CD组(SVA_C和SVA_D)和SVA_AB组(SVA_A和SVA_B)；而AluY亚家族则分为AluY_young组(AluYa5、AluYb8、AluYb9、AluYh和AluYk12)，AluY_old组(AluY、AluYc、AluYc3和AluYk4)及Alu_old组(AluJb、AluJr4和FLAM_A)。

图4显示不同逆转录转座子群组在离开人类微卫星(MSTs)位点不同距离处的密度变异。是按各逆转录转座子群组在离开各MST不同距离处(单位为kb，以100bp递增)的平均密度绘制。箭头所指位置显示各逆转录转座子群组的基因组平均密度，虚线以上的密度值显示高于平均密度值，显著性差异达p<0.01。所述的平均密度值是通过蒙特卡罗(MonteCarlo)程序运算基因组中41,572个MSTs(n＝100x)的随机模拟分布(North et al 2002)计算。各逆转录转座子亚家族是按图3所述分组。

图5显示不同逆转录转座子群组在离开人类短种系拷贝数变异(shortCNVGs，5bp<CNVGs≤158bp)位点不同距离处的密度变异。是按各逆转录转座子群组在离开各shortCNVG不同距离处(单位为kb，以100bp递增)的平均密度绘制。箭头所指位置显示各逆转录转座子群组的基因组平均密度，虚线以上的密度值显示高于平均密度值，显著性差异达p<0.01。所述的平均密度值是通过蒙特卡罗(Monte Carlo)程序运算基因组中157,793个shortCNVGs(n＝100x)的随机模拟分布(North et al 2002)计算。各逆转录转座子亚家族是按图3所述分组。

图6显示不同逆转录转座子群组在离开人类中长种系拷贝数变异(midCNVGs，158bp<CNVGs≤15,848bp)位点不同距离处的密度变异。是按各逆转录转座子群组在离开各midCNVG不同距离处(单位为kb，以100bp递增)的平均密度绘制。箭头所指位置显示各逆转录转座子群组的基因组平均密度，虚线以上的密度值显示高于平均密度值，显著性差异达p<0.01。所述的平均密度值是通过蒙特卡罗(Monte Carlo)程序运算基因组中350,037个midCNVGs(n＝100x)的随机模拟分布(North et al 2002)计算。各逆转录转座子亚家族是按图3所述分组。

图7显示不同逆转录转座子群组在离开人类长种系拷贝数变异(longCNVGs,CNVGs>15848bp)位点不同距离处的密度变异。是按各逆转录转座子群组在离开各longCNVG不同距离处(单位为kb，以100bp递增)的平均密度绘制。箭头所指位置显示各逆转录转座子群组的基因组平均密度，虚线以上的密度值显示高于平均密度值，显著性差异达p<0.01。所述的平均密度值是通过蒙特卡罗(Monte Carlo)程序运算基因组中256,085个longCNVGs(n＝100x)的随机模拟分布(North et al 2002)计算。各逆转录转座子亚家族是按图3所述分组。

图8显示不同逆转录转座子群组在离开人类体细胞拷贝数变异(CNVTs)位点不同距离处的密度变异。是按各逆转录转座子群组在离开各CNVT不同距离处(单位为kb，以100bp递增)的平均密度绘制。箭头所指位置显示各逆转录转座子群组的基因组平均密度，虚线以上的密度值显示高于平均密度值，显著性差异达p<0.01。所述的平均密度值是通过蒙特卡罗(Monte Carlo)程序运算基因组中985,038个CNVTs(n＝100x)的随机模拟分布(North et al 2002)计算。各逆转录转座子亚家族是按图3所述分组。

图表9列出在离开各种形式的人类基因组多态性不同距离处，不同逆转录转座子组的富集(达p<0.01)情况。各逆转录转座子亚家族是按图3所述分组。

图10为ITE-PCR扩增子的凝胶电泳图，是利用不同组合的ITE-PCR引物和12.5ng人类白血细胞DNA为模板进行扩增。泳道A是DNA分子量(M.W.)标记；泳道B-P是使用各种ITE-PCR引物组合获得的ITE-PCR扩增子电泳图，下列表一列出各引物组合，其序列则见于实施例7中：

表一

图11为ITE-PCR扩增子的凝胶电泳图，是利用不同组合的ITE-PCR引物和12.5ng人类痰液DNA为模板进行扩增。泳道A是DNA分子量(M.W.)标记；泳道B-P是使用了表一所列的各引物组合而生成的ITE-PCR扩增子电泳图。

图12为ITE-PCR扩增子的凝胶电泳图，是利用不同组合的ITE-PCR引物和125ng人类粪便DNA为模板进行扩增。粪便取样需经过72小时无肉饮食后。泳道A是DNA分子量(M.W.)标记；泳道B-P是使用了表一所列的各引物组合而生成的ITE-PCR扩增子电泳图。

发明详述

在详述本发明前，应先理解本发明在不同情况下可以变动，因此并不限于使用所述的特定ITE-PCR引物来扩增ITE序列片段；或ITE-PCR反应中所述的试剂或程序。还应该理解的是，此处所使用的术语仅为了说明本发明的具体实施例，并不意味着仅限于所述内容。另外，在详述本发明的实施例前，阐述相关定义将有助对本发明的理解。所阐述的术语定义仅适用于本专利，在其它地方使用时，相同术语的定义或有所不同，如在科学文献或其它专利或应用上。另外，示例时，它们仅用作说明而不具限制性。

必须注意的是，除非另有说明，说明书及以下权利要求中所使用的单数字眼“一”、“一个”和“该”亦含复数之意。例如引用“引物”时，可能意指两条或以上引物组成。

术语“包含”、“包括”和“具有”意指包括在内，并可能包括已被列出以外的要素。

无论在说明及权利要求中，本发明所用术语，将依据以下所订定义。

术语“PCR产物”意指经转座子间PCR生成及使用乙醇或其它纯化试剂盒处理并去除任何过剩引物、酶、矿物油、甘油和盐的PCR产物。

术语“转座子间序列”，即“ITE序列”，可以是位于两个Alu元件之间、两个MIR元件之间、两个SVA元件之间、一个Alu元件和一个MIR元件之间、一个Alu元件和一个SVA元件之间，或一个MIR元件和一个SVA元件之间的DNA序列片段(图1)。ITE-PCR意指采用基于Alu-、MIR-和/或SVA-共有序列设计的引物对任何ITE序列片段进行PCR扩增。由于Alu和MIR元件在人类基因组中广泛存在，而Alu元件和MIR元件分别富集于基因区和近端区序列中。同时使用Alu-和MIR-共有序列基的引物进行ITE PCR，将可覆盖人类基因组的重要不同部分，尤其是基因组中具高功能性的基因区和近端区序列。

术语“质量”是指ITE-PCR扩增子的两个基本属性，就是：仅需使用纳克量人类DNA样品作PCR扩增，以及扩增子的多样性。所产生的扩增子量必须足以用来进行MPS测序，这可通过紫外线(UV)照射经溴化乙锭染色电泳后DNA扩增子的亮度得知；而扩增子的多样性也必须足以使MPS分析达至高效及高产能，这可通过凝胶电泳图中扩增子呈弥散状而非明显条带状来显示扩增序列的多样性。

术语“纳克量基因组DNA”是指ITE-PCR所需的亚微克量DNA，用作生成ITE-PCR扩增子及后续的大规模并行测序。

术语“热稳定DNA聚合酶”是指ITE-PCR中使用的DNA聚合酶，可以是Taq聚合酶、KOD聚合酶或其它用于DNA扩增的聚合酶。

术语“扩增方向”意指PCR扩增中的链延伸方向，是将PCR引物通过转座子(TE)的5'端(头部)或3'端(尾部)序列延伸。“头型”(H-型)引物会经过TE的5'头部方向进行链延伸，而“尾型”(T-型)引物会经TE的3'尾部方向延伸。

术语“头对头”意指被扩增的ITE序列是位于一TE 5'端及其相邻TE 5'端之间的ITE片段(见图2，顶线)。

术语“尾对尾”意指被扩增的ITE序列是位于一TE 3'端及其相邻TE 3'端之间的ITE片段(见图2，第二线)。

术语“头对尾”意指被扩增的ITE序列是位于一TE 5'端及其相邻TE 3'端之间的ITE片段(见图2，第三线)。

术语“尾对头”意指被扩增的ITE序列是位于一TE 3'端及其相邻TE 5'端之间的ITE片段(见图2，第四线)。

术语“大规模并行测序”(“MPS”)涵盖了几种高通量DNA测序技术，亦被称为“新一代测序”(“NGS”)。这些技术采用小型化和并行化平台进行1-100百万次短读长测序(50-400碱基)，许多MPS平台有着不同的工程设置和测序化学。然而，它们均运用了大规模并行测序的技术范式通过空间分离，将由克隆扩增DNA模板或流通池中的单DNA分子；设计上与Sanger测序(也被称为毛细管测序或第一代测序)有着明显差异，Sanger测序是基于将个别测序反应中产生的链终止物进行电泳分离并读取其碱基序列。

术语“扩增子”意指从天然或人工扩增生成的一段DNA。最常见是通过聚合酶链式反应(“PCR”)。通常，选择性扩增某特定一组ITE片段，并对其凝胶电泳图中呈条带状进行片段大小评估。通过多引物ITE-PCR扩增，可产生大量不同大小的ITE-扩增子，它们是从集有Alu-、MIR-和/或SVA-元件的基因组DNA区域扩增，并且不同元件彼此之间的距离属PCR可扩增范围内。在本发明中，利用多引物ITE-PCR扩增基因组不同区域中的相邻Alu、MIR和/或SVA元件之间区域，以头对头、尾对尾、头对尾和尾对头方向延伸，所获取的扩增产物经电泳分离及溴化乙锭染色。若显示为条带状的话，这显示获扩增的转座子间区段数量相对较少；而呈弥散模式(非条带状)则显示获扩增的转座子间区段数量非常庞大。

为测试和验证AlmivaScan的捕获潜力，特别是针对富含基因组多态性的ITE序列，本发明已对Alu、MIR和SVA元件位置及其相关基因组多态性位点进行了分析，如SNPs、MSTs、CNVGs和CNVTs等基因组多态性位点。如图3-9所示，于各SNP、MST、CNVG及CNVT多态性位点约3kb范围内PCR可扩增距离的序列当中，明显富含Alu、MIR和SVA元件，显著性达p<0.01，这表示Alu、MIR和SVA的插入可能是诱发SNP、MST、CNVG和CNVT多态性的重要因素。在这方面，已知SNPs与Alu元件(Ng and Xue 2006)及一些人类性状和疾病(Batzer and Deininger2002；Claussnitzer et al 2015；Fujimoto 2009；Kim 2012et al；Kumar,Yang,Xue et al2015；Lo,Lau,Xue et al 2004；Mbarek et al 2016；Medland et al 2016；Mei,Ding,Xueet al 2011；Sturm et al,2005；Walker et al 2003；Zhao,Xu,Xue et al 2009)相关；而MSTs占基因组可变基因座数目的2.7％，远高于SNPs，能调节基因表达，并且与人类性状相关(Payseur et al 2011；Sawaya et al 2012；Bagshaw et al 2017)；另外，CNVGs与人类身高和癌症易感相关(Li et al 2010；Ding,Tsang,Xue et al 2014)；及CNVTs在枢神经系统发育、衰老和癌症中扮演着重要角色(Iourov et al 2008；Schlien and Malkin 2009)。因此，应用Alu-、MIR-和SVA-共有序列基引物进行的PCR扩增，将提供一种有效工具，用于捕获富集基因组多态性位点的ITE序列以进行测序，图3-9显示了丰富的基因组多态性，包含可能与各种人类基础性状相关多态性。

为了测试AlmivaScan平台用于扩增庞大数量及多样性扩增子的潜力，而所述扩增是基于Alu-、MIR-和SVA-逆转录转座子共有序列设计的ITE-PCR引物。则必须寻找一组具说明作用的Alu-、MIR-和SVA-序列基引物，不但可以生成大量扩增子，使溴化乙锭染色显得明亮；并且包含极高的序列多样性扩增子，令到凝胶电泳图中呈现弥散而非条带状模式。就此而言，图10-12中所示的凝胶电泳图验证了采用不同的Alu-、MIR-和SVA-序列基PCR引物组合所产生的ITE-PCR扩增子，其凝胶电泳图均显示具有明亮的溴化乙锭染色及呈广泛弥散状模式的泳道，这表示出当中含有大量可供MPS序列分析的多样性基因组ITE片段。

所述方法用于鉴定来自不同或同一受试者的不同DNA样本之间的遗传差异，这些遗传差异是存于相关基因组ITE序列片段中。步骤包括：(a)选择一组配对样品，其中某特定基因型只能在第一个样品中表达，而不能在第二个样品中表达；(b)选定以Alu-、MIR-和SVA-共有序列设计的ITE-PCR引物，并对该组配对样品中的每个样品进行ITE-PCR，扩增一阵列基因组ITE序列区段；(c)采用MPS技术对每组配对样品中的基因组ITE序列扩增片段进行测序，描绘成为“AlmivaScan”；(d)把每组配对样品的MPS结果(亦即AlmivaScans)存储为计算机可读格式；(e)从MPS结果中鉴定相关的基因组ITE序列片段，亦即AlmivaScans,用于识别该组配对样品之间某基因序列或结构的差异，当中包括但不限于单核苷酸多态性(SNP)、单核苷酸变异(SNV)、微卫星(MST)或拷贝数变异(CNV)。

由于Alu元件仅在灵长类动物基因组中被发现，MIR元件仅在哺乳动物基因组中被发现，及SVA元件仅在人科动物基因组中被发现，因此“AlmivaScan”平台在人类基因组DNA样品的应用将不会受样品中的微生物DNA或植物DNA污染所干扰。另外，若受试者在受试DNA取样前72小时开始不进食任何含牛肉、猪肉、羊肉或其它含哺乳动物或脊椎动物成分的食品，那取自该人类样品中的基因组DNA受哺乳动物DNA干扰的机会会很小。综合所述的，“AlmivaScan”分析不仅适用于人类受试者取自血液或组织的DNA样品，也适用于取自粪便、痰液或口腔等分泌物和排泄物的DNA样品。鉴于此，本发明一个实施例中的DNA样品是来自人类白血球细胞，另一个实施例中的DNA样品是来自人类痰液，又一个实施例中的DNA样品是来自人类粪便。而痰液DNA样本经常受存于肺部和呼吸道的微生物污染，粪便DNA样本则常受胃肠系统中的微生物污染。

AlmivaScan测序平台的核心优势源于人类基因组中具有大量Alu和MIR插入位点，它们分别富集于基因区序列和近端区序列中。要是采用Alu-和MIR-共有序列基的引物进行ITE-PCR，将可以从人类基因组中扩增庞大数量的ITE-扩增子。虽然SVA插入位点数目相对较少，但除了SVA间序列之外，也可通过扩增Alu-SVA间和MIR-SVA间序列，加强SVA相邻序列的扩增(图1)。此优点亦可以应用于扩增其它插入位点较少而不出现于在细菌和病毒中的一般转座子(或GTE)，例如L1等，只要微生物DNA中不存在任何GTE序列，便可以通过使用Alu-、MIR-和GTE-共有序列基的ITE-PCR引物组合扩增ITE序列。其中除了GTE间序列之外，GTE-相邻序列的扩增还可以通过捕获Alu-GTE间及MIR-GTE间序列进行。

提供一种序列分析的方法。所述方法使用多种转座元件(ITE)-PCR引物来扩增ITE序列，用于后续测序，及发现和/或分析人类基因组序列和结构变异与个体或细胞性状之间的关联，包括患病状态、疾病易感性和药物反应。步骤包括：

(a)用以下组分的PCR反应混合物进行ITE-PCR：

i.两条或以上Alu-、MIR-和/或SVA-共有序列基ITE-PCR引物；

ii.人类基因组DNA样品；及

iii.PCR扩增混合物，包括：四种分别含A、G、T和C碱基的游离脱氧核苷酸三磷酸、

热稳定DNA聚合酶和缓冲液；

(b)在PCR仪中，对PCR反应混合物进行ITE-PCR扩增程序，经一段时间后完成，产生一阵列Alu间、MIR间、SVA间、Alu-MIR间、Alu间-SVA和/或MIR-SVA间序列的扩增子；

(c)对Alu间、MIR间、SVA间、Alu-MIR间、Alu-SVA间及MIR-SVA间序列阵列进行序列分析，比较来自相同或不同受试者的测试DNA样品和对照DNA样品的序列分析结果，以便确定基因组序列变异与个体或细胞性状之间的相关性。

设计一条或以上ITE-PCR引物，除了基于Alu、MIR和SVA逆转录转座子以外，还可以基于其它不出现于细菌和病毒DNA的逆转录转座子或重复序列的共有序列。

DNA样品可以从人类白血球细胞中制备。

DNA样品可以从人类痰液中制备。

DNA样品可以从人类粪便中制备。

DNA样品可以从人类血浆中制备。

DNA样品可以从人类血清中制备。

DNA样品可以从人类尿液中制备。

DNA样品可以从人类唾液制备。

除了白血球细胞、血浆和血清之外，DNA样品可以从任何人类组织中制备。

除痰液、粪便、尿液和唾液以外，DNA样品可以从任何分泌物或排泄物中制备。

在任何方法中，相关的ITE间序列多态性可以与个体性状或细胞性状或疾病找到关联，如下所示：

(a)选择一组配对样品，其中一个样品能够表达某性状，而另一个则不能表达；

(b)为所述配对样品中的每一个样品产生一ITE序列区段阵列；

(c)使用大规模并行测序技术对从该配对样品所产生的ITE序列区段阵列中每一个序列进行测序，生成一大规模并行ITE序列阵式；

(d)将每组配对样品的大规模并行ITE序列阵式转换成计算机可读格式；和

(e)于检测到配对样品之间的可识别的遗传变异的大规模并行ITE序列阵式中，识别出相关ITE序列元件，而将所述相关ITE序列元件鉴定为与该遗传性状有关联的序列。

所述方法可进一步包括，于大规模并行ITE序列阵式中识别出相关的ITE序列，其中配对样本间的可识别的遗传变异由该变异碱基的读取质量得分阈值(threshold readquality score)表示。

所述方法可进一步包括，于大规模并行ITE序列阵式中识别出相关的ITE序列，其中配对样本间的可识别的遗传变异是由比对该遗传变异与表观性状的体内平衡标记物的关键性阈值表示的。

所述方法可进一步包括，于大规模并行ITE序列阵式中识别出相关的ITE序列，其中配对样本间的可识别的遗传变异是由比对该遗传变异与性状的严重程度的阈值表示的。

所述方法可进一步包含以下步骤：选择杂合性丢失为该配对样品之间的可识别遗传变异。

所述方法可进一步包含以下步骤：选择体细胞的插入/缺失为该配对样品之间的可识别遗传变异。

所述方法可进一步包含以下步骤：选择单核苷酸变异(“SNV”)为该配对样品之间的可识别遗传变异。

所述方法可进一步包含以下步骤：选择移码变异为该配对样品之间的可识别遗传变异。

可使用新型DNA引物，序列为：[5'-AGCTTGCAGTGAGCTGAGAT-3'](SEQ ID NO:6)在本发明任何方法中作为ITE-PCR引物之一。

可使用新型DNA引物，序列为：[5’GTCCGCAGTCCGGCCTGGGC-3’](SEQ ID NO:7)在本发明任何方法中作为ITE-PCR引物之一。

可使用新型DNA引物，序列为：[5’GATAGCGCCACTGCAGTCC-3’](SEQ ID NO:8)在本发明任何方法中作为ITE-PCR引物之一。

可使用新型DNA引物，序列为：[5’AGCCGAGATGGCAGCAGTA-3’](SEQ ID NO:11)在本发明任何方法中作为ITE-PCR引物之一。

可使用新型DNA引物，序列为：[5’ACCAGAGACCTTTGTTCACT-3’](SEQ ID NO:12)在本发明任何方法中作为ITE-PCR引物之一。

提供了一种方法，用于鉴定人类基因组DNA中的一或多种基因变异。该方法包含制备测定混合物，所述测定混合物当中包括：含人类基因组DNA的测试样品；两条或以上引物；四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；热稳定DNA聚合酶和缓冲液。所述两条或以上引物中每一条引物均包含基于人类基因组转座子(TE)或其它重复元件的共有序列，而该等TE或其它重复元件通常不会在细菌和病毒DNA中出现。所述方法还包括对测定混合物进行聚合酶链式反应(PCR)，产生一含基因组转座子间(ITE)区段的扩增子阵列。

所述方法可进一步包括应用高通量DNA测序技术对所产生的扩增子进行测序。

所述方法可进一步包括将扩增子序列与对照DNA样品的相同人类基因组区域序列进行比较，以鉴定测试样品和对照DNA样品之间的一或多种基因组变异。

所述对照DNA样品可以是取自人类受试者的基因组DNA样品，并通过所属领域的任何已知方法测序。又或是对照DNA样品可以是含已知的人类基因组DNA序列。

提供了一种方法，用于鉴定与性状或疾病相关的一或多种基因组变异。该方法包含制备第一和第二测定混合物。第一测定混合物中含有：包含人类基因组DNA的第一测试样品，其中，第一测试样品是从带有某特定性状或疾病的人类受试者中获取的；另外，第一测定混合物还包括两条或以上引物，其中每一条引物包含基于人类基因组转座子(TE)或其它重复元件的共有序列，而所述TE或其它重复元件通常不会在微生物DNA中找到；第一测定混合物还包含四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；热稳定DNA聚合酶和缓冲液。第二测定混合物中含有：含有人类基因组DNA的第二测试样品，其中，第二测试样品是从没带有某特定性状或疾病的人类受试者组织中获取；第二测定混合物还含有所用的两条或以上引物，其序列与第一测定混合物中的两条或以上引物相同；另外，第二测定混合物亦包括四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；热稳定DNA聚合酶和缓冲液。所述方法包含分别对第一和第二测定混合物进行聚合酶链式反应(PCR)，分别产生第一测试样品基因组转座子间(ITE)区段的扩增子阵列和第二测试样品基因组转座子间(ITE)区段的扩增子阵列。

所述方法可进一步包括应用高通量DNA测序技术分别对第一和第二扩增子阵列进行测序。

所述方法可进一步包括将第一扩增子阵列的序列与第二扩增子阵列的序列进行比较，以鉴定第一和第二测试样品之间的一或多种基因组变异。要是该基因组变异仅发现于第一测试样品中，但不存于第二测试样品中，这表明它可能与性状或疾病相关联。

提供了一种试剂盒，用于对含有人类基因组DNA的测试样品进行聚合酶链式反应(PCR)。该试剂盒包含第一寡核苷酸引物和第二寡核苷酸引物，其中，寡核苷酸引物包含选自以下一条的核苷酸序列：AGCTTGCAGTGAGCTGAGAT(SEQ ID NO:6)，GTCCGCAGTCCGGCCTGGGC(SEQ ID NO:7)，GATAGCGCCACTGCAGTCC(SEQ ID NO:8)，AGCCGAGATGGCAGCAGTA(SEQ ID NO:11)及ACCAGAGACCTTTGTTCACT(SEQ ID NO:12)，而所述第一和第二寡核苷酸引物的序列彼此不同。该试剂盒还附有说明书，指示如何使用第一和第二寡核苷酸引物和进行PCR反应，用于鉴定测试样品中人类基因组DNA的基因组变异。

所述试剂盒还可选择包含其它PCR反应所需的组分，如热稳定DNA聚合酶；四种分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)和/或缓冲液。

在任何所述方法或试剂盒中，基因组变异将包括单核苷酸多态性(SNP)、微卫星(MST)、种系拷贝数变异(CNVG)(如短CNVG、中长CNVG、长CNVG或其任何组合)、体细胞拷贝数变异(CNVT)或其任何组合。

测试样品可以包含任何人体组织、分泌物或排泄物。

测试样品、第一测试样品、和/或第二测试样品可包含人类白血球细胞。

测试样品、第一测试样品、和/或第二测试样品可包含人类痰液。

测试样品、第一测试样品、和/或第二测试样品可包含人类粪便。而收集该测试样品、第一测试样品、和/或第二测试样品中的人类粪便前，受试者需经过72小时无进食任何源自哺乳动物或脊椎动物的肉或组织。

测试样品、第一测试样品、和/或第二测试样品可包含人类血浆。

测试样品、第一测试样品、和/或第二测试样品可包含人类血清。

测试样品、第一测试样品、和/或第二测试样品可包含人类尿液。

测试样品、第一测试样品、和/或第二测试样品可包含人类唾液。

测试样品、第一测试样品、和/或第二测试样品可包含人类白细胞、人类痰液、人类粪便、人类血浆、人类血清、人类尿液和人类唾液的任何组合。

测试样品、第一测试样品、和/或第二测试样品可包含亚微克量的人类DNA。

测试样品、第一测试样品和/或第二测试样品可进一步包含微生物DNA、植物DNA、非脊椎动物DNA或其任何组合。

测试样品、第一测试样品和/或第二测试样品可进一步包含微生物DNA、植物DNA，或微生物DNA和植物DNA。人类粪便样品通常含有大量的微生物和植物DNA。

测试样品、第一测试样品和/或第二测试样品可进一步包含微生物DNA。

存在于测试样品、第一测试样品和/或第二测试样品中的微生物DNA和/或植物DNA，甚至在高量的情况下，都不会干扰样品的测定结果。就是说，测试样品、第一测试样品或第二测试样品中的微生物和/或植物DNA与人类DNA的比例可介乎0:1和100:1之间，如1:1或50:1。

所述两条或以上引物中的每一条引物可包含人类基因组转座子(TE)共有序列，其中的TE通常不出现于微生物DNA中。

例如，所述两条或以上引物中的每一条引物可包含Alu元件基共有序列、MIR元件基共有序列或SVA元件基共有序列。

例如，测定混合物、第一测定混合物和/或第二测定混合物中可包含一条基于Alu元件共有序列设计的引物及一条基于MIR元件共有序列设计的引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少一条基于Alu元件共有序列设计的引物及至少一条基于SVA元件共有序列设计的引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少一条基于MIR元件共有序列设计的引物和至少一条基于SVA元件共有序列设计的引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少两条基于MIR元件共有序列设计的引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少两条基于SVA元件共有序列设计的引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少一条基于Alu元件共有序列设计的引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含两条或以上基于Alu元件共有序列设计的引物。

优选地，测定混合物、第一测定混合物和/或第二测定混合物中含有两条或以上基于Alu元件共有序列设计的引物，及一条或以上基于MIR元件共有序列设计的引物。

更优选地，测定混合物、第一测定混合物和/或第二测定混合物中含有两条或以上基于Alu元件共有序列设计的引物，及一条或以上基于SVA元件共有序列设计的引物。

最优选地，测定混合物、第一测定混合物和/或第二测定混合物中含有至少四条或以上基于Alu元件共有序列设计的引物，至少一条或以上基于MIR元件共有序列设计的引物，及至少一条或以上基于SVA元件共有序列设计的引物。

至少一条引物可包含Alu元件基共有序列。

至少一条引物包含基于Alu元件的共有序列，该引物包含选选自以下一条的核苷酸序列：TGGTCTCGATCTCCTGACCTC(SEQ ID NO:2),GAGCGAGACTCCGTCTCA(SEQ ID NO:3),TGAGCCACCGCG(SEQ ID NO:4),AGCGAGACTCCG(SEQ ID NO:5),AGCTTGCAGTGAGCTGAGAT(SEQID NO:6),GTCCGCAGTCCGGCCTGGGC(SEQ ID NO:7),and GATAGCGCCACTGCAGTCC(SEQ ID NO:8)。

至少一条引物包含基于Alu元件共有序列，该引物包含核酸序列：AGCTTGCAGTGAGCTGAGAT(SEQ ID NO:6)

至少一条引物包含基于Alu元件的共有序列，该引物包含核苷酸序列：GTCCGCAGTCCGGCCTGGGC(SEQ ID NO:7)。

至少一条引物包含基于Alu元件的共有序列，该引物包含核苷酸序列是：GATAGCGCCACTGCAGTCC(SEQ ID NO:8)。

至少一条引物可包含基于MIR元件的共有序列。

至少一条引物包含基于MIR元件的共有序列，该引物包含核苷酸序列：GTGACTTGCTCAAGGT(SEQ ID NO::9)和GCCTCAGTTTCCTCATC(SEQ ID NO:10)。

至少一条引物可包含基于SVA元件的共有序列。

至少一条引物包含基于SVA元件的共有序列，该引物包含核苷酸序列：AGCCGAGATGGCAGCAGTA(SEQ ID NO:11)。

至少一条引物包含基于SVA元件的共有序列，该引物包含核苷酸序列：ACCAGAGACCTTTGTTCACT(SEQ ID NO:12)。

The assay mixture,the first assay mixture,and/or the second assaymixture can comprise three or more primers.

测定混合物、第一测定混合物和/或第二测定混合物中可包含三条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含四条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含五条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含六条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含七条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含八条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含九条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含十条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含十一条或以上引物。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少五条引物，其中所述引物包含SEQ ID NO:2、3、4、5和9的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少六条引物，其中所述引物包含SEQ ID NO:2、3、4、5、11和12的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少五条引物，其中所述引物包含SEQ ID NO:2、3、4、5和8的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少五条引物，其中所述引物包含SEQ ID NO:2、3、4、5和7的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少五条引物，其中所述引物包含SEQ ID NO:2、3、4、5和6的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少六条引物，其中所述引物包含SEQ ID NO:2、3、4、5、9和10的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少十条引物，其中所述引物包含SEQ ID NO:2、3、4、5、6、7、8、9、11和12的核苷酸序列。

测定混合物、第一测定混合物和/或第二测定混合物中可包含至少十一条引物，其中所述引物包含SEQ ID NO:2、3、4、5、6、7、8、9、10、11和12的核苷酸序列。

所述引物组优选包含至少一条头向型(H-型)引物，该H-型引物将向转座子或其它重复元件的头方以外延伸；及至少一条尾向型(T-型)引物，该T-型引物则向转座子或其它重复元件的尾方以外延伸。

基因组转座子间(ITE)区段可包括Alu间区段、MIR间区段、SVA间区段、Alu-MIR间区段、Alu-SVA间区段和MIR-SVA间区段，或其任何组合。

高通量DNA测序可包括大规模并行测序。

大规模并行测序可产生大规模并行的转座子间(ITE)序列阵式。

所述方法可进一步包括将测序获得的数据转换成计算机可读格式，用于比较扩增子与对照样品DNA的序列。

所述方法可进一步包括将测序获得的数据转换成计算机可读格式，用于比较第一和第二阵列扩增子的序列。

所述方法可进一步包括从大规模并行的转座子间(ITE)区段序列阵式中，识别出相关的ITE基因区段，其中第一和第二测试样品之间存在的遗传变异由一个或多个变异碱基的读取质量得分阈值表示。

所述方法可进一步包括从大规模并行阵式的转座子间(ITE)区段序列阵式中，识别出相关的ITE基因区段，其中第一和第二测试样品之间存在的遗传变异，是通过对某特定性状或疾病标记物的比对，以重要性阈值表示。

所述方法可进一步包括从大规模并行阵式的转座子间(ITE)区段序列阵式中，识别出相关的ITE基因区段，其中第一和第二测试样品之间存在的遗传变异，是通过对某特定性状或疾病的严重度比对，以阈值表示。

第一和第二测试样品之间的遗传变异包括杂合性丢失。

第一和第二测试样品之间的遗传变异包括体细胞的插入/缺失。

第一和第二测试样品之间的遗传变异包含单核苷酸多态性。

提供了一寡核苷酸。该寡核苷酸包含选自下列一条的核苷酸序列：AGCTTGCAGTGAGCTGAGAT(SEQ ID NO:6),GTCCGCAGTCCGGCCTGGGC(SEQ ID NO:7),GATAGCGCCACTGCAGTCC(SEQ ID NO:8),AGCCGAGATGGCAGCAGTA(SEQ ID NO:11),及ACCAGAGACCTTTGTTCACT(SEQ ID NO:12)。

提供了对包含人类基因组DNA的测试样品进行聚合酶链式反应(PCR)的一试剂盒，所述试剂盒包含：

第一寡核苷酸引物和第二寡核苷酸引物，其中所述寡核苷酸引物包含选自以下的一核苷酸序列：AGCTTGCAGTGAGCTGAGAT(SEQ ID NO:6),GTCCGCAGTCCGGCCTGGGC(SEQ IDNO:7),GATAGCGCCACTGCAGTCC(SEQ ID NO:8),AGCCGAGATGGCAGCAGTA(SEQ ID NO:11),及ACCAGAGACCTTTGTTCACT(SEQ ID NO:12)；以及第一和第二寡核苷酸引物彼此不同；和

使用第一和第二寡核苷酸引物在PCR反应中检测包含人基因组DNA的测试样品中人基因组DNA中基因组变异的说明书。

本发明已经详细描述，很明确地，在不脱离本发明范围所附权利要求限定的情况下，可以进行修改和变更。

实施例

以下的非限制性实施例将进一步具体地说明本发明。

实施例一

单核苷酸多态性位点(SNPs)与Alu、MIR和SVA逆转录转座子的相对位置。通过UCSC人类参考基因组hg19(Smit et al 2010)浏览器的RepeatMasker来查找Alu、MIR和SVA逆转录转座子的位置，并与SNP1K数据库中的SNPs位置进行比较，从而检测所述逆转录转座子和SNPs之间的潜在相关性。图表3和图9总结显示了个别元件于离开SNP1K中各SNP位置不同相距范围内的平均密度，包括SVA_CD和SVA_AB于相距5kb范围内，MIR于相距1-5kb范围内，AluY-young于相距0.25kb范围内，AluY-old于相距3.7kb范围内和AluS于相距0.95kb范围内；并通过与蒙特卡罗随机模拟(n＝100x)22个常染色体的100百万个SNPs比较，发现所述元件于所述的相距范围内的富集情况达p<0.01。

实施例二

微卫星(MSTs)与Alu、MIR和SVA逆转录转座子的相对位置。通过UCSC人类参考基因组hg19(Smit et al 2010)浏览器的RepeatMasker来查找Alu、MIR和SVA逆转录转座子的位置，并与MST数据库中的MSTs位置进行比较，从而检测所述逆转录转座子和MSTs之间的潜在相关性。图表4和图9总结显示了个别元件于离开各MST位置不同相距范围内的平均密度，包括MIR于相距1.65-5kb范围内，AluY_old于相距0.3–0.75kb和1.05–2.35kb范围内，AluS于相距0.2–5kb范围内，及Alu_old于相距5kb范围内；并通过与蒙特卡罗随机模拟(n＝100x)22个常染色体的所有MSTs比较，发现所述元件于所述的相距范围内的富集情况达p<0.01。

实施例三

短种系拷贝数变异(shortCNVGs)与Alu、MIR和SVA逆转录转座子的相对位置。通过UCSC人类参考基因组hg19(Smit et al 2010)浏览器的RepeatMasker来查找Alu、MIR和SVA逆转录转座子的位置，并与deVars数据库中的shortCNVGs(5bp<CNVG≤158bp)所在位置进行比较，从而检测所述逆转录转座子和shortCNVGs之间的潜在相关性。图表5和图9总结显示了个别元件于离开各shortCNVG位置不同相距范围内的平均密度，包括SVA_EF、SVA_CD、AluY_young、AluY_old、AluS和Alu_old于相距5kb范围内，SVA_AB于相距0.6–2.95kb范围内，及MIR于相距1.4–5kb范围内；并通过与蒙特卡罗随机模拟(n＝100x)22个常染色体的所有shortCNVGs比较，发现所述元件于所述的相距范围内的富集情况达p<0.01。

实施例四

中长种系拷贝数变异(midCNVGs)与Alu、MIR和SVA逆转录转座子的相对位置。通过UCSC人类参考基因组hg19(Smit et al 2010)浏览器的RepeatMasker来查找Alu、MIR和SVA逆转录转座子的位置，并与deVars数据库中的midCNVGs(158bp<CNVG≤15848bp)所在位置进行比较，从而检测所述逆转录转座子和midCNVGs之间的潜在相关性。图表6和图9总结显示了个别元件于离开各midCNVG位置不同相距范围内的平均密度，包括SVA_EF和AluY_young于相距5kb范围内，SVA_CD于相距0.7–5kb范围内，及AluY_old于相距0.15–5kb范围内；并通过与蒙特卡罗随机模拟(n＝100x)22个常染色体的所有midCNVGs比较，发现所述元件于所述的相距范围内的富集情况达p<0.01。

实施例五

长种系拷贝数变异(longCNVGs)与Alu、MIR和SVA逆转录转座子的相对位置。通过UCSC人类参考基因组hg19(Smit et al 2010)浏览器的RepeatMasker来查找Alu、MIR和SVA逆转录转座子的位置，并与deVars数据库中的longCNVGs(CNVG>15848bp)所在位置进行比较，从而检测所述逆转录转座子和longCNVGs之间的潜在相关性。图表7和图9总结显示了个别元件于离开各longCNVG位置不同相距范围内的平均密度，包括SVA_EF于相距3.75–5kb范围内，SVA_CD于相距4.25-5kb范围内，AluY_young于相距0.1–5kb范围内，AluY_old于相距0.9–5kb范围内及AluS于相距1.7–5kb范围内；并通过与蒙特卡罗随机模拟(n＝100x)22个常染色体的所有longCNVGs比较，发现所述元件于所述的相距范围内的富集情况达p<0.01。

实施例六

体细胞拷贝数变异(CNVTs)与Alu、MIR和SVA逆转录转座子的相对位置。通过UCSC人类参考基因组hg19(Smit et al 2010)浏览器的RepeatMasker来查找Alu、MIR和SVA逆转录转座子的位置，并与COSMIC数据库(Forbes et al 2015)中的CNVTs所在位置进行比较，从而检测所述逆转录转座子和CNVTs之间的潜在相关性。图表8和图9总结显示了个别元件于离开各CNVT位置不同相距范围内的平均密度，包括SVA_CD于相距4.15–5kb范围内，MIR于相距5kb范围内，AluY_old于相距1.5–5kb范围内，AluS于相距0.8–5kb范围内及Alu_old于相距0.85–5kb范围内；并通过与蒙特卡罗随机模拟(n＝100x)22个常染色体的所有CNVT s比较，发现所述元件于所述的相距范围内的富集情况达p<0.01。

实施例1-6的测试结果分别显示于图3-8中，在离开各种基因多态性位点，诸如SNP1K、MST、shortCNVG、midCNVG、longCNVG和CNVT的近距离内，富集了许多Alu、MIR和SVA元件的插入，经统计学分析，所述富集情况达到p<0.01的水平。这表明在人类基因组进化过程中，逆转录转座子插入所带来的染色体不稳定性促使插入位点附近发生基因型多态性。虽然有些基因型多态性并没有引致个人表型上的差异，另一些却可引致个人表型的差异而被认定为人类性状。图9总结显示，在离开各种SNP、MST、CNVG和CNVT位点可被PCR扩增的～3kb近距离内，出现了Alu、MIR和SVA元件的富集情况，这证实了应用Alu-、MIR-和SVA-共有序列基引物进行ITE-PCR可以有效地捕获基因组序列进行大规模并行测序(MPS)，鉴定与人类性状有密切关联的大量基因组多态性位点。

实施例七

由于AlmivaScan测序平台是利用基于Alu-、MIR-和SVA-共有序列设计的ITE-PCR引物产生ITE-PCR扩增子，并通过MPS进行扩增子的序列分析，所以AlmivaScan测序平台的实用性将取决于扩增子的质量。对扩增子质量的要求须具有两个属性，就是高产量及多样性。高产量可提供MPS足够的扩增子进行深入测序，而高产量的扩增子，可以通过凝胶电泳和溴化乙锭染色后，在紫外光(UV)照射下它们所呈现的强烈光亮度鉴定；多样性的扩增子可提供大量与Alu-、MIR-和SVA-相邻的广泛序列进行MPS分析，而多样性的扩增子可以通过它们在溴化乙锭染色后所呈现的非条带型的弥散状态。本实施例使用了多种H-型和T-型Alu-、MIR-和SVA-序列基引物的组合，应用AlmivaScan测序平台对白血球细胞DNA进行分析，并使用扩增子的凝胶电泳，比较不同引物组合所产生的扩增子的产量高低及它们的条带或弥散状态。下面表2描述了所用的不同引物组合。

表2

一组四条Alu引物曾被不同研究组报道过了，分别是AluY66H21和AluY278T18(Meiet al 2011，我方研究组)，L12A/8(Zietkiewicz et al 1992)及R12A/267(Srivastava etal 2005)。同样地，MIR17和MIL17(Jurka et al 1995)也已报道过了。而AluYa5/a8、AluYb8/b9、AluYk4/k12、SVAh和SVAt是为本发明应用而设计的引物，是分别基于图六中所显示的AluY子家族的已知序列，该序列富集于midCNVGs的邻近区域，及SVAs的已知序列设计的(Hubly et al 2016)。

使用上表2列出的各引物，进行如下所述的ITE-PCR：先将15ml全血与30ml内含8.26g氯化铵、1.0g碳酸氢钾、37mg EDTA的红细胞裂解液温和地混和，并置于4℃孵育30分钟；以3500rpm和4℃冷冻环境离心30分钟分离细胞核；重复裂解和离心步骤直至细胞核沉淀物呈淡黄白色；通过酚/氯仿从沉淀物中提取DNA；采用内含特定PCR引物的PCR反应混合物进行ITE-PCR扩增。每25μl的反应混合物中内含：2μl BIOLINE 10×NH4缓冲液(160mM硫酸铵，670mM Tris-HCl，pH 8.8，0.1％稳定剂；www.bioline.com)，3mM氯化鎂，0.15mM dNTP混合物，1单位Taq聚合酶，12.5ng白血球细胞DNA样品，以及各引物浓度为0.050μM的ITE-PCR引物组合。首先，将各反应混合物进行95℃5分钟的DNA变性，然后是30个温度循环(一次循环为95℃30秒，50℃30秒和72℃5分钟)，最后是72℃ 7分钟。取8μl反应产物与2μl上样染料混和后，进行琼脂糖凝胶电泳，溴化乙锭染色和UV照射检视。

图10的凝胶电泳染色强度和阵式显示，使用不同引物组合所获得的扩增子DNA染色亮度及电泳后模式(呈条带或弥散状图案)均有所不同。泳道C、E和G中的扩增子DNA经溴化乙锭染色后呈明显条带状，而泳道B、I、K和M的凝胶染色亮度则相对较弱。由于泳道C和E仅使用MIR-序列基引物，泳道G仅使用SVA-序列基引物，而泳道B、I、K和M也仅用了少于五种不同的Alu-序列基引物，这些结果表明了仅使用MIR-序列基引物或SVA-序列基引物，又或使用的Alu-序列基引物种数不足够，均会产生较低量的扩增子。而泳道D和H除使用了四种不同Alu-序列基引物之外，还加上一种MIR-序列基或两种SVA-序列基引物，结果生成了具充足染色及呈弥散状的扩增子DNA；泳道J、L和N各自使用了五种不同的Alu-序列基引物，也呈现出强染色弥散模式。值得注意的是，泳道F、O和P所使用的引物组合产生了强烈染色的弥散模式，其组合分别是四种不同Alu-序列基引物和两种MIR-序列基引物，或七种不同Alu-序列基引物与一或两种MIR-序列基引物及两种SVA-序列基引物。

实施例八

在此实施例中，均采用了实施例七所述泳道A-P的相同引物组合来进行ITE-PCR，只是每个25-μl ITE-PCR反应中用上12.5ng人类痰液DNA样品。而获得的凝胶电泳图(见图11)与实施例七的大致相若。泳道C、E和M显现清晰的条带状，泳道F和J则显现颇强染色的弥散模式，而泳道O和P显现强烈染色弥散模式。

实施例九

在此实施例中，均采用了实施例七所述泳道A-P的相同引物组合来进行ITE-PCR，只是每个25-μl ITE-PCR反应中用上125ng人类粪便DNA样品。而获得的凝胶电泳图(见图12)与实施例七和八的大致相若。泳道C、I和M为清晰的条带状，泳道J和O则呈现一些强染色的条带，而泳道L和P显现强烈染色弥散模式。

于2011年Mei、Ding、Xue等人发表的科研文章，题为“AluScan:一种应用于扫描人类全基因组序列和结构变异的方法”，详述了使用Alu-共有序列基PCR引物扩增Alu间序列，所生成的扩增子长度可达6kb，并且电泳图弥散状对扩增子质量可提供了一可靠指标，确定能成功扩增及测序>10Mb的人基因组序列。所述序列来自8,000个基因，并在对比一组胶质瘤与对照样品后，发现357个杂合性丢失(LOHs)、274个体细胞单核苷酸变异(SNVs)、341个体细胞插入/缺失及7个SNV热点。实施例7-9采用了不同引物组合进行扩增，电泳图像显示扩增物会随着引物数量和种类递增(见图10-12)，这证明在ITE-PCR扩增过程中，Alu-序列基、MIR-序列基和SVA-序列基引物之间的协作效应，而相互干扰很少。如图1所示，单一Alu-序列基引物仅能扩增基因组Alu间序列，但要是合并Alu、MIR和SVA引物一起使用，则能够扩增Alu间、MIR间、SVA间、Alu-MIR间、Alu-SVA间和MIR-SVA间序列，大大扩阔了序列捕获范围。图10-12中，泳道P采用了Alu-序列基、MIR-序列基的和SVA-序列基引物组合，对白血球细胞DNA、痰液DNA和粪便DNA经扩增后，均产生强烈染色和弥散状的扩增产物电泳图。另泳道O、F和L的电泳图亦呈强烈染色和弥散状。综合所述结果，AlmivaScan测序平台能够通过使用不同ITE-PCR引物组合，从细胞DNA及人体分泌物和排泄物DNA中，产生大量不同ITE序列片段进行MPS分析。图10-12所采用的Alu-、MIR-和SVA-序列基引物组合，仅代表部分而不是全部可能性组合。因此，序列捕获还可通过使用实施例7-9以外的额外Alu-、MIR-和SVA-序列基引物组合进行。同样，AlmivaScan覆盖范围可以扩展至其它逆转录转座子和重复元件的邻近基因组序列，只要在ITE-PCR反应混合物中加入基于这些逆转录转座子，和重复元件共有序列设计的PCR引物，条件是该逆转录转座子和重复序列并不出现于微生物DNA和病毒DNA中。

微生物约占人类粪便干质量达60％(Stephen and Cummings 1980)。在实施例8和9中，用作提取痰液和粪便样品DNA的苯酚-氯仿方法，并没有任何去除微生物DNA的步骤。因此，可预期这些DNA样品将含有各种微生物DNA。事实上，由于粪便中的微生物DNA含量很高，尽管实施例7和8只用上12.5ng白血球细胞DNA或痰液DNA来进行ITE-PCR反应生成大量人类扩增子，实施例9则必须用上125ng粪便DNA才能捕获足够的人类DNA扩增子作电泳分析。重要的是，实施例8和9的扩增子电泳图像与实施例7的相类似，证明AlmivaScan分析的应用不受人类粪便中存在的大量微生物DNA干扰，甚至其量可能远远超过人类DNA量。然而，Alu和SVA转座子分别仅存于灵长类和人科动物DNA中，MIR转座子则存于所有哺乳类动物DNA中。为了减低人类粪便样品中哺乳动物DNA的干扰，因此须于取样前经过72小时无进食任何源自猪肉、牛肉、羊肉或其它哺乳动物肉类或组织，方可进行AlmivaScan分析。若果，AlmivaScan扩增采用了基于L1反转录转座子共有序列的引物，则亦须于取样前72小时内禁食鱼、鸡或其他脊椎动物，以减少鱼或其他脊椎动物插入的L1的干扰，方可进行AlmivaScan分析。图12泳道P和L的凝胶电泳图，就是从所述经过72小时猪、牛、羊肉禁食供样品者粪便DNA扩增生成的ITE-PCR扩增子，显示强烈染色和弥散模式。这表示虽然样品中存在大量微生物DNA，但仍有效地可捕获人类基因组ITE-序列。要是没有办法于取样前不进食含有哺乳动物肉类和组织的食品，则必须将MIR-共有序列基引物从ITE-PCR混合物中剔除，才可进行ITE-PCR扩增。

鉴于上述内容，本发明已实现了几个预期目的，并取得有效成果。

由于上述方法可以在不脱离本发明权利范围的情况下作出变更，因此包含在上述说明和附图中的所有内容应被理解为属说明性质而非限制性质的。

美国专利文件：

U.S.5,773,649 Issued June 30,1998,entitled"DNA MARKERS TO DETECTCANCER CELLS EXPRESSING A MUTATOR PHENOTYPE AND METHOD OF DIAGNOSIS OF CANCERCELL"Sinnett,et al.

U.S.7,537,889 Issued May 26,2009,entitled"ASSAY FOR QUANTITATION OFHUMAN DNA USING ALU ELEMENTS"Sinha et al.

U.S.20150225722A1 April 29,20 1 5,entitled"METHODS FOR SELECTIVETARGETING OF HETEROCHROMATIN FORMING NON-CODING RNA"F.Ozsolek

非专利文献:

Bagshaw ATM,Horwood LJ,Ferguson DM et al(2017).Microsatellitepolymorphisms associated with human behavioral and psychological phenotypesincluding a gene-environment interaction.B MC Med Genet 1 8,12.doi:10 1 1 86/S 1288 1-0 1 7-0374-y

Batzer MA,Deininger PL(2002).Alu repeats and human genomicdiversity.Nat Rev Genet 2002,3:370-379.

Claussnitzer M,Dankei SN,Kim KH et al(2015).FTO obesity variantcircuitry and adipose brow ning in humans.New Engl J Med 373,895-907.

Ding,X.,Tsang,SY,Xue,H et al(2014).Application of machine learning todevelopment of co py number variation-based prediction of cancerrisk.Genomics Insights 7,1-11.

Forbes SA et al.(2015).COSMIC:exploring the orld’s knowledge ofsomatic mutations in huma n cancer.Nucleic Acids Res 43,D805-811.

Fujimoto A,Nishida N,Kimura R et al(2009).FGFR2 is associated withhair thickness in Asian populations.J Hum Genet 54,461-465.

Gianfrancesco O,Bubb VJ,Quinn JP(2017)SVA retrotransposons aspotential modulators of neuropeptide gene expression.Neuropeptides 64,3-7(2017).

Hubley R,Finn RD,Clements J et al.(2016).The Dfam database ofrepetitive DNA families.Nu cleic Acids Res 44,D81-89.

Iourov LY,Vorsanova SG,Yurov YB(2008).Chromosomal mosaicism goesglobal.Mol Cytogene t 1:26.doi 10.1186/1755-8166-1-26.

Jurka J,Zietkievicz E,Labuda D(1995).Ubiquitous mammalian-wideinterspersed repeats(MIRs)are molecular fossils from the mesozoic era.NucleicAcids Res 23,170-175.

Kass DFI,Batzer MA(1995).Inter-Alu polymerase chain reaction:advancements and applicati ons.Anal Biochem 228,185-193.

Kim JJ,Park YM,Baik KH et al.(2012).Exome sequencing and subsequentassociation studies i dentify five amino acid-altering variants influencinghuman height.Hum Genet 131,471-478.

Krajinovic M,Richer C,Labuda D,Sinnett D(1996).Detection of a mutatorphenotype in cance r cells by inter-Alu polymerase chain reaction.Cancer Res56,2733-2737.

Kumar Y,Yang J,Xue H et al(2015).Massive insterstitial copy-neutralloss-of-heterozygosity a s evidence for cancer being a disease of the DNA-damage response.BMC Med Genet 8:42.doi 10.1 1 86/s 12920-0 1 5-0 104-2.

Li X,Tan L,Liu X et al.(2010).A genome wide association study betweencopy number variati on(CNV)and human height in Chinese population.J GenetGenomics 37,779-785.

Lo WS,Lau CF,Xue H et al(2004).Association of SNPs and haplotypes inGAB A A receptorβ2 gene with schizophrenia.Mol Psychiatry 9,603-608.

Mbarek H,Steinberg S,Nyholt et al(2016).Identification of commongenetic variants influencing dizygotic twinning and female fertility.Am HumGenet 98,898-908.

Medland SE,Nyholt DR.,Painter et al(2009).Common variants in thetrichohyalin gene are as sociated with straight hair in Europeans.Am J HumGenet 85,750-755.

Mei L,Ding,X,Xue H et al.(2011).AluScan:a method for genome-widescanning of sequence and structure variations in the human genome.BMCGenomics 12:564.doi:10.1 1 86/147 1-2 164-12-564.

Ng,SK,Hu T,Xue,H.et al(2016).Feature co-localization landscape of thehuman genome.Sci Rep,6,20650.doi:10.1038/srep20650.

Ng SK,Xue H(2006).Alu-associated enhancement of single nucleotidepolymorphisms in the h uman genome.Gene 368,1 10-1 16.

North BV,Curtis D,Sham PC(2002).A note on the calculation ofempirical P values from Mo nte Carlo procedures.Am J Hum Genet 71,439-44 1.

Payseur BA,Jing P,Haasl RJ(2011).A genomic portrait of humanmicrosatellite variation.Mol Biol Evol 28,303-3 12.Quinn JP,Bubb VJ(20 14)SVAretrotransposons as modulators of gene ex pression.Mobile Genet Elements 4,e32102.

Sawaya SM,Bagshaw AT,Buschiazzo E(20 12).Promoter microsatellites asmodulators of hum an gene expression.In Tandem Repeat Polymorphisms,ed.Hannan,AJ.Landes pp.41-54.

Schlien A,Malkin D(2009).Copy number variations and cancer.GenomicsMed 1:62.DOF 10.1 1 86/gm62.

Smit A FA,Hubley R,Green P.(2010)RepeatMasker Open-3.0.http://www.repeatmasker.org.1996-20 10.

Stephen AM,Cummings JW(1980).The microbial contribution to humanfecal mass.J Med Mi crobiol 1 3,45-56.

Srivastava T,Seth A,Datta K et al(2005).Inter-Alu PCR detects highfrequency of genetic alt erations in glioma cel ls exposed to sub-lethalcisplatin.International J.Cancer 1 1 7:683-9.

Sturm RA,Duffy DL,Zhao ZZ et al(2008).A single SNP in an evolutionaryconserved region w ithin intron 86 of the HERC2 gene determines human blue-brown eye color.Am J Hum Genet 82,424-43 1.

Walker J A,Kilroy GE,Xing J et al(2003).Human DNA quantitation usingAlu element-based polymerase chain reaction.Anal Biochem 3 1 5,122-128.

Zhao C,Xu Z,Xue H et al(2009).Al temati ve-spl icing in the ex on-10region of GAB A A r eceptorβ2 subunit gene:relationships between novelisoforms and psychotic disorders.PLoS One4,e6977.

Zietkiewicz E,Labuda M,Sinnett D,Glorieux FH,Labuda D(1992).Linkagemapping by simult aneous screening of multiple polymorphic loci using Alu oli gonucl eoti de-di rected PCR.Proc N atl Acad Sci USA 1992,89:8448-8451.

序列表

<110> 华晶基因技术有限公司

<120> 应用全基因组捕获转座子间区段序列对受微生物污染的人类DNA样本

<130> PT20192913-DD-P

<150> US 62/507,814

<151> 2017-05-18

<160> 12

<170> SIPOSequenceListing 1.0

<210> 1

<211> 14

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Consensus sequence

<400> 1

aaaaatacaa aaaa 14

<210> 2

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 2

tggtctcgat ctcctgacct c 21

<210> 3

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 3

gagcgagact ccgtctca 18

<210> 4

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 4

tgagccaccg cg 12

<210> 5

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 5

agcgagactc cg 12

<210> 6

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 6

agcttgcagt gagctgagat 20

<210> 7

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 7

gtccgcagtc cggcctgggc 20

<210> 8

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 8

gatagcgcca ctgcagtcc 19

<210> 9

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 9

agtgacttgc tcaaggt 17

<210> 10

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 10

gcctcagttt cctcatc 17

<210> 11

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 11

agccgagatg gcagcagta 19

<210> 12

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Primer

<400> 12

accagagacc tttgttcact 20

Claims

1.一种寡核苷酸，包含选自下列一条的核苷酸序列：SEQ ID NO:4、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:11或SEQ ID NO:12。

2.一种应用于鉴定人类基因组DNA一或多种基因组变异的非诊断方法，所述方法包括：

测定混合物的制备，

当中包含测试样品，内含人类基因组DNA；

(a)两条或以上引物，其中每条引物包含基于人类基因组转座子(TE)或其它重复元件的共有序列，所述转座子(TE)或其他重复元件在微生物中不会出现；

(c)分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；

(d)热稳定DNA聚合酶；

(e)缓冲液；及对测定混合物进行聚合酶链式反应(PCR)，产生一含基因组转座子间(ITE)区段的扩增子的阵列；

其中两条或以上引物的每一个包含一条基于Alu元件转座子的共有序列，一条基于MIR元件的共有序列，或一条基于SVA元件的共有序列；

其中至少一条引物包含基于Alu元件的共有序列；

其中至少一条引物包含选自以下一条的核苷酸序列：SEQ ID NO:4、SEQ ID NO:6、SEQID NO:7或SEQ ID NO:8。

3.权利要求2所述非诊断方法，还包括使用高通量DNA测序对扩增子进行测序。

4.权利要求3所述非诊断方法，将扩增序列与对照DNA样品中的相同人类基因组区域序列进行比较，以鉴定测试样品及对照样品之间存在的一或多种基因组变异。

5.一种应用于鉴定一或多种与性状相关的基因组变异的非诊断方法，所述方法包括：第一测定混合物的制备，当中包含(a)第一测试样品，内含人类基因组DNA，其中所述第一测试样品取自具有所述性状的人类受试者；(b)两条或以上引物，其中每条引物包含人类基因组转座子(TE)或其它重复元件的共有序列；所述转座子(TE)或其他重复元件在细菌及病毒中不会出现；(c)分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；(d)热稳定DNA聚合酶；(e)缓冲液；和第二测定混合物的制备，当中包含(a)第二测试样品，内含人类基因组DNA，取自没有所述性状的人类受试者；(b)两条或以上引物，其中两条或以上引物的序列与第一测定混合物中的两条或以上引物的序列相同；(c)分别含腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的游离脱氧核苷酸三磷酸(dNTPs)；(d)热稳定DNA聚合酶；(e)缓冲液；和分别对第一和第二测定混合物进行聚合酶链式反应(PCR)，并产生源自第一测试样品的第一基因组转座子间(ITE)扩增子阵列，以及源自第二测试样品的第二基因组转座子间(ITE)扩增子阵列；

其中至少一条引物包含一基于Alu元件的共有序列；

6.权利要求5所述非诊断方法，其中所述方法还包括使用高通量DNA测序对所述第一和第二扩增子阵列进行测序。

7.权利要求6所述非诊断方法，其中所述方法还包括将第一扩增子阵列的序列与第二扩增子阵列的序列进行比较，鉴定所述第一和第二测试样品之间的一或多种基因组变异，其中，仅出现于第一个测试样品中而不出现于第二测试样品的基因组变异指示该基因组变异与该性状相关联。

8.权利要求2-7任一所述非诊断方法，其中所述基因组变异包括：单核苷酸多态性(SNP)、微卫星(MST)、种系拷贝数变异(CNVG)、体细胞拷贝数变异(CNVT)，或其任何组合。

9.权利要求8所述非诊断方法，其中所述CNVG包括：短CNVG、中长CNVG、长CNVG，或其任何组合。

10.权利要求5-7任一所述非诊断方法，其中所述第一测试样品和/或第二测试样品包括：人类白细胞、人类痰液、人类粪便、人类血浆、人类血清、人类尿液、人类唾液，或其任何组合。

11.权利要求10所述非诊断方法，其中所述第一测试样品和/或第二测试样品包含源自人类受试者的粪便样品，其中所述人类受试者于取样前，须经过至少72小时无进食含哺乳或脊椎动物肉类或组织的食物。

12.权利要求5-7任一中所述非诊断方法，其中所述第一测试样品和/或第二测试样品含亚微克量人类DNA。

13.权利要求5-7任一所述非诊断方法，其中所述第一测试样品和/或第二测试样品包含微生物DNA、植物DNA、非人类动物DNA，或其任何组合。

14.权利要求5-7任一所述非诊断方法，其中所述第一测试样品和/或第二测试样品进一步包含微生物DNA、植物DNA，或两者都有。

15.权利要求5-7任一所述非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含：(a)至少一条包含基于Alu元件的共有序列的引物和至少一条包含基于MIR元件的共有序列的引物；(b)至少一条包含基于Alu元件的共有序列的引物和至少一条包含基于SVA元件的共有序列的引物；(c)至少一条包含基于MIR元件的共有序列的引物和至少一条包含基于SVA元件的共有序列的引物；(d)至少两条包含基于MIR元件的共有序列的引物；或(e)至少两条包含基于SVA元件的共有序列的引物。

16.权利要求5-7任一所述的非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含：(b)两条或以上引物，每个引物包含基于Alu元件的共有序列。

17.权利要求5-7任一所述的非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含：(c)两条或以上引物，每条引物包含基于Alu元件的共有序列，以及一条或以上引物，每条引物包含基于MIR元件的共有序列。

18.权利要求5-7任一所述的非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含：(d)两条或以上引物，每条引物包含基于Alu元件的共有序列，以及一条或以上引物，每条引物包含基于SVA元件的共有序列。

19. 权利要求5-7任一所述的非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含： (e)至少四条或以上引物，每条引物包含基于Alu元件的共有序列，以及一条或以上引物，每条引物包含基于MIR元件的共有序列，以及一条或以上引物，每条引物包含基于SVA元件的共有序列。

20.权利要求2-7任一所述非诊断方法，其中至少一条引物包含一条选自以下的核苷酸序列： SEQ ID NO:9。

21.权利要求2-7任一所述非诊断方法，其中至少一条引物包含核苷酸序列SEQ ID NO:11。

22.权利要求2-7任一所述非诊断方法，其中至少一条引物包含核苷酸序列SEQ ID NO:12。

23.权利要求5-7任一所述非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含三条或以上引物，四条或以上引物，五条或以上引物，六条或以上引物，七条或以上引物，八条或以上引物，九条或以上引物，十条或以上引物，或者十一条或以上引物。

24.权利要求5-7任一所述非诊断方法，其中所述测定混合物、第一测定混合物和/或第二测定混合物包含：

(a)至少五条引物，其中所述引物包含核苷酸序列SEQ ID NO：2,3,4,5和9；

(b)至少六条引物，其中所述引物包含核苷酸序列SEQ ID NO：2,3,4,5,11和12；

(c)至少五条引物，其中所述引物包含核苷酸序列号SEQ ID NO：2,3,4,5和8；

(d)至少五条引物，其中所述引物包含核苷酸序列号SEQ ID NO：2,3,4,5和7；

(e)至少五条引物，其中所述引物包含核苷酸序列号SEQ ID NO：2,3,4,5和6；

(f)至少六条引物，其中所述引物包含核苷酸序列号SEQ ID NO：2,3,4,5,9和10；

(g)至少十条引物，其中所述引物包含核苷酸序列号SEQ ID NO：2,3,4,5,6,7,8,9,11和12；或

(h)至少十一条引物，其中所述引物包含用核苷酸序列SEQ ID NO：2,3,4,5,6,7,8,9,10,11和12。

25.权利要求2-7任一所述非诊断方法，其中所述引物包括：至少一条头向型引物，往转座子或其它重复元件的头方以外延伸，及至少一条尾向型引物，往转座子或其它重复元件的尾方以外延伸。

26.权利要求5-7任一所述非诊断方法，其中所述基因组转座子间(ITE)区段包括：Alu间区段、MIR间区段、SVA间区段、Alu-MIR间区段、Alu–SVA间区段，MIR–SVA间区段，或其任何组合。

27.权利要求3-4，6-7任一所述非诊断方法，其中所述高通量DNA测序包括大规模并行测序。

28.权利要求27所述非诊断方法，其中所述大规模并行测序产生大规模并行的转座子间(ITE)序列规模模式。

29.权利要求2-7任一所述非诊断方法，其中所述方法还包含将测序数据转化为计算机可读格式后，对扩增子序列与对照DNA序列进行比较。

30.权利要求5-7任一所述非诊断方法，所述方法还包含将测序数据转化为计算机可读格式后，对第一阵列扩增子序列和第二阵列扩增子序列进行比较。

31.权利要求26所述非诊断方法，所述方法还包含从大规模并行转座子间(ITE)序列中识别相关的基因组ITE区段，其中，所述第一和第二测试样品之间存在的遗传变异，以变异碱基位置的读取质量阈值表示。

32.权利要求26所述非诊断方法，所述方法进一步包括将从大规模并行转座子间(ITE)序列阵式中识别相关的基因组ITE区段，其中，所述第一和第二测试样品之间存在的遗传变异，以比对性状的体内平衡标记物的关键性阈值表示。

33.权利要求26所述非诊断方法，所述方法进一步包括从大规模并行转座子间(ITE)序列中识别相关的基因组ITE区段，其中，所述第一和第二测试样品之间存在的遗传变异，以比对性状的严重程度的阈值表示。

34.权利要求30所述非诊断方法，其中，所述第一和第二测试样品之间的遗传变异包含杂合性丢失。

35.权利要求30所述非诊断方法，其中，所述第一和第二测试样品之间的遗传变异包含体细胞插入/缺失。

36.权利要求30所述非诊断方法，其中，所述第一和第二测试样品之间的遗传变异包含单核苷酸多态性。

37.一种试剂盒，所述试剂盒对包含人类基因组DNA的测试样品进行聚合酶链式反应(PCR)，所述试剂盒包含：第一寡核苷酸引物和第二寡核苷酸引物，其中所述寡核苷酸引物包含选自以下的任一核苷酸序列： SEQ ID NO:6,SEQ ID NO:7,SEQ ID NO:8,SEQ ID NO:11或SEQ ID NO:12；以及第一和第二寡核苷酸引物彼此不同；和使用第一和第二寡核苷酸引物在PCR反应中检测包含人基因组DNA的测试样品中人基因组DNA中基因组变异的说明书。