CN108138220A - 遗传分析的系统和方法 - Google Patents
遗传分析的系统和方法 Download PDFInfo
- Publication number
- CN108138220A CN108138220A CN201680053786.0A CN201680053786A CN108138220A CN 108138220 A CN108138220 A CN 108138220A CN 201680053786 A CN201680053786 A CN 201680053786A CN 108138220 A CN108138220 A CN 108138220A
- Authority
- CN
- China
- Prior art keywords
- control
- mip
- targeting
- target
- unique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
用于使用分子倒置探针和探针捕获度量检测拷贝数变异、染色体异常、外显子缺失或重复或其他遗传变异的系统和方法。
Description
相关申请的交叉引用
本申请要求2015年7月29日提交的美国临时申请号62/198,644的权益,所述临时申请以全文引用的方式并入本文。
发明领域
本公开涉及用于确定有需要的受试者的拷贝数变异、染色体异常或微缺失的系统和方法。
发明背景
遗传携带者筛查为可以鉴别个别受试者(通常是未来的父母)生出具有可能造成死亡或残疾的遗传病之一的孩子的风险的一类测试。具有一个正常基因和可能造成遗传病症的一个异常基因的人被称为携带者。携带者不受病症影响,但是他们可能将异常基因传递给下一代。例如,遗传携带者筛查可以确定未来的父母是否为隐性遗传病症诸如囊性纤维化、镰状细胞病、地中海贫血、泰-萨二氏病(Tay-Sachs disease)和脊髓性肌肉萎缩(SMA)的携带者。如果未来的父母两人均为隐性遗传病症的缺陷基因的携带者,那么他有风险生出具有那种遗传病症的孩子。如果父母无一人为携带者,那么他们可以排除所述风险。因此,遗传携带者筛查对未来的父母非常有帮助。
脊髓性肌肉萎缩(SMA)为婴儿死亡的最常见的遗传性原因之一。其影响人控制肌肉的能力,包括涉及呼吸、吃、爬行和走路的肌肉。SMA具有不同水平的严重程度,其中没有影响到智力。但是,病症的最常见形式造成到两岁时死亡。在美国每6,000个婴儿中约一个至每10,000个婴儿中一个患有SMA。
SMA为隐性遗传病症。其由位于5号染色体的SMN(运动神经元存活)基因SMN1和SMN2的突变引起。SMN基因由9个外显子构成,其中终止密码子接近外显子7末端。两种几乎相同的SMN基因存在于染色体5q13上:端粒基因或SMN1基因(其为SMA决定基因)和着丝粒或SMN2基因。SMN1和SMN2的基因序列不同之处在于仅5个碱基对,并且编码序列不同之处在于单一核苷酸(840C>T)。此单一核苷酸差异并不改变氨基酸,但其影响剪接并且造成SMN2的约90%转录物缺乏外显子7。因此,与产生全长SMN蛋白的SMN1基因相反,SMN2基因主要产生缩短的、不稳定的并且被快速降解的同工型。
患有SMA的个体通常从他们父母中的每个人遗传到突变SMN1基因。导致SMA的大多数突变为缺失或基因转换。缺失涉及SMN1基因的部分或全部去除。在基因转换中,SMN1基因转换成类似SMN2的基因,因为外显子7中的“C”突变成“T”。在两种情况下,SMA患者失去SMN1外显子7并且产生不足量的全长SMN蛋白。因此,SMA携带者测试可以基于父母的SMN1和SMN2基因的拷贝数确定每个父母是否为携带者。
目前遗传携带者筛查的方法诸如SMA携带者测试费时或者昂贵,或需要多方面的生物信息学分析。此外,目前用于检测外显子缺失或重复的方法同样费时或者昂贵,或需要多方面的生物信息学分析。
药物基因组学测试(还称为药物-基因测试)是指受试者基因如何影响身体对药品的应答的研究。药物基因组学测试寻找可以确定药品是否为个体的有效治疗或个体对特定药品知否有副作用的一个或多个基因的改变或变体。
因此,需要开发出具有高灵敏度和特异性的节省成本并且有效的测试。
发明概述
本公开的一些实施方案为:
1.一种检测受试者的拷贝数变异的方法,包括:
a)获得从所述受试者分离的核酸样品;
b)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a)中获得的所述核酸样品的一条或多条靶序列以产生每条靶序列的多个靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中、在所述靶群体的每个成员中和在每个所述靶群体中是不同的;
c)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
d)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自从在步骤b)和c)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
e)对于每个靶群体,确定步骤d)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
f)对于每个对照群体,确定步骤d)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
g)对于所述一条或多条靶序列中的每条至少部分地基于步骤e)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤f)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
h)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
i)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的测试归一化靶探针捕获度量;
j)将步骤i)中获得的每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考核酸样品、使用步骤b)-g)和i)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
k)基于步骤j)中的比较和参考受试者的所述已知基因型确定所述一条或多条目的靶序列中每条靶序列的拷贝数变异。
2.如实施方案1所述的方法,其中所述核酸样品为DNA或RNA。
3.如实施方案1或2所述的方法,其中所述核酸样品为基因组DNA。
4.如实施方案1-3中任一项所述的方法,其中所述受试者为一种或多种疾病或病状的携带者筛查候选人。
5.如实施方案1-3中任一项所述的方法,其中所述受试者为以下的候选人:
a)药物基因组学测试;
b)靶向肿瘤测试;
c)外显子缺失测试;或
d)外显子重复测试。
6.如实施方案1-5中任一项所述的方法,其中每个所述靶向性多核苷酸臂的长度在18与35个碱基对之间。
7.如实施方案1-5中任一项所述的方法,其中每个所述对照多核苷酸臂的长度在18与35个碱基对之间。
8.如实施方案1-7中任一项所述的方法,其中每个所述靶向性多核苷酸臂的解链温度(melting temperature)为57℃与63℃之间。
9.如实施方案1-7中任一项所述的方法,其中每个所述对照多核苷酸臂的解链温度为57℃与63℃之间。
10.如实施方案1-9中任一项所述的方法,其中每个所述靶向性多核苷酸臂的GC含量为30%与70%之间。
11.如实施方案1-9中任一项所述的方法,其中每个所述对照多核苷酸臂的GC含量为30%与70%之间。
12.如实施方案1-11中任一项所述的方法,其中每个所述独特靶向性分子标签的长度在12与20个碱基对之间。
13.如实施方案1-11中任一项所述的方法,其中每个所述独特对照分子标签的长度在12与20个碱基对之间。
14.如实施方案1-13中任一项所述的方法,其中每个所述独特靶向性分子标签或所述对照分子标签不与所述受试者的任何基因组区大致上互补。
15.如实施方案1-13中任一项所述的方法,其中所述多核苷酸接头不与所述受试者的任一基因组区大致上互补。
16.如实施方案1-15中任一项所述的方法,其中所述多核苷酸接头的长度为30与40之间个碱基对。
17.如实施方案1-15中任一项所述的方法,其中所述多核苷酸接头的解链温度为60℃与80℃之间。
18.如实施方案1-15中任一项所述的方法,其中所述多核苷酸接头的GC含量为30%与70%之间。
19.如实施方案1-15中任一项所述的方法,其中所述多核苷酸接头包含5'-CTTCAGCTTCCCGATATCCGACGGTAGTGT-3'(SEQ ID NO:1)。
20.如实施方案1-19中任一项所述的方法,其中靶向性MIP的所述多个靶群体和对照MIP的所述多个对照群体在探针混合物中。
21.如实施方案20所述的方法,其中所述探针混合物的浓度为1-100pM之间;10-100pM之间;50-100pM之间;或10-50pM之间。
22.如实施方案1-21中任一项所述的方法,其中每个所述靶向性MIP复制子为单链环状核酸分子。
23.如实施方案22所述的方法,其中步骤b)中所提供的每个所述靶向性MIP复制子通过以下产生:
i)所述第一靶向性多核苷酸臂和所述第二靶向性多核苷酸臂分别杂交到所述核酸中分别侧接所述靶序列的所述第一区和所述第二区;以及
ii)杂交之后,使用连接/延伸混合物延伸和连接两个靶向性多核苷酸臂之间的空位区以形成单链环状核酸分子。
24.如实施方案1-23中任一项所述的方法,其中每个所述对照MIP复制子为单链环状核酸分子。
25.如实施方案24所述的方法,其中步骤b)中所提供的每个所述对照MIP复制子通过以下产生:
i)所述第一对照多核苷酸臂和所述第二对照多核苷酸臂分别杂交到所述核酸中分别侧接所述对照序列的所述第一区和所述第二区;以及
ii)杂交之后,使用连接/延伸混合物延伸和连接两个对照多核苷酸臂之间的空位区以形成单链环状核酸分子。
26.如实施方案1-25中任一项所述的方法,其中测序步骤d)包括下一代测序方法。
27.如实施方案26所述的方法,其中所述下一代测序方法包括大规模平行(massive parallel)测序方法或大规模平行短读长(short-read)测序方法。
28.如实施方案1-27中任一项所述的方法,其中所述方法包括在测序步骤d)之前进行扩增所述靶向性MIP复制子和所述对照MIP复制子的PCR反应,以产生所述靶向性MIP扩增子和所述对照MIP扩增子以用于测序。
29.如实施方案28所述的方法,其中所述PCR反应为索引PCR反应。
30.如实施方案29所述的方法,其中所述索引PCR反应将以下组件引入到每个所述靶向性MIP复制子或所述对照MIP复制子以产生带条形码的靶向性MIP扩增子或对照MIP扩增子:一对索引引物、独特样品条形码和一对测序衔接子。
31.如实施方案30所述的方法,其中所述带条形码的靶向性MIP扩增子依次包含以下组件:
第一测序衔接子–第一测序引物–第一独特靶向性分子标签–第一靶向性多核苷酸臂–捕获的靶核酸–第二靶向性多核苷酸臂–第二独特靶向性分子标签–独特样品条形码–第二测序引物–第二测序衔接子;或
其中所述带条形码的对照MIP扩增子依次包含以下组件:
第一测序衔接子–第一测序引物–第一独特对照分子标签–第一对照多核苷酸臂–捕获的对照核酸–第二对照多核苷酸臂–第二独特对照分子标签–独特样品条形码–第二测序引物–第二测序衔接子。
32.如实施方案1-31中任一项所述的方法,其中至少一条所述一条或多条靶序列和至少一条所述对照序列在相同染色体上。
33.如实施方案1-31中任一项所述的方法,其中至少一条所述一条或多条靶序列和至少一条所述对照序列在不同染色体上。
34.如实施方案1-33中任一项所述的方法,其中所述靶序列为SMN1/SMN2。
35.如实施方案34所述的方法,其中SMN1/SMN2的所述靶序列的所述第一靶向性多核苷酸引物包含序列5'-AGG AGT AAG TCT GCC AGC ATT-3'(SEQ ID NO:2)。
36.如实施方案34或35所述的方法,其中SMN1/SMN2的所述靶序列的所述第二靶向性多核苷酸引物包含序列5'-AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:3)。
37.如实施方案34-36中任一项所述的方法,其中所述多核苷酸接头包含5'-CTTCAG CTT CCC GAT ATC CGA CGG TAG TGT-3'(SEQ ID NO:1)。
38.如实施方案34-37中任一项所述的方法,其中SMN1/SMN2的所述靶序列的所述MIP包含序列5'-AGG AGT AAG TCT GCC AGC ATT NNN NNN NNN NCT TCA GCT TCC CGA TTACGG GTA CGA TCC GAC GGT AGT GTN NNN NNN NNN AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:4)。
39.如实施方案1-38中任一项所述的方法,其中所述对照序列包含选自由以下项组成的组的一个或多个基因或序列:CFTR、HEXA、HFE、HBB、BLM、IDS、IDUA、LCA5、LPL、MEFV、GBA、MPL、PEX6、PCCB、ATM、NBN、FANCC、F8、CBS、CPT1、CPT2、FKTN、G6PD、GALC、ABCC8、ASPA、MCOLN1、SPMD1、CLRN1、NEB、G6PC、TMEM216、BCKDHA、BCKDHB、DLD、IKBKAP、PCDH15、TTN、GAMT、KCNJ11、IL2RG和GLA。
40.一种检测受试者的拷贝数变异的方法,包括:
a)从所述受试者分离基因组DNA样品;
b)将所述基因组DNA样品加入到多孔板的每个孔中,其中所述多孔板的每个孔包含探针混合物,其中所述探针混合物包含靶向性分子倒置探针(MIP)的多个靶群体、对照MIP的多个对照群体和缓冲液;
其中靶向性MIP的每个靶向性群体能够扩增步骤a)中获得的所述基因组DNA样品的不同靶序列,
其中每个靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
其中对照MIP的每个对照群体能够扩增步骤a)中获得的所述基因组DNA样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
c)将所述基因组DNA样品与所述靶向性MIP的所述探针混合物一起孵育以捕获所述靶序列,并且与所述对照MIP的所述探针混合物一起孵育以捕获所述对照序列;
d)将延伸/连接混合物加入到针对所述靶向性MIP和捕获的靶序列的c)的样品中以形成靶向性MIP复制子,并且加入到针对所述对照MIP和捕获的对照序列的c)的样品中以形成对照MIP复制子,其中所述延伸/连接混合物包含聚合酶、多个dNTP、连接酶和缓冲液;
e)将核酸外切酶混合物加入到所述靶向性MIP复制子和所述对照MIP复制子中以去除过量探针或过量基因组DNA;
f)将索引PCR混合物加入到e)的样品中以增加一对索引引物,将独特样品条形码和一对测序衔接子加入到所述靶向性MIP复制子和所述对照MIP复制子中以产生靶向性MIP扩增子和对照MIP扩增子;
g)对于每个靶群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
h)对于每个对照群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的对照MIP扩增子中存在的所述独特对照分子标签数;
i)对于每条靶序列至少部分地基于步骤g)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤h)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
j)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
k)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个靶探针捕获度量,以获得每条靶序列的测试归一化靶探针捕获度量;
l)将每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考基因组DNA样品、使用步骤b)-h)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
m)基于步骤l)中的比较和参考受试者的所述已知基因型确定每条靶序列的拷贝数变异。
41.一种核酸分子,其包含序列:
5'-AGG AGT AAG TCT GCC AGC ATT NNN NNN NNN NCT TCA GCT TCC CGA TTACGG GTA CGA TCC GAC GGT AGT GTN NNN NNN NNN AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:4)。
42.如实施方案41所述的核酸分子,其中所述核酸为5'磷酸化的。
43.一种用于产生基因型聚类的方法,所述方法包括:
a)接收从多个受试者的多个亚组的多个核酸样品获得的序列数据,所述多个样品中的每个样品从不同受试者获得,并且每个亚组的特征在于受试者表现出目的基因的某一已知基因型,其中所述多个受试者中每个受试者的所述核酸样品的所述测序数据通过以下获得:
i)获得从所述受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a.i)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于从所述多个亚组中的受试者获得的每个相应样品:
i)对于每个靶群体,确定步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
ii)对于每个对照群体,确定步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
iii)对于每条靶序列至少部分地基于步骤b.i)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤b.ii)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
iv)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
v)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个靶探针捕获度量,以获得每个所述一个或多个条靶位点的归一化靶探针捕获度量;以及
c)跨从受试者的每个亚组获得的所述样品,对所述归一化靶探针捕获度量进行分组以获得所述已知基因型的所述基因型聚类。
44.如实施方案43所述的方法,其中在步骤b.iii)计算所述靶探针捕获度量包括通过所述独特靶向性分子标签数和所述独特对照分子标签数的总和归一化步骤b.i)中所确定的所述独特靶向性分子标签数。
45.如实施方案43所述的方法,其中在步骤b.iii)计算所述多个对照探针捕获度量包括对于每个对照群体通过所述独特靶向性分子标签数和所述独特对照分子标签数的总和归一化步骤b.ii)中所确定的独特对照分子标签数。
46.如实施方案43-45中任一项所述的方法,其中所述靶群体的所述靶探针捕获度量指示相对于所述多个对照群体杂交到所述不同对照序列的能力,所述靶群体杂交到所述目的靶序列的能力。
47.如实施方案43-46中任一项所述的方法,其中相应对照群体的每个对照探针捕获度量指示相对于1)所述靶群体杂交到所述靶序列的能力和2)其余对照群体杂交到相应对照序列的能力,所述相应对照群体杂交到所述对照序列之一的能力。
48.如实施方案43-47中任一项所述的方法,其中所述目的靶序列位于所述目的基因上,并且所述对照序列对应于与所述目的基因不同的一个或多个参考基因。
49.如实施方案43-48中任一项所述的方法,其中所述目的基因为运动神经元存活1(SMN1)基因和/或运动神经元存活2(SMN2)基因。
50.如实施方案43-48中任一项所述的方法,其中所述目的基因为BRCA1基因。
51.如实施方案43-48中任一项所述的方法,其中所述目的基因为DMD基因。
52.如实施方案43-51中任一项所述的方法,其中所述至少一个标准包括要求所述对照探针捕获度量高于第一阈值并且低于第二阈值。
53.如实施方案52所述的方法,其还包括至少部分地基于在步骤b.iii)计算的所述靶探针捕获度量确定所述第一阈值和所述第二阈值。
54.如实施方案53所述的方法,其中至少部分地基于在步骤b.iii)计算的所述多个对照探针捕获度量进一步确定所述第一阈值和所述第二阈值。
55.如实施方案43-54中任一项所述的方法,其还包括对于每个对照群体,跨从所述多个亚组中的每个组获得的所述样品计算在步骤b.iii)计算的所述对照探针捕获度量的变异性系数。
56.如实施方案55所述的方法,其中所述至少一个标准包括要求所述变异性系数低于阈值。
57.如实施方案43-56中任一项所述的方法,其中在步骤b.v)计算的所述因数为满足所述至少一个标准的所述对照探针捕获度量的平均值。
58.如实施方案43-57中任一项所述的方法,其中第一亚组的特征在于受试者表现出已知拷贝计数的运动神经元存活1(SMN1)基因,并且第二亚组的特征在于受试者表现出已知拷贝计数的运动神经元存活2(SMN2)基因。
59.如实施方案43-58中任一项所述的方法,其中所述已知基因型对应于已知拷贝计数的运动神经元存活1(SMN1)基因或运动神经元存活2(SMN2)基因。
60.如实施方案43-57中任一项所述的方法,其中第一亚组的特征在于受试者表现出已知计数的BRCA1基因上外显子11。
61.如实施方案43-57和60中任一项所述的方法,其中所述已知基因型对应于已知计数的BRCA1基因上外显子11。
62.如实施方案43-57中任一项所述的方法,其中第一亚组的特征在于受试者表现出已知计数的DMD基因。
63.如实施方案43-57和62中任一项所述的方法,其中所述已知基因型对应于已知计数的DMD基因。
64.如实施方案43-63中任一项所述的方法,其中靶向性MIPS的所述靶向性群体和对照MIP的所述对照群体中每个MIP的所述第一独特靶向性分子标签与所述第二独特靶向性分子标签和所述第一独特对照分子标签和所述第二独特对照分子标签随机地产生。
65.一种被配置成执行如实施方案43-64中任一项所述的方法的系统。
66.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令当在包括至少一个处理器的计算机化系统中执行时,使得所述处理器进行如实施方案43-64中任一项所述的方法的一个或多个步骤。
67.一种选择测试受试者的基因型的方法,所述方法包括:
a)接收从所述测试受试者的核酸样品获得的测序数据,其中所述核酸样品的所述测序数据通过以下获得:
i)获得从所述测试受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的多个靶向性MIP复制子,
其中所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于每个靶群体,确定步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
c)对于每个对照群体,确定步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
d)对于每个靶位点至少部分地基于步骤b)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤c)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
e)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
f)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的归一化靶探针捕获度量;
g)接收对应于正规化靶探针捕获度量的一组值,所述值是从表现出目的基因的相同已知基因型的多个第一参考受试者的核酸样品计算;
h)将步骤f)中获得的每个所述一个或多个归一化靶探针度量与步骤g)中接收的所述组值比较;以及
i)基于步骤h)中的比较确定所述测试受试者是否在每条所述一条或多条靶序列中表现出所述目的基因的所述相同已知基因型。
68.如实施方案67所述的方法,其中所述组值为第一组值,所述相同已知基因型为第一拷贝数的所述目的靶序列,所述方法还包括:
j)接收对应于正规化靶探针捕获度量的第二组值,所述值是从表现出第二拷贝数的所述目的靶序列的多个第二参考受试者的核酸样品计算;以及
k)将步骤f)中获得的所述归一化靶探针捕获度量与所述第二组值比较,其中步骤i)中的确定包括在所述测试受试者的所述第一拷贝数与所述第二拷贝数之间进行选择。
69.如实施方案68所述的方法,其中:
步骤h)中的比较包括计算步骤f)中获得的所述归一化探针捕获度量与所述第一组值之间的第一距离度量;
步骤k)中的比较包括计算步骤f)中获得的所述归一化探针捕获度量与所述第二组值之间的第二距离度量;以及
在所述第一拷贝数与所述第二拷贝数之间进行选择包括如果所述第一距离度量小于所述第二距离度量,那么选择所述第一拷贝数,以及如果所述第一距离度量超过所述第二距离度量,那么选择所述第二拷贝数。
70.如实施方案69中任一项所述的方法,其中所述第一组值和所述第二组值通过以下计算:
对于所述多个第一参考受试者和所述多个第二参考受试者中的每个受试者,重复步骤a-f);
对于所述多个第一参考受试者,将所述归一化靶探针捕获度量进行分组以获得所述第一组值;以及
对于所述多个第二参考受试者,将所述归一化靶探针捕获度量进行分组以获得所述第二组值。
71.如实施方案67-70中任一项所述的方法,其中在步骤d)计算所述靶探针捕获度量包括通过所述独特靶向性分子标签数和所述独特对照分子标签数的总和归一化步骤b)中所确定的所述独特靶向性分子标签数。
72.如实施方案67-71中任一项所述的方法,其中在步骤d)计算所述多个对照探针捕获度量包括对于每个对照群体通过所述独特靶向性分子标签和所述独特对照分子标签数的总和归一化步骤c)中所确定的所述独特对照分子标签数。
73.如实施方案67-72中任一项所述的方法,其中所述靶群体的所述靶探针捕获度量指示相对于所述多个对照群体杂交到所述对照序列的能力,所述靶群体杂交到所述目的靶序列的能力。
74.如实施方案67-73中任一项所述的方法,其中所述目的靶序列在所述目的基因上,并且所述对照序列对应于与所述目的基因不同的一个或多个参考基因。
75.如实施方案67-74中任一项所述的方法,其中所述目的基因为运动神经元存活1(SMN1)基因和/或运动神经元存活2(SMN2)基因。
76.如实施方案67-74中任一项所述的方法,其中所述目的基因为BRCA1基因。
77.如实施方案67-74中任一项所述的方法,其中所述目的基因为DMD基因。
78.如实施方案67-77中任一项所述的方法,其中所述至少一个标准包括要求所述对照探针捕获度量高于第一阈值并且低于第二阈值。
79.如实施方案78所述的方法,其还包括至少部分地基于在步骤d)计算的所述靶探针捕获度量确定所述第一阈值和所述第二阈值。
80.如实施方案79所述的方法,其中至少部分地基于在步骤d)计算的所述多个对照探针捕获度量进一步确定所述第一阈值和所述第二阈值。
81.如实施方案67-80中任一项所述的方法,其还包括对于每个对照群体,计算在步骤d)计算的所述对照探针捕获度量的变异性系数。
82.如实施方案81所述的方法,其中所述至少一个标准包括要求所述变异性系数低于阈值。
83.如实施方案67-82中任一项所述的方法,其中在步骤f)计算的所述因数为满足所述至少一个标准的所述对照探针捕获度量的平均值。
84.如实施方案67-83中任一项所述的方法,其中所述目的靶序列在运动神经元存活1(SMN1)基因和/或运动神经元存活2(SMN2)基因上。
85.如实施方案84所述的方法,其中所述相同已知基因型对应于已知拷贝计数的SMN1基因或SMN2基因。
86.如实施方案67-83中任一项所述的方法,其中所述目的靶序列在BRCA1基因的外显子11上。
87.如实施方案86所述的方法,其中所述相同已知基因型对应于已知拷贝计数的BRCA1基因的外显子11。
88.如实施方案67-83中任一项所述的方法,其中所述目的靶序列在DMD基因上。
89.如实施方案88所述的方法,其中所述相同已知基因型对应于已知拷贝计数的DMD基因。
90.一种被配置成执行如实施方案67-89中任一项所述的方法的系统。
91.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令当在包括至少一个处理器的计算机化系统中执行时,使得所述处理器进行如实施方案67-89中任一项所述的方法的一个或多个步骤。
92.如实施方案1-40、43-64和67-89中任一项所述的方法,其中所述受试者或所述测试受试者为一种或多种疾病或病状的携带者筛查候选人。
93.如实施方案1-40、43-64和67-89中任一项所述的方法,其中所述受试者或所述测试受试者为以下候选人:
a)药物基因组学测试;
b)靶向肿瘤测试;
c)外显子缺失测试;或
d)外显子重复测试。
94.如实施方案1-40、43-64、67-89、92和93中任一项所述的方法,其中所述方法用于检测a)单核苷酸多态性;或b)外显子缺失;或c)外显子重复。
95.如实施方案1-40、43-64、67-89和92-94中任一项所述的方法,其中所述一条或多条靶序列为目的基因中的一个或多个缺失外显子。
96.如实施方案1-40、43-64、67-89和92-94中任一项所述的方法,其中所述一条或多条靶序列为目的基因中的一个或多个重复外显子。
97.如实施方案95或96所述的方法,其中所述目的基因为BRCA1或BRCA2基因。
98.如实施方案95或96所述的方法,其中所述目的基因为DMD基因。
99.如实施方案97所述的方法,其中所述靶向性MIP包含序列:5'-GTCTGAATCAAATGCCAAAGTNNNNNNNNNNCTTCAGCTTCCCGATTACGGGTACGATCCGACGGTAGTGTNNNNNNNNNNTCCCCTGTGTGAGAGAAAAGA-3'(SEQ ID NO:9)。
100.如实施方案98所述的方法,其中所述靶向性MIP选自表3。
101.一种核酸分子,其包含选自表3的序列。
102.一种核酸分子,其包含序列:5'-GTCTGAATCAAATGCCAAAGTNNNNNNNNNNCTTCAGCTTCCCGATTACGGGTACGATCCGACGGTAGTGTNNNNNNNNNNTCCCCTGTGTGAGAGAAAAGA-3'(SEQ IDNO:9)。
附图简述
图1显示本公开方法的一些实施方案中使用的分子倒置探针(MIP)的序列(例如,SMN1/SMN2中的特定靶位点或序列)。MIP依次包含以下组件:第一靶向性多核苷酸臂、第一独特靶向性分子标签、多核苷酸接头、第二独特靶向性分子标签和第二靶向性多核苷酸臂。每个MIP中的第一靶向性多核苷酸臂和第二靶向性多核苷酸臂与核酸中分别侧接目的位点或序列(靶位点或序列,或对照位点或序列)的第一区和第二区大致上互补。独特分子标签为随机多核苷酸序列。在一些实施方案中,例如,当靶向性多核苷酸臂杂交到核酸中分别侧接目的位点的第一区和第二区时,“大致上互补”是指两个臂中0个错配或仅一个臂中至多1个错配。在其他实施方案中,“大致上互补”是指在两个臂中至多少量错配,诸如1、2、3、3、5或任何其他合适数目。
图2为根据本公开的一些实施方案的用于确定拷贝数变异的代表性过程流程图。
图3为用于执行本文所述的任一过程的计算装置的框图。
图4为根据说明性实施方案的用于确定测试受试者的拷贝计数值的代表性过程流程图。
图5为根据说明性实施方案的用于形成基因型聚类的代表性过程流程图。
图6为根据说明性实施方案的用于与从测试受试者评估的测试度量比较的六个说明性基因型聚类的图。
图7为用于处理样品并且实践本公开的一些实施方案的代表性过程流程图。
图8为根据说明性实施方案的MIP和捕获在MIP的两条靶向性多核苷酸臂之间的DNA的图解。
图9为根据说明性实施方案的示例性MIP和捕获的DNA的图解。
图10为根据说明性实施方案的用于估计BRCA1外显子11的拷贝数的测定的结果的箱线图。
图11-14为根据说明性实施方案的平均探针捕获度量对于DMD基因中表现出重复或缺失的79个外显子的图。
发明详述
本公开提供用于确定有需要的受试者的特别是拷贝数变异、染色体异常或微缺失的系统和方法。在一些实施方案中,受试者为疾病或病状携带者筛查的候选人。在一些实施方案中,受试者为药物基因组学测试的候选人。在一些实施方案中,受试者为靶向肿瘤测试(例如,靶向肿瘤测序或靶向肿瘤分析)的候选人。在一些实施方案中,受试者为儿科诊断测试(诸如杜氏肌肉营养不良症(Duchenne’s muscular dystrophy)的儿科诊断测试)的候选人。
本公开的实施方案涉及能够使用环状捕获探针(例如,分子倒置探针)和短读长测序技术在基因组中任何具体目的靶向位点或序列,或目的靶向基因,或目的靶向序列进行准确并且稳健的拷贝计数的系统和方法。本公开的实施方案的系统和方法使人获得基因组中存在的任何目的靶向位点或序列,或目的靶向基因,或目的靶向序列的拷贝数的准确表示。本公开的实施方案的系统和方法可用于在携带者筛查多种疾病(例如,脊髓性肌肉萎缩)或风险因素的情况下确定目的靶向位点或序列,或目的靶向基因,或目的靶向序列的拷贝计数。
本公开的实施方案的系统和方法还可用于拷贝计数变异或拷贝数变异为重要的变量的其他基因组应用中,诸如确定外显子缺失、外显子重复、药物基因组学测试或靶向肿瘤测试(例如,测序)。
本文所述的实施方案的系统和方法可用于检查或确定引起疾病的基因中的外显子缺失或重复。例如,本公开的实施方案的系统和方法可用于确定BRCA1和BRCA2中的缺失,其中大的外显子缺失说明显著百分比的所有成因变体。本公开的实施方案的系统和方法还可用于确定或检查与杜氏和贝克肌肉营养不良相关联的DMD基因中的外显子缺失或重复。
本公开的实施方案的系统和方法还适用于药物基因组学测试。例如,本公开的实施方案的系统和方法可用于确定p450酶CYP2D6的拷贝计数,其中约5%的群体具有此基因的重复,使得它们更容易将某些药物诸如可待因代谢。
本公开的实施方案的系统和方法还适用于靶向肿瘤测试。例如,本公开的实施方案的系统和方法可用于确定已知对于肿瘤进展来说重要的某些基因诸如MYC、MYCN、RET、EGFR等的重复。
本公开的实施方案的系统和方法提供一种简单并且节省成本的用于在测序测定的情况下确定拷贝计数的方法。在单一测定中可以共同地并且准确地评定许多目的变体的拷贝计数和序列变异。本公开的实施方案的系统和方法使单一位点或序列的测序信息与拷贝数变异信息组合,这样产生更简单并且更节省成本的工作流程。本公开的实施方案的系统和方法使用每个探针上的独特标识符(例如,独特分子标签)确定特别是最大似然估计(k),最大似然估计实现估计探针捕获效率,从而增加准确率并且减少对外来测序的需要。本公开的实施方案的系统和方法使用环状捕获探针,所述探针允许在最小干扰或交叉测定反应的情况下在单一多路复用(multiplexed)测定中组合多个额外探针。将来自若干探针和它们的独特读长的信息组合大大减少系统的误差并且改善了效率。
在一些实施方案中,本公开的实施方案的系统和方法对独特分子标签数进行计数并且使用所述计数估计探针捕获效率并且进一步确定目的基因或位点或序列的拷贝计数。当与计数测序读长进行比较时,计数独特分子标签数提供原始核酸样品中每条序列的相对丰度的更准确的描绘。
为了能够充分地理解本文所述的公开内容,阐述以下详述。
除非本文另外定义,否则本申请中使用的科学术语和技术术语将具有由本公开所属领域的普通技术人员通常所理解的含义。一般来讲,与本文所述的细胞和组织培养、分子生物学、细胞生物学、癌症生物学、神经生物学、神经化学、病毒学、免疫学、微生物学、遗传学、蛋白质和核酸化学、化学和药理学结合使用的命名以及其技术是本领域中熟知并且普遍使用的命名和技术。本文所述的每个实施方案可以单独进行或与本公开的一个或多个其他实施方案组合进行。
除非另外指示,否则本公开的各种实施方案的方法和技术一般是根据本领域中熟知并且如本说明书通篇引用和论述的各种一般性和更特定参考文献中所述的方法来执行。参见例如Motulsky,“Intuitive Biostatistics”,Oxford University Press,Inc.(1995);Lodish等人,“Molecular Cell Biology,第4版”,W.H.Freeman&Co.,New York(2000);Griffiths等人,“Introduction to Genetic Analysis,第7版”,W.H.Freeman&Co.,N.Y.(1999);Gilbert等人,“Developmental Biology,第6版”,Sinauer Associates,Inc.,Sunderland,MA(2000)。
本文使用的化学术语是根据本领域中的常规用法来使用,如“The McGraw-HillDictionary of Chemical Terms”,Parker S.编,McGraw-Hill,San Francisco,C.A.(1985)中所例示。
上文的所有内容以及本申请中提及的任何其他出版物、专利和公布的专利申请都明确地以引用方式并入本文。如有矛盾,以包括具体定义在内的本说明书为准。
在本说明书通篇,词语“包括/包含(comprise)”或变型(诸如“包括/包含(comprises)”或“包括/包含(comprising)”)应理解为暗示包括所述整体(或组件)或整体(或组件)组,而非排除任何其他整体(或组件)或整体(或组件)组。
除非上下文另外明确规定,否则单数形式“一个”、“一种”和“所述”包括复数。
术语“包括(including)”用于意指“包括但不限于”。“包括”和“包括但不限于”可互换使用。
为了进一步定义本公开,本文提供以下术语和定义。
定义
如本文所用,术语“拷贝数变异”、“CNV”、“拷贝数变体”或“基因拷贝数变体”是指测试样品(例如,从携带者筛查候选分离或来源或获得的核酸样品)中存在的核酸序列的拷贝数与参考样品(例如,从表现出已知基因型的参考受试者分离或来源或获得的核酸样品)中存在的核酸序列的拷贝数相比的变异。在一些实施方案中,核酸序列为1kb或更大。在一些实施方案中,核酸序列为全染色体或其显著部分。在一些实施方案中,通过将测试样品中目的序列与目的序列的预期水平比较鉴别拷贝数差异。例如,将测试样品中目的序列的水平与参考样品中存在的目的序列水平比较。在一些实施方案中,拷贝数变异是指基因组DNA的一种结构变异形式,其产生在DNA的一个或多个节段的拷贝数目方面具有异常或(对于某些基因来说)正常变异的细胞。
在一些实施方案中,拷贝数变异(“CNV”)是指基因组的相对大的区在某些染色体上缺失(少于正常数目)或重复(多于正常数目)。例如,通常具有次序为A-B-C-D-E的节段的染色体可能改为具有节段A-B-C-C-D-E(“C”重复)或A-B-D-E(“C”缺失)。这种变异占人基因组DNA的大约12%,并且每个变异的大小的范围可为约500个碱基对(500个核苷酸碱基)至数兆碱基(例如,5,000至5百万之间个碱基)。在一些实施方案中,拷贝数变异是指基因组的相对小的区在某些染色体上缺失(例如,微缺失)或重复。在一些实施方案中,拷贝数变异是指由存在仅影响单一核苷酸碱基的单核苷酸多态性(SNP)所致的遗传变体。在一些实施方案中,拷贝数变体/变异包括缺失(包括微缺失)、插入(包括微插入)、重复、增殖、倒置、易位和复杂的多位点变体。在一些实施方案中,拷贝数变体/变异涵盖染色体非整倍性和部分非整倍性。
在一些实施方案中,拷贝数变异为胎儿拷贝数变异。胎儿拷贝数变异常常为胎儿基因组中的拷贝数变异。在一些实施方案中,拷贝数变异为母方和/或胎儿拷贝数变异。在某些实施方案中,母方和/或胎儿拷贝数变异为妊娠女性(例如,怀孕的女性受试者)、已生产的女性受试者或能够怀孕的女性的基因组内的拷贝数变异。
拷贝数变异可为杂合性拷贝数变异,其中变异(例如,重复或缺失)存在于基因组的一个等位基因上。拷贝数变异可为纯合性拷贝数变异,其中变异存在于基因组的两个等位基因上。在一些实施方案中,拷贝数变异为杂合性或纯合性胎儿拷贝数变异。在一些实施方案中,拷贝数变异为杂合性或纯合性母方和/或胎儿拷贝数变异。拷贝数变异有时存在于母方基因组和胎儿基因组、母方基因组但不是胎儿基因组或胎儿基因组但不是母方基因组中。
如本文所用,术语“非整倍性”是指特征在于染色体数目的异常变异的染色体异常,例如,染色体数目不是染色体的单倍体数的确切倍数。例如,整倍体个体的染色体数应等于2n,其中n为单倍体个体的染色体数。在人中,单倍体数为23。因此,二倍体个体应具有46条染色体。非整倍体个体可含有染色体的额外拷贝(所述染色体的三体性)或缺乏染色体的拷贝(所述染色体的单体性)。异常变异是相对于每个单独的染色体。因此,具有三体性和单体性两者的个体尽管具有46条染色体但为非整倍体。非整倍性疾病或病状的实例包括但不限于唐氏综合征(Down syndrome)(21号染色体的三体性)、爱德华氏综合征(Edwardssyndrome)(18号染色体的三体性)、帕陶综合征(Patau syndrome)(13号染色体的三体性)、特纳综合征(Turner syndrome)(女性X染色体的单体性)和克兰费尔特综合征(Klinefelter syndrome)(男性X染色体的额外拷贝)。另外,非非整倍体染色体异常包括易位(其中染色体的区段转移到另一染色体)和缺失(其中一段染色体丢失)和其他类型的染色体损伤。
如本文所用,术语“受试者”和“患者”是指任何动物,诸如狗、猫、鸟、牲畜和具体来说哺乳动物,并且优选为人。术语“参考受试者”和“参考患者”是指表现出已知基因型(例如,已知拷贝数的目的位点或目的基因或目的序列)的任何受试者或患者。术语“测试受试者”、“测试患者”或“候选人”或“候选受试者”、“靶向受试者”或“靶向个体”是指表现出已知基因型(例如,已知拷贝数的目的位点或目的基因或目的序列)的任何受试者或患者或个体。
如本文所用,术语“多核苷酸”、“核酸”和“核酸分子”可互换使用并且是指DNA分子(例如,cDNA或基因组DNA)、RNA分子(例如,mRNA)、DNA-RNA杂交体和使用核苷酸类似物产生的DNA或RNA的类似物。核酸分子可为核苷酸、寡核苷酸、双链DNA、单链DNA、多链DNA、互补DNA、基因组DNA、非编码DNA、信使RNA(mRNA)、微小RNA(miRNA)、核仁小RNA(snoRNA)、核糖体(rRNA)、转移RNA(tRNA)、小干扰RNA(siRNA)、不均一核RNA(hnRNA)或小发卡RNA(shRNA)。
如本文所用,术语“样品”是指通常来源于生物流体、细胞、组织、器官或有机体的样品,其包括包含待筛查拷贝数变异(包括非整倍性或微缺失)的至少一条核酸序列的核酸或核酸混合物。在一些实施方案中,样品包含怀疑拷贝数已经发生变异的至少一条核酸序列。所述样品包括但不限于痰/唾液、羊水、血液、血液级分或细针活组织检查样品(例如,手术活组织检查、细针活组织检查等)、尿液、腹膜液、胸膜液等等。尽管样品常常取自人受试者(例如,疾病或病状携带者筛查的候选人),但是测定可用于检测任何哺乳动物样品中的拷贝数变异(CNV),包括但不限于狗、猫、山羊、绵羊、牛、猪等。样品可如从生物来源获得后直接使用或在预处理以改变样品的特征之后使用。例如,所述预处理可包括从血液制备血浆、稀释粘性流体等。预处理的方法还可涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的加入、溶胞等。如果对样品采用所述预处理方法,那么所述预处理方法通常是使得目的核酸在测试样品中保持在优选地与未处理的样品(例如,即未经受任何所述预处理方法的样品)中的目的核酸成比例的浓度。取决于所使用的样品的类型,可使用包括但不限于以下的方法执行另外的处理和/或纯化步骤以获得所需纯度或大小的核酸片段:超声处理、雾化、凝胶纯化、PCR纯化系统、核酸酶裂解、特定大小捕获或排阻、靶向捕获或这些方法的组合。任选地,可在进一步分析之前从样品中分离、或来源、或获得无细胞DNA。在一些实施方案中,样品来自待通过本公开的实施方案的系统和方法确定拷贝数变异的受试者,还称为“测试样品”。
在一些实施方案中,样品来自表现出已知基因组类型或拷贝数变异的受试者,还称为参考样品。参考样品是指包含待与测试样品中核酸比较的以已知拷贝数存在的核酸的混合物。在一些实施方案中,参考样品为对于目的序列来说正常的样品,即不是非整倍体。在一些实施方案中,参考样品为对于目的序列来说异常的样品。在一些实施方案中,参考样品用于鉴别一个或多个归一化目的位点或序列,或目的基因,或目的染色体。
如本文所用,术语“MIP”是指分子倒置探针(或环状捕获探针)。分子倒置探针(或环状捕获探针)为核酸分子,其包含一对独特多核苷酸臂、一个或多个独特分子标签(或独特分子标识符)和多核苷酸接头(例如,通用骨架接头)。参见例如图1。在一些实施方案中,MIP可包含多于一个独特分子标签,诸如两个独特分子标签、三个独特分子标签或更多个。在一些实施方案中,每个MIP中的独特多核苷酸臂位于MIP的5'和3'端,而独特分子标签和多核苷酸接头位于MIP的5'和3'端内部。例如,本公开的一些实施例中使用的MIP依次包含以下组件:第一独特多核苷酸臂-第一独特分子标签-多核苷酸接头-第二独特分子标签-第二独特多核苷酸臂。在一些实施方案中,MIP为5'磷酸化单链核酸(例如,DNA)分子。
独特分子标签可为可检测且可并入到或连接到核酸(例如,多核苷酸)的任何标签并且允许包含所述标签的核酸的检测和/或鉴别。在一些实施方案中,所述标签在测序期间并入到或连接到核酸(例如,通过聚合酶)。标签的非限制性实例包括核酸标签、核酸索引或条形码、放射标记物(例如,同位素)、金属标记物、荧光标记物、化学发光标记物、磷光标记物、荧光团淬灭剂、染料、蛋白质(例如,酶、抗体或其部分、接头、结合对的成员)等或其组合。在一些实施方案中,具体来说测序实施方案,标签(例如,分子标签)为独特、已知和/或可鉴别的核苷酸或核苷酸类似物(例如,包含核酸类似物、糖或一个至三个磷酸酯基团的核苷酸)序列。在一些实施方案中,标签为六个或更多个连续的核苷酸。多种基于荧光团的标签可用于多种不同的激发和发射光谱。任何合适类型和/或数目的荧光团均可用作标签。在一些实施方案中,本文所述的方法(例如,核酸检测和/测序方法)中使用1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、20个或更多个、30个或更多个、50个或更多个、100个或更多个、500个或更多个、1000个或更多个、10,000个或更多个、100,000个或更多个不同的标签。在一些实施方案中,将一种或两种类型的标签(例如,不同的荧光标记物)连接到库中的每个核酸。在一些实施方案中,使用染色体特异性标签使染色体计数更快或更有效。标签的检测和/或定量可通过合适的方法、机器或设备执行,其非限制性实例包括流式细胞术、定量聚合酶链反应(qPCR)、凝胶电泳、发光计、荧光计、分光光度计、合适的基因芯片或微阵列分析、蛋白质印迹、质谱法、色谱法、细胞荧光分析、荧光显微镜法、合适的荧光或数字成象法、共聚焦激光扫描显微镜法、激光扫描细胞术、亲和色谱法、手动分批模式分离、电场悬浮、合适的核酸测序方法和/或核酸测序设备等等和其组合。
在MIP中,独特多核苷酸被设计成紧接着基因组核酸样品中的特定靶序列(或位点)的上游和下游杂交。独特分子标签为随机产生的短核苷酸序列。在一些实施方案中,独特分子标签不杂交到位于基因组核酸片段上或基因组核酸样品中的任何序列或位点。在一些实施方案中,MIP中的多核苷酸接头(或骨架接头)在本公开的实施方案中使用的所有MIP中是通用的。
在一些实施方案中,将MIP引入到来源于测试受试者(或参考受试者)的核酸片段中以执行位于核酸样品(例如,基因组DNA)上的靶序列或位点(或对照序列或位点)的捕获。在一些实施方案中,片段化帮助分子倒置探针捕获靶核酸。在一些实施方案中,例如,当核酸样品由无细胞核酸构成时,片段化可能对于改善分子倒置探针捕获靶核酸来说不是必要的。如本文更详细地所述,在捕获目的靶序列(例如,基因座)之后,可使捕获的靶标经受酶促空位填充和连接步骤,使得将靶序列的拷贝并入到类似圆环的结构中。在一些实施方案中,MIP对核酸片段上靶序列的捕获效率可以通过延长杂交和空位填充孵育期来改善。(参见例如Turner E H等人,Nat Methods.2009年4月6:1-2.)。
在一些实施方案中,根据本公开用于捕获靶位点或靶序列的MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂。
在一些实施方案中,本公开中用于捕获对照位点或对照序列的MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂。
MIP技术可用于检测或扩增复杂混合物中的具体核酸序列。使用MIP技术的优点之一在于它高度多路复用的能力,其允许数千条靶序列在含有数千个MIP的单一反应中被捕获。MIP技术的各种方面描述于例如Hardenbol等人,“Multiplexed genotyping withsequence-tagged molecular inversion probes,”Nature Biotechnology,21(6):673-678(2003);Hardenbol等人,“Highly multiplexed molecular inversion probegenotyping:Over 10,000targeted SNPs genotyped in a single tube assay,”GenomeResearch,15:269-275(2005);Burmester等人,“DMET microarray technology forpharmacogenomics-based personalized medicine,”Methods in Molecular Biology,632:99-124(2010);Sissung等人,“Clinical pharmacology and pharmacogenetics in agenomics era:the DMET platform,”Pharmacogenomics,11(1):89-103(2010);Deeken,“The Affymetrix DMET platform and pharmacogenetics in drug development,”Current Opinion in Molecular Therapeutics,11(3):260-268(2009);Wang等人,“Highquality copy number and genotype data from FFPE samples using MolecularInversion Probe(MIP)microarrays,”BMC Medical Genomics,2:8(2009);Wang等人,“Analysis of molecular inversion probe performance for allele copy numberdetermination,”Genome Biology,8(11):R246(2007);Ji等人,“Molecular inversionprobe analysis of gene copy alternations reveals distinct categories ofcolorectal carcinoma,”Cancer Research,66(16):7910-7919(2006);以及Wang等人,“Allele quantification using molecular inversion probes(MIP),”Nucleic AcidsResearch,33(21):e183(2005),所述参考文献中的每个均出于所有目的以全文引用方式并入本文。还参见美国专利号6,858,412;5,817,921;6,558,928;7,320,860;7,351,528;5,866,337;6,027,889和6,852,487,所述专利中的每个均出于所有目的以全文引用方式并入本文。
MIP技术先前已经成功地应用于其他研究领域,包括癌症中生物标记物的新颖鉴别和细分。参见例如Brewster等人,“Copy number imbalances between screen-andsymptom-detected breast cancers and impact on disease-free survival,”CancerPrevention Research,4(10):1609-1616(2011);Geiersbach等人,“Unknown partner forUSP6and unusual SS18rearrangement detected by fluorescence in situhybridization in a solid aneurysmal bone cyst,”Cancer Genetics,204(4):195-202(2011);Schiffman等人,“Oncogenic BRAF mutation with CDKN2A inactivation ischaracteristic of a subset of pediatric malignant astrocytomas,”CancerResearch,70(2):512-519(2010);Schiffman等人,“Molecular inversion probes revealpatterns of 9p21deletion and copy number aberrations in childhood leukemia,”Cancer Genetics and Cytogenetics,193(1):9-18(2009);Press等人,“Ovariancarcinomas with genetic and epigenetic BRCA1loss have distinct molecularabnormalities,”BMC Cancer,8:17(2008);以及Deeken等人,“A pharmacogenetic studyof docetaxel and thalidomide in patients with castration-resistant prostatecancer using the DMET genotyping platform,”Pharmacogenomics,10(3):191-199(2009),所述参考文献中的每个均出于所有目的以全文引用方式并入本文。
MIP技术还已经应用于新的药物相关的生物标记物的鉴别。参见例如Caldwell等人,“CYP4F2genetic variant alters required warfarin dose,”Blood,111(8):4106-4112(2008);以及McDonald等人,“CYP4F2Is a Vitamin K1Oxidase:An Explanation forAltered Warfarin Dose in Carriers of the V433M Variant,”MolecularPharmacology,75:1337-1346(2009),所述参考文献中的每个均出于所有目的以全文引用方式并入本文。其他MIP应用包括药物开发和安全性研究。参见例如Mega等人,“CytochromeP-450Polymorphisms and Response to Clopidogrel,”New England Journal ofMedicine,360(4):354-362(2009);Dumaual等人,“Comprehensive assessment ofmetabolic enzyme and transporter genes using the Affymetrix TargetedGenotyping System,”Pharmacogenomics,8(3):293-305(2007);以及Daly等人,“Multiplex assay for comprehensive genotyping of genes involved in drugmetabolism,excretion,and transport,”Clinical Chemistry,53(7):1222-1230(2007),所述参考文献中的每个均出于所有目的以全文引用方式并入本文。MIP技术的进一步应用包括基因型和表型数据库化。参见例如Man等人,“Genetic Variation in MetabolizingEnzyme and Transporter Genes:Comprehensive Assessment in 3Major East AsianSubpopulations With Comparison to Caucasians and Africans,”Journal ofClinical Pharmacology,50(8):929-940(2010),所述参考文献出于所有目的以全文引用方式并入本文。
如本文所用,术语“捕获(capture或capturing)”是指分子倒置探针与其对应靶向性位点之间的结合和杂交。在一些实施方案中,在捕获时,产生或形成环状复制子或MIP复制子。在一些实施方案中,靶向性位点为缺失(例如,一个或多个外显子的部分或全部缺失)。在一些实施方案中,靶MIP被设计成与预期靶缺失所在的天然存在的(例如,野生型)目的基因组区结合或杂交。靶MIP被设计成不与表现出缺失的基因组区结合。在这些实施方案中,预期发不生靶MIP与靶缺失位点之间的结合或杂交。所述结合或杂交的不存在指示靶缺失的存在。在这些实施方案中,短语“捕获靶位点”或短语“捕获靶序列”是指通过检测所述结合或杂交的不存在来检测靶缺失。
如本文所用,术语“MIP复制子”或“环状复制子”是指通过捕获反应(例如,MIP与它靶向序列之间的结合或杂交反应)产生的环状核酸分子。在一些实施方案中,MIP复制子为单链环状核酸分子。在一些实施方案中,靶向性MIP捕获或杂交到靶序列或位点。在捕获反应或杂交之后,引入连接/延伸混合物以延伸并连接两个靶向性多核苷酸臂之间的空位区,从而形成单链环状核苷酸分子,即靶向性MIP复制子。在一些实施方案中,对照MIP捕获或杂交到对照序列或位点。在捕获反应或杂交之后,引入连接/延伸混合物以延伸并连接两个对照多核苷酸臂之间的空位区,从而形成单链环状核苷酸分子,即对照MIP复制子。可以通过聚合酶链反应(PCR)扩增MIP复制子以产生多个靶向性MIP扩增子,所述靶向性MIP扩增子为双链核苷酸分子。
如本文所用,术语“扩增子”是指通过扩增反应(例如,PCR反应)产生的核酸。在一些实施方案中,扩增子为单链核酸分子。在一些实施方案中,扩增子为双链核酸分子。在一些实施方案中,使用常规技术扩增靶向性MIP复制子以产生多个靶向性MIP扩增子,所述靶向性MIP扩增子为双链核苷酸分子。在一些实施方案中,使用常规技术扩增对照MIP复制子以产生多个对照MIP扩增子,所述对照MIP扩增子为双链核苷酸分子。
如本文所用,术语“测序”在广泛的意义上使用并且可以指本领域中已知的允许鉴别核酸的至少一部分(包括但不限于延伸产物或载体插入物的至少一部分)中至少一些连续核苷酸的顺序的任何技术。在一些实施方案中,测序允许区分不同靶序列之间的序列差异。示例性测序技术包括靶向测序、单分子实时测序、基于电子显微镜的测序、晶体管介导的测序、直接测序、随机鸟枪测序(random shotgun sequencing)、桑格双脱氧终止测序(Sanger dideoxy termination sequencing)、靶向测序、外显子测序、全基因组测序、杂交测序、焦磷酸测序(pyrosequencing)、毛细管电泳、凝胶电泳、双重测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行签名测序、乳液PCR、低变性温度共扩增PCR(co-amplification at lower denaturation temperature-PCR)(COLD-PCR)、多重PCR、通过可逆染料终止剂的测序、双端测序(paired-end sequencing)、近期测序(near-termsequencing)、核酸外切酶测序、边连接边测序(sequencing by ligation)、短读长测序、单分子测序、边合成边测序(sequencing-by-synthesis)、实时测序、可逆终止子测序(reverse-terminator sequencing)、离子半导体测序、纳米球测序、纳米孔测序、454测序、Solexa基因组分析仪测序(Solexa Genome Analyzer sequencing)、miSeq(Illumina)、HiSeq 2000(Illumina)、HiSeq 2500(Illumina)、Illumina基因组分析仪(Illumina)、IonTorrent PGMTM(Life Technologies)、MinIONTM(Oxford Nanopore Technologies)、实时SMRTTM技术(Pacific Biosciences)、探针-锚定分子连接(cPALTM)(Complete Genomics/BGI)、测序、MS-PET测序、质谱法和其组合。在一些实施方案中,测序包括使用例如但不限于以下的仪器检测测序产物:ABI377 DNA测序仪;ABI310、3100、3100-Avant、3730或373OxI遗传分析仪;ABI3700 DNA分析仪或AppliedBiosystems SOLiDTM系统(所有均来自Applied Biosystems);基因组测序仪20系统(RocheApplied Science);或质谱仪。在某些实施方案中,测序包括乳液PCR。在某些实施方案中,测序包括高通量测序技术,例如但不限于大规模平行签名测序(MPSS)。
本领域的普通技术人员应当理解,可以将本文所述的组合物和方法调适和修改成适于正在处理的应用,并且本文所述的组合物和方法可用于其他合适的应用,并且此类其他添加和修改不应脱离其范畴。
本公开将根据以下实验细节得到更好的理解。但是,本领域的技术人员将易于理解,所讨论的具体方法和结果仅说明如以下更充分描述的本公开的各种实施方案。
本公开的方法
在一个方面中,本公开提供一种检测有需要的受试者的拷贝数变异(例如,单核苷酸多态性,或外显子缺失,或外显子重复)的方法。在一些实施方案中,所述方法包括:
a)获得从所述受试者分离的核酸样品;
b)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获或检测在步骤a)中获得的所述核酸样品的一条或多条靶序列(例如,包含单核苷酸多态性,或一个或多个缺失外显子,或一个或多个重复外显子的基因组区)以产生每条靶序列的多个靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中、在所述靶群体的每个成员中和在每个所述靶群体中是不同的;
c)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
d)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤b)和c)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
e)对于每个靶群体,确定步骤d)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
f)对于每个对照群体,确定步骤d)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
g)对于每条所述一条或多条靶序列至少部分地基于步骤e)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤f)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
h)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
i)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的测试归一化靶探针捕获度量;
j)将步骤i)中获得的每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考核酸样品、使用步骤b)-g)和i)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
k)基于步骤j)中的比较和参考受试者的所述已知基因型确定所述一条或多条目的靶序列中每条的拷贝数变异。
在另一个方面中,本公开提供一种检测有需要的受试者的拷贝数变异(例如,单核苷酸多态性,或外显子缺失,或外显子重复)的方法。在一些实施方案中,所述方法包括:
a)获得从所述受试者分离的核酸样品;
b)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获或检测在步骤a)中获得的所述核酸样品的一条或多条靶序列(例如,包含单核苷酸多态性,或一个或多个缺失外显子,或一个或多个重复外显子的基因组区)以产生每条靶序列的多个靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中、在所述靶群体的每个成员中和在每个所述靶群体中是不同的;
c)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
d)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤b)和c)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
e)对于每个靶群体,基于步骤d)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数确定靶向性MIP的靶捕获事件数;
f)对于每个对照群体,基于步骤d)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数确定对照MIP的对照捕获事件数;
g)对于每条所述一条或多条靶序列至少部分地基于步骤e)中确定的所述靶捕获事件数计算靶探针捕获度量,并且至少部分地基于步骤f)中确定的所述对照捕获事件数计算多个对照探针捕获度量;
h)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
i)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的测试归一化靶探针捕获度量;
j)将步骤i)中获得的每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考核酸样品、使用步骤b)-g)和i)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
k)基于步骤j)中的比较和参考受试者的所述已知基因型确定所述一条或多条目的靶序列中每条的拷贝数变异。
在另一个方面中,本公开提供一种检测受试者的拷贝数变异(例如,单核苷酸多态性,或外显子缺失,或外显子重复)的方法,所述方法包括:
a)从所述受试者分离基因组DNA样品;
b)将所述基因组DNA样品加入到多孔板的每个孔中,其中所述多孔板的每个孔包含探针混合物,其中所述探针混合物包含靶向性分子倒置探针(MIP)的多个靶群体、对照MIP的多个对照群体和缓冲液;
其中靶向性MIP的每个靶向性群体能够扩增(或检测)步骤a)中获得的基因组DNA样品中不同的靶序列(例如,包含单核苷酸多态性,或一个或多个缺失外显子,或一个或多个重复外显子的基因组区),
其中每个靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
其中对照MIP的每个对照群体能够扩增步骤a)中获得的所述基因组DNA样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
c)将所述基因组DNA样品与所述靶向性MIP的所述探针混合物一起孵育以捕获所述靶序列,并且与所述对照MIP的所述探针混合物一起孵育以捕获所述对照序列;
d)将延伸/连接混合物加入到针对所述靶向性MIP和捕获的靶序列的c)的样品中以形成靶向性MIP复制子,并且加入到针对所述对照MIP和捕获的对照序列的c)的样品中以形成对照MIP复制子,其中所述延伸/连接混合物包含聚合酶、多个dNTP、连接酶和缓冲液;
e)将核酸外切酶混合物加入到所述靶向性MIP复制子和所述对照MIP复制子中以去除过量探针或过量基因组DNA;
f)将索引PCR混合物加入到e)的样品中以增加一对索引引物,将独特样品条形码和一对测序衔接子加入到所述靶向性MIP复制子和所述对照MIP复制子中以产生靶向性MIP扩增子和对照MIP扩增子;
g)对于每个靶群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
h)对于每个对照群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的对照MIP扩增子中存在的所述独特对照分子标签数;
i)对于每条靶序列至少部分地基于步骤g)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤h)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
j)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
k)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个靶探针捕获度量,以获得每条靶序列的测试归一化靶探针捕获度量;
l)将每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考基因组DNA样品、使用步骤b)-h)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
m)基于步骤l)中的比较和参考受试者的所述已知基因型确定每条靶序列的拷贝数变异。
在另一个方面中,本公开提供一种检测受试者的拷贝数变异(例如,单核苷酸多态性,或外显子缺失,或外显子重复)的方法,所述方法包括:
a)从所述受试者分离基因组DNA样品;
b)将所述基因组DNA样品加入到多孔板的每个孔中,其中所述多孔板的每个孔包含探针混合物,其中所述探针混合物包含靶向性分子倒置探针(MIP)的多个靶群体、对照MIP的多个对照群体和缓冲液;
其中靶向性MIP的每个靶向性群体能够扩增(或检测)步骤a)中获得的基因组DNA样品中不同的靶序列(例如,包含单核苷酸多态性,或一个或多个缺失外显子,或一个或多个重复外显子的基因组区),
其中每个靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
其中对照MIP的每个对照群体能够扩增步骤a)中获得的所述基因组DNA样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
c)将所述基因组DNA样品与所述靶向性MIP的所述探针混合物一起孵育以捕获所述靶序列,并且与所述对照MIP的所述探针混合物一起孵育以捕获所述对照序列;
d)将延伸/连接混合物加入到针对所述靶向性MIP和捕获的靶序列的c)的样品中以形成靶向性MIP复制子,并且加入到针对所述对照MIP和捕获的对照序列的c)的样品中以形成对照MIP复制子,其中所述延伸/连接混合物包含聚合酶、多个dNTP、连接酶和缓冲液;
e)将核酸外切酶混合物加入到所述靶向性MIP复制子和所述对照MIP复制子中以去除过量探针或过量基因组DNA;
f)将索引PCR混合物加入到e)的样品中以增加一对索引引物,将独特样品条形码和一对测序衔接子加入到所述靶向性MIP复制子和所述对照MIP复制子中以产生靶向性MIP扩增子和对照MIP扩增子;
g)对于每个靶群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
h)对于每个对照群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的对照MIP扩增子中存在的所述独特对照分子标签数;
i)基于步骤g)中获得的所述独特靶向性分子标签数确定所述靶向性MIP的靶捕获事件数;
j)基于步骤h)中获得的所述独特对照分子标签数确定所述对照MIP的对照捕获事件数;
k)对于每条靶序列至少部分地基于步骤i)中确定的靶捕获事件数计算靶探针捕获度量,并且至少部分地基于步骤j)中确定的所述对照捕获事件数计算多个对照探针捕获度量;
l)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
m)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个靶探针捕获度量,以获得每条靶序列的测试归一化靶探针捕获度量;
n)将每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考基因组DNA样品、使用步骤b)-h)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
o)基于步骤n)中的比较和参考受试者的所述已知基因型确定每条靶序列的拷贝数变异。
在另一个方面中,本公开提供一种用于产生基因型聚类的方法。在一些实施方案中,所述方法包括:
a)接收从多个受试者的多个亚组的多个核酸样品获得的序列数据,所述多个样品中的每个样品从不同受试者获得,并且每个亚组的特征在于受试者表现出目的基因的某一已知基因型,其中所述多个受试者中每个受试者的所述核酸样品的所述测序数据通过以下获得:
i)获得从所述受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a.i)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于从所述多个亚组中的受试者获得的每个相应样品:
i)对于每个靶群体,确定步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
ii)对于每个对照群体,确定步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
iii)对于每条靶序列至少部分地基于步骤b.i)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤b.ii)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
iv)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
v)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个靶探针捕获度量,以获得每个所述一个或多个条靶位点的归一化靶探针捕获度量;以及
c)跨从受试者的每个亚组获得的所述样品,对所述归一化靶探针捕获度量进行分组以获得所述已知基因型的所述基因型聚类。
在一些实施方案中,计算所述靶探针捕获度量包括通过所述独特靶向性分子标签数和所述独特对照分子标签数的总和归一化所述独特靶向性分子标签数。在一些实施方案中,计算所述多个对照探针捕获度量包括对于每个对照群体通过所述独特靶向性分子标签数和所述独特对照分子标签数的总和归一化独特对照分子标签数。
在另一个方面中,本公开提供一种用于产生基因型聚类的方法。在一些实施方案中,所述方法包括:
a)接收从多个受试者的多个亚组的多个核酸样品获得的序列数据,所述多个样品中的每个样品从不同受试者获得,并且每个亚组的特征在于受试者表现出目的基因的某一已知基因型,其中所述多个受试者中每个受试者的所述核酸样品的所述测序数据通过以下获得:
i)获得从所述受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a.i)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于从所述多个亚组中的受试者获得的每个相应样品:
i)对于每个靶群体,基于步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数确定靶向性MIP的靶捕获事件数;
ii)对于每个对照群体,基于步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数确定对照MIP的对照捕获事件数;
iii)对于每条靶序列至少部分地基于步骤b.i)中确定的所述靶捕获事件数计算靶探针捕获度量,并且至少部分地基于步骤b.ii)中确定的所述对照捕获事件数计算多个对照探针捕获度量;
iv)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
v)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个靶探针捕获度量,以获得每个所述一个或多个条靶位点的归一化靶探针捕获度量;以及
c)跨从受试者的每个亚组获得的所述样品,对所述归一化靶探针捕获度量进行分组以获得所述已知基因型的所述基因型聚类。
在另一个方面中,本公开提供一种用于选择测试受试者的基因型的方法。在一些实施方案中,所述方法包括:
a)接收从所述测试受试者的核酸样品获得的测序数据,其中所述核酸样品的所述测序数据通过以下获得:
i)获得从所述测试受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的多个靶向性MIP复制子,
其中所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于每个靶群体,确定步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
c)对于每个对照群体,确定步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
d)对于每个靶位点至少部分地基于步骤b)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤c)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
e)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
f)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的归一化靶探针捕获度量;
g)接收对应于正规化靶探针捕获度量的一组值,所述值是从表现出目的基因的相同已知基因型的多个第一参考受试者的核酸样品计算;
h)将步骤f)中获得的每个所述一个或多个归一化靶探针度量与步骤g)中接收的所述组值比较;以及
i)基于步骤h)中的比较确定所述测试受试者是否在每条所述一条或多条靶序列中表现出所述目的基因的所述相同已知基因型。
在另一个方面中,本公开提供一种用于选择测试受试者的基因型的方法。在一些实施方案中,所述方法包括:
a)接收从所述测试受试者的核酸样品获得的测序数据,其中所述核酸样品的所述测序数据通过以下获得:
i)获得从所述测试受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的多个靶向性MIP复制子,
其中所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于每个靶群体,基于步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签确定所述靶向性MIP的靶捕获事件数;
c)对于每个对照群体,基于步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数确定所述对照MIP的对照捕获事件数;
d)对于每个靶位点至少部分地基于步骤b)中确定的所述靶捕获事件数计算靶探针捕获度量,并且至少部分地基于步骤c)中确定的所述对照捕获事件数计算多个对照探针捕获度量;
e)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
f)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的归一化靶探针捕获度量;
g)接收对应于正规化靶探针捕获度量的一组值,所述值是从表现出目的基因的相同已知基因型的多个第一参考受试者的核酸样品计算;
h)将步骤f)中获得的每个所述一个或多个归一化靶探针度量与步骤g)中接收的所述组值比较;以及
i)基于步骤h)中的比较确定所述测试受试者是否在每条所述一条或多条靶序列中表现出所述目的基因的所述相同已知基因型。
在一些实施方案中,计算所述靶探针捕获度量包括通过所述靶捕获事件数和所述对照捕获事件数的和归一化所述靶捕获事件数。在一些实施方案中,计算所述多个对照探针捕获度量包括对于每个对照群体通过所述靶捕获事件数和所述对照捕获事件数的和归一化步骤中所确定的对照捕获事件数。
在一些实施方案中,可以在不使用或计数独特对照分子标签数的情况下确定捕获事件(例如,捕获或杂交到或结合目的序列,或目的位点,或目的基因的探针)数。
在本公开的方法的一些实施方案中,核酸样品为DNA或RNA。在一些实施方案中,核酸样品为基因组DNA。在一些实施方案中,本公开的方法可用于检测多个受试者的拷贝数变异。例如,从不同受试者(测试或参考受试者)获得一个或多个核酸样品。如上文所述的样品条形编码步骤可用于单独地标记不同受试者的每个样品。可以使用熟知的技术诸如PCR反应将样品条形码并入到MIP复制子或扩增子中。在样品条形编码之后,可以将不同受试者的样品混合在一起,然后在一起测序。
在本公开的方法的一些实施方案中,受试者为携带者筛查的候选人。在一些实施方案中,针对多个遗传病状或病症确定受试者的携带状态。在一些实施方案中,携带者筛查是针对一个遗传病状或病症。在一些实施方案中,筛查是针对多余一个遗传病状或病症,诸如两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个、三十个、四十个、五十个、六十个、七十个、八十个、九十个、一百个或更多个。在一些实施方案中,受试者为针对一个或多个常染色体隐性病状或病症进行携带者筛查的候选人。在一些实施方案中,常染色体隐性病状或病症为脊髓性肌肉萎缩、囊性纤维化、布卢姆综合征(Bloom syndrome)、卡纳万病(Canavan disease)、二氢硫辛酰胺脱氢酶缺乏、家族性自主神经失调、家族性高胰岛素性低血糖症、范可尼贫血(Fanconi anemia)、戈谢病(Gaucher disease)、I型肝糖储积症(Glycogen storage disease type I,GSD1a)、朱伯特综合征(Joubert syndrome)、枫糖尿病、IV型粘脂贮积症(Mucolipidosis IV)、杆状体肌病(nemaline myopathy)、A型和B型尼曼-匹克氏病(Niemann-Pick disease types A and B)、泰-萨二氏病、尤塞尔综合征(Usher syndrome)、沃克-沃伯格综合征(Walker-Warburg Syndrome)、先天性无巨核细胞血小板减少症(Congenital amegakaryocytic thrombocytopenia)、凝血酶原相关血栓形成倾向、镰状细胞病、脆性X染色体综合征(Fragile X Syndrome)、共济失调毛细血管扩张(Ataxia telangiectasia)、克拉伯氏病(Krabbe's disease)、半乳糖血症、伴耳聋的恰克-马利-杜斯氏症(Charcot-Marie-Tooth Disease)、威尔森氏症(Wilson's disease)、VIIC型埃莱尔-当洛综合征(Ehlers Danlos syndrome)、舍格伦-拉松综合征(Sjorgren-Larsson Syndrome)、异染性脑白质营养不良、C型圣菲利珀综合征(Sanfilippo)。在一些实施方案中,受试者为SMA携带者筛查的候选人。在一些实施方案中,受试者为未来的父母(母亲或父亲)。在一些实施方案中,受试者为准父母(例如,妊娠女性或准父亲)。在一些实施方案中,受试者为妊娠女性的胎儿携带者。在这些实施方案中,胎儿受试者的核酸样品为怀有胎儿的妊娠女性中存在的胎儿核酸,诸如无细胞胎儿核酸(DNA或RNA)。
在一些实施方案中,受试者为药物基因组学测试的候选人。在一些实施方案中,受试者为靶向肿瘤测试(例如,靶向肿瘤测序或靶向肿瘤分析)的候选人。在一些实施方案中,受试者为儿科诊断测试(诸如杜氏肌肉营养不良症的儿科诊断测试)的候选人。在一些实施方案中,受试者为BRCA1或BRCA2外显子缺失筛查或测试的候选人。在一些实施方案中,受试者为DMD基因外显子缺失或重复测试的候选人。在一些实施方案中,受试者为p450酶CYP2D6拷贝计数测试的候选人。在一些实施方案中,受试者为p450酶CYP2D6拷贝计数测试的候选人。在一些实施方案中,受试者为MYC基因重复的靶向肿瘤分析的候选人。在一些实施方案中,受试者为MYCN基因重复的靶向肿瘤分析的候选人。在一些实施方案中,受试者为RET基因重复的靶向肿瘤分析的候选人。在一些实施方案中,受试者为EGFR基因重复的靶向肿瘤分析的候选人。
在本公开的方法的一些实施方案中,使用靶向性分子倒置探针(或环状捕获探针)捕获靶位点或序列(或目的位点或序列)。如本文所用,靶位点或序列是指试图从核酸样品内其他核酸序列分选出的核酸序列的一部分或区,其为确定遗传病症或病状是否存在(例如,突变、多态性、缺失、插入、非整倍性等是否存在)提供信息。如本文所用,对照位点或序列是指具有已知或正常拷贝数具体对照基因的位点。在一些实施方案中,靶向性MIP依次包含以下组件:第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂。在一些实施方案中,靶向性MIP的靶群体用于本公开的方法中。在靶群体中,每个靶向性MIP中的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与核酸中分别侧接靶位点的第一区和第二区大致上互补。
在一些实施方案中,每个靶向性多核苷酸臂的长度在18与35个碱基对之间。在一些实施方案中,每个靶向性多核苷酸臂的长度为18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基对,或在18与35个碱基对之间的任何大小范围。在一些实施方案中,每个对照多核苷酸臂的长度在18与35个碱基对之间。在一些实施方案中,每个对照多核苷酸臂的长度为18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基对,或在18与35个碱基对之间的任何大小范围。在一些实施方案中,每个靶向性多核苷酸臂的解链温度为57℃与63℃之间。在一些实施方案中,每个靶向性多核苷酸臂的解链温度为57℃、58℃、59℃、60℃、61℃、62℃或63℃,或57℃与63℃之间的任何大小范围。在一些实施方案中,每个对照多核苷酸臂的解链温度为57℃与63℃之间。在一些实施方案中,每个对照多核苷酸臂的解链温度为57℃、58℃、59℃、60℃、61℃、62℃或63℃,或57℃与63℃之间的任何大小范围。在一些实施方案中,每个靶向性多核苷酸臂的GC含量为30%与70%之间。在一些实施方案中,每个靶向性多核苷酸臂的GC含量为30-40%,或30-50%,或30-60%,或40-50%,或40-60%,或40-70%,或50-60%,或50-70%,或范围为30%与70%之间的任何大小,或30%与70%之间的任何特定百分比。在一些实施方案中,每个对照多核苷酸臂的GC含量为30%与70%之间。在一些实施方案中,每个对照多核苷酸臂的GC含量为30-40%,或30-50%,或30-60%,或40-50%,或40-60%,或40-70%,或50-60%,或50-70%,或范围为30%与70%之间的任何大小,或30%与70%之间的任何特定百分比。
在一些实施方案中,每个独特靶向性分子标签的长度在12与20个碱基对之间。在一些实施方案中,每个独特靶向性分子标签的长度为12、13、14、15、16、17、18、19或20个碱基对,或在12与20个碱基对之间的任何间隔。在一些实施方案中,每个独特对照分子标签的长度在12与20个碱基对之间。在一些实施方案中,每个独特对照分子标签的长度为12、13、14、15、16、17、18、19或20个碱基对,或在12与20个碱基对之间的任何间隔。在一些实施方案中,每个独特靶向性或对照分子标签不与受试者(例如,测试受试者或参考受试者)的任何基因组区大致上互补。在一些实施方案中,每个独特靶向性或对照分子标签为随机产生的短序列。
在一些实施方案中,多核苷酸接头不与受试者的任何基因组区大致上互补。在一些实施方案中,多核苷酸接头的长度为30与40之间个碱基对。在一些实施方案中,多核苷酸接头的长度为30、31、32、33、34、35、36、37、38或39个碱基对,或在30与40个碱基对之间的任何间隔。在一些实施方案中,多核苷酸接头的解链温度为60℃与80℃之间。在一些实施方案中,多核苷酸接头的解链温度为60℃、65℃、70℃、75℃或80℃,或60℃与80℃之间的任何间隔,或60℃与80℃之间的任何特定温度。在一些实施方案中,多核苷酸接头的GC含量为40%与60%之间。在一些实施方案中,多核苷酸接头的GC含量为40%、45%、50%、55%或60%,或40%与60%之间的任何间隔,或40%与60%之间的任何特定百分比。在一些实施方案中,多核苷酸接头包含CTTCAGCTTCCCGATATCCGACGGTAGTGT(SEQ ID NO:1)。
在一些实施方案中,靶向性MIP的靶群体和对照MIP的多个对照群体在探针混合物中。在一些实施方案中,探针混合物的浓度为1-100pM之间。在一些实施方案中,探针混合物的浓度为1-10pM、10-100pM、10-50pM或50-100pM之间,或1-100pM之间的任何间隔。探针混合物的浓度可以基于探针捕获效率进行调整。
在一些实施方案中,每个靶向性MIP复制子为单链环状核酸分子。在一些实施方案中,每个对照MIP复制子为单链环状核酸分子。
在一些实施方案中,每个靶向性MIP扩增子为双链核酸分子。在一些实施方案中,每个对照MIP扩增子为双链核酸分子。
在一些实施方案中,靶向性MIP复制子是通过以下产生:i)第一靶向性多核苷酸臂和第二靶向性多核苷酸臂分别杂交到核酸中分别侧接靶位点的第一区和第二区;以及ii)杂交之后,使用连接/延伸混合物延伸和连接两个靶向性多核苷酸臂之间的空位区以形成单链环状核酸分子。
在一些实施方案中,每个对照MIP复制子是通过以下产生:i)第一对照多核苷酸臂和第二对照多核苷酸臂分别杂交到核酸中分别侧接对照位点的第一区和第二区;以及ii)杂交之后,使用连接/延伸混合物延伸和连接两个对照多核苷酸臂之间的空位区以形成单链环状核酸分子。
在一些实施方案中,测序步骤包括下一代测序方法,例如大规模平行测序方法,或短读长测序方法,或大规模平行短读长测序方法。在一些实施方案中,测序可以是本领域中已知的任何方法,例如,靶向测序、单分子实时测序、基于电子显微镜的测序、晶体管介导的测序、直接测序、随机鸟枪测序、桑格双脱氧终止测序、靶向测序、外显子测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、凝胶电泳、双重测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行签名测序、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、通过可逆染料终止剂的测序、双端测序、近期测序、核酸外切酶测序、边连接边测序、短读长测序、单分子测序、边合成边测序、实时测序、可逆终止子测序、离子半导体测序、纳米球测序、纳米孔测序、454测序、Solexa基因组分析仪测序、miSeq(Illumina)、HiSeq2000(Illumina)、HiSeq 2500(Illumina)、Illumina基因组分析仪(Illumina)、IonTorrent PGMTM(Life Technologies)、MinIONTM(Oxford Nanopore Technologies)、实时SMRTTM技术(Pacific Biosciences)、探针-锚定分子连接(cPALTM)(Complete Genomics/BGI)、测序、MS-PET测序、质谱法和其组合。在一些实施方案中,测序包括使用例如但不限于以下的仪器检测测序产物:ABI377 DNA测序仪;ABI310、3100、3100-Avant、3730或373OxI遗传分析仪;ABI3700 DNA分析仪或AppliedBiosystems SOLiDTM系统(所有均来自Applied Biosystems);基因组测序仪20系统(RocheApplied Science);或质谱仪。在某些实施方案中,测序包括乳液PCR。在某些实施方案中,测序包括高通量测序技术,例如但不限于大规模平行签名测序(MPSS)。
可用于本公开的方法中的测序技术包括例如Illumina测序。Illumina测序是基于使用折回PCR和锚定引物的DNA在固体表面上的扩增。基因组DNA被片段化,并且将衔接子添加到片段的5'和3'端。将连接到流动池(flow cell)导槽表面的DNA片段延伸并且桥式扩增。片段变成双链,并且使双链分子变性。变性之后进行多个循环的固相扩增可以在每个流动池导槽中产生相同模板的单链DNA分子的大约1,000个拷贝的数百万个聚类。将引物、DNA聚合酶和四种荧光团标记的可逆终止核苷酸用于执行顺序测序。在核苷酸并入之后,使用激光器激发荧光团,并且捕获图像并记录第一碱基的同一性。将每个并入碱基的3'终止子和荧光团去除,并且重复并入、检测和鉴别步骤。根据此技术的测序描述于美国专利号7,960,120;美国专利号7,835,871;美国专利号7,232,656;美国专利号7,598,035;美国专利号6,911,345;美国专利号6,833,246;美国专利号6,828,100;美国专利号6,306,597;美国专利号6,210,891;美国公布2011/0009278;美国公布2007/0114362;美国公布2006/0292611;和美国公布2006/0024681,每个所述专利均以全文引用方式并入。
在一些实施方案中,本公开的方法包括在测序步骤之前进行d)PCR反应(或其他惯例反应)来扩增靶向性MIP复制子及对照MIP复制子以用于测序。在一些实施方案中,PCR或其他反应为索引PCR或其他反应。在一些实施方案中,索引PCR或其他反应将以下组件引入到每个靶向性MIP复制子中:一对索引引物、独特样品条形码和一对测序衔接子,从而产生靶向性MIP扩增子或对照MIP扩增子。
在一些实施方案中,带条形码的靶向性MIP扩增子依次包含以下组件:
第一测序衔接子–第一测序引物–第一独特靶向性分子标签–第一靶向性多核苷酸臂–捕获的靶核酸–第二靶向性多核苷酸臂–第二独特靶向性分子标签–独特样品条形码–第二测序引物–第二测序衔接子。
在一些实施方案中,带条形码的对照MIP扩增子依次包含以下组件:
第一测序衔接子–第一测序引物–第一独特对照分子标签–第一对照多核苷酸臂–捕获的对照核酸–第二对照多核苷酸臂–第二独特对照分子标签–独特样品条形码–第二测序引物–第二测序衔接子。
在一些实施方案中,靶位点和至少一个对照位点在相同染色体上。在一些实施方案中,靶位点和至少一个对照位点在不同染色体上。
在一些实施方案中,靶位点为SMN1或SMN2。在一些实施方案中,SMN1/SMN2的第一靶向性多核苷酸臂和第二靶向性多核苷酸臂分别为5'-AGG AGT AAG TCT GCC AGC ATT-3'(SEQ ID NO:2)和5'-AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:3)。在一些实施方案中,SMN1/SMN2的第一靶向性多核苷酸臂和第二靶向性多核苷酸臂分别为5'-ACC ACCTCC CAT ATG TCC AGA-3'(SEQ ID NO:5)和5'-ACC AGT CTG GGC AAC ATA GC-3'(SEQ IDNO:6)。
在一些实施方案中,MIP被设计成捕获SMN1/SMN2基因的外显子7中的碱基变化差异。在一些实施方案中,用于检测SMN1/SMN2的拷贝数变异的MIP包含序列5'-AGG AGT AAGTCT GCC AGC ATT NNN NNN NNN NCT TCA GCT TCC CGA TTA CGG GTA CGA TCC GAC GGTAGT GTN NNN NNN NNN AAA TGT CTT GTG AAA CAA AAT GCT-3。
在一些实施方案中,对照序列包含选自由以下项组成的组的一个或多个基因或位点:CFTR、HEXA、HFE、HBB、BLM、IDS、IDUA、LCA5、LPL、MEFV、GBA、MPL、PEX6、PCCB、ATM、NBN、FANCC、F8、CBS、CPT1、CPT2、FKTN、G6PD、GALC、ABCC8、ASPA、MCOLN1、SPMD1、CLRN1、NEB、G6PC、TMEM216、BCKDHA、BCKDHB、DLD、IKBKAP、PCDH15、TTN、GAMT、KCNJ11、IL2RG和GLA。
在另一个方面中,本公开的实施方案的系统和方法可用于检测缺失,诸如BRCA1外显子缺失、BRCA2外显子缺失或1p36缺失综合征。
在某些实施方案中,本文所述的方法用于检测外显子缺失或插入或重复。在一些实施方案中,靶位点(或序列)为目的基因或目的基因组区中的缺失或插入或重复。在一些实施方案中,靶位点为目的基因的一个或多个外显子的缺失或插入或重复。在一些实施方案中,多个靶外显子为连续的。在一些实施方案中,多个靶外显子为不连续的。在一些实施方案中,MIP的第一靶向性多核苷酸臂和第二靶向性多核苷酸臂被设计成使目的基因或基因组区中的缺失(或插入或重复)或缺失的(或插入的或重复的)基因组区(例如,一个或多个外显子)的上游和下游杂交。在一些实施方案中,MIP的第一靶向性多核苷酸臂或第二靶向性多核苷酸臂包含与涵盖靶缺失或重复位点(例如,外显子或部分外显子)的目的基因的基因组区大致上互补的序列。
在某些实施方案中,目的基因为BRCA1或BRCA2。在一些实施方案中,靶位点(或序列)为BRCA1或BRCA2基因的一个或多个外显子(例如,BRCA1外显子11)的缺失(部分或全部缺失)。在一些实施方案中,靶位点为BRCA1或BRCA2基因的一个或多个外显子内的插入。在一些实施方案中,靶位点为BRCA1或BRCA2基因的一个或多个外显子的重复(部分或全部重复)。在一些实施方案中,多个缺失的或重复的外显子为连续的。在一些实施方案中,多个缺失的或重复的外显子为不连续的。在一些实施方案中,MIP的第一靶向性多核苷酸臂或第二靶向性多核苷酸臂(但不是两者)包含与预期表现出靶外显子缺失或重复的BRCA基因组区的野生型序列大致上互补的序列。在一些实施方案中,用于检测BRCA外显子11的部分缺失的第一靶向性多核苷酸臂和第二靶向性多核苷酸臂分别为5'-GTCTGAATCAAATGCCAAAGT-3'(SEQ ID NO:7)和5'-TCCCCTGTGTGAGAGAAAAGA-3'(SEQ ID NO:8)。在一些实施方案中,用于本文针对检测BRCA外显子11的部分缺失所述的方法的MIP为/5Phos/GTCTGAATCAAATGCCAAAGTNNNNNNNNNNCTTCAGCTTCCCGATTACGGGTACGATCCGACGGTAGTGTNNNNNNNNNNTCCCCTGTGTGAGAGAAAAGA(SEQ ID NO:9)。
在一些实施方案中,目的基因为DMD。在一些实施方案中,靶位点(或序列)为DMD基因的一个或多个外显子的缺失(部分或全部缺失)。在一些实施方案中,靶位点为DMD基因的一个或多个外显子内的插入。在一些实施方案中,靶位点为DMD基因的一个或多个外显子的重复(部分或全部重复)。在一些实施方案中,多个缺失的或重复的外显子为连续的。在一些实施方案中,多个缺失的或重复的外显子为不连续的。在一些实施方案中,MIP的第一靶向性多核苷酸臂或第二靶向性多核苷酸臂(但不是两者)包含与预期表现出靶外显子缺失或重复的DMD基因组区的野生型序列大致上互补的序列。在一些实施方案中,DMD基因的缺失的或重复的靶外显子列举于表4中或为DMD基因中的任何已知缺失或重复。在一些实施方案中,用于本文针对检测DMD基因的一个或多个外显子缺失(部分或全部缺失)或重复的方法的MIP列举于表3中。
在另一个方面中,本公开的实施方案的系统和方法可用于检测染色体非整倍体,诸如唐氏综合征的诊断。
在另一个方面中,本公开的实施方案的系统和方法可使用PCR探针或引物来代替MIP产生PCR扩增子。在一些实施方案中,本公开提供一种用于使用PCR探针(或引物)和PCR扩增子检测受试者的拷贝数变异的方法。在一些实施方案中,所述方法包括:
a)获得从所述受试者分离,或来源,或获得的核酸样品;
b)通过使用靶向性聚合酶反应链(PCR)正向和反向探针的一个或多个靶群体扩增在步骤a)中获得核酸样品的一条或多条靶序列以产生每条靶序列的靶向性PCR扩增子,
其中每个靶群体中的每个靶向性PCR正向探针依次包含以下组件:
5'-靶向性PCR正向引物-独特靶向性正向分子标签-3';
其中靶群体中的每个靶向性PCR反向探针依次包含以下组件:
5'-独特靶向性反向分子标签-靶向性PCR反向引物-3';
其中每个靶群体中每个靶向性PCR探针中的一对靶向性PCR正向和反向探针是相同的,并且与核酸中分别侧接一个或多个靶向性PCR正向和反向探针所靶向的靶序列的第一区和第二区大致上互补;
其中靶群体中每个靶向性PCR探针中的独特靶向性正向和反向分子标签在每个靶向性PCR探针中和在靶群体的每个成员中是不同的;
c)通过使用对照PCR正向和反向探针的多个对照群体捕获在步骤a)中获得的核酸样品的多个对照序列以产生多个对照PCR扩增子,对照PCR正向和反向探针的每个对照群体能够扩增在步骤a)中获得的核酸样品的不同对照序列,
其中对照群体中的每个对照PCR正向探针依次包含以下组件:
5'-对照PCR正向引物-独特对照正向分子标签-3';
其中对照群体中的每个对照PCR反向探针依次包含以下组件:
5'-独特对照反向分子标签-对照PCR反向引物-3';
其中靶群体中每个对照PCR探针的一对对照PCR正向和反向探针是相同的,并且与核酸中分别侧接对照序列的第一区和第二区大致上互补;
其中靶群体中每个对照PCR探针中的独特对照正向和反向分子标签在每个对照PCR探针中和在对照群体的每个成员中是不同的;
d)对在步骤b)和c)中获得的靶向性PCR扩增子和对照PCR扩增子进行测序;
e)对于每个靶群体,确定步骤d)中所测序的所述靶向性PCR扩增子中存在的所述独特靶向性分子标签数;
f)对于每个对照群体,确定步骤d)中所测序的所述对照PCR扩增子中存在的所述独特对照分子标签数;
g)对于每条所述一条或多条靶向序列至少部分地基于步骤e)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤f)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
h)鉴别具有满足至少一个标准的对照探针捕获度量的对照PCR探针的所述对照群体亚组;
i)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的测试归一化靶探针捕获度量;
j)将一个或多个测试归一化靶探针捕获度量中的每个与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考基因组核酸样品、使用步骤b)-g)和i)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
k)基于步骤j)中的比较和参考受试者的所述已知基因型确定所述一条或多条目的靶序列中每条的拷贝数变异。
图3为用于执行本文所述的任何过程的计算装置300的框图,所述过程包括基于从表现出已知基因型的参考受试者获得的样品形成基因型聚类,或计算测试受试者的探针捕获度量并且将探针捕获度量与一组基因型聚类比较以选择测试受试者的适当基因型。如本文所用的,术语“处理器”或“计算装置”是指被配置有执行本文所述的计算机化技术中的一种或多种的硬件、固件和软件的一个或多个计算机、微处理器、逻辑装置、服务器或其他装置。处理器和处理装置还可以包括用于储存当前正在处理的输入、输出和数据的一个或多个存储器装置。计算装置300可以包括“用户界面”,其可以包括但不限于一个或多个输入装置(例如,小键盘、触摸屏、轨迹球、语音识别系统等)和/或一个或多个输出装置(例如,视觉显示器、扬声器、触觉显示器、打印装置等)的任何合适的组合。计算装置300可以包括但不限于配置有进行本文所述的一个或多个计算机化技术的硬件、固件和软件的一个或多个装置的任何合适的组合。本文所述的每个部件均可以在一个或多个计算装置300上实现。在某些方面中,这些系统的多个部件可包括在一个计算装置300内。在某些具体实施中,部件和储存装置可以跨若干计算装置300实现。
计算装置300包括至少一个通信接口单元、输入/输出控制器310、系统存储器和一个或多个数据存储装置。系统存储器包括至少一个随机存取存储器(RAM 302)和至少一个只读存储器(ROM 304)。所有这些元件均与中央处理单元(CPU 306)通信以有利于计算装置300的运算。计算装置300可以用许多不同的方式配置。例如,计算装置300可以为常规的独立计算机,或可替代地,计算装置300的功能可以分布在多个计算机系统和架构上。在图3中,计算装置300通过网络或本地网络连接到其他服务器或系统。
计算装置300可以配置在分布式架构中,其中数据库和处理器容纳在分开的单元或位置中。一些单元主要执行处理功能并且至少含有通用控制器或处理器和系统存储器。在分布式架构具体实施中,这些单元中的每个均可以通过通信接口单元308附接到用作与其他服务器、客户端或用户计算机和其他相关装置的一级通信链路的通信集线器或端口(未示出)。通信集线器或端口可以自身具有最小处理能力,主要用作通信路由器。多个通信协议可为系统的一部分,包括但不限于:以太网、SAP、SASTM、ATP、BLUETOOTHTM、GSM和TCP/IP。
CPU 306包括处理器,诸如一个或多个常规微处理器和一个或多个补充的协处理器诸如用于卸载CPU 306的工作负荷的数学协处理器。CPU 306与通信接口单元308和输入/输出控制器310通信,从而CPU 306与其他装置诸如其他服务器、用户终端或装置通信。通信接口单元308和输入/输出控制器310可以包括用于与例如其他处理器、服务器或客户端终端同时通信的多个通信信道。
CPU 306还与数据存储装置通信。数据存储装置可以包括磁存储器、光存储器或半导体存储器的适当组合,并且可以包括例如RAM 302、ROM 304、闪存驱动器、光盘诸如压缩盘或硬盘或驱动器。CPU 306和数据存储装置各自可例如完全位于单个计算机或其他计算装置内;或通过通信介质(诸如USB端口、串行端口电缆、同轴电缆、太网电缆、电话线、射频收发器或其他类似的无线或有线介质或前述的组合)彼此连接。例如,CPU 306可以通过通信接口单元308连接到数据存储装置。CPU 306可被配置成执行一个或多个具体处理功能。
数据存储装置可以存储例如(i)计算装置300的操作系统312;(ii)一个或多个应用程序314(例如,计算机程序代码或计算机程序产品),其适于根据本文所述的系统和方法并且具体地说根据关于CPU 306详细所述的过程引导CPU 306;或(iii)适于储存信息的数据库316,其用于储存程序所需的信息。
操作系统312和应用程序314可例如以压缩格式、未编译格式和加密格式储存,并且可以包括计算机程序代码。程序指令可以从除数据存储装置以外的计算机可读介质,诸如从ROM 304或从RAM 302读入处理器的主存储器中。在执行程序中的指令序列使CPU 306执行本文所述的过程步骤时,硬连线电路可以代替软件指令或与软件指令组合使用以实现本公开的过程的具体实施。因此,所述的系统和方法不限于硬件和软件的任何特定组合。
可提供合适的计算机程序以用于执行如本文所述的一个或多个功能。程序还可以包括程序元件,诸如操作系统312、数据库管理系统和使处理器通过输入/输出控制器310与计算机外围设备(例如,视频显示屏、键盘、计算机鼠标等)进行交互的“设备驱动程序”。
如本文所用,术语“计算机可读介质”是指向计算装置300(或本文所述的装置的任何其他处理器)提供或参与向计算装置300提供指令以用于执行的任何非暂时性介质。这种介质可采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包括例如光盘、磁盘或光磁盘,或集成电路存储器诸如闪存存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、任何其他具有孔图案的物理介质、RAM、PROM、EPROM或EEPROM(电可擦可编程只读存储器)、FLASH-EEPROM、任何其他存储器芯片或盒或计算机可从中读取的任何其他非暂时性介质。
各种形式的计算机可读介质可涉及将一个或多个指令的一个或多个序列送至CPU306(或本文所述的装置的任何其他处理器)以用于执行。例如,起初可将指令载于远程计算机的磁盘(未示出)上。远程计算机可将指令载入它的动态存储器中并使用调制解调器通过以太网连接、电缆线或甚至电话线发送指令。计算装置300本地的通信装置(例如,服务器)可以接收相应通信链路上的数据并且将数据放置于处理器的系统总线上。系统总线将数据送至主存储器,处理器从中检索并执行指令。主存储器接收的指令可任选地在由处理器执行之前或之后存储在存储器中。此外,指令可以通过通信端口呈电信号、电磁信号或光信号被接收,这些信号为承载各种类型的信息的无线通信或数据流的示例性形式。
图4为根据明性实施方案的用于确定测试受试者的拷贝计数值/变异的过程400的流程图。过程400包括以下步骤:接收从表现出已知拷贝计数值的目的基因(步骤402),或目的位点,或目的序列的参考受试者获得的测序数据;由从参考受试者获得的测序数据形成基因型聚类,每个基因型聚类对应于已知拷贝计数值(步骤404);接收从测试受试者获得的测序数据(步骤406);将测试受试者的测试度量与基因型聚类比较(步骤408);以及选择最接近测试度量的基因型聚类的拷贝计数值(步骤410)。
在步骤402,接收测序数据。所接收的测序数据是从表现出已知拷贝计数值的目的基因,或目的位点,或目的序列的参考受试者获得的。在实施例中,通过以下获得测序数据:从每个参考受试者获得核酸样品并且使用靶向性MIP的一个或多个靶群体和对照MIP的一组对照群体捕获每个核酸样品中的一个或多个靶位点和一组对照位点。如关于图1所详细描述,每个靶向性MIP依次包括第一靶向性多核苷酸臂、第一独特靶向性分子标签、多核苷酸接头、第二独特靶向性分子标签和第二靶向性多核苷酸臂。第一靶向性多核苷酸臂和第二靶向性多核苷酸臂跨靶群体中的靶向性MIP是相同的,而第一独特靶向性分子标签和第二独特靶向性分子标签跨靶群体中的靶向性MIP是不同的。靶向性MIP复制子和一组对照MIP复制子由靶位点和一组对照位点的捕获产生,并且被进一步扩增以产生靶向性MIP扩增子或对照MIP扩增子。对扩增子进行测序以获得测序数据。本文关于SMN1和SMN2拷贝数变异所述的实施例仅出于说明性目的进行描述。一般来讲,本领域的普通技术人员应理解,本公开的系统和方法适用于从测序数据确定基因型。
在步骤404,由从参考受试者获得的测序数据形成基因型聚类。在实施例中,每个基因型聚类对应于定量描述样品的观察结果的一组数据点(每个数据点对应于从不同参考受试者获得的样品)。由从表现出相同已知基因型的参考受试者获得的测序数据计算相同基因型聚类中的所述组数据点。每个基因型可对应于目的基因诸如SMN1或SMN2的已知拷贝计数值。如何可形成基因型聚类的一个实施例关于图5进行描述,并且图6为形成六个基因型聚类的六组数据点的散点图。如本文所述,基因型聚类作为参考用于与由从基因型可能未知的测试受试者获得的样品所计算的数据点进行比较。在一些具体实施中,将过程400的步骤402和404压缩成单个步骤,其中指示基因型聚类的数据由装置接收。
在步骤406,接收从测试受试者获得的测序数据。测试受试者的基因型可能是未知的,并且可能希望提供通过将基因型聚类用作参考来进行测试受试者基因型的计算预测。具体来说,测试受试者可以表现出未知拷贝计数值的具体目的基因(目的位点或目的序列),并且可使用本公开的系统和方法计算测试受试者的测试度量。例如,测试度量是以与形成每个基因型聚类的数据点相同的方式进行计算,并且可对应于归一化靶探针捕获度量。如关于图5所更详细描述,归一化靶探针捕获度量表示靶向性MIP的靶群体相较于对照MIP的一组对照群体杂交到目的基因(或目的位点,或目的序列)上的靶位点的相对能力。
在步骤408,将测试受试者的测试度量与基因型聚类比较。以与形成基因型聚类的所述组数据点类似的方式计算测试度量。具体来说,如关于图5中所述,通过以下形成基因型聚类:计算一组参考受试者的归一化靶探针捕获度量,并且根据参考受试者的不同基因型将归一化靶探针捕获度量的所得值进行分组。可以通过以与步骤506-526中针对测试样品所概述类似的方式确定测试受试者的归一化靶探针捕获度量计算测试度量。
在步骤410,选择最接近测试度量的基因型聚类的拷贝计数值。在一个实施例中,计算测试度量与每个基因型聚类之间的距离度量,并且选择具有最短距离的基因型聚类的已知基因型(例如,拷贝计数值)。具体来说,可使用马氏距离(Mahalanobis distance)计算数据点与数据点在二维网格上的分布之间的距离,如图6中所示。
图5为根据说明性实施方案的用于形成基因型聚类的过程500的流程图。在实施例中,过程500可用于实现关于图4所示并描述的过程400的步骤404。如关于图4所述,形成基因型聚类的功能可用于处理从具有具体目的基因的已知基因型的一组样品获得的数据。基因型聚类包括定量描述所处理的数据的观察结果的一组数据点(每个对应于不同样品),其中组中的每个数据点对应于相同的已知基因型。在拷贝计数值变异的实施例中,基因型对应于目的基因诸如SMN1和/或SMN2的拷贝计数值。
过程500包括以下步骤:接收从具有已知基因型的S个样品记录的数据(步骤502)和将样品迭代参数s初始化为1(步骤504)。对于每个样品s,过程500包括:过滤测序读长以去除已知假象(步骤506);将读长与人基因组比对(步骤508);确定靶群体的靶捕获事件数(步骤510);确定一组对照群体的对照捕获事件数(步骤514、516和518);计算靶探针捕获度量(步骤520);计算对照探针捕获度量(步骤522);鉴别满足至少一个标准的对照群体的亚组(步骤524);以及计算归一化靶探针捕获度量(步骤526)。当考虑到所有S个样品时,然后根据已知基因型将归一化靶探针捕获度量分组(步骤532)。
在一些实施方案中,靶捕获事件数对应于所测序的靶向性MIP扩增子中存在的独特靶向性分子标签数。在一些实施方案中,靶捕获事件数是基于所测序的靶向性MIP扩增子中存在的独特靶向性分子标签数来确定。在一些实施方案中,对照捕获事件数对应于所测序的对照MIP扩增子中存在的独特对照分子标签数。在一些实施方案中,对照捕获事件数是基于所测序的对照MIP扩增子中存在的独特对照分子标签数来确定。
在步骤502,接收从一组S个样品记录的数据,其中S个样品各自对应于已知基因型。具体来说,S个样品中每个样品可以从表现出目的基因的已知基因型的参考受试者获得,其中S样品中每个样品对应于不同的参考受试者。样品可为从参考受试者分离,或来源,或获得核酸样品,并且数据可以包括从核酸样品获得的测序数据。在实施例中,通过以下获得测序数据:使用靶向性MIP的靶群体以扩增核酸样品中目的靶位点(或序列);以及使用对照MIP的一组对照群体扩增核酸样品中的一组对照位点(或序列)以产生靶MIP复制子和对照MIP复制子。然后可以将复制子进一步扩增,随后进行测序以获得在步骤502接收的测序数据。
在步骤504,将样品迭代参数初始化为1。在处理S个样品时,增加样品迭代参数直到S个样品中每个样品被处理以获得归一化靶探针捕获度量。
在步骤506,过滤样品的测序读长以去除已知假象。在一个实施例中,可处理在步骤502接收的数据以去除探针间相互作用的影响。例如,当中间MIP具有与靶向性MIP的靶向性多核苷酸臂共有高序列同一性的多核苷酸臂时,由于反应中探针与靶标的比率高,所以这种中间捕获事件或反应可能占主导并且产生中间MIP的捕获产物,其为副产物并且需要去除。在一些具体实施中,将所有MIP的连接核延伸靶向性臂与双端序列读长进行匹配。无法匹配MIP的两个臂的读长确定为无效并且舍弃。将其余有效读长的臂序列去除,并且还可以将连接端和延伸端的分子标签从读长去除。可以将去除的分子标签单独地保存以用于在步骤510和514进一步处理。
在步骤508,将所得修剪过的读长与人基因组比对。在一些实施方案中,可以使用比对工具将读长与参考人基因组比对。具体来说,可以对比对评分进行评定以用于表示特定读长与参考的比对如何。比对评分高于阈值的读长可在本文称为主要比对,并且保留。相比之下,比对评分低于阈值的读长可在本文称为次要比对,并且舍弃。与沿着参考基因组的多个位置比对的任何读长可在本文称为多重比对,并且舍弃。
在步骤510,确定靶向性MIP的靶群体的靶捕获事件数。具体来说,靶群体中每个靶向性MIP可以靶向目的基因上的相同靶序列,但是可以包括靶群体中每个其他靶向性MIP的不同分子标签。可以检查比对读长以计数目的基因上靶向位点(或序列)的独特分子标签数。这些计数可以对应于在下一代测序(Next-Generation Sequencing,NGS)平台诸如Illumina HiSeq 2500流动池中测序的MIP-位点杂交事件(例如,MIP-位点捕获事件)的初始数目。
在步骤512,将对照群体迭代参数j初始化为1。对于第j个对照群体,在步骤514确定第j个对照群体的对照捕获事件数。具体来说,类似于关于步骤510所述的靶群体,第j个对照群体中每个对照MIP可以靶向与目的基因不同的参考基因上相同的对照序列,但是可以包括与第j个对照群体中每个其他对照MIP不同的分子标签。对于第j个对照群体(和因此第j个对照位点),检查步骤508的比对读长以计数相关联的参考基因上第j个对照位点的独特分子标签数。在决策框516,将对照群体迭代参数j与对照群体的总数J比较。如果j小于J,那么过程500前进至步骤518以增加j,并且返回到步骤514以确定下一个对照群体的对照捕获事件数。
在一些实施方案中,靶捕获事件数对应于所测序的靶向性MIP扩增子中存在的独特靶向性分子标签数。在一些实施方案中,靶捕获事件数是基于所测序的靶向性MIP扩增子中存在的独特靶向性分子标签数来确定。在一些实施方案中,对照捕获事件数对应于所测序的对照MIP扩增子中存在的独特对照分子标签数。在一些实施方案中,对照捕获事件数是基于所测序的对照MIP扩增子中存在的独特对照分子标签数来确定。
当考虑到所有J个对照群体时,过程500前进至步骤520以计算样品s的靶探针捕获度量。靶探针度量可对应于靶向性MIP的靶群体捕获目的基因上的靶位点(或序列)的效率的性能测量。在一个实施例中,样品s的靶探针捕获度量可以通过在步骤510确定数除以在步骤510和514确定数的总和(例如,独特分子标签数或捕获事件数)来计算。然后可以通过一个或多个归一化因数归一化所得比率以将度量与拷贝计数值进行比对。具体来说,可以根据以下的EQ.1计算靶探针捕获度量(PC靶标,s),其中J对应于样品s中使用的对照群体的总数,u靶标,s对应于在步骤510确定的靶捕获事件数,并且每个u对照i,s对应于在步骤514确定的第i个对照群体的对照捕获事件数。
如可从EQ.1确定,靶探针捕获度量表示靶群体相对于所有群体(包括靶群体和所述组对照群体)捕获或杂交到目的基因上的靶位点(或序列)的能力的相对性能效率。用于计算靶探针捕获度量的EQ.1仅出于说明性目的而现实,并且一般来讲,可以在不脱离本公开的范畴的情况下使用性能效率度量的其他形式表示MIP群体的相对捕获效率。
在步骤522,计算样品s的J个对照探针捕获度量。以与关于步骤520所述的靶探针捕获度量类似的方式计算J个对照探针捕获度量中的每一个。具体来说,第j个对照探针捕获度量可对应于对照MIP的第j个对照群体捕获参考基因上对应对照位点的效率的性能测量。在一个实施例中,样品s的第j个对照探针捕获度量可以通过第j个对照群体的对照捕获事件数除以在步骤510和514确定数的综合来计算。然后可以通过一个或多个归一化因数归一化所得比率以将度量与拷贝计数值进行比对。具体来说,可以根据以下的EQ.2计算对照探针捕获度量(PC对照j,s),其中J对应于样品s中使用的对照群体的总数,u靶标,s对应于在步骤510确定的靶捕获事件数,并且每个u对照i,s对应于在步骤514确定的第i个对照群体的对照捕获事件数。
如可从EQ.2确定,对照探针捕获度量表示第j个对照群体相对于所有群体(包括靶群体和所述组对照群体)捕获或杂交到参考基因上的对照位点的能力的相对性能效率。用于计算对照探针捕获度量的EQ.2仅出于说明性目的而现实,并且一般来讲,可以在不脱离本公开的范畴的情况下使用性能效率度量的其他形式表示MIP群体的相对捕获效率。但是,一般来讲,可能希望使用与对照探针捕获度量相同的计算过程计算靶探针捕获度量,以实现它们之间的直接比较。
在步骤524,鉴别满足至少一个标准的J个对照群体的亚组。例如,评估在步骤522计算的对照探针捕获度量(PC对照j,s),并且舍弃不满足至少一个标准的那些对照探针捕获度量。所述至少一个标准可包括要求所有对照探针捕获度量均高于第一阈值水平、低于第二阈值水平或两者。第一阈值和/或第二阈值可为预定值,或可为取决于探针捕获度量的值的值。例如,一个或两个阈值可从一组J个对照探针捕获度量进行确定,使得舍弃J个对照探针捕获度量的底X百分比和顶Y百分比,其中X或Y可对应于5%、10%、15%或任何其他合适的百分率。此外,X和Y的值可相同或不同。在另一个实施例中,可以基于在步骤520计算的靶探针捕获度量确定一个或两个阈值,并且可以舍弃对照靶探针捕获度量在靶探针捕获度量左右特定范围之外的J个对照群体中的任一个。
在一些实施方案中,在步骤524使用的所述至少一个标准包括要求J个对照群体的亚组的样品间变异低。换句话讲,可能需要J个对照群体的亚组仅包括跨不同的S个样品表现相对一致的那些对照群体。在这种情况下,可以仅在已处理所有样品之后对每个样品执行步骤524以计算靶探针捕获度量和对照探针捕获度量。为了要求样品间变异低,在步骤524的所述至少一个标准可包括跨一组S个样品计算第j个对照群体的对照探针捕获度量的变异性系数。在实施例中,变异性系数可计算为标准偏差除以一组值的平均值。可以舍弃变异性系数高的那些对照群体,并且将J个对照群体的其余亚组鉴别为满足所述至少一个标准。
在一些实施方案中,在步骤524使用的所述至少一个标准包括要求J个对照群体的亚组跨一组S个样品保持相同。在一些实施方案中,在步骤524使用的所述至少一个标准包括要求J个对照群体的亚组跨一组S个样品不同。在一些实施方案中,跨不同样品的对照群体亚组相同。在一些实施方案中,不同样品的对照群体亚组不同。在这种情况下,步骤524和526可遵循决策框528。
在步骤526,计算样品s的归一化靶探针捕获度量。在实施例中,归一化靶探针捕获度量对应于靶探针捕获度量(在步骤520计算)除以对照群体亚组的对照靶探针捕获度量的平均值(在步骤524鉴别)。对照群体亚组的对照靶探针捕获度量的平均值表示平均对照群体,并且可在本文称为“复合对照群体(composite control population)”。通过由对照群体亚组的平均对照探针捕获度量归一化靶探针捕获度量,样品间探针性能变异性通过考虑到DNA的输入数量和质量以及跨一组S个样的其他可能的实验差异而减小。一般来讲,本公开不限于平均值,并且可以使用任何合适的统计值,包括中值。
在决策框528,将样品迭代参数s与样品总数S比较。如果s小于S,那么过程500前进至步骤530以增加s,并且返回到步骤506以开始处理下一个样品。另外,当已处理所有S个样品时,过程500前进至步骤532以针对每个已知基因型将归一化靶探针捕获度量分组。具体来讲,根据对应S个样品的已知基因型将归一化靶探针捕获度量的所得组S值分开。
图5中步骤的次序仅出于说明性目的显示,且不具有限制性。具体来讲,可以将步骤510和514的次序颠倒,使得在确定靶捕获事件数之前确定对照捕获事件数。一般来讲,可以任何次序确定靶捕获事件数和对照捕获事件数。类似地,步骤520和522的次序在图5中显示为在步骤522之前发生步骤520。一般来讲,在不脱离本公开的范畴的情况下,可以在计算一些或所有J个对照探针捕获度量之后执行靶探针捕获度量的计算。
此外,如图5中所示,将样品s完全处理,之后继续前进至下一个样品s+1。此外,本领域的普通技术人员应理解,本文所述的度量中的一个或多个可以仅在部分处理所有样品之后进行计算。例如,一个度量可涉及跨越样品的量度,诸如变异系数统计值。在这种情况下,变异系数可以基于跨一组S个样品确定的一组对照探针捕获度量来计算。在步骤524使用的所述至少一个标准之一可包括要求跨样品变异低,并且可涉及计算对照MIP的每个对照群体的变异系数。在这种情况下,对照群体的变异系数表示对照MIP的性能跨一组样品的变化。变异系数高的对照群体意指具体对照群体不具有跨一组样品的一致性能的对照MIP,所以包括在所述组中表现不一致的那些对照群体可能是不合需要的。
图6为使用关于图5所述的方法形成的六个说明性基因型聚类的曲线图600。在图6中,竖直轴线对应于SMN1的归一化靶探针捕获度量,并且水平轴线对应于SMN2的归一化靶探针捕获度量。每个圆圈围绕具有两个坐标(SMN1的归一化靶探针捕获度量和SMN2的归一化靶探针捕获度量)的一组数据点。图6中所示的实施例显示两个不同的归一化靶探针捕获度量(例如,SMN1的归一化靶探针捕获度量和SMN2的归一化靶探针捕获度量),其可以同时一起用于确定测试受试者的正确基因型。但是,可以使用单个度量形成基因型聚类。在这种情况下,基因型聚类的曲线图将减小至单个轴线上的一组值。此外,取决于应用,可以使用三个或更多个度量形成基因型聚类。在这种情况下,可以使用N维阵列表示聚类中的每个数据点,其中N对应于度量数。
图6中所示的基因型聚类对应于可用于确定鉴别测试受试者表现出的预测基因型的参考映射图。这种鉴别可以通过执行图4的步骤406、408和410(接收从测试受试者获得的测序数据;将测试度量与基因型聚类比较;以及选择最接近测试度量的基因型聚类)来执行。在这个实施例中,测试度量可对应于映射图上的一对坐标,并且可以选择最接近测试度量的基因型聚类。然后,将所选择的基因型聚类的基因型用于预测测试受试者的状态。如果测试度量在图6中所示的任一圆圈之外,或与任一基因型聚类相距太远,那么可将本文所述的测试确定为不确定的。
实施例
实施例1.单个位点或单个基因拷贝数变异的确定
概述
在一些实施方案中,本公开的方法使用分子倒置探针(MIP)(例如,5'磷酸化的单链DNA捕获探针)制备靶向文库以用于大规模平行测序。将这些MIP一起在低浓度(例如,1-100pM)下加入于混合物中,用基因组DNA孵育,向其上加入聚合酶和连接酶的混合物以形成单链DNA环(MIP复制子)。然后将核酸外切酶混合物加入到混合物中以去除过量探针和基因组DNA,然后将其进行索引PCR反应以增加独特样品条形码和测序衔接子。从而,可以将测定分成三个部分:1)靶富集;2)多路复用测序的样品条形编码;以及3)大规模平行测序。
靶富集
靶富集是指在测序之前选择特定的目标区(例如,靶位点或序列)的能力。例如,如果目标是检查一大群个体的20个特定基因,那么对每个个体的整个基因组进行取样是浪费并且极其昂贵的。相反,靶富集技术允许从每个个体选择扩增的区,并且因此仅对特定的目标区域(例如,靶位点或序列)诸如图8中所描绘的捕获DNA进行测序。
多路复用测序的样品条形编码
在靶富集过程期间条形编码样品使人能够每次测序操作汇集多个样品,并且基于条形码在数据分析步骤期间将样品源去卷积。图9中的图解说明示例性MIP,其中UMI是指独特分子标识符,即独特分子标签,并且样品索引是指每个单独受试者的独特样品条形码。
使用扩增子加标签的文库制备
用于下一代测序的文库制备是目前整个下一代测序过程的最耗时并且费力的部分。尽管对于全基因组测区研究来说是必要的,但是对于重测序计划来说通过使用本空开的一些实施方案中的方法可以基本上消除这个过程。通过将衔接子序列并入到引物设计中,MIP扩增子产物准备好直接进入克隆扩增,因为其已经含有必要的捕获序列。
大规模平行测序
GCS LDT 8001测定(本公开中开发的携带者筛查测定)被设计成在IlluminaHiSeqTM 2500装置上操作。在用MIP产生靶向DNA文库之后,使用Illumina HiSeq 2500以快速运行模式分析文库。
在这里,DNA模板通过衔接子杂交到平坦表面,其中每个DNA模板通过固相PCR来克隆扩增(也称为桥式扩增)。这样产生具有高密度空间上不同的聚类的表面,其中每个聚类含有独特DNA模板。这些聚类通过使四种空间上不同的可逆染料终止子以溶液流的形式在DNA聚合酶的存在下流过表面来加引物并且测序。由于链终止核苷酸的3'修饰,仅单个碱基延伸为可能的,并且每个聚类仅并入一种类型的核苷酸,如通过形成聚类的DNA模板所决定。通过表面的荧光成像来检测所有聚类中并入的碱基,之后化学去除染料和终止子,产生可延伸的碱基,将这些碱基准备用于新一轮测序。可逆染料终止SBS中产生的最常见的测序错误为取代。这种测定使用双端读长作为变型。
在特定实施例中,从人受试者获得血液或漱口水/口腔样品以确定关于目标靶位点(序列)的携带者状态。在登记之后,提取血液和漱口水/口腔样品的基因组DNA。将基因组DNA样品(4μL)加入到“探针混合物”板(96孔)中,所述板固定用于捕获的探针混合物(16μL)。探针混合物含有靶分子倒置探针(MIP)(例如,针对SMN1/SMN2)和多个对照MIP的混合物。将这些探针在热循环仪上孵育并且放回到机器人系统以用于加入延伸/连接混合物。加入延伸/连接混合物(20μL),然后将板再次在热循环仪中孵育,随后放回机器人系统上以用于加入核酸外切酶混合物。加入核酸外切酶混合物(10μL),并且将板在热循环仪上孵育,随后储存或进行测序步骤。将含有靶向MIP复制子和对照MIP复制子的板放置在机器人液体转运站上,并且将10μL从板转运到以96孔格式的索引PCR混合物中以连接索引引物、大规模平行测序衔接子和独特样品条形码。将板结合热循环仪上96孔板中的另一组样品运行。将带条形码的样品以每个5μL汇集到单个小瓶中。将汇集的产物通过AmPure珠粒进行纯化,在BioAnalyzer、Caliper或等效的仪器上针对大小和污染进行QC(参见手册)。然后用Quibit宽范围染料测定对池的DNA含量进行定量(参见手册)。然后基于DNA和凝胶大小的估计产生文库。然后将这个文库与另一个96孔板文库(每个孔对应于不同的样品)组合。一旦获得192个样品的文库,便将其加载到Illumina快速运行HiSeq 2500流动池上(参见手册)。然后使用双端106个碱基对的试剂盒根据指令运行Illumina HiSeq以用于测序。产生数据并将其发送到Progenity测序驱动器并且根据运行数和日期来储存。通过定制序列分析工作流程分析数据,包括比对、变体认证(variant calling)、QC和样品报告指令。
用于测量PCE值的SMN1/SMN2MIP的序列为如下:
/5Phos/AGG AGT AAG TCT GCC AGC ATT NNN NNN NNN NCT TCA GCT TCC CGATTA CGG GTA CGA TCC GAC GGT AGT GTN NNN NNN NNN AAA TGT CTT GTG AAA CAA AATGCT
工作流程概述如下(还参见图7):
·在实验中,使用探针池使96个DNA样品(优化板)通过全局携带者筛查(GCS)测定。
·此实验中的探针池由1471种独特探针组成。
·靶捕获:
1)用于此实验的1471种探针来自GCS_G-W IDT板(17个板;每种探针以在100uM下40ul的形式);每个反应中使用250ng DNA;样品细节参见表1。
2)制备靶捕获主混合物(参见下表)
3)将4ul样品加入到16ul捕获混合物中。
4)热循环仪程序:GCS MIP捕获物(在Veriti热循环仪上)
·延伸/连接
5)制备延伸/连接主混合物(使用构建板):
试剂 | X1 | X106 |
10mM dNTP | .6ul | 63.6ul |
100X NAD | .8ul | 84.8ul |
5M甜菜碱 | 3ul | 318ul |
10X Amp连接酶缓冲液 | 2ul | 212ul |
Amp连接酶,5U/ul | 2ul | 212ul |
Phusion Pol HF,2U/ul | 0.5ul | 53ul |
水 | 11.1ul | 1176.6ul |
总体积 | 20ul | 600ul |
6)将20ul延伸/连接混合物加入到每个样品中。
7)热循环仪程序:GCS MIP Ext/Lig(在Veriti热循环仪上)
56℃ | 60min |
72℃ | 20min |
37℃ | 保持 |
8)制备核酸外切酶主混合物(使用构建板):
9)将10ul主混合物加入到每个反应中。
10)热循环仪程序:GCS CCCP核酸外切酶消化(在Veriti热循环仪上)
37℃ | 45min |
80℃ | 20min |
4℃ | 永远 |
11)在冰上冷却样品(可任选地在-20℃下储存)
·PCR扩增
12)1:10稀释引物(100uM至10uM)
REV引物(100uM) | 4ul |
水 | 36ul |
13)环状CCCP扩增PCR主混合物:
试剂 | X1 | X106 |
CCCP环状DNA | 10ul | - |
5X Phusion HF缓冲液 | 10ul | 1060ul |
10mM dNTP | 1ul | 106ul |
Phusion Pol HS,2U/ul | 1ul | 106ul |
FWD引物(100uM) | 0.25ul | 26.5ul |
通用引物(REV;10uM) | 2.5ul | - |
水 | 25.25ul | 2676.5ul |
总体积 | 50ul | 3975ul |
14)将10ul样品和2.5ul引物加入到37.5ul PCR混合物中
15)热循环仪程序:GCS CCCP PCR(在Veriti上)
16)使用Ampure珠粒纯化扩增产物:
a.汇集5uL每个样品,并且将50ul池与50ul Ampure珠粒混合。5分钟之后,将样品用170ul 70%EtOH洗涤两次,干燥5分钟,并且将团块重悬浮于45uL EB缓冲液中。
b.将纯化的池在Qubit和Bioanalyzer上进行QC。
表1
图6为遵循上文所述的工作流程,用于与从测试受试者评估的测试度量比较的六个说明性基因型聚类(SMN1/SMN2)的图。
实施例2:唐氏综合征(21三体性)的检测
唐氏综合征为与智力障碍、个性面相和其他症状相关联的染色体病状。
唐氏综合征的最常见病因为21三体性,即,患者体内的每个细胞具有三个21号染色体拷贝。可以对遍布于21号染色体数N(例如,N=5)个位点加以选择,例如,就以下基因而言外显子1的第一个碱基:TPTE、CHODL、CCT8、PSMG1和PRMT2。设计这些位点中每一个位点的靶向探针(例如靶向性MIP)以及其他染色体上对照位点的集合。然后将本公开的一些实施方案中的拷贝计数方法应用于Chr21上这五个位点中的每一个位点。预期T21阳性样品显示所有五个位点的探针捕获效率(PCE)增加50%。
唐氏综合征较不常见的病因是当21号染色体的一部分连接到另一个染色体时,导致患者体内每个细胞中chr21节段有三个拷贝。为了检测此类病状,将Chr21上位点数从N=5增加至较大数目。在这种条件下,预期患者样品显示仅这些位点的一部分的PCE值增加50%。此类位点对应于连接到另一个染色体的Chr21节段。
实施例3:1p36缺失综合征的检测
1p36缺失综合征为常常导致重度智力障碍以及某些典型的颅面特征的病症。其影响5000名中1名与10000名中1名之间的新生儿。在1p36患者中,1号染色体短臂上的节段丢失。为了检测此类病状,选择1号染色体短臂(1p36)的最远区带上数目N(例如N=5)个位点。通过应用本公开的实施方案的系统和方法,预期阳性样品显示比那些探针小的PCE。
实施例4:BRCA1/2中缺失的检测
本公开可以应用于检测BRCA1和/或BRCA2中的缺失突变。在一个实施例中,可以检测BRCA1外显子11的部分缺失。
从具有已知突变状态的人受试者获得血液样品,并且提取出gDNA。在进行测定之间,可以通过超声处理至大小在350-650个碱基对范围内来剪切gDNA。DNA的剪切可以通过允许获取基因组的传统上难以获取的区(诸如富GC区)来大大改善测定效率。
选择跨越BRCA1外显子11内40bp缺失的探针并且以浓度10pM使用。例如,用于检测缺失的MIP序列为如下:
/5Phos/GTCTGAATCAAATGCCAAAGTNNNNNNNNNNCTTCAGCTTCCCGATTACGGGTACGATCCGACGGTAGTGTNNNNNNNNNNTCCCCTGTGTGAGAGAAAAGA(SEQ ID NO:9)
使用包括上文序列的探针池使96个DNA样品通过多路复用测定。具体来讲,探针池可在多路复用测定中包括1、2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000个其他探针(或任何其他数目的探针)以查询多个基因组位置。在此实施例中,测试68个样品的BRCA1外显子11拷贝数变异。
如下概述工作流程:
靶捕获:
1.制备靶捕获主混合物:
2.将5ul样品加入到15ul捕获混合物中
3.热循环仪程序:GCS靶捕获
延伸/连接:
4.制备延伸/连接主混合物:
5.将20ul延伸/连接混合物加入到每个样品中。
6.热循环仪程序:GCS延伸连接
核酸外切酶消化:
7.制备核酸外切酶主混合物:
8.将10ul主混合物加入到每个反应中。
9.热循环仪程序:GCS核酸外切酶消化
10.在冰上冷却样品(任选地在-20C下)
PCR扩增:
11.制备环状扩增PCR主混合物:
12.将10ul样品和5ul引物加入到35ul PCR混合物中
13.热循环仪程序:HCP PCR扩增
14.扩增之后将选择样品在tapestation上进行QC。
15.使用Ampure珠粒纯化扩增产物。从每个样品汇集5ul,并且将池与480ulAmpure珠粒混合。5分钟之后,将样品用960ul 70%EtOH洗涤两次,干燥26分钟,并且将团块重悬浮于40ul低TE缓冲液中。将纯化的池在Qubit上进行QC。
在上文所述的15个步骤测定之后,将汇集的96个样品文库在Illumina HiSeq2500仪器上使用160个循环的双端测序进行测序。将所得读长通过修剪、过滤和标记来处理直到它们与基因组对齐。将来源于选择的MIP的与BRCA1外显子11的靶区对齐的独特分子标签数(或捕获事件数)进行计数,并且在本文可称为uBRCA1_外显子11。为了计算每个样品的BRCA1外显子11的探针捕获度量,将这个独特分子标签数通过归一化因数进行归一化,所述归一化因数可包括跨整个样品的独特分子标签的总数。在实施例中,归一化因数由EQ.1的分母表示。在另一个实施例中,用于归一化uBRCA1_外显子11的归一化因数可以仅包括EQ.1中对照捕获事件的总和或u对照i,s的总和,其中i=1、2……J,其中J为样品s中使用的对照群体数。然后将所得探针捕获度量再次归一化以反映出已知正常样品中两个拷贝的存在。例如,可以基于对照群体的状态,或在得知已知样品中样品拷贝数之前将探针捕获度量归一化(以得到例如一或二的平均值)。在另一个实施例中,如果样品的拷贝数是未知的,那么可以执行类似于步骤526的归一化过程。具体来说,可以通过复合对照群体将探针捕获度量归一化。测定结果(其中uBRCA1_外显子11是通过u对照i,s的总和来归一化,并且所得探针捕获度量是基于对照群体的状态来归一化)显示于图10中,其描绘归一化BRCA1外显子11拷贝数的箱线图。表示了总计68个数据点,包括66个两拷贝数据点和两个一拷贝数据点。
如使用UMI计数所计算的BRCA1外显子11的归一化CNV直接鉴别68个样品中每个样品的BRCA1外显子11拷贝数。除确定拷贝数之外,归一化CNV评分清楚地分开正常样品(2个拷贝)和具有BRCA1外显子11部分缺失的样品(1个拷贝)。
为BRCA1外显子11缺失所测试的68个样品的样品细节和结果显示于以下表2中。
表2
实施例5:DMD基因中外显子水平缺失和重复的检测
本公开可用于检测DMD基因中外显子水平缺失和重复。DNA样品可以获自具有已知DMD突变的个体以进行实验。探针池可包括浓度范围为10pM至20pM的520个独特探针。所有探针可以跨越内含子/外显子边界并且镶嵌79个DMD外显子。表3列举用于外显子水平拷贝计数的一组DMD MIP或探针。
表3
在实验中,将96个DNA样品使用表3中所述的探针池并且根据以下工作流程运行通过DMD测定。测试这些样品中31个样品的DMD拷贝数变异,并且31个样品的结果显示于表4中。
如下概述工作流程:
靶捕获:
1.制备靶捕获主混合物:
2.将6ul样品加入到14ul捕获混合物中。
3.热循环仪程序:靶捕获
延伸/连接:
4.制备延伸/连接主混合物:
5.将20ul延伸/连接混合物加入到每个样品中。
6.热循环仪程序:延伸连接
核酸外切酶消化:
7.制备核酸外切酶主混合物:
8.将10ul主混合物加入到每个反应中。
9.热循环仪程序:核酸外切酶消化
10.在-20C下储存样品或前进至PCR扩增。
PCT扩增:
11.制备环状扩增PCR主混合物:
12.将10ul样品和5ul REV引物加入到35ul PCR混合物中
13.热循环仪程序:DMD PCR扩增
14.使用Ampure珠粒纯化扩增产物。从每个样品汇集5ul,并且将45ul池与45ulAmpure珠粒混合。5分钟之后,将样品用180ul70%EtOH洗涤两次,干燥5分钟,并且将团块重悬浮于35ul EB缓冲液中。将32ul上清液去除并且转移到干净的1.5ml LoBind DNA管中。这个管含有最终纯化的文库。将纯化的池使用Qubit测定进行QC,之后加载到MiSeq测序平台上。
在上文所述的14个步骤测定之后,将汇集的96个样品文库在Illumina MiSeq仪器上使用125个循环的双端测序进行测序。将所得读长通过修剪、过滤和标记读长来处理直到它们与基因组对齐。将来源于每个DMD探针的与靶区对齐的独特分子标签数进行计数,并且在本文可称为uDMD。为了计算每个DMD探针的探针捕获度量,将这个独特分子标签数(uDMD)通过归一化因数进行归一化,所述归一化因数可包括跨整个样品的独特分子标签的总数。在实施例中,归一化因数由EQ.1的分母表示。在另一个实施例中,用于归一化uDMD的归一化因数可以仅包括EQ.1中对照捕获事件的总和或u对照i,s的总和,其中i=1、2……J,其中J为样品s中使用的对照群体数。然后将所得探针捕获度量再次归一化以反映出已知正常样品中一个或两个拷贝的存在。具体来说,因为DMD在X染色体上,所以预期正常男性样品具有一个拷贝,并且预期正常女性样品具有两个拷贝。例如,可以基于对照群体的状态,或在得知已知样品中样品拷贝数之前将探针捕获度量归一化(以得到例如一或二的平均值)。在另一个实施例中,如果样品的拷贝数是未知的,那么可以执行类似于步骤526的归一化过程。具体来说,可以通过复合对照群体将探针捕获度量归一化。
将每个外显子的所得归一化探针捕获度量(其中uDMD是通过u对照来归一化,并且所得探针捕获度量是基于对照群体的状态来归一化)取平均,然后将DMD基因中所有79个外显子的平均值作图,如图11-14中所示。将结果以图形的方式显示,其中y轴指示归一化探针捕获度量并且x轴指示DMD基因中的外显子。作为参考,图11-14中的每个图包括四个正常女性样品(对于图11-13)或四个正常男性样品(对于图14)。显著高于参考值的数据点指示对应外显子的重复,并且显著低于参考值的数据点指示对应外显子的缺失。如图11中所示,女性(样品NA04099)表现出多个外显子49-52处的DMD缺失。如图12中所示,女性(样品NA04315)表现出单个外显子44处的DMD缺失。如图13中所示,女性(样品NA23099)表现出多个外显子8-17处的DMD重复。如图14中所示,男性(样品NA23159)表现出单个外显子17处的DMD重复。测定直接鉴别以下表4中列举的所有31个样品中的外显子水平缺失/重复。
表4
出于说明性目的,本公开所提供的实施例主要集中在确定拷贝数变异、染色体异常或微缺失的系统和方法的许多不同示例性实施方案。但是应理解,可以在不显著改变本公开的功能和操作的情况下对一个或多个实施方案的大体形状和设计做出变化。此外应当指出的是,任何一个实施方案中所述的特征和限制可以应用于本文任何其他实施方案,并且关于一个实施方案的描述和实施例可以合适的方式与任何其他实施方案组合。此外,本公开中提供的附图和实施例意图仅为示例性的,并且不具有限制性。还应当指出的式,本文所述的系统和/或方法可应用于其他系统和/或方法或依照其他系统和/或方法使用,包括可能或可能不直接涉及确定拷贝数变异的系统和/或方法。
Claims (81)
1.一种检测受试者的拷贝数变异的方法,包括:
a)获得从所述受试者分离的核酸样品;
b)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a)中获得的所述核酸样品的一条或多条靶序列以产生每条靶序列的多个靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中、在所述靶群体的每个成员中和在每个所述靶群体中是不同的;
c)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
d)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤b)和c)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
e)对于每个靶群体,确定步骤d)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
f)对于每个对照群体,确定步骤d)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
g)对于每条所述一条或多条靶序列至少部分地基于步骤e)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤f)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
h)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
i)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的测试归一化靶探针捕获度量;
j)将步骤i)中获得的每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考核酸样品、使用步骤b)-g)和i)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
k)基于步骤j)中的比较和参考受试者的所述已知基因型确定所述一条或多条目的靶序列中每条的拷贝数变异。
2.如权利要求1所述的方法,其中所述核酸样品为DNA或RNA。
3.如权利要求1或2所述的方法,其中所述核酸样品为基因组DNA。
4.如权利要求1-3中任一项所述的方法,其中所述受试者为一种或多种疾病或病状的携带者筛查候选人。
5.如权利要求1-3中任一项所述的方法,其中所述受试者为以下的候选人:
a)药物基因组学测试;
b)靶向肿瘤测试;或
c)外显子缺失测试。
6.如权利要求1-5中任一项所述的方法,其中每个所述靶向性多核苷酸臂的长度在18与35个碱基对之间。
7.如权利要求1-5中任一项所述的方法,其中每个所述对照多核苷酸臂的长度在18与35个碱基对之间。
8.如权利要求1-7中任一项所述的方法,其中每个所述靶向性多核苷酸臂的解链温度为57℃与63℃之间。
9.如权利要求1-7中任一项所述的方法,其中每个所述对照多核苷酸臂的解链温度为57℃与63℃之间。
10.如权利要求1-9中任一项所述的方法,其中每个所述靶向性多核苷酸臂的GC含量为30%与70%之间。
11.如权利要求1-9中任一项所述的方法,其中每个所述对照多核苷酸臂的GC含量为30%与70%之间。
12.如权利要求1-11中任一项所述的方法,其中每个所述独特靶向性分子标签的长度在12与20个碱基对之间。
13.如权利要求1-11中任一项所述的方法,其中每个所述独特对照分子标签的长度在12与20个碱基对之间。
14.如权利要求1-13中任一项所述的方法,其中每个所述独特靶向性分子标签或所述对照分子标签不与所述受试者的任何基因组区大致上互补。
15.如权利要求1-13中任一项所述的方法,其中所述多核苷酸接头不与所述受试者的任何基因组区大致上互补。
16.如权利要求1-15中任一项所述的方法,其中所述多核苷酸接头的长度为30与40之间个碱基对。
17.如权利要求1-15中任一项所述的方法,其中所述多核苷酸接头的解链温度为60℃与80℃之间。
18.如权利要求1-15中任一项所述的方法,其中所述多核苷酸接头的GC含量为30%与70%之间。
19.如权利要求1-15中任一项所述的方法,其中所述多核苷酸接头包含5'-CTTCAGCTTCCCGATATCCGACGGTAGTGT-3'(SEQ ID NO:1)。
20.如权利要求1-19中任一项所述的方法,其中靶向性MIP的所述多个靶群体和对照MIP的所述多个对照群体在探针混合物中。
21.如权利要求20所述的方法,其中所述探针混合物的浓度为1-100pM之间;10-100pM之间;50-100pM之间;或10-50pM之间。
22.如权利要求1-21中任一项所述的方法,其中每个所述靶向性MIP复制子为单链环状核酸分子。
23.如权利要求22所述的方法,其中步骤b)中所提供的每个所述靶向性MIP复制子通过以下产生:
iii)所述第一靶向性多核苷酸臂和所述第二靶向性多核苷酸臂分别杂交到所述核酸中分别侧接所述靶序列的所述第一区和所述第二区;以及
iv)杂交之后,使用连接/延伸混合物延伸和连接两个靶向性多核苷酸臂之间的空位区以形成单链环状核酸分子。
24.如权利要求1-23中任一项所述的方法,其中每个所述对照MIP复制子为单链环状核酸分子。
25.如权利要求24所述的方法,其中步骤b)中所提供的每个所述对照MIP复制子通过以下产生:
iii)所述第一对照多核苷酸臂和所述第二对照多核苷酸臂分别杂交到所述核酸中分别侧接所述对照序列的所述第一区和所述第二区;以及
iv)杂交之后,使用连接/延伸混合物延伸和连接两个对照多核苷酸臂之间的空位区以形成单链环状核酸分子。
26.如权利要求1-25中任一项所述的方法,其中测序步骤d)包括下一代测序方法。
27.如权利要求26所述的方法,其中所述下一代测序方法包括大规模平行测序方法或大规模平行短读长测序方法。
28.如权利要求1-27中任一项所述的方法,其中所述方法包括在测序步骤d)之前进行扩增所述靶向性MIP复制子和所述对照MIP复制子的PCR反应,以产生所述靶向性MIP扩增子和所述对照MIP扩增子以用于测序。
29.如权利要求28所述的方法,其中所述PCR反应为索引PCR反应。
30.如权利要求29所述的方法,其中所述索引PCR反应将以下组件引入到每个所述靶向性MIP复制子或所述对照MIP复制子以产生带条形码的靶向性MIP扩增子或对照MIP扩增子:一对索引引物、独特样品条形码和一对测序衔接子。
31.如权利要求30所述的方法,其中所述带条形码的靶向性MIP扩增子依次包含以下组件:
第一测序衔接子–第一测序引物–第一独特靶向性分子标签–第一靶向性多核苷酸臂–捕获的靶核酸–第二靶向性多核苷酸臂–第二独特靶向性分子标签–独特样品条形码–第二测序引物–第二测序衔接子;或
其中所述带条形码的对照MIP扩增子依次包含以下组件:
第一测序衔接子–第一测序引物–第一独特对照分子标签–第一对照多核苷酸臂–捕获的对照核酸–第二对照多核苷酸臂–第二独特对照分子标签–独特样品条形码–第二测序引物–第二测序衔接子。
32.如权利要求1-31中任一项所述的方法,其中至少一条所述一条或多条靶序列和至少一条所述对照序列在相同染色体上。
33.如权利要求1-31中任一项所述的方法,其中至少一条所述一条或多条靶序列和至少一条所述对照序列在不同染色体上。
34.如权利要求1-33中任一项所述的方法,其中所述靶序列为SMN1/SMN2。
35.如权利要求34所述的方法,其中SMN1/SMN2的所述靶序列的所述第一靶向性多核苷酸引物包含序列5'-AGG AGT AAG TCT GCC AGC ATT-3'(SEQ ID NO:2)。
36.如权利要求34或35所述的方法,其中SMN1/SMN2的所述靶序列的所述第二靶向性多核苷酸引物包含序列5'-AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:3)。
37.如权利要求34-36中任一项所述的方法,其中所述多核苷酸接头包含5'-CTT CAGCTT CCC GAT ATC CGA CGG TAG TGT-3'(SEQ ID NO:1)。
38.如权利要求34-37中任一项所述的方法,其中SMN1/SMN2的所述靶序列的所述MIP包含序列5'-AGG AGT AAG TCT GCC AGC ATT NNN NNN NNN NCT TCA GCT TCC CGA TTA CGGGTA CGA TCC GAC GGT AGT GTN NNN NNN NNN AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:4)。
39.如权利要求1-38中任一项所述的方法,其中所述对照序列包含选自由以下项组成的组的一个或多个基因或序列:CFTR、HEXA、HFE、HBB、BLM、IDS、IDUA、LCA5、LPL、MEFV、GBA、MPL、PEX6、PCCB、ATM、NBN、FANCC、F8、CBS、CPT1、CPT2、FKTN、G6PD、GALC、ABCC8、ASPA、MCOLN1、SPMD1、CLRN1、NEB、G6PC、TMEM216、BCKDHA、BCKDHB、DLD、IKBKAP、PCDH15、TTN、GAMT、KCNJ11、IL2RG和GLA。
40.一种检测受试者的拷贝数变异的方法,包括:
a)从所述受试者分离基因组DNA样品;
b)将所述基因组DNA样品加入到多孔板的每个孔中,其中所述多孔板的每个孔包含探针混合物,其中所述探针混合物包含靶向性分子倒置探针(MIP)的多个靶群体、对照MIP的多个对照群体和缓冲液;
其中靶向性MIP的每个靶向性群体能够扩增步骤a)中获得的所述基因组DNA样品的不同靶序列,
其中每个靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
其中对照MIP的每个对照群体能够扩增步骤a)中获得的所述基因组DNA样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述基因组DNA中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
c)将所述基因组DNA样品与所述靶向性MIP的所述探针混合物一起孵育以捕获所述靶序列,并且与所述对照MIP的所述探针混合物一起孵育以捕获所述对照序列;
d)将延伸/连接混合物加入到针对所述靶向性MIP和捕获的靶序列的c)的样品中以形成靶向性MIP复制子,并且加入到针对所述对照MIP和捕获的对照序列的c)的样品中以形成对照MIP复制子,其中所述延伸/连接混合物包含聚合酶、多个dNTP、连接酶和缓冲液;
e)将核酸外切酶混合物加入到所述靶向性MIP复制子和所述对照MIP复制子中以去除过量探针或过量基因组DNA;
f)将索引PCR混合物加入到e)的样品中以增加一对索引引物,将独特样品条形码和一对测序衔接子加入到所述靶向性MIP复制子和所述对照MIP复制子中以产生靶向性MIP扩增子和对照MIP扩增子;
g)对于每个靶群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
h)对于每个对照群体,使用大规模平行测序方法确定步骤f)中所提供的所述带条形码的对照MIP扩增子中存在的所述独特对照分子标签数;
i)对于每条靶序列至少部分地基于步骤g)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤h)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
j)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
k)通过从满足所述至少一个标准的对照探针捕获度量的所述亚组计算的因数归一化每个靶探针捕获度量,以获得每条靶序列的测试归一化靶探针捕获度量;
l)将每个测试归一化靶探针捕获度量与多个参考归一化靶探针捕获度量比较,所述参考归一化靶探针捕获度量是基于从表现出已知基因型的参考受试者获得的参考基因组DNA样品、使用步骤b)-h)中的所述相同靶序列和对照序列、靶群体、对照群体的一个亚组来计算;以及
m)基于步骤l)中的比较和参考受试者的所述已知基因型确定每条靶序列的拷贝数变异。
41.一种核酸分子,其包含序列:
5'-AGG AGT AAG TCT GCC AGC ATT NNN NNN NNN NCT TCA GCT TCC CGA TTA CGGGTA CGA TCC GAC GGT AGT GTN NNN NNN NNN AAA TGT CTT GTG AAA CAA AAT GCT-3'(SEQ ID NO:4)。
42.如权利要求41所述的核酸分子,其中所述核酸为5'磷酸化的。
43.一种用于产生基因型聚类的方法,所述方法包括:
a)接收从多个受试者的多个亚组的多个核酸样品获得的序列数据,所述多个样品中的每个样品从不同受试者获得,并且每个亚组的特征在于受试者表现出目的基因的某一已知基因型,其中所述多个受试者中每个受试者的所述核酸样品的所述测序数据通过以下获得:
i)获得从所述受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a.i)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的靶向性MIP复制子,
其中每个所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于从所述多个亚组中的受试者获得的每个相应样品:
i)对于每个靶群体,确定步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
ii)对于每个对照群体,确定步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
iii)对于每条靶序列至少部分地基于步骤b.i)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤b.ii)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
iv)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
v)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个靶探针捕获度量,以获得每个所述一个或多个条靶位点的归一化靶探针捕获度量;以及
c)跨从受试者的每个亚组获得的所述样品,对所述归一化靶探针捕获度量进行分组以获得所述已知基因型的所述基因型聚类。
44.如权利要求43所述的方法,其中在步骤b.iii)计算所述靶探针捕获度量包括通过所述独特靶向性分子标签数和所述独特对照分子标签数的和归一化步骤b.i)中所确定的所述独特靶向性分子标签数。
45.如权利要求43所述的方法,其中在步骤b.iii)计算所述多个对照探针捕获度量包括对于每个对照群体通过所述独特靶向性分子标签数和所述独特对照分子标签数的和归一化步骤b.ii)中所确定的独特对照分子标签数。
46.如权利要求43-45中任一项所述的方法,其中所述靶群体的所述靶探针捕获度量指示相对于所述多个对照群体杂交到所述不同对照序列的能力,所述靶群体杂交到所述目的靶序列的能力。
47.如权利要求43-46中任一项所述的方法,其中相应对照群体的每个对照探针捕获度量指示相对于1)所述靶群体杂交到所述靶序列的能力和2)其余对照群体杂交到相应对照序列的能力,所述相应对照群体杂交到所述对照序列之一的能力。
48.如权利要求43-47中任一项所述的方法,其中所述目的靶序列位于所述目的基因上,并且所述对照序列对应于与所述目的基因不同的一个或多个参考基因。
49.如权利要求43-48中任一项所述的方法,其中所述目的基因为运动神经元存活1(SMN1)基因和/或运动神经元存活2(SMN2)基因。
50.如权利要求43-49中任一项所述的方法,其中所述至少一个标准包括要求所述对照探针捕获度量高于第一阈值并且低于第二阈值。
51.如权利要求50所述的方法,其还包括至少部分地基于在步骤b.iii)计算的所述靶探针捕获度量确定所述第一阈值和所述第二阈值。
52.如权利要求51所述的方法,其中至少部分地基于在步骤b.iii)计算的所述多个对照探针捕获度量进一步确定所述第一阈值和所述第二阈值。
53.如权利要求43-52中任一项所述的方法,其还包括对于每个对照群体,跨从所述多个亚组中的每个组获得的所述样品计算在步骤b.iii)计算的所述对照探针捕获度量的变异性系数。
54.如权利要求53所述的方法,其中所述至少一个标准包括要求所述变异性系数低于阈值。
55.如权利要求43-54中任一项所述的方法,其中在步骤b.v)计算的所述因数为满足所述至少一个标准的所述对照探针捕获度量的平均值。
56.如权利要求43-55中任一项所述的方法,其中第一亚组的特征在于受试者表现出已知拷贝计数的运动神经元存活1(SMN1)基因,并且第二亚组的特征在于受试者表现出已知拷贝计数的运动神经元存活2(SMN2)基因。
57.如权利要求43-56中任一项所述的方法,其中所述已知基因型对应于已知拷贝计数的运动神经元存活1(SMN1)基因或运动神经元存活2(SMN2)基因。
58.如权利要求43-57中任一项所述的方法,其中靶向性MIP的所述靶向性群体和对照MIP的所述对照群体中每个MIP的所述第一独特靶向性分子标签与所述第二独特靶向性分子标签和所述第一独特对照分子标签和所述第二独特对照分子标签随机地产生。
59.一种被配置成执行如权利要求43-58中任一项所述的方法的系统。
60.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令当在包括至少一个处理器的计算机化系统中执行时,使得所述处理器进行如权利要求43-58中任一项所述的方法的一个或多个步骤。
61.一种选择测试受试者的基因型的方法,所述方法包括:
a)接收从所述测试受试者的核酸样品获得的测序数据,其中所述核酸样品的所述测序数据通过以下获得:
i)获得从所述测试受试者分离的核酸样品;
ii)通过使用靶向性分子倒置探针(MIP)的一个或多个靶群体捕获在步骤a)中获得的所述核酸样品的一条或多条目的靶序列以产生每条靶序列的多个靶向性MIP复制子,
其中所述靶群体中的每个所述靶向性MIP依次包含以下组件:
第一靶向性多核苷酸臂-第一独特靶向性分子标签-多核苷酸接头-第二独特靶向性分子标签-第二靶向性多核苷酸臂;
其中每个靶群体中每个所述靶向性MIP的一对第一靶向性多核苷酸臂和第二靶向性多核苷酸臂是相同的,并且与所述核酸中分别侧接所述一个或多个靶向性MIP所靶向的所述目的靶序列的第一区和第二区大致上互补;
其中每个靶群体中每个所述靶向性MIP的所述第一独特靶向性分子标签和所述第二独特靶向性分子标签在每个所述靶向性MIP中和在所述靶群体的每个成员中是不同的;
iii)通过使用对照MIP的多个对照群体捕获在步骤a)中获得的所述核酸样品的多个对照序列以产生多个对照MIP复制子,对照MIP的每个对照群体能够扩增在步骤a)中获得的所述核酸样品的不同对照序列,
其中每个对照群体中的每个所述对照MIP依次包含以下组件:
第一对照多核苷酸臂-第一独特对照分子标签-多核苷酸接头-第二独特对照分子标签-第二对照多核苷酸臂;
其中每个对照群体中每个所述对照MIP的一对第一对照多核苷酸臂和第二对照多核苷酸臂是相同的,并且与所述核酸中分别侧接每个对照序列的第一区和第二区大致上互补;
其中每个对照群体中每个所述对照MIP的所述第一独特对照分子标签和所述第二独特对照分子标签在每个所述对照MIP中和在所述对照群体的每个成员中是不同的,并且与所述独特靶向性分子标签不同;
iv)对靶向性MIP扩增子和对照MIP扩增子进行测序,所述靶向性MIP扩增子和所述对照MIP扩增子扩增自在步骤a.ii)和a.iii)中获得的所述靶向性MIP复制子和所述对照MIP复制子;
b)对于每个靶群体,确定步骤a.iv)中所测序的所述靶向性MIP扩增子中存在的所述独特靶向性分子标签数;
c)对于每个对照群体,确定步骤a.iv)中所测序的所述对照MIP扩增子中存在的所述独特对照分子标签数;
d)对于每个靶位点至少部分地基于步骤b)中确定的所述独特靶向性分子标签数计算靶探针捕获度量,并且至少部分地基于步骤c)中确定的所述独特对照分子标签数计算多个对照探针捕获度量;
e)鉴别具有满足至少一个标准的对照探针捕获度量的对照MIP的所述对照群体亚组;
f)通过从满足所述至少一个标准的所述对照探针捕获度量计算的因数归一化每个所述一个或多个靶探针捕获度量,以获得每条所述一条或多条靶序列的归一化靶探针捕获度量;
g)接收对应于正规化靶探针捕获度量的一组值,所述值是从表现出目的基因的相同已知基因型的多个第一参考受试者的核酸样品计算;
h)将步骤f)中获得的每个所述一个或多个归一化靶探针度量与步骤g)中接收的所述组值比较;以及
i)基于步骤h)中的比较确定所述测试受试者是否在每条所述一条或多条靶序列中表现出所述目的基因的所述相同已知基因型。
62.如权利要求61所述的方法,其中所述组值为第一组值,所述相同已知基因型为第一拷贝数的所述目的靶序列,所述方法还包括:
j)接收对应于正规化靶探针捕获度量的第二组值,所述值是从表现出第二拷贝数的所述目的靶序列的多个第二参考受试者的核酸样品计算;以及
k)将步骤f)中获得的所述归一化靶探针捕获度量与所述第二组值比较,其中步骤i)中的确定包括在所述测试受试者的所述第一拷贝数与所述第二拷贝数之间进行选择。
63.如权利要求62所述的方法,其中:
步骤h)中的比较包括计算步骤f)中获得的所述归一化探针捕获度量与所述第一组值之间的第一距离度量;
步骤k)中的比较包括计算步骤f)中获得的所述归一化探针捕获度量与所述第二组值之间的第二距离度量;以及
在所述第一拷贝数与所述第二拷贝数之间进行选择包括如果所述第一距离度量小于所述第二距离度量,那么选择所述第一拷贝数,以及如果所述第一距离度量超过所述第二距离度量,那么选择所述第二拷贝数。
64.如权利要求63中任一项所述的方法,其中所述第一组值和所述第二组值通过以下计算:
对于所述多个第一参考受试者和所述多个第二参考受试者中的每个受试者,重复步骤a-f);
对于所述多个第一参考受试者,将所述归一化靶探针捕获度量进行分组以获得所述第一组值;以及
对于所述多个第二参考受试者,将所述归一化靶探针捕获度量进行分组以获得所述第二组值。
65.如权利要求61-64中任一项所述的方法,其中在步骤d)计算所述靶探针捕获度量包括通过所述独特靶向性分子标签数和所述独特对照分子标签数的和归一化步骤b)中所确定的所述独特靶向性分子标签数。
66.如权利要求61-65中任一项所述的方法,其中在步骤d)计算所述多个对照探针捕获度量包括对于每个对照群体通过所述独特靶向性分子标签和所述独特对照分子标签数的和归一化步骤c)中所确定的所述独特对照分子标签数。
67.如权利要求61-66中任一项所述的方法,其中所述靶群体的所述靶探针捕获度量指示相对于所述多个对照群体杂交到所述对照序列的能力,所述靶群体杂交到所述目的靶序列的能力。
68.如权利要求61-67中任一项所述的方法,其中所述目的靶序列在所述目的基因上,并且所述对照序列对应于与所述目的基因不同的一个或多个参考基因。
69.如权利要求61-68中任一项所述的方法,其中所述目的基因为运动神经元存活1(SMN1)基因和/或运动神经元存活2(SMN2)基因。
70.如权利要求61-69中任一项所述的方法,其中所述至少一个标准包括要求所述对照探针捕获度量高于第一阈值并且低于第二阈值。
71.如权利要求70所述的方法,其还包括至少部分地基于在步骤d)计算的所述靶探针捕获度量确定所述第一阈值和所述第二阈值。
72.如权利要求71所述的方法,其中至少部分地基于在步骤d)计算的所述多个对照探针捕获度量进一步确定所述第一阈值和所述第二阈值。
73.如权利要求61-72中任一项所述的方法,其还包括对于每个对照群体,计算在步骤d)计算的所述对照探针捕获度量的变异性系数。
74.如权利要求73所述的方法,其中所述至少一个标准包括要求所述变异性系数低于阈值。
75.如权利要求61-74中任一项所述的方法,其中在步骤f)计算的所述因数为满足所述至少一个标准的所述对照探针捕获度量的平均值。
76.如权利要求61-75中任一项所述的方法,其中所述目的靶序列在运动神经元存活1(SMN1)基因和/或运动神经元存活2(SMN2)基因上。
77.如权利要求76所述的方法,其中所述相同已知基因型对应于已知拷贝计数的SMN1基因或SMN2基因。
78.一种被配置成执行如权利要求61-77中任一项所述的方法的系统。
79.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令当在包括至少一个处理器的计算机化系统中执行时,使得所述处理器进行如权利要求61-77中任一项所述的方法的一个或多个步骤。
80.如权利要求41-55、58和61-75中任一项所述的方法,其中所述受试者或所述测试受试者为一种或多种疾病或病状的携带者筛查候选人。
81.如权利要求41-55、58和61-75中任一项所述的方法,其中所述受试者或所述测试受试者为以下候选人:
a)药物基因组学测试;
b)靶向肿瘤测试;或
c)外显子缺失测试。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562198644P | 2015-07-29 | 2015-07-29 | |
US62/198,644 | 2015-07-29 | ||
PCT/US2016/044915 WO2017020024A2 (en) | 2015-07-29 | 2016-07-29 | Systems and methods for genetic analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108138220A true CN108138220A (zh) | 2018-06-08 |
Family
ID=56686916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680053786.0A Pending CN108138220A (zh) | 2015-07-29 | 2016-07-29 | 遗传分析的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190024149A1 (zh) |
EP (1) | EP3329014A2 (zh) |
CN (1) | CN108138220A (zh) |
CA (1) | CA2993619A1 (zh) |
WO (1) | WO2017020024A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108779487A (zh) * | 2015-11-16 | 2018-11-09 | 普罗格尼迪公司 | 用于检测甲基化状态的核酸和方法 |
CN111292804A (zh) * | 2020-04-08 | 2020-06-16 | 北京智因东方转化医学研究中心有限公司 | 一种借助高通量测序检测smn1基因突变的方法和系统 |
WO2022242734A1 (zh) * | 2021-05-21 | 2022-11-24 | 上海绾塍生物科技有限公司 | 分析来自样品的靶分子的组合物和方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3329010B1 (en) | 2015-07-29 | 2019-07-10 | Progenity, Inc. | Nucleic acids and methods for detecting chromosomal abnormalities |
US20200017917A1 (en) * | 2017-03-03 | 2020-01-16 | Yale University | Mapping a Functional Cancer Genome Atlas of Tumor Suppressors Using AAV-CRISPR Mediated Direct In Vivo Screening |
US20200010903A1 (en) * | 2017-03-03 | 2020-01-09 | Yale University | AAV-Mediated Direct In vivo CRISPR Screen in Glioblastoma |
CN106834502B (zh) * | 2017-03-06 | 2018-06-26 | 明码(上海)生物科技有限公司 | 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法 |
CN107345249B (zh) * | 2017-06-26 | 2021-05-28 | 中国人民解放军第一八一医院 | hsa_circRNA_103112在唐氏综合征的诊断、治疗及预后中的应用 |
US11519024B2 (en) | 2017-08-04 | 2022-12-06 | Billiontoone, Inc. | Homologous genomic regions for characterization associated with biological targets |
CN111051511A (zh) * | 2017-08-04 | 2020-04-21 | 十亿至一公司 | 用于与生物靶相关的表征的靶相关分子 |
CN109593757B (zh) * | 2017-09-30 | 2021-08-03 | 厦门艾德生物医药科技股份有限公司 | 一种探针及其适用于高通量测序的对目标区域进行富集的方法 |
WO2019104076A1 (en) * | 2017-11-27 | 2019-05-31 | F. Hoffman-La Roche Ag | Normalization and baseline shift removal for nanopore-sbs signals |
CN108396057B (zh) * | 2018-02-28 | 2021-11-09 | 重庆市肿瘤研究所 | 基于长链分子倒置探针的核酸靶向捕获测序文库制备方法 |
AU2019247652A1 (en) | 2018-04-02 | 2020-10-15 | Enumera Molecular, Inc. | Methods, systems, and compositions for counting nucleic acid molecules |
CN108642172A (zh) * | 2018-05-18 | 2018-10-12 | 江苏医诺万细胞诊疗有限公司 | 人类脊髓性肌萎缩症相关基因缺失检测的荧光定量pcr试剂盒 |
CN108707647A (zh) * | 2018-08-03 | 2018-10-26 | 佛山市顺德区辉锦创兴生物医学科技有限公司 | 脊髓性肌萎缩症检测试剂盒及其应用 |
WO2020206170A1 (en) | 2019-04-02 | 2020-10-08 | Progenity, Inc. | Methods, systems, and compositions for counting nucleic acid molecules |
CN110592208B (zh) * | 2019-10-08 | 2022-05-03 | 北京诺禾致源科技股份有限公司 | 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置 |
US11475981B2 (en) | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
US11211147B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing |
US11211144B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Methods and systems for refining copy number variation in a liquid biopsy assay |
CA3195721A1 (en) | 2020-09-21 | 2022-03-24 | Progenity, Inc. | Compositions and methods for isolation of cell-free dna |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080269068A1 (en) * | 2007-02-06 | 2008-10-30 | President And Fellows Of Harvard College | Multiplex decoding of sequence tags in barcodes |
CN101821619A (zh) * | 2007-09-07 | 2010-09-01 | 弗卢丁公司 | 拷贝数变化确定、方法和系统 |
WO2010126614A2 (en) * | 2009-04-30 | 2010-11-04 | Good Start Genetics, Inc. | Methods and compositions for evaluating genetic markers |
US20130072390A1 (en) * | 2011-03-21 | 2013-03-21 | Affymetrix, Inc. | Methods for Synthesizing Pools of Probes |
WO2014039556A1 (en) * | 2012-09-04 | 2014-03-13 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US20140342354A1 (en) * | 2013-03-12 | 2014-11-20 | Counsyl, Inc. | Systems and methods for prenatal genetic analysis |
US20140357513A1 (en) * | 2006-04-24 | 2014-12-04 | Fluidigm Corporation | Assay methods |
US20150141257A1 (en) * | 2013-08-02 | 2015-05-21 | Roche Nimblegen, Inc. | Sequence capture method using specialized capture probes (heatseq) |
-
2016
- 2016-07-29 EP EP16751732.5A patent/EP3329014A2/en not_active Ceased
- 2016-07-29 CA CA2993619A patent/CA2993619A1/en not_active Abandoned
- 2016-07-29 WO PCT/US2016/044915 patent/WO2017020024A2/en unknown
- 2016-07-29 CN CN201680053786.0A patent/CN108138220A/zh active Pending
-
2017
- 2017-07-29 US US15/746,328 patent/US20190024149A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140357513A1 (en) * | 2006-04-24 | 2014-12-04 | Fluidigm Corporation | Assay methods |
US9090934B2 (en) * | 2006-04-24 | 2015-07-28 | Fluidigm Corporation | Methods for detection and quantification of nucleic acid or protein targets in a sample |
US20080269068A1 (en) * | 2007-02-06 | 2008-10-30 | President And Fellows Of Harvard College | Multiplex decoding of sequence tags in barcodes |
CN101821619A (zh) * | 2007-09-07 | 2010-09-01 | 弗卢丁公司 | 拷贝数变化确定、方法和系统 |
WO2010126614A2 (en) * | 2009-04-30 | 2010-11-04 | Good Start Genetics, Inc. | Methods and compositions for evaluating genetic markers |
US20130072390A1 (en) * | 2011-03-21 | 2013-03-21 | Affymetrix, Inc. | Methods for Synthesizing Pools of Probes |
WO2014039556A1 (en) * | 2012-09-04 | 2014-03-13 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US20140342354A1 (en) * | 2013-03-12 | 2014-11-20 | Counsyl, Inc. | Systems and methods for prenatal genetic analysis |
US20150141257A1 (en) * | 2013-08-02 | 2015-05-21 | Roche Nimblegen, Inc. | Sequence capture method using specialized capture probes (heatseq) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108779487A (zh) * | 2015-11-16 | 2018-11-09 | 普罗格尼迪公司 | 用于检测甲基化状态的核酸和方法 |
CN111292804A (zh) * | 2020-04-08 | 2020-06-16 | 北京智因东方转化医学研究中心有限公司 | 一种借助高通量测序检测smn1基因突变的方法和系统 |
WO2022242734A1 (zh) * | 2021-05-21 | 2022-11-24 | 上海绾塍生物科技有限公司 | 分析来自样品的靶分子的组合物和方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190024149A1 (en) | 2019-01-24 |
CA2993619A1 (en) | 2017-02-02 |
EP3329014A2 (en) | 2018-06-06 |
WO2017020024A2 (en) | 2017-02-02 |
WO2017020024A3 (en) | 2017-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108138220A (zh) | 遗传分析的系统和方法 | |
JP7021148B2 (ja) | 性染色体におけるコピー数変異を判定するための方法 | |
US12087401B2 (en) | Using cell-free DNA fragment size to detect tumor-associated variant | |
TWI661049B (zh) | 使用不含細胞之dna片段大小以測定複製數變異之方法 | |
Kukurba et al. | RNA sequencing and analysis | |
EP3329010B1 (en) | Nucleic acids and methods for detecting chromosomal abnormalities | |
US20210327538A1 (en) | Methods and systems for calling ploidy states using a neural network | |
JP6328934B2 (ja) | 非侵襲性出生前親子鑑定法 | |
DK3078752T3 (en) | SOLUTION OF REFRACTIONS USING POLYMORPHISM COUNTIES | |
CN108603228A (zh) | 通过分析无细胞dna确定肿瘤基因拷贝数的方法 | |
JP7009518B2 (ja) | 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム | |
CA3049455C (en) | Sequencing adapter manufacture and use | |
KR102543270B1 (ko) | 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법 | |
CN112970068A (zh) | 用于检测样品之间的污染的方法和系统 | |
EP4428244A2 (en) | Methods and compositions for analyzing nucleic acid | |
Kukurba | Unraveling the Functional Significance of Regulatory Variation Across the Human Genome | |
Johansson | Looking through the noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180608 |