CN102597272A - 基因座的拷贝数分析 - Google Patents

基因座的拷贝数分析 Download PDF

Info

Publication number
CN102597272A
CN102597272A CN2010800510343A CN201080051034A CN102597272A CN 102597272 A CN102597272 A CN 102597272A CN 2010800510343 A CN2010800510343 A CN 2010800510343A CN 201080051034 A CN201080051034 A CN 201080051034A CN 102597272 A CN102597272 A CN 102597272A
Authority
CN
China
Prior art keywords
copy number
sample
confidence
target gene
gene seat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800510343A
Other languages
English (en)
Inventor
V·R·埃克麦弗
B·亨德里克森
T·肖勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genzyme Corp
Esoterix Genetic Laboratories LLC
Original Assignee
Esoterix Genetic Laboratories LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Esoterix Genetic Laboratories LLC filed Critical Esoterix Genetic Laboratories LLC
Publication of CN102597272A publication Critical patent/CN102597272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

用于分析目标基因座的拷贝数、检测与目标基因的异常拷贝数相关的疾病或其携带者的系统及方法。

Description

基因座的拷贝数分析
相关申请
本申请要求保护2009年11月12日提交的美国临时申请No.61/260,804的利益和优先权,将所述临时申请的完整内容通过引用并入本文。
序列表
本说明书参考序列表(2010年11月12日以称为"SeqListing.txt"的.txt文件电子提交的)。所述.txt文件于2010年11月12日产生,大小为6kb。将序列表的完整内容通过引用并入本文。
背景
存在于个体的每一个细胞中的基因拷贝数可具有重要的临床意义。例如,具有常染色体基因的少于两个正常拷贝数的个体可能处于增加的产生疾病的风险中和/或为疾病的携带者。因此,基因拷贝数估值可具有改变生活的结果。例如,确定疾病携带者状态的基因拷贝数估值可影响夫妇拥有孩子的决定。
发明概述
本发明包括承认:用于测定基因座的拷贝数的诊断工具可通过生物测定法与生物测定测量的质量和/或拷贝数调用(copy number call)的统计置信度的全面性评估的组合来进行改进。因此,本发明,除其它以外,提供了与基因座的异常拷贝数相关的疾病、病症或病况或其携带者的更准确可靠的诊断方法,显著地降低了假阳性率。
因此,在一个方面,本发明提供了分析目标基因座的拷贝数的方法,包括:(a)提供多个生物样本,每一个单个生物样本包含目标基因座和一个或多个具有已知拷贝数的参照基因座;(b)实施多个生物测定,其中每一个单个生物测定分析每一个单个生物样本的所述目标基因座和所述一个或多个参照基因座并且产生可检测的信号,以便目标基因座和一个或多个参照基因座的可检测信号的水平与它们各自的拷贝数相关;(c)基于多个生物测定来确定针对一个或多个参照基因座标准化的目标基因座的多个拷贝数估值;和(d)评估拷贝数估值的质量和/或拷贝数调用的统计置信度,从而确定是否能产生目标基因座的拷贝数调用。
在一些实施方案中,目标基因座包含基因或其部分。在一些实施方案中,目标基因座包含运动神经元生存蛋白1(SMN1)的外显子或其部分。在一些实施方案中,SMN 1的外显子为外显子7。在一些实施方案中,一个或多个参照基因座选自SMARCC1和SUPT5H。
在一些实施方案中,上述步骤(b)中的生物测定法是实时PCR(RT-PCR)测定法,其扩增目标基因座和一个或多个参照基因座。在一些实施方案中,可检测信号是荧光信号,在RT-PCR的每一个扩增循环检测目标基因座或一个或多个参照基因座的荧光信号的水平。
在一些实施方案中,上述步骤(c)包括如下步骤:(i)确定每一个单个生物样本中目标基因座与一个或多个参照基因座达到预定荧光信号水平所需的循环次数之间的差异(ΔCti);(ii)产生反映正常目标基因座与一个或多个参照基因座之间的差异的校准器(calibrator)
Figure BDA00001626690400021
和(iii)通过将步骤(i)中确定的循环次数的差异ΔCti针对校准器
Figure BDA00001626690400022
t)标准化确定每一个单个生物样本中目标基因座的拷贝数估值。在一些实施方案中,步骤(i)包括首先测量每一个目标基因座和一个或多个参照基因座达到预定的荧光信号水平所需的循环次数(Cti)。在一些实施方案中,校准器
Figure BDA00001626690400023
由多个生物样本的目标基因座与一个或多个参照基因座之间的ΔCti的修剪均数(trimmed mean)(例如,80%修剪均数)来确定。
在一些实施方案中,在线性标度上确定每一个单个生物样本中的目标基因座的拷贝数估值。在一些实施方案中,在对数标度上确定每一个单个生物样本中的目标基因座的拷贝数估值。
在一些实施方案中,基于对于一个或多个参照基因座产生的数据的质量评估目标基因座的拷贝数估值的质量。在一些实施方案中,通过确定测量置信度和/或调用置信度(call confidence)来评估统计置信度。
在一些实施方案中,重复上述步骤(b)中进行的生物测定。在一些实施方案中,通过计算重复生物测定的测量置信度和基于多个拷贝数估值的调用置信度来确定拷贝数调用的统计置信度。
在一些实施方案中,上述步骤(d)包括,如果调用置信度小于预定阈值,则确定不能产生目标基因座的拷贝数调用。
在另一个方面,本发明提供了检测与目标基因的异常拷贝数相关的疾病或其携带者的方法,所述方法包括(a)提供包含至少一个获自目标个体的生物样本的多个生物样本;(b)对多个生物样本的每一个进行多个重复生物测定以分析目标基因和一个或多个具有已知拷贝数的参照基因,其中多个重复生物测定的每一个产生可检测信号,以便目标基因与一个或多个参照基因的可检测信号的水平与它们各自的拷贝数相关;(c)确定针对一个或多个参照基因标准化的目标基因的拷贝数估值;和(d)评估目标个体的拷贝数估值的质量和/或拷贝数调用的统计置信度,从而确定个体的目标基因的拷贝数调用是否能产生。在一些实施方案中,本发明的发明方法还包括确定个体具有疾病还是处于发生所述疾病的风险中,或个体是否是疾病的携带者的步骤。在一些实施方案中,所述疾病为脊髓性肌萎缩(SMA)。在一些实施方案中,目标基因为运动神经元生存蛋白1(SMN1)。
在一些实施方案中,在上述步骤(b)中进行的生物测定法为实时PCR测定法。在一些实施方案中,上述步骤(b)包括进行扩增至少SMN1的外显子7的部分的实时PCR测定。在一些实施方案中,由生物测定产生的可检测信号为荧光信号,在RT-PCR的每一个扩增循环上检测目标基因或一个或多个参照基因的荧光信号水平。
在一些实施方案中,上述步骤(c)包括步骤:(i)确定为达到预定的荧光信号水平,每一个单个重复测定中目标基因与一个或多个参照基因之间的循环次数差异(ΔCti);(ii)产生反映正常目标基因与一个或多个参照基因之间的背景差异的校准器
Figure BDA00001626690400031
和(iii)通过针对校准器
Figure BDA00001626690400032
将步骤(i)中确定的循环次数差异ΔCti标准化来产生基于每一个单个重复测定的拷贝数估值。
在一些实施方案中,在线性标度上确定基于每一个单个重复测定的目标基因的拷贝数估值。在一些实施方案中,在对数标度上确定基于每一个单个重复测定的目标基因的拷贝数估值。
在一些实施方案中,评估拷贝数估值的质量包括产生基于循环次数测量及其针对一个或多个参照基因产生的扩增曲线斜率的质量控制度量。在一些实施方案中,评估拷贝数估值的质量包括测定多个重复生物测定之间的变化系数(coefficient of variation)。在一些实施方案中,评估拷贝数调用的统计置信度包括确定测量置信度和/或调用置信度。在一些实施方案中,通过计算多个重复生物测定的测量置信度和基于多个拷贝数估值的调用置信度来确定拷贝数调用的统计置信度。
在一些实施方案中,测量置信度被确定为围绕拷贝数估值的最大正态置信区间(normal confidence interval),所述最大正态置信区间是通过多个重复测定中的拷贝数估值的平均值和符合预定拷贝数限度内的平均值标准误差定义的。在一些实施方案中,上述步骤(d)包括:如果测量置信度不超过预定置信度阈值,则确定不能产生拷贝数调用。
在一些实施方案中,调用置信度确定来自邻近拷贝数分布的拷贝数估值的t检验的p值。在一些实施方案中,步骤(d)包括确定如果调用置信度小于预定置信度阈值,则不能产生拷贝数调用。
在一些实施方案中,本发明的发明方法还包括平行地分析一个或多个具有预定的目标基因拷贝数的对照样品。
在一些实施方案中,在多孔平板(例如,96孔或384孔平板)上进行对多个生物样本和一个或多个对照样品的生物测定。在一些实施方案中,本发明的发明方法还包括基于一个或多个对照样品的质量控制和统计分析确定平板质量控制度量。在一些实施方案中,如果一个或多个对照样品中的任何样品未通过质量控制或统计置信度评估之一或者如果任何单个对照样品的估值不等于预定拷贝数,则舍弃平板。
在一些实施方案中,适合用于本发明的生物样本包含来自细胞、组织、全血、血浆、血清、尿、粪便、唾液、脐带血、绒膜绒毛取样、绒膜绒毛取样培养物、羊水、羊水培养物或经子宫颈洗出液(transcervical lavage fluid)的核酸。在一些实施方案中,适合用于本发明的生物样本为出生前样品。
在另一个方面,本发明提供了用于分析目标基因座的拷贝数的系统,如本文中所描述的。在一些实施方案中,根据本发明的系统包括:a)接收多个生物样本的工具,其中每一个单个生物样本包含目标基因座和一个或多个具有已知拷贝数的参照基因座;b)进行多个生物测定的工具,其中每一个单个生物测定分析每一个单个生物样本的目标基因座和一个或多个参照基因座并且产生可检测信号,以便目标基因座和一个或多个参照基因座的可检测信号的水平与其各自拷贝数相关;c)经配置用以检测来自每一个单个生物样本的可检测信号并确定所述可检测信号的水平的确定模块;d)经配置用以存储来自确定模块的信号信息的存储设备;e)计算模块,其经改造适合(i)基于存储设备上存储的信号信息计算针对一个或多个参照基因座标准化的目标基因座的拷贝数估值和(ii)确定拷贝数估值的质量和/或拷贝数调用的统计置信度;和f)为用户显示部分基于计算内容和数据分析结果的显示模块,其中内容包括目标基因座的拷贝数调用和/或表示质量控制或统计置信度分析的任一个是否未通过的信号。在一些实施方案中,目标基因座包括运动神经元生存蛋白1(SMN1)的外显子或其部分。
在一些实施方案中,生物测定法为实时PCR测定法。在一些实施方案中,所述确定模块经配置用以确定每一个扩增循环上的可检测信号的水平并且所述可检测信号为荧光信号。
在一些实施方案中,所述计算模块经改造适合按照下列步骤计算目标基因座的拷贝数估值:(i)确定为达到预定的荧光信号水平,每一个单个样本中目标基因座与一个或多个参照基因座之间的循环次数差异(ΔCti);(ii)产生反映正常目标基因座与一个或多个参照基因座之间的背景差异的校准器
Figure BDA00001626690400051
和(iii)通过针对校准器
Figure BDA00001626690400052
标准化在步骤(i)测定的循环次数差异ΔCti来确定每一个单个生物样本中的目标基因座的拷贝数估值。
在一些实施方案中,所述计算模块经改造以适合通过至少产生基于循环次数测量及其针对一个或多个参照基因产生的扩增曲线斜率的质量控制度量(metrics)来确定拷贝数估值的质量。在一些实施方案中,所述计算模块经改造以适合通过至少确定样品变化系数来确定拷贝数估值的质量。在一些实施方案中,所述计算模块经改造以适合通过至少确定测量置信度并将确定的测量置信度与预定阈值限度相比较来确定拷贝数调用的统计置信度。在一些实施方案中,所述计算模块经改造以适合通过至少确定调用置信度并将确定的调用置信度与预定阈值限度相比较来确定拷贝数调用的统计置信度。在一些实施方案中,进一步改造所述计算模块以确定是否有对照样品未通过。
在另一个方面,本发明提供了计算机可读介质,其上记录有计算机可读指令以定义包括用于在计算机上执行本文中描述的方法的计算模块和显示模块的软件模块。在一些实施方案中,所述方法包括:a)利用计算模块进行计算,(i)基于存储在存储设备上的实时PCR数据,针对一个或多个参照基因座标准化的目标基因座的拷贝数估值和(ii)拷贝数估值的质量和/或拷贝数调用的统计置信度;和b)为用户显示部分基于计算和数据分析结果的内容,其中所述内容包括目标基因座的拷贝数调用和/或信号标示是否未通过质量控制或统计置信度分析的任一个。在一些实施方案中,目标基因座包含SMN1的外显子7或其部分。
在另一个但相关的方面,本发明提供了使用本文中描述的组合物和方法用于检测与基因座的异常拷贝数或等位基因变体相关的疾病、病症或病况或者其携带者的诊断试剂盒。在一些实施方案中,根据本发明的发明试剂盒适合用于诊断脊髓性肌萎缩(SMA)或其携带者。在一些实施方案中,根据本发明的试剂盒包括(a)用于扩增SMN1的外显子7或其部分的一种或多种试剂;(b)用于扩增一个或多个具有已知拷贝数的参照基因座的一种或多种试剂;和(c)本文中描述的计算机可读介质。
在本申请中,除非另外指出,否则“或”的使用表示“和/或”。如本申请中所使用的,术语“包含”和所述术语的变型例如“包括”和“含有”无意排除其它添加物、组分、整体或步骤。如本文中所使用的,术语“约”和“大约”是等同使用的。本申请中使用的具有或不具有约/大约的任何数字意指包括相关领域中的技术人员理解的任何正常波动。在某些实施方案中,除非另外指出或根据上下文很明显的(除了其中这样的数字超过可能值的100%的情况外),否则术语“大约”或“约”是指以任一方向(大于或小于)落在提及的参照值的25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%或更小内的值的范围。
本发明的其它特征、目的和有利方面示于随后详细的描述、附图和权利要求中。然而,应当理解,详细描述、附图和权利要求,当表示本发明的实施方案时,仅通过举例说明而非限定的方式给出。本发明的范围内的各种改变和变化对于本领域技术人员来说将是显然的。
附图概述
附图仅用于举例说明目的,而非用于限制。
图1描述了包含外显子7的SMN1基因的一部分的基因组序列。编码外显子7的序列以粗体标示。显示了可用于TAQMANTM分析的示例性引物和探针(加阴影的)。还描述了示例性测序引物(SMNFUP1和SMNRIP1)(加阴影的)。小写字母表示单核苷酸多态型。
图2描述了示例性平板形式,其中显示了包含2-拷贝对照、混合物(例如试剂与缓冲液的)空白对照和一式两份的样品的孔。
图3A和3B是举例说明可包括在分析系统中的计算装置的实施方案的方块图。
图4为举例说明分析系统的实施方案的方块图。
图5A为举例说明用于从384孔平板上重复(4个重复,每一个重复96个样本)进行的TAQMANTM实时PCR实验的Ct数据获得一组样本的拷贝数估值的方法的某些实施方案的概述的流程图。
图5B是举例说明用于进行平板质量控制的方法的实施方案的流程图。
图5C是举例说明用于进行样本质量控制的方法的实施方案的流程图。
图6A-B是描述用于显示样本和平板统计数字以及平板和样本质量控制的结果的版面设计(layout)的实施方案的屏幕截图。
定义
为了使本发明更容易理解,下面首先定义某些术语。下列术语和其它术语的附加定义示于说明书中说明。
如本文中所使用的,短语“等位基因”可与“等位基因变体”互换使用并且是指基因座或基因的变体。在一些实施方案中,基因座或基因的特定等位基因与特定表型相关,例如,改变的发生疾病或病况的风险,进展至特定疾病或病况阶段的可能性,对特定疗法的顺从性,对感染的易感性,免疫功能等。
如本文中所使用的,短语“生物样本”可与“生物样品”互换使用并且可称为“样本”或“样品”。如本文中所使用的短语“生物样本”是指获自任何活细胞或机体的,由所述活细胞或机体排泄或分泌的任何固体或液体(或其组合)样品。在某些实施方案中,生物样本包括核酸。生物样本的非限定性实例包括细胞、组织、全血、血浆、血清、尿、粪便、唾液、脐带血、绒膜绒毛取样、羊水和经子宫颈洗出液。任何生物样本的细胞培养物也可用作生物样本,例如绒膜绒毛取样的培养物和/或羊水培养物例如羊水细胞培养物。生物样本还可以是例如获自任何器官或组织的样品(包括活检组织或尸体解剖样本),可包括细胞(无论原代细胞还是培养的细胞),被任何细胞条件化的培养基,组织或器官,组织培养物。在一些实施方案中,可测定相同样本的重复。(参见下文中的“重复”)。
如本文中所使用的,短语“携带者”是指具有基因突变或等位基因变体但未显示与所述基因突变或等位基因变体相关的疾病的症状的个体。然而携带者通常能够将基因突变或等位基因变体传递至他们的后代,然后所述后代可以表达突变的基因或等位基因变体。通常,该现象是许多基因的隐性性质的结果。在某些实施方案中,携带者具有的突变或等位基因变体易于产生或与特定表型相关,例如改变的发生疾病或病况的风险,进展至特定疾病或病况阶段的可能性,对特定疗法的顺从性,对感染的易感性,免疫功能等。不受限制,携带者可具有减少的或增加的基因或基因的部分的拷贝数。携带者还可在基因内具有突变(例如,点突变、多态型、缺失、插入或易位等)。“携带者”在本文中也称为“基因携带者”。
如本文中所使用的,短语“拷贝数”,当用于指基因座时,是指每基因组或基因组等同物存在的这样的基因座的拷贝数。“正常拷贝数”,当用于指基因时,是指正常个体中存在的正常或野生型等位基因的拷贝数。在某些实施方案中,拷贝数的范围为0至2,包括0和2。在某些实施方案中,拷贝数的范围为0至3个拷贝(包括0和3个拷贝)、0至4个拷贝(包括0和4个拷贝)、0至6个拷贝(包括0和6个拷贝)、0至7个拷贝(包括0和7个拷贝)或0至超过7个拷贝(包括0和超过7的拷贝在内)。在其中基因座的拷贝数在群体的个体间变化较大的实施方案中,估算的中位拷贝数可被当作“正常拷贝数”以用于计算和/或比较目的。
如本文中所使用的,术语“基因”是指负责离散细胞(例如,细胞内或细胞外)产物和/或功能的离散核酸序列。更具体地,术语“基因”是指核酸,所述核酸包括编码蛋白质的部分以及任选地包括调控序列例如启动子、增强子、终止子等,所述调控序列参与由目标基因编码的蛋白质的表达的调控。如本文中所使用的,术语“基因”还可包括不编码蛋白质但却提供用于功能性RNA分子例如tRNA、rRNA等的转录的模平板的核酸。可选择地,基因可确定特定事件/功能的基因组定位,例如蛋白质和/或核酸结合位点。
术语“个体”和“受试者”在本文中可互换使用。如本文中所使用的,它们是指可患有疾病或病症(例如,脊髓性肌萎缩)或对所述疾病或病症易感但可以显示或可以不显示所述疾病或病症的症状的人或另一种哺乳动物(例如,小鼠、大鼠、兔子、狗、猫、牛、猪、绵羊、马或灵长类动物)。在许多实施方案中,受试者是人类。在许多实施方案中,受试者是患者。除非另有所指,否则术语“个体”和“受试者”不表示具体年龄,从而包括成年人、儿童(例如,幼儿或新生儿)和未出生婴儿。
如本文中所使用的,术语“基因座”是指特定DNA序列在染色体上的特定位置。如本文中所使用的,特定DNA序列可具有任何长度(例如,1、2、3、10、15或更多个核苷酸)。在一些实施方案中,基因座为或包含基因或基因的部分。在一些实施方案中,基因座为或包含基因的外显子或外显子的部分。在一些实施方案中,基因座为或包含基因的内含子或内含子的部分。在一些实施方案中,基因座为或包含基因的调控元件或调控元件的部分。在一些实施方案中,基因座与疾病、病症和/或病况相关。例如,基因座上的突变(包括缺失、插入、剪接突变、点突变等)可与疾病、病症和/或病况相关。
如本文中所使用的,术语“正常”,当用于修饰术语“拷贝数”或“基因座”或“基因”或“等位基因”时,是指以最高百分比存在于群体中的基因座、基因或等位基因(例如野生型数目或等位基因)的拷贝数。当用于修饰术语“个体”或“受试者”时,它们是指携带以最高百分比存在于群体中的基因座、基因或等位基因的拷贝数的个体或个体的组,例如野生型个体或受试者。通常,正常“个体”或“受试者”不具有特定的疾病或病况并且也不是所述疾病或病况的携带者。术语“正常”在本文中也用于定性从正常或野生型个体或受试者分离的生物样本或样品,例如“正常生物样品”。
如本文中所使用的,术语“探针”,当用于指核酸的探针时,是指具有可结合或与目标核酸杂交的特定核苷酸序列(例如,RNA或DNA)的核酸分子。通常,探针通过一个或多个类型的化学键(通常通过氢键形成)与互补序列或大体上互补的序列的核酸特异性结合(或特异性杂交)。在一些实施方案中,探针可在实时PCR反应中结合DNA扩增子的核酸。
如本文中所使用的,术语“重复”,当用于指生物测定时,是指进行以提高可靠性、容错性或有利于统计分析的一式二份测定或重复测定。在一些实施方案中,术语“重复”可与短语“重复测定”或“重复生物测定”互换使用。通常,使用来自相同或相似的采自相同个体的生物样本的材料进行重复测定。即,多个样本可获自特定的个体,和/或来自特定个体的单个样本可被分成部分(每一个部分用于重复测定或贮存以待以后使用)。在一些实施方案中,视预定统计阈值而定或任经验选择所使用的重复测定的次数。在一些实施方案中,使用一式两份、一式三份、一式四份、一式五份、一式六份、一式七份、一式八份、一式九份、一式十份或超过10个重复。在一些实施方案中,使用一式四份。
如本文中所使用的,术语“信号”是指可检测和/或可测量的实体。在某些实施方案中,信号可通过人眼检测,例如可见的。例如,信号可能与或可与可见光谱中颜色的强度和/或波长相关。这样的信号的非限定性实例包括因化学反应例如酶促反应而引起的着色沉淀物和着色可溶性产物。在某些实施方案中,信号可使用装置来检测。在一些实施方案中,信号产生自当激发时发射荧光的荧光基团,其中光可利用荧光检测器来检测。在一些实施方案中,信号为光(例如,可见光和/或紫外光)或与其相关,所述光可通过分光光度计检测。例如,由化学发光反应产生的光可用作信号。在一些实施方案中,信号为辐射或与其相关,例如由放射性同位素发射的辐射、红外辐射等。在某些实施方案中,信号为物理实体的性质的直接或间接指示剂。例如,信号可用作生物样品中和/或反应容器中核酸的的量和/或浓度的指示剂。
详述
本发明提供了更准确可靠的用于分析基因座的方法。除其它以外,本发明提供了通过组合生物测定与全面性质量控制和统计置信度评估来分析基因座(特别地,正常基因座)的拷贝数的方法。如实施例部分所描述的,本申请的发明人已成功地开发了有效且高效地组合生物和统计分析的系统和方法。在一些实施方案中,本发明利用通过计算机系统执行的算法,该算法通过确定例如生物测定的测量置信度和拷贝数调用的统计置信度来评估拷贝数估值的质量。在一些实施方案中,本文中公开的发明方法使用相同的生物测定法(例如,实时PCR)分析目标基因座和一个或多个具有已知拷贝数的参照基因座,以帮助进行质量控制和/或统计置信度评估。
许多基因座牵涉遗传病,并且这类基因座可使用本文中公开的方法来分析。因此,本文中公开的方法可有助于携带者的检测、患者的诊断、出生前诊断和/或用于植入的胚胎的基因分型等。如本领域技术人员所理解的,与目标基因座相关的遗传病可遵从许多遗传模式(包括例如,常染色体隐性、常染色体显性、伴性显性以及伴性隐性模式)的任一种。
在一些实施方案中,对基因座进行拷贝数分析,所述基因座的部分或全部的缺失牵涉疾病。目标基因座上的缺失包括但不限于少于20个碱基对(bp),20bp至100bp(包括20bp和100bp),100bp至200bp(包括100bp和200bp),200bp至500bp(包括200bp和500bp),500bp至1kp(包括500bp和1kp),1kb至2kb(包括1kb和2kb),2kb至5kb(包括2kb和5kb),5kb至10kb(包括5kb和10kb),10kb至20kb(包括10kb和20kb),20kb至30kb(包括20kb和30kb)和大于30kb的大小的缺失。
在一些实施方案中,对目标基因座进行拷贝数分析,所述目标基因座的一个或多个点突变和/或插入突变牵涉疾病。在这些情况下,可设计生物测定以检测存在于目标基因座上的正常序列或等位基因的拷贝数。例如,可使用区分突变与正常核苷酸序列的引物改造方法例如实时PCR,以便只有当正常序列存在时扩增才发生。
本发明的不同方面详细地描述于下列部分。部分的使用无意限定本发明。每一个部分可用于本发明的任何方面。在本申请中,除非另有所指,否则“或”的用途意指“和/或”。
I.目标基因座和相关遗传病、病症和病况
根据本发明的发明方法适合用于分析任何目标基因座的拷贝数。在某些实施方案中,目标基因座与疾病、病症或病况相关。例如,目标基因座上或其内的突变或等位基因变异可与改变的(例如,增加的或减少的)发生疾病、病症或病况的风险和/或其携带者的状态相关。在一些实施方案中,目标基因座上或其内的突变或等位基因变异与疾病、病症或病况或携带者状态之间存在因果关系。在一些实施方案中,目标基因座上或其内的突变或等位基因变异可与疾病、病症或病况共分离,但不直接促成所述疾病、病症或病况的发生。
在一些实施方案中,可根据本发明分析的目标基因座包括基因或其部分(例如,外显子、内含子、启动子或其它调控区)。表1列出了这类基因的非限定性实例和相关遗传病、病症或病况。如本领域技术人员所理解的,基因可以具有超过一个名称。表1的列表不排除可与特定疾病相关的另外的基因的存在。本发明包括那些另外的基因,包括在将来被发现与每一个特定疾病相关的那些基因。
表1:与遗传病、病症或病况相关的示例性基因
Figure BDA00001626690400131
因此,可使用本发明的发明方法分析的目标基因座包括但不限于表1中鉴定的基因或其部分(例如,外显子、内含子或调控区)。表1中鉴定的基因的序列在本领域是已知的并且可通过使用基因名称搜索数据库例如GenBank容易地获得,这样的序列通过引用并入本文。
虽然大多数基因通常以每基因组当量2个拷贝存在,但已发现大量基因,其拷贝数变异存在于个体之间。拷贝数差异可通过许多机制产生,包括但不限于基因复制事件、基因缺失事件、基因转换事件、基因重排、染色体转座(chromosome transposition)等。某些基因的拷贝数的差异可能牵涉包括但不限于发生疾病或病况的风险、进展至特定疾病或病况阶段的可能性、对特定疗法的顺从性、对感染的易感性、免疫功能等。除了表1中所列的基因外,本文中公开的方法适合用于分析具有这样的拷贝数变体的基因座上的拷贝数。在其地址为“http://”之后紧随“projects.tcag.ca/variation”(将其完整内容通过引用整体并入本文)的网站上维护的基因组变体的数据库列出超过至少38,406个拷贝数变体(至2009年3月11日)。(参见,例如,Iafrate等,(2004)“Detection of large-scale variation in the human genome”NatureGenetics.36(9):949-51;Zhang等(2006)“Development ofbioinformatics resources for display and analysis of copy numberand other structural variants in the human genome.”115(3-4):205-14;Zhang等,(2009)“Copy Number Variation in HumanHealth,Disease and Evolution,”Annual Review of Genomics andHuman Genetics.10:451-481;和Wain等(2009)“Genomic Copy Numbervariation,human health,and disease.”Lance t.374:340-350,将所述每一个文献的完整内容通过引用并入本文)。
SMN1、SMN2和脊髓性肌萎缩(SMA)
在一些实施方案中,目标基因座是基因运动神经元生存蛋白1(Survivor of Motor Neuron 1)(SMN1)或SMN1的部分(例如,外显子)。SMN1的部分人基因组序列描述于图1(关于人SMN1的信息,参见,例如,其地址为“http”之后紧随www.ncbi.nlm.nih.gov/ nuccore?Db=gene&Cmd=retrieve&dopt=full_report&list_uids=6606的网站上的美国生物技术信息中心(NCBI)的EntrezGene数据库中的Gene ID#6606,将其完整内容通过引用并入本文。人SMN1的示例性部分或完整基因组序列可在登录号NG_008691.1、NC_000005.9、NT_006713.15、AC_000048.1、NW_922707.1、AC_000137.1、NW_001838946.1和NW_001841229.1下见于NCBI核苷酸数据库中)。
SMN1为染色体5q13上的重复区域的部分,SMN1中的突变与脊髓性肌萎缩(SMA)相关,所述疾病为影响脊髓的脊髓前角中的运动神经元的不可治疗的常染色体隐性遗传障碍。由于携带者频率为1∶50至1∶30,因此SMA在西半球为囊性纤维化之后的第二大常见致命常染色体隐性遗传病。
约94%的所有SMA患者在两个等位基因中都不存在SMN1基因的外显子7。据认为基因缺失和基因转换事件可造成SMA患者中不存在SMN1的外显子7。在一些实施方案中,本发明的发明方法分析SMN1的部分或所有外显子7的拷贝数。关于SMN1的外显子7的基因序列,参见图1。
相关基因运动神经元生存蛋白2(SMN2)位于染色体5q13上SMN1的附近并且编码SMN1的同源物。虽然SMN2的编码序列相异于外显子7中的单个核苷酸(840C→T),但SMN2基因产物不能完全补偿SMN1的丢失。不受理论束缚,SMN2的位点840上翻译沉默C→T转换据认为减小外显子剪接增强子的活性,以便产生截断转录物。所述截断转录物据认为在细胞中是不稳定的并且被快速降解。虽然SMN2基因产物不能完全补偿SMN1的丢失,但一些最近的研究表明SMN2可能是SMN1的修饰基因(modifier)。在一些实施方案中,本发明可用于分析基因SMN2或SMN2的部分(例如,外显子)。
肿瘤抑制基因和/或癌基因
在一些实施方案中,目标基因座是癌症中牵涉的基因或基因的部分(例如,外显子),例如肿瘤抑制基因和/或癌基因。例如,表皮生长因子1(EGFR)为癌基因,其拷贝数在个体间变化。EGFR拷贝数在癌症例如非小细胞肺癌中可多于正常细胞,并且可牵涉对癌症治疗的顺从性。除了拷贝数变异外,还存在EGFR的许多突变变体,例如EGFR的外显子2-7的缺失。其拷贝数可使用本发明的方法来估值的其它或另外的基因的实例包括但不限于B-raf癌基因(BRAF);K-ras癌基因(KRAS);和磷脂酰肌醇3-激酶,催化的,α(PIK3CA)。其数目可使用本发明的方法来估值的肿瘤抑制基因的实例包括但不限于磷酸酶和张力蛋白同源物(PTEN)。(参见,例如,Moroni等(2005),“Gene copynumber for epidermal growth factor receptor(EGFR)and clinicalresponse to antiEGFR treatment in colorectal cancer:a cohortstudy.”Lancet Onco1.6(5):279-86.);和Soh等(2009)“Oncogenemutations,copy number gains and mut ant allele specificimbalance(MASI)frequently occur together in tumor cells.”4(10):e7464,将所述每一个文献的完整内容通过引用并入本文)。
与对感染的易感性有关的基因
在一些实施方案中,目标基因座为与对感染的易感性有关的基因或基因的部分(例如,外显子)。在一些实施方案中,目标基因座为CCL 3L1的基因或基因部分(例如,外显子)。CCL 3L1位于染色体17的q-臂上并且其拷贝数在个体中不同。大多数个体具有每二倍体基因组1至6个拷贝,一些个体无拷贝或具有超过6个拷贝。增加的CCL 31拷贝数与较低的对人HIV感染的易感性相关。CCL31编码结合几种趋化因子受体包括趋化因子结合蛋白2和趋化因子(C-C基序)受体5(CCR5)的细胞因子。CCR5为H I V的共受体,CCL 3L1对CCR5的结合抑制HI V进入。
参与调节免疫功能的基因
在一些实施方案中,目标基因座为参与调节免疫功能的基因或基因的部分(例如,外显子)。在一些实施方案中,目标基因座为FCGR 3B,其编码CD16表面免疫球蛋白受体。FCGR3B的低拷贝数与增加的对全身性红斑狼疮和类似炎性自身免疫障碍的易感性相关。已发现FCGR3B的拷贝数的变异与自闭症、精神分裂症和自发性学习无能(idiopathiclearning disability)相关。
II.参照基因座
根据本发明,通常使用相同的生物测定法将一个或多个参照基因座与目标基因座一起分析。参照基因座的拷贝数是已知的或使用相同生物测定法预定的。通常,适当的参照基因座具有稳定的拷贝数并且在不同生物样本之间不太可能改变。可将针对参照基因座产生的数据用于标准化目标基因座的拷贝数估值和/或帮助评估拷贝数估值的质量和/或关于测定法测量的统计置信度。
在一些实施方案中,参照基因座的拷贝数与目标基因座的正常拷贝数相同。在一些实施方案中,参照基因座的拷贝数超过目标基因座的正常拷贝数。在一些实施方案中,参照基因座的拷贝数少于目标基因座的正常拷贝数。在一些实施方案中,参照基因座和目标基因座在相同染色体上。在一些实施方案中,参照基因座和目标基因座在不同染色体上。
具有已知的拷贝数的任何基因座种类可用作参照基因座。在一些实施方案中,一个参照基因座可以是SMARCC1(染色质的SWI/SNF相关,基质相关,肌动蛋白依赖性调节剂,亚族c,成员1),或Ty 5同源物的抑制剂(SUPT5H)或其部分。
在一些实施方案中,将一个参照基因座与目标基因座一起分析。在一些实施方案中,将两个参照基因座与目标基因座一起分析。在一些实施方案中,分析超过2个参照基因座(例如,3、4、5、6或超过6个),将参照基因座与目标基因座一起分析。
III.拷贝数测定
目标基因座的拷贝数的确定通常包括对多个样本进行多个生物测定,如本文中所描述的。
1.生物样本
任何生物样本种类可以适合与本文中的方法一起使用。一般而言,可使用包含核酸的任何生物样本(例如,细胞、组织等)。在某些实施方案中,生物样本包含至少一个目标基因座和至少一个参照基因座。生物样本的类型包括但不限于细胞、组织、全血、血浆、血清、尿、粪便、唾液、脐带血、绒膜绒毛取样、羊水和经子宫颈洗出液。还可使用任何类型的活检组织。也可根据本发明的方法使用前面提及的样本的任一个的细胞培养物,例如绒毛膜绒毛培养物、羊水和/或羊水细胞培养物、血细胞培养物(例如,淋巴细胞培养物)等。在一些实施方案中,生物样本包含癌细胞。
在一些实施方案中,生物样本是出生前样品。例如,生物样本可包含胎儿细胞或无细胞核酸。在一些实施方案中,生物样本可包含无细胞胎儿核酸和无细胞母源核酸,例如,采自孕妇的母血(maternalblood)、血清或血浆。例如,样品例如羊水和/或母血可采自孕妇并且可测定其目标基因座的拷贝数。来自这类样品的拷贝数估值可提供与胎儿的疾病状态相关的信息,所述信息,除其它以外,在出生前诊断应用中是有用的。
可将直接采自个体或患者的生物样本用于生物测定。在一些情况下,可在将样本经历生物测定之前对生物样本进行一个或多个方法。例如,如果生物样本包含组织的固体和/或半固体团块,则首先可将生物样本处理成单细胞悬浮物。在一些实施方案中,如果生物样本包含液体和细胞,首先可将与液体分离。在一些实施方案中,如果生物样本包含液体,则分级分离样本。例如,可将血液样品分级分离成血液组分(例如,血浆和血清)并且可测定一个或多个组分。
在一些实施方案中,将生物样本在适当的贮存条件下贮存一定时期。可在适合于保存样本内的核酸的质量的温度下或温度范围内贮存样本。这样的范围在一些实施方案可取决于样本类型。在一些实施方案中,合适的贮存条件包括范围在约37℃与约-220℃之间(包括37℃和-220℃在内)的温度。在一些实施方案中,在约4℃、约0℃、约-10℃、约-20℃、约-70℃或约-80℃下贮存样品。在一些实施方案中,将样品贮存超过约24小时、超过2天、超过3天、超过4天、超过5天、超过6天、超过1周、超过2周、超过3周、超过4周、超过1个月或超过2个月。可在生物测定期间使用一些(例如,等分部分)或所有先前贮存的生物样本。
在一些实施方案中,可对这类生物样本进行一个或多个分子生物学操作。可在贮存之前和/或之后进行这样的操作,包括但不限于组织匀浆、核酸提取、蛋白质提取、除去核酸(例如,使用RNA酶)的处理、除去和/或分解蛋白质(例如,使用蛋白酶)的处理、破坏细胞膜(例如,使用去垢剂)的处理、核酸的分离等。这样的操作在本领域是已知的并且描述于例如Sambrook等(1989)“Molecular Cloning:ALaboratory Manual.”第2版,Cold Spring Harbour LaboratoryPress:New York,将其完整内容通过引用并入本文。
在一些实施方案中,对生物样本中的细胞进行计数(即,获得样本中的细胞总数的估算)。细胞计数可帮助例如确定样品的量,以获得用于分析的适宜生物样本的基因组等同物的一定估算数目。在一些实施方案中,每一个生物样本包含来自大致相同数目的细胞的核酸。
在一些实施方案中,在测定生物样本之前定量生物样本中的核酸的总量。在一些实施方案中,在测定生物样本之前定量生物样本中一个核酸亚组的量(例如,包含胎儿和母源核酸的混合物的样品中的胎儿核酸的量)。在一些实施方案中,在测定生物样本之前定量生物样本中脱氧核糖核酸的总量。在一些实施方案中,每一个生物样本包含大致相同量的总核酸。在一些实施方案中,每一个生物样本包含大致相同量的总脱氧核糖核酸。在一些实施方案中,每一个生物样本包含与多个分析中的其它生物样本大致相同数目的基因组等同物。
2.生物测定
通常,进行一个或多个生物测定以分析每一个生物样本中目标基因座和参照基因座的拷贝数。一般地,适合用于该目的生物测定法包括产生其水平与生物样本或样品中的基因座(例如,目标基因座或参照基因座)的拷贝数直接或间接相关的可检测信号的测定法。
可以以任何方式种类产生可检测信号,例如,使用可激发的荧光基团、酶促反应产物(例如,其量可使用分光光度计测量的沉淀物)等。
在某些实施方案中,可检测信号的水平与样品中的核酸量相关,样品中的核酸量与基因座(例如,目标基因座或参照基因座)的拷贝数相关。在一些实施方案中,在生物测定中产生的可检测信号与样品或生物样本中的脱氧核糖核酸相关。在一些实施方案中,生物测定中产生的可检测信号在大致线性标度上与生物样本或样品中的核酸(例如,脱氧核糖核酸)的量相关。在一些实施方案中,生物测定中产生的可检测信号在大致对数标度上与生物样本或样品中的核酸(例如,脱氧核糖核酸)的量相关。在一些实施方案中,生物测定中产生的可检测信号与样品或生物样本中的核酸(例如,脱氧核糖核酸)的量指数相关。在一些实施方案中,可凭经验确定检测信号之间的相关关系的性质。
在某些实施方案中,实时读取和/或记录产生的可检测信号,以便例如,可能产生生物样本或样品的可检测信号相对时间的曲线。
例如,在一些实施方案中,适合于本发明的生物测定法是实时聚合酶链式反应(rtPCR)法,其包括扩增核酸和当实时扩增核酸时定量核酸的量。可使用适当的寡核苷酸引物(所述引物经设计用以与侧翼连接目标基因座或参照基因座的核酸序列和/或所述目标基因座或参照基因座内的核酸序列杂交)帮助扩增特定目标或参照基因座。在一些实施方案中,生物测定包括检测与每一个扩增循环上的目标基因座或参照基因座的扩增子相关的信号的步骤。
例如,在TAQMANTM(Roche Molecular Systems的商标)实时PCR测定中,淬灭的荧光探针允许实时定量扩增的核酸。(参见,例如,Heid等,(1996)“Real time quantitative PCR,”Genome Research.6:986-994and Gibson等(1996)“A novel method for real timequantitative RT-PCR,”Genome Research.6:995-1001,将所述两个文献的完整内容通过引用并入本文)。淬灭的荧光探针通常包含经设计用以与核酸(通常是缀合至荧光基团和荧光淬灭剂的目标(例如,来自目标基因座或参照基因座的扩增子)的PCR扩增产物)杂交的寡核苷酸。荧光淬灭剂通常靠近给定的TAQMANTM上的荧光基团;从而,不能检测到源自荧光基团信号。当TAQMANTM探针分子与被扩增的核酸杂交时,荧光基团可在扩增循环的延伸部分期间通过聚合酶的外切核酸酶活性从探针释放。一旦从探针释放和(从而远离淬灭剂),就可检测到荧光基团。当被适当的波长激发时,荧光基团将发射该荧光基团的特定波长光谱特征的光。来自荧光基团的可检测信号从而可表示扩增产物。由于可实时测量样品或生物样本中的荧光信号,因此TAQMANTM实时PCR允许在例如每一个扩增循环上实时定量扩增产物(例如,来自目标基因座或参照基因座的扩增子)。
可使用任何荧光基团种类,对于将它们缀合至探针的方法亦如此。(参见,例如,R.P.Haugland,“Molecular Probes:Handbook ofFluorescent Probes and Research Chemicals 1992-1994”,第5版.Ed.,1994,Molecular Probes,Inc.)。适当的荧光基团的非限定性实例包括荧光、罗丹明、藻胆蛋白、青色素、香豆素、芘、绿色荧光蛋白、和它们的衍生物。可使用荧光基团的天然存在的和合成的衍生物。荧光素衍生物的实例包括异硫氰酸荧光素(FITC)、俄勒冈绿、东京绿、半萘并荧光素(SNAFL)和羧基萘并荧光素。罗丹明衍生物的实例包括罗丹明B、罗丹明6G、罗丹明123、四甲基罗丹明衍生物TRITC和TAMRA、磺酰罗丹明101(及其磺酰氯形式德克萨斯红)和罗丹明红。藻胆蛋白包括藻红蛋白、藻蓝蛋白、别藻蓝蛋白、藻红蓝蛋白(phycoerythrocyanin)和多甲藻素叶绿素蛋白(PerCP)。藻红蛋白的种类包括R-藻红蛋白、B-藻红蛋白和Y-藻红蛋白。青色素染料及其衍生物的实例包括Cy2(青色素)、Cy3(吲哚羰花青(indocarbocyanine))、Cy3.5、Cy5(吲哚二羰花青(indodicarbocyanine))、Cy5.5、Cy7、BCy7和DBCy7。绿色荧光蛋白衍生物的实例包括增强绿色荧光蛋白(EGFP)、蓝色荧光蛋白(BFP)、青色荧光蛋白(CFP)和黄色荧光蛋白(YFP)。
Figure BDA00001626690400232
染料(Invitrogen)以它们可替代的共同荧光基团或以它们的吸收/发射波长命名。
Figure BDA00001626690400233
染料包括BODIPY FL、BODIPY R6G、BODIPY TMR、BODIPY TR、BODIPY 581/591、BODIPY 630/650和BODIPY 650/665。Alexa
Figure BDA00001626690400234
染料(Invitrogen)也适合用于本发明的一些实施方案。Alexa
Figure BDA00001626690400235
染料以发射波长命名,包括Alexa Fluor 350、Alex Fluor 405、Alexa Fluor 430、Alexa Fluor 488、Alex Fluor500、Alexa Fluor 514、Alexa Fluor 532、Alexa Fluor 546、AlexaFluor 555、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 610、Alexa Fluor 633、Alexa Fluor 647、Alexa Fluor 660、Alexa Fluor680、Alexa Fluor 700和Alexa Fluor 750。
还可使用商购可得的荧光基团例如VICTM、JOETM和HEXTM(其各自可从Applied Biosystems获得)。
在一些实施方案中,TAMRA分子用作FAM荧光基团的淬灭剂。
在一些实施方案中,使用两种不同的探针,一种针对目标基因座,另一种针对一个或多个参照基因座。例如,可将具有一种类型的荧光基团的探针用于目标基因座,将具有其发射光谱区别于其它探针的另一种类型的荧光基团的探针用于参照基因座。在一些实施方案中,将具有FAM荧光基团的探针与具有VIC荧光基团的探针一起使用。
在PCR扩增中,扩增产物在几个时期内增加,通常在指数期的模式后,然后线性期以及随后平台期。在指数期期间,产物(例如,来自目标基因座或参照基因座的扩增子)通常在每一个PCR循环后增加一倍,因为试剂是新鲜且可获得的。随着试剂被消耗和耗尽,反应在“线性期”中开始减慢并且扩增子的量不再随着每一个循环增加一倍。最后,随着反应变得更慢和全部停止,达到“平台期”。因此,针对时间绘制的来自样本或样品的可检测信号(例如,荧光信号)的曲线通常会以该顺序显示指数期、线性期和平台期。在某些实施方案中,选择进行的PCR扩增循环的次数,以便反应进行至少通过指数期,至少进入线性期和/或至少进入平台期。例如,通常进行至少24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41或42个扩增循环。
如本文中所描述,可将经时的可检测信号的曲线用于估算拷贝数。选择预定的信号阈值,并且将达到给定生物样本或样品的阈值所需的PCR扩增循环次数称为循环阈(Ct)值。可将给定的目标生物样本(也称为“测试样品”)中的目标基因座的Ct值与通常与已知的拷贝数相关的Ct参照值相比较。在一些实施方案中,通过分析具有已知的拷贝数的参照基因座(命名为‘Z’)获得Ct参照值;在一些这样的实施方案,分析与目标基因座相同生物样品中的参照基因座,然后如下所述将针对每一个基因座获得的值彼此相互比较。
在某些实施方案中,选择信号的预定阈值,以便预期所有或大部分样品在PCR扩增反应的指数部分期间达到阈值。在某些实施方案中,确定拷贝数估值包括确定值ΔCt,其被定义为目标基因的循环阈值与一个或多个参照基因的循环阈值之间的差异,如所显示的:
(公式1)ΔCt≡CtR–CtT
如上所述,其中CtT为给定的测试样品中目标基因座的Ct值,CtR为C t参照值。
通常,ΔCt相关于给定的生物样本中目标基因座的拷贝数(T)与参照基因座(其拷贝数是已知的)的拷贝数(Z)的比率。例如,代表以每基因一个拷贝存在的目标基因座的扩增子的信号将落后于代表以两个拷贝存在的参照基因座的扩增子的信号一个扩增循环。因此,可根据下列公式定义ΔCt和目标基因座的拷贝数(T)与参照基因座的拷贝数(Z)的比率之间的关系:
(公式2) - ΔCt = log 2 ( Z T )
其中ΔCt和Z如上定义并且其中T为待分析的生物样本中目标基
因座的拷贝数。因此,可根据下列公式从Z和ΔCt确定T:
(公式3)T=Z·2ΔCt
例如,当Z=2并且ΔCt=-1时,则T=1,这与代表每基因组具有一个拷贝的目标基因座的扩增子的信号,当与代表每基因组具有2个拷贝的参照基因座的扩增子的信号相比较时,落后一个循环的理解相一致。
作为另一个实例,当Z=4并且ΔCt=-1时,则T=2。
在一些实施方案中,T被估值为整数值。
在一些实施方案中,T被估值为非整数值。可能可获得T的非整数估值,例如从异质生物样品。可产生非整数T估值的异质生物样本的实例包括但不限于具有异质目标基因座拷贝数的多克隆癌细胞的群体以及包含母源和胎儿核酸的样品。
虽然实时PCR法已被用于举例说明目的,但可改造用于定量(直接或间接)基因拷贝数的其它生物方法以适用于本文中的本发明的方法。此类方法包括但不限于PCR-ELOSA(PCR酶联寡核苷酸吸附测定;也称为“PCR-ELISA”)、基于阵列的比较型基因组杂交(aCGH)和高通量测序(例如,定量下一代测序法)。在PCR-ELOSA测定中,随着扩增进行,PCR产物与固定的捕获探针杂交。PCR-ELOSA有时用作实时PCR的替代方法。在CGH(也称为度量CGH)中,使用cDNA微阵列,其中阵列上的每一个点包含基因组目标。在高通量测序中,使用多个模板和多个引物的平行测序反应允许对基因组或大部分基因组进行快速测序。
在一些实施方案中,除了进行确定拷贝数的生物测定外,还可进行可提供其它有用信息的其它测定。例如,可对生物样本的目标基因座测序以确定是否存在有助于减少目标基因座的拷贝数的任何突变。
3.测定形式和对照
在某些实施方案中,平行进行多个生物测定以有利于更可靠和准确的拷贝数估值和统计分析。通常,平行测定获自多个个体的多个生物样本或样品。在一些实施方案中,多个生物测定(其在某些实施方案中包括对来自不同个体的样品的测定)还包括针对特定个体或对特定生物样本或样品进行的重复测定。例如,多个样品可获自特定个体和/或来自特定个体的单个样品可被分成亚单位(各亚单位被用作重复本或被贮存以待以后使用)用于重复测定。可根据预定统计阈值或凭经验选择所使用的重复的次数。在一些实施方案中,使用一式两份、一式三份、一式四份、一式五份、一式六份、一式七份、一式八份、一式九份、一式十份重复。在一些实施方案中,使用一式四份重复。
使用重复有助于产生某些统计学确定,如下文中进一步解释的。例如,在一些实施方案中,通过计算重复生物测定的测量置信度和基于多个拷贝数估值的调用置信度来确定拷贝数调用的统计置信度。
在一些实施方案中,利用获自个体或患者(测试样品)的生物样本平行地分析对照样品。对照样品可包括但不限于无模板对照(例如,在基于扩增的方法中)、具有已知的(例如,预定的)目标基因座的拷贝数的生物样品、用于校准可检测信号的其它参照样品及其任何组合。具有已知拷贝数的对照样品可获自许多来源,包括但不限于经验证的细胞系和/或来自正常个体或经确认患有与异常目标基因座拷贝数相关的疾病的患者(例如,经确认已丢失SMN1的外显子7的SMA患者)的生物样本。通常,如上文中对于测试样品所描述的,在对照上进行重复测定。在一些实施方案中,使用一式两份对照。
在一些实施方案中,可以以阵列形式进行多个生物测定(例如,来自不同个体)。可使用多种阵列形式帮助测定多个生物样本。在一些实施方案中,可在多孔平板上进行多个生物测定。适合用于本发明的示例性多孔平板包括但不限于24孔、48孔、96孔和384孔平板。这类平板可由适合与包括检测信号的方法一起使用的光学透明材料制造。可使用多个这类平板。通常地,将每一个生物样品或其亚单位置于这样的平板的单个孔中,平板可包括一个或多个空孔或只充满溶液(例如,缓冲液)的孔。在一些实施方案中,每一块平板包括一定数量和类型的对照,如上文中解释的。例如,可在每一块平板上包括无模板对照和具有已知拷贝数的对照。作为非限定性实例,384孔平板可包括一式四份的96个不同生物样本或对照。
图2描述了包括装有对照和样品重复的孔的示例性多孔平板。
此外或可选择地,适当的测定形式有助于同时进行至少50、100、120、140、160、180、200、220、240、260、280、300、320、340、360、380、400、420、440、460、480、500、520、540、560、580、600、620、640、660、680、700、720、740、760、780、800、820、840、860、880、900、920、940、960、980或1000个生物测定。
通常,大部分存在于多孔平板(或其它阵列形式)上的多个生物样本包含正常的目标基因座拷贝数。在一些实施方案中,超过75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的存在于多孔平板上的样品包含正常拷贝数的目标基因座。在一些实施方案中,超过99.0%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%的存在于多孔平板上的样品包含正常的拷贝数的目标基因座。
IV.评估拷贝数估值的质量和统计置信度
根据本发明的发明方法包括步骤:评估拷贝数估值的质量和/或拷贝数调用的统计置信度,从而确定是否能产生生物样本的目标基因座的拷贝数调用。在一些实施方案中,在执行算法的计算模块上评估拷贝数估值的质量和/或统计置信度,如在本文中“系统”部分中所描述的。
在一些包括多孔平板的实施方案中,算法记录了其中某些质量控制度量未通过的孔和哪个度量未通过。在一些实施方案中,算法记录了统计测试的结果和/或就该测试而言的样品的状态(例如,根据预定的阈值或范围通过或未通过)。
1.校准的拷贝数估值
在其中平行地对多个生物样本(例如,来自不同个体)进行多个生物测定的实施方案中,可计算每一个样本的ΔCt值(参见公式1)。仅为了举例说明目的,使用多孔平板作为实例。然而,本文中描述的方法可用于任何测定形式。
在一些实施方案中,计算平板上所有样品的“校准器”值
Figure BDA00001626690400281
以确定具有正常拷贝数的目标基因座与一个或多个参照基因座之间的背景循环次数差异。通常,所述校准器是基于来自平板上所有生物测定的ΔCt值的修剪均数计算的。在一些实施方案中,使用80%的修剪均数:
(公式4)
Figure BDA00001626690400282
基于校准器,可产生平板上每一个样品的目标基因座的拷贝数估值(Tci)(例如,校准的或标准化的拷贝数估值)。在一些实施方案中,可按照下列公式在线性标度上获得标准化的Tci
(公式5)(线性标度) T ci = Z · 2 ( ΔCt - Δ C ‾ t )
在一些实施方案中,可按照下列公式在对数标度上获得标准化的Tci:
(公式6)(对数标度) T ci = Z + ( ΔCt - Δ C ‾ t ) ,
可对基于相同个体或相同生物样本的重复测定的拷贝数估值求平均值。在一些实施方案中,可通过四舍五入平均拷贝数估值来产生拷贝数调用。
2.质量控制度量
在某些实施方案中,进行一组质量控制度量以评估是否在每一个生物样本中可产生目标基因座的拷贝数调用。在一些实施方案中,至少部分基于针对一个或多个参照基因座产生的数据的质量来评估目标基因座的拷贝数估值的质量,如本文中所论述的。
循环次数检查
在一些实施方案中,一组质量控制度量包括循环次数检查。如果给定的生物样本的一个或多个参照基因座的Ct值在预定范围之外,则样本未通过循环次数检查。在一些实施方案中,预定范围包括预定上限Ct值。在这样的实施方案中,如果特定生物样本的一个或多个参照基因座的Ct值超过预定上限Ct值,则Ct测量未通过循环次数检查。在一些实施方案中,在配置文件中指定预定了上限Ct值。在一些实施方案中,预定上限Ct值大于30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个循环。
信号水平曲线的斜率
在一些实施方案中,一组质量控制度量包括斜率检查-每一个生物样本中一个或多个参照基因座的信号水平(例如,来自扩增反应的曲线的荧光水平)的斜率在预定范围内的验证。如果特定生物样本的斜率未落在预定范围内,则样本未通过斜率检查。在一些实施方案中,计算与Ct测量最接近的3个循环测量的斜率S。例如,可将Y2用作最接近Ct值的循环的对数转化的信号水平(针对背景标准化的)。可将Y1和Y3(也将所述两者针对背景进行标准化)分别用作正好在最接近Ct值的循环之前和正好在其之后的循环的对数转化的信号水平。在一些实施方案中,荧光值基于log 10标度。因此,在一些实施方案中,按照下式计算斜率:
(公式7) S = Y 3 - Y 1 2
在一些实施方案中,在配置文件中指定S的可接受值的预定范围。在一些实施方案中,S的可接受范围为约0.15至0.55。
样品变化系数
在一些其中使用样本重复(如上文中在“测定形式”中所论述)的实施方案中,计算重复之间的样品变化系数(样品CV)。生物样本的样品CV必须低于预定阈值,以使该样本通过CV检查。在线性标度上计算样品CV,其为样品标准差与生物样本的所有重复之间的样品平均值的比率。将0拷贝数样品的样品CV计算为标准差与平均值+1的比率。如果样品CV超过预定阈值,则未产生该生物样本的拷贝数调用。在一些实施方案中,在配置文件中指定样品CV的预定阈值。在一些实施方案中,样品CV的预定阈值为0.15。
3.统计分析
在某些实施方案中,进行一个或多个统计分析以帮助确定是否产生生物样本的拷贝数调用。在一些实施方案中,通过确定测量置信度和/或调用置信度评估统计置信度,如下文中所描述的。
测量置信度
在一些其中使用样品重复的实施方案中,确定测量置信度。如果测量置信度落在预定阈值之下,则对于样本获得的值(例如,拷贝数估值)不能通过测量置信度检查,从而不能产生拷贝数调用。测量置信度是样品内差异性的指标并且检查平均值和围绕平均值的差异性。测量置信度被计算为围绕符合特定拷贝数的预定拷贝数限度的样本或样品的平均拷贝数估值(所有重复求的平均值)的最大正态置信区间。在一些实施方案中,假定样品的所有重复的平均值为正态分布。关于正态分布,平均值为线性标度上所有重复的平均拷贝数估值,并且标准差为平均值的标准误(标准差除以重复次数的平方根)。在一些实施方案中,在配置文件中指定拷贝数限度。拷贝数调用限度的实例示于表2中。
表2:示例性拷贝数限度
  拷贝数   下限   上限
  0   上限的负值   0.01,0.1
  1   0.5,0.6   1.4,1.45
  2   1.6,1.65   2.35,2.4
  3   2.4,2.5   3.4,3.5
调用置信度
在一些实施方案中,计算每一个样本的调用置信度。在一些实施方案中,如果给定的样本的调用置信度小于预定阈值,则确定不能产生目标基因座的的拷贝数调用。在一些实施方案中,在配置文件中指定了预定阈值。
背景差异性
为了计算调用置信度,首先将背景差异性计算为具有Z个拷贝的目标基因座的样品的调用估值(call estimate)的方差(其中Z为已知的参照基因座的正常拷贝数)。需要具有Z个拷贝的目标基因座的样本(Z-拷贝样本)的预定临界数目来计算该背景差异性;可在配置文件中指定预定数。在一些实施方案中,预定临界数目为20。
在某些实施方案中,样本必须通过某些要求以被包括在背景差异性计算中。
在一些实施方案中,要求包括如下的至少一个或其任何组合:a)通过质量控制度量(预定范围内的参照基因座的Ct值,预定范围内的参照基因座的信号水平的斜率,符合预定阈值的测量置信度和低于预定阈值的样品CV);b)不是对照样本;c)据估值具有大约Z个拷贝的目标基因座;和d)作为特定的预定样品类型(例如,血液)。在一些实施方案中,如果预定样品类型的样品数目落在Z-拷贝样本的预定临界数目以下,则要求d)(对作为特定的预定样品类型的要求)是预知的(forgone)。
在一些实施方案中,所述要求包括通过质量控制和统计置信度度量(上文a)中概述的)和具有等于目标基因座的Z的拷贝数估值。
样品类型调整
在一些实施方案中,调整背景差异性以解决与样品类型相关的不同差异性。通常,如果除去要求d),则不进行样品调整。可对每一个样品类型进行调整;即,可减去或加上调整值。在一些实施方案中,对于大多数样品不进行样品调整。在一些实施方案中,羊水和/或羊水细胞培养物的背景差异性被调整0.03个单位。在一些实施方案中,绒膜绒毛取样的背景差异性被调整0.03个单位。
调用置信度
在获得可以或可以不就相同类型进行调整的背景差异性后,可确定调用置信度值。调用置信度可基于多个拷贝数估值。需要具有Z个拷贝的目标基因座的样本(Z-拷贝样本)的预定临界数目来计算调用置信度;可在配置文件中指定预定数。在一些实施方案中,预定临界数目为20。
在一些实施方案中,用于确定调用置信度的算法假定拷贝数估值为正态分布并且具有相等的拷贝数方差(equal variances acrosscopy numbers)。可使用假定正态分布的任何统计检验。在一些实施方案中,使用学生氏t-检验来测定每一个样本的p-值。
在一些实施方案中,在统计检验中测试的假设是观察到的样本的拷贝数估值实际上获自邻近拷贝数分布。即,如果拷贝数估值为2,则算法测定样品实际上具有1或3个拷贝的概率。算法将两个检验(在本实例中,针对1-拷贝假设和3-拷贝假设)的每一个的p-值加起来。通过从1减去p-值的和(subtracting the sum of the p-values from1)来计算置信度。
如果拷贝数估值为0(或在最大可能拷贝数上,如果存在1个的话),则仅存在一个邻近拷贝数分布,一个拷贝的分布(或最大值减1)。在这样的情况下,算法使用获自检验假设(拷贝数估值获自邻近拷贝数分布)的单个p-值。通过从1减去该p-值来计算调用置信度。
在一些实施方案中,在拷贝数估值的对数标度上计算调用置信度统计值。拷贝数t-分布平均值通过将所有拷贝数估值对特定拷贝数求平均值来测定。如果对于特定基因拷贝种类不存在估值,那么假定平均值为-2、1、2和2.585。
对每一个样品进行调用置信度QC测试。如果调用置信度小于配置文件中指定的阈值,则样品未通过调用置信度QC度量。
4.平板质量控制度量
在某些其中在平板中分析多个生物样本的实施方案中,如果来自平板的某些质量控制度量未通过,则产生窗口警示(plate alert)。例如,在一些实施方案中,除了空白对照外,检查平板中每一个对照样品的质量控制度量和/或如上所述进行统计分析(例如,Ct值检查、斜率检查、测量置信度、调用置信度和样品CV)。如果对于平板上的对照样品,这些质量控制度量的任一个未通过,则产生窗口警示,显示平板内未通过的孔和未通过的度量的列表。还检查用作拷贝数的对照的样品与预期的拷贝数的一致性。例如,在一些实施方案中,如果一个或多个对照样品的任一个未通过质量控制或统计置信度评估之一或如果任何单个对照样品不等于预定或预期的拷贝数,则平板未通过。在一些实施方案中,如果Z-拷贝(其中Z为参照基因座的拷贝数,例如在一些实施方案为2)样品的数目低于预定阈值和/或不足以用于估值调用置信度统计值的t-分布参数,则平板未通过。在一些实施方案中,如果围绕Z-拷贝样品的平均值的置信区间在预定限度之外,则平板未通过。在一些实施方案中,如果Z-拷贝样品的拷贝数估值的标准差高于预定阈值,则平板未通过。
在一些实施方案中,计算模块通过基于预定的平板布置的孔定位找到对照。
V.系统或计算机可读介质
在一些实施方案中,可在系统或计算机可读介质例如本文中描述的那些系统和介质上执行本文中描述的发明方法。通过本文中描述的系统和介质执行发明方法可测定目标基因座的拷贝数估值和评估拷贝数估值的质量和/或拷贝数调用的统计置信度,并且提醒用户是否能产生目标基因座的拷贝数调用。在一些实施方案中,本文中描述的系统和介质还可指示个体是否患有与异常目标基因座拷贝数相关的疾病、病症或病况或是否为其携带者。
在一些实施方案中,本文中提供的系统可被描述为功能模块、客户端(client)、试剂、程序、可执行指令或包括在计算机可读介质上的指令,以便处理器可执行所述指令以执行方法或过程(例如,拷贝数估值的计算和/或统计分析)。本文中描述的功能模块不一定相应于离散的代码块(discreet blocks of code)。相反,可通过执行存储在不同介质上和在不同时间执行的不同代码部分来执行功能模块的功能部分。此外,应当理解,模块可执行其它功能,因此模块不限于具有任何特定的功能或功能组。在一些实施方案中,这些功能模块可通过计算设备来执行。可将功能模块存储在计算设备上,或在一些实施方案中可将其存储在外部存储库(storage repository)或远程计算机器上。
图3A中举例说明的是可存储和/或执行上述功能模块的计算设备400的一个实施方案。在一些实施方案中,计算设备可以是计算机、计算机器或具有处理器和存储器的任何其它设备。在一些实施方案中,计算设备可以是通过安装在物理计算机器上的管理程序管理的虚拟机。包括在计算设备400中的是系统总线450,其与下列组件通讯:中央处理单元421;内存422;存储器428;输入/输出(I/O)控制器423;显示装置424A-424N;和网络接口418。在一个实施方案中,存储器428包括操作系统和软件例程,所述两者都可通过处理器421来执行。在一些实施方案中,进一步将I/O控制器423连接至键盘426、点击设备427以及任何其它输入设备。其它实施方案可包括连接至超过一个输入/输出设备430A-430N的I/O控制器423。
图3B举例说明可存储和/或执行本文中描述的功能模块的计算设备400的另一个实施方案。在一些实施方案中,计算设备400包括系统总线450,其可与下列组件通讯:桥470和第一I/O设备430A。在另一个实施方案中,桥470还与主中央处理单元421通讯,所述中央处理单元421与第二I/O设备430B、内存422和缓存(cache memory)440通讯。在一些实施方案中,还将中央处理单元421连接至I/O端口和内存端口403。
计算机器400的实施方案可包括特征在于下列组件配置之任一的中央处理单元421:响应和处理从内存单元422读取的指令的逻辑电路。在一些实施方案中,中央处理单元421可包括微处理器例如:由Intel Corporat ion制造的那些微处理器;由Motorola Corporation制造的那些微处理器;由Transmeta Corporation of Santa Clara,California制造的那些微处理器;RS/6000处理器,例如由国际商业机器公司制造的那些处理器;处理器,例如由Advanced Micro Devices制造的那些处理器;或逻辑电路的任何其它组合。在其它实施方案中,中央处理单元421包括下列的任何组合:微处理器、微控制器、具有单个处理核心的中央处理单元、具有两个处理核心的中央处理单元或具有超过一个处理核心的中央处理单元。
在一个实施方案中,中央处理单元421通过二级总线(但也称为后端总线)与缓存440通讯,然而在另一个实施方案中,处理器421通过系统总线450与缓存通讯。在一些实施方案中,局部系统总线450还可被中央处理单元421用于与超过一个类型的I/O设备430A-430N通讯。
在一些实施方案中,计算设备400包括内存单元422和缓存440。在一些实施方案中,缓存440和内存单元422可以是下列类型的存储器之任一:静态随机存储器(SRAM)、突发SRAM(Burst SRAM)或同步突发SRAM(BSRAM);动态随机存储器(DRAM);快速页面模式DRAM(FPM DRAM);增强DRAM(EDRAM),扩展数据输出RAM(EDO RAM);扩展数据输出DRAM(EDO DRAM);突发扩展数据输出DRAM(BEDO DRAM);增强DRAM(EDRAM);同步DRAM(SDRAM);JEDEC SRAM;PC100SDRAM;双倍速率SDRAM(DDR SDRAM);增强SDRAM(ESDRAM);SyncLink DRAM(SLDRAM);Direct Rambus DRAM(DRDRAM);铁电RAM(FRAM);或任何其它类型的存储器。其它实施方案包括通过系统总线450、内存端403或允许处理器421访问内存422的任何其它连接、总线或端口可访问内存422的中央处理单元421。
可将计算机可读介质存储在内存单元422中并且可通过处理器421来执行。在一些实施方案中,该计算机可读介质可包括软件程序和任何其它可执行的指令组,所述程序和指令,当执行时,命令计算机执行一项或多项功能。该计算机可读介质可包括以任何语言,在一些实施方案中,以下列语言之任一书写的指令:Java,J#;VisualBasic;C;C#;C++;Fortran;Pascal;Eiffel,Basic;COBOL和汇编语言。
在一些实施方案中,计算机可读介质可包括用于进行对于本领域技术人员来说是已知的基础计算生物学方法的指令。具体地,计算机可读介质可包括用于进行在下列来源中描述的任何方法的指令:Setubal和Meidanis等,Introduction to Computational BiologyMethods(PWS Publishing Company,Boston,1997);Salzberg,Searles,Kasif,(Ed.),Computational Methods in MolecularBiology,(Elsevier,Amsterdam,1998);Rashidi和Buehler,Bioinformatics Basics:Application in Biological Science andMedicine(CRC Press,London,2000);以及Ouelette和BzevanisBioinformatics:A Practical Guide for Analysis of Gene andProteins(Wiley&Sons,Inc.,第2版,2001)。
在一些实施方案中,计算设备400包括存储设备428,所述存储设备可以是一个或多个硬盘驱动器,一个或多个独立盘的冗余阵列,或可通过USB或串行端口与计算设备400通讯的外部存储器或介质设备。在其它实施方案中,存储设备428可以是远程存储设备,其可使用下列连接和/或协议的任一个来访问:USB、串行、并行、以太网、蓝牙、WiFi、Zigbee、无线USB、IEEE 802.15、RS-232、RS-484、IEEE802.3和IEEE 802.11。
计算设备400还可包括网络接口418以通过下列连接的任一种与网络例如局域网(LAN)或广域网(WAN)接口:标准电话线、LAN或WAN连接(例如,802.11、T1、T3、56kb、X.25、SNA、DECNET)、宽带连接(例如,ISDN、帧中继(Frame Relay)、ATM、千兆位以太网(Gigabit Ethernet)、Ethernet-over-SONET)、无线连接或上面所列连接的任何组合。还可使用多种通讯协议(例如,TCP/IP、IPX、SPX、NetBIOS、以太网、ARCNET、SONET、SDH、光缆分布式数据接口(Fiber Distributed Data Interface)(FDDI)、RS232、RS485、IEEE 802.11、IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、CDMA、GSM、WiMax和直接异步连接(direct asynchronous connect ions))建立连接。在一些实施方案中,计算设备400通过网络接口418与其它计算设备、装置、输入设备、存储设备或机器通讯。在一些实施方案中,该通讯可通过任何类型和/或形式的网关或隧道协议例如安全套接层(SSL)或传输层安全(TLS)、远程桌面协议(RDP)或ICA协议来建立。网络接口418的形式可包括如下的任一个:内置式网络适配器(built-in network adapter)、网络接口卡、PCMCIA网卡、网络卡和适配(card bus network adapter)、无线网络适配器、USB网络适配器、调制解调器、多网卡或适合于将计算设备400与网络接口的任何其它设备。
在一些实施方案中,I/O设备430A-430N可以是下列设备的任一种:键盘426、点击设备427、鼠标、跟踪板、光笔、跟踪球、麦克风、画板、电视显示器、扬声器、喷墨打印机、激光打印机和染料升华印刷机、USB闪存驱动器或能够执行本文中描述的方法和系统的任何其它输入/输出设备。I/O控制器423在一些实施方案中可以连接至多个I/O设备430A-430N以控制一个或多个I/O设备。在其它实施方案中,I/O设备430A-430N可存储结果、显示结果或用作系统总线450与外部通讯总线例如:USB总线、Apple Desktop总线、RS-232串行连接、SCSI总线、FireWire总线、FireWire 800总线、以太网总线(Ethernetbus)、AppleTalk总线、千兆以太网总线(Gigabit Ethernet bus)、异步传送模式总线(Asynchronous Transfer Mode bus)、HIPPI总线、Super HIPPI总线、Serial Plus总线、SCI/LAMP总线、FibreChannel总线或串行连接方式的小型计算机系统接口总线(Serial Attachedsmall computer system interface bus)之间的桥。
在一些实施方案中,计算机器400可连接至多个显示设备424A-424N,在其它实施方案中,计算设备400可连接至单个显示设备424,然而在其它实施方案中,计算设备400连接至为相同类型或形式的显示器的显示设备424A-424N,或连接至为不同类型或形式的显示设备。显示设备424A-424N的实施方案可通过下列设备来支持和起作用:一个或多个I/O设备430A-430N、I/O控制器423、I/O设备430A-430N和I/O控制器423的组合;能够支持显示设备424A-424N的硬件和软件的任何组合;与显示设备424A-424N接口、通讯、连接或否则使用所述显示设备的任何类型和/或形式的视频适配器、视频卡、驱动器;和/或库。计算设备400在一些实施方案可经配置以使用一个或多个显示设备424A-424N,这些配置可包括:具有多个与多个显示设备424A-424N连接的连接器;具有多个视频适配器,每一个视频适配器连接至一个或多个显示设备424A-424N;具有经配置支持多个显示424A-424N的操作系统;使用包括在计算设备400内的电路和软件连接和使用多个显示设备424A-424N;和在主计算设备400和多个二级计算设备上执行软件以使得主计算设备400能够使用二级计算设备的显示器作为主计算设备400的显示设备424A-424N。计算设备400的其它实施方案可包括由多个二级计算设备提供的并且通过网络连接至主计算设备400的显示设备424A-424N。
在一些实施方案中,计算机器400可执行任何操作系统,然而在其它实施方案中中,计算机器400可执行下列操作系统的任何一个:MICROSOFT WINDOWS操作系统的版本、Unix和Linux操作系统的不同释放、由苹果计算机公司制造的任何版本的MAC OS以及任何嵌入操作系统。在另一个实施方案中,计算机器400可执行多个操作系统。
可以以下列计算设备之任一来具体表现计算机器400:计算工作站、台式计算机、膝上型计算机或笔记本计算机、服务器、手持计算机、移动电话、便携式远程通讯设备、媒体播放设备、对策模拟系统(gaming system)、移动计算设备、笔记本计算机、由苹果计算机公司制造的设备的IPOD家族的设备或任何其它类型和/或形式的计算、远程通讯或媒介设备,所述设备能够通讯并且具有足够的处理器能力和存储容量来执行本文中描述的方法和系统。
本文中描述的功能模块不必相应于离散的代码块。相反,功能模块的功能部分可通过执行存储在不同介质上和在不同时间执行的不同代码部分来执行功能模块的功能部分。此外,应当理解,模块可执行其它功能,因此模块不限于具有任何特定的功能或功能组。
图4中举例说明的是系统510的一个实施方案,所述系统输入获自生物测定的数据、一个或多个配置文件和/或存储的参照数据(例如,预定阈值限度、对照和参照拷贝数等)和使用本文中描述的任何功能模块分析数据。在一个实施方案中,输入设备550可与分析系统510,更具体地与在分析系统510中的处理器上执行的计算模块540通讯。计算模块540可执行许多功能或方法以获得和产生与获自输入设备550的输出数据相关的信息。在一些实施方案中,计算模块540可存储产生的信息或获得存储在分析系统510中包括的存储库530中的数据。在一些实施方案中,计算模块540可将报告数据和其它值传送给分析系统510中的显示模块560。在其它实施方案中,显示模块560可从存储库530检索报告数据内容。显示模块560与输出设备555和显示设备570通讯,所述输出设备555和显示设备570都可显示通过显示模块560检索的报告数据和其它信息。
进一步参考图4,并且更详细地,在一个实施方案中,分析系统510可包括功能模块例如计算模块540和显示模块560。在其它实施方案中,分析系统510可包括执行基本计算生物学方法的模块。在一些实施方案中,可在单个计算设备100上执行分析系统510。在其它实施方案中,分析系统510可包括一个或多个计算设备100。分析系统510中包括的每一个计算设备100可与系统510中包括的其它计算设备100通讯。例如,可利用第一计算机执行计算模块540,然而利用第二计算机执行存储库530和显示模块560。在另一个实例中,存储库530可存在于第一计算机上,然而可利用第二计算机执行每一个功能模块。
在一些实施方案中,系统510中包括的多个计算机100之间的通讯可通过网络或直接连接来促成。在其它实施方案中,直接连接可包括以太网连接、串行连接或并行连接。网络可包括许多子网,可以是局域网(LAN)或广域网(WAN)。此外,网络可包括私人和公共网络的任何组合。在一个实施方案中,网络可以是本文中描述的任何网络,并且分析系统510中包括的方法和计算机以及与分析系统通讯的设备可通过本文中描述的网络的任一种和使用本文中描述的网络协议的任一种通讯。
在一些实施方案中,输入设备550可与分析系统510通讯。在其它实施方案中,输入设备550可与分析系统510中的计算模块540或其它模块直接通讯。虽然图4举例说明了位于分析系统510外部的输入设备550,但在一些实施方案中,分析系统510可包括输入设备550。
在一些实施方案中,输入设备550可以是能够输出获自聚合酶链式反应(PCR)测定(特别地,实时PCR)的数据的任何设备、机器或计算机。在其它实施方案中,输出设备550可以是能够输出获自本文中描述的测定的任一测定的数据的任何设备、机器或计算机。在其它实施方案中,输入设备550可以是经改造适合用于执行分析一个或多个生物样本中的目标基因座和一个或多个参照基因座的适当的生物测定的机器或设备。在一些实施方案中,输入设备550读取来自AppliedBiosys tems开发的TAQMAN探针的信号。在一些实施方案中,输入装置550测量在TAQ探针降解过程中由荧光基团发射的荧光的量。荧光量可用于测定DNA的量以及在一些实施方案中,可测定达到荧光的特定水平所需的循环次数。在一些实施方案中,可在每一个扩增循环上检测目标基因座和参照基因座的荧光水平或荧光信号的水平。输入设备550可产生代表在测定过程中产生和分析的荧光信号的输出数据。
在一个实施方案中,输出设备550可输出代表来自测定的输出的数据值的文件、数组或字符串。该输出文件可包括一个或多个字符、数字或字母,其可代表如下的任一个:荧光信号的水平、标识平板上的孔的标识符、标识平板上的样品或样本的标识符、患者、籍以获得样品或样本的方法以及与输出相关的任何其它标识符或信息。在一个实施方案中,输出设备550输出平面文件,其中每一个样品或样本的荧光信号数据反映在一组包括信号的数值表示的数据、标识患者的标识符、用于获得样品的方法、样品或样本被放置在其中的孔以及任何其它类似信息。在本实施方案中,每一组数据可通过定界符例如平行线(“|”)、逗号、空格号或任何其它字符分隔。每一个字符分隔的文件的部分可包括平板上包括的样本的荧光测量。在一些实施方案中,每一个字符分隔的部分可包括每一个循环上多孔平板(例如384孔平板)中至少两个通道的荧光测量。
在一些实施方案中,分析系统510可包括与输出设备550接口以从输入装置获得数据的驱动器或其它程序(未显示)。在一些实施方案中,驱动器或程序接收来自输出设备或机器550的原始数据,并且将所述原始数据转变成能够被在分析系统510中执行的程序和模块处理的形式。格式化获自输出设备550的信息可包括改变数据类型、除去无关字符或产生由输出设备550输出的信息的表、图或其它可视表示形式。
在一个实施方案中,计算模块540可与输出设备550直接通讯以接收来自输出设备550的输出数据。在一些实施方案中,计算模块540可与分析系统510中包括的任何模块、机器或设备通讯。在其它实施方案中,计算模块540可与存储库530通讯以存储通过输出设备550获得的信息。在其它实施方案中,计算模块540可与存储库530通讯以存储通过计算模块540产生的信息。在其它实施方案中,计算模块540可从存储库530检索信息例如校准信息、阈值信息和对照样品信息,所述信息可被计算模块540用于产生由输出设备550输出的信息的表、图或其它可视表示形式。
在一个实施方案中,计算模块540可在计算机上执行以进行本文中描述的评估计算和/或统计或质量控制分析的任一个。这些统计和/或评估计算可包括如下的任一个:参照基因循环次数的测定;平板上两拷贝样品数的测定;测量置信度的计算;采自相同患者的复制样品或样本之间的变化系数的计算;采自相同患者的重复样品或样本之间的标准差的计算;调用置信度的计算;参照基因斜率的计算;每一个样品或样本的拷贝数估值;平板的Δ循环次数的计算;校准值和本文中描述的任何其它计算或测定。在一些实施方案中,计算模块540可将这些计算和测定存储在存储库530。在其它实施方案中,计算模块540可将这些计算和测定传送至显示模块560。可将这些计算的和测定的值包括在一组质量控制度量中。因此,可将每一个值存储在阵列、数据库、列表或其它数据存储结构中。
虽然在一个实施方案中,计算模块540可以是单个模块,但在其它实施方案中,计算模块540可包括一个或多个子模块、子例程或程序。在一个实施方案中,计算模块540可以是在计算机上执行的脚本。在一些实施方案中,脚本可在主程序或父程序中执行。例如,在一些实施方案中,计算模块540可以是在MATLAB中执行的脚本。在该实例中,计算模块540可存取统计库(statistics library),所述统计库包括一个或多个用于执行本文中描述的统计分析的预定程序或例程。
在一些实施方案中,计算模块540可使用校准器或其它调整值来调整任何计算或测定。因此在一些实施方案中,可从通过计算模块计算和测定的值加上或减去校准值或调整值以解决下列环境影响中的任何影响:因用于获得样本或样品的方法而引起的变化;平板假象;存在于输出设备550的其它区域上的假象;影响测定的有效性的温度变化;和可影响作为测定结果产生的数据的完整性的任何其它环境影响。在一些实施方案中,可就用于获得样本或样品的方法的类型调整计算的标准差。例如,如果通过:从患者获得血斑;拭抹患者的口腔;获得脐带血;获得绒膜绒毛取样培养物和获得羊水培养物来获得样品,则可不必被调整标准差。在另一方面,如果样品获自羊水或绒毛膜绒毛取样,在一些实施方案中,必须将计算的标准差调整0.3。在一些实施方案中,这些调整值可被包括在存储在存储库530中的配置文件中,并且被计算模块540用于确定平板和/或样本是否通过质量控制检查。
在一个实施方案中,随后进行一个或多个本文中描述的计算和/或测定的计算模块540可将所得的值与一个或多个参照值相比较。这些参照值,在一些实施方案中,可以是阈值或预定范围。在一个实施方案中,这些阈值或预定范围可被存储在存储库530中。在一些实施方案中,所述值可以以如下的任一种存储:平面文件;数据库;列表;阵列;包括子串值的字符串或任何其它数据结构。在其它实施方案中,可将值存储在临时存储器元件中直至它们被计算模块540请求。
在一个具体的实例中,配置文件可包括下列阈值的任一个:
  阈值的类型/范围/调整   值
  对照基因座阈值CT值   30
  对照基因座斜率范围   0.15至0.55
  零拷贝数调用范围   -0.01至0.01
  单拷贝数调用范围   0.6至1.4
  两拷贝数调用范围   1.6至2.4
  三拷贝数调用范围   2.435
  两拷贝数经验控制   20
  两拷贝数标准差阈值   0.1
  样品CV阈值   0.15
  测量置信度阈值   0.99
  调用置信度阈值   0.9999
  血斑的标准差调整   0
  口腔拭子的标准差调整   0
  羊水的标准差调整   0.03
  羊水培养物的标准差调整   0
  绒膜绒毛取样的标准差调整   0.03
  绒膜绒毛取样培养物的标准差调整   0
  脐带血的标准差调整   0
在上述实例中,阈值、值范围和调整值可用于获得一个或多个质量控制度量。这些质量控制度量可用于确定一个或多个估值的拷贝数值的统计置信度。
在一些实施方案中,计算模块540可将质量控制策略用于一个或多个计算的或测定的值以确定平板是否应当通过预定质量控制检查和/或样本或样品是否应当通过预定质量控制检查。在一些实施方案中,计算模块540确定平板和/或样本是否应当通过预定质量检查,通过将计算的和测定的值与一个或多个预定阈值和/或值范围相比较。虽然在一些实施方案中,质量控制策略可包括每一个针对板或样本的阈值和值范围要求,但在其它实施方案中,每一个质量控制策略可包括特定的阈值或值范围要求。例如,质量控制策略可以要求4个重复样本之间的变化系数落在预定阈值之下。该阈值,在一些实施方案中,可以为0.15。在其它实施方案中,质量控制策略可以要求平板具有:许多落在预定值之上的两拷贝样品;落在预定值之下的4个重复样本之间的标准差;高于或等于预定值的平均调用置信度值;和每一个对照样品具有特定的拷贝数调用。
在一些实施方案中,存储库530可具有任何存储设备、计算设备或计算机可读介质。在一个实施方案中,存储库530可以是本文中描述的任何记忆库(memory repository)、计算设备或计算机可读介质。存储库530与分析510系统中包括的任何模块之间的通讯可通过网络、通讯总线或有线连接(wire connection)发生。在一些实施方案中,存储库530可将通过计算模块540获得的、计算的或测定的任何信息读入内存。该数据可被远程计算机器、分析系统510中的计算机、分析系统510中的模块或与分析系统510中的模块或计算机通讯的外部媒介设备存取。
在一个实施方案中,计算模块540可与存储库530通讯以存取参照数据、校准数据、报告模板和其它信息。计算模块540可使用检索的信息来进一步执行本文中描述的方法和系统和/或产生显示输出,所述输出提供通过计算模块540获得的、测定的或计算的任何信息。计算模块540可产生报告内容并且在一些实施方案中,将该报告内容存储在存储库530中。
在一些实施方案中,在分析系统510内执行的编码器可在将接收的信息存储在存储库530之前加密、编码或压缩该信息。在其它实施方案中,可将循环次数和相关信息存储在存储库530上的表、数据库或列表中。
分析系统510中执行的显示模块560可从存储库530和/或计算模块540获得报告数据或其它输出数据。在一个实施方案中,显示模块560可产生报告、用户界面和其它显示模板以显示获得的报告数据和输出数据。在一些实施方案中,输出数据可包括获自输出设备550的任何信息和通过计算模块540计算或测定的任何信息。在一些实施方案中,显示模块560可包括浏览器、格式产生器(form generator)或能够获得和格式化数据以显示给用户的其它程序。
在一些实施方案中,显示模块560可与显示设备570和/或另一个输出设备555接口。显示模块560可格式化接收的报告和输出数据以显示在显示设备570上。在一个实施方案中,显示模块560可将输出数据和报告数据格式成输出设备555可用于产生输出信号的格式。
在一些实施方案中,显示设备570可以是任何显示设备。在其它实施方案中,显示设备570可以是本文中描述的任何显示设备。例如,显示设备570可以是监视器、手持式计算机或任何其它机器或设备,所述机器或设备具有显示屏并且能够呈现由显示模块560产生的显示和将呈现的图像展现给用户。虽然图4举例说明了与分析系统510通讯的显示设备570,但在一些实施方案中,显示设备570可包含在分析系统510中。其它实施方案包括包含显示设备570的显示模块560。
在一些实施方案中,输出设备555可用于将声音、视觉或其它用户可感觉信号输出给用户。当输出设备555接收来自显示模块560的数据时,在一些实施方案中,输出设备555可发出警报声音或点亮一个或多个发光二极管或其它灯来显示平板和/或样本是否通过每一个质量控制度量。例如,如果输出值表示平板未通过质量控制度量之一,则输出设备555可举例照明表示未通过的LED。在另一个实施方案中,平板未通过多个控制度量之一时,输出设备555可输出数字信息或声音警报。
图5B中举例说明的是用于对一个或多个质量控制度量应用平板质量控制策略的方法630的一个实施方案。在一些实施方案中,在分析系统510中执行的计算模块540或数据分析模块(未显示)获得一组质量控制度量(步骤632)并且确定平板上的Z拷贝样品(其中Z为参照基因座的拷贝数,其在一些实施方案中为2)的数目是否低于预定阈值(步骤636)。如果Z拷贝(例如,两拷贝)样品的数目低于阈值,则计算模块540或任何其它模块输出表示平板未通过的标志(步骤644)。如果Z拷贝样品的数目未落在预定阈值之下,则模块确定Z拷贝样品的标准差是否在预定阈值之上(步骤638)。如果标准差大于阈值,则模块输出表示平板未通过的标志(步骤644)。如果标准差未超过阈值,则模块确定Z拷贝样品的平均调用(mean call)是否超过预定阈值(步骤640)。如果平均调用超过预定阈值,则模块输出表示平板未通过的标志(步骤644)。如果平均调用未超过预定的阈值,则模块确定对照样品是否具有适当的拷贝数调用(步骤634)。如果模块确定对照样品的拷贝数调用低于预定阈值,则模块输出表示平板未通过的标志(步骤644)。否则,模块输出表示平板通过的标志(步骤642)。
进一步参考图5B,并且更具体地,在一个实施方案中,可利用计算模块540执行方法630。在其它实施方案中,可通过下列模块的任何组合来执行方法630:在分析系统510中执行的计算模块540;在分析系统510中执行的数据分析模块(未显示);或利用分析系统510中的处理器执行的任何其它模块。
图5B举例说明了方法630的一个实施方案,其中每一个步骤是连续的,以便每一个随后步骤需要通过先前步骤的质量控制测试的平板。在其它实施方案中,每一个步骤可以是独立的,以便该步骤的执行不依赖于平板通过先前步骤中的质量控制测试的确定。在其它实施方案中,方法630中的一组步骤可以彼此依赖,然而第二组步骤可以完全独立,以便它们的执行不依赖于方法中包括的其它步骤的结果。
在一些实施方案中,在分析系统510中执行的模块检索一组质量控制度量(步骤632)。在一些实施方案中,模块可以是计算模块540。然而在一些实施方案中,模块可计算质量控制度量;在其它实施方案中,模块可从存储库530获得质量控制度量。在一些实施方案中,模块可计算一部分质量控制度量,并且可从存储库530获得一部分质量控制度量。
其中确定平板是否通过特定质量控制测试的实施方案可包括当平板未通过特定质量控制测试时输出标志或其它指标(步骤644)。在一些实施方案中,标志可包括数据库登录(database entry)、标志、信号、配置设置或表示测试未通过的其它变量。在一些实施方案中,该标志可被计算模块540用于确定是否继续测试其它质量控制度量。在其它实施方案中,计算模块540可在由计算模块540产生的报告数据内容中提供标志。当显示模块560产生表示平板是否通过由分析系统510施测的质量控制测试的输出显示时,标志可用于产生表示平板是否通过在相关策略中包括的每一个施测的测试的用户-可察的显示。
在一些实施方案中,未通过的平板是具有表示不良质量拷贝数估值的质量控制度量的平板。因此,未通过的平板可表示平板上样本的经计算的拷贝数估值被歪曲,从而不能产生拷贝数估值。
在一些实施方案中,计算模块540可确定平板上具有两个拷贝的样品的数目低于预定值(步骤636)。在一些实施方案中,计算模块540可获得平板上每一个样品的拷贝数估值。通过使用该列表,模块可测定有多少样品具有为2的拷贝数。如果具有两个拷贝的样品的数目落在预定阈值之下,则平板被认为未通过(步骤644)。在一些实施方案中,由计算模块540产生的测定可以是本文中描述的任何测定,其测定了两拷贝样品或样本的数目。在一个实施方案中,预定阈值可以是经验上测定值,被硬件编码至系统510中。在其它实施方案中,预定阈值可以基于历史数据来动态测定。
在一个实施方案中,计算模块540可获得两拷贝样品的平均值的标准差。在一些实施方案中,标准差可以是本文中描述的任何标准差。当模块确定标准差高于预期阈值(步骤638)时,模块540可舍弃平板(步骤644)。
在另一个实施方案中,计算模块540可确定两拷贝样品的平均拷贝估值的测量置信度低于预定阈值。当测量置信度低于预定阈值时,模块540可舍弃平板(步骤644)。
在另一个实施方案中,计算模块540可确定对照样品或样本是否具有适当的拷贝数调用(步骤634)。该测定可使用本文中描述的计算或测定的任一个来进行。在一个实施方案中,确定对照样品是否具有适当的拷贝数调用可包括确定拷贝数调用是否落在预定阈值之下。当调用落在阈值之下时,模块540可舍弃平板(步骤644)。
在一些实施方案中,计算模块540或另一个模块可输出表示平板通过每一个质量控制测试的标志(步骤642)。当应用每一个质量控制策略时,并且当确定平板达到每一个要求的标准时,模块可输出表示平板通过的标志、信号或其它指标。虽然图5B举例说明了输出通过标志的方法630,但在一些实施方案中,方法630可以不包括其中模块输出平板通过标志的步骤。
图5C中举例说明的是用于实施样本质量控制的方法660的一个实施方案。在一些实施方案中,计算模块540可执行任何描述的步骤。执行方法660的模块通常称为模块。在一些实施方案中,模块获得一组质量控制度量(步骤662)和确定参照基因或基因座的循环次数是否超过预定阈值(步骤664)。模块然后确定参照基因或基因座的斜率是否在预期范围之外(步骤668)。然后确定计算的变化系数是否大于或等预定阈值(步骤670)。模块还确定计算的测量置信度是否落在预定阈值之下(步骤672)和计算的调用置信度是否落在低于预期阈值(步骤678)。当模块确定任何上述条件对于样品为真时,模块可输出表示样本未通过的标志(步骤676),否则模块输出表示样本通过的标志(步骤674)。
进一步参考图5C,并且更具体地,在一个实施方案中,可利用计算模块540来执行方法660。在其它实施方案中,可通过下列模块的任何组合来执行方法660:在分析系统510执行的计算模块540;在分析系统510执行的数据分析模块(未显示);或利用分析系统510中的处理器执行的任何其它模块。
图5C举例说明了方法660的一个实施方案,其中每一个步骤是连续的,以便每一个随后步骤需要通过先前步骤的质量控制测试的样本。在其它实施方案中,每一个步骤可以是独立的,以便该步骤的执行不依赖于样本通过先前步骤中的质量控制测试的确定。在其它实施方案中,方法660中的一组步骤可以彼此依赖,然而第二组步骤可以完全独立,以便它们的执行不依赖于方法中包括的其它步骤的结果。
在一些实施方案中,在分析系统510中执行的模块检索一组质量控制度量(步骤662)。在一些实施方案中,模块可以是计算模块540。然而在一些实施方案中,模块可计算质量控制度量;在其它实施方案中,模块可从存储库530获得质量控制度量。在一些实施方案中,模块可计算一部分质量控制度量,并且可从存储库530获得一部分质量控制度量。
其中确定样本是否通过特定质量控制测试的实施方案可包括当样本未通过特定质量控制测试时输出标志或其它指标(步骤676)。在一些实施方案中,标志可包括数据库登录、标志、信号、配置设置或表示测试未通过的其它变量。在一些实施方案中,该标志可被计算模块540用于确定是否继续测试其它质量控制度量。在其它实施方案中,计算模块540可在由计算模块540产生的报告数据内容中提供标志。当显示模块560产生表示样本是否通过由分析系统510施测的质量控制测试的输出显示时,标志可用于产生表示样本是否通过每一个施测的测试的用户-可察的显示。
在一些实施方案中,未通过的样本是具有表示不良质量拷贝数估值的质量控制度量的样本。因此,未通过的样本可表示该样本的经计算的拷贝数估值被歪曲,从而不能产生样本的拷贝数调用。
在一个实施方案中,模块可获得每一个参照基因或基因座的循环次数值和确定所述循环次数值是否落在预定阈值之下(步骤664)。在一些实施方案中,模块可通过利用模块籍以确定对照基因座循环次数是否低于预期阈值和/或在预定循环次数值范围内的策略来进行该确定。当对照基因座循环次数低于阈值时,模块可确定样品未通过(步骤676)。在其它实施方案中,当确定对照基因座的循环次数值超过预定阈值上限值时或当对照基因座的循环次数值落在预定阈值之下下限值时,模块可确定样本未通过。
在一些实施方案中,模块可确定参照基因斜率是否在预定范围内(步骤668)。参照基因斜率可以是本文中描述的任何斜率。在一些实施方案中,可使用本文中公开的任何公式或方法来计算和/或测定参照基因斜率。当计算和/或获得参照基因斜率时,模块可确定斜率是否落在预定阈值之下或斜率是否超过预定阈值上限值。当参照基因斜率落在预定范围之外时,模块可输出表示样本未通过的标志(步骤676)。
在一个实施方案中,模块确定目标基因座或对照基因座的4个重复样本的变异系统是否超过预定值(步骤670)。在一些实施方案中,可使用本文中描述的方法和公式测定变化系数。在一些实施方案中,当模块确定变化系数大于和/或等预定阈值时,模块可输出表示样本未通过的标志(步骤676)。
在另一个实施方案中,模块可获得计算的测量置信度和确定计算的测量置信度值是否低于预定值(步骤672)。测量置信度可以是本文中描述的任何测量置信度值,并且可使用本文中描述的任何方法和公式来计算。当,在一些实施方案中,模块确定测量置信度值落在预定阈值之下时,模块可输出表示样本未通过的标志(步骤676)。
在另一个实施方案中,模块可获得计算的调用置信度值以确定该值是否落在预定阈值之下(步骤678)。在一些实施方案中,调用置信度值可以是本文中描述的任何调用置信度值,并且可使用本文中描述的任何方法和公式来计算。当,在一些实施方案中,模块确定调用置信度值落在预定阈值之下时,模块可输出表示样本未通过的标志(步骤676)。
在一些实施方案中,计算模块540或另一个模块可输出表示样本通过每一个质量控制测试的标志(步骤674)。当利用每一个质量控制策略时,和当确定样本达到每一个需要的标准时,模块可输出表示样本通过的标志、信号或其它指标。虽然图5C举例说明了输出样本通过标记的方法660,但在一些实施方案中,方法660可以不包括其中模块输出样本通过标记的步骤。
图7A-7B中显示的是屏幕截图,该图举例说明质量控制度量以及平板和样本控制策略用于质量控制度量的应用结果和通过计算模块540获得的、测定的或计算的其它信息的显示。在一些实施方案中,图7A-7B中举例说明的显示可显示于浏览器或应用窗口中。其它实施方案包括呈现在便携式计算设备例如智能电话、PDA或其它手持设备的屏幕上的显示。
图6A举例说明显示经研究以确定平板是否通过质量控制测试的质量控制信息的显示屏。在一些实施方案中,可在屏幕上显示下列值:参照基因的循环次数;参照基因的循环次数是否通过上述质量控制测试;参照基因斜率;参照基因斜率是否通过上述质量控制测试;对照样品及其状态;平板的两拷贝样品平均值;和平板的两拷贝标准差。在一些实施方案中,显示可用于有效地将平板质量控制测试的结果告知用户。
图6B举例说明显示经分析用以确定平板是否通过质量控制测试的质量控制信息的显示屏。在一些实施方案中,可在屏幕上显示下列值:拷贝数估值;调用置信度水平、调用置信度是通过还是未通过;测量置信度水平;测量置信度是通过还是未通过;样品变化系数水平以及变化系数通过还是未通过。这些值可被用户用来确定拷贝数估值是否有效地表示目标患者患有或未患有特定疾病。
VI.诊断应用
在某些实施方案中,将本文中公开的方法用于诊断应用。
在一些实施方案中,本发明的方法和/或系统用于获得关于疾病、病症或病况的携带者的状态的诊断。例如,个体可被筛查为遗传病的携带者。在一些实施方案中,正常个体具有两个拷贝的目标基因座。在一些这样的实施方案中,只具有一个拷贝的目标基因座的个体被诊断为携带者。
在一些实施方案中,本发明的方法和/或系统用于出生前诊断应用。例如,可测定包含出生前核酸的样本(例如,羊水、羊水/羊水细胞培养物、绒膜绒毛取样、绒膜绒毛取样培养物、母血等)的目标基因座的拷贝数。在一些其中正常个体具有两个拷贝的目标基因座的实施方案中,可将样本的为0的拷贝估值用作胎儿具有或可能发生特定疾病、病症或病况的指征。可改变本发明的拷贝数估值法以解决样品的可能异质性。例如,可预期母血包含胎儿和母源核酸的混合物;因此来自母血的目标等位基因或目标染色体的表观拷贝数估值可以是母亲的拷贝数与胎儿的拷贝数之间的中间值。
在一些实施方案中,获得预期成为亲代的个体的拷贝数估值,并且根据预期亲代的基因拷贝数估值,也获得了它们的后代(包括未出生的胎儿)的估值。例如,如果拷贝数估值显示一个或多个亲代是遗传病的携带者,根据疾病的显性或隐性性质,也获得了胎儿的拷贝数估值。
可在其携带者和疾病状态的众多方面给出诊断,但实例较少。如上文中所解释的,通过本发明的方法和系统获得的基因拷贝数估值可选择地或另外地用于测定例如改变的发生疾病或病况的风险,进展至特定疾病或病况阶段的的可能性,对特定疗法的顺从性,对感染的易感性、免疫功能等。
在某些实施方案中,将本发明的方法和系统与其它方法和/或系统组合以获得诊断,或可将其它方法用于确认基于拷贝数估值的诊断。例如,可将基因拷贝数估值与一个或多个技术例如测序(例如,以测定突变例如点突变)、核型分析和/或生物标志的检测和/或定量结合。
实施例
实施例1:测定患者的SMN1拷贝数的TAQMANTM实时PCR
在本实施例中,将TAQMANTM实时PCR系统用于测定患者的SMN1拷贝数。
实验设计
将侧翼连接SMN1外显子7基因座的两个引物用于PCR扩增。将识别两个引物之间的SMN1序列的探针用于检测来自SMN的外显子7的扩增子;探针用FAM荧光基团标记并且包含TAMRA淬灭剂。该SMN1特异性FAM-TAMRA探针在每一轮PCR扩增的延伸部分期间通过DNA聚合酶的外切核酸酶活性从SMN1探针释放。FAM荧光基团从探针的TAMRA淬灭剂的释放允许激光在热循环中激发FAM荧光基团,以便其发射特定波长的光。发射的光的量与正在产生的PCR产物的量成正比。
在该相同反应中的是VIC-TAMRA探针和适当的特异于已知总是以每基因组2个拷贝存在的参照基因的引物。VIC荧光基团经历相同外显子核酸释放以及激光激发,如对于FAM荧光基团一样,但其发射光谱可与FAM的发射光谱相区别。
与热循环仪配对的软件可用于绘制作为PCR循环次数的函数的累积FAM和VIC荧光数据的实时曲线。横跨荧光阈值所需的循环次数称为Ct(循环阈值)。在本实施例中,FAM的Ct(其对应于本文中描述的CtT)与VIC的Ct(其对应于本文中描述的CtR)之间的差异为ΔCt。理论上对于具有两个拷贝的SMN1的所有样品,ΔCt应当大致相同。因为每一轮PCR使模板增加一倍,具有一个拷贝的SMN1的DNA样品应当比具有两个拷贝的SMN1的样品多一个循环(即,落后一个循环)的ΔCt。因此,有可能比较单个样品的ΔCt值与平板上所有样品的平均
Figure BDA00001626690400541
以筛查一个基因拷贝的携带者。
对照
每一个平板上使用无模板对照和4个另外的测定对照。每一个对照在平板上出现2次。这些对照可获自已验证的细胞系和/或具有已知SMN1拷贝数的匿名基因组样本。具体地,这些对照具有下列SMN1基因型:0拷贝的SMN1(空值)、1个拷贝的SMN1(携带者)、2个拷贝的SMN1(假定的1+1正常)、3个拷贝的SMN1(假定的2+1正常)。
无模板对照/混合物空白对照为10mM Tris pH 9.0缓冲液,其用于稀释患者样品。
材料和方法
用于SMN1和参照基因的实时PCR的引物和探针
Figure BDA00001626690400542
Figure BDA00001626690400551
用于实时PCR的试剂
100μM原液PCR引物
100μM原液FAM和VIC双标记的(DL)探针(ABI,避光于-20℃下贮存)
100μM原液竞争探针
2x TaqMan Universal PCR Master混合物(例如,ABI P/N 4364340)0.2μm过滤水
TAQMAN TM 实时PCR条件
步骤1:50℃进行2分钟
步骤2:95℃进行10分钟
步骤3:95℃进行15秒
步骤4:60℃进行1分钟
步骤5:返回步骤2,重复39次
结束
实施例2:基于TAQMANTM PCR数据测定SMN1的拷贝数
Ct值可获自例如从按照实施例1进行的实时PCR实验获得的信号对时间的曲线。对于平板上的每一个重复,CtR(参照基因座的循环次数)和CtT(目标基因座的循环次数;在本实施例中,SMN1)被获得作为达到预定荧光阈值所需的循环次数,按照公式1计算ΔCt。
(公式1)ΔCt≡CtR-CtT
表3显示相同平板上许多重复的ΔCt的示例性计算。通常,在每一个平板中使用比表3中显示的多得多的重复。
表3:平板上重复的示例性C t计算
  孔   ≈Ctr   ≈Ctt   ≈ΔCt
  1   24.1   24.2   -0.1
  2   23.8   23.7   0.1
  3   24.5   24.6   -0.1
  4   23.7   23.9   -0.2
  5   23.8   24.3   -0.5
  6   24.0   24.2   -0.2
  7   24.4   24.3   0.1
  8   24.1   25.2   -1.1
  9   23.9   23.8   0.1
  10   24.2   24.4   -0.2
然后按照公式4将校准器值
Figure BDA00001626690400561
计算为ΔCt值的80%修剪均数。对于表3中的ΔCt值,
Figure BDA00001626690400562
可以是具有中间20%的值(例如,-0.1和-0.2)的孔的平均ΔCt值,换句话说,平板的
Figure BDA00001626690400563
为约-0.15。
随后按照限性标度估算每一个孔的拷贝数:
(线性标度) T Ci = Z · 2 ( ΔCt - Δ C ‾ t )
例如,对于孔1,SMN1的拷贝数(Tc可估算为
T C ≅ 2 · 2 ( - 0.1 - ( - 0.15 ) ) ≅ 2 · 2 ( 005 ) ≅ 2 · 1.035 ≅ 2.07
对于孔8,SMN1的拷贝数(Tc)可估算为
T c ≅ 2 · 2 ( - 1.1 - ( - 0.15 ) ) ≅ 2 · 2 ( - 0.95 ) ≅ 2 · 0.518 ≅ 1.04
实施例3:评估SMN1基因的拷贝数估值的质量
在本实施例中,使用算法和质量控制度量评估SMN1基因的拷贝数估值的质量。
本实施例中描述的算法计算的概述示于图5A。如图5A中所描述的,可将一个或多个384孔平板(包含4个重复,每一个重复具有96个样本)上的TAQMANTM实验的Ct数据用于获得96个样本的拷贝估值。进行每一个样品的基因拷贝数的估值。算法计算平板上所有孔的ΔCt值(SMN1与参照基因探针之间的Ct差)。随后基于PCR扩增的指数模型推导出拷贝数估值,所述拷贝数估值依赖于参照基因校准器。校准器为具有两个SMNI拷贝的样品的SMN1与参照基因之间的平均Ct差异,并且被计算为平板ΔCt值的80%修剪均数。在计算的最后步骤中,每一个样品的拷贝数估值被计算为4个反应的平均值。
图5B描述了用于评估拷贝数估值的质量的平板质量控制的概观。以两种方式评估平板的总体质量。第一,可针对它们的已知值检查对照样品的拷贝数值。如果对照样品的数据质量或计算的拷贝数与已知值不匹配,则平板未通过。第二,如果两基因拷贝样品的数目少于已验证的阈值或两基因拷贝样品的标准差高于验证的阈值,或如果两拷贝样品的平均拷贝数估值的测量置信度低于已验证的阈值,则平板未通过。
图5C描述了用于测定拷贝数估值的质量的样本质量控制(QC)的概观。5个QC度量来源于每一个样本。前三个度量评估待分析的数据的质量。针对已验证的阈值估算参照基因Ct值、参照基因扩增曲线斜率以及来源于重复反应的调用的变化系数(CV)。如果这些度量的任一个的结果在已验证的阈值之外,则样品未通过。每一个样品结果的置信度利用两个统计度量调用置信度和测量置信度来测量。这些度量基于平板上样品间和样品内的差异性提供了所得拷贝数估值的置信度。
SMN1测试数据分析模块的描述以及模块中的调用估值的计算的详细文档资料提供于下文中。
I.SMN1测试数据分析模块
内容概述
A.数据分析质量控制度量
1.平板质量控制
2.样品质量控制
B.数据分析算法
1.出错处理
2.数据输入
3.样品名称处理
4.斜率计算
5.斜率QC和Ct QC
6.ΔCt的计算,对孔重复求平均值和中位数平滑
7.测量置信度
8.样品变化系数
9.两拷贝数平均值和标准差
10.样品类型调整
11.调用置信度
12.对照的QC测试
13.模块输出
C.数据分析模块输出格式
1.平板QC
2.样品QC
D.操作QC的推荐
E.数据分析模块输出格式
F.数据分析可执行文件
1.运行时间要求
2.命令行格式
3.输入
4.输出
G.配置文件
H.拷贝数限度的计算
I.Matlab编译要求
A.数据分析质量控制度量
1.平板质量控制
平板质量控制确保对照样品性能如所指定的并且证实数据分析模块所需的信息存在于平板上。
对照样品QC:
a.参照基因Ct检查:平板QC证实对照样品的每一个反应中参照基因Ct小于指定的阈值(30,于配置文件中)。如果对照样品孔具有高于或等于阈值的参照基因Ct,则产生窗口警示和列出未通过的对照样品孔。不包括空白对照。
b.参照基因斜率检查:平板QC证实对照样品的参照基因荧光曲线斜率在4个反应的每一个的指定的限度([0.15,0.55),于配置文件中)内。如果对照样品孔具有在指定限度之外的参照基因斜率,则产生窗口警示和列出未通过的对照样品孔。不包括空白对照。
c.对照样品调用检查:平板QC证实对照样品的拷贝数估值通过正确拷贝数值的测量置信度测试(99.99%的置信度)、调用置信度测试(99.99%的置信度)和样品CV测试(0.15)。如果对照样品的任一个未通过测量置信度测试,则产生窗口警示和列出未通过的对照样品的孔。不包括空白对照。
应用在统计方法之前使用的平板-范围QC检查:
d.两拷贝样品的数目:平板QC确认了通过参照基因Ct、参照基因斜率、测量置信度、调用置信度和样品CV测试(良好质量的样品)的两拷贝样品的数目足以进行统计分析(20个样品)。两拷贝样品的数目由数据分析模块输出。如果两拷贝样品的数目少于阈值,则产生窗口警示。
e.两拷贝样品的平均值:平板QC验证了良好质量的两拷贝样品的平均值通过测量置信度测试。如果其不通过,则产生窗口警示。平均值由数据分析模块输出。
f.两拷贝样品的标准差:平板QC检查良好质量的两拷贝样品的标准差是否小于指定的阈值(0.1)。如果其大于或等于阈值,则产生窗口警示。标准差由数据数据分析模块输出。
2.样品质量控制
在包括对照样品的平板上对每一个样品进行下列QC检查。
a.参照基因Ct检查:样品QC验证了4个孔的每一个孔的参照基因C t小于指定的阈值(30)。如果样品孔具有高于或等于阈值的参照基因Ct,则产生样品警示和列出未通过的孔。
b.参照基因斜率检查:样品QC证实参照基因荧光曲线斜率在4个孔的每一个孔的指定的限度([0.15,0.55])内。如果样品孔具有在指定限度之外的参照基因斜率,则产生样品警示和列出未通过的孔。
c.样品CV检查:样品QC计算4个拷贝数估值重复测量之间的样品CV。如果样品CV大于或等于指定的阈值(0.15),则产生样品警示。
d.测量置信度:样品QC计算测量置信度估值。测量置信度是在拷贝数限度内的样品拷贝数估值的统计置信度水平。如果所述置信度低于指定的阈值(99%),则产生样品警示。
e.调用置信度:样品QC计算调用置信度。调用置信度是具有在输出中报导的SMN1基因拷贝数的样品的统计置信度水平。如果调用置信度低于指定的阈值(99.99%),则产生样品警示。
B.数据分析算法
数据分析工作流的该描述遵从在SMA数据分析模块中执行的算法的步骤。在算法中存在3个基本部分:原始数据的处理、统计分析和QC分析。
1.出错处理
数据分析模块在日志文件中输出出错信息。日志文件的名称按下列命名法命名;其始于“SMADALog”前缀,继之以Ct数据文件名。如果未在算法变元(algorithm arguments)中指定Ct数据文件名称,则模块产生日志文件“SMADALog_Default.txt.”。如果模块已成功处理数据则日志文件为空。如果算法遭遇出错或意外中间结果,其停止计算并且在日志文件中写入出错信息。
2.数据输入
SMA数据分析模块需要两个输入数据文件,来自TaqMan的Ct数据和来自TaqMan的截断数据(clipped data)。文件应当以标准ABI格式存在。所述模块以Ct数据文件开始数据输入。其搜索始于“孔”关键词的行,在“孔”行后输入384行。这些是FAM Ct测量。在其处理FAM后,其再次搜索“孔”关键词并且在关键词后输入另外384个正文行。这些是VIC Ct测量。就3个变量:样品名称、报告分子(reporter)和C t剖析C t数据文件中的行。将所有非数字Ct转换成40。
截断数据文件被读取为制表符定界文件(tab delimited file)。模块阅读块AS3...CF770。该块包含384孔中40个循环的两通道的Δ荧光测量。块内的单元(cell)必须包含数值。
如果模块不能打开两个数据文件的任一个,其产生出错信息并且停止数据处理。在算法运算之前不能省略任何孔。
3.样品名称处理
在从Ct数据文件读取样品名称后,算法就样品ID、样品类型和孔定位剖析名称。算法通过垂线标志条“I”分隔样品名称。将第一垂线标志条前的字符串指定为样品I D,第一与第二垂线标志条之间的字符串指定为样品类型,第二垂线标志条后的字符串被舍弃。空的孔应当在Ct数据文件中具有空的样品名称。样品类型标志符应当跟随样品类型约定之后:BLDPER、BLOODSPOT、MOUTHWASH、AMNIO、CULTAFCEL、CVS、CVSCULT、CORDBLOOD。空样品类型假定为SURER。未被识别的样品类型假定为BLDPER但不被包括。
4.斜率计算
基于最接近Ct数据文件中报导的Ct测量的3个循环测量进行VIC通道的斜率计算。计算公式如下:
S = Y 3 - Y 1 2
其中Y1、Y2、Y3为3个(对数转化的,针对背景标准化的)Δ荧光测量。
5.斜率QC和Ct QC
所述算法检查参照基因通道(VIC)的斜率和Ct测量。如果斜率或Ct值未通过QC度量,所述模块产生每一个样品包括对照样品的测试结果。对于未通过该QC测试的样品,算法记录其中QC度量未通过的孔。
6.ΔCt的计算,对孔重复求平均值和中位数平滑
算法通过从VIC Ct值减去FAM Ct值来计算ΔCt。对于每一个对照扩增子,算法计算样本样品的VIC与FAM通道之间的修剪均数ΔCt(对照和空孔不包括在该计算中),其中从计算裁减或除去经验分布的尾部中80%的观察。基于切尾平均值,算法根据对公式5(线性标度)和公式6(对数标度)在对数和线性标度上导出拷贝数估值。
线性标度 T c i = 2 · 2 ( ΔCt - Δ C ‾ t )
(对数标度) T ci = 2 + ΔCt - Δ C ‾ t
如果平板全部充满,则算法对对数标度拷贝数估值进行中位数平滑。在完成后,模块检查行或列的任一个是否被调整超过0.2个单位。如它们的重复行或列也未通过中位数平滑截断值,则使这些行和列的调整复原。第1和2列总是被排除在平滑之外。行号和列号报告于平板QC输出中。
在中位数平滑后重新产生线性标度上的拷贝数估值以包括该调整。
在该点上对每一个样品的4个孔的拷贝数估值求平均值。通过四舍五入平均拷贝数估值(2免除)来计算拷贝数调用。空白对照的拷贝数调用被默认为“—”。拷贝数调用在3上被限制;大于3的调用以3个拷贝取代。在对数和线性标度上存储平板上每一个样品的平均值和标准差。
7.测量置信度
为了进行该计算假定4个重复孔间样品平均值为正态分布。测量置信度被确定为围绕符合特定样品的拷贝数限度的拷贝数估值(对4个孔间平均的)的最大正态置信区间。换句话说,测量置信度观注每一个样本或对照的4个重复测量之间的可变性和平均值。其为样品内可变性的测量。正态分布的参数如下:平均值为线性标度上4个孔间的平均拷贝数估值。标准差为平均值的标准误。限度为配置文件中指定的拷贝数限制。样品QC法检查测量置信度是否高至足以使样品具有良好质量。如果测量置信度低于截断值,则该样品测量置信度QC度量未通过。
测量置信度QC测试的测量置信度和状态被输出至输出文件中。
8.样品变化系数
在线性标度上计算样品CV,其为4个重复之间的样品标准差与样品平均值的比率。因0作为潜在除数的原因而不同地计算0拷贝样品的样品CV。0拷贝数样品的样品CV被计算为标准差与平均值+1的比率。样品QC法检查样品CV是否低于配置文件中指定的阈值。如果CV高于或等于阈值,则样品CV QC度量对于该样品是未通过的。
将样品CV QC测试的样品CV和状态输出至输出文件中。
9.两拷贝数平均值和标准差
对于调用置信度值的偏差,算法计算了背景差异性。背景差异性是两拷贝样品的调用估值的方差。在某些实施方案中,存在算法所需的一定数目的两拷贝样品并且在配置文件中指定了该数目。对于标准差和平均值的估值,模块仅合并良好质量的样品,即满足下列要求:
(a)通过VIC Ct、VIC斜率、测量置信度和样品CV QC测试
(b)非对照
(c)据估值具有两个拷贝的SMN1基因
(d)BLDPER样品类型
如果这类样品的数目低于阈值,取消要求(d),并且将所有样品类型合并在一起。在输出文件中报导了良好质量的两拷贝样品的数目以及它们的平均值和标准差。
基于平均值的标准误差为这些样品的平均值推导出相似于测量置信度的度量。如果围绕两拷贝样品平均值的置信度低于配置文件中设定的阈值,则平板QC未通过两拷贝平均值测试。
10.样品类型调整
两拷贝样品标准差是西方用于推导调用置信度值的标准差。由于不同样品类型可潜在地在测试中展示不同的变化性,因此可在配置文件中指定标准差调整。每一个样品类型可具有一个调整。将调整添加至估值的两拷贝样品标准差以计算样品类型特异性标准差。如果在步骤9中除去要求(d),则不进行调整。目前,只有AMNIO和CVS标准差被调整0.03个单位。
11.调用置信度
从t检验p值计算调用置信度。算法进行下列假定,调用估值为正态分布并且具有相同的拷贝数间变化。在进行该计算之前需要不包括对照的两拷贝样品的临界数目(critical number)(20)。对于每一个样品,算法测定来自邻近拷贝数分布的样品的t检验p值,例如对于具有两拷贝数的样品,其计算来自一拷贝数分布或三拷贝数分布的拷贝数估值的p值。对两个t-检验p-值求和,并通过从1减去两个p值的和或在0或3拷贝数的情况下减去单个p值来计算置信度-大的p值对应低置信度。
通过对该特定基因拷贝数的所有拷贝数估值求平均值来测定拷贝数t-分布平均值。如果不存在特定基因拷贝数的任何估值,假定平均值为-2、1、2和2.585。拷贝数t-分布标准差是经样品类型调整的标准差并且它们视不同样品类型而变化。
当计算每一个样品的调用置信度时,进行调用置信度QC测试。如果调用置信度小于配置文件中指定的阈值,则调用置信度测试未通过该样品。调用置信度测试状态和调用置信度值被输出至输出文件中。
12.对照的QC测试
从QC法的该部分排除空白对照。检查每一个对照样品的参照基因(VIC通道)Ct、参照基因斜率、测量置信度、调用置信度和样品CV的质量。如果这些样品QC度量的任一个未通过,则产生窗口警示并列出未通过的孔和未通过的度量。就它们与所预期的拷贝数值的对应也检查对照样品拷贝数估值。模块通过基于终SMN1平板布置的孔定位找到对照。
13.模块输出
数据分析模块从平板输出开始。以样品QC度量和数据分析结果继续QC度量。通过列输出样品,以便在文件中首先书定对照样品。关于空孔的信息未输出至输出文件中。
C.操作QC的推荐
某些QC度量的未通过可能标示仪器、自动脚本(automationscript)或测定试剂未达最佳性能。下面是可能需要操作QC组的及时关注的一列未通过。
1.平板QC中超过阈值的2拷贝样品的标准差。该平板QC度量的散发的未通过可标示关于测定试剂或试剂分配的问题。该平板QC度量的一致不通过应当引起对试剂和仪器性能质量的重新评价。未通过也可能标示关于DNA提取的问题。
2.非调用的(重复的)样品的百分比。平板上高于重复进样速率(sample rate)的25%的急剧增加可能标示试剂未达最佳性能或关于液体分配/混合的问题。平板批次的高于20%的一致重复速率是重要的并且可能需要操作QC的及时关注。其可能标示不良试剂质量或关于仪器硬件或软件的问题。
3.对照的未通过。平板批次中超过两个对照样品的一致未通过是非常关键的并且需要操作QC的及时关注。其可能标示对照样品的未通过,如果总体板重复速率低于10%的话。
4.定位未通过。平板上特定位置上的样品的一致未通过需要操作QC操作的及时关注。其可能标示在该定位上的仪器硬件的未达最佳性能。
D.数据分析模块输出格式
SMA数据分析输出以XML格式存在。其由两个部分平板QC和样品QC组成。XML文件始于标准格式行:
<?xml版本="1.0"编码="UTF-8"?>
全局(global)SmaResults结构后接平板(plate)、运行编号(run number)和模块版本:
<SmaResults平板编号="32008"运行编号="123456"模块版本="0.2">
</SmaResults>
平板QC结构被包括于:
<PlateQc></PlateQc>中
样品QC结构包括在:
<样品Qc></SarnpleQc>中
1.平板QC
(a)<VicCt>对象显示了对照样品的参照CT测量的测试的状态,此外如果测试未通过,则其列出未通过的孔。
(b)<Vic斜率>对象显示了对照样品的参照斜率测量的状态,如果测试未通过,则其列出未通过的孔。
(c)<ControlCalls>对象显示对照的状态。如果control call的任一个不匹配指定的基因拷贝数并且未通过所有样品OC度量,则未通过的对照的孔示于结构内部。
(d)<MedianPolish>对象显示中位数平滑步骤的状态。非平滑的行和列,如果有的话,示于结构内部。
(e)<Empirica lNega tive>对象显示RJ板上两拷贝样品的数目。如果数目低于阈值,则测试未通过。
(f)<NegativeAverage>对象显示两拷贝样品的mean call。如果均值和其置信区间超出可接受的限度则测试未通过。
(g)<NegativeStdiv>对象显示两拷贝样品的标准差。如果标准差高于阈值则测试未通过。
2.样品QC
a.<Samples>对象列出平板上所有对照和测试样品。
b.<Sample>对象包括个体样品和显示下列信息:
i.样品ID|以sampleID表示的样品类型
ii.以类型(type)表示的样品类型(对照,样本)
iii.以copyEstimate表示的拷贝数值
i v.call中的样品拷贝数调用。空白对照将它们的拷贝数调用默认为“--”。
v.callConfidenceCriterion中的调用置信度测试的状态(通过或未通过)
vi.measurementConfidence中的测量置信度
vii.sampleCvCriterion中的样品CV测试的状态(通过或未通过)
viii.sampleCv中的样品CV
ix.在VicCt中该样品的VIC CT测试状态,具有一列未通过的孔
x.Vicslope中该样品的VIC斜率测试状态,在具有一列未通过的孔
xi.FAM中4个孔的在log 10标度上的样品FAM DeltaRn数据:孔中的孔位置和循环1至循环40中Logi 0 DeltaRn编号
xii.VIC中4个孔的在log 10标度上的样品VIC DeltaRn数据:孔中的孔位置和循环1至循环40中Log10 DeltaRn编号
E.数据分析可执行文件(SMADataAnalysis.exe)SMADataAnalysis.exe是在Win32环境中编译的Matlab(Mathworks,Inc)脚本。SMADataAnalysis进行数据标准化、call assignment和计算SMN1TaqMan数据的调用置信度。
1.运行时间构成
a.Matlab运行时间库。需要MCRInstaller.exe来在Windows工作站上运行脚本。MCRInstaller.exe文件的版本应当匹配用于编译脚本的Matlab的版本。
b.SMADataAnalysis.ctf。该文件包括一组当脚本运行时使用的Matlab功能。该文件需要存在于SMADataAnalysis.exe文件夹中。紧接着脚本的第一次执行将ctf文件展开至SMADataAnalysis_mcr子文件夹中。建立子文件夹。
c.SMADataAnalysis.cfg。该文件是配置文件。其以纯本文形式存在并且包括QC度量的不同的可调整的阈值。
2.命令行格式
SMADataAnalysis[CT数据文件][截断数据文件][输出文件](平板#1[运行#]
a.CT数据文件为以标准文本格式存在的ABI CT数据输出文件。
b.截断数据文件是具有以标准文本格式存在的Rn和DeltaRn测量的相应ABI截断数据文件。
c.输出文件为输出文件名。
d.平板#为平板#为平板编号。
e.运行#为运行编号。
3.输入
a.CT数据文件
b.截断数据文件
c.输出文件名称
d.平板编号
e.运行编号
f.配置文件的配置参数
4.输出
SMADataAnalysis.exe将输出写入两个文件:
a.命令行中指定的输出文件(参见SMA Data Analysis Outputfile format.doc中的格式描述)
b.日志文件,“SMADALog_[CT数据文件]”。日志文件登记计算期间的异常中间结果和常见代码执行错误。在成功的执行中,日志文件应当为空。
F.配置文件
配置文件SMADataAnalysis.cfg为文本文件,其中指定了QC度量阈值和其它参数。文件应当具有下列行:
VIC通道C t阈值:30
VIC通道斜率范围:[0.150.55]
0拷贝数调用用限度:[-0.010.01]
1拷贝数调用用限度:[0.61.4]
2拷贝数调用用限度:[1.62.4]
3拷贝数调用限度:[2.435]
2拷贝数经验对照的最少数目:20
2拷贝数标准差阈值:0.1
样品CV阈值:0.15
测量置信度阈值:0.99
调用置信度阈值:0.9999
BLOODSPOT的标准差调整:0
MOUTHWASH的标准差调整:0
AMNIO的标准差调整:0.03
CULTAFCEL的标准差调整:0
CVS的标准差调整:0.03
CVSCULT的标准差调整:0
脐带血(CORDBLOOD)的标准差调整:0
VIC Ct 30为参照基因通道的当前Ct阈值。
VIC通道斜率范围的括号内的范围是log 10标示上参照基因斜率的允许变化范围。
拷贝数调用用限度示于不同拷贝数估值的括号内。
如上文中所示的,配置参数还包括用于评估两拷贝样品调用置信度计算中的差异的估值的两拷贝样品的最少数目、两拷贝样品的最大允许标准差、最大允许的样品CV、允许的置信度水平和不同样品类型的变化性调整。
G.拷贝数限度的计算
不推荐拷贝数限度值的重新计算,但可就新的试剂批次、新的仪器或实验条件的其它变化进行数限度值的重新计算。在一些实施方案中,获得4种拷贝数:0、1、2和3的每一个的一个生物样本的30+个体反应调用估值(reaction call estimate)。
用于计算拷贝数限度值的方法如下:
1.转换单个反应的调用估值测量以拟合标准β分布:
将0至0.5的0拷贝调用估值减少2。弃去超出[0,0.5]区间的测量。
将0.5至1.5的1拷贝调用估值减少0.5。弃去超出[0.5,1.5]区间的测量。
将1.5至2.5的2拷贝调用估值减少1.5。弃去超出[1.5,2.5]区间的测量。
将2.4至3.4的3拷贝调用估值减少2.4。弃去超出[2.4,3.4]区间的测量。
2.计算每一个转化拷贝数数据集的平均值和方差。
3.单独的β分布拟合通过α和β的估值产生的拷贝数转化数据
a = &mu; [ &mu; ( 1 - &mu; ) &sigma; 2 - 1 ] ; &beta; = ( 1 - &mu; [ &mu; ( 1 - &mu; ) &sigma; 2 - 1 ]
由于其不对称性和有界支撑(bounded support),选择β分布家族择用于该方法。
4.分布限度通过计算4个分布的0.00005和0.99995百分位数和将所述百分位数反转(reverse-t ransforming)成原始标度来获得。例如,将1.5添加至2拷贝数分布的0.00005和0.99995百分位数。
5.检查分布限度的界限:
0拷贝
●[0.01,0.1]内的上限
●下限设置为负的上限。
1拷贝
●[1.4,1.45]内的上限
●[0.5,0.6]内的下限
2拷贝
●[2.35,2.4]内的上限
●[1.6,1.65]内的下限
3拷贝
●[2.4,2.5]内的下限
●上限设置为5。
设立界限以确保适当的调用估值范围被限定捕获并且在连续的拷贝数区域之间存在足够宽的的不确定范围。边界的设置基于在测试发展和VeVa中确认的样品的调用估值的变化性。
I.Matlab编译要求
成功地将模块编译于Matlab v.R2007a中。模块编译需要Matlab、统计工具箱(Statistical Toolbox)、Matlab编译器(MatlabCompiler)。下面是一列具有模块源代码的Mat lab文件:
1.SMADataAnalysis.m—从命令行调用的主脚本。
2.SMAAnalysisModule.m—主计算脚本。从SMADataAnalysis.m调用其。
3.medianpolish.m—中位数平滑功能。
4.alignReplicates.m—重复处理功能。
5.ReadConfig.m—从配置文件阅读参数值的功能。
II.SMA数据分析模块的调用估值的计算的详细文档编制根据公式1计算平板上每一个孔(I,j)的ΔCt。在该情况下,用VIC荧光基团标记参照基因座的TAQMANTM探针和利用FAM荧光基团标记目标基因座的TAQMANTM探针。因此,每一个孔的公式1成为:
&Delta; Ct ij = Ct VIC ij - Ct FAM ij
I.通过获得每一个参照基因的平板ΔCT(不包括对照孔)的80%修剪均数来计算两个参照基因的校准ΔCT:
ΔCtSNARCCI=修剪均数(ΔCtij,80);i为SMARCCI孔
ΔCtSUPT5=修剪均数(ΔCtij,80);i为SUPT5孔
对平板上的孔计算每一个参照基因的修剪均数,所述子孔对应于该参照基因。
2.每一个孔的对数calle stimate的计算:
logCEij=2+Ctij  ΔCtSMARCCI;i为SMARCCI孔
logCEij=2+Ctij    ΔCtSUPT5;i为SUPT5孔
3.每一个孔的call estimate的计算:
CEij=2logCEij-1
4.通过对4个样品孔的调用估值求平均数来计算每一个样品的调用估值:
CE样品,=平均(CEij);i,j为4个样品孔
5.通过舍入样品调用估值来计算样品调用:
C样品,=舍入(CE样品)
实施例4.确定SMN1基因座上的突变的测定
在本实施例中,进行另外的测定以确定SMN1基因座上的突变。结合(例如在对相同组的生物样本进行之前、期间或之后)实时PCR实验,例如实施例1中公开的实时PCR实验,进行本实施例中的另外的实验。利用侧翼连接实时PCR实验中的SMN1扩增子的引物进行SMN1-特异性测序以确定任何单核苷酸多态型(SNP)或其它突变是否负责“1”或“0”的任何SMN1拷贝数调用用。
在初始PCR扩增后,利用Exo-SAP(外切核酸酶I-虾碱性磷酸酶)处理PCR反应。利用正向和反向通用引物UP1和UP2对Exo-SAP-纯化的PCR反应物测序以获得双向序列信息。将测序产物电泳通过凝胶,在ABI 3130测序仪(利用36cm阵列和POP6聚合物)进行分析。使用SEQSCAPETM软件(Applied Biosys tems)进行序列分析。
材料和方法
测序引物
Figure BDA00001626690400731
Figure BDA00001626690400741
测序PCR条件
步骤1:95℃下进行5分钟(酶变性)
步骤2:95℃下进行30秒(ds DNA的变性)
步骤3:63℃下进行20秒(退火)
步骤4:72℃下进行1分钟(延伸)
步骤5:转至步骤2,再进行37次
步骤6:72℃下进行10分钟(终延伸)
步骤7:8℃,永远
结束
实施例5:北美主要种族群体的SMN1等位基因频率的估值
可将通过本文中公开的方法和系统产生的拷贝数调用用于进一步分析例如评估群体的等位基因频率。
脊髓性肌萎缩(SMA)是最常见的遗传性儿童致命疾病。牵涉SMN1外显子7的丢失的不同遗传缺失据报导占据94%的传递该隐性性状的突变等位基因。公开的文献将SMN1突变的携带者频率定于群体的1/25至1/50。虽然SMA被认为是泛种族性疾病(pan-ethnic disease),但具体种族的携带者频率未知。
在本实施例中,如实施例1-3中所述获得拷贝数估值,随后将其用于评估北美的主要种族群体的等位基因频率。为了提供非洲裔美国人、艾希肯纳兹犹太人、亚洲人、高加索人和西班牙人群体的SMN1突变携带者频率的精确评估,使用经临床验证的定量实时PCR测定法测试每一个种族群体的1000多个匿名样本,所述实时PCR测量外显子拷贝数(SMN1的外显子7)。在假定具有SMA的家族史的个体的常规临床测试后从残留材料收集样品,所述样品是按照批准的方案完全匿名的。种族性是自我报告的。
在几个种族之间观察到显著拷贝数差异,如表4中所显示的。对于1拷贝携带者,来自高加索人或艾希肯纳兹犹太人祖先的个体的样本与来自非洲裔美国人和西班牙人背景的所述样本具有统计学上显著不同的频率。对于所有种族群体,除非洲裔美国人外,两拷贝基因型的流行率为三拷贝的5倍。在非洲裔美国人中,2-和3-拷贝基因型具有几乎相同的频率。非洲裔美国人群中的这些意外的结果通过利用备选方法多重连接-依赖性探针扩增(Multiplex Ligation-dependentProbe Amplification)(MLPA)测试3-拷贝样品的亚组(n=50)得到确认。所有MLPA样品结果与实时PCR结果一致。
表4:不同种族间SMN1拷贝数的频率
Figure BDA00001626690400751
1基因型频率评估的置信区间
也从表4中观察到的基因型计算每一个种族群体的每等位基因SMN1拷贝数的频率。计算的频率呈现Hardy-Weinberg平衡,并且示于表5。
表5:每等位SMN1拷贝的频率
  种族性   0   1   2   1D
  高加索人   1.43%   95.29%   3.26%   0.03%
  艾希肯纳兹犹太人   1.21%   90.72%   8.06%   0.02%
  亚洲人   0.94%   93.38%   5.67%   0.02%
  非洲裔美国人   0.75%   71.89%   27.34%   0.01%
  西班牙人   0.42%   91.86%   7.71%   0.01%
1D=疾病等位基因(非SMN1外显子7缺失/转变(conversion)引起的,例如,点突变)
1=具有1个拷贝的SMN1的等位基因
2=具有2个或更多拷贝的SMN1的等位基因
1D等位基因在所有种族群体中的患病率基于由Wirth等(1999)“Quantitative analysis of survival motor neuron copies:identification of subtle SMN1 mutations in patients with spinalmuscular atrophy,genotype-phenotype correlation,andimplications for genetic counseling.”Am.J Hum.Genet.(64:1340-1356)(将其内容通过引用并入本文)描述的SMA患者的频率。
最后,测试来自5个种族群体的1000多个样本显示了许多等位基因频率的显著差异。
材料和方法
如上文实施例1-3中所述,进行SMN1基因的外显子7的拷贝数估值的计算、质量控制检查以及统计检查。
围绕基因型频率评估的置信区间的计算
基于精确β分布模型(exact beta distribution model)计算示于表4中的围绕基因型频率评估的95%置信区间(95%CI)。表5中显示的等位基因频率是在Hardy-Weinberg平衡的假定下从观察到的基因型数据计算的最大似然估值。将EM算法用于解释筛查群体中0SMN1拷贝基因型的缺失观察。算法在于两个重复后等位基因频率的评估中收敛于6位有效数字。围绕等位基因频率评估的95%CI和现有风险评估(prior risk estimate)(表5)被计算为等位基因频率和风险评估的模拟群体的相应百分位数。这些蒙特卡洛模拟(Monte Carlosimulation)基于从后验β分布产生10,000个随机基因型观察,然后在Hardy-Weinberg假定下的等位基因频率的最大似然估值。
其它实施方案
通过考虑本文中公开的本发明的说明书或实践,本发明的其它实施方案对于本领域技术人员来说将是显然的。说明书和实施例意欲仅被认为是示例性的,本发明的实际范围由下列权利要求指定。
Figure IDA00001626691300011
Figure IDA00001626691300031
Figure IDA00001626691300041

Claims (56)

1.分析目标基因座的拷贝数的方法,所述方法包括:
(a)提供多个生物样本,每一个单个生物样本包含目标基因座和一个或多个具有已知拷贝数的参照基因座;
(b)进行多个生物测定,其中每一个单个生物测定分析每一个单个生物样本中的目标基因座和一个或多个参照基因座并产生可检测信号,以便目标基因座与一个或多个参照基因座的可检测信号的水平与它们各自的拷贝数相关;
(c)基于多个生物测定来确定针对一个或多个参照基因座标准化的目标基因座的多个拷贝数估值;和
(d)评估拷贝数估值的质量和/或拷贝数调用的统计置信度,从而确定是否能产生目标基因座的拷贝数调用。
2.权利要求1的方法,其中所述目标基因座包括基因或其部分。
3.权利要求2的方法,其中所述基因或其部分包括运动神经元生存蛋白1(SMN1)的外显子。
4.权利要求1的方法,其中一个或多个参照基因座选自由SMARCC1和SUPT5H组成的组。
5.权利要求3的方法,其中SMN1的外显子为外显子7。
6.前述权利要求的任一项的方法,其中步骤(b)的生物测定是扩增目标基因座和一个或多个参照基因座的实时PCR测定。
7.权利要求6的方法,其中所述可检测信号为荧光信号,并且其中在每一个扩增循环检测所述目标基因座或一个或多个参照基因座的荧光信号水平。
8.权利要求7的方法,其中步骤(c)包括步骤:
(i)确定每一个单个生物样本中目标基因座与一个或多个参照基因座达到预定的荧光信号水平所需的循环次数的差异(ΔCti);
(ii)产生反映正常目标基因座与一个或多个参照基因座之间的差异的校准器
Figure FDA00001626690300011
(iii)通过将在步骤(i)中确定的循环次数的差异ΔCti针对校准器
Figure FDA00001626690300021
标准化确定每一个单个生物样本中目标基因座的拷贝数估值。
9.权利要求8的方法,其中步骤(i)包括首先测量目标基因座和一个或多个参照基因座的每一个达到预定荧光信号水平所需的循环次数(Cti)。
10.权利要求8的方法,其中所述校准器是通过多个生物样本的目标基因座与一个或多个参照基因座之间的ΔCti的修剪均数定义的。
11.权利要求8-10的任一项的方法,其中每一个单个生物样本的目标基因座的拷贝数估值是在线性标度上确定的。
12.权利要求8-10的任一项的的方法,其中每一个单个生物样本的目标基因座的拷贝数估值是在对数标度上确定的。
13.前述权利要求任一项的方法,其中目标基因座的拷贝数估值的质量是基于针对一个或多个参照基因座产生的数据的质量来评估的。
14.前述权利要求任一项的方法,其中所述统计置信度是通过确定测量置信度和/或调用置信度来评估的。
15.权利要求1的方法,其中在步骤(b)中进行的生物测定是重复的。
16.权利要求15的方法,其中拷贝数调用的统计置信度是通过计算重复生物测定的测量置信度和基于多个拷贝数估值的调用置信度来确定的。
17.权利要求15的方法,其中步骤(d)包括:如果调用置信度小于预定阈值,则确定不能产生目标基因座的拷贝数调用。
18.检测与目标基因的异常拷贝数相关的疾病或其携带者的方法,所述方法包括
(a)提供多个包含至少一个获自目标个体的生物样本的生物样本;
(b)对多个生物样本的每一个进行多个重复生物测定以分析目标基因和一个或多个具有已知拷贝数的参照基因,其中多个重复生物测定的每一个产生可检测信号,以便目标基因与一个或多个参照基因的可检测信号的水平与它们各自的拷贝数相关;
(c)确定针对一个或多个参照基因标准化的目标基因的拷贝数估值;和
(d)评估目标个体的拷贝数估值的质量和/或拷贝数调用的统计置信度,从而确定是否能产生个体的目标基因的拷贝数调用。
19.权利要求18的方法,其还包括确定个体是否患有或处于发生疾病的风险中,或个体是否为所述疾病的携带者。
20.权利要求18或19的方法,其中所述疾病为脊髓性肌萎缩(SMA)。
21.权利要求20的方法,其中所述目标基因为运动神经元生存蛋白1(SMN1)。
22.权利要求21的方法,其中步骤(b)中进行的生物测定法为实时PCR测定法。
23.权利要求22的方法,其中步骤(b)包括进行扩增至少SMN1的外显子7的部分的实时PCR测定。
24.权利要求22或23的方法,其中所述可检测信号是荧光信号,且在每一个扩增循环上检测目标基因或一个或多个参照基因的荧光信号水平。
25.权利要求18-24的任一项的方法,其中步骤(c)包括步骤:(i)确定每一个单个重复测定中目标基因与一个或多个参照基因之间达到预定的荧光信号水平所需的循环次数的差异(ΔCti);(ii)产生反映正常目标基因与一个或多个参照基因之间的背景差异的校准器和(iii)通过将在步骤(i)中确定的循环次数的差异ΔCti针对校准器
Figure FDA00001626690300032
标准化来产生基于每一个单个重复测定的拷贝数估值。
26.权利要求25的方法,其中每一个单个生物样本的目标基因座的拷贝数估值是在线性标度上确定的。
27.权利要求25的方法,其中其中每一个单个生物样本的目标基因座的拷贝数估值是在对数标度上确定的。
28.权利要求22-27的任一项的方法,其中评估拷贝数估值的质量包括产生基于循环次数测量及其针对一个或多个参照基因产生的扩增曲线斜率的质量控制度量。
29.权利要求18-28的任一项的方法,其中评估拷贝数估值的质量包括确定多个重复生物测定之间的变化系数。
30.权利要求18-29的任一项的的方法,其中评估拷贝数调用的统计置信度包括确定测量置信度和/或调用置信度。
31.权利要求18的方法,其中拷贝数调用的统计置信度通过计算多个重复生物测定的测量置信度和基于多个拷贝数估值的调用置信度来确定。
32.权利要求30的方法,其中所述测量置信度被确定为围绕拷贝数估值的最大正态置信区间,所述最大正态置信区间是通过多个重复测定间的拷贝数估值的平均值和符合预定拷贝数限度的平均值标准误差定义的。
33.权利要求32的方法,其中步骤(d)包括:如果测量置信度不超过预定置信度阈值,则确定不能产生拷贝数调用。
34.权利要求30的方法,其中所述调用置信度测定来自邻近拷贝数分布的拷贝数估值的t检验的p值。
35.权利要求34的方法,其中步骤(d)包括:如果调用置信度小于预定置信度阈值,则确定不能产生拷贝数调用。
36.前述权利要求任一项的方法,其中所述方法还包括平行地分析一个或多个具有预定的目标基因拷贝数的对照样品。
37.权利要求36的方法,其中在多孔平板上进行生物测定。
38.权利要求37的方法,其中所述方法还包括基于一个或多个对照样品的质量控制和统计分析确定平板质量控制度量。
39.权利要求38的方法,其中如果一个或多个对照样品中的任何样品未通过质量控制或统计置信度评估之一或如果任何单个对照样品的估值不等于预定拷贝数,则舍弃平板。
40.权利要求18-39的任一项的方法,其中所述至少一种获自目标个体的生物样本包含来自细胞、组织、全血、血浆、血清、尿、粪便、唾液、脐带血、绒膜绒毛取样、绒膜绒毛取样培养物、羊水、羊水培养物或经子宫颈洗出液的核酸。
41.权利要求18-40的任一项的方法,其中获自目标个体的至少一种生物样本为出生前样品。
42.用于分析目标基因座的拷贝数的系统,其包括:
a)接收多个生物样本的工具,其中每一个单个生物样本包含目标基因座和一个或多个具有已知拷贝数的参照基因座;
b)进行多个生物测定的工具,其中每一个单个生物测定分析每一个单个生物样本的目标基因座和一个或多个参照基因座并且产生可检测信号,以便目标基因座和一个或多个参照基因座的可检测信号的水平与其各自拷贝数相关;
c)经配置用以检测来自每一个单个生物样本的可检测信号和确定可检测信号的水平的确定模块;
d)经配置用以存储来自确定模块的信号信息的存储设备;
e)计算模块,其经改造适合(i)基于存储设备上存储的信号信息计算针对一个或多个参照基因座标准化的目标基因座的拷贝数估值和(ii)确定拷贝数估值的质量和/或拷贝数调用的统计置信度;和
f)为用户显示部分基于计算的内容和数据分析结果的显示模块,其中所述内容包括目标基因座的拷贝数调用和/或表示质量控制或统计置信度分析的任一个是否未通过的信号。
43.权利要求42的系统,其中所述生物测定法为实时PCR测定法。
44.权利要求42的系统,其中所述生物测定法为基于阵列的比较型基因组杂交(aCGH)。
45.权利要求42的系统,其中所述生物测定为高通量测序。
46.权利要求43的系统,其中所述确定模块经配置用以确定每一个扩增循环上的可检测信号水平且其中所述可检测信号为荧光信号。
47.权利要求45或46的系统,其中所述计算模块经改造以适合按照下列步骤计算目标基因座的拷贝数估值:
(i)确定每一个单个样本中目标基因座与一个或多个参照基因座达到预定的荧光信号水平所需的循环次数之间的差异(ΔCti);
(ii)产生反映正常目标基因座与一个或多个参照基因座之间的背景差异的校准器
Figure FDA00001626690300061
(iii)通过针对校准器
Figure FDA00001626690300062
标准化在步骤(i)测定的循环次数的差异ΔCti来计算每一个单个生物样本中的目标基因座的拷贝数估值。
48.权利要求43-47的任一项的系统,其中所述计算模块经改造以适合通过至少产生基于循环次数测量及其针对一个或多个参照基因产生的扩增曲线斜率的质量控制度量来确定拷贝数估值的质量。
49.权利要求43-48的任一项的系统,其中所述计算模块经改造以适合通过至少测定样品变化系数来确定拷贝数估值的质量。
50.权利要求43-49的任一项的系统,其中所述计算模块经改造以适合通过至少确定测量置信度并将确定的测量置信度与预定阈值限度相比较来确定拷贝数调用的统计置信度。
51.权利要求43-50的任一项的系统,其中所述计算模块经改造适合通过至少确定调用置信度并将确定的调用置信度与预定阈值限度相比较来确定拷贝数调用的统计置信度。
52.权利要求43-51的任一项的系统,其中进一步改造计算模块以确定任何对照样品是否未通过。
53.权利要求42-52的任一项的系统,其中所述目标基因座包括运动神经元生存蛋白1(SMN1)的外显子。
54.一种计算机可读介质,其将计算机可读指令记录在其上以定义软件模块,包括用于在计算机上执行方法的计算模块和显示模块,所述方法包括:
a)利用计算模块进行计算,(i)基于存储在存储设备上的实时PCR数据,针对一个或多个参照基因座标准化的目标基因座的拷贝数估值和(ii)拷贝数估值的质量和/或拷贝数调用的统计置信度;和
b)为用户显示部分基于计算和数据分析结果的内容,其中所述内容包括目标基因座的拷贝数调用和/或信号标示是否未通过质量控制或统计置信度分析的任一个。
55.权利要求54的计算机可读介质,其中所述目标基因座包含SMN1的外显子7或其部分。
56.用于诊断脊髓性肌萎缩(SMA)或其携带者的试剂盒,其包括
(a)用于扩增SMN1的外显子7或其部分的一种或多种试剂;
(b)用于扩增一个或多个具有已知拷贝数的参照基因座的一种或多种试剂;和
(c)根据权利要求55的计算机可读介质。
CN2010800510343A 2009-11-12 2010-11-12 基因座的拷贝数分析 Pending CN102597272A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26080409P 2009-11-12 2009-11-12
US61/260,804 2009-11-12
PCT/US2010/056494 WO2011060240A1 (en) 2009-11-12 2010-11-12 Copy number analysis of genetic locus

Publications (1)

Publication Number Publication Date
CN102597272A true CN102597272A (zh) 2012-07-18

Family

ID=43992059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800510343A Pending CN102597272A (zh) 2009-11-12 2010-11-12 基因座的拷贝数分析

Country Status (6)

Country Link
US (2) US9361426B2 (zh)
EP (1) EP2499262A4 (zh)
JP (1) JP2013510580A (zh)
CN (1) CN102597272A (zh)
CA (1) CA2777549A1 (zh)
WO (1) WO2011060240A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103614477A (zh) * 2013-11-27 2014-03-05 南方医科大学 一种诊断人类脊髓性肌萎缩症的荧光定量pcr试剂盒
CN104560697A (zh) * 2015-01-26 2015-04-29 上海美吉生物医药科技有限公司 一种基因组拷贝数不稳定性的检测装置
CN104694384A (zh) * 2015-03-20 2015-06-10 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN106834502A (zh) * 2017-03-06 2017-06-13 明码(上海)生物科技有限公司 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN107267613A (zh) * 2017-06-28 2017-10-20 安吉康尔(深圳)科技有限公司 测序数据处理系统和smn基因检测系统
CN107287282A (zh) * 2016-04-13 2017-10-24 上海杰隆生物工程股份有限公司 一种快速鉴定纯合子转基因羊的方法及其应用
CN108456726A (zh) * 2018-04-19 2018-08-28 深圳会众生物技术有限公司 脊髓性肌萎缩症基因检测探针、引物和试剂盒
CN110268072A (zh) * 2016-12-15 2019-09-20 Illumina公司 确定旁系同源基因的方法和系统
CN110709522A (zh) * 2017-04-04 2020-01-17 建喾立嗣股份公司 生物样本核酸质量的测定方法
CN111655833A (zh) * 2017-11-13 2020-09-11 株式会社理光 检测判断装置

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
WO2011090556A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acid in maternal samples
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
DK3382037T3 (da) 2010-01-19 2021-05-25 Verinata Health Inc Fremgangsmåder til bestemmelse af fraktionen af føtale nukleinsyrer i maternelle prøver
US10662474B2 (en) * 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US20120100548A1 (en) 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
CA2786565C (en) 2010-01-19 2017-04-25 Verinata Health, Inc. Partition defined detection methods
CA2832468C (en) 2011-04-12 2023-10-31 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
US9994898B2 (en) * 2011-06-07 2018-06-12 Icahn School Of Medicine At Mount Sinai Materials and methods for identifying spinal muscular atrophy carriers
US20140095136A1 (en) * 2011-12-17 2014-04-03 Ariosa Diagnostics, Inc. Mathematical normalization of sequence data sets
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CA2877864C (en) * 2012-06-28 2019-05-14 James Douglas Watson Targeted rna-seq methods and materials for the diagnosis of prostate cancer
ES2906714T3 (es) 2012-09-04 2022-04-20 Guardant Health Inc Métodos para detectar mutaciones raras y variación en el número de copias
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014058987A1 (en) * 2012-10-09 2014-04-17 Five3 Genomics, Llc Systems and methods for tumor clonality analysis
EP2971139A4 (en) 2013-03-15 2016-12-07 Abbott Molecular Inc SYSTEMS AND METHOD FOR PROVIDING THE CHANGE OF A GENOMIC COPY NUMBER
ES2877088T3 (es) * 2013-03-15 2021-11-16 Guardant Health Inc Procedimiento para detectar cáncer
WO2014169243A2 (en) 2013-04-12 2014-10-16 The Curators Of The University Of Missouri Smn2 element 1 antisense compositions and methods and uses thereof
US10851414B2 (en) * 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
ES2822125T3 (es) 2013-12-28 2021-04-29 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
US10741291B2 (en) * 2014-03-27 2020-08-11 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
EP3169813B1 (en) 2014-07-18 2019-06-12 The Chinese University Of Hong Kong Methylation pattern analysis of tissues in dna mixture
JP2018502602A (ja) * 2014-12-29 2018-02-01 カウンシル,インコーポレーテッド 相同性の高い領域において遺伝子型を決定する方法
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
WO2016127032A1 (en) * 2015-02-06 2016-08-11 Life Technologies Corporation Methods and systems for instrument validation
JP2019507585A (ja) 2015-12-17 2019-03-22 ガーダント ヘルス, インコーポレイテッド 無細胞dnaの分析による腫瘍遺伝子コピー数を決定するための方法
WO2017120309A1 (en) * 2016-01-05 2017-07-13 The Texas A&M University System Comparative locus amplification for determining copy number
KR102529113B1 (ko) 2016-11-30 2023-05-08 더 차이니즈 유니버시티 오브 홍콩 소변 및 기타 샘플에서의 무세포 dna의 분석
WO2018117986A1 (en) * 2016-12-23 2018-06-28 Leader Medical Genetics And Genomics, Co., Ltd. A method for detecting a copy number of smn1 gene
EP3710598A1 (en) * 2017-11-13 2020-09-23 Ricoh Company, Ltd. Device with specific number of cell(s) and nucleic acids in the wells and testing/calibration method using the device
WO2019093528A1 (en) * 2017-11-13 2019-05-16 Ricoh Company, Ltd. Device with specific number of cell(s) and nucleic acids in the wells and testing/calibration method using the device
US10241903B1 (en) * 2017-11-15 2019-03-26 Accenture Global Solutions Limited Parallel testing and reporting system
JP6447765B1 (ja) * 2017-11-21 2019-01-09 株式会社リコー 検査デバイス及びデバイス
EP3486330A1 (en) * 2017-11-21 2019-05-22 Ricoh Company, Ltd. Device for measuring ranges of copy numbers
JP6454434B1 (ja) * 2017-11-24 2019-01-16 株式会社リコー 検査装置の性能評価用検査デバイス、検査装置の性能評価プログラム、検査装置の性能評価方法、及び検査装置の性能評価装置
WO2019182956A1 (en) * 2018-03-22 2019-09-26 Myriad Women's Health, Inc. Variant calling using machine learning
EP3818166A4 (en) * 2018-07-05 2022-03-30 AccuraGen Holdings Limited COMPOSITIONS AND METHODS FOR POLYMERASE CHAIN REACTION
WO2020129874A1 (en) * 2018-12-18 2020-06-25 Ricoh Company, Ltd. Device, nucleic acid testing method and nucleic acid testing device, and gene testing method
EP3670670A1 (en) * 2018-12-18 2020-06-24 Ricoh Company, Ltd. Nucleic acid analysis method, nucleic acid analysis program, and device for library preparation
JP7317311B2 (ja) * 2018-12-18 2023-07-31 株式会社リコー ライブラリー調製用デバイス
US20200381079A1 (en) * 2019-06-03 2020-12-03 Illumina, Inc. Methods for determining sub-genic copy numbers of a target gene with close homologs using beadarray
CN110390995B (zh) * 2019-07-01 2022-03-11 上海交通大学 α螺旋跨膜蛋白质拓扑结构预测方法及装置
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
CN114457144B (zh) * 2022-03-22 2023-06-30 上海润达榕嘉生物科技有限公司 一种用于靶基因拷贝数检测的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090215036A1 (en) * 2004-12-10 2009-08-27 Bayer Healthcare Ag Genetic Alterations Useful For The Response Prediction of Malignant Neoplasia to Taxane-Based Medical Treatments

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1578994A2 (en) * 2002-11-11 2005-09-28 Affymetrix, Inc. Methods for identifying dna copy number changes
US8515679B2 (en) * 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
EP1991701A4 (en) * 2006-02-14 2010-03-17 Dana Farber Cancer Inst Inc COMPOSITIONS, KITS, AND METHODS FOR IDENTIFYING, EVALUATING, PREVENTING, AND TREATING CANCER
EP2029779A4 (en) * 2006-06-14 2010-01-20 Living Microsystems Inc HIGHLY PARALLEL SNP GENOTYPING UTILIZATION FOR FETAL DIAGNOSIS
US20100137149A1 (en) * 2006-12-27 2010-06-03 Snu R&Db Foundation Data processing, analysis method of gene expression data to identify endogenous reference genes
US20120165202A1 (en) * 2009-04-30 2012-06-28 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090215036A1 (en) * 2004-12-10 2009-08-27 Bayer Healthcare Ag Genetic Alterations Useful For The Response Prediction of Malignant Neoplasia to Taxane-Based Medical Treatments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
THOMAS EGGERMANN: "A new splice site mutation in the SMN1 gene causes discrepant results in SMN1 deletion screening approaches", 《NEUROMUSCULAR DISORDERS》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103614477B (zh) * 2013-11-27 2015-05-20 南方医科大学 一种诊断人类脊髓性肌萎缩症的荧光定量pcr试剂盒
CN103614477A (zh) * 2013-11-27 2014-03-05 南方医科大学 一种诊断人类脊髓性肌萎缩症的荧光定量pcr试剂盒
CN104560697A (zh) * 2015-01-26 2015-04-29 上海美吉生物医药科技有限公司 一种基因组拷贝数不稳定性的检测装置
CN104694384A (zh) * 2015-03-20 2015-06-10 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN104694384B (zh) * 2015-03-20 2017-02-08 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN107287282A (zh) * 2016-04-13 2017-10-24 上海杰隆生物工程股份有限公司 一种快速鉴定纯合子转基因羊的方法及其应用
CN110268072A (zh) * 2016-12-15 2019-09-20 Illumina公司 确定旁系同源基因的方法和系统
CN110268072B (zh) * 2016-12-15 2023-11-07 Illumina公司 确定旁系同源基因的方法和系统
CN106834502A (zh) * 2017-03-06 2017-06-13 明码(上海)生物科技有限公司 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN110709522A (zh) * 2017-04-04 2020-01-17 建喾立嗣股份公司 生物样本核酸质量的测定方法
US11970732B2 (en) 2017-04-04 2024-04-30 Gencurix Inc. Method for determining nucleic acid quality of biological sample
CN107267613A (zh) * 2017-06-28 2017-10-20 安吉康尔(深圳)科技有限公司 测序数据处理系统和smn基因检测系统
CN111655833A (zh) * 2017-11-13 2020-09-11 株式会社理光 检测判断装置
CN108456726A (zh) * 2018-04-19 2018-08-28 深圳会众生物技术有限公司 脊髓性肌萎缩症基因检测探针、引物和试剂盒

Also Published As

Publication number Publication date
US9361426B2 (en) 2016-06-07
CA2777549A1 (en) 2011-05-19
US20160319339A1 (en) 2016-11-03
JP2013510580A (ja) 2013-03-28
EP2499262A1 (en) 2012-09-19
EP2499262A4 (en) 2015-01-07
WO2011060240A1 (en) 2011-05-19
US20110118145A1 (en) 2011-05-19

Similar Documents

Publication Publication Date Title
CN102597272A (zh) 基因座的拷贝数分析
Linck et al. Minor allele frequency thresholds strongly affect population structure inference with genomic data sets
Breuss et al. Autism risk in offspring can be assessed through quantification of male sperm mosaicism
Tung et al. Batch effects and the effective design of single-cell gene expression studies
Liao et al. Noninvasive prenatal diagnosis of common aneuploidies by semiconductor sequencing
ES2929923T3 (es) Procesos de diagnóstico que condicionan las condiciones experimentales
US20190066842A1 (en) A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing
Juliusdottir et al. Distinction between the effects of parental and fetal genomes on fetal growth
Yang et al. Developmental and temporal characteristics of clonal sperm mosaicism
CN102597266A (zh) 无创性产前倍性调用的方法
Min et al. Meffil: efficient normalisation and analysis of very large DNA methylation samples
EP2406729B1 (en) A method, system and computer program product for the systematic evaluation of the prognostic properties of gene pairs for medical conditions.
Ariad et al. Haplotype-aware inference of human chromosome abnormalities
Deleye et al. Massively parallel sequencing of micro-manipulated cells targeting a comprehensive panel of disease-causing genes: A comparative evaluation of upstream whole-genome amplification methods
Leek et al. A statistical approach to selecting and confirming validation targets in-omics experiments
EP3740589A1 (en) Phenotypic age and dna methylation based biomarkers for life expectancy and morbidity
Docking et al. Genomic testing in myeloid malignancy
US11473133B2 (en) Methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures
Adam et al. Performing post-genome-wide association study analysis: overview, challenges and recommendations
Hastings et al. Impact of amplification efficiency approaches on telomere length measurement via quantitative-polymerase chain reaction
Vlahos et al. Systematic, protein activity-based characterization of single cell State
Chong et al. SeqControl: process control for DNA sequencing
KR20220064952A (ko) 게놈 배수성을 결정하기 위한 시스템 및 방법(systems and methods for determining genome ploidy)
Fajriyah Microarray data analysis: Background correction and differentially expressed genes
CN112384982A (zh) 用于指纹识别生物样本的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120718