CN114724627A - 用于遗传变异的非侵入性评估的方法和过程 - Google Patents

用于遗传变异的非侵入性评估的方法和过程 Download PDF

Info

Publication number
CN114724627A
CN114724627A CN202210409521.7A CN202210409521A CN114724627A CN 114724627 A CN114724627 A CN 114724627A CN 202210409521 A CN202210409521 A CN 202210409521A CN 114724627 A CN114724627 A CN 114724627A
Authority
CN
China
Prior art keywords
nucleic acid
sequence
portions
sample
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210409521.7A
Other languages
English (en)
Inventor
S·K·金
G·汉纳姆
J·盖斯
C·德兹尤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequenom Inc
Original Assignee
Sequenom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom Inc filed Critical Sequenom Inc
Publication of CN114724627A publication Critical patent/CN114724627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)

Abstract

本文提供用于遗传变异的非侵入性评估的方法和过程以及操作、系统、装置和设备。

Description

用于遗传变异的非侵入性评估的方法和过程
相关专利申请
本专利申请要求2013年6月21日提交的名为“用于遗传变异的非侵入性评估的方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETICVARIATIONS)”,发明人为Sung K.Kim等,案卷号为SEQ-6071-PV的美国临时专利申请61/838,048的权益。前述专利申请的全部内容通过引用纳入本文,包括其文本、表格和附图。
领域
本文提供的技术部分涉及用于遗传变异的非侵入性评估的方法、过程和设备。
背景
活体生物(如动物、植物和微生物)的遗传信息和复制遗传信息的其他形式(如病毒)被编码成脱氧核糖核酸(DNA)或核糖核酸(RNA)。遗传信息是代表化学或假定核酸的一级结构的一连串核苷酸或修饰的核苷酸。人的完整基因组包含位于二十四(24)条染色体上的约30,000个基因(见《人类基因组》(The Human Genome),T.Strachan,BIOS科学出版社、1992)。各基因编码特定蛋白质,所述蛋白质在通过转录和翻译表达之后,在活细胞中实现特定的生物化学功能。
许多医学病症由一种或多种遗传变异引起。某些遗传变异引起医学病症,包括例如血友病、地中海贫血、杜氏肌营养不良症(DMD)、亨廷顿氏病(HD)、阿尔茨海默病和囊性纤维化(CF)(《人类基因组突变》(Human Genome Mutations),D.N.Cooper和M.Krawczak,BIOS出版社、1993)。这类遗传疾病可能由特定基因DNA中单个核苷酸的加入、取代或缺失所致。某些出生缺陷由染色体异常(也称为非整倍性)造成,例如21三体性(唐氏综合征)、13三体性(帕陶氏综合征)、18三体性(爱德华氏综合征)、X单体性(特纳氏综合征)和某些性染色体非整倍性如克氏综合征(XXY)。其他遗传变异是胎儿性别,这通常可基于性染色体X和Y来确定。一些遗传变异使个体倾向于或引起许多疾病中的任一种,例如糖尿病、动脉硬化、肥胖症、各种自体免疫疾病和癌症(如结直肠癌、乳腺癌、卵巢癌、肺癌)。
对一种或多种遗传变异或变化的鉴定可有助于诊断特定医学病症,或确定特定医学病症的诱因。鉴定遗传变异能帮助医疗决策和/或使用有益的医疗方案。在某些实施方式中,对一种或多种遗传变异或变化的鉴定涉及分析无细胞DNA。无细胞DNA(CF-DNA)由来自细胞死亡和外周血循环的DNA片段组成。高浓度的CF-DNA能指示某些临床病症,例如癌症、创伤、烧伤、心肌梗塞、中风、败血症、感染和其它疾病。此外,无细胞胎儿DNA(CFF-DNA)能在母本血流中检测,并且用于多种非侵入性产前诊断。
胎儿核酸存在于母本血浆中使得通过分析母本血样来进行非侵入性产前诊断。例如,母本血浆中胎儿DNA的定量异常能与多种妊娠相关疾病关联,所述疾病包括先兆子痫、未足月产、产前出血、侵入性胎盘形成、胎儿唐氏综合征和其它胎儿染色体非整倍性。因此,分析母本血浆中的胎儿核酸可以是监控母婴健康的有用机制。
概述
在某些方面,本文提供一种评估来自妊娠女性的测试样品中胎儿核酸的分数的方法,所述方法包括:(a)获得映射至参照基因组的部份的序列读数的计数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数、(b)采用微处理器,通过与各部份独立关联的加权因子,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,其中各加权因子已由以下各部份之间的拟合相关性确定:(i)多个样品中各样品的胎儿核酸分数和(ii)多个样品的映射至各部份的序列读数的计数或其它部份-特异的参数,和(c)基于所述部份-特异的胎儿分数估值,评估测试样品的胎儿核酸的分数。
本文还提供一种评估来自妊娠女性的测试样品中胎儿核酸的分数的方法,所述方法包括(a)获得映射至参照基因组的部份的序列读数的计数,其中,序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数、(b)(i)采用微处理器,根据独立分配至各部份的加权因子,调节映射至各部份的序列读数的计数,由此提供关于所述部份的经调节的计数,或(b)(ii)采用微处理器,选择部份的子集,由此提供计数的子集,其中(b)(i)中的调节或(b)(ii)中的选择基于这样的部份,其中,映射至所述部份的来自胎儿核酸的读数的量增加,和(c)基于经调节的计数或计数的子集评估测试样品的胎儿核酸分数。
本文还提供一种提高妊娠女性的测试样品中胎儿核酸的分数的评估的精确性的方法,所述方法包括获得映射至参照基因组的部份的序列读数的计数,所述序列读数是妊娠女性的测试样品的循环无细胞核酸的读数,其中至少所获计数的子集源自所述基因组的区域,所述区域有利于得到比相对基因组其他区域总计数的胎儿核酸计数更大数量的相对该区域总计数的胎儿核酸计数。
本文还提供一种系统、装置或设备,其包含一个或多个微处理器和存储器,其中存储器包含可由所述一个或多个微处理器执行的指令,并且其中该可由一个或多个微处理器执行的指令用于(a)访问映射至参照基因组的部份的核苷酸序列读数,其中,序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数、(b)基于与各部份独立关联的加权因子,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数,与部份-特异的胎儿核酸分数加权,由此提供基于该加权因子的部份-特异的胎儿分数估值,其中各加权因子已由如下二者之间的各部份的拟合相关性确定:(i)多个样品中各样品的胎儿核酸的分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,和(c)基于所述部份-特异的胎儿分数估值,评估测试样品的胎儿核酸的分数。
本文还提供一种装置,其包含一个或多个一个或多个微处理器和存储器,其中存储器包含可由所述一个或多个微处理器执行的指令,并且其中存储器包含映射至参照基因组的部份的核苷酸序列读数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中可由所述一个或多个微处理器执行的指令用于(a)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,其中,各所述加权因子已由如下两者之间的各部份的拟合相关性确定:(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,和(b)基于所述部份-特异的胎儿分数估值评估测试样品的胎儿核酸的分数。
本文还提供一种非暂时性的计算机可读存储介质,其上储存有可执行的程序,其中所述程序对微处理器下指令,以进行如下操作:(a)访问映射至参照基因组的部份的核苷酸序列读数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数、(b)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,其中,各所述加权因子已由如下两者之间的各部份的拟合相关性确定:(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,和(c)基于所述部份-特异的胎儿分数估值评估测试样品的胎儿核酸的分数。
下述说明、实施例、权利要求和附图中进一步描述某些技术方面。
附图简要说明
附图描述本技术的实施方式但不具限制性。为了说明的清楚和方便,附图未按比例制作,并且在一些情况中,可能夸大或放大多个方面以协助对具体实施方式的理解。
图1显示染色体13的FRS(左纵轴,上方直方图)和每50kb箱的外显子数量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图2显示染色体13的FRS(左纵轴,上方直方图)和每50kb箱的GC含量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图3显示染色体13的每50kb部份的外显子数量(左纵轴,上方直方图)和每50kb部份的GC含量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图4显示染色体13的FRS(左纵轴,上方直方图)和每50kb部份的外显子数量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图5显示染色体18的FRS(左纵轴,上方直方图)和每50kb部份的GC含量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图6显示染色体18的每50kb部份的外显子数量(左纵轴,上方直方图)和每50kb部份的GC含量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图7显示染色体21的FRS(左纵轴,上方直方图)和每50kb部份的外显子数量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图8显示染色体21的FRS(左纵轴,上方直方图)和每50kb部份的GC含量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图9显示染色体21的每50kb部份的外显子数量(左纵轴,上方直方图)和每50kb部份的GC含量(右纵轴,下方直方图)的成对比较。部份示于底部水平X轴。
图10显示染色体21的具有LOESS Z评分的PERUN PAD(X轴)对比具有基于“胎儿非富集(fetal unenriched)”部份的LOESS Z评分的PERUN PAD(Y轴)。四个象限代表一致性和不一致性。在Z=3处画四等分线。右上和左下象限由灰色对角虚线分隔。点划线是仅用于非T21样品的回归线。点线是用于基于高FRS部份的T21样品的回归线。
图11显示染色体21的具有LOESS Z评分的PERUN PAD(X轴)对比具有基于“胎儿富集”部份(即具有高FRS的部份)的LOESS Z评分的PERUN PAD(Y轴)。四个象限代表一致性和不一致性。在Z=3处画四等分线。右上和左下象限由灰色对角虚线分隔。点划线是仅用于非T21样品的回归线。点线是用于基于高FRS部份的T21样品的回归线。
图12显示用于测定核酸片段长度的方法,其包括如下步骤:1)使探针(P;点线)与片段(实线)的杂交,2)探针的修整,和3)测量探针长度。显示胎儿源性片段(F)和母本源性片段(M)的片段尺寸测定结果。
图13显示三种不同文库制备方法的片段长度的分布。它们包括采用自动化珠清除的酶促法,不采用自动化珠清除的酶促法,和采用自动化珠清除的TRUSEQ法。垂直线表示143个碱基和166个碱基片段的大小。
图14显示不采用片段尺寸滤器的染色体13示意图。
图15显示采用150个碱基的片段尺寸滤器的染色体13示意图。
图16显示不采用片段尺寸滤器的染色体18示意图。
图17显示采用150个碱基的片段尺寸滤器的染色体18示意图。
图18显示不采用片段尺寸滤器的染色体21示意图。
图19显示采用150个碱基的片段尺寸滤器的染色体21示意图。
图20显示采用可变片段尺寸滤器的染色体13示意图(具有LOESS的PERUN PAD)。
图21显示采用可变片段尺寸滤器的染色体18示意图(具有LOESS的PERUN PAD)。
图22显示采用可变片段尺寸滤器的染色体21示意图(具有LOESS的PERUN PAD)。
图23显示提供用于某些分析的数据的描述的表格。
图24显示系统的示例性实施方式,其中可实施所述技术的某些实施方式。
图25A显示从具有21三体性胎儿(由星号表示)或整倍体胎儿(由圆圈表示)的妊娠女性获得的样品的部份的相同子集的染色体21的部份的子集的平均FRS(x轴)对于PERUN标准化计数的Z评分(y轴)的相关性。选用于图25A的部份的子集中的各部份的FRS大于对从中获得计数的染色体21的全部部份测定的中值FRS。图25B显示从具有21三体性胎儿(由星号表示)或整倍体胎儿(由圆圈表示)的妊娠女性的染色体21的从中获得计数的染色体21的所有部份的FQA胎儿分数估值(x轴)与PERUN标准化计数的Z评分(y轴)的相关性。
图26显示染色体21的片段长度的指示范围的读数(示于右下方插图)的每个读数的GC含量(x轴)与基于读数长度的累积分布功能(CDF,y轴)的相关性。
图27显示根据每箱的FRS划分成分位数(高、中高、中低,和低)的PERUN截距(x轴)的分布。
图28显示根据每箱的FRS划分成分位数(高、中高、中低,和低)的PERUN最大交叉验证错误(x轴)的分布。
图29显示对于来自基于6000个训练样本的BFF模型的19,312份测试样品预测的胎儿分数百分数(x轴)相较于由染色体Y水平确定的胎儿分数百分数(ChrFF,y轴)的相关性(R=0.81,RMedSE=1.5)。
图30显示基于FRS的对于具有高胎儿分数含量(分布示于左侧)和低胎儿分数含量(分布示于右侧)多个箱(即,多个部份)的相对预测误差(x轴)。具有高胎儿含量的箱具有较好的性能和较低的误差。预测评分基于弹性网(elastic-net)回归法,采用自举法(bootstrapping)来获得密度概况。
图31显示采用弹性网回归法对基于胎儿分数含量(例如,低、中低、中高、高)分开的多个箱的子集确定的模型系数(x轴)的四个分布图。具有较高胎儿分数含量的箱趋于产生较大的系数(正或负)。
图32显示采用BFF法确定的女性和男性测试样品的胎儿分数估值(x轴)的两个分布图。这两个分布图基本重叠。男性和女性胎儿显示在胎儿分数分布中没有差异(KS-检验P=0.49)。
发明详述
本文提供用于分析核酸混合物中的多核苷酸的方法,包括,例如,用于确定遗传变异是否存在的方法。对于母本样品中遗传变异(例如,胎儿异倍性)的评估通常涉及:对所述样品中存在的核酸测序,将序列读数映射至基因组中的某些区域,对所述样品的序列读数定量,和分析该定量结果。所述方法通常直接分析样品中的核酸,并获得所述样品中全部或基本全部核酸的核苷酸序列读数,这将会是昂贵的,且会产生冗余和/或无关的数据。然而,将某些基于序列的和/或基于长度的分离法与某些基于序列的和/或基于长度的分析联合起来,能够产生关于目标基因组区域(例如特定染色体)的特定信息,并且在一些示例中,能够区分核酸片段来源,例如母本来源相对于胎儿来源。某些方法可包括采用测序法、富集技术和基于长度的分析。本文描述的某些方法,在一些实施方式中,无需确定核酸片段的核苷酸序列既可施用。本文提供,通过联用基于序列的和/或基于长度的分离法和分析法,来分析核酸混合物中的多核苷酸(例如,确定是否存在胎儿异倍性)的方法。
本文还提供用于鉴定遗传变异的方法、处理法和装置。对遗传变异的鉴定有时包括检测拷贝数变异和/或有时包括调节包含拷贝数变异的水平。在一些实施方式中,调节某一水平,以假阳性或假阴性诊断的可能性减小的方式提供对一种或多种遗传变异或变化的鉴定。在一些实施方式中,本文所述方法鉴定遗传变异可引导特定医学病症的诊断或确定特定医学病症的倾向。鉴定遗传变异能帮助医疗决策和/或使用有益的医疗方案。
本文还提供在一些实施方式中,于本文所述的方法中进行的系统、装置和模块。
样品
本文提供用于分析核酸的方法和组合物。在一些实施方式中,分析核酸片段混合物中的核酸片段。核酸混合物可包括两种或更多核酸片段种类,所述两种或更多核酸片段种类具有不同核苷酸序列、不同片段长度、不同来源(例如基因组来源、胎儿与母本来源、细胞或组织来源、样品来源、对象来源等)或其组合。
本文所述方法和设备中使用的核酸或核酸混合物经常从获自对象的样品中分离。对象可以是任何活体或非活体生物,包括但不限于人、非人动物、植物、细菌、真菌或原生生物。能选择任何人或非人动物,包括但不限于哺乳动物、爬行动物、鸟类、两栖类、鱼类、有蹄类动物、反刍动物、牛科动物(如牛)、马科动物(如马)、山羊和绵羊类动物(如绵羊、山羊)、猪科动物(如猪)、羊驼类动物(如骆驼、美洲驼、羊驼)、猴子、猿(如大猩猩、黑猩猩)、熊科动物(如熊)、家禽、犬、猫、小鼠、大鼠、鱼、海豚、鲸鱼和鲨鱼。对象可为男性或女性(例如妇女、妊娠妇女)。对象可为任何年龄(如胚胎、胎儿、婴儿、儿童、成人)。
核酸可以从任何类型的合适生物试样或样品中分离(例如测试样品)。样品或测试样品可为分离或获自对象或其部份(如人对象、妊娠女性、胎儿)的任何试样。试样的非限制性示例包括对象的液体或组织,包括但不限于血液或血液制品(例如,血清、血浆等)、脐带血、绒毛、羊水、脑脊液、脊髓液、洗液(如支气管肺泡、胃、腹膜、导管、耳、关节镜)、活检样品(例如来自移植前胚胎)、膜间液样品、细胞(血液细胞,胎盘细胞、胚胎或胎儿细胞、胎儿有核细胞或胎儿细胞残余)或其部分(例如,线粒体、核、提取物等)、女性生殖道清洗物、尿、粪便、痰、唾液、鼻黏膜、前列腺液、灌洗液、精液、淋巴液、胆汁、眼泪、汗液、母乳、乳腺体液等或其组合。在一些实施方式中,生物样品是来自对象的宫颈擦拭物。在一些实施方式中,生物样品可以是血液,而有时是血浆或血清。本文所用的术语"血液"指来自妊娠女性或就可能妊娠而作测试女性的血液样品或制品。术语涵盖全血、血液制品或血液的任何部分,例如常规定义的血清和血浆、棕黄层等。血液或其部分常包括核小体(例如母本和/或胎儿核小体)。核小体包括核酸且有时无细胞或为细胞内的。血液还包括棕黄层。棕黄层有时通过菲克(ficoll)梯度来分离。棕黄层可包括白血细胞(例如白细胞、T细胞、B细胞、血小板等)。在一些实施方式中,棕黄层包括母本和/或胎儿核酸。血液血浆指经抗凝剂处理的血液离心所得的全血的部分。血液血清指血液样品凝结后保留的液体水层部分。通常按照医院或临床常规遵循的标准方法来采集液体或组织样品。就血液而言,通常采集适当量的外周血(例如3-40毫升),并且在制备前或后可按标准流程保存。提取核酸所用的液体或组织样品可以是非细胞的(如无细胞)。在一些实施方式中,液体或组织样品可含有细胞要素或细胞残余物。在一些实施方式中,所述样品中可包含胎儿细胞或癌细胞。
样品通常是异质性的,即所述样品中存在超过一种类型的核酸物质。例如,异质性核酸能包括但不限于(i)胎儿源性和母本源性的核酸、(ii)癌症和非癌症核酸、(iii)病原体和宿主核酸、和更常见的(iv)突变的和野生型核酸。样品可以是异质性的原因是,存在超过一种细胞类型,例如胎儿细胞和母本细胞,癌细胞和非癌细胞,或者病原体和宿主细胞。在一些实施方式中,存在少数核酸物质和多数核酸物质。
就本文所述技术的产前应用而言,液体或组织样品可采自孕龄适于测试的女性或经测试可能有孕的女性。适当孕龄可能视所进行的产前测试而不同。在某些实施方式中,妊娠女性对象有时在孕期前三个月,有时在孕中期三个月或有时在孕期末三个月。在某些实施方式中,液体或组织采自胎儿妊娠约1-约45周(如胎儿妊娠1-4、4-8、8-12、12-16、16-20、20-24、24-28、28-32、32-36、36-40或40-44周)和有时胎儿妊娠约5-约28周(如胎儿妊娠6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26或27周)的妊娠妇女。在某些实施方式中,在分娩(例如阴道或非阴道分娩(如手术分娩))期间或刚分娩后(如0-72小时后)从妊娠女性收集流体或组织样品。
获取血液样品和DNA提取
本文方法包括分离、富集和分析母本血液中所发现的胎儿DNA,作为在妊娠期间和有时妊娠后的非侵入性手段来检测是否存在母本和/或胎儿遗传变异和/或监控胎儿和/或妊娠女性的健康。因此,实施本发明某些方法的第一步包括获取妊娠女性的血液样品和从样品提取DNA。
获取血液样品
血液样品可获自适合采用本发明所述方法的测试的孕龄妊娠女性。合适的妊娠年龄可根据所测疾病而不同,如下所述。收集妇女血液通常根据医院或诊所一般遵循的标准方案来进行。采集适当量的外周血,例如,通常为5-50毫升,并在进一步制备前按照标准规程保存。可以能使样品中所存在核酸量的降解最小或确保其品质的方式采集、保存或运输所述血液样品。
制备血液样品
采用例如全血、血清或血浆对母本血液中发现的胎儿DNA进行分析。从母本血液中制备血清或血浆的方法已知。例如,可将妊娠女性的血液置入含有避免血液凝结的EDTA或专用市售产品如Vacutainer SST(新泽西州富兰克林湖市的BD公司(Becton Dickinson))的管内,然后可通过离心从全血获取血浆。血清可通过或可不通过血液凝固后的离心来获取。若使用离心,则通常(并不限于)在合适速度(例如1,500-3,000倍g)下进行。血浆或血清可在转移至用于DNA提取的新管之前经过其它离心步骤。
除了全血的非细胞部分,DNA还可从细胞组分回收,在棕黄层部分中富集,这可通过从妇女的全血样品离心并去除血浆来获取。
提取DNA
有多种已知方法用于从包括血液在内的生物样品中提取DNA。可按照DNA制备的常规方法(例如,描述于Sambrook和Russell,Molecular Cloning:ALaboratory Manual(《分子克隆:实验室手册》),第3版,2001);多种市售可得试剂或试剂盒,例如凯杰公司(Qiagen)的QIAamp循环核酸试剂盒,QiaAmp DNA迷你试剂盒或QiaAmp DNA血液迷你试剂盒(德国海尔登的凯杰公司),基因组PrepTM血液DNA分离试剂盒(威斯康星州麦迪逊的普洛麦格公司(Promega,Madison,Wis.))和GFXTM基因组血液DNA纯化试剂盒(新泽西州皮斯卡特维的安玛西亚公司(Amersham))也可用于从来自妊娠女性的血液样品获取DNA。还可使用这些方法中多于一种的组合。
在一些实施方式中,所述样品可首先就胎儿核酸用一种或多种方法富集或相对富集。例如,胎儿和母本DNA的区分可以采用单独的本发明所述组合物和方法进行或与其它区分因子联用。这些因子的示例包括但不限于染色体X和Y中的单核苷酸差异、染色体Y特异序列、基因组中别处的多态性、胎儿和母本DNA之间的大小差异和母本和胎儿组织之间甲基化形式的差异。
用于就特定核酸物质富集样品的其它方法描述于2007年5月30日提交的PCT专利申请号PCT/US07/69991,2007年6月15日提交的PCT专利申请号PCT/US2007/071232,美国临时申请号60/968,876与60/968,878(指定给本申请人)、(PCT专利申请号PCT/EP05/012707,2005年11月28日提交),这些都通过引用纳入本文。在某些实施方式中,从样品中选择性除去(部分、基本、几乎完全或完全)母本核酸。
术语“核酸”和“核酸分子”在本文中可互换使用。该术语指任意组合物形式的核酸,来自如:DNA(例如,互补DNA(cDNA),基因组DNA(gDNA)等),RNA(例如,信使RNA(mRNA),短抑制RNA(siRNA),核糖体RNA(rRNA),tRNA,微小RNA,胎儿或胎盘高度表达的RNA等),和/或DNA或RNA类似物(例如,含有碱基类似物,糖类似物和/或非天然主链等),RNA/DNA杂交体和聚酰胺核酸(PNA),所有这些可以是单链或双链形式,且除非另有限定,可涵盖能以与天然存在核苷酸相似方式起作用的天然核苷酸的已知类似物。在某些实施方式中,核酸可以是或者可来自:质粒、噬菌体、自主复制序列(ARS)、着丝粒、人工染色体、染色体、或者能够在体外或在宿主细胞、细胞、细胞的细胞核或细胞质中复制或被复制的其它核酸。在一些实施方式中,模板核酸可来自单个染色体(例如核酸样品可来自二倍体生物所得样品的一个染色体)。除非明确限定,该术语涵盖含有结合特性与参比核酸类似且与以与天然存在核苷酸相似方式代谢的天然核苷酸的已知类似物。除非另有说明,特定核酸序列也包括其保守修饰变体(如,简并密码子取代),等位基因,直向同源物,单核苷酸多态性(SNP)和互补序列,以及明确指出的序列。具体说,可通过产生一个或多个选定(或所有)密码子的第三个位置被混合碱基和/或脱氧肌苷残基取代的序列来获得简并密码子取代。术语核酸与基因座、基因、cDNA、和基因编码的mRNA互换使用。所述术语也可包括从核苷酸类似物、单链("正义"或"反义","正"链或"负"链,"正向"阅读框或"反向"阅读框)和双链多核苷酸合成的RNA或DNA的等价物、衍生物、变体和类似物。术语“基因”指参与产生多肽链的DNA区段;其包括参与基因产物的转录/翻译和所述转录/翻译调节的编码区之前和之后的区域(前导区和尾部区),以及单个编码区段(外显子)之间的插入序列(内含子)。
脱氧核糖核苷酸包含脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。就RNA而言,碱基胞嘧啶替换为尿嘧啶。模板核酸可采用获自对象的核酸作为模板制备。
核酸分离和加工
可用本领域已知方法从一种或多种样品来源(如细胞、血清、血浆、棕黄层、淋巴液、皮肤、土壤等)中获取核酸。可采用任何合适的方法从生物样品(例如从血液或血液制品)中分离、提取和/或纯化DNA,非限制性示例包括DNA制备的方法(例如,描述于Sambrook和Russell,Molecular Cloning:A Laboratory Manual(《分子克隆:实验室手册》),第3版,2001);多种市售可得试剂或试剂盒,例如凯杰公司(Qiagen)的QIAamp循环核酸试剂盒,QiaAmp DNA迷你试剂盒或QiaAmp DNA血液迷你试剂盒(德国海尔登的凯杰公司),基因组PrepTM血液DNA分离试剂盒(威斯康星州麦迪逊的普洛麦格公司(Promega,Madison,Wis.))和GFXTM基因组血液DNA纯化试剂盒(新泽西州皮斯卡特维的安玛西亚公司(Amersham))等或其组合。
细胞裂解方法和试剂是本领域已知的,且一般可通过化学(例如洗涤剂、低渗溶液、酶促过程等或其组合)、物理(例如法式压滤、超声等)或电解的裂解方法进行。能使用任何合适的裂解过程。例如化学方法通常使用裂解剂破坏细胞并从细胞中提取核酸,然后用离液盐处理。物理方法例如冷冻/解冻然后研磨,使用细胞压滤等也有用。高盐裂解法也是常用的。例如,可采用碱裂解法。所述后一种方法传统上包括使用苯酚-氯仿溶液,且可采用替代的包括三种溶液的无苯酚-氯仿方法。在后一种方法中,一种溶液可包含15mM Tris,pH8.0;10mM EDTA和100ug/ml RNA酶A;第二溶液可包含0.2N NaOH和1%SDS;以及第三溶液可包含3M KOAc,pH 5.5。这些方法可参见纽约约翰韦利森公司(John Wiley&Sons,Inc.,NewYork)的《新编分子生物学实验指南》(Current Protocols in Molecular Biology)的6.3.1-6.3.6(1989),其全文纳入本文。
核酸还可以在与另一核酸不同的时间点分离得到,其中各样品来自相同或不同来源。核酸可来自核酸库,例如cDNA或RNA库。核酸可以是样品中核酸分子的核酸纯化或分离和/或扩增的产物。为本文所述方法提供的核酸可包含来自一个样品或来自两个或更多个样品(例如来自1个或更多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个的样品)的核酸。
在某些实施方式中,核酸可包括胞外核酸。本文所用术语“胞外核酸”指从基本不具有细胞的来源分离的核酸,还称为或“无细胞”核酸、“循环无细胞核酸”(例如,CCF片段)和/或“无细胞循环核酸”。胞外核酸可存在于血液中并从中获取(例如从妊娠女性的血液中)。胞外核酸通常不包括可检测到的细胞且可含有细胞元件或细胞残余物。胞外核酸的无细胞来源的非限制性示例有血液、血浆、血清和尿液。本文所用术语“获取循环无细胞样品核酸”包括直接获取样品(如收集样品例如测试样品)或从已收集样品的人那里获取样品。不受理论限制,胞外核酸可以是细胞凋亡和细胞破裂的产物,这使胞外核酸常具有跨范围的系列长度(例如"梯状带(ladder)")。
在某些实施方式中,胞外核酸可包含不同的核酸物质,因而在本文中称作“异质性”。例如,患有癌症的人的血液血清或血浆可包含来自癌细胞的核酸与来自非癌细胞的核酸。在另一例子中,妊娠女性的血液血清或血浆可包含母本核酸和胎儿核酸。在一些示例中,胎儿核酸有时占全部核酸的约5%-约50%(例如,总体核酸中约4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48或49%是胎儿核酸)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约500个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约500个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约250个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约250个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约200个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约200个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约150个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约150个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约100个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约100个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约50个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约50个碱基对或更短)。在一些实施方式中,核酸中的胎儿核酸的大部分的长度为约25个碱基对或更短(例如,胎儿核酸长度的约80、85、90、91、92、93、94、95、96、97、98、99或100%是约25个碱基对或更短)。
在某些实施方式中,可不经对含核酸样品的处理而提供核酸用于进行本文所述方法。在一些实施方式中,在处理含核酸的样品后提供核酸用于进行本文所述方法。例如,可从样品提取、分离、纯化、部分纯化或扩增核酸。如本文所用的术语“分离”指将核酸从其原始环境中取出(例如,天然产生核酸的天然环境或外源表达核酸的宿主细胞),因此核酸从其原始环境通过人的干预(如“人工”)而被改变。本文所用术语“分离的核酸”指从对象(如人类对象)中移出的核酸。与来源样品中具有的组分含量相比,分离的核酸可带有较少的非核酸组分(例如,蛋白质、脂质)。包含分离的核酸的组合物可以是约50%至多于99%不含非核酸组分。包含分离的核酸的组合物可以是约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含非核酸组分。本文所用术语“纯化”指与将核酸经历纯化程序之前所存在的非核酸组分的含量相比,所提供的核酸带有较少的非核酸组分(例如,蛋白质、脂质、碳水化合物)。包含纯化核酸的组合物可以是约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含其他非核酸组分。本文所用术语“纯化”可指提供的核酸与其所衍生自的样品来源相比包含更少的核酸物质。包含纯化核酸的组合物可以是约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含其他核酸物质。例如,胎儿核酸可从含母本和胎儿核酸的混合物中纯化。在某些示例中,含胎儿核酸的小片段的核小体可从含母本核酸的较大片段的大核小体复合物的混合物中纯化。
在一些实施方式中,本发明方法之前、期间或之后对核酸进行片段化或切割。片段化或切割的核酸可具有约5-约10,000个碱基对、约100-约1,000个碱基对、约100-500个碱基对或约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000或9000个碱基对的标称、平均或算术均值长度。可通过本领域已知的合适方法产生片段,且核酸片段的平均、等比中数或标称长度可通过选择适当的片段生成方法而加以控制。
核酸片段可含有重叠的核苷酸序列,这样的重叠序列可促进构建未片段化的对应核酸或其区段的核苷酸序列。例如,一个片段可具有亚序列x和y,且其他片段可具有亚序列y和z,其中x、y和z是长度可为5核苷酸或更长的核苷酸序列。在某些实施方式中,重叠核酸y可用于促进从样品的核酸中构建x-y-z核苷酸序列。在某些实施方式中,核酸可以是部分片段化的(例如,来自未完全的或中止的特异性剪切反应)或完全片段化的。
在一些实施方式中,核酸可通过合适方法进行片段化或切割,其非限制性示例包括物理方法(例如剪切、例如超声、法式压滤、热、紫外照射等)、酶加工(例如酶切割试剂(例如合适的核酸酶、合适的限制性酶、合适的甲基化敏感的限制性酶))、化学方法(例如烷基化、DMS、哌啶、酸水解、碱水解、热、等或其组合)、美国专利申请公开20050112590中所述方法等,或其组合。
本文所用的“片段化”或“剪切”指使核酸分子(如核酸模板基因分子或其扩增产物)可以分成两个或更多较小核酸分子的方法或条件。这种片段化或剪切可以是序列特异性、碱基特异性或非特异性的,并且能通过任意不同方法、试剂或条件(包括例如化学、酶、物理片段化)来完成。
本文所用的“片段”、“剪切产物”、“经剪切的产物”或其语法变体指由核酸模板基因分子或其扩增产物的片段化或剪切获得的核酸分子。尽管这种片段或剪切产物可指由剪切反应获得的所有核酸,但是这种片段或剪切产物通常仅指由核酸模板基因分子或其扩增产物区段(包含核酸模板基因分子的相应核苷酸序列)的片段化或剪切获得的核酸分子。如本文所用术语“扩增”是指使处理样品中的靶核酸经过以线性或指数形式产生扩增子核酸的过程,所述扩增子核酸的核苷酸序列与靶核酸或其区段的核苷酸序列相同或基本相同。在某些实施方式中,术语“扩增”指包括聚合酶链式反应(PCR)的方法。例如,扩增产物能含有比核酸模板序列的扩增核苷酸区域多一个或多个的核苷酸(如引物能包含除了与核酸模板基因分子互补的核苷酸以外的"额外"核苷酸例如转录起始序列,生成包含"额外"核苷酸或者与所述核酸模板基因分子的扩增核苷酸区域不对应的核苷酸的扩增产物)。因此,片段能包含来自扩增的核酸分子区段或部分的片段,所述核酸分子至少部分包含来自或基于代表性核酸模板分子的核苷酸序列信息。
本文所用的术语“互补剪切反应”是指用不同剪切试剂或者通过改变相同剪切试剂的剪切特异性在相同核酸上进行的剪切反应,从而产生相同目标或参比核酸或蛋白质的不同剪切模式。在某些实施方式中,可以用一种或多种特异性剪切剂(例如1、2、3、4、5、6、7、8、9、10或更多种特异性剪切剂)在一个或多个反应容器中处理核酸(例如用各种特异性剪切剂在单独的容器内处理核酸)。如本文所用术语“特异性剪切剂”指试剂,有时是可在一个或多个特异性位点处剪切核酸的化学品或酶。
在提供核酸用于本文所述方法之前,还可对核酸进行处理修饰核酸中某些核苷酸。例如,可对核酸施用根据核酸中核苷酸的甲基化状态选择性修饰核酸的处理。此外,诸如高温、紫外辐射、x-射线辐射等条件可诱导核酸分子序列中的变异。可以用于进行合适序列分析的任何合适形式提供核酸。
核酸可为单链或双链。例如,可通过加热或(例如)用碱处理来变性双链DNA来生成单链DNA。在某些实施方式中,核酸是D环结构,通过双链DNA分子中链入侵有寡核苷酸或DNA样分子例如肽核酸(PNA)来形成。添加大肠杆菌RecA蛋白质和/或改变盐浓度(例如使用本领域已知方法)有助于形成D环。
基因组靶标
在一些实施方式中,靶(目标)核酸,本文也称作靶(目标)片段,包括来自特定基因组区域多个基因组区域(例如,单一染色体,染色体组,和/或某些染色体区域)的多核苷酸片段。在一些实施方式中,可将所述基因组区域与胎儿遗传异常性(例如,异倍性)以及其它遗传变异联系起来,所述遗传变异包括但不限于:突变(例如,点突变)、插入、添加、缺失、易位、三核苷酸重复紊乱,和/或单核苷酸多态性(SNP)。在一些实施方式中,参照核酸,本文也称作参照片段,包括来自与胎儿遗传异常性不相关的特定基因组区域或多个基因组区域的多核苷酸片段。在一些实施方式中,靶核酸和/或参照核酸(即,靶片段和/或参照片段)包含对所述感兴趣的染色体或参照染色体来说基本专有的核苷酸序列(例如,在基因组他处未发现相同核苷酸序列或基本相似的核苷酸序列。)
在一些实施方式中,分析来自多个基因组区域的片段。在一些实施方式中,分析来自多个基因组区域的靶片段和参照片段。在一些实施方式中,分析来自多个基因组区域的片段,以确定例如感兴趣的染色体的存在与否、量(例如,相对的量)或比例。在一些实施方式中,感兴趣的染色体是疑似整倍性的染色体,并且在本文中可称为“测试染色体”。在一些实施方式中,分析假定的整倍性染色体的来自多个基因组区域的片段。所述染色体在本文中可称为“参照染色体”。在一些实施方式中,分析多个测试染色体。在一些实施方式中,测试染色体选自染色体13(染色体13)、染色体18(染色体18)和染色体21(染色体21)。在一些实施方式中,参照染色体选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X和Y,并且有时,参照染色体选自常染色体(即,非X和Y)。在一些实施方式中,选择染色体20(Chr20)作为参照染色体。在一些实施方式中,选择染色体14作为参照染色体。在一些实施方式中,选择染色体9作为参照染色体。在一些实施方式中,测试染色体和参照染色体来自相同个体。在一些实施方式中,测试染色体和参照染色体来自不同个体。
在一些实施方式中,对测试和/或参照染色体分析来自至少一个基因组区域的片段。在一些实施方式中,对测试染色体和/或参照染色体分析来自至少10个基因组区域(例如,约20、30、40、50、60、70、80或90个基因组区域)的片段。在一些实施方式中,对测试染色体和/或参照染色体分析来自至少100个基因组区域(例如,约200、300、400、500、600、700、800或900个基因组区域)的片段。在一些实施方式中,对测试染色体和/或参照染色体分析来自至少1,000个基因组区域(例如,约2000、3000、4000、5000、6000、7000、8000或9000个基因组区域)的片段。在一些实施方式中,对测试染色体和/或参照染色体分析来自至少10,000个基因组区域(例如,约20,000、30,000、40,000、50,000、60,000、70,000、80,000或90,000个基因组区域)的片段。在一些实施方式中,对测试染色体和/或参照染色体分析来自至少100,000个基因组区域(例如,约200,000、300,000、400,000、500,000、600,000、700,000、800,000或900,000个基因组区域)的片段。
核酸亚群的富集和分离
在一些实施方式中,针对核酸亚群或物质对核酸(例如胞外核酸)进行富集或相对富集。核酸亚群可包括例如胎儿核酸、母本核酸、含特定长度或长度范围的片段的核酸、或来自特定基因组区域(例如单一染色体、染色体组、和/或某些染色体区域)的核酸。此类富集的样品可与本文所述方法联合使用。因此,在某些实施方式中,该技术的方法包括富集样品中核酸亚群例如胎儿核酸的额外步骤。在某些实施方式中,本文所述的确定胎儿分数的方法也可用于富集胎儿核酸。在某些实施方式中,从样品中选择性除去(部分、基本、几乎完全或完全)母本核酸。在某些实施方式中,富集特定低拷贝数的核酸(例如胎儿核酸)可提高定量敏感性。富集样品中特定种类核酸的方法例如下述,美国专利号6、927,028、国际申请公开号WO2007/140417、国际申请公开号WO2007/147063、国际申请公开号WO2009/032779、国际申请公开号WO2009/032781、国际申请公开号WO2010/033639、国际申请公开号WO2011/034631、国际申请公开号WO2006/056480和国际申请公开号WO2011/143659,其都通过引用纳入本文。
在一些实施方式中,针对某些靶片段种类和/或参照片段种类富集核酸。在某些实施方式中,使用下述一种或多种基于长度的分离方法就特定核酸片段长度或片段长度或范围进行核酸富集。在某些实施方式中,使用本文所述和/或本领域已知的一种或多种基于序列的分离方法就选自基因组区域(例如染色体)的片段进行核酸富集。某些富集样品中核酸亚群(如胎儿核酸)的方法如下详述。
可与本发明方法一起用的富集核酸亚群(例如胎儿核酸)的方法包括采用母本和胎儿核酸之间的表观差异的方法。例如可基于甲基化差异区分并分离胎儿核酸和母本核酸。基于甲基化的胎儿核酸富集方法参见美国专利申请公开号2010/0105049,其通过引用纳入本文。该方法有时涉及结合样品核酸与甲基化特异的结合试剂(甲基CpG结合蛋白(MBD)、甲基化特异抗体等)并基于不同的甲基化状态分离结合的核酸和未结合的核酸。此类方法还可包括使用甲基化敏感的限制酶(如上所述例如HhaI和HpaII),其通过使用选择性且完全或基本消化母本核酸的酶来选择性消化来自母本样品的核酸从而富集样品中至少一种胎儿核酸区域,这样就能够富集母本样品中的胎儿核酸区域。
可与本发明方法一起用的其他富集核酸亚群(例如胎儿核酸)的方法是限制性内切核酸酶增强的多态性序列法,例如美国专利申请公开号2009/0317818所述的方法,其通过引用纳入本文。该方法包括用识别含非靶等位基因但不识别靶等位基因的限制性内切核酸酶切割含所述非靶等位基因的核酸;并扩增未切割的核酸但不扩增切割的核酸,其中该未切割的扩增核酸代表相对于非靶核酸(如母本核酸)富集的靶核酸(如胎儿核酸)。在某些实施方式中,可选择核酸从而其包含具有多态性位点的等位基因,所述多态性位点易于被例如切割剂选择性消化。
可与本发明方法一起用的富集核酸亚群(例如胎儿核酸)的方法包括选择性酶降解法。该方法涉及保护靶序列免受外切核酸酶的消化,从而有利于消除样品中不需要的序列(例如母本DNA)。例如,在一个方法中,样品核酸变性产生单链核酸,单链核酸在合适的退火条件下接触至少一种靶特异引物对,退火的引物利用核苷酸聚合进行延伸产生双链靶序列,并用消化单链(例如非靶)核酸的核酸酶消化单链核酸。在某些实施方式中,所述方法至少可多重复一循环。在某些实施方式中,可使用相同的靶特异引物对来起始延伸的第一和第二循环,且在某些实施方式中,不同的靶特异引物对用于第一和第二循环。
在一些实施方式中,使用本文所述一种或多种基于序列的分离方法就选择基因组区域(例如染色体)的片段进行核酸富集。在一些实施方式中,通过联用基于长度的和基于序列的分离方法,对于特定的多核苷酸片段长度或片段长度范围和对于来自选定基因组区域(例如,染色体)的片段富集核酸。所述基于长度的和基于序列的分离方法在下文中进一步详细描述。
可与本发明方法一起用的富集核酸亚群(例如胎儿核酸)的方法包括大规模平行测序技术(MPSS)。MPSS通常是固相方法,其使用衔接子(即标签)连接,然后衔接子解码,并以小的增量读取核酸序列。带标签的PCR产物通常经扩增,从而各核酸产生具有独特标签的PCR产物。标签通常用于接合PCR产物至微珠。例如,基于连接的序列确定进行数轮后,可从各珠鉴定序列签名。分析MPSS数据库中的各签名序列(MPSS标签),比较所有其他签名,并计数所有相同的签名。
在一些实施方式中,某些富集方法(如某些基于MPS和/或基于MPSS的富集方法)可包括基于扩增(如PCR)的方法。在一些实施方式中,可使用位点特异的扩增方法(例如使用位点特异的扩增引物)。在某些实施方式中,可使用多重SNP等位基因PCR方法。在某些实施方式中,多重SNP等位基因PCR方法可与单重测序联合使用。例如,该方法可涉及使用多重PCR(MASSARRAY系统)并将捕获探针序列纳入扩增子,然后使用例如亿明达(Illumina)MPSS系统测序。在某些实施方式中,多重SNP等位基因PCR方法可与三引物系统和索引测序联合使用。例如,该方法可涉及使用多重PCR(MASSARRAY系统),所用引物将第一捕获探针纳入某些位点特异的正向PCR引物,并将衔接子序列纳入位点特异的反向PCR引物,从而产生扩增子,然后二级PCR将反向捕获序列和分子索引条码纳入,用于使用例如亿明达MPSS系统的测序。在一些实施方式中,多重SNP等位基因PCR方法可与四引物系统和索引测序联合使用。例如,该方法可涉及使用多重PCR(MASSARRAY系统),所用引物将衔接子序列纳入位点特异的正向和位点特异的反向PCR引物,然后二级PCR将正向和反向捕获序列和分子索引条码纳入,用于使用例如亿明达MPSS系统的测序。在某些实施方式中,可使用微流体方法。在某些实施方式中,可使用基于阵列的微流体方法。例如,该方法可涉及使用微流体阵列(如Fluidigm)用于低重扩增并纳入索引和捕获探针,然后测序。在某些实施方式中,可使用乳液微流体方法,例如数字液滴PCR。
在某些实施方式中,可使用通用扩增方法(例如使用通用或非位点特异的扩增引物)。在一些实施方式中,通用扩增方法可与拉下(pull-down)法联用。在一些实施方式中,方法可包括从通用扩增序列库中拉下生物素化的Ultramer(例如安捷伦或IDT的生物素化拉下试验)。例如,该方法可涉及制备标准库,通过拉下试验富集选择区域,以及二级通用扩增步骤。在某些实施方式中,拉下法可与基于连接的方法联合使用。在某些实施方式中,方法可包括用序列特异的衔接子连接的生物素化的Ultramer拉下(例如HALOPLEX PCR,HaloGenomics公司)。例如,该方法可涉及使用选择器探针来捕获限制性酶-消化片段,然后连接捕获产物和衔接子,和通用扩增然后测序。在某些实施方式中,拉下法可与延伸和基于连接的方法联合使用。在某些实施方式中,方法可包括分子倒置探针(MIP)延伸和连接。例如,该方法可涉及分子倒置探针与序列衔接子组合使用,然后进行通用扩增和测序。在某些实施方式中,互补DNA可合成和测序而无需扩增。
在某些实施方式中,可进行延伸和连接方法而无需拉下组件。在某些实施方式中,方法可包括位点特异的正向和反向引物杂交、延伸和连接。该方法还可包括通用扩增或互补DNA合成而无需扩增,然后测序。在某些实施方式中,该方法可在分析期间降低或排除背景序列。
在某些实施方式中,拉下法可与任选的扩增组件一起使用或不与扩增组件一起使用。在某些实施方式中,方法可包括修改的拉下试验和连接,其完全纳入捕获探针而无需通用扩增。例如,该方法可涉及使用修改的选择器探针来捕获限制性酶-消化片段,然后连接捕获产物和衔接子,和任选扩增,和测序。在某些实施方式中,方法可包括生物素化的拉下试验,和使用衔接子序列的延伸和连接与环单链连接的组合。例如,该方法可涉及可涉及使用选择器探针捕获感兴趣的区域(即靶序列)、延伸探针、衔接子连接、单链环形连接、任选的扩增,和测序。在某些实施方式中,测序结果的分析可分离靶序列和背景。
在一些实施方式中,使用本文所述一种或多种基于序列的分离方法就选择基因组区域(例如染色体)的片段进行核酸富集。基于序列的分离通常基于样品中感兴趣的片段中存在而其他片段中基本不存在或其他片段中不存在实质含量(例如5%或更少)的核苷酸序列(例如靶片段和/或参照片段)。在一些实施方式中,基于序列的分离可生成分离的靶片段和/或分离的参照片段。分离的靶片段和/或分离的参照片段通常从核酸样品中的剩余片段分离出来。在某些实施方式中,分离的靶片段和分离的参照片段还可从彼此分离(例如在分别的试验隔室中分离)。在某些实施方式中,分离的靶片段和分离的参照片段可一起分离(例如在相同试验室中分离)。在一些实施方式中,未结合的片段可差异移除或降解或消化。
在一些实施方式中,选择性核酸捕获方法用于从核酸样品分离靶片段和/或参照片段。市售可得的核酸捕获系统包括例如,Nimblegen序列捕获系统(威斯康星州麦迪逊的罗氏公司(Roche)的NimbleGen);亿明达BEADARRAY平台(加利福尼亚州圣迭戈的亿明达公司(Illumina));昂飞GENECHIP平台(加利福尼亚州圣克拉拉的昂飞公司(Affymetrix));安捷伦SureSelect目标富集系统(加利福尼亚州圣克拉拉的安捷伦技术公司(AgilentTechnologies));和相关平台。该方法通常涉及捕获寡核苷酸与靶片段或参照片段的区段或所有核苷酸序列的杂交且可包括使用固相(例如固相阵列)和/或基于溶液的平台。捕获寡核苷酸(有时称为“饵(bait)”)可经选择或设计,从而其优选杂交所选基因组区域或位点的核酸片段(例如染色体21、18、13、X或Y之一,或参照染色体)。在某些实施方式中,可使用基于杂交的方法(例如使用寡核苷酸阵列)从某些染色体(例如可能的非整倍性染色体、参照染色体或其它感兴趣的染色体)或其感兴趣的区段中富集核酸序列。
捕获寡核苷酸通常包含能够杂交或退火至感兴趣的核酸片段(例如靶片段、参照片段)或其部分的核苷酸序列。捕获寡核苷酸可以是天然产生的,或合成的,并且可基于DNA或RNA。捕获寡核苷酸可允许特定的分离,例如,将靶片段和/或参照片段与核酸样品中的其它片段分离开。本文中所用的术语“特异性的”或“特异性”指一种分子与另一种分子的结合或杂交,例如针对靶多核苷酸的寡核苷酸。“特异性的”或“特异性”指两种分子之间的识别、接触和形成稳定复合物,相比之下这两种分子中任一个与其它分子的识别、接触或形成复合物显著较低。本文中所用的术语“退火”指两种分子间形成稳定复合物。当述及捕获寡核苷酸时,术语“捕获寡核苷酸”、“捕获寡”、“寡”或“寡核苷酸”可贯穿全文互换使用。可将寡核苷酸的如下特征应用至引物和其它寡核苷酸,例如本文提供的探针。
可采用合适的方法设计并合成捕获寡核苷酸,并且,所述捕获寡核苷酸可具有适于杂交至感兴趣的核苷酸序列并进行本文所述的分离和/或分析处理的任何长度。寡核苷酸可基于感兴趣的核苷酸序列(例如,靶片段序列、参照片段序列)设计。在一些实施方式中,寡核苷酸的长度可以是约10-约300个核苷酸,约10-约100个核苷酸,约10-约70个核苷酸,约10-约50个核苷酸,约15-约30个核苷酸,或约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸。寡核苷酸可由天然产生的和/或非天然产生的核苷酸(例如经标记的核苷酸)或其混合物组成。适用于本文所述实施方式的寡核苷酸可采用已知技术来合成并标记。寡核苷酸可按固相亚磷酰胺三酯法化学合成,该方法首先由Beaucage和Caruthers在Tetrahedron Letts.22:1859-1862(1981)中描述,例如按Needham-VanDevanter等在Nucleic Acids Res.12:6159-6168,1984中所述用自动合成仪化学合成。寡核苷酸的纯化可通过天然丙烯酰胺凝胶电泳或通过阴离子交换高效液相色谱(HPLC)实现,例如,如Pearson和Reanier在J.Chrom.255:137-149(1983)中所述。
在一些实施方式中、(天然产生或合成的)寡核苷酸序列的全部或部分可与靶片段和/或参照片段序列或其部分基本互补。本文所述关于序列的“基本互补”指能够彼此杂交的核苷酸序列。可改变杂交条件的严谨性以容许不同量的序列错配。包含的靶序列/参照序列和寡核苷酸序列彼此间的互补性为55%或更高、56%或更高、57%或更高、58%或更高、59%或更高、60%或更高、61%或更高、62%或更高、63%或更高、64%或更高、65%或更高、66%或更高、67%或更高、68%或更高、69%或更高、70%或更高、71%或更高、72%或更高、73%或更高、74%或更高、75%或更高、76%或更高、77%或更高、78%或更高、79%或更高、80%或更高、81%或更高、82%或更高、83%或更高、84%或更高、85%或更高、86%或更高、87%或更高、88%或更高、89%或更高、90%或更高、91%或更高、92%或更高、93%或更高、94%或更高、95%或更高、96%或更高、97%或更高、98%或更高,或者99%或更高。
与感兴趣的核酸序列(例如,靶片段序列、参照片段序列)或其部分基本互补的寡核苷酸也与所述靶核酸序列或其相关部份的互补序列基本相似(例如,与所述核酸的反义链基本相似)。确定两个核苷酸序列之间是否基本相似的一种测试是测定共有的相同核苷酸序列的百分比。本文所述关于序列的“基本相似”是指核苷酸序列彼此间的相同性为55%或更高、56%或更高、57%或更高、58%或更高、59%或更高、60%或更高、61%或更高、62%或更高、63%或更高、64%或更高、65%或更高、66%或更高、67%或更高、68%或更高、69%或更高、70%或更高、71%或更高、72%或更高、73%或更高、74%或更高、75%或更高、76%或更高、77%或更高、78%或更高、79%或更高、80%或更高、81%或更高、82%或更高、83%或更高、84%或更高、85%或更高、86%或更高、87%或更高、88%或更高、89%或更高、90%或更高、91%或更高、92%或更高、93%或更高、94%或更高、95%或更高、96%或更高、97%或更高、98%或更高,或者99%或更高。
退火条件(例如,杂交条件)可基于分析中所用的寡核苷酸的特点来确定和/或调节。寡核苷酸序列和/或长度有时可能会影响感兴趣的核酸序列的杂交。根据寡核苷酸和感兴趣的核酸之间的错配程度,可采用低、中等或高严谨条件来实现退火。本文所用的术语“严谨条件”指杂交和洗涤的条件。杂交反应温度条件优化的方法为本领域已知,可参见纽约约翰韦利父子公司(John Wiley&Sons,N.Y.)出版的Current Protocols in MolecularBiology(《新编分子生物学实验指南》)中6.3.1-6.3.6部分(1989年)。可采用该参考文献中所述的水性和非水性方法。严谨杂交条件的非限制性示例是:约45℃下在6X氯化钠/柠檬酸钠(SSC)中杂交,然后在50℃下在0.2X SSC、0.1%SDS中洗涤一次或多次。严谨杂交条件的另一个示例是:约45℃下在6X氯化钠/柠檬酸钠(SSC)中杂交,然后在55℃下于0.2XSSC、0.1%SDS中洗涤一次或多次。严谨杂交条件的另一个例子是:约45℃下在6X氯化钠/柠檬酸钠(SSC)中杂交,然后在60℃下用0.2X SSC、0.1%SDS洗涤一次或多次。通常,严谨杂交条件是:约45℃下在6X氯化钠/柠檬酸钠(SSC)中杂交,然后在65℃下用0.2X SSC、0.1%SDS洗涤一次或多次。更常见地,严谨条件是在65℃下用0.5M磷酸钠、7%SDS处理,然后在65℃下用0.2X SSC、1%SDS洗涤一次或多次。也可通过添加某些有机溶剂如甲酰胺来改变(即降低)严谨杂交温度。有机溶剂(如甲酰胺)降低双链多核苷酸的热稳定性,从而使得杂交可在较低的温度下进行同时仍能保持严谨条件并延长可能不耐热的核酸的使用寿命。
如本文所用表述“杂交”或其语法变形指在低、中、高的严谨条件下或在核酸合成条件下第一核酸分子与第二核酸分子的退火。杂交可包括这样的情况:其中第一核酸分子退火至第二核酸分子,其中第一和第二核酸分子是互补的。本文中所用的“特异性杂交”指在核酸合成条件下,与不具有互补序列的核酸分子的杂交相比,寡核苷酸与具有与寡核苷酸互补序列的核酸分子优先杂交。例如,特异性杂交包含捕获寡核苷酸和与该寡核苷酸互补的靶片段序列的杂交。
在一些实施方式中,一个或多个捕获寡核苷酸与亲和配体(例如,结合对的一员(例如,生物素)),或能够结合至捕获剂(例如亲和素、链霉亲和素、抗体或受体)的抗原相关联。例如,捕获寡核苷酸可以被生物素化,从而其能够被捕获至链霉亲和素被覆的珠上。
在一些实施方式中,一个或多个捕获寡核苷酸和/或捕获剂能有效连接至固体支持物或基质。固体支持物或基质可以是任何可实际分隔的固体,捕获寡核苷酸能够直接或间接地附着至其上,包括但不限于,通过微阵列和孔提供的表面,以及颗粒例如珠(例如,顺磁性珠、磁珠、微珠、纳米珠)、微颗粒和纳米颗粒。固体支持物还可包括,例如,芯片、柱、光学纤维、拭子、滤器(例如,平表面滤器)、一种或多种毛细管、玻璃和改良的或功能化的玻璃(例如,可控孔玻璃(CPG))、石英、云母、重氮化构件(纸或尼龙)、聚甲醛、纤维素、乙酸纤维素、纸、陶瓷、金属、类金属、半导体材料、量子点、被覆的珠或颗粒、其它色谱材料、磁性颗粒;塑料(包括丙烯酸树脂、聚苯乙烯、苯乙烯与其它材料的共聚物、聚丁烯、聚氨基甲酸酯、TEFLONTM、聚乙烯、聚丙烯、聚酰胺、聚酯、聚偏二氟乙烯(PVDF)等)、多糖、尼龙或硝基纤维素、树脂、硅石或基于硅石的材料,包括硅、硅胶,和改良的硅、
Figure BDA0003603576890000261
碳、金属(例如,钢、金、银、铝、硅和铜)、无机玻璃、导电聚合物(包括聚合物例如聚吡咯和聚吲哚);微或纳米结构的表面,例如核酸瓦片阵列、纳米管、纳米线或纳米颗粒状修饰的表面;或多孔表面或凝胶例如甲基丙烯酸酯、丙烯酰胺、糖聚合物、纤维素、硅酸盐或其它纤维性或成股的聚合物。在一些实施方式中,所述固体支持物或基质可用被动或化学衍生化的覆层被覆,所述覆层具有任何数量的材料,包括聚合物,例如葡聚糖、丙烯酰胺、明胶或琼脂糖。珠和/或颗粒可以是游离的,或彼此相联(例如,烧结)。在一些实施方式中,所述固体支持物可以是珠的集合。在一些实施方式中,所述颗粒可包含硅石,并且所述硅石可包括二氧化硅。在一些实施方式中,所述硅石可以是多孔的,并且在某些实施方式中,所述硅石可以是非多孔的。在一些实施方式中,所述颗粒还包含使该颗粒具有顺磁性质的试剂。在某些实施方式中,所述试剂包括金属,且在某些实施方式中,所述试剂是金属氧化物、(例如,铁或铁的氧化物,其中所述铁的氧化物包括Fe2+和Fe3+的混合物)。所述寡核苷酸可通过共价键或非共价相互作用连接至所述固体支持物,并且可直接或间接(例如,通过媒介例如间隔物分子或生物素)连接至固体支持物。探针可在核酸捕获之前、期间或之后连接至所述固体支持物。
在一些实施方式中,使用一种或多种基于长度的分离方法针对特定核酸片段长度、长度范围、低于或高于特定阈值或截止值的长度来富集核酸。核酸片段长度通常指片段中的核苷酸数量。核酸片段长度有时还指核酸片段大小。在一些实施方式中,基于长度的分离方法不需要测量个体片段的长度。在一些实施方式中,基于长度的分离方法与确定个体片段的长度的方法联合进行。在一些实施方式中,基于长度的分离指大小分级处理,其中所有或部分分级库可经分离(例如保留)和/或分析。大小分级处理为本领域已知(如阵列分离、分子筛分离、凝胶电泳分离、柱色谱分离(例如尺寸排阻柱)和基于微流体的方法)。在某些实施方式中,基于长度的分离法可包括例如片段环化、化学处理(例如甲醛、聚乙二醇(PEG))、质谱和/或大小特异的核酸扩增。
在一些实施方式中,从所述样品中分离具有某一长度、长度范围、或在具体阈值或截止值之下或之上的长度的核酸片段。在一些实施方式中,具有具体阈值或截止值(例如,500bp、400bp、300bp、200bp、150bp、100bp)之下的长度的片段被称为“短”片段,而具有具体阈值或截止值(例如,500bp、400bp、300bp、200bp、150bp、100bp)之上的长度的片段被称为“长”片段。在一些实施方式中,保留具有某一长度、长度范围或具体阈值或截止值之下或之上的长度的片段供于分析,而不保留具有不同长度、或长度范围,或所述阈值或截止值之上或之下的长度的片段用于分析。在一些实施方式中,保留小于约500bp的片段。在一些实施方式中,保留小于约400bp的片段。在一些实施方式中,保留小于约300bp的片段。在一些实施方式中,保留小于约200bp的片段。在一些实施方式中,保留小于约150bp的片段。例如,保留小于约190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、110bp或100bp的片段。在一些实施方式中,保留约100bp-约200bp的片段。例如,保留约190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp或110bp的片段。在一些实施方式中,保留处于约100bp-约200bp范围内的片段。例如,保留处于约110bp-约190bp、130bp-约180bp、140bp-约170bp、140bp-约150bp、150bp-约160bp或145bp-约155bp范围内的片段。在一些实施方式中,保留比具有某一长度或长度范围的其它片段短约10bp-约30bp的片段。在一些实施方式中,保留比具有某一长度或长度范围的其它片段短约10bp-约20bp的片段。在一些实施方式中,保留比具有某一长度或长度范围的其它片段短约10bp-约15bp的片段。
在一些实施方式中,使用一种或多种基于生物信息学(例如,计算机虚拟(insilico))的方法针对特定核酸片段长度、长度范围、低于或高于特定阈值或截止值的长度来富集核酸。例如,可采用合适的核苷酸测序方法来获得核酸片段的核苷酸序列读数。在一些示例中,例如当采用双末端测序法时,可基于从片段的各末端获取的映射的序列读数的位置来确定具体片段的长度。用于具体分析(例如,确定遗传变异的存在与否)的序列读数可针对一个或多个选定的片段长度或对应片段的片段长度阈值来富集或过滤,如本文对此做出的进一步详细描述。
可与本发明方法一起使用的某些基于长度的分离方法有时使用例如选择性序列加标签法。术语“序列加标签”指将可识别的独特序列纳入核酸或核酸群。本文所用术语“序列加标签”与本文后述术语“序列标签”含义不同。在该序列加标签方法中,样品中的片段大小种类(例如短片段)核酸经过选择性序列加标签,所述样品包括长和短核酸。该方法通常涉及使用巢式引物组进行核酸扩增反应,所述引物包括内部引物和外部引物。在某些实施方式中,内部引物之一或二者可加标签从而在靶扩增产物上引入标签。外部引物通常不与载有(内部)靶序列的短片段退火。内部引物可与短片段退火并产生载有标签和靶序列的扩增产物。通常,长片段的加标签受到组合机制的抑制,所述组合机制包括例如,外部引物的先前退火和延伸引起的内部引物延伸受阻。富集带标签的片段可通过多种方法中任一来实现,包括例如,单链核酸的外切核酸酶消化和使用对至少一种标签特异的扩增引物进行的带标签片段的扩增。
可与本发明方法一起使用的其他基于长度的分离方法涉及将核酸样品经过聚乙二醇(PEG)沉淀。方法示例包括国际专利申请公开号WO2007/140417和WO2010/115016中所述的那些。该方法通常需要在存在一种或多种单价盐时在足以大量沉淀大核酸而不大量沉淀小(例如少于300核苷酸)核酸的条件下将核酸样品与PEG接触。
可与本文所述方法一起使用的其他基于大小的富集方法涉及通过连接进行的环化,例如使用环化酶。短核酸片段通常可比长片段更高效的环化。非-环化序列可与环化序列分离,并且富集的短片段可用于进一步分析。
确定片段长度
在一些实施方式中,确定一个或多个核酸片段的长度。在一些实施方式中,确定一个或多个靶片段的长度,由此鉴定一个或多个靶片段尺寸种类。在一些实施方式中,确定一个或多个靶片段和一个或多个参照片段的长度,由此鉴定一个或多个靶片段长度种类和一个或多个参照片段长度种类。在一些实施方式中,片段长度通过如下方式确定:测量与所述片段杂交的探针的长度,其将在下文中进一步详细讨论。核酸片段或探针长度可采用本领域中适于确定核酸片段长度的任何方法确定,例如,质量敏感型方法(例如,质谱(例如,基质辅助激光解吸电离(MALDI)质谱和电喷射(ES)质谱)、电泳(例如,毛细管电泳)、显微技术(扫描隧道显微术、原子力显微技术),采用纳米孔测量长度,和基于序列的长度测定法(例如,双末端测序法)。在一些实施方式中,可确定片段或探针长度而无需采用基于片段电荷的分离方法。在一些实施方式中,可确定片段或探针长度而无需采用电泳法。在一些实施方式中,可确定片段或探针长度而无需采用核苷酸测序法。
质谱
在一些实施方式中,采用质谱来确定核酸片段长度。质谱方法通常被用于确定分子(例如核酸片段)的质量。在一些实施方式中,可从片段的质量推测核酸片段长度。在一些实施方式中,可从片段的质量预测核酸片段长度的范围。在一些实施方式中,可从与片段杂交的探针的质量推测核酸片段长度,这在下文有更详细的描述。在一些实施方式中,可通过将靶标片段和/或参照片段的检测的信号质量与预期质量相比较,来检验给定长度的靶核酸和/或参照核酸是否存在。相对信号强度,例如,具体核酸片段和/或片段长度的谱上的质量峰有时可指示所述片段种类在该样品中的其它核酸中的相对群体(参见例如,Jurinke等.(2004)Molmicrobiol.15:1165-1167。
质谱通常通过使化学化合物离子化以产生带电分子或分子片段,然后检测其质量-电荷比来工作。典型的质谱过程涉及若干步骤,包括(1)将样品加载至质谱仪器上,然后汽化、(2)通过多种方法中的任何一种使所述样品组分离子化(例如,用电子束冲击),生成带电颗粒(离子)、(3)通过电磁场,根据离子的质荷比在分析仪中使离子分离、(4)检测离子(例如,通过定量方法),和(5)将离子信号处理成质谱。
质谱方法是本领域中熟知的(参见,例如,Burlingame等.Anal.Chem.70:647R-716R(1998)),并且包括,例如,四极杆质谱、离子阱质谱、飞行时间质谱、气相色谱质谱和串联质谱,可用于本文描述的方法。与质谱方法相关联的基本过程是产生源自样品的气相离子,和检测其质量。气相离子的移动可采用质谱中产生的电磁场而准确控制。离子在这些电磁场中的移动与离子的m/z(质荷比)成比例,而这形成检测m/z,以及检测样品质量的基础。离子在这些电磁场中的移动允许保持和聚焦离子,这有助于质谱的高灵敏度。在m/z测量的过程中,离子被高效传输至颗粒检测器,其记录这些离子的到达。各m/z的离子的量通过图上的峰来观察,其中x轴是m/z,而y轴是相对丰度。不同的质谱仪具有不同的分辨水平,即,分辨质量上紧密关联的离子之间的峰的能力。分辨率定义为R=m/δm,其中m是离子质量,而δm是质谱中两个峰之间的质量差异。例如,分辨率为1000的质谱仪能够从m/z为100.1的离子分辨m/z为100.0的离子。
某些质谱方法可采用离子源和质量分析仪的各种组合,这允许自定义检测方案设计上的灵活性。在一些实施方式中,质谱仪可经程序控制以将所有离子从离子源依次或同时传输至质谱仪。在一些实施方式中,质谱仪可经程序控制以选择特定质量的离子并将其传输进入质谱仪,而封阻其它离子。
数种类型的质谱仪是可用的,或可通过采用多个配置来产生。一般而言,质谱仪具有如下主要组件:样品进口、离子源、质量分析仪、检测仪、真空系统,和仪器控制系统,以及数据系统。样品进口、离子源和质量分析仪的差异通常决定了仪器的类型及其能力。例如,进口可以是毛细管柱液相色谱源,或可以是直接探针或工作台例如基质辅助激光解吸附中所用的。常用的离子源有,例如,电喷射,包括纳米喷雾和微喷雾,或基质辅助激光解吸附。质量分析仪包括,例如,四极杆质量过滤器、离子阱质量分析仪和飞行时间质量分析仪。
离子形成过程是质谱分析的起点。若干离子化方法是可用的,并且对于离子化方法的选择取决于用于分析的样品。例如,对于多肽的分析而言,相对温和的离子化方法(例如电喷射离子化(ESI))可能是所需的。对于ESI而言,使包含样品的溶液以高电势通过细针,这产生强电场,产生高度带电滴的细喷雾,其被导入质谱仪。其它离子化方式包括,例如,快原子轰击(FAB),其采用高能中性原子束来轰击固体样品,造成解吸附和离子化。基质辅助激光解吸附离子化(MALDI)是这样一种方法,其中采用激光脉冲来轰击样品,该样品已在紫外吸收化合物基质中结晶化(例如,2,5-二羟基苯甲酸、α-氰基-4-羟基柠檬酸、3-羟基皮考啉酸(3-HPA)、二-柠檬酸铵(DAC)及其组合)。本领域已知的其它离子化方式包括,例如,等离子体和辉光放电、等离子体解吸附离子化、共振离子化,和二级离子化。
可用不同的质量分析仪与不同的离子源配对。不同的质量分析仪具有不同的优点,这在本领域中是已知的,并且如本文所述。选择用于检测的质谱仪和方法取决于特定的试验,例如,当检测产生的小量离子时,可采用更为灵敏的质量分析仪。下文描述几种类型的质量分析仪和质谱方法。
离子迁移率质量(IM)光谱是一种气相分离方法。IM基于气相离子的碰撞截面分离气相离子,并且可与飞行时间(TOF)质谱联用。IM-MS在Verbeck等.刊于Journal ofBiomolecular Techniques(第13卷,第2期,56-61)中有更详细的讨论。
四极杆质谱采用四极杆质量过滤器或分析仪。该类型的质量分析仪由四个杆组成,所述四个杆以两组两个电连接杆的形式排列。对各对杆施加rf和dc电压的组合,这产生场,造成离子的振动移动,使离子从质量过滤器的起点移动至终点。这些场导致在一对杆中产生高通质量过滤器,而在另一对杆中产生低通过滤器。高通和低通过滤器之间的重叠留下确定的m/z,其通过两个滤器并横跨所述四极的长度。选择该m/z,并在所述四极杆质量过滤器中保持稳定,同时全部其它m/z具有不稳定的轨道,并不保持在所述质量过滤器中。质谱由使施加的场倾斜而产生,从而选择增加的m/z通过质量过滤器并到达检测器。并且,还可设置四极以通过施加仅有rf的场来包含并传输所有m/z的离子。这允许四极作为质谱仪区域中的透镜或聚焦系统发挥作用,其中需要离子传输,无需质量过滤。
本文所述的四极杆质量分析仪,以及其它质量分析仪,可被程序控制以分析确定的m/z或质量范围。鉴于核酸片段的所需质量范围是已知的,在一些示例中,质谱仪可受程序控制以传输投射在正确质量范围的离子,同时排除较高或较低质量范围的离子。具有选择质量范围的能力,可减少分析中的背景噪音,并因此增加信噪比。因此,在一些示例中,质谱仪能够完成分离步骤,并检测和鉴定某些质量-可区分的核酸片段。
离子阱质谱采用离子阱质量分析仪。通常而言,施加场,从而使所有m/z的离子在初始时被捕获,并在质量分析仪中振荡。离子从离子源通过聚焦装置(例如八极透镜系统)进入离子阱。离子阱在激发和喷射通过电极到检测器之前在捕获区域出现。质量分析可通过如下方式完成:依次施加使振荡以如下方式增加的电压:将具有增加的m/z的离子喷射出所述阱,并进入所述检测器。与四极杆质谱不同,所有离子被滞留在质量分析仪的场中,除了具有选定的m/z的那些。对离子数量的控制可通过改变离子注入阱的时间来实现。
飞行时间质谱采用飞行时间质量分析仪。通常而言,离子首先通过在(高电压产生的)电场中加速来获得固定量的动能。加速之后,离子进入无场或“漂移”区域,其在该区域中以与其m/z成反比的速度移动。因此,具有低m/z的离子比具有高m/z的离子移动得更快速。离子移动通过无场区长度所需的时间经测量并用于计算离子的m/z。
气相色谱质谱通常能够实时检测目标。所述系统的气相色谱(GC)部分将化学混合物分成多份分析物,随后质谱仪(MS)对分析物进行鉴定和定量。
串联质谱可采用上述质量分析仪的组合。串联质谱仪可采用第一质量分析仪,根据离子的m/z来分离离子,以分离感兴趣的离子供于进一步分析。然后,将分离的感兴趣的离子破成片段离子(称为碰撞活化解离或碰撞诱导解离),并通过第二质量分析仪分析所述片段离子。这些类型的串联质谱仪系统称为空间系统中的串联,因为两个质量分析仪是空间上分开的,通常由碰撞室分开。串联质谱仪系统还包括时间系统中的串联,其中采用一个质量分析仪,然而该质量分析仪依次用于分离离子,诱导片段化,然后进行质量分析。
空间范畴的串联的质谱仪具有多于一个质量分析仪。例如,串联四极杆质谱仪系统可具有第一四极杆质量过滤器,随后是碰撞室,随后是第二四极杆质量过滤器,然后是检测器。另一种排列是采用四极杆质量过滤器用于第一质量分析仪,并采用飞行时间质量分析仪用于第二质量分析仪,其中碰撞室将两个质量分析仪分开。其它串联系统是本领域已知的,包括反射式飞行时间、串联扇区和扇区-四极杆质谱。
时间范畴的串联的质谱仪具有一个质量分析仪,其在不同时间行使不同的功能。例如,可采用离子阱质谱仪来捕获所有m/z的离子。施加一系列的rf扫描功能,其从所述阱喷射除感兴趣的离子的m/z以外的所有m/z的离子。在已经分离了感兴趣的m/z之后,施加rf脉冲以在所述阱中产生与气体分子的碰撞,以诱导离子的片段化。然后,通过质量分析仪测量片段化的离子的m/z值。离子回旋共振仪器,也称为傅里叶变换质谱仪,是时间串联系统的示例。
可通过控制实验各阶段中选定的离子来进行若干类型的串联质谱实验。不同类型的实验采用不同的操作模式,有时,称为对多个质量分析仪的“扫描(scan)”。在第一示例中,称作质量光谱扫描,所述第一质量分析仪和所述碰撞室将用于质量分析的所有离子传输进入第二质量分析仪。在第二示例中,称为产品离子扫描,感兴趣的离子在第一质量分析仪中基于质量被选择,然后在碰撞室中被片段化。然后,通过扫描第二质量分析仪对形成的离子进行质量分析。在第三示例中,称为前体离子扫描,扫描第一质量分析仪以依次传输分析过质量的离子进入碰撞室供于片段化。第二质量分析仪基于质量选择产生的感兴趣的离子供于传输至检测器。因此,所述检测器信号是可被片段化成为常见产物离子的所有前体离子的结果。其它实验形式包括中性丢失扫描,其中恒定质量差异被算入质量扫描。
对于定量,可采用控制手段,该控制手段能够提供与核酸片段(例如,存在的或被引入的核酸片段)的量相关的信号。允许将相对质量信号转换成绝对量的控制手段可通过在检测核酸片段之前,添加已知量的质量标签或质量标记物至各样品来实现。参见例如,Ding和Cantor(2003)PNAS U S A.Mar18;100(6):3059-64。可采用不干扰片段的检测的任何质量标签来对质量信号进行标准化。通常而言,所述标准具有分离性质,其与样品中分子标签中的任何那些不同,并且可具有相同或不同的质量签名。
有时,可采用分离步骤来从核酸样品移除盐、酶或其它缓冲组分。本领域中熟知的若干方法,例如色谱、凝胶电泳,或沉淀,可用于对样品进行清除。例如,可采用尺寸排阻色谱或亲和色谱从样品移除盐。分离方法的选择可基于样品的量。例如,当可获得小量的样品或采用小型化的设备时,可采用微亲和色谱分离步骤。此外,分离步骤的需要与否,以及分离方法的选择,可取决于所用的检测方法。有时,盐能够从基质辅助激光解吸附/离子化的激光吸收能量,并导致离子化效率较低。因此,有时,基质辅助激光解吸附/离子化和电喷射离子化的效率,可通过从样品移除盐来提高。
电泳
在一些实施方式中,采用电泳来确定核酸片段长度。在一些实施方式中,不采用电泳来确定核酸片段长度。在一些实施方式中,采用电泳来确定相应的探针(例如,本文所述的相应的修整的探针)的长度。在一些实施方式中,也可采用电泳作为基于长度的分离方法,如本文所述。可使本领域已知的任何电泳方法(由此核酸按长度分开)和本文提供的方法联用,其包括但不限于标准电泳技术和专用电泳技术,例如毛细管电泳。本领域中有采用标准电泳技术来分离核酸和测量核酸片段长度的方法的示例。本文提供非限制性示例。在使核酸样品在琼脂糖或聚丙烯酰胺凝胶中跑动后,可用溴化乙锭对所述凝胶标记(例如,染色)(参见,Sambrook和Russell,《分子克隆:实验室手册》(Molecular Cloning:ALaboratory Manual)第三版,2001)。存在大小与标准对照相同的条带表明存在特定核酸序列长度,然后可基于条带强度与对照比较其含量,从而检测和定量感兴趣的核酸序列长度。
在一些实施方式中,使用毛细管电泳来分离、鉴定,有时定量核酸片段。毛细管电泳(CE)包含相关的分离技术的家族,所述技术使用窄孔融凝二氧化硅毛细管以分离大分子和小分子(例如,不同长度的核酸)的复合物阵列。可使用高电场强度根据不同荷电、大小和疏水性来分离核酸分子。样品引入通过将所述毛细管末端浸入样品瓶并施加压力、真空或电压来完成。根据所用毛细管和电解液的类型,可将所述CE技术分为若干分离技术,其中任何技术能适应本文提供的方法。这些的非限制性示例包括毛细管区电泳(CZE),也称为非液相CE(FSCE)、毛细管等电聚焦(CIEF)、等速电泳(ITP)、电动色谱(EKC)、胶束电动毛细管色谱(MECC或MEKC)、微乳液电动色谱(MEEKC)、非水性毛细管电泳(NACE)和毛细管电色谱(CEC)。
能够进行毛细管电泳的任何装置、仪器或机器都可与本文提供的方法联用。毛细管电泳系统的主要部件通常是样品瓶、源料瓶和目标瓶(destination vial)、毛细管、电极、高压电源、检测器和数据输出以及操纵装置。所述源料瓶、目标瓶和毛细管用电解质(例如水性缓冲溶液)填充。为了引入样品,将所述毛细管进口置于含有所述样品的瓶内,然后回到所述源料瓶(样品通过毛细作用、压力或虹吸引入所述毛细管)。然后通过电场来开始迁移分析物(即,核酸),所述电场施加在所述源料瓶和目标瓶之间并通过高压电源提供给所述电极。阳离子或阴离子通过电渗流以相同方向引入所述毛细管。所述分析物(即,核酸)由于其电泳迁移性产生的移动而分离开,并在所述毛细管出口端附近检测。所述检测器的输出被送至数据输出装置和操纵装置,例如积分器或计算机。然后,该数据以电泳图显示,其可报告随时间变化的检测器反应。分离的核酸能在电泳图中显示为不同迁移时间出现的峰。
通过毛细管电泳的分离可由若干检测装置来检测。大多数市售系统采用紫外或紫外-可见吸光度作为其主要检测模式。在这些系统中,毛细管本身的区段作为检测池。使用接通管(on-tube)检测使得检测分离的分析物,而不损失分辨率。通常,毛细管电泳中所用的毛细管可用聚合物涂层以增加稳定性。用于紫外检测的毛细管的部分通常是光学透明的。毛细管电泳中的检测池的路径长度(约50微米)远小于传统的紫外池(约1cm)。根据比尔-朗伯(Beer-Lambert)定律,所述检测器的灵敏度与所述室的路径长度成比例。为增加灵敏度,可增加所述路径长度,尽管这样做会导致分辨率损失。所述毛细管本身可在检测点扩张,形成具有较长路径长度的“气泡室”,或可在所述检测点添加额外管道。然而,这些方法都可能会降低所述分离的分辨率。
毛细管电泳中还可使用荧光检测天然发荧光或经化学修饰以含有荧光标签(例如,本文描述的带标记的核酸片段或探针)的样品。该检测模式提供对于这些样品的高灵敏度和提高的选择性。所述方法需要将光束聚焦在所述毛细管上。可在CE系统中使用激光诱导的荧光,检测极限低达10-18至10-21mol。该技术的灵敏度归因于高的入射光强度和能使所述光准确聚焦在所述毛细管上。
一些毛细管电泳仪为本领域已知,并可与本文提供的方法联用。这些包括但不限于,CALIPER LAB CHIP GX(加利福尼亚州山景城的卡钳生命科学公司(Caliper LifeSciences))、P/ACE 2000系列(加利福尼亚州布利市的贝克曼库尔特公司(BeckmanCoulter))、HP G1600A CE(加利福尼亚州帕洛阿尔托的惠普公司(Hewlett-Packard))、AGILENT 7100CE(利福尼亚州圣克拉拉市的安捷伦技术公司(Agilent Technologies))和ABI PRISM遗传分析仪(加利福尼亚州卡尔斯巴德的应用生物系统公司(AppliedBiosystems))。
显微观察
在一些实施方式中,核酸片段长度采用基于成像的方法确定,例如显微观察方法。在一些实施方式中,对应的探针(例如,本文所述的对应修整的探针)的长度采用基于成像的方法确定。在一些实施方式中,片段长度可通过显微观察单一核酸片段来确定(参见,例如,美国专利号5,720、928)。在一些实施方式中,核酸片段以伸长的状态固定至表面(例如,改良的玻璃表面),经染色并通过显微镜观察。可收集并处理所述片段的图像(例如,测量长度)。在一些实施方式中,成像和图像分析步骤可以是自动化的。采用显微镜直接观察核酸片段的方法是本领域已知的(参见例如,Lai等.(1999)Nat Genet.23(3):309-13;Aston等.(1999)Trends Biotechnol.17(7):297-302;Aston等.(1999)方法sEnzymol.303:55-73;Jing等.(1998)Proc Natl Acad Sci USA.95(14):8046-51;和美国专利号5,720、928)。可用于本文所述方法的其它显微观察方法包括但不限于,扫描隧道显微术(STM)、原子力显微镜(ATM)、扫描力显微镜(SFM)、光子扫描显微镜(PSTM)、扫描隧道电势测定法(STP)、磁力显微镜(MFM)、扫描探针显微术、扫描电压显微术、光导原子力显微术、电化学扫描隧道显微术、电子显微术、自旋极化的扫描隧道显微术(SPSTM)、扫描热学显微术、扫描焦耳膨胀显微术、光热显微光谱学等。
在一些实施方式中,扫描隧道显微术(STM)可用于确定核酸片段长度。STM方法通常可产生分子(例如核酸片段)的原子水平图像。可进行STM,例如,在空气、水、超高真空、各种其它液体或气体环境中进行,并且,可在例如接近0开尔文-数百摄氏度的范围内的温度下进行。通常而言,STM系统的组件包括扫描针尖、压电控制的高度和x、y扫描仪,粗调样品-针尖控制、隔振系统,和计算机。STM方法一般基于量子隧穿概念。例如,当使导电针尖接近分子(例如,核酸片段)的表面时,在两者之间施加偏差(即,电势差异)能够允许电子打开通道通过其间的真空。所得的隧道效应电流与针尖位置,施加的电压,和样品的局域态密度(LDOS)呈函数关系。通过监测针尖经过表面的位置扫描来获取信息,并且可以图像形式显示。如果针尖在x-y平面经过样品,则表面高度和态密度的变化会导致电流变化。这些变化可在图像中映射。有时,对于位置的电流变化本身可被检测,或对应于恒定电流的相应的针尖高度z可被检测。这两种模式通常分别被称为恒高模式和恒流模式。
在一些实施方式中,可采用原子力显微镜(AFM)来测定核酸片段长度。一般而言,AFM是纳米级显微术的高分辨形式。通常而言,关于物体(例如,核酸片段)的信息通过采用机械探针来“感受”表面来搜集。有利于在电子指令上的微小但准确且精确移动压电元件能够有助于进行非常准确的扫描。在一些变化形式中,可采用操作悬臂来扫描电势。通常而言,AFM系统的组件包括:
在其末端具有尖针(即,探针)的悬臂,用于扫描试样(例如,核酸片段)的表面。所述悬臂通常是硅或氮化硅,弯曲的齿顶圆角半径在纳米级别。当使针尖接近样品表面时,针尖和样品之间的力导致悬臂基于胡克定律偏转。取决于具体状况,AFM中检测的力包括,例如,机械接触力、范德华力、毛细管力、化学键、静电力、磁力、卡西米尔力、溶解力(solvation force)等。通常而言,利用从悬臂的顶表面反射进入光电二极管的阵列中的激光斑点来检测偏转。可用的其它方法包括光学干涉量度法、电容感应或压电AFM悬臂。
纳米孔
在一些实施方式中,核酸片段长度采用纳米孔确定。在一些实施方式中,相应的探针(例如,本文所述的相应的修整的探针)的长度采用纳米孔确定。纳米孔通常是直径为1纳米级别的小孔或通道。某些穿膜细胞蛋白(如α-溶血素)能起纳米孔的作用。在一些实施方式中,纳米孔可以是合成的(例如,采用硅平台)。将纳米孔浸入传导液并穿过该液体施加电压导致轻微电流,这归因于通过所述纳米孔的离子传导。流过的电流量对纳米孔的大小敏感。当核酸片段通过纳米孔,该核酸分子会阻塞纳米孔至一定程度,并且产生电流变化。可测量核酸片段通过纳米孔时的电流变化的历时。在一些实施方式中,核酸片段长度可基于该检测结果来确定。
在一些实施方式中,可确定核酸片段长度为时间的函数。有时,较长的核酸片段可能需要相对较长的时间来通过纳米孔,而有时,较短的核酸片段可能需要相对较短的时间来通过纳米孔。因此,在一些实施方式中,片段的相对长度可基于纳米孔通过时间来确定。在一些实施方式中,近似或绝对的片段长度可通过如下方式确定:比较靶片段和/或参照片段的纳米孔通过时间与一组标准品(即,具有已知的长度)的通过时间。
探针
在一些实施方式中,片段长度采用一种或更多探针确定。在一些实施方式中,设计探针,从而其各自杂交至样品中感兴趣的核酸。例如,探针可包含与感兴趣的核酸互补的多核苷酸序列,或可包含结合至感兴趣的核酸的一系列单体。探针可以具有适于杂交(例如,完全杂交)至一个或多个感兴趣的核酸片段的任何长度。例如,探针可具有延展或延伸查过其杂交的核酸片段的长度的任何长度。探针的长度可以是约100bp或更长。例如,探针的长度可以是至少约200、300、400、500、600、700、800、900或1000bp。
在一些实施方式中,探针可包含与感兴趣的核酸互补的多核苷酸序列,和不与感兴趣的核酸互补的一个或多个多核苷酸序列(即,非互补序列)。非互补序列可位于,例如,探针的5’和/或3’端。在一些实施方式中,非互补序列可包含在感兴趣的有机体中不存在的核苷酸序列和/或无法与人类基因组中的任何序列杂交的序列。例如,非互补序列可源自本领域已知的任何非人类基因组,例如,非哺乳动物基因组、植物基因组、真菌基因组、细菌基因组,或病毒基因组。在一些实施方式中,非互补序列来自PhiX 174基因组。在一些实施方式中,非互补序列可包含经修饰的或合成的核苷酸,其无法与互补的核苷酸杂交。
探针可根据本领域已知的方法设计并合成,并且在本文中描述为寡核苷酸(例如,捕获寡核苷酸)。探针也可包括本领域已知的任何性质且在本文中描述用于寡核苷酸。可设计本文中的探针,从而其包含核苷酸(例如,腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U))、经修饰的核苷酸(例如,假尿苷、二氢尿苷、肌苷(I),和7-甲基鸟苷)、合成的核苷酸、退化碱基(例如,6H,8H-3,4-二氢嘧啶并[4,5-c][1,2]噁嗪-7-酮(P)、2-氨基-6-甲氧基氨基嘌呤(K)、N6-甲氧基腺嘌呤(Z),和次黄嘌呤(I)),除核苷酸、经修饰的核苷酸或合成的核苷酸,或其组合之外的通用碱基和/或单体,并且一般设计为使其初始长度比其杂交的片段长。
在一些实施方式中,探针包含能与天然产生的或修饰形式的核苷酸例如腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U)中的任何一种杂交的多个单体。在一些实施方式中,探针包含能与腺嘌呤、胸腺嘧啶、胞嘧啶,和鸟嘌呤中至少三种杂交的多个单体。例如,探针可包括能够杂交至A、T和C;A、T和G;G、C和T;或G、C和A的单体种类。在一些实施方式中,探针包含能够与腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤的全部杂交的多个单体。例如,探针可包括能够与A、T、C和G中的全部杂交的单体种类。在一些实施方式中,杂交条件(例如,严谨性)可根据本文所述的方法调节,例如,以便于某些单体种类与不同核苷酸种类的杂交。在一些实施方式中,所述单体包括核苷酸。在一些实施方式中,所述单体包括天然产生的核苷酸。在一些实施方式中,所述单体包括经修饰的核苷酸。
在一些实施方式中,探针的单体包括肌苷。肌苷是tRNA中常见的一种核苷酸,并且,在一些示例中,其能够与A、T和C杂交。本文中的实施例9描述了采用聚肌苷探针用于测定核酸片段尺寸的方法。在一些实施方式中,在低严谨或非严谨杂交条件(例如,相较于本文所述的严谨杂交条件,低温和/或高盐)下,使聚肌苷探针与核酸片段杂交。在一些实施方式中,核酸片段用亚硫酸氢钠处理,这导致片段中未甲基化的胞嘧啶残基的脱氨化,以形成尿嘧啶残基。在一些实施方式中,用亚硫酸氢钠处理的核酸片段经扩增(例如,PCR扩增),然后用亚硫酸氢钠处理。在一些实施方式中,所述核酸片段连接至包含通用扩增引物位点的序列,所述通用扩增引物位点不具有胞嘧啶残基。然后可产生互补的第二链,例如,采用通用扩增引物和延伸反应。通常,第一链中的尿嘧啶残基产生第二链中的互补的腺嘌呤残基。因此,可产生不具有鸟嘌呤残基的第二链。在一些情况中,所述不含鸟嘌呤的互补第二链,能够在严谨杂交条件下杂交至多聚肌苷探针。
在一些实施方式中,探针的单体包括通用碱基单体。通常而言,通用碱基单体是能够非选择性地杂交至各天然碱基(例如,A、G、C、T)的核碱基类似物或合成的单体。因此,有时,包含通用碱基单体的探针能够无关核苷酸序列而杂交至核酸片段。通用个碱基可包括但不限于,3-硝基吡咯、4-硝基吲哚、5-硝基吲哚、6-硝基吲哚、3-甲基7-丙炔基异喹诺酮(PIM)、3-甲基异喹诺酮(MICS),和5-甲基异喹诺酮(5MICS)(参见例如,Nichols等.(1994)Nature 369,492-493;Bergstrom等.(1995)J.Am.Chem.Soc.117,1201-1209;Loakes和Brown(1994)Nucleic Acids Res.22,4039-4043;Lin和Brown(1992)Nucleic AcidsRes.20,5149-5152;Lin和Brown(1989)Nucleic Acids Res.17,10383;Brown和Lin(1991)Carbohydrate Research 216,129-139;Berger等.(2000)Nucleic Acids Res.28(15):2911–2914)。
在一些实施方式中,探针的单体包括非核苷酸单体。在一些实施方式中,所述单体包括合成的聚合物的亚基。在一些实施方式中,所述单体包括吡咯烷酮。吡咯烷酮是合成的聚合物多聚吡咯烷酮的单体,并且在一些示例中能够杂交至A、T、G和C中的全部。
在一些实施方式中,用于确定片段长度的方法包括如下步骤:在退火条件下使核酸片段(例如,靶片段和/或参照片段)与能退火至所述片段的多种探针接触,由此产生多种片段-探针种类,例如,靶标-探针种类和参照-探针种类。探针和/或杂交条件(例如,严谨性)可被优化以有助于完全或基本完全的片段结合(例如,高严谨性)。完全或基本完全的片段-探针杂交一般包括双链体,其中所述片段不包含未杂交的部分,并且所述探针可包含未杂交的部分,如下文进一步的详细描述。
在一些实施方式中,例如,当探针长度比片段长度长时,所述靶标-探针种类和/或参照-探针种类可各自包含未杂交的探针部分(即,单链探针部分;参见例如,图12)。未杂交的探针部分可位于所述探针的各一端(例如,探针的3’或5’端)或位于所述探针的两端(即,探针的3’和5’端),并可包含任何数量的单体。在一些实施方式中,未杂交的探针部分可包含约1-约500个单体。例如,未杂交的探针部分可包含约5、10、20、30、40、50、100、200、300或400个单体。
在一些实施方式中,可从所述靶标-探针种类和/或参照-探针种类移除未杂交的探针部分,由此产生修整的探针。未杂交的探针部分的移除可通过本领域已知的用于切割和/或消化聚合物的任何方法来实现,例如,用于切割或消化单链核酸的方法。未杂交的探针部分可从所述探针的5’端和/或所述探针的3’端移除。所述方法可包括利用化学和/或酶促切割或消化。在一些实施方式中,采用能够使核酸的核苷酸亚基之间的磷酸二酯键切割的酶来移除所述未杂交的探针部分。所述酶可包括但不限于,核酶(例如,DNA酶I、RNA酶I)、核酸内切酶(例如,绿豆芽核酸酶,S1核酶等)、限制性核酸酶、核酸外切酶(例如,核酸外切酶I、核酸外切酶III、核酸外切酶T、T7核酸外切酶、λ核酸外切酶等)、磷酸二酯酶(例如,磷酸二酯酶II、小牛脾磷酸二酯酶、蛇毒磷酸二酯酶等)、脱氧核糖核酸酶(DNA酶)、核糖核酸酶(RNA酶)、侧翼核酸内切酶、5'核酸酶、3’核酸酶、3’-5’核酸外切酶、5'-3'核酸外切酶等,或其组合。修整的探针通常与其杂交的片段具有相同或基本相同的长度。因此,确定本文的修整的探针的长度能够提供对于相应的核酸片段长度的测量。修整的探针的长度可采用本领域已知的或本文所述的用于确定核酸片段长度的任何方法来测量。在某些实施方式中,探针可包含可检测的分子或实体,以便于检测和/或确定长度(例如,荧光团、放射性同位素、比色剂、颗粒、酶等)。修整的探针的长度可采用或不采用移除后未杂交部分的分离产物来评估。
在一些实施方式中,修整的探针从其相应的核酸片段解离(即,分离)。探针可采用本领域已知的任何方法从其相应的核酸片段分离,包括但不限于热变性。通过用于标记和/或分离混合物中的分子种类的本领域已知或本文所述的方法,能够将修整的探针与相应的核酸片段区分开来。例如,探针和/或核酸片段可具有可检测的性质,从而能将探针与其所杂交的核酸区分开来。可检测性质的非限制性示例包括:光学性质、电学性质、磁力性质、化学性质和通过已知尺寸开口的时间和/或速度。在一些实施方式中,探针和样品核酸片段在物理上彼此分离。分离可通过如下方式完成,例如,采用捕获配体,例如生物素或其它亲和配体,和捕获试剂,例如亲和素、链霉亲和素,抗体,或受体。探针或核酸片段可包含对捕获试剂具有特异性结合活性的捕获配体。例如,来自核酸样品的片段可以是生物素化的,或采用本领域熟知的方法连接至亲和配体,并且利用拉下试验,采用链霉亲和素被覆的珠,与探针分离开。在一些实施方式中,捕获配体和捕获试剂或任何其它部分(例如,质量标签)可用于增加核酸片段的质量,从而其能够从质谱仪中检测到的探针的质量范围中被排除出去。在一些实施方式中,通过单体本身和/或质量标签的添加,使探针的质量增加,以将所述质量范围从核酸片段的质量范围移开。
核酸库
在一些实施方式中,核酸库是针对具体过程进行制备、装配和/或修改的多种多核苷酸分子(例如核酸样品),所述具体过程的非限制性示例包括在固相(例如固体支持物,例如流动池、珠)上固定、富集、扩增、克隆、检测和/或用于核酸测序。在某些实施方式中,在测序过程之前或期间制备核酸库。核酸库(例如测序库)可用本领域已知的合适方法制备。可通过靶向或非靶向制备过程制备核酸库。
在一些实施方式中,核酸库经修饰以包括化学部分(例如功能基团),其配置为用于将核酸固定至固体支持物。在一些实施方式中,核酸库经修饰以包括生物分子(例如功能基团)和/或结合对成员,其配置为用于将库固定至固体支持物,其非限制性示例包括甲状腺素结合球蛋白、类固醇结合蛋白质、抗体、抗原、半抗原、酶、血凝素、核酸、抑制剂、蛋白质A、蛋白质G、抗生物素蛋白、链霉亲和素、生物素、补体组分C1q、核酸-结合蛋白质、受体、碳水化合物、寡核苷酸、多核苷酸、互补核酸序列等及其组合。特异结合对的一些示例包括包括但不限于:抗生物素蛋白部分和生物素部分;抗原表位和抗体或其免疫活性片段;抗体和半抗原;地高辛配基部分和抗地高辛配基抗体;荧光素部分和抗荧光素抗体;操纵子和抑制剂;核酸酶和核苷;凝集素和多糖;类固醇和类固醇结合蛋白;活性化合物和活性化合物受体;激素及激素受体;酶和底物;免疫球蛋白和蛋白A;寡核苷酸或多多核苷酸和其相应的互补物;等等或其组合。
在一些实施方式中,核酸库经修改以包括已知组成的一种或多种多核苷酸,其非限制性示例包括鉴定物(例如标签、索引标签)、捕获序列、标记衔接子、限制性酶位点、启动子、增强子、复制起点、茎环、互补序列(例如引物结合位点、退火位点)、合适的整合位点(例如转座子、病毒整合位点)、修饰的核苷酸等或其组合。已知序列的多核苷酸可加入合适的位置,例如5′末尾、3′末尾或核酸序列内部。已知序列的多核苷酸可为相同或不同序列。在一些实施方式中,已知序列多核苷酸配置为与固定在表面(例如流动池的表面)的一种或多种寡核苷酸杂交。例如,核酸分子的5′已知序列可与第一多种寡核苷酸杂交,而3′已知序列可与第二多种寡核苷酸杂交。在一些实施方式中,核酸库可包括染色体-特异的标签、捕获序列、标记和/或衔接子。在一些实施方式中核酸库包括一种或多种可检测标记。在一些实施方式中,一种或多种可检测标记可纳入核酸库的5′末端、3′末端和/或库中核酸的任何核苷酸位置。在一些实施方式中核酸库包括杂交的寡核苷酸。在某些实施方式中,杂交的寡核苷酸是标记探针。在一些实施方式中,固定在固相上之前,核酸库包括杂交的寡核苷酸探针。
在一些实施方式中,已知序列的多核苷酸包括通用序列。通用序列是整合入两种或更多核酸分子或两种或更多核酸分子子集的特定核苷酸序列,其中所述通用序列就其所整合入的所有分子或分子子集来说相同。通用序列通常设计成使用与通用序列互补的单个通用引物进行杂交和/或扩增多种不同序列。在一些实施方式中,使用两种(例如一对)或更多通用序列和/或通用引物。通用引物通常包括通用序列。在一些实施方式中,衔接子(例如通用衔接子)包括通用序列。在一些实施方式中,一种或多种通用序列用于捕获、鉴定和/或检测多种核酸物质或其子集。
在制备核酸库的某些实施方式中,(例如合成程序的某些测序中),核酸的大小经选择和/或经片段化为数百碱基对或更少的长度(例如库生成制备中)。在一些实施方式中,进行库制备无需片段化(例如使用ccfDNA时)。
在某些实施方式中,使用基于连接的库制备方法(例如ILLUMINA TRUSEQ,加利福尼亚州圣迭戈亿明达)。基于连接的库制备方法通常使用衔接子(例如甲基化衔接子)设计,其可在初始连接步骤处纳入索引序列并通常可用于制备样品用于单一读数测序、双末端测序和多重测序。例如,有时核酸(例如片段化核酸或ccfDNA)通过填入(fill-in)反应、内切核酸酶反应或其组合进行末端修复。在一些实施方式中,随后可将所得钝末端修复核酸延伸单个核苷酸,其与衔接子/引物的3’末端的单核苷酸突出互补。任何核苷酸可用于延伸/突出的核苷酸。在一些实施方式中,核酸库制备包括连接衔接子寡核苷酸。衔接子寡核苷酸通常与流动池锚互补,并且有时用于固定核酸库至固体支持物,例如流动池的内表面。在一些实施方式中,衔接子寡核苷酸包括鉴定器、一种或多种测序引物杂交位点(例如与通用测序引物互补的序列、单末端测序引物、双末端测序引物、多重测序引物等)或其组合(例如衔接子/测序、衔接子/鉴定物,衔接子/鉴定器/测序)。
鉴定物可为纳入或接合核酸(例如多核苷酸)的合适的可检测标记,其允许检测和/或鉴定包括该鉴定物的核酸。一些实施方式中鉴定物在测序方法期间纳入或接合核酸(例如通过聚合酶)。鉴定物的非限制性示例包括核酸标签、核酸索引或条码、放射标记(例如同位素)、金属标记、化学发光标记、磷光标记、荧光淬灭剂、染料、蛋白质(例如酶、抗体或其部分、连接子、结合对的成员)等或其组合。在一些实施方式中鉴定物(例如核酸索引或条码)是核苷酸或核苷酸类似物的独特、已知和/或可鉴定的序列。在一些实施方式中,鉴定物是六个或更多连续核苷酸。可用许多具有各种不同激发和发射光谱的荧光团。任何合适的类型和/或数量的荧光团可用作鉴定物。在一些实施方式中、1个或更多、2个或更多、3个或更多、4个或更多、5个或更多、6个或更多、7个或更多、8个或更多、9个或更多、10个或更多、20个或更多、30或更多或50或更多个不同鉴定物用于本文所述方法(例如核酸检测和/或测序方法)。在一些实施方式中,一种或两种类型的鉴定物(例如荧光标记)连接至库中各核酸。鉴定物检测和/或定量可通过合适的方法或装置进行,其非限制性示例包括流式细胞术、定量聚合酶链式反应(qPCR)、凝胶电泳、照度计、荧光仪、分光光度计、合适的基因芯片或微阵列分析、Western印迹、质谱、色谱、细胞荧光分析、荧光显微镜、合适的荧光或数字成像方法、共焦激光扫描显微镜、激光扫描流式细胞术、亲和层析、手动批处理模式分离、电场悬浮,合适的核酸测序方法和/或核酸测序装置等及其组合。
在一些实施方式中,使用基于转座子的库制备方法(例如EPICENTRE NEXTERA,Epicentre,威斯康星州麦迪逊)。基于转座子的方法通常在单管反应中使用体外移位至相似片段或标签DNA(通常允许纳入平台特异的标签和任选的条码),并制备测序仪准备库。
在一些实施方式中核酸库或其部分经扩增(例如通过基于PCR的方法扩增)。在一些实施方式中测序方法包括扩增核酸库。核酸库可在固定至固体支持物之前或之后进行扩增(例如流动槽中的固体支持物)。核酸扩增包括扩增或增加(例如核酸库中)存在的核酸模板和/或其互补物数量的过程,所述过程通过产生一个或多个模板和/或其互补物的拷贝实现。扩增可通过合适的方法进行。核酸库可通过热循环法或通过等温扩增法进行扩增。在一些实施方式中,使用滚环扩增方法。在一些实施方式中,扩增发生在固体支持物上(例如流动池内)其中核酸库或其部份经固定。某些测序方法中,核酸库加入流动池中并通过合适条件下与锚杂交而固定。此类核酸扩增通常称为固相扩增。在固相扩增的一些实施方式中,所有或部分扩增产物通过从固定化引物开始延伸而合成。固相扩增反应与标准溶液相扩增类似,除了至少一种所述扩增寡核苷酸(例如引物)固定在固体支持物上。
在一些实施方式中,固相扩增包括核酸扩增反应,其包括固定在表面上的仅一种寡核苷酸引物。在某些实施方式中,固相扩增包括多种不同固定化寡核苷酸引物物质。在一些实施方式中,固相扩增可包括核酸扩增反应,其包括固定在固体表面的一种寡核苷酸引物和溶液中的第二种不同寡核苷酸引物。可使用多种不同固定化或溶液引物。固相核酸扩增反应的非限制性示例包括界面扩增、桥式扩增、乳液PCR、WildFire扩增(例如美国专利申请US20130012399)等或其组合。
测序
在一些实施方式中,核酸(例如核酸片段、样品核酸、无细胞核酸)可经测序。在一些实施方式中,获得全序列或基本全序列,有时获得部分序列。在一些实施方式中,当进行本文所述的方法时,不对核酸进行测序,并且不通过测序方法确定核酸的序列。在一些实施方式中,片段长度采用测序方法来确定。在一些实施方式中,片段长度不采用测序方法来确定。测序、定位和相关分析方法如本文所述或本领域已知(如美国专利申请公开US2009/0029377,通过引用纳入)。下文描述此类方法的某些方面。
在一些实施方式中,片段长度采用测序方法来确定。在一些实施方式中,片段长度采用双末端法测序平台来确定。所述平台涉及对核酸片段的双末端的测序。一般而言,可将对应于所述片段的双末端的序列映射至参照基因组(例如,参照人类基因组)。在某些实施方式中,两端均以单独对于各片段末端而言,足以映射至参照基因组的读数长度测序。双末端序列读数长度的示例如下所示。在某些实施方式中,序列读数的全部或部分能够无错配地映射至参照基因组。在一些实施方式中,各读数独立地映射。在一些实施方式中,来自两个序列读数(即,来自各端)的信息被算在映射过程内。例如,可通过计算分配至各个映射的双末端读数的基因组同等物之间的差异来确定片段的长度。
在一些实施方式中,片段长度可采用测序法来确定,由此获得该片段的完整或基本完整的核苷酸序列。所述测序法包括产生相对长的读数长度的平台(例如,罗氏454、离子激流(Ion Torrent),单分子(太平洋生物科学公司(Pacific Biosciences)),实时SMRT技术等)。
在一些实施方式中,在测序之前或期间富集和/或扩增样品中的一些或所有核酸(例如非-特异性,例如通过基于PCR的方法)。在某些实施方式中,在测序之前或期间富集和/或扩增样品中的特定核酸部份或子集。在一些实施方式中,对预选核酸集合的部分或子集进行随机测序。在一些实施方式中,在测序之前或期间不富集和/或扩增样品中的核酸。
本文所用的“读数”(即“一个读数”、“序列读数”)是由本文所述或本领域已知的任意测序方法生成的短核苷酸序列。读数能从核酸片段的一个末端生成("单末端读数"),而有时从核酸片段的两个末端生成(例如双末端读数、双末端读数)。
序列读数的长度通常与具体测序技术相关。例如高通量方法提供了大小能由数十到数百碱基对(bp)变化的序列读数。例如纳米孔测序提供大小能由数十到数百到数千碱基对变化的序列读数。在一些实施方式中,序列读数是长度约15bp–约900bp长的算术均值、中位数、平均或绝对长度。在某些实施方式中,所述序列读数是长度约1000bp或更长的算术均值、中位数、平均或绝对长度。
在一些实施方式中,有时,单末端读数的标称、平均、算术平均或绝对长度是约1个核苷酸-约500个连续核苷酸、约15个连续核苷酸-约50个连续核苷酸、约30个连续核苷酸-约40个连续核苷酸,而有时是约35个连续核苷酸或约36个连续核苷酸。在某些实施方式中,单末端读数的标称、平均、算术均值或绝对长度是约20-约30个碱基、或约24-约28个碱基。在某些实施方式中,单末端读数的标称、平均、算术平均或绝对长度是约1、2、3、4、5、6、7、8、9、10、11、12、13,14、15、16、17、18、19、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48或49个碱基的长度。
在某些实施方式中,双末端读数的标称、平均、算术平均或绝对长度有时是约10个连续核苷酸-约25个连续核苷酸(如约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸长),约15个连续核苷酸-约20个连续核苷酸,以及有时是约17个连续核苷酸、约18个连续核苷酸、约20个连续核苷酸、约25个连续核苷酸、约36个连续核苷酸或约45个连续核苷酸。
读数通常是生理核酸中核苷酸序列的表示。例如,读数中用ATGC描述序列,生理核酸中“A”表示腺嘌呤核苷酸、“T”表示胸腺嘧啶核苷酸、“G”表示鸟嘌呤核苷酸、“C”表示胞嘧啶核苷酸。获自妊娠女性血液的序列读数可为胎儿和母本核酸混合物的读数。相对较短读数的混合可通过本文所述方法变换为妊娠女性和/或胎儿中基因组核酸的表示。相对较短读数的混合可变换为表示例如拷贝数变异(例如母本和/或胎儿拷贝数变异)、遗传变异或非整倍性。母本和胎儿核酸的混合物的读数可变换为表示包含母本和胎儿染色体之一或二者的特征的复合染色体或其区段。在某些实施方式中,从对象样品“获得”核酸序列读数,和/或从一个或多个参照个体的生物样品“获得”核酸序列读数能直接涉及测序核酸以获得序列信息。在一些实施方式中,“获得”可涉及接收从其他核酸直接获得的序列信息。
在一些实施方式中,对基因组部分测序,其有时以测定的核苷酸序列覆盖基因组的量来表述(如小于1"倍"覆盖率)。当用约1倍覆盖率对基因组测序时,读数表示基因组的约100%核苷酸序列。也能用冗余度对基因组测序,其中所述基因组的给定区域能通过两次或更多次读数或者重叠读数来覆盖(如大于1"倍"覆盖率)。在一些实施方式中,用约0.1倍–约100倍覆盖率、约0.2倍-20倍覆盖率或者约0.2倍-约1倍覆盖率(如约0.02-、0.03-、0.04-、0.05-、0.06-、0.07-、0.08、0.09-、0.1-、0.2-、0.3-、0.4-、0.5-、0.6-、0.7-、0.8-、0.9-、1-、2-、3-、4-、5-、6-、7-、8-、9-、10-、15-、20-、30-、40-、50-、60-、70-、80-、90-倍覆盖率)对基因组测序。
在一些实施方式中,基因组覆盖率或序列覆盖率与总体序列读数计数成比例。例如,产生和/或分析较大量的序列读数计数的试验通常与较高水平的序列覆盖率相关联。产生和/或分析较少序列读数计数的试验通常与较低水平的序列覆盖率相关联。在一些实施方式中,可降低序列覆盖率和/或序列读数计数,而不显著降低本文所述的方法的准确性(例如,灵敏度和/或特异度)。准确性的显著降低可以是相较于未使用减少的序列读数计数的方法而言,准确性降低约1%-约20%。例如,准确性的显著降低可以是降低约2%、3%、4%、5%、6%、7%、8%、9%、10%、15%或更多。在一些实施方式中,序列覆盖率和/或序列读数计数减少约50%或更多。例如,序列覆盖率和/或序列读数计数可减少约55%、60%、65%、70%、75%、80%、85%、90%、95%或更多。在一些实施方式中,序列覆盖率和/或序列读数计数减少约60%-约85%。例如,序列覆盖率和/或序列读数计数可减少约61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%或84%。在一些实施方式中,序列覆盖率和/或序列读数计数可通过移除某些序列读数而减少。在一些示例中,移除来自比具体长度长的片段(例如,比约160个碱基长的片段)的序列读数。
在一些实施方式中,选择读数的子集用于分析,而有时,将读数的某些部分从分析移除。在某些情况中,选择读数的子集能够富集核酸(例如,胎儿核酸)的种类。来自胎儿核酸的读数的富集,例如,通常会提高本文所述的方法(例如,胎儿异倍性检测)的准确性。然而,选择和移除来自分析的读数通常会使本文所述的方法的准确性降低(例如,归因于差异的增加)。因此,不受理论限制,通常而言,在包括选择和/或移除读数(例如,来自具体尺寸范围中的片段)的方法中,在与胎儿读数富集相关联的准确性提高和与减少的读数量相关联的准确性降低之间需要折中。在一些实施方式中,方法包括选择对来自胎儿核酸的读数进行富集的读数的子集,而不显著地降低所述方法的准确性。不论该明显的折中,已确定,如本文所述,采用核苷酸序列读数(例如,来自相对较短片段的读数)的子集能够提高或维持胎儿遗传分析的准确性。例如,在某些实施方式中,可弃去约80%或更多的核苷酸序列读数,并将灵敏度和特异度的值保持在与不弃去所述核苷酸序列读数的相当的方法相似的值。
在某些实施方式中,在测序之前选择核酸片段的子集。在某些实施方式中,可使用基于杂交的技术(例如,使用寡核苷酸阵列)对来自某些染色体(例如性染色体和/或不涉及非整倍性测试的、可能的非整倍性的染色体和其它染色体)的核酸序列进行第一选择。在一些实施方式中,核酸可按大小分离(如通过凝胶电泳、大小排阻色谱或通过基于微流体的方法),而在某些示例中,胎儿核酸可通过选择具有较低分子量(例如少于300个碱基对、少于200个碱基对、少于150个碱基对、少于100个碱基对)的核酸来富集。在一些实施方式中,胎儿核酸可通过抑制母本背景核酸(例如通过添加甲醛)来富集。在一些实施方式中,对预选核酸片段的组的部分或子集进行随机测序。在一些实施方式中,在测序前扩增所述核酸。在一些实施方式中,在测序之前扩增核酸的部分或子集。
在一些实施方式中,对来自一个个体的一种核酸样品测序。在某些实施方式中,对两个或更多样品的每个的核酸进行测序,其中样品来自一个个体或来自不同个体。在某些实施方式中,收集来自两个或更多个生物样品的核酸样品(其中各生物样品来自一个个体或两个或更多个个体),并对该集合测序。在后面的实施方式中,常通过一个或多个独特鉴定物或鉴定标签来鉴定来自各生物样品的核酸样品。
在一些实施方式中,测序方法采用鉴定物,其允许测序过程中的多重序列反应。独特鉴定物的数量越多,检测的样品和/或染色体的数量就越多,例如,可在测序过程多重进行。测序过程可使用任何合适的独特鉴定物数量(例如4、8、12、24、48、96或更多)来进行。
测序过程有时使用固相,有时固相包括流动池,其上可接合来自库的核酸且试剂可流动并与所接合的核酸接触。流动池有时包括流动池通道,并且使用鉴定物可便于分析各通道中的样品数量。流动池通常是能被构建以保留和/或可供试剂溶液有序通过结合分析物的固体支持物。流动池通常是平面形状,光学透明,通常在毫米或亚毫米级,并且常具备通道或通路,在所述通道或通路中发生分析物/试剂的相互作用。在一些实施方式中,能在给定流动池通道中分析的样品数目常取决于库制备和/或探针设计中使用的独特鉴定物的数量。单流动池通道。多重使用12种鉴定物,例如可允许在8个通道流动池中同时分析96个样品(如等于96孔微孔板中的孔数)。类似地,多重使用48种鉴定物,例如可允许在8个通道流动池中同时分析384个样品(如等于384孔微孔板中的孔数)。市售可得的多重测序试剂盒的非限制性示例包括亿明达的多重样品制备寡核苷酸试剂盒和多重测序引物和PhiX对照试剂盒(分别例如亿明达的目录号PE-400-1001和PE-400-1002)。
可使用测序核酸的任何合适的方法,其非限制性示例包括Maxim和Gilbert,链终止方法、合成测序、连接测序、质谱测序、基于显微镜的技术等或其组合。在一些实施方式中,第一代测序技术例如桑格测序方法包括自动桑格测序方法(包括微流体桑格测序)可用于本发明方法。在一些实施方式中,本文也使用核酸成像技术在内的其它测序技术(如透射电子显微镜(TEM)和原子力显微镜(AFM))。在一些实施方式中,使用高通量测序方法。高通量测序方法通常涉及有时在流动池中以大规模平行方式测序的克隆扩增DNA模板或单个DNA分子。下一代(例如第二和第三代)测序技术(能以大量平行方式测序DNA)可用于本文所述方法并且本文统称为“大量平行测序”(MPS)。在一些实施方式中,MPS测序方法采用靶向方法,其中特异染色体、基因或感兴趣的区域是序列。在某些实施方式中,使用非-靶向方法,其中样品中大多数或所有核酸经测序,扩增和/或随机捕获。
在一些实施方式中,使用靶向富集、扩增和/或测序法。靶向方法通常通过序列特异性寡核苷酸分离、选择和/或富集样品中的核酸子集用于进一步加工。在一些实施方式中,采用序列特异性寡核苷酸的库以靶向(例如杂交)样品中的一个或多个核酸组。序列特异性寡核苷酸和/或引物通常就一种或多种感兴趣的染色体、基因、外显子、内含子和/或调控区域中存在的具体序列(例如独特核酸序列)具备选择性。任何合适的方法或方法组合可用于富集、扩增和/或测序一种或多种靶核酸子集。在一些实施方式中,使用一种或多种序列特异性锚通过捕获至固相(例如流动池、珠)分离和/或富集靶序列。在一些实施方式中,通过基于聚合酶方法(例如基于PCR-方法,通过任何合适的基于聚合酶的延伸)使用序列特异性引物和/或引物组富集和/或扩增靶序列。序列特异性锚通常可用作序列特异性引物。
MPS测序有时使用通过合成和某些成像方法的测序。本文所述方法中可以使用的核酸测序技术是合成法测序和基于可逆终止子的测序(如亿明达公司(Illumina)的基因组分析仪(基因组分析仪)和基因组分析仪II(基因组分析仪II);HISEQ 2000;HISEQ 2500(亿明达,加利福尼亚州圣迭戈))。采用这种技术能对数百万核酸(如DNA)片段平行测序。在这种测序技术的一个实施例中,使用包含具备8个单独通道的光学透明载玻片的流动池,所述流动池表面结合寡核苷酸锚(如衔接子引物)。流动池通常是能被构建以保留和/或可供试剂溶液有序通过结合分析物的固体支持物。流动池通常是平面形状,光学透明,通常在毫米或亚毫米级,并且常具备通道或通路,在所述通道或通路中发生分析物/试剂的相互作用。
在一些实施方式中,合成测序包括以模板引导的方式重复添加(例如通过共价添加)核苷酸至引物或预先存在的核酸链。检测各重复添加的核苷酸并重复所述过程多次直到获得核酸链的序列。所获序列长度部分取决于进行的添加和检测步骤的数量。在一些合成测序的实施方式中,加入一种、两种、三种或更多相同类型的核苷酸(例如A,G,C或T)并在添加核苷酸轮中进行检测。核苷酸可通过任何合适的方法添加(例如酶或化学)。例如,在一些实施方式中,聚合酶或连接酶以模板引导的方式添加核苷酸至引物或预先存在的核酸链。在合成测序的一些实施方式中,使用不同类型核苷酸、核苷酸类似物和/或鉴定物。在一些实施方式中,使用可逆终止子和/或可移除(例如可剪切)鉴定物。在一些实施方式中,使用荧光标记的核苷酸和/或核苷酸类似物。在某些实施方式中,合成测序包括切割(例如切割和移除鉴定物)和/或清洗步骤。在一些实施方式中,通过本文所述或本领域已知合适的方法检测添加一种或多种核苷酸,其非限制性示例包括任何合适的成像装置、合适的照相机、数码照相机、基于CCD(电荷藕合器件)的成像装置(例如CCD照相机)、基于CMOS(互补金属氧化物半导体)的成像装置(例如CMOS照相机)、光二极管(例如光电倍增管)、电子显微镜、场效应晶体管(例如DNA场效应晶体管)、ISFET离子感应器(例如CHEMFET感应器)等或其组合。其他可以用于进行本文所述方法的测序方法包括数字PCR和杂交法测序。
其他可以用于进行本文所述方法的测序方法包括数字PCR和杂交法测序。数字聚合酶链式反应(数字PCR或dPCR)能用于直接鉴定和定量样品中的核酸。在一些实施方式中,可在乳液中进行数字PCR。例如,个体核酸在例如微流体设备中分离且各核酸通过PCR单独扩增。分离核酸使得每个孔中不超过一个核酸。在一些实施方式中,能使用不同探针区分多种等位基因(例如胎儿等位基因和母本等位基因)。等位基因可经计数以确定拷贝数。
在一些实施方式中,可使用杂交测序。所述方法涉及使多种多核苷酸序列接触多种多核苷酸探针,其中所述多种多核苷酸探针各自可选地连接到底物。在一些实施方式中,所述底物可以是带有已知核苷酸序列阵列的平面。可使用与阵列杂交的模式确定样品中存在的多核苷酸序列。在一些实施方式中,各探针连接到珠(如磁珠等)上。与所述珠的杂交能被鉴定并用于鉴定样品中的多种多核苷酸序列。
在一些实施方式中,纳米孔测序能用在本文所述的方法中。纳米孔测序是单分子测序技术,由此当单核酸分子(如DNA)通过纳米孔时被直接测序。
进行本文所述方法非人合适的MPS方法、系统或技术平台可用于获取核酸测序读数。MPS平台的非限制性示例包括Illumina/Solex/HiSeq(例如Illumina的基因组分析仪;基因组分析仪II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIO和/或SMRT、Helicos True单个分子测序、基于粒子流(Ion Torrent)和离子半导体(Ion semiconductor)的测序(例如生命技术公司所开发)、基于WildFire、5500、5500xl W和/或5500xl W遗传分析仪的技术(例如Life Technologies公司所开发和销售的、美国专利申请US20130012399);聚合酶克隆测序、焦磷酸测序、大量平行签名测序(MPSS)、RNA聚合酶(RNAP)测序、LaserGen系统和方法、基于纳米孔的平台、化学敏感的场效应晶体管(CHEMFET)阵列、基于电子显微镜的测序(例如ZS Genetics公司、Halcyon Molecular公司所开发)、纳米球测序。
在一些实施方式中,进行染色体特异性测序。在一些实施方式中,染色体-特异性测序采用DANSR(所选区域的数码分析)进行。所选区域的数码分析能同时定量数百个位点,通过两个位置特异性寡核苷酸的cfDNA-依赖性连锁,利用干扰‘桥式’寡核苷酸以形成PCR模板。在一些实施方式中,染色体-特异性测序通过生成富集染色体-特异性序列的库来进行。在一些实施方式中,仅获得所选染色体组的序列读数。在一些实施方式中,仅获得染色体21、18和13的序列读数。
映射读数
序列读数可经映射且映射至特定核酸区域(例如染色体、部份或其区段)的读数的数量称为计数。可使用任何合适的映射方法(例如过程、算法、程序、软件、模块等或其组合)。下文描述映射方法的某些方面。
映射核苷酸序列读数(即物理基因组位点未知的片段的序列信息)能以多种方式进行,其通常包括使获得的测序读数与参照基因组中的匹配序列进行比对。所述比对中,序列读数通常与参照序列进行比对,经比对的那些称为经"映射"、"映射的序列读数"或“映射的读数”。在某些实施方式中,映射的序列读数称为“击中(hit)”或“计数”。一些实施方式中,根据各种参数将映射的序列读数集合在一起并分配至具体部份,如下详述。
本文所用术语“比对”、“对齐”指可鉴定为匹配(例如100%相同性)或部分匹配的两个或更多核酸序列。比对可人工或通过计算机(例如软件、程序、模块或算法)完成,其非限制性示例包括核苷酸数据有效局部比对(ELAND)计算机程序,其为Illumina基因组分析流程的部分。序列读数的比对可为100%序列匹配。在一些情况中,比对小于100%序列匹配(即,非完美匹配、部分匹配、部分比对)。在一些实施方式中,比对为约99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%或75%匹配。在一些实施方式中,比对包括错配。在一些实施方式中,比对包括1,2,3,4或5个错配。两个或更多序列可使用任一链比对。在某些实施方式中,核酸序列与另一核酸序列的反向互补链比对。
各种计算机方法可用于将各序列读数映射至部份。可用于比对序列的计算机算法的非限制性示例包括但不限于BLAST,BLITZ,FASTA,BOWTIE 1,BOWTIE 2,ELAND,MAQ,探针MATCH,SOAP或SEQMAP或其变体或其组合。在一些实施方式中,序列读数可与参照基因组中的序列比对。在一些实施方式中,序列读数可从本领域已知核酸数据库获得和/或与其中的序列比对,所述数据库包括例如GenBank,dbEST,dbSTS,EMBL(欧洲分子生物实验室)和DDBJ(日本DNA数据库)。BLAST或相似工具可用于针对序列数据库搜索相同序列。然后,例如,搜索命中可用于将相同的序列分选入合适的部份(如下所述)。
在一些实施方式中,读数可唯一或非唯一映射至参照基因组中的部份。若读数与参照基因组中的单一序列比对,则其称为“唯一映射”。若读数与参照基因组中的两个或多个序列比对,则其称为“非唯一映射”。在一些实施方式中,非唯一映射的读数从进一步分析(例如定量)中去除。在某些实施方式中,某些小程度的错配(0-1)可说明在所述参照基因组和经映射的来自个体样品的读数之间可能存在单核酸多态性。在一些实施方式中,没有错配可使读数映射到参照序列上。
本文所用术语“参照基因组”可指任何生物体或病毒的任何部分或全部都具体已知的、测序的或表征的基因组,其可用于参照鉴定对象序列。例如,用作人对象以及许多其他生物体的参照基因组可获自国家生物技术信息中心,网址www.ncbi.nlm.nih.gov。“基因组”指核酸序列中表达的生物体或病毒的完全遗传信息。本文所用参照序列或参照基因组经常是来自个体或多个个体的组装或部分组装的基因组序列。在一些实施方式中,参照基因组是来自一个或多个人个体的组装或部分组装的基因组序列。在一些实施方式中,参照基因组包括分配至染色体的序列。
在某些实施方式中,当样品核酸来自妊娠女性时,有时参照序列不来自胎儿、胎儿母亲或胎儿父亲,从而在本文中被称为“外部参照”。在一些实施方式中可制备和使用母本参照。基于外部参照制备来自妊娠女性的参照时("母本参照序列"),基本不含胎儿DNA的来自妊娠女性的DNA的读数通常映射至外部参照序列并组装。在某些实施方式中,所述外部参照来自与所述妊娠女性基本属同一种族的个体的DNA。母本参照序列可以不完全覆盖母本基因组DNA(如可以覆盖母本基因组DNA的约50%、60%、70%、80%、90%或更多),并且所述母本参照可以不与母本基因组DNA序列完美匹配(如所述母本参照序列可以包含多个错配)。
在某些实施方式中,可映射能力针对基因组区域(例如部份、基因组部份、部份)进行评估。可映射能力是核苷酸序列读数清楚地比对至参照基因组的部份的能力,通常具有多至特定数量的错配,包括例如,0、1,2或更多错配。对于给定基因组区域而言,预期的可映射能力可用预定的读数长度的滑动窗口法计算并平均为所得的读数水平可映射能力值。包括独特核苷酸序列的伸展的基因组区域有时具有高可映射能力值。
部份
在一些实施方式中,映射的序列读数(即序列标签)根据各种参数一起分组并分配至特定部份(例如参照基因组的部份)。通常,个体映射的序列读数可用于鉴定样品中存在的部份(例如部份的存在、缺失或含量)。在一些实施方式中,部份的含量是样品中大序列(例如染色体)含量的指标。本文术语“部份”还可指“基因组区段”、“箱”、“区域”、“分割区”,“参照基因组的部份”,“染色体的部份”或"基因组部份"。在一些实施方式中,部份是整个染色体、染色体区段、参照基因组区段、跨多重染色体的区段、多重染色体区段和/或其组合。在一些实施方式中,部份基于特定参数(例如,指标)进行预定义。在一些实施方式中,部份基于基因组的划分任意或非任意定义(例如根据大小、GC含量、连续区域、任意定义大小的连续区域等的分区)。在一些实施方式中,部分选自不连续基因组箱、具有预定长度的连续序列的基因组箱、可变尺寸的箱、平滑的覆盖率图的基于点的视图,和/或其组合。
在一些实施方式中,部份基于一种或多种参数定义,所述参数包括例如序列的长度或具体特征。可使用本领域已知或本文所述的任何合适的标准对部份进行选择、筛选和/或从考虑中去除。在一些实施方式中,部份基于基因组序列的具体长度。在一些实施方式中,方法可包括分析针对多个部份的多重映射的序列读数。部份可具有大致相同的长度或部份可具有不同长度。在一些实施方式中,部份长度大约相同。在一些实施方式中,不同长度的部份经调整或加权。在一些实施方式中,部份是约10个千碱基(kb)-约20kb、约10kb-约100kb、约20kb-约80kb、约30kb-约70kb、约40kb-约60kb。在一些实施方式中,部份的长度是约10kb、20kb、30kb、40kb、50kb或约60kb。部份不限于连续运行的序列。因此,部份可由连续和/或非-连续序列组成。部份不限于单一染色体。在一些实施方式中,部份包括一条染色体的所有或部份或者两个或更多染色体的所有或部份。在一些实施方式中,部份可跨越一个、2个或更多个完整染色体。此外,部份可跨越多重染色体的连接或不连接区域。
在一些实施方式中,部份可为感兴趣染色体中的特定染色体区段,感兴趣染色体例如评估遗传变异(例如染色体13、18和/或21或性染色体的非整倍性)的染色体。部份还可为致病基因组(例如细菌、真菌或病毒)或其片段。部份可为基因、基因片段、调控序列、内含子、外显子等。
在一些实施方式中,基于具体区域的信息内容将基因组(例如人基因组)划分为部份。在一些实施方式中,划分基因组可去除基因组中的相似区域(例如相同或同源区域或序列)和仅保留独特区域。划分期间去除的区域可在单一染色体内或可跨越多重染色体。在一些实施方式中,划分的基因组经向下修整并优化以用于快速比对,通常允许关注独特可鉴定序列。
在一些实施方式中,划分可降相似区域的权重。后续详述降部份权重的过程。
在一些实施方式中,可基于分类的上下文(context)中产生的信息将基因组划分成超出染色体的区域。例如,信息内容可用p值概况定量,测量已证实的正常和异常对象(分别例如整倍体和三倍体对象)的具体基因组位置的显著性。在一些实施方式中,可基于任何其他标准将基因组划分成超出染色体的区域,所述标准例如,比对标签时的速度/便利度、GC含量(例如高或低的GC含量)、GC含量的均匀度、序列含量的其他测量(例如个体核苷酸分数、嘧啶或嘌呤分数、天然与非天然核酸的分数、甲基化核苷酸的分数和CpG含量)、甲基化状态、双重解链温度、测序或PCR的依从度、分配给参照基因组的个体部份的不确定值和/或具体特征的靶向搜索。
染色体的"区段"通常是染色体的部份、且通常是不同于部份的染色体部份。染色体区段有时与部份在染色体不同区域中,有时不与部份共有多核苷酸,和有时包括部份中的多核苷酸。染色体区段通常比部份包括更多核苷酸(例如区段有时包括部份),和有时染色体区段比部份包括更少核苷酸(例如区段有时在部份内)。
部份的过滤和/或选择
有时,基于本文所述或本领域已知的一个或多个特征、参数、标准和/或方法来处理(例如,标准化、过滤、选择等,或其组合)部份。部份可通过任何合适的方法并基于任何合适的参数来处理。可用于过滤和/或选择部份的特征和/或参数的非限制性示例包括计数、覆盖率、可映射性、可变性、不确定性水平、鸟嘌呤-胞嘧啶(GC)含量、CCF片段长度和/或读数长度(例如,片段长度比(FLR)、胎儿比率统计学(FRS))、DNA酶I-灵敏度、甲基化状态、乙酰化、组蛋白分布、染色质结构等或其组合。部份可基于采用与所列的或本文所述的特征或参数相关的任何合适的特征或参数来过滤和/或选择。部份可基于对某一部份具有特异性的特征或参数(例如,针对多个样品的单一部份进行确定)和/或对某一样品具有特异性的特征或参数(例如,针对某一样品中的多个部份进行确定)来过滤和/或选择。在一些实施方式中,部份基于相对较低的可映射性、相对较高的可变性、高水平的不确定性、相对较长的CCF片段长度(例如,低FRS、低FLR)、相对较大的重复序列分数、高GC含量、低GC含量、低计数、零计数、高计数等,或其组合,来过滤和/或移除。在一些实施方式中,部份(例如,多个部份的子集)基于合适的水平的可映射性、可变性、不确定性的水平、重复序列分数、计数、GC含量等,或其组合,来选择。在一些实施方式中,部份(例如,多个部份的子集)基于相对较短的CCF片段长度(例如,高FRS、高FLR)来选择。映射至部份的计数和/或读数有时在过滤或选择部份(例如,多个部份的子集)之前和/或之后被处理(例如,标准化)。在一些实施方式中,映射至部份的计数和/或读数在过滤或选择部份(例如,多个部份的子集)之前和/或之后不被处理。
来自任何合适数量的样品的序列读数可用于鉴定符合本文所述的一个或多个标准、参数和/或特征的多个部份的子集。有时采用来自源于多名妊娠女性的一组样品的序列读数。可处理来自多名妊娠女性中各位的一个或多个样品(例如,来自各妊娠女性的1-约20个样品(例如,约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或19个样品)),并且可选用合适数量的妊娠女性(例如,约2-约10,000名妊娠女性(例如,约10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000名妊娠女性))。在一些实施方式中,将来自源于相同妊娠女性的相同测试样品的序列读数映射至参照基因组中的部份,并用于产生多个部份的子集。
已观察到,获自妊娠女性的循环无细胞核酸片段(CCF片段)一般包含来自胎儿细胞的核酸片段(即,胎儿片段)和来自母本细胞的核酸片段(即,母本片段)。来自胎儿的源自CCF片段的序列读数在本文中称作“胎儿读数”。来自怀有胎儿的妊娠女性(例如,母亲)的基因组的源自CCF片段的序列读数在本文中称作“母本读数”。从中获得胎儿读数的CCF片段在本文中称作胎儿模板,而从中获得母本读数的CCF片段在本文中称作母本模板。
也已观察到在CCF片段中,胎儿片段通常相对较短(例如,长度为约200个碱基对或更短),并且,母本片段包括此类相对较短的片段和相对较长的片段。可选择和/或鉴定映射有来自相对较短片段的显著量的读数的多个部份的子集。不受理论限制,预期映射至所述部份的读数是富含胎儿读数的,其能够提高胎儿遗传分析(例如,检测是否存在胎儿遗传变异(例如,胎儿染色体异倍性(例如,T21、T18和/或T13)))的准确性。
然而,当胎儿遗传分析是基于读数的子集时,通常不考虑显著数量的读数。对于胎儿遗传分析而言,对映射至选定的多个部份的子集的读数的子集的选择,以及,对非选定部份的读数的移除,可能会降低所述遗传分析的准确性,这归因于,例如,增加的变异。在一些实施方式中,对于胎儿遗传分析,在考虑选择多个部份的子集时,移除获自对象或样品映射的约30%-约70%(例如,约35%、40%、45%、50%、55%、60%、或65%)的测序读数。在某些实施方式中,对于胎儿遗传分析,采用映射至多个部份的子集的获自对象或样品的约30%-约70%(例如,约35%、40%、45%、50%、55%、60%、或65%)的测序读数。
因此,不受理论限制,对于胎儿遗传分析而言,在胎儿读数富集相关的准确性提高与读数数据的量的减少(例如,部份和/或读数的移除)相关的准确性的降低之间通常需要权衡。在一些实施方式中,方法包括:选择富含来自胎儿核酸的读数(例如,胎儿读数)的多个部份的子集,其能够提高,或不显著降低,胎儿遗传分析的准确性。尽管存在这一明显的权衡,如本文所述,已经确定采用映射有来自相对较短片段的显著量的读数的多个部份的子集能够提高胎儿遗传分析的准确性。
在一些实施方式中,根据来自CCF的片段的读数来选择多个部份的子集,其中所述读数所映射到的部份的长度短于选定片段长度。有时,通过滤除不符合该标准的部份来选择多个部份的子集。在某些实施方式中,根据源自映射至部份的相对较短CCF片段(例如,约200个碱基对或更短)的读数的量来选择多个部份的子集。可采用任何合适的方法来鉴定和/或选择这样的部份:所述部份映射有来自CCF片段的显著量的读数,所述CCF片段的长度短于选定片段长度(例如,第一选定片段长度)。长度短于选定片段长度的CCF片段通常为相对较短的CCF片段,有时所选片段长度为约200碱基对或更少(例如长约190、180、170、160、150、140、130、120、110、100、90或80个碱基的CCF片段)。可通过如下方式确定(例如,推知或推导)CCF片段的长度,将源自所述片段的两个或更多个读数(例如,双末端读数)映射至参照基因组。对于源自CCF片段的双末端读数而言,例如,可使读数映射至参照基因组,能够确定映射的读数之间的基因组序列的长度,并且所述两个读数长度和所述读数之间的基因组序列的长度总计等于所述CCF片段的长度。有时,CCF片段模板的长度由源自所述片段的读数(例如,单末端读数)的长度直接确定。
在一些实施方式中,根据来自长度短于第一选定片段长度的CCF片段的映射的读数的量是否大于来自长度短于第二选定片段长度的CCF片段的映射的读数的量,来选择和/或鉴定映射有来自长度短于选定片段长度的CCF片段的显著量的读数的多个部份的子集。在某些实施方式中,根据来自长度短于某一部份的第一选定片段长度的CCF片段的映射的读数的量是否大于来自长度短于经分析的部份的第二选定片段长度的CCF片段的映射的读数的平均、算术平均或中值量,来选择和/或鉴定映射有来自长度短于选定片段长度的CCF片段的显著量的读数的多个部份的子集。在一些实施方式中,基于对各部份所确定的片段长度比(FLR)来选择和/或鉴定映射有来自长度短于选定片段长度的CCF片段的显著量的读数的部份的子集。“片段长度比”在本文中还称作胎儿比统计(FRS)。
在某些实施方式中,根据映射至长度短于选定片段长度的CCF片段的部份的读数的量,部分地,确定FLR。在一些实施方式中,FLR值通常是X与Y的比率,其中X是源自长度短于第一选定片段长度的CCF片段的读数的量,而Y是源自长度短于第二选定片段长度的CCF片段的读数的量。第一选定片段长度的选择通常独立于第二选定片段长度,反之亦然,而第二选定片段长度通常大于第一选定片段长度。第一选定片段长度可以是约200个碱基或更短~约30个碱基或更短。在一些实施方式中,第一选定片段长度是约200、190、180、170、160、155、150、145、140、135、130、125、120、115、110、105、100、95、90、85、80、75、70、65、60、55或50个碱基。在一些实施方式中,第一选定片段长度是约170-约130个碱基,而有时,是约160-约140个碱基。在一些实施方式中,第二选定片段长度是约2000个碱基-约200个碱基。在某些实施方式中,第二选定片段长度是约1000、950、800、850、800、750、700、650、600、550、500、450、400、350、300、250个碱基。在一些实施方式中,第一选定片段长度是约140-约160个碱基(例如,约150个碱基),而第二选定片段长度是约500-约700个碱基(例如,约600个碱基)。在一些实施方式中,第一选定片段长度是约150个碱基,而第二选定片段长度是约600个碱基。
在一些实施方式中,FLR是多个FLR值的平均、算术平均或中值。例如,有时,对于给定部份的FLR是:对于(i)两个或更多个测试样品、(ii)两个或更多个对象,或(iii)两个或更多个测试样品和两个或更多个对象的平均、算术平均或中值FLR值。在某些实施方式中,平均、算术平均或中值FLR源自基因组、染色体或其区段的两个或更多个部份的FLR值。在一些实施方式中,平均、算术平均或中值FLR与不确定性相关联(例如,标准偏差,绝对中位差)。
在一些实施方式中,根据一个或多个FLR值(例如,一个或多个FLR值的比较)来选择和/或鉴定多个部份的子集。在某些实施方式中,根据FLR和阈值(例如,FLR与阈值的比较)来选择和/或鉴定多个部份的子集。在某些实施方式中,将源自给定部份的平均、算术平均或中值FLR与源自基因组、染色体或其区段的两个或更多个部份的平均、算术平均或中值FLR做比较。例如,有时,将给定部份的平均FLR与给定部份的中值FLR做比较。在某些实施方式中,根据对某一部份确定的平均、算术平均或中值FLR和对多个部份(例如,来自基因组、染色体或其区段)的集合确定的平均、算术平均或中值FLR来选择和/或鉴定部份。在一些实施方式中,某一部份的平均FLR低于根据中值FLR确定的某个阈值,则移除且不考虑该部份(例如,在胎儿遗传分析中)。在一些实施方式中,某一部份的平均、算术平均或中值FLR高于根据基因组、染色体或其区段的平均、算术平均或中值FLR确定的某一阈值,则该部份被选择和/或添加至多个部份的子集以纳入考虑(例如,在确定是否存在遗传变异时)。在一些实施方式中,某一部份的FLR等于或大于约0.15-约0.30(例如,约0.16、0.17、0.18、0.19、0.20、0.21、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29),则该部份被选择纳入考虑(例如,添加至或纳入多个部份的子集用于胎儿遗传分析)。在一些实施方式中,某一部份的FLR等于或低于约0.20-约0.10(例如,约0.19、0.18、0.17、0.16、0.15、0.14、0.13、0.12、0.11),则移除该部份而不纳入考虑(例如,滤除)。
有时,根据来自长度短于选定片段长度的CCF片段的显著量的读数是否映射至部份(例如,根据FLR)来部分地选择和/或鉴定子集中的部份。在一些实施方式中,可根据一个或多个特点或标准,以及来自短于选定片段长度的片段长度的映射的序列读数的量来选择和/或鉴定子集中的部份。在一些实施方式中,根据来自长度短于选定片段长度的CCF片段的显著量的读数是否映射至部份(例如,根据FLR)以及一个或多个其它特征来选择和/或鉴定多个部份的子集。其它特征的非限制性示例包括基因组、染色体或其区段和/或所述部份中的一个或多个的外显子数量和/或GC含量。因此,有时,对于根据来自长度短于选定片段长度的CCF片段的显著量的读数是否映射至子集的部份(例如,根据FLR)而选择和/或鉴定的部份进行进一步选择或移除,所述进一步选择或移除根据所述部份的GC含量和/或所述部份中的外显子数量来进行。在一些实施方式中,如果所述某一部份中的GC含量和/或外显子数量不与所述部份的FLR相关,则不选择该部份或不考虑该部份。
在一些实施方式中,多个部份的子集由如下部份组成,基本由如下部份组成,或包含如下部份,所述部份符合本文所述的一个或多个具体标准(例如,特点为FLR等于或大于某个值的部份)。在某些实施方式中,将不符合标准的部份包括在符合该标准的多个部份的子集中,例如,以提高胎儿遗传分析的准确性。在某些实施方式中,在“基本由”根据某一标准(例如,FLR等于或大于某个值)选择的部份“组成”的多个部份的子集中,所述部份的约90%或更多(例如,约91%、91%、93%、94%、95%、96%、97%、98%、99%或更多)符合该标准,并且该部份的约10%或更少(例如,约9%、8%、7%、6%、5%、4%、3%、2%、约1%或更少)不符合该标准。
可通过任何合适的方法来选择和/或滤除部份。在一些实施方式中,根据对数据、图表、曲线和/或制图进行检视来选择部份。在某些实施方式中,通过包含一个或多个微处理器和存储器的系统或装置来选择和/或滤除(例如,部分地)部份。在一些实施方式中,通过其上存储有可执行程序的非暂时性的计算机可读存储介质来选择和/或滤除(例如,部分地)部份,其中,所述程序给微处理器提供指令以进行所述选择和/或滤除。
通过本文所述方法选择的多个部份的子集可用于以不同方式进行的胎儿遗传分析。在某些实施方式中,在采用预选定的本文所述的多个部份的子集的映射法中利用源自样品的读数,并且不采用参照基因组中的全部或大多数部份。映射至所述预选定的多个部份的子集的那些读数通常用于胎儿遗传分析的进一步步骤,并且,不映射至预选定的多个部份的子集的读数通常不被用于胎儿遗传分析的进一步步骤(例如,不映射的读数被移除或滤除)。
在一些实施方式中,将源自样品的序列读数映射至参照基因组的全部或大多数部份,然后选择本文所述的预选定的多个部份的子集。来自选定的多个部份的子集的读数通常被用于胎儿遗传分析的进一步步骤。在后面的实施方式中,来自不被选择的部份的读数通常不被用于胎儿遗传分析的进一步步骤(例如,非选定部份的读数被移除或滤除)。
计数
在一些实施方式中,基于所选特征或变量映射或划分的序列读数可经定量以确定映射至一个或多个部份(例如参照基因组部份)的读数数量。在某些实施方式中,映射至部份的序列读数的定量称为计数(例如一个计数)。通常计数与部份相关联。在某些实施方式中,两个或更多部份(例如部份的组)的计数经过数学处理(例如平均、加和、标准化等或其组合)。在一些实施方式中,计数从映射至(即关联)部份的一些或所有的序列读数确定。在某些实施方式中,从映射的序列读数的预定义子集确定计数。能利用任意合适的特性或变量来定义或选择映射的序列读数的预定义子集。在一些实施方式中,映射的测序读数的预定义子集能包含1–n个序列读数,其中n表示与从测试对象或参照对象样品生成的所有序列读数总和相等的数目。
在某些实施方式中,计数源自通过本领域已知的合适的方法、操作或数学过程处理或加工的序列读数。计数可通过合适的方法、操作或数学过程确定。在某些实施方式中,计数源自与部份关联的序列读数,其中一些或所有序列读数经加权、移除、筛选、标准化、调整、平均(得出均值)、加或减、或其组合的处理。一些实施方式中,计数源自原始序列读数和/或筛选的序列读数。在一些实施方式中,计数值通过数学过程确定。在某些实施方式中,计数值是映射至部份的序列读数的平均、算术均值或加和。通常计数是多个计数的算术均值。在一些实施方式中,计数与不确定值相关。
在一些实施方式中,计数可经处理或变换(例如标准化、组合、加和、筛选、选择、平均(得出均值)等或其组合)。在一些实施方式中,计数可经变换以产生标准化计数。计数可通过本领域已知和/或本文所述方法进行处理(例如标准化)(例如逐份标准化、GC含量的标准化、线性和非线性最小二乘回归、GC LOESS、LOWESS、PERUN、RM、GCRM、cQn和/或其组合)。
计数(例如原始的、筛选的和/或标准化的计数)可处理并标准化为一种或多种水平。水平和概况下文详述。在某些实施方式中,计数处理和/或标准化至参照水平。参照水平在下文阐述。根据水平处理的计数(例如处理计数)可与不确定值关联(例如计算方差、误差、标准偏差、Z-分数、p-值、算术平均绝对偏差等)。在一些实施方式中,不确定值限定了高于和低于某一水平的范围。偏差值可替代不确定值,偏差测量的非限制性示例包括标准偏差、平均绝对偏差、中值绝对偏差、标准分数(例如Z-分数、Z-分数、正常分数、标准化变量)等。
计数通常获自怀有胎儿的妊娠女性的核酸样品。映射至一种或多种部份的核酸序列读数的计数通常是胎儿和胎儿母亲的计数表示(例如妊娠女性对象)。在某些实施方式中,映射至部份的一些计数来自胎儿基因组,且映射至相同部份的一些计数来自母本基因组。
数据处理和标准化
已经计数的经映射的序列读数在本文中被称为原始数据,因为所述数据表示未处理的计数(如原始计数)。在一些实施方式中,数据组中的序列读数数据能经进一步处理(如数学和/或统计学处理)和/或显示以帮助提供结果。在某些实施方式中,数据组(包括较大数据组)可得益于预处理以帮助进一步的分析。数据组的预处理有时涉及除去冗余的和/或无信息的部份或参照基因组的部份(如具有无信息数据的部份或参照基因组的部份、冗余映射读数、具有0中值计数的部份、过高频出现或过低频出现的序列)。不受理论限制,数据处理和/或预处理可以(i)除去噪音噪音数据、(ii)除去无信息数据、(iii)除去冗余数据、(iv)降低较大数据组的复杂性,和/或(v)帮助所述数据从一种形式变换成一种或多种其它形式。当用于数据或数据组时,术语“预处理”和“处理”在本文中被统称为“处理”。在一些实施方式中,处理能使数据更易于被进一步分析,从而能生成结果。在一些实施方式中,一种或多种或所有处理方法(例如标准化方法、部份筛选、映射、确认等或其组合)通过处理器、微处理器、计算机、与存储器联用来进行和/或通过微处理器控制的装置来进行。
本文所用的术语“噪音噪音数据”指(a)分析或作图时在数据点之间有显著差异的数据、(b)有显著标准偏差(例如大于3标准偏差)的数据、(c)有显著的标准误差均值的数据等,及以上组合。由于起始材料(如核酸样品)的数量和/或质量,有时出现噪音噪音数据,并且噪音数据有时作为制备或复制用于生成序列读数的DNA的方法的部份出现。在某些实施方式中,噪音来自使用基于PCR的方法制备时的过高频出现的某些序列。本文所述方法能降低或消除噪音数据的基值,从而降低噪音数据对所提供结果的影响。
本文使用术语“无信息数据”、“参考基因组的无信息部份”和“无信息部份”指所具有的数值与预定的阈值显著不同或落在预定截止值范围外的部份或其导出的数据。本文术语“阈值”指用符合要求的数据组计算的任何数字,作为诊断遗传变异的限制(例如拷贝数变异、非整倍性、染色体异常等)。在某些实施方式中,阈值超出本发明方法所获结果,对象诊断为具有遗传变异(例如21三体)。在一些实施方式中,常通过数学和/或统计学处理序列读数数据(如来自参照和/或对象)计算阈值或值的范围,而在某些实施方式中,经处理以生成阈值或值的范围的序列读数数据是序列读数数据(如来自参照和/或对象)。在一些实施方式中,确定不确定值。不确定值通常是方差或误差的量度且可为变异或误差的任何合适量度。在一些实施方式中,不确定值是标准偏差、标准误差、计算方差、p-值或算术平均绝对偏差(MAD)。在一些实施方式中,可根据实施例4的公式计算不确定值。
任何合适的程序可用于处理本文所述的数据组。适用于处理数据组的方法的非限定性示例包含过滤、标准化、加权、监测峰高、监测峰面积、监测峰边缘、确定面积比率、数据的数学处理、数据的统计学处理、数学算法的应用、采用固定变量的分析、采用优化变量的分析、对数据作图以鉴定模式或趋势以供其它处理等,及以上组合。在一些实施方式中,根据不同特点(如GC含量、冗余定位读数、着丝粒区域、端粒区域等,及其组合)和/或变量(如胎儿性别、母本年龄、母本倍性、胎儿核酸基值百分比等及其组合)处理数据组。在某些实施方式中,处理本文所述的数据组能降低大数据组和/或复杂数据组的复杂性和/或维数。复杂数据组的非限定性示例包括由一个或多个测试对象和不同年龄与种族背景的多种参照对象生成的序列读取数据。在一些实施方式中,数据组能包含各测试对象和/或参照对象的数千到数百万的序列读数。
某些实施方式中,数据处理可在任何数量的步骤中进行。例如,在一些实施方式中,可以仅用单一处理方法调整和/或处理数据,而在某些实施方式中,可以使用1个或更多个、5个或更多个、10个或更多个或者20个或更多个处理步骤(如1个或更多个处理步骤、2个或更多个处理步骤、3个或更多个处理步骤、4个或更多个处理步骤、5个或更多个处理步骤、6个或更多个处理步骤、7个或更多个处理步骤、8个或更多个处理步骤、9个或更多个处理步骤、10个或更多个处理步骤、11个或更多个处理步骤、12个或更多个处理步骤、13个或更多个处理步骤、14个或更多个处理步骤、15个或更多个处理步骤、16个或更多个处理步骤、17个或更多个处理步骤、18个或更多个处理步骤、19个或更多个处理步骤或者20个或更多个处理步骤)处理数据。在一些实施方式中,处理步骤可以是重复两次或更多次(如过滤两次或更多次,标准化两次或更多次)的同一步骤,而在某些实施方式中,处理步骤可以是同时或依次进行的两种或更多种不同的处理步骤(如过滤、标准化;标准化、监测峰高和边缘;过滤、标准化、针对参照标准化、统计学处理以确定p值等)。在一些实施方式中,可使用相同或不同处理步骤的任意合适次数和/或组合来处理序列读数数据以帮助提供结果。在某些实施方式中,通过本文所述的标准加工数据组可降低数据组的复杂性和/或维数。
在一些实施方式中,一个或多个处理步骤能包括一个或多个过滤步骤。本文所用的术语“过滤”指将部份或参照基因组的部份从考虑中除去。能根据任意合适的标准选择需除去的部份或参照基因组的部份,包括但不限于冗余数据(如冗余或重叠映射读数)、无信息数据(如有0中值计数的部份或参照基因组的部份)、含有过高频出现或过低频出现序列的部份或参照基因组的部份、噪音数据等,及以上组合。过滤方法经常涉及从考虑中除去一个或多个参照基因组的部份,并从考虑的参照基因组、染色体或基因组的计数或总计中减去所选需除去的参照基因组的一个或多个部份中的计数。在一些实施方式中,参照基因组的部份能依次被除去(如一次一个以允许评价各个单独部份的去除影响),而在某些实施方式中,标记为需除去的所有部份能同时被除去。在一些实施方式中,由高于或低于某一水平的差异所表征的参照基因组的部份经移除,其有时称为过滤参照基因组的“噪音”部份。在某些实施方式中,过滤过程包括通过预定的多种概况变化从源自部份、染色体、或染色体区段的平均概况水平的数据组中获取数据点,和在某些实施方式中,过滤过程包括通过预定的多种概况差异从源自部份、染色体、或染色体区段的平均概况水平的数据组中移除数据点。在一些实施方式中,过滤过程用于降低用于分析遗传变异存在或缺失的参照基因组中候选部份的数量。降低用于分析遗传变异(例如微缺失、微复制)存在或缺失的参照基因组中候选部份的数量通常降低数据组的复杂度和/或维度,并且有时提高搜索和/或鉴定遗传变异和/或遗传异常的速度两个或更多数量级。
在一些实施方式中,一个或多个处理步骤能包括一个或多个标准化步骤。标准化可通过本文所述或本领域已知的合适方法进行。在某些实施方式中,标准化包括将不同量级的所测数值调整至理论上的共同量级。在某些实施方式中,标准化包括复杂化的数学调整,以在比对中引入调节的数值的概率分布。一些实施方式中,标准化包括将分布与正态分布进行比对。在某些实施方式中,标准化包括数学调整,其允许以消除某些总影响效果(例如误差和异常)的方式针对不同数据组的对应标准化值的比较。在某些实施方式中,标准化包括缩放。标准化有时包括通过预定标量或公式划分一个或多个数据组。标准化方法的非限制性示例包括逐份标准化、通过GC含量的标准化、线性和非线性最小二乘回归、LOESS、GCLOESS、LOWESS(局部加权回归散点平滑法)、PERUN、重复掩蔽(RM)、GC-标准化和重复掩蔽(GCRM)、条件分位数标准化(cQn)和/或其组合。在一些实施方式中,确定存在或缺失遗传变异(例如非整倍性)采用标准化方法(例如逐份标准化、通过GC含量的标准化、线性和非线性最小二乘回归、LOESS、GC LOESS、LOWESS(局部加权回归散点平滑法)、PERUN、重复掩蔽(RM)、GC-标准化和重复掩蔽(GCRM)、cQn、本领域已知的标准化方法和/或其组合)。在一些实施方式中,对计数进行标准化。
例如,LOESS是本领域已知的回归模型,其在基于k-最邻近的元模型中组合多种回归模型。LOESS有时指局部加权的多项式回归。在一些实施方式中,GC LOESS应用LOESS模型至参照基因组的部份的GC组合物和片段计数(例如序列读数、计数)之间的关系。用LOESS通过数据点组描绘平滑曲线有时称为LOESS曲线,特别是通过加权的二次最小二乘回归相对于y轴散点图标准变量的值的跨度给定各平滑值时。对于数据组中的各点,LOESS方法拟合低度多项式至数据组,说明变量值接近经评估的响应的点。用加权最小二乘拟合多项式,使得接近经评估的响应的点具有更多权重而远离的点具有更少的权重。然后使用该数据点的说明变量值通过评估局部多项式来获得点的回归函数值。在回归函数值已经针对各数据点计算后,有时完全考虑LOESS拟合。该方法的许多细节,例如多项式模型的度和权重是灵活的。
可使用任何合适的标准化次数。在一些实施方式中,数据组能经标准化1次或更多次、5次或更多次、10次或更多次或甚至20次或更多次。可使数据组针对表示任何合适特点或变量(如样品数据、参照数据或两者)的值(如标准化值)作标准化。可用的数据标准化类型的非限定性示例包括使一个或多个所选测试或参照部份的原始计数数据针对映射到所选部份或区段的所述染色体或全基因组的映射上的计数总数作标准化;使一个或多个所选的部份的原始计数数据针对映射到所选部份或区段的一个或多个部份或所述染色体的中值参考计数作标准化;使原始计数数据针对前述经标准化的数据或其导出数作标准化;和使前述经标准化的数据针对一个或多个其它预定的标准化变量作标准化。根据所选作为预定标准化变量的特点或属性,使数据组标准化有时具有分离统计误差的作用。通过使数据转为共同量级(scale)(如预定的标准化变量),使数据组标准化有时也使量级不同的数据的数据特征具有可比性。在一些实施方式中,对统计学导出数值的一次或多次标准化可用于使数据差异最小化并减少异常数据(outlying数据)的重要性。涉及标准化值时,对部份或参照基因组的部份标准化有时称为“逐份标准化”。
在某些实施方式中,加工步骤包括标准化,包括标准化至静态窗,和在一些实施方式中,加工步骤包括标准化,包括标准化至动态或滑动窗。本文术语“窗”指选择用于分析的一种或多种部份,有时用作比较的参考(如用作标准化和/或其他数学或统计操作)。本文术语“标准化至静态窗”指使用选择用于比较测试对象和参照对象数据组的一种或多种部份的标准化过程。在一些实施方式中,所选部份用于生成概况。静态窗通常包括预定的部份的组,其在操作和/或分析期间不改变。本文术语“标准化至动态窗”或“标准化滑动窗”指对定位于所选测试部份的基因组区域(例如遗传上紧密环绕、毗连的部份或区段)的部份进行标准化,其中一种或多仲所选测试部份标准化至紧密环绕所选测试部份的部份。在某些实施方式中,所选部份用于生成概况。滑动或动态窗标准化通常包括重复移动或滑动至毗邻测试部份,和将新选的测试部份标准化至紧密环绕或毗邻所述新选的测试部份的部份,其中毗邻的窗具有一种或多种共用部份。在某些实施方式中,可通过滑动窗过程分析多种所选测试部份和/或染色体。
在一些实施方式中,标准化至滑动或动态窗可产生一个或多个值,其中各值代表针对从基因组不同区域(例如染色体)选择的不同组参照部份的标准化。在某些实施方式中,所得的一个或多个值是累加值(例如就所选部份、结构域(例如染色体的部份)或染色体的标准化计数概况的积分的数字估计)。滑动或动态窗过程所得值可用于产生概况和便于获得结果。在一些实施方式中,一个或多个部份的累加可显示为基因组位置的函数。动态或滑动窗分析有时用于分析基因组是否存在微缺失和/或微插入。在某些实施方式中,显示一个或多个部份的累加用于鉴定是否存在遗传变异区域(例如微缺失、微复制)。在一些实施方式中,动态或滑动窗分析用于鉴定含微缺失的基因组区域和在某些实施方式中,动态或滑动窗分析用于鉴定含微复制的基因组区域。
用于降低核酸指示剂相关误差的一个有用的标准化方法在本文中称为参数化误差去除和无偏标准化(PERUN),并且,如本文描述和例如,美国专利申请号13/669,136和国际专利申请PCT/US12/59123(WO2013/052913)所述,其全文通过引用纳入本文,包括所有文本、表格、等式和图。PERUN法可用于各种核酸指示剂(例如核酸序列读数),用于降低混淆基于该指示剂的预测的误差影响。
例如,PERUN方法用于来自样品的核酸序列读数并降低损害基因组区段水平确定的误差影响。该应用有效用于使用核酸序列读数确定表现为各种水平的核苷酸序列(例如部份、基因组区段水平)的对象是否存在遗传变异。部份中变异的非限制性示例是染色体非整倍性(例如21三体、18三体、13三体)和是否存在性染色体(例如女性中的XX以及男性中的XY)。常染色体(例如性染色体以外的染色体)三体可称为受影响的常染色体。基因组区段水平中的变异的其他非限制性示例包括微缺失、微插入、重复和镶嵌性。
在某些应用中,PERUN法能够通过对具体基因组的组(指,部份)的核酸指标进行标准化来减小实验偏差。部份包括合适的核酸指标的集合,其非限制性示例包括连续核苷酸的长度,其在本文中称作基因组区段或参照基因组的部份。箱可包括其它核酸指标,如本文所述。在此类应用中,PERUN法一般使三维模式下的多个样品之间的处于具体的箱的核酸指标标准化。
在某些应用中,PERUN法能够通过使映射至参照基因组的具体区段(例如,部份)的核酸指标(例如,计数、读数)标准化来减小实验和/或系统性偏差。该应用中,PERUN方法通常于三维方向上在跨大量样品的参照基因组的特定部份处标准化核酸读数的计数。PERUN及其应用的详细描述参见实施例部分,以及国际专利申请PCT/US12/59123(WO2013/052913)和美国专利申请公开号US20130085681,其全文通过引用纳入本文,包括所有文本、表格、等式和图。
在某些实施方式中,PERUN方法包括从下述结果计算参照基因组的部份的基因组区段水平:(a)测试样品映射至参照基因组的部份的序列读数计数,(b)测试样品的实验偏差(例如GC偏差)测试样品,和(c)针对(i)序列读数映射的参照基因组部份的实验偏差和(ii)映射至所述部份序列读数的计数之间的拟合关系的一种或多种拟合参数(例如拟合估计)。可在多种样品中根据针对(i)映射至各参照基因组部份的序列读数计数和(ii)参照基因组各部份的映射特征之间的拟合关系来确定各参照基因组的部份的实验偏差。各样品的这种拟合关系可于三维方向就多种样品进行集合。在某些实施方式中,该集合可根据实验偏差进行安排,虽然PERUN方法可实施而无需根据实验偏差安排所述集合。通过本领域已知的合适拟合方法(例如,拟合模型),各样品的拟合关系和参照基因组的各部份的拟合关系可单独拟合至线性函数或非线性函数。可用于关系拟合的合适模型的非限制性示例包括线性回归模型、简单回归模型,普通最小二乘回归模型、多重回归模型、一般多重回归模型、多项式回归模型、一般线性模型、广义线性模型、离散选择回归模型、逻辑回归模型、多项式分对数模型、混合分对数模型、概率单位模型、多项式概率单位模型、有序分对数模型、有序概率单位模型、泊松(泊松)模型、多元响应回归模型、多级模型、固定效应模型、随机效应模型、混合模型、非线性回归模型、非参数模型、半参数模型、鲁棒(robust)模型、分位模型、等渗模型、主成分模型、最小角模型、局部模型、分段模型和变量误差模型。
在一些实施方式中,关系是几何和/或图示关系。本文所用的术语“关系”和“相关”是同义的。在一些实施方式中,关系是数学关系。在一些实施方式中,关系经作图。在一些实施方式中,关系是线性关系。在某些实施方式中,关系是非线性关系。在一些实施方式中,关系是回归(例如回归线)。回归可为线性回归或非线性回归。关系可通过数学等式表达。关系通常部份地通过一个或多个常量和/或一个或多个变量来定义。可通过本领域已知方法产生关系。在某些实施方式中,可针对一种或多种样品产生二维关系,和可针对一种或多种所述维度选择变量误差检验或可能误差检验。例如,可使用本领域已知制图软件生成关系,所述软件使用用户提供的两个或更多变量值作图。关系可采用本领域已知的方法来拟合(例如,通过进行回归、回归分析,例如,通过合适的回归程序,例如,软件)。某些关系可通过线性回归拟合,且线性回归可生成斜率和截距。某些关系有时非线性且可通过非-线性函数拟合,例如抛物线、双曲线或指数函数(例如二次函数)。
PERUN方法中,一种或多种拟合关系可为线性。为了分析妊娠女性的无细胞循环核酸,其中实验偏差是GC偏差且映射特征是GC含量,样品的(i)映射至各部份的序列读数计数和(ii)参照基因组的各部份的GC含量之间的拟合关系可为线性。对于后一拟合关系,在多种样品间集合拟合关系时可针对各样品确定涉及GC偏差的斜率和GC偏差系数。在该实施方式中,多种样品和部份的i)所述部份的GC偏差系数,和(ii)映射至部份的序列读数的计数之间的拟合关系也可为线性。可从后一拟合关系获得截距和斜率。在该应用中,斜率表示基于GC-含量的样品-特异性偏差,截距表示所有样品均具有的部份-特异性衰减模式。在计算基因组区段水平以提供结果时(例如是否存在遗传变异;确定胎儿性别),PERUN方法可显著减低样品-特异性偏差和部份-特异性衰减。
在一些实施方式中,PERUN标准化使用至线性函数的拟合并如等式A,等式B或其衍生等式所述。
等式A:
M=LI+GS(A)
等式B:
L=(M–GS)/I(B)
在一些实施方式中,L是PERUN标准化水平或概况。在一些实施方式中,L是从PERUN标准化程序所需的输出。在某些实施方式中,L是部份特异的。在一些实施方式中,L根据参照基因组的多种部份来确定,其代表基因组、染色体、其部份或区段的PERUN标准化水平。水平L通常用于进一步分析(例如确定Z-值、母本缺失/复制、胎儿微缺失/微复制、胎儿性别、性非整倍体和等等)。根据等式B的标准化方法称为参数化误差去除和无偏标准化(PERUN)。
在一些实施方式中,G是使用线性模型、LOESS或任何等价方法测量的GC偏差系数。在一些实施方式中,G是斜率。在一些实施方式中,GC偏差系数G评估为针对部份i的计数M(例如原始计数)和从参照基因组确定的部份i的GC含量的回归的斜率。在一些实施方式中,G代表从M提取并根据关系确定的二级信息。在一些实施方式中,G代表样品(如测试样品)的部份特异的计数组和部份特异的GC含量值组的关系。在一些实施方式中,部份-特异性GC含量源自参照基因组。一些实施方式中,部份-特异性GC含量源自观察的或测量的GC含量(例如从样品测量)。GC偏差系数通常就样品组中的各样品确定,且通常就测试样品确定。GC偏差系数通常为样品特异的。在一些实施方式中,GC偏差系数为常数。在某些实施方式中GC偏差系数一旦从样品获得则不再变化。
在一些实施方式中,S是源自线性关系的斜率且I是截距。在一些实施方式中,I和S所源自的关系与G所源自的关系不同。在一些实施方式中,I和S所源自的关系针对给定的实验设置而言是固定的。在一些实施方式中,I和S源自根据计数(例如原始计数)的线性关系和根据多种样品的GC偏差系数。在一些实施方式中,I和S独立源自所述测试样品。在一些实施方式中,I和S源自多种样品。I和S通常是部份-特异的。在一些实施方式中,I和S在整倍体样品中参照基因组的所有部份用L=1的假设确定。在一些实施方式中,针对整倍体样品确定线性关系,并确定对所选部份特异的I和S值(假定L=1)。在某些实施方式中,相同程序用于人基因组中参照基因组的所有部份并就各部份确定截距I和斜率S的组。
在一些实施方式中,应用交叉验证。交叉验证有时称为循环估计(rotation估计)。在一些实施方式中,交叉验证法用于评估预测模型(例如PERUN)在用于测试样品的实施中的精确性。在一些实施方式中,一轮交叉验证包括划分数据样品成互补的子集,在子集上(例如有时称为训练组)进行交叉验证分析(例如有时)和使用另一子集验证分析(例如有时称为验证组或测试组)。在某些实施方式中,使用不同划分产物和/或不同子集进行多轮交叉验证)。交叉验证法的非限制性示例包括留一法、滑动边缘、K-倍、2-倍、重复随机取样等或其组合。在一些实施方式中,交叉验证随机选择含90%样品组的工作组,包括已知整倍体胎儿和使用该子集训练模型。在一些实施方式中,随机选择重复100次,各部份产生100组斜率和100组截距。
在一些实施方式中,M值是源自测试样品的测量值。在一些实施方式中,M是针对部份的测量的原始计数。在一些实施方式中,值I和S可用于部份时,测量M测定自测试样品并用于根据等式B测定基因组、染色体、其区段或部份的PERUN标准化水平L。
因此,PERUN方法平行应用至多种样品的序列读数可显著降低由(i)样品-特异性实验偏差(例如GC偏差)和(ii)样品常见的部份-特异性衰减所引起的误差。误差的两个来源各自单独或连续寻址的其他方法通常不能如PERUN方法如此有效降低。不受理论限制,预期PERUN方法更有效降低误差部份是因为其一般加成过程不像其他标准化方法(例如GC-LOESS)中采用的一般乘法过程那样夸张地扩大。
其他标准化和统计学技术可与PERUN方法联用。其他过程可在使用PERUN方法之前、之后和/或期间应用。可与PERUN方法联用的过程的非限制性示例如下所述。
在一些实施方式中,GC含量的基因组区段水平的二级标准化或调整可与PERUN方法联用。可使用合适的GC含量调整或标准化程序(例如GC-LOESS,GCRM)。在某些实施方式中,可应用额外的GC标准化处理来选择和/或鉴定具体样品。例如,PERUN方法的应用可确定各样品的GC偏差,且关联高于特定阈值的GC偏差的样品可经选择用于其他GC标准化过程。该实施方式中,预定阈值水平可用于选择该样品用于其他GC标准化。
在某些实施方式中,部份过滤或加权过程可与PERUN方法联用。可使用合适的部份过滤或加权处理,本文,以及国际专利申请PCT/US12/59123(WO2013/052913)和美国专利申请公开号US20130085681描述非限制性示例,其全文通过引用纳入本文,包括所有文本、表格、等式和图。在一些实施方式中,降低关联母本插入、复制和/或缺失(例如母本和/或胎儿拷贝数变异)的标准化技术与PERUN方法联用。
通过PERUN方法计算的基因组区段水平可直接用于提供结果。在一些实施方式中,基因组区段水平可直接用于提供样品结果,其中胎儿分数为约2%-约6%或更高(例如约4%或更高的胎儿分数)。PERUN方法计算的基因组区段水平有时进一步加工用于提供结果。在一些实施方式中,计算的基因组区段水平经规格化。在某些实施方式中,测试部份(例如染色体21)的计算的基因组区段水平的加和、算术平均或中值可除以测试部份以外的部份(例如常染色体以外的染色体21)的计算的基因组部份水平的加和、算术平均或中值,生成实验的基因组区段水平。实验的基因组区段水平或原始基因组区段水平可用作规划化分析的部份,例如计算Z-分数或Z-分数。可通过实验的基因组区段水平或原始基因组区段水平减去预期的基因组区段水平来生成样品的Z-分数,且所得值可除以样品的标准偏差。在某些实施方式中,所得Z-分数可就不同样品分布并分析,或可关联其他变量,例如胎儿分数和其他,并分析,从而提供结果。
如本文所述,PERUN方法不限于根据GC偏差和GC含量本身进行标准化,并可用于减少关联其他误差来源的误差。非-GC含量偏差的来源的非-限制性示例是可映射能力。当解决GC偏差和含量以外的标准化参数时,一种或多种拟合关系可为非-线性(例如双曲线、指数)。在一些实施方式中,例如,实验偏差从非-线性关系确定时,可分析实验偏差曲率估计。
PERUN方法可应用于各种核酸指示剂。核酸指示剂的非限制性示例是微阵列的具体位置处的核酸序列读数和核酸水平。序列读数的非限制性示例包括获自无细胞循环DNA、无细胞循环RNA、细胞DNA和细胞RNA的那些。PERUN方法可应用于映射至合适的参照序列的序列读数,例如基因组参照DNA、细胞参照RNA(例如转录组)和其部份(例如DNA或RNA转录组的基因组互补物的部份、染色体的部份)。
因此,在某些实施方式中,细胞核酸(例如DNA或RNA)可用作核酸指示剂。映射至参照基因组部份的细胞核酸读数可使用PERUN方法标准化。结合具体蛋白质的细胞核酸有时指染色质免疫沉淀(ChIP)过程。ChIP-富集核酸是关联细胞蛋白质的核酸、例如DNA或RNA。ChIP-富集核酸的读数可用本领域已知技术获得。ChIP-富集核酸的读数可映射至参照基因组的一个或多个部份,且结果可使用PERUN方法标准化以提供结果。
在某些实施方式中,细胞RNA可用作核酸指示剂。细胞RNA读数可映射至参照RNA部份并使用PERUN方法标准化以提供结果。细胞RNA的已知序列(称为转录组)或其区段可用作参照,来自样品的RNA读数可映射至其处。样品RNA的读数可用本领域已知技术获得。映射至参照的RNA读数的结果可使用PERUN方法标准化以提供结果。
在一些实施方式中,微阵列核酸水平可用作核酸指示剂。可使用PERUN方法在阵列上分析样品具体位置的核酸水平或杂交核酸,从而标准化微阵列分析提供的核酸指示剂。用这种方式,微阵列上的具体位置或杂交核酸与映射的核酸序列读数的部份类似,并且PERUN方法可用于标准化微阵列数据以提供改善的结果。
在一些实施方式中,加工步骤包括加权。本文所用的术语“加权的”、“加权”或“加权函数”或其语法衍生形式或等同形式指对数据组的部分或全部的数学处理,所述数据组处理有时用于改变某些数据组特点或变量对其它数据组特点或变量的影响(如根据所选参照基因组的一个或多个部份中数据的质量或实用性,增加或减少参照基因组的一个或多个部份中所含数据的重要性和/或基值)。在一些实施方式中,加权函数能用于增加测量变量相对较小的数据的影响,和/或减少测量差异相对较大的数据的影响。例如,能对含有过低频出现或低量序列数据参照基因组的部份“降权重(down weighted)”以最小化对数据组的影响,反之能对参照基因组的所选部份“升权重(up weighted)”以增加对数据组的影响。加权函数的非限定性示例是[1/(标准偏差)2]。加权步骤有时以与标准化步骤基本相似的方式进行。在一些实施方式中,使数据组除以预定变量(如加权变量)。经常选择预定变量(如最小化靶函数,Φ)对数据组的不同部份有区分地加权(如增加某些数据类型的影响,而降低其它数据类型的影响)。
在某些实施方式中,处理步骤能包括一种或多种数学和/或统计学处理。任意合适的数学和/或统计学处理可以单一或联合用于分析和/或处理本文所述的数据组。能使用任意合适次数的数学和/或统计学处理。在一些实施方式中,数据组可经数学和/或统计学处理1次或多次、5次或更多次、10次或更多次或者20次或更多次。能使用的数学和统计学处理的非限定性示例包括加法、减法、乘法、除法、代数函数、最小二乘估计、曲线拟合、微分方程、有理多项式、二重多项式、正交多项式、z-分值、p值、χ值、
Figure BDA0003603576890000771
值、峰水平分析、确定峰边缘位置、计算峰面积比、分析中值染色体水平、计算算术平均绝对偏差、残差平方和、平均、标准偏差、标准误等,或其组合。能对序列读取数据或其经处理的结果的全部或部分进行数学和/或统计学处理。可经统计学处理的数据组变量或特征的非限制性示例包括原始计数、过滤计数、标准化计数、峰高、峰宽、峰面积、峰边缘、侧向公差、P值、中值水平、平均水平、基因组区域内的计数分布、核酸物质的相对值表示等,或其组合。
在一些实施方式中,处理步骤能包括使用一种或多种统计学算法。任意合适的统计学算法都可以单一或联合用于分析和/或处理本文所述的数据组。可使用任何合适数量的统计学算法。在一些实施方式中,能使用1种或更多种、5种或更多种、10种或更多种或者20种或更多种统计学算法来分析数据组。合适伴随本文所述方法使用的统计学算法的非限定性示例包括决策树、计数空值、多重比较、综合检验、贝伦斯-费希尔问题、拔靴法(bootstrapping)、结合显著性独立测试的费舍尔方法、零假设、I型误差、II型误差、精确检验、单样本Z检验、双样本Z检验、单样本t检验、配对t检验、有相等方差的双样本合并t检验、有不相等方差的双样本未合并t检验、单比例z检验、合并的双比例z检验、未合并的双比例z检验、单样本卡方检验、有相等方差的双样本F检验、置信区间、可信区间、显著性、荟萃分析(meta-analysis)、简单线性回归、强线性回归等,或前述组合。能使用统计学算法分析的数据组变量或特征的非限制性示例包括原始计数、过滤计数、标准化计数、峰高、峰宽、峰边缘、侧向公差(lateral tolerance)、P值、中值水平、平均水平、基因组区域内的计数分布、核酸物质的相对值表示等,或其组合。
在某些实施方式中,数据组可采用多种(例如2或更多)统计算法进行分析(例如最小二乘回归、主成分分析、线性判别分析、二次判别分析、Bagging、神经网络、支持向量机模型、随机森林、分类树模型、K-最近邻法(k-nearest neighbors),逻辑回归和/或平滑损失(loss smoothing)和/或数学和/或统计学操作(例如本文所述操作)。在一些实施方式中,使用多种操作可产生N维空间,其可用于提供结果。在某些实施方式中,通过采用多种操作的数据组分析可降低数据组的复杂性和/或维度。例如,在参考数据组上使用多种操作可产生N维空间(例如概率图),其可用于代表是否存在遗传变异,这取决于参照样品的遗传状态(例如对所选遗传变异阳性或阴性)。使用基本相似的操作组分析测试样品可用于产生所测样品各自的N维点。测试对象数据组的复杂性和/或维度有时降低至可容易地与参照数据的N维空间进行比较的N维度点或单一值。落入由参照对象数据填充的N维空间内的测试样品数据表示与该参照对象基本相似的遗传状态。落入由参照对象数据填充的N维空间外的测试样品数据表示与该参照对象基本不相似的遗传状态。在一些实施方式中,参照是整倍体或者不具有遗传变异或医学症状。
在一些实施方式中,数据组经计算、任选过滤和标准化后,经加工的数据组可用一种或多种过滤和/或标准化程序进一步操作。在某些实施方式中,可用一种或多种过滤和/或标准化程序进一步操作的数据组可用于产生概况。在一些实施方式中,一种或多种过滤和/或标准化程序有时可降低数据组复杂性和/或维度。可基于复杂性和/或维度降低的数据组提供结果。
在一些实施方式中,部份可根据误差测量进行过滤(例如标准偏差、标准误差、计算方差、p-值、算术平均绝对误差(MAE)、平均绝对偏差和/或算术平均绝对偏差(MAD)。在某些实施方式中误差测量指计数可变性。在一些实施方式中,部份根据计数可变性进行过滤。在某些实施方式中,计数可变性是针对多种样品(例如获自多种对象的多种样品,例如50或更多、100或更多、500或更多、1000或更多、5000或更多或10,000或更多对象)的映射至参照基因组的部份(即部份)的计数所确定的误差测量。在一些实施方式中,具有高于预定上限范围的计数可变性的部份可被过滤(例如从考虑中排除)。在一些实施方式中,预定上限范围是等于或大于约50,约52,约54,约56,约58,约60,约62,约64,约66,约68,约70,约72,约74或等于或大于约76的MAD值。在一些实施方式中,具有低于预定下限范围的计数可变性的部份可被过滤(例如从考虑中排除)。在一些实施方式中,预定下限范围是等于或小于约40,约35,约30,约25,约20,约15,约10,约5,约1等于或小于约0的MAD值。在一些实施方式中,具有超出预定范围的计数可变性的部份可被过滤(例如从考虑中排除)。在一些实施方式中,预定范围是大于0且小于约76、小于约74、小于约72、小于约71、小于约70、小于约69、小于约68、小于约67、小于约66、小于约65、小于约64、小于约62、小于约60、小于约58、小于约56、小于约54、小于约52、小于约50的MAD值。在一些实施方式中,预定范围是大于0和小于约67.7的MAD值。在一些实施方式中,选择计数可变性在预定范围内的部份(例如用作确定是否存在遗传变异)。
在一些实施方式中,部份的计数可变性代表分布(例如正态分布)。在一些实施方式中,可在分布的分位数内选择部份。在一些实施方式中,选择分布的分位数在等于或小于约99.9%、99.8%、99.7%、99.6%、99.5%、99.4%、99.3%、99.2%、99.1%、99.0%、98.9%、98.8%、98.7%、98.6%、98.5%、98.4%、98.3%、98.2%、98.1%、98.0%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%或等于或小于约75%内的部份。在一些实施方式中,选择计数可变性的分布的分位数在99%内的部份。在一些实施方式中,选择MAD>0和MAD<67.725,分位数在99%内的部份,得到对参照基因组的稳定部份组的鉴定。
涉及PERUN的部份过滤的非限制性示例如本文以及国际专利申请号PCT/US12/59123(WO2013/052913)所述,其全文通过引用纳入本文,包括所有文本、表格、等式和图。部份可基于或部分基于误差测量进行过滤。误差测量包括偏差的绝对值,例如R-因子,其在某些实施方式中可用于部份去除或加权。在一些实施方式中,R-因子定义为预测计数值与实测值的绝对偏差除以来自实测值的预测计数值之后的加和(例如本文所述公式B)。虽然可使用包括偏差绝对值的误差测量,合适的误差测量也可使用。在某些实施方式中,可使用不包括偏差绝对值的误差测量,例如基于二乘的分散体。在一些实施方式中,根据可映射能力的测量(例如可映射分数)对部份进行过滤或加权。有时根据映射至所述部份相对低数目的序列读数(例如映射至所述部份的0、1,2,3,4,5个读数)对部份进行过滤或加权。可根据进行分析的种类对部份进行过滤或加权。例如,对于染色体13、18和/或21的非整倍性分析,可过滤性染色体,并且仅常染色体或常染色体子集可进行分析。对于胎儿性别的确定,可滤除常染色体,并且可仅分析性染色体(X和Y),或性染色体(X或Y)之一。
在具体实施方式中,可使用下述过滤过程。选择给定染色体(例如染色体21)内的相同组的部份(例如参照基因组的部份),并比较受影响和未受影响的样品中读数的数量。差距涉及21三体和整倍体样品,其涉及覆盖大多数染色体21的部份组。在整倍体和T21样品之间的所述部份组相同。部份组和单一区段之间的区别并不关键,如部份所定义的那样。比较不同患者中的相同的基因组区域。该过程可用作三体分析,例如T13或T18,除了或代替T21。
在一些实施方式中,数据组经计算、任选过滤和标准化后,经加工的数据组可通过加权进行操作。在某些实施方式中,一种或多种部份可选择进行加权以减少所选部份中所含的数据的影响(例如噪音数据、无信息数据),和在一些实施方式中,一种或多种部份可选择进行加权以提高或加强所选部份中所含的数据的影响(例如测量方差小的数据)。在一些实施方式中,采用单一加权函数对数据组进行加权,其降低方差大的数据影响并增加方差小的数据的影响。加权函数有时用于减少方差大的数据影响并增加差异小的数据的影响(例如[1/(标准偏差)2])。在一些实施方式中,进一步通过加权进行操作从而产生加工的数据的概况图,以便于分类和/或提供结果。可基于加权数据的概况图提供结果。
部份的过滤和加权可在分析中一个或多个合适的点进行。例如,部份可在序列读数映射至参考基因组的部份之前或之后进行过滤或加权。在一些实施方式中,部份可在确定个体基因组部份的实验偏差之前或之后进行过滤或加权。在一些实施方式中,部份可在计算基因组区段水平之前或之后进行过滤或加权。
在一些实施方式中,数据组经计算、任选过滤、标准化和任选加权后,经加工的数据组可通过一种或多种数学和/或统计学操作(如统计函数或统计算法)进行操作。在某些实施方式中,处理的数据可通过计算一个或多个所选部份、染色体或染色体的部份的Z分数来进一步操作。在一些实施方式中,处理的数据组可通过计算p值来进一步操作。计算Z分数和p值的等式的实施方式参见等式1(实施例2)。在某些实施方式中,数学和/或统计学操作包括一种或多种与倍数性和/或胎儿分数有关的假设。在一些实施方式中,进一步通过一种或多种数学和/或统计学操作进行操作从而产生加工的数据的概况图,以便于分类和/或提供结果。可基于数学和/或统计学操作数据的概况图提供结果。基于数学和/或统计学操作数据的概况图所提供的结果通常包括一种或多种与倍数性和/或胎儿分数有关的假设。
在某些实施方式中,数据组经计算、任选过滤和标准化后,在处理的数据组上进行多种操作以产生N维空间和/或N维点。可基于N维中分析的数据组的概况图提供结果。
在一些实施方式中,采用一种或多种峰水平分析、峰宽度分析、峰边缘位置分析、峰侧向公差等或其衍生分析或前述的组合对数据组进行处理,作为已处理和/或操作的数据组的一部分或在其之后。在一些实施方式中,采用一种或多种峰水平分析、峰宽度分析、峰边缘位置分析、峰侧向公差等或其衍生分析或前述的组合产生处理数据的概况图,以便于分类和/或提供结果。结果可基于数据的概况图提供,所述数据的概况图已采用一种或多种峰水平分析、峰宽度分析、峰边缘位置分析、峰侧向公差等或其衍生分析或前述的组合进行处理。
在一些实施方式中,使用基本不含所研究的遗传变异的一种或多种参照样品可用于生成参照中值计数概况,其可得到表示没有遗传变异的预定值,且通常偏离对应于测试对象中定位有遗传变异的基因组位置的区域中的预定值,若所述测试对象具有该遗传变异。在患有关联遗传变异的病症或有此风险的测试对象中,所选部份或区段的数字值预期与未受影响的基因组位置的预定值显著不同。在某些实施方式中,使用已知携带所研究的遗传变异的一种或多种参照样品可用于生成参照中值计数概况,其可得到表示具有遗传变异的预定值,和通常偏离对应于不具有遗传变异的基因组位置的面积中的预定值,其中测试对象在该基因组位置中不具有遗传变异。在不患有关联遗传变异的病症或没有此风险的测试对象中,所选部份或区段的数字值预期与受影响的基因组位置的预定值显著不同。
在一些实施方式中,分析和处理数据能包括使用一个或多个假设。合适数量或类型的假设可用于分析或加工数据组。能用于数据处理和/或分析的假设的非限定性示例包括母本倍性、胎儿基值、参照群中某些序列的普遍性、种族背景、相关家族成员中选择的医学病情的患病率、来自不同患者和/或GC标准化和重复掩蔽(如GCRM)后的运行的原始计数分布之间的对应性、代表PCR人造产物的相同匹配(如相同的碱基位置)、胎儿定量试验(如FQA)中的内在假定、关于双胞胎的假定(例如若有2个双胞胎并且仅有1个受影响,则有效胎儿分数仅是全部测量的胎儿分数的50%(三胞胎、四胞胎等也与之相似))、均一覆盖全基因组的胎儿无细胞DNA(如cfDNA)等,及其组合。
在经映射的序列读数的质量和/或深度不能在所需置信水平(如95%或更高的置信水平)预测是否存在遗传变异的结果的那些示例中,根据标准化的计数分布,可使用一种或多种额外数学处理算法和/或统计学预测算法以生成可用于数据分析和/或提供结果的额外数值。本文所用的术语“标准化的计数分布”指使用标准化的计数生成的分布。本文描述了能用于生成标准化计数和标准化计数分布的方法示例。可使所述已经计数的定位的序列读数相对于测试样品计数或参照样品计数作标准化。在一些实施方式中,标准化计数概况能以图示表示。
概况
在一些实施方式中,处理步骤可包括从各种数据组或其衍生(例如本领域已知和/或本文所述的一种或多种数学和/或统计学数据处理步骤的结果)中生成一种或多种概况(例如概况图)。
本文术语“概况”指数据的数学和/或统计学操作的结果,其可便于在大量数据中鉴定模式和/或相关性。“概况”通常包括基于一种或多种标准对数据或数据组的一种或多种操作所得的值。概况通常包括多个数据点。任何合适数量的数据点可包括在概况中,取决于数据组的性质和/或复杂度。在某些实施方式中,概况可包括2或更多数据点、3或更多数据点、5或更多数据点、10或更多数据点、24或更多数据点、25或更多数据点、50或更多数据点、100或更多数据点、500或更多数据点、1000或更多数据点、5000或更多数据点、10,000或更多数据点,或100,000或更多数据点。
在一些实施方式中,概况是整个数据组的表示,和在某些实施方式中,概况是数据组部份或子集的表示。即,概况有时包括未过滤移除任何数据的数据的数据点代表或从其中生成,和有时概况包括经过滤移除不想要数据的数据的数据点代表或从其中生成。在一些实施方式中,概况中数据点代表部份的数据操作结果。在某些实施方式中,概况中数据点包括部份组的数据操作结果。在一些实施方式中,部份组可彼此相邻,和在某些实施方式中,部份组可来自染色体或基因组的不同部份。
源自数据组的概况中的数据点可表示任何合适的数据分类。数据可分组以生成概况数据点的类别的非限制性示例包括:基于大小的部份、基于序列特征的部份(例如GC含量、AT含量、染色体上的位置(例如短臂、长臂、着丝粒、端粒)等)、表达水平、染色体等或其组合。在一些实施方式中,概况可从获自其他概况(例如再次标准化至不同标准化值的标准化数据概况以生成再标准化数据概况)的数据点生成。在某些实施方式中,获自其他概况的数据点生成的概况减少了数据点数量和/或数据组的复杂性。减少了数据点数量和/或数据组的复杂性通常有利于解释数据和/或有利于提供结果。
概况(例如基因组概况,染色体概况,染色体区段概况)通常是两个或更多部份的标准化或非-标准化计数的集合。概况通常包括至少一种水平(例如基因组区段水平),通常包括两个或更多水平(例如概况通常具有多种水平)。水平通常用于具有约相同计数或标准化计数的部份的组。本文详细描述了水平。在某些实施方式中,概况包括一种或多种部份、所述部份可经加权、移除、过滤、标准化、调整、平均(得出均值)、加、减、或其任意组合的加工或变换。概况通常包括映射至定义两个或更多水平的部份的标准化计数,其中计数还通过合适方法根据水平之一进一步标准化。通常概况计数(例如概况水平)关联不确定值。
包括一种或多种水平的概况有时经填充(例如孔填充)。填充(例如孔填充)指鉴定和调整概况中源自母本微缺失或母本复制(例如拷贝数变异)的水平的过程。在一些实施方式中,填充源自胎儿微复制或胎儿微缺失的水平。在一些实施方式中,概况中微复制或微缺失可人为升高或降低概况(例如染色体概况)的总体水平,导致染色体非整倍性(例如三体性)确定的假阳性或假阴性。在一些实施方式中,概况中源自微复制和/或缺失的水平通过有时称为填充或孔填充的过程鉴定和调整(例如填充和/或移除)。在某些实施方式中,概况包括明显不同于概况内第二水平的一种或多种第一水平,各所述一种或多种第一水平包括母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异,且一种或多种所述第一水平经调整。
包括一种或多种水平的概况可包括第一水平和第二水平。在一些实施方式中,第一水平不同于(例如明显不同)第二水平。在一些实施方式中第一水平包括第一组部份、第二水平包括第二组部份且第一组部份不是第二组部份的子集。在某些实施方式中,第一组部份不同于第二组部份,从中确定第一和第二水平。在一些实施方式中,概况可具有不同于(例如明显不同,例如具有显著不同的值)概况内第二水平的多种第一水平。在一些实施方式中概况包括明显不同于概况内第二水平的一种或多种第一水平且所述一种或多种第一水平经调整。在一些实施方式中,概况包括明显不同于概况内第二水平的一种或多种第一水平,各所述一种或多种第一水平包括母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异,且一种或多种所述第一水平经调整。在一些实施方式中概况中的第一水平从概况中去除或经调整(例如填充)。概况可包括多种水平,所述多种水平包括显著不同于一种或多种第二水平的一种或多种第一水平,通常概况中主要水平为第二水平,其中第二水平彼此大约相等。在一些实施方式中,概况中大于50%、大于60%、大于70%、大于80%、大于90%或大于95%的水平为第二水平。
概况有时显示为图。例如,表示部份的计数(例如标准化计数)的一种或多种水平可作图并可视化。可生成的概况图非限制性示例包括原始计数(例如原始计数概况或原始概况)、标准化计数、部份-加权的、Z-分数、p-值、面积比与拟合倍性、中值水平与拟合和测量的胎儿分数之间的比例、主成分、等或其组合。在一些实施方式中,概况图允许观察经操作的数据。某些实施方式中,概况图可用于提供结果(例如面积比与拟合倍性、中值水平与拟合和测量的胎儿分数之间的比例、主成分)。本文所用术语“原始计数概况图”或“原始概况图”指标准化至区域总计数的区域各部份中的计数的图(例如基因组、部份、染色体、参照基因组的染色体部份或染色体区段)。在一些实施方式中,可使用静态窗过程生成概况,和在某些实施方式中,可使用滑动窗过程生成概况。
针对测试对象生成的概况有时与一种或多种参照对象生成的概况进行比较,以便于阐述数据组的数学和/或统计学操作和/或提供结果。在一些实施方式中,基于一种或多种起始假设(例如母本核酸贡献(例如母本总积分)、胎儿核酸贡献(例如胎儿分数)、参照样品倍性等或其组合)生成概况。在某些实施方式中,测试概况通常以表示不含遗传变异的预定值为中心、和通常在测试对象中定位有遗传变异(若测试对象具有遗传变异)的基因组位置的对应面积中偏离预定值。在患有关联遗传变异的病症或有此风险的测试对象中,所选部份的数字值预期与未受影响的基因组位置的预定值显著不同。基于起始假设(例如固定的倍性或最佳倍性、固定的胎儿分数或最佳胎儿分数或其组合),表明是否存在遗传变异的预定阈值或截止值或阈值范围可不同,但其仍提供可用于确定是否存在遗传变异的结果。在一些实施方式中,概况指示和/或表示表型。
作为非限制性示例,标准化的样品和/或参照计数概况可通过如下方式从原始序列读数数据获得:(a)从已知不携带遗传变异的一组参照中计算选定的染色体、部份或其区段的参照中值计数、(b)从所述参照样品原始计数中移除不带信息的部份(例如,滤除);(c)使参照基因组的全部剩余部分针对参照样品选定的染色体或选定的基因组位置的计数的剩余的总数(例如,在移除参照基因组的不带信息的部份之后的余留计数之和)进行标准化,由此产生标准化的参照对象概况;(d)从测试对象样品移除相应的部份;和(e)使一个或多个选定的基因组位置的余留的测试对象计数针对包含所述选定基因组位置的染色体的剩余参照中值计数之和进行标准化,由此产生标准化的测试对象概况。在某些实施方式中,涉及整个基因组的其他标准化步骤(通过(b)中的过滤的部份而减少)可包括在(c)和(d)之间。
能通过对计数映射的序列读数数据的一种或多种处理生成数据组概况。一些实施方式包括下述。映射序列读数,并确定映射到各基因组部份上的计数(即,序列标签)数目(如计数)。从经计数的映射的序列读数生成原始计数概况。在某些实施方式中,通过比较测试对象的原始计数概况与已知不含遗传变异的参照对象组的染色体、其部份或区段的参照中值计数概况提供结果。
在一些实施方式中,序列读数数据任选经过滤以去除噪音数据或无信息部份。过滤后,通常对剩余计数求和以生成经过滤的数据组。在某些实施方式中,从过滤的数据组生成过滤的计数概况。
序列读数数据经计数和任选过滤后,可标准化数据组以生成水平或概况。可通过标准化一种或多种所选部份至合适的标准化参照值来标准化数据组。在一些实施方式中,标准化参照值表示从中选择部份的染色体的总计数。在某些实施方式中,标准化参照值表示已知不含遗传变异的参照对象组制备的参照数据组的染色体的一种或多种相应部份。在一些实施方式中,标准化参照值表示分析是否存在遗传变异的测试对象制备的测试对象数据组的染色体的一种或多种相应部份。在某些实施方式中,标准化过程使用静态窗法进行、和在一些实施方式中,标准化过程使用移动或滑动窗法进行。在某些实施方式中,生成包括标准化计数的概况便于分类和/或提供结果。结果可基于包括标准化计数的概况图(例如使用该概况图)提供。
水平
在一些实施方式中,值(例如数值、定量值)归属为水平。计数可通过合适的方法、操作或数学过程(例如经加工的水平)确定。水平通常是或源自部份的组的计数(例如标准化计数)。在一些实施方式中部份的水平基本等于映射至部份的计数总数(例如计数,标准化计数)。通常从本领域已知的合适的方法、操作或数学过程加工、变换或处理的计数来确定水平。在一些实施方式中,水平源自经加工的计数,加工的计数的非限制性示例包括加权、去除、过滤、标准化、调整、平均、得出算术平均(例如算术平均水平)、加、减、变换的计数或其组合。在一些实施方式中水平包括经标准化的计数(例如部份的标准化计数)。水平可通过合适的过程用于计数标准化,其非限制性示例包括逐份标准化、GC含量的标准化、线性和非线性最小二乘回归、GC LOESS、LOWESS、PERUN、RM、GCRM、cQn等和/或其组合)。水平可包括标准化计数或计数的相对量。在一些实施方式中,水平用于经平均的两个或更多部份的计数或标准化计数且所述水平指平均水平。在一些实施方式中水平用于具有标准化计数的算术平均的计数或算术平均的部份的组,其称为算术平均水平。在一些实施方式中就包括原始和/或过滤的计数部份得出水平。在一些实施方式中,水平基于原始计数。在一些实施方式中,水平关联不确定值(例如标准偏差,MAD)。在一些实施方式中,水平由Z-分数或p-值代表。
本文中一个或多个部份的水平与"基因组区段水平"同义。有时,本文中所用的术语“水平”与术语“标高”同义。术语“水平”的含义的确定可由其上下文来确定。例如,术语“水平”,在用于基因组区段、概况、读数和/或计数的内容中时,通常表示标高。术语“水平”,在用于物质或组分(例如,RNA水平、丛水平)的内容中时,通常表示量。术语“水平”,在用于不确定性(例如,错误水平、置信水平、偏差水平、不确定性水平)的内容中时,通常表示量。
两个或更多水平(例如概况中两个或更多水平)的标准化或非-标准化计数有时可根据水平经数学操作(例如加、乘、平均、标准化等或其组合)。例如,两个或更多水平的标准化或非-标准化计数可根概况中一个、一些或全部水平进行标准化。在一些实施方式中,概况中所有水平的标准化或非-标准化计数根据概况中一个水平进行标准化。在一些实施方式中,概况中第一水平的标准化或非-标准化计数根据概况中第二水平的标准化或非-标准化计数进行标准化。
水平(例如第一水平,第二水平)的非限制性示例是包括加工的计数的部份的组水平、包括计数的算术平均、中值或平均的部份的组的水平、包括标准化计数的部份的组的水平等或其任何组合。在一些实施方式中,概况中第一水平和第二水平源自映射至相同染色体的部份的计数。在一些实施方式中,概况中第一水平和第二水平源自映射至不同染色体的部份的计数。
在一些实施方式中水平从映射至一个或多个部份的标准化或非-标准化计数确定。在一些实施方式中,水平从映射至两个或更多部份的标准化或非-标准化计数确定,其中各部份的标准化计数通常大约相同。就一水平而言,部份的组中的计数(例如标准化计数)可存在差异。就一水平而言,部份的组中可存在具有与所述组的其他部份(例如峰值和/或倾斜)显著不同的计数的一个或多个部份。关联任何合适数量的部份的任何合适数量的标准化或非-标准化计数可定义水平。
在一些实施方式中,可从所有或一些基因组的部份的标准化或非-标准化计数中确定一种或多种水平。通常,可从染色体或其区段的所有或一些标准化或非-标准化计数确定水平。在一些实施方式中,源自两个或更多部份(例如部份的组)的两个或更多计数确定水平。在一些实施方式中,(例如来自两个或更多部份的计数)两个或更多计数确定水平。在一些实施方式中,2-约100,000部份的计数确定水平。在一些实施方式中,2-约50,000、2-约40,000、2-约30,000、2-约20,000、2-约10,000、2-约5000、2-约2500、2-约1250、2-约1000、2-约500、2-约250、2-约100或2-约60部份的计数确定水平。在一些实施方式中,约10-约50部份的计数确定水平。在一些实施方式中,约20-约40或更多部份的计数确定水平。在一些实施方式中,水平包括来自约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60或更多部份的计数。在一些实施方式中,水平对应于部份的组(例如参照基因组的部份的组、染色体部份的组或染色体区段部份的组)。
在一些实施方式中,就邻近部份的标准化或非-标准化计数确定水平。在一些实施方式中,邻近部份(例如部份的组)代表基因组的相邻区段或染色体或基因的相邻区段。例如,通过尾对尾合并部份时,其的两个或更多邻近部份可代表比各部份更长的DNA序列的序列集合。例如,两个或更多邻近部份可代表整个基因组、染色体、基因、内含子、外显子或其区段。在一些实施方式中,从邻近部份和/或非-邻近部份的集合(例如组)中确定水平。
不同水平
在一些实施方式中,标准化计数概况包括显著不同于概况内其他水平(例如第二水平)的水平(例如第一水平)。第一水平可高于或低于第二水平。在一些实施方式中,第一水平用于包括一种或多种读数包括拷贝数变异(例如母本拷贝数变异、胎儿拷贝数变异、或母本拷贝数变异和胎儿拷贝数变异)的部份的组和第二水平用于包括基本无拷贝数变异的读数的部份的组。在一些实施方式中,显著不同指可观察到的不同。在一些实施方式中,显著不同指统计学不同或统计学显著不同。统计学显著不同有时是可观察的不同的统计学估计。可用本领域合适的方法估计统计学显著不同。任何合适的阈值或范围可用于确定明显不同的两种水平。在某些实施方式中两种水平(例如算术平均水平)差异约0.01%或更多(例如一个或另一个水平值的0.01%)为明显不同。在一些实施方式中,两种水平(例如算术平均水平)差异约0.1%或更多为明显不同。在一些实施方式中,两种水平(例如算术平均水平)差异约0.5%或更多为明显不同。在一些实施方式中,两种水平(例如算术平均水平)差异约0.5、0.75、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或大于10%为明显不同。在一些实施方式中,两种水平(例如算术平均水平)显著不同且各水平中无重叠和/或在就一种或两种水平计算的不确定值定义的范围内无重叠。在某些实施方式中所述不确定值是标准偏差,表示为
Figure BDA0003603576890000891
在一些实施方式中,两种水平(例如算术平均水平)显著不同,它们差异为约1或更多倍的所述不确定值(例如
Figure BDA0003603576890000892
)。在一些实施方式中,两种水平(例如算术平均水平)显著不同,它们差异为约2或更多倍不确定值(例如
Figure BDA0003603576890000893
)、约3或更多、约4或更多、约5或更多、约6或更多、约7或更多、约8或更多、约9或更多或约10或更多倍不确定值。在一些实施方式中,当两种水平(例如算术平均水平)差异为约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、或4.0倍不确定值或更多时,它们显著不同。在一些实施方式中,置信水平随着两种水平之间差异的增加而增加。在某些实施方式中,置信水平随着两种水平之间差异的降低和/或不确定值的增加而降低。例如,有时置信水平以水平和标准偏差(例如MAD)之间差异的比例增加。
可采用一种或多种预测算法确定显著性或给出在变量条件下所采集检测数据的意义,它们的权重可相互独立或相互依赖。本文所用的术语“变量”指算法中具有某一或某组值的某因子、量或函数。
在一些实施方式中,第一组部份通常包括不同于(例如与之无重叠)第二组部份的部份。例如,有时标准化计数第一水平显著不同于概况中标准化计数的第二水平,且所述第一水平针对第一组部份,所述第二水平针对第二组部份和所述部份在第一组和第二组部份之间没有重叠。在某些实施方式中,第一组部份不是第二组部份的子集,从中分别确定第一水平和第二水平。在一些实施方式中,第一组部份与第二组部份不同和/或有差异,从中分别确定第一水平和第二水平。
在一些实施方式中第一组部份是概况中第二组部份的子集。例如,有时概况中第二组部份的标准化计数的第二水平包括概况中第一组部份的标准化计数的第一水平且第一组部份是概况中第二组部份的子集。在一些实施方式中,平均、算术平均或中值水平源自第二水平,其中第二水平包括第一水平。在一些实施方式中,第二水平包括代表整个染色体的第二组部份且第一水平包括第一组部份,其中第一组是第二组部份的子集且第一水平代表母本拷贝数变异、胎儿拷贝数变异或染色体中存在的母本拷贝数变异和胎儿拷贝数变异。
在一些实施方式中,第二水平的值比第一水平更接近染色体或其区段的计数概况的算术平均、平均或中值。在一些实施方式中,第二水平是染色体、染色体部份或其区段的水平的算术平均水平。在一些实施方式中,第一水平显著不同于代表染色体或其区段的主要水平(例如第二水平)。概况可包括多种第一水平,所述第一水平显著不同于第二水平,且各第一水平可独立高于或低于所述第二水平。在一些实施方式中,第一水平和第二水平源自相同染色体且第一水平高于或低于第二水平,所述第二水平是染色体的主要水平。在一些实施方式中,第一水平和第二水平源自相同染色体,第一水平指示拷贝数变异(例如母本和/或胎儿拷贝数变异、缺失、插入、复制)和第二水平是染色体或其区段的部份的算术平均水平或主要水平。
在某些实施方式中,第二水平的第二组部份中的读数基本不包括遗传变异(例如拷贝数变异,母本和/或胎儿拷贝数变异)。通常,第二水平的第二组部份包含一些可变性(例如水平可变性、部份的计数可变性)。在一些实施方式中,针对关联基本无拷贝数变异的水平的部份的组中的一个或多个部份包括一种或多种具有母本和/或胎儿基因组中存在的拷贝数变异的读数。例如,有时部份的组包括染色体小区段(例如少于10部份)中存在的拷贝数变异且部份的组用于与基本无拷贝数变异相关联的水平。因此,基本不包括拷贝数变异的部份的组仍可包括在水平的少于约10、9、8、7、6、5、4、3、2或1个部份中存在的拷贝数变异。
在一些实施方式中,第一水平用于第一组部份和第二水平用于第二组部份且第一组部份和第二组部份邻近(例如关于染色体或其区段的核酸序列毗邻)。在一些实施方式中,第一组部份和第二组部份不相邻。
胎儿和母本核酸混合物的相对较短的序列读数可用于提供计数,其可变换为水平和/或概况。计数,水平和概况可以电子或有形形式描述并可为可视化。映射至部份(例如代表水平和/或概况)的计数可提供胎儿和/或妊娠女性中存在的胎儿和/或母本基因组、染色体、或染色体部份或区段的可视化表示。
参照水平和标准化参照值
在一些实施方式中概况包括参照水平(例如用作参照的水平)。通常标准化计数的概况提供参照水平,从中确定预期水平和预期范围(参见下述预期水平和范围)。参照水平通常用于包括来自母本和胎儿的映射读数的部份的标准化计数。参照水平通常是胎儿和母本(例如妊娠女性)的映射读数的标准化计数的加和。在一些实施方式中包括来自整倍体母本和/或整倍体胎儿的映射读数的部份的参照水平。在一些实施方式中参照水平用于包括具有胎儿和/或母本遗传变异(例如非整倍性(例如三体性)、拷贝数变异、微复制、微缺失、插入)的映射读数的部份。在一些实施方式中,参照水平用于基本不包括胎儿和/或母本遗传变异(例如非整倍性(例如三体性)、拷贝数变异、微复制、微缺失、插入)的部份。在一些实施方式中第二水平用作参照水平。在某些实施方式中,概况包括标准化计数的第一水平和标准化计数的第二水平,所述第一水平显著不同于第二水平且所述第二水平是参照水平。在某些实施方式中,概况包括第一组部份的标准化计数的第一水平,第二组部份的标准化计数的第二水平,所述第一组部份包括具有母本和/或胎儿拷贝数变异的映射读数,所述第二组部份包括基本不具有母本拷贝数变异和/或胎儿拷贝数变异的映射读数,且所述第二水平是参照水平。
在一些实施方式中,就概况的一种或多种水平映射至部份的计数根据参照水平的计数进行标准化。在一些实施方式中,根据参照水平的计数标准化水平计数包括水平计数除以参照水平计数或其倍数或分数。根据参照水平的计数进行标准化的计数通常已根据其他过程(例如PERUN)标准化,且参照水平计数也通常已标准化(例如通过PERUN)。在一些实施方式中,根据参照水平的计数标准化水平计数,且参照水平的计数可在标准化之前或之后扩展为合适的值。扩展参照水平的计数的过程可包括任何合适的常量(即数字)且任何合适的数学操作可用于参照水平的计数。
标准化参照值(NRV)通常根据标准化的参照水平的计数确定。确定NRV可包括用于参照水平的计数的任何合适的标准化过程(例如数学操作),其中相同标准化过程用于标准化相同概况内其他水平的计数。确定NRV通常包括参照水平除以自身。确定NRV通常包括参照水平除以自身的倍数。确定NRV通常包括用参照水平除以参照水平和常量(如任何数字)的加和或差值。
NRV有时指空值。NRV可为任何合适的值。在一些实施方式中,NRV是0以外的任何值。在一些实施方式中NRV是整数。在一些实施方式中NRV是正整数。在一些实施方式中NRV是1、10、100或1000。通常,NRV等于1。在一些实施方式中NRV等于0。参照水平的计数可标准化至任何合适的NRV。在一些实施方式中,参照水平的计数经标准化至0的NRV。通常参照水平的计数经标准化至1的NRV。
预期水平
有时,预期水平是一个预定义水平(例如,理论水平、预测水平)。有时,“预期水平”在本文中称作“预定水平值”。在一些实施方式中,预期水平是关于包括拷贝数变异的部份的集的标准化计数的水平的预测值。在某些实施方式中,确定基本不包含拷贝数变异的部份的集的预期水平。可确定染色体倍性(例如,0、1、2(即,二倍体),3或4个染色体)或微倍性(microploidy)(纯合或杂合缺失、重复、插入或其缺乏)的预期水平。通常,确定母本微倍性(例如,母本和/或胎儿拷贝数变异)的预期水平。
可通过任何合适的方法来确定遗传变异或拷贝数变异的预期水平。通常,通过对水平进行合适的数学处理来确定预期水平(例如,就某一水平而言,映射至部份的集的计数)。在一些实施方式中,有时,通过利用常数(称为预期水平常数)来确定预期水平。有时,通过将参照水平、NRV或参照水平的标准化的计数乘以预期水平常数、加上预期水平常数、减去预期水平常数、除以预期水平常数,或通过其组合,来计算拷贝数变异的预期水平。通常,确定的相同对象、样品或测试组的预期水平(例如,母本和/或胎儿拷贝数变异的预期水平)根据相同的参照水平或NRV来确定。
通常,通过将参照水平、参照水平的标准化计数或NRV乘以预期水平常数来确定预期水平,其中所述参照水平、参照水平的标准化计数或NRV不等于零。在一些实施方式中,通过将预期水平常数与等于零的NRV、参照水平或参照水平的标准化计数相加来确定预期水平。在一些实施方式中,预期水平、参照水平的标准化计数、NRV和预期水平常数是可缩放(scalable)的。缩放过程可包括任何合适的常数(即,数字)和任何合适的数学运算,其中对考虑的所有值应用相同的缩放过程。
预期水平常数
预期水平常数可通过合适的方法确定。在一些实施方式中,任意地确定预期水平常数。通常,基于经验确定预期水平常数。在一些实施方式中,根据数学运算确定预期水平常数。在一些实施方式中,根据参照(例如,参照基因组、参照样品、参照测试数据)确定预期水平常数。在一些实施方式中,就代表遗传变异或拷贝数变异(例如,重复、插入或缺失)存在与否的水平预定预期水平常数。在一些实施方式中,就代表母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异存在与否的水平预定预期水平常数。用于拷贝数变异的预期水平常数可以是任何合适的常数或常数集。
在一些实施方式中,纯合重复(例如,纯合重复)的预期水平常数可以是约1.6-约2.4,约1.7-约2.3,约1.8-约2.2,或约1.9-约2.1。在一些实施方式中,纯合重复的预期水平常数是约1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3或约2.4。通常,纯合重复的预期水平常数是约1.90、1.92、1.94、1.96、1.98、2.0、2.02、2.04、2.06、2.08或约2.10。通常,纯合重复的预期水平常数约为2。
在一些实施方式中,杂合重复(例如,纯合重复)的预期水平常数是约1.2-约1.8,约1.3-约1.7,或约1.4-约1.6。在一些实施方式中,杂合重复的预期水平常数是约1.2、1.3、1.4、1.5、1.6、1.7或约1.8。通常,杂合重复的预期水平常数是约1.40、1.42、1.44、1.46、1.48、1.5、1.52、1.54、1.56、1.58或约1.60。在一些实施方式中,杂合重复的预期水平常数是约1.5。
在一些实施方式中,没有拷贝数变异(例如,没有母本拷贝数变异和/或胎儿拷贝数变异)的预期水平常数是约1.3-约0.7,约1.2-约0.8,或约1.1-约0.9。在一些实施方式中,没有拷贝数变异的预期水平常数是约1.3、1.2、1.1、1.0、0.9、0.8或约0.7。通常,没有拷贝数变异的预期水平常数是约1.09、1.08、1.06、1.04、1.02、1.0、0.98、0.96、0.94或约0.92。在一些实施方式中,没有拷贝数变异的预期水平常数约为1。
在一些实施方式中,杂合缺失(例如,母本、胎儿,或母本和胎儿杂合缺失)的预期水平常数是约0.2-约0.8,约0.3-约0.7,或约0.4-约0.6。在一些实施方式中,杂合缺失的预期水平常数是约0.2、0.3、0.4、0.5、0.6、0.7或约0.8。通常,杂合缺失的预期水平常数是约0.40、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58或约0.60。在一些实施方式中,杂合缺失的预期水平常数是约0.5。
在一些实施方式中,纯合缺失(例如,纯合缺失)的预期水平常数可以是约-0.4至约0.4,约-0.3至约0.3,约-0.2至约0.2,或约-0.1至约0.1。在一些实施方式中,纯合缺失的预期水平常数是约-0.4、-0.3、-0.2、-0.1、0.0、0.1、0.2、0.3或约0.4。通常,纯合缺失的预期水平常数是约-0.1、-0.08、-0.06、-0.04、-0.02、0.0、0.02、0.04、0.06、0.08或约0.10。通常,纯合缺失的预期水平常数约是0。
预期水平范围
在一些实施方式中,通过落在预期水平范围内或外的水平来确定遗传变异或拷贝数变异(例如,母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异)的存在与否。预期水平范围通常根据预期水平来确定。在一些实施方式中,就包含基本无遗传变异或基本无拷贝数变异的水平确定预期水平范围。可采用合适的方法来确定预期水平范围。
在一些实施方式中,根据对于水平计算的合适的不确定性值来确定预期水平范围。不确定性值的非限制性示例有标准偏差、标准误差、计算方差、p-值或算术平均绝对偏差(MAD)。在一些实施方式中,通过计算水平(例如,第一水平、第二水平、第一水平和第二水平)的不确定性值来部分地确定遗传变异或拷贝数变异的预期水平范围。在一些实施方式中,根据就概况(例如,染色体或其区段的标准化计数的概况)计算的不确定性值来确定预期水平范围。在一些实施方式中,就包含基本无遗传变异或基本无拷贝数变异的水平计算不确定性值。在一些实施方式中,就第一水平、第二水平或第一水平和第二水平计算不确定性值。在一些实施方式中,就第一水平、第二水平或包含第一水平的第二水平确定不确定性值。
有时,预期水平范围部分通过如下方式计算:用不确定性值乘以、加上、减去或除以常数(例如,预定常数)n。可采用合适的数学运算或处理的组合。有时,常数n(例如,预定常数n)称为置信区间。根据选择的常数n来确定选择的置信区间。常数n(例如,预定常数n,置信区间)可通过合适的方法来确定。常数n可以是数字或大于零的数字的分数。常数n可以是整数。通常,常数n是小于10的数字。在一些实施方式中,常数n是小于约10,小于约9,小于约8,小于约7,小于约6,小于约5,小于约4,小于约3,或小于约2的数字。在一些实施方式中,常数n是约10、9.5、9、8.5、8、7.5、7、6.5、6、5.5、5、4.5、4、3.5、3、2.5、2或1。利用已知的遗传倾向,常数n可根据经验从源自对象(妊娠女性和/或胎儿)的数据确定。
通常,不确定性值和常数n确定范围(例如,不确定性截止值)。例如,有时,不确定性值是标准偏差(例如,+/-5)并且乘以常数n(例如,置信区间),由此确定范围或不确定性截止值(例如,5n至-5n)。
在一些实施方式中,遗传变异(例如,母本拷贝数变异、胎儿拷贝数变异、或母本拷贝数变异和胎儿拷贝数变异)的预期水平范围是预期水平加上常数n乘以不确定性(例如,nxσ(例如,6σ))之和。在一些实施方式中,由k指定的遗传变异或拷贝数变异的预期水平范围可通过下式确定:
式R:(预期水平范围)k=(预期水平)k+nσ
其中σ是不确定性值,n是常数(例如,预定常数),并且预期水平范围和预期水平用于遗传变异k(例如,k=杂合缺失,例如,k=没有遗传变异)。例如,对于预期水平等于1(例如,没有拷贝数变异),不确定性值(即σ)等于+/-0.05,且n=3,所述预期水平范围确定为1.15至0.85。在一些实施方式中,当杂合重复的预期水平是1.5,n=3,且不确定性值σ是+/-0.05时,杂合重复的预期水平范围确定为1.65至1.35。在一些实施方式中,当杂合重复的预期水平是0.5,n=3,且不确定性值σ是+/-0.05时,杂合缺失的预期水平范围确定为0.65至0.35。在一些实施方式中,当杂合重复的预期水平是2.0,n=3且不确定性值σ是+/-0.05时,纯合缺失的预期水平范围确定为2.15至1.85。在一些实施方式中,当杂合重复的预期水平是0.0,n=3且不确定性值σ是+/-0.05时,纯合缺失的预期水平范围确定为0.15至-0.15。
在一些实施方式中,纯合拷贝数变异(例如,母本、胎儿或母本和胎儿纯合拷贝数变异)的预期水平范围部分地根据相应的杂合拷贝数变异的预期水平范围来确定。例如,有时,纯合重复的预期水平范围包含大于杂合重复的预期水平范围的上限的全部的值。在一些实施方式中,纯合重复的预期水平范围包含大于或等于杂合重复的预期水平范围的上限的全部的值。在一些实施方式中,纯合重复的预期水平范围包含大于杂合重复的预期水平范围的上限且小于通过式R(其中σ是不确定性值且是正值,n是常数且k是纯合重复)确定的上限的全部的值。在一些实施方式中,纯合重复的预期水平范围包含大于或等于杂合重复的预期水平范围的上限且小于或等于通过式R(其中σ是不确定性值,σ是正值,n是常数且k是纯合重复)确定的上限的全部的值。
在一些实施方式中,纯合缺失的预期水平范围包含小于杂合缺失的预期水平范围的下限的全部的值。在一些实施方式中,纯合缺失的预期水平范围包含小于或等于杂合缺失的预期水平范围的下限的全部的值。在一些实施方式中,纯合缺失的预期水平范围包含下于杂合缺失的预期水平范围的下限且大于由式R(其中σ是不确定性值,σ是负值,n是常数且k是纯合缺失)确定的下限的全部的值。在一些实施方式中,纯合缺失的预期水平范围包含小于或等于杂合缺失的预期水平范围的下限且大于或等于由式R(其中σ是不确定性值,σ是负值,n是常数且k是纯合缺失)确定的下限的全部的值。
可利用不确定性值来确定阈值。在一些实施方式中,通过计算由原始、经过滤和/或标准化的计数确定的不确定性值获得范围(例如,阈值范围)。在一些实施方式中,范围可通过如下方式来确定:将水平(例如,水平的标准化计数)的不确定性值乘以预定常数(例如,1、2、3、4、5、6等),所述预定常数代表选择作为截止阈值(例如,对于3个标准偏差则乘以3)的多个不确定性(例如,标准偏差的数目),由此产生范围。在一些实施方式中,范围可通过如下方式来确定:对某一水平加上和/或减去某一值(例如,预定值、不确定性值,与预定常数相乘的不确定性值),由此产生范围。例如,对于等于1的水平,标准偏差为+/-0.2,其中预定常数是3,则范围可计算为(1+3(0.2))至(1+3(-0.2)),或1.6至0.4。有时,范围可确定拷贝数变异的预期范围或预期水平范围。在某些实施方式中,在标准化方法之前、过程中或之后,将超过阈值、落在范围之外或落在值的范围之内的部份的一些或全部移除。在一些实施方式中,在标准化或分类处理过程中或之前,对超出计算的阈值、落在范围之外或落在范围内的部份的一些或全部进行加权或调节。本文描述了加权的示例。本文所用的术语“冗余数据”和“冗余定位读数”指鉴定为已经分配了基因组位置(如碱基位置)和/或算作部份的样品源性序列读数。
在一些实施方式中,不确定性值根据下式确定:
Figure BDA0003603576890000981
其中Z代表两个水平之间的标准化偏差,L是平均(或中值)水平,且σ是标准偏差(或MAD)。下标O表示概况的区段(例如,第二水平、染色体、NRV、“整倍性水平”、缺乏拷贝数变异的水平),而A表示另一概况区段(例如,第一水平、代表拷贝数变异的水平,代表异倍性(例如,三体性)的水平。变量No代表由下标O表示的概况的区段中的部份的总数。NA代表由下标A表示的概况的区段中的部份的总数。
拷贝数变异的分类
与其它水平(例如,第二水平)具有显著差异的水平(例如,第一水平)通常可根据预期水平范围被分类为拷贝数变异(例如,母本和/或胎儿拷贝数变异、胎儿拷贝数变异、缺失、重复、插入)。在一些实施方式中,当第一水平与第二水平显著不同,且第一水平落在拷贝数变异的预期水平范围之内时,存在拷贝数变异被分类。例如,当第一水平与第二水平显著不同,且第一水平落在拷贝数变异的预期水平范围之内时,可分类拷贝数变异(例如,母本和/或胎儿拷贝数变异、胎儿拷贝数变异)。在一些实施方式中,当第一水平与第二水平显著不同且第一水平分别落在杂合重复或杂合缺失的预期水平范围之内时,分类杂合重复(例如,母本或胎儿,或母本和胎儿,杂合重复)或杂合缺失(例如,母本或胎儿,或母本和胎儿,杂合缺失)。在一些实施方式中,当第一水平与第二水平显著不同且第一水平分别落在纯合缺失或纯合缺失的预期水平范围之内时,分类纯合重复或纯合缺失。
水平调节
在一些实施方式中,调节一个或多个水平。调节水平的过程通常称为填补(padding)。在一些实施方式中,调节概况(例如,基因组概况、染色体概况,染色体的部份或区段的概况)的多个水平。在一些实施方式中,调节概况中的约1-约10,000或更多个水平。在一些实施方式中,调节概况中的约1-约1000、1-约900、1-约800、1-约700、1-约600、1-约500、1-约400、1-约300、1-约200、1-约100、1-约50、1-约25、1-约20、1-约15、1-约10、或1-约5个水平。在一些实施方式中,调节一个水平。在一些实施方式中,调节与第二水平显著不同的水平(例如,标准化的计数概况的第一水平)。在一些实施方式中,调节分类为拷贝数变异的水平。在一些实施方式中,将与第二水平显著不同的水平(例如,标准化的计数概况的第一水平)分类为拷贝数变异(例如,拷贝数变异,例如,母本拷贝数变异)并进行调节。在一些实施方式中,水平(例如,第一水平)处于母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异的预期水平范围之内,则调节所述水平。在一些实施方式中,不调节一个或多个水平(例如,概况中的水平)。在一些实施方式中,水平(例如,第一水平)处于拷贝数变异的预期水平范围之外,且不调节所述水平。通常,不调节处于缺乏拷贝数变异的预期水平范围之内的水平。可对概况中的一个或多个水平做出任何合适数量的调节。在一些实施方式中,调节一个或多个水平。在一些实施方式中,调节2个或更多个、3个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个,且有时10个或更多个水平。
在一些实施方式中,根据第二水平的值调节第一水平的值。在一些实施方式中,鉴定为代表拷贝数变异的第一水平向第二水平的值调节,其中第二水平通常与无拷贝数变异相关。在某些实施方式中,调节鉴定为代表拷贝数变异的第一水平的值,从而第一水平的值约等于第二水平的值。
调节可包括合适的数学运算。在一些实施方式中,调节包括一个或多个数学运算。在一些实施方式中,水平通过标准化、过滤、平均化、乘、除、加或减或其组合来调节。在一些实施方式中,水平通过预定值或常数调节。在一些实施方式中,水平通过将该水平的值修改为另一水平的值来调节。例如,可通过将第一水平的值修改至第二水平的值来调节第一水平。此类情况中的值可以是经处理的值(例如,平均值,标准化的值等)。
在一些实施方式中,水平分类为拷贝数变异(例如,母本拷贝数变异)并且根据在本文中称作预定调节值(PAV)的预定值来调节。通常,确定PAV用与特定拷贝数变异。通常,采用确定用于特定拷贝数变异(例如,纯合重复、纯合缺失、杂合重复、杂合缺失)的PAV来调节分类为特定拷贝数变异(例如,纯合重复、纯合缺失、杂合重复、杂合缺失)的水平。在某些实施方式中,水平分类为拷贝数变异,然后根据对拷贝数变异分类的类型具有特异性的PAV进行调节。在一些实施方式中,水平(例如,第一水平)分类为母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异,并且通过从该水平加上或减去PAV来调节。通常,水平(例如,第一水平)分类为母本拷贝数变异,并且通过对该水平加上PAV来调节。例如,归类为重复(例如,母本、胎儿,或母本和胎儿纯合重复)的水平可通过添加对特定重复(例如,纯合重复)确定的PAV来调节,由此提供调节的水平。通常,对拷贝数重复确定的PAV是负值。在一些实施方式中,通过采用就重复确定的PAV,向代表重复的水平提供调节,会导致水平值的降低。在一些实施方式中,与第二水平显著不同的水平(例如,第一水平)分类为拷贝数缺失(例如,纯合缺失、杂合缺失、纯合重复、纯合重复),并且,第一水平通过添加对拷贝数缺失确定的PAV来调节。通常,对拷贝数缺失确定的PAV是正值。在一些实施方式中,通过采用就缺失确定的PAV,向代表缺失的水平提供调节,会导致水平值的提高。
PAV可为任何合适的值。通常,根据拷贝数变异(例如,分类的拷贝数变异)确定PAV,并且其对拷贝数变异(例如,分类的拷贝数变异)具有特异性。在某些实施方式中,根据拷贝数变异(例如,分类的拷贝数变异)和/或PAV因子的预期水平确定PAV。有时,通过将预期水平乘以PAV因子来确定PAV。例如,对于拷贝数变异的PAV可通过如下方式来确定:将对于拷贝数变异(例如,杂合缺失)确定的预期水平乘以对于相同拷贝数变异(例如,杂合缺失)确定的PAV因子。例如,PAV可通过下式确定:
PAVk=(预期水平)k×(PAV因子)k
对于拷贝数变异k(例如,k=杂合缺失)
PAV因子可以是任何合适的值。在一些实施方式中,纯合重复的PAV因子在约-0.6至约-0.4之间。在一些实施方式中,纯合重复的PAV因子是约-0.60、-0.59、-0.58、-0.57、-0.56、-0.55、-0.54、-0.53、-0.52、-0.51、-0.50、-0.49、-0.48、-0.47、-0.46、-0.45、-0.44、-0.43、-0.42、-0.41和-0.40。通常,纯合重复的PAV因子是约-0.5。
例如,对于约为1的NRV和约等于2的纯合重复预期水平,根据上式,纯合重复的PAV确定约为-1。在该情况中,例如,分类为纯合重复的第一水平通过向第一水平的值加约-1来调节。
在一些实施方式中,杂合重复的PAV因子在约-0.4和约-0.2之间。在一些实施方式中,杂合重复的PAV因子是约-0.40、-0.39、-0.38、-0.37、-0.36、-0.35、-0.34、-0.33、-0.32、-0.31、-0.30、-0.29、-0.28、-0.27、-0.26、-0.25、-0.24、-0.23、-0.22、-0.21和-0.20。通常,杂合重复的PAV因子是约-0.33。
例如,对于约为1的NRV和约等于1.5的杂合重复预期水平,根据上式,纯合重复的PAV确定约为-0.495。在该情况中,例如,分类为杂合重复的第一水平通过向第一水平的值加约-0.495来调节。
在一些实施方式中,杂合缺失的PAV因子在约0.4和约0.2之间。在一些实施方式中,杂合缺失的PAV因子是约0.40、0.39、0.38、0.37、0.36、0.35、0.34、0.33、0.32、0.31、0.30、0.29、0.28、0.27、0.26、0.25、0.24、0.23、0.22、0.21和0.20。通常,杂合缺失的PAV因子是约0.33。
例如,对于约为1的NRV和约等于0.5的杂合缺失预期水平,根据上式,杂合缺失的PAV确定约为0.495。在该情况中,例如,分类为杂合缺失的第一水平通过向第一水平的值加约0.495来调节。
在一些实施方式中,纯合缺失的PAV因子在约0.6和约0.4之间。在一些实施方式中,纯合缺失的PAV因子是约0.60、0.59、0.58、0.57、0.56、0.55、0.54、0.53、0.52、0.51、0.50、0.49、0.48、0.47、0.46、0.45、0.44、0.43、0.42、0.41和0.40。通常,纯合缺失的PAV因子是约0.5。
例如,对于约为1的NRV和约等于0的纯合缺失预期水平,根据上式,纯合缺失的PAV确定约为1。在该情况中,例如,分类为纯合缺失的第一水平通过向第一水平的值加约1来调节。
在某些实施方式中,PAV约等于或等于拷贝数变异的预期水平(例如,拷贝数变异的预期水平)。
在一些实施方式中,水平的计数在进行调节之前经标准化。在某些实施方式中,概况中一些或全部水平的计数在进行调节之前经标准化。例如,水平的计数可根据参照水平的计数或NRV来标准化。在某些实施方式中,水平(例如,第二水平)的计数根据参照水平的计数或NRV标准化,并且概况中的全部其它水平(例如,第一水平)的计数在进行调节之前相对于相同的参照水平或NRV标准化。
在一些实施方式中,概况的水平经一个或多个调节而获得。在某些实施方式中,概况的水平在概况中一个或多个水平经调节之后确定。在一些实施方式中,概况的水平在进行了一个或多个调节之后重新计算。
在一些实施方式中,由调节确定(例如,直接或间接确定)拷贝数变异(例如,母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异)。例如,经调节的概况中的水平(例如,经调节的第一水平)可被鉴定为母本拷贝数变异。在一些实施方式中,调节的量级指示拷贝数变异(例如,杂合缺失,纯合重复等)的大小。在某些实施方式中,概况中的调节的水平可根据拷贝数变异的PAV值被鉴定为代表拷贝数变异。例如,对于给定的概况,纯合重复的PAV是约-1,杂合重复是约-0.5,杂合缺失是约0.5,而纯合缺失是约1。在之前的示例中,例如,调节了约-1的水平可被鉴定为纯合重复。在一些实施方式中,一个或多个拷贝数变异由包含一个或多个调节的概况或水平确定。
在某些实施方式中,比较概况中的调节的水平。在一些实施方式中,通过比较调节的水平来鉴定异常和错误。例如,通常,比较概况中的一个或多个调节的水平,并且可将具体水平鉴定为异常或错误。在一些实施方式中,在补足水平的一个或多个部份中鉴定异常或错误。可在相同水平(例如,概况中)或在代表相邻、连续、邻接或毗连的部份的一个或多个水平中鉴定异常或错误。在一些实施方式中,一个或多个调节的水平是相邻、连续、邻接或毗连的部份的水平,其中比较所述一个或多个调节的水平,并鉴定异常或错误。异常或错误可以是概况或水平中的峰或谷,其中造成所述峰或谷的原因是已知或未知的。在某些实施方式中,比较调节的水平并鉴定异常或错误,其中所述异常或错误归因于随机的、系统性的、任意或用户错误。在一些实施方式中,比较调节的水平,并从概况移除异常或错误。在某些实施方式中,比较调节的水平,并调节异常或错误。
确定胎儿核酸含量
在一些实施方式中,确定核酸中胎儿核酸的量(例如,浓度、相对量、绝对量、拷贝数等)。在某些实施方式中,样品中胎儿核酸的量称为“胎儿分数”。在一些实施方式中,“胎儿分数”指获自妊娠女性的样品(例如血液样品、血清样品、血浆样品)中的循环无细胞核酸中的胎儿核酸分数。在一些实施方式中,其中确定遗传变异的方法也可包括确定胎儿分数。在一些实施方式中,根据胎儿分数(例如,样品的胎儿分数确定)来确定遗传变异的存在与否。胎儿分数的确定能够以合适的方式进行,其非限制性示例包括如下所述的方法。
在一些实施方式中,可采用本文所述的用于确定片段长度的方法来确定胎儿分数。无细胞胎儿核酸片段通常比母本来源的核酸片段短(参见例如Chan等(2004)Clin.Chem.50:88-92;Lo等.(2010)Sci.Transl.Med.2:61ra91)。因此,在一些实施方式中,胎儿分数可通过如下方式确定:对处于具体长度阈值之下的片段计数,并将该计数与样品中总核酸的量做比较。用于对具体长度的核酸片段计数的方法法在下文中做进一步描述。
在某些实施方式中,根据下述内容确定胎儿核酸的含量:对雄性胎儿特异的标记物(例如Y染色体STR标记物(例如DYS 19、DYS 385、DYS 392标记物);RhD阴性女性中的RhD标记物)、多态性序列的等位基因比例、或对胎儿核酸特异而对母本核酸非特异的一种或多种标记物(例如母本和胎儿之间的差异性表观遗传学生物标记(例如甲基化;如下详述)、或母本血浆中的胎儿RNA标记物(参见例如Lo,2005,Journal of Histochemistry andCytochemistry 53(3):293-296))。
确定胎儿核酸含量(例如胎儿分数)有时用胎儿定量试验(FQA)进行,如美国专利申请公开2010/0105049所述,其通过引用纳入本文。此类试验允许基于样品中核酸的甲基化状态检测和定量母本样品中的胎儿核酸。在某些实施方式中,母本样品中胎儿核酸的含量可相对存在的核酸总量进行确定,从而提供样品中胎儿核酸的百分比。在某些实施方式中,可确定母本样品中胎儿核酸的拷贝数。在某些实施方式中,可以序列特异性(或部份-特异性)方式确定胎儿核酸的量,且有时灵敏度足以进行精确的染色体剂量分析(例如,用以检测胎儿非整倍性的存在与否)。
胎儿定量试验(FQA)可与本文所述任何方法联合进行。可通过本领域任何已知方法和/或美国专利申请公开2010/0105049所述进行该试验,例如通过可基于差异性甲基化状态区分母本和胎儿DNA的方法、以及定量胎儿DNA(即确定其含量)的方法。基于甲基化状态区分核酸的方法包括但不限于甲基化敏感性捕获(例如使用MBD2-Fc片段,其中MBD2的甲基化结合结构域融合至抗体的Fc片段(MBD-FC)(Gebhard等(2006)Cancer Res.66(12):6118-28));甲基化特异抗体、亚硫酸氢盐转化法,例如MSP(甲基化敏感的PCR)、COBRA、甲基化敏感的单核苷酸引物延伸(Ms-SNuPE)或塞昆纳姆股份有限公司(Sequenom)MassCLEAVETM技术;和甲基化敏感的限制性酶的应用(例如用一种或多种甲基化敏感的限制性酶消化母本样品中的母本DNA,从而富集胎儿DNA)。甲基敏感的酶还可用于基于甲基化状态区分核酸,例如其DNA识别序列未甲基化时优选或显著切割或消化。因此,未经甲基化的DNA样品会被切成比甲基化样品小的片段,而高甲基化的DNA样品不会被切割。除非明确指出,基于甲基化状态的任何区分核酸的方法均可用于本发明组合物和方法。可通过例如在扩增反应期间引入已知浓度的一种或多种竞争剂来确定胎儿DNA的含量。还可通过例如RT-PCR、引物延伸、测序和/或计数来确定胎儿DNA的含量。在某些示例中,可用美国专利申请公开2007/0065823中所述的BEAMing技术来确定核酸的含量。在某些实施方式中,可确定限制性功效并用该效率比进一步确定胎儿DNA的量。
在某些实施方式中,胎儿定量试验(FQA)可用母本样品中的胎儿DNA浓度来确定,例如通过下述方法:a)确定母本样品中存在的DNA总量;b)用一种或多种甲基化敏感的限制性酶选择性消化母本样品中的母本DNA从而富集所述胎儿DNA;c)确定来自步骤b)的胎儿DNA量;以及d)比较步骤c)所得胎儿DNA的量与步骤a)所得DNA的总量,从而确定母本样品中胎儿DNA的浓度。在某些实施方式中,可确定母本样品中胎儿核酸的绝对拷贝数,例如,采用质谱和/或利用针对绝对拷贝数确定的竞争性PCR方法的系统。参见例如Ding和Cantor(2003)PNAS.USA 100:3059-3064,和美国专利申请公开2004/0081993,其均通过引用纳入本文。
在某些实施方式中,可基于多肽性序列的等位基因比例(例如单核苷酸多态性(SNP))来确定胎儿分数,例如使用美国专利申请公开2011/0224087中所述的方法,其通过引用纳入本文。该方法中,就母本样品获取核苷酸序列读数,并通过比较映射至第一等位基因的核苷酸序列读数的总数与映射至位于参照基因组中的参照性多态位点(如SNP)的第二等位基因的核苷酸序列读数的总数来确定胎儿分数。在某些实施方式中,通过例如在样品中的胎儿和母本核酸的混合物中,相对于母本核酸对混合物的较大贡献,胎儿等位基因的相对较小贡献来鉴定胎儿等位基因。因此,母本样品中胎儿核酸的相对丰度可作为(就多态位点的两个等位基因中每个来说)映射至参照基因组上靶核酸序列的独特序列读数的总数的参数来确定。
细胞外核酸中的胎儿核酸的量可定量,并可与本文所述方法联合使用。因此,在某些实施方式中,本文所述技术的方法包括确定胎儿核酸的量的额外步骤。可在加工以制备样品核酸之前或之后确定对象的核酸样品中胎儿核酸的量。在某些实施方式中,在样品核酸经加工和制备后,确定样品中胎儿核酸的量,并用于进一步评价。在一些实施方式中,结果包括将样品核酸中的胎儿核酸分数分解为因子(如调整计数、除去样品、作出判定或不作出判定)。
所述确定步骤可在本文所述方法之前、期间、本文所述方法之中任何时间点或本文所述某些方法之后(例如非整倍性检测、胎儿性别确定)进行。例如,为了实现有给定灵敏度或特异性的胎儿性别或非整倍性确定方法,胎儿核酸定量方法可以在胎儿性别或非整倍性确定之前、中或后进行,以鉴定有大于约2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%或更多胎儿核酸的那些样品。在一些实施方式中,被确定为具有某一胎儿核酸阈值量(如约15%或更多胎儿核酸;如约4%或更多胎儿核酸)的样品进一步用于分析例如胎儿性别或非整倍性确定,或是否存在非整倍性或遗传变异。在某些实施方式中,仅选择(例如,选择并告知患者)具有某一胎儿核酸阈值量(如约15%或更多胎儿核酸;如约4%或更多胎儿核酸)的样品确定例如胎儿性别或是否存在非整倍性。
在一些实施方式中,确定胎儿分数分或确定胎儿核酸的量并非鉴定是否存在染色体非整倍性所必需。在一些实施方式中,鉴定是否存在染色体非整倍性不需要胎儿与母本DNA的序列区分。在某些实施方式中,这是由于对母本和胎儿序列对具体染色体、染色体部份或其区段的加成贡献进行了分析。在一些实施方式中,鉴定是否存在染色体非整倍性不依赖于区分胎儿DNA和母本DNA的先验序列信息。
基于水平的胎儿分数确定
在一些实施方式中,胎儿分数根据分类为代表母本和/或胎儿拷贝数变异的水平来确定。例如,胎儿分数的确定通常包括评估用于确定胎儿分数的母本和/或胎儿拷贝数变异的预期水平。在一些实施方式中,对于如下情况确定胎儿分数:根据确定的相同类型的拷贝数变异的预期水平范围,分类为代表拷贝数变异的水平(例如,第一水平)。通常,根据落在预期水平范围中的观察到的水平,由此分类为母本和/或胎儿拷贝数变异,来确定胎儿分数。在一些实施方式中,当分类为母本和/或胎儿拷贝数变异的观察到的水平(例如,第一水平)与确定的相同的母本和/或胎儿拷贝数变异的预期水平不同时,确定胎儿分数。
在一些实施方式中,水平(例如,第一水平,观察到的水平)与第二水平显著不同,第一水平被归类为母本和/或胎儿拷贝数变异,且胎儿分数根据第一水平确定。在一些实施方式中,第一水平是观察到的和/或通过实验获得的水平,其在概况中与第二水平显著不同,则根据第一水平确定胎儿分数。在一些实施方式中,第一水平是平均、算术平均或加和的水平,并且胎儿分数根据第一水平确定。在某些实施方式中,第一水平和第二水平是观察到的和/或通过实验获得的水平,并且胎儿分数根据第一水平确定。在一些示例中,第一水平包含第一组部份的标准化计数,而第二水平包含第二组部份的标准化计数,并且胎儿分数根据第一水平确定。在一些实施方式中,第一水平的第一组部份包含拷贝数变异(例如,第一水平代表拷贝数变异),并且胎儿分数根据第一水平确定。在一些实施方式中,第一水平的第一组部份包含纯合或杂合母本拷贝数变异,并且胎儿分数根据第一水平确定。在一些实施方式中,概况包含用于第一组部份的第一水平和用于第二组部份的第二水平,第二组部份基本不包含拷贝数变异(例如,母本拷贝数变异、胎儿拷贝数变异,或母本拷贝数变异和胎儿拷贝数变异),并且胎儿分数根据第一水平确定。
在一些实施方式中,水平(例如,第一水平,观察到的水平)与第二水平显著不同,第一水平分类为用于母本和/或胎儿拷贝数变异,且胎儿分数根据第一水平和/或拷贝数变异的预期水平确定。在一些实施方式中,根据拷贝数变异的预期水平,将第一水平分类为用于拷贝数变异,并且胎儿分数根据第一水平与预期水平之间的差异确定。在某些实施方式中,水平(例如,第一水平,观察到的水平)被归类为母本和/或胎儿拷贝数变异,并且胎儿分数确定为第一水平和拷贝数变异的预期水平之间的差异的两倍。在一些实施方式中,水平(例如,第一水平,观察到的水平)被归类为母本和/或胎儿拷贝数变异,第一水平从预期水平被减去,由此提供差异,并且胎儿分数确定为所述差异的两倍。在一些实施方式中,水平(例如,第一水平,观察到的水平)被归类为母本和/或胎儿拷贝数变异,预期水平从第一水平减去,由此提供差异,并且胎儿分数确定为所述差异的两倍。
通常,胎儿分数以百分数形式提供。例如,胎儿分数可除以100,由此提供百分数值。例如,对于代表母本纯合重复且具有155的水平的第一水平和用于母本纯合重复且具有150的水平的预期水平,胎儿分数可确定为10%(例如,(胎儿分数=2x(155–150))。
在一些实施方式中,胎儿分数由分类为拷贝数变异的概况中的两个或更多个水平确定。例如,有时,概况中的两个或更多个水平(例如,两个或更多个第一水平)被鉴定为与参照水平(例如,第二水平,基本不含拷贝数变异的水平)显著不同,所述两个或更多个水平被分类为代表母本和/或胎儿拷贝数变异,并且胎儿分数由所述两个或更多个水平中的各水平确定。在一些实施方式中,从概况中的约3或更多、约4或更多、约5或更多、约6或更多、约7或更多、约8或更多,或约9或更多的胎儿分数测定来确定胎儿分数。在一些实施方式中,从概况中的约10或更多、约20或更多、约30或更多、约40或更多、约50或更多、约60或更多、约70或更多、约80或更多、或约90或更多的胎儿分数测定来确定胎儿分数。在一些实施方式中,从概况中的约100或更多、约200或更多、约300或更多、约400或更多、约500或更多、约600或更多、约700或更多、约800或更多、约900或更多、或约1000或更多的胎儿分数测定来确定胎儿分数。在一些实施方式中,从概况中的约10-约1000、约20-约900、约30-约700、约40-约600、约50-约500、约50-约400、约50-约300、约50-约200、或约50-约100个胎儿分数测定来确定胎儿分数。
在一些实施方式中,胎儿分数确定为概况中的多个胎儿分数测定的平均或算术平均值。在某些实施方式中,由多个胎儿分数确定值确定的胎儿分数是多个胎儿分数测定的平均(例如,算术平均、平均、标准平均、中值等)值。通常,由多个胎儿分数测定所确定的胎儿分数是通过本领域已知或本文所述的合适的方法确定的平均值。在一些实施方式中,胎儿分数测定的平均值是加权的平均值。在一些实施方式中,胎儿分数测定的平均值是未加权的平均值。由多个胎儿分数测定产生的平均、中值或算术平均胎儿分数测定(即,平均、中值或算术平均胎儿分数测定)有时与不确定性值(例如,差异、标准偏差、MAD等)相关联。在从多个测定确定平均、中值或算术平均胎儿分数值之前,在一些实施方式中,移除一个或多个异常的测定(在本文中有更详细的描述)。
有时,概况中的一些胎儿分数测定不包括在胎儿分数的总体确定(例如,平均或算术平均胎儿分数确定)之中。在一些实施方式中,胎儿分数确定源自概况中的第一水平(例如,与第二水平显著不同的第一水平),并且该第一水平不指示遗传变异。例如,概况中的一些第一水平(例如,尖峰或尖谷)由异常或位置原因产生。这些值通常产生与真实拷贝数变异获得的其它胎儿分数测定显著不同的胎儿分数测定。在一些实施方式中,与概况中其它胎儿分数测定显著不同的胎儿分数测定被鉴定出来,并从胎儿分数确定中移除。例如,获自异常尖峰和尖谷的一些胎儿分数测定通过将其与概况中的其它胎儿分数测定做比较而被鉴定出来,并从胎儿分数的总体确定中排除。
在一些实施方式中,与平均、中值或算术平均胎儿分数测定显著不同的独立的胎儿分数测定是被鉴定的、被识别的和/或可观察的差异。在某些实施方式中,术语“显著不同”可表示统计学差异和/或统计学显著差异。“独立的”胎儿分数确定可以是由分类为拷贝数变异的特定水平确定的胎儿分数(例如,在一些实施方式中,单测定)。任何合适的阈值或范围均可用于确定与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定。在某些实施方式中,胎儿分数测定与平均、中值或算术平均胎儿分数测定显著不同,则可表示该测定从所述平均或算术平均值的百分数偏离(percent deviation)。在某些实施方式中,与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定的差异有约10%或更多。在一些实施方式中,与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定的差异有约15%或更多。在一些实施方式中,与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定的差异有约15%-约100%或更多。
在某些实施方式中,根据与平均或算术平均胎儿分数测定相关联的多个不确定性值,胎儿分数测定与平均、中值或算术平均胎儿分数测定显著不同。通常,不确定性值和常数n(例如,置信区间)限定范围(例如,不确定性截止值)。例如,有时,不确定性值是胎儿分数测定的标准偏差(例如,+/-5),并且乘以常数n(例如,置信区间),由此确定范围或不确定性截止值(例如,5n至-5n,有时,称为5σ)。在一些实施方式中,独立的胎儿分数测定落在由不确定性截止值限定的范围之外,并且被视作与平均、中值或算术平均胎儿分数测定显著不同。例如,平均值为10且不确定性截止值为3,则大于13或小于7的独立的胎儿分数是显著不同的。在一些实施方式中,与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定的差异比不确定性值多n倍(例如,n xσ),其中n约等于或大于1、2、3、4、5、6、7、8、9或10。在一些实施方式中,与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定的差异多于不确定性值的n倍(例如,n xσ),其中n约等于或大于1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9或4.0。
在一些实施方式中,水平表示胎儿和/或母本微倍性。在一些实施方式中,水平(例如,第一水平,观察到的水平)与第二水平显著不同,该第一水平被归类为母本和/或胎儿拷贝数变异,并且该第一水平和/或第二水平代表胎儿微倍性和/或母本微倍性。在某些实施方式中,第一水平代表胎儿微倍性,在一些实施方式中,第一水平代表母本微倍性。通常,第一水平代表胎儿微倍性和母本微倍性。在一些实施方式中,水平(例如,第一水平,观察到的水平)与第二水平显著不同,所述第一水平被归类为母本和/或胎儿拷贝数变异,所述第一水平代表胎儿和/或母本微倍性,并且胎儿分数根据胎儿和/或母本微倍性确定。在一些示例中,第一水平被归类为母本和/或胎儿拷贝数变异,第一水平代表胎儿微倍性,且胎儿分数根据胎儿微倍性确定。在一些实施方式中,第一水平被归类为母本和/或胎儿拷贝数变异,第一水平代表母本微倍性,且胎儿分数根据母本微倍性确定。在一些实施方式中,第一水平被归类为母本和/或胎儿拷贝数变异,第一水平代表母本和胎儿微倍性,且胎儿分数根据母本和胎儿微倍性确定。
在一些实施方式中,胎儿分数的确定包括确定胎儿和/或母本微倍性。在一些实施方式中,水平(例如,第一水平,观察到的水平)与第二水平显著不同,第一水平被归类为母本和/或胎儿拷贝数变异,胎儿和/或母本微倍性根据第一水平确定和/或第二水平确定,并确定胎儿分数。在一些实施方式中,第一水平被归类为母本和/或胎儿拷贝数变异,胎儿微倍性根据第一水平确定和/或第二水平,且胎儿分数根据所述胎儿微倍性确定。在某些实施方式中,第一水平被归类为母本和/或胎儿拷贝数变异,母本微倍性根据第一水平和/或第二水平确定,且胎儿分数根据所述母本微倍性确定。在一些实施方式中,第一水平被归类为母本和/或胎儿拷贝数变异,母本和胎儿微倍性根据第一水平和/或第二水平确定,并且胎儿分数根据母本和胎儿微倍性确定。
当母亲的微倍性与胎儿的微倍性相差(例如,不相同)给定的水平或归类为拷贝数变异的水平时,通常测定胎儿分数。在一些实施方式中,当母亲是重复纯合的(例如,微倍性为2),且胎儿是相同重复杂合的(例如,微倍性为1.5),测定胎儿分数。在一些实施方式中,当母亲是重复杂合的(例如,微倍性为1.5)且胎儿是相同重复纯合的(例如,微倍性为2),或在该胎儿中不存在该重复(例如,微倍性为1),则测定胎儿分数。在一些实施方式中,当母亲是缺失纯合的(例如,微倍性为0),且胎儿是相同缺失杂合的(例如,微倍性为0.5),则测定胎儿分数。在一些实施方式中,当母亲是缺失杂合的(例如,微倍性为0.5)且胎儿是相同缺失纯合的(例如,微倍性为0),或该胎儿中不存在该缺失(例如,微倍性为1),则测定胎儿分数。
在某些实施方式中,当母亲的微倍性与胎儿的微倍性就鉴定为拷贝数变异的给定水平而言相同(例如,鉴定为相同),则不确定胎儿分数。例如,在一些实施方式中,就其中母亲和胎儿携带相同拷贝数的拷贝数变异的给定水平而言,不测定胎儿分数。例如,对于分类为拷贝数变异的水平而言,当母亲和胎儿就相同缺失是纯合的或就相同重复是纯合的,则不测定胎儿分数。在某些实施方式中,对于分类为拷贝数变异的水平而言,当母亲和胎儿就相同的缺失是杂合的或就相同的重复是杂合的,则不测定胎儿分数。在其中获得多个胎儿分数测定用于样品的实施方式中,显著偏离平均、中值或算术平均值的测定可能由拷贝数变异所致,因为其母本倍性等于胎儿倍性,并且可移除此类测定而不纳入考虑。
在一些实施方式中,母本拷贝数变异和胎儿拷贝数变异的微倍性是未知的。在一些实施方式中,在没有拷贝数变异的胎儿和/或母本微倍性测定的情况中,产生胎儿分数并将其与平均、中值或算术平均胎儿分数测定做比较。与平均、中值或算术平均胎儿分数测定显著不同的拷贝数变异的胎儿分数测定有时是因为母亲和胎儿的微倍性就拷贝数变异而言是相同的。通常,将与平均、中值或算术平均胎儿分数测定显著不同的胎儿分数测定从总体胎儿分数确定中排除,无论所述差异的来源或原因。在一些实施方式中,母亲和/或胎儿的微倍性通过本领域已知的方法(例如,通过靶向测序方法)确定和/或检验。
胎儿分数确定的其它方法
在一些实施方式中,可根据部份-特异的胎儿分数估值来确定胎儿分数(例如,样品)。不受任何理论的限制,本文中已确定,胎儿CCF片段(例如特定长度或长度范围的片段)的读数量与测距频率一起映射至部份(例如相同样品内,例如相同测序运行内)。而且,不受任何理论的限制,本文中已确定,当在多种样品间比较时,某些部份会与胎儿CCF片段(例如特定长度或长度范围的片段)具有相似的读数表示,且所述表示与部份-特异的胎儿分数关联(如源自胎儿的CCF片段的相关含量、百分比或比例)。
在一些实施方式中,部分基于部份-特异的参数及其与胎儿分数的关系来确定部份-特异的胎儿分数估值。部份-特异的参数可为反映部份中特定大小(例如大小范围)的CCF片段长度的读数的含量或占比(例如与之相关)的任何合适参数。部份-特异的参数可为多种样品确定的部份-特异的参数的平均、算术均值、中位数。可使用任何合适的部份-特异的参数。部份-特异的参数的非限制性示例包括FLR(例如FRS)、低于所选片段长度的读数的量、基因组覆盖率(即覆盖率)、可映射性、计数(例如映射至所述部份的序列读数的计数、例如标准化计数、PERUN标准化计数)、DNA酶I-敏感性、甲基化状态、乙酰化、组氨酸分布、鸟嘌呤-胞嘧啶(GC)量、染色质结构等、或其组合。部份-特异的参数可为以部份-特异的方式关联FLR和/或FRS的任何合适参数。在一些实施方式中,一些或全部部份-特异的参数是就部份而言的FLR的直接或间接表示。在一些实施方式中,部份-特异的参数不是鸟嘌呤-胞嘧啶(GC)含量。
在一些实施方式中,部份-特异的参数是代表CCF片段读数的量、与之关联或与之成比例的任何合适值,其中映射至部份的所述读数的长度具有低于所选片段长度。在一些实施方式中,部份-特异的参数表示源自映射至部份的相对较短的CCF片段(例如约200碱基对或更少)的读数的量。长度低于所选片段长度的CCF片段通常为相对较短的CCF片段,有时所选片段长度为约200碱基对或更少(例如长约190、180、170、160、150、140、130、120、110、100、90或80个碱基的CCF片段)。CCF片段的长度或源自CCF片段的读数可通过任何合适方法(例如测序方法、杂交方法)确定(例如推断或推导)。在一些实施方式中,CCF片段的长度通过双末端测序法所获读数来确定(例如推断或推导)。在一些实施方式中,从源自所述CCF片段的读数(如单末端读数)的长度来直接确定CCF片段模板。
部份-特异的参数可由一个或多个加权因子加权或调整。在一些实施方式中,加权或调节的部份-特异的参数可提供针对样品(如测试样品)的部份-特异的胎儿分数估值。在一些实施方式中,加权或调整一般将部份的计数(如映射至部份的读数)或其他部份-特异的参数转变为部份-特异的胎儿分数估值,此类转变有时被认为是变换。
在一些实施方式中,加权因子是系数或常量,其部分地说明和/或限定胎儿分数(例如从多种样品确定的胎儿分数)和多种样品(例如训练组)的部份-特异的参数之间的关系。在一些实施方式中,加权因子根据多种胎儿分数确定和多种部份-特异的参数的相关性来确定。一个或多个加权因子可限定相关性,而从相关性可确定一个或多个加权因子。在一些实施方式中,加权因子(如一个或多个加权因子)从部份的拟合相关来确定,根据(i)多种样品中的每个所确定的胎儿核酸的分数,和(ii)多种样品的部份-特异的参数。
加权因子可为来源于合适相关性(例如合适的数学相关性、代数相关性、拟合相关性、回归、回归分析、回归模型)的任何合适的系数、估计系数或常量。加权因子可根据合适的相关性确定,或可源自合适的相关性或从合适的相关性评估。在一些实施方式中,加权因子为来自拟合相关性的评估系数。将多种样品与相关性拟合在本文中有时称为对模型进行训练。可以使用进行关系拟合(如就训练组进行模型训练)的任何合适模型和/或方法。可用的合适模型的非限制性示例包括回归模型、线性回归模型、简单回归模型,普通最小二乘回归模型、多重回归模型、一般多重回归模型、多项式回归模型、一般线性模型、广义线性模型、离散选择回归模型、逻辑回归模型、多项式分对数模型、混合分对数模型、概率单位模型、多项式概率单位模型、有序分对数模型、有序概率单位模型、泊松(泊松)模型、多元响应回归模型、多级模型、固定效应模型、随机效应模型、混合模型、非线性回归模型、非参数模型、半参数模型、鲁棒(robust)模型、分位模型、等渗模型、主成分模型、最小角模型、局部模型、分段模型和变量误差模型。在一些实施方式中,拟合相关性不是回归模型。在一些实施方式中,拟合相关性选自决策树模型、支持向量机模型和神经网络模型。进行模型训练(例如回归模型、相关性)的结果通常是可数学描述的相关性,其中所述相关性包括一个或多个系数(如加权因子)。例如,对于线性最小二乘方模型,可采用胎儿分数值和部份-特异的参数(例如,覆盖率,例如,参见实施例7)训练通用多重回归模型,产生等式(30)描述的关系式,其中加权因子β进一步在等式(31)、(32)和(33)中定义。更复杂的多元模型可确定1、2、3或更多加权因子。在一些实施方式中,根据胎儿分数和获自多种样品的两个或更多部份-特异的参数(系数)(如通过矩阵拟合至多种样品的拟合关系)来训练模型。
加权因子可通过合适的方法来源于合适相关性(例如合适的数学相关性、代数相关性、拟合相关性、回归、回归分析、回归模型)。在一些实施方式中,拟合相关性通过评估来拟合,其非限制性示例包括最小二乘法、普通最小二乘法、线性、部分、总、广义、加权、非线形、迭代加权、岭回归、最小一乘法、贝叶斯、贝叶斯多元、降秩、LASSO、加权秩选择标准(WRSC)、秩选择标准(RSC)、弹性网络估计(例如,弹性网络回归)和其组合。
加权因子可具有任何合适的值。在一些实施方式中,加权因子在约-1x10-2和约1x10-2之间,约-1x10-3和约1x10-3之间,约-5x10-4和约5x10-4之间,或约-1x10-4和约1x10-4之间。在一些实施方式中,多个样品的加权因子的分布是基本对称的。有时,多个样品的加权因子的分布呈正态分布。有时,多个样品的加权因子的分布不是正态分布。在一些实施方式中,所述加权因子的分布的宽度取决于来自CCF胎儿核酸片段的读数的量。在一些实施方式中,包含较高胎儿核酸含量的部份产生较大的系数(例如,正或负,例如,参见图31)。加权因子可以是零,或者加权因子可以大于零。在一些实施方式中,部份的加权因子的约70%或更多,约75%或更多,约80%或更多,约85%或更多,约90%或更多,约95%或更多,或约98%或更多大于零。
加权因子可就基因组的任何合适部份来确定或与之关联。加权因子可就任何合适染色体的任何合适部份来确定或与之关联。在一些实施方式中,加权因子可就基因组的一些或所有部份来确定或与之关联。在一些实施方式中,加权因子可就基因组中一些或所有染色体的部份来确定或与之关联。有时加权因子可就所选染色体的部份来确定或与之关联。加权因子可就一个或多个常染色体的部份来确定或与之关联。加权因子可就多个部份中包括常染色体中的部份或其子集的部份来确定或与之关联。在一些实施方式中,加权因子可就性染色体(如染色体X和/或染色体Y)的部份来确定或与之关联。加权因子可就一个或多个性染色体和一个或多个常染色体的部份来确定或与之关联。在某些实施方式中,加权因子可就染色体X和Y以及所有常染色体中的多个部份来确定或与之关联。加权因子可就多个部份中不包括X和/或Y染色体中部份的部份来确定或与之关联。在某些实施方式中,加权因子就染色体的部份来确定或与之关联,其中所述染色体包含非整倍性(例如全染色体非整倍性)。在某些实施方式中,加权因子就染色体的部份来确定或与之关联,其中所述染色体不是非整倍体(例如整倍性染色体)。加权因子可就多个部份中不包括染色体13、18和/或21中部份的部份来确定或与之关联。
在一些实施方式中,根据一种或多种样品(如样品的训练组)就部份确定加权因子。加权因子通常对部份特异。在一些实施方式中,一种或多种加权因子独立分配给部份。在一些实施方式中,依据多种样品的胎儿分数确定(例如样品特异的胎儿分数确定)中的关系以及根据多种样品确定的部份-特异的参数来确定加权因子。通常从多种样品确定加权因子,例如从约20-约100000或更多样品、从约100-约100000或更多样品、从约500-约100000或更多样品、从约1000-约100000或更多样品、或从约10000-约100000或更多样品。可从整倍体样品(如含整倍体胎儿的对象的样品,例如没有非整倍体染色体的样品)确定加权因子。在一些实施方式中,加权因子获自含非整倍体染色体的样品(例如含整倍体胎儿的对象的样品)。在一些实施方式中,从多个样品确定加权因子,所述样品来自具有整倍体胎儿的对象和具有三体性胎儿的对象。加权因子可源自多种样品,其中所述样品来自具有男性胎儿和/或女性胎儿的对象。
胎儿分数通常就训练组的一种或多种样品所确定,加权因子源自所述胎儿分数。加权因子所源自的胎儿分数有时是样品特异的胎儿分数确定。从中确定加权因子的胎儿分数可通过本文所述或本领域已知的任何合适方法所确定。在一些实施方式中,确定胎儿核酸含量(例如胎儿分数)使用本文所述或本领域已知的合适的胎儿定量试验(FQA)来进行,其非限制性示例包括根据下述内容进行胎儿分数确定:根据对雄性胎儿特异的标记物、基于多态序列的等位基因比例、根据对胎儿核酸特异而对母本核酸非特异的一种或多种标记物、通过利用基于甲基化的DNA识别(例如A.Nygren,等,(2010)Clinical Chemistry56(10):1627–1635)、通过质谱方法和/或使用竞争性PCR方法的系统、通过美国专利申请公开号2010/0105049所述的方法(其通过引用纳入本文)等等,或其组合。通常胎儿分数部分基于Y染色体的水平(例如一个或多个基因组区段水平、概况水平)进行确定。在一些实施方式中,根据Y染色体的合适试验(例如通过使用定量实时PCR比较胎儿特异基因座的量(例如雄性妊娠中Y染色体上的SRY基因座)与母本和胎儿中都常见的任何常染色体上的基因座的量(例如Lo YM,等.(1998)Am J Hum Genet 62:768–775.))确定胎儿分数。
部份-特异的参数(例如测试样品的)可由一种或多种加权因子(例如源自训练组的加权因子)进行加权或调整。例如,可根据就多种样品的训练组而言的部份-特异的参数和胎儿分数确定之间的关系来针对部份导出加权因子。然后根据源自所述训练组的加权因子调整和/或加权测试样品的部份-特异的参数。在一些实施方式中,导出加权因子的部份-特异的参数与经调整或加权的(如测试样品的)部份-特异的参数相同(例如二者均为FLR)。在某些实施方式中,导出加权因子的部份-特异的参数与经调整或加权的(如测试样品的)部份-特异的参数不同。例如,加权因子可由就样品的训练组而言的覆盖率(即部份-特异的参数)和胎儿分数之间的相关性来确定,而测试样品的部份的FLR(即另一部份-特异的参数)可根据源自覆盖率的加权因子进行调整。不受任何理论限制,(例如测试样品的)部份-特异的参数有时可根据每个部份-特异的参数和常见部份-特异的FLR之间的相关性和/或关联由源自不同(例如训练组的)部份-特异的参数的加权因子调整和/或加权。
样品(例如测试样品)的部份-特异的胎儿分数估值可通过由该部份所确定的加权因子对部份-特异的参数进行加权来确定。加权可包括通过应用任何合适的数学操作根据加权因子对部份-特异的参数进行调整、转换和/或变换,所述操作的非限制性示例包括乘、除、加、减、积分、符号运算、代数计算、算法、三角或几何函数、变换(如傅立叶变换)等等,或其组合。加权可包括根据加权因子合适的数学模型(例如,实施例7中所示的模型)对部份-特异的参数进行调整、转换和/或变换。
在一些实施方式中,根据一种或多种部份-特异的胎儿分数估值确定样品的胎儿分数。在一些实施方式中,根据加权或调整一个或多个部份的部份-特异的参数来就确定(例如评估)样品(例如测试样品)的胎儿分数。在某些实施方式中,测试样品的胎儿核酸的分数基于调节的计数或调节的计数子集来评估。在某些实施方式中,测试样品的胎儿核酸的分数基于部份的调节的FLR、调节的FRS、调节的覆盖率和/或调节的可映射性进行评估。在一些实施方式中,加权或调整约1-约500000个、约100-约300000个、约500-约200000个、约1000-约200000个、约1500-约200000个、或约1500-约50000个部份-特异的参数。
确定(例如测试样品的)胎儿分数可通过任何合适方法根据多种部份-特异的胎儿分数估值(例如相同测试样品的)来进行。在一些实施方式中,提高妊娠女性的测试样品中胎儿核酸的分数的评估的精确性的方法包括确定一种或多种部份-特异的胎儿分数估值,其中所述样品的胎儿分数的评估根据所述一种或多种部份-特异的胎儿分数估值来确定。在一些实施方式中,评估或确定样品(例如测试样品)的胎儿核酸的分数包括加和一种或多种部份-特异的胎儿分数估值。加和可包括根据多种部份-特异的胎儿分数估值来确定平均、算术均值、中位数、AUC或积分值。
在一些实施方式中,提高妊娠女性的测试样品中胎儿核酸的分数的评估的精确性的方法包括获得映射至参照基因组的部份的序列读数的计数,所述序列读数是妊娠女性的测试样品的循环无细胞核酸的读数,其中至少所获计数的子集源自所述基因组的区域,所述区域有利于得到比相对基因组其他区域总计数的胎儿核酸计数更大数量的相对该区域总计数的胎儿核酸计数。在一些实施方式中,胎儿核酸的分数的估值根据所述部份的子集来确定,其中所述部份的子集根据映射有一定数量的胎儿核酸计数的部份来选择,所述一定数量的胎儿核酸计数比其他部份的胎儿核酸计数更大。在一些实施方式中,所述部份的子集根据映射有一定数量的相对非胎儿核酸的胎儿核酸计数的部份来选择,所述一定数量的相对非胎儿核酸的胎儿核酸计数比其他部份的相对非胎儿核酸的胎儿核酸计数更大。可对映射至所有部份或部份的子集的计数进行加权,从而提供加权的计数。加权的计数可用于评估胎儿核酸分数,并且所述计数可根据映射至一定数量的胎儿核酸计数的部份进行加权,所述一定数量的胎儿核酸计数比其他部份的胎儿核酸计数更大。在一些实施方式中,所述计数根据映射有一定数量的相对非胎儿核酸的胎儿核酸计数的部份来进行加权,所述一定数量的相对非胎儿核酸的胎儿核酸计数比其他部份的相对非胎儿核酸的胎儿核酸计数更大。
可根据样品(如测试样品)的多种部份-特异的胎儿分数估值来确定所述样品的胎儿分数,其中所述部份-特异的估值来自基因组的任何合适区域或区段的部份。部份-特异的胎儿分数估值可就合适染色体(例如一个或多个选择的染色体、一个或多个常染色体、性染色体(如染色体X和/或染色体Y)、非整倍性染色体、整倍性染色体等,或其组合)的一个或多个部份确定。
部份-特异的参数、加权因子、部份-特异的胎儿分数估值(例如,加权),和/或胎儿分数确定可通过合适的系统、装置、仪器、非暂时性的计算机可读存储介质(例如,其上存储有可执行程序)等或其组合来确定。在某些实施方式中,部份-特异的参数、加权因子、部份-特异的胎儿分数估值(例如,加权),和/或胎儿分数确定通过包含一个或多个微处理器和存储器的系统或装置确定(例如,部分确定)。在一些实施方式中,部份-特异的参数、加权因子、部份-特异的胎儿分数估值(例如,加权),和/或胎儿分数测定通过其上存储有可执行程序的非暂时性的计算机可读存储介质确定(例如,部分确定),其中所述程序给微处理器提供指令以进行所述确定。
胎儿倍性
在一些实施方式中,部分通过确定胎儿倍性以确定遗传变异(例如,染色体异倍性、三体性)的存在与否。胎儿倍性可通过合适的胎儿分数确定的方法(包括本文所述的方法)确定的检测的胎儿分数部份确定。胎儿倍性和/或遗传变异(例如,异倍性)的存在与否可通过胎儿分数确定。在一些实施方式中,根据胎儿分数确定和等式(8)、(20)、(21)或其变分或导数(实施例2)来确定胎儿倍性。在一些实施方式中,胎儿倍性通过下文所述的方法确定。在一些实施方式中,下文所述的各方法需要计算的参照计数Fi(有时,表示为fi),其限定用于多个样品的基因组的部份(即部份,i),其中,基因组的部份i的胎儿的倍性是整倍性。在一些实施方式中,不确定性值(例如,标准偏差,σ)被限定用于参照计数fi。在一些实施方式中,参照计数fi,一个不确定性值,测试样品计数和/或测定的胎儿分数(F)被用于根据下文所述的方法确定胎儿倍性。在一些实施方式中,参照计数(例如,平均、算术平均或中值参照计数)通过本文所述的方法(例如,分批标准化、GC含量标准化、线性和非线性最小二乘方回归、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM和/或其组合)标准化。在一些实施方式中,当参照计数用PERUN标准化时,整倍性的基因组的区段的参照计数等于1。在一些实施方式中,测试样品的计数和参照计数(例如,已知为整倍性的胎儿)针对基因组的部份或区段通过PERUN进行标准化,并且参照计数等于1。同样地,在一些实施方式中,当所述计数通过参照计数的中值(即除以)标准化时,整倍性的基因组的部份或区段的参照计数等于1。例如,在一些实施方式中,基因组的部份或区段的参照计数(例如,整倍性的胎儿)和测试样品的计数通过中值参照计数标准化,所述标准化的参照计数等于1,并且所述测试样品计数经标准化(例如,除以)中值参照计数。在一些实施方式中,基因组的部份或区段的参照计数(例如,整倍性的胎儿)和测试样品的计数通过GCRM、GC、RM或合适的方法标准化。在一些实施方式中,参照计数是平均、算术平均或中值参照计数。参照计数通常是部份的标准化的计数(例如,标准化的基因组区段水平)。在一些实施方式中,参照计数和测试样品的计数是原始计数。在一些实施方式中,参照计数由平均、算术平均或中值计数概况确定。在一些实施方式中,参照计数是经计算的基因组区段水平。在一些实施方式中,参照样品的参照计数和测试样品(例如,患者样品,例如,yi)的计数通过相同方法或处理标准化。
在一些实施方式中,确定胎儿分数(F)的测量值。然后,该胎儿分数值可被用于根据等式(8)、其推导式或变化式确定胎儿倍性。在一些实施方式中,如果胎儿是整倍性的,则返回负值,而如果胎儿不是整倍性的,则返回正值。在一些实施方式中,负值指示胎儿就考虑的基因组区段而言是整倍性的。在某些实施方式中,非负值指示胎儿包含异倍性(例如,重复)。在某些实施方式中,非负值指示胎儿包含三体性。在某些实施方式中,任何正值指示胎儿包含异倍性(例如,三体性、重复)。
在一些实施方式中,确定残差平方和。例如,代表残差平方和的等式由等式(8)导出,并示于等式(18)。在一些实施方式中,残差平方和由等式(8)确定,用于值被设置为1的倍性值X(参见等式(9)),且用于值被设置为3/2的倍性值(参见等式(13))。在一些实施方式中,确定基因组或染色体(例如,基因组的区段中的参照基因组i的全部部份)的区段的残差平方和(等式(9)和(13))。例如,可确定染色体21、13、18或其部份的残差平方和(例如,等式(9)和(13))。在一些实施方式中,为了确定胎儿的倍性状态,从等式(9)减去等式(13)的结果以获得一个值,
Figure BDA0003603576890001201
(例如,参见等式(14))。在某些实施方式中,
Figure BDA0003603576890001202
值的符号(即正或负)确定胎儿异倍性的存在与否。在某些实施方式中,
Figure BDA0003603576890001203
值(例如,来自等式(14))为负指示不存在异倍性(例如,该胎儿就参照基因组i的部份而言是整倍性的),而
Figure BDA0003603576890001204
值不为负指示存在异倍性(例如,三体性)。
在一些实施方式中,参照计数fi、参照计数σ的不确定性值和/或测定的胎儿分数(F)用于等式(9)和(13)以确定参照基因组i的所有部份之和的残差平方和。在一些实施方式中,参照计数fi、参照计数σ的不确定性值和/或测定的胎儿分数(F)用于等式(9)和(13)以确定胎儿倍性。在一些实施方式中,计数(例如,标准化的计数,例如,经计算的基因组区段水平)由yi表示用于部份i,用于测试样品,被用以确定部份i的胎儿的倍性状态。例如,在某些实施方式中,根据参照计数fi、不确定性值(例如,来自参照计数),费塔(feta)分数(F)(确定用于测试样品)和确定用于测试样品的计数yi来确定基因组的区段的倍性状态,其中根据等式(14)或其推导式或变化式来确定倍性状态。在一些实施方式中,计数yi和/或参照计数通过本文所述的方法标准化(例如,分批标准化、GC含量标准化,线性和非线性最小二乘方回归、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM及其组合)。在一些实施方式中,通过上文所述和实施例部分的非限制性示例确定基因组或染色体的部份或区段的胎儿倍性状态(例如,整倍性、非整倍性、三体性)。
在一些实施方式中,胎儿分数由测试样品确定,计数y确定用于测试样品,并且利用两者来由测试样品确定胎儿倍性。在本文所述方法的某些实施方式中,由X表示的胎儿倍性的值不是固定的或假定的。在本文所述方法的某些实施方式中,胎儿分数F是固定的。在一些实施方式中,根据等式(20)或(21)(实施例2)确定基因组的部份或区段的倍性(例如,倍性值)。在该方法的一些实施方式中,确定倍性值,其中该值接近1、3/2或5/4。在一些实施方式中,倍性值约为1指示整倍体胎儿,约3/2的值指示胎儿三体性,并且,在双胞胎的情况中,约5/4的值指示就考虑的基因组的部份或区段而言,一个胎儿包含三体性而另一个是整倍性的。来自胎儿倍性确定的关于确定是否存在胎儿异倍性的额外的信息在下文的其它部分讨论。
在一些实施方式中,确定胎儿分数,固定于其确定的值,并且由回归确定胎儿倍性。可利用任何合适的回归,其非限制性示例包括线性回归、非线性回归(例如,多项式回归)等。在一些实施方式中,根据等式(8)、(20)、(21)和/或其推导式或变化式利用线性回归。在一些实施方式中,所用线性回归是根据由等式(8)、(20)、(21)和/或其推导式或变化式导出的残差平方和。在一些实施方式中,根据等式(8)、(20)、(21)和/或其推导式或变化式确定胎儿倍性,并且不采用回归。在一些实施方式中,就参照基因组i的多个部份而言,根据从等式(8)、(20)、(21)和/或其推导式或变化式导出的残差平方和来确定胎儿倍性,并且不采用回归。等式的变化形式是获自等式的数学证明的等式的任何变化。
在一些实施方式中,参照计数fi(本文先前所述)、不确定性值σ和/或测定的胎儿分数(F)用于等式(20)和(21)中以确定胎儿倍性。在一些实施方式中,参照计数fi、不确定性值σ和/或测定的胎儿分数(F)用于等式(20)或(21)中以确定部份i或参照基因组i的多个部份之和(例如,染色体或其区段的参照基因组i的全部部份之和)的胎儿倍性X。在一些实施方式中,测试样品的部份i的由yi表示的计数(例如,标准化的计数、计算的基因组区段水平)用于确定由参照基因组i的多个部份表示的基因组区段的胎儿倍性。例如,在某些实施方式中,基因组区段的倍性X根据就测试样品确定的参照计数fi、不确定性值,费塔分数(F)和就测试样品确定的计数yi而确定,其中,所述倍性根据等式(20)、(21)或其推导式或变化式确定。在一些实施方式中,计数yi和/或参照计数通过本文所述的方法(例如,分批标准化、GC含量标准化、线性和非线性最小二乘方回归、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM及其组合)标准化。在一些实施方式中,计数yi和/或参照计数通过相同方法(例如,分批标准化、GC含量标准化、线性和非线性最小二乘方回归、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRM、本文所述的方法或其组合)标准化和/或处理。在一些实施方式中,计数yi和fi是映射至基因组或染色体的相同部份或区段的计数。
不确定性值σ可以是合适的误差测度,其非限制性示例包括标准偏差,标准误差,计算的差异,p-值,和/或平均绝对偏差(MAD).可测定不确定性值σ用于任何合适的测量法,其非限制性示例包括Z-评分、Z-值、t-值、p-值、交叉验证错误、基因组区段水平、计算的基因组区段水平、水平、计数等,或其组合。在一些实施方式中,σ值设置为1。在一些实施方式中,σ值设置为1。在一些实施方式中,有时评估σ值,并且有时,其经测量和/或计算。
在一些实施方式中,Mi是就基因组i的部份而言的母亲的倍性(即,母本倍性)。在一些实施方式中,Mi是就相同患者(例如,相同测试样品)测定的,由其确定yi。在一些实施方式中,母本倍性Mi是已知的或根据本文所述的方法确定。在一些实施方式中,母本倍性在填补之前或之后(例如,在进行水平调节之后)确定。在某些实施方式中,Mi由检视概况来估计或确定。在一些实施方式中,母本倍性Mi不是已知的。在一些实施方式中,母本倍性Mi是假定的。例如,在一些实施方式中,假定或已知母亲在评估的基因组区段中不具有缺失和/或重复。在一些实施方式中,假定或已知母本倍性为1。在一些实施方式中,在填补之后(例如,在进行水平调节之后),母本倍性的值设置为1。在一些实施方式中,忽略母本倍性并将其值设置为1。在一些实施方式中,等式(21)由等式(20)导出,其中假定母亲在评价的基因组区段中不具有缺失和/或重复。
在一些实施方式中,用于确定胎儿倍性的方法根据核酸序列读数,用于获自妊娠女性的测试样品。在一些实施方式中,序列读数是来自样品(例如,测试样品)的循环无细胞核酸读数。在一些实施方式中,用于确定胎儿倍性的方法包括获得映射至参照基因组的部份的序列读数的计数。在一些实施方式中,序列读数映射至参照基因组的多个部份的子集。在某些实施方式中,胎儿倍性的确定包括确定胎儿分数。在一些实施方式中,胎儿倍性的确定包括计算或确定基因组区段水平。在某些实施方式中,胎儿倍性的确定包括确定胎儿分数和计算或确定基因组区段水平。胎儿分数和计算的基因组区段水平可由相同的测试样品(例如,测试样品的相同部份)确定在一些实施方式中,胎儿分数和计算的基因组区段水平由获自相同测试样品(例如,测试样品的相同部份)的相同读数确定。在某些实施方式中,胎儿分数和计算的基因组区段水平由获自相同测序运行和/或相同流式细胞的相同读数确定。在一些实施方式中,胎儿分数和计算的基因组区段水平由相同仪器和/或装置(例如,测序仪、流式细胞等)确定。
在一些实施方式中,用于确定胎儿倍性的方法根据胎儿分数测定和标准化的计数(例如,计算的基因组区段水平)确定,其中所述胎儿分数测定和所述标准化的计数(例如,计算的基因组区段水平)由测试样品的不同部份确定(例如,不同的等分物,或例如,在大致相同的时间从相同对象或患者获取的不同的测试样品)。例如,有时,由测试样品的第一部份确定胎儿分数,并且由测试样品的第二部份确定标准化的计数和/或基因组区段水平。在一些实施方式中,胎儿分数和计算的基因组区段水平由取自相同对象(例如,患者)的不同的测试样品(例如,测试样品的不同的部份)确定。在一些实施方式中,胎儿分数和计算的基因组区段水平由取自不同时间的读数确定。在一些实施方式中,胎儿分数测定和标准化的计数(例如,计算的基因组区段水平)由不同的仪器和/或由不同的装置(例如,测序仪、流式细胞等)确定。
结果
本文所述方法可提供确定样品是否存在遗传变异(例如胎儿非整倍性),从而提供结果(例如从而提供是否存在遗传变异(例如胎儿非整倍性)的确定性结果)。遗传变异通常包括遗传信息(例如染色体、染色体区段、多态性区域、转位区域、改变的核苷酸序列等或前述的组合)的获得、丧失和/或改变(例如复制、缺失、融合、插入、突变、重组、取代或异常甲基化),其导致测试对象的基因组或遗传信息中相对参照的可检测变化。是否存在遗传变异可通过变换、分析和/或操作映射至部份(例如计数、参照基因组的基因组部份的计数)的序列读数来确定。在一些实施方式中,确定结果包括分析妊娠女性的核酸。在某些实施方式中,结果根据获自妊娠女性的计数(例如标准化计数)确定,其中所述计数获自妊娠女性的核酸。
本文所述方法有时确定怀有胎儿的妊娠女性的测试样品是否存在胎儿非整倍性(例如全染色体非整倍性、部分染色体非整倍性或区段性染色体异常(例如镶嵌性、缺失和/或插入))。在某些实施方式中本文所述方法测试怀有胎儿的妊娠女性的测试样品的整倍体性或无整倍体性(非-整倍体性)。本文所述方法有时测试一种或多种染色体(例如染色体13、染色体18、染色体21或其组合)或其区段的三体性。
在一些实施方式中,通过本文所述方法、本领域已知方法或其组合确定是否存在遗传变异(例如胎儿非整倍性)。是否存在遗传变异通常测自映射至参照基因组的部份的序列读数计数。用于确定是否存在遗传变异的序列读数计数有时是原始计数和/或过滤的计数,通常是经标准化的计数。合适的标准化过程可用于生成标准化计数,其非限制性示例包括逐份标准化、通过GC含量的标准化、线性和非线性最小二乘回归、LOESS、GCLOESS、LOWESS、PERUN、RM、GCRM及其组合。标准化计数有时表达为特定部份组的一种或多种水平或概况中的水平。标准化计数有时在确定是否存在遗传变异前经调整或填充。
在一些实施方式中根据一种或多种水平确定结果。在一些实施方式中,根据一种或多种调整水平确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,根据包括1-约10000的调整水平的概况确定是否存在遗传变异(例如染色体非整倍性)。通常,根据包括约1-约1000、1-约900、1-约800、1-约700、1-约600、1-约500、1-约400、1-约300、1-约200、1-约100、1-约50、1-约25、1-约20、1-约15、1-约10、或1-约5的调节的概况确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,根据包括约1的调节的概况(例如一个调整水平)确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中根据(例如染色体或其区段的概况)包括1或更多、2或更多、3或更多、5或更多、6或更多、7或更多、8或更多、9或更多或有时10或更多的调节的一种或多种概况确定结果。在一些实施方式中,根据其中一些水平未经调节的概况确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,根据其中未进行调节的概况确定是否存在遗传变异(例如染色体非整倍性)。
在一些实施方式中,概况中水平(例如第一水平)调整减少假确定或假结果。在一些实施方式中,概况中水平(例如第一水平)调整减少假确定或假结果的频率和/或概率(例如统计学概率、似然率)。假确定或假结果可为不准确的确定或结果。假确定或结果可为未反应对象(例如妊娠女性、胎儿和/或其组合)的真实或真遗传构成或真实或真遗传排布(例如是否存在遗传变异)的确定或结果。在一些实施方式中假确定或结果是假阴性确定。在一些实施方式中负确定或负结果为不含遗传变异(例如非整倍性,拷贝数变异)。在一些实施方式中假确定或假结果是假阳性确定或假阳性结果。在一些实施方式中正确定或正结果为含遗传变异(例如非整倍性,拷贝数变异)。在一些实施方式中,确定或结果用于诊断。在一些实施方式中,确定或结果针对胎儿。
确定是否存在遗传变异(例如胎儿非整倍性)有时无需比较部份的组的计数与参照。在测试区域中(例如感兴趣的部份的组)就测试样品测量的计数本文称为"测试计数"。测试计数有时是本文所述加工的计数、平均或加和的计数、表示、标准化计数、或一种或多种水平或水平。在某些实施方式中,测试计数是部份的组的平均或加和(例如计算平均、算术平均、中值、模式或加和),且平均或加和计数与阈值或范围比较。测试计数有时表达为表示,其可表达为第一组部份的计数与第二组部份的计数的比例或百分比。在某些实施方式中,第一组部份用于一种或多种测试染色体(例如染色体13、染色体18、染色体21、或其组合),有时第二组部份用于基因组或部分基因组(例如常染色体或常染色体和性染色体)。在一些实施方式中,第一组部份是对于一个或多个性染色体(例如,染色体X、染色体Y,或其组合),而有时,第二组部份是用于一个或多个常染色体。在一些实施方式中,第一组部份是针对测试染色体(例如,染色体X、染色体Y,或其组合)的一个或多个第一区域,而有时,第二组部份是针对测试染色体(例如,染色体X、染色体Y,或其组合)或整个测试染色体的一个或多个第二区域。在某些实施方式中表示与阈值或范围比较。在某些实施方式中测试计数表达为一种或多种水平或部份的组的标准化计数的水平,且所述一种或多种水平与阈值或范围比较。高于或低于特定阈值、在特定范围内或特定范围外的测试计数(例如平均或加和的计数,表示,标准化计数,一种或多种水平或水平)有时决定了存在遗传变异或无整倍体性(例如非整倍体性)。低于或高于特定阈值、在特定范围内或特定范围外的测试计数(例如平均或加和的计数、表示、标准化计数、一种或多种水平或水平)有时决定了不存在遗传变异或整倍体性。
是否存在遗传变异(例如胎儿非整倍性)有时通过比较计数进行确定,其非限制性示例包括测试计数、参照计数、原始计数、过滤的计数、平均或加和的计数、表示(例如染色体表示)、标准化计数、一种或多种水平或水平(例如针对部份的组、例如基因组区段水平、概况)、Z-分数等或其组合。在一些实施方式中,测试计数与参照(例如参照计数)比较。参照(例如参照计数)可为合适的计数确定,其非限制性示例包括原始计数、过滤的计数、平均或加和的计数、表示(例如染色体表示)、标准化计数、一种或多种水平或水平(例如针对部份的组、例如基因组区段水平、概况)、Z-分数等或其组合。参照计数通常就整倍体测试区域计数或从整倍体的基因组或染色体的区段计数。在一些实施方式中,参照计数和测试计数获自相同样品和/或相同对象。在一些实施方式中,参照计数和测试计数获自不同样品和/或不同对象。在一些实施方式中,参照计数从导出和/或确定测试计数的基因组对应区段确定或与之比较。对应区段指映射至参照基因组相同位置的区段、部份或部份的组。在一些实施方式中,参照计数从导出和/或确定测试计数的基因组不同区段确定或与之比较。
在某些实施方式中,测试计数有时用于第一组部份且参照包括不同于第一组部份的第二组部份的计数。参照计数有时用于相同妊娠女性的核酸样品,测试样品获自所述妊娠女性。在某些实施方式中,参照计数用于一种或多种妊娠女性的核酸样品,所述一种或多种妊娠女性不同于获取测试样品的女性。在一些实施方式中,第一组部份在染色体13、染色体18、染色体21,其区段或前述的组合中,且第二组部份在其他染色体或染色体或其区段中。在非限制性示例中,第一组部份在染色体21或其区段中,第二组部份通常在其他染色体中(例如染色体1,染色体13,染色体14,染色体18,染色体19,其区段或其组合)。参照通常位于一般为整倍体的染色体或其区段中。例如,胎儿中染色体1和染色体19通常为整倍体,由于染色体1和染色体19非整倍体与高比例的早期胎儿死亡相关。可生成测试计数和参照计数之间的测量偏差。
在某些实施方式中参照包括与测试计数相同的部份的组的计数,其中参照的计数来自一种或多种参照样品(例如通常来自多种参照对象的多种参照样品)。参照样品通常来自不同于获得测试样品的女性的一个或多个妊娠女性。可生成测试计数和参照计数之间的测量偏差(例如不确定性测量、不确定值)。在一些实施方式中从测试计数确定测量偏差。在一些实施方式中从参照计数确定测量偏差。在一些实施方式中从整个概况或概况中的部份子集确定测量偏差。
可选择合适的测量偏差,其非限制性示例包括标准偏差、平均绝对偏差、中值绝对偏差、最大绝对偏差、标准分数(例如z-值、Z-分数、正常值、标准化的变量)等。在一些实施方式中,参照样品的测试区域是整倍体并评估测试计数和参照计数之间的偏差。在一些实施方式中确定是否存在遗传变异是根据基因组或染色体的区段或部份的测试计数和参照计数之间偏差的数量(例如偏差的测量,MAD)。在一些实施方式中,当测试计数和参照计数之间偏差的数量大于约1、大于约1.5、大于约2、大于约2.5、大于约2.6、大于约2.7、大于约2.8、大于约2.9、大于约3、大于约3.1、大于约3.2、大于约3.3、大于约3.4、大于约3.5、大于约4、大于约5或大于约6时,确定存在遗传变异。例如,有时测试计数与参照计数差异大于3量度的偏差时(例如3σ,3MAD),确定存在遗传变异。在一些实施方式中获自妊娠女性的测试计数大于参照计数超过3量度的偏差时(例如3σ、3MAD),确定存在胎儿染色体非整倍性(例如胎儿三体性)。测试计数和参照计数之间的偏差大于3通常指示非-整倍体测试区域(例如存在遗传变异)。测试计数显著高于参照计数(参照计数指示整倍体性)有时决定了三体性。在一些实施方式中获自妊娠女性的测试计数小于参照计数超过3量度的偏差时(例如3σ、3MAD),确定存在胎儿染色体非整倍性(例如胎儿单体性)。测试计数显著低于参照计数(参照计数指示整倍体性)有时决定了单体性。
在一些实施方式中,当测试计数和参照计数之间偏差的数量小于约3.5、小于约3.4、小于约3.3、小于约3.2、小于约3.1、小于约3.0、小于约2.9、小于约2.8、小于约2.7、小于约2.6、小于约2.5、小于约2.0、小于约1.5或小于约1.0,则确定不含遗传变异。例如,有时测试计数与参照计数差异小于3量度的偏差时(例如3σ,3MAD),确定不存在遗传变异。在一些实施方式中获自妊娠女性的测试计数与参照计数的差异小于3量度的偏差时(例如3σ、3MAD),确定不存在胎儿染色体非整倍性(例如胎儿整倍性)。在一些实施方式中,(例如测试计数和参照计数之间偏差小于3(例如标准偏差的3σ)通常指示整倍体测试区域(例如不存在遗传变异)。测试样品的测试计数和一种或多种参照对象参照计数之间的偏差可作图并可视化(例如Z-分数作图)。
可用测试计数将任何其他合适的参照化为因数,用于确定测试样品的测试区域是否存在遗传变异(确定整倍体或非-整倍体)。例如,可用测试计数将胎儿分数确定化为因数,以确定是否存在遗传变异。可采用合适的过程定量胎儿分数,其非限制性示例包括质谱法、测序过程或其组合。
在一些实施方式中,是否存在胎儿染色体非整倍性(例如三体性)部份从胎儿倍性确定中确定。在一些实施方式中,胎儿倍性由本文所述合适方法确定。一些某些实施方式,胎儿倍性确定约1.20或更多、1.25或更多、1.30或更多、约1.35或更多、约1.4或更多或约1.45或更多表示存在胎儿染色体非整倍性(例如存在胎儿三体性)。在一些实施方式中胎儿倍性确定约1.20-约2.0、约1.20-约1.9、约1.20-约1.85、约1.20-约1.8、约1.25-约2.0、约1.25-约1.9、约1.25-约1.85、约1.25-约1.8、约1.3-约2.0、约1.3-约1.9、约1.3-约1.85、约1.3-约1.8、约1.35-约2.0、约1.35-约1.9、约1.35-约1.8、约1.4-约2.0、约1.4-约1.85或约1.4-约1.8表明存在胎儿染色体非整倍性(例如存在胎儿三体性)。在一些实施方式中,胎儿非整倍性是三体性。在一些实施方式中,胎儿非整倍性是染色体13、18和/或21的三体性。
在一些实施方式中,胎儿倍性小于约1.35、少于约1.30、少于约1.25、少于约1.20或少于约1.15表明不含胎儿非整倍性(例如不含胎儿三体性、例如整倍体)。在一些实施方式中胎儿倍性确定约0.7-约1.35、约0.7-约1.30、约0.7-约1.25、约0.7-约1.20、约0.7-约1.15、约0.75-约1.35、约0.75-约1.30、约0.75-约1.25、约0.75-约1.20、约0.75-约1.15、约0.8-约1.35、约0.8-约1.30、约0.8-约1.25、约0.8-约1.20,或约0.8-约1.15表明不含胎儿染色体非整倍性(例如不含胎儿三体性、例如整倍体)
在一些实施方式中胎儿倍性小于约0.8、小于约0.75、小于约0.70或小于约0.6表明存在胎儿非整倍性(例如存在染色体缺失)。在一些实施方式中胎儿倍性确定为约0-约0.8、约0-约0.75、约0-约0.70、约0-约0.65、约0-约0.60、约0.1-约0.8、约0.1-约0.75、约0.1-约0.70、约0.1-约0.65、约0.1-约0.60、约0.2-约0.8、约0.2-约0.75、约0.2-约0.70、约0.2-约0.65、约0.2-约0.60、约0.25-约0.8、约0.25-约0.75、约0.25-约0.70、约0.25-约0.65、约0.25-约0.60、约0.3-约0.8、约0.3-约0.75、约0.3-约0.70、约0.3-约0.65、约0.3-约0.60表明存在胎儿染色体非整倍性(例如存在染色体缺失)。在一些实施方式中,所测胎儿非整倍性是全染色体缺失。
在一些实施方式中,根据判定区确定是否存在胎儿非整倍性(例如根据上述倍性确定的一种或多种范围)。在某些实施方式中,当值(例如倍性值、胎儿分数值、不确定性水平)或值的集合落在预定范围内(例如区,判定区),做出判定(例如确定是否存在遗传变异的判定,例如结果)。在一些实施方式中,根据获自相同患者样品的值的集合定义判定区。在某些实施方式中,根据获自相同染色体或其区段的值的集合定义判定区。在一些实施方式中,根据置信水平(例如高置信水平、例如低不确定性水平)和/或胎儿分数定义基于倍性确定的判定区。在一些实施方式中,根据约2.0%或更多、约2.5%或更多、约3%或更多、约3.25%或更多、约3.5%或更多、约3.75%或更多或约4.0%或更多的倍性确定和胎儿分数定义判定区。例如,在一些实施方式中,对于获自怀有胎儿的妊娠女性的样品,基于大于1.25的倍性确定与2%或更多或4%或更多的胎儿分数确定,做出胎儿包括21三体的判定。例如,在某些实施方式中,对于获自怀有胎儿的妊娠女性的样品,基于小于1.25的倍性确定与2%或更多或4%或更大的胎儿分数确定,做出胎儿是整倍体的判定。在一些实施方式中,通过约99%或更大、约99.1%或更大、约99.2%或更大、约99.3%或更大、约99.4%或更大、约99.5%或更大、约99.6%或更大、约99.7%或更大、约99.8%或更大或约99.9%或更大的置信水平定义判定区。一些实施方式中不使用判定区进行判定。在一些实施方式中使用判定区和其他数据或信息做出判定。在一些实施方式中基于倍性值而不使用判定区做出判定。一些实施方式中进行判定而不计算倍性值。在一些实施方式中,基于概况的视觉观察(例如视觉观察基因组区段水平)进行判定。可通过任何合适的方法全部或部分基于本文所述方法获得的确定、值和/或数据进行判定,所述方法非限制性示例包括胎儿倍性确定、胎儿分数确定、母本倍性、不确定性和/或置信度确定、部份水平、水平、概况、Z-分数、预期的染色体表示、测量的染色体表示、计数(例如标准化计数、原始计数)、胎儿或母本拷贝数变异(例如归类的拷贝数变异)、显著不同水平、调整水平(例如填充)等或其组合。
在一些实施方式中非判定区是不进行判定的区。在一些实施方式中,通过表明低精确性、高风险、高误差、低水平置信度、高水平不确定性等或其组合的值或值的集合定义非-判定区。在一些实施方式中,部份通过约5%或更少、约4%或更少、约3%或更少、约2.5%或更少、约2.0%或更少、约1.5%或更少或约1.0%或更少的胎儿分数定义非-判定区。
在一些实施方式中,用于确定遗传变异(例如,胎儿异倍性)存在与否的方法以至少约90%-约100%的准确性进行。例如,遗传变异的存在与否可以至少约91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%的准确性测定。在一些实施方式中,测定遗传变异的存在与否的准确性约等同于或高于采用遗传变异确定的其它方法(例如,染色体组型分析)的准确性。在一些实施方式中,确定遗传变异的存在与否的准确性具有约80%-约100%的置信区间(CI)。例如,所述置信区间(CI)可以是约81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。
有时,结果可以序列标签密度的方式确定。"序列标签密度"指序列标签或确定的基因组区域的读数的经标准化的值,其中所述序列标签密度用于不同样品的比较和后续分析。所述序列标签密度的值经常在样品中标准化。在一些实施方式中,标准化能通过下面方法进行:计算落入各基因组区段中标签的数目;获得各染色体所计总序列标签的中值;获得全部常染色体值的中值;和使用这个值作为标准化常数以说明对不同样品获得的序列标签总体数目的不同。就二体生物染色体而言,有时序列标签密度约为1。序列标签浓度能根据测序工艺而不同,最值得注意的是G/C偏好,其能通过使用外部标准或内部参照(例如,在一些实施方式中,来自基本全部序列标签(基因组序列),例如其可以是单染色体或来自全部常染色体的计算值)来校正。因此,能从所述样品的其它可定位的测序标签中的百分比代表推断染色体或染色体区域的剂量失衡。因此能定量测定和标准化特定染色体或染色体区域的剂量失衡。用于序列标签密度标准化和定量的方法在下文中进一步详细讨论。
在一些实施方式中,全部序列读数的比例来自性染色体(例如,染色体X、染色体Y)或涉及异倍性的染色体(例如,染色体13、染色体18、染色体21),并且其它序列读数来自其它染色体。在一些实施方式中,染色体或涉及异倍性的染色体(例如,“靶标染色体”:染色体21)相较于其它染色体的相对大小,能够获得靶标染色体特异性序列的参照范围内的标准化的频率。如果所述胎儿靶标染色体中有非整倍性,那么所述靶标染色体来源序列的标准化频率在统计学上大于非靶标染色体来源序列的标准化频率,从而能够检测非整倍性。在一些实施方式中,标准化频率中的变化程度将取决于分析样品中胎儿核酸的浓度分数。
遗传变异有时关联医学病症。遗传变异的确定性结果有时是是否具有病症(例如医学病症)、疾病、症状或异常,或包括检测病症、疾病、症状或异常的确定性结果(非限制性示例列于表1)。在某些实施方式中,诊断包括评估结果。通过本文所述方法对是否存在病症(例如医学病症)、疾病、症状或异常的结果确定有时可通过其他测试(例如染色体组型和/或羊水诊断)单独验证。数据的分析和处理能提供一种或多种结果。本文术语“结果”可指有利于确定是否存在遗传变异(例如非整倍性、拷贝数量差异)的数据处理结果。在一些实施方式中,本文术语“结果”可指预测和/或确定是否存在遗传变异(例如非整倍性、拷贝数量差异)的结论。在一些实施方式中,本文术语“结果”可指预测和/或确定对象(例如胎儿)是否存在遗传变异(例如非整倍性、拷贝数量差异)的风险或可能性的结论。诊断有时包括使用结果。例如,健康医师可分析结果并基于或部份给予该结果提供诊断。在一些实施方式中,确定、检测或诊断病症、症状或异常(例如表1所列)包括使用是否存在遗传变异的确定性结果。在一些实施方式中,基于计数的映射的序列读数或其变换的结果确定是否存在遗传变异。在某些实施方式中,使用本文所述一种或多种数据处理方法生成的结果确定是否存在表1中列举的一种或多种病症、症状或异常。在一些实施方式中,诊断包括确定是否存在病症、症状或异常。通常诊断包括确定作为病症、症状或异常的性质和/或原因的遗传变异。在一些实施方式中,结果不是诊断。结果常包括在关于概率的一种或多种考虑的前提下使用本文所述的处理方法生成的一个或多个数值。风险或概率的考虑可包括但不限于不确定值、测量可变性、置信水平、灵敏度、特异性、标准偏差、方差系数(CV)和/或置信水平、Z-分数、Chi值、Phi值、倍数性值、拟合胎儿分数、面积比率、中值水平、等或其组合。关于概率的考虑能帮助确定对象是否有遗传变异的风险或有遗传变异,而是否存在遗传疾病的确定性结果常包括这种考虑。
结果有时是表型。有时,结果是具有相关置信水平的表型(例如,不确定性值,例如,胎儿呈21三体性阳性,其置信水平为99%;妊娠女性携带男性胎儿,置信水平为95%;测试对象呈遗传变异相关癌症阴性,其置信水平为95%)。产生结果值的不同方法有时可产生不同类型结果。通常,基于使用本文所述方法生成的结果值有四种可能的评分或判定:真阳性、假阳性、真阴性和假阴性。本文所用的术语“评分”、“分数”、“判定”指就对象/样品中是否存在特定遗传变异的概率的计算。分值可用来确定,例如,可与遗传变异相对应的定位的序列读数的变化、差异或比例。例如,关于参照基因组,对数据组的所选遗传变异或部份计正分能引导鉴定是否存在遗传变异,所述遗传变异有时与医学病症相关联(如癌症、先兆子痫、三体性、单体性等)。在一些实施方式中,结果包括水平、概况和/或图(如概况图)。在那些结果包括概况的那些实施方式中,可就结果使用合适的概况或概况组合。能就结果使用的概况的非限定性示例包含z-分数概况、p值概况、χ值概况、
Figure BDA0003603576890001321
值概况等,及其组合。
用于确定是否存在遗传变异而生成的结果有时包括零(null)结果(如两个簇之间的数据点,包括存在和缺失的遗传变异的值的有标准偏差的数值,分布图与有或没有所研究的遗传变异的对象的分布图不相似的的数据组)。在一些实施方式中,指示零结果的结果仍然是确定结果,而所述确定可包含以供确定是否存在遗传变异的对其它信息和/或重复数据生成和/或分析的需要。
在一些实施方式中,在进行本文所述一个或多个处理步骤后能生成结果。在某些实施方式中,结果作为本文所述处理步骤之一的结果生成,而在一些实施方式中,在数据组的各统计学和/或数学运算进行之后,能生成结果。关于确定是否存在遗传变异的结果能以任意形式表示,所述形式包括但不限于与对象或样品中遗传变异存在与否相关的概率(如让步比、p值)、可能性、簇内或簇外值、过阈或阈下值、范围内(如阈值范围)的值、有方差或置信测量的值或风险因子。在某些实施方式中,样品间的比较允许确定样品特征(例如允许鉴定重复样品和/或已混合的样品(例如错标的、组合的等))。
在一些实施方式中,结果包含高于或低于预定阈值或截止值的值(如大于1、小于1),和与所述值相关联的不确定性或置信水平。在某些实施方式中,预定阈值或截止值是预期水平或预期水平范围。结果也能描述用于数据处理的假定。在某些实施方式中,结果包含落在值预定范围(如阈值范围)内或外的值,和该值在所述范围内或外的相关不确定性或置信水平。在一些实施方式中,结果包含的值等于预定值(如等于1、等于0)等于预定值范围内的值,以及其等于或者在范围内或外的相关不确定性或置信水平。结果有时以图(如分布图)来图示显示。
如上所述,结果能表征为真阳性、真阴性、假阳性或假阴性。本文所用的术语“真阳性”指对象被正确诊断为具有遗传变异。如本文所用术语“假阳性”指对象被错误鉴定为具有遗传变异。如本文所用术语“真阴性”指对象被正确鉴定为不具有遗传变异。如本文所用术语“假阴性”指对象被错误鉴定为不具有遗传变异。可根据发生比例对任何给定方法计算两种性能度量:(i)灵敏度值,通常是被正确鉴定为阳性的预测阳性部份;和(ii)特异性值,通常是被正确鉴定为阴性的预测阴性部份。
在某些实施方式中,灵敏度、特异性和/或置信水平中的一个或多个表示为百分数。在一些实施方式中,独立地对应各变量的百分数超过约90%(例如,约90、91、92、93、94、95、96、97、98或99%或超过99%(例如,约99.5%或更高,约99.9%或更高、约99.95%或更高、约99.99%或更高))。在一些实施方式中,变异系数(CV)表示为百分数,有时所述百分数为约10%或更低(例如,约10、9、8、7、6、5、4、3、2或1%或低于1%(例如,约0.5%或更低、约0.1%或更低、约0.05%或更低、约0.01%或更低))。在某些实施方式中,概率(如特定结果不是由于偶然)被表示为Z-分值、p值或t检验的结果。在一些实施方式中,可用本文所述的一种或多种数据处理操作生成针对结果的测量的方差、置信区间、灵敏度、特异性等(例如统称为置信参数)。生成结果和相关置信水平的具体示例描述于实施例部分以及国际申请号PCT/US12/59123(WO2013/052913),其全文通过引用纳入本文,包括所有文本、表格、等式和图。
本文所用的术语“灵敏度”指真阳性的数量除以真阳性数量与假阴性数量之和,其中灵敏度(sens)可在0≤sens≤1范围内。本文所用的术语“特异性”指真阴性的数量除以真阴性数量与假阴性数量之和,其中特异性(spec)可在0≤spec≤1范围内。在一些实施方式中,有时选择灵敏度和特特异性等于1、或100%、或接近1(如约90%-约99%)的方法。在一些实施方式中,选择灵敏度等于1或100%的方法,而在某些实施方式中,选择灵敏度接近1(如灵敏度约90%、灵敏度约91%、灵敏度约92%、灵敏度约93%、灵敏度约94%、灵敏度约95%、灵敏度约96%、灵敏度约97%、灵敏度约98%或灵敏度约99%)的方法。在一些实施方式中,选择特异性等于1或100%的方法,而在某些实施方式中,选择特异性接近1(如特异性约90%、特异性约91%、特异性约92%、特异性约93%、特异性约94%、特异性约95%、特异性约96%、特异性约97%、特异性约98%或特异性约99%)的方法。
理想地,假阴性数量等于0或接近0,从而若对象事实上具有至少一种遗传变异,则没有对象被错误鉴定为不具有至少一种遗传变异。相反地,关于预测算法正确分类阴性的能力通常做出评估,其为一种灵敏度的互补的测量方法。理想地,假阳性数量等于0或接近0,从而若对象不具有所评价的遗传变异,则没有对象被错误鉴定为具有至少一种遗传变异。
在一些实施方式中,确定胎儿是否存在遗传变异(例如染色体非整倍性)。在该实施方式中,确定是否存在胎儿遗传变异(例如胎儿染色体非整倍性)。
在某些实施方式中,确定样品是否存在遗传变异(例如染色体非整倍性)。在该实施方式中,确定样品核酸中是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,检测或未检测的变异在一个来源的样品核酸中残留而在另一来源的样品核酸中不残留。来源的非限制性示例包括胎盘核酸、胎儿核酸、母本核酸、癌细胞核酸、非-癌细胞核酸、等及其组合。在非-限制性示例中,检测或未检测的特定遗传变异(i)在胎盘核酸中残留而在胎儿核酸和母本核酸中不残留;(ii)在胎儿核酸中残留但在母本核酸中不残留;或(iii)在母本核酸中残留但在胎儿核酸中不残留。
一个或多个结果生成之后,结果经常用于提供对是否存在遗传变异和/或相关医学病症的确定。结果通常提供给健康护理专业人员(如实验室技术人员或管理者;医师或助手)。通常结果由结果模块提供。在某些实施方式中,结果通过作图模块提供。在某些实施方式中,结果在装置或装置的外围设备或组件上提供。例如,有时结果在打印机或显示器上提供。在一些实施方式中,是否存在遗传变异的确定性结果以报告形式提供给健康护理专业人员,而在某些实施方式中,所述报告包含显示结果值和相关置信参数。通常,结果能以帮助确定是否存在遗传变异和/或医学病症的合适的格式显示。合适用于报告和/或显示数据组或报告结果的格式的非限定性示例包含数字数据、曲线图、2D图、3D图、和4D图、图片、象形图、图表、条线图、饼图、线图、流程图、散点图、图谱、柱状图、密度图、函数图、线路图、框图、起泡图、星座图、轮廓图、统计图、蛛网图、维恩图、列线图等,及其组合。结果表示的各种示例如附图所示和实施例所述。
在某些实施方式中,生成结果可视为核酸序列读数变换为表示对象细胞核酸。对象的细胞核酸展示(展示)通常反映具体染色体或其部份的剂量或拷贝数,因此,所述表示通常是该对象的核酸的性质。例如,将多个相对较小的序列读数转换成相对较大的染色体的展示,能够以转化形式观察。作为说明,在产生染色体21(其长约4千7百万个碱基)的过程中,采用大约36个碱基对长度的读数,成千上万个比染色体小至少100,000倍的读数被转化成显著较大的染色体的展示。所述染色体的展示的产生通常涉及若干读数操作(例如,映射、过滤和/或标准化),以获得相对较大的染色体的展示,如本文所述。通常采用多个操作,其可能需要应用一台或多台计算机,通常为多台计算机平行合作。
当采用来自妊娠女性的样品提供胎儿染色体的染色体展示时,鉴于多数读数通常来自母本核酸,而少数读数通常来自胎儿核酸,所述转化进一步明显。母本核酸的读数通常相对于胎儿核酸读数占优势,而多数母本核酸读数常遮蔽胎儿染色体的展示。典型的母本读数大背景会使胎儿与母本染色体核酸之间的差异变模糊,并且,针对这样的背景获得胎儿染色体的展示涉及到反褶积母本读数的贡献的处理,如本文所述。
在一些实施方式中,结果获自序列读数从对象(例如妊娠女性)变换为表示对象(例如母亲和/或胎儿)中的现存结构(例如基因组,染色体或其区段)。在一些实施方式中,结果包括序列读数从第一对象(例如妊娠女性)变换为结构(例如基因组、染色体或其区段)的复合表示,和复合表示的第二变换,其产生对第一对象对象(例如妊娠女性)和/或第二对象(例如胎儿)中存在结构的表示。在一些实施方式中,结果包含将来自第一对象(例如,女性对象、妊娠女性)的序列读数变换成第二对象(例如,胎儿)中存在的结构的展示(例如,基因组、染色体或其区段)。
有时,本文的变换方法包括:从获自怀有胎儿的妊娠女性对象的样品中的核酸读数,确定胎儿中三体性染色体(即,染色体三体性)(例如,T21,T18和/或T13)的存在与否。在一些实施方式中,本文的变换方法可包括:从获自怀有胎儿的妊娠女性对象的样品中的核酸读数制备(例如,确定、检视、展示、提供)胎儿的染色体展示(例如,染色体拷贝数,染色体剂量)。在后面的实施方式中,胎儿的染色体展示通常是染色体13、染色体18和/或染色体21。
结果的应用
接收包含确定是否存在遗传变异的一个或多个结果的报告的健康护理专业人员、或其他有资格的人员能使用报告中显示的数据做出关于测试对象或患者的状态判定。在一些实施方式中,健康护理专业人员能根据提供的结果给出建议。在一些实施方式中,健康护理专业人员或有资格的人员能向测试对象或患者提供关于是否存在遗传变异的判定或评分,所述判定或评分基于一个或多个结果值或报告中提供的相关置信参数。在某些实施方式中,通过可见观察提供的报告,由健康护理专业人员或有资格的人员人工做出判定或评分。在某些实施方式中,由自动化程序(有时编入软件)做出评分或判定,并且在由健康护理专业人员或有资格的人员复查准确性之后再向测试对象或患者提供信息。本文所用的术语“接收报告”指通过任意联系方式获得包含结果的书面和或图示表示,其经复查后供健康护理专业人员或其他有资格的人员就关于测试对象或患者中是否存在遗传变异作出决定。所述报告可以通过计算机或人工数据输入生成,并且能使用电子方式(如从一个网络地址向相同或不同物理位点的另一个地址通过因特网、通过计算机、通过传真),或者通过发送或接收数据的任意其他方法(如信件服务、快递服务等)传达。在一些实施方式中,结果以合适介质传送至健康护理专家,包括但不限于口头、档案或文件形式。文件可为例如但不限于声音文件、计算机可读文件、纸质文件、实验室文件或医学报告文件。
本文所用的术语“提供结果”及其语法等同形式也能指获得这种信息的任意方法,包括但不限于从实验室(例如实验室文件)中获得信息。能通过实验室进行一种或多种试验或者一个或多个数据处理步骤生成实验室文件以确定是否存在所述医学病症。所述实验室可以和由所述实验室文件鉴定有或没有所述医学病症的人处于相同地点或不同地点(例如,在另一国家)。例如实验室文件可在一个地点生成并传递至另一地点,在后者处信息将传递至妊娠女性对象。在某些实施方式中,所述实验室文件可以是有形形式或电子形式(例如计算机可读形式)。
在一些实施方式中,结果可提供给健康护理专家、医师或实验室里有资格的个体并且健康护理专家、医师或有资格的个体可基于结果进行诊断。在一些实施方式中,结果可提供给健康护理专家、医师或实验室里有资格的个体并且健康护理专家、医师或有资格的个体可部分基于结果以及其他数据和/或信息和其他结果进行诊断。
健康护理专家和有资格的个体可基于本报告中提供的结果提供合适的建议。能根据提供的结果报告提供建议的非限定性示例包括手术、放疗、化疗、遗传咨询、出生后治疗方案(如生命计划、长期辅助治疗、药物、对症治疗)、妊娠终止、器官移植、输血等,或前述组合。在一些实施方式中,建议取决于所提供的基于结果的分类提供(例如唐氏综合征、特纳综合征、关联T13遗传变异的医学病症、关联T18遗传变异的医学病症)。
实验室人员(例如实验室管理员)可分析可能确定是否存在遗传变异(或确定测试区域整倍性或非-整倍性)的值(例如测试计数、参照计数、偏差水平)。对于关于是否存在遗传变异的狭窄(close)或可疑的判定,实验室人员可再进行相同测试和/或安排不同测试(例如胎儿非整倍性确定情况中的分核型和/或羊膜穿刺),其使用测试对象的相同或不同样品核酸。
遗传变异和医学病症
是否存在遗传变异能使用本文所述方法、设备或装置确定。在某些实施方式中,根据本文提供的方法、设备和装置所得到的结果确定是否存在一种或多种遗传变异。遗传变异通常是某些个体中存在的特定遗传表型,并且遗传变异经常是在统计学显著的个体亚群中存在。在一些实施方式中,遗传变异是下文详述的染色体异常(如非整倍性)、部分染色体异常或镶嵌性。遗传变异的非限制性示例包括一种或多种缺失(例如微缺失)、复制(例如微复制)、插入、突变、多态性(例如单核苷酸多态性)、融合、重复(例如短串联重复)、差异甲基化位点、差异甲基化形式等及其组合。插入、重复(repeat)、缺失、复制(重复)、突变或多态性可以任意长度,并且在一些实施方式中是长度约1个碱基或碱基对(bp)–约250个兆碱基(Mb)。在一些实施方式中,插入、重复(repeat)、缺失、复制(重复)、突变或多态性是长度约1个碱基或碱基对(bp)-1,000个千碱基(kb)(如长度约为10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb或1000kb)。
遗传变异有时是缺失。在某些实施方式中,缺失是部分染色体或DNA序列丢失的突变(例如遗传失常)。缺失通常是遗传材料丢失。可缺失任何数量的核苷酸。缺失可包括缺失一种或多种全染色体、染色体区段、等位基因、基因、内含子、外显子、任何非-编码区域、任何编码区域、其区段或其组合。缺失可包括微缺失。缺失可包括缺失单个碱基。
遗传变异有时是遗传复制。在某些实施方式中,复制是部分染色体或DNA序列复制并插入基因组的突变(例如遗传失常)。在某些实施方式中,遗传复制(即复制)是DNA区域的任何复制。在一些实施方式中复制是基因组或染色体内的重复(通常串联)核酸序列。在一些实施方式中,复制可包括下述的拷贝:一种或多种全染色体、染色体区段、等位基因、基因、内含子、外显子、任何非-编码区域、任何编码区域、其区段或其组合。复制可包括微复制。复制有时包括复制核酸的一个或多个拷贝。有时复制表征为重复一次或多次(如重复1、2、3、4、5、6、7、8、9或10次)的遗传区域。在一些示例中,复制的范围可以是小区域(数千碱基对)到全部染色体。复制经常由于同源重组的错误或由于逆转座子事件造成。复制关联某些类型的增殖疾病。复制能使用基因组微阵列或比较基因组杂交(CGH)来表征。
遗传变异有时是插入。插入有时是添加一种或多种核苷酸碱基对至核酸序列中。插入有时是微插入。在某些实施方式中插入包括添加染色体区段至基因组、染色体或其区段。在某些实施方式中插入包括添加等位基因、基因、内含子、外显子、任何非-编码区域、任何编码区域、其区段或其组合至基因组或其区段。在某些实施方式中插入包括添加(即插入)未知来源的核酸至基因组、染色体或其区段。在某些实施方式中插入包括添加(即插入)单个碱基。
本文所用“拷贝数变异”通常是一类或一种遗传变异或染色体失常。拷贝数变异可为缺失(例如微缺失)、复制(例如微复制)或插入(例如微插入)。通常,本文所用前缀“微”有时是长度小于5Mb的核酸区段。拷贝数变异可包括染色体区段的一种或多种缺失(例如微缺失)、复制和/或插入(例如微复制、微插入)。在某些实施方式中复制包括插入。在某些实施方式中插入是复制。在某些实施方式中插入不是复制。例如,通常部份的序列复制增加发现复制的部份的计数。通常部份中的序列复制提高所述水平。在某些实施方式中,形成第一水平的部份中存在的复制相对于没有复制的第二水平提高所述第一水平。在某些实施方式中插入提高部份的计数且代表所述插入的序列存在于(即、复制)相同部份内的其他位置。在某些实施方式中插入没有显著提高部份或水平的计数且插入的序列不是相同部份内的序列的复制。在某些实施方式中未检测到插入或插入不代表复制且代表所述插入的复制序列不存在于相同部份。
在一些实施方式中拷贝数变异是胎儿拷贝数变异。通常,胎儿拷贝数变异是胎儿基因组中的拷贝数变异。在一些实施方式中拷贝数变异是母本和/或胎儿拷贝数变异。在某些实施方式中母本和/或胎儿拷贝数变异是妊娠女性(例如怀有胎儿的女性对象)、生育胎儿的女性对象或能生育胎儿的女性对象的基因组内的拷贝数变异。拷贝数变异可为杂合拷贝数变异,其中所述变异(例如复制或缺失)存在于基因组的一个等位基因上。拷贝数变异可为纯合拷贝数变异,其中所述变异存在于基因组的两个等位基因上。在一些实施方式中拷贝数变异是杂合或纯合拷贝数变异。在一些实施方式中拷贝数变异是杂合或纯合的母本和/或胎儿拷贝数变异。拷贝数变异有时存在于母本基因组和胎儿基因组中、母本基因组中存在但胎儿基因组中不存在、或胎儿基因组中存在但母本基因组不存在。
“倍性”是胎儿或母本中存在的染色体数量的参照。在某些实施方式中“倍性”与“染色体倍性”相同。例如人类中,常染色体通常成对存在。例如,不含遗传变异时,多数人具有各常染色体的两份(例如染色体1-22)。人中存在2个常染色体的正常互补物通常称为整倍体。“微倍性”与倍性含义相似。“微倍性”通常指染色体区段的倍性。术语“微倍性”有时是染色体内是否存在拷贝数变异(例如缺失、复制和/或插入)的参照(例如纯合或杂合缺失、复制,或插入、等或或无变异)。“倍性”和“微倍性”有时在水平概况中的计数的标准化之后确定。因此,代表常染色体对(例如整倍体)的水平通常标准化至1倍性。相似地,代表不含复制、缺失或插入的染色体区段内的水平通常标准化至1微倍性。倍性和微倍性通常为部份-特异性(例如部份-特异的)和样品-特异性。倍性通常定义为1/2的整数倍,其中1、1/2、0、3/2、和2分别代表整倍体(例如2染色体)、存在1染色体(例如染色体缺失)、不存在染色体、3染色体(例如三体)和4染色体。同样地,微倍性通常定义为1/2的整数倍,其中1、1/2、0、3/2、和2分别代表整倍体(例如无拷贝数变异)、杂合缺失、纯合缺失、杂合复制和纯合复制。一些胎儿倍性值的示例示于表2。
在某些实施方式中胎儿微倍性与胎儿母本(即妊娠女性对象)微倍性相匹配。在某些实施方式中胎儿微倍性与胎儿母本微倍性相匹配且母本和胎儿带有相同杂合拷贝数变异、纯合拷贝数变异或均为整倍体。在某些实施方式中胎儿微倍性不同于胎儿母本微倍性。例如,有时胎儿微倍性的拷贝数变异为杂合、而母本的拷贝数变异为纯合,针对特定拷贝数变异的胎儿微倍性与母本微倍性不匹配(例如不相等)。
微倍性通常关联预期水平。例如,有时水平(例如概况中水平,有时水平包括基本无拷贝数变异)标准化至值1(例如1倍性、1微倍性)且纯合复制微倍性为2、杂合复制为1.5、杂合缺失为0.5和纯合缺失为0。
在某些实施方式中,鉴定对象是否存在遗传变异与医学病症相关联。因此,本文所述技术能用于鉴定是否存在与医疗病情或医疗状态相关联的一种或多种遗传变异。医学病症的非限定性示例包括与智力残疾(如唐氏综合征)、异常细胞增殖(如癌症)、存在微生物(如病毒、细菌、真菌、酵母)核酸和先兆子痫相关联的那些。
遗传变异、医学病症和状态的非限制性示例如下所述。
胎儿性别
在一些实施方式中,可通过本文所述方法、装置或设备确定对胎儿性别或性别相关疾病(例如性染色体非整倍性)的预测。性别决定通常基于性染色体。人有两条性染色体,X和Y染色体。Y染色体含有启动胚胎发育为雄性的基因SRY。人和其他哺乳动物的Y染色体还含有产生正常精子所需的其他基因。有XX的个体是女性,有XY的个体是男性,而非限定性变异通常指性染色体非整倍性,包括XO、XYY、XXX和XXY。在某些实施方式中,男性具有两个X染色体和一个Y染色体(XXY;克氏综合征)、或一个X染色体和两个Y染色体(XYY综合征;雅各布斯综合征),和一些女性具有三个X染色体(XXX;三X综合征)或单一X染色体而非两个(X0;特纳综合征)。在某些实施方式中,仅部分个体细胞受性染色体非整倍性的影响,这称为镶嵌型(例如特纳镶嵌型)。其他情况包括SRY受损(产生XY女性),或X复制(产生XX男性)。
在一些实施方式中,其中确定胎儿性别的方法还可包括确定胎儿分数和/或胎儿遗传变异(例如,胎儿染色体异倍性)的存在与否。胎儿遗传变异的存在与否的确定可以合适的方式进行,其非限制性示例包括染色体组型分析、羊水诊断、循环无细胞核酸分析、无细胞胎儿DNA分析、核苷酸序列分析、序列读数定量、靶向法、基于扩增的方法、基于质谱的方法、基于差异甲基化的方法、基于差异消化的方法、基于多态性的方法、基于杂交的方法(例如,采用探针)等。
在某些情况中,确定子宫中胎儿性别有益处。例如,具有一种或多种性连锁疾病家族史的亲本(例如妊娠女性)可能希望确定所怀胎儿性别以评估胎儿遗传该疾病的风险。性连锁疾病包括,但不限于X连锁和Y连锁疾病。X连锁疾病包括X连锁隐性和X连锁显性疾病。X连锁隐性疾病的示例包括但不限于免疫疾病(例如慢性肉芽肿性疾病(CYBB)、Wiskott–Aldrich综合征、X连锁重症联合免疫缺陷、X连锁无丙种球蛋白血症缺乏症、1型高-IgM综合征、IPEX、X连锁淋巴增殖性疾病、备解素缺乏症)、血液病(例如血友病A、血友病B、X连锁铁粒幼细胞贫血)、内分泌障碍(例如雄激素不敏感综合征/Kennedy病、KAL1Kallmann综合征、X连锁先天性肾上腺发育不良)、代谢疾病(例如鸟氨酸转氨甲酰酶、眼脑肾综合征、肾上腺脑白质营养不良、葡萄糖六磷酸去氧酶缺乏症、丙酮酸盐脱氢酶缺乏症、达农病/IIb型糖原贮积病、发氏病、亨特氏综合征、Lesch–Nyhan综合征、Menkes病/后头角综合征)、神经系统疾病(例如Coffin–Lowry综合征、MASA综合征、X连锁α地中海贫血症精神发育迟滞综合征、SideriusX连锁智力低下综合征、色盲、眼白化、诺里病、无脉络膜、Charcot–Marie–Tooth病(CMTX2-3)、Pelizaeus–Merzbacher病、SMAX2)、皮肤和皮肤相关疾病(例如先天性角化不良、少汗性外胚层增生不良症(EDA)、X连锁鱼鳞病、X连锁角膜内皮失养症)、神经肌肉疾病(例如Becker's肌营养不良/杜氏营养不良症、中央核肌病(MTM1)、Conradi–Hünermann综合征、Emery–Dreifuss肌营养不良1)、泌尿疾病(例如Alport综合征、丹氏病、X连锁肾性尿崩症)、骨/牙疾病(例如AMELX釉质形成缺陷症)、和其他疾病(例如Barth综合征、McLeod综合征、Smith-Fineman-Myers综合征、Simpson–Golabi–Behmel综合征、
Figure BDA0003603576890001431
综合征、纳索氏(Nasodigitoacoustic)综合征)。X连锁显性疾病的示例包括但不限于X连锁低磷血症、灶性皮肤发育不全、脆性X综合征、艾氏综合征、色素失调症、利特综合征、儿童综合征、Lujan–Fryns综合征和口面指综合征1。Y连锁疾病的示例包括,但不限于男性不育、视网膜色素变性和无精子症。
染色体异常
在一些实施方式中,胎儿染色体异常可以使用本文所述方法、装置或设备确定。染色体异常包括但不限于整个染色体或者包含一个或多个基因的染色体区域的获得或丢失。染色体异常包含单体性、三体性、多体性、杂合性的丢失、一个或多个核苷酸序列(如一个或多个基因)的缺失和/或重复,包含非平衡移位造成的缺失和重复。本文所用术语“染色体异常”、“非整倍性”和/或“非整倍体的”指对象染色体与正常同源染色体的结构之间的偏差。术语“正常”指具体物种的健康个体中的主要染色体组型或结合形式,例如,整倍体基因组(人中为46,XX或46,XY)。由于不同生物有广泛不同的染色体套数(complement),所述术语“非整倍性”和“非整倍体的”并非指染色体的特定数目,而是指给定生物体细胞中染色体含量异常的情况。在一些实施方式中,本文术语“非整倍性”和“非整倍体的”指由于缺失或获得全染色体,或部分染色体引起的遗传材料的不平衡。“非整倍性”可指染色体区段的一种或多种缺失和/或插入。在一些实施方式中,术语“整倍体”指染色体的正常套数。
本文使用术语"单体性"指缺乏正常套数(complement)的一个染色体。部分单体性可在非平衡易位或缺失中发生,其中仅有一部分染色体以单个拷贝存在。例如性染色体(45,X)的单体性造成特纳氏综合征。术语"二体性"指存在染色体的两个拷贝。就各染色体有两个拷贝的生物体(二倍体或"整倍体"的那些)(例如人)而言,二体性是正常情况。就各染色体通常有三个或更多个拷贝的生物体(三倍体或更多倍体的那些)而言,二体性是非整倍染色体套数的状态。在单亲二体性中,染色体的两个拷贝来自相同亲本(另一亲本没有贡献)。
本文所用术语"三体性"指存在特定染色体的三个拷贝,而不是两个拷贝。人唐氏综合征中发现额外一条染色体21的存在,称为"21三体性"。18三体性和13三体性是其它两种人常染色体三体性。性染色体的三体性可出现在女性中(如47,三X症状中的XXX)或男性中(如克氏综合征中的47,XXY;或47,雅各布斯症状中的XYY)。在一些实施方式中,三体性是大多数或所有常染色体的复制。在一些实施方式中,三体性是全染色体非整倍性,导致具体种类染色体的三种情况(如三拷贝)(而非二倍体的具体种类染色体的两种情况(即一对))。
本文使用"四体性"和"五体性"指分别存在染色体的四个或五个拷贝。尽管对常染色体罕见,但已报道了人的性染色体的四体性和五体性,包括XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY和XYYYY。
染色体异常可由各种机制引起。机制包括但不限于(i)有丝分裂检查点弱化导致的不分离、(ii)有丝分裂检查点失活造成多个染色体处的不分离、(iii)当一个着丝粒连接两个有丝分裂纺锤体极时发生单极向型(merotelic)连接、(iv)当形成多于两个纺锤体极时形成多极性纺锤体、(v)当形成仅一个纺锤体极时形成单极性纺锤体,和(vi)单极性纺锤体机制最终导致出现四倍体中间型。
本文使用术语"部分单体性"和"部分三体性"指部分染色体的丧失或获得造成的遗传材料的不平衡。非平衡易位可导致部分单体性或部分三体性,此时个体载有通过两条不同染色体的破裂和融合形成的衍生染色体。在这种情况下,所述个体可以有一条染色体部分的三个拷贝(两个正常拷贝和所述衍生染色体上存在的部分),和所述衍生染色体中所带的其它染色体部分的仅仅一个拷贝。
本文所用术语"镶嵌性"指生物体的一些细胞但不是全部细胞中的非整倍性。某些染色体异常能以镶嵌性(mosaic)和非镶嵌性(nonmosaic)染色体异常形式存在。例如,某些21三体性个体有镶嵌性唐氏综合征而一些有非镶嵌性唐氏综合征。不同机制可导致镶嵌性。例如(i)起始受精卵可以有三条21号染色体,正常情况下会导致简单的21三体性,但是在细胞分裂中一个或多个细胞系丢失了所述21号染色体中的一条;和(ii)起始受精卵可以有两条21号染色体,但是在细胞分裂中所述21号染色体中的一条复制。体细胞镶嵌性似乎通过不同于通常与涉及完全或镶嵌性非整倍性的遗传症状相关联的那些的机制发生。例如已在某些类型的癌症和神经元中鉴定了体细胞镶嵌性。在某些示例中,在慢性淋巴细胞性白血病(CLL)中鉴定了12三体性,而在急性骨髓性白血病(AML)中鉴定了8三体性。同样,有染色体破裂倾向(染色体不稳定性综合征)的个体的遗传症状常与多种类型癌症的风险增加相关联,从而突出了癌发生中体细胞非整倍性的作用。本文所述方法和试方案能鉴定是否存在非镶嵌性和镶嵌性的染色体异常。
表1A和1B为可通过本文所述的方法、装置和设备可能鉴定的染色体病症、综合征和/或异常的非限定性列表。表1B来自2011年10月6日的DECIPHER数据库(如版本5.1,根据定位到GRCh37的位置;统一资源定位符(URL)dechipher.sanger.ac.uk上可用)。
表1A
Figure BDA0003603576890001451
Figure BDA0003603576890001461
Figure BDA0003603576890001471
Figure BDA0003603576890001481
表1B
Figure BDA0003603576890001491
Figure BDA0003603576890001501
Figure BDA0003603576890001511
Figure BDA0003603576890001521
Figure BDA0003603576890001531
1级病症常具有以下特点中的一种或多种:致病性异常;遗传学家之间的一致认同;高度外显;仍然可以有可变的表型,但有一些共同特性;文献中的所有示例有临床表型;没有含所述异常的健康个体示例;在DVG数据库上没有报导或健康人群中没有发现;证明单个基因或多个基因剂量效应的函数型数据;经证明的候选基因或强候选基因;明确的临床管理意义;监测意义伴随的已知的癌症风险;多个信息来源(OMIM、GeneReviews、Orphanet、Unique、Wikipedia);和/或可以用于诊断应用(生殖咨询(counseling))。
2级病症常具有以下特点中的一种或多种:可能的致病性异常;高度外显;除了DD以外没有持续特性的可变表型;文献中少量示例/报导;所有报导的示例都有临床表型;没有函数型数据或经证明的病原基因;多个信息来源(OMIM、GeneReviews、Orphanet、Unique、Wikipedia);和/或可以用于诊断目的和生殖咨询。
3级病症常具有以下特点中的一种或多种:易感位点;健康个体或所述先证者的未受影响的父母;在对照人群中存在;非显性;表型温和且无特异性;特征较不一致;无函数型数据或经证明的病原基因;更有限的数据来源;针对偏离大部分或有新临床发现设想提出的情况仍可能有二次诊断的可能性;和/或用于诊断目的时需谨慎且就生殖咨询给出有保留的建议。
先兆子痫
在一些实施方式中,使用本文所述的方法、装置或设备确定是否存在先兆子痫。先兆子痫是妊娠中出现高血压(即妊娠诱导的高血压)且与尿中高蛋白含量相关联的病症。在一些实施方式中,先兆子痫也与升高的细胞外核酸和/或甲基化形式改变有关。例如,已经观察到了胞外胎儿源性高甲基化RASSF1A水平和先兆子痫的严重性正相关。在某些实施例中,对比正常对照,在先兆子痫胎盘中观察到了H19基因DNA甲基化的增加。
先兆子痫是世界范围内母本和胎儿/新生儿死亡率和发病率的主要原因之一。血浆和血清中的循环无细胞核酸是在包括产前诊断在内的不同医学领域中具有临床应用前景的新型生物标志物。不同研究中已报道了将母本血浆中无细胞胎儿(cff)DNA的量变作为即将发生先兆子痫的指示物,例如针对男性特异性SRY或DYS 14位点使用实时定量PCR。在早发型先兆子痫的示例中,在头三个月内可以观察到水平提高。症状发作前cffDNA水平的增加可归因为绒毛间空隙中的缺氧/复氧,导致了组织氧化应激和胎盘凋亡及坏死的增加。除有证据证明先兆子痫中排入母本循环的cffDNA增多以外,也有证据证明在先兆子痫中cffDNA的肾清除率降低。由于当前通过定量Y-染色体特异性序列确定胎儿DNA的量,替代性方法例如测量总无细胞DNA或使用性别无关的胎儿表观遗传学标记物(如DNA甲基化)提供了其它选择。胎盘来源的无细胞RNA是可以在临床实践中用于筛选和诊断先兆子痫的另一个备选标记。胎儿RNA与保护其免于降解的亚细胞胎盘颗粒相关联。有先兆子痫的妊娠女性中的胎儿RNA水平有时相较于对照高出10倍,因此所述胎儿RNA水平是可以在临床实践中用于筛选和诊断先兆子痫的备选生物标记物。
病原体
在一些实施方式中,通过本文所述的方法或设备确定是否存在病原性病症。病原性病症能通过病原体(包括但不限于细菌、病毒或真菌)感染宿主而产生。由于病原体通常具有能与宿主核酸区分开的核酸(如基因组DNA、基因组RNA、mRNA),本文提供的方法、装置和设备能用于确定是否存在病原体。通常,病原体具有特定病原体独有特性的核酸,例如表观遗传状态和/或一种或多种序列变异、复制和/或缺失。因此,本方法可用于鉴定具体病原体或病原体变体(例如株系)。
癌症
在一些实施方式中,能使用本文所述方法、装置或设备确定是否存在细胞增殖疾病(如癌症)。例如,相较于健康患者,多种类型癌症患者内血清中的无细胞核酸水平会升高。例如,患有转移性疾病的患者的血清DNA水平有时能比无转移患者高出大约两倍。患有转移性疾病的患者还可以通过例如癌症特异性标志物和/或某些单核苷酸多态性或短串联重复来鉴定。可以与循环DNA水平提高正相关的癌症类型的非限定性示例包括乳腺癌、结直肠癌、胃肠癌、肝细胞癌、肺癌、黑素瘤、非霍奇金淋巴瘤、白血病、多发性骨髓瘤、膀胱癌、肝细胞瘤、宫颈癌、食道癌、胰腺癌和前列腺癌。多种癌症能具有与非癌健康细胞核酸特性(例如表观遗传状态和/或序列变异、复制和/或缺失)不同的核酸,并且有时释放其进入血液。例如此类特性可对特定类型的癌症有特异性。因此,还考虑本文所提供的方法能用于鉴定特定类型的癌症。
软件能用于进行本文所述方法的一个或多个步骤,包括但不限于:计数、数据处理、生成结果和/或根据生成的结果提供一个或多个建议,如下文详细描述。
机器、软件和接口
没有计算机、微处理器、软件、模块或其他装置,本文所述某些过程和方法(例如定量、映射、标准化、范围设定、调整、归类、计数和/或确定序列读数、计数、水平(例如水平)和/或概况)通常无法进行。本文所述方法通常是计算机-执行方法,且方法的一或多部份有时通过一种或多种处理器(例如微处理器)、计算机或微处理器控制的装置进行。本文相关方法的实施方式通常可应用于本文所述系统、装置和计算机程序产物中的指令执行的相同或相关过程。与本申请所述方法有关的实施方式一般可应用于相同或相关的步骤,所述步骤通过其上存储有可执行程序的非暂时性的计算机可读存储介质进行,其中所述程序向微处理器提供指令以进行该方法,或其部分。在一些实施方式中,本文所述过程和方法(例如定量、计数和/或确定序列读数、计数、水平和/或概况)通过自动化方法进行。在一些实施方式中,本文所述一种或多种步骤和方法童工处理器和/或计算机进行、和/或联合存储器进行。在一些实施方式中,自动化方法物化在软件、模块、处理器、外围设备和/或装置等中,其确定序列读数、计数、映射、映射的序列标签、水平、概况、标准化、比较、范围设定、归类、调整、作图、结果、变换和鉴定。如本文所用,软件指在由微处理器执行时进行计算机操作的计算机可读程序指令。
源自测试对象(例如患者,妊娠女性)和/或参照对象的序列读数、计数、水平、和概况可进一步和加工以去顶是否存在遗传变异。测序读数、计数、水平和/或概况有时称为“数据”或“数据组”。在一些实施方式中,数据或数据组能表征为一种或多种特性或变量(如基于序列的[如GC含量、特异性核苷酸序列等]、功能特异性[如表达的基因、癌基因等]、基于定位的[基因组特异性、染色体特异性、部份-特异性]等及其组合)。在某些实施方式中,能根据一种或多种特性或变量将数据或数据组组织成有两个或多个维数的矩阵。能使用任何合适的特性或变量对组织成矩阵的数据分级。矩阵中的数据的非限定性示例包含通过母本年龄、母本倍性和胎儿基值组织的数据。在某些实施方式中,根据一种或多种特征或变量分类的数据组有时在计数后加工。
装置、软件和接口可以用于执行本文所述方法。使用装置、软件和接口,用户可以进入、请求、查询或确定用于使用特定信息、程序或方法的选项(如定位序列读数、处理定位的数据和/或提供结果),例如,所述信息、程序或方法可涉及实现统计学分析算法、统计学显著性算法、统计学算法、重复步骤、验证算法和图示显示。在一些实施方式中,数据组可以作为输入信息由用户输入,用户可以通过任意合适的硬件介质(如闪存)下载一个或多个数据组,并且/或者用户可以从一个系统向另一个系统发送数据组以供后续处理和/或提供结果(如从一个测序器向计算机系统发送序列读取数据以定位序列读数;向计算机系统发送定位的序列数据以处理和生成结果和/或报告)。
系统通常包括一种或多种装置。各装置包括一种或多种存储器、一种或多种微处理器和指令。系统包括两个或更多装置时,一些或全部装置可位于相同位置、一些或全部装置可位于不同位置、所有装置可位于一个位置和/或所有装置可位于不同位置。系统包括两个或更多装置时,一些或全部装置可位于用户的相同位置、一些或全部装置可位于用户的不同位置、所有装置可位于用户的相同位置和/或所有装置可位于用户的一个或多个不同位置。
系统有时包括计算装置和测序装置或设备,其中所述测序装置配置或设备设置为接受物理核酸和生成序列读数,且计算装置设置为处理来自测序装置的读数。计算装置有时配置为从所述序列读数确定是否存在遗传变异(例如拷贝数变异;胎儿染色体非整倍性)。
例如,用户可以向软件设置查询,所述软件随后可以通过因特网入口获得数据组,而在某些实施方式中,可指示可编程的微处理器根据给定参数获得合适的数据组。可编程的微处理器也可以提示用户选择由微处理器在给定参数基础上所选的一个或多个数据组选项。可编程的微处理器可以提示用户选择由所述微处理器基于通过因特网、其它内部或外部信息等发现的信息所选的一个或多个数据组选项。可以选定选项以选择方法、装置、设备、计算机程序或其上存储有可执行程序的非暂时性的计算机可读存储介质的一个或多个数据特性选择、一种或多种统计学算法、一种或多种统计学分析算法、一种或多种统计学显著性算法、重复步骤、一种或多种确证算法和一种或多种图示显示。
本文所述的系统可以包括计算机系统的通用组件,例如网络服务器、笔记本系统、台式系统、手持系统、个人数字助理、计算机自助服务终端等。计算机系统可包括一种或多种输入方式例如键盘、触摸屏、鼠标、语音识别或其他方式以允许用户向系统输入数据系统。系统还可以包含一个或多个输出,包括但不限于显示屏(如CRT或LCD)、扬声器、传真机、打印机(如激光、喷墨、击打式、黑白或彩色打印机)或用于提供信息的视觉、听觉和/或硬拷贝输出(如结果和/或报告)的其它方式。
系统中,可使所述输入和输出方式连接中央处理单元,该单元可含有运行程序指令的微处理器和存储程序编码与数据的存储器和其它组件。在一些实施方式中,处理可作为位于单一地理位置的单用户系统实施。在某些实施方式中,处理可作为多用户系统实施。在多用户执行的情况中,多中央处理单元可通过网络连通。所述网络可位于本地,涵盖建筑物的部分中的单一隔室、整个建筑物、跨多个建筑物、跨区域、跨国家或全球。所述网络可为私人的,由提供者所有并控制,或其可作为基于网络的服务而执行,用户进入网页来输入或找回信息。因此,在某些实施方式中,系统包含可由用户定位或遥控的一种或多种机器。用户可以访问在一个或多个位置的多于一台机器,并且数据可以以系列和/或平行方式作图和/或处理。因此,可利用任意合适的结构和控制来使用多机器绘图和/或处理数据,所述机器例如局部网络、远程网络和/或"云"计算机平台。
在一些实施方式中,系统能包含通信接口。通信接口使软件和数据能在计算机系统和一种或多种外部设备之间转移。通信接口的非限定性示例可包括调制解调器、网络接口(例如以太网卡)、通信端口、PCMCIA槽和卡等。经通信接口转移的软件和数据通常为信号形式,其可以是能被通信接口接收的电子、电磁、光学和/或其它信号。信号经常通过通道提供给通信接口。通道经常携带信号,并能采用导线或线缆、光纤、电话线、手机连接、RF连接和其它通信通道实现。因此,在一个实施例中,可采用通信接口接收能由信号检测模块确定的信号信息。
数据能由任意合适的设备和/或方法输入,所述设备和/或方法包括但不限于人工输入设备或直接数据输入设备(DDE)。人工设备的非限定性示例包括键盘、概念键盘、触敏屏、光笔、鼠标、轨迹球、操纵杆、图形平板、扫描仪、数码相较、视频数字化仪和语音识别设备。DDE的非限定性示例包括条形码扫描仪、磁条编码、智能卡、磁墨字符识别、光学字符识别、光学标记识别、和周转文件。
在一些实施方式中,测序设备或装置的输出可以作为能通过输入设备输入的数据。在某些实施方式中,定位的序列读数可以作为能通过输入设备输入的数据。在某些实施方式中,核酸片段大小(例如,长度)可作为能够通过输入装置被输入的数据。在某些实施方式中,来自核酸捕获步骤(例如,基因组区域源数据)的输出可作为能够通过输入装置被输入的数据。在某些实施方式中,核酸片段大小(例如,长度)和来自核酸捕获步骤(例如,基因组区域源数据)的组合可作为能够通过输入装置被输入的数据。在某些实施方式中,模拟数据通过计算机虚拟(in silico)方法生成,并且所述模拟数据作为能通过输入设备输入的数据。术语“计算机虚拟(in silico)”指采用计算机进行的研究和实验。计算机虚拟方法包括但不限于根据本文所述方法的定位的序列读数和处理定位的序列读数。
系统可包含用于运行本文所述方法的软件,并且软件能包含用于运行这种方法的一种或多种模块(如测序模块、逻辑处理模块、数据显示管理模块)。如本文所用,软件指在由计算机执行时进行计算机操作的计算机可读程序指令。一个或多个微处理器可执行的指令有时作为可执行代码提供,其在运行时可使一个或多个微处理器执行本发明方法。本文所述模块可以软件形式存在,且软件中内置的指令(例如过程、例程、子例程)可通过微处理器执行或进行。例如,模块(例如软件模块)是执行特定方法和任务的程序的部分。术语“模块”指能用于较大装置或软件系统的独立功能单元。模块可包括指令组以进行模块的功能。模块可变换数据和/或信息。数据和/或信息可为合适的形式。例如数据和/或信息可为数字或模拟的。在一些实施方式中,有时,数据和/或信息可为包裹、字节、字符或比特。在一些实施方式中,数据和/或信息可为任何收集的、集合的或有用的数据或信息。数据和/或信息的非限制性示例包括合适的媒介、图片、视频、声音(例如听得见或听不见的频率)、数字、常量、值、物体、时间、函数、指令、图谱、参照、序列、读数、映射的读数、水平、范围、阈值、信号、显示、表示,或其变换。模块可接受或接收数据和/或信息、变换数据和/或信息为第二形式、和提供或转移该第二形式至装置、外围设备、组件或其他模块。模块可进行一种或多种下述非-限制性函数:例如映射序列读数、提供计数、集合部份、提供或确定水平、提供计数概况、标准化(例如标准化读数、标准化计数、等)、提供标准化计数概况或标准化计数水平、比较两个或更多水平、提供不确定值、提供或确定预期水平和预期范围(例如预期水平范围、阈值范围和阈值水平)、提供调整至水平(例如调整第一水平、调整第二水平、调整染色体或其区段概况、和/或填充)、提供鉴定(例如鉴定拷贝数变异、遗传变异或非整倍性)、归类、作图、和/或确定结果。在某些实施方式中,微处理器可进行模块中的指令。在一些实施方式中,需要一个或多个微处理器进行模块或模块组中的指令。模块可提供数据和/或信息至其他模块、装置或源并可接收其他模块、装置或源的数据和/或信息。
计算机程序产品有时物化在实体计算机-可读介质上、和有时实体物化在非-瞬时计算机-可读介质上。模块有时储存在计算机可读介质(例如磁盘、驱动器)或存储器中(例如随机存取存储器)。能执行来自模块的指令的模块和微处理器可位于装置内或不同装置内。能执行模块的指令的模块和/或微处理器可位于用户的相同位置(例如局部网络)或用户的不同位置(例如远程网络、云系统)。方法与两个或更多模块联合进行的实施方式中,模块可位于相同装置、一种或多种模块可位于相同物理位置中的不同装置中、和一种或多种模块可位于不同物理位置中的不同装置中。
在一些实施方式中,装置包括至少一个微处理器用于进行模块中的指令。映射至参照基因组的部份的序列读数计数有时通过微处理器存取,所述微处理器运行进行本文所述方法的指令。通过微处理器存取的计数可在系统的存储器内,且可在访问计数后对其进行存取并将其置于和系统的存储器内。在一些实施方式中,装置包括微处理器(例如一种或多种微处理器),该微处理器可进行和/或执行模块的一种或多种指令(例如过程、例程和/或子例程)。在一些实施方式中,装置包括多个微处理器,例如协同和并行工作的微处理器。在一些实施方式中,装置用一种或多种外部微处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。在一些实施方式中,装置包括模块。在某些实施方式中,装置包括一个或多个模块。装置包括模块通常可从其他模块接受和传递一种或多种数据和/或信息和至其他模块。在某些实施方式中,装置包括外围设备和/或组件。在某些实施方式中装置可包括一种或多种外围设备或组件,其可将数据和/或信息传递至其他模块、外围设备和/或组件和从其传递。在某些实施方式中,装置与提供数据和/或信息的外围设备和/或组件交互。在某些实施方式中外围设备和组件协助装置行使功能或直接与模块交互。外围设备和/或组件的非限制性示例包括合适的计算机外围设备、I/O或储存方法或设备,包括不限于扫描仪、打印机、显示器(例如监视器、LED、LCT或CRT)、相机、麦克风、平板电脑(例如,书写板)、触摸屏、智能手机、移动电话、USBI/O设备、USB存储器、键盘、计算机鼠标、数码笔、调制解调器、硬盘、跳跃引擎、闪存驱动器、微处理器、服务器、CD、DVD、图形卡、专用I/O设备(例如序列发生器、光电池、光电放大管、光阅读器、感应器、等)、一种或多种流动槽、液体处理部件、网络交互控制器、ROM、RAM、无线传递方法和设备(蓝牙、WiFi等)、万维网(www)、网络、计算机和/或其他模块。
软件常在含有程序指令的程序产品上提供,所述指令记录在计算机可读介质上,包括但不限于,磁性介质包括软盘、硬盘和磁带;和光学介质包括CD-ROM盘、DVD盘、磁光盘和其它可记录所述程序指令的此类介质。在线执行中,由组织维持的服务器和网站能被设置成向远端用户提供软件下载,或者远端用户可以使用由组织维持的远端系统来远端获取软件。软件可获得或接收输入信息。软件可以包含特定获得或接收数据的模块(如接收序列读取数据和/或定位的读取数据的数据接收模块)并且可以包含特定处理数据的模块(如处理数据的处理模块(如过滤器、标准化、提供结果和/或报告)。术语“获得”和“接收”输入信息指通过计算机通信方式从本地或远端位点、人工数据输入或任意其它接收数据的方法来接收数据(如序列读数、定位读数)。输入信息可在其接收的相同位置生成,或其可在不同位置生成并传送至接收位置。在一些实施方式中,输入信息在处理前经修饰(例如置于利于处理的形式中(例如表格))。
在一些实施方式中,提供计算机程序产品,例如包括内含计算机可读程序编码的计算机可用介质的计算机程序产品,所述计算机可读程序编码适于运行以执行方法,所述方法包括:(a)获得来自测试对象的样品核酸的序列读数;(b)将所述(a)中获得的序列读数映射至已知基因组,所述已知基因组已被分成多个部份;(c)对在所述部份中映射的序列读数计数;(d)通过对就(c)中获得的部份的计数进行标准化来产生样品标准化的计数概况;和(e)由(d)中的样品标准化的计数概况来确定遗传变异的存在与否。
在某些实施方式中,软件能包含一种或多种算法。算法可以用于根据有限的序列指令来处理数据和/或提供结果或报告。算法经常是用于完成任务的定义指令表。从起始状态开始,所述指令可以描述通过定义的一系列连续的状况进行并且以最终结束状态终止的计算。从一个状态转换成下一个状态不必是确定性的(例如,一些算法会纳入任意性)。作为非限定性示例,算法能是搜索算法、分类算法、归并算法、数值算法、图解算法、字符串搜索算法、建模算法、计算几何(几何学)算法、组合算法、机器学习算法、密码术算法、数据压缩算法、分析算法等。算法能包含一种算法或者两种或更多种算法的组合应用。算法可以是任意合适的复杂性分类和/或参数化的复杂性。算法能用于计算和/或数据处理,而在一些实施方式中能用在确定性的或盖然论/预测方法中。算法能通过使用合适的程序语言(非限定性示例是C、C++、Java、Perl、Python、Fortran等)植入到计算机环境中。在一些实施方式中,算法能构建或改进成包含误差容限、统计学分析、统计学显著性和/或与其它信息或数据组的比较(如当使用神经网络或簇算法时的应用)。
在某些实施方式中,可将若干算法植入软件以便于使用。在一些实施方式中,这些算法能采用原始数据训练。对各种新的原始数据样品而言,所述经训练的算法可以生成代表性的经处理的数据组或结果。相较经处理的父数据组(亲本数据集)而言,经处理的数据组有时复杂性降低。在一些实施方式中,基于经处理的数据组,能根据灵敏度和特异性来评价经训练的算法的实现。在某些实施方式中,可以鉴定并利用有最高灵敏度和/或特异性的算法。
在某些实施方式中,模拟数据可协助数据处理,例如通过算法的训练或算法的测试。在一些实施方式中,模拟数据包含不同组序列读数的多种假定取样。模拟数据可基于真实群体中可能的预期情况或可被歪曲以测试算法和/或分配正确的分类。模拟数据本文中还指“实质”数据。在某些实施方式中模拟可通过计算机程序进行。使用模拟数据组中的一个可能步骤是评价经鉴定结果的置信度,如随机取样匹配或最佳代表原始数据的良好程度。一种方法是计算概率值(p值),该值评估随机样品比选定样品更好的概率。在一些实施方式中,可评估经验模型,其中假设至少一个样品匹配参照样品(具有或没有分辨出(resolved)的变异)。在一些实施方式中,其他分布例如泊松分布可用于定义概率分布。
在某些实施方式中,系统可以包括一个或多个微处理器。微处理器可连接通信总线。计算机系统可包括主存储器(经常为随机读取存储器(RAM)),也可包括第二存储器。在一些实施方式中,存储器包括非-瞬时计算机-可读储存介质。二级存储器可包括例如,硬盘设备和/或可移除储存设备、代表软盘设备、磁带设备、光盘设备、存储卡等。移动存储驱动器经常读取和/或写入可移动的储存单元。可移动储存单元的非限定性示例包括能读取或写入例如移动存储驱动器的软盘、磁带、光盘等。可移动储存单元可包括其内储存有计算机软件和/或数据的计算机-可用的储存介质。
微处理器可以执行系统中的软件。在一些实施方式中,可以对微处理器编程以自动运行本文所述用户可以进行的任务。因此,微处理器或者由这种微处理器执行的算法能几乎不需要监控至没有监控或者来自用户的输入(如可以编写软件以自动化实施功能)。在一些实施方式中,所述处理具有很大复杂性以至于单个个人或一组人不能在足够短的时间范围内实行所述处理以确定是否存在遗传变异。
在一些实施方式中,第二存储器可包括允许计算机程序的其它相似方式或装载到计算机系统的其它指令。例如系统可包括可移除储存单元和交互设备。这种系统的非限定性示例可包括程序模块和模块接口(例如视频游戏设备中发现的那种)、可移动存储芯片(例如EPROM或PROM)以及关联插座和允许软件和数据从可移动储存单元转移到计算机系统的其它可移动储存单元和接口。
在一些实施方式中,一个实体可生成序列读数计数、映射序列读数至部份、计数映射读数、并在本文所述方法、系统、装置、设备或计算机程序产物中使用计数的映射读数。在某些实施方式中,本文所述方法、系统、装置、设备或计算机程序产品中,映射至部份的序列读数计数有时从一个实体转移至第二实体由其使用。
在一些实施方式中,一个实体生成序列读数和第二实体映射那些序列读数至参照基因组中的部份。第二实体有时计数映射的读数和在本文所述方法、系统、装置或计算机程序产品中采用该计数的映射的读数。在某些实施方式中第二实体转移映射的读数至第三实体、和第三实体计数该映射的读数并在本文所述方法、系统、装置或计算机程序产品中采用该映射的读数。在某些实施方式中第二实体计数映射的读数并将该计数的映射的读数转移至第三实体、和第三实体计数在本文所述方法、系统、装置或计算机程序产品中采用该计数的映射的读数。在涉及第三实体的实施方式中,第三实体有时与第一实体相同。即,第一实体有时转移序列读数至第二实体,第二实体可映射序列读数至参照基因组的部份和/或计数该映射的读数,且和第二实体可转移该映射的和/或计数的读数至第三实体。第三实体有时可在本文所述方法、系统、装置或计算机程序产品中采用该映射的和/或计数的读数,其中所述第三实体有时与第一实体相同,而有时该第三实体与第一或第二实体不同。
在一些实施方式中,一个实体从妊娠女性获得血液、任选从血液(例如从血浆或血清)分离核酸血液、和转移所述血液或核酸至第二实体,所述第二实体从所述核酸生成序列读数。
图24显示计算环境510的非-限制性示例,其中可执行本文所述各种系统、方法、算法和数据结构。计算环境510仅为合适的计算环境的一个实施例,并非旨在限制本文所述系统、方法、和数据结构的使用或功能范围。计算环境510也不应解释为对计算环境510中所示的任何一种组件或其组合的任何依赖或需求。在某些实施方式中,可使用图24中所示的系统、方法、和数据结构的子集。本文所述系统、方法、和数据结构可用其他通常目的或特定目的大量计算系统环境或配置进行操作。已知的合适计算系统、环境、和/或配置的示例包括但不限于个人计算机、服务器计算机、瘦客户机、厚客户机、手持-或膝式设备、多处理器系统、基于微处理器的系统、顶置盒、可编程客户电子装置、网络PC、迷你计算机、主机计算机、包括任何上述系统或设备分布的计算环境等。
图24的操作环境510包括常规目的计算设备,其为计算机520形式,包括处理单元521、系统存储器522、和可操作地偶联各种系统组件(包括系统存储器522)至处理单元521的系统总线523。可仅有一个或可有多于一个处理单元521,从而计算机520的微处理器包括单中央-处理单元(CPU)或多种处理单元,通常称为平行处理环境。计算机520可为传统计算机、分布计算机,或任何其他类型计算机。
系统总线523可为任何数种总线结构,包括存储器总线或存储器控制器、外围设备总线、和局部总线,使用各种总线构架中的任何。系统存储器还可简单称为存储器,仅包括读数存储器(ROM)524和随机存取存储器(RAM)。基本输入/输出系统(BIOS)526存于ROM524,BIOS包含例如在启动时协助在计算机520元件之间转移信息的基本例程。计算机520还可包括硬盘驱动器接口527用于从其读取和写入硬盘(未显示),磁盘驱动器528用于从其读取或写入可移除磁盘529,和光盘驱动器530用于从其读取或写入可移除光盘531,例如CDROM或其他光学介质。
硬盘驱动器527、磁盘驱动器528、和光盘驱动器530分别通过硬盘驱动器接口532,磁盘驱动器接口533、和光盘驱动器接口534连接至系统总线523。驱动器和其关联的计算机-可读介质提供计算机520的计算机-可读指令、数据结构、程序模块和其他数据的固定存储器。任何类型的计算机可存取并可存储数据的计算机-可读介质例如磁盒、闪存卡、数码视频盘、贝努利筒、随机存取存储器(RAM)、只读存储器(ROM)等可用于该操作环境。
许多程序模块可存于硬盘、磁盘529、光盘531、ROM 524或RAM上,包括操作系统535、一种或多种应用程序536、其他程序模块537、和程序数据538。用户可通过输入设备例如540和设备542键入命令和信息至个人计算机520。其他输入设备(未显示)可包括麦克风、操纵杆、游戏板、圆盘式卫星电视天线、扫描仪或等。这些和其他输入设备通常通过偶联至系统总线的串行端口接口546连接至处理单元521,但可不通过其他结构连接,例如并行端口、游戏端口或通用串行总线(USB)。监视器547或其他类型的显示设备还通过接口例如视频适配器548连接至系统总线523。除监视器外,计算机通常包括其他外围设备输出设备(未显示)例如扬声器和打印机。
计算机520可在联网环境中操作,使用逻辑连接至一种或多种远程计算机、例如远程计算机549。这些逻辑连接可通过偶联至或部分的计算机520的通信设备或以其他方式实现。远程计算机549可以是其他计算机、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且一般包括以上关于计算机520描述的多个或所有的元件,虽然图24仅显示存储器储存设备550。图24中所描绘的逻辑连接包括局域网(LAN)551和广域网(WAN)552。这些联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机520通过网络接口或适配器553连接到局域网551,其为一种通信设备。当在WAN联网环境中使用时,计算机520通常包括调制解调器554,一种通信设备,或用于通过广域网552建立通信的其它类型通信设备。调制解调器554可以是内置的或外置的,可经由串行端口接口546连接到系统总线523。在联网环境中,相关于计算机520所示的程序模块或其部分可被存储在远程存储器存储设备中。应当理解,所示的网络连接是示例性的,并且可使用在计算机之间建立通信链路的其它手段。
模块
一种或多种模块可用于本文所述方法,其非限制性示例包括逻辑处理模块、数据显示组织模块、测序模块、映射模块、计数模块、过滤模块、加权模块、标准化模块、GC偏差模块、水平模块、比较模块、范围设定模块、归类模块、调节模块、作图模块、表示模块、关系模块、结果模块和/或数据显示管理模块等或其组合。模块有时受微处理器控制。在某些实施方式中模块或包括一种或多种模块的装置从其他模块、装置、组件、装置的外围设备或操作器聚集、集合、接受、获取、存取、回收提供和/或转移数据和/或信息或至其他模块、装置、组件、装置的外围设备或操作器。在一些实施方式中,通过包含一种或多种下述部件的装置将数据和/或信息(例如测序读数)提供至模块:一种或多种流动槽、相机、检测器(例如光检测器、光电池、电学检测器(例如正交调幅检测器、频率和相调节检测器、相锁定环检测器)、计数器、感应器(例如压力、温度、体积、流动、重量的感应器)、流体操作设备、打印机、显示器(例如LED、LCT或CRT)等或其组合。例如,有时装置的操作器提供常量、阈值、公式或预定值至模块。模块通常配置为从其他模块或装置转移数据和/或信息或至其他模块或装置。模块可从其他模块接受数据和/或信息,其非限制性示例包括逻辑处理模块、测序模块、映射模块、计数模块、过滤模块、加权模块、标准化模块、GC偏差模块、水平模块、比较模块、范围设定模块、归类模块、作图模块、表示模块、关系模块、结果模块和/或数据显示管理模块等或其组合。模块可操作和/或变换数据和/或信息。来自或变换自模块的数据和/或信息可转移至其他合适装置和/或模块,其非限制性示例包括逻辑处理模块、数据显示组织模块、测序模块、映射模块、计数模块、过滤模块、加权模块、标准化模块、GC偏差模块、水平模块、比较模块、范围设定模块、归类模块、调节模块、作图模块、表示模块、关系模块、结果模块和/或数据显示管理模块等或其组合。包括模块的装置可包括至少一个微处理器。在一些实施方式中,数据和/或信息由包括模块的装置接受和/或提供。包括模块的装置包括微处理器(例如一种或多种微处理器),该微处理器可进行和/或执行模块的一种或多种指令(例如过程、例程和/或子例程)。在一些实施方式中,模块用一种或多种外部处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。
逻辑处理模块
在某些实施方式中,逻辑处理模块协调、控制、限制、管理、指示、分布、分配、变换和/或调节数据和/或信息或数据和/或信息从一种或多种其他模块、外围设备或设备或向其的转移。
数据显示组织模块
在某些实施方式中数据显示组织模块处理和/或变换数据和/或信息至合适的可视介质,其非限制性示例包括图像、视频和/或文本(例如数字、字母和符号)。在一些实施方式中,数据显示管理模块处理、变换和/或转移数据和/或信息用于在合适的显示器(例如监视器、LED、LCD、CRT等或其组合)、打印机、合适的外围设备或设备上呈现。在一些实施方式中,数据显示管理模块处理、变换数据和/或信息为胎儿或母本基因组、染色体或其部分的可视表示。
测序模块
在一些实施方式中,序列模块获取、生成、聚集、集合、处理、变换、加工、变换和/或转移序列读数。本文所用“序列接受模块”与“测序模块”相同。包括测序模块的装置可为用本领域已知测序技术确定核酸序列的任何装置。在一些实施方式中测序模块可比对、集合、片段化、互补、反向互补、检错、或纠错序列读数。
映射模块
序列读数可通过映射模块或包括映射模块的装置经映射,该映射模块通常映射读数至参照基因组或其区段。映射模块可通过本领域已知合适的方法映射测序读数。在一些实施方式中,需要映射模块或包括映射模块的装置以提供映射的序列读数。
计数模块
可通过计数模块或包括计数模块的装置提供计数。在一些实施方式中计数模块对映射至参照基因组的序列读数计数。在一些实施方式中计数模块根据本领域已知计数方法生成、集合、和/或提供计数。在一些实施方式中,需要计数模块或包括计数模块的装置以提供计数。
过滤模块
可通过过滤模块(例如包括过滤模块的装置)提供过滤部份(例如参照基因组的部份)。在一些实施方式中,需要过滤模块来提供过滤的部份的数据(例如过滤的部份)和/或从考虑中去除部份。在某些实施方式中过滤模块从考虑中去除映射至部份的计数。在某些实施方式中过滤模块从水平或概况的确定中去除映射至部份的计数。过滤模块可通过本领域已知或本文所述一种或多种过滤方法过滤数据(例如计数、映射至部份的计数、部份、部份水平、标准化计数、原始计数等)。
加权模块
可通过加权模块(例如包括加权模块的装置)提供加权的部份(例如参照基因组的部份)。在一些实施方式中,需要加权模块以加权基因组区段和/或提供加权的部份值。加权模块可通过本领域已知或本文所述一种或多种加权方法加权部份。
标准化模块
标准化数据(例如标准化计数)可通过标准化模块(例如包括标准化模块装置)提供。在一些实施方式中,需要标准化模块以提供获自测序读数的标准化数据(例如标准化计数)。标准化模块可通过本文所述或本领域已知一种或多种标准化方法(例如PERUN、杂交标准化、等或其组合)标准化数据(例如计数、过滤的计数、原始计数)。
GC偏差模块
可通过GC偏差模块(例如装置包括GC偏差模块)提供确定GC偏差(例如确定各参照基因组的部份(例如部份、参照基因组的部份)的GC偏差)。在一些实施方式中,需要GC偏差模块以提供GC偏差确定。在一些实施方式中GC偏差模块提供从映射至各参照基因组的部份的序列读数计数和各部份的GC含量之间的拟合关系(例如拟合线性关系)确定GC偏差。GC偏差模块有时是标准化模块(例如PERUN标准化模块)的一部分。
水平模块
可通过水平模块(例如包括水平模块的装置)提供参照基因组的部份的水平(例如水平)和/或计算基因组区段水平。在一些实施方式中,需要水平模块以提供水平或计算的基因组区段水平(例如根据等式A、B、L、M、N、O和/或Q)。在一些实施方式中水平模块从GC偏差和映射至各参照基因组的部份的序列读数计数之间的拟合关系(例如拟合线性关系)中提供水平。一些实施方式中水平模块计算基因组区段水平作为PERUN的一部分。在一些实施方式中,水平模块根据等式Li=(mi-GiS)I-1提供基因组区段水平(即,Li),其中Gi是GC偏差,mi是映射至参照基因组的各部份的测量的计数,i是样品,I是GC偏差和映射至各参照基因组的部份的序列读数计数之间的拟合关系的截距且S是斜率(例如拟合线性关系)。
比较模块
通过比较模块或包括比较模块的装置,第一水平可鉴定为显著不同于第二水平。在一些实施方式中,需要比较模块或包括比较模块的装置以提供两个水平间的比较。
范围设定模块
各拷贝数变异(例如复制、插入和/或缺失)的预期范围(例如预期水平范围)或不含拷贝数变异的范围可通过范围设定模块或包括范围设定模块的装置提供。在某些实施方式中,通过范围设定模块或包括范围设定模块的装置提供预期水平。在一些实施方式中,需要范围设定模块或包括范围设定模块的装置以提供预期的水平和/或范围。
归类模块
可通过归类模块或包括归类模块的装置将拷贝数变异(例如母本和/或胎儿拷贝数变异,胎儿拷贝数变异,复制、插入、缺失)归类。在某些实施方式中,拷贝数变异(例如母本和/或胎儿拷贝数变异)通过归类模块进行归类。在某些实施方式中确定为显著不同于其他水平(例如第二水平)的水平(例如第一水平)通过归类模块鉴定为表示拷贝数变异。在某些实施方式中,通过归类模块确定不含拷贝数变异。在一些实施方式中,通过包括归类模块的装置确定拷贝数变异。归类模块可特异用于归类母本和/或胎儿拷贝数变异、胎儿拷贝数变异、复制、缺失或插入或缺乏所述变异或上述的组合。例如,鉴定母本缺失的归类模块可与鉴定胎儿复制的归类模块不同和/或有差异。在一些实施方式中,需要归类模块或包括归类模块的装置以鉴定拷贝数变异或拷贝数变异的确定性结果。
调节模块
在一些实施方式中,对水平的调节(例如,对基因组区段水平、概况的水平、拷贝数变异的水平、一个或多个部份的水平等或其组合的调节)通过调节模块或通过包含调节模块的装置进行。在一些实施方式中,需要调节模块或包含调节模块的装置来调节水平。通过本文所述的方法调节的水平能够通过进一步测试(例如,通过母本和/或胎儿核酸的靶向测序)来被独立地检验和/或调节。
作图模块
在一些实施方式中作图模块处理和/或变换数据和/或信息为合适的可视媒体,其非限制性示例包括图表、图、图示等或其组合。在一些实施方式中,作图模块处理、变换和/或转移数据和/或信息用于在合适的显示器(例如监视器、LED、LCD、CRT等或其组合)、打印机、合适的外围设备或设备上呈现。在某些实施方式中作图模块提供计数、水平和/或概况的可视显示。在一些实施方式中,数据显示管理模块处理、变换数据和/或信息为胎儿或母本基因组、染色体或其部分的可视表示。
在一些实施方式中,需要作图模块或包括作图模块的装置以对计数、水平或概况作图。
关系模块
在某些实施方式中,关系模块处理和/或变换数据和/或信息为关系。在某些实施方式中,关系通过关系模块生成和/或从关系模块转移。
结果模块
在一些实施方式中,通过结果模块或包括结果模块的装置鉴定是否存在遗传变异(非整倍性,胎儿非整倍性,拷贝数变异)。在某些实施方式中通过结果模块鉴定遗传变异。通常通过结果模块鉴定是否存在非整倍性的确定。在一些实施方式中,遗传变异(非整倍性、拷贝数变异)的确定性结果可通过结果模块或包括结果模块的装置鉴定。结果模块可特异用于确定特异性遗传变异(例如三体、21三体、18三体)。例如,鉴定21三体的结果模块可与鉴定18三体的结果模块不同和/或有差异。在一些实施方式中,需要结果模块或包括结果模块的装置以鉴定遗传变异或遗传变异(例如非整倍性、拷贝数变异)的确定性结果。通过本文所述方法鉴定的遗传变异或遗传变异的确定性结果可通过其他测试独立验证(例如通过母本和/或胎儿核酸的靶测序)。
变换
如上所述,数据有时从一种形式变换成另一种形式。本文使用术语“变换的”、“变换”和其语法衍生形式或等同形式指从物理起始材料(如测试对象和/或参照对象样品核酸)变成物理起始材料的数字表现(如序列读数数据)的数据变化,而在一些实施方式中,其包括将所述数字表示进一步变换成能用于提供结果(例如,测试样品的胎儿分数测定或估计值)的一种或多种数值或图示。在某些实施方式中,所述数字形式表示的数据的一种或多种数值和/或图示能用于表示测试对象的物理基因组的显示(如虚拟表示或直观表示是否存在基因组插入、复制或删除;表示是否存在与医学病症相关联的序列的物理量变化)。有时将虚拟表示进一步变换成所述起始材料的数字表示的一种或多种数值或图示。这些方法能把物理起始材料变换成数值或图示,或者表示测试对象基因组的物理存在。
在一些实施方式中,变换数据组通过降低数据复杂性和/或数据维数来帮助提供结果。有时在将物理起始材料变换成所述起始材料的虚拟表示(如物理起始材料的序列读数表示)的处理过程中降低数据组复杂性。合适的特性或变量都能用于降低数据组的复杂性和/或维数。能选择用作数据处理的靶标特征的特征的非限定性示例包括GC含量、胎儿性别预测、片段大小(例如,CCF片段的长度、其读数或合适的展示(例如,FRS))、片段序列、染色体非整倍性鉴定、特定基因或蛋白质鉴定、癌症鉴定、疾病、遗传基因/性状、染色体异常、生物学分类、化学分类、生物化学分类、基因或蛋白质分类、基因本体学(gene ontology)、蛋白质本体学(protein ontology)、共调基因、细胞信号转导基因、细胞循环基因、与前述基因有关的蛋白质、基因变异、蛋白质变异、共调基因、共调蛋白、氨基酸序列、核苷酸序列、蛋白质结构数据等,及以上组合。降低数据组复杂性和/或维数的非限定性示例包括:使多重序列读数简化为分布图,使多重序列读数简化为数值(如标准化的值、Z-分值、p值);使多种分析方法简化为概率图或单点;对导出的量进行主成分分析等或其组合。
某些系统,装置和计算机程序产品实施方式
在某些方面中,提供计算机执行的用于确定是否存在遗传变异的方法,所述方法包括(a)获得映射至参照基因组的基因组区段的核苷酸序列读数的计数,其中,序列读数是:(i)来自妊娠女性的测试样品的循环无细胞核酸的读数,和(ii)来自长度短于选定片段长度的核酸片段的读数;(b)使所述计数标准化,由此产生映射至所述基因组区段的序列读数的标准化的计数;和(c)根据所述标准化的计数确定是否存在遗传变异。
某些方面中,还提供包含一个或多个微处理器和存储器的系统,其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的基因组区段的核苷酸序列读数的计数,其中,序列读数是(i)来自妊娠女性的测试样品的循环无细胞核酸的读数,和(ii)来自长度短于选定片段长度的核酸片段的读数;并且其中,可由所述一个或多个微处理器执行的指令用于(a)使所述计数标准化,由此产生映射至所述基因组区段的序列读数的标准化的计数;和(b)根据所述标准化的计数确定是否存在遗传变异。
某些方面中,还提供包含一个或多个微处理器和存储器的装置,其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的基因组区段的核苷酸序列读数的计数,其中,序列读数是(i)来自妊娠女性的测试样品的循环无细胞核酸的读数,和(ii)来自长度短于选定片段长度的核酸片段的读数;并且其中,可由所述一个或多个微处理器执行的指令用于(a)使所述计数标准化,由此产生映射至所述基因组区段的序列读数的标准化的计数;和(b)根据所述标准化的计数确定是否存在遗传变异。
在某些实施方式中,还提供有形地包含在计算机可读介质上的计算机程序产品,其包含指令,所述指令在被一个或多个微处理器执行时,用于(a)访问映射至参照基因组的基因组区段的核苷酸序列读数的计数,其中,序列读数是:(i)来自妊娠女性的测试样品的循环无细胞核酸的读数,和(ii)来自长度短于选定片段长度的核酸片段的读数;(b)使所述计数标准化,由此产生映射至所述基因组区段的序列读数的标准化的计数;和(c)根据所述标准化的计数确定是否存在遗传变异。
本文还提供一种系统,其包含一个或多个一个或多个微处理器和存储器,其中存储器包含可由所述一个或多个微处理器执行的指令,并且其中存储器包含映射至参照基因组的部份的核苷酸序列读数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中可由所述一个或多个微处理器执行的指令用于(a)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,其中,各所述加权因子已由如下两者之间的各部份的拟合相关性确定:(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,和(b)基于所述部份-特异的胎儿分数估值评估测试样品的胎儿核酸的分数。
本文还提供一种装置,其包含一个或多个一个或多个微处理器和存储器,其中存储器包含可由所述一个或多个微处理器执行的指令,并且其中存储器包含映射至参照基因组的部份的核苷酸序列读数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中可由所述一个或多个微处理器执行的指令用于(a)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,其中,各所述加权因子已由如下两者之间的各部份的拟合相关性确定:(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,和(b)基于所述部份-特异的胎儿分数估值评估测试样品的胎儿核酸的分数。
本文还提供一种非暂时性的计算机可读存储介质,其上储存有可执行的程序,其中所述程序对微处理器下指令,以进行如下操作:(a)访问映射至参照基因组的部份的核苷酸序列读数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,(b)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,其中,各所述加权因子已由如下两者之间的各部份的拟合相关性确定:(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,和(c)基于所述部份-特异的胎儿分数估值评估测试样品的胎儿核酸的分数。
在某些实施方式中,系统、装置和/或计算机程序产品包含计数模块,所述计数模块设置以对映射至参照基因组或其部分(例如,基因组区段的子集、基因组区段的选定的集)的读数计数。通常,计数模块被设置以对来自长度短于选定片段长度的核酸片段的读数计数。有时,计数是原始的、经过滤的、标准化的计数或前述的组合。在一些实施方式中,例如,采用本文所述或本领域已知的任何合适的标准化方法,计数模块能够使所述计数标准化。
在一些实施方式中,系统、装置和/或计算机程序产品包含计数比较模块。通常,计数比较模块被设置以比较通过计数模块计数的读数的计数的数量,由此产生计数比较。通常,计数比较模块被设置以访问、接收、使用、存储、检索和/或比对读数的计数(例如,来自计数模块或标准化模块)。通常,计数比较模块被设置以提供计数之间的合适的比较,其比较的非限制性示例包括简单比较(例如,映射至基因组区段的第一个集相比基因组区段的第二个集的计数之间的匹配或非匹配)、数学比较(例如,比率、百分比)、统计学比较(例如,多重比较、多重检验、标准化(例如,z-评分分析))等,及其组合。合适的计数比较值可通过计数比较模块提供,其非限制性示例包括计数之间的匹配的存在与否、比率、百分比、z-评分,与差异测量值相联的值,或不确定性(例如,标准偏差、绝对中位差、置信区间),等及其组合。有时,计数比较模块被设置以将比较值传输至另一个模块或装置,例如,遗传变异模块,显示装置或打印机装置。
在某些实施方式中,系统、装置和/或计算机程序产品包含遗传变异模块。有时,遗传变异模块被设置以根据映射至参照基因组的基因组区段的读数的计数提供遗传变异的存在与否的确定结果。有时,遗传变异模块被设置以根据计数的比较来提供遗传变异的存在与否的确定结果。通常,遗传变异模块被设置以访问、接收、使用、存储、检索和/或比对来自计数比较模块的一个或多个比较和/或来自计数模块的计数。遗传变异模块能够以合适的方式由来自计数的一个或多个比较来确定是否存在遗传变异。有时,遗传变异模块确定参照基因组中的基因组区段的不同的集的计数之间是否存在显著差异。所述显著差异可以合适的方式(例如,百分数差异,z-评分分析)由遗传变异模块确定。有时,遗传变异模块确定计数的确定或计数的比较是否在具体分类中。例如,遗传变异模块可将具体比较值分类至与整倍性确定相关联的具体比率阈值或比率范围,与整倍性确定相关联的具体比率阈值或比率范围。在另一个非限制性示例中,遗传变异模块可将具体计数确定分类为与整倍性确定相关联的具体计数阈值或计数范围,或与整倍性确定相关联的具体计数阈值或计数范围。遗传变异模块能够以合适的格式提供结果,其有时是与遗传变异有关的、任选地与差异测量值或差异或不确定性(例如,标准偏差、绝对中位差、准确性(例如,在具体置信区间内)相关联的调用(call)。有时,遗传变异模块被设置以将遗传变异存在与否的确定结果传输给另一个模块或装置,例如显示装置或打印机。
包含本文所述的模块(例如,参照比较模块)的装置或系统可包含一个或多个微处理器。在一些实施方式中,装置或系统可包含多个微处理器,例如平行合作和工作的微处理器。系统或装置中的微处理器(例如,一个或多个微处理器)能够在本文所述的模块中进行和/或执行一个或多个指令(例如,处理、例程和/或子例程)。有时,本文所述的模块位于存储器中,或与装置或系统相关联。在一些实施方式中,本文所述的模块用一种或多种外部处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。在一些实施方式中,本文所述的模块被设置以从其它模块,装置或系统(例如,组件、外围设备)访问、搜集、聚集和/或接收数据和/或信息。在一些实施方式中,本文所述的模块被设置以向其它模块、装置或系统(例如,计算机、外围设备)提供和/或传输数据和/或信息。在一些实施方式中,本文所述的模块被设置以从装置或系统的操作者(即,用户)访问、接受、接收和/或收集输入数据和/或信息。例如,有时,装置的操作者提供常量、阈值、公式或预定值至模块。有时,本文所述的模块被设置以转换其访问、接收、收集和/或聚集的数据和/或信息。
在某些实施方式中,系统、装置和/或计算机程序产品包含(i)测序模块,其被设置以获得和/或评估核酸序列读数和/或部分核苷酸序列读数;(ii)映射模块,其被设置以将核酸序列读数映射至参照基因组的部份;(iii)计数模块,其被设置以提供对映射至参照基因组的部份的核酸序列读数的计数;(iv)标准化模块,其被设置以提供标准化的计数;(v)比较模块,其被设置以提供与第二标高显著不同的第一标高的鉴定;(vi)范围设置模块,其被设置以提供一个或多个预期水平范围;(vii)分类模块,其被设置以鉴定代表拷贝数变异的标高;(viii)调节模块,其被设置以调节鉴定为拷贝数变异的水平;(ix)作图模块,其被设置以绘出并显示水平和/或概况;(x)结果模块,其被设置以确定遗传变异的存在与否,或确定某一结果(例如,对胎儿异倍性的存在与否具有决定性意义的结果);(xi)数据显示组织模块,其被设置以显示遗传变异确定结果;(xii)逻辑处理模块,其被设置以进行如下一种或多种步骤:序列读数的映射、映射的序列读数的计数、计数的标准化和结果的生成;(xiii)计数比较模块、(xiv)胎儿分数模块,其被设置以提供胎儿分数确定结果;(xv)遗传变异模块,其被设置以提供遗传变异的存在与否的确定结果;或(xvi)前述的两个或更多个的组合。
在一些实施方式中,测序模块和映射模块被设置以将序列读数从测序模块传输至映射模块。有时,所述映射模块和计数模块被设置以将映射的序列读数从映射模块传输至计数模块。在一些实施方式中,所述标准化模块和/或比较模块被设置以将标准化的计数传输至比较模块和/或范围设置模块。在一些实施方式中,所述比较模块、范围设置模块和/或分类模块被独立地设置以将(i)与第二标高显著不同的第一标高的鉴定和/或(ii)预期水平范围从比较模块和/或范围设置模块传输至分类模块。在某些实施方式中,分类模块和调节模块被设置以将分类为拷贝数变异的标高从分类模块传输至调节模块。在一些实施方式中,调节模块、作图模块和结果模块被设置以将一个或多个调节的水平从调节模块传输至作图模块或结果模块。有时,标准化模块被设置以将映射的标准化的序列读数计数传输至比较模块、范围设置模块、分类模块、调节模块、结果模块或作图模块中的一个或多个。
实施例
仅以说明的形式而非限制的形式提供以下实施例。下述实施例说明某些实施方式但不限制本技术。本领域技术人员不难了解,可改变或调整各种非关键参数而获得基本相同或相似的结果。
实施例1:检测关联遗传变异的病症的PERUN和通常方法
本文所述方法和背后理论可用于检测关联遗传变异的各种病症并提供是否存在遗传变异的确定性结果,或确定是否存在遗传变异。
去除参照基因组的无信息部份
去除参照基因组的无信息部份的多种尝试表明部份选择有可能改善分类。
等式A:
M=LI+GS (A)
等式A中的各术语具有下述含义:
·M:测量的计数,表示掺杂不想要的差异的初级信息。
·L:染色体水平–此为数据处理程序所需的输出。L表明胎儿和/或母本异常于整倍体。该定量受到随机误差和系统偏差的掩蔽。染色体水平L是样品特异且部份特异的。
·G:用线性模型、LOESS或任何等价方法测量的GC偏差系数。G代表二级信息,从M和部份特异的GC含量值的组中提取,通常源自参照基因组(但也可源自实际观察的GC含量)。G具有样品特异性且不随着基因组位置而变化。其封装不想要的变异的部份。
·I:线性模型的截距。该模型参数针对给定的实验设置是固定的,其独立于样品且具有部份特异性。
·S:线性模型的斜率。该模型参数针对给定的实验设置是固定的,其独立于样品且具有部份特异性。
测量M和G的量。起始,部份-特异性值I和S未知。为了评估未知的I和S,必须假设整倍体样品的所有参照基因组的部份的L=1。该假设并非总是正确,但可合理预期正常染色体水平的样品的压制对具有缺失/复制的任何样品有压倒性。用于整倍体样品的线性模型提取针对所选部份特异的I和S参数值(假设L=1)。相同程序用于人基因组的所有参照基因组的部份,得到各基因组位置的截距I和斜率S的组。交叉验证随机选择含所有LDTv2CE整倍体的90%的工作组,并用该子集训练模块。随机选择重复100次,各部份产生100组斜率和100组截距。
从测量的计数提取染色体水平
假定模型参数值I和S可用于各部份,新测试样品上收集的测量M用于评估染色体水平,基于下述等式B:
L=(M–GS)/I (B)
与等式A类似,GC偏差系数G评估为逐份测量的原始计数M和从参照基因组的GC含量之间的回归的斜率。然后,染色体水平L用于进一步分析(Z-值、母本缺失/复制、胎儿微缺失/微复制、胎儿性别、性非整倍体和等等)。等式B封装的过程称为参数化误差去除和无偏标准化(PERUN)。
实施例2:公式示例
下面提供可用于本文所述方法的非数学和/或统计学公式的限制性示例。
然后可根据平均水平中的不确定性的估计来评估Z-分数和p-值(从关联于预期水平1的偏差的Z-分数计算)。p-值基于t-分布,其顺序通过峰值中参照基因组的部份的数量来确定。根据所需的置信水平,截止值可抑制噪音并允许明确检测实际信号。
等式1:
Figure BDA0003603576890001801
等式1可用于直接比较两种不同样品的峰值水平,其中N和n分别指整个染色体中和失常内的参照基因组的部份的数量。将产生两个样品间相似性的p-值的t-测试的顺序通过两个不正常延伸的较短的那个中的参照基因组的部份的数量来确定。
等式8可用于将胎儿分数、母本倍性、和中值参照计数纳入分类方案用于确定是否存在关于胎儿非整倍性的遗传变异。
等式8:
yi=(1-F)Mifi+FXfi (8)
其中Yi代表对应于中值计数概况中部份的测试样品中部份的测量计数,F代表胎儿分数、X代表胎儿倍性、和Mi代表分配至各部份的母本倍性。可用作等式(8)中X的值为:1,若胎儿为整倍体;3/2,若胎儿为三倍体;和5/4,若有孪生胎儿且一个受到影响而另一个没有。5/4用于孪生的情况,其中一个胎儿受到影响而另一个没有,由于等式(8)中术语F代表总胎儿DNA,因此所有胎儿DNA必须都考虑计数。在一些实施方式中,可考虑母本基因组中的大缺失和/或复制通过分配母本倍性Mi至各部份或部份。在一些实施方式中,母本倍性通常分配为1/2的多倍,且可使用逐份标准化进行估计。由于母本倍性通常为1/2的多倍,可易于考虑母本倍性,且因此不包括在其他等式中从而简化偏差。
当X=1处评估等式(8)时,(例如整倍体假设),胎儿分数被抵消且下述等式得到残差平方和。
等式9:
Figure BDA0003603576890001802
为了简化等式(9)和后续计算,使用下述等式。
等式10:
Figure BDA0003603576890001811
等式11:
Figure BDA0003603576890001812
等式12:
Figure BDA0003603576890001813
当X=3/2处评估等式(8)时,(例如三倍体假设),下述等式得到残差平方和。
等式13:
Figure BDA0003603576890001814
等式(9)和(13)之间的差异形成功能性结果(例如
Figure BDA0003603576890001815
),其可用于针对备选假设(例如三体性单现突变,X=3/2)测试零假设(例如整倍体,X=1):
等式14:
Figure BDA0003603576890001816
等式18:
Figure BDA0003603576890001817
有时优选的倍性值通过等式20得到:
Figure BDA0003603576890001818
母本倍性的术语,Mi,可从一些数学偏差中略去。所得X的表达式对应于相对简单且常高频出现的特别情况,其中母本在评估染色体中不具有缺失或复制。
等式21:
Figure BDA0003603576890001821
等式(11)和(12)分别给出Xiff和Xify。在忽略所有实验误差的实施方式中,解等式(21)得到整倍性的值为1,其中Xiff=Xify。在忽略所有实验误差的某些实施方式中,解等式(21)得到三倍性的值为3/2(参见等式(15)Xiff和Xify的三倍性关系。
表2
Figure BDA0003603576890001822
实施例3:采用FRS的部份选择
指定的人类参照基因组HG19的部份采用基于PERUN的方法被第一预过滤,所述方法移除具有高可变性、低可映射性的部份,并与高百分比的重复元件结合。排除具有高可变性、低可映射性和重复序列的较大分数的部份(针对LDTv2选择)。对于各50kb部份(例如,部份)而言,对于来自短于150个碱基的CCF片段和来自短于600个碱基的CCF片段的双末端序列读数计算胎儿比统计。然后,对于采用具有自动化珠清除的TruSeq生物化学实验室制备品处理的264非汇集的样品获得平均FRS。FRS>中值(FRS)的部份被选择,并示于表4,参照染色体-特异的起始和终末位置。表4中的染色体-特异的起始和终末位置参照人类参照基因组HG19中的核苷酸碱基位置。
FRS>中值(FRS)的全部部份被作图,同时在各相应部份中具有独特的外显子起始位置的数目。包含过多展示(overrepresentation)的小片段的区域显示显著相关性(图1-9)。GC含量(50kb部份中的GC个碱基百分比)和FRS(表3)显示显著地较强的相关性。
部分选择进一步受限于其中染色体三体性检测的FRS>中值(FRS)的基因组的部份(即,部份)。对264个样品的初步数据集应用该方法提供一致的分类边缘,尽管弃去了50%的数据。相反地,其中FRS<中值(FRS)的限制部份,分类边缘急剧下降,表明用于分析的胎儿DNA的稀释(图10-11)。
在图10和图11中,有两条回归线,其一对应仅非T21样品(点划线),另一条对应T21样品(点线)。基于高FRS部份的T21样品的回归线高于基于高FRS的非T21样品的回归线(图10)。相反地,当比较对低FRS部份计算的Z评分时,这一类似的回归低于非T21样品(图11)。该表明,采用高FRS部份能够提高确定的结果的准确性,因为T21样品的Z评分趋于较大。
表3
Figure BDA0003603576890001841
实施例4:采用基于序列的分离和基于长度的分析的组合的三体性21的检测
采用如下方法测试获自妊娠女性的包含循环无细胞DNA的血浆样品的三体性21。
基于序列的分离
SURESELECT用户捕获文库获自安捷伦,其包含一组用户设计的生物素化的捕获RNA。捕获RNA根据对染色体21(测试染色体)具有特异性的和对染色体14(参照染色体)具有特异性的核苷酸序列设计,并且通过安捷伦的EARRAY网络版设计工具鉴定。对染色体14和染色体21各设计100种独立的捕获RNA。选择染色体14或21专有的并且富含AT的40至60个碱基对范围内的单拷贝核苷酸序列供于用户捕获RNA设计。
根据生产商的说明,将来自妊娠第一个三月期的妊娠女性的无细胞循环血浆核酸的样品核酸分入两个管,并在65℃下与染色体21捕获RNA或染色体14捕获RNA孵育24小时。杂交之后,通过采用链霉亲和素被覆的磁珠(DYNAL DYNAMAG-2,英杰公司,加利福尼亚州卡尔斯巴德),通过拉下(pulling down)生物素化的RNA/片段,来选择捕获的靶片段和捕获的参照片段(统称为捕获的片段),然后用MINELUTE PCR纯化试剂盒(凯杰公司,马里兰州日耳曼敦)。消化捕获RNA,并根据生产商的说明扩增剩余的DNA片段。
基于长度的分析
如上所获的包含分离的核酸片段的样品在非严谨杂交条件下与包含生物素化的肌苷的聚肌苷探针杂交,其中,探针比其杂交的DNA片段长,并且长度为500个碱基对。在一些实施方式中,杂交在65℃下于6×SSC和1%SDS中进行过夜,在一些实施方式中,杂交在43℃下于1.0M NaCl、50mM磷酸钠缓冲液(pH7.4)、1.0mM EDTA、2%(w/v)十二烷基硫酸钠、0.1%(w/v)明胶、50μg/ml tRNA和30%(v/v)甲酰胺中进行过夜。在55℃于1.2X SSC(1XSSC是0.15M NaCl加0.015M柠檬酸钠)、10mM磷酸钠(pH 7.4)、1.0mM EDTA和0.5%(w/v)十二烷基硫酸钠中进行四次30分钟的清洗。杂交之后,未杂交的探针部份采用外切核酸酶I(新英格兰生物实验室公司,马萨诸塞州伊普斯威奇)和磷酸二酯酶II(沃心顿生物化学公司,新泽西州莱克伍德)消化。探针-片段双链体在95℃变性两分钟,然后采用链霉亲和素被覆的磁珠(DYNAL DYNAMAG-2,加利福尼亚州卡尔斯巴德的英杰公司)将探针与所述片段分离(即,拉下),并用MINELUTE PCR纯化试剂盒(凯杰公司,马里兰州日耳曼敦)纯化。采用MALDI质谱测量修整的、分离且纯化的聚肌苷探针的质量。通过将各探针长度种类的质量峰与生物素化的已知长度的聚肌苷标准品的质量峰做比较,推测探针长度,以及由此推测相应的片段长度。
三体性21的确定
基于各探针长度种类的质量峰的振幅来确定各片段长度种类的相对量。对染色体14和染色体21定量150个碱基对或更短的片段。具有来自染色体14和染色体21的基本相同的量的片段的样品被确定为染色体21整倍性。具有的来自染色体21的片段的量统计学上显著高于染色体14(例如,来自染色体21对比染色体14的片段升高2%)的样品被确定为染色体21三倍性。
实施例5:采用片段长度过滤和染色体展示的三倍性检测
在该实施例中,基于来自具有某些长度参数的片段的子集的核苷酸序列读数计数,包含无细胞核酸的母本样品被归类为携带整倍体胎儿或具有异倍性(即,三体性13、三体性18、三体性21)的胎儿。样品获自妇幼医院(WI研究;Palomaki等.(2011)Genet.Med.13(11):913-20)。采用亿明达双末端测序平台(亿明达公司,加利福尼亚州圣迭戈)获得各样品的核苷酸序列读数(36碱基读数)。采用BOWTIE 2β3比对程序将双末端核苷酸序列读数与参照基因组(建构37(hg19))比对,并基于双末端读数的比对确定片段长度。
根据如下核酸片段长度参数滤出某些核苷酸序列读数:1)长度大于或等于120个碱基的片段;2)长度大于或等于130个碱基的片段;3)长度大于或等于140个碱基的片段;4)长度大于或等于150个碱基的片段;5)长度大于或等于160个碱基的片段;或6)长度大于或等于170个碱基的片段。因此,滤出对应于等于或长于给定长度阈值(例如,120个碱基、130个碱基、140个碱基、150个碱基、160个碱基、170个碱基)的片段的双末端读数,并且保留对应于短于给定长度阈值的片段的双末端读数供于分析。
采用1)未过滤的序列读数和2)以150个碱基片段的阈值进行长度-过滤的序列读数,计算染色体13、染色体18和染色体21的染色体展示用于图23所示的数据集。根据如下方式计算染色体13、18和21各自的染色体展示:
染色体13(Chr 13)展示=ΣChr 13序列读数计数(未过滤)/Σ全部常染色体序列读数计数(未过滤)
染色体13(Chr 13)展示=ΣChr 13序列读数计数(过滤)/Σ全部常染色体序列读数计数(过滤)
染色体18(Chr 18)展示=ΣChr 18序列读数计数(未过滤)/Σ全部常染色体序列读数计数(未过滤)
染色体18(Chr 18)展示=ΣChr 18序列读数计数(过滤)/Σ全部常染色体序列读数计数(过滤)
染色体21(Chr 21)展示=ΣChr 21序列读数计数(未过滤)/Σ全部常染色体序列读数计数(未过滤)
染色体21(Chr 21)展示=ΣChr 21序列读数计数(过滤)/Σ全部常染色体序列读数计数(过滤)
图14、16和18分别显示采用未过滤的序列读数的染色体13、18和21的染色体展示。图15、17和19分别显示采用长度过滤的序列读数的染色体13、18和21的染色体展示。对于过滤数据集,三体性样品的染色体展示增加,这部分归因于胎儿贡献的序列数据的增加。尽管染色体展示的这一增加会增加检测染色体异常的力度,非三体性样品的染色体展示的变异增加,归因于大约63-82%的读数计数减少。处于不同片段长度阈值的读数计数的示例性分布示于图13和下表5。
Figure BDA0003603576890001871
确定来自短于某些长度的片段的读数的平均曲线下面积(AUC)值,以说明读数(即序列覆盖率)的平均上的总体减少。对于产生约一千五百万序列读数(或人类基因组的0.2X覆盖率)的给定试验而言,排除大于150个碱基的读数,例如,等同于约0.035X覆盖率。
为确定染色体展示的最优片段大小阈值,片段大小阈值在120至170个碱基之间变化,增量为10碱基。在对各长度-过滤的数据集(双末端读数)和未过滤的数据集(单末端读数;也称为“全部”)的序列读数计数标准化(即,采用LOESS的PERUN PADDED)之后,计算染色体展示(即,染色体13、18和21)。染色体13、18和21展示分别示于图20、21和22。处于150、160和170碱基阈值的过滤数据集的染色体展示与未过滤数据集相当一致。下表显示以对应Z-评分截止值(即,对于染色体13为3.95,对于染色体18为3.95,和对于染色体21为3)的染色体13、18和21三体性检测观察到的特异度和灵敏度。Z-评分值基于流式细胞-特异的中值和数据集-特异的历史和人口MAD值。此外,进行受试者工作特征(ROC)分析的10倍交叉验证(即,10倍分层交叉验证,重复100次),并且,各分析的平均曲线下面积(AUC;即,准确性检测)(通过加和全部的灵敏度次数(1-特异度)值计算并用R程序包ROCR执行)示于下表6、7和8。
Figure BDA0003603576890001881
Figure BDA0003603576890001891
Figure BDA0003603576890001892
数据显示,除了长度-过滤的样品的序列覆盖率的显著降低,相较于未过滤的样品,能够采用某些片段长度阈值(例如,150个碱基、160个碱基)的过滤的样品以相似的准确性、灵敏度和特异度鉴定三体性。
实施例6:
该实施例部分说明胎儿分数和胎儿比统计(FRS)之间的关系。
如图25A和25B所示,各样品Z-评分对比中值FRS的图表显示与胎儿分数的基于Z-评分对比FQA的估计值的图表的显著相似性。此外,限制至高FRS部份(图25A,高于虚线)的每个三体性21样品的中值FRS是0.188,而全部部份(图25B,高于虚线)的每个三体性21样品的中值FRS是0.172。对于非三体性染色体21样品,高FRS部份的中值FRS是0.181(图25A,虚线下)而全部部份的中值FRS是0.166(图25B,虚线下)。该表明三体性21样品缺失具有比非三体性21样品稍高的部份展示,尤其是具有较高胎儿贡献倾向的部份。
如图26所示,确定了不同片段长度的读数包含不同的GC含量。已知有更多胎儿来源的较小的片段相较于较大的片段显示出较高的GC含量。GC含量中的差异也有关于FRS与GC含量和基因密度相关的情况,因为具有较高FRS的箱与GC含量/箱正相关。片段长度中的这些细微GC差异能够以杠杆作用的形式提供胎儿分数信息。例如,人类参照基因组中的GC差异、片段长度和/或片段长度分散可用于预测片段的胎儿或母本来源。该数据证明,GC含量/读数能够用于评估胎儿贡献。
PERUN是区域特异的额外修正,以移除覆盖率的读数深度中的GC偏差。该标准化过程涉及两个区域特异参数的受训评估,斜率,即GC偏差的影响,和截距,即在不存在GC偏差时的碱基水平覆盖率。分配进入FRS分位数的PERUN截距的分布表明增加的FRS增加了PERUN截距(图27)。总体而言,具有最小FRS的基因组区域区域具有最低截距,可能是因为相对于总体覆盖率展示的胎儿贡献的减少。此外,用于区域选择的初步努力纳入了最大交叉验证错误,其中较大的值指示覆盖率变异性的增加。图28显示分配进入分位数的最大交叉验证错误的分布。极端分位数(高和低)显示区域稳定性中的最大变异性。由于极端FRS基因组区域可能对胎儿贡献更敏感,最大交叉验证错误中增加的变异性可能事实上归因于胎儿信号变异性。
实施例7:基于箱的胎儿分数
该实施例显示采用测序覆盖率数据来对母本血液样品中循环无细胞胎儿DNA的量定量的方法。技术涵盖本文已知的方法为基于箱(bin)的胎儿分数(BFF),其采用测序覆盖率映射对母本血液样品中的胎儿DNA分数定量。所述方法利用装置学习方法来建立对胎儿分数测序覆盖相关的模型。
BFF方法的第一步是获得基因组覆盖率数据。基因组覆盖率数据获自测序运行和比对。然后,该覆盖率数据作为胎儿分数的预测指标。覆盖率预测指标变量可通过任何合适的方法生成,包括但不限于离散基因组箱、可变尺寸箱,或平滑的覆盖率映射的基于点的视图。
BFF方法的第二步是训练模型用于从覆盖率数据预测指标(例如,参数)来估计胎儿分数。在该实施例中,通用多重回归模型采用简单最小二乘方训练,来直接从具体箱的已知的成比例的测序水平评价胎儿分数。该方法可被延拓至多变量多重回归模型,以预测已知与胎儿分数成比例的箱(由此,进而可衍生胎儿分数)。类似地,如果箱是相关的,则可训练多变量反应模型以考虑相关的反应。以下是最简单形式的示例:
可选择多重回归模型为如下等式30;
yff=Xβ+ε 等式(30),
其中X是箱计数的m×p矩阵,yff是训练样品的m数和预测指标箱的p数的m×1矢量,ε是预期E(ε)=0的噪音矢量,其中共同变异Cov(ε)=σ2I,其中I是单位矩阵(即错误是同方差的),且等级(X)<p。矢量yff对应于水平已知与胎儿分数成比例的箱。
不丧失通用性,我们假定X的中心是其平均值。因此β回归系数的p×1矢量,可通过解正规等式的
Figure BDA0003603576890001921
来估计;
Figure BDA0003603576890001922
向多重变量多反应模型的延拓简单地延拓先前的模型至具有多个反应变量,或作为大小m×n的矩阵Yff,其中n是水平与胎儿分数成比例的不同的箱的数。
因此,该模型是;
Yff=XB+E 等式(32),
其中E是对多重模型的平行假定的噪音矩阵。系数B的矩阵可通过解下式中的
Figure BDA0003603576890001923
来估计;
Figure BDA0003603576890001924
其中
Figure BDA0003603576890001925
是p×n矩阵。
如果等级(X)<p,则该问题可被分解成任何数量的合适的回归模型以考虑多重共线性。这之外,也可获得降秩B^的估计值,从而等级
Figure BDA0003603576890001926
考虑多变量反应中的势相关性。然后,可通过合适的方法将所得的估计值平均化或一起加权。
BFF法不限于该回归方法。可采用多种合适的装置学习方法,包括但不限于其它多重回归方法、多变量反应回归、决策树、支持向量装置,和神经网络,以改善估计。也存在能够放宽假定并提供高纬度估计的方法,从而可将全部相关的箱纳入所述模型。所述估计值的非限制性示例是基于约束条件的,例如降秩、LASSO、加权等级选择标准(WRSC)、等级选择标准(RSC),和弹性网估值(Elastic Net Estimator),其已显示能够提高预测力。
胎儿分数预测还通过测量基因组覆盖率偏差并将其纳入管线(pipeline)来改善。这些偏差可来自多个来源,包括但不限于GC含量、DNA酶1-高灵敏度、可映射性和染色质结构。可对每样品偏差定量所述概况,并且用于调节基因组覆盖率数据,或添加作为对胎儿分数模型的预测指标或约束条件。
例如,对6000个男性整倍性样品训练多重回归法,采用全部的箱上的染色体Y覆盖率的相对水平作为胎儿分数的真值(ChrFF)。为防止常见三体性的检测的环化(circularity),仅对常染色体覆盖率箱训练模型,并且不包括染色体13、18或21。所述模型显示对于测试数据的强性能,由19,312个独立的样品组成(图29)。
BFF的强性能由区域吸引胎儿DNA的箱和区域驱动。这些区域趋于具有较高覆盖率差异,并且所述模型利用该差异(variation)。采用拔靴带法来比较专门对具有高或低胎儿分数展示(基于FRS)的箱训练的模型。发现具有较高胎儿含量的箱是胎儿分数的较好预测指标(图30)。这与如下结果相对应:发现在具有较高胎儿展示的箱上建立的模型趋于具有较大回归系数(图31)。
尽管示例的训练集仅包括男性样品,对女性样品和男性三体性样品均进行预测,其胎儿分数能够采用三体性染色体展示被独立地估计。男性和女性样品的胎儿分数估计显示在总体分布中无差异(图32)。这证明BFF对于一个性别(相比另一个性别)在胎儿分数的估计中不是系统性偏差的。
实施例8:实施方式示例
下述实施例说明某些实施方式但不限制本技术。
A1.一种评估来自妊娠女性的测试样品中胎儿核酸的分数的方法,所述方法包括:
(a)获取映射至参照基因组的部份的序列读数的计数,其中序列读数是妊娠女性的测试样品的循环无细胞核酸的读数;
(b)加权,采用微处理器对(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数,与部份-特异的胎儿核酸分数加权,所述加权根据与各部份独立相关联的加权因子进行,由此根据所述加权因子提供部份-特异的胎儿分数估值,
其中,所述各加权因子已从各部份的拟合相关性进行确定,所述拟合相关性为(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数或其它部份-特异的参数,之间的拟合相关性;和
(c)基于所述部份-特异的胎儿分数估值评估所述测试样品的胎儿核酸分数。
A2.如实施方式A1所述的方法,其中,所述加权因子与全部常染色体和染色体X和Y的多个部份中的部份相关联。
A2.1.如实施方式A1所述的方法,其中,所述加权因子与多个部份中的部份相关联,所述多个部份不包括染色体Y中的部份。
A3.如实施方式A2.1所述的方法,其中,所述加权因子与多个部份中的部份相关联,所述多个部份不包括染色体X和Y中的部份。
A4.如实施方式A2所述的方法,其中,所述加权因子与多个部份中的部份相关联,所述多个部份包括常染色体中的部份或其子集。
A5.如实施方式A3或A4所述的方法,其中,所述加权因子与多个部份中的部份相关联,所述多个部份不包括染色体13、18和21中的部份。
A6.如实施方式A1至A5中任一项所述的方法,其中,(b)(i)或(b)(ii)中的计数是标准化的计数。
A7.如实施方式A6所述的方法,其中,所述标准化的计数相对于原始计数具有降低的鸟嘌呤-胞嘧啶(GC)偏差。
A8.如实施方式A6或A7所述的方法,其中,所述标准化的计数是箱式标准化、GC含量标准化、线性最小二乘方回归、非线性最小二乘方回归、LOESS、GC LOESS、LOWESS、PERUN、重复遮蔽(RM)、GC-标准化和重复遮蔽(GCRM)、条件分位数标准化(cQn)或其组合的产物。
A9.如实施方式A1至A8中任一项所述的方法,其中,估计所述测试样品的胎儿核酸分数包括:使所述部份-特异的胎儿分数估值平均化或加和。
A10.如实施方式A1至A9中任一项所述的方法,其中,所述部份-特异的参数是一个部份-特异的参数或是两个或更多个部份-特异的参数之一。
A11.如实施方式A1至A10中任一项所述的方法,其中,所述部份-特异的参数选自基因组覆盖率、长度短于选定片段长度的读数的量、可映射性、DNA酶I-灵敏度、甲基化状态、乙酰化、组蛋白分布和染色质结构。
A12.如实施方式A1至A10中任一项所述的方法,其中,所述部份-特异的参数是鸟嘌呤-胞嘧啶(GC)含量。
A13.如实施方式A1至A10中任一项所述的方法,其中,所述部份-特异的参数不是鸟嘌呤-胞嘧啶(GC)含量。
A14.如实施方式A11所述的方法,其中,所述长度短于选定片段长度的读数的量根据X与Y的比率确定,其中,X是源自长度短于第一选定片段长度的循环无细胞(CCF)片段的读数的量,而Y是源自长度短于第二选定片段长度的CCF片段的读数的量。
A15.如实施方式A14所述的方法,其中,第一选定片段长度是约140-约160个碱基且第二选定片段长度是约500-约700个碱基。
A16.如实施方式A15所述的方法,其中,第一选定片段长度是约150个碱基且第二选定片段长度是约600个碱基。
A17.如实施方式A14至A16任一项所述的方法,其中,各部份的加权因子与多个样品的部份的平均比率相关。
A18.如实施方式A1至A16中任一项所述的方法,其中,各部份的加权因子与映射至多个样品的部份的来自CCF胎儿核酸片段的读数的平均量成比例。
A19.如实施方式A1至A18中任一项所述的方法,其中,所述部份选自离散基因组箱、具有预定长度的连续序列的基因组箱、可变大小箱、平滑的覆盖率图的基于点的视图及其组合。
A20.如实施方式A1至A19中任一项所述的方法,其中,所述多个样品来自具有整倍体胎儿的对象。
A21.如实施方式A1至A19中任一项所述的方法,其中,所述多个样品来自具有三体性胎儿的对象。
A22.如实施方式A1至A19中任一项所述的方法,其中,所述多个样品来自具有整倍体胎儿的对象并来自具有三体性胎儿的对象。
A23.如实施方式A1至A22中任一项所述的方法,其中,所述多个样品来自怀有男性胎儿的对象。
A24.如实施方式A23所述的方法,其中,所述胎儿核酸的分数根据染色体Y的试验来确定。
A25.如实施方式A1至A24中任一项所述的方法,其中,调节约1,500部份-约200,000部份中的计数。
A25.1.如实施方式A25所述的方法,其中,各部份是来自参照基因组的约10个连续千碱基-约75个连续千碱基。
A26.如实施方式A1至A25.1中任一项所述的方法,其中,加权因子中的约75%或更多大于零。
A26.1.如实施方式A26所述的方法,其中,加权因子中的约85%或更多大于零。
A26.2.如实施方式A26.1所述的方法,其中,加权因子中的约95%或更多大于零。
A27.如实施方式A1至A26.2中任一项所述的方法,其中,加权因子的分布的宽度取决于来自CCF胎儿核酸片段的读数的量。
A28.如实施方式A1至A27中任一项所述的方法,其中,加权因子的分布是基本对称的。
A28.1.如实施方式A1至A27中任一项所述的方法,其中,加权因子的分布是基本正常的。
A29.如实施方式A1至A28.1中任一项所述的方法,其中,所述加权因子是由拟合相关性估计的系数。
A30.如实施方式A1至A29中任一项所述的方法,其包括由各部份的相关性来估计系数,所述相关性为(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数或其它部份-特异的参数,之间的相关性。
A31.如实施方式A29或A30所述的方法,其中,所述拟合相关性各自是回归模型,并且所述加权因子是,或基于,来自所述拟合相关性的回归系数。
A32.如实施方式A31所述的方法,其中,所述回归模型选自线性回归模型、简单回归模型,普通最小二乘方回归模型、多重回归模型、一般多重回归模型、多项式回归模型、一般线性模型、广义线性模型、离散选择回归模型、逻辑回归模型、多项式分对数模型、混合分对数模型、概率单位模型、多项式概率单位模型、有序分对数模型、有序概率单位模型、泊松(泊松)模型、多元响应回归模型、多级模型、固定效应模型、随机效应模型、混合模型、非线性回归模型、非参数模型、半参数模型、鲁棒(robust)模型、分位模型、等渗模型、主成分模型、最小角模型、局部模型、分段模型和变量误差模型。
A33.如实施方式A29或A30所述的方法,其中,各拟合相关性不是回归模型。
A34.如实施方式A33所述的方法,其中,各拟合相关性选自决策树模型、支持向量机模型和神经网络模型。
A35.如实施方式A1至A34中任一项所述的方法,其中,所述拟合相关性通过选自下组的估计来拟合:最小二乘方、普通最小二乘方、线性、局部、总计、通用的、加权的、非线性、重复再加权、脊回归、最小绝对偏差、贝叶斯、贝叶斯多变量、降秩、LASSO、弹性网估计量及其组合。
A36.如实施方式A1至A35中任一项所述的方法,其包括,在(a)之前,通过对来自测试对象的循环无细胞核酸测序来确定序列读数。
A37.如实施方式A36所述的方法,其包括,在(a)之前,将序列读数映射至所述参照基因组的部份。
A38.如实施方式A36或A37所述的方法,其包括,在(a)之前,从所述测试样品分离循环无细胞核酸。
A39.如实施方式A38所述的方法,其包括,在(a)之前,从测试对象分离测试样品。
A40.如实施方式A1至A39中任一项所述的方法,其包括,基于估计的胎儿核酸分数,确定测试样品的胎儿染色体异倍性的存在与否。
A41.如实施方式A40所述的方法,其中,所述胎儿染色体异倍性是三体性。
A42.如实施方式A41所述的方法,其中,所述三体性选自染色体21、染色体18,染色体13或其组合的三体性。
A43.如实施方式A41或A42所述的方法,其中,以95%或更高的灵敏度或95%或更高的特异度,或者95%或更高的灵敏度和95%或更高的特异度来确定三体性的存在与否。
A44.一种系统,其包含一个或多个微处理器和存储器,
其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的部份的核苷酸序列读数,其中,序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中,可由所述一个或多个微处理器执行的指令被设置以:
(a)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,
其中,所述各加权因子已从各部份的拟合相关性进行确定,所述拟合相关性为(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数或其它部份-特异的参数,之间的拟合相关性;和
(b)基于所述部份-特异的胎儿分数估值评估所述测试样品的胎儿核酸分数。
A45.一种装置,其包含一个或多个微处理器和存储器,
其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的部份的核苷酸序列读数,其中,序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中,可由所述一个或多个微处理器执行的指令被设置以:
(a)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,
其中,所述各加权因子已从各部份的拟合相关性进行确定,所述拟合相关性为(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数或其它部份-特异的参数,之间的拟合相关性;和
(b)基于所述部份-特异的胎儿分数估值评估所述测试样品的胎儿核酸分数。
A46.一种非暂时性的计算机可读存储介质,其上储存有可执行的程序,其中所述程序对微处理器下指令,以进行如下操作:
(a)访问映射至参照基因组的部份的核苷酸序列读数,其中序列读数是妊娠女性的测试样品的循环无细胞核酸的读数;
(b)基于与各部份独立关联的加权因子,采用微处理器,将(i)映射至各部份的序列读数的计数,或(ii)其它部份-特异的参数与部份-特异的胎儿核酸分数加权,由此提供基于所述加权因子的部份-特异的胎儿分数估值,
其中,所述各加权因子已从各部份的拟合相关性进行确定,所述拟合相关性为(i)多个样品各自的胎儿核酸分数,和(ii)多个样品的映射至各部份的序列读数的计数,或其它部份-特异的参数,之间的拟合相关性;和
(c)基于所述部份-特异的胎儿分数估值评估所述测试样品的胎儿核酸分数。
B1.一种评估来自妊娠女性的测试样品中胎儿核酸的分数的方法,所述方法包括:
(a)获取映射至参照基因组的部份的序列读数的计数,其中序列读数是妊娠女性的测试样品的循环无细胞核酸的读数;
(b)(i)采用微处理器,根据独立地分配至各部份的加权因子,调节映射至各部份的序列读数的计数,由此提供所述部份的调节的计数,或
(b)(ii)采用微处理器,选择多个部份的子集,由此提供计数的子集,
其中,(b)(i)中的调节或(b)(ii)中的选择是根据映射有增加量的来自胎儿核酸的读数的部份;和
(c)基于调节的计数或计数的子集评估测试样品的胎儿核酸分数。
B2.如实施方式B1所述的方法,其中,映射有增加量的胎儿核酸读数的部份根据X与Y的比率确定,其中,X是源自长度短于第一选定片段长度的循环无细胞(CCF)片段的读数,而Y是源自长度短于第二选定片段长度的CCF片段的读数。
B3.如实施方式B2所述的方法,其中,所述比率是多个样品的平均比率。
B4.如实施方式B3所述的方法,其中,根据具有的平均比率大于对所述部份平均化的平均比率的某一部份确定加权因子或选择部份。
B5.如实施方式B2至B4中任一项所述的方法,其中,第一选定片段长度是约140-约160个碱基且第二选定片段长度是约500-约700个碱基。
B6.如实施方式B5所述的方法,其中,第一选定片段长度是约150个碱基且第二选定片段长度是约600个碱基。
B7.一种系统,其包含一个或多个微处理器和存储器,
其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的部份的核苷酸序列读数,其中,序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中,可由所述一个或多个微处理器执行的指令被设置以:
(a)(i)采用微处理器,根据独立地分配至各部份的加权因子,调节映射至各部份的序列读数的计数,由此提供所述部份的调节的计数,或
(a)(ii)采用微处理器,选择部份的子集,由此提供计数的子集,
其中,(b)(i)中的调节或(b)(ii)中的选择是根据映射有增加量的来自胎儿核酸的读数的部份;和
(b)基于调节的计数或计数的子集评估测试样品的胎儿核酸分数。
B8.一种装置,其包含一个或多个微处理器和存储器,
其中,存储器包含可由所述一个或多个微处理器执行的指令,并且其中,存储器包含映射至参照基因组的部份的核苷酸序列读数,其中,序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数,并且其中,可由所述一个或多个微处理器执行的指令被设置以:
(a)(i)采用微处理器,根据独立地分配至各部份的加权因子,调节映射至各部份的序列读数的计数,由此提供所述部份的调节的计数,或
(a)(ii)采用微处理器,选择部份的子集,由此提供计数的子集,
其中,(b)(i)中的调节或(b)(ii)中的选择是根据映射有增加量的来自胎儿核酸的读数的部份;和
(b)基于调节的计数或计数的子集评估测试样品的胎儿核酸分数。
B9.一种非暂时性的计算机可读存储介质,其上储存有可执行的程序,其中所述程序对微处理器下指令,以进行如下操作:
(a)访问映射至参照基因组的部份的核苷酸序列读数,其中序列读数是妊娠女性的测试样品的循环无细胞核酸的读数;
(b)(i)采用微处理器,根据独立地分配至各部份的加权因子,调节映射至各部份的序列读数的计数,由此提供所述部份的调节的计数,或
(b)(ii)采用微处理器,选择多个部份的子集,由此提供计数的子集,
其中,(b)(i)中的调节或(b)(ii)中的选择是根据映射有增加量的来自胎儿核酸的读数的部份;和
(c)基于调节的计数或计数的子集评估测试样品的胎儿核酸分数。
C1.一种用于提高估计来自妊娠女性的测试样品中的胎儿核酸分数的准确性的方法,所述方法包括:获得映射至参照基因组的部份的序列读数的计数,其中序列读数是来自妊娠女性的测试样品的循环无细胞核酸的读数;其中,至少获得的计数的子集源自这样的基因组区域,该基因组区域相对于来自该区域的总计数所贡献的源自胎儿核酸的计数的数目大于相对于该基因组其它区域的总计数的胎儿核酸的计数。
C2.如实施方式C1所述的方法,该方法还包括:
采用微处理器,根据独立地分配至各部份的加权因子,调节映射至各部份的序列读数的计数,由此提供所述部份的调节的计数,或者,采用微处理器,选择多个部份的子集,由此提供计数的子集;和
基于调节的计数或计数的子集评估测试样品的胎儿核酸分数。
C3.如实施方式C1或C2所述的方法,其中,贡献了较大数量的源自胎儿核酸的计数的基因组区域根据X与Y的比率确定,其中,X是源自长度短于第一选定片段长度的循环无细胞(CCF)片段的读数的量,而Y是源自长度短于第二选定片段长度的CCF片段的读数的量。
C4.如实施方式C3所述的方法,其中,所述比率是多个样品的平均比率。
C5.如实施方式C4所述的方法,其中,根据具有的平均比率大于对所述部份平均化的平均比率的某一部份确定加权因子或选择部份。
C6.如实施方式C3至C5中任一项所述的方法,其中,第一选定片段长度是约140-约160个碱基且第二选定片段长度是约500-约700个碱基。
C7.如实施方式C6所述的方法,其中,第一选定片段长度是约150个碱基且第二选定片段长度是约600个碱基。
***
本文中引用的各专利、专利申请、出版物和文献的全部内容均通过引用纳入本文。对上述专利、专利申请、出版物和文献的引用并不表示承认上述任何内容是相关的现有技术,也并不表示承认这些出版物或文献的内容或日期。
可以对上述内容进行改变而不背离本技术的基本方面。尽管参照一个或多个具体实施方式充分详细描述了本技术,但是本领域普通技术人员应认识到可对本申请中具体公开的实施方式进行改变,而这些改良和改进在本技术的范围和精神内。
本文中适当地说明性描述的技术可在没有任何本文未具体公开的元素的情况下实施。因此,例如,在本文的各个例子中,术语“包括”、“基本由……组成”和“由……组成”中的任何一个都可用其它两个中的任意一个代替。已经使用的术语和表达用作说明而非限制性的术语,此类术语和表达的使用并不排除对所显示和所描述的特征或其部分的任何等价物,以及在要求权利的本技术范围内可进行各种改良。术语“一个”或“一种”表示一种或多种其修饰的元素(例如“一种试剂”可表示一种或多种试剂),除非上下文清楚表示所描述的是元素之一或是一种以上的元素。本文所使用的术语“约”表示在基础参数的10%范围内的数值(即±10%),在一列数值的开头处使用的术语“约”表示修饰该列数值中的每个数值(即“约1、2和3”指约1、约2和约3)。例如,“约100克”的重量能包含90克-110克的重量。此外,当本文描述数值列表(例如,约50%、60%、70%、80%、85%或86%)时,该列表包含其所有中间值和分数值(例如,54%、85.4%)。因此,应理解,尽管通过代表性实施方式和任选的特征具体公开了本技术,但是本领域技术人员能对本文所公开内容进行改良和变化,应认为此类改良和变化落在本技术的范围内。
本技术的某些实施方式在所附的权利要求中列出。

Claims (12)

1.一种评估来自妊娠女性的测试样品中胎儿核酸分数的方法,所述方法包括:
(a)获取映射至参照基因组各部份的序列读数的计数,其中序列读数是妊娠女性测试样品的循环无细胞核酸的读数,
(b)选择部份的子集,由此提供计数子集,所述计数子集来自基因组如下所述的区域,即所述区域有利于得到比相对基因组其他区域总计数的胎儿核酸计数更大数量的相对该区域总计数的胎儿核酸计数;以及
(c)基于所述部份的子集来评估所述测试样品的胎儿核酸分数。
2.如权利要求1所述的方法,其中,(b)中的选择是根据胎儿核酸序列读数映射数量大于其他部分的胎儿核酸序列读数映射数量的部分。
3.如权利要求1所述的方法,其中,(b)中的选择是根据如下所述的部分,即所述部分的相对非胎儿核酸的映射至所述部分的胎儿核酸序列读数数量大于其他部分的相对非胎儿核酸的胎儿核酸序列读数数量。
4.如权利要求1至3中任一项所述的方法,其中,映射有增加量的胎儿核酸读数的部份根据X与Y的比率确定,其中,X是源自长度短于第一选定片段长度的循环无细胞(CCF)片段的读数数量,而Y是源自长度短于第二选定片段长度的CCF片段的读数数量。
5.如权利要求4所述的方法,其中,所述比率是多个样品的平均比率。
6.如权利要求5所述的方法,其中,所述部份根据某一部份的平均比率大于对所述各部份平均化的平均比率来选择。
7.如权利要求4所述的方法,其中,第一选定片段长度是约140-约160个碱基且第二选定片段长度是约500-约700个碱基。
8.如权利要求7所述的方法,其中,第一选定片段长度是约150个碱基且第二选定片段长度是约600个碱基。
9.如权利要求1至8中任一项所述的方法,其中,所述计数是标准化计数。
10.如权利要求9所述的方法,其中,计数根据鸟嘌呤-胞嘧啶(GC)含量标准化。
11.如权利要求1至10中任一项所述的方法,其中,所述部分的子集是一个或多个常染色体的部分。
12.如权利要求1至11中任一项所述的方法,其中,所述部分的子集是一个或多个整倍性染色体的部分。
CN202210409521.7A 2013-06-21 2014-06-20 用于遗传变异的非侵入性评估的方法和过程 Pending CN114724627A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361838048P 2013-06-21 2013-06-21
US61/838,048 2013-06-21
CN201480046570.2A CN105473741B (zh) 2013-06-21 2014-06-20 用于遗传变异的非侵入性评估的方法和过程
PCT/US2014/043497 WO2014205401A1 (en) 2013-06-21 2014-06-20 Methods and processes for non-invasive assessment of genetic variations

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480046570.2A Division CN105473741B (zh) 2013-06-21 2014-06-20 用于遗传变异的非侵入性评估的方法和过程

Publications (1)

Publication Number Publication Date
CN114724627A true CN114724627A (zh) 2022-07-08

Family

ID=51177203

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210409521.7A Pending CN114724627A (zh) 2013-06-21 2014-06-20 用于遗传变异的非侵入性评估的方法和过程
CN201480046570.2A Active CN105473741B (zh) 2013-06-21 2014-06-20 用于遗传变异的非侵入性评估的方法和过程

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480046570.2A Active CN105473741B (zh) 2013-06-21 2014-06-20 用于遗传变异的非侵入性评估的方法和过程

Country Status (23)

Country Link
US (2) US10622094B2 (zh)
EP (2) EP3540076A1 (zh)
JP (2) JP6473744B2 (zh)
KR (4) KR102447079B1 (zh)
CN (2) CN114724627A (zh)
AU (4) AU2014284180B2 (zh)
BR (1) BR112015032031B1 (zh)
CA (1) CA2915628C (zh)
CY (1) CY1121704T1 (zh)
DK (1) DK3011051T3 (zh)
ES (1) ES2721051T3 (zh)
HK (1) HK1223656A1 (zh)
HR (1) HRP20190600T1 (zh)
HU (1) HUE042654T2 (zh)
IL (3) IL283586B2 (zh)
LT (1) LT3011051T (zh)
MX (3) MX2015016911A (zh)
PL (1) PL3011051T3 (zh)
PT (1) PT3011051T (zh)
RS (1) RS58599B1 (zh)
SI (1) SI3011051T1 (zh)
TR (1) TR201904345T4 (zh)
WO (1) WO2014205401A1 (zh)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032569B2 (en) * 2009-08-26 2018-07-24 University Of Maryland, College Park Nanodevice arrays for electrical energy storage, capture and management and method for their formation
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US20140242588A1 (en) 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
EP2805280B1 (en) 2012-01-20 2022-10-05 Sequenom, Inc. Diagnostic processes that factor experimental conditions
EP2846690B1 (en) 2012-05-10 2020-10-28 University Of Washington Through Its Center For Commercialization Sound-based spirometric device
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
HUE061261T2 (hu) 2013-04-03 2023-05-28 Sequenom Inc Eljárások és folyamatok genetikai variánsok nem invazív értékelésére
JP6561046B2 (ja) 2013-05-24 2019-08-14 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲性評価のための方法および処理
SI3011051T1 (sl) * 2013-06-21 2019-05-31 Sequenom, Inc. Postopek za neinvazivno oceno genetskih variacij
IL289974B (en) 2013-10-04 2022-09-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
JP6680680B2 (ja) 2013-10-07 2020-04-15 セクエノム, インコーポレイテッド 染色体変化の非侵襲性評価のための方法およびプロセス
WO2015061359A1 (en) 2013-10-21 2015-04-30 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
EP3736344A1 (en) 2014-03-13 2020-11-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8990191B1 (en) * 2014-03-25 2015-03-24 Linkedin Corporation Method and system to determine a category score of a social network member
US10490299B2 (en) * 2014-06-06 2019-11-26 Battelle Memorial Institute Identification of traits associated with DNA samples using epigenetic-based patterns detected via massively parallel sequencing
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3204512B1 (en) 2014-10-10 2020-05-06 Sequenom, Inc. Methods for partitioning of genomic sequences
EP3018213A1 (en) * 2014-11-04 2016-05-11 Genesupport SA Method for determining the presence of a biological condition by determining total and relative amounts of two different nucleic acids
CA2970501C (en) 2014-12-12 2020-09-15 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
WO2016154139A1 (en) * 2015-03-20 2016-09-29 University Of Washington Sound-based spirometric devices, systems, and methods using audio data transmitted over a voice communication channel
US11081225B2 (en) * 2015-03-30 2021-08-03 The Trustees Of The University Of Pennsylvania System and method for virtual radiation therapy quality assurance
US10683538B2 (en) 2015-04-17 2020-06-16 The Translational Genomics Research Institute Quality assessment of circulating cell-free DNA using multiplexed droplet digital PCR
DE102015118208B4 (de) * 2015-10-26 2022-11-10 Sick Ag Analysevorrichtung zum Analysieren einer Gasprobe sowie Verfahren zum Analysieren einer Gasprobe
CA3002449A1 (en) * 2015-11-16 2017-05-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
SG11201804651XA (en) * 2015-12-04 2018-07-30 Green Cross Genome Corp Method for determining copy-number variation in sample comprising mixture of nucleic acids
CN105543380B (zh) * 2016-01-27 2019-03-15 北京诺禾致源科技股份有限公司 一种检测基因融合的方法及装置
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
CN108780065B (zh) * 2016-03-14 2021-03-19 株式会社岛津制作所 质谱分析数据解析装置、方法及非暂时性计算机可读介质
CN111621548A (zh) * 2016-04-26 2020-09-04 序康医疗科技(苏州)有限公司 扩增dna的方法
WO2017205826A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for detecting genetic variations
CN107480470B (zh) * 2016-06-08 2020-08-11 广州华大基因医学检验所有限公司 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
WO2018022906A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
WO2018034745A1 (en) * 2016-08-18 2018-02-22 The Regents Of The University Of California Nanopore sequencing base calling
GB2567390B (en) * 2016-09-02 2021-10-06 Hitachi High Tech Corp Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary
CN108241687B (zh) * 2016-12-26 2022-05-17 阿里巴巴集团控股有限公司 一种可视化图表信息的处理方法及装置
CA3049457C (en) 2017-01-20 2023-05-16 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
US11929145B2 (en) 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of genetic alterations
CA3049455C (en) 2017-01-20 2023-06-13 Sequenom, Inc. Sequencing adapter manufacture and use
JP7237003B2 (ja) 2017-01-24 2023-03-10 セクエノム, インコーポレイテッド 遺伝子片の評価のための方法およびプロセス
EP3998350A1 (en) 2017-03-17 2022-05-18 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
CN107491656B (zh) * 2017-09-04 2020-01-14 北京航空航天大学 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法
SG11202001715YA (en) * 2017-09-07 2020-03-30 Regeneron Pharma Systems and methods for leveraging relatedness in genomic data analysis
CN108108592B (zh) * 2017-12-29 2020-06-16 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN108229101B (zh) * 2017-12-29 2021-07-06 北京科迅生物技术有限公司 基于ngs的靶向测序数据模拟方法和装置
AU2019247652A1 (en) 2018-04-02 2020-10-15 Enumera Molecular, Inc. Methods, systems, and compositions for counting nucleic acid molecules
CN110634535A (zh) * 2018-06-06 2019-12-31 中国石油化工股份有限公司 一种基于蒙特卡洛法的化工过程参数敏感性确定方法
CN108964102B (zh) * 2018-07-26 2022-03-25 华北电力大学(保定) 配电网中分布式储能的位置和容量优化配置方法
EP3881078A1 (en) 2018-11-15 2021-09-22 Quantum-Si Incorporated Methods and compositions for protein sequencing
KR102287096B1 (ko) * 2019-01-04 2021-08-09 테라젠지놈케어 주식회사 모체 시료 중 태아 분획을 결정하는 방법
EP3935581A4 (en) 2019-03-04 2022-11-30 Iocurrents, Inc. DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING
US11929148B2 (en) 2019-03-13 2024-03-12 Grail, Llc Systems and methods for enriching for cancer-derived fragments using fragment size
WO2020206170A1 (en) 2019-04-02 2020-10-08 Progenity, Inc. Methods, systems, and compositions for counting nucleic acid molecules
CA3115513A1 (en) 2019-06-03 2020-12-10 Illumina, Inc. Limit of detection based quality control metric
GB201911095D0 (en) * 2019-08-02 2019-09-18 Randox Laboratories Ltd Biological status classification
EP4045684A1 (en) * 2019-10-28 2022-08-24 Quantum-Si Incorporated Methods of preparing an enriched sample for polypeptide sequencing
EP4052259A1 (en) 2019-10-31 2022-09-07 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
CN111063430B (zh) * 2019-11-04 2024-01-26 珠海健康云科技有限公司 一种疾病预测方法及装置
WO2021174371A1 (en) * 2020-03-06 2021-09-10 Citiiq, A Division Of Blyth Group Inc. Normalization and aggregation device and method for generating city scores
CN113553568B (zh) * 2020-04-23 2024-06-18 京东科技控股股份有限公司 人机识别方法、滑块验证方法、装置、介质和设备
EP4143579A2 (en) 2020-05-20 2023-03-08 Quantum-si Incorporated Methods and compositions for protein sequencing
WO2022119812A1 (en) 2020-12-02 2022-06-09 Illumina Software, Inc. System and method for detection of genetic alterations
WO2022140579A1 (en) * 2020-12-24 2022-06-30 Progenity, Inc. Methods of preparing assays, systems, and compositions for determining fetal fraction
EP4396822A1 (en) * 2021-09-03 2024-07-10 Institut National De La Sante Et De La Recherche Medicale - Inserm Methods and devices for non-invasive prenatal testing
CA3223315A1 (en) 2022-02-16 2023-08-24 Michael Mehan Minimizing fetal fraction bias in maternal polygenic risk score estimation
US20230298691A1 (en) * 2022-02-25 2023-09-21 Aspira Women's Health Distributed genetic testing systems utilizing secure gateway systems and next-generation sequencing assays
CN114461535B (zh) * 2022-04-14 2022-07-12 山东建筑大学 面向并行变异算子的顽固变异体测试数据生成方法及系统
WO2024173756A1 (en) 2023-02-17 2024-08-22 Illumina, Inc. Cell-free dna signals as biomarkers of preeclampsia
WO2024186778A1 (en) 2023-03-03 2024-09-12 Laboratory Corporation Of America Holdings Methods and systems for positive cfdna screening on genetic variations using mosaicism ratio
WO2024186978A1 (en) 2023-03-09 2024-09-12 Illumina, Inc. Fragmentomics for estimating fetal fraction in non-invasive prenatal testing

Family Cites Families (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5720928A (en) 1988-09-15 1998-02-24 New York University Image processing and analysis of individual nucleic acid molecules
US5075212A (en) 1989-03-27 1991-12-24 University Of Patents, Inc. Methods of detecting picornaviruses in biological fluids and tissues
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5641628A (en) 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
JP3068180B2 (ja) 1990-01-12 2000-07-24 アブジェニックス インコーポレイテッド 異種抗体の生成
US5432054A (en) 1994-01-31 1995-07-11 Applied Imaging Method for separating rare cells from a population of cells
DE69532492T2 (de) 1994-08-31 2004-12-02 Mitsubishi Pharma Corp. Verfahren zur Reinigung von rekombinantem menschlichem Serumalbumin
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
ATE199571T1 (de) 1994-12-23 2001-03-15 Imperial College Automatisches sequenzierungs verfahren
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5670325A (en) 1996-08-14 1997-09-23 Exact Laboratories, Inc. Method for the detection of clonal populations of transformed cells in a genomically heterogeneous cellular sample
IL126544A (en) 1996-04-25 2004-08-31 Genicon Sciences Inc Test for component detection using detectable particles in diffused light
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
US6100029A (en) 1996-08-14 2000-08-08 Exact Laboratories, Inc. Methods for the detection of chromosomal aberrations
US6403311B1 (en) 1997-02-12 2002-06-11 Us Genomics Methods of analyzing polymers using ordered label strategies
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6566101B1 (en) 1997-06-16 2003-05-20 Anthony P. Shuber Primer extension methods for detecting nucleic acids
US6570001B1 (en) 1997-06-20 2003-05-27 Institut Pasteur Polynucleotides and their use for detecting resistance to streptogramin A or to streptogramin B and related compounds
IL141148A0 (en) 1998-07-30 2002-02-10 Solexa Ltd Arrayed biomolecules and their use in sequencing
US6263286B1 (en) 1998-08-13 2001-07-17 U.S. Genomics, Inc. Methods of analyzing polymers using a spatial network of fluorophores and fluorescence resonance energy transfer
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US20050287592A1 (en) 2000-08-29 2005-12-29 Yeda Research And Development Co. Ltd. Template-dependent nucleic acid polymerization using oligonucleotide triphosphates building blocks
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
WO2001032887A1 (en) 1999-10-29 2001-05-10 Stratagene Compositions and methods utilizing dna polymerases
US20010049102A1 (en) 2000-02-24 2001-12-06 Huang Xiaohua C. Methods for determining single nucleotide variations
US6664056B2 (en) 2000-10-17 2003-12-16 The Chinese University Of Hong Kong Non-invasive prenatal monitoring
AU2002239284A1 (en) 2000-11-27 2002-06-03 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
CA2440754A1 (en) 2001-03-12 2002-09-19 Stephen Quake Methods and apparatus for analyzing polynucleotide sequences by asynchronous base extension
EP1478771A4 (en) 2001-06-21 2005-06-15 Harvard College PROCESS FOR CHARACTERIZING NUCLEIC ACID MOLECULES
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20030157489A1 (en) 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
WO2003078593A2 (en) 2002-03-15 2003-09-25 Epigenomics Ag Discovery and diagnostic methods using 5-methylcytosine dna glycosylase
US20040110208A1 (en) 2002-03-26 2004-06-10 Selena Chan Methods and device for DNA sequencing using surface enhanced Raman scattering (SERS)
US7744816B2 (en) 2002-05-01 2010-06-29 Intel Corporation Methods and device for biomolecule characterization
US7005264B2 (en) 2002-05-20 2006-02-28 Intel Corporation Method and apparatus for nucleic acid sequencing and identification
US20050019784A1 (en) 2002-05-20 2005-01-27 Xing Su Method and apparatus for nucleic acid sequencing and identification
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
CA2497988C (en) 2002-09-06 2011-03-29 The Trustees Of Boston University Quantification of gene expression
CN1774511B (zh) 2002-11-27 2013-08-21 斯昆诺有限公司 用于序列变异检测和发现的基于断裂的方法和系统
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
WO2005017025A2 (en) 2003-08-15 2005-02-24 The President And Fellows Of Harvard College Study of polymer molecules and conformations with a nanopore
WO2005023091A2 (en) 2003-09-05 2005-03-17 The Trustees Of Boston University Method for non-invasive prenatal diagnosis
EP1524321B2 (en) 2003-10-16 2014-07-23 Sequenom, Inc. Non-invasive detection of fetal genetic traits
US20050095599A1 (en) 2003-10-30 2005-05-05 Pittaro Richard J. Detection and identification of biopolymers using fluorescence quenching
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050147980A1 (en) 2003-12-30 2005-07-07 Intel Corporation Nucleic acid sequencing by Raman monitoring of uptake of nucleotides during molecular replication
US20100216151A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US7279337B2 (en) 2004-03-10 2007-10-09 Agilent Technologies, Inc. Method and apparatus for sequencing polymers through tunneling conductance variation detection
WO2006028508A2 (en) 2004-03-23 2006-03-16 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
EP1784754A4 (en) 2004-08-13 2009-05-27 Harvard College OPTI-NANOPORE DNA READING PLATFORM WITH ULTRAHOLE THROUGHPUT
CN101243191B (zh) 2004-11-29 2014-04-16 塞昆纳姆股份有限公司 用于检测甲基化dna的手段和方法
ES2398233T3 (es) 2005-03-18 2013-03-14 The Chinese University Of Hong Kong Un método para la detección de aneuploidías cromosómicas
WO2007065025A2 (en) 2005-11-29 2007-06-07 Wisconsin Alumni Research Foundation Method of dna analysis using micro/nanochannel
PL3002338T3 (pl) 2006-02-02 2019-12-31 The Board Of Trustees Of The Leland Stanford Junior University Nieinwazyjne badania przesiewowe płodu poprzez analizę cyfrową
DK1996728T3 (da) 2006-02-28 2011-08-15 Univ Louisville Res Found Detektering af føtale chromosomale abnormiteter under anvendelse af tandem-enkeltnukleotid-polymorfismer
TW200741192A (en) 2006-03-10 2007-11-01 Koninkl Philips Electronics Nv Methods and systems for identification of DNA patterns through spectral analysis
US20090075252A1 (en) 2006-04-14 2009-03-19 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8679741B2 (en) 2006-05-31 2014-03-25 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
WO2007147074A2 (en) 2006-06-14 2007-12-21 Living Microsystems, Inc. Use of highly parallel snp genotyping for fetal diagnosis
AU2007260750A1 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP1944273A1 (en) 2007-01-15 2008-07-16 Rockwool International A/S Process and apparatus for making mineral fibers
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
CA2964611C (en) 2007-03-28 2021-06-01 Bionano Genomics, Inc. Methods of macromolecular analysis using nanochannel arrays
CA2684801C (en) 2007-04-04 2017-10-10 The Regents Of The University Of California Compositions, devices, systems, and methods for using a nanopore
GB0713143D0 (en) 2007-07-06 2007-08-15 Ucl Business Plc Nucleic acid detection method
EP3770275A1 (en) 2007-07-23 2021-01-27 The Chinese University of Hong Kong Determining a fetal aneuploidy
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
US9404150B2 (en) 2007-08-29 2016-08-02 Sequenom, Inc. Methods and compositions for universal size-specific PCR
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
AU2009223671B2 (en) 2008-03-11 2014-11-27 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
CA2718137A1 (en) 2008-03-26 2009-10-01 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
CA2729159C (en) 2008-06-30 2020-01-14 Bionanomatrix, Inc. Methods and devices for single-molecule whole genome analysis
CN102245760A (zh) 2008-07-07 2011-11-16 牛津纳米孔技术有限公司 酶-孔构建体
CA2730068A1 (en) 2008-07-07 2010-01-14 Oxford Nanopore Technologies Limited Base-detecting pore
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
ES2599967T3 (es) 2008-09-16 2017-02-06 Sequenom, Inc. Procedimientos y composiciones para el enriquecimiento basado en metilación de ácido nucleico fetal de una muestra materna útiles para diagnósticos prenatales no invasivos
LT2562268T (lt) 2008-09-20 2017-04-25 The Board Of Trustees Of The Leland Stanford Junior University Neinvazinis fetalinės aneuploidijos diagnozavimas sekvenavimu
EP4335932A3 (en) 2008-11-07 2024-06-26 Adaptive Biotechnologies Corporation Methods of monitoring conditions by sequence analysis
WO2010056728A1 (en) 2008-11-11 2010-05-20 Helicos Biosciences Corporation Nucleic acid encoding for multiplex analysis
AU2009316628B2 (en) 2008-11-18 2016-06-16 Bionano Genomics, Inc. Polynucleotide mapping and sequencing
WO2010065470A2 (en) 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
CN104531837A (zh) 2008-12-22 2015-04-22 赛卢拉有限公司 检测等位基因、基因组和转录物组的方法和基因型分析谱
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
EP3514244B1 (en) 2009-04-03 2021-07-07 Sequenom, Inc. Nucleic acid preparation methods
US8246799B2 (en) 2009-05-28 2012-08-21 Nabsys, Inc. Devices and methods for analyzing biomolecules and probes bound thereto
US20100330557A1 (en) 2009-06-30 2010-12-30 Zohar Yakhini Genomic coordinate system
CN102666946B (zh) 2009-09-28 2017-09-05 生物纳米基因组公司 用于聚合物分析的纳米通道阵列和近场照射装置以及相关方法
CN103502468A (zh) 2009-10-21 2014-01-08 生物纳米基因公司 用于单分子全基因组分析的方法和相关装置
HUE061110T2 (hu) 2009-11-05 2023-05-28 Univ Hong Kong Chinese Magzati genomelemzés anyai biológiai mintából
US8620593B2 (en) * 2009-11-06 2013-12-31 The Chinese University Of Hong Kong Size-based genomic analysis
WO2011087760A2 (en) 2009-12-22 2011-07-21 Sequenom, Inc. Processes and kits for identifying aneuploidy
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
ES2704701T3 (es) 2010-01-19 2019-03-19 Verinata Health Inc Nuevo protocolo de preparación de bibliotecas de secuenciación
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
EP2526415B1 (en) 2010-01-19 2017-05-03 Verinata Health, Inc Partition defined detection methods
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
AU2011207544A1 (en) 2010-01-19 2012-09-06 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
EP2569453B1 (en) 2010-05-14 2015-12-16 Fluidigm Corporation Nucleic acid isolation methods
EP2854057B1 (en) 2010-05-18 2018-03-07 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
EP2591433A4 (en) 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
EP2596127A2 (en) 2010-07-23 2013-05-29 Esoterix Genetic Laboratories, LLC Identification of differentially represented fetal or maternal genomic regions and uses thereof
CA2821906C (en) 2010-12-22 2020-08-25 Natera, Inc. Methods for non-invasive prenatal paternity testing
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
CN103459614B (zh) 2011-01-05 2015-12-02 香港中文大学 胎儿性染色体的非侵入性产前基因分型
WO2012103031A2 (en) 2011-01-25 2012-08-02 Ariosa Diagnostics, Inc. Detection of genetic abnormalities
JP6153874B2 (ja) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
TWI611186B (zh) 2011-02-24 2018-01-11 香港中文大學 多重妊娠之分子檢驗
WO2012118745A1 (en) 2011-02-28 2012-09-07 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination
GB2484764B (en) 2011-04-14 2012-09-05 Verinata Health Inc Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
ES2605372T3 (es) 2011-05-31 2017-03-14 Berry Genomics Co., Ltd. Un dispositivo para detectar el número de copias de cromosomas fetales o cromosomas de células tumorales
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
PL2561103T3 (pl) * 2011-06-29 2015-02-27 Bgi Diagnosis Co Ltd Nieinwazyjna detekcja anomalii genetycznych płodu
US9139874B2 (en) 2011-07-07 2015-09-22 Life Technologies Corporation Bi-directional sequencing compositions and methods
US9984198B2 (en) * 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US9367663B2 (en) * 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20140242588A1 (en) 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP6073902B2 (ja) * 2011-10-06 2017-02-01 セクエノム, インコーポレイテッド 遺伝的変異の非侵襲的評価のための方法およびプロセス
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2851537C (en) 2011-10-11 2020-12-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2805280B1 (en) 2012-01-20 2022-10-05 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP3573066B1 (en) 2012-03-13 2023-09-27 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
DK3663409T3 (da) 2012-05-21 2021-12-13 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014039556A1 (en) 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CA3120521A1 (en) 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
HUE061261T2 (hu) 2013-04-03 2023-05-28 Sequenom Inc Eljárások és folyamatok genetikai variánsok nem invazív értékelésére
JP6561046B2 (ja) * 2013-05-24 2019-08-14 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲性評価のための方法および処理
SI3011051T1 (sl) * 2013-06-21 2019-05-31 Sequenom, Inc. Postopek za neinvazivno oceno genetskih variacij
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
IL289974B (en) 2013-10-04 2022-09-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
JP6680680B2 (ja) 2013-10-07 2020-04-15 セクエノム, インコーポレイテッド 染色体変化の非侵襲性評価のための方法およびプロセス
WO2015183872A1 (en) 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
EP3540076A1 (en) 2019-09-18
US20150005176A1 (en) 2015-01-01
HUE042654T2 (hu) 2019-07-29
BR112015032031A2 (pt) 2017-07-25
IL303830A (en) 2023-08-01
KR20210110410A (ko) 2021-09-07
CY1121704T1 (el) 2020-07-31
SI3011051T1 (sl) 2019-05-31
LT3011051T (lt) 2019-05-10
AU2021261830B2 (en) 2024-01-11
IL283586B2 (en) 2023-11-01
EP3011051A1 (en) 2016-04-27
AU2020203134B2 (en) 2021-09-23
CN105473741A (zh) 2016-04-06
CA2915628A1 (en) 2014-12-24
TR201904345T4 (tr) 2019-04-22
PT3011051T (pt) 2019-03-27
AU2020203134A1 (en) 2020-06-04
KR20160022374A (ko) 2016-02-29
CN105473741B (zh) 2022-04-19
JP2016533173A (ja) 2016-10-27
JP6473744B2 (ja) 2019-02-20
KR102447079B1 (ko) 2022-09-23
WO2014205401A1 (en) 2014-12-24
KR102299305B1 (ko) 2021-09-06
JP2018196389A (ja) 2018-12-13
AU2024201018A1 (en) 2024-03-07
IL283586B1 (en) 2023-07-01
MX2023000563A (es) 2023-02-13
PL3011051T3 (pl) 2019-07-31
EP3011051B1 (en) 2019-01-30
BR112015032031A8 (pt) 2022-12-20
HRP20190600T1 (hr) 2019-05-17
HK1223656A1 (zh) 2017-08-04
US20200294625A1 (en) 2020-09-17
IL242903B (en) 2021-06-30
IL283586A (en) 2021-07-29
DK3011051T3 (en) 2019-04-23
MX2020002831A (es) 2020-07-22
KR20220133309A (ko) 2022-10-04
MX2015016911A (es) 2016-06-21
CA2915628C (en) 2020-04-21
AU2014284180B2 (en) 2020-03-19
ES2721051T3 (es) 2019-07-26
BR112015032031B1 (pt) 2023-05-16
RS58599B1 (sr) 2019-05-31
AU2021261830A1 (en) 2021-12-02
KR20240014606A (ko) 2024-02-01
US10622094B2 (en) 2020-04-14
AU2014284180A1 (en) 2016-02-11

Similar Documents

Publication Publication Date Title
AU2021261830B2 (en) Methods and processes for non-invasive assessment of genetic variations
US20220205037A1 (en) Methods and compositions for analyzing nucleic acid
EP3978621B1 (en) Methods and processes for non-invasive assessment of genetic variations
CN105555968B (zh) 遗传变异的非侵入性评估方法和过程
BR122022001849B1 (pt) Método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination