CN105555968B - 遗传变异的非侵入性评估方法和过程 - Google Patents

遗传变异的非侵入性评估方法和过程 Download PDF

Info

Publication number
CN105555968B
CN105555968B CN201480042105.1A CN201480042105A CN105555968B CN 105555968 B CN105555968 B CN 105555968B CN 201480042105 A CN201480042105 A CN 201480042105A CN 105555968 B CN105555968 B CN 105555968B
Authority
CN
China
Prior art keywords
candidate segment
segment
count
readable medium
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480042105.1A
Other languages
English (en)
Other versions
CN105555968A (zh
Inventor
赵晨
Z·扎库拉
C·德兹尤
金成均
A·玛兹卢姆
G·汉纳姆
M·埃里希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequinham Co ltd
Original Assignee
Sequinham Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequinham Co ltd filed Critical Sequinham Co ltd
Priority to CN202011163273.XA priority Critical patent/CN112575075A/zh
Publication of CN105555968A publication Critical patent/CN105555968A/zh
Application granted granted Critical
Publication of CN105555968B publication Critical patent/CN105555968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本文提供使用决策分析的非侵入性评估遗传变异的方法、过程和设备。所述决策分析有时包括分割分析和/或让步比分析。

Description

遗传变异的非侵入性评估方法和过程
相关专利申请
本专利申请要求2013年5月24日提交的名为“遗传变异的非侵入性评估方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS)”,发明人为Zeljko Dzakula等,档案号为SEQ-6068-PV的美国临时专利申请61/827,385的权利。本专利申请涉及2012年11月5日提交的名为“遗传变异的非侵入性评估方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS)”的美国专利13/669,136(发明人Cosmin Deciu,Zeljko Dzakula,Mathias Ehrich和SungKim,档案编号SEQ-6034-CTt),该专利为2012年10月5日提交的名为“遗传变异的非侵入性评估方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETICVARIATIONS)”的国际PCT申请PCT/US2012/059123(发明人Cosmin Deciu,Zeljko Dzakula,Mathias Ehrich和Sung Kim,档案编号SEQ-6034-PC)的延续;其(i)要求2012年10月4日提交的名为“遗传变异的非侵入性评估方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS)”,发明人为Cosmin Deciu、ZeljkoDzakula、Mathias Ehrich和Sung Kim等,档案号为SEQ-6034-PV3的美国临时专利申请61/709,899的权利;(ii)要求2012年6月22日提交的名为“遗传变异的非侵入性评估方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS)”,发明人为Zeljko Dzakula和Mathias Ehrich等,档案号为SEQ-6034-PV2的美国临时专利申请61/663,477的权利;和(iii)要求2011年10月6日提交的名为“遗传变异的非侵入性评估方法和过程(METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETICVARIATIONS)”,发明人为Zeljko Dzakula和Mathias Ehrich等,档案号为SEQ-6034-PV的美国临时专利申请61/544,251的权利。前述专利申请的全部内容通过引用纳入本文,包括其文本、表格和附图。
领域
本文提供的技术部分涉及遗传变异的非侵入性评估方法、过程和设备。
背景
活体生物(如动物、植物和微生物)的遗传信息和复制遗传信息的其他形式(如病毒)编码成脱氧核糖核酸(DNA)或核糖核酸(RNA)。遗传信息是代表化学或假定核酸的一级结构的一连串核苷酸或修饰的核苷酸。人的完整基因组包含位于二十四(24)条染色体上的约30,000个基因(见The Human Genome(人类基因组),T.Strachan,BIOS科学出版社,1992)。各基因编码特定蛋白质,所述蛋白质通过转录和翻译表达后在活细胞中实现特定的生物化学功能。
许多医学病症由一种或多种遗传变异引起。某些遗传变异引起医学病症,包括例如血友病、地中海贫血、杜氏肌营养不良症(DMD)、亨廷顿氏病(HD)、阿尔茨海默病和囊性纤维化(CF)(HumanGenomeMutations,D.N.Cooper和M.Krawczak,BIOS Publishers,1993)。这类遗传疾病能来自特定基因DNA中单个核苷酸的加入、取代或缺失。某些出生缺陷由染色体异常(也称为非整倍性)造成,例如21三体性(唐氏综合征)、13三体性(帕陶氏综合征)、18三体性(爱德华氏综合征)、X单体性(特纳氏综合征)和某些性染色体非整倍性如克氏综合征(XXY)。其他遗传变异是胎儿性别,这通常可基于性染色体X和Y来确定。一些遗传变异使个体倾向于或引起许多疾病中的任一种,例如糖尿病、动脉硬化、肥胖症、各种自体免疫疾病和癌症(如结直肠癌、乳腺癌、卵巢癌、肺癌)。
鉴定一种或多种遗传变异或变化可形成对特定医学病症的诊断或倾向确定。鉴定遗传变异能帮助医疗决策和/或使用辅助性的医疗方案。在某些实施方式中,鉴定一种或多种遗传变异或变化涉及分析无细胞DNA。无细胞DNA(CF-DNA)由来自细胞死亡和外周血循环的DNA片段组成。高浓度的CF-DNA能指示某些临床病症,例如癌症、创伤、烧伤、心肌梗塞、中风、败血症、感染和其它疾病。此外,无细胞胎儿DNA(CFF-DNA)能在母体血流中检测,并且用于多种非侵入性产前诊断。
概述
本文某些方面提供以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失的方法,所述方法包括(a)获取映射至参照基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,(c)根据所述计算的基因组节段水平生成基因组区段的概况,(d)分割所述概况,从而提供两个或更多分解图,和(e)根据所述两个或更多分解图以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失。
本文某些方面还提供以低假阴性和低假阳性确定是否存在小波事件的方法,所述方法包括:(a)获取映射至参照基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,(c)将所述部份的组分割为多个部份的亚组,(d)根据所述计算的基因组节段水平确定各亚组的水平,(e)确定各所述水平的显著性水平,和(f)根据各所述水平所确定的显著性水平以低假阴性和低假阳性确定是否存在小波事件。
本文某些方面还提供以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失的方法,所述方法包括
(a)获取映射至参照基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,(c)选择所述基因组的区段,从而提供部份的组,(d)递归划分所述部份的组,从而提供部份的两个或更多亚组,(e)确定所述部份的两个或更多亚组中每个的水平,(f)针对样品根据(e)中确定的水平以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失。
本文还提供含一种或多种处理器和存储器的系统,其中存储器包含所述一种或多种处理器可执行的指令,且存储器包含映射至参照基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,且其中所述一种或多种处理器可执行的指令配置为
(a)获取映射至参照基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,(c)根据所述计算的基因组节段水平生成基因组区段的概况,(d)分割所述概况,从而提供两个或更多分解图,和(e)根据所述两个或更多分解图以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失。
下述说明、实施例、权利要求和附图中进一步描述某些技术方面。
附图简要说明
附图描述本技术的实施方式但不具限制性。为了说明的清楚和方便,附图未按比例制作,并且在一些情况中,可能夸大或放大多个方面以协助对具体实施方式的理解。
图1显示小波方法的示意图。标准化的部份计数数据(上部右图)经小波变换,产生小波平滑概况(下部右图)。在小波去噪后清楚地观察到非均一事件。
图2显示校平而未阈值化的效果。可通过所需大小的事件来确定最佳水平。
图3显示13号染色体的样品的含非均一概况(上部)和小波变换概况(中部)的概况。下图显示从13号染色体的多个整倍体参照样品所获得的空边缘高度分布。在中图中,两个较大差异(圆圈)对应于非均一事件的边界。
图4显示小波或CBS之后出现区段的示例。三个原始划分的区段(左图、染色体的右半边)合并入单一长伸展中(右图,染色体的右半边),使得微复制清晰可见。
图5A-图5E显示染色体概况,其为小波平滑的(图5B)、CBS平滑的(图5C)和区段合并的(图5D和图5E)。所述两种方法的两种最佳区段彼此比较并“交叉确认”。
图6A和图6B显示决策分析的非限制性示例。所示流程图的相同元件(例如方框)是任选的。在一些实施方式中添加额外元件(例如验证)。
图7显示从650延伸的比较的非限制性示例。
图8显示631和632所代表的两种小波事件的比较的非限制性示例。
图9显示染色体概况(A),其为小波平滑和合并(B)和CBS平滑和合并(C)。比较后,所述两种方法的两种最佳区段彼此“交叉排斥”。
图10显示关联遗传变异的染色体22的区段概况,所述遗传变异关联DiGeorge综合征。关联DiGeorge综合征的遗传微缺失和微复制已映射至该区域。左侧(图A-G)概况是Haar小波和CBS分割的、平滑的、合并的和比较的。复合物概况示于右图(A’-G’)。每细胞流的样品负载中的差异显示在图中:A-A’,0.5-plex;B-B’,1-plex;C-C’,2-plex,D-D’,3-plex;E-E’,4-plex;F-F’,5-plex和G-G’,6-plex。即使样品读数覆盖降低10倍(参见例如图F’)依然检测到DiGeorge微缺失。
图11A显示复合物小波事件,表明染色体1的概况中检测到微缺失。图11B显示复合物小波事件,表明染色体2的概况中检测到微复制。
图12显示代表性示例,显示利用最大熵法检测染色体12中微复制的位置。
图13显示16个样品的DiGeorge区域的放大视图,所述样品用数字对标记,表示样品在平板上的位置。样品对3_4(倒数第二)和9_10(倒数第5)属于婴儿DiGeorge妊娠。所有其他样品染色体分型为整倍体。高亮框(灰色区域)显示DiGeorge区域和PERUN部份选择(参照基因组chr22_368-chr22_451的部份)之间的重叠。
图14显示DiGeorge区域的Z分数。各数据点源自两个概况之和,所述概况获自各患者的两个分别的等分。基于所有16名患者进行Z标准化,包括所述两个受影响的案例。
图15-16分别显示样品3_4(DiGeorge)和1_2(整倍体)的代表性直方图。各直方图显示DiGeorge区域内所含的15x15网格区域所获的Z分数的分布。所述区域通过滑动DiGeorge区域的左侧和右侧边缘移动一个部份来选择,从外边缘开始向内移动。样品3_4和9_10(未显示)的直方图一致地显示缺失,3_4中仅少数Z分数超过Z=-3。样品13_14(未显示)的直方图一致表明过度呈现(overrepresentation),仅少数区域得到低于3的Z分数。所有其他样品(例如1_2)均限制在[-3,3]的Z分数区段内。
图17显示16个样品中每个的中值Z分数和其±3MAD置信区间。从滑动边缘所获的15x15网格区域(225个区域)确定各中值Z分数。对于绝大多数DiGeorge的亚区域来说,已知的DiGeorge样品(3_4和9_10)的Z分数低于-3。样品13_14中的明显重复由其大部分的Z分数超过3的现象来确认。所有其他样品的Z分数都限制在[-3,3]区段内。
图18-19分别显示样品3_4(DiGeorge)和1_2(整倍体)的代表性直方图。各直方图显示针对DiGeorge区域所获的Z分数的分布。各Z分数使用16个不同组参照样品进行计算,使用“留一法”。样品9_10的柱状图(未显示)证实耗尽。取决于参照设置,样品3_4或完全耗尽或具有边界Z分数。样品13_14(未显示)的直方图表明过度呈现,其具有少数边界Z分数。所有其他样品(包括1_2)均限制在[-3,3]的Z分数区段内。
图20显示各样品的中值Z分数,其代表示于图18-19。中值Z分数和其±3MAD置信区间从“留一法”所确定的16组不同参照样品中进行计算。对于绝大多数参照样品亚组来说,已知的DiGeorge样品(3_4和9_10)的Z分数低于-3。样品13_14中的明显重复由其大部分的Z分数超过3的现象来确认。所有其他样品的Z分数都限制在[-3,3]区段内。
图21显示对16个样品中的每一个来说,用15x15网格DiGeorge亚区域(x-轴)所获的中值Z分数与“留一法”技术(y-轴)生成的中值Z分数的比较。对角线代表理想的一致性(斜率=1,截距=0)。
图22-23分别显示样品3_4(DiGeorge)和1_2(整倍体)的代表性直方图。各直方图显示就DiGeorge区域的亚区域所获的Z分数的分布,使用16个不同组的参照样品。所述亚区域从15x15网格的225个亚区域中随机选择。“留一法”分析确认了样品3_4(图37)和9_10(未显示)的耗尽。样品13_14的直方图证实过度呈现(未显示)。所有其他样品(包括1_2)均限制在[-3,3]的Z分数区段内。
图24显示对16个样品中的每一个来说,用“留一法”随机选择的DiGeorge区域的亚区域的中值Z分数与其±3MAD置信区间。对于大多数参照样品来说,已知的DiGeorge样品(3_4和9_10)的Z分数低于-3。样品13_14中的明显重复由其大部分的Z分数超过3的现象来指示。除了样品17_18之外,所有其他样品的Z分数都限制在[-3,3]区段内。
图25-26分别显示样品3_4(DiGeorge)和1_2(Euploid)的代表性直方图,代表DiGeorge区域的所有225亚区域所获的Z分数的分布,使用16组不同的参照样品。对各样品,用滑动边缘法在15x15网格上生成225亚区域。滑动边缘与“留一法”分析组合使用。结果确认两种受影响的样品3_4和9_10(未显示)均耗尽。样品13_14的直方图证实过度呈现(未显示)。所有其他样品(包括1_2)均限制在[-3,3]的Z分数区段内,除了17_18(未显示)中的零星例外。
图27显示用DiGeorge亚区域的15x15网格与“留一法”组合得到的中值Z分数与仅用15x15网格得到的中值Z分数的比较。对角线代表理想的一致性(斜率=1,截距=0)。
图28显示用DiGeorge亚区域的15x15网格与“留一法”技术组合得到的Z分数的MAD与仅用15x15网格得到的Z分数的MAD的比较。对角线代表理想的一致性(斜率=1,截距=0)。
图29显示中值Z分数和其±3MAD置信区间,其在规则(canonic)DiGeorge区域的亚区域的完全15x15网格上联合“留一法”进行评估。对于大多数参照样品来说,已知的DiGeorge样品(3_4和9_10)的Z分数低于-3。样品13_14中的明显重复由其大部分的Z分数超过3的现象来指示。除了样品17_18之外,所有其他样品的Z分数都限制在[-3,3]区段内。
图30显示系统的示例性实施方式,其中可实施技术的某些实施方式。
图31显示LDTv2雄性样品的分类结果,使用对数让步比(LOR)法。
图32图示实施例6中所述等式23的某些方面。
图33显示Epanechnikov核提供的GC密度的实施方式(带宽=200bp)。
图34显示HTRA1基因的GC密度(y-轴)图,其中GC密度跨越整个基因组进行标准化。基因组位置示于x轴上。
图35显示参照基因组(实线)以及样品所获序列读数(虚线)的局部基因组偏移评估(例如GC密度、x轴)。偏移频率(例如密度频率)示于y轴上。GC密度评估跨越整个基因组进行标准化。该实施例中,所述样品相比从参照所预期的有更多高GC含量的读数。
图36显示参照基因组的GC密度评估分布和样品序列读数的GC密度评估分布,使用加权第三阶多项式拟合的关系。GC密度评估(x-轴)跨越整个基因组进行标准化。GC密度频率在y轴上用对参照的密度频率除以样品的密度频率的比例取log2来表示。
图37A显示基因组所有部份的中值GC密度(x-轴)的分布。图37B显示根据多种样品的GC密度分布确定的中值绝对偏差(MAD)值(x-轴)。GC密度频率示于y轴上。根据多种参照样品(如训练组)的中值GC密度分布和根据多种样品的GC密度分布确定的MAD值来筛选部份。包括超出既定阈值(例如MAD的四分位间范围的四倍)的GC密度的部份根据筛选方法从考虑中移除。
图38A显示基因组的样品的读数密度概况,包括基因组中的中值读数密度(y-轴,例如读数密度/部份)和各基因组部份的相对位置(x-轴,部份的指标)。图38B显示第一主成分(PC1),图38C显示第二主成分(PC2),它们获自500个整倍体的训练组中所获的读数密度概况的主成分分析。
图39A-C显示基因组的样品的读数密度概况的示例,所述基因组包括染色体21的三体(例如用两条垂直线括出的)。各基因组部份的相对位置示于x轴上。读数密度示于y轴上。图39A显示原始(例如未校准)读数密度概况。图39B显示39A的包括第一调整(包括扣除中值概况)的概况。图39C显示39B的包括第二调整的概况。第二调整包括扣除8x主成分概况,基于其在该样品中发现的代表进行加权。(例如建立模型)。例如样品概况=A*PC1+B*PC2+C*PC3…,而校正概况(例如39C所示)=样品概况-A*PC1+B*PC2+C*PC3…。
图40显示T21测试的拔靴法(bootstrapped)训练样品的测试p值的QQ图。QQ图通常比较两种分布。图40显示测试样品的ChAI分数(y轴)与均匀分布(即p-值的期待分布,x轴)的比较。各点代表单个测试样品的log-p值的分数。基于均匀分布对样品进行分选并分配“期望”值(x轴)。下部虚线代表对角线,上部的线代表Bonferroni阈值。遵循均匀分布的样品预期落在下部对角线上(下部虚线)。由于部份中的相关性(例如偏移),数值远离对角线,表明样品的分值比预期更高(低p值)。本文所述方法(例如ChAI,例如参见实施例7)能校正这种观察到的偏移。
图41A显示读数密度图,显示训练组中男性和女性的PC2系数的差异。图41B显示具有PC2系数的性别调用(call)的接受者操作特征(ROC)曲线。通过测序进行的性别调用用于真参照。
图42A-42B显示系统的实施方式。
发明详述
本文提供确定胎儿中胎儿遗传变异(例如染色体非整倍性、微复制或微缺失)的方法,所述确定部分和/或全部基于核酸序列进行。在一些实施方式中,核酸序列获自妊娠女性的样品(例如妊娠女性的血液)。本文还提供改善的数据操作方法,以及在一些实施方式中进行本文所述方法的系统、装置和模块。在一些实施方式中,本文所述方法鉴定遗传变异可引导特定医学病症的诊断或确定特定医学病症的倾向。鉴定遗传变异能帮助医疗决策和/或使用有益的医疗方案。
样品
本文提供用于分析核酸的方法和组合物。在一些实施方式中,分析核酸片段混合物中的核酸片段。核酸混合物可包括两种或更多核酸片段种类,所述两种或更多核酸片段种类具有不同核苷酸序列、不同片段长度、不同来源(例如基因组来源、胎儿与母体来源、细胞或组织来源、样品来源、对象来源等)或其组合。
本文所述方法和设备中使用的核酸或核酸混合物经常从获自对象的样品中分离。对象可以是任何活体或非活体生物,包括但不限于人、非人动物、植物、细菌、真菌或原生生物。能选择任何人或非人动物,包括但不限于哺乳动物、爬行动物、鸟类、两栖类、鱼类、有蹄类动物、反刍动物、牛科动物(如牛)、马科动物(如马)、山羊和绵羊类动物(如绵羊、山羊)、猪科动物(如猪)、羊驼类动物(如骆驼、美洲驼、羊驼)、猴子、猿(如大猩猩、黑猩猩)、熊科动物(如熊)、家禽、犬、猫、小鼠、大鼠、鱼、海豚、鲸鱼和鲨鱼。对象可为男性或女性(例如妇女、妊娠妇女)。对象可为任何年龄(如胚胎、胎儿、婴儿、儿童、成人)。
核酸可以从任何类型的合适生物试样或样品中分离(例如测试样品)。样品或测试样品可为分离或获自对象或其部分(如人对象、妊娠女性、胎儿)的任何试样。试样的非限制性示例包括对象的液体或组织,包括但不限于血液或血液制品(例如,血清、血浆等)、脐带血、绒毛、羊水、脑脊液、脊髓液、洗液(如支气管肺泡、胃、腹膜、导管、耳、关节镜)、活检样品(例如来自移植前胚胎)、膜间液样品、细胞(血液细胞,胎盘细胞、胚胎或胎儿细胞、胎儿有核细胞或胎儿细胞残余)或其部分(例如,线粒体、核、提取物等)、女性生殖道清洗物、尿、粪便、痰、唾液、鼻黏膜、前列腺液、灌洗液、精液、淋巴液、胆汁、眼泪、汗液、母乳、乳腺体液等或其组合。在一些实施方式中,生物样品是来自对象的宫颈擦拭物。在一些实施方式中,生物样品可以是血液,而有时是血浆或血清。本文所用的术语"血液"指来自妊娠女性或就可能妊娠而作测试女性的血液样品或制品。术语涵盖全血、血液制品或血液的任何部分,例如常规定义的血清和血浆、棕黄层等。血液或其部分常包括核小体(例如母体和/或胎儿核小体)。核小体包括核酸且有时无细胞或为细胞内的。血液还包括棕黄层。棕黄层有时通过菲克(ficoll)梯度来分离。棕黄层可包括白血细胞(例如白细胞、T细胞、B细胞、血小板等)。在一些实施方式中,棕黄层包括母体和/或胎儿核酸。血液血浆指经抗凝剂处理的血液离心所得的全血的部分。血液血清指血液样品凝结后保留的液体水层部分。通常按照医院或临床常规遵循的标准方法来采集液体或组织样品。就血液而言,通常采集适当量的外周血(例如3-40毫升),并且在制备前或后可按标准流程保存。提取核酸所用的液体或组织样品可以是非细胞的(如无细胞)。在一些实施方式中,液体或组织样品可含有细胞要素或细胞残余物。在一些实施方式中,所述样品中可包含胎儿细胞或癌细胞。
样品通常是异质性的,即所述样品中存在超过一种类型的核酸物质。例如,异质性核酸能包括但不限于(i)胎儿源性和母体源性的核酸、(ii)癌症和非癌症核酸、(iii)病原体和宿主核酸、和更常见的(iv)突变的和野生型核酸。样品可以是异质性的原因是,存在超过一种细胞类型,例如胎儿细胞和母体细胞,癌细胞和非癌细胞,或者病原体和宿主细胞。在一些实施方式中,存在少数核酸物质和多数核酸物质。
就本文所述技术的产前应用而言,液体或组织样品可采自孕龄适于测试的女性或经测试可能有孕的女性。适当孕龄可能视所进行的产前测试而不同。在某些实施方式中,妊娠女性对象有时在孕期前三个月,有时在孕中期三个月或有时在孕期末三个月。在某些实施方式中,液体或组织采自胎儿妊娠约1-约45周(如胎儿妊娠1-4、4-8、8-12、12-16、16-20、20-24、24-28、28-32、32-36、36-40或40-44周)和有时胎儿妊娠约5-约28周(如胎儿妊娠6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26或27周)的妊娠妇女。在某些实施方式中,在分娩(例如阴道或非阴道分娩(如手术分娩))期间或刚分娩后(如0-72小时后)从妊娠女性收集流体或组织样品。
获取血液样品和DNA提取
本文方法包括分离、富集和分析母体血液中所发现的胎儿DNA,作为在妊娠期间和有时妊娠后的非侵入性手段来检测是否存在母体和/或胎儿遗传变异和/或监控胎儿和/或妊娠女性的健康。因此,实施本发明某些方法的第一步包括获取妊娠女性的血液样品和从样品提取DNA。
获取血液样品
血液样品可获自适合采用本发明所述方法的测试的孕龄妊娠女性。合适的妊娠年龄可根据所测疾病而不同,如下所述。收集妇女血液通常根据医院或诊所一般遵循的标准方案来进行。采集适当量的外周血,例如,通常为5-50毫升,并在进一步制备前按照标准规程保存。可以能使样品中所存在核酸量的降解最小或确保其品质的方式采集、保存或运输所述血液样品。
制备血液样品
采用例如全血、血清或血浆对母体血液中发现的胎儿DNA进行分析。从母体血液中制备血清或血浆的方法已知。例如,可将妊娠女性的血液置入含有避免血液凝结的EDTA或专用市售产品如Vacutainer SST(新泽西州富兰克林湖市的BD公司(Becton Dickinson))的管内,然后可通过离心从全血获取血浆。血清可通过或可不通过血液凝固后的离心来获取。若使用离心,则通常(并不限于)在合适速度(例如1,500-3,000倍g)下进行。血浆或血清可在转移至用于DNA提取的新管之前经过其它离心步骤。
除了全血的非细胞部分,DNA还可从细胞组分回收,在棕黄层部分中富集,这可通过从妇女的全血样品离心并去除血浆来获取。
提取DNA
有多种已知方法用于从包括血液在内的生物样品中提取DNA。可按照DNA制备的常规方法(例如,描述于Sambrook和Russell,Molecular Cloning:A Laboratory Manual(《分子克隆:实验室手册》),第3版,2001);多种市售可得试剂或试剂盒,例如凯杰公司(Qiagen)的QIAamp循环核酸试剂盒,QiaAmp DNA迷你试剂盒或QiaAmp DNA血液迷你试剂盒(德国海尔登的凯杰公司),GenomicPrepTM血液DNA分离试剂盒(威斯康星州麦迪逊的普洛麦格公司(Promega,Madison,Wis.))和GFXTM基因组血液DNA纯化试剂盒(新泽西州皮斯卡特维的安玛西亚公司(Amersham))也可用于从来自妊娠女性的血液样品获取DNA。还可使用这些方法中多于一种的组合。
在一些实施方式中,所述样品可首先就胎儿核酸用一种或多种方法富集或相对富集。例如,胎儿和母体DNA的区分可以采用单独的本发明所述组合物和方法进行或与其它区分因子联用。这些因子的示例包括但不限于染色体X和Y中的单核苷酸差异、染色体Y特异序列、基因组中别处的多态性、胎儿和母体DNA之间的大小差异和母体和胎儿组织之间甲基化形式的差异。
用于就特定核酸物质富集样品的其它方法描述于2007年5月30日提交的PCT专利申请号PCT/US07/69991,2007年6月15日提交的PCT专利申请号PCT/US2007/071232,美国临时申请号60/968,876与60/968,878(指定给本申请人),(PCT专利申请号PCT/EP05/012707,2005年11月28日提交),这些都通过引用纳入本文。在某些实施方式中,从样品中选择性除去(部分、基本、几乎完全或完全)母体核酸。
术语“核酸”和“核酸分子”在本文中可互换使用。该术语指任意组合物形式的核酸,来自如:DNA(例如,互补DNA(cDNA),基因组DNA(gDNA)等),RNA(例如,信使RNA(mRNA),短抑制RNA(siRNA),核糖体RNA(rRNA),tRNA,微小RNA,胎儿或胎盘高度表达的RNA等),和/或DNA或RNA类似物(例如,含有碱基类似物,糖类似物和/或非天然主链等),RNA/DNA杂交体和聚酰胺核酸(PNA),所有这些可以是单链或双链形式,且除非另有限定,可涵盖能以与天然存在核苷酸相似方式起作用的天然核苷酸的已知类似物。在某些实施方式中,核酸可以是或者可来自:质粒、噬菌体、自主复制序列(ARS)、着丝粒、人工染色体、染色体、或者能够在体外或在宿主细胞、细胞、细胞的细胞核或细胞质中复制或被复制的其它核酸。在一些实施方式中,模板核酸可来自单个染色体(例如核酸样品可来自二倍体生物所得样品的一个染色体)。除非明确限定,该术语涵盖含有结合特性与参比核酸类似且与以与天然存在核苷酸相似方式代谢的天然核苷酸的已知类似物。除非另有说明,特定核酸序列也包括其保守修饰变体(如,简并密码子取代),等位基因,直向同源物,单核苷酸多态性(SNP)和互补序列,以及明确指出的序列。具体说,可通过产生一个或多个选定(或所有)密码子的第三个位置被混合碱基和/或脱氧肌苷残基取代的序列来获得简并密码子取代。术语核酸与基因座、基因、cDNA、和基因编码的mRNA互换使用。所述术语也可包括从核苷酸类似物、单链("正义"或"反义","正"链或"负"链,"正向"阅读框或"反向"阅读框)和双链多核苷酸合成的RNA或DNA的等价物、衍生物、变体和类似物。术语“基因”指参与产生多肽链的DNA区段;其包括参与基因产物的转录/翻译和所述转录/翻译调节的编码区之前和之后的区域(前导区和尾部区),以及单个编码区段(外显子)之间的插入序列(内含子)。
脱氧核糖核苷酸包含脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。就RNA而言,碱基胞嘧啶替换为尿嘧啶。模板核酸可采用获自对象的核酸作为模板制备。
核酸分离和加工
可用本领域已知方法从一种或多种样品来源(如细胞、血清、血浆、棕黄层、淋巴液、皮肤、土壤等)中获取核酸。可采用任何合适的方法从生物样品(例如从血液或血液制品)中分离、提取和/或纯化DNA,非限制性示例包括DNA制备的方法(例如,描述于Sambrook和Russell,Molecular Cloning:A Laboratory Manual(《分子克隆:实验室手册》),第3版,2001);多种市售可得试剂或试剂盒,例如凯杰公司(Qiagen)的QIAamp循环核酸试剂盒,QiaAmp DNA迷你试剂盒或QiaAmp DNA血液迷你试剂盒(德国海尔登的凯杰公司),GenomicPrepTM血液DNA分离试剂盒(威斯康星州麦迪逊的普洛麦格公司(Promega,Madison,Wis.))和GFXTM基因组血液DNA纯化试剂盒(新泽西州皮斯卡特维的安玛西亚公司(Amersham))等或其组合。
细胞裂解方法和试剂是本领域已知的,且一般可通过化学(例如洗涤剂、低渗溶液、酶促过程等或其组合)、物理(例如法式压滤、超声等)或电解的裂解方法进行。能使用任何合适的裂解过程。例如化学方法通常使用裂解剂破坏细胞并从细胞中提取核酸,然后用离液盐处理。物理方法例如冷冻/解冻然后研磨,使用细胞压滤等也有用。高盐裂解法也是常用的。例如,可采用碱裂解法。所述后一种方法传统上包括使用苯酚-氯仿溶液,且可采用替代的包括三种溶液的无苯酚-氯仿方法。在后一种方法中,一种溶液可包含15mM Tris,pH8.0;10mM EDTA和100ug/ml RNA酶A;第二溶液可包含0.2N NaOH和1%SDS;以及第三溶液可包含3M KOAc,pH 5.5。这些方法可参见纽约约翰韦利森公司(John Wiley&Sons,Inc.,NewYork)的《新编分子生物学实验指南》(Current Protocols in Molecular Biology)的6.3.1-6.3.6(1989),其全文纳入本文。
核酸还可以在与另一核酸不同的时间点分离得到,其中各样品来自相同或不同来源。核酸可来自核酸库,例如cDNA或RNA库。核酸可以是样品中核酸分子的核酸纯化或分离和/或扩增的产物。为本文所述方法提供的核酸可包含来自一个样品或来自两个或更多个样品(例如来自1个或更多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个的样品)的核酸。
在某些实施方式中,核酸可包括胞外核酸。本文所用术语“胞外核酸”指从基本不具有细胞的来源分离的核酸,还称为或“无细胞”核酸和/或“循环无细胞”核酸。胞外核酸可存在于血液中并从中获取(例如从妊娠女性的血液中)。胞外核酸通常不包括可检测到的细胞且可含有细胞元件或细胞残余物。胞外核酸的无细胞来源的非限制性示例有血液、血浆、血清和尿液。本文所用术语“获取循环无细胞样品核酸”包括直接获取样品(如收集样品例如测试样品)或从已收集样品的人那里获取样品。不受理论限制,胞外核酸可以是细胞凋亡和细胞破裂的产物,这使胞外核酸常具有跨范围的系列长度(例如"梯状带(ladder)")。
在某些实施方式中,胞外核酸可包含不同的核酸物质,因而在本文中称作“异质性”。例如,患有癌症的人的血液血清或血浆可包含来自癌细胞的核酸与来自非癌细胞的核酸。在另一例子中,妊娠女性的血液血清或血浆可包含母体核酸和胎儿核酸。在一些示例中,胎儿核酸有时占全部核酸的约5%-约50%(例如,总体核酸中约4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48或49%是胎儿核酸)。在一些实施方式中,核酸中的多数胎儿核酸的长度为约500碱基对或更少、约250碱基对或更少、约200碱基对或更少、约150碱基对或更少、约100碱基对或更少、约50碱基对或更少或约25碱基对或更少。
在某些实施方式中,可不经对含核酸样品的处理而提供核酸用于进行本文所述方法。在一些实施方式中,在处理含核酸的样品后提供核酸用于进行本文所述方法。例如,可从样品提取、分离、纯化、部分纯化或扩增核酸。如本文所用的术语“分离”指将核酸从其原始环境中取出(例如,天然产生核酸的天然环境或外源表达核酸的宿主细胞),因此核酸从其原始环境通过人的干预(如“人工”)而被改变。本文所用术语“分离的核酸”指从对象(如人类对象)中移出的核酸。与来源样品中具有的组分含量相比,分离的核酸可带有较少的非核酸组分(例如,蛋白质、脂质)。包含分离的核酸的组合物可以是约50%至多于99%不含非核酸组分。包含分离的核酸的组合物可以是约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含非核酸组分。本文所用术语“纯化”指与将核酸经历纯化程序之前所存在的非核酸组分的含量相比,所提供的核酸带有较少的非核酸组分(例如,蛋白质、脂质、碳水化合物)。包含纯化核酸的组合物可以是约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含其他非核酸组分。本文所用术语“纯化”可指提供的核酸与其所衍生自的样品来源相比包含更少的核酸物质。包含纯化核酸的组合物可以是约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不含其他核酸物质。例如,胎儿核酸可从含母体和胎儿核酸的混合物中纯化。在某些示例中,含胎儿核酸的小片段的核小体可从含母体核酸的较大片段的大核小体复合物的混合物中纯化。
在一些实施方式中,本发明方法之前、期间或之后对核酸进行片段化或切割。片段化或切割的核酸可具有约5-约10,000个碱基对、约100-约1,000个碱基对、约100-500个碱基对或约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000或9000个碱基对的标称、平均或算术均值(nominal,average or mean)长度。可通过本领域已知的合适方法产生片段,且核酸片段的平均、等比中数或标称长度可通过选择适当的片段生成方法而加以控制。
核酸片段可含有重叠的核苷酸序列,这样的重叠序列可促进构建未片段化的对应核酸或其区段的核苷酸序列。例如,一个片段可具有亚序列x和y,且其他片段可具有亚序列y和z,其中x、y和z是长度可为5核苷酸或更长的核苷酸序列。在某些实施方式中,重叠核酸y可用于促进从样品的核酸中构建x-y-z核苷酸序列。在某些实施方式中,核酸可以是部分片段化的(例如,来自未完全的或中止的特异性剪切反应)或完全片段化的。
在一些实施方式中,核酸可通过合适方法进行片段化或切割,其非限制性示例包括物理方法(例如剪切、例如超声、法式压滤、热、UV照射等)、酶加工(例如酶切割试剂(例如合适的核酸酶、合适的限制性酶、合适的甲基化敏感的限制性酶))、化学方法(例如烷基化、DMS、哌啶、酸水解、碱水解、热、等或其组合)、美国专利申请公开20050112590中所述方法等,或其组合。
本文所用的“片段化”或“剪切”指使核酸分子(如核酸模板基因分子或其扩增产物)可以分成两个或更多较小核酸分子的方法或条件。这种片段化或剪切可以是序列特异性、碱基特异性或非特异性的,并且能通过任意不同方法、试剂或条件(包括例如化学、酶、物理片段化)来完成。
本文所用的“片段”、“剪切产物”、“经剪切的产物”或其语法变体指由核酸模板基因分子或其扩增产物的片段化或剪切获得的核酸分子。尽管这种片段或剪切产物可指由剪切反应获得的所有核酸,但是这种片段或剪切产物通常仅指由核酸模板基因分子或其扩增产物区段(包含核酸模板基因分子的相应核苷酸序列)的片段化或剪切获得的核酸分子。如本文所用术语“扩增”是指使处理样品中的靶核酸经过以线性或指数形式产生扩增子核酸的过程,所述扩增子核酸的核苷酸序列与靶核酸或其区段的核苷酸序列相同或基本相同。在某些实施方式中,术语“扩增”指包括聚合酶链式反应(PCR)的方法。例如,扩增产物能含有比核酸模板序列的扩增核苷酸区域多一个或多个的核苷酸(如引物能包含除了与核酸模板基因分子互补的核苷酸以外的"额外"核苷酸例如转录起始序列,生成包含"额外"核苷酸或者与所述核酸模板基因分子的扩增核苷酸区域不对应的核苷酸的扩增产物)。因此,片段能包含来自扩增的核酸分子区段或部分的片段,所述核酸分子至少部分包含来自或基于代表性核酸模板分子的核苷酸序列信息。
本文所用的术语“互补剪切反应”是指用不同剪切试剂或者通过改变相同剪切试剂的剪切特异性在相同核酸上进行的剪切反应,从而产生相同目标或参比核酸或蛋白质的不同剪切模式。在某些实施方式中,可以用一种或多种特异性剪切剂(例如1、2、3、4、5、6、7、8、9、10或更多种特异性剪切剂)在一个或多个反应容器中处理核酸(例如用各种特异性剪切剂在单独的容器内处理核酸)。如本文所用术语“特异性剪切剂”指试剂,有时是可在一个或多个特异性位点处剪切核酸的化学品或酶。
在提供核酸用于本文所述方法之前,还可对核酸进行处理修饰核酸中某些核苷酸。例如,可对核酸施用根据核酸中核苷酸的甲基化状态选择性修饰核酸的处理。此外,诸如高温、紫外辐射、x-射线辐射等条件可诱导核酸分子序列中的变异。可以用于进行合适序列分析的任何合适形式提供核酸。
核酸可为单链或双链。例如,可通过加热或(例如)用碱处理来变性双链DNA来生成单链DNA。在某些实施方式中,核酸是D环结构,通过双链DNA分子中链入侵有寡核苷酸或DNA样分子例如肽核酸(PNA)来形成。添加大肠杆菌RecA蛋白质和/或改变盐浓度(例如使用本领域已知方法)有助于形成D环。
确定胎儿核酸含量
在一些实施方式中,确定核酸中胎儿核酸的量(例如,浓度、相对量、绝对量、拷贝数等)。在某些实施方式中,样品中胎儿核酸的量称为“胎儿分数”。在一些实施方式中,“胎儿分数”指获自妊娠女性的样品(例如血液样品、血清样品、血浆样品)中的循环无细胞核酸中的胎儿核酸分数。在某些实施方式中,根据下述内容确定胎儿核酸的含量:对雄性胎儿特异的标记物(例如Y染色体STR标记物(例如DYS 19、DYS 385、DYS 392标记物);RhD阴性女性中的RhD标记物)、多态性序列的等位基因比例、或对胎儿核酸特异而对母体核酸非特异的一种或多种标记物(例如母体和胎儿之间的差异性表观遗传学生物标记(例如甲基化;如下详述)、或母体血浆中的胎儿RNA标记物(参见例如Lo,2005,Journal of Histochemistryand Cytochemistry 53(3):293-296))。
确定胎儿核酸含量(例如胎儿分数)有时用胎儿定量试验(FQA)进行,如美国专利申请公开2010/0105049所述,其通过引用纳入本文。此类试验允许基于样品中核酸的甲基化状态检测和定量母体样品中的胎儿核酸。在某些实施方式中,母体样品中胎儿核酸的含量可相对存在的核酸总量进行确定,从而提供样品中胎儿核酸的百分比。在某些实施方式中,可确定母体样品中胎儿核酸的拷贝数。在某些实施方式中,可以序列特异性(或部份-特异性)方式确定胎儿核酸的量,且有时灵敏度足以进行精确的染色体剂量分析(例如,用以检测胎儿非整倍性、微复制或微缺失的存在与否)。
胎儿定量试验(FQA)可与本文所述任何方法联合进行。可通过本领域任何已知方法和/或美国专利申请公开2010/0105049所述进行该试验,例如通过可基于差异性甲基化状态区分母体和胎儿DNA的方法、以及定量胎儿DNA(即确定其含量)的方法。基于甲基化状态区分核酸的方法包括但不限于甲基化敏感性捕获(例如使用MBD2-Fc片段,其中MBD2的甲基化结合结构域融合至抗体的Fc片段(MBD-FC)(Gebhard等(2006)Cancer Res.66(12):6118-28));甲基化特异抗体、亚硫酸氢盐转化法,例如MSP(甲基化敏感的PCR)、COBRA、甲基化敏感的单核苷酸引物延伸(Ms-SNuPE)或塞昆纳姆股份有限公司(Sequenom)MassCLEAVETM技术;和甲基化敏感的限制性酶的应用(例如用一种或多种甲基化敏感的限制性酶消化母体样品中的母体DNA,从而富集胎儿DNA)。甲基敏感的酶还可用于基于甲基化状态区分核酸,例如其DNA识别序列未甲基化时优选或显著切割或消化。因此,未经甲基化的DNA样品会被切成比甲基化样品小的片段,而高甲基化的DNA样品不会被切割。除非明确指出,基于甲基化状态的任何区分核酸的方法均可用于本发明组合物和方法。可通过例如在扩增反应期间引入已知浓度的一种或多种竞争剂来确定胎儿DNA的含量。还可通过例如RT-PCR、引物延伸、测序和/或计数来确定胎儿DNA的含量。在某些示例中,可用美国专利申请公开2007/0065823中所述的BEAMing技术来确定核酸的含量。在某些实施方式中,可确定限制性功效并用该效率比进一步确定胎儿DNA的量。
在某些实施方式中,胎儿定量试验(FQA)可用母体样品中的胎儿DNA浓度来确定,例如通过下述方法:a)确定母体样品中存在的DNA总量;b)用一种或多种甲基化敏感的限制性酶选择性消化母体样品中的母体DNA从而富集所述胎儿DNA;c)确定来自步骤b)的胎儿DNA量;以及d)比较步骤c)所得胎儿DNA的量与步骤a)所得DNA的总量,从而确定母体样品中胎儿DNA的浓度。在某些实施方式中,可确定母体样品中胎儿核酸的绝对拷贝数,例如,采用质谱和/或利用针对绝对拷贝数确定的竞争性PCR方法的系统。参见例如Ding和Cantor(2003)Proc.Natl.Acad.Sci.USA 100:3059-3064,和美国专利申请公开2004/0081993,其均通过引用纳入本文。.
在某些实施方式中,可基于多肽性序列的等位基因比例(例如单核苷酸多态性(SNP))来确定胎儿分数,例如使用美国专利申请公开2011/0224087中所述的方法,其通过引用纳入本文。该方法中,就母体样品获取核苷酸序列读数,并通过比较映射至第一等位基因的核苷酸序列读数的总数与映射至位于参照基因组中的参照性多态位点(如SNP)的第二等位基因的核苷酸序列读数的总数来确定胎儿分数。在某些实施方式中,通过例如在样品中的胎儿和母体核酸的混合物中,相对于母体核酸对混合物的较大贡献,胎儿等位基因的相对较小贡献来鉴定胎儿等位基因。因此,母体样品中胎儿核酸的相对丰度可作为(就多态位点的两个等位基因中每个来说)映射至参照基因组上靶核酸序列的独特序列读数的总数的参数来确定。
在一些实施方式中,可使用纳入片段长度信息(例如片段长度比例(FLR)分析、胎儿比例统计学(FRS)分析,如国际申请公开WO2013/177086所述,其通过引用纳入本文)的方法来确定胎儿分数。无细胞胎儿核酸片段通常比母体来源的核酸片段短(参见例如Chan等(2004)Clin.Chem.50:88-92;Lo等.(2010)Sci.Transl.Med.2:61ra91)。因此,在一些实施方式中,可通过对特定长度阈值以下的片段进行计数并将所述计数与(例如)高于特定长度阈值的片段计数和/或样品中总核酸的含量进行比较来确定胎儿分数。对特定长度的核酸片段进行计数的方法如国际申请公开WO2013/177086中详述。
在一些实施方式中,可根据部份-特异的胎儿分数估值来确定胎儿分数。不受任何理论的限制,胎儿CCF片段(例如特定长度或长度范围的片段)的读数量通常与测距频率一起映射至部份(例如相同样品内,例如相同测序运行内)。而且,不受任何理论的限制,当在多种样品间比较时,某些部份会与胎儿CCF片段(例如特定长度或长度范围的片段)具有相似的读数表示,且所述表示与部份-特异的胎儿分数关联(如源自胎儿的CCF片段的相关含量、百分比或比例)。
在一些实施方式中,部分基于部份-特异的参数及其与胎儿分数的关系来确定部份-特异的胎儿分数估值。部份-特异的参数可为反映部份中特定大小(例如大小范围)的CCF片段长度的读数的含量或占比(例如与之相关)的任何合适参数。部份-特异的参数可为多种样品确定的部份-特异的参数的平均、算术均值、中位数。可使用任何合适的部份-特异的参数。部份-特异的参数的非限制性示例包括FLR(例如FRS)、低于所选片段长度的读数的量、基因组覆盖率(即覆盖率)、可映射性、计数(例如映射至所述部份的序列读数的计数、例如标准化计数、PERUN标准化计数、ChAI标准化计数)、DNA酶I-敏感性、甲基化状态、乙酰化、组氨酸分布、鸟嘌呤-胞嘧啶(GC)量、染色质结构等、或其组合。部份-特异的参数可为以部份-特异的方式关联FLR和/或FRS的任何合适参数。在一些实施方式中,一些或全部部份-特异的参数是就部份而言的FLR的直接或间接表示。在一些实施方式中,部份-特异的参数不是鸟嘌呤-胞嘧啶(GC)含量。
在一些实施方式中,部份-特异的参数是代表CCF片段读数的量、与之关联或与之成比例的任何合适值,其中映射至部份的所述读数的长度具有低于所选片段长度。在一些实施方式中,部份-特异的参数表示源自映射至部份的相对短的CCF片段(例如约200碱基对或更少)的读数的量。长度低于所选片段长度的CCF片段通常为相对短的CCF片段,有时所选片段长度为约200碱基对或更少(例如长约190、180、170、160、150、140、130、120、110、100、90或80个碱基的CCF片段)。CCF片段的长度或源自CCF片段的读数可通过任何合适方法(例如测序方法、杂交方法)确定(例如推断或推导)。在一些实施方式中,CCF片段的长度通过配对末端测序法所获读数来确定(例如推断或推导)。在一些实施方式中,从源自所述CCF片段的读数(如单末端读数)的长度来直接确定CCF片段模板。
部份-特异的参数可由一个或多个加权因子加权或调整。在一些实施方式中,加权或调整的部份-特异的参数可提供针对样品(如测试样品)的部份-特异的胎儿分数估值。在一些实施方式中,加权或调整一般将部份的计数(如映射至部份的读数)或其他部份-特异的参数转变为部份-特异的胎儿分数估值,此类转变有时被认为是变换。
在一些实施方式中,加权因子是系数或常量,其部分地说明和/或限定胎儿分数(例如从多种样品确定的胎儿分数)和多种样品(例如训练组)的部份-特异的参数之间的关系。在一些实施方式中,加权因子根据多种胎儿分数确定和多种部份-特异的参数的相关性来确定。一个或多个加权因子可限定相关性,而从相关性可确定一个或多个加权因子。在一些实施方式中,加权因子(如一个或多个加权因子)从部份的拟合相关来确定,根据(i)多种样品中的每个所确定的胎儿核酸的分数,和(ii)多种样品的部份-特异的参数。
加权因子可为来源于合适相关性(例如合适的数学相关性、代数相关性、拟合相关性、回归、回归分析、回归模型)的任何合适的系数、估计系数或常量。加权因子可根据合适的相关性确定,或可源自合适的相关性或从合适的相关性评估。在一些实施方式中,加权因子为来自拟合相关性的评估系数。将多种样品与相关性拟合有时称为对模型进行训练。可以使用进行关系拟合(如就训练组进行模型训练)的任何合适模型和/或方法。可用的合适模型的非限制性示例包括回归模型、线性回归模型、简单回归模型,普通最小二乘回归模型、多重回归模型、一般多重回归模型、多项式回归模型、一般线性模型、广义线性模型、离散选择回归模型、逻辑回归模型、多项式logit模型、混合logit模型、probit模型、多项式probit模型、有序logit模型、有序probit模型、泊松(Poisson)模型、多元响应回归模型、多级模型、固定效应模型、随机效应模型、混合模型、非线性回归模型、非参数模型、半参数模型、鲁棒(robust)模型、分位模型、等渗模型、主成分模型、最小角模型、局部模型、分段模型和变量误差模型。在一些实施方式中,拟合相关性不是回归模型。在一些实施方式中,拟合相关性选自决策树模型、支持向量机模型和神经网络模型。进行模型训练(例如回归模型、相关性)的结果通常是可数学描述的相关性,其中所述相关性包括一个或多个系数(如加权因子)。更复杂的多元模型可确定1、2、3或更多加权因子。在一些实施方式中,根据胎儿分数和获自多种样品的两个或更多部份-特异的参数(系数)(如通过矩阵拟合至多种样品的拟合关系)来训练模型。
加权因子可通过合适的方法来源于合适相关性(例如合适的数学相关性、代数相关性、拟合相关性、回归、回归分析、回归模型)。在一些实施方式中,拟合相关性通过评估来拟合,其非限制性示例包括最小二乘法、普通最小二乘法、线性、部分、总、广义、加权、非线形、迭代加权、岭回归、最小一乘法、贝叶斯、贝叶斯多元、降秩、LASSO、加权秩选择标准(WRSC)、秩选择标准(RSC)、弹性网络估计(例如,弹性网络回归)和其组合。
加权因子可就基因组的任何合适部份来确定或与之关联。加权因子可就任何合适染色体的任何合适部份来确定或与之关联。在一些实施方式中,加权因子可就基因组的一些或所有部份来确定或与之关联。在一些实施方式中,加权因子可就基因组中一些或所有染色体的部份来确定或与之关联。有时加权因子可就所选染色体的部份来确定或与之关联。加权因子可就一个或多个常染色体的部份来确定或与之关联。加权因子可就多个部份中包括常染色体中的部份或其亚组的部份来确定或与之关联。在一些实施方式中,加权因子可就性染色体(如ChrX和/或ChrY)的部份来确定或与之关联。加权因子可就一个或多个性染色体和一个或多个常染色体的部份来确定或与之关联。在某些实施方式中,加权因子可就染色体X和Y以及所有常染色体中的多个部份来确定或与之关联。加权因子可就多个部份中不包括X和/或Y染色体中部份的部份来确定或与之关联。在某些实施方式中,加权因子就染色体的部份来确定或与之关联,其中所述染色体包含非整倍性(例如全染色体非整倍性)。在某些实施方式中,加权因子就染色体的部份来确定或与之关联,其中所述染色体不是非整倍体(例如整倍性染色体)。加权因子可就多个部份中不包括染色体13、18和/或21中部份的部份来确定或与之关联。
在一些实施方式中,根据一种或多种样品(如样品的训练组)就部份确定加权因子。加权因子通常对部份特异。在一些实施方式中,一种或多种加权因子独立分配给部份。在一些实施方式中,依据多种样品的胎儿分数确定(例如样品特异的胎儿分数确定)中的关系以及根据多种样品确定的部份-特异的参数来确定加权因子。通常从多种样品确定加权因子,例如从约20-约100000或更多样品、从约100-约100000或更多样品、从约500-约100000或更多样品、从约1000-约100000或更多样品、或从约10000-约100000或更多样品。可从整倍体样品(如含整倍体胎儿的对象的样品,例如没有非整倍体染色体的样品)确定加权因子。在一些实施方式中,加权因子获自含非整倍体染色体的样品(例如含整倍体胎儿的对象的样品)。在一些实施方式中,从多个样品确定加权因子,所述样品来自具有整倍体胎儿的对象和具有三体性胎儿的对象。加权因子可源自多种样品,其中所述样品来自具有男性胎儿和/或女性胎儿的对象。
胎儿分数通常就训练组的一种或多种样品所确定,加权因子源自所述胎儿分数。加权因子所源自的胎儿分数有时是样品特异的胎儿分数确定。从中确定加权因子的胎儿分数可通过本文所述或本领域已知的任何合适方法所确定。在一些实施方式中,确定胎儿核酸含量(例如胎儿分数)使用本文所述或本领域已知的合适的胎儿定量试验(FQA)来进行,其非限制性示例包括根据下述内容进行胎儿分数确定:根据对雄性胎儿特异的标记物、基于多态序列的等位基因比例、根据对胎儿核酸特异而对母体核酸非特异的一种或多种标记物、通过利用基于甲基化的DNA识别(例如A.Nygren,等,(2010)Clinical Chemistry 56(10):1627–1635)、通过质谱方法和/或使用竞争性PCR方法的系统、通过美国专利申请公开号2010/0105049所述的方法(其通过引用纳入本文)等等,或其组合。通常胎儿分数部分基于Y染色体的水平(例如一个或多个基因组节段水平、概况水平)进行确定。在一些实施方式中,根据Y染色体的合适试验(例如通过使用定量实时PCR比较胎儿特异基因座的量(例如雄性妊娠中Y染色体上的SRY基因座)与母体和胎儿中都常见的任何常染色体上的基因座的量(例如Lo YM,等.(1998)Am J Hum Genet 62:768–775.))确定胎儿分数。
部份-特异的参数(例如测试样品的)可由一种或多种加权因子(例如源自训练组的加权因子)进行加权或调整。例如,可根据就多种样品的训练组而言的部份-特异的参数和胎儿分数确定之间的关系来针对部份导出加权因子。然后根据源自所述训练组的加权因子调整和/或加权测试样品的部份-特异的参数。在一些实施方式中,导出加权因子的部份-特异的参数与经调整或加权的(如测试样品的)部份-特异的参数相同(例如二者均为FLR)。在某些实施方式中,导出加权因子的部份-特异的参数与经调整或加权的(如测试样品的)部份-特异的参数不同。例如,加权因子可由就样品的训练组而言的覆盖率(即部份-特异的参数)和胎儿分数之间的相关性来确定,而测试样品的部份的FLR(即另一部份-特异的参数)可根据源自覆盖率的加权因子进行调整。不受任何理论限制,(例如测试样品的)部份-特异的参数有时可根据每个部份-特异的参数和常见部份-特异的FLR之间的相关性和/或关联由源自不同(例如训练组的)部份-特异的参数的加权因子调整和/或加权。
样品(例如测试样品)的部份-特异的胎儿分数估值可通过由该部份所确定的加权因子对部份-特异的参数进行加权来确定。加权可包括通过应用任何合适的数学操作根据加权因子对部份-特异的参数进行调整、转换和/或变换,所述操作的非限制性示例包括乘、除、加、减、积分、符号运算、代数计算、算法、三角或几何函数、变换(如傅立叶变换)等等,或其组合。加权可包括根据加权因子合适的数学模型对部份-特异的参数进行调整、转换和/或变换。
在一些实施方式中,根据一种或多种部份-特异的胎儿分数估值确定样品的胎儿分数。在一些实施方式中,根据加权或调整一个或多个部份的部份-特异的参数来就确定(例如评估)样品(例如测试样品)的胎儿分数。在某些实施方式中,测试样品的胎儿核酸的分数基于调整的计数或调整的计数亚组来评估。在某些实施方式中,测试样品的胎儿核酸的分数基于部份的调整的FLR、调整的FRS、调整的覆盖率和/或调整的可映射性进行评估。在一些实施方式中,加权或调整约1-约500000个、约100-约300000个、约500-约200000个、约1000-约200000个、约1500-约200000个、或约1500-约50000个部份-特异的参数。
确定(例如测试样品的)胎儿分数可通过任何合适方法根据多种部份-特异的胎儿分数估值(例如相同测试样品的)来进行。在一些实施方式中,提高妊娠女性的测试样品中胎儿核酸的分数的评估的精确性的方法包括确定一种或多种部份-特异的胎儿分数估值,其中所述样品的胎儿分数的评估根据所述一种或多种部份-特异的胎儿分数估值来确定。在一些实施方式中,评估或确定样品(例如测试样品)的胎儿核酸的分数包括加和一种或多种部份-特异的胎儿分数估值。加和可包括根据多种部份-特异的胎儿分数估值来确定平均、算术均值、中位数、AUC或积分值。
在一些实施方式中,提高妊娠女性的测试样品中胎儿核酸的分数的评估的精确性的方法包括获得映射至参照基因组的部份的序列读数的计数,所述序列读数是妊娠女性的测试样品的循环无细胞核酸的读数,其中至少所获计数的亚组源自所述基因组的区域,所述区域有利于得到比相对基因组其他区域总计数的胎儿核酸计数更大数量的相对该区域总计数的胎儿核酸计数。在一些实施方式中,胎儿核酸的分数的估值根据所述部份的亚组来确定,其中所述部份的亚组根据映射有一定数量的胎儿核酸计数的部份来选择,所述一定数量的胎儿核酸计数比其他部份的胎儿核酸计数更大。在一些实施方式中,所述部份的亚组根据映射有一定数量的相对非胎儿核酸的胎儿核酸计数的部份来选择,所述一定数量的相对非胎儿核酸的胎儿核酸计数比其他部份的相对非胎儿核酸的胎儿核酸计数更大。可对映射至所有部份或部份的亚组的计数进行加权,从而提供加权的计数。加权的计数可用于评估胎儿核酸分数,并且所述计数可根据映射至一定数量的胎儿核酸计数的部份进行加权,所述一定数量的胎儿核酸计数比其他部分的胎儿核酸计数更大。在一些实施方式中,所述计数根据映射有一定数量的相对非胎儿核酸的胎儿核酸计数的部份来进行加权,所述一定数量的相对非胎儿核酸的胎儿核酸计数比其他部份的相对非胎儿核酸的胎儿核酸计数更大。
可根据样品(如测试样品)的多种部份-特异的胎儿分数估值来确定所述样品的胎儿分数,其中所述部份-特异的估值来自基因组的任何合适区域或区段的部份。部份-特异的胎儿分数估值可就合适染色体(例如一个或多个选择的染色体、一个或多个常染色体、性染色体(如ChrX和/或ChrY)、非整倍性染色体、整倍性染色体等,或其组合)的一个或多个部份确定。
在一些实施方式中,确定胎儿分数包括
(a)获取映射至参照基因组的部份的序列读数的计数,其中序列读数是妊娠女性的测试样品的循环无细胞核酸的读数;
(b)使用微处理器,通过独立关联各部份的加权因子,将(i)映射至各部份的序列读数的计数或(ii)其他部份-特异的参数加权至胎儿核酸的部份-特异的分数,从而提供依据所述加权因子的部份-特异的胎儿分数估值,其中各加权因子已从各部份的(i)多种样品中每个的胎儿核酸分数和(ii)多种样品的映射至各部分的序列读数的计数(或其他部份-特异的参数)之间的拟合相关性所确定;和
(c)基于所述部份-特异的胎儿分数估值评估所述测试样品的胎儿核酸分数。
细胞外核酸中的胎儿核酸的量可定量,并可与本文所述方法联合使用。因此,在某些实施方式中,本文所述技术的方法包括确定胎儿核酸的量的额外步骤。可在加工以制备样品核酸之前或之后确定对象的核酸样品中胎儿核酸的量。在某些实施方式中,在样品核酸经加工和制备后,确定样品中胎儿核酸的量,并用于进一步评价。在一些实施方式中,结果包括将样品核酸中的胎儿核酸分数分解为因子(如调整计数、除去样品、作出判定或不作出判定)。
所述确定步骤可在本文所述方法之前、期间、本文所述方法之中任何时间点或本文所述某些方法之后(例如非整倍性检测、微复制或微缺失检测、胎儿性别确定)进行。例如,为了实现有给定灵敏度或特异性的胎儿性别或非整倍性、微复制或微缺失检测方法,胎儿核酸定量方法可以在胎儿性别或非整倍性、微复制或微缺失确定之前、中或后进行,以鉴定有大于约2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%或更多胎儿核酸的那些样品。在一些实施方式中,被确定为具有某一胎儿核酸阈值量(如约15%或更多胎儿核酸;如约4%或更多胎儿核酸)的样品进一步用于分析例如胎儿性别或非整倍性、微复制或微缺失,或是否存在非整倍性或遗传变异。在某些实施方式中,仅选择(例如,选择并告知患者)具有某一胎儿核酸阈值量(如约15%或更多胎儿核酸;如约4%或更多胎儿核酸)的样品确定例如胎儿性别或是否存在非整倍性、微复制或微缺失。
在一些实施方式中,确定胎儿分数分或确定胎儿核酸的量并非鉴定是否存在染色体非整倍性、微复制或微缺失所必需。在一些实施方式中,鉴定是否存在染色体非整倍性、微复制或微缺失不需要胎儿与母体DNA的序列区分。在某些实施方式中,这是由于对母体和胎儿序列对具体染色体、染色体部份或其区段的加成贡献进行了分析。在一些实施方式中,鉴定是否存在染色体非整倍性、微复制或微缺失不依赖于区分胎儿DNA和母体DNA的先验序列信息。
富集核酸
在一些实施方式中,针对核酸亚群或物质对核酸(例如胞外核酸)进行富集或相对富集。核酸亚群可包括例如胎儿核酸、母体核酸、含特定长度或长度范围的片段的核酸、或来自特定基因组区域(例如单一染色体、染色体组、和/或某些染色体区域)的核酸。此类富集的样品可与本文所述方法联合使用。因此,在某些实施方式中,该技术的方法包括富集样品中核酸亚群例如胎儿核酸的额外步骤。在某些实施方式中,上述确定胎儿分数的方法也可用于富集胎儿核酸。在某些实施方式中,从样品中选择性除去(部分、基本、几乎完全或完全)母体核酸。在某些实施方式中,富集特定低拷贝数的核酸(例如胎儿核酸)可提高定量敏感性。富集样品中特定种类核酸的方法例如下述,美国专利号6,927,028、国际申请公开号WO2007/140417、国际申请公开号WO2007/147063、国际申请公开号WO2009/032779、国际申请公开号WO2009/032781、国际申请公开号WO2010/033639、国际申请公开号WO2011/034631、国际申请公开号No.WO2006/056480和国际申请公开号WO2011/143659,其都通过引用纳入本文。
在一些实施方式中,针对某些靶片段种类和/或参照片段种类富集核酸。在某些实施方式中,使用下述一种或多种基于长度的分离方法就特定核酸片段长度或片段长度或范围进行核酸富集。在某些实施方式中,使用本文所述和/或本领域已知的一种或多种基于序列的分离方法就选自基因组区域(例如染色体)的片段进行核酸富集。某些富集样品中核酸亚群(如胎儿核酸)的方法如下详述。
可与本发明方法一起用的富集核酸亚群(例如胎儿核酸)的方法包括采用母体和胎儿核酸之间的表观差异的方法。例如可基于甲基化差异区分并分离胎儿核酸和母体核酸。基于甲基化的胎儿核酸富集方法参见美国专利申请公开2010/0105049,其通过引用纳入本文。该方法有时涉及结合样品核酸与甲基化特异的结合试剂(甲基CpG结合蛋白(MBD)、甲基化特异抗体等)并基于不同的甲基化状态分离结合的核酸和未结合的核酸。此类方法还可包括使用甲基化敏感的限制酶(如上所述例如HhaI和HpaII),其通过使用选择性且完全或基本消化母体核酸的酶来选择性消化来自母体样品的核酸从而富集样品中至少一种胎儿核酸区域,这样就能够富集母体样品中的胎儿核酸区域。
可与本发明方法一起用的其他富集核酸亚群(例如胎儿核酸)的方法是限制性内切核酸酶增强的多态性序列法,例如美国专利申请公开2009/0317818所述的方法,其通过引用纳入本文。该方法包括用识别含非靶等位基因但不识别靶等位基因的限制性内切核酸酶切割含所述非靶等位基因的核酸;并扩增未切割的核酸但不扩增切割的核酸,其中该未切割的扩增核酸代表相对于非靶核酸(如母体核酸)富集的靶核酸(如胎儿核酸)。在某些实施方式中,可选择核酸从而其包含具有多态性位点的等位基因,所述多态性位点易于被例如切割剂选择性消化。
可与本发明方法一起用的富集核酸亚群(例如胎儿核酸)的方法包括选择性酶降解法。该方法涉及保护靶序列免受外切核酸酶的消化,从而有利于消除样品中不需要的序列(例如母体DNA)。例如,在一个方法中,样品核酸变性产生单链核酸,单链核酸在合适的退火条件下接触至少一种靶特异引物对,退火的引物利用核苷酸聚合进行延伸产生双链靶序列,并用消化单链(例如非靶)核酸的核酸酶消化单链核酸。在某些实施方式中,所述方法至少可多重复一循环。在某些实施方式中,可使用相同的靶特异引物对来起始延伸的第一和第二循环,且在某些实施方式中,不同的靶特异引物对用于第一和第二循环。
可与本发明方法一起用的富集核酸亚群(例如胎儿核酸)的方法包括大规模平行测序技术(MPSS)。MPSS通常是固相方法,其使用衔接子(即标签)连接,然后衔接子解码,并以小的增量读取核酸序列。带标签的PCR产物通常经扩增,从而各核酸产生具有独特标签的PCR产物。标签通常用于接合PCR产物至微珠。例如,基于连接的序列确定进行数轮后,可从各珠鉴定序列签名。分析MPSS数据库中的各签名序列(MPSS标签),比较所有其他签名,并计数所有相同的签名。
在一些实施方式中,某些富集方法(如某些基于MPS和/或基于MPSS的富集方法)可包括基于扩增(如PCR)的方法。在一些实施方式中,可使用位点特异的扩增方法(例如使用位点特异的扩增引物)。在某些实施方式中,可使用多重SNP等位基因PCR方法。在某些实施方式中,多重SNP等位基因PCR方法可与单重测序联合使用。例如,该方法可涉及使用多重PCR(MASSARRAY系统)并将捕获探针序列纳入扩增子,然后使用例如Illumina MPSS系统测序。在某些实施方式中,多重SNP等位基因PCR方法可与三引物系统和索引测序联合使用。例如,该方法可涉及使用多重PCR(MASSARRAY系统),所用引物将第一捕获探针纳入某些位点特异的正向PCR引物,并将衔接子序列纳入位点特异的反向PCR引物,从而产生扩增子,然后二级PCR将反向捕获序列和分子索引条码纳入,用于使用例如Illumina MPSS系统的测序。在一些实施方式中,多重SNP等位基因PCR方法可与四引物系统和索引测序联合使用。例如,该方法可涉及使用多重PCR(MASSARRAY系统),所用引物将衔接子序列纳入位点特异的正向和位点特异的反向PCR引物,然后二级PCR将正向和反向捕获序列和分子索引条码纳入,用于使用例如Illumina MPSS系统的测序。在某些实施方式中,可使用微流体方法。在某些实施方式中,可使用基于阵列的微流体方法。例如,该方法可涉及使用微流体阵列(如Fluidigm)用于低重扩增并纳入索引和捕获探针,然后测序。在某些实施方式中,可使用乳液微流体方法,例如数字液滴PCR。
在某些实施方式中,可使用通用扩增方法(例如使用通用或非位点特异的扩增引物)。在一些实施方式中,通用扩增方法可与拉下(pull-down)法联用。在一些实施方式中,方法可包括从通用扩增序列库中拉下生物素化的ultramer(例如Agilent或IDT的生物素化拉下试验)。例如,该方法可涉及制备标准库,通过拉下试验富集选择区域,以及二级通用扩增步骤。在某些实施方式中,拉下法可与基于连接的方法联合使用。在某些实施方式中,方法可包括用序列特异的衔接子连接的生物素化的ultramer拉下(例如HALOPLEX PCR,HaloGenomics公司)。例如,该方法可涉及使用选择器探针来捕获限制性酶-消化片段,然后连接捕获产物和衔接子,和通用扩增然后测序。在某些实施方式中,拉下法可与延伸和基于连接的方法联合使用。在某些实施方式中,方法可包括分子倒置探针(MIP)延伸和连接。例如,该方法可涉及分子倒置探针与序列衔接子组合使用,然后进行通用扩增和测序。在某些实施方式中,互补DNA可合成和测序而无需扩增。
在某些实施方式中,可进行延伸和连接方法而无需拉下组件。在某些实施方式中,方法可包括位点特异的正向和反向引物杂交、延伸和连接。该方法还可包括通用扩增或互补DNA合成而无需扩增,然后测序。在某些实施方式中,该方法可在分析期间降低或排除背景序列。
在某些实施方式中,拉下法可与任选的扩增组件一起使用或不与扩增组件一起使用。在某些实施方式中,方法可包括修改的拉下试验和连接,其完全纳入捕获探针而无需通用扩增。例如,该方法可涉及使用修改的选择器探针来捕获限制性酶-消化片段,然后连接捕获产物和衔接子,和任选扩增,和测序。在某些实施方式中,方法可包括生物素化的拉下试验,和使用衔接子序列的延伸和连接与环单链连接的组合。例如,该方法可涉及可涉及使用选择器探针捕获感兴趣的区域(即靶序列)、延伸探针、衔接子连接、单链环形连接、任选的扩增、和测序。在某些实施方式中,测序结果的分析可分离靶序列和背景。
在一些实施方式中,使用本文所述一种或多种基于序列的分离方法就选择基因组区域(例如染色体)的片段进行核酸富集。基于序列的分离通常基于样品中感兴趣的片段中存在而其他片段中基本不存在或其他片段中不存在实质含量(例如5%或更少)的核苷酸序列(例如靶片段和/或参照片段)。在一些实施方式中,基于序列的分离可生成分离的靶片段和/或分离的参照片段。分离的靶片段和/或分离的参照片段通常从核酸样品中的剩余片段分离出来。在某些实施方式中,分离的靶片段和分离的参照片段还可从彼此分离(例如在分别的试验隔室中分离)。在某些实施方式中,分离的靶片段和分离的参照片段可一起分离(例如在相同试验室中分离)。在一些实施方式中,未结合的片段可差异移除或降解或消化。
在一些实施方式中,选择性核酸捕获方法用于从核酸样品分离靶片段和/或参照片段。市售可得的核酸捕获系统包括例如,Nimblegen序列捕获系统(Roche NimbleGen,Madison,WI);Illumina BEADARRAY平台(Illumina,San Diego,CA);Affymetrix GENECHIP平台(Affymetrix,Santa Clara,CA);Agilent SureSelect靶富集系统(AgilentTechnologies,Santa Clara,CA);和相关平台。该方法通常涉及捕获寡核苷酸与靶片段或参照片段的区段或所有核苷酸序列的杂交且可包括使用固相(例如固相阵列)和/或基于溶液的平台。捕获寡核苷酸(有时称为“饵(bait)”)可经选择或设计,从而其优选杂交所选基因组区域或位点的核酸片段(例如染色体21、18、13、X或Y之一,或参照染色体)。在某些实施方式中,可使用基于杂交的方法(例如使用寡核苷酸阵列)从某些染色体(例如可能的非整倍性染色体、参照染色体或其它感兴趣的染色体)或其感兴趣的区段中富集核酸序列。
在一些实施方式中,使用一种或多种基于长度的分离方法针对特定核酸片段长度、长度范围、低于或高于特定阈值或截止值的长度来富集核酸。核酸片段长度通常指片段中的核苷酸数量。核酸片段长度有时还指核酸片段大小。在一些实施方式中,基于长度的分离方法不需要测量个体片段的长度。在一些实施方式中,基于长度的分离方法与确定个体片段的长度的方法联合进行。在一些实施方式中,基于长度的分离指大小分级处理,其中所有或部分分级库可经分离(例如保留)和/或分析。大小分级处理为本领域已知(如阵列分离、分子筛分离、凝胶电泳分离、柱色谱分离(例如尺寸排阻柱)和基于微流体的方法)。在某些实施方式中,基于长度的分离法可包括例如片段环化、化学处理(例如甲醛、聚乙二醇(PEG))、质谱和/或大小特异的核酸扩增。
可与本发明方法一起使用的某些基于长度的分离方法使用例如选择性序列加标签法。术语“序列加标签”指将可识别的独特序列纳入核酸或核酸群。本文所用术语“序列加标签”与本文后述术语“序列标签”含义不同。在该序列加标签方法中,样品中的片段大小种类(例如短片段)核酸经过选择性序列加标签,所述样品包括长和短核酸。该方法通常涉及使用巢式引物组进行核酸扩增反应,所述引物包括内部引物和外部引物。在某些实施方式中,内部引物之一或二者可加标签从而在靶扩增产物上引入标签。外部引物通常不与载有(内部)靶序列的短片段退火。内部引物可与短片段退火并产生载有标签和靶序列的扩增产物。通常,长片段的加标签受到组合机制的抑制,所述组合机制包括例如,外部引物的先前退火和延伸引起的内部引物延伸受阻。富集带标签的片段可通过多种方法中任一来实现,包括例如,单链核酸的外切核酸酶消化和使用对至少一种标签特异的扩增引物进行的带标签片段的扩增。
可与本发明方法一起使用的其他基于长度的分离方法涉及将核酸样品经过聚乙二醇(PEG)沉淀。方法示例包括国际专利申请公开号WO2007/140417和WO2010/115016中所述的那些。该方法通常需要在存在一种或多种单价盐时在足以大量沉淀大核酸而不大量沉淀小(例如少于300核苷酸)核酸的条件下将核酸样品与PEG接触。
可与本文所述方法一起使用的其他基于大小的富集方法涉及通过连接进行的环化,例如使用环化酶。短核酸片段通常可比长片段更高效的环化。非-环化序列可与环化序列分离,并且富集的短片段可用于进一步分析。
核酸库
在一些实施方式中,核酸库是针对具体过程进行制备、装配和/或修改的多种多核苷酸分子(例如核酸样品),所述具体过程的非限制性示例包括在固相(例如固体支持物,例如流动池、珠)上固定、富集、扩增、克隆、检测和/或用于核酸测序。在某些实施方式中,在测序过程之前或期间制备核酸库。核酸库(例如测序库)可用本领域已知的合适方法制备。可通过靶向或非靶向制备过程制备核酸库。
在一些实施方式中,核酸库经修饰以包括化学部分(例如功能基团),其配置为用于将核酸固定至固体支持物。在一些实施方式中,核酸库经修饰以包括生物分子(例如功能基团)和/或结合对成员,其配置为用于将库固定至固体支持物,其非限制性示例包括甲状腺素结合球蛋白、类固醇结合蛋白质、抗体、抗原、半抗原、酶、血凝素、核酸、抑制剂、蛋白质A、蛋白质G、抗生物素蛋白、链霉亲和素、生物素、补体组分C1q、核酸-结合蛋白质、受体、碳水化合物、寡核苷酸、多核苷酸、互补核酸序列等及其组合。特异结合对的一些示例包括包括但不限于:抗生物素蛋白部分和生物素部分;抗原表位和抗体或其免疫活性片段;抗体和半抗原;地高辛配基部分和抗地高辛配基抗体;荧光素部分和抗荧光素抗体;操纵子和抑制剂;核酸酶和核苷;凝集素和多糖;类固醇和类固醇结合蛋白;活性化合物和活性化合物受体;激素及激素受体;酶和底物;免疫球蛋白和蛋白A;寡核苷酸或多多核苷酸和其相应的互补物;等等或其组合。
在一些实施方式中,核酸库经修改以包括已知组成的一种或多种多核苷酸,其非限制性示例包括鉴定物(例如标签、索引标签)、捕获序列、标记衔接子、限制性酶位点、启动子、增强子、复制起点、茎环、互补序列(例如引物结合位点、退火位点)、合适的整合位点(例如转座子、病毒整合位点)、修饰的核苷酸等或其组合。已知序列的多核苷酸可加入合适的位置,例如5′末尾、3′末尾或核酸序列内部。已知序列的多核苷酸可为相同或不同序列。在一些实施方式中,已知序列多核苷酸配置为与固定在表面(例如流动池的表面)的一种或多种寡核苷酸杂交。例如,核酸分子的5′已知序列可与第一多种寡核苷酸杂交,而3′已知序列可与第二多种寡核苷酸杂交。在一些实施方式中,核酸库可包括染色体-特异的标签、捕获序列、标记和/或衔接子。在一些实施方式中核酸库包括一种或多种可检测标记。在一些实施方式中,一种或多种可检测标记可纳入核酸库的5′末端、3′末端和/或库中核酸的任何核苷酸位置。在一些实施方式中核酸库包括杂交的寡核苷酸。在某些实施方式中,杂交的寡核苷酸是标记探针。在一些实施方式中,固定在固相上之前,核酸库包括杂交的寡核苷酸探针。
在一些实施方式中,已知序列的多核苷酸包括通用序列。通用序列是整合入两种或更多核酸分子或两种或更多核酸分子亚组的特定核苷酸序列,其中所述通用序列就其所整合入的所有分子或分子亚组来说相同。通用序列通常设计成使用与通用序列互补的单个通用引物进行杂交和/或扩增多种不同序列。在一些实施方式中,使用两种(例如一对)或更多通用序列和/或通用引物。通用引物通常包括通用序列。在一些实施方式中,衔接子(例如通用衔接子)包括通用序列。在一些实施方式中,一种或多种通用序列用于捕获、鉴定和/或检测多种核酸物质或其亚组。
在制备核酸库的某些实施方式中,(例如合成程序的某些测序中),核酸的大小经选择和/或经片段化为数百碱基对或更少的长度(例如库生成制备中)。在一些实施方式中,进行库制备无需片段化(例如使用ccfDNA时)。
在某些实施方式中,使用基于连接的库制备方法(例如ILLUMINA TRUSEQ,Illumina,San Diego CA)。基于连接的库制备方法通常使用衔接子(例如甲基化衔接子)设计,其可在初始连接步骤处纳入索引序列并通常可用于制备样品用于单一读数测序、配对末端测序和多重测序。例如,有时核酸(例如片段化核酸或ccfDNA)通过填入(fill-in)反应、内切核酸酶反应或其组合进行末端修复。在一些实施方式中,随后可将所得钝末端修复核酸延伸单个核苷酸,其与衔接子/引物的3’末端的单核苷酸突出互补。任何核苷酸可用于延伸/突出的核苷酸。在一些实施方式中,核酸库制备包括连接衔接子寡核苷酸。衔接子寡核苷酸通常与流动池锚互补,并且有时用于固定核酸库至固体支持物,例如流动池的内表面。在一些实施方式中,衔接子寡核苷酸包括鉴定器、一种或多种测序引物杂交位点(例如与通用测序引物互补的序列、单末端测序引物、配对末端测序引物、多重测序引物等)或其组合(例如衔接子/测序、衔接子/鉴定物,衔接子/鉴定器/测序)。
鉴定物可为纳入或接合核酸(例如多核苷酸)的合适的可检测标记,其允许检测和/或鉴定包括该鉴定物的核酸。一些实施方式中鉴定物在测序方法期间纳入或接合核酸(例如通过聚合酶)。鉴定物的非限制性示例包括核酸标签、核酸索引或条码、放射标记(例如同位素)、金属标记、化学发光标记、磷光标记、荧光淬灭剂、染料、蛋白质(例如酶、抗体或其部分、连接子、结合对的成员)等或其组合。在一些实施方式中鉴定物(例如核酸索引或条码)是核苷酸或核苷酸类似物的独特、已知和/或可鉴定的序列。在一些实施方式中,鉴定物是六个或更多连续核苷酸。可用许多具有各种不同激发和发射光谱的荧光团。任何合适的类型和/或数量的荧光团可用作鉴定物。在一些实施方式中,1个或更多、2个或更多、3个或更多、4个或更多、5个或更多、6个或更多、7个或更多、8个或更多、9个或更多、10个或更多、20个或更多、30或更多或50或更多个不同鉴定物用于本文所述方法(例如核酸检测和/或测序方法)。在一些实施方式中,一种或两种类型的鉴定物(例如荧光标记)连接至库中各核酸。鉴定物检测和/或定量可通过合适的方法或装置进行,其非限制性示例包括流式细胞术、定量聚合酶链式反应(qPCR)、凝胶电泳、照度计、荧光仪、分光光度计、合适的基因芯片或微阵列分析、Western印迹、质谱、色谱、细胞荧光分析、荧光显微镜、合适的荧光或数字成像方法、共焦激光扫描显微镜、激光扫描流式细胞术、亲和层析、手动批处理模式分离、电场悬浮,合适的核酸测序方法和/或核酸测序装置等及其组合。
在一些实施方式中,使用基于转座子的库制备方法(例如EPICENTRE NEXTERA,Epicentre,Madison WI)。基于转座子的方法通常在单管反应中使用体外移位至相似片段或标签DNA(通常允许纳入平台特异的标签和任选的条码),并制备测序仪准备库。
在一些实施方式中核酸库或其部分经扩增(例如通过基于PCR的方法扩增)。在一些实施方式中测序方法包括扩增核酸库。核酸库可在固定至固体支持物之前或之后进行扩增(例如流动槽中的固体支持物)。核酸扩增包括扩增或增加(例如核酸库中)存在的核酸模板和/或其互补物数量的过程,所述过程通过产生一个或多个模板和/或其互补物的拷贝实现。扩增可通过合适的方法进行。核酸库可通过热循环法或通过等温扩增法进行扩增。在一些实施方式中,使用滚环扩增方法。在一些实施方式中,扩增发生在固体支持物上(例如流动池内)其中核酸库或其部份经固定。某些测序方法中,核酸库加入流动池中并通过合适条件下与锚杂交而固定。此类核酸扩增通常称为固相扩增。在固相扩增的一些实施方式中,所有或部分扩增产物通过从固定化引物开始延伸而合成。固相扩增反应与标准溶液相扩增类似,除了至少一种所述扩增寡核苷酸(例如引物)固定在固体支持物上。
在一些实施方式中,固相扩增包括核酸扩增反应,其包括固定在表面上的仅一种寡核苷酸引物。在某些实施方式中,固相扩增包括多种不同固定化寡核苷酸引物物质。在一些实施方式中,固相扩增可包括核酸扩增反应,其包括固定在固体表面的一种寡核苷酸引物和溶液中的第二种不同寡核苷酸引物。可使用多种不同固定化或溶液引物。固相核酸扩增反应的非限制性示例包括界面扩增、桥式扩增、乳液PCR、WildFire扩增(例如美国专利申请US20130012399)等或其组合。
测序
在一些实施方式中,核酸(例如核酸片段、样品核酸、无细胞核酸)经测序。在某些实施方式中,获得全序列或基本全序列,有时获得部分序列。
在一些实施方式中,在测序之前或期间富集和/或扩增样品中的一些或所有核酸(例如非-特异性,例如通过基于PCR的方法)。在某些实施方式中,在测序之前或期间富集和/或扩增样品中的特定核酸部份或亚组。在一些实施方式中,对预选核酸集合的部分或子集进行随机测序。在一些实施方式中,在测序之前或期间不富集和/或扩增样品中的核酸。
本文所用的“读数”(即“一个读数”、“序列读数”)是由本文所述或本领域已知的任意测序方法生成的短核苷酸序列。读数能从核酸片段的一个末端生成("单末端读数"),而有时从核酸片段的两个末端生成(例如配对末端读数、双末端读数)。
序列读数的长度通常与具体测序技术相关。例如高通量方法提供了大小能由数十到数百碱基对(bp)变化的序列读数。例如纳米孔测序提供大小能由数十到数百到数千碱基对变化的序列读数。在一些实施方式中,序列读数是长度约15bp–约900bp长的算术均值、中位数、平均或绝对长度。在某些实施方式中,所述序列读数是长度约1000bp或更长的算术均值、中位数、平均或绝对长度。
在一些实施方式中,单末端读数的标称、平均、算术均值或绝对长度有时是约15个连续核苷酸-约50个或更多连续核苷酸,有时是约15个连续核苷酸-约40个或更多连续核苷酸,以及有时是约15个连续核苷酸或约36个或更多连续核苷酸。在某些实施方式中,单末端读数的标称、平均、算术均值或绝对长度是约20-约30个碱基、或约24-约28个碱基。在某些实施方式中,单末端读数的标称、平均、算术均值或绝对长度是约1、2、3、4、5、6、7、8、9、10、11、12、13,14、15、16、17、18、19、21、22、23、24、25、26、27、28或约29个碱基。
在某些实施方式中,配对末端读数的标称、平均、算术均值或绝对长度有时是约10个连续核苷酸-约25个连续核苷酸或更多(如约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸长或更多),约15个连续核苷酸-约20个连续核苷酸或更多,以及有时是约17个连续核苷酸或约18个连续核苷酸。
读数通常是生理核酸中核苷酸序列的表示。例如,读数中用ATGC描述序列,生理核酸中“A”表示腺嘌呤核苷酸、“T”表示胸腺嘧啶核苷酸、“G”表示鸟嘌呤核苷酸、“C”表示胞嘧啶核苷酸。获自妊娠女性血液的序列读数可为胎儿和母体核酸混合物的读数。相对短读数的混合可通过本文所述方法变换为妊娠女性和/或胎儿中基因组核酸的表示。相对短读数的混合可变换为表示例如拷贝数变异(例如母体和/或胎儿拷贝数变异)、遗传变异或非整倍性、微复制或微缺失。母体和胎儿核酸的混合物的读数可变换为表示包含母体和胎儿染色体之一或二者的特征的复合染色体或其区段。在某些实施方式中,从对象样品“获得”核酸序列读数,和/或从一个或多个参照个体的生物样品“获得”核酸序列读数能直接涉及测序核酸以获得序列信息。在一些实施方式中,“获得”可涉及接收从其他核酸直接获得的序列信息。
在一些实施方式中,基因组的表示组分经测序并且有时称为“覆盖率”或“倍覆盖率”。例如,1-倍覆盖率表明约100%的基因组的核苷酸序列通过读数表示。在一些实施方式中,“倍覆盖率”是用先前测序运行作为参照的相关术语。例如,第二轮测序可比第一轮测序具有少2-倍的覆盖率。在一些实施方式中,用冗余度对基因组测序,其中所述基因组的给定区域通过两次或更多次读数或者重叠读数来覆盖(如大于1“倍覆盖率”,例如2倍覆盖率)。
在一些实施方式中,对来自一个个体的一种核酸样品测序。在某些实施方式中,对两个或更多样品的每个的核酸进行测序,其中样品来自一个个体或来自不同个体。在某些实施方式中,收集来自两个或更多个生物样品的核酸样品(其中各生物样品来自一个个体或两个或更多个个体),并对该集合测序。在后面的实施方式中,常通过一个或多个独特鉴定物来鉴定来自各生物样品的核酸样品。
在一些实施方式中,测序方法采用鉴定物,其允许测序过程中的多重序列反应。独特鉴定物的数量越多,检测的样品和/或染色体的数量就越多,例如,可在测序过程多重进行。测序过程可使用任何合适的独特鉴定物数量(例如4、8、12、24、48、96或更多)来进行。
测序过程有时使用固相,有时固相包括流动池,其上可接合来自库的核酸且试剂可流动并与所接合的核酸接触。流动池有时包括流动池通道,并且使用鉴定物可便于分析各通道中的样品数量。流动池(flow cell)是能被构建以保留和/或可供试剂溶液有序通过结合分析物的任何固体支持物。流动槽通常是平面形状,光学透明,通常在毫米或亚毫米级,并且常具备通道或通路,在所述通道或通路中发生分析物/试剂的相互作用。在一些实施方式中,能在给定流动池通道中分析的样品数目常取决于库制备和/或探针设计中使用的独特鉴定物的数量。单流动池通道。多重使用12种鉴定物,例如可允许在8个通道流动池中同时分析96个样品(如等于96孔微孔板中的孔数)。类似地,多重使用48种鉴定物,例如可允许在8个通道流动池中同时分析384个样品(如等于384孔微孔板中的孔数)。市售可得的多重测序试剂盒的非限制性示例包括Illumina的多重样品制备寡核苷酸试剂盒和多重测序引物和PhiX对照试剂盒(分别例如Illumina的目录号PE-400-1001和PE-400-1002)。
可使用测序核酸的任何合适的方法,其非限制性示例包括Maxim&Gilbert,链终止方法、合成测序、连接测序、质谱测序、基于显微镜的技术等或其组合。在一些实施方式中,第一代测序技术例如Sanger测序方法包括自动Sanger测序方法(包括微流体Sanger测序)可用于本发明方法。在一些实施方式中,本文也使用核酸成像技术在内的其它测序技术(如透射电子显微镜(TEM)和原子力显微镜(AFM))。在一些实施方式中,使用高通量测序方法。高通量测序方法通常涉及有时在流动池中以大规模平行方式测序的克隆扩增DNA模板或单个DNA分子。下一代(例如第二和第三代)测序技术(能以大量平行方式测序DNA)可用于本文所述方法并且本文统称为“大量平行测序”(MPS)。在一些实施方式中,MPS测序方法采用靶向方法,其中特异染色体、基因或感兴趣的区域是序列。在某些实施方式中,使用非-靶向方法,其中样品中大多数或所有核酸经测序,扩增和/或随机捕获。
在一些实施方式中,使用靶向富集、扩增和/或测序法。靶向方法通常通过序列特异性寡核苷酸分离、选择和/或富集样品中的核酸亚组用于进一步加工。在一些实施方式中,采用序列特异性寡核苷酸的库以靶向(例如杂交)样品中的一个或多个核酸组。序列特异性寡核苷酸和/或引物通常就一种或多种感兴趣的染色体、基因、外显子、内含子和/或调控区域中存在的具体序列(例如独特核酸序列)具备选择性。任何合适的方法或方法组合可用于富集、扩增和/或测序一种或多种靶核酸亚组。在一些实施方式中,使用一种或多种序列特异性锚通过捕获至固相(例如流动池、珠)分离和/或富集靶序列。在一些实施方式中,通过基于聚合酶方法(例如基于PCR-方法,通过任何合适的基于聚合酶的延伸)使用序列特异性引物和/或引物组富集和/或扩增靶序列。序列特异性锚通常可用作序列特异性引物。
MPS测序有时使用通过合成和某些成像方法的测序。本文所述方法中可以使用的核酸测序技术是合成法测序和基于可逆终止子的测序(如亿明达公司(Illumina)的基因组分析仪(Genome Analyzer)和基因组分析仪II(Genome Analyzer II);HISEQ 2000;HISEQ2500(Illumina,San Diego CA))。采用这种技术能对数百万核酸(如DNA)片段平行测序。在这种测序技术的一个实施例中,使用包含具备8个单独通道的光学透明载玻片的流动池,所述流动池表面结合寡核苷酸锚(如衔接子引物)。流动池通常是能被构建以保留和/或可供试剂溶液有序通过结合分析物的固体支持物。流动池通常是平面形状,光学透明,通常在毫米或亚毫米级,并且常具备通道或通路,在所述通道或通路中发生分析物/试剂的相互作用。
在一些实施方式中,合成测序包括以模板引导的方式重复添加(例如通过共价添加)核苷酸至引物或预先存在的核酸链。检测各重复添加的核苷酸并重复所述过程多次直到获得核酸链的序列。所获序列长度部分取决于进行的添加和检测步骤的数量。在一些合成测序的实施方式中,加入一种、两种、三种或更多相同类型的核苷酸(例如A,G,C或T)并在添加核苷酸轮中进行检测。核苷酸可通过任何合适的方法添加(例如酶或化学)。例如,在一些实施方式中,聚合酶或连接酶以模板引导的方式添加核苷酸至引物或预先存在的核酸链。在合成测序的一些实施方式中,使用不同类型核苷酸、核苷酸类似物和/或鉴定物。在一些实施方式中,使用可逆终止子和/或可移除(例如可剪切)鉴定物。在一些实施方式中,使用荧光标记的核苷酸和/或核苷酸类似物。在某些实施方式中,合成测序包括切割(例如切割和移除鉴定物)和/或清洗步骤。在一些实施方式中,通过本文所述或本领域已知合适的方法检测添加一种或多种核苷酸,其非限制性示例包括任何合适的成像装置、合适的照相机、数码照相机、基于CCD(电荷藕合器件)的成像装置(例如CCD照相机)、基于CMOS(互补金属氧化物半导体)的成像装置(例如CMOS照相机)、光二极管(例如光电倍增管)、电子显微镜、场效应晶体管(例如DNA场效应晶体管)、ISFET离子感应器(例如CHEMFET感应器)等或其组合。其他可以用于进行本文所述方法的测序方法包括数字PCR和杂交法测序。
其他可以用于进行本文所述方法的测序方法包括数字PCR和杂交法测序。数字聚合酶链式反应(数字PCR或dPCR)能用于直接鉴定和定量样品中的核酸。在一些实施方式中,可在乳液中进行数字PCR。例如,个体核酸在例如微流体设备中分离且各核酸通过PCR单独扩增。分离核酸使得每个孔中不超过一个核酸。在一些实施方式中,能使用不同探针区分多种等位基因(例如胎儿等位基因和母体等位基因)。等位基因可经计数以确定拷贝数。
在一些实施方式中,可使用杂交测序。所述方法涉及使多种多核苷酸序列接触多种多核苷酸探针,其中所述多种多核苷酸探针各自可选地连接到底物。在一些实施方式中,所述底物可以是带有已知核苷酸序列阵列的平面。可使用与阵列杂交的模式确定样品中存在的多核苷酸序列。在一些实施方式中,各探针连接到珠(如磁珠等)上。与所述珠的杂交能被鉴定并用于鉴定样品中的多种多核苷酸序列。
在一些实施方式中,纳米孔测序能用在本文所述的方法中。纳米孔测序是单分子测序技术,由此当单核酸分子(如DNA)通过纳米孔时被直接测序。
进行本文所述方法非人合适的MPS方法、系统或技术平台可用于获取核酸测序读数。MPS平台的非限制性示例包括Illumina/Solex/HiSeq(例如Illumina的基因组分析仪;基因组分析仪II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIO和/或SMRT、Helicos True单个分子测序、基于粒子流(Ion Torrent)和离子半导体(Ion semiconductor)的测序(例如Life Technologies公司所开发)、基于WildFire、5500、5500xl W和/或5500xl W遗传分析仪的技术(例如Life Technologies公司所开发和销售的、美国专利申请US20130012399);Polony测序、Pyro测序、大量平行签名测序(MPSS)、RNA聚合酶(RNAP)测序、LaserGen系统和方法、基于纳米孔的平台、化学敏感的场效应晶体管(CHEMFET)阵列、基于电子显微镜的测序(例如ZS Genetics公司、Halcyon Molecular公司所开发)、纳米球测序。
在一些实施方式中,进行染色体特异性测序。在一些实施方式中,染色体-特异性测序采用DANSR(所选区域的数码分析)进行。所选区域的数码分析能同时定量数百个位点,通过两个位置特异性寡核苷酸的cfDNA-依赖性连锁,利用干扰‘桥式’寡核苷酸以形成PCR模板。在一些实施方式中,染色体-特异性测序通过生成富集染色体-特异性序列的库来进行。在一些实施方式中,仅获得所选染色体组的序列读数。在一些实施方式中,仅获得染色体21,18和13的序列读数。
映射读数
序列读数可经映射且映射至特定核酸区域(例如染色体、部份或其区段)的读数的数量称为计数。可使用任何合适的映射方法(例如过程、算法、程序、软件、模块等或其组合)。下文描述映射方法的某些方面。
映射核苷酸序列读数(即物理基因组位点未知的片段的序列信息)能以多种方式进行,其通常包括使获得的测序读数与参照基因组中的匹配序列进行比对。所述比对中,序列读数通常与参照序列进行比对,经比对的那些称为经"映射"、"映射的序列读数"或“映射的读数”。在某些实施方式中,映射的序列读数称为“击中(hit)”或“计数”。一些实施方式中,根据各种参数将映射的序列读数集合在一起并分配至具体部份,如下详述。
本文所用术语“比对”、“对齐”指可鉴定为匹配(例如100%相同性)或部分匹配的两个或更多核酸序列。比对可人工或通过计算机(例如软件、程序、模块或算法)完成,其非限制性示例包括核苷酸数据有效局部比对(ELAND)计算机程序,其为Illumina基因组分析流程的部分。序列读数的比对可为100%序列匹配。在一些情况中,比对小于100%序列匹配(即,非完美匹配、部分匹配、部分比对)。在一些实施方式中,比对为约99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%或75%匹配。在一些实施方式中,比对包括错配。在一些实施方式中,比对包括1,2,3,4或5个错配。两个或更多序列可使用任一链比对。在某些实施方式中,核酸序列与另一核酸序列的反向互补链比对。
各种计算机方法可用于将各序列读数映射至部份。可用于比对序列的计算机算法的非限制性示例包括但不限于BLAST,BLITZ,FASTA,BOWTIE 1,BOWTIE 2,ELAND,MAQ,PROBEMATCH,SOAP或SEQMAP或其变体或其组合。在一些实施方式中,序列读数可与参照基因组中的序列比对。在一些实施方式中,序列读数可从本领域已知核酸数据库获得和/或与其中的序列比对,所述数据库包括例如GenBank,dbEST,dbSTS,EMBL(欧洲分子生物实验室)和DDBJ(日本DNA数据库)。BLAST或相似工具可用于针对序列数据库搜索相同序列。然后,例如,搜索命中可用于将相同的序列分选入合适的部份(如下所述)。
在一些实施方式中,与映射的序列读数关联的映射的序列读数和/或信息在非瞬时性计算机可读介质上以合适的计算机可读形式进行储存和/或从其进行评估。“计算机可读形式”本文有时指一种格式。在一些实施方式中,映射的序列读数以合适的二进制格式、文本格式等或其组合进行储存和/或评估。二进制格式有时是BAM格式。文本格式有时是序列比对/映射(SAM)格式。二进制或文本格式的非限制性示例包括BAM,SAM,SRF,FASTQ,Gzip,等或其组合。在一些实施方式中,映射的序列读数在一种格式中储存和/或转化为一种格式,所述一种格式比传统格式(例如SAM格式或BAM格式)需要更少的储存空间(例如更少字节)。在一些实施方式中,第一种格式中的映射的序列读数压缩为第二种格式,后者比第一种需要更少的储存空间。本文所用术语“压缩”指数据压缩、源编码和/或比特率降低的过程,其中计算机可读数据文件大小降低。在一些实施方式中,映射的序列读数从SAM格式压缩成二进制格式。文件压缩后有时损失一些数据。有时压缩过程不损失数据。在一些文件压缩实施方式中,一些数据用另一数据文件的索引和/或参照替代,所述另一数据文件包含涉及映射的序列读数的信息。在一些实施方式中,映射的序列读数以二进制格式储存,包括或由下述组成:读数计数、染色体鉴定物(例如鉴定读数所映射的染色体)和染色体位置鉴定物(例如鉴定读数所映射的染色体上的部份)。在一些实施方式中,二进制格式包括20字节阵列、16字节阵列、8字节阵列、4字节阵列或2字节阵列。在一些实施方式中,映射的读数信息以10字节格式、9字节格式、8字节格式、7字节格式、6字节格式、5字节格式、4字节格式、3字节格式、2字节格式储存在阵列中。有时映射的数据读数储存在4字节阵列中,包括5字节格式。在一些实施方式中,二进制格式包括5-字节格式,包括1-字节染色体序数(ordinal)和4-字节染色体部份。在一些实施方式中,映射的读数以压缩二进制格式储存,所述格式比序列比对/映射(SAM)格式小约100倍、约90倍、约80倍、约70倍、约60倍、约55倍、约50倍、约45倍、约40倍或约30倍。一些实施方式中,映射的读数以压缩二进制格式储存,所述格式比GZip格式小约2倍-约50倍(例如约30,25,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,或约5倍)。
在一些实施方式中,系统包括压缩模块(例如4,图42A)。在一些实施方式中,以计算机可读格式存储在非瞬时性计算机可读介质上的映射的序列读数信息通过压缩模块进行压缩。压缩模块有时将映射的序列读数变换为合适的格式或从合适和格式变换。在一些实施方式中,压缩模块可接受第一格式的映射的序列读数(例如1,图42A),将其变换为压缩格式(例如二进制格式,5)和将压缩读数转移至另一模块(例如偏移密度模块6)。压缩模块通常提供二进制格式5(例如BReads格式)的序列读数。压缩模块的非限制性示例包括GZIP、BGZF和BAM等或其变体)。
下述提供用java将整数变换为4字节阵列的示例:
public static final byte[]
convertToByteArray(int value)
{
return new byte[]{
(byte)(value>>>24),
(byte)(value>>>16),
(byte)(value>>>8),
(byte)value};
}
在一些实施方式中,读数可唯一或非唯一映射至参照基因组中的部份。若读数与参照基因组中的单一序列比对,则其称为“唯一映射”。若读数与参照基因组中的两个或多个序列比对,则其称为“非唯一映射”。在一些实施方式中,非唯一映射的读数从进一步分析(例如定量)中去除。在某些实施方式中,某些小程度的错配(0-1)可说明在所述参照基因组和经映射的来自个体样品的读数之间可能存在单核酸多态性。在一些实施方式中,没有错配可使读数映射到参照序列上。
本文所用术语“参照基因组”可指任何生物体或病毒的任何部分或全部都具体已知的、测序的或表征的基因组,其可用于参照鉴定对象序列。例如,用作人对象以及许多其他生物体的参照基因组可获自国家生物技术信息中心,网址ncbi.nlm.nih.gov。“基因组”指核酸序列中表达的生物体或病毒的完全遗传信息。本文所用参照序列或参照基因组经常是来自个体或多个个体的组装或部分组装的基因组序列。在一些实施方式中,参照基因组是来自一个或多个人个体的组装或部分组装的基因组序列。在一些实施方式中,参照基因组包括分配至染色体的序列。
在某些实施方式中,当样品核酸来自妊娠女性时,有时参照序列不来自胎儿、胎儿母亲或胎儿父亲,从而在本文中被称为“外部参照”。在一些实施方式中可制备和使用母体参照。基于外部参照制备来自妊娠女性的参照时("母体参照序列"),基本不含胎儿DNA的来自妊娠女性的DNA的读数通常映射至外部参照序列并组装。在某些实施方式中,所述外部参照来自与所述妊娠女性基本属同一种族的个体的DNA。母体参照序列可以不完全覆盖母体基因组DNA(如可以覆盖母体基因组DNA的约50%、60%、70%、80%、90%或更多),并且所述母体参照可以不与母体基因组DNA序列完美匹配(如所述母体参照序列可以包含多个错配)。
在某些实施方式中,可映射能力针对基因组区域(例如部份、基因组部份、部份)进行评估。可映射能力是核苷酸序列读数清楚地比对至参照基因组的部份的能力,通常具有多至特定数量的错配,包括例如,0,1,2或更多错配。对于给定基因组区域而言,预期的可映射能力可用预定的读数长度的滑动窗口法计算并平均为所得的读数水平可映射能力值。包括独特核苷酸序列的伸展的基因组区域有时具有高可映射能力值。
部份
在一些实施方式中,映射的序列读数(即序列标签)根据各种参数一起分组并分配至特定部份(例如参照基因组的部份)。通常,个体映射的序列读数可用于鉴定样品中存在的部份(例如部份的存在、缺失或含量)。在一些实施方式中,部份的含量是样品中大序列(例如染色体)含量的指标。本文术语“部份”还可指“基因组节段”、“箱”、“区域”、“分割区”,“参照基因组的部份”,“染色体的部份”或"基因组部份"。在一些实施方式中,部份是整个染色体、染色体区段、参照基因组区段、跨多重染色体的区段、多重染色体区段和/或其组合。在一些实施方式中,部份基于特异性参数进行预定义。在一些实施方式中,部份基于基因组的划分任意定义(例如根据大小、GC含量、连续区域、任意定义大小的连续区域等的分区)。
在一些实施方式中,部份基于一种或多种参数定义,所述参数包括例如序列的长度或具体特征。可使用本领域已知或本文所述的任何合适的标准对部份进行选择、筛选和/或从考虑中去除。在一些实施方式中,部份基于基因组序列的具体长度。在一些实施方式中,方法可包括分析针对多个部份的多重映射的序列读数。部份可具有大致相同的长度或部份可具有不同长度。在一些实施方式中,部份长度大约相同。在一些实施方式中,不同长度的部份经调整或加权。在一些实施方式中,部份为约10千碱基(kb)-约100kb、约20kb-约80kb、约30kb-约70kb、约40kb-约60kb,而有时约50kb。在一些实施方式中,部份为约10kb-约20kb。部份不限于连续运行的序列。因此,部份可由连续和/或非-连续序列组成。部份不限于单一染色体。在一些实施方式中,部份包括一条染色体的所有或部份或者两个或更多染色体的所有或部份。在一些实施方式中,部份可跨越一个、2个或更多个完整染色体。此外,部份可跨越多重染色体的连接或不连接区域。
在一些实施方式中,部份可为感兴趣染色体中的特定染色体区段,感兴趣染色体例如评估遗传变异(例如染色体13、18和/或21或性染色体的非整倍性)的染色体。部份还可为致病基因组(例如细菌、真菌或病毒)或其片段。部份可为基因、基因片段、调控序列、内含子、外显子等。
在一些实施方式中,基于具体区域的信息内容将基因组(例如人基因组)划分为部份。在一些实施方式中,划分基因组可去除基因组中的相似区域(例如相同或同源区域或序列)和仅保留独特区域。划分期间去除的区域可在单一染色体内或可跨越多重染色体。在一些实施方式中,划分的基因组经向下修整并优化以用于快速比对,通常允许关注独特可鉴定序列。
在一些实施方式中,划分可降相似区域的权重。后续详述降部份权重的过程。
在一些实施方式中,可基于分类的上下文(context)中产生的信息将基因组划分成超出染色体的区域。例如,信息内容可用p值概况定量,测量已证实的正常和异常对象(分别例如整倍体和三倍体对象)的具体基因组位置的显著性。在一些实施方式中,可基于任何其他标准将基因组划分成超出染色体的区域,所述标准例如,比对标签时的速度/便利度、GC含量(例如高或低的GC含量)、GC含量的均匀度、序列含量的其他测量(例如个体核苷酸分数、嘧啶或嘌呤分数、天然与非天然核酸的分数、甲基化核苷酸的分数和CpG含量)、甲基化状态、双重解链温度、测序或PCR的依从度、分配给参照基因组的个体部份的不确定值和/或具体特征的靶向搜索。
染色体的"区段"通常是染色体的部分、且通常是不同于部份的染色体部分。染色体区段有时与部份在染色体不同区域中,有时不与部份共有多核苷酸,和有时包括部份中的多核苷酸。染色体区段通常比部份包括更多核苷酸(例如区段有时包括部份),和有时染色体区段比部份包括更少核苷酸(例如区段有时在部份内)。
计数
在一些实施方式中,基于所选特征或变量映射或划分的序列读数可经定量以确定映射至一个或多个部份(例如参照基因组部份)的读数数量。在某些实施方式中,映射至部份的序列读数的定量称为计数(例如一个计数)。通常计数与部份相关联。在某些实施方式中,两个或更多部份(例如部份的组)的计数经过数学处理(例如平均、加和、标准化等或其组合)。在一些实施方式中,计数从映射至(即关联)部份的一些或所有的序列读数确定。在某些实施方式中,从映射的序列读数的预定义亚组确定计数。能利用任意合适的特性或变量来定义或选择映射的序列读数的预定义亚组。在一些实施方式中,映射的测序读数的预定义亚组能包含1–n个序列读数,其中n表示与从测试对象或参照对象样品生成的所有序列读数总和相等的数目。
在某些实施方式中,计数源自通过本领域已知的合适的方法、操作或数学过程处理或加工的序列读数。计数可通过合适的方法、操作或数学过程确定。在某些实施方式中,计数源自与部份关联的序列读数,其中一些或所有序列读数经加权、移除、筛选、标准化、调整、平均(得出均值)、加或减、或其组合的处理。一些实施方式中,计数源自原始序列读数和/或筛选的序列读数。在一些实施方式中,计数值通过数学过程确定。在某些实施方式中,计数值是映射至部份的序列读数的平均、算术均值或加和。通常计数是多个计数的算术均值。在一些实施方式中,计数与不确定值相关。
在一些实施方式中,计数可经处理或变换(例如标准化、组合、加和、筛选、选择、平均(得出均值)等或其组合)。在一些实施方式中,计数可经变换以产生标准化计数。计数可通过本领域已知和/或本文所述方法进行处理(例如标准化)(例如逐份标准化、GC含量的标准化、线性和非线性最小二乘回归、GC LOESS、LOWESS、PERUN、ChAI、RM、GCRM、cQn和/或其组合)。
计数(例如原始的、筛选的和/或标准化的计数)可处理并标准化为一种或多种水平。水平和概况下文详述。在某些实施方式中,计数处理和/或标准化至参照水平。参照水平在下文阐述。根据水平处理的计数(例如处理计数)可与不确定值关联(例如计算方差、误差、标准偏差、Z-分数、p-值、算术平均绝对偏差等)。在一些实施方式中,不确定值限定了高于和低于某一水平的范围。偏差值可替代不确定值,偏差测量的非限制性示例包括标准偏差、平均绝对偏差、中值绝对偏差、标准分数(例如Z-分数、Z-分数、正常分数、标准化变量)等。
计数通常获自怀有胎儿的妊娠女性的核酸样品。映射至一种或多种部份的核酸序列读数的计数通常是胎儿和胎儿母亲的计数表示(例如妊娠女性对象)。在某些实施方式中,映射至部份的一些计数来自胎儿基因组,且映射至相同部份的一些计数来自母体基因组。
数据处理和标准化
已经计数的经映射的序列读数在本文中被称为原始数据,因为所述数据表示未处理的计数(如原始计数)。在一些实施方式中,数据组中的序列读数数据能经进一步处理(如数学和/或统计学处理)和/或显示以帮助提供结果。在某些实施方式中,数据组(包括较大数据组)可得益于预处理以帮助进一步的分析。数据组的预处理有时涉及除去冗余的和/或无信息的部份或参照基因组的部份(如具有无信息数据的部份或参照基因组的部份、冗余映射读数、具有0中值计数的部份、过高频出现或过低频出现的序列)。不受理论限制,数据处理和/或预处理可以(i)除去噪音噪音数据,(ii)除去无信息数据,(iii)除去冗余数据,(iv)降低较大数据组的复杂性,和/或(v)帮助所述数据从一种形式变换成一种或多种其它形式。当用于数据或数据组时,术语“预处理”和“处理”在本文中被统称为“处理”。在一些实施方式中,处理能使数据更易于被进一步分析,从而能生成结果。在一些实施方式中,一种或多种或所有处理方法(例如标准化方法、部份筛选、映射、确认等或其组合)通过处理器、微处理器、计算机、与存储器联用来进行和/或通过微处理器控制的装置来进行。
本文所用的术语“噪音噪音数据”指(a)分析或作图时在数据点之间有显著差异的数据,(b)有显著标准偏差(例如大于3标准偏差)的数据,(c)有显著的标准误差均值的数据等,及以上组合。由于起始材料(如核酸样品)的数量和/或质量,有时出现噪音噪音数据,并且噪音数据有时作为制备或复制用于生成序列读数的DNA的方法的部分出现。在某些实施方式中,噪音来自使用基于PCR的方法制备时的过高频出现的某些序列。本文所述方法能降低或消除噪音数据的基值,从而降低噪音数据对所提供结果的影响。
本文使用术语“无信息数据”、“参考基因组的无信息部份”和“无信息部份”指所具有的数值与预定的阈值显著不同或落在预定截止值范围外的部份或其导出的数据。本文术语“阈值”指用符合要求的数据组计算的任何数字,作为诊断遗传变异的限制(例如拷贝数变异、非整倍性、微复制、微缺失、染色体异常等)。在某些实施方式中,阈值超出本发明方法所获结果,对象诊断为具有遗传变异(例如21三体)。在一些实施方式中,常通过数学和/或统计学处理序列读数数据(如来自参照和/或对象)计算阈值或值的范围,而在某些实施方式中,经处理以生成阈值或值的范围的序列读数数据是序列读数数据(如来自参照和/或对象)。在一些实施方式中,确定不确定值。不确定值通常是方差或误差的量度且可为变异或误差的任何合适量度。在一些实施方式中,不确定值是标准偏差、标准误差、计算方差、p-值或算术平均绝对偏差(MAD)。在一些实施方式中,可根据实施例4的公式计算不确定值。
任何合适的程序可用于处理本文所述的数据组。适用于处理数据组的方法的非限定性示例包含过滤、标准化、加权、监测峰高、监测峰面积、监测峰边缘、确定面积比率、数据的数学处理、数据的统计学处理、数学算法的应用、采用固定变量的分析、采用优化变量的分析、对数据作图以鉴定模式或趋势以供其它处理等,及以上组合。在一些实施方式中,根据不同特点(如GC含量、冗余定位读数、着丝粒区域、端粒区域等,及其组合)和/或变量(如胎儿性别、母体年龄、母体倍性、胎儿核酸基值百分比等及其组合)处理数据组。在某些实施方式中,处理本文所述的数据组能降低大数据组和/或复杂数据组的复杂性和/或维数。复杂数据组的非限定性示例包括由一个或多个测试对象和不同年龄与种族背景的多种参照对象生成的序列读取数据。在一些实施方式中,数据组能包含各测试对象和/或参照对象的数千到数百万的序列读数。
某些实施方式中,数据处理可在任何数量的步骤中进行。例如,在一些实施方式中,可以仅用单一处理方法调整和/或处理数据,而在某些实施方式中,可以使用1个或更多个、5个或更多个、10个或更多个或者20个或更多个处理步骤(如1个或更多个处理步骤、2个或更多个处理步骤、3个或更多个处理步骤、4个或更多个处理步骤、5个或更多个处理步骤、6个或更多个处理步骤、7个或更多个处理步骤、8个或更多个处理步骤、9个或更多个处理步骤、10个或更多个处理步骤、11个或更多个处理步骤、12个或更多个处理步骤、13个或更多个处理步骤、14个或更多个处理步骤、15个或更多个处理步骤、16个或更多个处理步骤、17个或更多个处理步骤、18个或更多个处理步骤、19个或更多个处理步骤或者20个或更多个处理步骤)处理数据。在一些实施方式中,处理步骤可以是重复两次或更多次(如过滤两次或更多次,标准化两次或更多次)的同一步骤,而在某些实施方式中,处理步骤可以是同时或依次进行的两种或更多种不同的处理步骤(如过滤、标准化;标准化、监测峰高和边缘;过滤、标准化、针对参照标准化、统计学处理以确定p值等)。在一些实施方式中,可使用相同或不同处理步骤的任意合适次数和/或组合来处理序列读数数据以帮助提供结果。在某些实施方式中,通过本文所述的标准加工数据组可降低数据组的复杂性和/或维数。
在一些实施方式中,一个或多个处理步骤能包括一个或多个过滤步骤。本文所用的术语“过滤”指将部份或参照基因组的部份从考虑中除去。能根据任意合适的标准选择需除去的部份或参照基因组的部份,包括但不限于冗余数据(如冗余或重叠映射读数)、无信息数据(如有0中值计数的部份或参照基因组的部分)、含有过高频出现或过低频出现序列的部份或参照基因组的部分、噪音数据等,及以上组合。过滤方法经常涉及从考虑中除去一个或多个参照基因组的部份,并从考虑的参照基因组、染色体或基因组的计数或总计中减去所选需除去的参照基因组的一个或多个部份中的计数。在一些实施方式中,参照基因组的部份能依次被除去(如一次一个以允许评价各个单独部份的去除影响),而在某些实施方式中,标记为需除去的所有部份能同时被除去。在一些实施方式中,由高于或低于某一水平的差异所表征的参照基因组的部份经移除,其有时称为过滤参照基因组的“噪音”部份。在某些实施方式中,过滤过程包括通过预定的多种概况变化从源自部份、染色体、或染色体区段的平均概况水平的数据组中获取数据点,和在某些实施方式中,过滤过程包括通过预定的多种概况差异从源自部份、染色体、或染色体区段的平均概况水平的数据组中移除数据点。在一些实施方式中,过滤过程用于降低用于分析遗传变异存在或缺失的参照基因组中候选部份的数量。降低用于分析遗传变异(例如微缺失、微复制)存在或缺失的参照基因组中候选部份的数量通常降低数据组的复杂度和/或维度,并且有时提高搜索和/或鉴定遗传变异和/或遗传异常的速度两个或更多数量级。
在一些实施方式中,一个或多个处理步骤能包括一个或多个标准化步骤。标准化可通过本文所述或本领域已知的合适方法进行。在某些实施方式中,标准化包括将不同量级的所测数值调整至理论上的共同量级。在某些实施方式中,标准化包括复杂化的数学调整,以在比对中引入调整的数值的概率分布。一些实施方式中,标准化包括将分布与正态分布进行比对。在某些实施方式中,标准化包括数学调整,其允许以消除某些总影响效果(例如误差和异常)的方式针对不同数据组的对应标准化值的比较。在某些实施方式中,标准化包括缩放。标准化有时包括通过预定标量或公式划分一个或多个数据组。标准化方法的非限制性示例包括逐份标准化、通过GC含量的标准化、线性和非线性最小二乘回归、LOESS、GCLOESS、LOWESS(局部加权回归散点平滑法)、PERUN、ChAI、重复掩蔽(RM)、GC-标准化和重复掩蔽(GCRM)、cQn和/或其组合。在一些实施方式中,确定存在或缺失遗传变异(例如非整倍性,微复制,微缺失)采用标准化方法(例如逐份标准化、通过GC含量的标准化、线性和非线性最小二乘回归、LOESS、GC LOESS、LOWESS(局部加权回归散点平滑法)、PERUN、ChAI、重复掩蔽(RM)、GC-标准化和重复掩蔽(GCRM)、cQn,本领域已知的标准化方法和/或其组合)。
可使用任何合适的标准化次数。在一些实施方式中,数据组能经标准化1次或更多次、5次或更多次、10次或更多次或甚至20次或更多次。可使数据组针对表示任何合适特点或变量(如样品数据、参照数据或两者)的值(如标准化值)作标准化。可用的数据标准化类型的非限定性示例包括使一个或多个所选测试或参照部分的原始计数数据针对映射到所选部份或节段的所述染色体或全基因组的映射上的计数总数作标准化;使一个或多个所选的部份的原始计数数据针对映射到所选部份或区段的一个或多个部份或所述染色体的中值参考计数作标准化;使原始计数数据针对前述经标准化的数据或其导出数作标准化;和使前述经标准化的数据针对一个或多个其它预定的标准化变量作标准化。根据所选作为预定标准化变量的特点或属性,使数据组标准化有时具有分离统计误差的作用。通过使数据转为共同量级(scale)(如预定的标准化变量),使数据组标准化有时也使量级不同的数据的数据特征具有可比性。在一些实施方式中,对统计学导出数值的一次或多次标准化可用于使数据差异最小化并减少异常数据(outlying data)的重要性。涉及标准化值时,对部份或参照基因组的部份标准化有时称为“逐份标准化”。
在某些实施方式中,加工步骤包括标准化,包括标准化至静态窗,和在一些实施方式中,加工步骤包括标准化,包括标准化至动态或滑动窗。本文术语“窗”指选择用于分析的一种或多种部份,有时用作比较的参考(如用作标准化和/或其他数学或统计操作)。本文术语“标准化至静态窗”指使用选择用于比较测试对象和参照对象数据组的一种或多种部份的标准化过程。在一些实施方式中,所选部份用于生成概况。静态窗通常包括预定的部份的组,其在操作和/或分析期间不改变。本文术语“标准化至动态窗”或“标准化滑动窗”指对定位于所选测试部份的基因组区域(例如遗传上紧密环绕、毗连的部份或节段)的部份进行标准化,其中一种或多仲所选测试部份标准化至紧密环绕所选测试部份的部份。在某些实施方式中,所选部份用于生成概况。滑动或动态窗标准化通常包括重复移动或滑动至毗邻测试部份,和将新选的测试部份标准化至紧密环绕或毗邻所述新选的测试部份的部份,其中毗邻的窗具有一种或多种共用部份。在某些实施方式中,可通过滑动窗过程分析多种所选测试部份和/或染色体。
在一些实施方式中,标准化至滑动或动态窗可产生一个或多个值,其中各值代表针对从基因组不同区域(例如染色体)选择的不同组参照部份的标准化。在某些实施方式中,所得的一个或多个值是累加值(例如就所选部份、结构域(例如染色体的部分)或染色体的标准化计数概况的积分的数字估计)。滑动或动态窗过程所得值可用于产生概况和便于获得结果。在一些实施方式中,一个或多个部份的累加可显示为基因组位置的函数。动态或滑动窗分析有时用于分析基因组是否存在微缺失和/或微插入。在某些实施方式中,显示一个或多个部份的累加用于鉴定是否存在遗传变异区域(例如微缺失、微复制)。在一些实施方式中,动态或滑动窗分析用于鉴定含微缺失的基因组区域和在某些实施方式中,动态或滑动窗分析用于鉴定含微复制的基因组区域。
下文详细描述可使用的标准化过程的某些示例,例如LOESS,PERUN,ChAI和主成分标准化方法。
在一些实施方式中,加工步骤包括加权。本文所用的术语“加权的”、“加权”或“加权函数”或其语法衍生形式或等同形式指对数据组的部分或全部的数学处理,所述数据组处理有时用于改变某些数据组特点或变量对其它数据组特点或变量的影响(如根据所选参照基因组的一个或多个部份中数据的质量或实用性,增加或减少参照基因组的一个或多个部份中所含数据的重要性和/或基值)。在一些实施方式中,加权函数能用于增加测量变量相对较小的数据的影响,和/或减少测量差异相对较大的数据的影响。例如,能对含有过低频出现或低量序列数据参照基因组的部份“降权重(down weighted)”以最小化对数据组的影响,反之能对参照基因组的所选部份“升权重(up weighted)”以增加对数据组的影响。加权函数的非限定性示例是[1/(标准偏差)2]。加权步骤有时以与标准化步骤基本相似的方式进行。在一些实施方式中,使数据组除以预定变量(如加权变量)。经常选择预定变量(如最小化靶函数,Phi)对数据组的不同部分有区分地加权(如增加某些数据类型的影响,而降低其它数据类型的影响)。
在某些实施方式中,处理步骤能包括一种或多种数学和/或统计学处理。任意合适的数学和/或统计学处理可以单一或联合用于分析和/或处理本文所述的数据组。能使用任意合适次数的数学和/或统计学处理。在一些实施方式中,数据组可经数学和/或统计学处理1次或多次、5次或更多次、10次或更多次或者20次或更多次。能使用的数学和统计学处理的非限定性示例包括加法、减法、乘法、除法、代数函数、最小二乘估计、曲线拟合、微分方程、有理多项式、二重多项式、正交多项式、z-分值、p值、chi值、phi值、峰水平分析、确定峰边缘位置、计算峰面积比、分析中值染色体水平、计算算术平均绝对偏差、残差平方和、平均、标准偏差、标准误等,或其组合。能对序列读取数据或其经处理的结果的全部或部分进行数学和/或统计学处理。可经统计学处理的数据组变量或特征的非限制性示例包括原始计数、过滤计数、标准化计数、峰高、峰宽、峰面积、峰边缘、侧向公差、P值、中值水平、平均水平、基因组区域内的计数分布、核酸物质的相对值表示等,或其组合。
在一些实施方式中,处理步骤能包括使用一种或多种统计学算法。任意合适的统计学算法都可以单一或联合用于分析和/或处理本文所述的数据组。可使用任何合适数量的统计学算法。在一些实施方式中,能使用1种或更多种、5种或更多种、10种或更多种或者20种或更多种统计学算法来分析数据组。合适伴随本文所述方法使用的统计学算法的非限定性示例包括决策树、计数空值(counternull)、多重比较、综合检验、贝伦斯-费希尔问题、拔靴法(bootstrapping)、结合显著性独立测试的Fisher方法、零假设、I型误差、II型误差、精确检验、单样本Z检验、双样本Z检验、单样本t检验、配对t检验、有相等方差的双样本合并t检验、有不相等方差的双样本未合并t检验、单比例z检验、合并的双比例z检验、未合并的双比例z检验、单样本卡方检验、有相等方差的双样本F检验、置信区间、可信区间、显著性、荟萃分析(meta-analysis)、简单线性回归、强线性回归等,或前述组合。能使用统计学算法分析的数据组变量或特征的非限制性示例包括原始计数、过滤计数、标准化计数、峰高、峰宽、峰边缘、侧向公差(lateral tolerance)、P值、中值水平、平均水平、基因组区域内的计数分布、核酸物质的相对值表示等,或其组合。
在某些实施方式中,数据组可采用多种(例如2或更多)统计算法进行分析(例如最小二乘回归、主成分分析、线性判别分析、二次判别分析、Bagging、神经网络、支持向量机模型、随机森林、分类树模型、K-最近邻法(k-nearest neighbors),逻辑回归和/或平滑损失(loss smoothing)和/或数学和/或统计学操作(例如本文所述操作)。在一些实施方式中,使用多种操作可产生N维空间,其可用于提供结果。在某些实施方式中,通过采用多种操作的数据组分析可降低数据组的复杂性和/或维度。例如,在参考数据组上使用多种操作可产生N维空间(例如概率图),其可用于代表是否存在遗传变异,这取决于参照样品的遗传状态(例如对所选遗传变异阳性或阴性)。使用基本相似的操作组分析测试样品可用于产生所测样品各自的N维点。测试对象数据组的复杂性和/或维度有时降低至可容易地与参照数据的N维空间进行比较的N维度点或单一值。落入由参照对象数据填充的N维空间内的测试样品数据表示与该参照对象基本相似的遗传状态。落入由参照对象数据填充的N维空间外的测试样品数据表示与该参照对象基本不相似的遗传状态。在一些实施方式中,参照是整倍体或者不具有遗传变异或医学症状。
在一些实施方式中,数据组经计算、任选过滤和标准化后,经加工的数据组可用一种或多种过滤和/或标准化程序进一步操作。在某些实施方式中,可用一种或多种过滤和/或标准化程序进一步操作的数据组可用于产生概况。在一些实施方式中,一种或多种过滤和/或标准化程序有时可降低数据组复杂性和/或维度。可基于复杂性和/或维度降低的数据组提供结果。
在一些实施方式中,部份可根据误差测量进行过滤(例如标准偏差、标准误差、计算方差、p-值、算术平均绝对误差(MAE)、平均绝对偏差和/或算术平均绝对偏差(MAD)。在某些实施方式中误差测量指计数可变性。在一些实施方式中,部份根据计数可变性进行过滤。在某些实施方式中,计数可变性是针对多种样品(例如获自多种对象的多种样品,例如50或更多、100或更多、500或更多、1000或更多、5000或更多或10,000或更多对象)的映射至参照基因组的部份(即部份)的计数所确定的误差测量。在一些实施方式中,具有高于预定上限范围的计数可变性的部份可被过滤(例如从考虑中排除)。在一些实施方式中,预定上限范围是等于或大于约50,约52,约54,约56,约58,约60,约62,约64,约66,约68,约70,约72,约74或等于或大于约76的MAD值。在一些实施方式中,具有低于预定下限范围的计数可变性的部份可被过滤(例如从考虑中排除)。在一些实施方式中,预定下限范围是等于或小于约40,约35,约30,约25,约20,约15,约10,约5,约1,或等于或小于约0的MAD值。在一些实施方式中,具有超出预定范围的计数可变性的部份可被过滤(例如从考虑中排除)。在一些实施方式中,预定范围是大于0且小于约76、小于约74、小于约72、小于约71、小于约70、小于约69、小于约68、小于约67、小于约66、小于约65、小于约64、小于约62、小于约60、小于约58、小于约56、小于约54、小于约52、小于约50的MAD值。在一些实施方式中,预定范围是大于0和小于约67.7的MAD值。在一些实施方式中,选择计数可变性在预定范围内的部份(例如用作确定是否存在遗传变异)。
在一些实施方式中,部份的计数可变性代表分布(例如正态分布)。在一些实施方式中,可在分布的分位数内选择部份。在一些实施方式中,选择分布的分位数在等于或小于约99.9%,99.8%,99.7%,99.6%,99.5%,99.4%,99.3%,99.2%,99.1%,99.0%,98.9%,98.8%,98.7%,98.6%,98.5%,98.4%,98.3%,98.2%,98.1%,98.0%,97%,96%,95%,94%,93%,92%,91%,90%,85%,80%或等于或小于约75%内的部份。在一些实施方式中,选择计数可变性的分布的分位数在99%内的部份。在一些实施方式中,选择MAD>0和MAD<67.725,分位数在99%内的部份,得到对参照基因组的稳定部份组的鉴定。
涉及PERUN的部份过滤的非限制性示例(例如)本文所述以及国际专利申请号PCT/US12/59123(WO2013/052913),其全文通过引用纳入本文,包括所有文本、表格、等式和图。部份可基于或部分基于误差测量进行过滤。误差测量包括偏差的绝对值,例如R-因子,其在某些实施方式中可用于部份去除或加权。在一些实施方式中,R-因子定义为预测计数值与实测值的绝对偏差除以来自实测值的预测计数值之后的加和(例如本文所述公式B)。虽然可使用包括偏差绝对值的误差测量,合适的误差测量也可使用。在某些实施方式中,可使用不包括偏差绝对值的误差测量,例如基于二乘的分散体。在一些实施方式中,根据可映射能力的测量(例如可映射分数)对部份进行过滤或加权。有时根据映射至所述部份相对低数目的序列读数(例如映射至所述部份的0,1,2,3,4,5个读数)对部份进行过滤或加权。可根据进行分析的种类对部份进行过滤或加权。例如,对于染色体13、18和/或21的非整倍性分析,可过滤性染色体,并且仅常染色体或常染色体亚组可进行分析。
在具体实施方式中,可使用下述过滤过程。选择给定染色体(例如染色体21)内的相同组的部份(例如参照基因组的部份),并比较受影响和未受影响的样品中读数的数量。差距涉及21三体和整倍体样品,其涉及覆盖大多数染色体21的部份组。在整倍体和T21样品之间的所述部份组相同。部份组和单一节段之间的区别并不关键,如部份所定义的那样。比较不同患者中的相同的基因组区域。该过程可用作三体分析,例如T13或T18,除了或代替T21。
在一些实施方式中,数据组经计算、任选过滤和标准化后,经加工的数据组可通过加权进行操作。在某些实施方式中,一种或多种部份可选择进行加权以减少所选部份中所含的数据的影响(例如噪音数据、无信息数据),和在一些实施方式中,一种或多种部份可选择进行加权以提高或加强所选部份中所含的数据的影响(例如测量方差小的数据)。在一些实施方式中,采用单一加权函数对数据组进行加权,其降低方差大的数据影响并增加方差小的数据的影响。加权函数有时用于减少方差大的数据影响并增加差异小的数据的影响(例如[1/(标准偏差)2])。在一些实施方式中,进一步通过加权进行操作从而产生加工的数据的概况图,以便于分类和/或提供结果。可基于加权数据的概况图提供结果。
部份的过滤和加权可在分析中一个或多个合适的点进行。例如,部份可在序列读数映射至参考基因组的部份之前或之后进行过滤或加权。在一些实施方式中,部份可在确定个体基因组部份的实验偏差之前或之后进行过滤或加权。在一些实施方式中,部份可在计算基因组节段水平之前或之后进行过滤或加权。
在一些实施方式中,数据组经计算、任选过滤、标准化和任选加权后,经加工的数据组可通过一种或多种数学和/或统计学操作(如统计函数或统计算法)进行操作。在某些实施方式中,处理的数据可通过计算一个或多个所选部份、染色体或染色体的部份的Z分数来进一步操作。在一些实施方式中,处理的数据组可通过计算p值来进一步操作。计算Z分数和p值的等式的实施方式参见等式1(实施例2)。在某些实施方式中,数学和/或统计学操作包括一种或多种与倍数性和/或胎儿分数有关的假设。在一些实施方式中,进一步通过一种或多种数学和/或统计学操作进行操作从而产生加工的数据的概况图,以便于分类和/或提供结果。可基于数学和/或统计学操作数据的概况图提供结果。基于数学和/或统计学操作数据的概况图所提供的结果通常包括一种或多种与倍数性和/或胎儿分数有关的假设。
在某些实施方式中,数据组经计算、任选过滤和标准化后,在处理的数据组上进行多种操作以产生N维空间和/或N维点。可基于N维中分析的数据组的概况图提供结果。
在一些实施方式中,采用一种或多种峰水平分析、峰宽度分析、峰边缘位置分析、峰侧向公差等或其衍生分析或前述的组合对数据组进行处理,作为已处理和/或操作的数据组的一部分或在其之后。在一些实施方式中,采用一种或多种峰水平分析、峰宽度分析、峰边缘位置分析、峰侧向公差等或其衍生分析或前述的组合产生处理数据的概况图,以便于分类和/或提供结果。结果可基于数据的概况图提供,所述数据的概况图已采用一种或多种峰水平分析、峰宽度分析、峰边缘位置分析、峰侧向公差等或其衍生分析或前述的组合进行处理。
在一些实施方式中,使用基本不含所研究的遗传变异的一种或多种参照样品可用于生成参照中值计数概况,其可得到表示没有遗传变异的预定值,且通常偏离对应于测试对象中定位有遗传变异的基因组位置的区域中的预定值,若所述测试对象具有该遗传变异。在患有关联遗传变异的病症或有此风险的测试对象中,所选部份或节段的数字值预期与未受影响的基因组位置的预定值显著不同。在某些实施方式中,使用已知携带所研究的遗传变异的一种或多种参照样品可用于生成参照中值计数概况,其可得到表示具有遗传变异的预定值,和通常偏离对应于不具有遗传变异的基因组位置的面积中的预定值,其中测试对象在该基因组位置中不具有遗传变异。在不患有关联遗传变异的病症或没有此风险的测试对象中,所选部份或节段的数字值预期与受影响的基因组位置的预定值显著不同。
在一些实施方式中,分析和处理数据能包括使用一个或多个假设。合适数量或类型的假设可用于分析或加工数据组。能用于数据处理和/或分析的假设的非限定性示例包括母体倍性、胎儿基值、参照群中某些序列的普遍性、种族背景、相关家族成员中选择的医学病情的患病率、来自不同患者和/或GC标准化和重复掩蔽(如GCRM)后的运行的原始计数分布之间的对应性、代表PCR人造产物的相同匹配(如相同的碱基位置)、胎儿定量试验(如FQA)中的内在假定、关于双胞胎的假定(例如若有2个双胞胎并且仅有1个受影响,则有效胎儿分数仅是全部测量的胎儿分数的50%(三胞胎、四胞胎等也与之相似))、均一覆盖全基因组的胎儿无细胞DNA(如cfDNA)等,及其组合。
在经映射的序列读数的质量和/或深度不能在所需置信水平(如95%或更高的置信水平)预测是否存在遗传变异的结果的那些示例中,根据标准化的计数分布,可使用一种或多种额外数学处理算法和/或统计学预测算法以生成可用于数据分析和/或提供结果的额外数值。本文所用的术语“标准化的计数分布”指使用标准化的计数生成的分布。本文描述了能用于生成标准化计数和标准化计数分布的方法示例。可使所述已经计数的定位的序列读数相对于测试样品计数或参照样品计数作标准化。在一些实施方式中,标准化计数概况能以图示表示。
LOESS标准化
LOESS是本领域已知的回归模型,其在基于k-最邻近的元模型中组合多种回归模型。LOESS有时指局部加权的多项式回归。在一些实施方式中,GC LOESS应用LOESS模型至参照基因组的部份的GC组合物和片段计数(例如序列读数、计数)之间的关系。用LOESS通过数据点组描绘平滑曲线有时称为LOESS曲线,特别是通过加权的二次最小二乘回归相对于y轴散点图标准变量的值的跨度给定各平滑值时。对于数据组中的各点,LOESS方法拟合低度多项式至数据组,说明变量值接近经评估的响应的点。用加权最小二乘拟合多项式,使得接近经评估的响应的点具有更多权重而远离的点具有更少的权重。然后使用该数据点的说明变量值通过评估局部多项式来获得点的回归函数值。在回归函数值已经针对各数据点计算后,有时完全考虑LOESS拟合。该方法的许多细节,例如多项式模型的度和权重是灵活的。
PERUN标准化
降低核酸指示剂相关误差的标准化方法本文称为参数化误差去除和无偏标准化(PERUN),如本文描述和国际专利申请PCT/US12/59123(WO2013/052913)所述,其全文通过引用纳入本文,包括所有文本、表格、等式和图。PERUN法可用于各种核酸指示剂(例如核酸序列读数),用于降低混淆基于该指示剂的预测的误差影响。
例如,PERUN方法用于来自样品的核酸序列读数并降低损害基因组节段水平确定的误差影响。该应用有效用于使用核酸序列读数确定表现为各种水平的核苷酸序列(例如部份、基因组节段水平)的对象是否存在遗传变异。部份中变异的非限制性示例是染色体非整倍性(例如21三体,18三体,13三体)和是否存在性染色体(例如女性中的XX以及男性中的XY)。常染色体(例如性染色体以外的染色体)三体可称为受影响的常染色体。基因组节段水平中的变异的其他非限制性示例包括微缺失、微插入、重复和镶嵌性。
在某些应用中,PERUN方法可降低映射至参照基因组的特定部份的标准化核酸读数的实验偏差,后者称为部份和有时称为参照基因组的部份。该应用中,PERUN方法通常于三维方向上在跨大量样品的参照基因组的特定部份处标准化核酸读数的计数。PERUN及其应用的详细描述参见实施例部分,以及国际专利申请PCT/US12/59123(WO2013/052913)和美国专利申请公开号US20130085681,其全文通过引用纳入本文,包括所有文本、表格、等式和图。
在某些实施方式中,PERUN方法包括从下述结果计算参照基因组的部份的基因组节段水平:(a)测试样品映射至参照基因组的部份的序列读数计数,(b)测试样品的实验乖离(例如GC乖离)测试样品,和(c)针对(i)序列读数映射的参照基因组部份的实验乖离和(ii)映射至所述部份序列读数的计数之间的拟合关系的一种或多种拟合参数(例如拟合估计)。可在多种样品中根据针对(i)映射至各参照基因组部份的序列读数计数和(ii)参照基因组各部份的映射特征之间的拟合关系来确定各参照基因组的部份的实验乖离。各样品的这种拟合关系可于三维方向就多种样品进行集合。在某些实施方式中,该集合可根据实验乖离进行安排,虽然PERUN方法可实施而无需根据实验乖离安排所述集合。通过本领域已知的合适拟合过程,各样品的拟合关系和参照基因组的各部份的拟合关系可单独拟合至线性函数或非线性函数。
在一些实施方式中,关系是几何和/或图示关系。在一些实施方式中,关系是数学关系。在一些实施方式中,关系经作图。在一些实施方式中,关系是线性关系。在某些实施方式中,关系是非线性关系。在一些实施方式中,关系是回归(例如回归线)。回归可为线性回归或非线性回归。关系可通过数学等式表达。通常关系部分通过一个或多个常量来定义。可通过本领域已知方法产生关系。在某些实施方式中,可针对一种或多种样品产生二维关系,和可针对一种或多种所述维度选择变量误差检验或可能误差检验。例如,可使用本领域已知制图软件生成关系,所述软件使用用户提供的两个或更多变量值作图。可使用本领域已知方法(例如作图软件)拟合关系。某些关系可通过线性回归拟合,且线性回归可生成斜率和截距。某些关系有时非线性且可通过非-线性函数拟合,例如抛物线、双曲线或指数函数(例如二次函数)。
PERUN方法中,一种或多种拟合关系可为线性。为了分析妊娠女性的无细胞循环核酸,其中实验偏差是GC偏差且映射特征是GC含量,样品的(i)映射至各部份的序列读数计数和(ii)参照基因组的各部份的GC含量之间的拟合关系可为线性。对于后一拟合关系,在多种样品间集合拟合关系时可针对各样品确定涉及GC偏差的斜率和GC偏差系数。在该实施方式中,多种样品和部份的i)所述部份的GC偏差系数,和(ii)映射至部份的序列读数的计数之间的拟合关系也可为线性。可从后一拟合关系获得截距和斜率。在该应用中,斜率表示基于GC-含量的样品-特异性偏差,截距表示所有样品均具有的部份-特异性衰减模式。在计算基因组节段水平以提供结果时(例如是否存在遗传变异;确定胎儿性别),PERUN方法可显著减低样品-特异性偏差和部份-特异性衰减。
在一些实施方式中,PERUN标准化使用至线性函数的拟合并如等式A,等式B或其衍生等式所述。
等式A:
M=LI+GS (A)
等式B:
L=(M–GS)/I (B)
在一些实施方式中,L是PERUN标准化水平或概况。在一些实施方式中,L是从PERUN标准化程序所需的输出。在某些实施方式中L为部份特异的。在一些实施方式中,L根据参照基因组的多种部份来确定,其代表基因组、染色体、其部份或区段的PERUN标准化水平。水平L通常用于进一步分析(例如确定Z-值、母体缺失/复制、胎儿微缺失/微复制、胎儿性别、性非整倍体和等等)。根据等式B的标准化方法称为参数化误差去除和无偏标准化(PERUN)。
在一些实施方式中,G是使用线性模型、LOESS或任何等价方法测量的GC偏差系数。在一些实施方式中,G是斜率。在一些实施方式中,GC偏差系数G评估为针对部份i的计数M(例如原始计数)和从参照基因组确定的部份i的GC含量的回归的斜率。在一些实施方式中,G代表从M提取并根据关系确定的二级信息。在一些实施方式中,G代表样品(如测试样品)的部份特异的计数组和部份特异的GC含量值组的关系。在一些实施方式中,部份-特异性GC含量源自参照基因组。一些实施方式中,部份-特异性GC含量源自观察的或测量的GC含量(例如从样品测量)。GC偏差系数通常就样品组中的各样品确定,且通常就测试样品确定。GC偏差系数通常为样品特异的。在一些实施方式中,GC偏差系数为常数。在某些实施方式中GC偏差系数一旦从样品获得则不再变化。
在一些实施方式中,S是源自线性关系的斜率且I是截距。在一些实施方式中,I和S所源自的关系与G所源自的关系不同。在一些实施方式中,I和S所源自的关系针对给定的实验设置而言是固定的。在一些实施方式中,I和S源自根据计数(例如原始计数)的线性关系和根据多种样品的GC偏差系数。在一些实施方式中,I和S独立源自所述测试样品。在一些实施方式中,I和S源自多种样品。I和S通常是部份特异的。在一些实施方式中,I和S在整倍体样品中参照基因组的所有部份用L=1的假设确定。在一些实施方式中,针对整倍体样品确定线性关系,并确定对所选部份特异的I和S值(假定L=1)。在某些实施方式中,相同程序用于人基因组中参照基因组的所有部份并就各部分确定截距I和斜率S的组。
在一些实施方式中,应用交叉验证。交叉验证有时指旋转检验(rotationestimation)。在一些实施方式中,交叉验证法用于评估预测模型(例如PERUN)在用于测试样品的实施中的精确性。在一些实施方式中,一轮交叉验证包括划分数据样品成互补的亚组,在亚组上(例如有时称为训练组)进行交叉验证分析(例如有时)和使用另一亚组验证分析(例如有时称为验证组或测试组)。在某些实施方式中,使用不同划分产物和/或不同亚组进行多轮交叉验证)。交叉验证法的非限制性示例包括留一法、滑动边缘、K-倍、2-倍、重复随机取样等或其组合。在一些实施方式中,交叉验证随机选择含90%样品组的工作组,包括已知整倍体胎儿和使用该亚组训练模型。在一些实施方式中,随机选择重复100次,各部份产生100组斜率和100组截距。
在一些实施方式中,M值是源自测试样品的测量值。在一些实施方式中,M是针对部份的测量的原始计数。在一些实施方式中,值I和S可用于部份时,测量M测定自测试样品并用于根据等式B测定基因组、染色体、其区段或部份的PERUN标准化水平L。
因此,PERUN方法平行应用至多种样品的序列读数可显著降低由(i)样品-特异性实验偏差(例如GC偏差)和(ii)样品常见的部份-特异性衰减所引起的误差。误差的两个来源各自单独或连续寻址的其他方法通常不能如PERUN方法如此有效降低。不受理论限制,预期PERUN方法更有效降低误差部分是因为其一般加成过程不像其他标准化方法(例如GC-LOESS)中采用的一般乘法过程那样夸张地扩大。
其他标准化和统计学技术可与PERUN方法联用。其他过程可在使用PERUN方法之前、之后和/或期间应用。可与PERUN方法联用的过程的非限制性示例如下所述。
在一些实施方式中,GC含量的基因组节段水平的二级标准化或调整可与PERUN方法联用。可使用合适的GC含量调整或标准化程序(例如GC-LOESS,GCRM)。在某些实施方式中,可就其他GC标准化过程鉴定具体样品。例如,PERUN方法的应用可确定各样品的GC偏差,且关联高于特定阈值的GC偏差的样品可经选择用于其他GC标准化过程。该实施方式中,预定阈值水平可用于选择该样品用于其他GC标准化。
在某些实施方式中,部份过滤或加权过程可与PERUN方法联用。可使用合适的部份过滤或加权过程,本文,以及国际专利申请PCT/US12/59123(WO2013/052913)和美国专利申请公开号US20130085681描述非限制性示例,其全文通过引用纳入本文,包括所有文本、表格、等式和图。在一些实施方式中,降低关联母体插入、复制和/或缺失(例如母体和/或胎儿拷贝数变异)的标准化技术与PERUN方法联用。
通过PERUN方法计算的基因组节段水平可直接用于提供结果。在一些实施方式中,基因组节段水平可直接用于提供样品结果,其中胎儿分数为约2%-约6%或更高(例如约4%或更高的胎儿分数)。PERUN方法计算的基因组节段水平有时进一步加工用于提供结果。在一些实施方式中,计算的基因组节段水平经规格化。在某些实施方式中,测试部份(例如染色体21)的计算的基因组节段水平的加和、算术平均或中值可除以测试部份以外的部份(例如常染色体以外的染色体21)的计算的基因组部分水平的加和、算术平均或中值,生成实验的基因组区段水平。实验的基因组节段水平或原始基因组区段水平可用作规划化分析的部分,例如计算Z-分数或Z-分数。可通过实验的基因组节段水平或原始基因组节段水平减去预期的基因组节段水平来生成样品的Z-分数,且所得值可除以样品的标准偏差。在某些实施方式中,所得Z-分数可就不同样品分布并分析,或可关联其他变量,例如胎儿分数和其他,并分析,从而提供结果。
如本文所述,PERUN方法不限于根据GC偏差和GC含量本身进行标准化,并可用于减少关联其他误差来源的误差。非-GC含量偏差的来源的非-限制性示例是可映射能力。当解决GC偏差和含量以外的标准化参数时,一种或多种拟合关系可为非-线性(例如双曲线、指数)。在一些实施方式中,例如,实验偏差从非-线性关系确定时,可分析实验偏差曲率估计。
PERUN方法可应用于各种核酸指示剂。核酸指示剂的非限制性示例是微阵列的具体位置处的核酸序列读数和核酸水平。序列读数的非限制性示例包括获自无细胞循环DNA、无细胞循环RNA、细胞DNA和细胞RNA的那些。PERUN方法可应用于映射至合适的参照序列的序列读数,例如基因组参照DNA、细胞参照RNA(例如转录组)和其部份(例如DNA或RNA转录组的基因组互补物的部分、染色体的部分)。
因此,在某些实施方式中,细胞核酸(例如DNA或RNA)可用作核酸指示剂。映射至参照基因组部份的细胞核酸读数可使用PERUN方法标准化。结合具体蛋白质的细胞核酸有时指染色质免疫沉淀(ChIP)过程。ChIP-富集核酸是关联细胞蛋白质的核酸、例如DNA或RNA。ChIP-富集核酸的读数可用本领域已知技术获得。ChIP-富集核酸的读数可映射至参照基因组的一个或多个部份,且结果可使用PERUN方法标准化以提供结果。
在某些实施方式中,细胞RNA可用作核酸指示剂。细胞RNA读数可映射至参照RNA部份并使用PERUN方法标准化以提供结果。细胞RNA的已知序列(称为转录组)或其区段可用作参照,来自样品的RNA读数可映射至其处。样品RNA的读数可用本领域已知技术获得。映射至参照的RNA读数的结果可使用PERUN方法标准化以提供结果。
在一些实施方式中,微阵列核酸水平可用作核酸指示剂。可使用PERUN方法在阵列上分析样品具体位置的核酸水平或杂交核酸,从而标准化微阵列分析提供的核酸指示剂。用这种方式,微阵列上的具体位置或杂交核酸与映射的核酸序列读数的部份类似,并且PERUN方法可用于标准化微阵列数据以提供改善的结果。
ChAI标准化
可用于减少关联核酸指示剂的误差的其他标准化方法本文指ChAI,通常使用主成分分析。在某些实施方式中,主成分分析包括(a)根据读数密度分布过滤参照基因组的部份,从而提供测试样品的读数密度概况,包括过滤的部份的读数密度,其中所述读数密度包括妊娠女性的测试样品的循环无细胞核酸的序列读数,并就多种样品的部份的读数密度确定读数密度分布,(b)根据一种或多种主成分调整测试样品的读数密度概况,其中主成分通过主成分分析获自已知整倍体样品的组,从而提供测试样品概况,包括调整的读数密度,和(c)比较测试样品概况与参照概况,从而提供比较关系。在一些实施方式中,主成分分析包括(d)根据比较确定测试样品是否存在遗传变异。
过滤部份
在某些实施方式中,通过过滤过程将一个或多个部份(例如基因组的部份)从考虑中去除。在某些实施方式中,一个或多个部份经过滤(例如经历过滤过程),从而提供过滤的部份。在一些实施方式中,过滤过程移除某些部份和保留部份(例如部份亚组)。过滤过程后,保留的部份通常指本文的过滤的部份。在一些实施方式中,参照基因组的部份被过滤。在一些实施方式中,通过过滤过程去除的参照基因组的部份不包括在确定是否存在遗传变异中(例如染色体非整倍性、微复制、微缺失)。在一些实施方式中,关联读数密度(例如读数密度用于部份)的部份通过过滤过程去除并且关联去除的部份的读数密度不包括在确定是否存在遗传变异中(例如染色体非整倍性、微复制、微缺失)。在一些实施方式中,读数密度概况包括过滤的部份的读数密度和/或由其组成。可使用本领域已知或本文所述的任何合适的标准和/或方法对部份进行选择、过滤和/或从考虑中去除。用于过滤部份的标准的非限制性示例包括冗余数据(例如冗余或重叠映射的读数)、无-信息数据(例如0映射计数的参照基因组的部份)、具有过高频出现或过低频出现序列的参照基因组的部份、GC含量、噪音数据、可映射能力、计数、计数可变性、读数密度、读数密度可变性、不确定性的测量、可重复性测量等或前述的组合。部份有时根据计数分布和/或读数密度分布来进行过滤。在一些实施方式中,部份根据计数分布和/或读数密度分布来进行过滤,其中计数和/或读数密度获自一种或多种参照样品。有时一种或多种参照样品本文指训练组。在一些实施方式中,部份根据计数分布和/或读数密度分布来进行过滤,其中计数和/或读数密度获自一种或多种测试样品。在一些实施方式中,部份根据读数密度分布的不确定性测量进行过滤。在某些实施方式中,显示读数密度中大偏差的部份通过过滤过程去除。例如,可确定读数密度的分布(例如平均、算术平均或中值读数密度的分布,例如图37A),其中分布中的各读数密度映射至相同的部份。不确定性测量(例如MAD)可通过比较多种样品的读数密度的分布来确定,其中基因组各部份与不确定性测量相关联。根据前述示例,部份可根据关联各部份和预定阈值的不确定性测量(例如标准偏差(SD)、MAD)来过滤。图37B显示部份的MAD值的分布,根据多种样品的读数密度分布所确定。预定阈值如垂直虚线所示,所述线围成可接受的MAD值范围。图37B的示例中,通过过滤过程,包括在可接受范围内的MAD值的部份保留并且包括在可接受范围之外的MAD值的部份从考虑中去除。在一些实施方式中,根据前述示例,包括超出预定不确定性测量的读数密度值(例如中值,平均或算术平均读数密度)的部份通常通过过滤过程从考虑中去除。在一些实施方式中,包括超出分布的四分位间范围的读数密度值(例如中值,平均或算术平均读数密度)的部份通常通过过滤过程从考虑中去除。在一些实施方式中,包括超出分布的四分位间范围的2倍、3倍、4倍或5倍的读数密度值的部份通过过滤过程从考虑中去除。在一些实施方式中,包括超出2σ、3σ、4σ、5σ、6σ、7σ或8σ(例如其中σ是标准偏差定义的范围)的读数密度值的部份通过过滤过程从考虑中去除。
在一些实施方式中,系统包括过滤模块(18,图42A)。过滤模块通常接受、取回和/或储存部份(例如预定大小和/或重叠的部份,参照基因组内的部份位置)和关联部份的读数密度,通常来自其他合适的模块(例如分布模块12,图42A)。在一些实施方式中,所选部份(例如20(图42A),例如过滤的部份)通过过滤模块提供。在一些实施方式中,需要过滤模块来提供过滤的部份和/或从考虑中去除部份。在某些实施方式中,过滤模块从考虑中去除读数密度,其中读数密度关联去除的部份。过滤模块通常提供选择的部份(例如过滤的部份)至其他合适的模块(例如分布模块12,图42A)。过滤模块的非-限制性示例如实施例7所示。
乖离评估
测序技术易受多种来源的乖离所影响。有时测序乖离是局部乖离(例如局部基因组乖离)。局部偏好通常在序列读数水平出现。局部基因组偏好可为任何合适的局部偏好。局部偏好的非限制性示例包括序列偏好(例如GC偏好、AT偏好、等)、关联DNA酶I敏感性的偏好、熵、重复序列偏好、染色质结构偏好、聚合酶误差率偏好、回文偏好、插入重复偏好、PCR相关偏好、等或其组合。在一些实施方式中,局部偏好的来源未确定或未知。
在一些实施方式中确定局部基因组偏好评估。局部基因组偏好评估本文中有时指局部基因组乖离评估。局部基因组偏好评估可就参照基因组、其区段或部份确定。在一些实施方式中,确定一种或多种序列读数(例如样品的一些或全部序列读数)的局部基因组乖离评估。通常根据参照(例如参照基因组)的对应定位和/或位置的局部基因组乖离评估确定序列读数的局部基因组乖离评估。在一些实施方式中,局部基因组乖离评估包括定量测量序列乖离(例如序列读数、参照基因组序列)。局部基因组乖离评价可通过合适的方法或数学过程确定。在一些实施方式中,通过合适的方法和/或合适的分布函数(例如PDF)确定局部基因组乖离评估。一些实施方式中,局部基因组偏好评估包括PDF的定量表示。在一些实施方式中,局部基因组偏好评估(例如概率密度评价(PDE)、核心密度评价)通过局部偏好含量的概率密度函数(例如PDF,例如核心密度函数)来确定。一些实施方式中密度评价包括核心密度评价。局部基因组偏好评估有时表示为分布的平均、算术平均或中值。有时局部基因组偏好评估表示为加和或积分(例如合适的分布的曲线下面积(AUC)。
PDF(例如核心密度函数,例如Epanechnikov核心密度函数)通常包括带宽变量(例如带宽)。带宽变量通常定义窗的大小和/或长度,当使用PDF时从中得出概率密度评估(PDE)。得出PDE的窗通常包括多核苷酸的定义长度。在一些实施方式中得出PDE的窗是部份。通常根据带宽变量确定部份(例如部份大小,部份长度)。带宽变量确定用于确定局部基因组偏好评估的窗的长度或大小。从多核苷酸区段(例如核苷酸碱基的连续区段)的长度确定局部基因组偏好评估。PDE(例如读数密度,局部基因组偏好评估(例如GC密度))可使用任何合适的带宽确定,其非限制性示例包括约5碱基-约100,000碱基、约5碱基-约50,000碱基、约5碱基-约25,000碱基、约5碱基-约10,000碱基、约5碱基-约5,000碱基、约5碱基-约2,500碱基、约5碱基-约1000碱基、约5碱基-约500碱基、约5碱基-约250碱基、约20碱基-约250碱基或等的带宽。一些实施方式中,使用约400碱基或更少、约350碱基或更少、约300碱基或更少、约250碱基或更少、约225碱基或更少、约200碱基或更少、约175碱基或更少、约150碱基或更少、约125碱基或更少、约100碱基或更少、约75碱基或更少、约50碱基或更少或约25碱基或更少的带宽来确定局部基因组乖离评估(例如GC密度)。在某些实施方式中,使用带宽确定局部基因组乖离评估(例如GC密度),所述带宽根据给定对象和/或样品所获的序列读数的平均、算术平均、中值或最大读数长度来确定。有时使用带宽确定局部基因组偏好评估(例如GC密度),所述带宽约等于给定对象和/或样品所获的序列读数的平均、算术平均、中值或最大读数长度。在一些实施方式中,使用约250、240、230、220、210、200、190、180、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或约10碱基的带宽来确定局部基因组乖离评估(例如GC密度)。
局部基因组乖离评估可在单碱基分辨率下确定,尽管局部基因组乖离评估(例如局部GC含量)可以更低的分辨率确定。在一些实施方式中就局部乖离含量确定局部基因组乖离评估。通常使用窗确定局部基因组偏好评估(例如使用PDF测定)。在一些实施方式中,局部基因组偏好评估包括使用包括预选数量碱基的窗。有时窗包括连续碱基区段。有时窗包括非-连续碱基的一个或多个部份。有时窗包括一个或多个部份(例如基因组的部份)。窗大小或长度通常通过带宽和根据PDF确定。在一些实施方式中,窗为带宽长度的约10或更多、8或更多、7或更多、6或更多、5或更多、4或更多、3或更多、或约2或更多倍。使用PDF(例如核心密度函数)确定密度评估时,窗有时两倍于所选带宽的长度。窗可包括任何合适数量的碱基。在一些实施方式中,窗包括约5碱基-约100,000碱基、约5碱基-约50,000碱基、约5碱基-约25,000碱基、约5碱基-约10,000碱基、约5碱基-约5,000碱基、约5碱基-约2,500碱基、约5碱基-约1000碱基、约5碱基-约500碱基、约5碱基-约250碱基,或约20碱基-约250碱基。在一些实施方式中基因组或其区段划分为多个窗。涵盖基因组区域的窗可重叠或不重叠。在一些实施方式中,窗位于彼此距离相等的位置。在一些实施方式中,窗位于彼此距离不等的位置。在某些实施方式中,基因组或其区段划分为多个滑动窗,其中窗递增地滑过基因组或其区段,其中各增量的各窗包括局部基因组偏好评估(例如局部GC密度)。窗可根据任何数字形式或根据任何数学(athematic)定义的序列以任何合适的增量滑过基因组。一些实施方式中,对于局部基因组偏好评估确定,窗以下述增量滑过基因组,或其区段:约10,000bp或更多、约5,000bp或更多、约2,500bp或更多、约1,000bp或更多、约750bp或更多、约500bp或更多、约400碱基或更多、约250bp或更多、约100bp或更多、约50bp或更多或约25bp或更多。在一些实施方式中,对于局部基因组偏好评估确定,窗以下述增量滑过基因组或其区段:约25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或约1bp。例如,对于局部基因组偏好评估确定,窗可包括约400bp(例如200bp带宽)且可以1bp增量滑过基因组。在一些实施方式中,确定基因组或其区段中的各碱基的局部基因组乖离评估,使用核心密度函数和约200bp带宽。
在一些实施方式中局部基因组乖离评估是局部GC含量和/或表示局部GC含量。本文术语“局部”(例如用于描述局部乖离、局部偏好评估、局部偏好含量、局部基因组偏好、局部GC含量等)指10,000bp或更少的多核苷酸区段。在一些实施方式中,术语“局部”指多核苷酸区段为5000bp或更少、4000bp或更少、3000bp或更少、2000bp或更少、1000bp或更少、500bp或更少、250bp或更少、200bp或更少、175bp或更少、150bp或更少、100bp或更少、75bp或更少或50bp或更少。局部GC含量通常表示(例如数学,定量表示)基因组的局部区段的GC含量、序列读数、序列读数组装(例如毗连群、概况等)。例如,局部GC含量可为局部GC乖离评估或GC密度。
通常确定参照或样品(例如测试样品)的多核苷酸的一个或多个GC密度。在一些实施方式中GC密度是表示(例如数学、定量表示)局部GC含量(例如5000bp或更少的多核苷酸区段)。在一些实施方式中,GC密度是局部基因组乖离评估。可使用本文所述和/或本领域已知的合适过程确定GC密度。可使用合适的PDF(例如核心密度函数(例如Epanechnikov核心密度函数,例如参见图33))确定GC密度。在一些实施方式中GC密度是PDE(例如核心密度评价)。在某些实施方式中,GC密度通过是否存在一个或多个鸟嘌呤(G)和/或胞嘧啶(C)核苷酸来定义。在某些实施方式中,GC密度通过是否存在一个或多个腺嘌呤(A)和/或胸腺嘧啶(T)核苷酸来定义。在一些实施方式中,局部GC含量的GC密度,根据完整基因组或其区段(例如常染色体、染色体组、单染色体、基因,例如参见图34)所确定的GC密度标准化。可确定样品(例如测试样品)或参照样品的多核苷酸的一个或多个GC密度。通常确定参照基因组的GC密度。在一些实施方式中,根据参照基因组确定序列读数的GC密度。通常根据读数映射至的参照基因组的对应位点和/或位置所确定的GC密度确定读数的GC密度。在一些实施方式中,就参照基因组上的定位确定的GC密度分配和/或提供至读数,其中所述读数或其区段映射至参照基因组的相同位点。任何合适的方法可用于确定参照基因组上映射读数的位点用于生成读数的GC密度。在一些实施方式中,映射的读数的中值位置确定参照基因组上的位点,从其确定读数的GC密度。例如,读数的中值位置映射至参照基因组的染色体12的碱基数x处时,读数的GC密度通常以参照基因组的染色体12上碱基数x处或附近的位置的核心密度评价所确定的GC密度来提供。在一些实施方式中,根据参照基因组确定读数的一些或所有碱基位置的GC密度。有时读数的GC密度包括参照基因组上多种碱基位置所确定的两个或更多GC密度的平均、加和、中值或积分。
在一些实施方式中,局部基因组乖离评价(例如GC密度)经定量和/或提供数值。局部基因组偏好评价(例如GC密度)有时表达为平均、算术平均和/或中值。局部基因组偏好评价(例如GC密度)有时表达为PDE的最大峰高度。有时局部基因组偏好评价(例如GC密度)表示为合适PDE的加和或积分(例如曲线下面积(AUC))。一些实施方式中,GC密度包括核心加权。在某些实施方式中,读数的GC密度包括约等于下述的值:平均、算术平均、加和、中值、最大峰高度或核心加权的积分。
乖离频率
乖离频率有时根据一种或多种局部基因组偏好评估(例如GC密度)确定。乖离频率有时是样品、参照(例如参照基因组、参照序列)或其部分的局部基因组乖离评估的计数或加和。乖离频率有时是样品、参照或其部分的局部基因组偏好评估(例如各局部基因组偏好评估)的计数或加和。在一些实施方式中,乖离频率是GC密度频率。通常根据一个或多个GC密度确定GC密度频率。例如,GC密度频率可代表值x的GC密度相对整个基因组或其区段所代表的倍数。偏好频率通常为局部基因组偏好评估的分布,其中各局部基因组偏好评估的发生数代表偏好频率(例如参见图35)。偏好频率有时经数学处理和/或标准化。偏好频率可通过合适的方法经数学处理和/或标准化。在一些实施方式中,偏好频率根据样品、参照或其部分(例如常染色体,染色体亚组、单染色体、或其读数)的各局部基因组偏好评估的表示(例如组分、百分比)进行标准化。可确定样品或参照的一些或全部局部基因组偏好评估的乖离频率。在一些实施方式中,可确定测试样品的一些或全部序列读数的局部基因组偏好评估的乖离频率。
在一些实施方式中,系统包括偏好密度模块6。偏好密度模块可以任何合适的格式接受、取回和/或储存映射的序列读数5和参照序列2并生成局部基因组偏好评估、局部基因组偏好分布、偏好频率、GC密度、GC密度分布和/或GC密度频率(盒7统一代表)。在一些实施方式中偏好密度模块转移数据和/或信息(例如7)至其他合适的模块(例如关系模块8)。
关系
在一些实施方式中,在局部基因组偏好评估和偏好频率之间形成一种或多种关系。本文术语“关系”指两个或更多变量或值之间的数学和/或几何关系。关系可通过合适的数学和/或几何过程生成。关系的非限制性示例包括数学和/或几何过程表示:函数、相关性、分布、线性或非-线性等式、线、回归、拟合回归等或其组合。有时关系包括拟合关系。在一些实施方式中拟合关系包括拟合回归。有时关系包括加权的两个或更多变量或值。在一些实施方式中关系包括拟合回归,其中关系的一种或多种变量或值经加权。有时回归以加权形式拟合。有时回归拟合而不进行加权。在某些实施方式中,生成关系包括作图或图表。
在一些实施方式中,在局部基因组偏好评估和偏好频率之间确定合适的关系。在一些实施方式中,在样品的(i)局部基因组偏好评估和(ii)偏好频率之间生成关系提供样品偏好关系。在一些实施方式中,在参照的(i)局部基因组偏好评估和(ii)偏好频率之间生成关系提供参照偏好关系。在某些实施方式中,在GC密度和GC密度频率之间生成关系。在一些实施方式中,在样品的(i)GC密度和(ii)GC密度频率之间生成关系提供样品GC密度关系。在一些实施方式中,在参照的(i)GC密度和(ii)GC密度频率之间生成的关系提供参照GC密度关系。在一些实施方式中,局部基因组偏好评估是GC密度时,样品偏好关系是样品GC密度关系且参照偏好关系是参照GC密度关系。参照GC密度关系和/或样品GC密度关系的GC密度通常是局部GC含量的表示(例如数学或定量表示)。在一些实施方式中,局部基因组偏好评估和偏好频率之间的关系包括分布。在一些实施方式中,局部基因组偏好评估和偏好频率之间的关系包括拟合关系(例如拟合回归)。在一些实施方式中,局部基因组偏好评估和偏好频率之间的关系包括拟合线性或非-线性回归(例如多项式回归)。在某些实施方式中,局部基因组偏好评估和偏好频率之间的关系包括加权的关系,其中局部基因组偏好评估和/或偏好频率通过合适的过程加权。在一些实施方式中,加权的拟合关系(例如加权的拟合)可通过包括分位数回归、参数化分布或插值的经验分布的过程获得。在某些实施方式中,测试样品、参照或其部分的局部基因组偏好评估和偏好频率之间的关系包括多项式回归,其中局部基因组偏好评估经加权。一些实施方式中,加权的拟合模型包括加权分布的值。可通过合适过程加权分布的值。在一些实施方式中,靠近分布末尾的值比靠近分布中值的值提供更少的权重。例如,对于局部基因组偏好评估(例如GC密度)和偏好频率(例如GC密度频率)之间的分布,根据给定局部基因组偏好评估的偏好频率确定权重,其中包括接近分布算术平均的偏好频率的局部基因组偏好评估比包括较远离算术平均的偏好频率的局部基因组偏好评估提供更多权重。
在一些实施方式中,系统包括偏好关系模块8。关系模块可生成关系以及定义关系的函数、系数、常量和变量。关系模块可从合适的模块(例如偏好密度模块6)接受、存储和/或收回数据和/或信息(例如7)和生成关系。关系模块通常生成并比较局部基因组偏好评估的分布。关系模块可比较数据组并有时生成回归和/或拟合关系。在一些实施方式中,关系模块比较一种或多种分布(例如样品和/或参照局部基因组偏好评估的分布)并提供序列读数的计数的加权因子和/或加权分配9至其他合适的模块(例如偏好校正模块)。有时关系模块直接将序列读数的标准化计数提供至分布模块21,其中计数根据关系和/或比较进行标准化。
生成比较和其应用
在一些实施方式中,降低序列读数中的局部偏好包括标准化序列读数计数。序列读数计数通常根据测试样品与参照的比较进行标准化。例如,有时序列读数计数通过比较测试样品的序列读数的局部基因组偏好评估与参照的局部基因组偏好评估(例如参照基因组或其部分)进行标准化。在一些实施方式中,序列读数计数通过比较测试样品的局部基因组偏好评估的偏好频率与参照的局部基因组偏好评估的偏好频率进行标准化。在一些实施方式中,序列读数计数通过比较样品偏好关系和参照偏好关系进行标准化,从而生成比较。
序列读数计数通常根据两个或更多关系的比较标准化。在某些实施方式中,两个或更多关系进行比较,从而提供用于降低序列读数的局部偏好(例如标准化计数)的比较。两个或更多关系可通过合适的方法进行比较。在一些实施方式中,比较包括第二关系加、减、乘和/或除第一关系。在某些实施方式中比较两个或更多关系包括使用合适的线性回归和/或非-线性回归。在某些实施方式中比较两个或更多关系包括合适的多项式回归(例如3阶多项式回归)。在一些实施方式中,比较包括第二回归加、减、乘和/或除第一回归。在一些实施方式中,两个或更多关系通过包括多种回归的推断框架的过程进行比较。在一些实施方式中,两个或更多关系通过包括合适的多元分析的过程进行比较。在一些实施方式中,两个或更多关系通过包括基函数(例如混合函数、例如多项式基、傅立叶基或等)、样条函数、径向基函数和/或小波的过程进行比较。
在某些实施方式中,包括测试样品和参照的偏好频率的局部基因组偏好评估的分布通过包括多项式回归的过程进行比较,其中局部基因组偏好评估经加权。在一些实施方式中,在(i)比率,各比率包括参照的局部基因组偏好评估的偏好频率和样品的局部基因组偏好评估的偏好频率和(ii)局部基因组偏好评估之间生成多项式回归。在一些实施方式中,在(i)参照的局部基因组偏好评估的偏好频率与样品的局部基因组偏好评估的偏好频率的比率和(ii)局部基因组偏好评估之间生成多项式回归。在一些实施方式中,测试样品和参照的读数的局部基因组偏好评估的分布比较包括确定参照和样品的局部基因组偏好评估的偏好频率的对数比率(例如log2比率)。在一些实施方式中,局部基因组偏好评估的分布的比较包括参照的局部基因组偏好评估的偏好频率的log比率(例如log2比率)除以样品的局部基因组偏好评估的偏好频率的log比率(例如log2比率)(例如参见实施例7和图36)。
根据比较的标准化计数通常调整一些计数而不调整其他。标准化计数有时调整所有计数而有时不调整任何序列读数计数。序列读数计数有时通过包括确定加权因子的过程进行标准化和有时所述过程不包括直接生成和采用加权因子。根据比较的标准化计数有时包括确定各序列读数计数的加权因子。加权因子通常对序列读数特异且应用于特异性序列读数计数。加权因子通常根据两个或更多偏好关系(例如样品偏好关系比较参照偏好关系)的比较来确定。标准化计数通常通过根据加权因子调整计数值来确定。根据加权因子调整计数有时包括序列读数计数加、减、乘、和/或除加权因子。加权因子和/或标准化计数有时从回归(例如回归线)确定。标准化计数有时直接获自从参照(例如参照基因组)和测试样品的局部基因组偏好评估的偏好频率之间的比较得到的回归线(例如拟合回归线)。在一些实施方式中,样品的读数的各计数根据(i)读数的局部基因组偏好评估的偏好频率相比(ii)参照的局部基因组偏好评估的偏好频率之间的比较提供标准化计数值。在某些实施方式中,所获的样品序列读数计数经标准化且序列读数中的乖离降低。
有时系统包括偏好校正模块10。在一些实施方式中,偏好校正模块的函数通过关系模拟模块8进行。偏好校正模块可从合适的模块(例如关系模块8,压缩模块4)接受、收回、和/或存储映射的序列读数和加权因子(例如9)。在一些实施方式中,偏好校正模块将计数提供至映射的读数。在一些实施方式中,偏好校正模块将加权分配和/或偏好校正因子应用至序列读数计数从而提供标准化和/或调整的计数。偏好校正模块通常提供标准化计数至其他合适的模块(例如分布模块21)
在某些实施方式中,标准化计数包括因数化GC密度之外的一种或多种特征,并标准化序列读数计数。在某些实施方式中,标准化计数包括因数化一种或多种不同局部基因组偏好评估,并标准化序列读数计数。在某些实施方式中,根据由一种或多种特征(例如一种或多种偏好)所确定的加权对序列读数计数进行加权。在一些实施方式中,根据一种或多种组合权重标准化计数。有时根据一种或多种组合权重因数化一种或多种特征和/或标准化计数通过包括使用多元模型的过程。任何合适的多元模型可用于标准化计数。多元模型的非限制性示例包括多元线性回归、多元分位数回归、经验数据的多元插值、非-线性多元模型等或其组合。
在一些实施方式中,系统包括多元校正模块13。多元校正模块可多次进行偏好密度模块6、关系模块8和/或偏好校正模块10的函数从而调整多种偏好的计数。在一些实施方式中多元校正模块包括一个或多个偏好密度模块6、关系模块8和/或偏好校正模块10。偏好校正模块有时提供标准化计数11至其他合适的模块(例如分布模块21)
加权的部份
在一些实施方式中,部份经加权。在一些实施方式中,一个或多个部份经加权,从而提供加权的部份。加权部份有时去除部份依赖性。部份可通过合适的过程进行加权。在一些实施方式中,一个或多个部份通过本征函数加权(例如特征函数)。一些实施方式中,本征函数包括用正交的本征部份替代部份。在一些实施方式中系统包括部份加权模块42。在一些实施方式中,加权模块接受、收回和/或存储读数密度、读数密度概况、和/或调整的读数密度概况。在一些实施方式中,加权的部份通过部份加权模块提供。在一些实施方式中,需要加权模块来加权部份。加权模块可通过本领域已知或本文所述一种或多种加权方法加权部份。加权模块通常提供加权的部份至其他合适的模块(例如打分模块46、PCA统计模块33、概况生成模块26等)。
主成分分析
在一些实施方式中,读数密度概况(例如测试样品的读数密度概况(例如图39A)根据主成分分析(PCA)进行调整。一种或多种参照样品的读数密度概况和/或测试对象的读数密度概况可根据PCA调整。通过PCA相关过程从读数密度概况中去除乖离在本文中有时指调整概况。PCA可通过合适的PCA方法或其变体进行。PCA方法的非限制性示例包括经典相关性分析(CCA)、Karhunen–Loève变换(KLT)、Hotelling变换、合适正交分解(POD)、X的奇异值分解(SVD)、XTX特征值分解(EVD)、因子分析、Eckart–Young定理、Schmidt–Mirsky定理、经验正交函数(EOF)、经验特征函数分解、经验成分分析、似谐波模式、光谱分析,经验模式分析、等、其变体或组合。PCA通常鉴定读数密度概况中的一种或多种乖离。PCA鉴定的乖离在本文中有时指主成分。在一些实施方式中,一种或多种偏好可使用合适的方法根据一种或多种主成分通过调整读数密度概况去除。读数密度概况可通过一种或多种主成分加、减、乘、和/或除读数密度概况而调整。在一些实施方式中,一种或多种偏好可通过读数密度概况减去一种或多种主成分而从读数密度概况中去除。虽然读数密度概况中的偏好通常通过概况的PCA鉴定和/或定量,主成分通常在读数密度水平从概况中减去。PCA通常鉴定一种或多种主成分。在一些实施方式中PCA鉴定第1、第2、第3、第4、第5、第6、第7、第8、第9和第10或更多主成分。在某些实施方式中,1、2、3、4、5、6、7、8、9、10或更多主成分用于调整概况。通常,主成分用于以其在PCA中出现的顺序调整概况。例如,三个主成分从读数密度概况减去时,使用第1、第2、第3主成分。有时主成分所鉴定的偏好包括不用于调整概况的概况特征。例如,PCA可鉴定遗传变异(例如非整倍性、微复制、微缺失、缺失、移位、插入)和/或性别差异(例如参见图38C)作为主成分。因此在一些实施方式中,一种或多种主成分不用于调整概况。例如,有时第1、第2和第4主成分用于调整概况,当第3主成分不用于调整概况时。主成分可获自使用任何合适的样品或参照的PCA。在一些实施方式中,主成分获自测试样品(例如测试对象)。在一些实施方式中,主成分获自一种或多种参照(例如参照样品、参照序列、参照组)。例如,如图38A-C所示,PCA在获自包括多种样品的训练组的中值读数密度概况上进行(图38A),得到第1主成分(图38B)和第2主成分(图38C)的鉴定。在一些实施方式中,主成分获自已知没有在研的遗传变异的对象组。在一些实施方式中,主成分获自已知整倍体组。主成分通常根据使用参照(例如训练组)的一种或多种读数密度概况进行的PCA来鉴定。获自参照的一种或多种主成分通常从测试对象的读数密度概况中减去(例如图39B),从而提供调整的概况(例如图39C)。
在一些实施方式中,系统包括PCA统计模块33。PCA统计模块可从其他合适的模块(例如概况生成模块26)接受和/或收回读数密度概况。PCA通常通过PCA统计模块进行。PCA统计模块通常从参照组32、训练组30和/或从一种或多种测试对象28接受、收回和/或存储读数密度概况并加工读数密度概况。PCA统计模块可生成和/或提供主成分和/或调整读数密度概况,根据一种或多种主成分。通常通过PCA统计模块提供调整的读数密度概况(例如40,38)。PCA统计模块可将调整的读数密度概况(例如38,40)提供和/或转移至其他合适的模块(例如部份加权模块42,打分模块46)。在一些实施方式中PCA统计模块可提供性别判定36。性别判定有时根据PCA和/或根据一种或多种主成分确定胎儿性别。在一些实施方式中PCA统计模块包括下示的R代码的一些、全部或改良。计算主成分的R代码通常从清除数据开始(例如减去中值、过滤部份、和清理极值):
#Clean the data outliers for PCA
dclean<-(dat-m)[mask,]
for(j in 1:ncol(dclean))
{
q<-quantile(dclean[,j],c(.25,.75))
qmin<-q[1]-4*(q[2]-q[1])
qmax<-q[2]+4*(q[2]-q[1])
dclean[dclean[,j]<qmin,j]<-qmin
dclean[dclean[,j]>qmax,j]<-qmax
}
然后计算主成分:
#Compute principal components
pc<-prcomp(dclean)$x
最终,用下述计算各样品的PCA调整的概况:
#Compute residuals
mm<-model.matrix(~pc[,1:numpc])
for(j in 1:ncol(dclean))
dclean[,j]<-dclean[,j]-predict(lm(dclean[,j]~mm))
比较概况
在一些实施方式中,确定结果包括比较。在某些实施方式中,读数密度概况或其部份用于提供结果。在一些实施方式中,确定结果(例如确定是否存在遗传变异)包括比较两个或更多读数密度概况。比较读数密度概况通常包括比较就基因组所选区段生成的读数密度概况。例如,测试概况通常与参照概况比较,其中测试和参照概况就基本相同的基因组区段(例如参照基因组)确定。比较读数密度概况有时包括比较两个或更多读数密度概况部份的亚组。读数密度概况的部份亚组可代表基因组区段(例如染色体或其区段)。读数密度概况可包括任何量的部份亚组。有时读数密度概况包括2或更多、3或更多、4或更多、或5或更多亚组。在某些实施方式中,读数密度概况包括两个亚组的部份,其中各部份代表毗连的参照基因组区段。在一些实施方式中,测试概况可与参照概况比较,其中测试概况和参照概况都包括部份第一亚组和部份第二亚组,其中所述第一亚组和第二亚组代表基因组不同区段。读数密度概况的一些部份亚组可包括遗传变异,而部份的其他亚组有时基本不含遗传变异。有时概况(例如测试概况)的所有部分亚组基本不含遗传变异。有时概况(例如测试概况)的所有部分亚组包含遗传变异。在一些实施方式中,测试概况可包括含遗传变异的部份第一亚组和基本不含遗传变异的部份第二亚组。
在一些实施方式中,本文所述方法包括进行比较(例如比较测试概况与参照概况)。两个或更多数据组\两个或更多关系和/或两个或更多概况可通过合适的方法进行比较。适合比较数据组、关系和/或概况的统计学方法的非限制性示例包括Behrens-Fisher法、拔靴法、组合显著独立检验的Fisher方法、Neyman-Pearson检验、确认性数据分析、探测的数据分析、精确检验、F-检验、Z-检验、T-检验、计算和/或比较不确定性测量、原假说、计算空值(counternulls)等、卡方检验、综合检验、显著性(例如统计学显著性)的计算和/或比较水平、荟萃分析、多元分析、回归、简单线性回归、加强线性回归等或前述的组合。在某些实施方式中,比较两个或更多数据组、关系和/或概况包括确定和/或比较不确定性测量。本文所用“不确定性测量”指显著性测量(例如统计学显著性)、误差测量、方差测量、置信度测量等或其组合。不确定性测量可为值(例如阈值)或值的范围(例如区间、置信区间、Bayesian置信区间、阈值范围)。不确定性测量的非限制性示例包括p-值、合适的差异测量(例如标准偏差、σ、绝对偏差、算术平均绝对偏差、等),合适的误差测量(例如标准误差、均方误差、根均方误差等),合适的方差测量,合适的标准分数(例如标准偏差、积累百分比、百分比等价、Z-分数、T-分数、R-分数、标准九分(标准九分数)、标准九分数中的百分比等)等或其组合。在一些实施方式中,确定显著性水平包括确定不确定性测量(例如p-值)。在某些实施方式中,两种或更多数据组、关系和/或概况可采用多种(例如2或更多)统计方法进行分析和/或比较(例如最小二乘回归、主成分分析、线性判别分析、二次判别分析、Bagging、神经网络、支持向量机模型、随机森林、分类树模型、K-最近邻法(k-nearest neighbors),逻辑回归和/或平滑损失(loss smoothing)和/或任何合适的数学和/或统计学操作(例如本文所述操作)。
在某些实施方式中,比较两个或更多读数密度概况包括就两个或更多读数密度概况确定和/或比较不确定性测量。读数密度概况和/或关联的不确定性量有时进行比较以便于阐述数据组的数学和/或统计学处理和/或提供结果。测试对象的读数密度概况生成有时与就一种或多种参照(例如参照样品、参照对象等)生成的读数密度概况比较。在一些实施方式中,通过就染色体、其部份或区段比较测试对象的读数密度概况与参照的读数密度概况来提供结果,其中参照读数密度概况获自已知没有遗传变异的参照对象组(例如参照)。在一些实施方式中,通过就染色体、其部份或区段比较测试对象的读数密度概况与参照的读数密度概况来提供结果,其中参照读数密度概况获自已知含特异遗传变异的参照对象组(例如染色体非整倍性,三体,微复制,微缺失)。
在某些实施方式中,测试对象的读数密度概况与无遗传变异的预定值表示比较,且有时在对应于遗传变异所定位的基因组位点的一种或多种基因组位点(例如部份)偏离预定值。例如,测试对象中(例如患有关联遗传变异的医学病症或有此风险的对象)的读数密度概况预期与含在研遗传变异的测试对象的参照(例如参照序列,参照对象,参照组)的所选部份的读数密度概况显著不同。测试对象读数密度概况通常与不含在研遗传变异的测试对象的参照(例如参照序列、参照对象、参照组)的所选部份的读数密度概况基本相同。读数密度概况通常与预定阈值和/或阈值范围比较(例如参见图40)。本文所用术语“阈值”指用符合要求的数据组计算并作为诊断遗传变异的限制(例如拷贝数变异、非整倍性、微复制、微缺失、染色体异常等)的任何数字。在某些实施方式中,阈值超出本发明方法所获结果,对象诊断为具有遗传变异(例如三体)。在一些实施方式中,阈值或阈值范围通常通过数学和/或统计学处理序列读数数据(例如来自参照和/或对象)来计算。表明是否存在遗传变异的预定阈值或阈值范围可不同,但仍提供可用于确定是否存在遗传变异的结果。在某些实施方式中,生成包括标准化读数密度和/或标准化计数的读数密度概况以便于分类和/或提供结果。结果可基于包括标准化计数(例如使用该读数密度概况图)的读数密度概况图提供。
在一些实施方式中,系统包括打分模块46。打分模块可从其他合适的模块(例如概况生成模块26,PCA统计模块33,部份加权模块42等)接受、取回和/或储存读数密度概况(例如调整的,标准化的读数密度概况)。打分模块可接受、收回、存储和/或比较两个或更多读数密度概况(例如测试概况、参照概况、训练组、测试对象)。打分模块可通常提供分数(例如图、概况统计、比较(例如两个或更多概况的差异)、Z-分数、不确定性测量、判定区、样品判定50(例如确定是否存在遗传变异)、和/或结果)。打分模块可提供分数给最终用户和/或至其他合适的模块(例如显示器、打印机等)。在一些实施方式中打分模块包括下述的R代码的一些、所有或改良,其包括计算特异性测试的卡方统计的R函数(例如高-chr21计数)。
这三个参数为:
x=样品读数数据(部份x样品)
m=部份的中值
y=测试载体(例如对所有部份为假,而对chr21为真)
getChisqP<-function(x,m,y)
{
ahigh<-apply(x[!y,],2,function(x)sum((x>m[!y])))
alow<-sum((!y))-ahigh
bhigh<-apply(x[y,],2,function(x)sum((x>m[y])))
blow<-sum(y)-bhigh
p<-sapply(1:length(ahigh),function(i){
p<-chisq.test(matrix(c(ahigh[i],alow[i],bhigh[i],blow[i]),2))$p.value/2
if(ahigh[i]/alow[i]>bhigh[i]/blow[i])p<-max(p,1-p)
else p<-min(p,1-p);p})
return(p)
杂交回归标准化
在一些实施方式中,使用杂交标准化。在一些实施方式中,杂交标准化方法降低乖离(例如GC乖离)。在一些实施方式中,杂交标准化包括(i)分析双变量(例如计数和GC含量)的关系和(ii)根据所述分析选择和应用标准化方法。在某些实施方式中,杂交标准化包括(i)回归(例如回归分析)和(ii)根据所述回归选择和应用标准化方法。在一些实施方式中,获自第一样品(例如第一组样品)的计数通过与获自其他样品(例如第二组样品)的计数不同的方法标准化。在一些实施方式中,获自第一样品(例如第一组样品)的计数通过第一标准化方法进行标准化,获自第二样品(例如第二组样品)的计数通过第二标准化方法进行标准化。例如,在某些实施方式中第一标准化方法包括使用线性回归而第二标准化方法包括使用非-线性回归(例如LOESS、GC-LOESS、LOWESS回归、LOESS平滑)。
在一些实施方式中,杂交标准化方法用于标准化映射至基因组的部份或染色体的序列读数(例如计数、映射的计数、映射的读数)。在某些实施方式中,原始计数经标准化,和在一些实施方式中,调整、加权、过滤或先前标准化的计数通过杂交标准化方法标准化。在某些实施方式中,基因组节段水平或Z-分数经标准化。在一些实施方式中,映射至所选基因组的部份或染色体的计数通过杂交标准化方法经标准化。计数可指映射至基因组的部份的序列读数的合适测量、其非限制性示例包括原始计数(例如未压缩计数),标准化计数(例如PERUN、ChAI或合适的方法的标准化)、部份水平(例如平均水平、算术平均水平、中值水平,或等)、Z-分数、等,或其组合。计数可为一种或多种样品(例如测试样品、来自妊娠女性的样品)的原始计数或处理计数。在一些实施方式中,计数获自来自一个或多个对象的一个或多个样品。
在一些实施方式中,标准化方法(例如所述类型的标准化方法)根据回归(例如回归分析)和/或相关系数进行选择。回归分析指评估变量间(例如计数和GC含量)关系的统计学技术。在一些实施方式中,根据参照基因组的多种部份中各部份的计数和GC含量测量生成回归。可使用合适的GC含量测量,其非限制性示例包括测量鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶、嘌呤(GC)或嘧啶(AT或ATU)的含量、解链温度(Tm)(例如变性温度、退火温度、杂交温度)、测量自由能量、等或其组合。测量鸟嘌呤(G),胞嘧啶(C)、腺嘌呤(A)、胸腺嘧啶(T)、嘌呤(GC),或嘧啶(AT或ATU)含量的测量可表示为比例或百分比。在一些实施方式中,使用任何合适的比例或百分比、其非限制性示例包括GC/AT、GC/总核苷酸、GC/A、GC/T、AT/总核苷酸、AT/GC、AT/G、AT/C、G/A、C/A、G/T、G/A、G/AT、C/T、等或其组合。在一些实施方式中,测量GC含量是GC与总核苷酸含量的比例或百分比。在一些实施方式中测量GC含量是就映射至参照基因组部份的序列读数而言的GC与总核苷酸含量的比例或百分比。在某些实施方式中,根据映射至参照基因组的各部份的序列读数和/或从其中确定GC含量,且序列读数获自样品(例如样品获自妊娠女性)。在一些实施方式中,GC含量测量不是根据序列读数和/或从中确定。在某些实施方式中,就获自一个或多个对象的一个或多个样品确定GC含量测量。
在一些实施方式中,生成回归包括生成回归分析或相关性分析。可使用合适的回归,其非限制性示例包括回归分析、(例如线性回归分析),拟合优度分析,Pearson相关性分析,分级相关性,未解释的方差组分、Nash–Sutcliffe模型有效性分析、回归模型验证、比例减少损失、均方根差、等或其组合。在一些实施方式中生成回归线。在某些实施方式中生成回归包括生成线性回归。在某些实施方式中生成回归包括生成非-线性回归(例如LOESS回归、LOWESS回归)。
在一些实施方式中,回归确定是否存在相关性(例如线性相关性),例如计数和GC含量测量之间的相关性。在一些实施方式中生成回归(例如线性回归)并确定相关系数。在一些实施方式中,确定合适的相关系数,其非限制性示例包括确定系数、R2值、Pearson相关系数等。
在一些实施方式中,确定回归(例如回归分析线性回归)的拟合优度。拟合优度有时通过观察或数学分析确定。评估有时包括确定非-线性回归或线性回归的拟合优度是否更大。在一些实施方式中,相关系数是拟合优度的量度。在一些实施方式中评估回归的适合度根据相关系数和/或相关系数截止值确定。在一些实施方式中,拟合优度评估包括比较相关系数与相关系数截止值。在一些实施方式中,评估回归的拟合优度指示线性回归。例如,在某些实施方式中,线性回归的拟合优度大于非-线性回归的拟合优度,且所述拟合优度评估指示线性回归。在一些实施方式中评估指示线性回归且线性回归用于标准化计数。在一些实施方式中,评估回归的拟合优度指示非线性回归。例如,在某些实施方式中,非-线性回归的拟合优度大于线性回归的拟合优度,且所述拟合优度评估指示非线性回归。在一些实施方式中,评估指示非线性回归且非线性回归用于标准化计数。
在一些实施方式中,当相关系数等于或大于相关系数截止值,拟合优度评估指示线性回归。在一些实施方式中,当相关系数小于相关系数截止值,拟合优度评估指示非线性回归。在一些实施方式中,相关系数截止值预先确定。在一些实施方式中相关系数截止值为约0.5或更大、约0.55或更大、约0.6或更大、约0.65或更大、约0.7或更大、约0.75或更大、约0.8或更大或约0.85或更大。
例如,在某些实施方式中,相关系数等于或大于约0.6时,使用包括线性回归的标准化方法。在某些实施方式中,当相关系数等于或大于相关系数截止值0.6时,样品计数(例如参照基因组的每部份的计数、每部份的计数)根据线性回归经标准化,否则计数根据非-线性回归经标准化(例如当系数小于相关系数截止值0.6时)。在一些实施方式中,标准化过程包括就参照基因组的多个部份的各部份的(i)计数和(ii)GC含量生成线性回归或非-线性回归。在某些实施方式中,当相关系数小于相关系数截止值0.6时,使用包括非-线性回归(例如LOWESS,LOESS)的标准化方法。在一些实施方式中,当相关系数(例如相关系数)小于约0.7、小于约0.65、小于约0.6、小于约0.55或小于约0.5的相关系数截止值时,使用包括非-线性回归(例如LOWESS)标准化方法。例如在一些实施方式中,当相关系数小于约0.6的相关系数截止值时,使用包括非-线性回归(例如LOWESS,LOESS)的标准化方法。
在一些实施方式中,选择特异性类型的回归(例如线性或非-线性回归),并且在生成回归后,通过从计数中减去回归来标准化所述计数。在一些实施方式中,从计数中减去回归提供乖离(例如GC乖离)降低的标准化计数。在一些实施方式中从计数中减去线性回归。在一些实施方式中从计数中减去非-线性回归(例如LOESS,GC-LOESS,LOWESS回归)。任何合适的方法可用于从计数中减去回归线。例如,若计数x源自包括0.5的GC含量的部份i(例如部份i)且回归线确定GC含量0.5处的计数y、则x-y=部份i的标准化计数。在一些实施方式中,减去回归之前和/或之后标准化计数。在一些实施方式中,杂交标准化方法标准化的计数用于生成基因组节段水平,Z-分数、基因组或其区段的水平和/或概况。在某些实施方式中,杂交标准化方法标准化的计数通过本文所述方法分析以确定是否存在遗传变异(例如胎儿中)。
在一些实施方式中杂交标准化方法包括标准化之前或之后过滤或加权一个或多个部份。可用本文所述的合适方法过滤部份,包括过滤部份(例如参照基因组的部份)的方法。在一些实施方式中,应用杂交标准化方法之前过滤部份(例如参照基因组的部份)。在一些实施方式中,仅映射至所选部份(例如根据计数可变性选择的部份)的测序读数计数通过杂交标准化进行标准化。在一些实施方式中,映射至参照基因组的过滤部份(例如根据计数可变性过滤的部份)的测序读数计数在使用杂交标准化方法之前去除。在一些实施方式中,杂交标准化方法包括根据合适的方法(例如本文所述方法)选择或过滤部份(例如参照基因组的部份)。在一些实施方式中杂交标准化方法包括根据映射至多种测试样品的各部份的计数的不确定值选择或过滤部份(例如参照基因组的部份)。在一些实施方式中杂交标准化方法包括根据计数可变性选择或过滤部份(例如参照基因组的部份)。在一些实施方式中杂交标准化方法包括根据GC含量、重复元件、重复序列、内含子、外显子、等或其组合选择或过滤部份(例如参照基因组的部份)。
例如,在一些实施方式中,分析多个妊娠女性对象的多个样品且根据计数可变性选择部份亚组(例如参照基因组的部份)。在某些实施方式中线性回归用于确定获自妊娠女性对象的样品的各所选部份的(i)计数和(ii)GC含量的相关系数。在一些实施方式中,确定大于预定相关性截止值(例如约0.6)的相关系数,拟合优度评估指示线性回归并通过从计数中减去线性回归来标准化所述计数。在某些实施方式中,确定小于预定相关性截止值(例如约0.6)的相关系数,拟合优度评估指示非线性回归,生成LOESS回归,并通过从计数中减去LOESS回归来标准化所述计数。
概况
在一些实施方式中,处理步骤可包括从各种数据组或其衍生(例如本领域已知和/或本文所述的一种或多种数学和/或统计学数据处理步骤的结果)中生成一种或多种概况(例如概况图)。
本文术语“概况”指数据的数学和/或统计学操作的结果,其可便于在大量数据中鉴定模式和/或相关性。“概况”通常包括基于一种或多种标准对数据或数据组的一种或多种操作所得的值。概况通常包括多种数据点。任何合适数量的数据点可包括在概况中,取决于数据组的性质和/或复杂度。在某些实施方式中,概况可包括2或更多数据点、3或更多数据点、5或更多数据点、10或更多数据点、24或更多数据点、25或更多数据点、50或更多数据点、100或更多数据点、500或更多数据点、1000或更多数据点、5000或更多数据点、10,000或更多数据点,或100,000或更多数据点。
在一些实施方式中,概况是整个数据组的表示,和在某些实施方式中,概况是数据组部分或亚组的表示。即,概况有时包括未过滤移除任何数据的数据的数据点代表或从其中生成,和有时概况包括经过滤移除不想要数据的数据的数据点代表或从其中生成。在一些实施方式中,概况中数据点代表部份的数据操作结果。在某些实施方式中,概况中数据点包括部份组的数据操作结果。在一些实施方式中,部份组可彼此相邻,和在某些实施方式中,部份组可来自染色体或基因组的不同部分。
源自数据组的概况中的数据点可表示任何合适的数据分类。数据可分组以生成概况数据点的类别的非限制性示例包括:基于大小的部份、基于序列特征的部份(例如GC含量、AT含量、染色体上的位置(例如短臂、长臂、着丝粒、端粒)等)、表达水平、染色体等或其组合。在一些实施方式中,概况可从获自其他概况(例如再次标准化至不同标准化值的标准化数据概况以生成再标准化数据概况)的数据点生成。在某些实施方式中,获自其他概况的数据点生成的概况减少了数据点数量和/或数据组的复杂性。减少了数据点数量和/或数据组的复杂性通常有利于解释数据和/或有利于提供结果。
概况(例如基因组概况,染色体概况,染色体区段概况)通常是两个或更多部份的标准化或非-标准化计数的集合。概况通常包括至少一种水平(例如基因组节段水平),通常包括两个或更多水平(例如概况通常具有多种水平)。水平通常用于具有约相同计数或标准化计数的部份的组。本文详细描述了水平。在某些实施方式中,概况包括一种或多种部份、所述部份可经加权、移除、过滤、标准化、调整、平均(得出均值)、加、减、或其任意组合的加工或变换。概况通常包括映射至定义两个或更多水平的部份的标准化计数,其中计数还通过合适方法根据水平之一进一步标准化。通常概况计数(例如概况水平)关联不确定值。
包括一种或多种水平的概况有时经填充(例如孔填充)。填充(例如孔填充)指鉴定和调整概况中源自母体微缺失或母体复制(例如拷贝数变异)的水平的过程。在一些实施方式中,填充源自胎儿微复制或胎儿微缺失的水平。在一些实施方式中,概况中微复制或微缺失可人为升高或降低概况(例如染色体概况)的总体水平,导致染色体非整倍性(例如三体性)确定的假阳性或假阴性。在一些实施方式中,概况中源自微复制和/或缺失的水平通过有时称为填充或孔填充的过程鉴定和调整(例如填充和/或移除)。在某些实施方式中,概况包括明显不同于概况内第二水平的一种或多种第一水平,各所述一种或多种第一水平包括母体拷贝数变异、胎儿拷贝数变异,或母体拷贝数变异和胎儿拷贝数变异,且一种或多种所述第一水平经调整。
包括一种或多种水平的概况可包括第一水平和第二水平。在一些实施方式中,第一水平不同于(例如明显不同)第二水平。在一些实施方式中第一水平包括第一组部份、第二水平包括第二组部份且第一组部份不是第二组部份的亚组。在某些实施方式中,第一组部份不同于第二组部份,从中确定第一和第二水平。在一些实施方式中,概况可具有不同于(例如明显不同,例如具有显著不同的值)概况内第二水平的多种第一水平。在一些实施方式中概况包括明显不同于概况内第二水平的一种或多种第一水平且所述一种或多种第一水平经调整。在一些实施方式中,概况包括明显不同于概况内第二水平的一种或多种第一水平,各所述一种或多种第一水平包括母体拷贝数变异、胎儿拷贝数变异,或母体拷贝数变异和胎儿拷贝数变异,且一种或多种所述第一水平经调整。在一些实施方式中概况中的第一水平从概况中去除或经调整(例如填充)。概况可包括多种水平,所述多种水平包括显著不同于一种或多种第二水平的一种或多种第一水平,通常概况中主要水平为第二水平,其中第二水平彼此大约相等。在一些实施方式中,概况中大于50%、大于60%、大于70%、大于80%、大于90%或大于95%的水平为第二水平。
概况有时显示为图。例如,表示部份的计数(例如标准化计数)的一种或多种水平可作图并可视化。可生成的概况图非限制性示例包括原始计数(例如原始计数概况或原始概况)、标准化计数、部份-加权的、Z-分数、p-值、面积比与拟合倍性、中值水平与拟合和测量的胎儿分数之间的比例、主成分、等或其组合。在一些实施方式中,概况图允许观察经操作的数据。某些实施方式中,概况图可用于提供结果(例如面积比与拟合倍性、中值水平与拟合和测量的胎儿分数之间的比例、主成分)。本文所用术语“原始计数概况图”或“原始概况图”指标准化至区域总计数的区域各部份中的计数的图(例如基因组、部份、染色体、参照基因组的染色体部份或染色体区段)。在一些实施方式中,可使用静态窗过程生成概况,和在某些实施方式中,可使用滑动窗过程生成概况。
针对测试对象生成的概况有时与一种或多种参照对象生成的概况进行比较,以便于阐述数据组的数学和/或统计学操作和/或提供结果。在一些实施方式中,基于一种或多种起始假设(例如母体核酸贡献(例如母体总积分)、胎儿核酸贡献(例如胎儿分数)、参照样品倍性等或其组合)生成概况。在某些实施方式中,测试概况通常以表示不含遗传变异的预定值为中心、和通常在测试对象中定位有遗传变异(若测试对象具有遗传变异)的基因组位置的对应面积中偏离预定值。在患有关联遗传变异的病症或有此风险的测试对象中,所选部份的数字值预期与未受影响的基因组位置的预定值显著不同。基于起始假设(例如固定的倍性或最佳倍性、固定的胎儿分数或最佳胎儿分数或其组合),表明是否存在遗传变异的预定阈值或截止值或阈值范围可不同,但其仍提供可用于确定是否存在遗传变异的结果。在一些实施方式中,概况指示和/或表示表型。
作为非限制性示例,标准化样品和/或参照计数概况可通过下述步骤获自原始序列读数数据:
(a)从已知不含遗传变异的参照组中计算所选染色体、其部份或区段的参照中值计数,
(b)从参照样品原始计数中去除无信息部份(例如过滤);
(c)将所有剩余参照参照基因组的部份的参照计数标准化至参照样品所选的染色体或所选的基因组位置的总残留数计数(例如去除无信息的参照基因组的部份后的加和剩余计数),从而生成标准化参照对象概况;
(d)从测试对象样品去除对应部份;和
(e)将一种或多种所选基因组位置的剩余测试对象计数标准化至含所选基因组位置的染色体或染色体的残留参照中值计数的加和、从而生成标准化测试对象概况。在某些实施方式中,涉及整个基因组的其他标准化步骤(通过(b)中的过滤的部份而减少)可包括在(c)和(d)之间。
能通过对计数映射的序列读数数据的一种或多种处理生成数据组概况。一些实施方式包括下述。映射序列读数,并确定映射到各基因组部份上的序列标签数目(如计数)。从经计数的映射的序列读数生成原始计数概况。在某些实施方式中,通过比较测试对象的原始计数概况与已知不含遗传变异的参照对象组的染色体、其部份或区段的参照中值计数概况提供结果。
在一些实施方式中,序列读数数据任选经过滤以去除噪音数据或无信息部份。过滤后,通常对剩余计数求和以生成经过滤的数据组。在某些实施方式中,从过滤的数据组生成过滤的计数概况。
序列读数数据经计数和任选过滤后,可标准化数据组以生成水平或概况。可通过标准化一种或多种所选部份至合适的标准化参照值来标准化数据组。在一些实施方式中,标准化参照值表示从中选择部份的染色体的总计数。在某些实施方式中,标准化参照值表示已知不含遗传变异的参照对象组制备的参照数据组的染色体的一种或多种相应部份。在一些实施方式中,标准化参照值表示分析是否存在遗传变异的测试对象制备的测试对象数据组的染色体的一种或多种相应部份。在某些实施方式中,标准化过程使用静态窗法进行、和在一些实施方式中,标准化过程使用移动或滑动窗法进行。在某些实施方式中,生成包括标准化计数的概况便于分类和/或提供结果。结果可基于包括标准化计数的概况图(例如使用该概况图)提供。
水平
在一些实施方式中,值(例如数值、定量值)归属为水平。计数可通过合适的方法、操作或数学过程(例如经加工的水平)确定。水平通常是或源自部份的组的计数(例如标准化计数)。在一些实施方式中部份的水平基本等于映射至部份的计数总数(例如计数,标准化计数)。通常从本领域已知的合适的方法、操作或数学过程加工、变换或处理的计数来确定水平。在一些实施方式中,水平源自经加工的计数,加工的计数的非限制性示例包括加权、去除、过滤、标准化、调整、平均、得出算术平均(例如算术平均水平)、加、减、变换的计数或其组合。在一些实施方式中水平包括经标准化的计数(例如部份的标准化计数)。水平可通过合适的过程用于计数标准化,其非限制性示例包括逐份标准化、GC含量的标准化、线性和非线性最小二乘回归、GC LOESS、LOWESS、PERUN、ChAI、RM、GCRM、cQn等和/或其组合)。水平可包括标准化计数或计数的相对量。在一些实施方式中,水平用于经平均的两个或更多部份的计数或标准化计数且所述水平指平均水平。在一些实施方式中水平用于具有标准化计数的算术平均的计数或算术平均的部份的组,其称为算术平均水平。在一些实施方式中就包括原始和/或过滤的计数部份得出水平。在一些实施方式中,水平基于原始计数。在一些实施方式中,水平关联不确定值(例如标准偏差,MAD)。在一些实施方式中,水平由Z-分数或p-值代表。本文中一个或多个部份的水平与"基因组节段水平"同义。
两个或更多水平(例如概况中两个或更多水平)的标准化或非-标准化计数有时可根据水平经数学操作(例如加、乘、平均、标准化等或其组合)。例如,两个或更多水平的标准化或非-标准化计数可根概况中一个、一些或全部水平进行标准化。在一些实施方式中,概况中所有水平的标准化或非-标准化计数根据概况中一个水平进行标准化。在一些实施方式中,概况中第一水平的标准化或非-标准化计数根据概况中第二水平的标准化或非-标准化计数进行标准化。
水平(例如第一水平,第二水平)的非限制性示例是包括加工的计数的部份的组水平、包括计数的算术平均、中值或平均的部份的组的水平、包括标准化计数的部份的组的水平等或其任何组合。在一些实施方式中,概况中第一水平和第二水平源自映射至相同染色体的部份的计数。在一些实施方式中,概况中第一水平和第二水平源自映射至不同染色体的部份的计数。
在一些实施方式中水平从映射至一个或多个部份的标准化或非-标准化计数确定。在一些实施方式中,水平从映射至两个或更多部份的标准化或非-标准化计数确定,其中各部份的标准化计数通常大约相同。就一水平而言,部份的组中的计数(例如标准化计数)可存在差异。就一水平而言,部份的组中可存在具有与所述组的其他部份(例如峰值和/或倾斜)显著不同的计数的一个或多个部份。关联任何合适数量的部份的任何合适数量的标准化或非-标准化计数可定义水平。
在一些实施方式中,可从所有或一些基因组的部份的标准化或非-标准化计数中确定一种或多种水平。通常,可从染色体或其区段的所有或一些标准化或非-标准化计数确定水平。在一些实施方式中,源自两个或更多部份(例如部份的组)的两个或更多计数确定水平。在一些实施方式中,(例如来自两个或更多部份的计数)两个或更多计数确定水平。在一些实施方式中,2-约100,000部份的计数确定水平。在一些实施方式中,2-约50,000、2-约40,000、2-约30,000、2-约20,000、2-约10,000、2-约5000、2-约2500、2-约1250、2-约1000、2-约500、2-约250、2-约100或2-约60部份的计数确定水平。在一些实施方式中,约10-约50部份的计数确定水平。在一些实施方式中,约20-约40或更多部份的计数确定水平。在一些实施方式中,水平包括来自约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60或更多部份的计数。在一些实施方式中,水平对应于部份的组(例如参照基因组的部份的组、染色体部份的组或染色体区段部份的组)。
在一些实施方式中,就邻近部份的标准化或非-标准化计数确定水平。在一些实施方式中,邻近部份(例如部份的组)代表基因组的相邻区段或染色体或基因的相邻区段。
例如,通过尾对尾合并部份时,其的两个或更多邻近部份可代表比各部份更长的DNA序列的序列集合。
例如,两个或更多邻近部份可代表整个基因组、染色体、基因、内含子、外显子或其区段。在一些实施方式中,从邻近部份和/或非-邻近部份的集合(例如组)中确定水平。
不同水平
在一些实施方式中,标准化计数概况包括显著不同于概况内其他水平(例如第二水平)的水平(例如第一水平)。第一水平可高于或低于第二水平。在一些实施方式中,第一水平用于包括一种或多种读数包括拷贝数变异(例如母体拷贝数变异、胎儿拷贝数变异、或母体拷贝数变异和胎儿拷贝数变异)的部份的组和第二水平用于包括基本无拷贝数变异的读数的部份的组。在一些实施方式中,显著不同指可观察到的不同。在一些实施方式中,显著不同指统计学不同或统计学显著不同。统计学显著不同有时是可观察的不同的统计学估计。可用本领域合适的方法估计统计学显著不同。任何合适的阈值或范围可用于确定明显不同的两种水平。在某些实施方式中两种水平(例如算术平均水平)差异约0.01%或更多(例如一个或另一个水平值的0.01%)为明显不同。在一些实施方式中,两种水平(例如算术平均水平)差异约0.1%或更多为明显不同。在一些实施方式中,两种水平(例如算术平均水平)差异约0.5%或更多为明显不同。在一些实施方式中,两种水平(例如算术平均水平)差异约0.5、0.75、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或大于10%为明显不同。在一些实施方式中,两种水平(例如算术平均水平)显著不同且各水平中无重叠和/或在就一种或两种水平计算的不确定值定义的范围内无重叠。在某些实施方式中所述不确定值是标准偏差,表示为б。在一些实施方式中,两种水平(例如算术平均水平)显著不同,它们差异为约1或更多倍的所述不确定值(例如1б)。在一些实施方式中,两种水平(例如算术平均水平)显著不同,它们差异为约2或更多倍不确定值(例如2б)、约3或更多、约4或更多、约5或更多、约6或更多、约7或更多、约8或更多、约9或更多或约10或更多倍不确定值。在一些实施方式中,当两种水平(例如算术平均水平)差异为约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、或4.0倍不确定值或更多时,它们显著不同。在一些实施方式中,置信水平随着两种水平之间差异的增加而增加。在某些实施方式中,置信水平随着两种水平之间差异的降低和/或不确定值的增加而降低。例如,有时置信水平以水平和标准偏差(例如MAD)之间差异的比例增加。
可采用一种或多种预测算法确定显著性或给出在变量条件下所采集检测数据的意义,它们的权重可相互独立或相互依赖。本文所用的术语“变量”指算法中具有某一或某组值的某因子、量或函数。
在一些实施方式中,第一组部份通常包括不同于(例如与之无重叠)第二组部份的部份。例如,有时标准化计数第一水平显著不同于概况中标准化计数的第二水平,且所述第一水平针对第一组部份,所述第二水平针对第二组部份和所述部份在第一组和第二组部份之间没有重叠。在某些实施方式中,第一组部份不是第二组部份的亚组,从中分别确定第一水平和第二水平。在一些实施方式中,第一组部份与第二组部份不同和/或有差异,从中分别确定第一水平和第二水平。
在一些实施方式中第一组部份是概况中第二组部份的亚组。例如,有时概况中第二组部份的标准化计数的第二水平包括概况中第一组部份的标准化计数的第一水平且第一组部份是概况中第二组部份的亚组。在一些实施方式中,平均、算术平均或中值水平源自第二水平,其中第二水平包括第一水平。在一些实施方式中,第二水平包括代表整个染色体的第二组部份且第一水平包括第一组部份,其中第一组是第二组部份的亚组且第一水平代表母体拷贝数变异、胎儿拷贝数变异或染色体中存在的母体拷贝数变异和胎儿拷贝数变异。
在一些实施方式中,第二水平的值比第一水平更接近染色体或其区段的计数概况的算术平均、平均或中值。在一些实施方式中,第二水平是染色体、染色体部份或其区段的水平的算术平均水平。在一些实施方式中,第一水平显著不同于代表染色体或其区段的主要水平(例如第二水平)。概况可包括多种第一水平,所述第一水平显著不同于第二水平,且各第一水平可独立高于或低于所述第二水平。在一些实施方式中,第一水平和第二水平源自相同染色体且第一水平高于或低于第二水平,所述第二水平是染色体的主要水平。在一些实施方式中,第一水平和第二水平源自相同染色体,第一水平指示拷贝数变异(例如母体和/或胎儿拷贝数变异、缺失、插入、复制)和第二水平是染色体或其区段的部份的算术平均水平或主要水平。
在某些实施方式中,第二水平的第二组部份中的读数基本不包括遗传变异(例如拷贝数变异,母体和/或胎儿拷贝数变异)。通常,第二水平的第二组部份包含一些可变性(例如水平可变性、部份的计数可变性)。在一些实施方式中,针对关联基本无拷贝数变异的水平的部份的组中的一个或多个部份包括一种或多种具有母体和/或胎儿基因组中存在的拷贝数变异的读数。例如,有时部份的组包括染色体小区段(例如少于10部份)中存在的拷贝数变异且部份的组用于与基本无拷贝数变异相关联的水平。因此,基本不包括拷贝数变异的部份的组仍可包括在水平的少于约10、9、8、7、6、5、4、3、2或1个部份中存在的拷贝数变异。
在一些实施方式中,第一水平用于第一组部份和第二水平用于第二组部份且第一组部份和第二组部份邻近(例如关于染色体或其区段的核酸序列毗邻)。在一些实施方式中,第一组部份和第二组部份不相邻。
胎儿和母体核酸混合物的相对短的序列读数可用于提供计数,其可变换为水平和/或概况。计数,水平和概况可以电子或有形形式描述并可为可视化。映射至部份(例如代表水平和/或概况)的计数可提供胎儿和/或妊娠女性中存在的胎儿和/或母体基因组、染色体、或染色体部份或区段的可视化表示。
参照水平和标准化参照值
在一些实施方式中概况包括参照水平(例如用作参照的水平)。通常标准化计数的概况提供参照水平,从中确定预期水平和预期范围(参见下述预期水平和范围)。参照水平通常用于包括来自母体和胎儿的映射读数的部份的标准化计数。参照水平通常是胎儿和母体(例如妊娠女性)的映射读数的标准化计数的加和。在一些实施方式中包括来自整倍体母体和/或整倍体胎儿的映射读数的部份的参照水平。在一些实施方式中参照水平用于包括具有胎儿和/或母体遗传变异(例如非整倍性(例如三体性)、拷贝数变异、微复制、微缺失、插入)的映射读数的部份。在一些实施方式中,参照水平用于基本不包括胎儿和/或母体遗传变异(例如非整倍性(例如三体性)、拷贝数变异、微复制、微缺失、插入)的部份。在一些实施方式中第二水平用作参照水平。在某些实施方式中,概况包括标准化计数的第一水平和标准化计数的第二水平,所述第一水平显著不同于第二水平且所述第二水平是参照水平。在某些实施方式中,概况包括第一组部份的标准化计数的第一水平,第二组部份的标准化计数的第二水平,所述第一组部份包括具有母体和/或胎儿拷贝数变异的映射读数,所述第二组部份包括基本不具有母体拷贝数变异和/或胎儿拷贝数变异的映射读数,且所述第二水平是参照水平。
在一些实施方式中,就概况的一种或多种水平映射至部份的计数根据参照水平的计数进行标准化。在一些实施方式中,根据参照水平的计数标准化水平计数包括水平计数除以参照水平计数或其倍数或分数。根据参照水平的计数进行标准化的计数通常已根据其他过程(例如PERUN,ChAI)标准化,且参照水平计数也通常已标准化(例如通过PERUN,ChAI)。在一些实施方式中,根据参照水平的计数标准化水平计数,且参照水平的计数可在标准化之前或之后扩展为合适的值。扩展参照水平的计数的过程可包括任何合适的常量(即数字)且任何合适的数学操作可用于参照水平的计数。
标准化参照值(NRV)通常根据标准化的参照水平的计数确定。确定NRV可包括用于参照水平的计数的任何合适的标准化过程(例如数学操作),其中相同标准化过程用于标准化相同概况内其他水平的计数。确定NRV通常包括参照水平除以自身。确定NRV通常包括参照水平除以自身的倍数。确定NRV通常包括参照水平除以参照水平和常量(如任何数字)的加和或差值。
NRV有时指空值。NRV可为任何合适的值。在一些实施方式中,NRV是0以外的任何值。在一些实施方式中NRV是整数。在一些实施方式中NRV是正整数。在一些实施方式中NRV是1,10,100或1000。通常,NRV等于1。在一些实施方式中NRV等于0。参照水平的计数可标准化至任何合适的NRV。在一些实施方式中,参照水平的计数经标准化至0的NRV。通常参照水平的计数经标准化至1的NRV。
预期水平
预期水平有时是预定义水平(如理论水平、预测水平)。“预期水平”有时在本文称为“预定水平值”。在一些实施方式中,预期水平是就含拷贝数变化的部分组而言,标准化计数水平的预测值。在某些实施方式中,确定基本不含拷贝数变化的部分组的预期水平。能确定染色体倍性(如0、1、2(即二倍体)、3或4条染色体)或微倍性(microploidy)(纯合或杂合缺失、重复、其插入或缺乏)的预期水平。通常,确定母体微倍性(如母体和/或胎儿拷贝数变化)的预期水平。
遗传变异或拷贝数变化的预期水平可通过任何合适方式确定。一般,通过某一水平的适当数学运算确定预期水平(如就某一水平而言,映射到部分组的计数)。在一些实施方式中,用常数确定预期水平,所述常数有时称为预期水平常数。拷贝数变化的预期水平有时如下计算:将参照水平、参照水平的标准化计数或NRV乘以预期水平常数,加入预期水平常数,减去预期水平常数,除以预期水平常数,或其组合。通常,就同一对象、样品或测试组确定的预期水平(如母体和/或胎儿拷贝数变化的预期水平)根据相同参照水平或NRV确定。
通常,通过参照水平、参照水平的标准化计数或NRV乘以预期水平常数来确定预期水平,其中参照水平、参照水平的标准化计数或NRV不等于零。在一些实施方式中,通过向参照水平、参照水平的标准化计数或NRV加入预期水平常数来确定预期水平,所述参照水平、参照水平的标准化计数或NRV等于零。在一些实施方式中,参照水平、参照水平的标准化计数、NRV和预期水平常数可缩放。按比例缩放过程可包括任何合适常数(即数目)和任何合适数学运算,其中所研究的全部值应用同一按比例缩放过程。
预期水平常数
预期水平常数能通过合适方法确定。在一些实施方式中,任意确定预期水平常数。通常,凭经验确定预期水平常数。在一些实施方式中,预期水平常数根据数学运算确定。在一些实施方式中,预期水平常数根据参考(如参照基因组、参照样品、参照测试数据)确定。在一些实施方式中,就代表有或没有遗传变异或拷贝数变化(如重复、插入或缺失)的水平预定预期水平常数。在一些实施方式中,就代表有或没有母体拷贝数变化、胎儿拷贝数变化、或母体拷贝数变化和胎儿拷贝数变化的水平预定预期水平常数。用于拷贝数变化的预期水平常数可以是任何适当常数或常数组。
在一些实施方式中,纯合重复(如纯合重复)的预期水平常数可以是约1.6-约2.4,约1.7-约2.3,约1.8-约2.2,或约1.9-约2.1。在一些实施方式中,纯合重复的预期水平常数可以是约1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3或约2.4。通常,纯合重复的预期水平常数是约1.90、1.92、1.94、1.96、1.98、2.0、2.02、2.04、2.06、2.08或约2.10。通常,纯合重复的预期水平常数是约2。
在一些实施方式中,杂合重复(如纯合重复)的预期水平常数是约1.2-约1.8,约1.3-约1.7,或约1.4-约1.6。在一些实施方式中,杂合重复的预期水平常数是约1.2、1.3、1.4、1.5、1.6、1.7或约1.8。通常,杂合重复的预期水平常数是约1.40、1.42、1.44、1.46、1.48、1.5、1.52、1.54、1.56、1.58或约1.60。在一些实施方式中,杂合重复的预期水平常数是约1.5。
在一些实施方式中,没有拷贝数变化(如没有母体拷贝数变化和/或胎儿拷贝数变化)下的预期水平常数是约1.3-约0.7,约1.2-约0.8,或约1.1-约0.9。在一些实施方式中,没有拷贝数变化下的预期水平常数是约1.3、1.2、1.1、1.0、0.9、0.8或约0.7。通常,没有拷贝数变化下的预期水平常数是约1.09、1.08、1.06、1.04、1.02、1.0、0.98、0.96、0.94或约0.92。在一些实施方式中,没有拷贝数变化下的预期水平常数是约1。
在一些实施方式中,杂合缺失(如母体、胎儿、或母体和胎儿杂合缺失)的预期水平常数是约0.2-约0.8,约0.3-约0.7,或约0.4-约0.6。在一些实施方式中,杂合缺失的预期水平常数是约0.2、0.3、0.4、0.5、0.6、0.7或约0.8。通常,杂合缺失的预期水平常数是约0.40、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58或约0.60。在一些实施方式中,杂合缺失的预期水平常数是约0.5。
在一些实施方式中,纯合缺失(如纯合缺失)的预期水平常数可以是约-0.4-约0.4,约-0.3-约0.3,约-0.2-约0.2,或约-0.1-约0.1。在一些实施方式中,纯合缺失的预期水平常数是约-0.4、-0.3、-0.2、-0.1、0.0、0.1、0.2、0.3或约0.4。通常,纯合缺失的预期水平常数是约-0.1、-0.08、-0.06、-0.04、-0.02、0.0、0.02、0.04、0.06、0.08或约0.10。通常,纯合缺失的预期水平常数是约0。
预期水平范围
在一些实施方式中,是否存在遗传变异或拷贝数变化(如母体拷贝数变化,胎儿拷贝数变化,或母体拷贝数变化和胎儿拷贝数变化)通过水平落在预期水平范围之内或之外来确定。预期水平范围通常根据预期水平确定。在一些实施方式中,就基本不含遗传变异或基本不含拷贝数变化的水平确定预期水平范围。能采用合适方法确定预期水平范围。
在一些实施方式中,根据就某一水平计算的适当不确定值来定义预期水平范围。不确定值的非限制性示例是标准偏差、标准误差、计算的方差、p值和平均绝对偏差(MAD)。在一些实施方式中,遗传变异或拷贝数变化的预期水平范围部分如下确定:计算某一水平(如第一水平,第二水平,第一水平和第二水平)的不确定值。在一些实施方式中,根据就某一概况(如染色体或其区段的标准化计数概况)计算的不确定值来定义预期水平范围。在一些实施方式中,就基本不含遗传变异或基本不含拷贝数变化的水平计算不确定值。在一些实施方式中,就第一水平、第二水平或第一水平和第二水平计算不确定值。在一些实施方式中,就第一水平、第二水平或含第一水平的第二水平计算不确定值。
预期水平范围有时部分如下计算:将不确定值乘以、加入、减去或除以常数(如预定常数)n。能使用合适的数学过程或过程组合。常数n(如预定常数n)有时称为置信区间。根据所选常数n确定所选置信区间。常数n(如预定常数n,置信区间)能通过合适方式确定。常数n可以是某一数字或大于零的数字部分。常数n可以是整数。常数n通常是小于10的数字。在一些实施方式中,常数n是小于约10、小于约9、小于约8、小于约7、小于约6、小于约5、小于约4、小于约3、或小于约2的数字。在一些实施方式中,常数n是约10、9.5、9、8.5、8、7.5、7、6.5、6、5.5、5、4.5、4、3.5、3、2.5、2或1。可用已知遗传倾向从获自对象对象(妊娠女性和/或胎儿)的数据凭经验确定常数n。
通常,不确定值和常数n定义范围(如不确定性截止界限)。例如,不确定值有时是标准偏差(如+/-5)且乘以常数n(如置信区间),从而定义范围或不确定性截止界限(如5n到-5n)。
在一些实施方式中,遗传变异(如母体拷贝数变化,胎儿拷贝数变化,或母体拷贝数变化和胎儿拷贝数变化)的预期水平范围是预期水平加常数n乘不确定性(如n xσ(例如6σ))之和。在一些实施方式中,由k指定的遗传变异或拷贝数变化的预期水平范围可如下式定义:
式R:(预期水平范围)k=(预期水平)k+nσ
其中σ是不确定值,n是常数(如预定常数),预期水平范围和预期水平是针对遗传变异k(如k=杂合缺失,如k=没有遗传变异)。例如,对于等于1(如没有拷贝数变化)的预期水平、等于+/-0.05的不确定值(即σ)和n=3,预期水平范围定义为1.15-0.85。在一些实施方式中,当杂合重复的预期水平是1.5、n=3且不确定值σ是+/-0.05时,杂合重复的预期水平范围确定为1.65-1.35。在一些实施方式中,当杂合重复的预期水平是0.5、n=3且不确定值σ是+/-0.05时,杂合重复的预期水平范围确定为0.65-0.35。在一些实施方式中,当杂合重复的预期水平是2.0、n=3且不确定值σ是+/-0.05时,杂合重复的预期水平范围确定为2.15-1.85。在一些实施方式中,当杂合重复的预期水平是0.0、n=3且不确定值σ是+/-0.05时,杂合重复的预期水平范围确定为0.15至-0.15。
在一些实施方式中,纯合拷贝数变化(如母体、胎儿或母体和胎儿纯合拷贝数变化)的预期水平范围部分根据对应杂合拷贝数变化的预期水平范围来确定。例如,纯合重复的预期水平范围有时包括大于杂合重复的预期水平范围上限的所有值。在一些实施方式中,纯合重复的预期水平范围包括大于或等于杂合重复的预期水平范围上限的所有值。在一些实施方式中,纯合重复的预期水平范围包括大于杂合重复的预期水平范围上限且小于式R所定义上限的所有值,式R中σ是不确定值且为正值,n是常数和k是纯合重复。在一些实施方式中,纯合重复的预期水平范围包括大于或等于杂合重复的预期水平范围上限且小于或等于式R所定义上限的所有值,式R中σ是不确定值,σ是正值,n是常数且k是纯合重复。
在一些实施方式中,纯合缺失的预期水平范围包括小于杂合缺失的预期水平范围下限的所有值。在一些实施方式中,纯合缺失的预期水平范围包括小于或等于杂合缺失的预期水平范围下限的所有值。在一些实施方式中,纯合缺失的预期水平范围包括小于杂合缺失的预期水平范围下限且大于式R所定义下限的所有值,式R中σ是不确定值,σ是负值,n是常数且k是纯合缺失。在一些实施方式中,纯合缺失的预期水平范围包括小于或等于杂合缺失的预期水平范围下限且大于或等于式R所定义下限的所有值,式R中σ是不确定值,σ是负值,n是常数且k是纯合缺失。
不确定值能用于确定阈值。在一些实施方式中,通过计算从原始、过滤和/或标准化计数确定的不确定值,获得范围(如阈值)。范围能如下确定:用于某一水平的不确定值(如某一水平的标准化计数)乘以预定常数(如1、2、3、4、5、6等),代表选作截止阈值不确定性倍数(如标准偏差数)(如3个标准偏差乘以3),从而在一些实施方式中产生范围。范围能如下确定:向某一水平和/或从中加入和/或减去值(如预定值、不确定值、不确定值乘以预定常数),从而在一些实施方式中产生范围。例如,对于等于1的水平、+/-0.2的标准偏差,其中预定常数是3,所述范围能计算为(1+3(0.2))-(1+3(-0.2)),或1.6-0.4。范围有时能定义就拷贝数变化而言的预期范围或预期水平范围。在某些实施方式中,超过阈值、落在一定值范围之外或之内的一些或所有部分被移出作为标准化过程一部分,或在所述过程前后。在一些实施方式中,超过计算阈值、落在一定范围之外或之内的一些或所有部分加权或调整作为标准化或分类过程一部分,或在所述过程之前。本文描述加权示例。本文所用的术语“冗余数据”和“冗余映射读数”指样品衍生序列,其鉴定为已分配基因组位置(如碱基位置)和/或就某一部分计数。
在一些实施方式中,不确定值根据下式确定:
Figure BDA0000914062300000991
其中Z代表2种水平之间的标准偏差,是L平均(或中值)水平且σ是标准偏差(或MAD)。下标O表示概况区段(如第二水平、染色体、NRV、“整倍体水平”、没有拷贝数变化的水平),A表示另一概况区段(如第一水平、代表拷贝数变化的水平、代表非整倍体(如三染色体)的水平)。变量No代表下标O所示概况区段中的部分总数。NA代表下标A所示概况区段中的部分总数。
分类拷贝数变化
根据预期水平范围,与另一水平(如第二水平)显著不同的水平(如第一水平)通常能分类为拷贝数变化(如母体和/或胎儿拷贝数变化,胎儿拷贝数变化,缺失,重复,插入)。在一些实施方式中,当第一水平显著不同于第二水平且第一水平落在拷贝数变化的预期水平范围内时,存在拷贝数变化被分类。例如,当第一水平显著不同于第二水平且第一水平落在拷贝数变化的预期水平范围内时,能分类拷贝数变化(如母体和/或胎儿拷贝数变化,胎儿拷贝数变化)。在一些实施方式中,当第一水平显著不同于第二水平且第一水平分别落在杂合重复或杂合缺失的预期水平范围内时,分类杂合重复(如母体或胎儿,或母体和胎儿,杂合重复)或杂合缺失(如母体或胎儿,或母体和胎儿,杂合缺失)。在一些实施方式中,当第一水平显著不同于第二水平且第一水平分别落在纯合重复或纯合缺失的预期水平范围内时,分类纯合重复或纯合缺失。
水平调整
在一些实施方式中,调整一个或多个水平。调整水平的过程通常称为填充。在一些实施方式中,调整概况(如基因组概况,染色体概况,染色体部分或区段概况)中的多个水平。在一些实施方式中,调整概况中的约1-约10,000个或更多个水平。在一些实施方式中,调整概况中的约1-约1000个,1-约900个,1-约800个,1-约700个,1-约600个,1-约500个,1-约400个,1-约300个,1-约200个,1-约100个,1-约50个,1-约25个,1-约20个,1-约15个,1-约10个,或1-约5个水平。在一些实施方式中,调整一个水平。在一些实施方式中,调整与第二水平显著不同的水平(如标准化计数概况的第一水平)。在一些实施方式中,调整分类为拷贝数变化的水平。在一些实施方式中,与第二水平显著不同的水平(如标准化计数概况的第一水平)被分类为拷贝数变化(如拷贝数变化,例如母体拷贝数变化)并调整。在一些实施方式中,水平(如第一水平)在母体拷贝数变化、胎儿拷贝数变化、或母体拷贝数变化和胎儿拷贝数变化的预期水平范围内,调整所述水平。在一些实施方式中,一个或多个水平(如概况中的水平)未调整。在一些实施方式中,水平(如第一水平)在拷贝数变化的预期水平范围外,不调整所述水平。通常,在没有拷贝数变化下的预期水平范围之内的水平不调整。可对概况中一个或多个水平进行任何合适数量的调整。在一些实施方式中,调整一个或多个水平。在一些实施方式中,调整2个或更多、3个或更多、5个或更多、6个或更多、7个或更多、8个或更多、9个或更多和有时10个或更多水平。
在一些实施方式中,根据第二水平的值调整第一水平的值。在一些实施方式中,鉴定为代表拷贝数变化的第一水平调整到第二水平,其中第二水平通常与无拷贝数变化相关。在某些实施方式中,鉴定为代表拷贝数变化的第一水平的值进行调整,从而第一水平的值约等于第二水平的值。
调整可包括合适数学运算。在一些实施方式中,调整包括一个或多个数学运算。在一些实施方式中,通过标准化、过滤、平均、乘、除、加或减或其组合,调整水平。在一些实施方式中,通过预定值或常数调整水平。在一些实施方式中,通过将某一水平的值修改到另一水平的值,调整该水平。例如,通过将第一水平的值修改到第二水平的值,调整第一水平。这种情况中的值可以是加工值(如均值、标准化值等)。
在一些实施方式中,水平分类为拷贝数变化(如母体拷贝数变化)并根据预定值调整,所述预定值在本文称为预定调整值(PAV)。通常,就特定拷贝数变化确定PAV。通常,就特定拷贝数变化(如纯合重复、纯合缺失、杂合重复、杂合缺失)确定的PAV用于调整分类为特定拷贝数变化(如纯合重复、纯合缺失、杂合重复、杂合缺失)的水平。在某些实施方式中,水平分类为拷贝数变化,然后根据所分类拷贝数变化类型特异性PAV进行调整。在一些实施方式中,水平(如第一水平)分类为母体拷贝数变化、胎儿拷贝数变化、或母体拷贝数变化和胎儿拷贝数变化,通过从该水平加或减去PAV来调整。通常,水平(如第一水平)分类为母体拷贝数变化,通过向水平加入PAV来调整。例如,分类为重复(如母体、胎儿或母体和胎儿纯合重复)的水平能通加入就特定重复(如纯合重复)确定的PAV来调整,从而提供经调整水平。通常,就拷贝数重复确定的PAV是负值。在一些实施方式中,通过用就重复确定的PAV调整代表重复的水平,引起该水平的值降低。在一些实施方式中,与第二水平显著不同的水平(如第一水平)分类为拷贝数缺失(如纯合缺失、杂合缺失、纯合重复、纯合重复),通过加入就拷贝数缺失确定的PAV来调整第一水平。通常,就拷贝数缺失确定的PAV是正值。在一些实施方式中,通过用就缺失确定的PAV调整代表缺失的水平,引起该水平的值增加。
PAV可以是任何合适值。通常,PAV根据拷贝数变化(如分类的拷贝数变化)确定并特异于其。在某些实施方式中,PAV根据拷贝数变化(如分类的拷贝数变化)和/或PAV因子的预期水平确定。有时通过将预期水平乘以PAV因子,确定PAV。例如,拷贝数变化的PAV能如下确定:就拷贝数变化(如杂合缺失)确定的预期水平乘以就同一拷贝数变化(如杂合缺失)确定的PAV因子。例如,PAV能通过下式确定:
PAVk=(预期水平)k x(PAV因子)k
用于拷贝数变化k(如k=杂合缺失)
PAV因子可以是任何合适值。在一些实施方式中,纯合重复的PAV因子是约-0.6到约-0.4。在一些实施方式中,纯合重复的PAV因子是约-0.60、-0.59、-0.58、-0.57、-0.56、-0.55、-0.54、-0.53、-0.52、-0.51、-0.50、-0.49、-0.48、-0.47、-0.46、-0.45、-0.44、-0.43、-0.42、-0.41和-0.40。纯合重复的PAV因子通常是约-0.5。
例如,对于约1的NRV和等于约2的纯合重复的预期水平,纯合重复的PAV根据上式确定为约-1。此情况中,例如,分类为纯合重复的第一水平通过向第一水平的值加入约-1来调整。
在一些实施方式中,杂合重复的PAV因子是约-0.4到约-0.2。在一些实施方式中,杂合重复的PAV因子是约-0.40、-0.39、-0.38、-0.37、-0.36、-0.35、-0.34、-0.33、-0.32、-0.31、-0.30、-0.29、-0.28、-0.27、-0.26、-0.25、-0.24、-0.23、-0.22、-0.21和-0.20。杂合重复的PAV因子通常是约-0.33。
例如,对于约1的NRV和等于约1.5的杂合重复的预期水平,杂合重复的PAV根据上式确定为约-0.495。此情况中,例如,分类为杂合重复的第一水平通过向第一水平的值加入约-0.495来调整。
在一些实施方式中,杂合缺失的PAV因子是约0.4-约0.2。在一些实施方式中,杂合缺失的PAV因子是约0.40、0.39、0.38、0.37、0.36、0.35、0.34、0.33、0.32、0.31、0.30、0.29、0.28、0.27、0.26、0.25、0.24、0.23、0.22、0.21和0.20。杂合缺失的PAV因子通常是约0.33。
例如,对于约1的NRV和等于约0.5的杂合缺失的预期水平,杂合缺失的PAV根据上式确定为约0.495。此情况中,例如,分类为杂合缺失的第一水平通过向第一水平的值加入约0.495来调整。
在一些实施方式中,纯合缺失的PAV因子是约0.6-约0.4。在一些实施方式中,纯合缺失的PAV因子是约0.60、0.59、0.58、0.57、0.56、0.55、0.54、0.53、0.52、0.51、0.50、0.49、0.48、0.47、0.46、0.45、0.44、0.43、0.42、0.41和0.40。纯合缺失的PAV因子通常是约0.5。
例如,对于约1的NRV和等于约0的纯合缺失的预期水平,纯合缺失的PAV根据上式确定为约1。此情况中,例如,分类为纯合缺失的第一水平通过向第一水平的值加入约1来调整。
在某些实施方式中,PAV约等于或等于拷贝数变化的预期水平(如拷贝数变化的预期水平)。
在一些实施方式中,某一水平的计数在作出调整前进行标准化。在某些实施方式中,概况中一些或所有水平的计数在作出调整前进行标准化。例如,某一水平的计数能根据参照水平或NRV的计数进行标准化。在某些实施方式中,某一水平(如第二水平)的计数根据参照水平或NRV的计数进行标准化,概况中所有其他水平(如第一水平)的计数在作出调整前相对于同一参照水平或NRV的计数进行标准化。
在一些实施方式中,概况的水平源自一个或多个调整。在某些实施方式中,概况的水平在调整概况中一个或多个水平后确定。在一些实施方式中,概况的水平在作出一个或多个调整后再计算。
在一些实施方式中,从调整中确定(如直接或间接确定)拷贝数变化(如母体拷贝数变化,胎儿拷贝数变化,或母体拷贝数变化和胎儿拷贝数变化)。例如,经调整的概况中水平(如经调整的第一水平)能鉴定为母体拷贝数变化。在一些实施方式中,调整幅度指示拷贝数变化类型(如杂合缺失、纯合重复等)。在某些实施方式中,根据用于拷贝数变化的PAV值,概况中的调整水平能鉴定为代表拷贝数变化。例如,对于给定概况,PAV就纯合重复而言是约-1,就杂合重复而言是约-0.5,就杂合缺失而言是约0.5和就纯合缺失而言是约1。在前述示例中,例如,调整约-1的水平能鉴定为纯合重复。在一些实施方式中,从含一个或多个调整的概况或水平中能确定一个或多个拷贝数变化。
在某些实施方式中,比较概况内的调整水平。在一些实施方式中,通过比较调整水平来鉴定异常和错误。例如,通常比较概况中的一个或多个调整水平,特定水平可鉴定为异常或错误。在一些实施方式中,异常或错误在构成某一水平的一个或多个部分内鉴定。异常或错误可在同一水平内(如概况中)或者一个或多个水平中鉴定,后者代表相邻、连续、毗连或邻接的部分。在一些实施方式中,一个或多个调整水平是相邻、连续、毗连或邻接的部分的水平,其中比较一个或多个调整水平并鉴定异常或错误。异常或错误可以是概况或水平中的峰或底,其中峰或底的原因已知或未知。在某些实施方式中,比较调整水平并鉴定异常或错误,其中异常或错误缘于随机、系统、偶然或用户误差。在一些实施方式中,比较调整水平并从概况中去除异常或错误。在某些实施方式中,比较调整水平并调整异常或错误。
基于水平的胎儿分数确定
在一些实施方式中,胎儿分数根据分类为代表母体和/或胎儿拷贝数变化的水平确定。例如,确定胎儿分数通常包括评价母体和/或胎儿拷贝数变化的预期水平以确定胎儿分数。在一些实施方式中,对于分类为代表拷贝数变化的水平(如第一水平),根据就同一拷贝数变化类型确定的预期水平范围确定胎儿分数。通常,根据观测水平确定胎儿分数,所述水平落在预期水平范围内且因而分类为母体和/或胎儿拷贝数变化。在一些实施方式中,当分类为母体和/或胎儿拷贝数变化的观测水平(如第一水平)不同于就同一母体和/或胎儿拷贝数变化确定的预期水平时,确定胎儿分数。
在一些实施方式中,水平(如第一水平,观测水平)显著不同于第二水平,第一水平分类为母体和/或胎儿拷贝数变化,根据第一水平确定胎儿分数。在一些实施方式中,第一水平是与概况中第二水平显著不同的观测和/或实验所得水平,根据第一水平确定胎儿分数。在一些实施方式中,第一水平是平均、均值或总计水平,胎儿分数根据第一水平确定。在某些实施方式中,第一水平和第二水平是观测和/或实验所得水平,根据第一水平确定胎儿分数。在一些情况中,第一水平包括用于第一组部分的标准化计数且第二水平包括用于第二组部分的标准化计数,根据第一水平确定胎儿分数。在一些实施方式中,第一水平的第一组部分包括拷贝数变化(如第一水平代表拷贝数变化),胎儿分数根据第一水平确定。在一些实施方式中,第一水平的第一组部分包括纯合或杂合母体拷贝数变化,胎儿分数根据第一水平确定。在一些实施方式中,概况包括用于第一组部分的第一水平和用于第二组部分的第二水平,第二组部分基本不包括拷贝数变化(如母体拷贝数变化,胎儿拷贝数变化,或母体拷贝数变化和胎儿拷贝数变化),根据第一水平确定胎儿分数。
在一些实施方式中,水平(如第一水平,观测水平)显著不同于第二水平,第一水平分类为母体和/或胎儿拷贝数变化,胎儿分数根据第一水平和/或拷贝数变化预期水平确定。在一些实施方式中,第一水平根据拷贝数变化预期水平分类用于拷贝数变化,胎儿分数根据第一水平与预期水平之间的差异确定。在某些实施方式中,水平(如第一水平,观测水平)分类为母体和/或胎儿拷贝数变化,胎儿分数确定为第一水平与拷贝数变化预期水平之间差异的2倍。在一些实施方式中,水平(如第一水平,观测水平)分类为母体和/或胎儿拷贝数变化,从预期水平中减去第一水平,从而提供差异,胎儿分数确定为差异的2倍。在一些实施方式中,水平(如第一水平,观测水平)分类为母体和/或胎儿拷贝数变化,从第一水平中减去预期水平,从而提供差异,胎儿分数确定为差异的2倍。
胎儿分数通常以百分比提供。例如,胎儿分数能除以100,从而提供百分值。例如,对于代表母体纯合重复且水平为155的第一水平和用于母体纯合重复且水平为150的预期水平,胎儿分数能确定为10%(如(胎儿分数=2x(155–150))。
在一些实施方式中,从分类为拷贝数变化的概况中2个或更多水平确定胎儿分数。例如,有时概况中2个或更多水平(如2个或更多第一水平)鉴定为显著不同于参照水平(如第二水平,基本不包括拷贝数变化的水平),2个或更多水平分类为代表母体和/或胎儿拷贝数变化,从2个或更多水平中的每一个确定胎儿分数。在一些实施方式中,从约3个或更多、约4个或更多、约5个或更多、约6个或更多、约7个或更多、约8个或更多、或约9个或更多概况内胎儿分数检测确定胎儿分数。在一些实施方式中,从约10个或更多、约20个或更多、约30个或更多、约40个或更多、约50个或更多、约60个或更多、约70个或更多、约80个或更多、或约90个或更多概况内胎儿分数检测确定胎儿分数。在一些实施方式中,从约100个或更多、约200个或更多、约300个或更多、约400个或更多、约500个或更多、约600个或更多、约700个或更多、约800个或更多、约900个或更多、或约1000个或更多概况内胎儿分数检测确定胎儿分数。在一些实施方式中,从约10-约1000个、约20-约900、约30-约700、约40-约600、约50-约500、约50-约400、约50-约300、约50-约200、或约50-约100个概况内胎儿分数检测确定胎儿分数。
在一些实施方式中,胎儿分数确定为多个概况内胎儿分数检测的平均数或均值。在某些实施方式中,从多个胎儿分数检测确定的胎儿分数是多个胎儿分数检测的均值(如平均数、均值、标准平均数、中值等)。通常,从多个胎儿分数检测确定的胎儿分数是通过本领域已知或本文所述合适方法确定的平均值。在一些实施方式中,胎儿分数检测的平均值是加权平均数。在一些实施方式中,胎儿分数检测的平均值是未加权平均数。从多个胎儿分数检测产生的均值、中值或平均胎儿分数检测(即均值、中值或平均胎儿分数检测值)有时与不确定值(如方差、标准偏差、MAD等)相关。从多个检测确定均值、中值或平均胎儿分数值前,在一些实施方式中去除一个或多个偏差检测(本文详述)。
一些概况内胎儿分数检测不包括在胎儿分数总检测(如均值或平均胎儿分数检测)中。在一些实施方式中,胎儿分数检测获自概况中第一水平(如与第二水平显著不同的第一水平),第一水平不指示遗传变异。例如,一些概况内第一水平(如峰或底)产生自异常或未知原因。这类值通常产生的胎儿分数检测显著不同于获自真实拷贝数变化的其他胎儿分数检测。在一些实施方式中,鉴定与概况内其他胎儿分数检测显著不同的胎儿分数检测,并从胎儿分数检测中去除。例如,一些获自异常峰和底的胎儿分数检测通过与概况内其他胎儿分数检测比较来鉴定,并从胎儿分数总检测中排除。
在一些实施方式中,与均值、中值或平均胎儿分数检测显著不同的独立胎儿分数检测是已鉴定、识别和/或可观测的差异。在某些实施方式中,术语“显著不同”可指统计学差异和/或统计学显著差异。“独立”胎儿分数检测可以是从分类为拷贝数变化的特定水平确定的胎儿分数(如在一些实施方式中,是单一确定)。任何合适阈值或范围能用于确定与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测。在某些实施方式中,胎儿分数检测显著不同于均值、中值或平均胎儿分数检测,所述检测可表示为相比平均或平均值的百分比偏差。在某些实施方式中,与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测相差约10%或更多。在一些实施方式中,与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测相差约15%或更多。在一些实施方式中,与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测相差约15%-约100%或更多。
在某些实施方式中,根据多个与均值或平均胎儿分数检测相关的不确定值,胎儿分数检测显著不同于均值、中值或平均胎儿分数检测。通常,不确定值和常数n(如置信区间)定义范围(如不确定性截止界限)。例如,不确定值有时是胎儿分数检测的标准偏差(如+/-5)且乘以常数n(如置信区间),从而定义范围或不确定性截止界限(如5n到-5n,有时称为5σ)。在一些实施方式中,独立胎儿分数检测落在不确定性截止界限所定义范围之外,并视为显著不同于均值、中值或平均胎儿分数检测。例如,对于均值10和不确定性截止界限3,大于13或小于7的独立胎儿分数为显著不同。在一些实施方式中,与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测相差超过n倍不确定值(如n xσ),其中n约等于或大于1、2、3、4、5、6、7、8、9或10。在一些实施方式中,与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测相差超过n倍不确定值(如n xσ),其中n约等于或大于1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9或4.0。
在一些实施方式中,水平代表胎儿和/或母体微倍性。在一些实施方式中,水平(如第一水平,观测水平)显著不同于第二水平,第一水平分类为母体和/或胎儿拷贝数变化,第一水平和/或第二水平代表胎儿微倍性和/或母体微倍性。在某些实施方式中,第一水平代表胎儿微倍性。在一些实施方式中,第一水平代表母体微倍性。通常,第一水平代表胎儿微倍性和母体微倍性。在一些实施方式中,水平(如第一水平,观测水平)显著不同于第二水平,第一水平分类为母体和/或胎儿拷贝数变化,第一水平代表胎儿和/或母体微倍性且胎儿分数根据胎儿和/或母体微倍性确定。在一些情况中,第一水平分类为母体和/或胎儿拷贝数变化,第一水平代表胎儿微倍性且胎儿分数根据胎儿微倍性确定。在一些实施方式中,第一水平分类为母体和/或胎儿拷贝数变化,第一水平代表母体微倍性且胎儿分数根据母体微倍性确定。在一些实施方式中,第一水平分类为母体和/或胎儿拷贝数变化,第一水平代表母体和胎儿微倍性且胎儿分数根据母体和胎儿微倍性确定。
在一些实施方式中,胎儿分数检测包括确定胎儿和/或母体微倍性。在一些实施方式中,水平(如第一水平,观测水平)显著不同于第二水平,第一水平分类为母体和/或胎儿拷贝数变化,胎儿和/或母体微倍性根据第一水平和/或第二水平确定并确定胎儿分数。在一些实施方式中,第一水平分类为母体和/或胎儿拷贝数变化,胎儿微倍性根据第一水平和/或第二水平确定且胎儿分数根据胎儿微倍性确定。在某些实施方式中,第一水平分类为母体和/或胎儿拷贝数变化,母体微倍性根据第一水平和/或第二水平确定且胎儿分数根据母体微倍性确定。在一些实施方式中,第一水平分类为母体和/或胎儿拷贝数变化,母体和胎儿微倍性根据第一水平和/或第二水平确定且胎儿分数根据母体和胎儿微倍性确定。
当就给定水平或分类为拷贝数变化的水平而言,母亲微倍性不同于(如不相同)胎儿微倍性时,通常确定胎儿分数。在一些实施方式中,当母亲是纯合重复(如微倍性为2)而胎儿就同一重复而言是杂合(如微倍性为1.5)时,确定胎儿分数。在一些实施方式中,当母亲是杂合重复(如微倍性为1.5)而胎儿就同一重复而言是纯合(如微倍性为2)或胎儿中没有重复(如微倍性为1)时,确定胎儿分数。在一些实施方式中,当母亲是纯合缺失(如微倍性为0)而胎儿就同一缺失而言是杂合(如微倍性为0.5)时,确定胎儿分数。在一些实施方式中,当母亲是杂合缺失(如微倍性为0.5)而胎儿就同一缺失而言是纯合(如微倍性为0)或胎儿中没有缺失(如微倍性为1)时,确定胎儿分数。
在某些实施方式中,当就分类为拷贝数变化的给定水平而言,母亲微倍性与胎儿微倍性相同(如鉴定为相同)时,不能确定胎儿分数。例如,对于给定水平,其中母亲和胎儿携带拷贝数变化的相同拷贝数,在一些实施方式中,不确定胎儿分数。例如,当母亲和胎儿就同一缺失是纯合或就同一重复是纯合时,无法就分类为拷贝数变化的水平确定胎儿分数。在某些实施方式中,当母亲和胎儿就同一缺失是杂合或就同一重复是杂合时,无法就分类为拷贝数变化的水平确定胎儿分数。在就样品进行多次胎儿分数检测的实施方式中,明显偏离均值、中值或平均值的检测能来自母亲倍数性等于胎儿倍数性的拷贝数变化,从考虑中去除这种检测。
在一些实施方式中,母亲拷贝数变化和胎儿拷贝数变化的微倍性未知。在一些实施方式中,如果就拷贝数变化未确定胎儿和/或母亲拷贝数变化,产生胎儿分数并与均值、中值或平均胎儿分数检测作比较。拷贝数变化的胎儿分数检测有时显著不同于均值、中值或平均胎儿分数检测,因为就拷贝数变化而言,母亲和胎儿的微倍性相同。与均值、中值或平均胎儿分数检测显著不同的胎儿分数检测通常从总胎儿分数检测中排除,无论差异来源或原因如何。在一些实施方式中,通过本领域已知方法(如通过定向测序方法)确定和/或验证母亲和/或胎儿的微倍性。
胎儿倍数性
在一些实施方式中,胎儿倍数性确定部分用于检测是否存在遗传变异(染色体非整倍体,三染色体)。能确定胎儿倍数性,部分来自通过胎儿分数检测合适方法确定的胎儿分数量度,包括本文所述方法。在一些实施方式中,根据胎儿分数检测和等式(8)、(20)、(21)或其变化或推导确定胎儿倍数性(实施例2)。在一些实施方式中,通过下述方法确定胎儿倍数性。在一些实施方式中,下述各方法要求就多个样品基因组部分(即一部分i)确定的计算参照计数Fi(有时表示为fi),其中基因组部分i的胎儿倍数性是整倍体。在一些实施方式中,就参照计数Fi确定不确定值(如标准偏差σ)。在一些实施方式中,参照计数Fi、不确定值、试验样品计数和/或所测胎儿分数(F)用于根据下述方法确定胎儿倍数性。在一些实施方式中,参照计数(如平均、均值或中值参照计数)通过本文所述方法(如分批标准化、通过GC含量标准化、线性和非线性最小二乘回归、LOESS、GC LOESS、LOWESS、PERUN、ChAI、RM、GCRM和/或其组合)标准化。在一些实施方式中,当参照计数通过PERUN标准化时,作为整倍体的基因组区段的参照计数等于1。在一些实施方式中,用于基因组部分或区段的参照计数(如用于已知为整倍体的胎儿)和试验样品计数都通过PERUN标准化且参照计数等于1。同样,在一些实施方式中,当计数通过参照计数中值标准化(即除以)时,作为整倍体的基因组部分或区段的参照计数等于1。例如,在一些实施方式中,用于基因组部分或区段的参照计数(如用于作为整倍体的胎儿)和试验样品计数都通过参照计数中值标准化,标准化的参照计数等于1且试验样品计数通过参照计数中值标准化(即除以)。在一些实施方式中,用于基因组部分或区段的参照计数(如用于作为整倍体的胎儿)和试验样品计数都通过GCRM、GC、RM或合适方法标准化。在一些实施方式中,参照计数是平均、均值或中值参照计数。参照计数通常是某一部分(如标准化的基因组片段水平)的标准化计数。在一些实施方式中,参照计数和试验样品计数是原始计数。在一些实施方式中,从平均、均值或中值计数概况确定参照计数。在一些实施方式中,参照计数是计算的基因组片段水平。在一些实施方式中,参照样品的参照计数和试验样品(如患者样品,例如yi)计数通过相同方法或过程标准化。
在一些实施方式中,确定胎儿分数(F)的量度。然后,此胎儿分数值用于根据等式(8)、其推导或变化来确定胎儿倍数性。在一些实施方式中,如果胎儿是整倍体,则返回负值,如果胎儿不是整倍体,则返回正值。在一些实施方式中,负值表明就所考虑基因组区段而言,胎儿是整倍体。在某些实施方式中,非负的值表明胎儿包括非整倍体(如重复)。在某些实施方式中,非负的值表明胎儿包括三染色体。在某些实施方式中,任何正值表明胎儿包括非整倍体(如三染色体,重复)。
在一些实施方式中,确定残差平方和。例如,代表获自等式(8)的残差平方和的等式如等式(18)所示。在一些实施方式中,从等式(8)确定残差平方和,用于设置值为1的倍性值X(见等式(9))和设置值为3/2的倍性值(见等式(13))。在一些实施方式中,就基因组或染色体区段(如,用于基因组区段中参照基因组i的所有部分)确定残差平方和。例如,可就染色体21、13、18或其部分确定残差平方和(如等式(9)和(13))。在一些实施方式中,为确定胎儿的倍性状态,从等式(9)减去等式(13)的结果以达到值phi(例如参见等式(14))。在某些实施方式中,值phi的符号(即正或负)确定是否存在胎儿非整倍体。在某些实施方式中,负的phi值(如来自等式(14))表明没有非整倍体(如就参照基因组i部分而言,胎儿是整倍体),非负的phi值表明存在非整倍体(如三染色体)。
在一些实施方式中,参照计数fi、用于参照计数的不确定值σ和/或所测胎儿分数(F)用于等式(9)和(13)以确定就参照基因组i所有部分之和而言的残差平方和。在一些实施方式中,参照计数fi、用于参照计数的不确定值σ和/或所测胎儿分数(F)用于等式(9)和(13)以确定胎儿倍数性。在一些实施方式中,就试验样品部分i而言,由yi表示的计数(如标准化计数,例如计算的基因组区段水平)用于确定就部分i而言的胎儿倍性状态。例如,在某些实施方式中,基因组区段的倍性状态根据以下确定:参照计数fi、不确定值(如来自参照计数)、就试验样品确定的胎儿分数(F)和就试验样品确定的计数yi,其中倍性状态根据等式(14)或其推导或变化确定。在一些实施方式中,计数yi和/或参照计数通过本文所述方法(如分批标准化、通过GC含量标准化、线性和非线性最小二乘回归、LOESS、GC LOESS、LOWESS、PERUN、ChAI、RM、GCRM和/或其组合)标准化。在一些实施方式中,基因组或染色体部分或区段的胎儿倍性状态(如整倍体、整倍体、三染色体)通过上述非限制性示例和实施例部分确定。
在一些实施方式中,从试验样品确定胎儿分数,就试验样品确定计数y,两者都用于从试验样品确定胎儿倍数性。在本文所述方法的某些实施方式中,由X表示的胎儿倍数性值不固定或假定。在本文所述方法的某些实施方式中,胎儿分数F固定。在一些实施方式中,根据等式(20)或(21)确定基因组部分或区段的倍数性(如倍数性值)(实施例2)。在此方法的一些实施方式中,确定倍数性值,其中该值接近1、3/2或5/4。在一些实施方式中,约1的倍数性值指示整倍体胎儿,约3/2的值指示胎儿三体,且在双胞胎的情况中,约5/4的值指示就所考虑基因组部分或区段而言,一个胎儿包括三染色体而另一个是整倍体。涉及从胎儿倍数性检测确定是否存在胎儿非整倍体的额外信息如下面另一部分所讨论。
在一些实施方式中,确定胎儿分数,固定于其确定值,从回归中确定胎儿倍数性。能采用任何合适回归,其非限制性示例包括线性回归、非线性回归(如多项式回归)等。在一些实施方式中,根据等式(8)、(20)、(21)和/或其推导或变化使用线性回归。在一些实施方式中,根据获自等式(8)、(20)、(21)和/或其推导或变化的残差平方和,使用线性回归。在一些实施方式中,根据等式(8)、(20)、(21)和/或其推导或变化确定胎儿倍数性,不使用回归。在一些实施方式中,根据获自等式(8)、(20)、(21)和/或其推导或变化的残差平方和,就参照基因组i部分确定胎儿倍数性,不使用回归。等式推导是获自等式数学证明的任何等式变化。
在一些实施方式中,参照计数fi(如本文上述)、不确定值σ和/或所测胎儿分数(F)用于等式(20)和(21)以确定胎儿倍数性。在一些实施方式中,参照计数fi、不确定值σ和/或所测胎儿分数(F)用于等式(20)或(21)以确定胎儿倍数性X,用于部分i或参照基因组i多个部分之和(如就染色体或其区段而言,参照基因组i所有部分之和)。在一些实施方式中,就试验样品部分i而言,由yi表示的计数(如标准化计数,计算的基因组片段水平)用于确定就基因组区段而言的胎儿倍性,所述区段由参照基因组i多个部分表示。例如,在某些实施方式中,基因组区段的倍数性X根据以下确定:参照计数fi、不确定值、就试验样品确定的胎儿分数(F)和就试验样品确定计数yi,其中倍数性根据等式(20)、(21)或其推导或变化确定。在一些实施方式中,计数yi和/或参照计数通过本文所述方法(如分批标准化、通过GC含量标准化、线性和非线性最小二乘回归、LOESS、GC LOESS、LOWESS、PERUN、ChAI、RM、GCRM及其组合)标准化。在一些实施方式中,计数yi和/或参照计数通过相同方法(如分批标准化、通过GC含量标准化、线性和非线性最小二乘回归、LOESS、GC LOESS、LOWESS、PERUN、ChAI、RM、GCRM、本文所述方法或其组合)标准化和/或加工。在一些实施方式中,计数yi和fi是映射到基因组或染色体相同部分或区段的计数。
不确定值σ可以是误差的合适量度,其非限制性示例包括标准偏差、标准误差、计算的方差、p值和/或平均绝对偏差(MAD)。不确定值σ能就任何合适测量确定,其非限制性示例包括Z分数、Z值、t值、p值、交叉验证误差、基因组片段水平、计算的基因组区段水平、水平、计数等,或其组合。在一些实施方式中,σ值设置为1。在一些实施方式中,σ值不设置为1。在一些实施方式中,估计σ值且有时测量和/或计算σ值。
在一些实施方式中,Mi是基因组i部分的母亲倍数性(即母系倍数性)。在一些实施方式中,确定同一患者(如同一试验样品)的Mi,从该患者中确定yi。在一些实施方式中,母亲倍数性Mi已知或根据本文所述方法确定。在一些实施方式中,母亲倍数性Mi在填充前或后确定(如作出水平调整后)。在某些实施方式中,通过观察概况来估计或确定Mi。在一些实施方式中,母亲倍数性Mi未知。一些实施方式中,假定母亲倍数性Mi。例如,在一些实施方式中,假定或已知母亲在所评估基因组区段中没有缺失和/或重复。在一些实施方式中,假定或已知母亲倍数性是1。在一些实施方式中,母亲倍数性设置成填充后(如作出水平调整后)值为1。在一些实施方式中,忽略母亲倍数性并设置值为1。在一些实施方式中,等式(20)衍生自等式(21),假定母亲在所评估基因组区段中没有缺失和/或重复。
在一些实施方式中,确定胎儿倍数性的方法是根据获自妊娠妇女试验样品的核酸序列读数。在一些实施方式中,序列读数是来自样品(如试验样品)的循环无细胞核酸读数。在一些实施方式中,确定胎儿倍数性的方法包括获得映射到参照基因组的序列读数计数。在一些实施方式中,序列读数映射到参照基因组部分亚组。在一些实施方式中,确定胎儿倍数性包括确定胎儿分数。在一些实施方式中,确定胎儿倍数性包括计算或确定基因组区段水平。在某些实施方式中,确定胎儿倍数性包括确定胎儿分数和计算或确定基因组区段水平。在一些实施方式中,从同一试验样品(如同一试验样品部分)确定胎儿分数和计算的基因组片段水平。在一些实施方式中,从获自同一试验样品(如同一试验样品部分)的同一读数确定胎儿分数和计算的基因组片段水平。在一些实施方式中,从获自相同测序轮和/或相同流动池的同一读数确定胎儿分数和计算的基因组片段水平。在一些实施方式中,从同一设备和/或机器(如测序装置、流动池等)确定胎儿分数和计算的基因组片段水平。
在一些实施方式中,确定胎儿倍数性的方法根据胎儿分数检测和标准化计数(如计算的基因组片段水平)确定,其中胎儿分数检测和标准化计数(如计算的基因组片段水平)从不同试验样品部分(如不同等分样品,或例如在大致相同时间取自同一对象对象或患者的不同试验样品)确定。例如,有时从试验样品第一部分确定胎儿分数和从试验样品第二部分确定标准化计数和/或基因组区段水平。在一些实施方式中,从取自同一对象对象(如患者)的不同试验样品(如不同试验样品部分)确定胎儿分数和计算的基因组区段水平。在一些实施方式中,从不同时间获得的读数确定胎儿分数和计算的基因组区段水平。在一些实施方式中,从不同设备和/或不同机器(如测序装置、流动池等)确定胎儿分数检测和标准化计数(如计算的基因组区段水平)。
决策分析特征
在一些实施方式中,确定结果(如判定)或确定是否存在染色体非整倍体、微重复或微缺失是根据决策分析作出。例如,决策分析有时包括应用一种或多种方法,所述方法产生一个或多个结果、结果评估、一系列基于结果的决策、评估和/或决策的可能结果,并在作出最终决策的一些过程节点终止。在一些实施方式中,决策分析是决策树。在一些实施方式中,决策分析包括协调使用一个或多个过程(如处理步骤,例如算法)。决策分析能由人、系统、装置、软件(如模块)、计算机、处理器(如微处理器)等或其组合实施。在一些实施方式中,决策分析包括确定胎儿中是否存在染色体非整倍体、微重复或微缺失,相较未采用决策分析的情况(如直接从标准化计数确定),假阴性和假阳性检测减少。在一些实施方式中,决策分析包括确定是否存在与一种或多种微重复或微缺失相关的病症。例如,在一些实施方式中,决策分析包括就来自对象对象的试验样品确定是否存在与DiGeorge综合症相关的一种或多种遗传变异。在一些实施方式中,决策分析包括就来自对象的试验样品确定是否存在DiGeorge综合症。
在一些实施方式中,决策分析包括产生基因组或基因组区段(如染色体或其部分)的概况。概况能通过本文已知或所述任何合适方法产生,通常包括获得映射到参照基因组部分的序列读数计数,使计数标准化,使水平标准化,填充等或其组合。获得映射到参照基因组的序列读数计数可包括获得样品(如来自妊娠女性对象),测序来自样品的核酸(如循环无细胞核酸),获得序列读数,将序列读数映射到参照基因组部分等或其组合。在一些实施方式中,概况包括使映射到参照基因组部分的计数标准化,从而提供计算的基因组区段水平。
在一些实施方式中,决策分析包括分段。在一些实施方式中,分段修改和/或转换概况,从而提供一个或多个概况分解效果图。经受分段处理的概况通常是映射到参照基因组或部分(如常染色体和性染色体)中各部分(如箱)的标准化计数概况。如本文所述,映射到所述部分的原始计数能通过一个或多个合适标准化过程(如PERUN、LOESS、GC-LOESS、主成分标准化(ChAI)或其组合)进行标准化以产生作为部分决策分析分段的概况。概况分解效果图通常是概况转换。概况分解效果图有时是将概况转换成基因组、染色体或其区段的呈现。
在某些实施方式中,用于分段的分段过程在概况内定位并鉴定一个或多个水平,所述水平不同于(如基本或显著不同)概况内一个或多个其他水平。根据分段过程在概况内鉴定的水平(不同于概况内另一水平)具有不同于概况内另一水平的边缘,在本文中称为小波,更常称为离散区段的水平。分段过程可从标准化计数或水平的概况产生分解效果图,其中能鉴定一个或多个离散区段或小波。离散区段一般覆盖比分段(如染色体、数条染色体、常染色体)更少的部分(如箱)。
在一些实施方式中,分段在概况内定位并鉴定离散区段和小波的边缘。在某些实施方式中,鉴定一个或多个离散区段和小波的边缘之一或两者。例如,分段过程能鉴定概况内离散区段或小波的右和/或左边缘位置(如基因组坐标,如部分位置)。离散区段或小波通常包括2个边缘。例如,离散区段或小波可包括左边缘和右边缘。在一些实施方式中,根据呈现或视图,左边缘可以是概况内核酸区段的5’边缘且右边缘可以是3’边缘。在一些实施方式中,左边缘可以是概况内核酸区段的3’边缘且右边缘可以是5’边缘。通常概况的边缘在分段前已知,因此,在一些实施方式中,概况的边缘确定水平的哪个边缘是5’边缘以及哪个边缘是3’边缘。在一些实施方式中,概况和/或离散区段(如小波)的边缘之一或两者是染色体边缘。
在一些实施方式中,离散区段或小波的边缘根据就参照样品产生的分解效果图(如参照概况)确定。在一些实施方式中,无效边缘高度分布根据参照概况(如染色体或其区段概况)的分解效果图确定(例如参见图3)。在某些实施方式中,当离散区段或小波的水平在无效边缘高度分布之外时,鉴定概况内离散区段或小波的边缘。在一些实施方式中,根据按参照概况的分解效果图计算的Z分数,鉴定概况内离散区段或小波的边缘。
有时分段在概况内产生2个或更多离散区段或小波(如2个或更多分散水平,2个或更多分散区段)。在一些实施方式中,获自分段过程的分解效果图过度分段或分散,且包括多个离散区段或小波。通过分段产生的离散区段或小波有时明显不同,通过分段产生的离散区段或小波有时实质上类似。实质上类似的离散区段或小波(如基本类似水平)通常指分段概况中的2个或更多相邻离散区段或小波,各具有差异小于预定不确定性水平的基因组片段水平(如水平)。在一些实施方式中,实质上类似的离散区段或小波彼此相邻,不通过间隔区段或小波分开。在一些实施方式中,实质上类似的离散区段或小波通过一个或多个较小区段或小波分开。在一些实施方式中,实质上类似的离散区段或小波由约1-约20个、约1-约15个、约1-约10个或约1-约5个部分(如箱)分开,其中一个或多个间隔部分的水平显著不同于各实质上类似的离散区段或小波的水平。在一些实施方式中,实质上类似的离散区段或小波的水平差异小于约3倍、小于约2倍、小于约1倍或小于约0.5倍的不确定性水平。在一些实施方式中,实质上类似的离散区段或小波包括中值基因组片段水平,差异小于3MAD(如小于3σ)、小于2MAD、小于1MAD或小于0.5MAD,其中从各区段或小波的中值基因组片段水平计算MAD。在一些实施方式中,明显不同的离散区段或小波不相邻或由10个或更多、15个或更多或20个或更多部分来分开。明显不同的离散区段或小波一般具有显著不同水平。在某些实施方式中,明显不同的离散区段或小波包括一定水平,其差异大于约2.5倍、大于约3倍、大于约4倍、大于约5倍、大于约6倍的不确定性水平。在一些实施方式中,明显不同的离散区段或小波包括中值基因组片段水平,差异大于2.5MAD(如大于2.5σ)、大于3MAD、大于4MAD、大于5MAD或大于6MAD,其中从各离散区段或小波的中值基因组区段水平计算MAD。
在一些实施方式中,分段过程包括确定(如计算)概况或其区段中一个或多个离散区段或小波(如水平)的水平(如定量值,例如均值或中值水平)、不确定性水平(如不确定值)、Z分数、Z值、p值等或其组合。在一些实施方式中,确定(如计算)离散区段或小波的水平(如定量值,例如均值或中值水平)、不确定性水平(如不确定值)、Z分数、Z值、p值等或其组合。
在一些实施方式中,分段通过含一个过程或多个子过程的过程完成,其非限制性示例包括分解生成过程(如小波分解生成过程)、阈值化、校平、平滑化等或其组合。阈值化、校平、平滑化等能与分解生成过程联合进行,并且在下文参考小波分解渲染过程描述。
小波分段过程
在一些实施方式中,分段根据小波分解生成过程进行。在一些实施方式中,分段根据2个或更多小波分解生成过程进行。在一些实施方式中,小波分解生成过程鉴定概况内一个或多个小波并提供概况的分解效果图。
分段能完全或部分通过本文所述或本领域已知的任何合适小波分解生成过程进行。小波分解生成过程的非限制性示例包括哈尔小波分段(Haar,Alfred(1910)"ZurTheorie der orthogonalen Funktionensysteme",Mathematische Annalen 69(3):331–371;Nason,G.P.(2008)“统计学的小波方法(Wavelet methods in Statistics)”,纽约的施普林格出版社(R.Springer))(如WaveThresh),Wavethresh,合适递归二元分割法环状二元分割(CBS)(Olshen,AB,Venkatraman,ES,Lucito,R,Wigler,M(2004)“用于分析基于阵列的DNA拷贝数数据的环状二元分割(Circular binary segmentation for the analysisof array-based DNA copy number data)”,Biostatistics,5,4:557-72;Venkatraman,ES,Olshen,AB(2007)“用于分析阵列CGH数据的更快环状二元分割算法(A fastercircular binary segmentation algorithm for the analysis of array CGH data)”,Bioinformatics,23,6:657-63),最大重复离散小波变换(MODWT)(L.Hsu,S.Self,D.Grove,T.Randolph,K.Wang,J.Delrow,L.Loo和P.Porter,“用小波的基于去噪阵列的比较基因组杂交数据(Denoising array-based comparative genomic hybridization data usingwavelets)”,Biostatistics(英国牛津),第6卷第2期,211–226,2005页),平稳小波(SWT)(Y.Wang和S.Wang,“用于基于阵列的DNA拷贝数数据的新型平稳小波去噪算法(A novelstationary wavelet denoising algorithm for array-based DNA copy numberdata)”,International Journal of Bioinformatics Research and Applications,第3卷第2期,206–222页,2007),双树复小波变换(DTCWT)(Nha,N.,H.Heng,S.Oraintara andW.Yuhang(2007)"用双树复小波变换去噪基于阵列的DNA拷贝数数据(Denoising ofArray-Based DNA Copy Number Data Using The Dual-tree Complex WaveletTransform.)"137-144),
最大熵分割,用边缘检测核的卷积,Jensen Shannon距离,Kullback–Leibler距离,二元递归分割,傅立叶变换等或其组合。
小波分解生成过程能由合适软件、模块和/或用合适语言(如本领域已知的计算机程序语言)和/或操作系统写的代码表示或执行,其非限制性示例包括UNIX、Linux、oracle、windows、Ubuntu、ctionScript、C、C++、C#、Haskell、Java、JavaScript、Objective-C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(如有PHP)、PGP、G、R、S等或其组合。在一些实施方式中,合适的小波分解生成过程由S或R代码或包(如R包)表示。用于小波分解生成过程的R、R源代码、R程序、R包和R文档可下载自CRAN或CRAN镜像站点(如The Comprehensive R Archive Network(CRAN);World Wide Web URL cran.us.r-project.org)。CRAN是全世界ftp网络和网络服务器,保存就R而言相同、最新的代码版本和文档。例如,WaveThresh(WaveThresh:Wavelets统计和转换;World Wide Web URL cran.r-project.org/web/packages/wavethresh/index.html)和详细描述WaveThresh(‘wavethresh’包;World Wide Web URL cran.r-project.org/web/packages/wavethresh/wavethresh.pdf)可供下载。在一些实施方式中,实施例4描述用于小波分解生成过程(如最大熵分割)的R代码。用于CBS法的R代码示例能下载(如DNAcopy;World WideWeb URL bioconductor.org/packages/2.12/bioc/html/DNAcopy.html或‘DNAcopy’包;World Wide Web URLbioconductor.org/packages/release/bioc/manuals/DNAcopy/man/DNAcopy.pdf)。
在一些实施方式中,小波分解生成过程(如哈尔小波分段,例如WaveThresh)包括阈值化。在一些实施方式中,阈值化区分信号与噪音。在某些实施方式中,阈值化确定哪个小波系数指示信号且应保留以及哪个小波系数指示反映噪音且应去除。在一些实施方式中,阈值化包括用户用于设置参数值的一个或多个可变参数。在一些实施方式中,阈值参数(如阈值参数、政策参数)能描述或定义用于小波分解生成过程的分割量。可使用任何合适的参数值。在一些实施方式中,使用阈值参数。在一些实施方式中,阈值参数值是软阈值。在某些实施方式中,软阈值用于移除小和非显著系数。在某些实施方式中,采用硬阈值。在某些实施方式中,阈值化包括政策参数。可使用任何合适的政策值。在一些实施方式中,所用政策是“普遍的”且在一些实施方式中,所用政策是“确信的”。
在一些实施方式中,小波分解生成过程(如哈尔小波分段,例如WaveThresh)包括校平。在一些实施方式中,一些高水平系数在阈值化后保持。这些系数代表处初始信号中的急剧变化或大峰值,在某些实施方式中,所述系数通过校平去除。在一些实施方式中,校平包括将值分配到称为分解层数c的参数。在某些实施方式中,最优分解层数根据一个或多个确定值检测,如染色体长度(例如概况长度)、待检测的所需小波长度、胎儿分数、序列覆盖率(例如重叠水平)和标准化概况的噪音水平。对于基因组、染色体或概况区段的给定长度(Nchr),小波分解层数c有时根据等式Nmicro=Nchr/2c+1与最小小波长度Nmicro相关。在一些实施方式中,为检测尺寸Nmicro或更大的微缺失,所需分解层数c根据以下等式:c=log2(Nchr/Nmicro)-1确定。例如,若Nchr=参照基因组的4096个部分且Nmicro=参照基因组的128个部分,则分解层数c是4,c±1层数能用于某些情况(即约3-约5)。在一些实施方式中,分解层数c是约1、2、3、4、5、6、7、8、9或10。在一些实施方式中,待检测的最小所需小波长度Nmicro是约1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、10Mb、15Mb,或大于约20Mb。在一些实施方式中,预先确定Nmicro。在一些实施方式中,序列覆盖率(例如重叠水平)和胎儿分数的量与Nmicro成反比。例如,随着样品中胎儿分数的量增加,待检测的最小所需小波长度减小(即分辨率增加)。在一些实施方式中,随着覆盖率增加(即重叠水平降低),待检测的最小所需小波长度减小(即分辨率增加)。例如,对于含约10%胎儿分数的样品,4重(4-plex)产生约1Mb或更大的Nmicro且12重产生约3Mb或更大的Nmicro。在一些实施方式中,阈值化在校平前进行且有时阈值化在校平后进行。
最大熵分割法
在一些实施方式中合适的分解生成过程包括最大熵分割法。在一些实施方式中最大熵分割包括确定分解示意图。在一些实施方式中最大熵分割包括确定是否存在亚染色体异常(例如微复制,微缺失)。
在某些实施方式中最大熵分割包括递归划分基因组区段(例如部份的组,概况)。在某些实施方式中最大熵分割法根据水平(例如基因组节段水平)划分基因组区段。在某些实施方式中最大熵分割包括确定概况的分割部分的水平。在一些实施方式中,最大熵分割将基因组区段分为两个区段(例如两组部份)并计算两个区段的水平。在一些实施方式中,两个区段的水平在划分(例如分割)之前或之后进行计算。在一些实施方式中选择分区位置(例如分割的位置、划分的位置)以最大化两个所得区段的水平之间的差异。在一些实施方式中,最大熵分割确定两个假定区段之间的水平差异,所述假定区段获自概况中各可能分区位点(例如区段),选择的位点中预测水平的最大差异然后将(例如分区)概况分为两个区段。在一些实施方式中,通过合适的统计学方法(其非限制性示例包括t-测试、t-基标准等)将最近划分的两个相邻区段确定为明显不同或非明显不同。在一些实施方式中,最大熵分割包括当第一部份亚组的水平与第二部份亚组的水平明显不同时划分第一和第二部份亚组。在一些实施方式中,第一和第二部份亚组彼此相邻。
在一些实施方式中,最近划分的两个相邻区段确定为明显不同且各区段根据最大熵分割(例如根据产生水平中最大差异的分区位点)再次划分。在一些实施方式中,最大熵分割包括递归划分部份的组(例如概况)从而提供两个或更多部份的亚组,其中每个所得亚组包括与邻近的部份亚组的水平显著不同的水平。
在一些实施方式中,最大熵分割包括鉴定一种或多种离散区段。在一些实施方式中,最大熵分割包括鉴定与第二水平显著不同的第一水平。离散区段通常具有与概况中区段(例如参照水平)的第二水平显著不同的第一水平。在某些实施方式中,根据参照水平(例如空水平、空概况)确定离散区段。在一些实施方式中参照水平是整个概况或其部分的水平。在一些实施方式中参照水平是已知为整倍体或已知无拷贝数变异(例如微复制或微缺失)的参照概况或参照概况的部份(例如区段)。在一些实施方式中离散区段具有显著不同于第二水平(例如参照水平)的第一水平(例如小波)和第二水平是参照水平。在一些实施方式中,最大熵分割包括根据鉴定额离散区段和/或根据显著不同于第二水平的第一水平,以低假阴性和低假阳性确定胎儿样品是否存在染色体非整倍性、微复制或微缺失。
在一些实施方式中,最大熵分割包括重连分割(例如划分)的部份的两个亚组。在一些实施方式中,划分的两个区段显著不同且两个区段重连。在一些实施方式中,分割的部份的两个亚组中的每个的水平显著不同(例如根据预定的阈值、例如Z-分数和/或不确定性水平,例如MAD)且两个亚组重连。在一些实施方式中,重连的区段不再划分。
在一些实施方式中决策分析包括两个或更多分割法,得到两个或更多分解示意图。在某些实施方式中决策分析包括试用两个或更多不同分割法(例如分解生成法),其独立生成分解示意图。在一些实施方式中,决策分析包括第一分割法和第二分割法且第一和第二分割法平行进行。在某些实施方式中,第一和第二分割法串联进行。在某些实施方式中,决策分析包括独立生成分解示意图的两个或更多不同分割法,所述示意图基本相同或不同,这取决于分析的样品和所用分割法类型。在一些实施方式中第一分割法包括小波分割法(例如Haar小波法)而第二分割法包括圆的二元分割法。
抛光
在一些实施方式中分解示意图经抛光从而提供抛光的分解示意图。在一些实施方式中分解示意图经抛光两次或更多次。在一些实施方式中,分解示意图在一种或多种分割法步骤之前和/或之后抛光。在一些实施方式中决策分析包括两个或更多分割法且各分割法包括一种或多种抛光法。分解示意图可指抛光的分解示意图或未抛光的分解示意图。
因此,在一些实施方式中分割法包括抛光。在一些实施方式中抛光过程鉴定两个或更多基本相似的离散区段或小波(例如分解示意图中)并合并它们为单一离散区段或小波(例如图4)。在一些实施方式中抛光过程鉴定基本相似的两个或更多相邻区段或小波并合并它们为单一水平、区段或小波。因此,在一些实施方式中抛光过程包括合并过程。在某些实施方式中,相邻的片段化离散区段或小波根据其基因组节段水平而合并。在一些实施方式中,合并两个或更多相邻的离散区段或小波包括计算最终合并的两个或更多相邻的离散区段或小波的中值水平。在一些实施方式中,基本相似的两个或更多相邻的离散区段或小波合并且抛光,得到所得单一区段、小波或水平。在某些实施方式中,两个或更多相邻离散区段或小波通过Willenbrock和Fridly(Willenbrock H,Fridly和J.比较研究:将分割应用至阵列CGH数据用于下游分析“A comparison study:applying segmentation to arrayCGH data for downstream analyses.”.Bioinformatics(2005)Nov 15;21(22):4084-91)所述过程合并。在一些实施方式中,通过称为GLAD和Hupe,P等(2004)“阵列CGH数据分析:从信号比到DNA区域的得与失(Analysis of array CGH data:from signal ratio to gainand loss of DNA regions)”,Bioinformatics,20,3413–3422所述的过程合并两个或更多相邻的离散区段或小波。
鉴定候选区段或小波事件
在一些实施方式中决策分析包括鉴定分解示意图中的候选区段或小波事件。候选区段确定为分解示意图中最显著离散区段,小波事件确定为小波分解示意图中鉴定的最显著小波。"候选区段"还指使用任何种分割法和分解示意图获自分割的分解示意图内最显著离散区段。使用小波分割法时,候选区段与"小波事件"同义。候选区段通常是分解示意图中最显著离散区段,有时在区段覆盖的部份(例如箱)的数量方面和/或区段的标准化计数的水平绝对值方面是最显著的。候选区段有时大于和有时基本大于分解示意图中其他离散区段。在一些实施方式中,分解示意图中仅鉴定一个候选区段。在一些实施方式中,分解示意图中鉴定一个或多个离散区段,且一个或多个离散区段中之一鉴定为候选区段。在一些实施方式中候选区段是具有基本大于第二离散区段水平的水平的第一离散区段,其中第一离散水平是分解示意图中最大的水平。候选区段可通过合适的方法鉴定。在一些实施方式中候选区段通过曲线(AUC)下面积的分析进行鉴定。在一些实施方式中,决策分析包括AUC分析。在某些实施方式中,当第一离散区段具有的水平和/或覆盖的部份的数量基本大于分解示意图中其他离散区段,则第一区段包括较大的AUC。就AUC分析水平时,通常采用水平的绝对值(例如对应于标准化计数的水平对缺失可具有负值和对复制具有正值)。在某些实施方式中AUC确定为计算AUC的绝对值(例如所得正值)。在某些实施方式中候选区段经鉴定(例如通过AUC分析或合适的方法)和任选验证后,其就Z-分数计算等进行选择,以确定候选区段是否代表遗传变异(例如非整倍性、微缺失或微复制)。
对数让步比分析
有时计算让步比或对数让步比(LOR)用于样品比较和/或用于样品决策(例如是否存在遗传变异的决策)。LOR有时计算为(A)和(B)的商的对数,其中(A)是(1)具有遗传变异的条件概率和(2)具有遗传变异的先验概率的第一乘积,和(B)是(1)不具有遗传变异的条件概率和(2)不具有遗传变异的先验概率的第二乘积。遗传变异有时是染色体非整倍性(例如1、3、4拷贝的全染色体)、微缺失或微插入。
LOR计算有时包括应用确定的测试样品胎儿分数、和有时包括应用计数表示测试样品鉴定的染色体或候选区段。在一些实施方式中,具有染色体非整倍性的条件概率根据胎儿分数和计数表示确定。因此在一些实施方式中,根据映射至参照基因组的部份的核酸序列读数的计数,某些方法包括确定染色体计数表示和/或候选区段计数表示,其中序列读数通常是怀有胎儿的妊娠女性的测试样品的循环无细胞核酸的读数。候选区段有时是验证的候选区段(本文所述)。
染色体计数表示有时是染色体中映射至部份(例如箱)的计数除以计数大于染色体(例如所有常染色体)的基因组部份或其亚组中的计数。染色体计数表示有时定量,可使用任何合适的定量(例如Z-分数)。对于Z-分数定量染色体计数表示的实施方式,Z-分数有时是差值(A)除以值(B)。差值(A)有时是(i)测试样品染色体计数表示减去(ii)整倍体染色体计数表示的中值。值(B)有时整倍体染色体计数表示的MAD。测试样品染色体计数表示有时是就测试样品而言的(a)染色体中部份的计数与(b)常染色体中部份的计数的比例。整倍体染色体计数表示的中值有时是就整倍体而言的(a)染色体中部份的计数与(b)常染色体中部份的计数的比例。计数有时经标准化计数,而映射至基因组部份的计数可通过一种或多种合适的标准化过程进行标准化。可用的标准化过程的非限制性示例为本领域已知和本文所述(例如LOESS、GC-LOESS、PERUN、ChAI、主成分标准化过程)。
候选区段计数表示有时是候选区段中(或由其覆盖的)映射至或部份(例如箱)的计数除以计数大于候选区段(例如所有常染色体)的基因组部份或其亚组中的计数。候选区段计数表示有时定量,可使用任何合适的定量(例如Z-分数)。对于Z-分数定量候选区段计数表示的实施方式,Z-分数有时是差值(A)除以值(B)。差值(A)有时是(i)测试样品候选区段计数表示减去(ii)整倍体候选区段计数表示的中值。值(B)有时是整倍体候选区段计数表示的MAD。测试样品候选区段计数表示有时是就测试样品而言的(a)候选区段中部份的计数与(b)常染色体中部份的计数的比例。整倍体候选区段计数表示的中值有时是就整倍体而言的(a)候选区段中部份的计数与(b)常染色体中部份的计数的比例。计数有时经标准化计数,而映射至基因组部份的计数可通过一种或多种合适的标准化过程进行标准化。可用的标准化过程的非限制性示例为本领域已知和本文所述(例如LOESS、GC-LOESS、PERUN、ChAI、主成分标准化过程)
涉及LOR计算的方法有时包括确定测试样品的胎儿分数。胎儿分数可使用任何本领域已知的合适的方法进行确定,其非限制性示例如本文所述(例如Y染色体基因座(例如SRY基因座)定量、FRS定量)。
在某些LOR计算的实施方式中,根据下述内容确定具有遗传变异的条件概率:测试样品的胎儿分数评估、测试样品的染色体计数表示或候选区段计数表示的Z-分数、和染色体计数表示或候选区段计数表示的Z-分数的胎儿分数-特异性分布。在一些实施方式中,通过实施例6中所示的等式23中的关系确定具有遗传变异的条件概率,其中f是胎儿分数、X是染色体或候选区段的加和部份、X~f(μX,σX),其中μX和σX分别是X的算术平均和标准偏差和f(·)是分布函数。具有遗传变异的条件概率有时是测试样品染色体计数表示或候选区段计数表示的Z-分数和染色体计数表示或候选区段计数表示的Z-分数的胎儿分数-特异性分布之间焦点(例如参见图32,T21示例)。实施例6描述了(参照图32)在确定是否存在微复制事件或微缺失事件的情况中,参照整倍体分布的分布移动。
不具有染色体非整倍性的条件概率有时根据染色体计数表示或候选区段计数表示和整倍体计数表示进行确定。不具有所述遗传变异的条件概率是所述染色体计数表示的z分数与整倍体中染色体计数表示的z分数的分布的交点(例如参见图32,T21示例)。
具有遗传变异的先验概率和不具有遗传变异的先验概率通常使用本领域已知统计学数据就例如一种或多种患者群进行确定。例如,T21发生的概率和T21不发生的概率可在具体几何区域中就群体进行确定。先验概率通常从不包括测试对象的多种样品中确定。
比较和决策分析
在一些实施方式中,决策分析包括比较。在一些实施方式中比较包括比较至少两个分解示意图。在一些实施方式中比较包括比较至少两个候选区段。在某些实施方式中,至少两个候选区段的每个来自不同分解示意图。例如第一候选区段来自第一分解示意图,第二候选区段来自第二分解示意图。在一些实施方式中比较包括确定两个分解示意图是否基本相同或不同。在一些实施方式中比较包括确定两个候选区段是否基本相同或不同。
在一些实施方式中,当包括候选区段的各示意图和各分解示意图的候选区段确定为基本相同,则两个分解示意图基本相同。两个候选区段可通过合适的比较方法确定为基本相同或不同,其非限制性示例包括视觉观察、通过比较两个候选区段的水平或Z-分数、通过比较两个候选区段的边缘、通过覆盖两个候选区段或其对应分解示意图等或其组合。在一些实施方式中,两个候选区段的边缘基本相同且两个候选区段基本相同。在某些实施方式中,候选区段的边缘与其他候选区段的边缘基本相同且两个边缘隔开少于10、少于9、少于8、少于7、少于6、少于5、少于4、少于3、少于2或少于1部份(例如箱)。在一些实施方式中,两个边缘基本相同且位于相同位置(例如相同部份)。在一些实施方式中,基本相同的两个候选区段包括基本相同的水平、Z-分数或等(例如不确定性水平内,例如约3,2,1或更少倍不确定性水平)。在一些实施方式中,两个候选区段包括基本不同边缘和/或基本不同水平并根据比较确定为基本不相同(例如不同)。
在某些实施方式中,比较包括基于(例如部分基于或单独基于)包括比较一种或多种复合候选区段的比较生成一种或多种复合候选区段和确定是否存在非整倍性、微缺失或微复制。复合候选区段可通过任意合适的方法生成。在一些实施方式中通过平均两个或更多候选区段(例如水平、AUC和/或边缘)生成复合候选区段。一些实施方式中通过重叠两个或更多候选区段生成复合候选区段。在一些实施方式中,两个或更多候选区段基本相同且生成复合候选区段(例如图11)。
比较有时包括定量源自另两个分解示意图的候选区段(例如小波事件),如下所述,和采用比较以确定样品是否存在遗传变异(例如染色体非整倍性、微复制或微缺失)。
在某些实施方式中比较包括确定两个或更多分解示意图中鉴定的候选区段(例如小波事件)是否存在复合候选区段(例如复合小波事件)。在一些实施方式中,两个或更多候选区段(例如小波事件,例如源自两个或更多分解示意图)重叠或基本相同并确定存在复合候选区段(例如复合小波事件)(图11)。可通过任何合适的方法确定是否存在复合小波事件。在一些实施方式中,通过平均两个或更多候选区段(例如复合小波事件,例如水平,AUC和/或边缘)确定是否存在复合候选区段(例如复合小波事件)。在一些实施方式中,通过重叠两个或更多候选区段(例如小波事件)确定是否存在复合候选区段(例如复合小波事件)。在某些实施方式中,若两个或更多候选区段(例如小波事件)重叠或基本相同,则确定存在复合候选区段(例如复合小波事件)。
在一些实施方式中,两个或更多候选区段(例如复合小波事件,例如源自两个或更多分解示意图)不重叠或不同(例如基本不同),并确定不含复合候选区段(例如不存在复合小波事件)。在一些实施方式中,不存在复合候选区段(例如复合小波事件)表示不存在染色体非整倍性、微复制或微缺失。
在一些实施方式中,决策分析包括确定结果(例如确定胎儿是否存在遗传变异)。在一些实施方式中决策分析包括确定是否存在染色体非整倍性、微复制或微缺失的方法。在一些实施方式中决策分析包括相比不使用本文所述决策分析的确定是否存在遗传变异(例如无分割、鉴定是否存在一种或多种候选区段和/或定量一种或多种候选区段),以低假阴性和低假阳性确定是否存在遗传变异(例如胎儿中)的方法。在一些实施方式中决策分析包括系列方法或方法步骤。决策分析的非限制性示例如图6-8所示和本文所述。在某些实施方式中,决策分析包括获得计数和生成和/或获得概况。在一些实施方式中决策分析包括分割概况和生成分解示意图。在一些实施方式中,分解示意图或其区段(例如区段代表染色体,水平,离散区段或小波,候选区段或小波事件,复合区段或复合小波)通过合适的方法定量。合适的定量方法的非-限制性示例本领域已知并且本文部分所述,例如确定Z-分数、p-值、t-值、水平或水平、AUC、倍性、不确定性水平等或其组合的方法。
在一些实施方式中决策分析包括通过两个或更多分割方法分割概况。在一些实施方式中决策分析包括50或更多分割方法。在某些实施方式中决策分析包括50或更少、40或更少、30或更少、20或更少、10或更少,或约5或更少的分割方法。在某些实施方式中决策分析包括约10、9、8、7、6、5、4、3或2个分割方法。在一些实施方式中,各分割方法(例如图6A,611和612,例如采用两个方法时)提供概况的分解示意图。在一些实施方式中,两个或更多分割方法提供的分解示意图相同、基本相同或不同。
在一些实施方式中,分割后抛光(例如图6A,621和622;图6B,623))。在一些实施方式中,源自一种或多种分割法的一种或多种分解示意图有时通过相同抛光方法进行抛光。在一些实施方式中,源自一种或多种分割步骤的一种或多种分解示意图通过不同抛光方法进行抛光。在一些实施方式中分解示意图通过1、2、3、或更多抛光方法抛光。在一些实施方式中,各分解示意图通过一种方法抛光且所述方法对各分解示意图相同。
在一些实施方式中,在分割和任选抛光后鉴定是否存在候选区段候选区段(例如小波事件)(例如图6A,631和632;图6B,623)。在一些实施方式中省略抛光过程且候选区段(例如小波事件)直接从源自分割的分解示意图鉴定。在一些实施方式中候选区段(例如小波事件)在抛光的分解示意图中鉴定和/或从其鉴定。在一些实施方式中,一种或多种分解示意图中未鉴定到候选区段(例如小波事件),确定不含遗传变异。在一些实施方式中,一种或多种分解示意图(例如抛光的分解示意图)之一中未鉴定到候选区段(例如小波事件),则决策分析终止。
在一些实施方式中,鉴定到候选区段(例如小波事件)后进行定量(例如图6A,641和642;图6B,644(例如Z-分数或LOR定量))。候选区段(例如小波事件)可通过合适的方法定量,其非限制性示例包括计算Z-分数、计算p-值、确定t-值、确定水平或水平、确定倍性、计算不确定性水平等或其组合。
在一些实施方式中,决策分析包括比较(例如图6A,6B和8中的650,651,810)。在一些实施方式中,定量后比较(例如图6A,641,642和643;图6B,651))。在一些实施方式中,小波或候选区段鉴定后比较(例如图6A,631和632;图6B,633)。有时染色体定量后比较(例如图6A,643;图6B,645(例如Z-分数或LOR定量))。在一些实施方式中,比较后进行决策(例如图6A,660,;图6B,661))。
在某些实施方式中定量候选区段,包括验证的候选区段(统称为"候选区段")。候选区段有时定量为候选区段计数表示,如本文所述,候选区段计数表示有时通过Z-分数定量。有时针对定位有候选区段的染色体生成和定量染色体计数表示。染色体计数表示如本文所述,其可通过本文所述Z-分数定量。候选区段计数表示和/或染色体计数表示的计数有时是标准化的计数,如本文所述。
在某些实施方式中,生成第一候选区段计数表示的Z-分数定量,生成第二候选区段计数表示的Z-分数定量,其中第一候选区段和第二候选区段鉴定自不同类型的分割。一些实施方式包括确定下述的最小值:(i)第一候选区段计数表示的Z-分数定量乘以小于1的因子(例如约0.6-约0.8)和(ii)第二候选区段计数表示的Z-分数定量乘以该因子。
在一些实施方式中,定量候选区段计数表示与定位有候选区段的染色体的定量染色体计数表示进行比较。某些实施方式包括确定染色体表示的Z-分数定量是否小于、大于或等于前述段落中参照的最小值。一些实施方式包括确定染色体计数表示的Z-分数定量是否小于、大于或等于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))。
某些实施方式包括就测试样品来说,若(i)染色体计数表示的Z-分数定量大于或等于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))和(ii)染色体计数表示的Z-分数定量大于或等于前述段落中参照的最小值,确定存在染色体非整倍性。某些实施方式包括就测试样品来说,若(i)染色体计数表示的Z-分数定量小于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))和/或(ii)染色体计数表示的Z-分数定量小于最小值,确定不存在染色体非整倍性。染色体非整倍性有时是三体性或单体性,和有时发生在1、3或4个染色体上。
一些实施方式包括确定第一候选区段计数表示的Z-分数定量是否小于、大于或等于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))和确定第二候选区段计数表示的Z-分数定量是否小于、大于或等于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))。某些实施方式包括确定第一候选区段和第二候选区段是否基本相同或重叠。
一些实施方式包括对于测试样品来说,若(i)第一候选区段计数表示的Z-分数定量大于或等于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))和第二候选区段计数表示的Z-分数定量大于或等于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))且(ii)第一候选区段和第二候选区段基本相同或重叠,则确定存在微缺失或微插入。某些实施方式包括对于测试样品来说,若(i)第一候选区段计数表示的Z-分数定量小于阈值Z-分数值(例如约3.95(例如约3.5-约4.5))和/或第二候选区段计数表示的Z-分数定量小于阈值Z-分数值(例如约3.95(例如约3.5-约4.5)),和/或(ii)第一候选区段和第二候选区段不基本相同或不重叠,则确定不存在微缺失或微插入。
在一些实施方式中比较两个或更多值(例如源自定量的值,例如概况定量和/或候选区段(例如小波事件)定量)。在一些实施方式中比较候选区段(例如小波事件)或概况的定量与预定值或阈值。比较的非-限制性示例如实施例7所示。在一些实施方式中比较包括比较Z-分数。在某些实施方式中,比较包括比较整个染色体(概况染色体)的全染色体表示的Z-分数的绝对值(即,|Zchr|)。值|Zchr|有时与预定值、阈值或比较特征进行比较(例如图7,710中的阈值3.95)。在一些实施方式中,用于比较Z-分数的阈值、预定值或比较特征为约2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.75、3.8、3.85、3.9、3.95、4.0、4.05、4.1、4.15、4.2、4.3、4.4,或约4.5。值|Zchr|有时与分解示意图的候选区段的Z-分数的绝对值及其部份计数表示进行比较(例如实施例3中的|Z|和|Zcbs|和图7中的|ZA4|和|ZB4|)。
在一些实施方式中,比较后果是其他比较或结果的决策。在一些实施方式中,第一比较后果(例如图7,710)是确定系列比较中下一比较的决策。例如,第一比较(例如图7,710)可确定|Zchr|大于或等于预定值且第二比较(例如图7,721)对比|Zchr|与|ZA4|和/或|ZB4|。或者,第一比较(例如图7,710)可确定|Zchr|小于预定值且第二比较(例如图7,722)确定决策分析中先前鉴定的候选区段(例如小波事件)(例如图6A、631和632)是否基本相同或不同。
在一些实施方式中,第一比较后果(例如图7,710)是确定系列比较中第二比较的决策,且源自第二比较的决定确定第三比较,以此类推。在一些实施方式中,第一比较可确定|Zchr|大于或等于预定值且第二比较(例如图7,721)可确定|Zchr|大于|ZA4|和/或|ZB4|或其分数(例如|ZA4|和/或|ZB4|乘以预定值α),则确定存在全染色体非整倍性。三体性和单体性可用合适的方法辨别。
在一些实施方式中,第一比较可确定|Zchr|大于或等于预定值且第二比较(例如图7,721)可确定|Zchr|小于|ZA4|和/或|ZB4|或其分数(例如|ZA4|和/或|ZB4|乘以预定值α),则进行第三比较。在某些实施方式中,第一比较可确定|Zchr|小于预定值,第二比较可确定所鉴定的候选区段(例如小波事件)重叠或基本相同(复合候选区段),第三比较确定|ZA4|和|ZB4|大于或等于预定值(例如3.95),则确定存在微复制和/或微缺失。微复制和微缺失可用合适的方法辨别。例如微复制可具有正Z-分数和微缺失可具有负Z-分数。
在一些实施方式中比较可确定两个或更多候选区段(例如小波事件)不重叠或基本相同(例如基本不同,例如图8,822),则概况中不存在遗传变异。在一些实施方式中比较可确定两个或更多候选区段(例如小波事件,例如一种或多种分解示意图中鉴定的所有候选区段(例如小波事件))重叠或基本相同(例如图8,821),并确定是否存在微复制或微缺失。在一些实施方式中,根据定量复合候选区段(例如复合小波事件)确定是否存在微复制或微缺失。
在一些实施方式中决策分析包括两个或更多分割、抛光和鉴定候选区段(例如小波事件)。在一些实施方式中决策分析可包括定量两个或更多候选区段(例如小波事件)。在一些实施方式中决策分析包括定量染色体概况。在一些实施方式中决策分析包括一种或多种比较。在一些实施方式中决策分析包括确定是否存在遗传变异。
在一些实施方式中决策分析包括分割、抛光、鉴定候选区段(例如小波事件)、一种或多种比较和确定是否存在遗传变异,和/或由其组成。在一些实施方式中决策分析包括分割、抛光、鉴定候选区段(例如小波事件)、定量、一种或多种比较和确定是否存在遗传变异,和/或由其组成。在一些实施方式中决策分析包括分割、抛光、鉴定候选区段(例如小波事件)、确定是否存在复合候选区段(例如复合小波事件)、定量复合候选区段(例如复合小波事件)、一种或多种比较和确定是否存在遗传变异,和/或由其组成。在一些实施方式中决策分析包括分割、抛光、鉴定候选区段(例如小波事件)、定量候选区段(例如小波事件)、定量染色体概况、比较和确定是否存在遗传变异,和/或由其组成。在一些实施方式中,决策分析包括验证。
在一些实施方式中,比较或决策分析包括与差异比或对数让步比(LOR)比较。在某些实施方式中,比较或决策包括确定计算的LOR是否大于或小于0。
在一些实施方式中,比较或决策包括生成Z-分数定量染色体计数表示和确定染色体计数表示是否小于、大于或等于值(例如约3.95的Z-分数值(例如约3.5-约4.5))。在某些实施方式中,决策包括就所述测试样品而言,若(i)所述染色体计数表示的z分数定量大于或等于所述值(如约3.95),和(ii)LOR大于0,则决定(确定)存在染色体非整倍性。在一些实施方式中,决策包括就所述测试样品而言,若(i)所述染色体计数表示的z分数定量小于所述值(如约3.95),和/或(ii)LOR小于0,则决定(确定)不存在染色体非整倍性。染色体非整倍性有时为三体性或单体性、或1、3或4拷贝的染色体。
在一些实施方式中,比较或决策包括生成Z-分数定量候选区段计数表示和确定候选区段计数表示是否小于、大于或等于值(例如约3.95的Z-分数值(例如约3.5-约4.5))。在某些实施方式中,决策包括就所述测试样品而言,若(i)所述候选区段计数表示的z分数定量大于或等于所述值(如约3.95),和(ii)LOR大于0,则决定(确定)存在微缺失或微插入事件。在一些实施方式中,决策包括就所述测试样品而言,若(i)所述候选区段计数表示的z分数定量小于所述值(如约3.95),和/或(ii)LOR小于0,则决定(确定)不存在微缺失或微插入事件。微缺失事件有时是关联DiGeorge综合症的事件。
结果
本文所述方法可提供确定样品是否存在遗传变异(例如胎儿非整倍性),从而提供结果(例如从而提供是否存在遗传变异(例如胎儿非整倍性)的确定性结果)。遗传变异通常包括遗传信息(例如染色体、染色体区段、多态性区域、转位区域、改变的核苷酸序列等或前述的组合)的获得、丧失和/或改变(例如复制、缺失、融合、插入、突变、重组、取代或异常甲基化),其导致测试对象的基因组或遗传信息中相对参照的可检测变化。是否存在遗传变异可通过变换、分析和/或操作映射至部份(例如计数、参照基因组的基因组部份的计数)的序列读数来确定。在一些实施方式中,确定结果包括分析妊娠女性的核酸。在某些实施方式中,结果根据获自妊娠女性的计数(例如标准化计数)确定,其中所述计数获自妊娠女性的核酸。
本文所述方法有时确定怀有胎儿的妊娠女性的测试样品是否存在胎儿非整倍性(例如全染色体非整倍性、部分染色体非整倍性或区段性染色体异常(例如镶嵌性、缺失和/或插入))。在某些实施方式中本文所述方法测试怀有胎儿的妊娠女性的测试样品的整倍体性或无整倍体性(非-整倍体性)。本文所述方法有时测试一种或多种染色体(例如染色体13、染色体18、染色体21或其组合)或其区段的三体性。
在一些实施方式中,通过本文所述方法、本领域已知方法或其组合确定是否存在遗传变异(例如胎儿非整倍性)。是否存在遗传变异通常测自映射至参照基因组的部份的序列读数计数。用于确定是否存在遗传变异的序列读数计数有时是原始计数和/或过滤的计数,通常是经标准化的计数。合适的标准化过程可用于生成标准化计数,其非限制性示例包括逐份标准化、通过GC含量的标准化、线性和非线性最小二乘回归、LOESS、GCLOESS、LOWESS、PERUN、ChAI、RM、GCRM及其组合。标准化计数有时表达为特定部份组的一种或多种水平或概况中的水平。标准化计数有时在确定是否存在遗传变异前经调整或填充。
在一些实施方式中根据一种或多种水平确定结果。在一些实施方式中,根据一种或多种调整水平确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,根据包括1-约10000的调整水平的概况确定是否存在遗传变异(例如染色体非整倍性)。通常,根据包括约1-约1000、1-约900、1-约800、1-约700、1-约600、1-约500、1-约400、1-约300、1-约200、1-约100、1-约50、1-约25、1-约20、1-约15、1-约10、或1-约5的调整的概况确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,根据包括约1的调整的概况(例如一个调整水平)确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中根据(例如染色体或其区段的概况)包括1或更多、2或更多、3或更多、5或更多、6或更多、7或更多、8或更多、9或更多或有时10或更多的调整的一种或多种概况确定结果。在一些实施方式中,根据其中一些水平未经调整的概况确定是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,根据其中未进行调整的概况确定是否存在遗传变异(例如染色体非整倍性)。
在一些实施方式中,概况中水平(例如第一水平)调整减少假确定或假结果。在一些实施方式中,概况中水平(例如第一水平)调整减少假确定或假结果的频率和/或概率(例如统计学概率、似然率)。假确定或假结果可为不准确的确定或结果。假确定或结果可为未反应对象(例如妊娠女性、胎儿和/或其组合)的真实或真遗传构成或真实或真遗传排布(例如是否存在遗传变异)的确定或结果。在一些实施方式中假确定或结果是假阴性确定。在一些实施方式中负确定或负结果为不含遗传变异(例如非整倍性,拷贝数变异)。在一些实施方式中假确定或假结果是假阳性确定或假阳性结果。在一些实施方式中正确定或正结果为含遗传变异(例如非整倍性,拷贝数变异)。在一些实施方式中,确定或结果用于诊断。在一些实施方式中,确定或结果针对胎儿。
确定是否存在遗传变异(例如胎儿非整倍性)有时无需比较部份的组的计数与参照。在测试区域中(例如感兴趣的部份的组)就测试样品测量的计数本文称为"测试计数"。测试计数有时是本文所述加工的计数、平均或加和的计数、表示、标准化计数、或一种或多种水平或水平。在某些实施方式中,测试计数是部份的组的平均或加和(例如计算平均、算术平均、中值、模式或加和),且平均或加和计数与阈值或范围比较。测试计数有时表达为表示,其可表达为第一组部份的计数与第二组部份的计数的比例或百分比。在某些实施方式中,第一组部份用于一种或多种测试染色体(例如染色体13、染色体18、染色体21、或其组合),有时第二组部份用于基因组或部分基因组(例如常染色体或常染色体和性染色体)。在某些实施方式中表示与阈值或范围比较。在某些实施方式中测试计数表达为一种或多种水平或部份的组的标准化计数的水平,且所述一种或多种水平与阈值或范围比较。高于或低于特定阈值、在特定范围内或特定范围外的测试计数(例如平均或加和的计数,表示,标准化计数,一种或多种水平或水平)有时决定了存在遗传变异或无整倍体性(例如非整倍体性)。低于或高于特定阈值、在特定范围内或特定范围外的测试计数(例如平均或加和的计数、表示、标准化计数、一种或多种水平或水平)有时决定了不存在遗传变异或整倍体性。
是否存在遗传变异(例如胎儿非整倍性)有时通过比较计数进行确定,其非限制性示例包括测试计数、参照计数、原始计数、过滤的计数、平均或加和的计数、表示(例如染色体表示)、标准化计数、一种或多种水平或水平(例如针对部份的组、例如基因组节段水平、概况)、Z-分数等或其组合。在一些实施方式中,测试计数与参照(例如参照计数)比较。参照(例如参照计数)可为合适的计数确定,其非限制性示例包括原始计数、过滤的计数、平均或加和的计数、表示(例如染色体表示)、标准化计数、一种或多种水平或水平(例如针对部份的组、例如基因组节段水平、概况)、Z-分数等或其组合。参照计数通常就整倍体测试区域计数或从整倍体的基因组或染色体的区段计数。在一些实施方式中,参照计数和测试计数获自相同样品和/或相同对象。在一些实施方式中,参照计数和测试计数获自不同样品和/或不同对象。在一些实施方式中,参照计数从导出和/或确定测试计数的基因组对应区段确定或与之比较。对应区段指映射至参照基因组相同位置的区段、部份或部份的组。在一些实施方式中,参照计数从导出和/或确定测试计数的基因组不同区段确定或与之比较。
在某些实施方式中,测试计数有时用于第一组部份且参照包括不同于第一组部份的第二组部份的计数。参照计数有时用于相同妊娠女性的核酸样品,测试样品获自所述妊娠女性。在某些实施方式中,参照计数用于一种或多种妊娠女性的核酸样品,所述一种或多种妊娠女性不同于获取测试样品的女性。在一些实施方式中,第一组部份在染色体13、染色体18、染色体21,其区段或前述的组合中,且第二组部份在其他染色体或染色体或其区段中。在非限制性示例中,第一组部份在染色体21或其区段中,第二组部份通常在其他染色体中(例如染色体1,染色体13,染色体14,染色体18,染色体19,其区段或其组合)。参照通常位于一般为整倍体的染色体或其区段中。例如,胎儿中染色体1和染色体19通常为整倍体,由于染色体1和染色体19非整倍体与高比例的早期胎儿死亡相关。可生成测试计数和参照计数之间的测量偏差。
在某些实施方式中参照包括与测试计数相同的部份的组的计数,其中参照的计数来自一种或多种参照样品(例如通常来自多种参照对象的多种参照样品)。参照样品通常来自不同于获得测试样品的女性的一个或多个妊娠女性。可生成测试计数和参照计数之间的测量偏差(例如不确定性测量、不确定值)。在一些实施方式中从测试计数确定测量偏差。在一些实施方式中从参照计数确定测量偏差。在一些实施方式中从整个概况或概况中的部份亚组确定测量偏差。
可选择合适的测量偏差,其非限制性示例包括标准偏差、平均绝对偏差、中值绝对偏差、最大绝对偏差、标准分数(例如z-值、Z-分数、正常值、标准化的变量)等。在一些实施方式中,参照样品的测试区域是整倍体并评估测试计数和参照计数之间的偏差。在一些实施方式中确定是否存在遗传变异是根据基因组或染色体的区段或部份的测试计数和参照计数之间偏差的数量(例如偏差的测量,MAD)。在一些实施方式中,当测试计数和参照计数之间偏差的数量大于约1、大于约1.5、大于约2、大于约2.5、大于约2.6、大于约2.7、大于约2.8、大于约2.9、大于约3、大于约3.1、大于约3.2、大于约3.3、大于约3.4、大于约3.5、大于约4、大于约5或大于约6时,确定存在遗传变异。例如,有时测试计数与参照计数差异大于3量度的偏差时(例如3б,3MAD),确定存在遗传变异。在一些实施方式中获自妊娠女性的测试计数大于参照计数超过3量度的偏差时(例如3σ、3MAD),确定存在胎儿染色体非整倍性(例如胎儿三体性)。测试计数和参照计数之间的偏差大于3通常指示非-整倍体测试区域(例如存在遗传变异)。测试计数显著高于参照计数(参照计数指示整倍体性)有时决定了三体性。在一些实施方式中获自妊娠女性的测试计数小于参照计数超过3量度的偏差时(例如3σ、3MAD),确定存在胎儿染色体非整倍性(例如胎儿单体性)。测试计数显著低于参照计数(参照计数指示整倍体性)有时决定了单体性。
在一些实施方式中,当测试计数和参照计数之间偏差的数量小于约3.5、小于约3.4、小于约3.3、小于约3.2、小于约3.1、小于约3.0、小于约2.9、小于约2.8、小于约2.7、小于约2.6、小于约2.5、小于约2.0、小于约1.5或小于约1.0,则确定不含遗传变异。例如,有时测试计数与参照计数差异小于3量度的偏差时(例如3σ,3MAD),确定不存在遗传变异。在一些实施方式中获自妊娠女性的测试计数与参照计数的差异小于3量度的偏差时(例如3σ、3MAD),确定不存在胎儿染色体非整倍性(例如胎儿整倍性)。在一些实施方式中,(例如测试计数和参照计数之间偏差小于3(例如标准偏差的3σ)通常指示整倍体测试区域(例如不存在遗传变异)。测试样品的测试计数和一种或多种参照对象参照计数之间的偏差可作图并可视化(例如Z-分数作图)。
可用测试计数将任何其他合适的参照化为因数,用于确定测试样品的测试区域是否存在遗传变异(确定整倍体或非-整倍体)。例如,可用测试计数将胎儿分数确定化为因数,以确@@定是否存在遗传变异。可采用合适的过程定量胎儿分数,其非限制性示例包括质谱法、测序过程或其组合。
在一些实施方式中,是否存在胎儿染色体非整倍性(例如三体性)部分从胎儿倍性确定中确定。在一些实施方式中,胎儿倍性由本文所述合适方法确定。一些某些实施方式,胎儿倍性确定约1.20或更大、1.25或更大、1.30或更大、约1.35或更大、约1.4或更大或约1.45或更大表示存在胎儿染色体非整倍性(例如存在胎儿三体性)。在一些实施方式中胎儿倍性确定约1.20-约2.0、约1.20-约1.9、约1.20-约1.85、约1.20-约1.8、约1.25-约2.0、约1.25-约1.9、约1.25-约1.85、约1.25-约1.8、约1.3-约2.0、约1.3-约1.9、约1.3-约1.85、约1.3-约1.8、约1.35-约2.0、约1.35-约1.9、约1.35-约1.8、约1.4-约2.0、约1.4-约1.85或约1.4-约1.8表明存在胎儿染色体非整倍性(例如存在胎儿三体性)。在一些实施方式中,胎儿非整倍性是三体性。在一些实施方式中,胎儿非整倍性是染色体13、18和/或21的三体性。
在一些实施方式中,胎儿倍性小于约1.35、少于约1.30、少于约1.25、少于约1.20或少于约1.15表明不含胎儿非整倍性(例如不含胎儿三体性、例如整倍体)。在一些实施方式中胎儿倍性确定约0.7-约1.35、约0.7-约1.30、约0.7-约1.25、约0.7-约1.20、约0.7-约1.15、约0.75-约1.35、约0.75-约1.30、约0.75-约1.25、约0.75-约1.20、约0.75-约1.15、约0.8-约1.35、约0.8-约1.30、约0.8-约1.25、约0.8-约1.20,或约0.8-约1.15表明不含胎儿染色体非整倍性(例如不含胎儿三体性、例如整倍体)
在一些实施方式中胎儿倍性小于约0.8、小于约0.75、小于约0.70或小于约0.6表明存在胎儿非整倍性(例如存在染色体缺失)。在一些实施方式中胎儿倍性确定为约0-约0.8、约0-约0.75、约0-约0.70、约0-约0.65、约0-约0.60、约0.1-约0.8、约0.1-约0.75、约0.1-约0.70、约0.1-约0.65、约0.1-约0.60、约0.2-约0.8、约0.2-约0.75、约0.2-约0.70、约0.2-约0.65、约0.2-约0.60、约0.25-约0.8、约0.25-约0.75、约0.25-约0.70、约0.25-约0.65、约0.25-约0.60、约0.3-约0.8、约0.3-约0.75、约0.3-约0.70、约0.3-约0.65、约0.3-约0.60表明存在胎儿染色体非整倍性(例如存在染色体缺失)。在一些实施方式中,所测胎儿非整倍性是全染色体缺失。
在一些实施方式中,根据判定区确定是否存在胎儿非整倍性(例如根据上述倍性确定的一种或多种范围)。在某些实施方式中,当值(例如倍性值、胎儿分数值、不确定性水平)或值的集合落在预定范围内(例如区,判定区),做出判定(例如确定是否存在遗传变异的判定,例如结果)。在一些实施方式中,根据获自相同患者样品的值的集合定义判定区。在某些实施方式中,根据获自相同染色体或其区段的值的集合定义判定区。在一些实施方式中,根据置信水平(例如高置信水平、例如低不确定性水平)和/或胎儿分数定义基于倍性确定的判定区。在一些实施方式中,根据约2.0%或更大、约2.5%或更大、约3%或更大、约3.25%或更大、约3.5%或更大、约3.75%或更大或约4.0%或更大的倍性确定和胎儿分数定义判定区。例如,在一些实施方式中,对于获自怀有胎儿的妊娠女性的样品,基于大于1.25的倍性确定与2%或更大或4%或更大的胎儿分数确定,做出胎儿包括21三体的判定。例如,在某些实施方式中,对于获自怀有胎儿的妊娠女性的样品,基于小于1.25的倍性确定与2%或更大或4%或更大的胎儿分数确定,做出胎儿是整倍体的判定。在一些实施方式中,通过约99%或更大、约99.1%或更大、约99.2%或更大、约99.3%或更大、约99.4%或更大、约99.5%或更大、约99.6%或更大、约99.7%或更大、约99.8%或更大或约99.9%或更大的置信水平定义判定区。一些实施方式中不使用判定区进行判定。在一些实施方式中使用判定区和其他数据或信息做出判定。在一些实施方式中基于倍性值而不使用判定区做出判定。一些实施方式中进行判定而不计算倍性值。在一些实施方式中,基于概况的视觉观察(例如视觉观察基因组节段水平)进行判定。可通过任何合适的方法全部或部分基于本文所述方法获得的确定、值和/或数据进行判定,所述方法非限制性示例包括胎儿倍性确定、胎儿分数确定、母体倍性、不确定性和/或置信度确定、部份水平、水平、概况、Z-分数、预期的染色体表示、测量的染色体表示、计数(例如标准化计数、原始计数)、胎儿或母体拷贝数变异(例如归类的拷贝数变异)、显著不同水平、调整水平(例如填充)等或其组合。
在一些实施方式中非判定区是不进行判定的区。在一些实施方式中,通过表明低精确性、高风险、高误差、低水平置信度、高水平不确定性等或其组合的值或值的集合定义非-判定区。在一些实施方式中,部分通过约5%或更少、约4%或更少、约3%或更少、约2.5%或更少、约2.0%或更少、约1.5%或更少或约1.0%或更少的胎儿分数定义非-判定区。
遗传变异有时关联医学病症。遗传变异的确定性结果有时是是否具有病症(例如医学病症)、疾病、症状或异常,或包括检测病症、疾病、症状或异常的确定性结果(非限制性示例列于表1)。在某些实施方式中,诊断包括评估结果。通过本文所述方法对是否存在病症(例如医学病症)、疾病、症状或异常的结果确定有时可通过其他测试(例如染色体组型和/或羊水诊断)单独验证。数据的分析和处理能提供一种或多种结果。本文术语“结果”可指有利于确定是否存在遗传变异(例如非整倍性、拷贝数量差异)的数据处理结果。在一些实施方式中,本文术语“结果”可指预测和/或确定是否存在遗传变异(例如非整倍性、拷贝数量差异)的结论。在一些实施方式中,本文术语“结果”可指预测和/或确定对象(例如胎儿)是否存在遗传变异(例如非整倍性、拷贝数量差异)的风险或可能性的结论。诊断有时包括使用结果。例如,健康医师可分析结果并基于或部分给予该结果提供诊断。在一些实施方式中,确定、检测或诊断病症、症状或异常(例如表1所列)包括使用是否存在遗传变异的确定性结果。在一些实施方式中,基于计数的映射的序列读数或其变换的结果确定是否存在遗传变异。在某些实施方式中,使用本文所述一种或多种数据处理方法生成的结果确定是否存在表1中列举的一种或多种病症、症状或异常。在一些实施方式中,诊断包括确定是否存在病症、症状或异常。通常诊断包括确定作为病症、症状或异常的性质和/或原因的遗传变异。在一些实施方式中,结果不是诊断。结果常包括在关于概率的一种或多种考虑的前提下使用本文所述的处理方法生成的一个或多个数值。风险或概率的考虑可包括但不限于不确定值、测量可变性、置信水平、灵敏度、特异性、标准偏差、方差系数(CV)和/或置信水平、Z-分数、Chi值、Phi值、倍数性值、拟合胎儿分数、面积比率、中值水平、等或其组合。关于概率的考虑能帮助确定对象是否有遗传变异的风险或有遗传变异,而是否存在遗传疾病的确定性结果常包括这种考虑。
结果有时是表型。结果经常是有相关置信水平的表型(如不确定值,胎儿21三体性呈阳性,其置信水平为99%;测试对象为遗传变异相关癌症阴性,其置信水平为95%)。产生结果值的不同方法有时可产生不同类型结果。通常,基于使用本文所述方法生成的结果值有四种可能的评分或判定:真阳性、假阳性、真阴性和假阴性。本文所用的术语“评分”、“分数”、“判定”指就对象/样品中是否存在特定遗传变异的概率的计算。分值可用来确定,例如,可与遗传变异相对应的定位的序列读数的变化、差异或比例。例如,关于参照基因组,对数据组的所选遗传变异或部份计正分能引导鉴定是否存在遗传变异,所述遗传变异有时与医学病症相关联(如癌症、先兆子痫、三体性、单体性等)。在一些实施方式中,结果包括水平、概况和/或图(如概况图)。在那些结果包括概况的那些实施方式中,可就结果使用合适的概况或概况组合。能就结果使用的概况的非限定性示例包含z-分数概况、p值概况、chi值概况、phi值概况等,及其组合。
用于确定是否存在遗传变异而生成的结果有时包括零(null)结果(如两个簇之间的数据点,包括存在和缺失的遗传变异的值的有标准偏差的数值,分布图与有或没有所研究的遗传变异的对象的分布图不相似的的数据组)。在一些实施方式中,指示零结果的结果仍然是确定结果,而所述确定可包含以供确定是否存在遗传变异的对其它信息和/或重复数据生成和/或分析的需要。
在一些实施方式中,在进行本文所述一个或多个处理步骤后能生成结果。在某些实施方式中,结果作为本文所述处理步骤之一的结果生成,而在一些实施方式中,在数据组的各统计学和/或数学处理进行之后,能生成结果。关于确定是否存在遗传变异的结果能以任意形式表示,所述形式包括但不限于与对象或样品中遗传变异存在与否相关的概率(如让步比、p值)、可能性、簇内或簇外值、过阈或阈下值、范围内(如阈值范围)的值、有方差或置信测量的值或风险因子。在某些实施方式中,样品间的比较允许确定样品特征(例如允许鉴定重复样品和/或已混合的样品(例如错标的、组合的等))。
在一些实施方式中,结果包含高于或低于预定阈值或截止值的值(如大于1、小于1),和与所述值相关联的不确定性或置信水平。在某些实施方式中,预定阈值或截止值是预期水平或预期水平范围。结果也能描述用于数据处理的假定。在某些实施方式中,结果包含落在值预定范围(如阈值范围)内或外的值,和该值在所述范围内或外的相关不确定性或置信水平。在一些实施方式中,结果包含的值等于预定值(如等于1、等于0),或等于预定值范围内的值,以及其等于或者在范围内或外的相关不确定性或置信水平。结果有时以图(如分布图)来图示显示。
如上所述,结果能表征为真阳性、真阴性、假阳性或假阴性。本文所用的术语“真阳性”指对象被正确诊断为具有遗传变异。如本文所用术语“假阳性”指对象被错误鉴定为具有遗传变异。如本文所用术语“真阴性”指对象被正确鉴定为不具有遗传变异。如本文所用术语“假阴性”指对象被错误鉴定为不具有遗传变异。可根据发生比例对任何给定方法计算两种性能度量:(i)灵敏度值,通常是被正确鉴定为阳性的预测阳性部分;和(ii)特异性值,通常是被正确鉴定为阴性的预测阴性部分。
在某些实施方式中,灵敏度、特异性和/或置信水平中的一个或多个表示为百分数。在一些实施方式中,独立地对应各变量的百分数超过约90%(例如,约90、91、92、93、94、95、96、97、98或99%或超过99%(例如,约99.5%或更高,约99.9%或更高、约99.95%或更高、约99.99%或更高))。在一些实施方式中,变异系数(CV)表示为百分数,有时所述百分数为约10%或更低(例如,约10、9、8、7、6、5、4、3、2或1%或低于1%(例如,约0.5%或更低、约0.1%或更低、约0.05%或更低、约0.01%或更低))。在某些实施方式中,概率(如特定结果不是由于偶然)被表示为Z-分值、p值或t检验的结果。在一些实施方式中,可用本文所述的一种或多种数据处理操作生成针对结果的测量的方差、置信区间、灵敏度、特异性等(例如统称为置信参数)。生成结果和相关置信水平的具体示例描述于实施例部分以及国际申请号PCT/US12/59123(WO2013/052913),其全文通过引用纳入本文,包括所有文本、表格、等式和图。
本文所用的术语“灵敏度”指真阳性的数量除以真阳性数量与假阴性数量之和,其中灵敏度(sens)可在0≤sens≤1范围内。本文所用的术语“特异性”指真阴性的数量除以真阴性数量与假阴性数量之和,其中特异性(spec)可在0≤spec≤1范围内。在一些实施方式中,有时选择灵敏度和特特异性等于1、或100%、或接近1(如约90%-约99%)的方法。在一些实施方式中,选择灵敏度等于1或100%的方法,而在某些实施方式中,选择灵敏度接近1(如灵敏度约90%、灵敏度约91%、灵敏度约92%、灵敏度约93%、灵敏度约94%、灵敏度约95%、灵敏度约96%、灵敏度约97%、灵敏度约98%或灵敏度约99%)的方法。在一些实施方式中,选择特异性等于1或100%的方法,而在某些实施方式中,选择特异性接近1(如特异性约90%、特异性约91%、特异性约92%、特异性约93%、特异性约94%、特异性约95%、特异性约96%、特异性约97%、特异性约98%或特异性约99%)的方法。
在一些实施方式中,确定胎儿是否存在遗传变异(例如染色体非整倍性)。在该实施方式中,确定是否存在胎儿遗传变异(例如胎儿染色体非整倍性)。
在某些实施方式中,确定样品是否存在遗传变异(例如染色体非整倍性)。在该实施方式中,确定样品核酸中是否存在遗传变异(例如染色体非整倍性)。在一些实施方式中,检测或未检测的变异在一个来源的样品核酸中残留而在另一来源的样品核酸中不残留。来源的非限制性示例包括胎盘核酸、胎儿核酸、母体核酸、癌细胞核酸、非-癌细胞核酸、等及其组合。在非-限制性示例中,检测或未检测的特定遗传变异(i)在胎盘核酸中残留而在胎儿核酸和母体核酸中不残留;(ii)在胎儿核酸中残留但在母体核酸中不残留;或(iii)在母体核酸中残留但在胎儿核酸中不残留。
一个或多个结果生成之后,结果经常用于提供对是否存在遗传变异和/或相关医学病症的确定。结果通常提供给健康护理专业人员(如实验室技术人员或管理者;医师或助手)。通常结果由结果模块提供。在某些实施方式中,结果通过作图模块提供。在某些实施方式中,结果在装置的外围设备或组件上提供。例如,有时结果在打印机或显示器上提供。在一些实施方式中,是否存在遗传变异的确定性结果以报告形式提供给健康护理专业人员,而在某些实施方式中,所述报告包含显示结果值和相关置信参数。通常,结果能以帮助确定是否存在遗传变异和/或医学病症的合适的格式显示。合适用于报告和/或显示数据组或报告结果的格式的非限定性示例包含数字数据、曲线图、2D图、3D图、和4D图、图片、象形图、图表、条线图、饼图、线图、流程图、散点图、图谱、柱状图、密度图、函数图、线路图、框图、起泡图、星座图、轮廓图、统计图、蛛网图、维恩图、列线图等,及其组合。结果表示的各种示例如附图所示和实施例所述。
在某些实施方式中,生成结果可视为核酸序列读数数据等变换为表示对象细胞核酸。例如,分析对象核酸的序列读数和生成染色体概况和/或结果可视为相对小的序列读数片段变换为相对大的染色体结构。在一些实施方式中,结果获自序列读数从对象(例如妊娠女性)变换为表示对象(例如母体和/或胎儿核酸)中的现存结构(例如基因组,染色体或其区段)。在一些实施方式中,结果包括序列读数从第一对象(例如妊娠女性)变换为结构(例如基因组、染色体或其区段)的复合表示,和复合表示的第二变换,其产生对第一对象对象(例如妊娠女性)和/或第二对象(例如胎儿)中存在结构的表示。
在某些实施方式中结果可根据分析生成一种或多种候选区段。在一些实施方式中,是否存在遗传变异根据离散区段、候选区段或复合候选区段(例如是否存在离散区段、候选区段或复合候选区段)来确定。在一些实施方式中,源自相同概况的两个分解示意图的两个候选区段基本相同(例如根据比较),并确定存在染色体非整倍性、微复制或微缺失。在一些实施方式中,存在复合候选区段表示存在染色体非整倍性、微复制或微缺失。在一些实施方式中,根据概况中存在离散区段、候选区段或复合候选区段确定存在全染色体非整倍性,所述概况是基因组区段(例如大于染色体的区段、例如代表两个或更多染色体的区段、代表整个基因组的区段)。在一些实施方式中,根据概况中存在离散区段、候选区段或复合候选区段确定存在全染色体非整倍性,所述离散区段边缘与染色体边缘基本相同。在某些实施方式中,当概况中离散区段、候选区段或复合候选区段的至少一个边缘不同于染色体边缘和/或离散区段在染色体内时,确定存在微复制或微缺失。在一些实施方式中,确定存在微复制,且离散区段、候选区段或复合候选区段的水平或AUC基本大于参照水平(例如整倍体区域)。在一些实施方式中,确定存在微缺失,且离散区段、候选区段或复合候选区段的水平或AUC基本小于参照水平(例如整倍体区域)。在一些实施方式中,两个或更多不同分解示意图中鉴定的候选区段基本不相同(例如不同),确定没有染色体非整倍性、微复制和/或微缺失。在一些实施方式中,概况或概况的分解示意图中不含离散区段、候选区段或复合候选区段表明不含染色体非整倍性、微复制或微缺失。
验证
在一些实施方式中,本文所述方法包括验证。在一些实施方式中决策分析(例如决策树)、确定是否存在遗传变异(例如拷贝数变异,微复制,微缺失,非整倍性)、进行判定和/或确定结果包括验证。任何合适的验证过程可用于本文所述验证方法、判定或结果。
在一些实施方式中验证包括验证或作废分解示意图中鉴定的候选区段。验证的候选区段证实存在候选区段。作废的候选区段改变表示存在候选区段的判定为不含候选区段。例如,在一些实施方式中,分割法鉴定候选区段后,可进行验证,其中候选区段经验证或作废。作废的候选区段表示概况中不含染色体非整倍性、微复制或微缺失。在一些实施方式中,验证包括以低假阴性和/或低假阳性确定是否存在候选区段。可通过合适的方法验证候选区段,其非限制性示例包括“滑动边缘”法,“留一法”等或其组合。
在一些实施方式中验证包括生成候选区段或复合候选区段的显著性水平。在一些实施方式中,显著性水平是Z-分数、z-值、p-值或等。在一些实施方式中验证包括生成不确定性水平。在一些实施方式中不确定性水平关联显著性水平。例如,有时确定平均、算术平均或中值显著性水平并确定平均、算术平均或中值显著性水平的不确定性水平。
在一些实施方式中候选区段根据显著性水平和/或不确定值验证或作废。验证的或作废的离散区段可为验证的或作废的复合候选区段。在一些实施方式中,根据候选区段的显著性水平和/或不确定性水平确定是否存在验证的候选区段。在一些实施方式中,不存在验证的候选区段表示不存在染色体非整倍性、微复制或微缺失。在一些实施方式中,存在验证的候选区段证实存在候选区段。在一些实施方式中,存在两个或更多验证的候选区段导致确定或生成复合候选区段。在一些实施方式中,存在一种或多种验证的候选区段部分以更高的置信水平确定存在染色体非整倍性、微复制或微缺失。在一些实施方式中,存在候选区段部分表明存在DiGeorge综合症。在一些实施方式中,不存在验证的候选区段表示不存在染色体非整倍性、微复制或微缺失。
滑动边缘验证
在一些实施方式中验证包括“滑动边缘”法。合适的”滑动边缘”法可直接用于或可适用于验证分解示意图中的区段。在一些实施方式中“滑动边缘”法包括将候选区段(例如部份组所代表的候选区段)或可能包括或为候选区段的区段分割为多种部份的亚组。在一些实施方式中,候选区段是全染色体或染色体区段的部份的组。在一些实施方式中,候选区段包括关联已知遗传变异或已知遗传紊乱的区域的部份的组。在一些实施方式中,候选区段包括DiGeorge区域。
在某些实施方式中”滑动边缘”法包括分割鉴定的候选区段(部份的组)为多种部份的亚组,其中部份的各亚组代表具有相似但不同边缘的候选区段。在一些实施方式中,最初鉴定的候选区段包括在分析中。例如,包括最初鉴定的候选区段作为部份的多种亚组。部份的亚组可由任何合适的方法通过改变最初鉴定的离散区段的一个或多个边缘来确定。在一些实施方式中,可改变左边缘可由此生成具有不同左边缘的离散区段。在一些实施方式中,可改变右边缘可由此生成具有不同右边缘的离散区段。在一些实施方式中,左和右边缘均可改变。在一些实施方式中,通过将边缘移动参照基因组的一个或多个邻近部份至最初的边缘的左侧或右侧来改变所述边缘。
在实施例5所述的滑动边缘法的实施方式中,通过将两个边缘移动参照基因组的15部份来改变最初离散区段,从而得到15*15离散区段网格(例如225个不同的部份亚组)。例如,保持右边缘稳定,左边缘可向右移动参照基因组的7部份,然后向左移动参照基因组的7部份从而生成15个可能的左边缘。保持15个左边缘的每个稳定,右边缘可向右移动参照基因组的7部份,然后向左移动参照基因组的7部份从而生成15个可能的右边缘。所得亚组包括225个不同离散区段(例如参照基因组的部份的亚组)。
在一些实施方式中,边缘之一或二者均改变了参照基因组的5–30个部份。在一些实施方式中边缘在两个方向移动了参照基因组的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30部份。在一些实施方式中,无论部份大小如何,边缘发生改变在边缘之一或两个均产生了约100,000-约2,000,000碱基对、250,000-约1,500,000碱基对、或约500,000-约1,000,000碱基对的边缘范围。在一些实施方式中,无论部份大小如何,边缘发生改变在边缘之一或两个均产生了约500,000、600,000、700,000、750,000、800,000、900,000、或约1,000,000碱基对的边缘范围。
在一些实施方式中,鉴定离散区段包括第一末端和第二末端,且所述分割包括(i)通过递归移除从部份的组的第一末端移除一种或多种部份,从而提供具有各递归移除的部份亚组,(ii)n次重复后终止(i)中的递归移除,从而提供n+1部份的亚组,其中部份的组为亚组,和其中各亚组包括不同数量的部份,第一亚组末端和第二亚组末端,(iii)通过递归移除从(ii)中提供的n+1部份的亚组的每个的第二亚组末端移除一种或多种部份;和(iv)n次重复后终止(iii)中的递归移除、从而提供多个部份的亚组。在一些实施方式中,多个亚组等于(n+1)2个亚组。在一些实施方式中,n等于5-30之间的整数。在一些实施方式中,n等于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30。
在滑动边缘法的某些实施方式,确定参照基因组的部份的各亚组的显著性水平(例如Z-分数,p-值),并根据显著性水平确定所有亚组的平均、算术平均或中值显著性水平。
在一些实施方式中,显著性水平是Z-分数或p-值。在一些实施方式中,Z-分数通过下式计算:
Zi=(Ei–Med.E(n))/MAD
其中Ei是离散区段i的水平的定量确定,Med.E(n)是滑动边缘过程生成的所有离散区段的中值水平,和MAD是Med.E(n)的中值绝对偏差,和Zi是离散区段i的所得Z-分数。在一些实施方式中,MAD可用任何合适的不确定性测量替代。在一些实施方式中,Ei是任何合适的水平测量,其非限制性示例包括部份的计数的加和、中值水平、平均水平、算术平均水平等。
在一些实施方式中,确定针对滑动边缘过程生成的离散区段的中值、算术平均或平均Z-分数,且从中值、算术平均或平均Z-分数确定不确定性(例如MAD)水平。在一些实施方式中针对滑动边缘过程生成的离散区段确定中值、算术平均或平均Z-分数,根据滑动边缘过程生成的所有离散区段所确定的中值、算术平均或平均Z-分数和中值、算术平均或平均Z-分数的不确定性水平验证或作废离散区段(例如鉴定的最初离散区段)。在一些实施方式中,预先确定显著性水平(例如Z-分数)的预定范围(例如阈值范围)。在一些实施方式中,不含候选区段的Z-分数的预定范围为约3.5至约-3.5、约3.25至约-3.25、约3.0至约-3.0、约2.75至约-2.75或约2.5至约-2.5。在一些实施方式中,根据“滑动边缘”方法,超出预定范围的中值、算术平均或平均Z-分数证实存在验证的离散区段。在一些实施方式中,根据“滑动边缘”方法,预定范围内的中值、算术平均或平均Z-分数作废候选区段和/或确定不含候选区段(例如不含验证的候选区段)。在一些实施方式中,根据“滑动边缘”方法,中值、算术平均或平均Z-分数的绝对值大于约2、2.25、2.5、2.75、3.0、3.25或3.5证实存在和/或验证离散区段。在一些实施方式中,根据“滑动边缘”方法,中值、算术平均或平均Z-分数的绝对值小于约2、2.25、2.5、2.75、3.0、3.25或3.5确定不存在和/或作废候选区段。在一些实施方式中,若离散区段是验证的或作废的,则部分确定关联中值Z-分数不确定值。在一些实施方式中,若中值、算术平均或平均Z-分数超出阈值范围且不确定值(例如MAD)与阈值范围重叠小于不确定值的0%(例如不重叠)、5%、10%、20%、25%、30%、35%或40%,则验证候选区段。在一些实施方式中,若中值、算术平均或平均Z-分数超出阈值范围且不确定值(例如MAD)与阈值范围重叠大于不确定值的25%,30%,40%,50%,60%或约70%,则作废候选区段。
在一些实施方式中,针对滑动边缘过程生成的所有离散区段确定的显著性水平(例如Z-分数)生成分布(例如参见图13-14)。在某些实施方式中,根据显著性水平的中值、算术平均或平均和/或显著性水平分布验证或作废离散区段。在一些实施方式中,约50%、60%、70%、75%、80%、85%、90%、或约95%或更多分布超出显著性水平预定范围,则离散区段经验证。例如,对于Z-分数预定范围为3.0至-3.0,验证的候选区段可具有绝对值大于3.0的中值Z-分数且绝对值大于3.0的Z-分数分布为70%或更多。
留一法验证
在一些实施方式中验证包括“留一法”处理。可使用合适的“留一法”处理。在一些实施方式中,“留一法”处理提供关联所选参照样品组的置信水平。在一些实施方式中,“留一法”处理提供关联所选参照样品组的不确定性水平。在一些实施方式中,根据所选参照样品组的置信水平和/或不确定性水平,“留一法”处理验证或作废候选区段。
在一些实施方式中“留一法”处理针对测试样品和两个或更多参照样品进行(例如参照样品组,有时本文指最初组)。在一些实施方式中,包括测试样品作为两个或更多参照样品之一。在一些实施方式中,不包括测试样品作为两个或更多参照样品之一。在一些实施方式中,“留一法”处理包括从最初样品组中移除两个或更多参照样品之一,从而提供参照样品亚组。在某些实施方式中,从最初组移除参照样品过程对各组中参照样品重复进行。通常,当参照样品从最初组移除,先前移除的参照样品(若有)返回所述最初组。在一些实施方式中,从任何一个亚组仅移除一个参照样品。。通常得到参照样品的多种亚组(有时本文指多种样品亚组),其中各亚组缺少最初组的一个参照样品。
在某些实施方式中,“留一法”处理包括根据各参照样品亚组确定显著性水平。在某些实施方式中,然后从所有亚组所确定的显著性水平值计算算术平均、平均或中值显著性水平。在一些实施方式中,根据算术平均、平均或中值显著性水平计算不确定性水平(例如MAD)。在一些实施方式中,根据“留一法”处理生成的中值、算术平均或平均显著性水平和/或不确定性水平验证或作废离散区段。
在“留一法”处理的一些实施方式中,显著性水平是Z-分数或p-值。在一些实施方式中,“留一法”处理的Z-分数通过下式计算:
Zi=(Ei–Med.E(n))/MAD
其中Ei是区段i的水平的定量确定,Med.E(n)是参考样品亚组的区段i的中值水平,和MAD是Med.E(n)的中值绝对偏差,和Zi是区段i的所得Z-分数。在一些实施方式中,MAD可用任何合适的不确定性测量替代。在一些实施方式中,Ei是任何合适的水平测量,其非限制性示例包括部份的计数的加和、中值水平、平均水平、算术平均水平等。
在一些实施方式中验证包括“滑动边缘”处理和“留一法”处理。。例如,在一些实施方式中,参照样品亚组(例如“留一法”处理所生成)由“滑动边缘处理”生成的参照样品亚组生成。例如,对于给定测试样品,“滑动边缘”过程可产生从分割处理鉴定的离散区段的225个区段然后用10个参照样品的组进行“留一法”处理。上述示例中,从所得2250Z-分数计算复合中值、算术平均或平均显著性水平(例如复合中值Z-分数)和复合不确定性水平(例如复合MAD)。在一些实施方式中,根据复合中值显著性水平(例如复合中值Z-分数)和/或复合不确定性水平(例如复合MAD)验证或作废分割处理鉴定的离散区段。
在一些实施方式中,决策分析包括根据候选区段(例如复合候选区段)的Z-分数或复合Z-分数确定是否存在染色体非整倍性、微复制或微缺失。在一些实施方式中,候选区段指示三体和候选区段用于代表全染色体的部份的组。在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于预定值或阈值(例如参见图7)时,候选区段指示全染色体非整倍性。在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于约2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.75、3.8、3.85、3.9、3.95、4.0、4.05、4.1、4.15、4.2、4.3、4.4、或约4.5的预定值时,候选区段指示全染色体非整倍性。在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于约3.95的预定值,候选区段指示三体。在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于针对(i)根据Haar Wavelet分解处理鉴定的离散区段或(ii)根据CBS处理鉴定的离散区段所确定的Z-分数的绝对值,候选区段指示三体。在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于针对(i)根据Haar Wavelet分解处理鉴定的离散区段或(ii)根据CBS处理鉴定的离散区段所确定的Z-分数的绝对值的倍数,候选区段指示三体。在一些实施方式中Z-分数的绝对值的倍数是Z-分数的绝对值乘以约0.4、0.5、0.6、0.7、0.8或约0.9。
在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于3.95且大于或等于针对(i)根据Haar Wavelet分解处理鉴定的离散区段或(ii)根据CBS处理鉴定的离散区段所确定的Z-分数的绝对值,候选区段(例如重要候选区段)指示三体。在某些实施方式中,当代表全染色体的部份的组的绝对Z-分数大于或等于3.95且大于或等于针对(i)根据Haar Wavelet分解处理鉴定的离散区段或(ii)根据CBS处理鉴定的离散区段所确定的Z-分数的绝对值的倍数,候选区段指示三体。在一些实施方式中Z-分数的绝对值的倍数是Z-分数的绝对值乘以约0.4、0.5、0.6、0.7、0.8或约0.9。
在某些实施方式中,当针对(i)根据Haar Wavelet分解处理鉴定的离散区段或(ii)根据CBS处理鉴定的离散区段所确定的Z-分数的绝对值大于或等于约2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.75、3.8、3.85、3.9、3.95、4.0、4.05、4.1、4.15、4.2、4.3、4.4、或约4.5时,候选区段不指示三体并确定存在微缺失或微复制。在一些实施方式中候选区段不指示三体性且确定存在微缺失或微复制。在某些实施方式中,当针对(i)根据HaarWavelet分解处理鉴定的离散区段或(ii)根据CBS处理鉴定的离散区段所确定的Z-分数的绝对值大于或等于约3.95,候选区段不指示三体并确定存在微缺失或微复制。在某些实施方式中,候选区段不指示三体并确定存在微缺失或微复制,并且根据Haar Wavelet分解处理鉴定的离散区段与根据CBS处理鉴定的离散区段基本相同。
在一些实施方式中,确定结果(例如确定胎儿是否存在遗传变异)包括决策分析。在一些实施方式中,以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失的方法包括决策分析。在一些实施方式中决策分析包括系列方法或方法步骤。决策分析的非限制性示例如图6-8所示和本文所述。
结果的应用
接收包含确定是否存在遗传变异的一个或多个结果的报告的健康护理专业人员、或其他有资格的人员能使用报告中显示的数据做出关于测试对象或患者的状态判定。在一些实施方式中,健康护理专业人员能根据提供的结果给出建议。在一些实施方式中,健康护理专业人员或有资格的人员能向测试对象或患者提供关于是否存在遗传变异的判定或评分,所述判定或评分基于一个或多个结果值或报告中提供的相关置信参数。在某些实施方式中,通过可见观察提供的报告,由健康护理专业人员或有资格的人员人工做出判定或评分。在某些实施方式中,由自动化程序(有时编入软件)做出评分或判定,并且在由健康护理专业人员或有资格的人员复查准确性之后再向测试对象或患者提供信息。本文所用的术语“接收报告”指通过任意联系方式获得包含结果的书面和或图示表示,其经复查后供健康护理专业人员或其他有资格的人员就关于测试对象或患者中是否存在遗传变异作出决定。所述报告可以通过计算机或人工数据输入生成,并且能使用电子方式(如从一个网络地址向相同或不同物理位点的另一个地址通过因特网、通过计算机、通过传真),或者通过发送或接收数据的任意其他方法(如信件服务、快递服务等)传达。在一些实施方式中,结果以合适介质传送至健康护理专家,包括但不限于口头、档案或文件形式。文件可为例如但不限于声音文件、计算机可读文件、纸质文件、实验室文件或医学报告文件。
本文所用的术语“提供结果”及其语法等同形式也能指获得这种信息的任意方法,包括但不限于从实验室(例如实验室文件)中获得信息。能通过实验室进行一种或多种试验或者一个或多个数据处理步骤生成实验室文件以确定是否存在所述医学病症。所述实验室可以和由所述实验室文件鉴定有或没有所述医学病症的人处于相同地点或不同地点(例如,在另一国家)。例如实验室文件可在一个地点生成并传递至另一地点,在后者处信息将传递至妊娠女性对象。在某些实施方式中,所述实验室文件可以是有形形式或电子形式(例如计算机可读形式)。
在一些实施方式中,结果可提供给健康护理专家、医师或实验室里有资格的个体并且健康护理专家、医师或有资格的个体可基于结果进行诊断。在一些实施方式中,结果可提供给健康护理专家、医师或实验室里有资格的个体并且健康护理专家、医师或有资格的个体可部分基于结果以及其他数据和/或信息和其他结果进行诊断。
健康护理专家和有资格的个体可基于本报告中提供的结果提供合适的建议。能根据提供的结果报告提供建议的非限定性示例包括手术、放疗、化疗、遗传咨询、出生后治疗方案(如生命计划、长期辅助治疗、药物、对症治疗)、妊娠终止、器官移植、输血等,或前述组合。在一些实施方式中,建议取决于所提供的基于结果的分类提供(例如唐氏综合症、Turner综合症、关联T13遗传变异的医学病症、关联T18遗传变异的医学病症)。
实验室人员(例如实验室管理员)可分析可能确定是否存在遗传变异(或确定测试区域整倍性或非-整倍性)的值(例如测试计数、参照计数、偏差水平)。对于关于是否存在遗传变异的狭窄(close)或可疑的判定,实验室人员可再进行相同测试和/或安排不同测试(例如胎儿非整倍性确定情况中的分核型和/或羊膜穿刺),其使用测试对象的相同或不同样品核酸。
遗传变异和医学病症
是否存在遗传变异能使用本文所述方法或设备确定。在某些实施方式中,根据本文提供的方法和装置所得到的结果确定是否存在一种或多种遗传变异。遗传变异通常是某些个体中存在的特定遗传表型,并且遗传变异经常是在统计学显著的个体亚群中存在。在一些实施方式中,遗传变异是下文详述的染色体异常(如非整倍性)、部分染色体异常或镶嵌性。遗传变异的非限制性示例包括一种或多种缺失(例如微缺失)、复制(例如微复制)、插入、突变、多态性(例如单核苷酸多态性)、融合、重复(例如短串联重复)、差异甲基化位点、差异甲基化形式等及其组合。插入、重复(repeat)、缺失、复制(duplication)、突变或多态性可以任意长度,并且在一些实施方式中是长度约1个碱基或碱基对(bp)–约250个兆碱基(Mb)。在一些实施方式中,插入、重复(repeat)、缺失、复制(duplication)、突变或多态性是长度约1个碱基或碱基对(bp)-1,000个千碱基(kb)(如长度约为10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb或1000kb)。
遗传变异有时是缺失。在某些实施方式中,缺失是部分染色体或DNA序列丢失的突变(例如遗传失常)。缺失通常是遗传材料丢失。可缺失任何数量的核苷酸。缺失可包括缺失一种或多种全染色体、染色体区段、等位基因、基因、内含子、外显子、任何非-编码区域、任何编码区域、其区段或其组合。缺失可包括微缺失。缺失可包括缺失单个碱基。
遗传变异有时是遗传复制。在某些实施方式中,复制是部分染色体或DNA序列复制并插入基因组的突变(例如遗传失常)。在某些实施方式中,遗传复制(即复制)是DNA区域的任何复制。在一些实施方式中复制是基因组或染色体内的重复(通常串联)核酸序列。在一些实施方式中,复制可包括下述的拷贝:一种或多种全染色体、染色体区段、等位基因、基因、内含子、外显子、任何非-编码区域、任何编码区域、其区段或其组合。复制可包括微复制。复制有时包括复制核酸的一个或多个拷贝。有时复制表征为重复一次或多次(如重复1、2、3、4、5、6、7、8、9或10次)的遗传区域。在一些示例中,复制的范围可以是小区域(数千碱基对)到全部染色体。复制经常由于同源重组的错误或由于逆转座子事件造成。复制关联某些类型的增殖疾病。复制能使用基因组微阵列或比较基因组杂交(CGH)来表征。
遗传变异有时是插入。插入有时是添加一种或多种核苷酸碱基对至核酸序列中。插入有时是微插入。在某些实施方式中插入包括添加染色体区段至基因组、染色体或其区段。在某些实施方式中插入包括添加等位基因、基因、内含子、外显子、任何非-编码区域、任何编码区域、其区段或其组合至基因组或其区段。在某些实施方式中插入包括添加(即插入)未知来源的核酸至基因组、染色体或其区段。在某些实施方式中插入包括添加(即插入)单个碱基。
本文所用“拷贝数变异”通常是一类或一种遗传变异或染色体失常。拷贝数变异可为缺失(例如微缺失)、复制(例如微复制)或插入(例如微插入)。通常,本文所用前缀“微”有时是长度小于5Mb的核酸区段。拷贝数变异可包括染色体区段的一种或多种缺失(例如微缺失)、复制和/或插入(例如微复制、微插入)。在某些实施方式中复制包括插入。在某些实施方式中插入是复制。在某些实施方式中插入不是复制。例如,通常部份的序列复制增加发现复制的部份的计数。通常部份中的序列复制提高所述水平。在某些实施方式中,形成第一水平的部份中存在的复制相对于没有复制的第二水平提高所述第一水平。在某些实施方式中插入提高部份的计数且代表所述插入的序列存在于(即、复制)相同部份内的其他位置。在某些实施方式中插入没有显著提高部份或水平的计数且插入的序列不是相同部份内的序列的复制。在某些实施方式中未检测到插入或插入不代表复制且代表所述插入的复制序列不存在于相同部份。
在一些实施方式中拷贝数变异是胎儿拷贝数变异。通常,胎儿拷贝数变异是胎儿基因组中的拷贝数变异。在一些实施方式中拷贝数变异是母体和/或胎儿拷贝数变异。在某些实施方式中母体和/或胎儿拷贝数变异是妊娠女性(例如怀有胎儿的女性对象)、生育胎儿的女性对象或能生育胎儿的女性对象的基因组内的拷贝数变异。拷贝数变异可为杂合拷贝数变异,其中所述变异(例如复制或缺失)存在于基因组的一个等位基因上。拷贝数变异可为纯合拷贝数变异,其中所述变异存在于基因组的两个等位基因上。在一些实施方式中拷贝数变异是杂合或纯合拷贝数变异。在一些实施方式中拷贝数变异是杂合或纯合的母体和/或胎儿拷贝数变异。拷贝数变异有时存在于母体基因组和胎儿基因组中、母体基因组中存在但胎儿基因组中不存在、或胎儿基因组中存在但母体基因组不存在。
“倍性”是胎儿或母体中存在的染色体数量的参照。在某些实施方式中“倍性”与“染色体倍性”相同。例如人类中,常染色体通常成对存在。例如,不含遗传变异时,多数人具有各常染色体的两份(例如染色体1-22)。人中存在2个常染色体的正常互补物通常称为整倍体。“微倍性”与倍性含义相似。“微倍性”通常指染色体区段的倍性。术语“微倍性”有时是染色体内是否存在拷贝数变异(例如缺失、复制和/或插入)的参照(例如纯合或杂合缺失、复制,或插入、等或或无变异)。“倍性”和“微倍性”有时在水平概况中的计数的标准化之后确定。因此,代表常染色体对(例如整倍体)的水平通常标准化至1倍性。相似地,代表不含复制、缺失或插入的染色体区段内的水平通常标准化至1微倍性。倍性和微倍性通常为部份-特异性(例如部份特异的)和样品-特异性。倍性通常定义为1/2的整数倍,其中1、1/2、0、3/2、和2分别代表整倍体(例如2染色体)、存在1染色体(例如染色体缺失)、不存在染色体、3染色体(例如三体)和4染色体。同样地,微倍性通常定义为1/2的整数倍,其中1、1/2、0、3/2、和2分别代表整倍体(例如无拷贝数变异)、杂合缺失、纯合缺失、杂合复制和纯合复制。一些胎儿倍性值的示例示于表2。
在某些实施方式中胎儿微倍性与胎儿母体(即妊娠女性对象)微倍性相匹配。在某些实施方式中胎儿微倍性与胎儿母体微倍性相匹配且母体和胎儿带有相同杂合拷贝数变异、纯合拷贝数变异或均为整倍体。在某些实施方式中胎儿微倍性不同于胎儿母体微倍性。例如,有时胎儿微倍性的拷贝数变异为杂合、而母体的拷贝数变异为纯合,针对特定拷贝数变异的胎儿微倍性与母体微倍性不匹配(例如不相等)。
微倍性通常关联预期水平。例如,有时水平(例如概况中水平,有时水平包括基本无拷贝数变异)标准化至值1(例如1倍性、1微倍性)且纯合复制微倍性为2、杂合复制为1.5、杂合缺失为0.5和纯合缺失为0。
在某些实施方式中,鉴定对象是否存在遗传变异与医学病症相关联。因此,本文所述技术能用于鉴定是否存在与医疗病情或医疗状态相关联的一种或多种遗传变异。医学病症的非限定性示例包括与智力残疾(如唐氏综合症)、异常细胞增殖(如癌症)、存在微生物(如病毒、细菌、真菌、酵母)核酸和先兆子痫相关联的那些。
遗传变异、医学病症和状态的非限制性示例如下所述。
胎儿性别
在一些实施方式中,可通过本文所述方法或装置确定对胎儿性别或性别相关疾病(例如性染色体非整倍性)的预测。性别决定通常基于性染色体。人有两条性染色体,X和Y染色体。Y染色体含有启动胚胎发育为雄性的基因SRY。人和其他哺乳动物的Y染色体还含有产生正常精子所需的其他基因。有XX的个体是女性,有XY的个体是男性,而非限定性变异通常指性染色体非整倍性,包括XO、XYY、XXX和XXY。在某些实施方式中,男性具有两个X染色体和一个Y染色体(XXY;Klinefelter's综合症)、或一个X染色体和两个Y染色体(XYY综合症;Jacobs综合症),和一些女性具有三个X染色体(XXX;三X综合症)或单一X染色体而非两个(X0;Turner综合症)。在某些实施方式中,仅部分个体细胞受性染色体非整倍性的影响,这称为镶嵌型(例如Turner镶嵌型)。其他情况包括SRY受损(产生XY女性),或X复制(产生XX男性)。
在某些情况中,确定子宫中胎儿性别有益处。例如,具有一种或多种性连锁疾病家族史的亲本(例如妊娠女性)可能希望确定所怀胎儿性别以评估胎儿遗传该疾病的风险。性连锁疾病包括,但不限于X连锁和Y连锁疾病。X连锁疾病包括X连锁隐性和X连锁显性疾病。X连锁隐性疾病的示例包括但不限于免疫疾病(例如慢性肉芽肿性疾病(CYBB)、Wiskott–Aldrich综合症、X连锁重症联合免疫缺陷、X连锁无丙种球蛋白血症缺乏症、1型高-IgM综合症、IPEX、X连锁淋巴增殖性疾病、备解素缺乏症)、血液病(例如血友病A、血友病B、X连锁铁粒幼细胞贫血)、内分泌障碍(例如雄激素不敏感综合症/Kennedy病、KAL1Kallmann综合症、X连锁先天性肾上腺发育不良)、代谢疾病(例如鸟氨酸转氨甲酰酶、眼脑肾综合症、肾上腺脑白质营养不良、葡萄糖六磷酸去氧酶缺乏症、丙酮酸盐脱氢酶缺乏症、Danon病/IIb型糖原贮积病、Fabry's病、Hunter综合症、Lesch–Nyhan综合症、Menkes病/后头角综合症)、神经系统疾病(例如Coffin–Lowry综合症、MASA综合症、X连锁α地中海贫血症精神发育迟滞综合症、SideriusX连锁智力低下综合症、色盲、眼白化、Norrie病、无脉络膜、Charcot–Marie–Tooth病(CMTX2-3)、Pelizaeus–Merzbacher病、SMAX2)、皮肤和皮肤相关疾病(例如先天性角化不良、少汗性外胚层增生不良症(EDA)、X连锁鱼鳞病、X连锁角膜内皮失养症)、神经肌肉疾病(例如Becker's肌营养不良/Duchenne、中央核肌病(MTM1)、Conradi–Hünermann综合症、Emery–Dreifuss肌营养不良1)、泌尿疾病(例如Alport综合症、Dent's病、X连锁肾性尿崩症)、骨/牙疾病(例如AMELX釉质形成缺陷症)、和其他疾病(例如Barth综合症、McLeod综合症、Smith-Fineman-Myers综合症、Simpson–Golabi–Behmel综合症、Mohr–
Figure BDA0000914062300001521
综合症、Nasodigitoacoustic综合症)。X连锁显性疾病的示例包括但不限于X连锁低磷血症、灶性皮肤发育不全、脆性X综合症、Aicardi综合症、色素失调症、Rett综合症、CHILD综合症、Lujan–Fryns综合症、和Orofacio数码综合症1。Y连锁疾病的示例包括,但不限于男性不育、视网膜色素变性和无精子症。
染色体异常
在一些实施方式中,胎儿染色体异常可以使用本文所述方法或设备确定。染色体异常包括但不限于整个染色体或者包含一个或多个基因的染色体区域的获得或丢失。染色体异常包含单体性、三体性、多体性、杂合性的丢失、一个或多个核苷酸序列(如一个或多个基因)的缺失和/或重复,包含非平衡移位造成的缺失和重复。本文所用术语“染色体异常”或“非整倍性”指对象染色体与正常同源染色体的结构之间的偏差。术语“正常”指具体物种的健康个体中的主要染色体组型或结合形式,例如,整倍体基因组(人中为46,XX或46,XY)。由于不同生物有广泛不同的染色体套数(complement),所述术语“非整倍性”并非指染色体的特定数目,而是指给定生物体细胞中染色体含量异常的情况。在一些实施方式中,本文术语“非整倍性”指由于缺失或获得全染色体,或部分染色体引起的遗传材料的不平衡。“非整倍性”可指染色体区段的一种或多种缺失和/或插入。在一些实施方式中,术语“整倍体”指染色体的正常套数。
本文使用术语"单体性"指缺乏正常套数(complement)的一个染色体。部分单体性可在非平衡易位或缺失中发生,其中仅有一部分染色体以单个拷贝存在。例如性染色体(45,X)的单体性造成特纳氏综合症。术语"二体性"指存在染色体的两个拷贝。就各染色体有两个拷贝的生物体(二倍体或"整倍体"的那些)(例如人)而言,二体性是正常情况。就各染色体通常有三个或更多个拷贝的生物体(三倍体或更多倍体的那些)而言,二体性是非整倍染色体套数的状态。在单亲二体性中,染色体的两个拷贝来自相同亲本(另一亲本没有贡献)。
本文所用术语"三体性"指存在特定染色体的三个拷贝,而不是两个拷贝。人唐氏综合症中发现额外一条染色体21的存在,称为"21三体性"。18三体性和13三体性是其它两种人常染色体三体性。性染色体的三体性可出现在女性中(如47,三X症状中的XXX)或男性中(如克氏综合症中的47,XXY;或47,Jacobs症状中的XYY)。在一些实施方式中,三体性是大多数或所有常染色体的复制。在一些实施方式中,三体性是全染色体非整倍性,导致具体种类染色体的三种情况(如三拷贝)(而非二倍体的具体种类染色体的两种情况(即一对))。
本文使用"四体性"和"五体性"指分别存在染色体的四个或五个拷贝。尽管对常染色体罕见,但已报道了人的性染色体的四体性和五体性,包括XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY和XYYYY。
染色体异常可由各种机制引起。机制包括但不限于(i)有丝分裂检查点弱化导致的不分离,(ii)有丝分裂检查点失活造成多个染色体处的不分离,(iii)当一个着丝粒连接两个有丝分裂纺锤体极时发生单极向型(merotelic)连接,(iv)当形成多于两个纺锤体极时形成多极性纺锤体,(v)当形成仅一个纺锤体极时形成单极性纺锤体,和(vi)单极性纺锤体机制最终导致出现四倍体中间型。
本文使用术语"部分单体性"和"部分三体性"指部分染色体的丧失或获得造成的遗传材料的不平衡。非平衡易位可导致部分单体性或部分三体性,此时个体载有通过两条不同染色体的破裂和融合形成的衍生染色体。在这种情况下,所述个体可以有一条染色体部分的三个拷贝(两个正常拷贝和所述衍生染色体上存在的部分),和所述衍生染色体中所带的其它染色体部分的仅仅一个拷贝。
本文所用术语"镶嵌性"指生物体的一些细胞但不是全部细胞中的非整倍性。某些染色体异常能以镶嵌性(mosaic)和非镶嵌性(non-mosaic)染色体异常形式存在。例如,某些21三体性个体有镶嵌性唐氏综合症而一些有非镶嵌性唐氏综合症。不同机制可导致镶嵌性。例如(i)起始受精卵可以有三条21号染色体,正常情况下会导致简单的21三体性,但是在细胞分裂中一个或多个细胞系丢失了所述21号染色体中的一条;和(ii)起始受精卵可以有两条21号染色体,但是在细胞分裂中所述21号染色体中的一条复制。体细胞镶嵌性似乎通过不同于通常与涉及完全或镶嵌性非整倍性的遗传症状相关联的那些的机制发生。例如已在某些类型的癌症和神经元中鉴定了体细胞镶嵌性。在某些示例中,在慢性淋巴细胞性白血病(CLL)中鉴定了12三体性,而在急性骨髓性白血病(AML)中鉴定了8三体性。同样,有染色体破裂倾向(染色体不稳定性综合症)的个体的遗传症状常与多种类型癌症的风险增加相关联,从而突出了癌发生中体细胞非整倍性的作用。本文所述方法和试方案能鉴定是否存在非镶嵌性和镶嵌性的染色体异常。
表1A和1B为可通过本文所述的方法和设备可能鉴定的染色体病症、综合症和/或异常的非限定性列表。表1B来自2011年10月6日的DECIPHER数据库(如版本5.1,根据定位到GRCh37的位置;统一资源定位符(URL)dechipher.sanger.ac.uk上可用)。
表1A
Figure BDA0000914062300001551
Figure BDA0000914062300001561
Figure BDA0000914062300001571
表1B
Figure BDA0000914062300001572
Figure BDA0000914062300001581
Figure BDA0000914062300001591
Figure BDA0000914062300001601
Figure BDA0000914062300001611
1级病症常具有以下特点中的一种或多种:致病性异常;遗传学家之间的一致认同;高度外显;仍然可以有可变的表型,但有一些共同特性;文献中的所有示例有临床表型;没有含所述异常的健康个体示例;在DVG数据库上没有报导或健康人群中没有发现;证明单个基因或多个基因剂量效应的函数型数据;经证明的候选基因或强候选基因;明确的临床管理意义;监测意义伴随的已知的癌症风险;多个信息来源(OMIM、Genereviews、Orphanet、Unique、Wikipedia);和/或可以用于诊断应用(生殖咨询(counseling))。
2级病症常具有以下特点中的一种或多种:可能的致病性异常;高度外显;除了DD以外没有持续特性的可变表型;文献中少量示例/报导;所有报导的示例都有临床表型;没有函数型数据或经证明的病原基因;多个信息来源(OMIM、Genereviews、Orphanet、Unique、Wikipedia);和/或可以用于诊断目的和生殖咨询。
3级病症常具有以下特点中的一种或多种:易感位点;健康个体或所述先证者的未受影响的父母;在对照人群中存在;非显性;表型温和且无特异性;特征较不一致;无函数型数据或经证明的病原基因;更有限的数据来源;针对偏离大部分或有新临床发现设想提出的情况仍可能有二次诊断的可能性;和/或用于诊断目的时需谨慎且就生殖咨询给出有保留的建议。
先兆子痫
在一些实施方式中,使用本文所述的方法或设备确定是否存在先兆子痫。先兆子痫是妊娠中出现高血压(即妊娠诱导的高血压)且与尿中高蛋白含量相关联的病症。在一些实施方式中,先兆子痫也与升高的细胞外核酸和/或甲基化形式改变有关。例如,已经观察到了胞外胎儿源性高甲基化RASSF1A水平和先兆子痫的严重性正相关。在某些实施例中,对比正常对照,在先兆子痫胎盘中观察到了H19基因DNA甲基化的增加。
先兆子痫是世界范围内母体和胎儿/新生儿死亡率和发病率的主要原因之一。血浆和血清中的循环无细胞核酸是在包括产前诊断在内的不同医学领域中具有临床应用前景的新型生物标志物。不同研究中已报道了将母体血浆中无细胞胎儿(cff)DNA的量变作为即将发生先兆子痫的指示物,例如针对男性特异性SRY或DYS 14位点使用实时定量PCR。在早发型先兆子痫的示例中,在头三个月内可以观察到水平提高。症状发作前cffDNA水平的增加可归因为绒毛间空隙中的缺氧/复氧,导致了组织氧化应激和胎盘凋亡及坏死的增加。除有证据证明先兆子痫中排入母体循环的cffDNA增多以外,也有证据证明在先兆子痫中cffDNA的肾清除率降低。由于当前通过定量Y-染色体特异性序列确定胎儿DNA的量,替代性方法例如测量总无细胞DNA或使用性别无关的胎儿表观遗传学标记物(如DNA甲基化)提供了其它选择。胎盘来源的无细胞RNA是可以在临床实践中用于筛选和诊断先兆子痫的另一个备选标记。胎儿RNA与保护其免于降解的亚细胞胎盘颗粒相关联。有先兆子痫的妊娠女性中的胎儿RNA水平有时相较于对照高出10倍,因此所述胎儿RNA水平是可以在临床实践中用于筛选和诊断先兆子痫的备选生物标记物。
病原体
在一些实施方式中,通过本文所述的方法或设备确定是否存在病原性病症。病原性病症能通过病原体(包括但不限于细菌、病毒或真菌)感染宿主而产生。由于病原体通常具有能与宿主核酸区分开的核酸(如基因组DNA、基因组RNA、mRNA),本文提供的方法和设备能用于确定是否存在病原体。通常,病原体具有特定病原体独有特性的核酸,例如表观遗传状态和/或一种或多种序列变异、复制和/或缺失。因此,本方法可用于鉴定具体病原体或病原体变体(例如株系)。
癌症
在一些实施方式中,能使用本文所述方法或设备确定是否存在细胞增殖疾病(如癌症)。例如,相较于健康患者,多种类型癌症患者内血清中的无细胞核酸水平会升高。例如,患有转移性疾病的患者的血清DNA水平有时能比无转移患者高出大约两倍。患有转移性疾病的患者还可以通过例如癌症特异性标志物和/或某些单核苷酸多态性或短串联重复来鉴定。可以与循环DNA水平提高正相关的癌症类型的非限定性示例包括乳腺癌、结直肠癌、胃肠癌、肝细胞癌、肺癌、黑素瘤、非霍奇金淋巴瘤、白血病、多发性骨髓瘤、膀胱癌、肝细胞瘤、宫颈癌、食道癌、胰腺癌和前列腺癌。多种癌症能具有与非癌健康细胞核酸特性(例如表观遗传状态和/或序列变异、复制和/或缺失)不同的核酸,并且有时释放其进入血液。例如此类特性可对特定类型的癌症有特异性。因此,还考虑本文所提供的方法能用于鉴定特定类型的癌症。
软件能用于进行本文所述方法的一个或多个步骤,包括但不限于:计数、数据处理、生成结果和/或根据生成的结果提供一个或多个建议,如下文详细描述。
机器、软件和接口
没有计算机、处理器、软件、模块或其他装置,本文所述某些过程和方法(例如定量、映射、标准化、范围设定、调整、归类、计数和/或确定序列读数、计数、水平(例如水平)和/或概况)通常无法进行。本文所述方法通常是计算机-执行方法,且方法的一或多部分有时通过一种或多种处理器(例如微处理器)、计算机、或微处理器控制的装置进行。本文相关方法的实施方式通常可应用于本文所述系统、装置和计算机程序产物中的指令执行的相同或相关过程。在一些实施方式中,本文所述过程和方法(例如定量、计数和/或确定序列读数、计数、水平和/或概况)通过自动化方法进行。在一些实施方式中,本文所述一种或多种步骤和方法童工处理器和/或计算机进行、和/或联合存储器进行。在一些实施方式中,自动化方法物化在软件、模块、处理器、外设和/或装置等中,其确定序列读数、计数、映射、映射的序列标签、水平、概况、标准化、比较、范围设定、归类、调整、作图、结果、变换和鉴定。如本文所用,软件指在由处理器执行时进行计算机操作的计算机可读程序指令。
源自测试对象(例如患者,妊娠女性)和/或参照对象的序列读数、计数、水平、和概况可进一步和加工以去顶是否存在遗传变异。测序读数、计数、水平和/或概况有时称为“数据”或“数据组”。在一些实施方式中,数据或数据组能表征为一种或多种特性或变量(如基于序列的[如GC含量、特异性核苷酸序列等]、功能特异性[如表达的基因、癌基因等]、基于定位的[基因组特异性、染色体特异性、部份特异性]等及其组合)。在某些实施方式中,能根据一种或多种特性或变量将数据或数据组组织成有两个或多个维数的矩阵。能使用任何合适的特性或变量对组织成矩阵的数据分级。矩阵中的数据的非限定性示例包含通过母体年龄、母体倍性和胎儿基值组织的数据。在某些实施方式中,根据一种或多种特征或变量分类的数据组有时在计数后加工。
设备、软件和接口可以用于执行本文所述方法。使用设备、软件和接口,用户可以进入、请求、查询或确定用于使用特定信息、程序或方法的选项(如定位序列读数、处理定位的数据和/或提供结果),例如,所述信息、程序或方法可涉及实现统计学分析算法、统计学显著性算法、统计学算法、重复步骤、验证算法和图示显示。在一些实施方式中,数据组可以作为输入信息由用户输入,用户可以通过任意合适的硬件介质(如闪存)下载一个或多个数据组,并且/或者用户可以从一个系统向另一个系统发送数据组以供后续处理和/或提供结果(如从一个测序器向计算机系统发送序列读取数据以定位序列读数;向计算机系统发送定位的序列数据以处理和生成结果和/或报告)。
系统通常包括一种或多种装置。各装置包括一种或多种存储器、一种或多种处理器和指令。系统包括两个或更多装置时,一些或全部装置可位于相同位置、一些或全部装置可位于不同位置、所有装置可位于一个位置和/或所有装置可位于不同位置。系统包括两个或更多装置时,一些或全部装置可位于用户的相同位置、一些或全部装置可位于用户的不同位置、所有装置可位于用户的相同位置和/或所有装置可位于用户的一个或多个不同位置。
系统有时包括计算装置和测序装置,其中所述测序装置配置为接受物理核酸和生成序列读数,且计算装置配置为加工序列装置的读数。计算装置有时配置为从所述序列读数确定是否存在遗传变异(例如拷贝数变异;胎儿染色体非整倍性)。
例如,用户可以向软件设置查询,所述软件随后可以通过因特网入口获得数据组,而在某些实施方式中,可指示可编程的处理器根据给定参数获得合适的数据组。可编程的处理器也可以提示用户选择由处理器在给定参数基础上所选的一个或多个数据组选项。可编程的处理器可以提示用户选择由所述处理器基于通过因特网、其它内部或外部信息等发现的信息所选的一个或多个数据组选项。可以选定选项以选择方法、设备或计算机程序的一个或多个数据特性选择、一种或多种统计学算法、一种或多种统计学分析算法、一种或多种统计学显著性算法、重复步骤、一种或多种确证算法和一种或多种图示显示。
本文所述的系统可以包括计算机系统的通用组件,例如网络服务器、笔记本系统、台式系统、手持系统、个人数字助理、计算机自助服务终端等。计算机系统可包括一种或多种输入方式例如键盘、触摸屏、鼠标、语音识别或其他方式以允许用户向系统输入数据系统。系统还可以包含一个或多个输出,包括但不限于显示屏(如CRT或LCD)、扬声器、传真机、打印机(如激光、喷墨、击打式、黑白或彩色打印机)或用于提供信息的视觉、听觉和/或硬拷贝输出(如结果和/或报告)的其它方式。
系统中,可使所述输入和输出方式连接中央处理单元,该单元可含有运行程序指令的微处理器和存储程序编码与数据的存储器和其它组件。在一些实施方式中,处理可作为位于单一地理位置的单用户系统实施。在某些实施方式中,处理可作为多用户系统实施。在多用户执行的情况中,多中央处理单元可通过网络连通。所述网络可位于本地,涵盖建筑物的部分中的单一隔室、整个建筑物、跨多个建筑物、跨区域、跨国家或全球。所述网络可为私人的,由提供者所有并控制,或其可作为基于网络的服务而执行,用户进入网页来输入或找回信息。因此,在某些实施方式中,系统包含可由用户定位或遥控的一种或多种机器。用户可以访问在一个或多个位置的多于一台机器,并且数据可以以系列和/或平行方式作图和/或处理。因此,可利用任意合适的结构和控制来使用多机器绘图和/或处理数据,所述机器例如局部网络、远程网络和/或"云"计算机平台。
在一些实施方式中,系统能包含通信接口。通信接口使软件和数据能在计算机系统和一种或多种外部设备之间转移。通信接口的非限定性示例可包括调制解调器、网络接口(例如以太网卡)、通信端口、PCMCIA槽和卡等。经通信接口转移的软件和数据通常为信号形式,其可以是能被通信接口接收的电子、电磁、光学和/或其它信号。信号经常通过通道提供给通信接口。通道经常携带信号,并能采用导线或线缆、光纤、电话线、手机连接、RF连接和其它通信通道实现。因此,在一个实施例中,可采用通信接口接收能由信号检测模块确定的信号信息。
数据能由任意合适的设备和/或方法输入,所述设备和/或方法包括但不限于人工输入设备或直接数据输入设备(DDE)。人工设备的非限定性示例包括键盘、概念键盘、触敏屏、光笔、鼠标、轨迹球、操纵杆、图形平板、扫描仪、数码相较、视频数字化仪和语音识别设备。DDE的非限定性示例包括条形码扫描仪、磁条编码、智能卡、磁墨字符识别、光学字符识别、光学标记识别、和周转文件。
在一些实施方式中,测序设备的输出可以作为能通过输入设备输入的数据。在某些实施方式中,定位的序列读数可以作为能通过输入设备输入的数据。在某些实施方式中,模拟数据通过计算机虚拟(in silico)方法生成,并且所述模拟数据作为能通过输入设备输入的数据。术语“计算机虚拟(in silico)”指采用计算机进行的研究和实验。计算机虚拟方法包括但不限于根据本文所述方法的定位的序列读数和处理定位的序列读数。
系统可包含用于运行本文所述方法的软件,并且软件能包含用于运行这种方法的一种或多种模块(如测序模块、逻辑处理模块、数据显示管理模块)。如本文所用,软件指在由计算机执行时进行计算机操作的计算机可读程序指令。一个或多个处理器可执行的指令有时作为可执行代码提供,其在运行时可使一个或多个处理器执行本发明方法。本文所述模块可以软件形式存在,且软件中内置的指令(例如过程、例程、子例程)可通过处理器执行或进行。例如,模块(例如软件模块)是执行特定方法和任务的程序的部分。术语“模块”指能用于较大装置或软件系统的独立功能单元。模块可包括指令组以进行模块的功能。模块可变换数据和/或信息。数据和/或信息可为合适的形式。例如数据和/或信息可为数字或模拟的。在一些实施方式中,数据和/或信息可为包裹、字节、字符或比特。在一些实施方式中,数据和/或信息可为任何收集的、集合的或有用的数据或信息。数据和/或信息的非限制性示例包括合适的媒介、图片、视频、声音(例如听得见或听不见的频率)、数字、常量、值、物体、时间、函数、指令、图谱、参照、序列、读数、映射的读数、水平、范围、阈值、信号、显示、表示,或其变换。模块可接受或接收数据和/或信息、变换数据和/或信息为第二形式、和提供或转移该第二形式至装置、外设、组件或其他模块。模块可进行一种或多种下述非-限制性函数:例如映射序列读数、提供计数、集合部份、提供或确定水平、提供计数概况、标准化(例如标准化读数、标准化计数、等)、提供标准化计数概况或标准化计数水平、比较两个或更多水平、提供不确定值、提供或确定预期水平和预期范围(例如预期水平范围、阈值范围和阈值水平)、提供调整至水平(例如调整第一水平、调整第二水平、调整染色体或其区段概况、和/或填充)、提供鉴定(例如鉴定拷贝数变异、遗传变异或非整倍性)、归类、作图、和/或确定结果。在某些实施方式中,处理器可进行模块中的指令。在一些实施方式中,需要一种或多种处理器进行模块或模块组中的指令。模块可提供数据和/或信息至其他模块、装置或源并可接收其他模块、装置或源的数据和/或信息。
计算机程序产物有时物化在实体计算机-可读介质上、和有时实体物化在非-瞬时计算机-可读介质上。模块有时储存在计算机可读介质(例如磁盘、驱动器)或存储器中(例如随机存取存储器)。能执行来自模块的指令的模块和处理器可位于装置内或不同装置内。能执行模块的指令的模块和/或处理器可位于用户的相同位置(例如局部网络)或用户的不同位置(例如远程网络、云系统)。方法与两个或更多模块联合进行的实施方式中,模块可位于相同装置、一种或多种模块可位于相同物理位置中的不同装置中、和一种或多种模块可位于不同物理位置中的不同装置中。
在一些实施方式中,装置包括至少一个处理器用于进行模块中的指令。映射至参照基因组的部份的序列读数计数有时通过处理器存取,所述处理器运行进行本文所述方法的指令。通过处理器存取的计数可在系统的存储器内,且可在获取计数后对其进行存取并将其置于和系统的存储器内。在一些实施方式中,装置包括处理器(例如一种或多种处理器),该处理器可进行和/或执行模块的一种或多种指令(例如过程、例程和/或子例程)。在一些实施方式中,装置包括多种处理器,例如协同和并行工作的处理器。在一些实施方式中,装置用一种或多种外部处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。在一些实施方式中,装置包括模块。在某些实施方式中装置包括一种或多种模块。装置包括模块通常可从其他模块接受和传递一种或多种数据和/或信息和至其他模块。在某些实施方式中装置包括外设和/或组件。在某些实施方式中装置可包括一种或多种外设或组件,其可将数据和/或信息传递至其他模块、外设和/或组件和从其传递。在某些实施方式中,装置与提供数据和/或信息的外设和/或组件交互。在某些实施方式中外设和组件协助装置行使功能或直接与模块交互。外设和/或组件的非限制性示例包括合适的计算机外设、I/O或储存方法或设备,包括不限于扫描仪、打印机、显示器(例如监视器、LED、LCT或CRT)、相机、麦克风、平板电脑(例如、书写板)、触摸屏、智能手机、移动电话、USBI/O设备、USB存储器、键盘、计算机鼠标、数码笔、调制解调器、硬盘、跳跃引擎、闪存驱动器、处理器、服务器、CD、DVD、图形卡、专用I/O设备(例如序列发生器、光电池、光电放大管、光阅读器、感应器、等)、一种或多种流动槽、液体处理部件、网络交互控制器、ROM、RAM、无线传递方法和设备(蓝牙、WiFi等)、万维网(www)、网络、计算机和/或其他模块。
软件常在含有程序指令的程序产品上提供,所述指令记录在计算机可读介质上,包括但不限于,磁性介质包括软盘、硬盘和磁带;和光学介质包括CD-ROM盘、DVD盘、磁光盘和其它可记录所述程序指令的此类介质。在线执行中,由组织维持的服务器和网站能被设置成向远端用户提供软件下载,或者远端用户可以使用由组织维持的远端系统来远端获取软件。软件可获得或接收输入信息。软件可以包含特定获得或接收数据的模块(如接收序列读取数据和/或定位的读取数据的数据接收模块)并且可以包含特定处理数据的模块(如处理数据的处理模块(如过滤器、标准化、提供结果和/或报告)。术语“获得”和“接收”输入信息指通过计算机通信方式从本地或远端位点、人工数据输入或任意其它接收数据的方法来接收数据(如序列读数、定位读数)。The输入信息可在其接收的相同位置生成,或其可在不同位置生成并传送至接收位置。在一些实施方式中,输入信息在处理前经修饰(例如置于利于处理的形式中(例如表格))。
在一些实施方式中,提供计算机程序产品,例如包括内含计算机可读程序编码的计算机可用介质的计算机程序产品,所述计算机可读程序编码适于运行以执行方法,所述方法包括:
(a)获取测试对象的样品核酸的序列读数;
(b)映射(a)所获序列读数至已知基因组,其中已知基因组已分为多个部份;
(c)对部份内的映射的序列读数进行计数;
(d)通过标准化(c)中所获部份的计数,生成样品标准化计数概况;
和(e)从(d)中的样品标准化计数概况确定是否存在遗传变异。
在某些实施方式中,软件能包含一种或多种算法。算法可以用于根据有限的序列指令来处理数据和/或提供结果或报告。算法经常是用于完成任务的定义指令表。从起始状态开始,所述指令可以描述通过定义的一系列连续的状况进行并且以最终结束状态终止的计算。从一种算法转化到另一种算法不必是确定的(例如,一些算法包括随机性)。作为非限定性示例,算法能是搜索算法、分类算法、归并算法、数值算法、图解算法、字符串搜索算法、建模算法、计算几何(genometric)算法、组合算法、机器学习算法、密码术算法、数据压缩算法、分析算法等。算法能包含一种算法或者两种或更多种算法的组合应用。算法可以是任意合适的复杂性分类和/或参数化的复杂性。算法能用于计算和/或数据处理,而在一些实施方式中能用在确定性的或盖然论/预测方法中。算法能通过使用合适的程序语言(非限定性示例是C、C++、Java、Perl、Python、Fortran等)植入到计算机环境中。在一些实施方式中,算法能构建或改进成包含误差容限、统计学分析、统计学显著性和/或与其它信息或数据组的比较(如当使用神经网络或簇算法时的应用)。
在某些实施方式中,可将若干算法植入软件以便于使用。在一些实施方式中,可用原始数据训练这些算法。对各种新的原始数据样品而言,所述经训练的算法可以生成代表性的经处理的数据组或结果。相较经处理的父数据组(parent data set)而言,经处理的数据组有时复杂性降低。在一些实施方式中,基于经处理的数据组,能根据灵敏度和特异性来评价经训练的算法的实现。在某些实施方式中,可以鉴定并利用有最高灵敏度和/或特异性的算法。
在某些实施方式中,模拟数据可协助数据处理,例如通过算法的训练或算法的测试。在一些实施方式中,模拟数据包含不同组序列读数的多种假定取样。模拟数据可基于真实群体中可能的预期情况或可被歪曲以测试算法和/或分配正确的分类。模拟数据本文指还指“实质”数据。在某些实施方式中模拟可通过计算机程序进行。使用模拟数据组中的一个可能步骤是评价经鉴定结果的置信度,如随机取样匹配或最佳代表原始数据的良好程度。一种方法是计算概率值(p值),该值评估随机样品比选定样品更好的概率。在一些实施方式中,可评估经验模型,其中假设至少一个样品匹配参照样品(具有或没有已解决(resolved)的变异)。在一些实施方式中,其他分布例如Poisson分布可用于定义概率分布。
在某些实施方式中,系统可以包括一个或多个处理器。处理器可连接通信总线。计算机系统可包括主存储器(经常为随机读取存储器(RAM)),也可包括第二存储器。在一些实施方式中,存储器包括非-瞬时计算机-可读储存介质。二级存储器可包括例如,硬盘设备和/或可移除储存设备、代表软盘设备、磁带设备、光盘设备、存储卡等。移动存储驱动器经常读取和/或写入可移动的储存单元。可移动储存单元的非限定性示例包括能读取或写入例如移动存储驱动器的软盘、磁带、光盘等。可移动储存单元可包括其内储存有计算机软件和/或数据的计算机-可用的储存介质。
处理器可以执行系统中的软件。在一些实施方式中,可以对处理器编程以自动运行本文所述用户可以进行的任务。因此,处理器或者由这种处理器执行的算法能几乎不需要监控至没有监控或者来自用户的输入(如可以编写软件以自动化实施功能)。在一些实施方式中,所述处理具有很大复杂性以至于单个个人或一组人不能在足够短的时间范围内实行所述处理以确定是否存在遗传变异。
在一些实施方式中,第二存储器可包括允许计算机程序的其它相似方式或装载到计算机系统的其它指令。例如系统可包括可移除储存单元和交互设备。这种系统的非限定性示例可包括程序模块和模块接口(例如视频游戏设备中发现的那种)、可移动存储芯片(例如EPROM或PROM)以及关联插座和允许软件和数据从可移动储存单元转移到计算机系统的其它可移动储存单元和接口。
在一些实施方式中,一个实体可生成序列读数计数、映射序列读数至部份、计数映射读数、并在本文所述方法、系统、装置或计算机程序产物中使用计数的映射读数。在某些实施方式中,本文所述方法、系统、装置或计算机程序产品中,映射至部份的序列读数计数有时从一个实体转移至第二实体由其使用。
在一些实施方式中,一个实体生成序列读数和第二实体映射那些序列读数至参照基因组中的部份。第二实体有时计数映射的读数和在本文所述方法、系统、装置或计算机程序产品中采用该计数的映射的读数。在某些实施方式中第二实体转移映射的读数至第三实体、和第三实体计数该映射的读数并在本文所述方法、系统、装置或计算机程序产品中采用该映射的读数。在某些实施方式中第二实体计数映射的读数并将该计数的映射的读数转移至第三实体、和第三实体计数在本文所述方法、系统、装置或计算机程序产品中采用该计数的映射的读数。在涉及第三实体的实施方式中,第三实体有时与第一实体相同。即,第一实体有时转移序列读数至第二实体,第二实体可映射序列读数至参照基因组的部份和/或计数该映射的读数,且和第二实体可转移该映射的和/或计数的读数至第三实体。第三实体有时可在本文所述方法、系统、装置或计算机程序产品中采用该映射的和/或计数的读数,其中所述第三实体有时与第一实体相同,而有时该第三实体与第一或第二实体不同。
在一些实施方式中,一个实体从妊娠女性获得血液、任选从血液(例如从血浆或血清)分离核酸血液、和转移所述血液或核酸至第二实体,所述第二实体从所述核酸生成序列读数。
图30显示计算环境510的非-限制性示例,其中可执行本文所述各种系统、方法、算法、和数据结构。计算环境510仅为合适的计算环境的一个实施例,并非旨在限制本文所述系统、方法、和数据结构的使用或功能范围。计算环境510也不应解释为对计算环境510中所示的任何一种组件或其组合的任何依赖或需求。在某些实施方式中,可使用图30中所示的系统、方法、和数据结构的亚组。本文所述系统、方法、和数据结构可用其他通常目的或特定目的大量计算系统环境或配置进行操作。已知的合适计算系统、环境、和/或配置的示例包括但不限于个人计算机、服务器计算机、瘦客户机、厚客户机、手持-或膝式设备、多处理器系统、基于微处理器的系统、顶置盒、可编程客户电子装置、网络PC、迷你计算机、主机计算机、包括任何上述系统或设备分布的计算环境等。
图30的操作环境510包括常规目的计算设备,其为计算机520形式,包括处理单元521、系统存储器522、和可操作地偶联各种系统组件(包括系统存储器522)至处理单元521的系统总线523。可仅有一个或可有多于一个处理单元521,从而计算机520的处理器包括单中央-处理单元(CPU)或多种处理单元,通常称为平行处理环境。计算机520可为传统计算机、分布计算机,或任何其他类型计算机。
系统总线523可为任何数种总线结构,包括存储器总线或存储器控制器、外设总线、和局部总线,使用各种总线构架中的任何。系统存储器还可简单称为存储器,仅包括读数存储器(ROM)524和随机存取存储器(RAM)。基本输入/输出系统(BIOS)526存于ROM 524,BIOS包含例如在启动时协助在计算机520元件之间转移信息的基本例程。计算机520还可包括硬盘驱动器接口527用于从其读取和写入硬盘(未显示),磁盘驱动器528用于从其读取或写入可移除磁盘529,和光盘驱动器530用于从其读取或写入可移除光盘531,例如CD ROM或其他光学介质。
硬盘驱动器527、磁盘驱动器528、和光盘驱动器530分别通过硬盘驱动器接口532,磁盘驱动器接口533、和光盘驱动器接口534连接至系统总线523。驱动器和其关联的计算机-可读介质提供计算机520的计算机-可读指令、数据结构、程序模块和其他数据的固定存储器。任何类型的计算机可存取并可存储数据的计算机-可读介质例如磁盒、闪存卡、数码视频盘、Bernoulli筒、随机存取存储器(RAM)、只读存储器(ROM)等可用于该操作环境。
许多程序模块可存于硬盘、磁盘529、光盘531、ROM 524或RAM上,包括操作系统535、一种或多种应用程序536、其他程序模块537、和程序数据538。用户可通过输入设备例如540和设备542键入命令和信息至个人计算机520。其他输入设备(未显示)可包括麦克风、操纵杆、游戏板、圆盘式卫星电视天线、扫描仪或等。这些和其他输入设备通常通过偶联至系统总线的串行端口接口546连接至处理单元521,但可不通过其他结构连接,例如并行端口、游戏端口或通用串行总线(USB)。监视器547或其他类型的显示设备还通过接口例如视频适配器548连接至系统总线523、。除监视器外,计算机通常包括其他外设输出设备(未显示)例如喇叭和打印机。
计算机520可在联网环境中操作,使用逻辑连接至一种或多种远程计算机、例如远程计算机549。这些逻辑连接可通过偶联至或部分的计算机520的通信设备或以其他方式实现。远程计算机549可以是其他计算机、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且一般包括以上关于计算机520描述的多个或所有的元件,虽然图30仅显示存储器储存设备550。图30中所描绘的逻辑连接包括局域网(LAN)551和广域网(WAN)552。这些联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机520通过网络接口或适配器553连接到局域网551,其为一种通信设备。当在WAN联网环境中使用时,计算机520通常包括调制解调器554,一种通信设备,或用于通过广域网552建立通信的其它类型通信设备。调制解调器554可以是内置的或外置的,可经由串行端口接口546连接到系统总线523。在联网环境中,相关于计算机520所示的程序模块或其部分可被存储在远程存储器存储设备中。应当理解,所示的网络连接是示例性的,并且可使用在计算机之间建立通信链路的其它手段。
模块
一种或多种模块可用于本文所述方法,其非限制性示例包括逻辑处理模块、测序模块、映射模块、计数模块、过滤模块、加权模块、标准化模块、GC乖离模块、水平模块、比较模块、范围设定模块、归类模块、作图模块、表示模块、关系模块、结果模块和/或数据显示管理模块等或其组合。模块有时受微处理器控制。在某些实施方式中模块或包括一种或多种模块的装置从其他模块、装置、组件、装置的外设或操作器聚集、集合、接受、获取、存取、回收提供和/或转移数据和/或信息或至其他模块、装置、组件、装置的外设或操作器。在一些实施方式中,通过包含一种或多种下述部件的装置将数据和/或信息(例如测序读数)提供至模块:一种或多种流动槽、相机、检测器(例如光检测器、光电池、电学检测器(例如正交调幅检测器、频率和相调节检测器、相锁定环检测器-)、计数器、感应器(例如压力、温度、体积、流动、重量的感应器)、流体操作设备、打印机、显示器(例如LED、LCT或CRT)等或其组合。例如,有时装置的操作器提供常量、阈值、公式或预定值至模块。模块通常配置为从其他模块或装置转移数据和/或信息或至其他模块或装置。模块可从其他模块接受数据和/或信息,其非限制性示例包括逻辑处理模块、测序模块、映射模块、计数模块、过滤模块、加权模块、标准化模块、GC乖离模块、水平模块、比较模块、范围设定模块、归类模块、作图模块、表示模块、关系模块、结果模块和/或数据显示管理模块等或其组合。模块可操作和/或变换数据和/或信息。来自或变换自模块的数据和/或信息可转移至其他合适装置和/或模块,其非限制性示例包括逻辑处理模块、测序模块、映射模块、计数模块、过滤模块、加权模块、标准化模块、GC乖离模块、水平模块、比较模块、范围设定模块、归类模块、作图模块、表示模块、关系模块、结果模块和/或数据显示管理模块等或其组合。包括模块的装置可包括至少一个处理器。在一些实施方式中,数据和/或信息由包括模块的装置接受和/或提供。包括模块的装置包括处理器(例如一种或多种处理器),该处理器可进行和/或执行模块的一种或多种指令(例如过程、例程和/或子例程)。在一些实施方式中,模块用一种或多种外部处理器操作(例如内部或外部网络、服务器、储存设备和/或储存网络(例如云))。
逻辑处理模块
在某些实施方式中,逻辑处理模块协调、控制、限制、管理、指示、分布、分配、变换和/或调节数据和/或信息或数据和/或信息从一种或多种其他模块、外设或设备或向其的转移。
数据显示组织模块
在某些实施方式中数据显示组织模块处理和/或变换数据和/或信息至合适的可视介质,其非限制性示例包括图像、视频和/或文本(例如数字、字母和符号)。在一些实施方式中,数据显示管理模块处理、变换和/或转移数据和/或信息用于在合适的显示器(例如监视器、LED、LCD、CRT等或其组合)、打印机、合适的外设或设备上呈现。在一些实施方式中,数据显示组织模块处理、变换数据和/或信息为胎儿或母体基因组、染色体或其部分的可视表示。
测序模块
在一些实施方式中,序列模块获取、生成、聚集、集合、处理、变换、加工、变换和/或转移序列读数。本文所用“序列接受模块”与“测序模块”相同。包括测序模块的装置可为用本领域已知测序技术确定核酸序列的任何装置。在一些实施方式中测序模块可比对、集合、片段化、互补、反向互补、检错、或纠错序列读数。
映射模块
序列读数可通过映射模块或包括映射模块的装置经映射,该映射模块通常映射读数至参照基因组或其区段。映射模块可通过本领域已知合适的方法映射测序读数。在一些实施方式中,需要映射模块或包括映射模块的装置以提供映射的序列读数。
计数模块
可通过计数模块或包括计数模块的装置提供计数。在一些实施方式中计数模块对映射至参照基因组的序列读数计数。在一些实施方式中计数模块根据本领域已知计数方法生成、集合、和/或提供计数。在一些实施方式中,需要计数模块或包括计数模块的装置以提供计数。
过滤模块
可通过过滤模块(例如包括过滤模块的装置)提供过滤部份(例如参照基因组的部份)。在一些实施方式中,需要过滤模块来提供过滤的部份的数据(例如过滤的部份)和/或从考虑中去除部份。在某些实施方式中过滤模块从考虑中去除映射至部份的计数。在某些实施方式中过滤模块从水平或概况的确定中去除映射至部份的计数。过滤模块可通过本领域已知或本文所述一种或多种过滤方法过滤数据(例如计数、映射至部份的计数、部份、部份水平,标准化计数、原始计数等)。
加权模块
可通过加权模块(例如包括加权模块的装置)提供加权的部份(例如参照基因组的部份)。在一些实施方式中,需要加权模块以加权基因组节段和/或提供加权的部份值。加权模块可通过本领域已知或本文所述一种或多种加权方法加权部份。
标准化模块
标准化数据(例如标准化计数)可通过标准化模块(例如包括标准化模块装置)提供。在一些实施方式中,需要标准化模块以提供获自测序读数的标准化数据(例如标准化计数)。标准化模块可通过本文所述或本领域已知一种或多种标准化方法(例如PERUN、ChAI、杂交标准化、等或其组合)标准化数据(例如计数、过滤的计数、原始计数)。
GC乖离模块
可通过GC乖离模块(例如装置包括GC乖离模块)提供确定GC乖离(例如确定各参照基因组的部份(例如部份、参照基因组的部份)的GC乖离)。在一些实施方式中,需要GC乖离模块以提供GC乖离确定。在一些实施方式中GC乖离模块提供从映射至各参照基因组的部份的序列读数计数和各部份的GC含量之间的拟合关系(例如拟合线性关系)确定GC乖离。GC乖离模块有时是标准化模块(例如PERUN,ChAI标准化模块)的一部分。
水平模块
可通过水平模块(例如包括水平模块的装置)提供参照基因组的部份的水平(例如水平)和/或计算基因组节段水平。在一些实施方式中,需要水平模块以提供水平或计算的基因组节段水平(例如根据等式A,B,L,M,N,O和/或Q)。在一些实施方式中水平模块从GC乖离和映射至各参照基因组的部份的序列读数计数之间的拟合关系(例如拟合线性关系)中提供水平。一些实施方式中水平模块计算基因组节段水平作为PERUN的一部分。在一些实施方式中,水平模块根据等式Li=(mi-GiS)I-1提供基因组节段水平(即,Li),其中Gi是GC乖离,mi是映射至参照基因组的各部份的测量的计数,i是样品,I是GC乖离和映射至各参照基因组的部份的序列读数计数之间的拟合关系的截距且S是斜率(例如拟合线性关系)。
比较模块
通过比较模块或包括比较模块的装置,第一水平可鉴定为显著不同于第二水平。在一些实施方式中,需要比较模块或包括比较模块的装置以提供两个水平间的比较。
范围设定模块
各拷贝数变异(例如复制、插入和/或缺失)的预期范围(例如预期水平范围)或不含拷贝数变异的范围可通过范围设定模块或包括范围设定模块的装置提供。在某些实施方式中,通过范围设定模块或包括范围设定模块的装置提供预期水平。在一些实施方式中,需要范围设定模块或包括范围设定模块的装置以提供预期的水平和/或范围。
归类模块
可通过归类模块或包括归类模块的装置将拷贝数变异(例如母体和/或胎儿拷贝数变异,胎儿拷贝数变异,复制、插入、缺失)归类。在某些实施方式中,拷贝数变异(例如母体和/或胎儿拷贝数变异)通过归类模块进行归类。在某些实施方式中确定为显著不同于其他水平(例如第二水平)的水平(例如第一水平)通过归类模块鉴定为表示拷贝数变异。在某些实施方式中通过归类模块确定不含拷贝数变异。在一些实施方式中,通过包括归类模块的装置确定拷贝数变异。归类模块可特异用于归类母体和/或胎儿拷贝数变异、胎儿拷贝数变异、复制、缺失或插入或缺乏所述变异或上述的组合。例如,鉴定母体缺失的归类模块可与鉴定胎儿复制的归类模块不同和/或有差异。在一些实施方式中,需要归类模块或包括归类模块的装置以鉴定拷贝数变异或拷贝数变异的确定性结果。
作图模块
在一些实施方式中作图模块处理和/或变换数据和/或信息为合适的可视媒体,其非限制性示例包括图表、图、图示等或其组合。在一些实施方式中,作图模块处理、变换和/或转移数据和/或信息用于在合适的显示器(例如监视器、LED、LCD、CRT等或其组合)、打印机、合适的外设或设备上呈现。在某些实施方式中作图模块提供计数、水平和/或概况的可视显示。在一些实施方式中,数据显示管理模块处理、变换数据和/或信息为胎儿或母体基因组、染色体或其部分的可视表示。
在一些实施方式中,需要作图模块或包括作图模块的装置以对计数、水平或概况作图。
关系模块
在某些实施方式中,关系模块处理和/或变换数据和/或信息为关系。在某些实施方式中,关系通过关系模块生成和/或从关系模块转移。
结果模块
在一些实施方式中,通过结果模块或包括结果模块的装置鉴定是否存在遗传变异(非整倍性,胎儿非整倍性,拷贝数变异)。在某些实施方式中通过结果模块鉴定遗传变异。通常通过结果模块鉴定是否存在非整倍性的确定。在一些实施方式中,遗传变异(非整倍性,拷贝数变异)的确定性结果可通过结果模块或包括结果模块的装置鉴定。结果模块可特异用于确定特异性遗传变异(例如三体、21三体、18三体)。例如,鉴定21三体的结果模块可与鉴定18三体的结果模块不同和/或有差异。在一些实施方式中,需要结果模块或包括结果模块的装置以鉴定遗传变异或遗传变异(例如非整倍性、拷贝数变异)的确定性结果。通过本文所述方法鉴定的遗传变异或遗传变异的确定性结果可通过其他测试独立验证(例如通过母体和/或胎儿核酸的靶测序)。
变换
如上所述,数据有时从一种形式变换成另一种形式。本文使用术语“变换的”、“变换”和其语法衍生形式或等同形式指从物理起始材料(如测试对象和/或参照对象样品核酸)变成物理起始材料的数字表现(如序列读数数据)的数据变化,而在一些实施方式中,其包括将所述数字表示进一步变换成能用于提供结果的一种或多种数值或图示。在某些实施方式中,所述数字形式表示的数据的一种或多种数值和/或图示能用于表示测试对象的物理基因组的显示(如虚拟表示或直观表示是否存在基因组插入、复制或删除;表示是否存在与医学病症相关联的序列的物理量变化)。有时将虚拟表示进一步变换成所述起始材料的数字表示的一种或多种数值或图示。这些方法能把物理起始材料变换成数值或图示,或者表示测试对象基因组的物理存在。
在一些实施方式中,变换数据组通过降低数据复杂性和/或数据维数来帮助提供结果。有时在将物理起始材料变换成所述起始材料的虚拟表示(如物理起始材料的序列读数表示)的处理过程中降低数据组复杂性。合适的特性或变量都能用于降低数据组的复杂性和/或维数。能选择用作数据处理的靶标特征的特征的非限定性示例包括GC含量、胎儿性别预测、染色体非整倍性鉴定、特定基因或蛋白质鉴定、癌症鉴定、疾病、遗传基因/性状、染色体异常、生物学分类、化学分类、生物化学分类、基因或蛋白质分类、基因本体学(geneontology)、蛋白质本体学(protein ontology)、共调基因、细胞信号转导基因、细胞循环基因、与前述基因有关的蛋白质、基因变异、蛋白质变异、共调基因、共调蛋白、氨基酸序列、核苷酸序列、蛋白质结构数据等,及以上组合。降低数据组复杂性和/或维数的非限定性示例包括:使多重序列读数简化为分布图,使多重序列读数简化为数值(如标准化的值、Z-分值、p值);使多种分析方法简化为概率图或单点;对导出的量进行主成分分析等或其组合。
实施例
仅以说明的形式而非限制的形式提供以下实施例。下述实施例说明某些实施方式但不限制本技术。本领域技术人员不难了解,可改变或调整各种非关键参数而获得基本相同或相似的结果。
实施例1:检测关联遗传变异的病症的PERUN和通常方法
本文所述方法和背后理论可用于检测关联遗传变异的各种病症并提供是否存在遗传变异的确定性结果,或确定是否存在遗传变异。
去除参照基因组的无信息部份
去除参照基因组的无信息部份的多种尝试表明部份选择有可能改善分类。
等式A:
M=LI+GS (A)
等式A中的各术语具有下述含义:
·M:测量的计数,表示掺杂不想要的差异的初级信息。
·L:染色体水平–此为数据处理程序想要的输出。L表明胎儿和/或母体异常于整倍体。该定量受到随机误差和系统偏差的掩蔽。染色体水平L是样品特异且部份特异的。
·G:用线性模型、LOESS或任何等价方法测量的GC乖离系数。G代表二级信息,从M和部份特异的GC含量值的组中提取,通常源自参照基因组(但也可源自实际观察的GC含量)。G具有样品特异性且不随着基因组位置而变化。其封装不想要的变异的部份。
·I:线性模型的截距。该模型参数针对给定的实验设置是固定的,其独立于样品且具有部份特异性。
·S:线性模型的斜率。该模型参数针对给定的实验设置是固定的,其独立于样品且具有部份特异性。
测量M和G的量。起始,部份-特异性值I和S未知。为了评估未知的I和S,必须假设整倍体样品的所有参照基因组的部份的L=1。该假设并非总是正确,但可合理预期正常染色体水平的样品的压制对具有缺失/复制的任何样品有压倒性。用于整倍体样品的线性模型提取针对所选部份特异的I和S参数值(假设L=1)。相同程序用于人基因组的所有参照基因组的部份,得到各基因组位置的截距I和斜率S的组。交叉验证随机选择含所有LDTv2CE整倍体的90%的工作组,并用该亚组训练模块。随机选择重复100次,各部分产生100组斜率和100组截距。
从测量的计数提取染色体水平
假定模型参数值I和S可用于各部分,新测试样品上收集的测量M用于评估染色体水平,基于下述等式B:
L=(M–GS)/I (B)
与等式A类似,GC乖离系数G评估为逐份测量的原始计数M和从参照基因组的GC含量之间的回归的斜率。染色体水平L然后用于进一步分析(Z-值、母体缺失/复制、胎儿微缺失/微复制、胎儿性别、性非整倍体和等等)。等式B封装的过程称为参数化误差去除和无偏标准化(PERUN)。
实施例2:公式示例
下面提供可用于本文所述方法的非数学和/或统计学公式的限制性示例。
然后可根据平均水平中的不确定性的估计来评估Z-分数和p-值(从关联于预期水平1的偏差的Z-分数计算)。p-值基于t-分布,其顺序通过峰值中参照基因组的部份的数量来确定。根据所需的置信水平,截止值可抑制噪音并允许明确检测实际信号。
等式1:
Figure BDA0000914062300001811
等式1可用于直接比较两种不同样品的峰值水平,其中N和n分别指整个染色体中和失常内的参照基因组的部份的数量。将产生两个样品间相似性的p-值的t-测试的顺序通过两个不正常延伸的较短的那个中的参照基因组的部份的数量来确定。
等式8可用于将胎儿分数、母体倍性、和中值参照计数纳入分类方案用于确定是否存在关于胎儿非整倍性的遗传变异。
等式8:
Figure BDA0000914062300001812
其中Yi代表对应于中值计数概况中部份的测试样品中部份的测量计数,F代表胎儿分数、X代表胎儿倍性、和Mi代表分配至各部份的母体倍性。可用作等式(8)中X的值为:1,若胎儿为整倍体;3/2,若胎儿为三倍体;和5/4,若有孪生胎儿且一个受到影响而另一个没有。5/4用于孪生的情况,其中一个胎儿受到影响而另一个没有,由于等式(8)中术语F代表总胎儿DNA,因此所有胎儿DNA必须都考虑计数。在一些实施方式中,可考虑母体基因组中的大缺失和/或复制通过分配母体倍性Mi至各部份或部份。在一些实施方式中,母体倍性通常分配为1/2的多倍,且可使用逐份标准化进行估计。由于母体倍性通常为1/2的多倍,可易于考虑母体倍性,且因此不包括在其他等式中从而简化偏差。
当X=1处评估等式(8)时,(例如整倍体假设),胎儿分数被抵消且下述等式得到残差平方和。
等式9:
Figure BDA0000914062300001821
为了简化等式(9)和后续计算,使用下述等式。
等式10:
Figure BDA0000914062300001822
等式11:
Figure BDA0000914062300001823
等式12:
Figure BDA0000914062300001824
当X=3/2处评估等式(8)时,(例如三倍体假设),下述等式得到残差平方和。
等式13:
Figure BDA0000914062300001825
等式(9)和(13)之间的差异形成功能性结果(例如phi),其可用于针对备选假设(例如三体性单现突变,X=3/2)测试零假设(例如整倍体,X=1):
等式14:
Figure BDA0000914062300001831
等式18:
Figure BDA0000914062300001832
有时优选的倍性值通过等式20得到:
Figure BDA0000914062300001833
母体倍性的术语,Mi,可从一些数学偏差中略去。所得X的表达式对应于相对简单且常高频出现的特别情况,其中母体在评估染色体中不具有缺失或复制。
等式21:
Figure BDA0000914062300001834
等式(11)和(12)分别给出Xiff和Xify。在忽略所有实验误差的实施方式中,解等式(21)得到整倍性的值为1,其中Xiff=Xify。在忽略所有实验误差的某些实施方式中,解等式(21)得到三倍性的值为3/2(参见等式(15)Xiff和Xify的三倍性关系。
表2
Figure BDA0000914062300001841
实施例3.决策树分析
开发可检测任何染色体上的胎儿非整倍性的决策树方法,包括未报告或先前未知的非整倍性。此外,基因组中的非-均一覆盖率事件可在应用标准化程序(例如PERUN)后检测。如图1所示的非-均一事件(左上图)可表明微缺失/复制。这些事件可独立检测。
方法
与检测具有预定义基因组坐标的T21,T18和T13不同,非均一覆盖率事件可在基因组中任何位置发生。检测预定义位置处遗传变异仅需要确定所示位置的显著性水平。本实施例所述算法搜索具有一致升高或降低的部份计数/覆盖率的区域,并精确确定此类事件的范围。本实施例所述方法采用两种正交方法的功能。
小波分解
第一种算法使用小波变换。小波变换是在信号处理方面特别有用的数学工具。在此改良应用中,全基因组测序数据先比对、分份并标准化以去除GC乖离。PERUN标准化(本文所述)用于降低GC乖离且可使用其他GC乖离降低方法(例如本文所述ChAI方法)。随后,将小波平滑方法应用至标准化概况以降低数据中的噪音,从而使微缺失/微复制时间清晰可见。小波方法的示意图如图1所示。
标准Haar小波用于小波分解。原则上更复杂的小波变换可用于鉴定平滑后事件的位置。为了区别信号和噪音,需要确定哪些小波系数指示信号和应保留,以及哪些可能反映噪音且应去除。该步骤称为阈值化。已知大量级和低水平系数保持信号趋势,而小量级和高水平系数保持信号的细节。“软”阈值化方法用于移除小和非-显著系数[Donoho和Johnstone,(1995)WaveLab and Reproducible Research]。阈值化后,保留一些高水平系数。这些系数代表原始信号中的急剧变化或大尖峰并被去除。该步骤称为“水平化”,图2显示无阈值化的水平化的效果(例如水平提高会保留更多细节)。水平化的最佳选择可取决于许多因素,例如染色体长度、想要检测的事件长度和标准化概况的噪音水平。给定染色体长度Nchr(延伸至最近功效数量2)和小波分解水平c,小波概况的最小区段长度为L=Nchr/2c+1。因此,为了检测微缺失大小N,所需分解水平是c=log2(Nchr/N)-1。例如,若Nchr=参照基因组的4096部份和微缺失大小N=参照基因组的128部份,则分解水平应为c=4。还可应用分解水平c±1。
圆的二元分割(CBS)法
小波方法可鉴定可能的微缺失/微复制的位置。然而,其无法独立保证存在真实事件。概况进行弱标准化时,小波算法可能受到GC残留引起的局部波动的误导。此外,检测边缘的精确性受到小波系数切断顺序的限制。为了降低假阳性,采用独立方法验证小波的发现。圆的二元分割(CBS)方法原本用于使用阵列CGH数据的拷贝数变异(CNV)检测。其可精确查明变化点。CBS通过使用似然率统计将染色体反复划分为等重复数区域来工作[OlshenAB,Venkatraman ES,Lucito R,Wigler M.Biostatistics(2004)Oct;5(4):557-72]。这通常工作良好,但信号中噪音高时可能过度划分基因组[Lai,WR,Johnson,MD,Kucherlapati,R,Park,PJ Bioinformatics(2005)21,19:3763-70.]。本实施例中,适于使用PERUN-标准化部份计数数据工作并将其用作验证小波发现的独立方法。图5示例CBS算法。
用于小波或CBS平滑概况的区段合并
小波或CBS划分感兴趣的基因组为等拷贝数的区域/区段。各区段代表CNV的可能的候选。如前所述,CBS倾向于过度划分染色体,且因此跨越宽范围的CNV区域可分离为数个更小的片。小波方法也可发生相似情况。图4显示这种情况,其中较大复制原始被CBS方法分为3片,使得CNV宽度被低估(图4,左下图)。为了克服该缺陷,Willenbrock和Fridlyand提出的算法(Willenbrock H,Fridlyand J.,Bioinformatics(2005)Nov 15;21(22):4084-91)用于进一步合并小波或CBS平滑概况为等拷贝数区域的更长伸展。若映射至那两个区段的部份计数并非显著不同,或若预测的区段值比动态确定的阈值更接近,则两个区段合并[Willenbrock和Fridlyand2005]。图4,右下图,显示合并区段的效果,其中合并区段后可看到清楚的微复制。
源自小波和CBS算法的统计学
对于各染色体来说,可从小波/CBS平滑的、区段合并的概况中推断出三个关键z分数统计:
(1)小波平滑概况的最佳区段(候选区段)和其部份计数表示z-分数(Z)。候选区段的样品计数表示是测试样品中区段中的总标准化计数除以总标准化常染色体计数。就整倍体样品组生成候选区段的中值计数表示,并就候选区段的整倍体计数表示确定MAD。区段的Z统计学是测试样品计数表示减去整倍体中值计数表示所得结果除以MAD。
(2)CBS平滑概况的最佳区段和其部份计数表示z-分数(Zcbs)。候选区段的样品计数表示是区段中的总标准化计数除以测试样品的总标准化常染色体计数。就整倍体样品组生成候选区段的中值计数表示,并就候选区段的整倍体计数表示确定MAD。区段的Zcbs统计学是测试样品计数表示减去整倍体中值计数表示所得结果除以MAD。
(3)整个染色体的全部染色体表示(Zchr)。样品计数表示是内含候选区段的染色体中的总标准化计数除以测试样品的总标准化常染色体计数。就整倍体样品组生成染色体的中值计数表示,并就整倍体计数表示确定MAD。染色体的Zchr统计学是测试样品计数表示减去整倍体中值计数表示所得结果除以MAD。
最佳区段有时是染色体所有区段中具有最大曲线下面积(AUC)的区段。该区段代表感兴趣的染色体上最显著的发现。例如图4的右下图由两个区段,其中第二个具有最大的AUC。图5概括了各染色体的小波和CBS平滑以及整理后统计数字。
CNV检测的决策树
对各染色体计算三种关键统计数字后,可将其用于确定给定样品中是否存在三倍体、微缺失或微复制。决策树如下所示:
1.若满足如下条件,则染色体分类为三体或单体:
a.|Zchr|≥3.95,且
b.|Zchr|≥min(α|Zwave|,α|Zcbs|)
2.若满足如下条件,则染色体分类为具有微缺失/微复制:
a.不是三体或单体
b.|Zwave|≥3.95,且|Zcbs|≥3.95
c.小波和CBS最佳区段重叠
应注意情况1特别需要全部染色体的Z分数为显著的且其数量级应与小波或CBS的最佳区段相当。条件2需要小波和CBS最佳区段均为显著的且需要他们彼此重叠以交叉证实所述发现(图5)。在一些情况中,CBS的小波方法鉴定的小波事件不重叠(图9),表明不存在微复制或微缺失。在多数应用中,Z分数截止值(如预定阈值)3.95可稍微增加或减小以实现想要的灵敏度和特异性。而且,本文所示多种应用中预定值α通常设为0.6-0.8。
结果
检测方法用于2案例的微缺失22q11,其在染色体上延伸小于3MB(图10)。为了达到3MB分辨率,样品最初以0.5-重进行测序。即使以10倍低的覆盖率仍检测到22q11微缺失(图10,F’)。一个样品的检测结果示于图10,其中高亮区域表示微缺失事件(约2.5MB)。
算法也用于不同研究的样品并检测到19个微缺失/微复制的推定案例。图11A和11B显示两个所述检测案例。
实施例4.最大熵
最大熵是本文所述划分基因组至均一水平区段的自动化算法。该算法基于Cohen等的程序(Cohen N,Dagan T,Stone L,Graur D.,(2005)Mol.Biol.Evol.,May;22(5):1260-72)来表征人基因组的GC含量分布。Cohen的方法适用于检测微缺失/复制(例如微缺失/微复制边缘)的位置。改良包括将分割限制在最小长度的能力和用于终止分割的基于t值的标准。t值用于决定染色体内鉴定的所有区段(如区段、分区或区域)是否同源。若新鉴定的区段未通过基于t值的显著性测试,其合并回一起并终止分割。进行此操作的代码如下所示:
Figure BDA0000914062300001881
Figure BDA0000914062300001891
Figure BDA0000914062300001901
Figure BDA0000914062300001911
上述R-脚本用于检测OBX研究的样品中多种推定的微缺失和微复制(表3和图12)。
表3.最大熵法检测的微复制和微缺失事件
Figure BDA0000914062300001912
Figure BDA0000914062300001921
实施例5.验证方法
两种验证方法“留一法”和“滑动边缘”与PERUN联用以鉴定染色体22上的亚染色体异常,称为Velocardiofacial综合症(DiGeorge综合症,22q11),并评估观察到的与22q11区域中整倍体(即“正常”)染色体水平的差异的统计上显著性。方法可用于靶向和非靶向检测缺失/复制。
16个妊娠女性血浆样品如前所述经收集、处理和测序(Jensen TJ,
Figure BDA0000914062300001922
akula
Figure BDA0000914062300001923
,Deciu C,van den Boom D,Ehrich M.(2012):通过对母体血浆进行下一代测序检测胎儿微缺失22q11.2(Detection of microdeletion 22q11.2in a fetus by next-generationsequencing of maternal plasma)Clin.Chem.58(7):1148-51)。通过核型分析确认,两个样品来自怀有DiGeorge胎儿的母体。剩余14样品对应于整倍体妊娠(即“正常胎儿”)并作为22q11检测和表征的参照。
所有16样品(每个样品两个数据组)的最初原始计数使用针对ELAND比对优化的PERUN部份参数进行重加工。所述参数在LDT2CE数据上训练。并且所述部份选择基于交叉验证,如上所述。未应用可基于可映射能力的过滤。采用二级LOESS标准化,去除PERUN标准化后留下的任何GC乖离。由于各样品测量两次,产生总计32个概况,成对的概况组合为单一PERUN概况,得到16个概况(每个样品一个)。组合概况前,其标准差范围从0.020到0.030。加入匹配的概况以降低约1.2(1.14-1.27)倍可变性,稍稍低于预期的1.414(2的平方根)。标准化计数概况相比原始和GCRM概况显著改善,以及关于基于14个整倍体样品的中值参照概况的标准化结果。概况的标准偏差降低以及整个基因组均一度较高均证明了所述改善。虽然16原始概况(关于总计数量度并乘以参照基因组的部份的数量)的标准偏差的范围为0.55-0.64,对应于16个PERUN概况的标准偏差的范围为0.016-0.026。图13显示所有16个概况,DiGeorge区域(chr22_368-chr22_451的范围)在背景中用灰色带标出。应注意基于交叉验证的部份过滤从22q11微缺失中去除许多参照基因组的部份,仅剩下下述参照基因组的部份组:chr22_371,chr22_372,chr22_380,chr22_381,chr22_382,chr22_383,chr22_384,chr22_385,chr22_386,chr22_387,chr22_388,chr22_389,chr22_390,chr22_391,chr22_392,chr22_393,chr22_394,chr22_395,chr22_396,chr22_397,chr22_398,chr22_399,chr22_400,chr22_401,chr22_402,chr22_403,chr22_404,chr22_415,chr22_416,chr22_417,chr22_418,chr22_419,chr22_422,chr22_423,chr22_424,chr22_426,chr22_427,chr22_428,chr22_439,chr22_440,chr22_441,chr22_442,chr22_443,chr22_444,chr22_445,和chr22_446。
图13显示DiGeorge区域中放大的PERUN概况以便于细节观察。22q11缺失在受影响的情况中很明显(3_4和9_10)。
为了对是否存在22q11缺失的判定的置信度定量,针对规则DiGeorge区域评估Z-分数,覆盖染色体22、位置18、546、349-22、336、469。该区域内参照基因组的部份的PERUN水平针对各样品单独加和。由于在所有样品上测量技术复制,两种加和的平均值用作DiGeorge区域内染色体材料的表示。所有表示(包括两个整倍体和受影响的样品)的中值均从个体表示中减去,得到的差值除以所有表示的MAD以得到Z分数。结果见图14所示。两个受影响的案例3_4和9_10的Z-分数低于-3,表明这2个样品中存在缺失。此外,一个样品(13_14)中的高正Z-分数表明感兴趣的区域中可能存在复制。图13的视觉观察确认13_14PERUN概况的中间部份在DiGeorge区域中包含过度表示的部分。
图13所示概况表明一个受影响的情况(3_4)中观察到的缺失不同于规则DiGeorge缺失。3_4概况仅部分耗尽(depleted),所述缺失的右边缘靠近部份chr22_426,距离失常的预期边缘的左面大于1Mbp(20参照基因组的部份)。3_4中缺失的左边缘还移动至22q11的预期左边缘的左侧。缺失的真实范围明显影响Z值。本研究的首要目标是评估给定缺失/复制的起始和终止边缘的位置的缺失/复制判定中的置信度。
为了评估缺失边缘的位置的影响以及为了关联置信区间和Z分数,基于225个不同区域的表示重复评估Z分数,所述不同区域与规则DiGeorge区域部分重叠(或包含在其内)。这些区域中最大的起始于chr22_371和终止于chr22_446。chr2_447,缺失中最后的部份,未包括在计算中,由于其被PERUN交叉验证所过滤。剩余区域从规则DiGeorge区域的左边缘起始于第一和第15部份之间的任何区域。此外,区域终止于规则DiGeorge区域的右边缘和其前方的第15部份之间。这样得到15x15网格区域起始/终止点。所有样品的表示在该网格上评估,并就各网格点获得Z值。所有样品用于获得用于Z-标准化的中值和MAD表示。225个可能区域(样品3_4和1_2)的所得Z值的代表性直方图示于图15-16。
图17的分散图概况了所有样品的225个可能区域的所得Z值的直方图。图17仅显示每个样品的中值Z值和那些中值Z分数周围的3MAD置信区间。根据缺失边缘的选择,样品13_14大多表现出过度表示(15x15网格的大多数区域Z>3)。两个受影响的样品(3_4和9_10)的3MAD置信区间与“正常”区域(-3至3)部分重叠,但两个样品大都保持低于-3。
图20探究微缺失边缘的选择的可变性填塞(stemming)。其他可变性的可能来源可为针对Z-分数标准化选择参照样品。为了评估参照样品的选择对缺失/复制判定中Z-分数和所得置信度(或无置信度)的可变性的贡献,进行单个区域的以及的15x15网格区域“留一法”分析。仅用于规则DiGeorge区域时,“留一法”分析未能表明参照的选择对Z-分数可变性(图18-20)的显著贡献。然而,15x15网格区域上进行的更全面的“留一法”分析证实参照样品的选择显著影响Z-分数可变性(图21-23)。
图21表明使用15x15网格DiGeorge亚区域所获中值Z值和“留一法”技术生成的中值Z值之间的一致性。
图22-24显示15x15网格亚区域中随机选择的DiGeorge亚区域上使用“留一法”技术。可在规则DiGeorge区域的情况中得到相同结论。
图25-29显示“留一法”技术和区域边缘滑动组合的结果。对于每个15x15亚区域,16参照组生成Z-分数,其组合到每样品的3,600Z-分数组。代表性图25-26中所示的分布大体上与图14-24结论的结论一致,同时提供其他细节。一些直方图中所观察到的尖峰可通过样品亚组频繁提供Z-分数标准化的中值这一现象进行解释。
所述的方法“滑动边缘”和“留一法”可一起使用或单独使用以验证判定。两个分隔的程序还组合得到所得Z分数中不确定性的更全面的理解。本文靶向缺失/复制检测中使用所述两种技术,但原则上可延伸至非靶向“搜寻”基因组中先前未知的缺失/复制。使用小波、最大熵、圆的二元分割、用边缘检测内核的卷积、或一些其他合适方法大致画出受影响的面积后,可将滑动边缘技术和留一法技术用于确定新检测的缺失/复制的范围和可靠性。
滑动边缘分析的动机源于患者3_4中观察到的22q11缺失的延伸和规则DiGeorge缺失之间的不一致。如其所示,3_4样品中的2.5Mb缺失相比进行这些计算时的已知内容更具代表性。根据下述两个材料,缺失通常约为3Mb,而非规则8Mb:
(C.Carlson,等,(1997)The American Journal of Human Genetics,卷61,第3期,620-629)
(Schwinger E,Devriendt K,Rauch A,Philip N.临床使用基因卡片:DiGeorge综合症、软腭-心-面综合症、Shprintzen综合症、染色体22q11.2缺失综合症(22q11.2,TBX1).Eur J Hum Genet.2010年9月;18(9).doi:10.1038/ejhg.2010.5.Epub 2010Feb3.PubMed PMID:20125192;PubMed Central PMCID:PMC2987430.)
已报到一些7-8%的情况中,DiGeorge缺失短至1.5Mb。染色体异常的预期和实际大小之间的具有(高)临床相关性的这种差距比现有数据所述的还要频繁。基于此,靶向方法(针对特异的异常进行修改)和更通常的非靶向法(先发现市场然后询问临床注解的数据库)将从滑动边缘和留一法分析中获利。
实施例6:遗传变异的对数让步比检测
胎儿分数在遗传变异的非-侵入性产前测试(NIPT)中发挥作用。已观察到具有高胎儿分数(例如24%)和稍稍升高的Z-分数(例如z=3.2)的样品可导致假阳性分类。对此类样品,例如若其确为三倍体,z分数应远高于3。开发对数让步比(LOR)过程用于解决该问题并降低假阳性判定可能性。
可就测试样品根据21三体(T21)与非-T21的概率计算LOR,给定其观察的z分数和胎儿分数,按照下述等式22:
Figure BDA0000914062300001961
其中
Figure BDA0000914062300001962
(本文还称为f^)是测量的胎儿分数(例如通过对于雄性样品的chrY或已知的其他胎儿分数确定技术),
Figure BDA0000914062300001963
Figure BDA0000914062300001964
分别是T21(具有T21)和
Figure BDA0000914062300001965
(非-T21)的后验概率,给定下述Z和f^,其中P(T21)和
Figure BDA0000914062300001966
分别是T21和非-T21的先验概率,和
Figure BDA0000914062300001967
Figure BDA0000914062300001968
分别是T21和非-T21的条件概率,如下所示。
可根据Z-分数(Z)和测试样品(例如等式22的右手部分)的计算的胎儿分数(f^)确定条件概率。对未受影响的整倍体样品,X代表事件区域的加和箱计数。由于测序的固有随机性,X是随机变量X~f(μXX),其中μX和σX分别是算术平均和标准偏差且f(·)是分布函数。相似地,对于受影响的三倍体样品,受影响区域的箱计数是Y~f(μYY),其中μY=μX(1+f/2),且f是胎儿分数。假定σY≈σX,Z-分数分布可写成等式23:
Figure BDA0000914062300001969
其中μX和σX可从大量整倍体样品的集合中根据经验估计。
对于整倍体样品,其z分数独立于胎儿分数且遵循标准正态分布。
等式23图示于图32。整倍体对象的Z-分数分布居中为0,和分布中心对胎儿分数不敏感。根据等式23的图示,T21的离散Z-分数分布各自在不同Z-分数上居中,其中各离散用于不同胎儿分数。应用就测试样品所测的胎儿分数确定就T21评估哪个Z-分数分布。应用就测试样品所测的Z-分数鉴定T21的条件概率。T21的条件概率是就测试样品所测的Z-分数与根据就该测试样品所测胎儿分数所选的T21的Z-分数分布的交叉点。应用就测试样品所确定的Z-分数鉴定非T21的条件概率。非T21的条件概率位于就测试样品所确定的Z-分数和就非T21的Z-分数分布的交叉点处。
T21和非-T21的条件概率应用至等式22提供测试样品的LOR计算。Z-分数大于3.95和LOR大于0的测试样品分类为存在遗传变异(例如存在T21)。Z-分数小于3.95和/或LOR小于0的测试样品分类为不存在遗传变异。
图31显示使用LOR法的LDTv2雄性样品的分类结果。可见LOR随着胎儿分数提高而快速分开。然而,具有高胎儿分数的边界线样品可被可靠分类。具体地,LOR大于0的空心圆所示的样品精确地分类为T21,LOR小于0的空心圆所示的样品精确地分类为非T21。
等式22假定测量的胎儿分数与真实胎儿分数相同,这通常并非如此。为了补偿测量不确定性,根据等式24开发改良的LOR方法:
Figure BDA0000914062300001971
其中f是真实胎儿分数f^是测量的z胎儿分数。对比等式22,等式24对给定f^的f条件概率取平均。从而改良的LOR使用条件概率的加权平均,为接近测量的胎儿分数值的可能的胎儿分数值提供更多权重。基于等式24,改良的LOR恢复真阳性样品。因此,改良的LOR可用于确定测试样品中是否存在遗传变异。
LOR方法可用于确定是否存在多种类型的染色体非整倍性(例如除了T21之外)和可用于确定是否存在多种类型的其他遗传变异(例如染色体21以外的染色体的非整倍性、微复制、微缺失)。Z-分数等于或大于3.95和LOR大于0时,确定阳性事件(例如存在染色体非整倍性(例如单体、三体);存在微复制,存在微缺失)。为了确定是否存在微复制或微缺失,例如可使用分别获自小波平滑分解示意图或CBS平滑分解示意图的Z或Zcbs Z-分数值(参见例如实施例3)。图32所示的关系相似但对微缺失或微复制事件不同。对于微复制事件,复制区段的μX和σX小于染色体三体的值,且微复制Z-分数分布向左移动更接近图32中的整倍体Z-分数分布。微复制事件的Z-分数分布仍位于图32中整倍体Z-分数分布的右侧。然而微缺失事件的Z-分数分布移动至图32中整倍体Z-分数分布的左侧。为了确定是否存在染色体非整倍性(例如染色体21以外的染色体),可使用例如Zchr Z-分数值(参见例如实施例3)。
实施例7:ChAI标准化过程
ChAI是可用于从获自测试对象(例如妊娠女性)的序列读数确定胎儿是否存在遗传变异(例如非整倍性、微复制、微缺失)的系统。ChAI系统流程图的示例示于图42A和42B。序列读数获自妊娠女性测试对象和一种或多种参照对象,本文有时指训练组。训练组妊娠女性对象怀有其他测试方法证实为整倍体的胎儿。
序列读数先从SAM或BAM格式压缩为二进制读数格式(BReads格式),这可使ChAI运行更快。格式存储各读数的基因组位置,包括根据参照基因组确定的染色体和碱基对位置,并丢弃其他信息。文件从所含读数的计数开始。这样通过消除存储器重新配置的需要而改善装载时间。值以4字节阵列储存在盘上。然后使用5-字节格式储存读数,1个用于染色体序数(1-22,X,Y,M的0-索引),和4个用于染色体位置。通过先从前4个字节读取序列读数计数来装载BReads文件。然后一次装载5字节各序列读数,第一字节表示染色体序数和后4字节转换为整数位置。通过使用针对特异读数索引的盘跳(disk-skip)命令可快速进行读数的随机取样。
例如,表I显示17,673,732映射的读数的不同格式的磁盘用量相比BReads格式的磁盘用量。
表4:基于具有17,673,732读数的样品的不同格式的磁盘用量。
Figure BDA0000914062300001991
格式大约比原始SAM文件小50倍,比GZip格式使用约少12%的空间。还具有在一次存储器储存配置的开头储存读数数量的优点,并可快速取样,由于于读数不必须按顺序读取。其他格式不可能实现这些特征。
GC乖离建模
然后各样品学习GC乖离模型。分配用于训练的样品部分用来产生部份的过滤器并用来学习单独通过GC乖离无法良好解决的其他基因组乖离。最终,训练的统计数字用于过滤器和评分测试样品。
ChAI使用局部GC含量的密度估计来建模GC乖离。使用核函数例如Epanechnikov核(图33)从参照基因组估计GC密度。其他核同样适用,包括Gaussian或三加权(triweight)核。带宽选为200bp,然而带宽参数可灵活选用。
使用核,GC密度以参照基因组上的碱基对分辨率进行估计(例如图34所示)。使用参照的GC密度评估,确定样品的各读数的局部GC含量。然后样品的GC密度评估的分布与跨全参照基因组的分布进行比较以确定GC乖离(图35)。映射至富含AT的区域的读数和参照值(GC密度=0)舍弃。
样品的GC-密度分布和参照之间的差异使用多项式建模,在参照分布密度除以样品分布的密度的对数比上拟合(图36)。模型以加权形式拟合,就给定的GC-密度值的样品的分布-密度值取各权重。这保证分布的尾部不过分趋于所述拟合。其他拟合模型,例如分位数回归模型或参数化分布可用作乖离分布的合适模型。
使用拟合GC模型,样品的各序列读数计数经加权以针对其相对参照的过度或不足表示进行调整。通过将这些权重纳入读数密度估计的评估,ChAI算法可就GC乖离进行校正。
多维度乖离校正
GC乖离仅是基因组中数种乖离影响读数模式之一。其他乖离有时建模并校正以使用普遍的多元模型来估计读数权重。该校正如下进行:
1.就测试样品和参照基因组在基因组位置的各亚组处估计N乖离值。
2.乖离值密度使用N-维平滑核或合适的参数函数进行建模。
3.就从参照和测试密度所取的密度值组计算对数比。
4.使用已选点和多元模型对密度对数比建模(例如就各维的加权的3阶多项式)。
5.模型用于估计给定读数相比参照的频率比,并分配合适的权重。
部份过滤
就染色体异常基于基因组上的序列读数表示(例如计数)评分样品。该表示使用密度函数确定,类似于用于局部GC评价的那个。读数-密度核通常具有大得多的带宽,默认50,000bp。读数各计数贡献密度的值等于其GC-乖离模型的权重。读数-密度可在任何或所有碱基对处评估,但用于计算机性能仅使用某些位置。这些位置称为“部份”。部份可位于对估计读数-密度来说最终要的位置。为了分类染色体非整倍体,部份最初(例如过滤前)在基因组上平均分开。各部份包括50,000bp窗且在过滤前重叠下一邻近部份的25,000bp。
一些部份包括弱映射的基因组区域,这导致样品间读数-密度的极端波动。ChAI使用训练组通过过滤过程鉴定和去除这些部份。显示较大中值偏差的部份(例如图37A)和/或MAD值(例如图37B)从考虑中去除。这些偏差的阈值取超出训练群四分位大于四倍四分位间范围的任何值(图37A,37B)。该阈值可精细调节以就ChAI参数的特定组达到最大化测试性能。
训练和评分
仅使用映射至过滤的部份的读数,计算各样品的基因组读数-密度概况。然后作为训练组部分的样品用于估计训练统计数字,其用于打分测试组。这些统计数字由部份中值、主成分和打分测试统计的空分布组成。部份中值和主成分用于建模基因组-宽的读数乖离,其可从任何数量的生物和技术产品呈现(图38A-C)。为了最小化极端部份值对剩余样品的影响,样品中其他部份中超出4xIQR的各值修剪为4xIQR。
测试样品针对隐藏的乖离进行校正,通过先从测试部份值中减去训练的中值。与顶部训练主成分关联的样品值的成分也去除。这通过使用多元线性回归基于主成分项目对部份值建模(图39A-C)。通过所述模型预测的值从样品值中减去,仅剩下无乖离的残差。所用主成分的数量任选,默认为8.
校正后,样品使用Fisher-精确测试评分。该测试比较值大于或小于感兴趣染色体区域中的训练中值的部份的数量。这些计数针对基因组中的剩余进行评估。评分的统计数字取log10p-值的负数。其他评分统计数字可用在该步骤。例如Wilcoxon符号-评级测试或F-测试。
由于部份之间的残差相关性,训练和测试样品中测试的统计数字均经夸大。这种夸大从训练组的拔靴法中估计(图40)。
使用该空分布作为经验背景对测试样品的分数进行校正。远大于经验分布中分数的那些分数使用空分布尾部的Pareto外推法进行校正。
判定性别
从样品的主成分概况确定性别。在训练数据组中,第二主成分(如PC2)与性别高度关联。使用该成分的回归系数作为测试的统计数字是高度精确的性别测试(图41A,41B)。
移除部份依赖
ChAI运行中采取其他步骤以改善方法的预期功效。这涉及降低部份-样品矩阵中的相关性结构的量,这更好地支持变量独立性的测试假设以及降低空置换中显著性分数的频率。该方法涉及用正交的本征部份替代部份,其含有几乎所有的相同信息,但没有相关性结构。
第一步是就训练位置M的组学习变换矩阵Meig:
1.SVD分解:M=U*D*VT
2.选择独立的本征-部份N的数量:(例如,从而D的N对角元素的累积分数大于95%)
3.计算伪逆:Meig=pinv(U[…,1:N]*D[1:N,1:N])
任何部份矩阵M的亚组左乘其对应Meig得到该亚组的维度降低的无相关性表示。以此方法,在训练数据组上得到Meig并且将其应用于测试样品而无需进一步修饰。
Meig还有用于变换测试变量。测试变量表示为由所有的0组成的向量,其中一些位于预期误差的位置(例如Chr 21部份)。该向量用Meig变换,通过左乘以合适匹配变换的部份的数据。
该方法仅可产生训练组中样品数一样的独立本征部份。例如,对于50,000部份的训练组和1,000样品,变换的数据至多含1,000部份。这类似过度校正,显著降低部份的数量。该方法可通过就部份数据的更小亚组计算分开的Meig转换并分开应用它们来更宽松地进行。这对于从邻近部份去除局部校正结构特别有用。
还可用其他方法降低部份相关性结构。例如,许多簇方法可用于分组部份并用更小组的聚集部份替代(例如基于组平均或图心)。
分布/概况生成模块
在Java中写脚本用于从序列读数数据(如BReads)生成读数密度概况。分配下述代码以收集各序列读数的读数数据并在合适的读书密度窗升级密度概况(如部份的个体读数密度),根据读数与部份中值或中点的距离并按照样品的GC乖离校正进行加权。下述脚本可判定或用于关系模块或乖离校正模块生成的加权的和/或标准化的计数。在一些实施方式中,分布模块可包括一些或所有下述java脚本或其变体。在一些实施方式中,概况生成模块可包括一些或所有下述java脚本或其变体:
Figure BDA0000914062300002031
Figure BDA0000914062300002041
Figure BDA0000914062300002051
过滤模块
在R中写脚本用于过滤读数密度概况的部份。基于四分位间范围,该代码在所有样品中检测读数密度概况并鉴定保留的部份和/或丢弃的部份(如从分析去移除)。在一些实施方式中,过滤模块可包括一些或所有下述R脚本或其变体:
rcodepath<-"I:/ghannum/Projects/Binless/RCode"
mdistpath<-
"I:/ghannum/Projects/Binless/Reference/MarkerDistribution_LDTv2_200_50000_50000.t
xt"
outpath<-
"I:/ghannum/Projects/Binless/Reference/LDTv2_200_50000_50000_MarkerMask.txt"
args<-commandArgs(trailingOnly=TRUE)
rcodepath<-args[1]
mdistpath<-args[2]
outpath<-args[3]
source(paste(rcodepath,"/src/utilities/scanmatrix.R",sep=""))
dat<-scanMatrix(mdistpath,rownames=FALSE,colnames=TRUE)
m<-apply(dat,1,median)
v<-apply(dat,1,mad)
qm<-quantile(m,c(.25,.75))
qv<-quantile(v,c(.25,.75))
scalem<-qm[2]-qm[1]
scalev<-qv[2]-qv[1]
ok<-m>qm[1]-4*scalem&m<qm[2]+4*scalem&v>qv[1]-4*scalev&v<
qv[2]+4*scalev
write.table(matrix(as.integer(ok),1),row.names=F,col.names=F,quote=F,file=outpath,sep
="")
乖离密度模块、关系模块、乖离校正模块和作图模块
R中编写脚本用于生产乖离密度、生成并比较关系并用于校正序列读数中的乖离。该代码通常涉及微处理器以分析一个或多个样品并基于局部基因组乖离评估(例如GC密度)就各样品和参照建立乖离模型(例如关系和/或关系比较)。下述脚本部分涉及一种或多种处理器,以生成下述之间的关系:(i)鸟嘌呤和胞嘧啶(GC)密度和(ii)测试样品的序列读数的GC密度频率,从而生成样品GC密度关系,(b)比较样品GC密度关系和参照GC密度关系,从而生成比较,其中参照GC密度关系为(i)GC密度和(ii)参照的GC密度频率,以及通过适当修改脚本而(c)根据(b)中确定的比较标准化样品的序列读数计数,其中降低样品的序列读数中的乖离。在一些实施方式中,乖离密度模块、关系模块、乖离校正模块和/或作图模块包括一些或所有下述R脚本或其变体。
Figure BDA0000914062300002071
Figure BDA0000914062300002081
Figure BDA0000914062300002091
实施例8:实施方式示例
下述实施例说明某些实施方式但不限制本技术。
A1.以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失的方法,所述方法包括:
(a)获取映射至参照基因组的部份的核酸序列读数的计数,其中序列读数是怀有胎儿的妊娠女性的循环无细胞核酸的读数,
(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,
(c)根据所述计算的基因组区段水平生成基因组节段的概况,
(d)分割所述概况,从而提供两个或更多分解图,和
(e)根据所述两个或更多分解图以低假阴性和低假阳性确定是否存在染色体非整倍性、微复制或微缺失。
A2.如实施方式A1所述的方法,所述分割包括阈值化。
A3.如实施方式A2所述的方法,所述阈值化包括软阈值化。
A4.如实施方式A2或A3所述的方法,所述阈值化包括策略(policy)。
A5.如实施方式A4所述的方法,所述策略通用。
A6.如实施方式A4所述的方法,所述策略为真。
A7.如实施方式A2-A6中任一项所述的方法,其中,所述阈值化使用WaveThresh进行。
A8.如实施方式A1–A7中任一项所述的方法,其中所述分割包括调平。
A9.如实施方式A8所述的方法,其中所述调平根据胎儿分数进行。
A10.如实施方式A8或A9所述的方法,其中所述调平根据覆盖率进行。
A11.实施方式A8-A10中任一项所述的方法,其中所述调平根据待测最小区段的长度进行。
A12.如实施方式A8-A11中任一项所述的方法,其中进行所述阈值化和调平且阈值化在调平之前进行。
A13.如实施方式A1-A12中任一项所述的方法,其中(d)中的分割根据两种或更多不同分解生成方法进行。
A14.如实施方式A13所述的方法,其中所述两种或更多不同分解生成方法各自独立选自Haar小波分割、圆的二元分割、最大熵分割、边缘检测内核卷积、Jensen Shannon发散、二进制递归分割和傅立叶变换。
A15.如实施方式A13或A14所述的方法,其中所述两种或更多不同分解生成方法之一是圆的二元分割。
A16.如实施方式A13-A15中任一项所述的方法,其中所述两种或更多不同分解生成方法之一是Haar小波。
A17.如实施方式A13-A16中任一项所述的方法,其中(d)中的分割包括Haar小波和圆的二元分割。
A18.如实施方式A13-A17中任一项所述的方法,其中所述两种或更多分解生成法平行应用。
A19.如实施方式A13-A17中任一项所述的方法,其中所述两种或更多分解生成法顺序应用。
A20.如实施方式A1-A19中任一项所述的方法,包括抛光两个或更多分解示意图中的一种或多种,从而提供一种或多种抛光的分解示意图。
A21.如实施方式A20所述的方法,其中所述抛光过程包括在分解图中合并相邻片段化水平。
A22.如实施方式A20或A21所述的方法,其中所述相邻片段化水平根据其基因组节段水平进行合并。
A23.如实施方式A1-A22中任一项所述的方法,包括在两个或更多分解示意图中的一种或多种中鉴定候选区段。
A23.1.如实施方式A23所述的方法,其中所述候选区段在的一种或多种抛光的分解示意图中鉴定。
A24.如实施方式A23或A23.1所述的方法,包括确定所述候选区段的边缘。
A25.如实施方式A23-A24中任一项所述的方法,其中所述方法包括确定所述候选区段的水平。
A26.如实施方式A23或25中任一项所述的方法,其中所述候选区段根据空概况鉴定。
A27.如实施方式A1-A26中任一项所述的方法,其中(a)中所述计数获自来自妊娠女性的样品。
A28.如实施方式A27所述的方法,其中所述空概况从所述样品生成。
A29.如实施方式A26或A27所述的方法,其中所述空概况从参考样品生成。
A30.如实施方式A23-A29中任一项所述的方法,其中所述候选区段根据曲线下面积(AUC)分析来鉴定。
A31.如实施方式A23-A30中任一项所述的方法,所述方法包括比较至少两个候选区段从而提供比较。
A32.如实施方式A31所述的方法,其中第一候选区段来自第一分解示意图和第二候选区段来自第二分解示意图。
A33.如实施方式A31或A32所述的方法,其中至少两个候选区段根据所述比较确定为基本相同。
A33.1.如实施方式A31或A32所述的方法,其中至少两个候选区段根据所述比较确定为不同。
A33.2.如实施方式A31-A33.1中任一项所述的方法,其中根据所述比较确定是否存在染色体非整倍性。
A34.如实施方式A31-A33.2中任一项所述的方法,其中所述比较包括重叠至少两个候选区段。
A34.1.如实施方式A31或A34所述的方法,所述方法包括根据所述比较确定是否存在复合候选区段。
A35.如实施方式34或34.1所述的方法,其中第一候选区段与第二候选区段基本重叠,并确定存在复合候选区段。
A35.1.如实施方式34或34.1所述的方法,其中第一候选区段与第二候选区段基本不重叠,并确定不存在复合候选区段。
A36.如实施方式A34.1-A35.1中任一项所述的方法,其中在(e)中根据是否存在复合候选区段中确定是否存在染色体非整倍性。
A37.如实施方式A23-A36中任一项所述的方法,所述方法包括验证分解示意图中鉴定的候选区段从而提供验证的候选区段。
A38.如实施方式A37所述的方法,其中所述验证包括进行滑动边缘处理。
A39.如实施方式A37或A38所述的方法,其中所述验证包括进行留一法处理。
A40.如实施方式A39所述的方法,其中所述验证包括进行滑动边缘处理和留一法处理。
A41.如实施方式A37-A40中任一项所述的方法,其中所述验证包括就所述候选区段产生显著性水平。
A42.如实施方式A37-A41中任一项所述的方法,其中所述验证包括就所述复合候选区段产生显著性水平。
A43.如实施方式A41或A42所述的方法,其中显著性水平是Z-分数。
A44.如实施方式A41-A43中任一项所述的方法,其中不确定性水平关联所述显著性水平。
A45.如实施方式A44所述的方法,其中根据候选区段的显著性水平和不确定性水平确定是否存在验证的候选区段。
A46.如实施方式A44或A45所述的方法,其中根据显著性水平和不确定性水平确定存在染色体非整倍性、微复制或微缺失,其中显著性水平和不确定性水平均就复合候选区段生成。
A47.如实施方式A46所述的方法,其中根据Z-分数和关联Z-分数的不确定性水平确定存在染色体非整倍性、微复制或微缺失,其中Z-分数和不确定性水平均就复合候选区段生成。
A47.1.如实施方式A47所述的方法,其中Z-分数的绝对值大于或等于约3.95。
A48.如实施方式A1-A47.1中任一项所述的方法,其中确定是否存在染色体非整倍性。
A48.1.如实施方式A1-A48中任一项所述的方法,其中染色体非整倍性是三体性。
A48.2.如实施方式A1-A48.1中任一项所述的方法,其中染色体非整倍性是单体性。
A49.如实施方式A1-A48.3中任一项所述的方法,其中确定是否存在微复制。
A50.如实施方式A1-A48.3中任一项所述的方法,其中确定是否存在微缺失。
A51.如实施方式A1-A50中任一项所述的方法,其中确定是否存在指示DiGeorge综合症的微缺失。
A52.如实施方式A1-A51中任一项所述的方法,其中(a)、(b)、(c)、(d)和(e)中之一或更多或所有都通过处理器进行。
A53.如实施方式A52所述的方法,其中处理器是微处理器。
A54.如实施方式A1-A53中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都通过计算机进行。
A55.如实施方式A1-A54中任一项所述的方法,其中(a)、(b)、(c)、(d)和(e)中之一或更多或所有都与存储器联合进行。
A56.如实施方式A1-A55中任一项所述的方法,其中(a)、(b)、(c)、(d)和(e)中之一或更多或所有都通过微处理器控制的装置进行。
A57.如实施方式A1-A56中任一项所述的方法,所述方法在(a)之前包括对获自所述妊娠女性的样品中的核酸进行测序,从而提供核酸序列读数。
A58.如实施方式A1-A57中任一项所述的方法,所述方法在(a)之前包括将所述核酸序列读数映射至参考基因组的部份或整个参考基因组。
B1.以低假阴性和低假阳性确定是否存在候选区段的方法,所述方法包括:
(a)获取映射至参考基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,
(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,
(c)将所述部份的组分割为多个部份的亚组,
(d)根据所述计算的基因组节段水平确定各亚组的水平,
(e)测定各所述水平的显著性水平,和
(f)根据各所述水平所确定的显著性水平以低假阴性和低假阳性确定是否存在候选区段。
B1.1如实施方式B1所述的方法,其中怀疑部份的组包括候选区段。
B2.如实施方式B1或B1.1所述的方法,所述方法包括根据就部份的所有亚组的水平中每个确定的显著性水平生成中值显著性水平。
B3.如实施方式B1-B2中任一项所述的方法,所述方法包括根据就部份的所有亚组的水平中的每个确定的显著性水平生成显著性水平分布。
B4.如实施方式B1-B3中任一项所述的方法,所述方法包括根据就部份的所有亚组的水平中的所有确定的显著性水平生成不确定值。
B5.如实施方式B4所述的方法,其中(f)中的确定根据中值显著性水平和所述不确定值。
B6.如实施方式B3或B4所述的方法,其中(f)中的确定根据中值显著性水平和所述显著性水平分布。
B6.1.如实施方式B1-B6中任一项所述的方法,其中(f)中的确定根据就显著性水平确定的预定范围。
B6.2.如实施方式B6.1所述的方法,其中当75%或更多的B3中生成的显著性水平分布超出显著性水平的预定范围时确定存在候选区段。
B6.3.如实施方式B6.1或B6.2所述的方法,其中当75%或更多的B4中生成的不确定值超出显著性水平的预定范围时确定存在候选区段。
B7.如实施方式B1-B6.3中任一项所述的方法,其中显著性水平是Z-分数。
B7.1.如实施方式B7所述的方法,其中预定范围是约3和约-3之间的Z-分数。
B8.如实施方式B4-B7.1中任一项所述的方法,其中不确定值是中值绝对偏差。
B9.如实施方式B1-B8中任一项所述的方法,其中部份的组包括第一末端和第二末端且(c)中的分割包括:
(i)通过递归去除从部份的组的第一末端去除一种或多种部份,从而提供具有各递归去除的部份亚组,
(ii)n次重复后终止(i)中的递归去除,从而提供部份的n+1亚组,其中部份的组为亚组,和其中各亚组包括不同数量的部份、第一亚组末端和第二亚组末端,
(iii)通过递归去除从(ii)中提供的部份的n+1亚组的每个的第二亚组末端去除一种或多种部份;和
(iv)n次重复后终止(iii)中的递归移除、从而提供多种部份的亚组。
B10.如实施方式B9所述的方法,其中多个亚组等于(n+1)2个亚组。
B11.如实施方式B9或B10所述的方法,其中n等于5-30的整数。
B12.如实施方式B9-B11中任一项所述的方法,其中n等于15。
B13.如实施方式B1-B12中任一项所述的方法,其中部份的组在染色体中。
B14.如实施方式B13所述的方法,其中部份的组包括关联已知遗传变异或已知遗传紊乱的区域。
B14.如实施方式B13或B14所述的方法,其中部份的组包括DiGeorge区域。
B15.如实施方式B1-B14中任一项所述的方法,其中对测试样品和两个或更多参照样品进行(a)-(e)。
B16.如实施方式B15所述的方法,该方法还包括:
(i)在(a)之前去除一个或两个或更多参照样品,从而提供参照样品亚组;
(ii)对参照样品的每个亚组进行(a)-(e);
(iii)根据实施方式B2就参照样品的每个亚组生成中值显著性水平;
(iv)根据(iii)中生成的中值生成复合中值显著性水平;和
(v)就(iv)中的复合中值显著性水平生成复合不确定性水平,其中(f)中的确测定根据复合中值显著性水平和复合不确定性水平。
B17.如实施方式B16所述的方法,其中参照样品的每个亚组包括参照样品的不同组。
B18.如实施方式B16或B17所述的方法,其中移除的两个或更多参照样品中的每个仅从所述亚组的一个种移除。
B19.如实施方式B1-B18中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都通过处理器进行。
B20.如实施方式B19所述的方法,其中处理器是微处理器。
B21.如实施方式B1-B20中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都通过计算机进行。
B22.如实施方式B1-B21中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都与存储器联合进行。
B23.如实施方式B1-B22中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都通过微处理器控制的装置进行。
B24.如实施方式B1-B23中任一项所述的方法,所述方法在(a)之前包括对获自所述妊娠女性的样品中的核酸进行测序,从而提供核酸序列读数。
B25.如实施方式B1-B24中任一项所述的方法,所述方法在(a)之前包括将所述核酸序列读数映射至参考基因组的部份或整个参考基因组。
C1.以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失的方法,所述方法包括:
(a)获取映射至参考基因组的部份的核酸序列读数的计数,其中序列读数是妊娠女性的循环无细胞核酸的读数,
(b)将映射至各部份的计数标准化,从而提供计算的基因组节段水平,
(c)选择所述基因组的区段,从而提供部份的组,
(d)递归划分所述部份的组,从而提供部份的两个或更多亚组,
(e)确定所述部份的两个或更多亚组中每个的水平,
(f)针对样品根据(e)中确定的水平以低假阴性和低假阳性确定胎儿是否存在染色体非整倍性、微复制或微缺失。
C2.如实施方式C1所述的方法,所述方法包括确定(e)中确定的部份的两个或更多亚组中每个的水平是否明显不同。
C3.如实施方式C1或C2所述的方法,其中(d)中的划分包括递归划分。
C4.如实施方式C3所述的方法,其中递归划分包括二进制递归划分。
C5.如实施方式C3所述的方法,其中递归划分包括基于最大熵的划分。
C6.如实施方式C2-C5中任一项所述的方法,所述方法包括当第一部份亚组的水平显著不同于第二部份亚组的水平时划分第一和第二部份亚组,且其中第一和第二部份亚组彼此相邻。
C7.如实施方式C2-C6中任一项所述的方法,所述方法包括当第三部份亚组和第四部份亚组的水平并不显著不同时,重连所述第三部份亚组和所述第四部份亚组,从而提供重连的部份亚组,
其中第三部份亚组和第四部份亚组彼此相连,和
其中重连的部分不再划分。
C8.如实施方式C1-C7中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都通过处理器进行。
C9.如实施方式C8所述的方法,其中处理器是微处理器。
C10.如实施方式C1-C9中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都通过计算机进行。
C11.如实施方式C1-C10中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都与存储器联合进行。
C12.如实施方式C1-C11中任一项所述的方法,其中(a)、(b)、(c)、(d)、(e)和(f)中之一或更多或所有都通过微处理器控制的装置进行。
C13.如实施方式C1-C12中任一项所述的方法,所述方法在(a)之前包括对获自所述妊娠女性的样品中的核酸进行测序,从而提供核酸序列读数。
C14.如实施方式C1-C13中任一项所述的方法,所述方法在(a)之前包括将所述核酸序列读数映射至参考基因组的部份或整个参考基因组。
D1.确定胎儿是否存在染色体非整倍性、微复制或微缺失的方法,所述方法包括:
(a)对映射至参考基因组的部份的核酸序列读数的计数进行标准化,其中序列读数是怀有胎儿的妊娠女性的测试样品的循环无细胞核酸的读数,从而提供经标准化的计数;
(b)分割所述部份的经标准化的计数或所述部份的亚组中的经标准化的计数,从而提供一个或多个离散区段;
(c)鉴定所述一个或多个离散区段之间的候选区段;和
(d)根据所述候选区段确定是否存在染色体非整倍性、微复制或微缺失。
D2.如实施方式D1所述的方法,所述分割包括阈值化。
D3.如实施方式D1或D2中任一项所述的方法,其中所述分割包括调平。
D4.如实施方式D3所述的方法,其中所述调平根据胎儿分数、覆盖率、最小区段长度或其组合来进行。
D5.如实施方式D1-D4中任一项所述的方法,其中进行所述阈值化和调平且阈值化在调平之前进行。
D5.1.如实施方式D1-D5中任一项所述的方法,其中(b)中的分割在所述部份的经标准化的计数上进行。
D5.2.如实施方式D1-D5中任一项所述的方法,其中(b)中的分割在所述部份的亚组中的经标准化的计数上进行。
D5.3.如实施方式D5.2所述的方法,其中所述部份的亚组是染色体的所有部份或染色体的所有部份的亚组。
D5.4.如实施方式D1-D5.3中任一项所述的方法,其中所述经标准化的计数处于具有多水平的概况中,且该概况在(b)中经分割。
D5.5.如权利要求D1-D5.4中任一项所述的方法,其中所述分割产生含所述离散区段的分解图。
D5.6.如实施方式D1-D5.5中任一项所述的方法,其中(a)中的标准化包括鸟嘌呤和胞嘧啶(GC)乖离的LOESS标准化(GC-LOESS标准化)。
D5.7.如实施方式D1-D5.6中任一项所述的方法,其中(a)中的标准化包括主成分标准化。
D5.8.如实施方式D1-D5.7中任一项所述的方法,其中(a)中的标准化包括GC-LOESS标准化,然后是主成分标准化。
D5.9.如实施方式D1-D5.8中任一项所述的方法,其中(a)中的标准化包括:
(1)针对测试样品基于(i)映射至各部份的序列读数的计数与(ii)各部份的GC含量之间的拟合相关确定鸟嘌呤和胞嘧啶(GC)乖离系数,其中所述GC乖离系数是线性拟合相关的斜率或非线性拟合相关的曲率估计;和
(2)基于(a)的计数、(b)的GC乖离系数和各所述部份的拟合相关,用微处理器计算各所述部份的基因组节段水平,从而提供计算的基因组节段水平,所述拟合相关为(i)多个样品中每个的GC乖离系数与(ii)多个样品中映射至各所述部份的序列读数的计数之间的拟合相关。
D6.如实施方式D1-D5.9中任一项所述的方法,其中(b)中的分割包括应用两种或更多不同分割方法。
D7.如实施方式D6所述的方法,其中所述两种或更多不同分割方法各自独立选自Haar小波分割、圆的二元分割、最大熵分割、边缘检测内核卷积、Jensen Shannon发散、二进制递归分割和傅立叶变换。
D8.如实施方式D6或D7所述的方法,其中所述两种或更多不同分割方法之一是圆的二元分割。
D9.如实施方式D6-D8中任一项所述的方法,其中所述两种或更多不同分割方法之一是Haar小波分割。
D10.如实施方式D6-D9中任一项所述的方法,其中(b)中的分割包括Haar小波分割法和圆的二元分割法。
D11.如实施方式D6-D10中任一项所述的方法,其中所述两种或更多不同分割法平行进行。
D12.如实施方式D1-D11中任一项所述的方法,其中所述分割包括抛光过程,所述抛光过程包括在分解图中合并相邻片段化水平。
D13.如实施方式D1-D12中任一项所述的方法,其中所述方法包括确定所述候选区段的一个或多个边缘。
D14.如实施方式D1-D13中任一项所述的方法,其中所述方法包括确定所述候选区段覆盖的部份的数量。
D15.如实施方式D1-D14中任一项所述的方法,其中所述方法包括确定所述候选区段的水平。
D15.1.如实施方式D1-D15中任一项所述的方法,其中所述候选区段根据曲线下面积(AUC)分析来鉴定。
D16.如实施方式D15.1所述的方法,其中所述AUC分析的数量是所述候选区段和/或所述候选区段的水平所覆盖的部份的数量。
D16.1.如实施方式D1-D16中任一项所述的方法,所述方法包括验证所述候选区段,从而提供验证的候选区段。
D16.2.如实施方式D16.1所述的方法,其中所述验证包括进行滑动边缘处理。
D16.3.如实施方式D16.1或D16.2所述的方法,其中所述验证包括进行留一法处理。
D16.4.如实施方式D16.3所述的方法,其中所述验证包括进行滑动边缘处理和留一法处理。
D16.5.如实施方式D16.1-D16.4中任一项所述的方法,其中所述验证包括就所述候选区段产生显著性水平。
D16.6.如实施方式D16.1-D16.5中任一项所述的方法,其中所述验证包括就所述复合候选区段产生显著性水平。
D16.7.如实施方式D1-D16.6中任一项所述的方法,其中所述方法包括从第一分割鉴定第一候选区段和从与所述第一分割不同的第二分割鉴定第二候选区段。
D16.8.如实施方式D16.7所述的方法,所述方法包括确定所述第一候选区段和所述第二候选区段是否基本相同或基本不同。
D16.9.如实施方式D16.7或D16.8所述的方法,所述方法包括在所述第一候选区段和所述第二候选区段基本不同时确定没有微缺失或微复制。
D17.如实施方式D1-D16.9中任一项所述的方法,所述方法包括生成所述候选区段或所述验证的候选区段的定量。
D18.如实施方式D17所述的方法,其中所述定量是所述候选区段或所述验证的候选区段的计数表示。
D19.如实施方式D18所述的方法,其中所述定量是所述候选区段或所述验证的候选区段的计数表示的z分数定量。
D20.如实施方式D19所述的方法,其中所述z分数是就所述候选区段或所述验证的候选区段而言的(i)测试样品计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品计数表示是所述测试样品的总计数除以总常染色体计数的比例,且(ii)整倍体中值计数表示是就整倍体样品而言的总计数除以总常染色体计数的比例的中值。
D21.如实施方式D17-D20中任一项所述的方法,所述方法包括生成所述候选区段或所述验证的候选区段所位于的染色体的染色体表示的定量。
D22.如实施方式D21的方法,其中所述染色体表示的定量是z分数定量。
D23.如实施方式D22所述的方法,其中所述z分数是就所述染色体而言的(i)测试样品计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品计数表示是就所述测试样品而言的所述候选区段位于的染色体中的总计数除以总常染色体计数的比例,且(ii)整倍体计数表示的中值是就整倍体样品而言的所述候选区段位于的染色体中的总计数除以总常染色体计数的比例的中值。
D24.如实施方式D17-D23中任一项所述的方法,其中所述候选区段或所述验证的候选区段的定量与所述染色体表示的定量进行比较。
D25.如实施方式D24所述的方法,其中:生成第一候选区段或所述第一验证的候选区段的z分数定量,生成第二候选区段或所述第二验证的候选区段的z分数定量,且所述第一候选区段和所述第二候选区段从两种不同类型的分割中鉴定。
D26.如实施方式D25所述的方法,所述方法包括确定下述的最小值:(i)所述第一候选区段或所述验证的第一候选区段的z分数定量乘以小于1的因数和(ii)所述第二候选区段或所述验证的第二候选区段的z分数定量乘以所述因数。
D27.如实施方式D26所述的方法,所述方法包括确定所述染色体表示的z分数定量是否小于、大于或等于所述最小值。
D28.如实施方式D25所述的方法,所述方法包括确定所述染色体表示的z分数定量是否小于、大于或等于3.95。
D29.如实施方式D28所述的方法,所述方法包括就所述测试样品而言,若(i)所述染色体表示的z分数定量大于或等于3.95,和(ii)所述染色体表示的z分数定量大于或等于所述最小值,则确定存在染色体非整倍性。
D30.如实施方式D28所述的方法,所述方法包括就所述测试样品而言,若(i)所述染色体表示的z分数定量小于3.95,和/或(ii)所述染色体表示的z分数定量小于所述最小值,则确定不存在染色体非整倍性。
D31.如实施方式D29或D30所述的方法,其中所述染色体非整倍性是三体性或单体性。
D32.如实施方式D30所述的方法,所述方法包括确定所述第一候选区段或所述验证的第一候选区段的z分数定量是否小于、大于或等于3.95和确定所述第二候选区段或所述验证的第二候选区段的z分数定量是否小于、大于或等于3.95。
D34.如实施方式D32所述的方法,所述方法包括确定所述第一候选区段和所述第二候选区段,或其验证的区段,是否基本相同。
D35.如实施方式D34所述的方法,所述方法包括就所述测试样品而言,若(i)所述第一候选区段或所述验证的第一候选区段的z分数定量大于或等于3.95和所述第二候选区段或所述验证的第二候选区段的z分数定量大于或等于3.95,和(ii)所述第一候选区段和所述第二候选区段,或其验证的区段基本相同,则确定存在微缺失或微插入。
D36.如实施方式D34所述的方法,所述方法包括就所述测试样品而言,若(i)所述第一候选区段或所述验证的第一候选区段的z分数定量小于3.95和/或所述第二候选区段或所述验证的第二候选区段的z分数定量小于3.95,和/或(ii)所述第一候选区段和所述第二候选区段,或其验证的区段不基本相同,则确定不存在微缺失或微插入。
D37.如实施方式D17-D23中任一项所述的方法,所述方法包括确定候选区段或验证的候选区段的计数表示的z分数定量和确定其是否小于、大于或等于3.95。
D37.1.如实施方式D17-D23中任一项所述的方法,所述方法包括确定染色体表示的z分数定量和确定其是否小于、大于或等于3.95.
D38.如实施方式D37和/或D37.1所述的方法,所述方法包括计算对数让步比(LOR),其中LOR是下述(i)和(ii)的商的对数:(i)(1)具有遗传变异的条件概率与(2)具有所述遗传变异的先验概率之间的第一乘积,和(ii)(1)不具有所述遗传变异的条件概率与(2)不具有所述遗传变异的先验概率之间的第二乘积。
D39.如实施方式D38所述的方法,其中具有所述遗传变异的条件概率根据下述内容确定:就测试样品所确定的胎儿分数、就测试样品所确定的区段的计数表示的z分数,和区段的计数表示的z分数的胎儿分数的分布。
D39.1.如实施方式D39所述的方法,其中具有所述遗传变异的条件概率通过公式23中的关系确定:
Figure BDA0000914062300002271
其中f是胎儿分数,X是覆盖所述遗传变异的区段的加和的部分计数,X~f(μX,σX),其中μX和σX分别是X的均值和标准差,且f(·)是分布函数。
D40.如实施方式D39或D39.1所述的方法,其中具有所述遗传变异的条件概率是就测试样品而言的所述区段的计数表示的z分数与就所述区段的计数表示而言的z分数的胎儿分数的分布的交点。
D41.如实施方式D38所述的方法,其中不具有所述遗传变异的条件概率是就测试样品而言所确定的区段的计数表示的z分数与整倍体中所述区段的计数表示的z分数的分布的交点。
D42.如实施方式D38-D41中任一项所述的方法,其中具有所述遗传变异的先验概率和不具有所述遗传变异的先验概率从不包括测试对象的多种样品所确定。
D43.如实施方式D38-D42中任一项所述的方法,所述方法包括确定LOR是否大于0或小于0。
D44.如实施方式D37-D43中任一项所述的方法,所述方法包括就所述测试样品而言,若(i)所述染色体表示的z分数定量大于或等于3.95,和(ii)LOR大于0,则确定存在染色体非整倍性。
D45.如实施方式D37-D43中任一项所述的方法,所述方法包括就所述测试样品而言,若(i)所述染色体表示的z分数定量小于3.95,和/或(ii)LOR小于0,则确定不存在染色体非整倍性。
D46.如实施方式D44或D45所述的方法,其中所述染色体非整倍性是三体性或单体性。
D47.如实施方式D37-D43中任一项所述的方法,所述方法包括就所述测试样品而言,若(i)所述候选区段或验证的候选区段的计数表示的z分数定量大于或等于3.95,和(ii)LOR大于0,则确定存在微缺失或微复制。
D48.如实施方式D37-D43中任一项所述的方法,所述方法包括就所述测试样品而言,若(i)所述候选区段或验证的候选区段的计数表示的z分数定量小于3.95,和/或(ii)LOR小于0,则确定不存在微缺失或微复制。
D49.如实施方式D47或D48所述的方法,其中所述微缺失与DiGeorge综合症有关。
D49.1.如实施方式D1-D49中任一项所述的方法,其中所述计数表示是经标准化的计数表示。
D50.如实施方式D1-D49.1中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都通过系统中的微处理器进行。
D51.如实施方式D1-D50中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都通过计算机进行。
D52.如实施方式D1-D51中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都与存储器联合进行。
D53.如实施方式D1-D52中任一项所述的方法,所述方法在(a)之前包括对获自所述妊娠女性的样品中的核酸进行测序,从而提供核酸序列读数。
D54.如实施方式D1-D53中任一项所述的方法,所述方法在(a)之前包括将所述核酸序列读数映射至参考基因组的部份。
E1.确定胎儿是否具有染色体非整倍性的方法,所述方法包括:
(a)根据映射至参考基因组的部份的核酸序列读数的计数确定染色体计数表示,其中序列读数是怀有胎儿的妊娠女性的测试样品的循环无细胞核酸的读数;
(b)确定所述测试样品的胎儿分数;
(c)计算对数让步比(LOR),其中LOR是下述(i)和(ii)的商的对数:(i)(1)具有染色体非整倍性的条件概率与(2)具有所述染色体非整倍性的先验概率之间的第一乘积,和(ii)(1)不具有所述染色体非整倍性的条件概率与(2)不具有所述染色体非整倍性的先验概率之间的第二乘积,其中具有所述染色体非整倍性的条件概率根据(b)的胎儿分数和(a)的计数表示来确定;
(d)根据LOR和所述染色体计数表示鉴定是否存在染色体非整倍性。
E1.1.如实施方式E1所述的方法,其中所述染色体计数表示是所述染色体中所有部分的计数除以常染色体中所有部分的计数。
E2.如实施方式E1或E1.1所述的方法,所述方法提供所述染色体计数表示的z分数定量。
E3.如实施方式E2所述的方法,其中所述z分数是(i)测试样品染色体计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品染色体计数表示是所述染色体中部分的计数除以所述常染色体中部分的计数的比例,且(ii)整倍体计数表示的中值是就整倍体而言的所述染色体中部分的计数除以常染色体中部分的计数的比例的中值。
E4.如实施方式E1-E3中任一项所述的方法,其中具有所述遗传变异的条件概率根据下述内容确定:(b)中就测试样品所确定的胎儿分数、(a)中就测试样品所确定的染色体计数表示的z分数,和染色体计数表示的z分数的胎儿分数特异分布。
E5.如实施方式E4所述的方法,其中具有所述遗传变异的条件概率通过等式23中的关系确定:
Figure BDA0000914062300002301
其中f是胎儿分数,X是染色体的加和的部分,X~f(μX,σX),其中μX和σX分别是X的均值和标准差,且f(·)是分布函数。
E6.如实施方式E4或E5所述的方法,其中具有所述遗传变异的条件概率是就(a)的测试样品染色体计数表示而言的z分数与就所述染色体计数表示而言的z分数的胎儿分数特异分布的交点。
E7.如实施方式E1-E6中任一项所述的方法,其中不具有所述染色体非整倍性的条件概率根据(a)染色体计数表示和就整倍体的计数表示的来确定。
E8.如实施方式E7所述的方法,其中不具有所述遗传变异的条件概率是所述染色体计数表示的z分数与整倍体中染色体计数表示的z分数的分布的交点。
E9.如实施方式E1-E8中任一项所述的方法,其中具有所述遗传变异的先验概率和不具有所述遗传变异的先验概率从不包括测试对象的多种样品所确定。
E10.如实施方式E1-E9中任一项所述的方法,所述方法包括确定LOR是否大于或小于0。
E11.如实施方式E1-E10中任一项所述的方法,其中映射至参考基因组的部份的核酸序列读数的计数是经标准化的计数。
E12.如实施方式E11所述的方法,其中所述计数通过包括GC-LOESS标准化的标准化方法来进行标准化。
E13.如实施方式E11或E12所述的方法,其中所述计数通过包括主成分标准化的标准化方法来进行标准化。
E14.如实施方式E11-E13中任一项所述的方法,其中所述计数通过包括GC-LOESS标准化然后是主成分标准化的标准化方法来进行标准化。
E14.1.如实施方式E11-E14中任一项所述的方法,其中所述计数通过包括下述步骤的标准化方法来进行标准化:
(1)针对测试样品基于(i)映射至各部份的序列读数的计数与(ii)各部份的GC含量之间的拟合相关确定鸟嘌呤和胞嘧啶(GC)乖离系数,其中所述GC乖离系数是线性拟合相关的斜率或非线性拟合相关的曲率估计;和
(2)基于(a)的计数、(b)的GC乖离系数和各所述部份的拟合相关,用微处理器计算各所述部份的基因组节段水平,从而提供计算的基因组节段水平,所述拟合相关为(i)多个样品中每个的GC乖离系数与(ii)多个样品中映射至各所述部份的序列读数的计数之间的拟合相关。
E15.如实施方式E1-E14.1中任一项所述的方法,所述方法包括确定染色体计数表示的z分数定量和确定其是否小于、大于或等于3.95.
E16.如E15所述的方法,所述方法包括就所述测试样品而言,若(i)所述染色体计数表示的z分数定量大于或等于3.95,和(ii)LOR大于0,则确定存在染色体非整倍性。
E17.如实施方式E15所述的方法,所述方法包括就所述测试样品而言,若(i)所述染色体表示的z分数定量小于3.95,和/或(ii)LOR小于0,则确定不存在染色体非整倍性。
E18.如实施方式E16或E17所述的方法,其中所述染色体非整倍性是三体性或单体性。
E18.1.如实施方式E1-E18.1中任一项所述的方法,其中所述计数表示是经标准化的计数表示。
E19.如实施方式E1-E18.1中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都通过系统中的微处理器进行。
E20.如实施方式E1-E19中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都通过计算机进行。
E21.如实施方式E1-E20中任一项所述的方法,其中(a)、(b)、(c)和(d)中之一或更多或所有都与存储器联合进行。
E22.如实施方式E1-E21中任一项所述的方法,所述方法在(a)之前包括对获自所述妊娠女性的样品中的核酸进行测序,从而提供核酸序列读数。
E23.如实施方式E1-E22中任一项所述的方法,所述方法在(a)之前包括将所述核酸序列读数映射至参照基因组的部份。
* * *
本文中引用的各专利、专利申请、出版物和文献的全部内容均通过引用纳入本文。对上述专利、专利申请、出版物和文献的引用并不表示承认上述任何内容是相关的现有技术,也并不表示承认这些出版物或文献的内容或日期。
可以对上述内容进行改变而不背离本技术的基本方面。尽管参照一个或多个具体实施方式充分详细描述了本技术,但是本领域普通技术人员应认识到可对本申请中具体公开的实施方式进行改变,而这些改良和改进在本技术的范围和精神内。
本文中适当地说明性描述的技术可在没有任何本文未具体公开的元素的情况下实施。因此,例如,在本文的各个例子中,术语“包括”、“基本由……组成”和“由……组成”中的任何一个都可用其它两个中的任意一个代替。已经使用的术语和表达用作说明而非限制性的术语,此类术语和表达的使用并不排除对所显示和所描述的特征或其部分的任何等价物,以及在要求权利的本技术范围内可进行各种改良。术语“一个”或“一种”表示一种或多种其修饰的元素(例如“一种试剂”可表示一种或多种试剂),除非上下文清楚表示所描述的是元素之一或是一种以上的元素。本文所使用的术语“约”表示在基础参数的10%范围内的数值(即±10%),在一列数值的开头处使用的术语“约”表示修饰该列数值中的每个数值(即“约1、2和3”指约1、约2和约3)。例如,“约100克”的重量能包含90克-110克的重量。此外,当本文描述数值列表(例如,约50%、60%、70%、80%、85%或86%)时,该列表包含其所有中间值和分数值(例如,54%、85.4%)。因此,应理解,尽管通过代表性实施方式和任选的特征具体公开了本技术,但是本领域技术人员能对本文所公开内容进行改良和变化,应认为此类改良和变化落在本技术的范围内。
本技术的某些实施方式在所附的权利要求中列出。

Claims (118)

1.包含一种或多种处理器和存储器的系统,其中存储器包含所述一种或多种处理器可执行的指令,且存储器包含映射至参照基因组的部分的核酸序列读数,其中序列读数是来自怀有胎儿的妊娠女性的测试样品的循环无细胞核酸的读数,其中,所述序列读数通过利用1-倍覆盖率或其分数进行的测序方法产生,且其中所述一种或多种处理器可执行的指令配置为:
(a)获取对映射至参照基因组的部分的核酸序列读数的计数;
(b)将映射至各部分的计数标准化,从而提供经计算的基因组节段水平;
(c)根据经计算的基因组节段水平生成概况;
(d)分割概况并根据曲线下面积(AUC)分析来鉴定候选区段,其中所述候选区段的AUC大于概况中其他区段;和
(e)根据所述候选区段确定是否存在微复制或微缺失。
2.如权利要求1所述的系统,其中,(d)中的分割概况包括阈值化。
3.如权利要求1或2所述的系统,其中,(d)中的分割概况包括调平。
4.如权利要求3所述的系统,其中所述调平根据胎儿分数、覆盖率、最小区段长度或其组合来进行。
5.如权利要求3所述的系统,其中进行阈值化和调平且阈值化在调平之前进行。
6.如权利要求1所述的系统,其中,(d)中的分割概况产生含离散区段的分解图。
7.如权利要求1所述的系统,其中(b)中的计数标准化包括鸟嘌呤和胞嘧啶(GC)乖离的LOESS标准化(GC-LOESS标准化)。
8.如权利要求1所述的系统,其中(b)中的计数标准化包括主成分标准化。
9.如权利要求1所述的系统,其中(b)中的计数标准化包括GC-LOESS标准化,然后是主成分标准化。
10.如权利要求1所述的系统,其中(b)中的计数标准化包括:
(1)针对测试样品基于(i)(a)中所获的序列读数的计数与(ii)各部分的GC含量之间的拟合相关确定鸟嘌呤和胞嘧啶(GC)乖离系数,其中所述GC乖离系数是线性拟合相关的斜率或非线性拟合相关的曲率估计;和
(2)基于(a)的计数、(1)的GC乖离系数和各所述部分的拟合相关,用微处理器计算各所述部分的基因组节段水平,从而提供计算的基因组节段水平,所述拟合相关为(i)多个样品中每个的GC乖离系数与(ii)多个样品中映射至各所述部分的序列读数的计数之间的拟合相关。
11.如权利要求1所述的系统,其中(d)中的分割概况包括应用两种或更多不同分割方法。
12.如权利要求11所述的系统,其中所述两种或更多不同分割方法各自独立选自Haar小波分割、圆的二元分割、最大熵分割、边缘检测内核卷积、Jensen Shannon发散、二进制递归分割和傅立叶变换。
13.如权利要求1所述的系统,其中(d)中的分割概况包括圆的二元分割。
14.如权利要求1所述的系统,其中(d)中的分割概况包括Haar小波分割。
15.如权利要求11-14中任一项所述的系统,其中(d)中的分割概况包括Haar小波分割法和圆的二元分割法。
16.如权利要求11所述的系统,其中所述两种或更多不同分割法平行进行。
17.如权利要求1所述的系统,其中,(d)中的分割概况包括抛光过程,所述抛光过程包括在分解图中合并相邻片段化水平。
18.如权利要求1所述的系统,其中,所述指令配置为确定所述候选区段的一个或多个边缘。
19.如权利要求1所述的系统,其中,所述指令配置为确定所述候选区段覆盖的部分的数量。
20.如权利要求1所述的系统,其中,所述指令配置为确定所述候选区段的水平。
21.如权利要求1所述的系统,其中所述AUC分析具有所述候选区段所覆盖的部分的数量和/或所述候选区段的水平。
22.如权利要求1所述的系统,其中,所述指令配置为验证所述候选区段,从而提供验证的候选区段。
23.如权利要求22所述的系统,其中所述验证包括进行滑动边缘处理。
24.如权利要求22或23所述的系统,其中所述验证包括进行留一法处理。
25.如权利要求24所述的系统,其中所述验证包括进行滑动边缘处理和留一法处理。
26.如权利要求22所述的系统,其中所述验证包括就所述候选区段产生显著性水平。
27.如权利要求22所述的系统,其中所述验证包括就复合候选区段产生显著性水平,其中所述复合候选区段由两个或更多个候选区段产生。
28.如权利要求22所述的系统,其中,所述指令配置为从第一分割鉴定第一候选区段和从与所述第一分割不同的第二分割鉴定第二候选区段。
29.权利要求28所述的系统,其中,所述指令配置为确定所述第一候选区段和所述第二候选区段是否相同或不同。
30.如权利要求28或29所述的系统,其中在所述第一候选区段和所述第二候选区段不同时确定没有微缺失或微复制。
31.如权利要求1所述的系统,其中,所述指令配置为生成所述候选区段或验证的候选区段的定量。
32.如权利要求31所述的系统,其中所述定量是所述候选区段或所述验证的候选区段的计数表示。
33.如权利要求32所述的系统,其中所述定量是所述候选区段或所述验证的候选区段的计数表示的z分数定量。
34.如权利要求33所述的系统,其中所述z分数是就所述候选区段或所述验证的候选区段而言的(i)测试样品计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品计数表示是所述测试样品的总计数除以总常染色体计数的比例,且(ii)整倍体中值计数表示是就整倍体样品而言的总计数除以总常染色体计数的比例的中值。
35.如权利要求31-34中任一项所述的系统,其中,所述指令配置为生成所述候选区段或所述验证的候选区段所位于的染色体的染色体表示的定量。
36.如权利要求35所述的系统,其中所述染色体表示的定量是z分数定量。
37.如权利要求36所述的系统,其中所述z分数是就所述染色体而言的(i)测试样品计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品计数表示是就所述测试样品而言的所述候选区段位于的染色体中的总计数除以总常染色体计数的比例,且(ii)整倍体计数表示的中值是就整倍体样品而言的所述候选区段位于的染色体中的总计数除以总常染色体计数的比例的中值。
38.如权利要求31所述的系统,其中所述候选区段或所述验证的候选区段的定量与染色体表示的定量进行比较。
39.如权利要求38所述的系统,其中:生成第一候选区段或所述第一验证的候选区段的z分数定量,生成第二候选区段或所述第二验证的候选区段的z分数定量,且所述第一候选区段和所述第二候选区段从不同类型的分割鉴定。
40.如权利要求39所述的系统,其中,所述指令配置为确定下述的最小值:(i)所述第一候选区段或所述验证的第一候选区段的z分数定量乘以小于1的因数和(ii)所述第二候选区段或所述验证的第二候选区段的z分数定量乘以所述因数。
41.如权利要求40所述的系统,其中,所述指令配置为确定所述染色体表示的z分数定量是否小于、大于或等于所述最小值。
42.如权利要求39所述的系统,其中,所述指令配置为确定所述染色体表示的z分数定量是否小于、大于或等于3.95。
43.如权利要求39所述的系统,其中,所述指令配置为确定所述第一候选区段或所述验证的第一候选区段的z分数定量是否小于、大于或等于3.95和确定所述第二候选区段或所述验证的第二候选区段的z分数定量是否小于、大于或等于3.95。
44.如权利要求43所述的系统,其中,所述指令配置为确定所述第一候选区段和所述第二候选区段,或其验证的区段,是否相同。
45.如权利要求44所述的系统,其中,所述指令配置为就所述测试样品而言,若(i)所述第一候选区段或所述验证的第一候选区段的z分数定量大于或等于3.95和所述第二候选区段或所述验证的第二候选区段的z分数定量大于或等于3.95,和(ii)所述第一候选区段和所述第二候选区段,或其验证的区段相同,则确定存在微缺失或微复制。
46.如权利要求44所述的系统,其中,所述指令配置为就所述测试样品而言,若(i)所述第一候选区段或所述验证的第一候选区段的z分数定量小于3.95和/或所述第二候选区段或所述验证的第二候选区段的z分数定量小于3.95,和/或(ii)所述第一候选区段和所述第二候选区段,或其验证的区段不相同,则确定不存在微缺失或微复制。
47.如权利要求31所述的系统,其中,所述指令配置为确定候选区段或验证的候选区段的计数表示的z分数定量和确定其是否小于、大于或等于3.95。
48.如权利要求31所述的系统,其中,所述指令配置为确定染色体表示的z分数定量和确定其是否小于、大于或等于3.95。
49.如权利要求47或48所述的系统,其中,所述指令配置为计算对数让步比(LOR),其中LOR是下述(i)和(ii)的商的对数:(i)(1)具有遗传变异的条件概率与(2)具有所述遗传变异的先验概率之间的第一乘积,和(ii)(1)不具有所述遗传变异的条件概率与(2)不具有所述遗传变异的先验概率之间的第二乘积。
50.如权利要求49所述的系统,其中具有所述遗传变异的条件概率根据下述内容确定:就测试样品所确定的胎儿分数、就测试样品所确定的区段的计数表示的z分数,和所述区段的计数表示的z分数的胎儿分数的分布。
51.如权利要求50所述的系统,其中具有所述遗传变异的条件概率通过等式23中的关系确定:
Figure FDA0002622222060000071
其中f是胎儿分数,X是覆盖所述遗传变异的区段的加和的部分计数,X~f(μX,σX),其中μX和σX分别是X的均值和标准差,且f(·)是分布函数。
52.如权利要求50或51所述的系统,其中具有所述遗传变异的条件概率是就测试样品而言的所述区段的计数表示的z分数与就所述区段的计数表示而言的z分数的胎儿分数的分布的交点。
53.如权利要求49所述的系统,其中不具有所述遗传变异的条件概率是就测试样品而言所确定的区段的计数表示的z分数与整倍体中所述区段的计数表示的z分数的分布的交点。
54.如权利要求49所述的系统,其中具有所述遗传变异的先验概率和不具有所述遗传变异的先验概率从不包括测试对象的多种样品所确定。
55.如权利要求49所述的系统,其中,所述指令配置为确定LOR是否大于0或小于0。
56.如权利要求47所述的系统,其中,所述指令配置为就所述测试样品而言,若(i)所述候选区段或验证的候选区段的计数表示的z分数定量大于或等于3.95,和(ii)LOR大于0,则确定存在微缺失或微复制。
57.如权利要求47所述的系统,其中,所述指令配置为就所述测试样品而言,若(i)所述候选区段或验证的候选区段的计数表示的z分数定量小于3.95,和/或(ii)LOR小于0,则确定不存在微缺失或微复制。
58.如权利要求56或57所述的系统,其中所述微缺失与DiGeorge综合征有关。
59.如权利要求32所述的系统,其中所述计数表示是经标准化的计数表示。
60.一种计算机可读介质,包含(i)映射至参照基因组的部分的核酸序列读数的计数,其中序列读数是来自怀有胎儿的妊娠女性的测试样品的循环无细胞核酸的读数,其中,所述序列读数通过利用1-倍覆盖率或其分数进行的测序方法产生,和(ii)用于执行方法的指令,所述方法包括:
(a)获取对映射至参照基因组的部分的核酸序列读数的计数;
(b)将映射至各部分的计数标准化,从而提供经计算的基因组节段水平;
(c)根据经计算的基因组节段水平生成概况;
(d)分割概况并根据曲线下面积(AUC)分析来鉴定候选区段,其中所述候选区段的AUC大于概况中其他区段;和
(e)根据所述候选区段确定是否存在微复制或微缺失。
61.如权利要求60所述的计算机可读介质,其中,(d)中的分割概况包括阈值化。
62.如权利要求60或61所述的计算机可读介质,其中,(d)中的分割概况包括调平。
63.如权利要求62所述的计算机可读介质,其中所述调平根据胎儿分数、覆盖率、最小区段长度或其组合来进行。
64.如权利要求62所述的计算机可读介质,其中进行阈值化和调平且阈值化在调平之前进行。.
65.如权利要求60所述的计算机可读介质,其中,(d)中的分割概况产生含离散区段的分解图。
66.如权利要求60所述的计算机可读介质,其中(b)中的计数标准化包括鸟嘌呤和胞嘧啶(GC)乖离的LOESS标准化(GC-LOESS标准化)。
67.如权利要求60所述的计算机可读介质,其中(b)中的计数标准化包括主成分标准化。
68.如权利要求60所述的计算机可读介质,其中(b)中的计数标准化包括GC-LOESS标准化,然后是主成分标准化。
69.如权利要求60所述的计算机可读介质,其中(b)中的计数标准化包括:
(1)针对测试样品基于(i)(a)中所获的序列读数的计数与(ii)各部分的GC含量之间的拟合相关确定鸟嘌呤和胞嘧啶(GC)乖离系数,其中所述GC乖离系数是线性拟合相关的斜率或非线性拟合相关的曲率估计;和
(2)基于(a)的计数、(1)的GC乖离系数和各所述部分的拟合相关,用微处理器计算各所述部分的基因组节段水平,从而提供计算的基因组节段水平,所述拟合相关为(i)多个样品中每个的GC乖离系数与(ii)多个样品中映射至各所述部分的序列读数的计数之间的拟合相关。
70.如权利要求60所述的计算机可读介质,其中(d)中的分割概况包括应用两种或更多不同分割方法。
71.如权利要求70所述的计算机可读介质,其中所述两种或更多不同分割方法各自独立选自Haar小波分割、圆的二元分割、最大熵分割、边缘检测内核卷积、Jensen Shannon发散、二进制递归分割和傅立叶变换。
72.如权利要求60所述的计算机可读介质,其中(d)中的分割概况包括圆的二元分割。
73.如权利要求60所述的计算机可读介质,其中(d)中的分割概况包括Haar小波分割。
74.如权利要求70-73中任一项所述的计算机可读介质,其中(d)中的分割概况包括Haar小波分割法和圆的二元分割法。
75.如权利要求70所述的计算机可读介质,其中所述两种或更多不同分割法平行进行。
76.如权利要求60所述的计算机可读介质,其中,(d)中的分割概况包括抛光过程,所述抛光过程包括在分解图中合并相邻片段化水平。
77.如权利要求60所述的计算机可读介质,其中,所述方法包括确定所述候选区段的一个或多个边缘。
78.如权利要求60所述的计算机可读介质,其中,所述方法包括确定所述候选区段覆盖的部分的数量。
79.如权利要求60所述的计算机可读介质,其中,所述方法包括确定所述候选区段的水平。
80.如权利要求60所述的计算机可读介质,其中所述AUC分析具有所述候选区段所覆盖的部分的数量和/或所述候选区段的水平。
81.如权利要求60所述的计算机可读介质,其中,所述方法包括验证所述候选区段,从而提供验证的候选区段。
82.如权利要求81所述的计算机可读介质,其中所述验证包括进行滑动边缘处理。
83.如权利要求81或82所述的计算机可读介质,其中所述验证包括进行留一法处理。
84.如权利要求83所述的计算机可读介质,其中所述验证包括进行滑动边缘处理和留一法处理。
85.如权利要求81所述的计算机可读介质,其中所述验证包括就所述候选区段产生显著性水平。
86.如权利要求81所述的计算机可读介质,其中所述验证包括就复合候选区段产生显著性水平,其中所述复合候选区段由两个或更多个候选区段产生。
87.如权利要求81所述的计算机可读介质,其中,所述方法包括从第一分割鉴定第一候选区段和从与所述第一分割不同的第二分割鉴定第二候选区段。
88.权利要求87所述的计算机可读介质,其中,所述方法包括确定所述第一候选区段和所述第二候选区段是否相同或不同。
89.如权利要求87或88所述的计算机可读介质,其中在所述第一候选区段和所述第二候选区段不同时确定没有微缺失或微复制。
90.如权利要求60所述的计算机可读介质,其中,所述方法包括生成所述候选区段或验证的候选区段的定量。
91.如权利要求90所述的计算机可读介质,其中所述定量是所述候选区段或所述验证的候选区段的计数表示。
92.如权利要求91所述的计算机可读介质,其中所述定量是所述候选区段或所述验证的候选区段的计数表示的z分数定量。
93.如权利要求92所述的计算机可读介质,其中所述z分数是就所述候选区段或所述验证的候选区段而言的(i)测试样品计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品计数表示是所述测试样品的总计数除以总常染色体计数的比例,且(ii)整倍体中值计数表示是就整倍体样品而言的总计数除以总常染色体计数的比例的中值。
94.如权利要求90-93中任一项所述的计算机可读介质,其中,所述方法包括生成所述候选区段或所述验证的候选区段所位于的染色体的染色体表示的定量。
95.如权利要求94所述的计算机可读介质,其中所述染色体表示的定量是z分数定量。
96.如权利要求95所述的计算机可读介质,其中所述z分数是就所述染色体而言的(i)测试样品计数表示减去(ii)整倍体计数表示的中值的减法结果除以(iii)整倍体计数表示的MAD,其中:(i)测试样品计数表示是就所述测试样品而言的所述候选区段位于的染色体中的总计数除以总常染色体计数的比例,且(ii)整倍体计数表示的中值是就整倍体样品而言的所述候选区段位于的染色体中的总计数除以总常染色体计数的比例的中值。
97.如权利要求90所述的计算机可读介质,其中所述候选区段或所述验证的候选区段的定量与所述染色体表示的定量进行比较。
98.如权利要求97所述的计算机可读介质,其中:生成第一候选区段或所述第一验证的候选区段的z分数定量,生成第二候选区段或所述第二验证的候选区段的z分数定量,且所述第一候选区段和所述第二候选区段从不同类型的分割鉴定。
99.如权利要求98所述的计算机可读介质,其中,所述方法包括确定下述的最小值:(i)所述第一候选区段或所述验证的第一候选区段的z分数定量乘以小于1的因数和(ii)所述第二候选区段或所述验证的第二候选区段的z分数定量乘以所述因数。
100.如权利要求99所述的计算机可读介质,其中,所述方法包括确定所述染色体表示的z分数定量是否小于、大于或等于所述最小值。
101.如权利要求98所述的计算机可读介质,其中,所述方法包括确定所述染色体表示的z分数定量是否小于、大于或等于3.95。
102.如权利要求98所述的计算机可读介质,其中,所述方法包括确定所述第一候选区段或所述验证的第一候选区段的z分数定量是否小于、大于或等于3.95和确定所述第二候选区段或所述验证的第二候选区段的z分数定量是否小于、大于或等于3.95。
103.如权利要求102所述的计算机可读介质,其中,所述方法包括确定所述第一候选区段和所述第二候选区段,或其验证的区段,是否相同。
104.如权利要求103所述的计算机可读介质,其中,所述方法包括就所述测试样品而言,若(i)所述第一候选区段或所述验证的第一候选区段的z分数定量大于或等于3.95和所述第二候选区段或所述验证的第二候选区段的z分数定量大于或等于3.95,和(ii)所述第一候选区段和所述第二候选区段,或其验证的区段相同,则确定存在微缺失或微复制。
105.如权利要求103所述的计算机可读介质,其中,所述方法包括就所述测试样品而言,若(i)所述第一候选区段或所述验证的第一候选区段的z分数定量小于3.95和/或所述第二候选区段或所述验证的第二候选区段的z分数定量小于3.95,和/或(ii)所述第一候选区段和所述第二候选区段,或其验证的区段不相同,则确定不存在微缺失或微复制。
106.如权利要求90所述的计算机可读介质,其中,所述方法包括确定候选区段或验证的候选区段的计数表示的z分数定量和确定其是否小于、大于或等于3.95。
107.如权利要求90所述的计算机可读介质,其中,所述方法包括确定染色体表示的z分数定量和确定其是否小于、大于或等于3.95。
108.如权利要求106或107所述的计算机可读介质,其中,所述方法包括计算对数让步比(LOR),其中LOR是下述(i)和(ii)的商的对数:(i)(1)具有遗传变异的条件概率与(2)具有所述遗传变异的先验概率之间的第一乘积,和(ii)(1)不具有所述遗传变异的条件概率与(2)不具有所述遗传变异的先验概率之间的第二乘积。
109.如权利要求108所述的计算机可读介质,其中具有所述遗传变异的条件概率根据下述内容确定:就测试样品所确定的胎儿分数、就测试样品所确定的区段的计数表示的z分数,和所述区段的计数表示的z分数的胎儿分数的分布。
110.如权利要求109所述的计算机可读介质,其中具有所述遗传变异的条件概率通过等式23中的关系确定:
Figure FDA0002622222060000141
其中f是胎儿分数,X是覆盖所述遗传变异的区段的加和的部分计数,X~f(μX,σX),其中μX和σX分别是X的均值和标准差,且f(·)是分布函数。
111.如权利要求109或110所述的计算机可读介质,其中具有所述遗传变异的条件概率是就测试样品而言的所述区段的计数表示的z分数与就所述区段的计数表示而言的z分数的胎儿分数的分布的交点。
112.如权利要求108所述的计算机可读介质,其中不具有所述遗传变异的条件概率是就测试样品而言所确定的区段的计数表示的z分数与整倍体中所述区段的计数表示的z分数的分布的交点。
113.如权利要求108所述的计算机可读介质,其中具有所述遗传变异的先验概率和不具有所述遗传变异的先验概率从不包括测试对象的多种样品所确定。
114.如权利要求108所述的计算机可读介质,其中,所述方法包括确定LOR是否大于0或小于0。
115.如权利要求106所述的计算机可读介质,其中,所述方法包括就所述测试样品而言,若(i)所述候选区段或验证的候选区段的计数表示的z分数定量大于或等于3.95,和(ii)LOR大于0,则确定存在微缺失或微复制。
116.如权利要求106所述的计算机可读介质,其中,所述方法包括就所述测试样品而言,若(i)所述候选区段或验证的候选区段的计数表示的z分数定量小于3.95,和/或(ii)LOR小于0,则确定不存在微缺失或微复制。
117.如权利要求115或116所述的计算机可读介质,其中所述微缺失与DiGeorge综合征有关。
118.如权利要求91所述的计算机可读介质,其中所述计数表示是经标准化的计数表示。
CN201480042105.1A 2013-05-24 2014-05-23 遗传变异的非侵入性评估方法和过程 Active CN105555968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011163273.XA CN112575075A (zh) 2013-05-24 2014-05-23 遗传变异的非侵入性评估方法和过程

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361827385P 2013-05-24 2013-05-24
US61/827,385 2013-05-24
PCT/US2014/039389 WO2014190286A2 (en) 2013-05-24 2014-05-23 Methods and processes for non-invasive assessment of genetic variations

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011163273.XA Division CN112575075A (zh) 2013-05-24 2014-05-23 遗传变异的非侵入性评估方法和过程

Publications (2)

Publication Number Publication Date
CN105555968A CN105555968A (zh) 2016-05-04
CN105555968B true CN105555968B (zh) 2020-10-23

Family

ID=51023082

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011163273.XA Pending CN112575075A (zh) 2013-05-24 2014-05-23 遗传变异的非侵入性评估方法和过程
CN201480042105.1A Active CN105555968B (zh) 2013-05-24 2014-05-23 遗传变异的非侵入性评估方法和过程

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011163273.XA Pending CN112575075A (zh) 2013-05-24 2014-05-23 遗传变异的非侵入性评估方法和过程

Country Status (10)

Country Link
US (3) US10699800B2 (zh)
EP (2) EP3004383B1 (zh)
JP (2) JP6561046B2 (zh)
KR (3) KR102385062B1 (zh)
CN (2) CN112575075A (zh)
AU (3) AU2014268377B2 (zh)
CA (2) CA2910205C (zh)
HK (1) HK1217033A1 (zh)
IL (4) IL300163B1 (zh)
WO (1) WO2014190286A2 (zh)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2805280B1 (en) 2012-01-20 2022-10-05 Sequenom, Inc. Diagnostic processes that factor experimental conditions
EP2820129A1 (en) 2012-03-02 2015-01-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2971100A1 (en) 2013-03-13 2016-01-20 Sequenom, Inc. Primers for dna methylation analysis
LT2981921T (lt) 2013-04-03 2023-02-27 Sequenom, Inc. Neinvazinio genetinių variacijų vertinimo būdai ir procesai
EP3004383B1 (en) 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis
MX2015016911A (es) * 2013-06-21 2016-06-21 Sequenom Inc Metodos y procesos para evaluacion no invasiva de variaciones geneticas.
EP3014506B1 (en) * 2013-06-28 2020-01-22 Life Technologies Corporation Methods and systems for visualizing dpcr data quality
CA3205430A1 (en) * 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10438691B2 (en) 2013-10-07 2019-10-08 Sequenom, Inc. Non-invasive assessment of chromosome alterations using change in subsequence mappability
WO2015138774A1 (en) 2014-03-13 2015-09-17 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2950731C (en) 2014-05-30 2023-04-25 Sequenom, Inc. Chromosome representation determinations
US9118714B1 (en) * 2014-07-23 2015-08-25 Lookingglass Cyber Solutions, Inc. Apparatuses, methods and systems for a cyber threat visualization and editing user interface
WO2016015058A2 (en) * 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US11783911B2 (en) 2014-07-30 2023-10-10 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
EP3730629A1 (en) 2014-10-10 2020-10-28 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3240909B1 (en) * 2014-10-17 2020-10-14 Good Start Genetics, Inc. Pre-implantation genetic screening and aneuploidy detection
US10319463B2 (en) * 2015-01-23 2019-06-11 The Chinese University Of Hong Kong Combined size- and count-based analysis of maternal plasma for detection of fetal subchromosomal aberrations
EP3268870A4 (en) * 2015-03-11 2018-12-05 Ayasdi, Inc. Systems and methods for predicting outcomes using a prediction learning model
EP3118324A1 (en) * 2015-07-13 2017-01-18 Cartagenia N.V. Method for analyzing copy number variation in the detection of cancer
BE1023266B1 (nl) * 2015-07-13 2017-01-17 Cartagenia N.V. Systeem en methodologie voor de analyse van genomische gegevens die zijn verkregen van een onderwerp
BE1023267B1 (nl) * 2015-07-13 2017-01-17 Cartagenia N.V. Werkwijze voor het analyseren van kopienummervariatie bij de detectie van kanker
KR101817785B1 (ko) * 2015-08-06 2018-01-11 이원다이애그노믹스(주) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
WO2017051996A1 (ko) * 2015-09-24 2017-03-30 에스케이텔레콤 주식회사 비침습적 태아 염색체 이수성 판별 방법
KR101817180B1 (ko) * 2016-01-20 2018-01-10 이원다이애그노믹스(주) 염색체 이상 판단 방법
CN106053066A (zh) * 2016-05-23 2016-10-26 华东交通大学 基于经验模态分解和逻辑回归的滚动轴承性能退化评估方法
WO2017205826A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for detecting genetic variations
EP3491560A1 (en) 2016-07-27 2019-06-05 Sequenom, Inc. Genetic copy number alteration classifications
US11515003B2 (en) 2016-07-27 2022-11-29 Sequenom, Inc. Copy number alteration and reference genome mapping
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
CA3037366A1 (en) * 2016-09-29 2018-04-05 Myriad Women's Health, Inc. Noninvasive prenatal screening using dynamic iterative depth optimization
KR101907650B1 (ko) 2016-11-24 2018-10-12 에스케이텔레콤 주식회사 비침습적 태아 염색체 이수성 판별 방법
CN106845154B (zh) * 2016-12-29 2022-04-08 浙江安诺优达生物科技有限公司 一种用于ffpe样本拷贝数变异检测的装置
WO2018136882A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
US11352662B2 (en) 2017-01-20 2022-06-07 Sequenom, Inc. Sequence adapter manufacture and use
EP3571615B1 (en) 2017-01-20 2024-01-24 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
CN106778069B (zh) * 2017-02-17 2020-02-14 广州精科医学检验所有限公司 确定胎儿染色体中微缺失微重复的方法及设备
EP3998350A1 (en) 2017-03-17 2022-05-18 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
SK862017A3 (sk) 2017-08-24 2020-05-04 Grendar Marian Doc Mgr Phd Spôsob použitia fetálnej frakcie a chromozómovej reprezentácie pri určovaní aneuploidného stavu v neinvazívnom prenatálnom testovaní
KR102031841B1 (ko) * 2017-12-22 2019-10-15 테라젠지놈케어 주식회사 모체 시료 중 태아 분획을 결정하는 방법
KR102029393B1 (ko) * 2018-01-11 2019-10-07 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
IT201800005623A1 (it) * 2018-05-23 2019-11-23 Metodo per la determinazione della probabilità del rischio di anomalie cromosomiche e genetiche da dna libero di origine fetale
CN110737006B (zh) * 2018-07-20 2023-05-02 菜鸟智能物流控股有限公司 轨迹去噪的处理方法、装置以及电子设备
CN109447402B (zh) * 2018-09-19 2022-02-22 语联网(武汉)信息技术有限公司 稿件基因的选取方法、装置与电子设备
US20200098448A1 (en) 2018-09-24 2020-03-26 Tempus Labs, Inc. Methods of normalizing and correcting rna expression data
CN109872783B (zh) * 2018-12-28 2022-11-29 金力 一种基于大数据的糖尿病文献信息标准数据库集分析方法
CN109709391B (zh) * 2019-01-14 2021-02-02 江苏盛德电子仪表有限公司 一种带有高速载波通讯模块的智能电表及其通信系统
KR102381252B1 (ko) * 2019-02-19 2022-04-01 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
SK500482021A3 (sk) 2019-02-20 2021-12-07 Comenius University In Bratislava Metóda určovania neistoty stupňa placentárneho mozaicizmu vzorky v neinvazívnom prenatálnom skríningu
US11216742B2 (en) 2019-03-04 2022-01-04 Iocurrents, Inc. Data compression and communication using machine learning
WO2020257605A1 (en) * 2019-06-21 2020-12-24 Coopersurgical, Inc. Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
US11403641B2 (en) * 2019-06-28 2022-08-02 Paypal, Inc. Transactional probability analysis on radial time representation
CN111027166A (zh) * 2019-07-30 2020-04-17 天津大学 艇位周边海域海洋要素快速分析方法
CN110457906B (zh) * 2019-08-15 2023-03-31 国家电网公司华东分部 一种网络安全事件智能告警方法
CA3159786A1 (en) 2019-10-31 2021-05-06 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
US11853450B2 (en) * 2019-11-05 2023-12-26 Saudi Arabian Oil Company Detection of web application anomalies using machine learning
US20230011085A1 (en) * 2019-12-12 2023-01-12 Koninklijke Philips N.V. Method and system for determining a cnv profile for a tumor using sparse whole genome sequencing
AU2021391422A1 (en) 2020-12-02 2022-11-03 Illumina Software, Inc. System and method for detection of genetic alterations
US20220186312A1 (en) * 2020-12-11 2022-06-16 Guzip Biomarkers Corporation Predictive method for assessing the success of embryo implantation
WO2022140579A1 (en) * 2020-12-24 2022-06-30 Progenity, Inc. Methods of preparing assays, systems, and compositions for determining fetal fraction
CN112906250B (zh) * 2021-04-09 2022-05-31 吉林大学 一种复杂系统模块分类方法
KR20230076686A (ko) * 2021-11-24 2023-05-31 테라젠지놈케어 주식회사 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
US20230323440A1 (en) * 2022-03-24 2023-10-12 Bio-Rad Laboratories, Inc. Method and system for sizing a population of nucleic acid fragments using a digital assay
CN114563834B (zh) * 2022-04-27 2022-07-26 知一航宇(北京)科技有限公司 一种数值预报产品解释应用方法及系统
KR102470337B1 (ko) * 2022-05-18 2022-11-25 주식회사 쓰리빌리언 변이 접합성 판별 시스템
KR20240017305A (ko) 2022-07-29 2024-02-07 황지영 분자생물학 마커를 이용한 크레스티드 게코 도마뱀의 성별 판별 방법
CN115132271B (zh) * 2022-09-01 2023-07-04 北京中仪康卫医疗器械有限公司 一种基于批次内校正的cnv检测方法
CN116246704B (zh) * 2023-05-10 2023-08-15 广州精科生物技术有限公司 用于胎儿无创产前检测的系统
CN117237324B (zh) * 2023-10-09 2024-03-29 苏州博致医疗科技有限公司 一种非侵入式整倍体预测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013052913A2 (en) * 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Family Cites Families (171)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5720928A (en) 1988-09-15 1998-02-24 New York University Image processing and analysis of individual nucleic acid molecules
US5075212A (en) 1989-03-27 1991-12-24 University Of Patents, Inc. Methods of detecting picornaviruses in biological fluids and tissues
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5641628A (en) 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
ATE139258T1 (de) 1990-01-12 1996-06-15 Cell Genesys Inc Erzeugung xenogener antikörper
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
US5432054A (en) 1994-01-31 1995-07-11 Applied Imaging Method for separating rare cells from a population of cells
EP0699687B1 (en) 1994-08-31 2004-01-28 Mitsubishi Pharma Corporation Process for purifying recombinant human serum albumin
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
AU4309996A (en) 1994-12-23 1996-07-19 Imperial College Of Science, Technology And Medicine Automated dna sequencing
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5670325A (en) 1996-08-14 1997-09-23 Exact Laboratories, Inc. Method for the detection of clonal populations of transformed cells in a genomically heterogeneous cellular sample
IL126544A (en) 1996-04-25 2004-08-31 Genicon Sciences Inc Test for component detection using detectable particles in diffused light
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
US6100029A (en) 1996-08-14 2000-08-08 Exact Laboratories, Inc. Methods for the detection of chromosomal aberrations
US6403311B1 (en) 1997-02-12 2002-06-11 Us Genomics Methods of analyzing polymers using ordered label strategies
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6566101B1 (en) 1997-06-16 2003-05-20 Anthony P. Shuber Primer extension methods for detecting nucleic acids
US6570001B1 (en) 1997-06-20 2003-05-27 Institut Pasteur Polynucleotides and their use for detecting resistance to streptogramin A or to streptogramin B and related compounds
WO2000006770A1 (en) 1998-07-30 2000-02-10 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6263286B1 (en) 1998-08-13 2001-07-17 U.S. Genomics, Inc. Methods of analyzing polymers using a spatial network of fluorophores and fluorescence resonance energy transfer
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US20050287592A1 (en) 2000-08-29 2005-12-29 Yeda Research And Development Co. Ltd. Template-dependent nucleic acid polymerization using oligonucleotide triphosphates building blocks
AU7537200A (en) 1999-09-29 2001-04-30 Solexa Ltd. Polynucleotide sequencing
WO2001032887A1 (en) 1999-10-29 2001-05-10 Stratagene Compositions and methods utilizing dna polymerases
US20010049102A1 (en) 2000-02-24 2001-12-06 Huang Xiaohua C. Methods for determining single nucleotide variations
US6664056B2 (en) 2000-10-17 2003-12-16 The Chinese University Of Hong Kong Non-invasive prenatal monitoring
US6936433B2 (en) 2000-11-27 2005-08-30 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
US7297518B2 (en) 2001-03-12 2007-11-20 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences by asynchronous base extension
EP1478771A4 (en) 2001-06-21 2005-06-15 Harvard College PROCESS FOR CHARACTERIZING NUCLEIC ACID MOLECULES
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20030157489A1 (en) 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
CA2476835A1 (en) 2002-02-20 2003-08-28 University Of Virginia Patent Foundation A non-invasive diagnostic test utilizing histone modification markers
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
US7285394B2 (en) 2002-03-15 2007-10-23 Epigenomics Ag Discovery and diagnostic methods using 5-methylcytosine DNA glycosylase
US20040110208A1 (en) 2002-03-26 2004-06-10 Selena Chan Methods and device for DNA sequencing using surface enhanced Raman scattering (SERS)
US7744816B2 (en) 2002-05-01 2010-06-29 Intel Corporation Methods and device for biomolecule characterization
US20050019784A1 (en) 2002-05-20 2005-01-27 Xing Su Method and apparatus for nucleic acid sequencing and identification
US7005264B2 (en) 2002-05-20 2006-02-28 Intel Corporation Method and apparatus for nucleic acid sequencing and identification
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
WO2004022721A2 (en) 2002-09-06 2004-03-18 The Trustees Of Boston University Quantification of gene expression
AU2003298733B2 (en) 2002-11-27 2009-06-18 Agena Bioscience, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
EP2532745B1 (en) 2003-07-05 2015-09-09 The Johns Hopkins University Method and Compositions for Detection and Enumeration of Genetic Variations
WO2005017807A2 (en) * 2003-08-13 2005-02-24 Iconix Pharmaceuticals, Inc. Apparatus and method for classifying multi-dimensional biological data
US7846738B2 (en) 2003-08-15 2010-12-07 President And Fellows Of Harvard College Study of polymer molecules and conformations with a nanopore
AU2004270220B2 (en) 2003-09-05 2009-03-05 The Chinese University Of Hong Kong Method for non-invasive prenatal diagnosis
DE60328193D1 (de) 2003-10-16 2009-08-13 Sequenom Inc Nicht invasiver Nachweis fötaler genetischer Merkmale
US20050095599A1 (en) 2003-10-30 2005-05-05 Pittaro Richard J. Detection and identification of biopolymers using fluorescence quenching
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050147980A1 (en) 2003-12-30 2005-07-07 Intel Corporation Nucleic acid sequencing by Raman monitoring of uptake of nucleotides during molecular replication
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US20100216151A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US7279337B2 (en) 2004-03-10 2007-10-09 Agilent Technologies, Inc. Method and apparatus for sequencing polymers through tunneling conductance variation detection
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
CN102925549A (zh) 2004-08-13 2013-02-13 哈佛学院院长等 超高处理量光学-纳米孔dna读出平台
CA2589487C (en) 2004-11-29 2014-07-29 Klinikum Der Universitat Regensburg Means and methods for detecting methylated dna
CN101137760B (zh) 2005-03-18 2011-01-26 香港中文大学 检测染色体非整倍性的方法
JP6121642B2 (ja) * 2005-11-26 2017-04-26 ナテラ, インコーポレイテッド 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
US7960105B2 (en) 2005-11-29 2011-06-14 National Institutes Of Health Method of DNA analysis using micro/nanochannel
SI2385143T1 (sl) 2006-02-02 2016-11-30 The Board of Trustees of the Leland Stanford Junior University Office of the General Counsel Neinvazivni genetski presejalni test ploda z digitalno analizo
DE602007014335D1 (de) 2006-02-28 2011-06-16 Univ Louisville Res Found Erkennung von chromosomabnormalitäten im fötus mit hilfe der tandem-einzelnukleotid-polymorphismen
RU2466458C2 (ru) 2006-03-10 2012-11-10 Конинклейке Филипс Электроникс, Н.В. Способы и системы идентификации паттернов днк при помощи спектрального анализа
US20070243549A1 (en) 2006-04-12 2007-10-18 Biocept, Inc. Enrichment of circulating fetal dna
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US20090075252A1 (en) 2006-04-14 2009-03-19 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
EP2602321B1 (en) 2006-05-31 2017-08-23 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
US20080070792A1 (en) 2006-06-14 2008-03-20 Roland Stoughton Use of highly parallel snp genotyping for fetal diagnosis
AU2007260750A1 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
EP2081442B1 (en) 2006-10-10 2016-08-10 TrovaGene, Inc. Compositions, methods and kits for isolating nucleic acids from body fluids using anion exchange media
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP1944273A1 (en) 2007-01-15 2008-07-16 Rockwool International A/S Process and apparatus for making mineral fibers
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
AU2008232616B2 (en) 2007-03-28 2014-08-07 Bionano Genomics, Inc. Methods of macromolecular analysis using nanochannel arrays
US20110005918A1 (en) 2007-04-04 2011-01-13 Akeson Mark A Compositions, devices, systems, and methods for using a nanopore
GB0713143D0 (en) 2007-07-06 2007-08-15 Ucl Business Plc Nucleic acid detection method
PT2183693E (pt) 2007-07-23 2014-01-14 Univ Hong Kong Chinese Diagnóstico de aneuploidia cromossómica fetal utilizando sequenciação genómica
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009032781A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
MX2010003724A (es) 2007-10-04 2010-09-14 Halcyon Molecular Secuenciacion de polimeros de acido nucleico con microscopia electronica.
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
EP2271772B1 (en) 2008-03-11 2014-07-16 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
US8206926B2 (en) 2008-03-26 2012-06-26 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
US8628919B2 (en) 2008-06-30 2014-01-14 Bionano Genomics, Inc. Methods and devices for single-molecule whole genome analysis
WO2011050147A1 (en) 2009-10-21 2011-04-28 Bionanomatrix, Inc . Methods and related devices for single molecule whole genome analysis
EP2682460B1 (en) 2008-07-07 2017-04-26 Oxford Nanopore Technologies Limited Enzyme-pore constructs
CN102144037A (zh) 2008-07-07 2011-08-03 牛津纳米孔技术有限公司 检测碱基的孔
JP5727375B2 (ja) 2008-09-16 2015-06-03 セクエノム, インコーポレイテッド 非侵襲性の出生前診断のために有用な、母体サンプル由来の胎児核酸のメチル化に基づく濃縮のためのプロセスおよび組成物
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
EP3378951B1 (en) 2008-09-20 2020-05-13 The Board of Trustees of the Leland Stanford Junior University Noninvasive diagnosis of aneuploidy by sequencing
CN102272327B (zh) 2008-11-07 2015-11-25 赛昆塔公司 通过序列分析监测状况的方法
WO2010056728A1 (en) 2008-11-11 2010-05-20 Helicos Biosciences Corporation Nucleic acid encoding for multiplex analysis
JP5846703B2 (ja) 2008-11-18 2016-01-20 バイオナノ ジェノミックス、インク. ポリヌクレオチドのマッピング及び配列決定
WO2010065470A2 (en) 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
CA2748030A1 (en) 2008-12-22 2010-07-01 Arnold R. Oliphant Methods and genotyping panels for detecting alleles, genomes, and transcriptomes
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
EP2414545B1 (en) 2009-04-03 2017-01-11 Sequenom, Inc. Nucleic acid preparation compositions and methods
US8246799B2 (en) 2009-05-28 2012-08-21 Nabsys, Inc. Devices and methods for analyzing biomolecules and probes bound thereto
US20100330557A1 (en) 2009-06-30 2010-12-30 Zohar Yakhini Genomic coordinate system
WO2011038327A1 (en) 2009-09-28 2011-03-31 Bionanomatrix, Inc. Nanochannel arrays and near-field illumination devices for polymer analysis and related methods
PL3241914T3 (pl) 2009-11-05 2019-08-30 The Chinese University Of Hong Kong Analiza genomowa płodu z matczynej próbki biologicznej
ES2577017T3 (es) 2009-12-22 2016-07-12 Sequenom, Inc. Procedimientos y kits para identificar la aneuploidia
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US20110245085A1 (en) 2010-01-19 2011-10-06 Rava Richard P Methods for determining copy number variations
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
EP2526415B1 (en) 2010-01-19 2017-05-03 Verinata Health, Inc Partition defined detection methods
EP2513341B1 (en) 2010-01-19 2017-04-12 Verinata Health, Inc Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US9260745B2 (en) * 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
SG185544A1 (en) 2010-05-14 2012-12-28 Fluidigm Corp Nucleic acid isolation methods
CA2798758C (en) 2010-05-18 2019-05-07 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2591433A4 (en) 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
EP2596127A2 (en) 2010-07-23 2013-05-29 Esoterix Genetic Laboratories, LLC Identification of differentially represented fetal or maternal genomic regions and uses thereof
US11031095B2 (en) 2010-08-06 2021-06-08 Ariosa Diagnostics, Inc. Assay systems for determination of fetal copy number variation
US8700338B2 (en) * 2011-01-25 2014-04-15 Ariosa Diagnosis, Inc. Risk calculation for evaluation of fetal aneuploidy
KR102040307B1 (ko) * 2010-11-30 2019-11-27 더 차이니즈 유니버시티 오브 홍콩 암과 연관된 유전적 또는 분자적 이상들의 검출
WO2012083250A2 (en) 2010-12-17 2012-06-21 Celula, Inc. Methods for screening and diagnosing genetic conditions
CN103608466B (zh) 2010-12-22 2020-09-18 纳特拉公司 非侵入性产前亲子鉴定方法
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
US20120190020A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
US20120219950A1 (en) 2011-02-28 2012-08-30 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination
EP3078752B1 (en) 2011-04-12 2018-08-01 Verinata Health, Inc Resolving genome fractions using polymorphism counts
GB2484764B (en) 2011-04-14 2012-09-05 Verinata Health Inc Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
DK2716766T3 (da) 2011-05-31 2017-01-02 Berry Genomics Co Ltd Indretning til detektering af kopiantal af føtale kromosomer eller tumorcellekromosomer
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
SG191757A1 (en) 2011-06-29 2013-08-30 Bgi Health Service Co Ltd Noninvasive detection of fetal genetic abnormality
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
CA2851537C (en) 2011-10-11 2020-12-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2805280B1 (en) 2012-01-20 2022-10-05 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP2825991B1 (en) 2012-03-13 2019-05-15 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
DK3663409T3 (da) 2012-05-21 2021-12-13 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014014497A1 (en) 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
EP2893040B1 (en) 2012-09-04 2019-01-02 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
WO2014055790A2 (en) 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2014233373B2 (en) 2013-03-15 2019-10-24 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
LT2981921T (lt) 2013-04-03 2023-02-27 Sequenom, Inc. Neinvazinio genetinių variacijų vertinimo būdai ir procesai
EP3004383B1 (en) 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis
MX2015016911A (es) 2013-06-21 2016-06-21 Sequenom Inc Metodos y procesos para evaluacion no invasiva de variaciones geneticas.
GB201318369D0 (en) 2013-10-17 2013-12-04 Univ Leuven Kath Methods using BAF
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
CA3205430A1 (en) 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10438691B2 (en) 2013-10-07 2019-10-08 Sequenom, Inc. Non-invasive assessment of chromosome alterations using change in subsequence mappability
GB201319779D0 (en) 2013-11-08 2013-12-25 Cartagenia N V Genetic analysis method
CA2950731C (en) 2014-05-30 2023-04-25 Sequenom, Inc. Chromosome representation determinations
US11783911B2 (en) 2014-07-30 2023-10-10 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
EP3491560A1 (en) 2016-07-27 2019-06-05 Sequenom, Inc. Genetic copy number alteration classifications
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013052913A2 (en) * 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A method for noninvasive detection of fetal large deletions/duplications by low coverage massively parallel sequencing;Shengpei Chen等;《Prenatal Diagnosis》;20131231;第33卷;584-590 *
Identification of significant regional genetic variations using continuous CNV values in aCGH data;Ki-Yeol Kim等;《Genomics》;20090819;第94卷;317-323 *

Also Published As

Publication number Publication date
CA3189752A1 (en) 2014-11-27
WO2014190286A2 (en) 2014-11-27
CA2910205A1 (en) 2014-11-27
AU2023210582A1 (en) 2023-08-24
KR20230082691A (ko) 2023-06-08
WO2014190286A3 (en) 2015-02-26
US20220415435A1 (en) 2022-12-29
US10699800B2 (en) 2020-06-30
IL269567B2 (en) 2023-07-01
IL309903A (en) 2024-03-01
EP3004383A2 (en) 2016-04-13
JP2018186825A (ja) 2018-11-29
IL300163B1 (en) 2024-02-01
AU2020260501A1 (en) 2020-11-26
JP6561046B2 (ja) 2019-08-14
AU2014268377B2 (en) 2020-10-08
CA2910205C (en) 2023-04-04
IL300163A (en) 2023-03-01
KR20220048042A (ko) 2022-04-19
KR102385062B1 (ko) 2022-04-12
US20160224724A1 (en) 2016-08-04
EP3004383B1 (en) 2019-04-24
JP2016526879A (ja) 2016-09-08
KR20160013183A (ko) 2016-02-03
KR102540202B1 (ko) 2023-06-02
IL242176B (en) 2019-10-31
HK1217033A1 (zh) 2016-12-16
US11462298B2 (en) 2022-10-04
CN112575075A (zh) 2021-03-30
IL269567A (en) 2019-11-28
AU2020260501B2 (en) 2023-06-15
JP6749972B2 (ja) 2020-09-02
AU2014268377A1 (en) 2015-11-12
IL269567B1 (en) 2023-03-01
CN105555968A (zh) 2016-05-04
EP3578670A1 (en) 2019-12-11
US20200265921A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
AU2020260501B2 (en) Methods and processes for non-invasive assessment of genetic variations
JP6688764B2 (ja) 遺伝的変異の非侵襲的評価のための方法およびプロセス
EP3175000B1 (en) Methods and processes for non-invasive assessment of genetic variations
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
CN110176273B (zh) 遗传变异的非侵入性评估的方法和过程
AU2015267190B2 (en) Chromosome representation determinations
US10930368B2 (en) Methods and processes for non-invasive assessment of genetic variations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant