CN110741094A - 一种用于校正扩增子测序中扩增偏差的方法 - Google Patents

一种用于校正扩增子测序中扩增偏差的方法 Download PDF

Info

Publication number
CN110741094A
CN110741094A CN201780090677.0A CN201780090677A CN110741094A CN 110741094 A CN110741094 A CN 110741094A CN 201780090677 A CN201780090677 A CN 201780090677A CN 110741094 A CN110741094 A CN 110741094A
Authority
CN
China
Prior art keywords
amplicon
diff
target nucleic
nucleic acid
coverage ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780090677.0A
Other languages
English (en)
Other versions
CN110741094B (zh
Inventor
吴镝
张海川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sere Na (china) Medical Technology Co Ltd
Original Assignee
Sere Na (china) Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sere Na (china) Medical Technology Co Ltd filed Critical Sere Na (china) Medical Technology Co Ltd
Publication of CN110741094A publication Critical patent/CN110741094A/zh
Application granted granted Critical
Publication of CN110741094B publication Critical patent/CN110741094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种校正扩增子测序中扩增偏差的方法,通过扩增靶核酸,获取靶核酸的扩增子覆盖度,计算每个测试基因组区域靶核酸和参考基因组区域靶核酸之间的扩增子覆盖度比值,去除异常值,应用公式对扩增子覆盖度比值进行归一化,计算测试基因组区域扩增子和参考基因组区域扩增子之间各项参数的差值和应用另一公式拟合数据等步骤,将通过拟合计算得出的回归参数值用于校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值,从而消除了多重PCR扩增过程中因实验因素引起的扩增偏差。扩增偏差的消除有利于目标基因组区域拷贝数的精确计算,从而使应用扩增子测序数据检测微小拷贝数的变异成为可能。

Description

一种用于校正扩增子测序中扩增偏差的方法
技术领域
本发明涉及的是用于校正扩增子测序中扩增偏差的计算方法。
背景技术
下一代测序或大规模平行测序通常使用的是多重聚合酶链式反应(PCR)产生的文库。3′端稳定性、引物解链温度(Tm)、扩增子长度、扩增子GC含量和扩增子侧翼区GC含量的差异都可能会导致扩增偏差。这种偏差干扰了对目标基因组区域拷贝数的精确计算,并阻碍了扩增子测序在检测微小拷贝数变异中的应用。
通过细致优化引物设计、退火温度、缓冲液组成和PCR循环次数等因素,可以最大限度地减少偏差。见Markoulatos等(2002年)的《临床实验室分析杂志》,16:47-51。另外也可以通过消除扩增偏差的计算方法来校正原始数据。不过仍然需要采用更好的方法来校正用于扩增子测序多重扩增产生的固有偏差。
提供本背景信息的目的是阐明申请人认为已知的信息与本发明可能有关,不必认为也不应解释为上述任何信息是依照本发明推衍的现有技术。
发明内容
本发明旨在探索一种新的扩增偏差校正方法。采用一种计算方法消除多重PCR扩增过程中由于3′端稳定性、引物解链温度(Tm)、扩增子长度、扩增子GC含量、扩增子侧翼区GC含量差异等因素引起的扩增偏差。
一方面,本发明涉及了扩增偏差的校正方法,其步骤为:
a)扩增靶核酸;
b)获取靶核酸扩增子覆盖数据;
c)计算各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值;
d)去除异常值;
e)根据公式归一化各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值,公式为:
Figure BDA0002268639540000021
f)计算测试基因组区域扩增子和参考基因组区域扩增子之间各项参数的差值,包括引物3′端稳定性(Diff3′端稳定性)、引物解链温度(DiffTm)、扩增子长度(Diff扩增子长度)、扩增子GC含量(Diff扩增子GC)和扩增子侧翼区GC含量(Diff扩增子侧翼GC);
g)根据公式拟合数据,得到回归参数值A1、A2、A3、A4和A5,公式为:log(归一化覆盖度比值)=
A1×Diff3′端稳定性+A2×DiffTm+A3×Diff扩增子长度+A4×Diff扩增子GC+A5×Diff扩增子侧翼GC
h)使用回归参数值A1、A2、A3、A4和A5校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值。
在某些实施例中,靶核酸是基因组DNA或RNA。靶核酸可以取自胎儿、儿童或成人。在一个实施例中采用了人类靶核酸。靶核酸可以来自细胞,包括任何类型的真核细胞、原核细胞或古核细胞、细胞群、组织、病毒、人造细胞或无细胞体系。
靶核酸的扩增可以采用任何适当的核酸扩增技术进行。在一个实施例中,扩增通过多重聚合酶链式反应(PCR)完成。而在另一实施例中,扩增则通过多重逆转录聚合酶链式反应(RT-PCR)完成。
在某些实施例中,靶核酸取自多个样本。为方便分析扩增偏差,如图1所示可在矩阵中对扩增子覆盖数据进行排序,其中每一行对应单独的扩增子,每一列对应单独的样本。如图2所示,可从这种数据矩阵中创建扩增子覆盖度比值矩阵。如图3所示,可将扩增子覆盖度比值矩阵转换为具有行中值的归一化扩增子覆盖度比值矩阵。
在另一实施例中,该方法还可在校正扩增偏差后用于检测至少一个靶核酸的拷贝数变异。
在另一实施例中,该方法还可在校正扩增偏差后用于检测染色体非整倍性。
另一方面,本发明还涉及一种用于校正扩增偏差的计算机操作方法,
计算机操作步骤有:
a)接收用于多个靶核酸的输入扩增子覆盖度数据;
b)计算各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值;
c)去除异常值;
d)根据公式归一化各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值,公式为:
Figure BDA0002268639540000031
e)计算测试基因组区域扩增子和参考基因组区域扩增子之间各项参数的差值,包括引物3′端稳定性(Diff3’端稳定性)、引物解链温度(DiffTm)、扩增子长度(Diff扩增子长度)、扩增子GC含量(Diff扩增子GC)和扩增子侧翼区GC含量(Diff扩增子侧翼GC);
f)根据公式拟合数据,得到回归参数值A1、A2、A3、A4和A5,公式为:log(归一化覆盖度比值)=
A1×Diff3′端稳定性+A2×DiffTm+A3×Diff扩增子长度+A4×Diff扩增子GC+A5×Diff扩增子侧翼GC
g)使用回归参数值A1、A2、A3、A4和A5校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值;
h)显示校正扩增偏差后的扩增子覆盖度比值信息。
在另一实施例中,计算机操作方法还涉及如图1所示矩阵中对扩增子覆盖数据进行的排序,其中每一行对应单独的扩增子,每一列对应单独的样本。
在另一实施例中,计算机操作方法还涉及创建如图2所示的扩增子覆盖度比值矩阵。
在另一实施例中,如图3所示,计算机操作方法还涉及创建使用行中位数归一化后的扩增子覆盖度比值矩阵。
在另一实施例中,计算机操作方法还涉及校正扩增偏差后检测至少一个靶核酸的拷贝数变异。
在另一实施例中,计算机操作方法还涉及校正扩增偏差后检测染色体非整倍性。
校正扩增偏差的系统,包括:
a)存储扩增覆盖数据的存储组件,存储组件有校正存储扩增偏差的指令;
b)处理数据的计算机处理器,计算机处理器与存储组件连接,可用于执行存储在存储组件中的指令,以便接收扩增子覆盖数据及校正所述的扩增偏差;
c)显示组件,用于显示有关通过扩增偏差校正的扩增子覆盖度比值信息。
本发明公开后,熟悉本领域的普通技术人员很容易理解本发明的相关实施例和其他实施例。
附图说明
图1所示的是对应扩增子(1~n)的行和对应样本(1~m)的列的数据矩阵。矩阵上半部分为测试基因组区域数据;矩阵下半部分为参考基因组区域数据。
图2所示的是测试和参考基因组区域之间的扩增子覆盖度比值矩阵。
图3所示的是通过行中位数归一化后的扩增子覆盖度比值矩阵。
图4A和4B所示的是PCR偏差校正结果。
图4A为扩增子GC含量不同时,PCR偏差校正前后对数归一化的扩增子覆盖度比值。
图4A(左)所示的是Diff扩增子GC为X轴,对数归一化扩增子覆盖度比值为Y轴时的数据图,每个数据点代表一个T/R对(测试区/参考区)。每个数据点的颜色由T/R对测试区域中的位点决定:浅灰色代表13号染色体;中灰色代表18号染色体;深灰色代表21号染色体。加入回归线(灰色线)证明了扩增子GC含量与对数归一化位点覆盖比值之间的相关性。
图4A(右)除了使用校正扩增偏差后的对数归一化位点覆盖度比值作为Y轴外,其它与图4(左)类似。Diff扩增子GC与校正扩增偏差后的对数归一化位点覆盖度比值无关,表明扩增子GC含量差异引起的PCR偏差已被抑制。
图4b所示的是箱线图,更直观地说明了PCR-偏差校正的有效性。每个方框代表一个染色体,在理想条件下,方框的中值应为零。不过,由于存在PCR偏差,代表21号染色体的方框校正前会下降,从而可能导致判断错误。经过PCR偏差校正后,代表21号染色体的方框会上升,表明校正是有效的。
图5为进行PCR偏差校正的实验过程示意图。将10份血浆DNA样本汇集在一起,然后再分成10等份进行扩增,从而获得10份经过PCR偏差校正的单独测序结果。
具体实施方式
本发明并不限于所述可能会改变的特定方法、指南、细胞系、分析和试剂。另外,文中术语是用来描述本发明特定实施例的,不会限制所附权利要求中本发明的范围。
除非另有定义,否则本文使用的所有科学技术术语的含义均与本发明所属领域普通技术人员通常理解的相同。尽管本发明实施或测试中可以使用与本文所述相似或等效的任何方法和材料,但本文仍然介绍了优选的方法、设备和材料。参考的所有出版物内容均已纳入本文,用以描述和公开可能与本发明相关的出版物所报告的方法、试剂和工具。本文中提到的内容均不能理解为本发明因为先前的发明而不可以提前公开。
本说明提及的所有出版物、专利和专利申请均用于参考,可视为特意和单独参考每个出版物、专利或专利申请。
除非另有说明,否则本发明的实施均采用本领域范围内涉及计算机科学、统计学、化学、生物化学、分子生物学、细胞生物学、遗传学、免疫学和药理学的常规方法。相关技术在文献中已有详细说明。例如《雷明顿药学》第18版,Gennaro,A.R.,编著(1990年),麦克出版公司出版;《酶学方法》,Colowick,S.等编著,学术出版社出版;《实验免疫学手册》,Vols.I-IV(D M.Weir和C.C.Blackwell,1986年编著,布莱克韦尔科学出版公司出版);《分子克隆:实验室手册》第2版第I-III卷,Maniatis,T.等编著(1989年),冷泉港实验室出版社出版;《精编分子生物学实验指南》第4版,Ausubel,F.M.等编著(1999年),约翰威立国际出版公司出版;《分子生物学技术:精编实验室课程》,Ream等编著(1998年),学术出版社出版;《分子克隆:实验室手册》第4版,M.R.Green和J.Sambrook等编著(2012年),冷泉港实验室出版社出版;《PCR(生物技术系列介绍)》第2版,Newton&Graham编著(1997年),施普林格出版社出版;《下一代测序:当前技术和应用》,J.Xu,编著(2014年),凯斯特学术出版社出版;《下一代高通量测序:方法和应用(分子生物学方法)》,Y.M.Kwon和S.C.Ricke编著(2011年),胡马纳出版社出版;《下一代测序:临床诊断学编译》,L.C.Wong编著(2013年),Springer出版社出版。
本发明涉及一种扩增偏差校正的方法。样本中不同位点的扩增效率并不恒定,不同样本中同一位点的扩增效率也不恒定。3′端稳定性、引物Tm、扩增子长度、扩增子GC含量和扩增子侧翼区GC含量的差异都可能会导致扩增偏差。这种偏差干扰了对目标基因组区域拷贝数的精确计算,并阻碍了扩增子测序在检测微小拷贝数变异中的应用。该方法可校正扩增偏差,也可用于使用扩增子测序数据检测微小拷贝数的变异(见示例)。
本发明可以限定在各种实施例范围内。因此涉及到一个或多个因素组合时均可视为与本发明有关。本发明的应用不会限于接下来所描述的设计和构成布置。本发明适用于完成其它实施例,也能以不同方式进行操作或实施。此外,本文中所用的措辞和术语是为了描述本发明,不能视为仅限制于某一范围。
本发明中“包含”、“包括”或“具有”、“具备”、“涉及”及其它类似用语是指包含其后所列项目、对等项目以及附加项目。
除非上下文另有明确说明,否则如本文和所附权利要求中使用的名词均包含单数及复数含义。例如,“核酸”也暗指技术人员熟知的多种类似核酸或等同物等等。
“大约”一词意味着正负百分之五的偏差,特别是与给定数量有关时。
本发明中所使用的“细胞”是指从原核生物、真核生物或古核生物中分离的任何类型的细胞,包括细菌、古生菌、真菌、原生生物、植物和动物,包括取自组织、器官和活检的细胞、重组细胞、体外培养细胞系中的细胞,以及含有核酸的细胞碎片、细胞成分或细胞器官。该术语还包括人造细胞,例如纳米颗粒、脂质体、聚合物或包裹核酸的微胶囊。细胞也指固定细胞或活细胞。
术语“核酸”、“核酸分子”、“多核苷酸”和“寡核苷酸”是指包括任何长度的核苷酸聚合形式,核糖核苷酸或脱氧核糖核苷酸。该术语仅指分子的一级结构,因此涉及了三链、双链和单链DNA,以及三链、双链和单链RNA。它还涉及修饰,例如经过甲基化和/或帽化及未经修饰的多核苷酸形式。术语“核酸”、“核酸分子”、“多核苷酸”和“寡核苷酸”在长度上没有预想的区别,这些术语可互换使用。
术语“靶核酸区域”或“靶核酸”是指“靶序列”有待扩增的核酸分子。靶核酸可以是单链或双链,也可以包括靶序列之外的其他序列,这些序列可能不会扩增。术语“靶序列”是指有待扩增靶核酸的特定核苷酸序列。靶序列可以包括包含在靶分子内的探针杂交区域,探针将在适当条件下与该区域形成稳定的杂交体。“靶序列”还可以包括寡核苷酸引物复合的络合序列,可通过作为模板的靶序列延伸。靶核酸原先为单链状态时,术语“靶序列”还指与靶核酸中“靶序列”互补的序列。“靶核酸”原先为单链状态时,“靶序列”还指的是正(+)负(-)链(或正义链和反义链)。
术语“引物”或“寡核苷酸引物”是指与核酸模板链杂交并在诱导合成引物延伸产物的条件下(即在核苷酸和DNA或RNA聚合酶之类聚合诱导剂存在的情况下,以及在适当的温度、pH、金属浓度和盐浓度条件下)合成与模板链互补的核酸链寡核苷酸和聚合诱导剂。为了获取到最高的扩增效率,引物可以优选单链,当然也可以选择双链。选择双链时,引物在制备延伸产物前,可预先分离其链。这种变性步骤一般会受到热的影响,但也可以用碱完成,然后再进行中和。因此,“引物”是对模板的补充,通过氢键或与模板杂交形成引物/模板复合物,然后再由聚合酶合成化合物,该复合物在DNA或RNA合成过程中通过在其3'端加入与模板互补的共价键合碱基来延伸。一般情况下至少使用一组寡核苷酸引物来扩增核酸,寡核苷酸引物含有至少一个正向引物和一个反向引物,可杂交到所要扩增核酸部分两侧的核酸区域。
术语“扩增子”是指PCR反应或其它核酸扩增过程(如连接酶链式反应(LGR)、基于核酸序列的扩增(NASBA)、转录介导扩增(TMA)、Q-β扩增、链置换扩增或靶向扩增等)的扩增核酸产物。RNA可通过RT-PCR生成DNA扩增子。
术语“探针”或“寡核苷酸探针”是指上述定义的多核苷酸,包含与靶核酸分析物中核酸序列互补的核酸序列。探针的多核苷酸区域可以由DNA、RNA和/或合成核苷酸类似物组成。为检测靶序列,探针可以标记。这种标记可以放在5'端、3'端、5'端和3'端以及内部。“寡核苷酸探针”可包含至少一个荧光剂和一个猝灭剂。荧光团荧光的猝灭可通过寡核苷酸中荧光团的核酸外切酶完成(例如,TaqMan分析)或通过寡核苷酸探针与核酸靶序列(例如,分子信标)杂交来完成。另外,用于核酸扩增时,寡核苷酸探针通常将从位于正义和反义引物之间的序列中获得。
值得注意的是杂交序列不需要以完美的互补性来确保稳定的杂交体。许多情况下,10%以下的碱基不匹配时,就会形成稳定的杂交体,从而忽略了4个或更多核苷酸的环。因此文中所用术语“互补”是指某些条件下通过“互补”方式形成稳定双链的寡核苷酸,通常情况下,其同源性约为90%或更高。
术语“杂交”和“杂交操作”是指在核苷酸序列之间形成的复合物,核苷酸序列之间的互补性足以通过Watson-Crick碱基配对形成复合物。一个引物与靶(模板)“杂交”时,该复合物(或杂交体)的稳定性足以满足进行DNA合成生成DNA聚合酶之类所需的功能。
双链DNA的“解链温度”或“Tm”是指由于碱基对之间氢键结合的加热或其他解离作用造成DNA螺旋结构的一半丢失的温度,例如通过酸或碱处理等。DNA分子的Tm取决于其长度和碱基组成。就Tm而言,富含GC碱基对的DNA分子比富含AT碱基对的DNA分子高。温度低于Tm时,分离的互补DNA链会重新自发结合或退火形成双链DNA。核酸最高杂交率出现在低于Tm约25摄氏度的地方。Tm可通过下面关系式估算:Tm=69.3+0.41(GC)%(Marmur等(1962)《分子生物学杂志》5:109-118)。
文中所用的“生物样本”是指受试者分离的细胞、组织或流体样本,包括但不限于血液、血浆、血清、粪便物质、尿液、骨髓、胆汁、脊髓液、淋巴液、皮肤样本、皮肤、呼吸道、肠道和泌尿生殖道外部分泌物、泪液、唾液、牛奶、细胞、肌肉、关节、器官、活检以及体外细胞培养成分的样本,包括但不限于培养基中细胞和组织生长产生的条件培养液,例如,重组细胞、人造细胞和细胞成分。
术语“受试者”是指任何无脊椎动物或脊椎动物受试者,包括但不限于人类和其他灵长类动物,包括非人类灵长类动物,如黑猩猩和其他猿类和猴类;农场动物,如牛、绵羊、猪、山羊和马;家养哺乳动物,如狗、猫;实验室动物,包括啮齿动物,如小鼠、大鼠和豚鼠;鸟类,包括家养、野生和猎用鸟类,如鸡、火鸡和其他鸡类、鸭、鹅等;昆虫,线虫、鱼、两栖动物和爬行动物。该术语不暗指特定的年龄,因此成人和新生儿都均包括在内。
扩增偏差的校正
本发明的方法可用于校正核酸多重扩增产生的测序文库偏差。该方法一般包括首先获取靶核酸的扩增子覆盖度数据,然后计算各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值,数据归一化之后去除异常值。扩增子覆盖度比值是根据以下公式归一化的。
为了纠正扩增偏差,可能导致扩增偏差的各种参数是通过分析测试区域和参考基因组区域之间的序列差异来评估的。另外还计算了引物3’端稳定性(Diff3’端稳定性)、引物解链温度(DiffTm)、扩增子长度(Diff扩增子长度)、扩增子GC含量(Diff扩增子GC)和扩增子侧翼区GC含量(Diff扩增子侧翼GC)之间的差值;回归参数值A1、A2、A3、A4和A5,是根据以下公式拟合数据得出的。
log(归一化覆盖度比值)
=A1×Diff3′端稳定性+A2×DiffTm+A3×Diff扩增子长度+A4
×Diff扩增子GC+A5×Diff扩增子侧翼GC
回归参数值A1、A2、A3、A4和A5可用于校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值。
对于某些实施例而言,待扩增靶核酸来源于多个样本。为了方便分析扩增偏差,如图1所示可在矩阵中对扩增子覆盖数据进行排序,其中每一行对应单独的扩增子,每一列对应单独的样本。如图2所示,可以从这种数据矩阵中创建扩增子覆盖度比值矩阵。接下来,如图3所示,可将扩增子覆盖度比值矩阵转换为使用行中位数归一化后的扩增子覆盖度比值矩阵。
待扩增和测序的核酸可以是基因组DNA或cDNA(通过反转录从RNA中获得)。核酸分子的来源包括但不限于细胞器官、细胞、组织、器官和有机体。例如,含有待分析核酸的生物样本可以是原核生物、古核生物或真核生物中分离出的细胞、组织或液体的任何样本,包括但不限于血液、唾液、口腔抹拭细胞、粪便、尿液,骨髓、胆汁、脊髓液、淋巴液、痰、腹水、支气管灌洗液、滑液、皮肤样本、皮肤外分泌物、呼吸道、肠道和泌尿生殖道、眼泪、唾液、牛奶、器官、活检和细胞样本,包括取自细菌、古细菌、真菌、原生生物、动植物的细胞以及体外细胞培养成分,包括在培养基中生长的重组细胞和组织。生物样本也可能含有源于病毒的核酸。在某些实施例中,核酸(例如,DNA或RNA)从单个细胞或所选择的细胞群中获得。细胞可以是活细胞,也可以是固定细胞。在某些实施例中,细胞可以是无脊椎动物细胞、脊椎动物细胞、酵母细胞、哺乳动物细胞、啮齿动物细胞、灵长类细胞或人类细胞。另外,细胞也可以是遗传异常细胞、稀有血细胞或癌细胞。靶核酸可以取自胎儿、儿童或成人。
对核酸(如DNA和/或RNA)进行扩增和测序之前,可通过多种方式对细胞进行预处理。例如,在某些实施例中,可使用一种或多种洗涤剂(例如Triton-x-100、Tween 20、Igepal CA-630、NP-40、Brij 35和十二烷基硫酸钠)和/或变性剂(例如,胍盐药剂)处理样本。在有细胞壁的酵母和植物之类的细胞类型中,可能需要先去除细胞壁促进细胞裂解。例如使用酶(纤维素酶、几丁质酶或溶菌酶-胞壁酸酶(破坏肽聚糖)、甘露酶和聚糖酶来去除细胞壁。熟悉本领域的专业人员都知道,使用何种酶去除细胞壁由研究的细胞类型决定。
细胞溶解后,可采用常规方法从细胞中提取核酸,例如用苯酚-氯仿提取、用乙醇沉淀或通过与固相(例如二氧化硅)进行非特异性结合。提取过程中注意切勿剪切待测序的核酸。另外,酶去除法或化学方法都可以用于去除污染的细胞成分(例如核糖体RNA、线粒体RNA、蛋白质或其它大分子)。例如,蛋白酶可以用来去除污染蛋白质。核酸酶抑制剂可以用来防止核酸降解。
DNA可在使用任何合适的聚合酶链式反应(PCR)技术进行测序前扩增。PCR中采用一对引物与靶核酸互补链杂交。每个引物都会由一个聚合酶以靶核酸为模板进行扩增。延伸产物在与原靶链分离后成为靶序列。新引物会通过一个聚合酶杂交和延伸。重复上述操作后,靶序列分子数量会呈几何式增长。采用PCR方法扩增样本中的靶核酸序列在本领域中是比较常见的,例如Innis等的《PCR指南》(学术出版社出版,1990年纽约)、McPherson等的《Taylor(1991年)聚合酶链式反应(PCR):基本原理和自动控制-一个实用的方法》(牛津IRL出版社出版)、Saiki等(1986年)的《自然》324:163以及美国专利号4,683,195、4,683,202和4,889,818均提及了该方法。
PCR使用相对较短的寡核苷酸引物,该引物位于待扩增靶核苷酸序列两侧,核苷酸序列的3'端彼此面对,引物各自向对方延伸。引物寡核苷酸的长度通常在10-100个核苷酸之间,例如15-60、20-40等,较为常见的是在20-40个核苷酸之间及该范围之间的任何长度。
DNA一般选择通过加热提取和变性,并与摩尔过量的第一和第二引物杂交。聚合是在四种三磷酸脱氧核糖核苷酸(dNTPs-dATP、dGTP、dCTP和dTTP)存在的条件下通过依赖于引物和模板的多核苷酸聚合剂(例如,任何能够产生引物延伸产物的酶,包括大肠杆菌DNA聚合酶I、DNA聚合酶I的克列诺片段、T4 DNA聚合酶、从水生栖热菌(Taq)及其它来源(如珀金埃尔默)如嗜热菌(美国生化药物)、嗜热脂肪芽孢杆菌(Bio-Rad)或嗜热球菌(“Vent”聚合酶,新英格兰生物实验室)催化的。这样就产生了两个“长产物”,其引物的5'端分别与原链的新合成互补物共价连接。反应混合物因而也返回到了聚合条件,例如通过降低温度、使变性剂失活或添加更多的聚合酶引动第二次循环。第二次循环有两个原始链、第一次循环的两个长产物、两个从原始链复制的新长产物以及两个通过长产物复制产生的“短产物”。短产物具有靶序列的序列,两端各有一个引物。每次循环都会产生两个长产物,而短产物的数量则为上一次循环结束时剩余的长产物和短产物数量之和。这样含有靶序列的短产物数量就会随着每次循环过程呈指数增长。PCR一般都是选用市售热循环器(可从Bio-Rad、应用生物系统公司和Qiagen获得)完成的。
如上所述,用逆转录酶将RNA逆转录成cDNA,然后进行PCR(即RT-PCR)即可扩增RNA。适用的逆转录酶包括禽原粒细胞增多症病毒(AMV)逆转录酶和Moloney小鼠白血病病毒(MMLV)逆转录酶(可从Promega、新英格兰生物实验室和赛默飞世尔科技公司获得)。一种酶可用于如美国专利5,322,770所述的两个步骤,文中已全部引用参考。采用这种方式时,cDNA可以通过所有类型的RNA生成,包括mRNA、非编码RNA、microRNA、siRNA和病毒RNA,以完成RNA转录的测序。
在某些实施例中,扩增就是采用克隆扩增法,包括但不限于桥式扩增、乳化PCR(ePCR)或滚环扩增。桥式扩增、乳化PCR(ePCR)或滚环扩增之类的克隆扩增法特别适合用于在离散区域中对扩增的核酸进行聚簇(参见美国专利7,790,418、美国专利5,641,658、美国专利7,264,934、美国专利7,323,305、美国专利8,293,502、美国专利6,287,824、国际申请专利WO 1998/044151 AL、Lizardi等(1998年)的《自然遗传学》,19:225-232、Leamon等(2003年)的《电泳分离法》24:3769-3777、Dressman等(2003年)的《美国科学院院报》,100:8817-8822、Tawfik等(1998年)的《自然生物技术》,16:652-656、Nakano等(2003年)的《生物技术杂志》,102:117-124,本文均已参考)。为此,可将适于高通量扩增的接头序列(例如,具有与通用扩增引物或桥式PCR扩增引物互补的接头序列)添加到5'和3'端的DNA或cDNA片段中。连接到固体载体上的桥式PCR引物可用于捕获包含与桥式PCR引物互补的接头序列的DNA模板,这样可以扩增DNA模板,而每个DNA模板的扩增产物就会聚集到固体载体上的离散区域中。
本发明的方法特别适合用于数字PCR法。对于数字PCR而言,进行PCR之前,含有核酸的样本分成了大量的单元。可采用很多种熟知的方法分隔单元,例如,通过微孔板、毛细管、乳剂、微室阵列或核酸结合面分隔。样本的分割可能会涉及到将任何合适的部分(包括整个样本)分布在单元之间。每个单元都有与其它单元隔离的独立的液量。单元可以通过乳液连续相之类的液相、容器至少一层隔离面之类的固相或其方式彼此隔离。在某些实施例中,单元可由布置在连续相中的液滴组成,这样液滴和连续相就能共同形成乳液。
单元可以任何适当的过程、方式和性质分成。例如,由吸管之类的液体分配器和液滴发生器通过搅拌样本(例如,摇动、搅拌、声波降解等)等分成。因此,单元可以连续、并行或成批分成,可以选择任何合适的容量。单元的容量可以基本一致,也可以不同。具有基本相同容量的典型单元是单分散液滴。单元的典型容量为小于约100、10或1μL、小于约100、10或1nL或小于约100、10或1pL的平均容量等。
样本分割后,可在单元内进行PCR。单元分成后可完成一个或多个反应。单元分成后也可以加入一种或多种试剂完成反应。试剂可通过不同的方式添加,例如液体分配器添加或液滴融合等。
PCR扩增后,通过计数含有PCR扩增子的单元即可确定核酸量。假设分子布居取决于泊松分布,那么不同分子的数量也可以在分割样本时确定。关于数字PCR方法的说明,请参见Hindson等(2011年)的《分析化学》,83(22):8604-8610、Pohl和Shih(2004年)的《分子诊断学专家评论》,4(1):41-47、Pekin等(2011年)的《实验室芯片》,11(13):2156-2166、Pinheiro等(2012年)的《分析化学》,84(2):1003-1011和Day等(2013年)《方法》,59(1):101-107,本文均已参考。
包括引物和探针的寡核苷酸可通过标准技术合成,例如通过亚磷酰胺化学法固相合成,参见美国专利4,458,066和4,415,732中所披露、Beaucache等的《四面体》(1992年)48:2223-2311、第13号应用生物系统用户公告(1987年4月1日)。其他化学合成方法有Narang等在《酶学方法》(1979年)中描述的磷酸三酯法68:90和Brown等在《酶学方法》(1979年)中公开介绍磷酸二酯酶法68:109。Poly(A)、Poly(C)或其他非互补核苷酸的延伸均可采用这些相同的方法纳入寡核苷酸中。聚氧化乙烯的延伸可通过熟知的方法与寡核苷酸偶联,参见Cload等的《美国化学学会杂志》(1991年)113:6324-6326、Levenson等的美国专利4,914,210、Durand等的《核酸研究》(1990年)18:6353-6359和Horn等的《四面体快报》(1986)27:4705-4708。
此外,寡核苷酸(例如,引物和探针)可与用于检测的标记耦合。现在已有多种方法可以衍生具有反应性功能的寡核苷酸,从而允许添加标记。例如,有几种方法可用于生物素化探针,以便通过抗生物素蛋白附着放射性、荧光、化学发光、酶或电子密标记。参见Broken等的《核酸研究》(1978年)5:363-384,(该论文描述了铁蛋白-抗生物素蛋白-生物素标记的使用)和Chollet等的《核酸研究》(1985年)13:1529-1541(该论文描述了寡核苷酸5'端通过氨基烷基磷酰胺连接臂的生物素化。还有几种方法可用于合成氨基衍生的寡核苷酸,这些寡核苷酸容易被荧光标记或由氨基反应基团衍生的其他类型的化合物标记,例如异硫氰酸酯、N-羟基丁二酰亚胺等,参见Connolly的《核酸研究》(1987年)15:3131-3139、Gibson等的《核酸研究》(1987年)15:6455-6467和Miyoshi等的美国专利4,605,735。这些方法也可用于合成巯基衍生寡核苷酸,可与硫醇特异性标记反应,参见Fung等的美国专利4,757,141、Connolly等的《核酸研究》(1985年)13:4485-4502和Spoat等的《核酸研究》(1987年)15:4837-4848。关于DNA片段标记方法的详细说明,参见Matthews等的《分析化学》(1988年)169:1-25。
寡核苷酸可通过将荧光分子连接到分子非连接端进行荧光标记。关于荧光标记的选择,参见Smith等的《酶学方法》(1987年)155:260-301、Karger等的《核酸研究》(1991年)19:4955-4962、Guo等的(2012年)《分析和生物分析化学》,402(10):3115-3125、Johnson和Spence 2010年的《分子探针手册-荧光探针和标记技术指南》第11版(分子探针/生命技术)。荧光标记使用的是荧光素及其衍生物,如美国专利4,318,846和Lee等的《细胞计量术》(1989年)10:151-164。本发明中使用的染料有3-苯基-7-异氰酸酯香豆素、吖啶,例如9-异硫氰酸酯吖啶和吖啶橙、芘、苯并恶二唑和美国专利4,174,384中指出的二苯乙烯。其他染料有SYBR绿、SYBR金、Yakima黄、Texas红、3-(ε-羧戊基)-3'-乙基-5,5'-二甲氧基-羰花青(CYA)、6-羧基荧光素(FAM)、CAL荧光橙560、Cal荧光红610、类星体蓝670、5,6-羧罗丹明-110(R110)、6-羧罗丹明-6G(R6G)、N',N',N',N'-四甲基-6-羧罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、2',4',5',7'-四氯-4-7-二氯荧光素(TET)、2',7'-二甲氧基-4',5'-6-羧罗丹明(JOE)、6-羧基-2',4,4',5',7,7'-六氯荧光素(HEX)、蜻蜓橙、ATTO-Tec;Bodipy、ALEXA、VIC、Cy3以及Cy5。这些染料可从供应商处购买,如生命技术公司(加利福尼亚卡尔斯巴德)、生物技术公司(加利福尼亚诺瓦托)和集成DNA技术公司(爱荷华科勒尔维尔)。荧光标记有美国专利4,318,846和Lee等的《细胞计量术》(1989年)10:151-164中提到的荧光素及其衍生物以及6-FAM、JOE、TAMRA、ROX、HEX-1、HEX-2、ZOE、TET-1或NAN-2等。
寡核苷酸也可以用小沟结合(MGB)分子标记,参见美国专利6,884,584、美国专利5,801,155、Afonina等(2002年)的《生物技术》32:940-944,946-949、Lopez-Andreo等(2005年)的《分析生物化学》,339:73-82和Belousov等(2004年)的《人类基因组学》,1:209-217。与未修饰的寡核苷酸相比,具有共价连接MGB的寡核苷酸对于其互补靶点更具序列特异性。此外,与未修饰的寡核苷酸相比,MGB基团加强了与互补DNA靶链的杂交稳定性,因此可以和较短的寡核苷酸杂交。
此外,利用下述技术可以用吖啶酯(AE)标记寡核苷酸。现有的技术允许在探针任何位置放置AE标记。参见Nelson等(1995年)的《非同位素探测、印迹和测序》(Kricka L.J.著)中“吖啶酯的化学发光法检测”,加利福尼亚圣地亚哥学术出版社出版、Nelson等(1994年)的《聚合酶链反应》(Mullis著)中“杂交保护分析法(HPA)在PCR中的应用”,马萨诸塞波士顿Birkhauser出版社出版、Weeks等的《临床化学》(1983),29:1474-1479、Berry等的《临床化学》(1988年)34:2087-2090。采用非基于核苷酸的连接臂化学法可将AE分子直接连接到探针上,探针内的任何位置均可放置标记。参见美国专利5,585,481和5,185,439。
DNA或cDNA分子可固定在固体载体上进一步纯化,固体载体有二氧化硅、吸附珠(寡核苷酸(dT)涂层珠或由聚苯乙烯乳胶、玻璃纤维、纤维素或二氧化硅制成的吸附珠)和磁珠,也可以通过反相、凝胶过滤、离子交换或亲和层析纯化。另外还可以采用电场法从其他分子中分离出DNA/cDNA片段。典型的电场法有聚丙烯酰胺凝胶电泳法、琼脂糖凝胶电泳法、毛细管电泳法和脉冲电场电泳。参见美国专利5,234,809、6,849,431、6,838,243、6,815,541和6,720,166、Sambrook等的《分子克隆:实验室演讲手册》(第3版,2001年)、《DNA重组法》(精选酶学方法,R.Wu,L.Grossman,K.Moldave著,1989年学术出版社出版,)、J.Kieleczawa的《DNA测序II:优化制备和清除》(2006年第2版,Jones&Bartlett Learning出版社出版),本文均已参考。
测序
任何高通量核酸测序技术均可用于本发明的实施。DNA测序技术包括使用标记终止剂、引物以及采用平板或毛细管凝胶分离的双脱氧测序反应(Sanger法)、使用可逆终止标记核苷酸的合成测序、焦磷酸测序、454测序、通过等位基因特异性杂交对标记克隆文库进行合成测序,然后再进行连接、实时监测聚合过程中标记核苷酸的掺入、聚合酶克隆测序,SOLiD测序等。
某些高通量测序方法可一步完成---单个分子可以隔离在固体面上完成平行测序。这种固体面有无孔面(如Solexa测序,参见Bentley等人发表在《Nature》杂志发表的文章,456:53-59(2008年)或Complete Genomics测序,参见Drmanac等人在《Science》杂志发表的文章,327:78-81(2010年))、孔阵列(孔中包含磁珠或结合有DNA模板的微粒)(如454测序,参见Margulies等人在《Nature》杂志发表的文章,437:376-380(2005年)或Ion Torrent测序,美国专利号2010/0137143或2010/0304982)、微机械薄膜(如SMRT测序,参见Eid等人在《Science》杂志发表的文章,323:133-138(2009年))或磁珠阵列(如SOLiD测序或聚合酶克隆测序,参见Kim等人在《Science》杂志发表的文章,316:1481-1414(2007年))。这些方法包括将分子在固体面上空间隔离前或隔离后进行扩增。之前的扩增可能基于乳液扩增,例如乳液PCR或滚环扩增。
Illumina Miseq、NextSeq和HiSeq平台上的测序比较特别,这些平台是通过合成技术完成可逆终止测序的(参见Shen等的文章(2012年)《BMC Bioinformatics》13:160、Junemann等的文章(2013年)《Nature Biotechnology》31(4):294-296、Glenn等的文章(2011年)《Molecular Ecology Resource》11(5):759-769和Thudi等的文章(2012年)《Brief Functional Genomics》11(1):3-11,本文均已参考)。
应用
本发明的方法特别适合各种疾病、结构异常和/或致死遗传相关非整倍性和/或拷贝数变异的遗传筛检。如文中所述,测序数据的扩增偏差校正更容易实现微小拷贝数变异的准确探查。这些方法特别适合在无创性产前检查胎儿染色体的非整倍性或拷贝数变异。生物样本可在孩子出生前后收集分析。如文中所述,检测非整倍性或拷贝数变异也就意味着后代发育异常或患病的风险在增加(例如唐氏综合征(21三体综合征)、爱德华兹综合征(18三体综合征)或Patau综合征(13三体综合征))。孩子可以是新生儿或胎儿,该方法也特别适合用于评估孩子出生前后是否可能患有与非整倍性或拷贝数变异有关的疾病,先前的孩子是否有此类疾病或家族是否有此类疾病,或者母亲是否有流产史。
本发明的方法也可用于癌细胞的基因检测。非整倍性和拷贝数变异通常与多种癌症有关。因此,对癌细胞或异常的潜在癌前细胞进行基因检测有助于确诊患有特定类型癌症或癌症前期的患者,从而给出适当的治疗方案。
为进行基因检测,需要从个体上采集含有核酸的生物样本。生物样本通常为血液、唾液或口腔抹拭或活组织检查的细胞,但也可以是体液、组织或含有该个体基因组DNA或RNA的细胞的任何样本。对于胎儿的产前检测,生物样本可以是羊水(羊膜穿刺术)、胎盘组织(绒膜绒毛取样)或胎儿血(脐带血取样)。母血中的无创无细胞胎儿DNA或母血中胎儿细胞核酸(FCMB)特别适合用于基因筛查。本发明的方法也适用于体外受精(IVF)胚胎的遗传筛选,比如通过胚胎植入前的遗传诊断(PGD)纠正扩增偏差,以便在转给母体前改进胚胎中非整倍性和/或拷贝数变异的检测。在某些实施例中,采用本领域熟知的方法进行扩增、测序和分析前,核酸是从生物样品中分离和/或纯化的。参见Green和Sambrook的《分子克隆:实验室演讲手册》(冷泉港实验室出版社;2012年第4版)和《精编分子生物学实验指南》(Ausubel著,1995年约翰威立国际出版公司出版),本文均已参考。
拷贝数变异可以根据“相对拷贝数”来评估,这样不同样本基因拷贝数的明显差异就不会被样本量的差异影响。基因的相对拷贝数(每个基因组)可表示为靶基因拷贝数与DNA样本中参考多核苷酸序列拷贝数之间的比。参考多核苷酸序列可以是具有已知基因组拷贝数的序列。参考序列只有一个基因组拷贝,通常不可能在基因组中扩增或删除,而且也无须按照经验确定参考序列的拷贝数,不过可以按照生物体中的正常拷贝数来假设。因此,DNA样本中靶核苷酸序列的相对拷贝数是根据两个基因的比来计算的。拷贝数变异的检测,即与对照者(如正常、健康受试者)相比,受试者基因数(即异常拷贝数)的增加或减少可以用于诊断疾病。
校正扩增偏差的系统和计算机操作方法
本发明还涉及一种用于校正扩增偏差的计算机操作方法,计算机操作步骤有:
a)接收用于多个靶核酸的输入扩增子覆盖度数据;
b)计算各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值;
c)去除异常值;
d)根据公式:归一化各靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值;
e)计算测试基因组区域扩增子和参考基因组区域扩增子之间各项参数的差值,包括引物3’端稳定性(Diff3’端稳定性)、引物解链温度(DiffTm)、扩增子长度(Diff扩增子长度)、扩增子GC含量(Diff扩增子GC)和扩增子侧翼区GC含量(Diff扩增子侧翼GC);
f)根据公式:log(归一化覆盖度比值)=A1×Diff3′端稳定性+A2×DiffTm+A3×Diff扩增子长度+A4×Diff扩增子GC+A5×Diff扩增子侧翼GC拟合数据,得到回归参数值A1、A2、A3、A4和A5;
g)使用回归参数值A1、A2、A3、A4和A5校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值;
h)显示校正扩增偏差后的扩增子覆盖度比值信息。
在某些实施例中,扩增子覆盖度数据取自多个样本的靶核酸。如图1所示,计算机操作方法还用于创建数据矩阵,以组织多个样本的数据,这时矩阵每一行对应单独的扩增子,每一列对应单独的样本。如图2所示,可从这种数据矩阵中创建扩增子覆盖度比值矩阵。如图3所示,可将扩增子覆盖度比值矩阵转换为使用行中位数归一化后的扩增子覆盖度比值矩阵。
在另一实施例中,计算机操作的方法还包括在校正扩增偏差后检测至少一个序列的染色体非整倍性和/或拷贝数变异。
本发明还涉及了实施文中所述计算机操作方法校正扩增偏差的系统。校正扩增偏差的系统配有包含处理器、存储组件(即存储器)、显示组件和其他常用组件的计算机。存储组件用于存储处理器可以访问的信息,包括处理器可以执行的指令和处理器可以检索、操作或存储的数据。
如文中所述,存储组件带有用于校正扩增偏差的指令(见示例)。计算机处理器耦合在存储组件上用以执行存储在存储组件中的指令,接收文中所述的扩增子覆盖数据以及校正扩增偏差。显示组件用于显示校正扩增偏差时预测的扩增子覆盖信息。
存储组件可以是任何类型,只要能够存储处理器可访问的信息即可,例如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、蓝光原盘、USB闪存、可写存储器和只读存储器。处理器可以是任何知名产品,如英特尔公司的处理器,也可以是ASIC之类的专用控制器。
指令可以是处理器直接执行(如机器代码)或间接执行(如脚本)的任何指令集。术语“指令”、“步骤”和“程序”在这里可以互换使用。指令可以目标码形式存储,方便处理器直接处理,或以任何其他计算机语言形式存储,包括按需解译或预先编译的独立源代码模块的脚本或集合。
处理器可根据指令检索、存储或修改数据。例如,虽然用于校正扩增偏差的系统不受任何特定数据结构的限制,但数据可以作为具有许多字段的表格、记录、XML文档或平面文件存储在计算机寄存器、关系数据库中。数据也可以任何计算机可读格式格式化,其中包括但不限于二进制值、ASCII或统一代码。此外,数据可以包括足以识别相关信息的任何信息,如数字、描述性文本、专有码、指示信息以及存储在其它存储器(包括其它网络位置)中的数据参考或通过函数计算相关数据的信息。
在某些实施例中,处理器和存储组件指的是可以或不可以安装在同一外壳中的多个处理器和存储组件。例如,有些指令和数据可以存储在移动DVD上,其它则存在只读计算机芯片中。部分或全部指令和数据可以存储在远离处理器但仍然可以被处理器访问的位置。同样,处理器实际上还指的是允许或不允许进行并行操作的处理器集合。
计算机是与一个或多个客户端计算机通信的服务器。所有客户端计算机同服务器一样都可以配置处理器、存储组件和指令。客户端计算机可以是个人计算机,配有个人计算机通用的所有内部组件,如中央处理器(CPU)、显示器(显示处理器处理信息的监控器)、DVD、硬盘驱动器、用户输入设备(鼠标、键盘、触摸屏或麦克风)、扬声器、调制解调器和/或网络接口设备(电话、电缆或其他)以及用于允许元件相互连接和相互通信(直接或间接)的所有组件。此外,文中所述系统和方法使用的计算机还包括能够处理指令并允许数据在操作人员和计算机间(包括缺乏本地存储能力的网络计算机)相互传送的任何设备。
虽然客户端计算机可以包括标准个人计算机,但在与能通过因特网之类网络与服务器进行无线数据交换的移动设备一起使用时,系统和方法在许多方面都会显得非常方便。例如,客户端计算机可以是支持无线的PDA,如黑莓手机、苹果iPhone、Android手机或其他支持互联网的移动电话。这种情况下,用户可以通过小键盘、辅助键盘、触摸屏或任何其它输入方式输入信息。计算机可以配置天线,用以接收无线信号。
服务器和客户端计算机能够通过网络之类直接和间接通信。典型系统配备了许多连接的计算机,每台计算机位于网络的不同节点。网络和中间节点是各种设备和通信协议组合,包括因特网、万维网、内部网、虚拟专用网、广域网、本地网、手机网、使用一家或多家公司专有通信协议的专用网、以太网,WiFi和HTTP。这种通信可由调制解调器(例如拨接装置或电缆)、网络和无线接口等能够在计算机间传送数据的任何设备来实现。服务器为Web服务器。
虽然如上所述信息在收发方面有一定优势,但系统和方法的其他方面也不会仅限于某种特定的信息发送方式。例如,在某些方面,信息可以通过磁盘、磁带、闪存驱动器、存储卡、DVD、蓝光或CD-ROM等介质发送。在其它方面,信息还能够以非电子格式发送并手动输入到系统中。不过尽管有些功能在服务器上使用,其它功能客户机上使用,但是系统和方法的诸多优势可以通过配有单个处理器的单个计算机来体现。
示例
本发明可通过以下示例加深理解,这些示例为典型范例,仅作为描述专利主张发明的范例使用。本发明的范围不受示范性实施例限制,示范性实施例仅用于说明本发明的某个方面。任何功能相当的方法均在本发明范围内。本发明相关修改内容及其它内容都比较容易理解。修改内容仅限定在所附权利要求范围。
示例1:用于胎儿非整倍性检测的多重PCR扩增偏差校正
本文描述了校正扩增偏差的计算方法及其在无创性产前检测(使用母体游离DNA辅助检查胎儿染色体非整倍性)中的应用。在对1855重PCR的扩增偏差进行校正后,可在胎儿DNA比例低至4%的母体血液中检测胎儿染色体非整倍体。
扩增子测序的扩增偏差校正如下:
1.如图1所示,获取每个被测样本的每个扩增子覆盖度,然后将数据输入矩阵,单行表示单个扩增子,单列表示单个样本。
2.使用步骤1中生成的数据矩阵,通过计算测试基因组区域和参考基因组区域之间每个扩增子组合的覆盖度比值,生成扩增子覆盖度比值矩阵(图2)。测试区域的扩增子覆盖度为分子,参考区域的扩增子覆盖度为分母。例如,给定测试区域的扩增子覆盖度:T1、T2和T3及参考区域的扩增子覆盖度:R1、R2和R3,则生成的覆盖度比值为:T1/R1、T1/R2、T1/R3、T2/R1、T2/R2、T2/R3、T3/R1、T3/R2、T3/R3。
3.按行去除步骤2中生成比值矩阵中的异常值。
4.步骤3的结果通过以下公式按行进行归一化:
5.计算测试和参考区域扩增子之间引物3’端稳定性(Diff3’端稳定性)、引物解链温度(DiffTm)、扩增子长度(Diff扩增子长度)、扩增子GC含量(Diff扩增子GC)和扩增子侧翼区GC含量(Diff扩增子侧翼GC)的差值。测试区域的扩增子参数在减号左侧,参考区域的扩增子参数在减号右侧。例如,给定测试区域的扩增子参数:T1、T2和T3以及参考区域的扩增子参数:R1、R2和R3,各差值为:T1-R1、T1-R2、T1-R3、T2-R1、T2-R2、T2-R3、T3-R1、T3-R2、T3-R3。
6.回归参数A1、A2、A3、A4和A5是将以下公式与步骤4和5的结果拟合获得的:
log(归一化覆盖度比值)=A1×Diff3′端稳定性+A2×DiffTm+A3×Diff扩增子长度+A4×Diff扩增子GC+A5×Diff扩增子侧翼GC
7.通过步骤6获得的回归参数可用于计算由3’端稳定性、Tm值、扩增子长度、扩增子GC、扩增子侧翼GC差异导致的扩增偏差,在对数归一化覆盖度比值的基础上减去扩增偏差,即得到扩增偏差校正后的对数归一化覆盖度比值(图4)。
示例2:用于混合血浆DNA样本的多重PCR扩增偏差校正
将10份血浆DNA样本混合在一起,然后再等分成10份分别进行PCR扩增(图5)。按照示例1所述校正PCR偏差,每份数据单独处理,以获得10份单独的测序结果。完成示例1的步骤1-4,然后计算每个T/R对之间扩增子GC含量的差值(T表示测试区域中的一个位点,R表示参考区域中的一个位点),得到Diff扩增子GC,按照Robust线性回归法拟合对数归一化扩增子覆盖度比值(示例1步骤4获得)和Diff扩增子GC:
log(归一化覆盖度比值)=β×Diff扩增子GC+α+ε
其中α为截距,β为斜率,ε为残差
如上所述,我们从同一个DNA来源获取了10份实验重复。PCR偏差即实验重复间位点覆盖的变化与位点的化学性质(GC含量、扩增子长度、3’端稳定性等)有关。使用示例1步骤6得到的回归参数计算了扩增偏差。接着计算了观测值和扩增偏差之间的差。图4A和4B所示的是PCR偏差校正的结果。仅使用了一份实验重复获取图4A和4B所示的数据。但其他实验重复也有类似的趋势。图4A所示的是扩增子GC含量PCR偏差校正前后扩增子覆盖度比值的对数归一化结果。图4A(左)所示的是Diff扩增子GC为X轴,对数归一化扩增子覆盖度比值为Y轴时的数据图,每个数据点代表一个T/R对。每个数据点的颜色由T/R对测试区域中的位点决定:浅灰色代表13号染色体;中灰色代表18号染色体;深灰色代表21号染色体。加入回归线(灰色线,示例1步骤6的计算结果)证明了扩增子GC含量与归一化位点覆盖率之间的相关性。图4(右)除了使用校正扩增偏差后的对数归一化位点覆盖度比值作为Y轴外,其它与图4(左)类似。Diff扩增子GC与校正扩增偏差后的对数归一化位点覆盖度比值无关,表明扩增子GC含量差异引起的PCR偏差已被抑制。图4B所示的是箱线图,更直观地说明了PCR-偏差校正的有效性。每个方框代表一个染色体,在理想条件下,方框的中值应为零。不过,由于存在PCR偏差,代表21号染色体的方框校正前会下降,从而可能导致判断错误。经过PCR偏差校正后,代表21号染色体的方框会上升,表明校正是有效的。
除了文中所示和描述的修改内容,本发明得出的其它结果都比较容易理解。这些修改内容均在所附权利要求范围内。
以上所述仅为本发明的某些示例性实施例,因此,附图和描述被认为本质上是示例性的而非限制性的。同时应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可通过各种不同方式做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (24)

1.一种用于校正扩增子测序中扩增偏差的方法,其特征在于,包括以下步骤:
a)扩增靶核酸;
b)获取靶核酸的扩增子覆盖度;
c)计算每个测试基因组区域靶核酸和参考基因组区域靶核酸之间的扩增子覆盖度比值;
d)去除异常值;
e)通过公式1对步骤c)中所得扩增子覆盖度比值进行归一化,
Figure FDA0002268639530000011
f)计算测试基因组区域扩增子和参考基因组区域扩增子之间各项参数的差值,包括引物3’端稳定性差值Diff3’端稳定性、引物解链温度差值DiffTm、扩增子长度差值Diff扩增子长度、扩增子GC含量差值Diff扩增子GC和扩增子侧翼区GC含量差值Diff扩增子侧翼GC
g)拟合数据,通过公式2计算回归参数值A1、A2、A3、A4和A5,
log(归一化覆盖度比值)=A1×Diff3′端稳定性+A2×DiffTM+A3×Diff扩增子长度+A4×Diff扩增子GC+A5×Diff扩增子侧翼GC ——公式2
h)使用回归参数值A1、A2、A3、A4和A5校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值。
2.根据权利要求1所述的方法,其特征在于,所述靶核酸为基因组DNA或RNA。
3.根据权利要求1所述的方法,其特征在于,所述扩增包含进行多重聚合酶链式反应。
4.根据权利要求1所述的方法,其特征在于,所述扩增包含进行多重逆转录聚合酶链式反应。
5.根据权利要求1所述的方法,其特征在于,所述靶核酸来自多个样本。
6.根据权利要求5所述的方法,其特征在于,还包括如图1所示的对扩增子覆盖度数据进行排序的矩阵,矩阵中每一行对应单独的扩增子,每一列对应单独的样本。
7.根据权利要求6所述的方法,其特征在于,还包括如图2所示建立的扩增子覆盖度比值矩阵。
8.根据权利要求7所述的方法,其特征在于,还包括如图3所示建立的使用行中位数归一化的扩增子覆盖度比值矩阵。
9.根据权利要求1所述的方法,其特征在于,还包括在所述校正扩增偏差后检测至少一个靶核酸的拷贝数变异。
10.根据权利要求1所述的方法,其特征在于,还包括在所述校正扩增偏差后检测染色体非整倍性。
11.根据权利要求10所述的方法,其特征在于,所述染色体非整倍性为胎儿染色体非整倍性。
12.根据权利要求1所述的方法,其特征在于,所述靶核酸取自胎儿、儿童或成人。
13.根据权利要求1所述的方法,其特征在于,所述靶核酸为人类靶核酸。
14.根据权利要求1所述的方法,其特征在于,所述靶核酸取自细胞、细胞群、组织、病毒、人造细胞或游离核酸体系。
15.根据权利要求14所述的方法,其特征在于,所述细胞为真核细胞、原核细胞或古核细胞。
16.根据权利要求1所述的方法,其特征在于,所述扩增子侧翼序列的长度不少于200个碱基对。
17.一种基于计算机的扩增偏差校正方法,其特征在于,包括以下步骤:
a)接收用于多个靶核酸的输入扩增子覆盖数据;
b)计算靶核酸测试基因组区域和参考基因组区域之间的扩增子覆盖度比值;
c)去除异常值;
d)通过公式1归一化各靶核酸在测试基因组区域和参考基因组区域之间的扩增子覆盖度比值,
Figure FDA0002268639530000031
e)计算测试和参考区域扩增子之间引物3’端稳定性差值Diff3’端稳定性、引物解链温度差值DiffTm、扩增子长度差值Diff扩增子长度、扩增子GC含量差值Diff扩增子GC和扩增子侧翼区GC含量差值Diff扩增子侧翼GC
g)通过公式2拟合数据,得到回归参数值A1、A2、A3、A4和A5,
log(归一化覆盖度比值)=A1×Diff3′端稳定性+A2×DiffTM+A3×Diff扩增子长度+A4×Diff扩增子GC+A5×Diff扩增子侧翼GC ——公式2
h)使用回归参数值A1、A2、A3、A4和A5校正扩增偏差,得到去除扩增偏差后的归一化扩增子覆盖度比值;
f)显示校正扩增偏差后的扩增子覆盖度比值信息。
18.根据权利要求17所述的方法,其特征在于,所述扩增子覆盖度数据来自多个样本的靶核酸。
19.根据权利要求18所述的方法,其特征在于,还包括如图1所示的对扩增子覆盖度数据进行排序的矩阵,矩阵中每一行对应单独的扩增子,每一列对应单独的样本。
20.根据权利要求19所述的方法,其特征在于,还包括如图2所示建立的扩增子覆盖度比值矩阵。
21.根据权利要求20所述的方法,其特征在于,还包括如图3所示建立的使用行中位数归一化的扩增子覆盖度比值矩阵。
22.根据权利要求17所述的方法,其特征在于,还包括在所述扩增偏差校正后检测至少一个靶核酸的拷贝数变异。
23.根据权利要求17所述的方法,其特征在于,还包括在所述扩增偏差校正后检测染色体非整倍性。
24.一种基于权利要求17所述方法的扩增偏差校正系统,其特征在于,包括:
a)用于存储扩增子覆盖数据的存储组件,其具有用于校正存储在其中的扩增偏差的指令;
b)处理数据的计算机处理器,其与所述存储组件耦合,执行存储在所述存储组件中的指令,以接收所述的扩增子覆盖数据并校正所述数据中的扩增偏差;
c)显示部件,用于显示校正扩增偏差后的扩增子覆盖度比值信息。
CN201780090677.0A 2017-03-20 2017-03-20 一种用于校正扩增子测序中扩增偏差的方法 Active CN110741094B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/077236 WO2018170660A1 (en) 2017-03-20 2017-03-20 Method of correcting amplification bias in amplicon sequencing

Publications (2)

Publication Number Publication Date
CN110741094A true CN110741094A (zh) 2020-01-31
CN110741094B CN110741094B (zh) 2023-04-11

Family

ID=63584824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780090677.0A Active CN110741094B (zh) 2017-03-20 2017-03-20 一种用于校正扩增子测序中扩增偏差的方法

Country Status (3)

Country Link
US (2) US20210110885A1 (zh)
CN (1) CN110741094B (zh)
WO (1) WO2018170660A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115637288A (zh) * 2022-12-23 2023-01-24 苏州赛福医学检验有限公司 一种检测smn1和smn2基因拷贝数变化的方法及其应用

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112022024008A2 (pt) * 2020-05-28 2022-12-27 Illumina Inc Comparação de cópias de polinucleotídeos com diferentes características
CN116092585B (zh) * 2023-01-30 2024-04-19 上海睿璟生物科技有限公司 基于机器学习的多重pcr扩增优化方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101821619A (zh) * 2007-09-07 2010-09-01 弗卢丁公司 拷贝数变化确定、方法和系统
US20160239732A1 (en) * 2014-11-20 2016-08-18 Clear Labs Inc. System and method for using nucleic acid barcodes to monitor biological, chemical, and biochemical materials and processes
US20160342733A1 (en) * 2015-05-18 2016-11-24 Regeneron Pharmaceuticals, Inc. Methods And Systems For Copy Number Variant Detection
US20160355873A1 (en) * 2013-02-20 2016-12-08 Bionano Genomics, Inc. Reduction of bias in genomic coverage measurements

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127186A1 (en) * 2009-04-30 2010-11-04 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
WO2013112655A1 (en) * 2012-01-24 2013-08-01 Gigagen, Inc. Method for correction of bias in multiplexed amplification
EP3248011A4 (en) * 2015-01-21 2018-11-14 T2 Biosystems, Inc. Nmr methods and systems for the rapid detection of tick-borne pathogens

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101821619A (zh) * 2007-09-07 2010-09-01 弗卢丁公司 拷贝数变化确定、方法和系统
US20160355873A1 (en) * 2013-02-20 2016-12-08 Bionano Genomics, Inc. Reduction of bias in genomic coverage measurements
US20160239732A1 (en) * 2014-11-20 2016-08-18 Clear Labs Inc. System and method for using nucleic acid barcodes to monitor biological, chemical, and biochemical materials and processes
US20160342733A1 (en) * 2015-05-18 2016-11-24 Regeneron Pharmaceuticals, Inc. Methods And Systems For Copy Number Variant Detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115637288A (zh) * 2022-12-23 2023-01-24 苏州赛福医学检验有限公司 一种检测smn1和smn2基因拷贝数变化的方法及其应用

Also Published As

Publication number Publication date
US20230005568A1 (en) 2023-01-05
US20210110885A1 (en) 2021-04-15
WO2018170660A1 (en) 2018-09-27
CN110741094B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
US11214798B2 (en) Methods and compositions for rapid nucleic acid library preparation
CA2983935C (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
JP6328934B2 (ja) 非侵襲性出生前親子鑑定法
JP6830094B2 (ja) 染色体異常を検出するための核酸及び方法
US9617598B2 (en) Methods of amplifying whole genome of a single cell
CN112037860B (zh) 用于非入侵性性染色体非整倍性确定的统计分析
CN107077537B (zh) 用短读测序数据检测重复扩增
US20140051585A1 (en) Methods and compositions for reducing genetic library contamination
US20230005568A1 (en) Method of correcting amplification bias in amplicon sequencing
AU2012304328A1 (en) Methods for obtaining a sequence
US20190338362A1 (en) Methods for non-invasive prenatal determination of aneuploidy using targeted next generation sequencing of biallelic snps
CN110914449B (zh) 构建测序文库
EP2885445A1 (en) Methods and compositions for reducing genetic library contamination
US20220145380A1 (en) Cost-effective detection of low frequency genetic variation
CN110894531A (zh) 用于猪的str基因座集及用途
CN117701701A (zh) 一种靶向全基因组扩增检测装置及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant