CN117980502A - 利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法 - Google Patents

利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法 Download PDF

Info

Publication number
CN117980502A
CN117980502A CN202280063537.5A CN202280063537A CN117980502A CN 117980502 A CN117980502 A CN 117980502A CN 202280063537 A CN202280063537 A CN 202280063537A CN 117980502 A CN117980502 A CN 117980502A
Authority
CN
China
Prior art keywords
sample
samples
dna
maternal
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280063537.5A
Other languages
English (en)
Inventor
尼科洛·马纳雷西
克劳迪奥·福尔卡托
阿尔贝托·费拉里尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Menarini Silicon Biosystems SpA
Original Assignee
Menarini Silicon Biosystems SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Menarini Silicon Biosystems SpA filed Critical Menarini Silicon Biosystems SpA
Publication of CN117980502A publication Critical patent/CN117980502A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及一种分析包含基因组DNA的多个样本中至少两个样本的相似度的方法。该方法包括以下步骤。a)提供包含基因组DNA的多个样本。b)对每个样本分别进行基因组DNA的确定性限制位点全基因组扩增(DRS‑WGA)。c)使用无片段化、测序衔接子/WGA融合引物PCR反应,由所述DRS‑WGA的每个产物制备大规模平行测序文库。d)对所述大规模平行测序文库以小于1x的平均覆盖深度进行低通全基因组测序。e)将步骤d)中获得的每个样本的读数与参考基因组进行比对。f)为每个样本提取多个多态性基因座上的等位基因含量。g)根据在所述多个基因座处测得的等位基因含量,计算至少两个样本的成对相似度得分基因座。h)根据相似度得分确定至少两个样本的相似度。

Description

利用确定性限制位点全基因组扩增(DRS-WGA)分析至少两个 样本的相似度的方法
相关申请的交叉引用
本专利申请要求2021年9月20日提交的第102021000024101号意大利专利申请的优先权,其全部公开内容通过引用并入本文。
技术领域
本申请涉及一种样本配对方法,该方法通过分析对所述多个样本进行的低通全基因组测序获得的数据,将多个样本中的每个样本的身份分配给一个类别或个体,在使用或不使用参考文献的情况下实现单细胞分辨率。
除样本配对外,该方法还提供了一种统一的检测方法,可同时鉴定和表征样本中的被测样本。
根据本申请的方法可用于多个应用领域,包括但不限于:
·单细胞法医学人体鉴定
·循环肿瘤细胞分析过程中的样本鉴定
·鉴定母体体液中的胎儿细胞或胎儿细胞的游离DNA(cfDNA),用于非侵入性产前检测
·在侵入性胚胎植入前基因检测(PGT)和对废胚胎培养基进行的非侵入性PGT中鉴定胚胎细胞或cfDNA
·在产前诊断中对侵入性获得的样本和妊娠产物进行胎儿成分鉴定(如:母体或外源性污染评估)
·葡萄胎妊娠、多胎妊娠(包括消失(Vanishing)/嵌合体(Chimera))、单亲二体(单亲同二体或单亲异二体)、ROH和近亲鉴定、来自孕体物质的不分离错误分类
·微嵌合体
细胞系鉴定(如干细胞)。
背景技术
样本鉴定和样本配对技术现状
最广泛的样本鉴定方法借助于分析高多态性短串联重复序列(STR)基因座(也称为微卫星)。这种方法包括对多个基因座进行有靶向PCR,然后用毛细管电泳检测扩增子。在人类鉴定中,由于每个基因座的每个等位基因(来自母系和父系)都可能有许多不同的值,因此只需扩增相对较少数量的基因座,就能产生很大的多样性,例如,在10或20个基因座测量的个体的等位基因大小,就能很大概率地鉴定出一大群人中的个体。将这种方法应用于单细胞可能具有挑战性,尤其是在DNA质量较低或已降解的情况下(例如,由于固定、储存环境条件或其他生物过程而降解),因为等位基因丢失会影响检索到足够的信息来确定样本身份。无论多重PCR是直接针对单细胞样本进行(从而消耗该样本),还是针对来自单细胞的全基因组扩增产物的等分试样进行(从而对同一WGA产物的不同等分试样进行重复检测),情况都是如此。
等位基因丢失可使STR检测的电泳图中检测到的等位基因显著减少到80%、70%、60%、50%、40%、30%、20%、10%或更低。此外,可以发生等位基因插入,导致额外的峰值干扰判读,尤其是高度降解的样本和低输入模板(如单细胞)。这样得到的信息就不足以有信心地指定样本的身份。
对STR基因座的等位基因最低数量的要求取决于多种因素,但一般情况下,本领域技术人员都知道,当将一个图谱与大群体进行比对时,需要许多信息量更大的基因座,而将一个样本与较少的潜在贡献者队列进行比对则是一个更简单的问题,可以用较少的检测等位基因数量来解决。
例如,在性侵犯等法医案件中,可能存在来自一名或多名犯罪者和受害者的DNA和细胞,贡献者的数量可能是1名受害者和1、2、3、4、5或更多名犯罪者。在多名男性犯罪者的情况下,由于分析的靶细胞是精子细胞,而精子细胞是单倍体,每个基因座只有一个等位基因,因此问题可能会更加严重。因此,在分析个案中的单细胞时,在单细胞数据有限的情况下,可能无法利用单细胞信息可靠地推断出贡献者的数量,并聚集来自该贡献者的重建完整的特征。
例如,可使用DEPArray(Fontana等,“从法医生物混合物中分离和遗传分析纯细胞:数字方法的准确性(Isolation and genetic analysis of pure cells fromforensic biological mixtures:The precision of a digital approach)”,ForensicSciences International:Genetics,2007,http://dx.doi.org/10.1016/j.fsigen.2017.04.023),使用经过验证的法医应用程序,允许一次DEPArray运行最多可采集48个单细胞,或使用DEPArray系统提供的不同应用程序,最多可采集96个单细胞。
K.Anslinger和B.Bayer在“Whose blood is it?Application ofDEPArrayTMtechnology for the identification of individual/s who contributedblood to a mixed stain”(“这是谁的血?DEPArrayTM技术在识别混合染色中献血者中的应用”),Int J Legal Med.2019Mar;133(2):419-426.doi:10.1007/s00414-018-1912-7.Epub 2018Aug 18中已证明使用DEPArray系统分离单个细胞,从血液中血液的混合证据中对不同贡献者图谱进行了单细胞法医鉴定。
一般来说,通过从单个细胞的多个不完整图谱进行计算机重建完整图谱来重建完整图谱和/或确定遗传信息的问题难以解决
(i)分析的单细胞数量较少,
(ii)每个细胞检测到的等位基因数量较少,
(iii)贡献者的人数较多,
(iv)少部分贡献者在分析细胞中的代表性较少。
除了通过直接分离单个细胞获得单细胞法证外,其他方法如亚取样(K.Huffman,E.Hanson和J Ballantyne,“通过直接单细胞二次采样和简化微操作从混合物中回收单一来源的DNA图谱(Recovery of single source DNA profiles from mixtures by directsingle cell subsampling and simplified micromanipulation)”,Science&JusticeVolume 61,Issue 1,January 2021,Pages13-25)也需要分析多个样本,这些样本由小细胞池组成,如每个细胞池2或3个细胞。在这种情况下,建立系统来鉴定细胞池是由来自同一贡献值的细胞还是由多名贡献值的细胞组成,并在可能的情况下鉴定所有细胞池中贡献者的总人数,以及对同质细胞池进行进一步的基因分析,例如用于额外的调查目的,如确定祖先或与基因组特征相关的身体特征,可能是有益的。
再比如,细胞系鉴定通常使用STR分析法实施。大多数STR试剂盒需要使用毛细管电泳测序仪对荧光扩增产物进行片段长度分析。随着大规模平行测序仪的普及,毛细管电泳的可用性下降,许多实验室发现自己无法使用毛细管电泳分析内部STR图谱。
现在已经有了使用大规模平行测序仪分析STR的目标PCR面板。然而,这意味着需要购买实验室中通常没有的额外试剂。
再比如,在基于从母体体液中分离胎儿细胞的非侵入性产前诊断方案中,需要对样本进行鉴定和/或配对。例如,这些细胞可以是从母体血液中分离出来的胎儿细胞(如胎儿有核红细胞或滋养层细胞)。由于细胞非常稀少,因此存在显著风险,即从富集过程中分离出的单个细胞很可能是母体细胞而非胎儿细胞,原因有多种,如免疫荧光染色的特异性有限或形态学选择不明确、技术不完善以及分离过程中使用的分选设备出错等。无论分离这些细胞的过程和标准是什么,鉴于确保诊断是基于真正的胎儿细胞进行的重要性,必须验证遗传分析输入的是否只有胎儿遗传物质,并检测可能的母体污染(混合细胞)或完全的样本交换(单细胞是母体的),甚至是来自操作者等的污染。虽然混合样本(如1个胎儿细胞1个母体细胞,即50%的污染)在某些染色体非整倍体分析中仍然是可以接受的,但较低的纯度可能会影响较小畸变(如微缺失)的检测,这取决于所使用的检测方法。
因此,现有技术中的现行做法是对基于细胞的非侵入性产前诊断过程(NIPD)中回收的细胞进行STR分析,作为胎儿来源的额外确证检测(Vossaert L,Wang Q,Salman R等,“单循环滋养层细胞基因检测作为一种非侵入性产前诊断形式的验证研究(ValidationStudies for Single Circulating Trophoblast Genetic Testing as a Form ofNoninvasive Prenatal Diagnosis)”American Journal of Human Genetics(2019)105(6)1262-1273;L.D.Jeppesen等,“基于细胞的非侵入性产前诊断在囊性纤维化高危妊娠中的应用(Cell-based non-invasive prenatal diagnosis in a pregnancy at risk ofcystic fibrosis)”Prenatal Diagnosis.2020;1-7;Manaresi等,EP2152859B1)。
在最近的一篇论文(Zhuo X,Wang Q,Vossaert L,Salman R,Kim A,Van denVeyver I等(2021)“使用基于扩增子的测序检测胎儿身份和单基因特征,使用单循环滋养层细胞(SCT)作为一种基于细胞的NIPT(Use of amplicon-based sequencing fortesting fetal identity and monogenic traits with Single CirculatingTrophoblast(SCT)as one form of cell-based NIPT)”PLoS ONE 16(4):e0249695.https://doi.org/10.1371/journal.pone.0249695)中,人们认识到“低覆盖度的全基因组鸟枪法(WGS)测序(每个细胞500万-1000万个读数)可提供良好的拷贝数数据,但如果胎儿为女性,则不能轻易区分胎儿和母体细胞”。在这项工作中,提出了利用基于PCR的目标扩增(40个扩增子)和大规模平行测序对一组90个高多态性SNP进行基因分型,作为STR分析的替代方法,以确认用于诊断的回收细胞的胎儿来源。这种方法只需从单细胞WGA产物中提取一小部分DNA,但与基于低通WGS评估非整倍体的工作流程相比,其缺点是需要额外的样本处理和相关费用。
针对循环滋养层细胞已证实对葡萄胎妊娠和妊娠滋养层细胞疾病进行非侵入性评估(Sunde L等,“Hydatidiform molediagnostics using circulating gestationaltrophoblasts isolated from maternal blood”Mol Genet Genomic Med.https://doi.org/10.1002/mgg3.1565),但要确定从母体血液中分离出来的罕见滋养层细胞的来源,STR分析再次被认为是必不可少的。水泡状胎块(HM)可以是“完全性葡萄胎”,通常为二倍体,两个基因组均来自父亲(亲本类型:PP),原因是卵子受精后失去了母核,在大多数情况下是精子染色体重复,或在少数情况下是两个精子受精。大多数亲本PP型HM在所有基因座(P1P1)上都表现出纯合性,而大约15%的HM在某些基因座(P1P2)上表现出杂合性。部分葡萄胎是典型的三倍体HM,两个基因组来自父亲和一个基因组来自母亲(亲本类型:PPM)。完全性葡萄胎会增加罹患绒毛膜癌的风险(15%,而部分葡萄胎仅为0.5%)。因此,了解HM是否携带母体基因组拷贝或母体基因组拷贝缺失是很有意义的。
需要样本配对方法的另一个实例是实验室工作流程中的样本跟踪鉴定。在对多个低通全基因组测序样本进行测序以进行全基因组拷贝数分析时,验证是否存在样本混淆以及实验室管理信息系统(LIMS)中的患者样本代码分配是否与从测序数据中获得的患者分配一致可能是有益的。
需要样本配对方法的另一个实例是评估异基因造血细胞移植(allo-HSCT)患者的内皮细胞来源(宿主或供体)。检测供体来源的内皮细胞对研究内皮细胞与移植物抗宿主病(GVHD)之间的生理病理关系很有意义,因为血管内皮细胞作为GVHD早期阶段靶标的潜在作用、供体来源的内皮细胞的潜在耐受作用以及移植物抗肿瘤(Penack O.等,“血管新生及其抑制对异体造血干细胞移植的重要性(The importance of neovascularization and itsinhibition for allogeneic hematopoietic stem cell transplantation)”,Blood,Volume 117,Issue 16,21April 2011,Pages 4181-4189)。为了进行此类分析,通常会使用性别不匹配的样本,但优选能有一种方法来分析宿主和捐献者性别相同的样本。据报道,通过DEPArray分离单细胞后进行的STR分析可用于分析从外周血中富集的循环内皮细胞。然而,由于DNA降解会阻碍单细胞STR分析,因此很难对FFPE等存档样本进行单细胞STR分析。
基于循环cfDNA对胎儿染色体失衡进行非侵入性产前筛查,可以评估是否有足够的胎儿DNA比例(FF),因为低水平的FF可能会导致假阴性结果。因此,准确评估胎儿DNA比例非常重要,确保其通过质控阈值,以确保检测样本中有足量的胎儿DNA存在,并能对测序结果做出正确的解释。有些实验室可能没有对FF进行评估,或没有采用最佳的检测方法,这就有可能给患者带来假阴性结果。目前开发的利用新一代测序技术估算胎儿DNA比例的方法包括:
·通过评估胎儿/胎盘cfDNA不同于母源的特征,间接推断其估算值(基于无细胞DNA大小的方法、基于无细胞DNA核小体轨迹的方法、基于胎儿甲基化标记的方法、基于浅层母体血浆DNA测序数据的方法)。
·直接评估和量化母体背景中不存在的遗传变异(基于Y染色体的方法、基于亲本基因型的母体血浆DNA测序数据方法、基于母体血浆DNA的高深度测序数据方法、基于母体基因型的浅深度母体血浆DNA测序数据方法)(Peng XL,Jiang P.非侵入性产前检测中胎儿DNA组分估计的生物信息学方法(Bioinformatics Approaches for Fetal DNA FractionEstimation in Noninvasive Prenatal Testing).Int J Mol Sci.2017Feb 20;18(2):453)。
利用基于亲本基因型方法(主要通过分析SNP)的母体血浆DNA测序数据,可以很容易地从序列读数中鉴定出母体血浆中的胎儿特异性等位基因。尽管这种方法能直接准确地评估胎儿DNA比例,并被普遍认为是一种金标准,但这种方法的可行性有时会受到对亲本基因型要求的阻碍,因为i)在大多数临床情况下,NIPT只能采集母体血样,而母体血浆DNA必须进行测序;ii)在实践中,无法获得生父基因型的情况并不少见。
为了避免对亲本基因型信息的要求,开发了一种方法,利用靶向的大规模平行测序技术,通过对母体血浆DNA测序数据的高深度分析来测量胎儿DNA比例。在这种方法中,采用二项混合模型来拟合观察到的等位基因计数,并使用基础的四种母胎基因型组合,通过最大似然估计来确定胎儿组分。这种方法的局限性在于,为了稳健地确定胎儿等位基因,靶向测序的测序深度需要高达约120倍,这就影响了检测成本。
基于浅深度测序数据与仅母体基因型信息相结合,最近开发出了这种方法的扩展版(浅深度母体血浆DNA测序数据与基于母体基因型的方法)。这种方法的基本原理是利用这样一个事实,即在母亲为纯合的SNP基因座上出现的任何替代等位基因(非母体等位基因),理论上都会提示胎儿特异的DNA等位基因。因此,假定测序和基因分型平台所产生的错误率在不同病例中相对恒定,这种非母体等位基因的比例就会与胎儿DNA比例相关。然而,该模型中的参数可能会因测序和基因分型平台的不同而变化,因为不同平台具有不同的误差特性,这可能会导致测得的非母体等位基因的不同。因此,很明显,利用浅深度母体血浆DNA测序和仅利用纯合母体基因座(通过基于SNParray的母体血沉棕黄层基因分型获得),在检测胎儿拷贝数变异的同时可靠地测量FF是具有挑战性的。
在最接近的现有技术文献中,可以引用以下文献:Sejoon Lee等,“NGSCheckMate:用于在数据类型内和数据类型间验证下一代测序研究中样本身份的软件(software forvalidating sample identity in next-generation sequencing studies within andacross data types)”,Nucleic Acids Research,2017,Vol.45,No.11,其教导了一种确保来自同一受试者的NGS数据集正确配对的方法。NGSCheckMate方法使用一种基于模型的方法来验证来自FASTQ、BAM或VCF文件的样本身份,比较约12k或21k单核苷酸多态性(SNP)基因座的等位基因读数分数,同时考虑到相同和不相关样本的相似度指标的深度依赖行为。NGSCheckMate适用于多种数据类型,包括外显子组测序、全基因组测序、RNAseq、ChIP-seq、靶向测序和单细胞全基因组测序,但教导了对测序深度的要求>0.5X。如果是亲缘关系或亲本关系样本,要求甚至更高(>3x)。事实上,SejoonLee等对一个数据集测试了他们的方法,该数据集由89个WGS图谱组成,这些图谱是来自两名不相关的胶质母细胞瘤患者的单个癌细胞(每名患者分别有39个和50个细胞),测序深度(0.01-0.3X),以在单细胞水平上表征CNV,他们对细胞分组的准确率仅为87.8%,所有误分类错误都是由于测序深度特别浅(<0.15X)的少数细胞造成的。
单细胞全基因组扩增和低通全基因组测序
通常需要对单细胞基因组DNA进行全基因组扩增(WGA),以获得更多的DNA,从而简化和/或进行不同类型的基因分析,包括测序、SNP检测等。基于确定性限制位点的LM-PCRWGA(以下简称DRS-WGA)已在WO2000/017390中公开。
DRS-WGA在许多方面已被证明是同类WGA方法中最好的,尤其是在降低单细胞等位基因丢失方面(Borgstrom等,2017;Normand等,2016;Babayan等,2016;Binder等,2014)。
Hodgkinson C.L.等,Nature Medicine 20,897-903(2014)中使用了一种基于LM-PCR的DRS-WGA商业试剂盒(Ampli1TM WGA试剂盒,Silicon Biosystems)。在这项工作中,通过对单细胞WGA材料进行低通全基因组测序进行了拷贝数分析,在Illumina条形码化衔接子连接用于测序之前对WGA衔接子进行了消化和片段化。
WO2017/178655和WO2019/016401A1教导了一种简化的方法,从DRS-WGA(例如Ampli1 WGA)中制备大规模平行测序文库,用于低通全基因组测序和拷贝数分析。Ferrarini等在PLoSONE 13(3):e0193689https://doi.org/10.1371/journal.pone.0193689中详细介绍了WO2017/178655使用Ion Torrent平台进行拷贝数图谱分析的方法性能。
DRS-WGA已被证明比DOP-PCR更适合分析微量显微解剖FFPE材料的拷贝数图谱分析(Stoecklein等,Am J Pathol.2002Jul;161(1):43-51;Arneson etal.,ISRNOncol.2012;2012:710692.doi:10.5402/2012/710692.Epub 2012Mar14.),然而,在使用阵列CGH、分裂相CGH以及其他遗传分析测试时,如使用靶向引物和PCR分析选定的微卫星的杂合性缺失时,表明,根据FFPE DNA的质量,单细胞FFPE LP-WGS是可能的,但对于较低的DNA质量分数可能变得不切实际(Mangano,C.,Ferrarini,A.,Forcato,C.等“以单细胞分辨率精确检测基因组失衡揭示霍奇金淋巴瘤患者体内异质性(Precise detection of genomicimbalances at single-cell resolution reveals intra-patient heterogeneity inHodgkin's lymphoma)”.Blood Cancer J.9,92(2019).https://doi.org/10.1038/s41408-019-0256-y)。
总之,有必要提供一种利用低覆盖度(<0.15x)测序数据,允许推断样本身份和/或分析相似度直至单细胞分辨率的方法,以克服现有技术中固有的以下一个或多个局限:
-需要单独的微卫星分析测定;
-需要单独的SNP基因分型测定;
-全基因组测序覆盖度>0.5x;
-无法可靠地重新分析单个细胞以进行验证或额外靶向的基因组信息。
在单细胞法医鉴定方面,需要有一种有效的方法,即使单细胞质量不佳,也能确定多个单细胞样本中每个样本的身份,并进一步调查样本所属个体的遗传特征。
对于肿瘤样本的全基因组拷贝数图谱分析,包括单细胞分析,如单个CTC分析或单个FFPE细胞,可能需要提供一种固有的样本跟踪算法,以避免低通全基因组测序样本的交换,和/或检测不同样本的混杂。
对于从母体血液中获取的循环胎儿细胞的非侵入性产前检测或诊断,需要有一种高效的分析方法,在单个测定中将(i)胎儿全基因组图谱分析(如全基因组拷贝数图谱分析)与(ii)确认样本的胎儿来源的能力结合在一起。
对于利用低通全基因组大规模平行测序技术,根据循环胎儿无细胞DNA与母体来源的无细胞DNA的混合情况进行的非侵入性产前检测,需要有一种高效的分析方法,以便i)鉴定胎儿成分并评估其相对于母体成分的数量(例如:胎儿比例,FF);ii)根据相同的低通测序数据对样本进行全基因组拷贝数分析。
对于胚泡、废胚胎培养基等胚胎植入前基因筛选(PGS,也称胚胎植入前基因检测或“PGT”),需要有一种使用单一测定检测和/或量化母体细胞或外源污染的方法,以避免分析中出现假阴性或性别不一致的情况,并能结合以下功能:(i)全基因组胚胎基因组图谱分析(如:全基因组拷贝数图谱分析),其可用于例如确认样本中是否存在非整倍体;(ii)从相同的低通测序数据中量化和/或确定是否存在母体污染。
对于产前样本(例如:绒毛膜绒毛、羊水、妊娠产物),需要有一种使用单一测定来检测和/或量化母体细胞或外源污染的方法,以避免分析中出现假阴性或性别不一致的情况,这种方法能结合以下能力:i)胎儿全基因组图谱分析和(ii)从相同的低通测序数据中量化和/或确定不存在母体污染。
除此以外,需要还有一种在胚胎-胎儿发育的任何阶段,使用单一测定检测来自孕体的遗传物质,如葡萄胎妊娠、多胎妊娠(包括消失/嵌合体)、单亲二体(单亲同二体或单亲异二体)和ROH(专利号:WO2021019459A1)、近亲和不分离错误分类的方法。
在细胞系鉴定方面,需要有一种使用单一测定同时进行以下鉴定的方法:
(i)使用广泛可用的大规模平行测序仪鉴定细胞系,而无需对可用性较低的毛细管电泳仪进行STR分析,以及
(ii)对细胞系进行全基因组图谱分析(如全基因组拷贝数图谱分析),以可能地检测与基因组不稳定性有关的漂移或因大量培养传代而产生的人工产物。
对于需要对来源个体进行单细胞表征的FFPE档案样本,如分析异基因造血干细胞移植中的内皮细胞,需要有一种技术能从FFPE(分选或显微解剖)分离的单细胞中得出可靠的结果。
发明内容
因此,本申请的目的是提供一种克服现有技术方法缺点的方法。
特别是,本申请的目的是提供一种用于分析多个样本中至少两个样本的相似度的方法,所述样本包括与少数细胞兼容、甚至单细胞的基因组DNA,以及与一个基因组当量相当或低于一个基因组当量的DNA计数。
这一目标可通过权利要求1所定义的方法实现。
附图说明
图1显示了与本领域已知的随机片段化文库制备相比,使用本申请的方法(包括DRS-WGA,然后是无片段化、测序衔接子/WGA融合引物PCR反应)在自身样本和不相关样本之间具有更高的分辨率。
图2显示了根据本申请的方法,将基于最高杂合度的基因座数量增加到300k个多态性基因座与NGScheckMate选择21k个SNP的对比效果:鉴别能力提高。
图3A和图3B显示了根据本申请的不同方法计算得出的成对样本的相似度得分分布,这些样本属于相同(自身)或不同(不相关)的个体(使用细胞系)。图3A中使用相关性作为距离方法(NGSCheckMate的标准方法)。图3B中使用一致性来评估样本的相似度。具体来说-如果调用的等位基因相同,得分加1;-如果调用的等位基因部分重叠(例如一个样本有2个等位基因,另一个只有1个),得分加0.5;-如果调用的等位基因不同,得分加0。然后将得分除以比较的两个样本中覆盖的等位基因数。
图4A至图4C和图4D至图4F显示了如最小平均杂合度、读取数量等参数之间的关系,以及自身和不相关样本之间的分离结果。
图5A至5D显示了在每个样本的读取数量等于500,000的情况下,亲缘样本相对于自身母本样本和不相关样本的分类性能。
图6显示了针对自身样本(母本)、亲缘样本和不相关样本根据最小平均杂合度(范围=0.2-0.498)相对于母本样本的一致性计算的成对相似度得分的分布。
图7是检测双胎妊娠的方法的简图。通过与母体对照的“亲缘”关系描述的胎儿细胞的所有成对预测结果用作图聚类算法的输入,以找到胎儿细胞的“群体”。
图8显示了从两个不同母体样本的外周血中分离出的成红细胞回收物中,相对于母本样本计算出的平均成对相似度得分的分布情况。
图9A至9C显示了对样本BO1368的细胞回收物进行的基于聚类的分类。这两个混合细胞的剪影得分远低于胎儿细胞,可用于将它们与胎儿细胞区分开来,并与混合样本创建一个新的聚类。
图10A至10C显示了样本BO1383的细胞回收物的基于聚类的分类。
图11A和11B显示了与不相关样本相比,单个样本的分类性能,不相关样本中自身样本的成分最多为50%。图11A是亲缘类的TPR和1-PPV相对于“一致性”阈值的“ROC式”图。图11B显示了不同AvHet时的TPR和PPV。阈值(灰色)的设置是为了使ppv至少为99.9%。阈值在二级y轴上显示为灰色。
图12显示了对来自不同个体的、不同污染程度的成对样本计算出的成对相似度得分(一致性)的分布情况。
图13A至13C显示了根据个体身份对来自FFPE样本的单细胞回收物进行的分类。来自4名患者的FFPE样本(淋巴瘤)。500,000读数子样本。根据一致性达成一致。如果一个或两个成员的DLRS均>0.4,则比较结果被标记为高DLRS(x轴);如果两个成员的DLRS均≤0.4,则比较结果被标记为低DLRS。图13C显示了聚类正确地将所有FFPE样本分配到对应于4个个体的4个不同聚类中。
图14显示了对母体DNA污染程度从0(100%胎儿)到90%(10%胎儿)不等的无细胞废培养基以及相关相似度得分的计算机模拟。图中特别显示了将来自单个胎儿细胞的不同比例的DNA序列与来自母体细胞的序列计算机混合后进行的模拟。实线对应的是不同胎儿输入比例下的平均成对相似度得分。阴影区域对应95%的置信区间。虚线表示已知母体成分百分比(80%)的混合样本,和母体参照的成对相似度得分=0.807的实例,根据模型,平均预测胎儿成分=27.7%(C.I.=25.4%-30.7%),对应于估计的母体DNA污染≈75%。
图15A和15B显示了在对混合样本进行全基因组拷贝数分析时补偿污染的效果。具体而言,图中显示的是对混合样本的全基因组拷贝数分析,混合样本是将来自单个胎儿细胞(20%)的不同比例的DNA序列与来自母体细胞(80%)的序列进行计算机混合而得到的。图15A显示了全基因组拷贝数图谱;每个点对应一个10Mbp的基因组区(genome bin)。图15B显示了应用校正因子=0.75后的全基因组拷贝数,校正因子是根据与母体参考的成对相似度得分估算的母体DNA污染百分比得出的。具有统计学意义的改变以黑色实线表示。
具体实施方式
定义
除非另有定义,本文中使用的所有技术和科学术语均与本发明所述领域的普通技术人员通常理解的含义相同。尽管与本文所述方法和材料相似或等效的许多方法和材料可用于本申请的实践或测试,但下文描述了优选的方法和材料。除非另有说明,本文所述的用于本申请的技术都是本领域普通技术人员熟知的标准方法。
所谓“大规模平行下一代测序(NGS或MPS)”是指一种DNA测序方法,包括创建一个在空间和/或时间上分离的DNA分子文库,进行克隆测序(无论是否事先进行克隆扩增)。实例包括Illumina平台(Illumina Inc)、Ion Torrent平台(Thermo Fisher ScientificInc)、Pacific Biosciences平台、MinIon(Oxford Nanopore Technologies Ltd)。
所谓“低通全基因组测序”是指以低于整个参考基因组1x的平均测序深度,对未富集序列特异性片段的大规模平行测序文库进行全基因组测序。该定义明确排除了针对一组基因座的基于PCR的靶标富集或序列特异性捕获饵靶标富集的情况,例如单核苷酸多态性(SNP)和/或短串联重复序列(STR)基因座。
所谓“平均测序深度”是指以每个样本为单位,测序、映射到参考基因组的碱基总数除以参考基因组的总大小。测序和映射的碱基总数可以近似为平均读取长度时间的映射读取数。
所谓“参考基因组”是指特定物种的参考DNA序列。
术语“基因座(locus)”(复数“基因座(loci)”)是指染色体上的固定位置(相对于参考基因组而言)。
所谓“多态性基因座”是指在一个群体中具有2个以上等位基因,其观察频率大于1%的基因座。
所谓“杂合基因座”是指在特定样本中观察到有2个以上等位基因的基因座。
所谓基因座的“平均杂合度”是指1减去等位基因频率的平方和的值。特别是乘积2pq,其中p和q=(1-p)是该基因座在群体中有两个等位基因时的等位基因频率,或乘积2pq+2pr+2qr之和,其中p、q和r(p+q+r=1)是基因座有三个可能的等位基因时的三个等位基因频率。
所谓“覆盖基因组”是指参考基因组被至少一个读数覆盖的部分。
所谓“读数”是指测序仪测序(“读取”)的DNA片段。
所谓“缩减率”是指根据DRS-WGA中使用的限制性酶对参考基因组进行的计算机消化所获得的片段碱基总数(包含在特定的碱基对范围内)除以参考基因组中的碱基总数。
所谓“等位基因含量”是指在基因座上检测到的等位基因的组成。
所谓“无片段化、测序衔接子/WGA融合引物和PCR反应”大规模平行测序文库制备,是指对DRS-WGA产品进行大规模平行测序文库制备,无需DNA片段化步骤,其中测序衔接子通过融合引物添加到WGA产品中,例如根据专利申请(WO2017/178655)或(WO2019/016401A1)。
所谓“成对相似度得分”是指多个成对输入与有限的编码域的函数。该编码域优选归一化为标准值,如[-1;1]或[0;1],与成对输入的数量无关。
所谓“样本聚类”是指对样本进行分区的算法,使属于同一分区(也称“聚类”)的样本具有共同特性,该共同特性选自:一个(或多个)个体的身份对分区样本的DNA有重大贡献,或包含数量不足的DNA的特性,和/或包含高度降解的DNA或来源不确定的DNA的特性。
在不知道基本事实的情况下,聚类算法性能的评估指标有多种,如“剪影得分(Silhouette score)”、“卡林斯基-哈拉巴什指数(Calinski-Harabasz Index)”、“戴维斯-博尔丁指数(Davies-Bouldin Index)”等,这些指标可用于确定“最佳”聚类数目,以便将多个样本划分为同源的、定义明确的聚类。
所谓“身份聚类”是指由只高概率含有来自唯一且相同个体的DNA的样本组成的组。高概率(Prob[Single-ID])的含义取决于应用,本领域技术人员可以根据应用的具体情况及其性能要求来理解和定义。例如,在胎儿细胞分析的情况中,假设只对至少三个单个“推定”胎儿细胞(即属于与母体参考有亲缘关系的细胞身份聚类)进行了单独分析和报告,就会发出诊断结果。如果没有一个细胞来自受影响的胎儿,而分析的细胞都是被误认为是胎儿的母体细胞,那么诊断结果(如使用低通WGS得出的拷贝数图谱进行非整倍体诊断)就会受到影响。进一步假设检测非整倍体胎儿的最低灵敏度(Sens_min)是可以接受的。由于每一个单细胞身份的错误调用而导致的非整倍体胎儿正常的调用概率,将要求诊断所依据的所有细胞都被调用为胎儿而不是母体细胞。一般来说,假定这些事件(与母体参考的成对比较)在假定的胎儿细胞中是独立的是合理的,因此Prob[分析的Ncells的错误_ID]=Prob[错误_ID]Ncells(Ncells是单独分析的细胞数),其中Prob[False_ID]=1-Prob[单一_ID]是将一个样本调用属于同一个体身份聚类(更具体地说是与母体参考有亲缘关系的样本的聚类,如上所述)的错误概率。希望
(1-Prob[单一_ID])Ncells≤(1-Sens_min),即
Prob[单一_ID]≥1-(1-Sens_min)1/Ncells
例如,Sens_min=99.9%,Ncells=5将会要求Prob[单一_ID]≥75%
同时考虑Ncells=3将会要求
Prob[Single_ID]≥90%
在这两种情况下,为简单起见,都不包括其他误差来源,如真正的胎儿细胞在实际分析中未能检测到非整倍体的概率。
在法医调查和非确证样本鉴定中,高概率的含义可能有所不同。例如,根据本申请的方法可用于从数量为Ncell的单个细胞中重建STR图谱。根据DNA数据库搜索的允许严格程度、分析的单细胞数量、个案中每个个体样本的平均STR调用率,可能会对高概率(Prob[单一_ID])的精确值提出不同的要求,以达到目标。
这一要求较难通过分析建模得出,例如,可通过蒙特卡洛(Montecarlo)模拟法得出,即使用现有数据库,计算机模拟各种等位基因丢失程度、实际分析的单细胞数量,以及重建图谱时的算法选择。
所谓“单个个体WGA-DNA样本”是指包含从含有单个个体DNA的样本中获得的DRS-WGA产物的混合物的样本。
所谓“非侵入性产前检测”是指进行基因检测,以评估母体血液中循环的无胎儿细胞的DNA或完整胎儿细胞。
所谓“胚胎植入前基因检测/筛选”是指在进行基因测定,以便在胚胎移植到子宫前通过全基因组分析评估胚胎,例如,拷贝数变化,以确定发育中的胚胎中是否存在非整倍体(染色体过多或过少)。
所谓“胚胎植入前基因诊断”是指通过靶向测序进行胚胎植入前基因检测,以测定发育中的胚胎中是否存在序列变异,例如与单基因疾病(如亨廷顿病、囊性纤维化、脆性X综合征)有关的突变,包括常染色体显性和隐性或X连锁的突变,或遗传性癌症综合征(如遗传性乳腺癌和卵巢癌、林奇综合征(Lynch syndrome))。此外,本术语还用于测序,以鉴定人类白细胞抗原相容的、未受影响的胚胎,孕育该胚胎的目的是让患病的家庭成员接受相容的骨髓移植或脐带血输注。
所谓“胚胎样本”是指含有胚胎DNA的样本,例如囊胚、废胚胎培养基、极体等。
所谓“单个个体WGA-DNA数据”是指从含有单个个体DRS-WGA DNA的样本中合并测序数据所获得的数据。
在描述根据本申请内容的方法在产前医学和生殖医学中的应用时,为简单起见,术语“母体”的含义可扩展为“属于女性”或“属于母本”,而“母亲”的含义可扩展为“女性”或“母本”,指的是为正在进行的妊娠中的胚胎或胎儿提供卵子的女性个体,尽管该女性可能尚未因分娩与所述胚胎或胎儿等相对应的后代而成为母亲。
同样,术语“父系”的含义可扩展为“属于男性”或“属于父本”,而“父亲”的含义可扩展为“男性”或“父本”,指的是为胚胎、正在妊娠的胎儿、水样葡萄胎提供精子的男性个体,尽管该男性可能尚未因女性分娩与所述胚胎或胎儿等相应的后代而成为父亲。
详细说明
本申请的方法适用于分析包含基因组DNA的多个样本。特别是,该方法用于分析多个包含基因组DNA的样本中至少两个样本的相似度。在一些实施方式中,样本物种是智人,除非另有说明,否则在其余描述中将提及该物种,但不限制对其他物种的适用性(如适用)。
该方法包括以下步骤。
在步骤a)中,提供多个包含基因组DNA的样本。
在步骤b)中,对每个样本分别进行所述基因组DNA的确定性限制基因座全基因组扩增(DRS-WGA)。
在步骤c)中,使用无片段、测序衔接子/WGA融合引物PCR反应,从所述DRS-WGA的每个产物中制备大规模平行测序文库。
在步骤d)中,对所述大规模平行测序文库进行低通全基因组测序,平均覆盖深度<1x。平均覆盖深度优选为0.01x,优选<0.05x,更优选<0.1x,甚至更优选<0.5x。这样既能降低测序成本,又能保持与应用相关的良好分析结果。
在步骤e)中,将步骤d)中获得的读数与参考基因组进行比对。
在步骤f)中,为每个样本提取多个多态性基因座上的等位基因含量,即从对齐读数中获取。所述多个基因座包括所考虑物种的多态性基因座。
所述多个多态性基因座优选包括平均杂合度>0.499的多态性基因座,优选平均杂合度>0.49的多态性基因座,更优选平均杂合度>0.4的多态性基因座,甚至更优选平均杂合度>0.3的多态性基因座,最优选平均杂合度>0.2的多态性基因座。
所述多个多态性基因座优选包括>200,000个基因座,优选>300,000个基因座,更优选>500,000个基因座,甚至更优选>1,000,000个基因座。
在步骤g)中,根据在所述多个基因座处测得的等位基因含量,计算至少两个样本的成对相似度得分基因座。
在步骤h)中,根据相似度得分确定至少两个样本的相似度。
一般来说,相似度可以根据共享多态性基因座上的等位基因含量的一致性来测量,“共享”一词是指该基因座被至少两个样本中的一对或一组样本中的至少一个DNA读数所覆盖。例如,优选通过计算由至少两个样本中至少一个读数所覆盖的基因座间的B-等位基因频率的相关性来计算成对相似度得分。
作为另一种选择,成对相似度得分优选通过计算由两个成对样本中至少一个读数所覆盖的基因座间的平均一致性值来计算,其中每个基因座的一致性值分配为以下值之一:
a)如果调用的等位基因相同,则为1;
b)如果调用的等位基因不同或完全不同,则为0;
c)如果调用的等位基因部分重叠,则为0.5。
例如,在一些实施方式中,可分配每个基因座的一致性值:
A1)如果调用的等位基因相同,则为1;以及
B1)如果调用的等位基因不同,则为0。
或者,在一些实施方式中,每个基因座的一致性值可分配为:
A2)如果调用的等位基因相同,则为1;
B2)如果调用的等位基因完全不同,则为0;以及
C2)如果调用的等位基因部分重叠,则为0.5。
为了本申请的目的,本文所述方法可用于将样本(如单细胞样本、无细胞DNA样本 等)配对,以测量样本之间的“相似”程度。在一组样本(即“至少两个样本”)中加入对照样本,如在NIPT测定或亲子鉴定的情况下分别加入母体/父系样本,可以提高样本(如母体/父系和胎儿细胞)之间的鉴别能力。
根据本申请的方法,优选还包括一个步骤,即定义一组具有共同特性的样本聚类,这些共同特性例如:一个(或多个)个体的身份对聚类样本的DNA有重大贡献,或包含数量不足的DNA的特性,和/或包含高度降解的DNA或来源不确定的DNA的特性。
在另一优选实施方式中,可以采用聚类算法(如分层聚类),利用单个样本(如单细胞)找到所述聚类。这种类型的分析可能最适合用于区分样本组,其中一个样本是用于鉴定参考聚类的参考样本。例如,在NIPT测定中,母体细胞池可用作参考,以使用本文所述的相似度得分来区分孕妇中的其他细胞组,如胎儿细胞。可以执行的一般聚类方法和HC具体的聚类方法可包括用于寻找最正确聚类数量的迭代过程、用于选择最佳聚类分区的质量得分(如剪影得分),以及鉴定混合回收物(如属于更多聚类的样本)和(在NIPT分析中)多个胎儿的方法。
优选地,通过分类器,将所述成对相似度得分作为输入,将至少两个样本分配到至少一个聚类中。如下文所述,分类器可独立于聚类分析使用。
在一优选实施方式中,通过对成对相似度得分进行凝聚聚类(agglomerativeclustering)来确定所述聚类的数量。
在一优选实施方式中,这种凝聚聚类是利用欧氏距离(Euclidean distance)和离差平方和法(ward linkage)进行的。
在一优选实施方式中,这种聚类使用一系列的聚类数量进行的,并产生不同的可选聚类输出。
在一优选实施方式中,通过计算剪影得分来评估这些可选的聚类输出,并选择所有子聚类中平均剪影得分最高的聚类。
优选地,所述分类器使用对所述低通全基因组测序数据测量的至少一个值作为进一步输入,该值选自包括以下的组:
a)DLRS:导数对数比差;
b)R50:50%的测序读数覆盖的WGA片段占至少一个读数覆盖的WGA片段总数的百分比;
c)YFRAC:映射到Y染色体的读数分数;
d)畸变:与细胞倍性中位数的增加或丢失相对应的基因组百分比;
e)Chr13:13号染色体的倍性;
f)Chr18:18号染色体的倍性;
g)Chr21:21号染色体的倍性;
h)RSUM:与最接近整数拷贝数水平的平均绝对偏差,其根据与细胞倍性中位数绝对偏差最大的拷贝数畸变事件计算;
i)Mix_score:根据与细胞倍性中位数绝对偏差最大的拷贝数畸变事件计算的RSUM z得分;以及
j)Deg_score:小丢失事件(<10Mbp,这在降解样本中很常见)的数量。
上述聚类的数量优选通过以下方法计算:
a)选择使平均剪影得分最大化的第一迭代聚类的数量;
b)对于所述第一迭代聚类中的每个聚类,计算属于第一迭代聚类的每个所述样本的剪影得分,其中属于聚类的样本的剪影得分低于0.19-0.21范围内的固定阈值,则将其分配到一个新的聚类。
在一优选实施方式中,所述聚类的组优选包括一个或多个身份聚类,这些身份聚类包含的样本在高置信度下只含有来自唯一且相同个体的DNA。
在存在更多身份聚类的情况下,所述多个身份聚类的基数(cardinality)优选与所述多个样本中个体DNA贡献者的数量相对应。
优选地,该方法进一步包括定义一组混合身份聚类,每个所述混合身份聚类包括含有来自至少两个个体的DNA的样本。
优选地,该方法还包括定义至少一个无调用聚类(no-call-cluster),该聚类包括包含来源不确定的DNA的样本。
优选地,该聚类包括为计算相似度得分而评估的基因座数量低于阈值的样本。有利的是,所述阈值的确定要考虑选自由以下组成的组中的一个或多个要素:
1.样本的读取数量,
2.用于比较的基因座中的最小平均杂合度。
多个样本优选包括至少一个参考样本,所述身份聚类的组包括至少一个参考聚类,所述至少参考聚类包括所述参考样本。
优选地,可以独立于聚类分析使用分类器,以使用所述成对相似度得分作为主要输入,并假设两个成对样本中的至少一个是参考样本,将成对样本分配给正确的类别。此外,机器学习分类器还可以使用其他特征来获得尽可能高的置信度。出于本申请的目的,可以理解的是,分类器并不一定将样本分配到一个聚类中,而是将样本分配到几个预定义类别中的一个。因此,可以在不对样本进行聚类的情况下对样本进行分类。相反,无监督聚类技术可以发现样本之间的相似度,而无需先验的类别定义。
在一优选实施方式中,可以执行机器学习分类器(如随机森林),并使用合适的训练集进行训练,以区分样本。除其他特征外,这种分类器还可以使用上述成对相似度得分。这种方法可能最适合成对比较,即需要对照参考样本对单个测试样本进行评估。实例可以是这样一种方法,其目标是使用已知来源的细胞池作为对照(如母体细胞池作为对照)对单个细胞进行分类。在以细胞为基础的非侵入性产前检测中,当区分母体细胞和胎儿细胞时,预期的类别可以是:(i)母体细胞的“自身”类别;(ii)胎儿细胞的“亲缘”类别;(iii)包含胎儿和母体细胞的混合物的回收物的“混合”类别;(iv)与母亲或胎儿无关的样本的“不相关”类别(即外源污染、IVF妊娠中的供体污染等),对指标较差的不可靠样本“无需调用”。分类器,如随机森林分类器,除了使用上述成对相似度得分外,还可以使用低通全基因组测序数据测量的至少一个特征的输入来区分样本,包括但不限于以下特征:
a)DLRS:导数对数比差;
b)R50:50%的测序读数覆盖的WGA片段占至少一个读数覆盖的WGA片段总数的百分比;
c)YFRAC:映射到Y染色体的读数分数;
d)畸变:与细胞倍性中位数的增加或丢失相对应的基因组百分比;
e)Chr13:13号染色体的倍性;
f)Chr18:18号染色体的倍性;
g)Chr21:21号染色体的倍性;
h)RSUM:与最接近整数拷贝数水平的平均绝对偏差,其根据与细胞倍性中位数绝对偏差最大的拷贝数畸变事件计算;
i)Mix_score:根据与细胞倍性中位数绝对偏差最大的拷贝数畸变事件计算的RSUM z得分;以及
j)Deg_score:小丢失事件(<10Mbp,这在降解样本中很常见)的数量。
此外,适用于所公开方法的其他类型的分类器可以依赖于例如描述“亲缘”、“自身”或“不相关”关系的所述成对相似度得分的预定义固定阈值(即实施例6)。
在一些实施方式中,考虑到分类器策略是将测试样本与参考样本进行比较,而聚类技术的目的是找到样本的组/聚类,其中一个样本组/聚类确定了参考聚类,因此可以互换使用聚类策略(如分层聚类)和分类器策略(如RF分类器)来根据序列读取数据区分样本。
在一优选实施方式中,所述至少一个参考样本是来自妊娠母本个体的样本。
所述身份聚类的组优选还包含至少一个亲缘聚类,该亲缘聚类由来自所述母本个体正在进行的妊娠中的至少一个胎儿的样本组成。
优选地,所述亲缘聚类被划分为多个胎儿聚类,这些胎儿聚类包含来自唯一且相同胎儿的DNA的样本组成。
在另一替代优选实施方式中,所述至少一个参考聚类优选是由与法医调查中的受害者相对应的、包含来自唯一且相同个体的DNA的样本组成,进一步包括定义至少一个犯罪者聚类,该聚类包括包含来自不同于受害者的唯一且相同个体的DNA的样本组成。
在这种情况下,根据本申请的方法优选包括将属于所述至少一个犯罪者聚类中的每个聚类的多个样本中的DRS-WGA等分试样进行聚类混合,为每个聚类生成相应的单个个体WGA-DNA样本,并对所述单个个体WGA-DNA样本中的至少一个进行进一步的DNA分析。
该方法优选包括对属于所述至少一个犯罪者聚类中的每个聚类的多个样本中的至少一种检测类型的基因分析数据进行聚类合并,为所述至少一个犯罪者聚类中的每个聚类生成相应的单个WGA-DNA数据。
所述检测类型选自由微卫星分析、单核苷酸多态性分析、大规模平行靶向测序和全基因组测序组成的组。
在本申请方法的一优选实施方式中,多个样本包括肿瘤和/或正常样本。
在另一优选实施方式中,多个样本至少包括一个参考样本,该参考样本含有来自母本个体的DNA,且所述多个样本中的至少一个其他胚胎样本选自由以下组成的组:
a)含有衍生自所述母本个体的胚胎DNA的样本;以及
b)含有从所述母本个体胚胎获得的废胚胎培养基中的DNA的样本。
在后一实施方式中,该方法优选地进一步包括对所述胚胎进行胚胎植入前遗传筛选,该方法通过利用与对所述至少一个其他胚胎样本测得的母体污染物相对应的污染因子,根据来自所述母本个体样本的所述至少一个其他胚胎样本的所述成对相似度,分析来自所述至少一个其他胚胎样本的所述低通全基因组测序数据的全基因组染色体畸变。
在另一优选实施方式中,多个样本至少包括一个含有来自母本个体的DNA的参考样本,以及至少一个含有来自无细胞DNA样本的DNA的其他样本。在一些实施方式中,该方法优选地进一步包括对所述无细胞DNA样本进行非侵入性产前检测,该方法通过使用与针对所述至少一个无细胞DNA样本测得的胎儿分数相对应的校正因子,根据所述成对相似度,分析来自所述至少一个无细胞DNA样本的所述低通全基因组测序数据的全基因组染色体畸变。
在另一优选实施方式中,多个样本至少包括一个含有来自母本个体的DNA的参考样本,以及至少一个含有来自绒毛膜绒毛、羊水或妊娠产物的DNA的其他产前样本。在一些实施方式中,该方法优选地进一步包括对所述产前样本进行产前检测,该方法通过使用与针对所述至少一个产前样本测得的母体或外源污染相对应的校正因子,根据所述成对相似度,分析来自所述至少一个产前样本的所述低通全基因组测序数据的全基因组染色体畸变。
特别是用于细胞系鉴定,优选地,多个参考聚类是由来自细胞系的DNA的多个样本生成的,所述身份聚类的组进一步包含至少一个来自待鉴定细胞系的样本。
特别是用于调查异种移植,优选所述至少一个参考聚类由含有移植患者种系DNA的样本组成,所述身份聚类的组进一步包含由所述移植患者的异基因供体样本组成的一个供体聚类。
特别是用于非侵入性亲子鉴定,优选地,所述至少一个参考样本包括仅含有来自所述父本的DNA的父本参考样本,且所述至少一个参考聚类进一步包括含有所述父本样本的父本身份聚类,其中:
(i)如果相对于父本样本的亲缘样本相似度得分与亲缘关系一致,则确认父子关系;
(ii)如果相对于父本样本的亲缘样本相似度得分与不相关个体一致,则不能确认关系。
特别是用于非侵入性葡萄胎妊娠评估,优选所述至少一个样本包括至少一个循环滋养层细胞样本,如果相对于母本样本的所述滋养层细胞样本相似度得分与不相关样本一致,则确认为完全性葡萄胎。
在后一实施方式中,所述至少一个样本优选包括多个滋养层细胞样本,并且:
(i)如果所述滋养层细胞样本之间的相似度得分超过自身样本的预期相似度得分的预期第99百分位数,则确认为P1P1纯合父系葡萄胎。
(ii)如果所述滋养层细胞样本之间的相似度得分与自身样本的预期相似度得分一致,则确认为P1P2杂合父系葡萄胎。
优选地,所述至少一个样本进一步包括父本样本,且所述滋养层细胞样本之间的相似度得分与自身样本的预期相似度得分一致,并且:
(i)如果相对于父本样本的所述滋养层细胞样本相似度得分与自身样本的预期相似度得分一致,则确认为P1P2杂合父系葡萄胎。
(ii)如果相对于父本样本的所述滋养层细胞样本相似度得分低于自身样本的预期相似度得分的第1百分位数,则不能确认为P1P2杂合父系葡萄胎。
与现有技术相比,发明人出人意料地发现,将DRS-WGA与用于大规模平行测序的文库制备相结合,使用无片段化、测序衔接子/WGA融合引物PCR反应进行低通全基因组测序,即使在低于1x的非常浅的深度下,也能改善区分甚至来自低通全基因组测序的DNA样本的可能性,而且还能以相对较高的准确度进一步解析混杂的自身和亲缘样本。此外,对于不相关的个体,即使是覆盖度极低的全基因组测序,如<0.15x也是足够的。
为了证明上述结论,进行了以下实验。
实施例
实施例1
最初使用7个细胞系获得测序数据。图1显示了全基因组文库制备方法对自身样本和不相关样本之间的SNP等位基因频率相关性的影响。X轴为文库制备方法。无片段化文库的制备方法是对7个肿瘤细胞系(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441、OE19)的2个单细胞的基因组DNA进行确定性限制位点全基因组扩增(DRS-WGA),然后进行无片段化、测序衔接子/WGA融合引物PCR反应;使用Ion XpressTM Plus gDNA片段文库制备试剂盒(Thermo Fisher Scientific)从6个肿瘤细胞系(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441)的基因组DNA制备随机片段化文库。Y轴是成对相似度得分,其被计算为通过NGSCheckMate(提交8ea2c0438)报告的成对样本中至少一个读数覆盖的基因座上的B-等位基因频率的相关性。NGSCheckMate基于与参考基因组(hg19)对齐的500,000个读数(覆盖度≈0.025x)运行,使用默认参数和默认多态性基因座集(21067个SNP)。黑点(自身)表示属于同一细胞系的成对样本的成对相似度得分。灰点(不相关)表示属于不同细胞系的成对样本的成对相似度得分。图中显示,与随机片段化方法相比,基于DRS-WGA的无片段化文库制备具有明显优势,自身和不相关成对相似度得分值之间的分离度更高。
实施例2
根据本申请的方法,用于比较的多态性基因座优选根据其平均杂合度来选择。优选地,多态性基因座的选择基于其平均杂合度高于某个最低阈值的特性。
图2显示了多态性基因座集选择对属于同一细胞系(自身)或不同细胞系(不相关)的成对样本的成对相似度得分的影响。文库是通过对7个肿瘤细胞系(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441、OE19)的2个单细胞的基因组DNA进行确定性限制位点全基因组扩增(DRS-WGA),然后进行无片段化、测序衔接子/WGA融合引物PCR反应制备的。X轴是用于分析的多态性基因座集:21k集对应NGSCheckMate提供的默认SNP集,是根据TCGA胃癌患者的40个种系WGS图谱集中多态性基因座在dbSNP中的等位基因频率选择的;300k集由312,458个多态性基因座组成,是根据最小平均杂合度0.498从dbSNP(构建150)中选择的。Y轴是成对相似度得分,其被计算为通过至少两个样本中至少一个读数所覆盖的基因座上的B-等位基因频率的相关性,并对其相似度进行分析。NGSCheckMate基于与参考基因组(hg19)对齐的500,000个读数(覆盖度≈0.025X)运行,使用默认参数和默认多态性基因座集(21k)或300k集。该图显示,通过使用基于平均杂合度的多态性基因座选择,属于同一细胞系(自身)的成对样本和属于不同细胞系(不相关)的成对样本的成对相似度得分之间的差异增加,导致两种比较类型之间的明显分离。
根据本申请,在步骤g)中可以使用不同的相似度得分计算方法。
如前所述,在一优选实施方式中,步骤g)的成对相似度得分是通过计算至少两个样本中至少一个读数所覆盖的基因座上的B等位基因频率的相关性来计算的,并对其相似度进行分析。
在另一优选实施方式中,步骤g)的成对相似度得分是通过计算两个成对样本中至少一个读数所覆盖的基因座的平均一致性值来计算的,其中每个基因座的一致性值分配为以下值之一:
a)如果调用的等位基因相同,则为1;
b)如果调用的等位基因完全不同,则为0;
c)如果调用的等位基因部分重叠,则为0.5。
实施例3
图3A和图3B显示了在500,000个读数和最小平均杂合度=0.46,或5,000,000个读数和最小平均杂合度=0.49的情况下,使用相关性方法(图3A)或一致性方法(图3B)针对衍生自同一个体(“自身”)或不同不相关个体(“不相关”)的样本计算的成对相似度得分分布。
这两种方法在同一类样本的分离和扩散方面结果相似,但必须根据所使用的特定方法明确改变成对相似度得分(y轴)的绝对值。与相关性相比,基于一致性的成对相似度得分具有计算更简单的优势,可提供更好的计算性能,尤其是在多态性基因座集较大的情况下。
对于两种读数深度,图中显示在所采用的两种相似度得分之间分离自身和不相关配对样本成对相似度得分分布方面没有明显差异,但相似度得分的绝对值需要根据计算中采用的特定函数进行调整。
实施例4-平均杂合度和多态性基因座的数量
最小平均杂合度优选在[0.2;0.499]范围内。随着最小平均杂合度的增加,所考虑的多态性基因座的数量也单调地减少。
成对样本覆盖的基因座的数量随每个样本的读取数量而单调增加。一般来说,在读取数量一定的情况下,存在最佳的最小平均杂合度来提高成对样本(同一个体)和不相关样本之间的分离度。如果进一步提高最小平均杂合度,使其超过该最佳值,最初会逐渐减少,然后突然减少成对样本中可用于比较的基因座数量,从而降低成对相似度得分中配对样本和不相关样本之间的整体分离度。
图4A至图4C显示了参数之间的关系。图4A显示了用于选择多态性基因座集的平均杂合度阈值(X轴;范围=0.2-0.5)与多态性基因座数量(Y轴)之间的关系。图4B显示了在不同读数深度下,集中多态性基因座的数量(Y轴)与两个成对样本中至少一个读数覆盖的基因座的平均数量(X轴)之间的关系。图4C显示了在不同读数深度(从500,000个读数到4,000,000个读数)下,两个配对样本中覆盖的基因座的平均数量(X轴)与属于同一细胞系(自身)的成对样本和属于不同细胞系(不相关)的成对样本的成对相似度得分分布(一致性)之间的距离的关系,计算为自身成对相似度得分分布的第5百分位数减去不相关成对相似度得分分布的第95百分位数。
图4D至4F是同一类型分析的放大图,适用于较窄的最小平均杂合度范围。
实施例5-亲缘关系分析
在亲缘关系等关系的情况下,样本鉴定中会出现甚至更加困难的问题,例如母亲和女儿之间有一半的基因组是共同的。
为了评估根据本申请的方法在这种情况下的性能,我们通过以下方法模拟了这种情况,通过混合(50%/50%)根据本方法从几个(N=3)不同的不相关个体获得的单个白细胞中获得的低通全基因组测序数据,计算机生成亲缘样本,其中对每个个体的多态性基因座在数据中进行编辑,以便只报告该个体的一个检测到的等位基因,从而模拟该个体对“亲缘”数据的单倍体基因组贡献。从用CellSave采血管(Menarini Silicon Biosystems)采集的外周血中,用CELLSEARCH AutoPrep进行免疫磁性富集后,用荧光抗体和DAPI的混合物对细胞进行染色,然后用DEPArray(Menarini Silicon Biosystems)分离出CD45+、DAPI+单细胞,并用DRS-WGA(Ampli1 WGA,Menarini Silicon Biosystems)进行全基因组扩增。使用无片段化、测序衔接子/WGA融合引物PCR反应(用于Illumina的Ampli1 LowPass试剂盒,Menarini Silicon Biosystems),使用WGA产物的等分试样从DRS-WGA的每个产物制备大规模平行测序文库。
为了避免偏差,每个单细胞的测序数据只使用一次(用于生成自身或亲缘数据类型)。
图5A至5D显示了亲缘样本相对于自身样本(母本)和不相关样本的分类的性能。根据母本样本计算出的相似度得分的两个可变阈值被用作分类器,以区分亲缘样本与自身样本和不相关样本。亲缘-自身阈值设置为亲缘相似度得分分布的中位数到自身相似度得分分布的中位数范围的值。亲缘-不相关阈值设置为亲缘相似度得分分布的中位数到不相关相似度得分分布的中位数范围的值。读取数量保持不变,为500,000个读数。图5A显示了在不同的最小平均杂合度(AvHet阈值)下,随着阈值的变化,亲缘样本相对于自身母本分类的TPR值和1-PPV值。图5B显示了在不同的最小平均杂合度(AvHet阈值)条件下,随着阈值的变化,亲缘样本相对于不相关样本的分类的TPR值和1-PPV值。图5C显示了随着最小平均杂合度值(X轴)的变化,获得至少0.999的PPV所需的亲缘-自身相似度得分阈值(灰色实线;二级Y轴)和相应的TPR(一级Y轴)。图5D显示了随着最小平均杂合度变化值(X轴),获得至少0.999的PPV所需的亲缘-自身相似度得分阈值(灰色实线;二级Y轴)和相应TPR(一级Y轴)。从图中可以看出,使用平均杂合度阈值从0.2到0.495的SNP集可获得高灵敏度(TPR≥0.99)的亲缘-自身分类和高达0.48的亲缘-不相关分类,超过这些值后灵敏度值会迅速降低。
实施例6
图6显示了根据最小平均杂合度(范围=0.2-0.498),作为与母本样本的一致性计算的自身(母本)、亲缘和不相关样本的成对相似度得分的分布。读取数量保持不变,为500,000个读数。分别以虚线和点虚线表示用于将亲缘样本从自身母本样本和PPV至少为0.999的不相关样本中分类的相似度得分阈值。
因此,在一优选实施方式中,LPWGS数据的子样本为500k单个读数,使用作为如上所述计算的相似度得分“一致性”,用于多态性基因座的最小平均杂合度在[0.2;0.49]范围内选择,用于亲缘-自身的相似度得分阈值在[0.73;0.79]范围内选择,用于亲缘-不相关的相似度得分阈值在[0.62;0.7]范围内选择。多个多态性基因座优选包括从数据库(如dbSNP)中获得的基因座。上述多个多态性基因座优选包括>200.000、300.000、500.000或1.000.000个平均杂合度最高的基因座。
聚类
在一优选实施方式中,根据本申请的方法还包括以下步骤,即定义一组具有共同特性的样本聚类,这些共同特性例如:一个(或多个)个体的身份对聚类样本的DNA有重大贡献,或包含数量不足的DNA的特性,和/或包含高度降解的DNA或来源不确定的DNA的特性。优选通过分类器,利用上述相似度得分和其他质量指标,将至少两个样本分配到至少一个聚类中。
实施例7-应用于基于胎儿循环细胞的非侵入性产前诊断
在一优选实施方式中,至少一个参考聚类由来自妊娠母本个体的样本组成。所述“参考样本”可以通过从用于提取胎儿细胞的相同富集体液中分离出母体细胞来收集,也可以通过从另一个母体DNA源中收集。如果母体体液由外周血组成,则可收集母体标记物阳性而胎儿标记物阴性的有核细胞作为参考。
所述身份聚类的组优选还包含至少一个亲缘聚类,该亲缘聚类由所述母本个体正在进行的妊娠中至少一个胎儿的样本组成。所述样本优选被鉴定为具有与参考母本亲缘关系一致的成对相似度得分的样本。
所述亲缘聚类优选进一步划分为多个胎儿聚类,这些胎儿聚类由仅包含一个且相同胎儿DNA的样本组成。
属于同一胎儿的样本被认定为具有与相对于彼此分类为自身相一致的成对距离得分。其他亲缘细胞的成对距离得分与相对于其他亲缘细胞的亲缘关系一致,则被归入不同的分区,属于不同的胎儿。
图7是一种检测双胎妊娠的方法。通过与母体对照的“亲缘”关系描述的胎儿细胞的所有成对预测结果,被用作图聚类算法的输入,以找到胎儿细胞的“群体(communities)”。
在非侵入性产前诊断的另一实施方式中,通过观察相对于“自身”型DNA和“亲缘”型DNA预期的中等成对相似度得分,检测与母体细胞混合的循环胎儿细胞。事实上,母体细胞与靶标胎儿细胞的共同分离可能会由于分选过程中的不精确而意外发生(可能是由于选择要分离的细胞,也可能是由于分离过程,或两者兼而有之)。母体细胞与靶标胎儿细胞的共同分离也可能非偶然发生,因为如果可用的非混合的纯净胎儿细胞样本太少,分析额外的混合样本而不是丢弃它无论如何都是有益的。
根据分析类型的不同,如果检测的灵敏度没有受到明显的影响,两种细胞(一种是胎儿细胞,一种是母体细胞)的混合仍是可以接受的。例如,在使用足够数量的读数分析全部染色体非整倍性时,就会出现这种情况。在分析过程中,可通过应用特定的污染因子来有利地考虑污染因素,这在某些生物信息管道中是可用的,如ControlFreec(Boeva,V.等,Bioinformatics 2012Feb 1;28(3):423-5),从而保持足够的灵敏度。
在一优选实施方式中,所述在母体血液中循环的胎儿细胞是(i)滋养层细胞、(ii)成红细胞或(iii)两种类型。
实施例8-从母体血液中鉴定循环中的胎儿成红细胞
首先用菲考尔梯度法(ficoll gradient,密度1.107g/ml)从母体血液中分离出有核细胞,然后用Miltenyi公司的磁激活细胞分选技术(MACS)通过CD45/CD15/CD14免疫磁性损耗不需要的母体细胞,富集胎儿成红细胞(有核红细胞)。
富集的细胞用以下两种方法固定:
(A)4%的聚甲醛(PFA)于室温下固定30分钟,或
(B)4% PFA,于37℃固定60分钟,然后用0.05% Glutaraldheide于室温下固定30秒。
第二种固定方式可产生更强的交联,有助于将靶标血红蛋白固定在细胞内,但会妨碍DNA扩增。
固定后,用抗γ-血红蛋白-FITC(作为胎儿细胞标记物)和DAPI对细胞核中的DNA进行染色。
DEPArrayTM将假定的胎儿细胞分选为单个细胞,或与碰巧位于同一介电泳笼中的额外母体污染细胞一起分选。用Ampli1 WGA试剂盒(Menarini Silicon BiosystemsS.p.A.),一种实施根据本申请的DRS-WGA方法的试剂盒,扩增细胞回收物(无论是单一的还是被污染的)。
Ampli1 WGA初级PCR产物的等分试样(1ul)用于微卫星分析,多重PCR用于扩增以下基因座:D21S1435、D21S11、HPRT、SRY、D21S1413、D21S1411、D18S535、D13S317、D21S2039、D13S631、D21S1442,然后在ABIPrism 310(Applied Biosystems)上用毛细管电泳进行片段分析。使用“弱”固定方案-上述选项(A)-平均回收了56%的预期等位基因(范围为30%-90%)。平均发现了3.2个有信息的等位基因,即通过分析绒毛膜绒毛样本(CVS)获得的母体和胎儿参考图谱中不相同的等位基因。
使用“强”固定方案-上述选项(B)-平均只回收了28%的预期等位基因(范围在6%-68%之间),即大约是使用弱固定方案回收的等位基因的一半。换句话说,在强固定(B)的情况下,等位基因的平均丢失率为72%。相应地,平均只有1.7个有信息的等位基因被发现,还包括同时有母体和胎儿的有信息的等位基因的混合样本(BO1368B_4、BO1368B_6),因此有两个细胞和双倍数量的起始DNA模板。事实上,有4个单细胞样本(BO1368B_3、BO1368B_5、BO1368B_9、BO1368B_12)在上述STR多重分析中有0个有信息的等位基因。对前三个等位基因的分析只能通过进一步的STR基因座分析来解决,而这些分析未能提供对样本BO1368B_12进行分类的信息,样本BO1368B_12的来源仍为“未知”。
由此可见,强固定(如4%PFA,于37℃固定60分钟,然后用0.05%Glutaraldheide于室温下固定30秒)虽然能提供更多的胎儿成红细胞,但会增加等位基因丢失,降低STR调用率,从而严重影响样本(母体、胎儿或混合样本)的分类。
相反,使用Ampli1低通试剂盒从WGA产物的另一份等分试样中制备大规模测序文库,并使用本申请的方法进行数据分析,即使是等位基因丢失率非常高的样本,也能如下面进一步详细描述的那样,也可以有把握地对每个样本进行分类。
图8显示了在2个样本的成红细胞的细胞回收物中,针对母本样本计算的平均成对相似度得分的分布情况。从图中可以看出,亲缘-自身阈值分类器可以将亲缘回收物(灰色点)与妊娠亲本个体细胞回收物(浅灰色点)区分开来。但是,该分类器无法区分亲缘回收物和混合细胞回收物(黑点)。
在一优选实施方式中,样本聚类包括根据相似度计算剪影分数,以确定聚类的数量。有利的是,在成对相似度得分显示出两种不同相似度水平的聚类中,可以根据含有母体细胞和胎儿细胞的一组样本中剪影得分的分布情况,使用固定阈值(优选0.205)来进一步分级该聚类,以区分胎儿-母体混合样本(来自胎儿或母体样本)。在一优选实施方式中,所述固定阈值的范围为[0.19-0.21]。
这样,混合的母体-胎儿细胞就可以从自身(母体)和亲缘(胎儿)亚群体中鉴定出来,成为独立的聚类。
实施例9
图9A至9C显示了对样本BO1368中的细胞回收物进行的基于聚类的分类。其中包括母体细胞样本(BO1368_MC)和绒毛膜绒毛样本(BO1368_CVS)作为参考。图9A显示了不同聚类数量下的平均剪影得分,用作成对相似度得分的聚类的输入,显示2个聚类的得分最高。图9B显示了对两个聚类中每个回收物的单个剪影得分的分析,其中聚类#0中的2个回收物(对应混合细胞回收物)的得分接近0,表明它们非常接近两个相邻聚类之间的决策边界;通过设置固定的最小剪影得分阈值(0.205),可以区分这2个混合的胎儿-母体细胞回收物,从而将它们分配到第三个独立的聚类中。图9C显示的热图以灰色阴影显示所有17个细胞回收物之间的相似度得分,颜色越深表示相似度越高;聚类用行和列的颜色标签标出。
实施例10
图10A至图10C显示了对样本BO1383的细胞回收物进行的基于聚类的分类。其中包括母体细胞样本(BO1383_MC)作为参考。图10A显示了不同聚类数量的平均剪影得分,用作成对相似度得分聚类的输入,显示2个聚类的得分最高。图10B显示了对两个聚类中每个回收物的单个剪影得分的分析,其中聚类#0中的2个回收物(对应混合细胞回收物)的得分接近0,表明它们非常接近两个相邻聚类之间的决策边界;通过设置固定的最小剪影得分阈值(0.205),可以区分这2个胎儿-母体混合细胞回收物,从而将它们分配到第三个独立的聚类中。图10C显示的热图以灰色阴影显示所有8个细胞回收物之间的相似度得分,颜色越深表示相似度越高;聚类用行和列的颜色标签标出。
实施例11-应用于基于胎儿循环细胞的非侵入性产前父子鉴定
在本申请的另一实施方式中,除母体样本外,还可获得父本样本(父系样本),亲缘关系分析也可依次使用父系样本作为参考。如果与相对于父系参考样本的“亲缘”型DNA的成对相似度得分一致,则可确认胎儿的父子关系。或者,如果胎儿样本的成对相似度得分(即确认胎儿与相对于母本参考样本为亲缘关系)与父本样本的“不相关”型DNA一致,则结果不符合父子关系。
实施例12-应用于葡萄胎妊娠
在本申请的另一实施方式中,从母体血液中富集了至少一个假定的循环胎儿滋养层细胞。将滋养层细胞样本与母体参考样本进行比较,如果成对相似度得分与“不相关”型DNA一致,则表明可能是完全性葡萄胎(或实验室污染/样本交换)。如果分离到超过一个的循环滋养层细胞样本,则可通过比较这些样本的成对相似度得分来研究葡萄胎的基因型。如果成对距离大大超过“自身”型成对样本的预期值,则可确认为P1P1纯合父系葡萄胎,因为除了罕见的测序错误(或更罕见的WGA扩增错误)(这些错误可能偶尔会出现在与所检测的多态性基因座相对应的相同基因组位置上)外,所有多态性基因座的比较结果都是相同的。或者,如果P1P2葡萄胎在某些多态性基因座上具有杂合性,则不同滋养层样本之间观察到的成对相似度值在“自身”型成对样本的预期范围内。在后一种P1P2葡萄胎的情况下,如果有父系DNA样本,则可使用与父系参考样本一致的“自身”型DNA的滋养层样本的成对距离得分来区分葡萄胎妊娠和实验室污染或样本交换。
实施例13-应用于单细胞法医和人类鉴定
在一优选实施方式中,所述至少一个参考聚类由包含来自与法医调查中的受害者相对应的唯一且相同个体的DNA的样本组成,还包括定义至少一个犯罪者聚类,该聚类包括包含来自不同于受害者的唯一且相同个体的DNA的样本。
如果样本的成对距离得分与受害者样本的“不相关”关系,以及与属于同一犯罪者聚类的其他样本的“自身”关系一致,则将样本分配到犯罪者聚类。每当新的样本与受害者和已经属于其他犯罪者聚类的犯罪者的“不相关”关系一致时,就会定义新的犯罪者聚类。
另外,还可以使用基于剪影得分的聚类算法(如非侵入性产前诊断应用中的详细说明),将每个样本分配到一个同质聚类中。
有利的是,在法医鉴定中,具有与“亲缘”关系一致的成对距离得分的样本(如非侵入性产前诊断-NIPD-分析类型所获得的)可被解释为“混合样本”,因为它们可能包含来自两个不相关个体(受害者和犯罪者,或不同的犯罪者)的DNA,类似于NIPD应用中“亲缘”样本的情况,其中包含来自一个母本和一个不相关父本的DNA。
有利的是,通过相同的低通全基因组测序数据获得的性染色体拷贝数信息可用于进一步细化和/或确认基于细化的成对距离得分的分类。
在受害者和犯罪者性别不匹配的情况下(这在性攻击证据中很常见),X和Y染色体的拷贝数信息有助于为受害者或犯罪者的样本分类提供信息。
在另一优选实施方式中,所述至少一个参考聚类是由包含与法医调查中的犯罪嫌疑人相对应的来自唯一且相同个体的DNA的样本组成的,进一步包括定义至少一个犯罪者聚类,该聚类包括含有来自唯一且相同个体的DNA的样本。
在另一优选实施方式中,根据该方法分析由具有多个DNA贡献者的混合法医证据获得的多个样本,每个样本包含一个或多个细胞,进一步包括定义至少一个犯罪者聚类,该聚类包括包含来自唯一且相同个体的DNA的样本。
在一优选实施方式中,将来自多个样本的DRS-WGA等分试样混合在一起,每个样本都属于所述至少一个犯罪者聚类中的同一个样本,从而为每个聚类产生相应的单个个体WGA-DNA样本,从而可以对所述单个个体WGA-DNA样本进行进一步的DNA分析。这种方法的优势在于,单个细胞样本中出现的潜在随机等位基因丢失会得到其他单个细胞信号的补充,从而产生更完整的图谱。当来自个体的每个单个细胞样本中的DNA降解严重时,这种方法尤为有利。这种情况尤其可能发生在寒冷情况下,特别是当证据一直存放在室温下,或者受害者的组织样本已经用福尔马林固定并嵌入石蜡以备后用的情况下。
另一优选实施方式包括对属于所述至少一个犯罪者聚类中的每一个的多个样本的至少一种检测类型的基因分析数据进行聚类式合并,为所述至少一个犯罪者聚类中的每一个产生相应的单个个体WGA-DNA数据。
在一优选实施方式中,所述至少一种检测类型选自由以下组成的组:
a)微卫星分析;
b)单核苷酸多态性分析;
c)大规模平行靶向测序;
d)全基因组测序。
图11A和图11B显示了单个样本与不相关样本的分类性能,其中自身样本的成分最多不超过50%。基于成对相似度得分的可变阈值的分类器用于区分个体样本和混合样本。阈值范围从“自身”相似度得分分布的中位数到“混合”相似度得分分布的中位数。读取数量保持不变,为500,000个读数。A)在不同的平均杂合度(AvHet阈值)下,随着阈值变化的分类器的TPR和1-PPV值。B)获得至少0.999的PPV所需的成对相似度得分阈值(灰色实线;二级Y轴)和相应的TPR(一级Y轴)与平均杂合度(X轴)的函数关系。从图中可以看出,使用平均杂合度阈值从0.2到0.495(亲缘-自身分类)和高达0.48(自身-混合分类)选择的SNP集可获得较高的灵敏度(TPR≥0.99),超过这些值后灵敏度值会迅速降低。
图12显示了对于来自同一个体(自身)的配对样本、对于其中一个样本含有来自与另一个样本相同个体的50%组分的成对样本(混合_1/2)、对于其中一个样本含有与“自身”相同个体的1/3(33%)组分和来自与另一样本相同个体的66%组分的成对样本(混合_1/3),对于属于不同个体的成对样本(不相关)所计算的成对相似度得分(一致性)的分布与平均杂合度(范围=0.2-0.499)之间的函数关系。读取数量保持不变,为500,000个读数。基于成对相似度得分的分类器如虚线所示。
以上使用的犯罪者和受害者一词仅用于指导和帮助理解。本领域普通技术人员可以清楚地看到,在不脱离本申请的前提下,上述方法也适用于其他情况下的人类鉴定,例如鉴定灾难中的个体受害者,在这种情况下,只需将聚类含义从犯罪者重新转换为不同的任意名称即可。
实施例14-肿瘤实验室工作流程中的应用样本鉴定
在另一优选实施方式中,根据本申请的方法可用于匹配属于同一患者的样本,并检测可能的样本交换或属于不同患者的样本的可能交叉污染。例如,这在处理单细胞FFPE样本时可能特别有益。事实上,从FFPE提取的单细胞(或细胞核)很难获得详尽的基因组信息,因为固定过程会造成DNA损伤。STR甚至SNP的靶向测序可能都不切实际。然而,使用本申请的方法仍有可能区分样本。
图13A至13C显示了根据个体身份对从FFPE样本中的单个细胞回收物进行的分类。单个细胞WGA产物的获得详见Mangano C.等,“以单细胞分辨率精确检测基因组失衡揭示霍奇金淋巴瘤患者体内异质性(Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma)”,Blood Cancer Journal volume 9,Article number:92(2019)。图13A是显示了属于同一个体(自身)或不同个体(不相关)的成对样本的成对相似度得分的分布密度散点图(Swarmplot)。数据根据全基因组拷贝数信号DLRS(X轴)进行分区,其中低DLRS对应于DLRS<0.4的成对样本,表示低信号噪声;高DLRS对应于成对样本中至少有一个样本的DLRS≥0.4的成对样本,表示高信号噪声。对于这两个分区,从成对相似度得分来看,图中显示了自身样本和不相关样本之间的明显区别。图13B显示了不同聚类数的平均剪影得分,用作成对相似度得分KMean聚类的输入,显示4个聚类的得分最高。图13C显示的热图以灰色阴影显示所有17个细胞回收物之间的相似度得分,颜色越深表示相似度越高;聚类用行和列的颜色标签标出。为便于可视化,行和列按基于欧氏距离的分层聚类排序。
实施例15-样本鉴定在胚胎植入前基因筛选(PGS)中的应用
在另一优选实施方式中,根据本申请的方法用于分析来自无细胞废胚胎培养基的样本。如本领域所知,对胚胎进行评估以确定植入的优先次序是有益的,这样可以提高植入率和手术的成功率。基于无细胞废培养基的技术很有吸引力,因为这种技术简化了工作流程,对发育中的胚胎造成的侵入性也较小。然而,有报道称培养基中存在母体DNA污染,并显示会影响PGS检测胎儿非整倍体的分辨率。
在本申请背景下的本申请的一实施方式中,母体参考被用作“自身”(母本)的参考。根据本申请,计算与无细胞废胚胎培养基样本的成对相似度得分。所述成对相似度得分用于估算母体DNA相对于胚胎DNA的污染程度。如果成对相似度得分低于或等于“亲缘”型DNA相对于母体参考的预期中位数,则假定胚胎DNA的纯度为100%。如果成对相似度得分等于或高于“自身”型DNA相对于母体参考的预期中位数,则假定无细胞样本中胚胎DNA(所有母体DNA)的纯度为0%。成对相似度的中间值表示一定程度的母体DNA污染。该污染值可用作基于相同低通全基因组测序数据的全基因组拷贝数分析中的输入值,以补偿由于来自正常二倍体母体基因组的混合信号而可能稀释的来自胚胎潜在非整倍体或亚染色体拷贝数变异的拷贝数信号。这样,由于有了补偿,拷贝数调用器的灵敏度就不会受到信号稀释的影响。此外,污染值还可用于评估样本是否适合可靠检测规定大小的拷贝数变异,因为二倍体母体背景的程度会影响亚染色体CNV(如微缺失)的检测。
图14显示了将不同比例的单个胎儿细胞DNA序列与母体细胞序列计算机混合后的模拟结果。实线对应的是不同胎儿输入百分比的平均成对相似度得分。阴影区域对应95%的置信区间。虚线显示了已知母体成分百分比(80%)的混合样本,和母体参考的成对相似度得分=0.807的实例,根据模型,平均预测胎儿成分=27.7%(C.I.=25.4%-30.7%),对应于估计的母体DNA污染≈75%。
图15A和图15B显示了通过将来自单个胎儿细胞(20%)的不同比例的DNA序列与来自母体细胞(80%)的序列进行计算机混合而获得的混合样本的全基因组拷贝数分析。图15A显示了全基因组拷贝数分布图;每个点对应10Mbp的基因组分区。图15B显示了应用校正因子=0.75后的全基因组拷贝数,该校正因子基于根据母体参考的成对相似度评分估计的母体DNA污染百分比。统计上显著的变异显示为实心黑线。
类似的方法也可以用于无细胞DNA或侵入性产前样本,以分别使用包括无细胞DNA的血浆白细胞、母体蜕膜、颊拭子或血液的参考来确定胎儿分数和污染。
实施例16-应用于细胞系鉴定中的样本鉴定
在另一优选实施方式中,根据本申请的方法可用于鉴定研究实验室使用的细胞系。
在这个实施方式中,首先建立参考数据库,从所有参考细胞系类型中收集根据本方法得到的基线低通WGS数据,然后用这个参考数据库中的数据来鉴定测试中的细胞系。
在本申请一优选实施方式中,起始样本优选选自由以下组成的组:(i)细胞池或(ii)从细胞池中提取的DNA。
在这种方式下:
-对于纯细胞系的参考样本,可获得细胞系的平均综合图谱,最好地概括与细胞异质性相关的多样性;
-对于测试中的样本,还可以观察到来自其他细胞系的潜在污染。如果相似度得分低于最低阈值,则可使用基于重复检测中相似度得分分布的阈值,以一定的可信度调用污染。此外,还可采用与上述应用于胚胎植入前基因筛选类似的方法,将观察到的测试中的样本的相似度得分与代表预期相似度得分的校准曲线进行比较,根据纯“自身”被另一个通用“不相关”样本污染,从而间接衡量污染的程度。
细胞池中的细胞数优选在[50-1.500]范围内。50的下限提供了代表基因组异质性(如果存在的话)的最低多样性。此外,这个下限-在测试中的样本中-对于检测灵敏度较高的另一细胞系的潜在污染也很有用,因为低水平的污染-例如10%-可能在细胞数较少的细胞池中根本无法体现,或者无论如何都会导致样本中的次要污染物在群体中的实际比例偏低,从而可能降低检测所述污染的整体灵敏度。为了确保WGA扩增效果良好,而不产生抑制作用,优选使用1500(相当于10ng)的较高限值,这可能会导致WGA反应中输入的DNA过多,或者在不纯化DNA的情况下当直接从细胞开始时对整个细胞裂解物的抑制作用。
实施例17-应用于异基因造血细胞移植
在另一优选实施方式中,根据本申请的方法可用于评估异基因造血细胞移植(allo-HSCT)患者的内皮细胞来源。
在本申请的一优选实施方式中,单个内皮细胞的分离是从以下任一中进行的:
1.FFPE切片,经分解、内皮细胞标记物(如CD146)染色和单细胞分选(如实例中的DEPArrayTM)。
2.外周血,使用AutoPrep和CEC试剂盒对循环中的内皮细胞(CEC)进行富集和染色,并进行单细胞分选,例如使用DEPArrayTM
提供第一份参考样本,包括来自宿主的种系DNA。从患者体内分离出单个内皮细胞,评估其与参考宿主样本的相似度。如果测试中的细胞被归类为自身细胞,则表示已确认其来源于宿主;如果被归类为不相关细胞,则表示属于不相关供体。
可以应用该方法,如果供体与宿主之间存在亲缘关系,还可以通过亲缘关系分析来鉴定供体细胞。
此外,如果有供体种系DNA样本,还可以生成第二份参考样本来确认分类。
适用于不同应用的其他一般细节和注意事项
DRS-WGA中基因座与片段长度统一关系
更详细地说,本申请的方法利用了这样一个事实,即在DRS-WGA中,如Ampli1TMWGA,基因组中的每个基因座在WGA文库中只表现为具有特定碱基对长度的片段。这一特性可被称为“基因座与片段长度统一关系”(L2FLUR)。考虑到一般的正常基因座,例如多态性SNP的基因座,所述基因座将只体现在特定长度的片段中,该长度等于限制性酶消化后相应片段的大小(在任一单链上测量),加上通用WGA衔接子长度的两倍(在Ampli1 WGA中为LIB1引物的长度)。在根据Ampli1低通试剂盒制备文库后对WGA进行测序时,会引入与已知的测序衔接子和条形码长度相关的可预测的额外长度。
基因组的可重复性和减少代表性
在根据本申请的方法中,利用DRS-WGA与无随机片段化的文库制备物相结合的特性来产生基因组的减少代表性(相对于样本参考基因组的原始大小),由此对于给定数量的读取,低通测序数据,增加了在不同样本中覆盖相同片段的概率,这与WGA中固有的随机过程有关(例如,使用多重置换扩增或DOP-PCR的WGA方法)和/或测序文库制备中(例如,通过随机片段化或标记)。
换句话说,就是对参考基因组进行确定性子取样。“确定性”一词至关重要,因为对于任何给定数量的读数来说,任何两个成对样本中所覆盖的基因组的基因座的重叠度都较高,从而增加了可用于测量这些样本DNA相似度的高多态性基因座的数量。
值得注意的是,这种方法是灵活的,根据所需的分辨率和/或所使用的测序平台和测序方案,不同的确定性酶可能是合适的。例如,可以使用不同的频繁切割器。在Ampli1WGA的实例中,TTAA基序是限制位点。也可以使用其他四碱基切割器切割不同的限制位点,如GTAC、CTAG,从而获得不同的片段分布,这样就可以在给定读取数量的情况下,调整不同 样本中共同基因座的数量。
当DRS-WGA在初级PCR之后第一次纯化时,会进行第一次大小选择,WGA的较短片段和游离引物一起被去除。有利的是,该方法采用了进一步的选择步骤。这个额外的选择步骤可以通过从初级WGA中大小选择某些片段和/或通过限制可测序片段的方法生成大规模平行测序文库来实现。例如,Ampli1低通试剂盒包括固有的大小选择步骤,足以对该过程产生积极影响。在WO2017/178655中,在凝胶上进行了大小选择。在WO2019/016401中,使用SPRI珠的连续纯化步骤有效地进行了第一次大小选择,从而碱基对的长度被限制在基本上取决于SPRI珠浓度的范围内。此外,测序仪本身也可能会引入大小选择,因为较长的片段生成序列数据的效率会越来越低(例如,由于Ion Torrent中的乳液PCR效率,或Illumina平台中用于聚类形成的桥式PCR)。
在DRS-WGA中,测序文库的平均大小与参考基因组的子采样率之间也存在确定性关系。
在对人类参考基因组hg19的TTAA消化物进行的计算机分析中,包括所有染色体序列在内共得到约19M个片段,这相当于正常二倍体人类基因组的38M个片段。举例来说,如果进行计算机选择,175-225bp范围内的片段将只有1,252,559个,在3.09B个碱基中大约总共覆盖了248M个碱基,即占人类参考基因组的8.02%。见下表1,其中列出了不同大小选择范围内的片段数量、碱基对总数和缩减率(%)。这种子取样可称为缩减率(RR)。
表1
缩减率取决于片段大小的选择
在本申请的一优选实施方式中,目标是获得跨样本配对相似度得分的高分辨率。为了提高每个样本可获得的给定读取数量的分辨率(与每个样本的测序成本相关),任何两个样本之间的覆盖碱基对重叠都是相关的,因为只有两个样本中的覆盖区域才会被比较。因此,增加测序片段的碱基对范围可能有助于减少片段的多样性,增加不同样本之间的重叠。
不过,根据不同的应用,需要权衡利弊。在本申请的一些实施方式中,低通全基因组测序数据除了用于鉴定样本的DNA来源外,还具有双重目的,即生成样本本身的全基因组拷贝数图谱,如NIPD应用或胚胎的无细胞废培养基的情况。
在这种情况下,宽度相似但以较短片段为中心的片段范围会增加多样性,并能为拷贝数调用者提供更好的结果和分辨率,因为在给定的基因组窗口中,有更多的片段对读数计数有贡献。
片段的大小选择
根据每个样本的测序读取数量和/或分辨率,也可以使用不同的片段大小选择技术来达到所需的缩减比。对于给定的平均片段长度,可以以该平均片段长度为中心,分别选择较小或较大的条带,从而获得较少或较多的总片段数。
像Pipping prep(Sage Science)这样的仪器可用于更严格地控制片段长度分布,与通带滤波器类比,它还具有更高的Q因子,定义为
Q=F中心/δF=[(Fmin+FMAX)/2]/(FMAX-Fmin)
其中,
F中心=(Fmin+FMAX)/2是片段的平均大小
δF=FMAX-Fmin是片段大小范围的宽度
Fmin是片段的大小,相对于归一化的带内每个分区的峰值片段数低于,Fmin的片段以常规相对水平(例如1/10=10%)或更低表示。
FMAX是片段的大小,相对于归一化的带内每个分区的峰值片段数,高于FMAX的片段以常规相对水平或更少表示。
对于Illumina测序,测序模式优选是成对端测序,因为覆盖的基因组会增加,因此每百万读数对的基因座数也会增加,从而提高分辨率。但是,当选择测序的大小低于一定大小时,成对端测序将无法提高覆盖度,因为两个成对读数完全重叠。
在Ion Torrent测序中,更长的读数会按比例增加覆盖的基因组,从而增加每百万读数的基因座数,提高分辨率。在Ampli1低通IonTorrent试剂盒(Menarini SiliconBiosystems)中,将条形码化的池化样本通过凝胶或其他方法(如Pippin Prep)进行大小选择。选择不同的Q因子和平均片段长度可以提供不同的每百万读数分辨率。
池化样本并随后对文库进行大小选择以进行测序的一个优势在于,所有样本的片段长度分布相同,这反过来又会使不同样本中覆盖基因组的重叠度最大化,从而为比较提供更多的高多态性基因座。
另一方面,在使用Illumina的Ampli1低通试剂盒时,不同的低通文库首先要进行大小选择,然后再池化,不同样本的大小选择略有不同,从而减少了不同样本的覆盖基因组。
虽然标准方案没有强制要求在文库池化后进行大小选择,但可以采用这种方法来增加不同样本间的重叠,这可能有利于基于对照的分析。
不过,重要的是不同样本的DRS-WGA测序片段分布之间有重叠,因为片段分布重叠的减少可能会减少成对相似度得分评估中共有的多态性基因座的数量,进而降低该方法的分辨率。
根据本申请,DRS-WGA和LPWGS的组合可减少输入样本的代表性。通过NGS测序,参考基因组文库的代表性降低,反过来又缩小了所选(或任何可测序)碱基对范围内的覆盖基因组,从而在每个读数的基础上,有效提高不同样本间覆盖基因组的重叠度。
根据本申请,这种效应可以根据不同情况以不同方式加以利用。
从DRS-WGA中制备文库优选采用WO2017/178655或WO2019/016401中公开的方法之一。
相似度得分阈值化和身份调用
可以选择对前面步骤得到的相似度得分进行阈值化,以确定样本类别。在大多数情况下,读数深度越高,两个样本中可供比较的多态性基因座数量就越多。为了使用预先计算的值对相似度得分进行阈值化,每个样本中的映射读数优选归一化为固定的读取数量。这种归一化是通过随机抽样读数,映射到参考基因组,直到达到所需的数量(优选包含在100,000个映射读数到10,000,000个映射读数的范围内)进行的。
在本申请的一优选实施方式中,如果相似度得分高于第一选定阈值,则调用两个样本之间存在“自身”关系。
在本申请的一优选实施方式中,如果相似度得分低于第二选定阈值,则调用两个样本之间存在“不相关”关系。
在非侵入性产前诊断应用中,如果相似度得分为等于或低于所述第一阈值的第三阈值到等于或高于所述第二阈值的第四阈值,则调用两个样本之间存在“亲缘”关系。
在法医人类鉴定应用中,如果相似度得分为等于或低于所述第一阈值的第三阈值到等于或高于所述第二阈值的第四阈值,则调用两个样本之间存在“混合”关系。
根据意大利知识产权法典第170条之二第(2)款作出的声明
本申请中使用的人源生物材料是根据适用的法律规定获得的。

Claims (53)

1.一种分析包含基因组DNA的多个样本中至少两个样本的相似度的方法,所述方法包括以下步骤:
a)提供包含基因组DNA的多个样本;
b)对每个样本分别进行所述基因组DNA的确定性限制位点全基因组扩增(DRS-WGA);
c)使用无片段化、测序衔接子/WGA融合引物PCR反应,由所述DRS-WGA的每个产物制备大规模平行测序文库;
d)对所述大规模平行测序文库以小于1x的平均覆盖深度进行低通全基因组测序;
e)将步骤d)中获得的每个样本的读数与参考基因组进行比对;
f)为每个样本提取多个多态性基因座上的等位基因含量;
g)根据在所述多个基因座上测得的等位基因含量,计算至少两个样本的成对相似度得分;
h)根据相似度得分确定至少两个样本的相似度。
2.根据权利要求1所述的方法,其中所述低通全基因组测序是在覆盖度<0.01x,优选覆盖度<0.05x,更优选覆盖度<0.1x,甚至更优选覆盖度<0.5x下进行的。
3.根据权利要求1或2所述的方法,其中所述多个多态性基因座包括平均杂合度>0.499的多态性基因座,优选平均杂合度>0.49的多态性基因座,更优选平均杂合度>0.4的多态性基因座,甚至更优选平均杂合度>0.3的多态性基因座,最优选平均杂合度>0.2的多态性基因座。
4.根据权利要求1-3中任一项所述的方法,其中所述多个多态性基因座包括>200,000个基因座,优选>300,000个基因座,更优选>500,000个基因座,甚至更优选>1,000,000个基因座。
5.根据权利要求1-4中任一项所述的方法,其中所述成对相似度得分是通过计算由至少两个样本中的至少一个读数所覆盖的基因座上的B-等位基因频率的相关性计算的。
6.根据权利要求1-4中任一项所述的方法,其中所述成对相似度得分是通过计算由两个成对样本中的至少一个读数所覆盖的基因座上的平均一致性值计算的,其中每个基因座的一致性值分配以下值之一:
A1)如果调用的等位基因相同,则为1;以及
B1)如果调用的等位基因不同,则为0;或者
A2)如果调用的等位基因相同,则为1;
B2)如果调用的等位基因完全不同,则为0;以及
C2)如果调用的等位基因部分重叠,则为0.5。
7.根据前述权利要求中任一项所述的方法,还包括定义一组具有共同特性的样本聚类,所述共同特性选自由以下组成的组:一个(或多个)个体的身份对聚类样本的DNA有重大贡献,或包含数量不足的DNA的特性,和/或包含高度降解的DNA或来源不确定的DNA的特性。
8.根据权利要求7所述的方法,其中通过使用所述成对相似度得分作为输入的算法,将至少两个样本分配到至少一个聚类中。
9.根据权利要求8所述的方法,其中所述算法为分层聚类算法。
10.根据权利要求8所述的方法,其中所述聚类的数量通过以下方法计算:
a)选择使平均剪影得分最大化的第一迭代聚类的数量;
b)对于所述第一迭代聚类中的每个聚类,计算属于所述第一迭代聚类的每个所述样本的剪影得分,其中属于聚类的样本的剪影得分低于0.19-0.21范围内的固定阈值,则将所述样本分配到一个新的聚类。
11.根据权利要求10所述的方法,其中所述聚类的组包括一个或多个身份聚类,所述身份聚类包含的样本含有来自唯一且相同个体的DNA。
12.根据权利要求11所述的方法,其中,在存在更多身份聚类的情况下,所述多个身份聚类的基数与所述多个样本中的个体DNA贡献者的数量相对应。
13.根据权利要求8至12中任一项所述的方法,进一步包括定义一组混合身份聚类,每个所述混合身份聚类包括含有来自至少两个个体的DNA的样本。
14.根据权利要求13所述的方法,还包括定义至少一个无调用聚类,该聚类包括含有来源不确定的DNA的样本。
15.根据权利要求8至14中任一项权利要求所述的方法,其中所述多个样本包括至少一个参考样本,所述身份聚类的组包括至少一个参考聚类,所述参考聚类包含所述参考样本。
16.根据权利要求15所述的方法,其中所述至少一个参考样本是来自妊娠母本个体的样本。
17.根据权利要求16所述的方法,其中所述身份聚类的组进一步包含至少一个亲缘聚类,所述亲缘聚类由来自所述母本个体正在进行的妊娠中的至少一个胎儿的样本组成。
18.根据权利要求17所述的方法,其中所述亲缘聚类被划分为多个胎儿聚类,所述胎儿聚类由包含来自唯一且相同胎儿的DNA的样本组成。
19.根据权利要求15所述的方法,其中所述至少一个参考聚类由包含来自以下的DNA的样本组成,所述DNA来自与法医调查中的受害者相对应的唯一且相同个体,进一步包括定义至少一个犯罪者聚类,该聚类包括含有来自不同于受害者的唯一且相同个体的DNA的样本。
20.根据权利要求19所述的方法,包括将属于所述至少一个犯罪者聚类中的每个聚类的多个样本中的DRS-WGA等分试样进行聚类混合,为每个聚类生成相应的单个个体WGA-DNA样本,并对所述单个个体WGA-DNA样本中的至少一个进行进一步的DNA分析。
21.根据权利要求19所述的方法,包括对属于所述至少一个犯罪者聚类中的每个聚类的多个样本的至少一种检测类型的基因分析数据进行聚类合并,为所述至少一个犯罪者聚类中的每个聚类生成相应的单个个体WGA-DNA数据。
22.根据权利要求21所述的方法,其中所述检测类型选自由以下组成的组:
a)微卫星分析
b)单核苷酸多态性分析
c)大规模平行靶向测序;和
d)全基因组测序。
23.根据权利要求1至15中任一项所述的方法,其中所述多个样本包括肿瘤和/或正常样本。
24.根据权利要求1或15所述的方法,其中所述多个样本至少包括参考样本,该参考样本含有来自母本个体的DNA,且所述多个样本中的至少一个其他胚胎样本选自由以下组成的组:
a)含有衍生自所述母本个体的胚胎DNA的样本;以及
b)含有从所述母本个体的胚胎中获得的废胚胎培养基中的DNA的样本。
25.根据权利要求24所述的方法,进一步包括通过以下方法对所述胚胎进行胚胎植入前基因筛选:利用基于所述至少一个其他胚胎样本测得的与母体污染相对应的污染因子,根据来自所述母本样本的所述至少一个其他胚胎样本的所述成对相似度,分析来自所述至少一个其他胚胎样本的所述低通全基因组测序数据的全基因组染色体畸变。
26.根据权利要求15所述的方法,其中所述多个样本至少包括含有来自母本个体的DNA的参考样本,以及至少一个含有来自无细胞DNA样本的DNA的其他样本。
27.根据权利要求26所述的方法,进一步包括通过以下方法对所述无细胞DNA样本进行非侵入性产前检查:使用与基于所述至少一个无细胞DNA样本测得的胎儿分数相对应的校正因子,根据与所述母本参考样本的所述成对相似度,分析来自所述至少一个无细胞DNA样本的所述低通全基因组测序数据的全基因组染色体畸变。
28.根据权利要求15所述的方法,其中所述多个样本至少包括含有来自母本个体的DNA的参考样本,以及至少一个含有来自绒毛膜绒毛、羊水或妊娠产物的DNA的其他产前样本。
29.根据权利要求28所述的方法,进一步包括通过以下方法对所述产前样本进行产前检测:使用与针对所述至少一个产前样本测得的母体或外源污染相对应的校正因子,根据与所述母本参考样本的成对相似度,分析来自所述至少一个产前样本的所述低通全基因组测序数据的全基因组染色体畸变。
30.根据权利要求15所述的方法,特别是用于细胞系鉴定,其中多个参考聚类是由来自细胞系的多个DNA样本生成的,所述身份聚类的组进一步包含至少一个来自待鉴定细胞系的样本。
31.根据权利要求15所述的方法,特别是用于研究异种移植物,其中所述至少一个参考聚类由含有移植患者的种系DNA的样本组成,所述身份聚类的组进一步包含一个由所述移植患者的异种供体样本组成的供体聚类。
32.根据权利要求17所述的方法,特别是用于非侵入性父子鉴定,其中所述至少一个参考样本包括仅含有来自所述父本的DNA的父本参考样本,且所述至少一个参考聚类进一步包括含有所述父本样本的父本身份聚类,其中:
(i)如果相对于父本样本的亲缘样本相似度得分与亲缘关系一致,则确认父子关系;
(ii)如果相对于父本样本的亲缘样本相似度得分与不相关的个体一致,则不确认父子关系。
33.根据权利要求17所述的方法,特别是用于非侵入性葡萄胎妊娠评估,其中所述至少一个样本包括至少一个循环滋养层细胞样本,并且其中,如果相对于母本样本的所述滋养层细胞样本相似度得分与不相关样本一致,则确认为完全性葡萄胎。
34.根据权利要求33所述的方法,其中所述至少一个样本包括多个滋养层细胞样本,并且其中:
(i)如果所述滋养层细胞样本之间的相似度得分超过自身样本的预期相似度得分的预期第99百分位数,则确认为P1P1纯合父系葡萄胎。
(ii)如果所述滋养层细胞样本之间的相似度得分与自身样本的预期相似度得分一致,则确认为P1P2杂合父系葡萄胎。
35.根据权利要求30所述的方法,其中所述至少一个样本进一步包括父本样本,且所述滋养层细胞样本之间的相似度得分与自身样本的预期相似度得分一致,其中:
(i)如果相对于父本样本的所述滋养层细胞样本相似度得分与自身样本的预期相似度得分一致,则确认为P1P2杂合父系葡萄胎。
(ii)如果相对于父本样本的所述滋养层细胞样本相似度得分低于自身样本的预期相似度得分的第1百分位数,则不确认为P1P2杂合父系葡萄胎。
36.根据权利要求1-6中任一项所述的方法,进一步包括使用机器学习分类器、使用所述成对相似度得分作为输入,基于预定义的类别对选自多个样本中的样本进行分类。
37.根据权利要求36所述的方法,其中所述机器学习分类器是随机森林分类器。
38.根据权利要求36或37所述的方法,其中所述机器学习分类器使用针对所述低通全基因组测序数据测得的至少一个值作为进一步输入,该值选自包括以下的组:
a)DLRS:导数对数比差;
b)R50:50%的测序读数覆盖的WGA片段占至少一个读数覆盖的总WGA片段的百分比;
c)YFRAC:映射到Y染色体的读数分数;
a)畸变:与细胞倍性中位数的获得或损失相对应的基因组百分比;
b)Chr13:13号染色体的倍性;
c)Chr18:18号染色体的倍性;
d)Chr21:21号染色体的倍性;
e)RSUM:与最接近整数拷贝数水平的平均绝对偏差,其根据与细胞倍性中位数的绝对偏差最大的拷贝数畸变事件计算;
f)Mix_score:根据与细胞倍性中位数的绝对偏差最大的拷贝数畸变事件计算的RSUMz得分;以及
g)Deg_score:小损失事件(<10Mbp,这在降解样本中很常见)的数量。
39.根据权利要求36至38中任一项所述的方法,其中样本中的至少一个是参考样本。
40.根据权利要求39所述的方法,其中所述至少一个参考样本包括来自妊娠母本个体的样本。
41.根据权利要求40所述的方法,其中所述多个样本包括至少一个相对于母本参考被归类为“亲缘”的样本,代表来自所述母本个体正在进行的妊娠中的胎儿的样本。
42.根据权利要求39所述的方法,其中所述至少一个参考样本是包含来自以下的DNA的样本,所述DNA来自与法医调查中的受害者相对应的唯一且相同个体,进一步包括定义至少一个单个犯罪者组,该单个犯罪者组由相对于参考样本被归类为“非自身”且相对于彼此被归类为“自身”的所有样本表示,包含含有来自不同于受害者的唯一且相同个体的DNA的样本。
43.根据权利要求42所述的方法,包括将属于所述至少一个单个犯罪者组中的每个犯罪者组的多个样本中的DRS-WGA等分试样进行分组混合,为每个单个犯罪者组生成相应的单个个体WGA-DNA样本,并对所述单个个体WGA-DNA样本中的至少一个进行进一步的DNA分析。
44.根据权利要求42所述的方法,包括对属于所述至少一个单个犯罪者组中的每个犯罪者组的多个样本的至少一种检测类型的基因分析数据进行分组合并,为所述至少一个单个犯罪者组的每个犯罪者组生成相应的单个个体WGA-DNA数据。
45.根据权利要求36至39中任一项所述的方法,其中所述多个样本包括肿瘤和/或正常样本。
46.根据权利要求36至39中任一项所述的方法,其中所述多个样本至少包括参考样本,该参考样本含有来自母本个体的DNA,以及所述多个样本中相对于母本参考被归类为“非自身”的至少一个其他胚胎样本选自由以下组成的组:
a)含有衍生自所述母本个体的胚胎DNA的样本;以及
b)含有从所述母本个体的胚胎中获得的废胚胎培养基中的DNA的样本。
47.根据权利要求46所述的方法,进一步包括通过以下方法对所述胚胎进行胚胎植入前基因筛选:利用针对所述至少一个其他胚胎样本测得的与母体污染相对应的污染因子,根据所述至少一个其他胚胎样本与所述母本个体样本的所述成对相似度,分析来自所述至少一个其他胚胎样本的所述低通全基因组测序数据的全基因组染色体畸变。
48.根据权利要求39所述的方法,其中多个参考组由来自细胞系的DNA的多个样本生成,且所述多个样本进一步包括来自待鉴定细胞系的至少一个样本。
49.根据权利要求39所述的方法,其中所述至少一个参考组包括含有来自移植患者的种系DNA的样本,并且所述多个样本进一步包含代表来自所述移植患者的异基因供体的至少一个样本的至少一个供体样本。
50.根据权利要求41所述的方法,特别是用于非侵入性父子鉴定,其中所述至少一个参考样本进一步包含仅含有来自所述父本的DNA的父本参考样本,且所述多个样本进一步包含以下样本,其中:
(i)如果相对于父本参考样本,它们被归类为“自身”,则确认父子关系;
(ii)如果相对于父本参考样本,它们被归类为“不相关”,则不能确认父子关系。
51.根据权利要求40所述的方法,特别是用于非侵入性葡萄胎妊娠评估,其中所述至少一个样本包括至少一个循环滋养层细胞样本,并且其中如果所述滋养层细胞样本相对于母本参考样本被归类为“不相关”,则确认为父系的完全水泡样葡萄胎。
52.根据权利要求51所述的方法,其中所述至少一个样本包括多个滋养层细胞样本,所述多个滋养层细胞样本相对于彼此被归类为“自身”,并且其中:
(i)如果它们的相似度得分超过“自身”样本的预期相似度得分的预期第99百分位数,则确认为父系的P1P1纯合水泡样葡萄胎。
(ii)如果它们的相似度得分与“自身”样本的预期相似度得分一致,则确认为父系的P1P2杂合水泡样葡萄胎。
53.根据权利要求52所述的方法,其中所述至少一个样本进一步包括父本样本,其中所述父本样本相对于所述多个滋养层细胞样本中的至少一个样本被归类为“自身”样本,并且其中:
(i)如果相对于父本样本的所述滋养层细胞样本相似度得分与“自身”样本的预期相似度得分一致,则确认为父系的P1P2杂合水泡样葡萄胎。
(ii)如果相对于父本样本的所述滋养层细胞样本相似度得分低于“自身”样本的预期相似度得分的第1百分位数,则不能确认为父系的P1P2杂合水泡样葡萄胎。
CN202280063537.5A 2021-09-20 2022-09-19 利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法 Pending CN117980502A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IT102021000024101A IT202100024101A1 (it) 2021-09-20 2021-09-20 Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)
IT102021000024101 2021-09-20
PCT/IB2022/058833 WO2023042173A1 (en) 2021-09-20 2022-09-19 Method for analysing the degree of similarity of at least two samples using deterministic restriction-site whole genome amplification (drs-wga)

Publications (1)

Publication Number Publication Date
CN117980502A true CN117980502A (zh) 2024-05-03

Family

ID=78771055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280063537.5A Pending CN117980502A (zh) 2021-09-20 2022-09-19 利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法

Country Status (8)

Country Link
CN (1) CN117980502A (zh)
AR (1) AR127106A1 (zh)
AU (1) AU2022346271A1 (zh)
CA (1) CA3231433A1 (zh)
IL (1) IL311475A (zh)
IT (1) IT202100024101A1 (zh)
TW (1) TW202321461A (zh)
WO (1) WO2023042173A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877586A (zh) * 2024-01-03 2024-04-12 中国水产科学研究院珠江水产研究所 适用于zw/xy性别决定系统的性别特异标记检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2172353T3 (es) 1998-09-18 2002-09-16 Micromet Ag Amplificacion del adn de una unica celula.
ITTO20070307A1 (it) 2007-05-04 2008-11-05 Silicon Biosystems Spa Metodo e dispositivo per la diagnosi prenatale non-invasiva
ITUA20162640A1 (it) 2016-04-15 2017-10-15 Menarini Silicon Biosystems Spa Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo
EP3431611A1 (en) * 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
IT201900013335A1 (it) * 2019-07-30 2021-01-30 Menarini Silicon Biosystems Spa Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)

Also Published As

Publication number Publication date
AR127106A1 (es) 2023-12-20
WO2023042173A1 (en) 2023-03-23
IL311475A (en) 2024-05-01
TW202321461A (zh) 2023-06-01
IT202100024101A1 (it) 2023-03-20
AU2022346271A1 (en) 2024-03-21
CA3231433A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
US11629378B2 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
KR20210003094A (ko) 잔류 질환의 검출을 위한 시스템 및 방법
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
CN107771221A (zh) 用于癌症筛查和胎儿分析的突变检测
CN103797129A (zh) 使用多态计数来解析基因组分数
WO2019025004A1 (en) METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY
CN117980502A (zh) 利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法
Chatterton et al. Brain-derived circulating cell-free DNA defines the brain region and cell specific origins associated with neuronal atrophy
Middelkamp et al. Comprehensive single-cell genome analysis at nucleotide resolution using the PTA Analysis Toolbox
US20210280270A1 (en) Method to determine if a circulating fetal cell isolated from a pregnant mother is from either the current or a historical pregnancy
EP3202912A1 (en) Noninvasive method and system for determining fetal chromosomal aneuploidy
Neveling et al. Validation of two‐channel sequencing‐by‐synthesis for noninvasive prenatal testing of fetal whole and partial chromosome aberrations
Husin Identification of Novel Transcripts and Exons by RNA-Seq of Transcriptome in Durio zibethinus Murr
Li et al. APEC: an accesson-based method for single-cell chromatin accessibility analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication