CN114258572A - 用于确定基因组倍性的系统和方法 - Google Patents
用于确定基因组倍性的系统和方法 Download PDFInfo
- Publication number
- CN114258572A CN114258572A CN202080058295.1A CN202080058295A CN114258572A CN 114258572 A CN114258572 A CN 114258572A CN 202080058295 A CN202080058295 A CN 202080058295A CN 114258572 A CN114258572 A CN 114258572A
- Authority
- CN
- China
- Prior art keywords
- embryo
- sequencing
- sequence data
- ploidy
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种检测胚胎倍性的方法,包括接收胚胎序列数据;将接收到的序列数据与参考基因组进行比对;在比对的胚胎序列数据中识别感兴趣的区域;通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP);确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数;将倍性得分与预定阈值进行比较;以及如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
Description
相关申请的交叉援引
本申请要求于2019年6月21日提交的美国临时专利申请62/865,122的优先权,该申请的全部内容通过援引并入本申请。
援引加入
本文引用的任何专利、专利申请和出版物的公开内容通过援引整体并入本申请。
本文提供的实施例一般涉及用于分析基因组核酸(基因组DNA)和检测遗传异常的系统和方法。本文提供的实施例包括涉及检测细胞(例如胚胎或生物体)中的染色体异常,例如倍性(例如,单倍性(haploidy)、二倍性和多倍性)的系统和方法。
背景技术
以非常低的覆盖率水平(例如,约0.1X)的全基因组鸟枪法(WGS)下一代测序(NGS)的低成本允许相对低价的植入前非整倍体(PGT-A)和不平衡多倍体状态的遗传测试(例如,69:XXY、69:XYY)。然而,到目前为止,还没有办法使用非常低覆盖率的WGS(WGS NGS数据)来识别/检测非二倍体状态,例如23,X单倍体(haploid)或平衡的多倍体,例如69:XXX或92:XXXX。使用现有的极低覆盖率拷贝数分析技术(Shen等人2016;Liu等人2015;Park等人2019)无法识别平衡的多倍体,因为染色体X与Y丰度的比率对于多倍体水平是不变的。SNP微阵列以及高覆盖率NGS测序(>50X;Weiss等人2018;>15X Margarido和Heckerman,2015)可以识别69:XXX,例如,通过检测与预期的二倍体杂合等位基因比率0.5的显著偏差。然而,模拟(analog)等位基因比率不适用于低成本/低覆盖率测序,因为假纯合性、测序错误和由于每个基因座覆盖率(per-locus coverage)低导致统计能力差的混杂影响。
因此,需要一种使用不需要靶向富集(target enrichment)或亲本序列数据的非常低覆盖率的WGS NGS数据来检测平衡多倍体的新方法。
发明内容
本文提供了用于分析基因组核酸(基因组DNA)以及检测和/或识别基因组特征(包括例如染色体异常)的方法和系统。在一些实施例中,方法和系统用于表征和/或确定细胞的倍性。在一些实施例中,所述方法和系统用于检测、识别、确定、推断和/或区分细胞(例如,胚胎(例如人类)、后代和/或生物体)中的倍性(例如,单倍性、二倍性和多倍性)和/或整倍性。在一些实施例中,所述方法和系统用于检测、确定和/或识别细胞(例如胚胎,例如植入前IVF胚胎、后代或生物体)中的平衡多倍性。
本文提供的方法和系统包括分析、评估、表征和/或确定细胞或生物体的基因组、基因组特征和/或基因组核酸(基因组DNA)序列的方法。在一些实施例中,本文提供的方法和系统中使用的基因组序列数据是通过例如核酸测序方法获得的,例如下一代测序(NGS)方法,例如低覆盖率和/或低深度(例如,低分辨率)测序方法。在本文提供的方法和系统中利用从低覆盖率和/或低深度测序获得的较低分辨率DNA测序数据的能力提供了显着优势,包括例如提高的效率(例如,允许对大量样本进行多重测序)并减少时间和成本。在一些实施例中,本文提供的方法和系统包括检测、识别和/或分析细胞(例如胚胎、后代或生物体)的基因组中的单核苷酸变异(SNV)。在一些这样的实施例中,SNV数据包括或由从方法中的低覆盖率和/或低深度(例如,低分辨率)测序获得的低分辨率序列信息组成。在一些实施例中,系统和方法被优化以使用SNV数据,例如从低覆盖率和/或低深度(例如,低分辨率)测序方法产生的SNV数据,以检测、识别、确定、推断和/或区分细胞(例如胚胎、后代和/或生物体)中的倍性(例如,单倍性、二倍性和多倍性)。在一些实施例中,方法和系统使用SNV数据,例如从低覆盖率和/或低深度(例如,低分辨率)测序方法产生的SNV数据,用于检测、推断、确定、区分和/或识别细胞(例如胚胎,例如植入前IVF胚胎(例如,人类)、后代或生物体)中的平衡多倍性。
根据各种实施例,提供了一种用于检测胚胎中的倍性的方法。该方法可以包括接收胚胎序列数据,将接收到的序列数据与参考基因组进行比对,在比对的胚胎序列数据中识别感兴趣的区域,通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP),确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数,将倍性得分与预定阈值进行比较,以及如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
根据各种实施例,提供了一种存储用于检测胚胎中的倍性的计算机指令的非暂时性计算机可读介质。该方法可以包括接收胚胎序列数据,将接收到的序列数据与参考基因组进行比对,在对齐的胚胎序列数据中识别感兴趣的区域,通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP),确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数,将倍性得分与预定阈值进行比较,以及如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
根据各种实施例,提供了一种用于检测胚胎中的倍性的系统。该方法可以包括用于接收胚胎序列数据的数据存储,通信连接到数据存储的计算设备,以及与计算设备通信连接并被配置为显示包含胚胎的多倍体分类的报告的显示器。该计算设备可以包括ROI引擎,其被配置为将接收到的序列数据与参考基因组比对,并在比对的胚胎序列数据中识别感兴趣的区域,SNP识别引擎,其被配置为通过将接收到的序列数据与比对的参考基因组进行比较以识别序列数据中的单核苷酸多态性(SMP),以及评分引擎,其被配置为确定多倍体得分,包括对感兴趣区域中观察到的SNP的数量进行计数,将多倍体得分与预定阈值进行比较,以及如果多倍体得分低于预定阈值,则将胚胎识别为多倍体。
附图说明
图1描绘了根据各种实施例,整倍体(二倍体)和非整倍体(三体)细胞的基因组核酸(基因组DNA)测序的序列数据中观察到ALT(变异)等位基因(在纯合子中为0%或100%)的概率与测序深度之间的关系,具有较高ALT概率的基因型显示观察到ALT等位基因的较高概率。
图2是根据各种实施例,在来自整倍体基因组DNA样本的测序的序列数据中观察到ALT等位基因的概率与在来自三体基因组DNA样本的测序的序列数据中观察到ALT等位基因的概率的差异的图示,。根据各种实施例,每个面板代表不同频率(0.1、0.2、0.3、0.4)的变异。对于整倍体样本(粗黑线)和三体样本(较浅的阴影线),单个图显示了在给定测序深度(限制为>=1)的情况下观察到ALT等位基因的概率。
图3是根据各种实施例,用于检测、推断、识别、确定和/或区分倍性,例如多倍性(例如,平衡多倍性)和/或整倍性(例如,二倍性)的示例性方法的工作流程300的图解表示。
图4表示用作训练集的已知倍性胚胎的SNV等位基因序列数据的分析结果。结果显示为得分-多倍体效应作为测序结果中比对的读数对(read pairs)数量的函数的图示。该图示出了根据各种实施例的通过测序覆盖率的倍性类别(二倍体=圆形;多倍体=三角形)之间的训练集分离。
图5是根据各种实施例在去除测序覆盖率和其他协变量的影响之后图4中呈现的结果的呈现(通过测序覆盖率说明倍性类别(二倍体和多倍体)之间的训练集分离)。
图6是根据各种实施例,根据图4和图5所示的训练集数据(已知倍性胚胎的SNV等位基因序列数据)的分析结果评估和显示的接受者操作特征(ROC)曲线。
图7是对用作训练集的已知倍性胚胎的SNV等位基因序列数据的分析结果的表示。结果显示为得分-多倍体效应作为测序结果中比对的读数对(read pairs)数量的函数的图示。该图说明了根据各种实施例,通过测序覆盖率在倍性类别(二倍体=圆形;多倍体=三角形)之间的训练集分离。
图8是根据各种实施例在去除测序覆盖率和其他协变量的影响之后图7中呈现的结果的表示(通过测序覆盖率说明倍性类别(二倍体和多倍体)之间的训练集分离)。
图9是示出根据各种实施例的交叉验证的2000次迭代的灵敏度的直方图。
图10是根据各种实施例的用于检测胚胎中倍性的系统的示意图。
图11是显示根据各种实施例的用于检测胚胎中倍性的方法的示例性流程图。
图12是示出根据各种实施例的用于执行本文提供的方法的计算机系统的框图。
应当理解,附图不一定按比例绘制,附图中的对象也不一定按彼此的关系按比例绘制。附图是旨在使本文公开的装置、系统和方法的各种实施例变得清楚和理解的描绘。在可能的情况下,在整个附图中将使用相同的附图标记来指代相同或相似的部件。此外,应当理解,附图不旨在以任何方式限制本教导的范围。
此外,当在本文中使用术语“在之上”、“附着到”、“连接到”、“耦合到”或类似词汇时,一个元件(例如,材料、层、衬底等)可以“在之上”、“附着到”、“连接到”或“耦合到”另一元件,而不管该元件是直接在之上、附着到、连接到或耦合到另一元件还是在一个元件和另一个元件之间存在一个或多个中间元件。此外,当提及元件列表(例如元件a、b、c)时,此类引用旨在包括所列元件中的任何一个元件本身、少于所有所列元件的任何组合,和/或所有列出的元件的组合。说明书中的部分划分只是为了便于审查,并不限制所讨论元件的任何组合。
具体实施方式
各种实施例的以下描述仅是示例性和说明性的,并且不应被解释为以任何方式限制或限制。本教导的其他实施例、特征、目的和优点将从描述和附图中显而易见。
除非另有定义,本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。通常,与本文所述的细胞和组织培养、分子生物学、以及蛋白质和寡核苷酸或多核苷酸化学和杂交相关的术语和技术是本领域公知的和常用的。标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如本领域中通常完成的或如本文所述进行的。本文所述的技术和程序通常根据本领域公知的常规方法进行,并且如在本说明书通篇引用和讨论的各种一般性和更具体的参考文献中所述。参见例如Sambrook等人,《分子克隆:实验室手册》(第三版,冷泉港实验室出版社,冷泉港,纽约2000)。结合使用的术语以及本文所述的实验室程序和技术是本领域公知和常用的。
“多核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键连接的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常,多核苷酸包含至少三个核苷。通常寡核苷酸的大小范围从几个单体单元,例如3-4,到数百个单体单元。每当多核苷酸(例如寡核苷酸)由字母序列(例如“ATGCCTG”)表示时,应理解核苷酸从左到右按5′->3′的顺序排列,并且除非另有说明,“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,“T”表示胸苷。字母A、C、G和T可用于指碱基本身、核苷或包含碱基的核苷酸,如本领域标准。
DNA(脱氧核糖核酸)是包含4种核苷酸的核苷酸链;A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤),RNA(核糖核酸)由4种核苷酸组成;A、U(尿嘧啶)、G和C。某些核苷酸对以互补方式彼此特异性结合(称为互补碱基配对)。也就是说,腺嘌呤(A)与胸腺嘧啶(T)配对(然而,在RNA的情况下,腺嘌呤(A)与尿嘧啶(U)配对),胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸组成的第二核酸链结合时,两条链结合形成双链。如本文所用,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读数”表示指示DNA或RNA分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、片段等)中核苷酸碱基(例如,腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)顺序的任何信息或数据。应当理解,本教导考虑使用所有可用的各种技术、平台或技术获得的序列信息,包括但不限于:毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。
如本文所用,术语“细胞”与术语“生物细胞”可互换使用。生物细胞的非限制性实例包括真核细胞、植物细胞、动物细胞,例如哺乳动物细胞、爬行动物细胞、鸟类细胞、鱼细胞等、原核细胞、细菌细胞、真菌细胞、原生动物细胞等,从组织中分离的细胞,例如肌肉、软骨、脂肪、皮肤、肝脏、肺、神经组织等,免疫细胞,例如T细胞、B细胞、自然杀伤细胞、巨噬细胞等,胚胎(例如,受精卵)、卵母细胞、卵子、精细胞、杂交瘤、培养细胞、来自细胞系的细胞、癌细胞、感染细胞、转染和/或转化细胞、报告细胞等。哺乳动物细胞可以来自例如人、小鼠、大鼠、马、山羊、绵羊、牛、灵长类动物等。
基因组是细胞或生物体的遗传物质,包括动物,例如哺乳动物,例如人,并且包含核酸,即基因组DNA。在人类中,总DNA包括例如基因、非编码DNA和线粒体DNA。人类基因组通常包含23对线性染色体:22对常染色体(常染色体)加上决定性别的X和Y染色体。23对染色体包括来自每个亲本的一个副本。构成染色体的DNA被称为染色体DNA,存在于人类细胞的细胞核中(核DNA)。线粒体DNA作为环状染色体位于线粒体中,仅从母本遗传,与位于细胞核中的DNA的核基因组相比,通常被称为线粒体基因组。
如本文所用,短语“基因组特征”是指定义的或指定的基因组元件或区域。在一些情况下,基因组元件或区域可以具有一些带注释的结构和/或功能(例如,染色体、基因、蛋白质编码序列、mRNA、tRNA、rRNA、重复序列、反向重复、miRNA、siRNA等)或者是遗传/基因组变异(例如,单核苷酸多态性/变异、插入/缺失序列、拷贝数变异、倒位等),其表示一个或多个核苷酸、基因组区域、基因或一组基因组区域或基因(在DNA或RNA中)由于例如突变、重组/交叉或遗传漂变而发生了相对于特定物种或特定物种内的亚群的变化。
倍性是指细胞或生物体基因组中同源染色体组的数量(指定为n)。例如,具有一组染色体的细胞或生物体被称为单倍体(monoploid)。具有两组同源染色体(2n)的细胞或生物体被称为二倍体。多倍体是其中一个或多个细胞(例如胚胎、后代或生物体)拥有两个以上完整的单倍体(haploid)染色体组的状态。单倍体(haploid)是指具有生物体通常完整的体细胞染色体组一半的细胞。例如,配子或生殖(性)细胞,如人类的卵子和精子细胞,是单倍体。受精过程中单倍体配子的融合产生二倍体合子,其中包含一组来自雌配子的同源染色体和一组来自雄配子的同源染色体。具有正常数量的常染色体(22个)和单个性染色体对(XX或XY)的人类胚胎被称为整倍体胚胎。因此,对于人类,整倍体状态是二倍体。在本文的各种实施例中,短语“所有染色体”可以包括所有常染色体和性染色体。在本文的各种实施例中,短语“所有染色体”不包括性染色体。
术语“等位基因”是指基因的替代形式。在人类或其他二倍体生物中,每个基因位点有两个等位基因。等位基因从每个父母那里继承:一个等位基因从母亲那里继承,一个等位基因从父亲那里继承。一对等位基因代表一个基因的基因型。如果特定基因座上的两个等位基因相同,则该基因型被称为纯合子。如果特定位点的两个等位基因存在差异,则该基因型被称为杂合的。.
术语“单倍型”是指染色体中的一组变异、多态性或多态性的组合,这些变异或多态性由于染色体中的接近而趋于共分离。可以根据单个基因、多个基因或基因之间的序列中的变异组合来描述单倍型。由于单倍型中变异的接近性,变异发生的位置往往很少或没有重组或交叉,并且它们倾向于代代相传并一起遗传。
如本文所用,短语“遗传异常”是指基因组相对于正常、野生型或参考基因组的变化。一般来说,遗传异常包括染色体异常和基因缺陷。通常,基因缺陷包括改变,包括但不限于单碱基突变、替换、插入和缺失以及拷贝数变异。染色体异常包括染色体数目或结构的改变,例如重复和缺失,例如染色体区域的重复或丢失、倒位和易位。一种常见的染色体异常被称为非整倍性,这是由于一条额外或缺失的染色体而导致的染色体数目异常。例如,人类的单体性是一种异常,其特征是染色体有一个拷贝丢失(只有一个拷贝而不是正常的两个拷贝)。人类的三体性是一种异常现象,其特征是染色体拷贝增加(三个拷贝而不是正常的两个拷贝)。染色体数目异常的胚胎称为非整倍体胚胎。大多数非整倍体是母体起源的,是由卵母细胞减数分裂过程中分离错误造成的。因此,减数分裂非整倍体将发生在胚胎的所有细胞中。然而,有丝分裂错误在人类植入前胚胎中也很常见,并可能导致有丝分裂非整倍体和染色体嵌合胚胎具有多个细胞群(例如,一些细胞是非整倍体,一些细胞是整倍体)。人类细胞中的多倍体是一种异常,其中细胞(例如在胚胎中)拥有多于两套完整的染色体。多倍体的示例包括三倍体(3n)和四倍体(4n)。人类中的多倍体可以以多种形式出现,导致性染色体平衡或性染色体不平衡(例如,可通过CNV方法检测)。人类的平衡性多倍体(也称为平衡多倍体)包含3个或更多单倍体基因组的完整拷贝,其中每个拷贝仅包含X染色体(例如,69:XXX或92:XXXX)或包含相同数量的X和Y染色体(例如,92:XXYY)。人类不平衡的性别多倍体(也称为不平衡的多倍体)包含3个或更多完整拷贝的单倍体基因组,其中至少一个拷贝包含Y染色体(例如,69:XXY、69:XYY)并且不包含等效拷贝数量的X和Y染色体。染色体异常会对细胞和生物体产生多种不同的影响,包括葡萄胎妊娠、流产以及遗传疾病和疾病。
一般而言,可以使用多种技术来识别基因组变异,包括但不限于:基于阵列的方法(例如,DNA微阵列等)、实时/数字/定量PCR仪器方法和全向或靶向核酸测序系统(例如,NGS系统、毛细管电泳系统等)。对于核酸测序,分辨率或覆盖率可以是一个或多个水平,并且在某些情况下可以在单碱基分辨率下使用。
如本文所用,短语“遗传模式”是指基因组特征(例如非整倍体)在细胞、后代(例如来自亲本细胞的胚胎或生物体)或生物体(例如二倍体细胞和生物体)的基因组中的传递方式和剂量。例如,在人类中,后代(例如胚胎)从每个亲本(一个母本和一个父本)接收一个基因等位基因,然后构成后代二倍体细胞中的两个等位基因。后代(例如胚胎)中特定等位基因或基因组特征的遗传模式定义了哪个亲本将基因组特征传递给后代。将基因组特征传递给后代或胚胎的亲本称为起源亲本。遗传可以是平衡的(预期的;每个亲本的贡献相等)或不平衡的(不足或过多)。例如,对于具有21三体的胚胎,其中21号染色体的一个副本是父系遗传的,而两个副本是母系遗传的,那么就说非整倍体的起源亲本是母本。相反,对于18单体,其中一个胚胎遗传了母本拷贝而没有遗传18号染色体的父本拷贝,可以说该特征的起源亲本是父本。
如本文所用,“后代”是指配子(例如雌性和雄性生殖细胞)结合的产物,包括但不限于例如卵裂球、合子、胚胎、胎儿、新生儿或儿童。后代DNA可以从任何来源获得,包括例如卵裂球活检、滋养外胚层活检、内细胞团活检、囊胚活检、体外胚胎培养液(embryo spentmedia)、cfDNA、受孕产物、绒毛膜绒毛样本和/或羊膜穿刺术。
如本文所用,“亲本”或“遗传亲本”是指配子对后代的贡献者并且包括例如卵子和精子供体,只要配子DNA源自供体。
短语“镶嵌胚胎”表示包含两种或更多种细胞遗传学上不同的细胞系的胚胎。例如,镶嵌胚胎可以包含具有不同类型的非整倍体的细胞系或整倍体和遗传异常细胞的混合物,这些细胞包含具有遗传变异的DNA,这些变异可能对胚胎在怀孕期间的生存能力有害。
短语“下一代测序”(NGS)是指与传统的基于桑格和毛细管电泳的方法相比具有增加通量的测序技术,例如具有在一个时间产生数十万个相对小的序列读数的能力时间。下一代测序技术的一些示例包括但不限于合成测序、连接测序和杂交测序。更具体地说,Illumina的MISEQ、HISEQ和NEXTSEQ系统以及Life Technologies Corp的个人基因组机器(PGM)、离子激流和SOLiD测序系统提供了对整个或靶向基因组的大规模并行测序。SOLiD系统和相关的工作流程、方案、化学等更详细地描述于国际申请日期为2006年2月1日的PCT公开号WO 2006/084132,标题为“Reagents,Methods,and Libraries for Bead-BasedSequencing”,2010年8月31日递交的标题为“Low-Volume Sequencing System and Methodof Use”的序列号为12/873,190的美国专利申请,以及2010年8月31日提交的标题为“Fast-Indexing Filter Wheel and Method of Use”的序列号为12/873,132的美国专利申请中,这些申请中的每一个的全部内容通过援引并入本文。
短语“测序运行”是指为确定与至少一种生物分子(例如,核酸分子)有关的一些信息而进行的测序过程的任何步骤或部分。
关于核酸测序的术语“读数”是指为被测序的核酸片段例如NGS确定的核苷酸序列。读数可以是具有定义读数长度的任意数量核苷酸的任何序列。
短语“测序覆盖率”或“序列覆盖率”在本文中可互换使用,通常是指序列读数和参考之间的关系,例如细胞或生物体的全基因组、基因组中的一个基因座或一个核苷酸在基因组中的位置。覆盖可以用多种形式描述(参见,例如Sims等人(2014)自然评论遗传学15:121-132)。例如,覆盖可以指有多少基因组在碱基对水平上被测序,可以计算为NL/G,其中N是读取数,L是平均读取长度,G是长度,或基因组(参考)的碱基数。例如,如果参考基因组为1000Mbp,并且对平均长度为100bp的1亿个读数进行测序,则覆盖率将为10X。此类覆盖可以表示为“倍”,例如1X、2X、3X等(或1、2、3等倍数覆盖)。覆盖率还可以指测序相对于参考核酸的冗余,以描述参考序列被读数覆盖的频率,例如,在测序期间读取任何给定基因座的单个碱基的次数。因此,可能存在一些未被覆盖且深度为0的碱基和一些被覆盖且深度介于1和50之间的任何碱基。覆盖冗余提供了序列数据可靠性的指示,也称为覆盖深度。覆盖的冗余可以针对尚未与参考或比对(例如,定位(mapped))读数比对的“原始”读数进行描述。也可以根据读数覆盖的参考(例如基因组)的百分比来考虑覆盖率。例如,如果参考基因组为10Mbp,并且序列读取数据定位到参考的8Mbp,则覆盖百分比将为80%。序列覆盖率也可以用覆盖广度来描述,覆盖广度是指参考的在特定深度被以给定次数测序的碱基的百分比。
如本文所用,关于核酸测序的短语“低覆盖率”是指小于约10X、或约0.001X至约10X、或约0.002X至约0.2X、或约0.01X的到约0.05X的测序覆盖率。
如本文所用,关于核酸测序的短语“低深度”是指小于约10X、或约0.1X至约10X、或约0.2X至约5X、或约0.5X至约2X的平均全基因组测序深度。
关于基因组序列核酸序列的术语“分辨率”是指通过细胞(例如胚胎或生物体)的核酸测序获得的基因组核酸序列(例如,整个基因组或基因组的特定区域或基因座DNA序列)的质量或准确性和范围。基因组核酸序列的分辨率主要由测序过程的覆盖率和深度决定,并涉及对测序过程中读取的独特碱基数量和测序过程中读取任何一个碱基的次数的考虑。短语“低分辨率序列”或“低分辨率序列数据”或“稀疏序列数据”在本文中可互换使用,关于细胞(例如胚胎、后代或生物体)的基因组核酸(基因组DNA)序列,是指对通过低覆盖率、低深度测序方法获得的基因组核酸(基因组DNA)的核苷酸碱基序列信息。
为了描述和公开在本公开中描述并且可能与本公开内容结合使用的装置、组合物、制剂和方法的目的,本文提及的所有出版物通过原因并入本文。
如本文所用,术语“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“含有(contain)”、“含有(contains)”、“含有(containing)”、“具有(have)”、“具有(having)”、“包括(include)”、“包括(includes)”和“包括(including)”以及它们的变体并非旨在限制,是包容性的或开放式的,并且不排除额外的、未列举的添加、组分、整数、元素或方法步骤。例如,包括特征列表的过程、方法、系统、组合物、套件或设备不一定仅限于那些特征,而是可以包括未明确列出的或此类过程、方法、系统、组合物固有的其他特征,套件或设备。
除非另有说明,否则本主题的实践可以采用常规技术和有机化学、分子生物学(包括重组技术)、细胞生物学和生物化学的描述,这些都在本领域的技术范围内。
倍性水平的检测/确定
多倍体是细胞(例如胚胎或生物体)拥有两个以上完整的单倍体(haploid)染色体组的状态。在人类胎儿中,多倍性是一种高度致命的异常。在确认为非整倍性(自然受孕和IVF)的所有妊娠早期流产中,10-15%是多倍性的结果。多倍性的示例包括三倍性(3n)和四倍性(4n)。据估计,三倍性会影响1-3%的IVF胚胎,并可能导致葡萄胎妊娠和流产。三倍性中出现的额外染色体组可以是母本(母源性,digynic)或父本(父源性,diandric)起源。人类的多倍性可以描述为“平衡的”或“不平衡的”。人类的平衡性多倍性(也称为平衡多倍性)包含3个或更多单倍体基因组的完整拷贝,其中每个拷贝仅包含X染色体(例如,69:XXX或92:XXXX)或包含相同数量的X和Y染色体(例如,92:XXYY)。人类不平衡的性多倍性(也称为不平衡的多倍性)包含3个或更多单倍体基因组的完整拷贝,其中至少一个拷贝包含Y染色体(例如,69:XXY、69:XYY)并且不包含相等拷贝数量的X和Y染色体。多倍性不同于非整倍性,例如三体性,其特征是染色体数量异常,但不涉及一组或多组额外的完整染色体。因此,当基因组中存在一条染色体的额外拷贝而不是三倍体中的每条染色体的额外拷贝时,三体性发生在人类中。
当使用基于核酸测序的方法分析染色体拷贝数变异时,检测倍性,例如多倍性,提出了挑战。例如,在使用序列读数数据检测三体性情况下的额外染色体时,可以将任何特定染色体的读数数量与参考染色体的读数数量进行比较,并将不成比例性识别为三体性的指示。然而,在三倍体的某些情况下,例如平衡三倍体,参考染色体不可用,因为所有染色体都以相等的剂量(例如,三体)存在,并且所有染色体的序列读数的相对比率相同,如同整倍体细胞或生物体。一些方法利用性染色体相对于常染色体的比率来推断男性三倍体的发生率,但不能以这种方式检测女性三倍体(以及23、X单倍体)。当DNA进行深度测序时(例如,高分辨率测序),准确的SNP定量,单独或与其他方法结合,可用于识别三倍体并克服假纯合性和测序错误以检测平衡三倍体。然而,与低覆盖率和/或低深度(例如,低分辨率测序方法)测序方法相比,此类方法具有相对较高的成本、较长的运行和分析时间以及较低的通量和效率。低覆盖率和/或低深度(例如低分辨率测序方法)测序方法提供的低分辨率序列数据是稀疏的,缺少尝试检测平衡多倍体所需的序列信息的数据点。此外,在经由NGS测序之前,DNA样本需要进行处理,包括例如片段化、扩增和接头连接。在此类处理中对核酸的操作可能会在扩增序列中引入人为假象(artifacts)(例如,与聚合酶链反应(PCR)扩增相关的GC偏差)并限制序列读数的大小。因此,下一代测序(NGS)方法与不同系统之间不同的错误率相关联。此外,与识别序列读数中的碱基(例如,碱基调用)结合使用的软件会影响来自NGS测序的序列数据的准确性。与高覆盖率测序数据相比,NGS中可能出现的这些人为假象、覆盖率变化和错误对低覆盖率测序数据的解释具有更显著的影响。
本文提供了用于检测、识别和/或区分细胞(例如,胚胎和/或生物体)中的倍性,如多倍性(例如,平衡多倍性)和/或整倍性(例如,二倍性)的改进的、有效的、快速的和高性价比的方法和系统。在本文提供的方法和系统的一些实施例中,相对低覆盖率和/或低深度(例如低分辨率)序列数据用于检测、区分、推断和/或识别细胞(例如胚胎、后代或生物体的细胞)中的倍性,例如整倍性和/或多倍性(例如,平衡的多倍体)。在一些这样的实施例中,系统和方法用于检测、区分、推断和/或识别三倍体或四倍体,例如平衡三倍体或四倍体。在一些此类实施例中,所述方法和系统用于检测、区分、推断和/或识别胚胎中的三倍体或四倍体,例如平衡三倍体或四倍体,包括例如植入前通过IVF产生的胚胎(例如哺乳动物胚胎,例如人类胚胎)。在一些实施例中,所述方法和包含所述方法的系统使用从细胞总或完整基因组DNA(例如细胞的总核或染色体核酸和/或总DNA)的核酸(DNA)样本的低覆盖率和低深度全基因组测序中获得的低分辨率核酸序列数据,而不是仅对细胞的预先确定的特定目标区域进行测序基因组,如对从基因组核酸的靶向核酸扩增获得的核酸集合进行测序的情况。在本文提供的方法的一些实施例中,使用来自总或完整基因组核酸(例如,总核或染色体核酸)的序列数据能够在检测、识别和/或区分倍性,例如多倍性(例如平衡多倍性)和/或整倍体(例如,二倍体)。此类方法涉及基因组核酸序列的全局评估,不依赖于性染色体/常染色体比率来推断多倍性,允许检测女性(XXX)多倍性以及检测和/或确认男性(XXY)多倍性(以及单倍性(hapolidy))。在使用从总基因组核酸或完整基因组核酸(例如总核或染色体核酸)的核酸样本测序获得的序列数据的实施例中,与仅对基因组的预定特定靶向区域进行测序相反,本文提供的方法和系统的此类实施例能够避免与用于测序的靶向核酸样本的制备相关的效率降低和制备时间增加。此外,靶向扩增涉及额外的核酸操作,这些操作可能会在测序数据中引入错误、人为假象和偏差,并从基因组的所有其他非靶向区域中排除序列数据,这些区域在评估倍性和检测多倍性时可能会提供更多信息。本文提供的用于检测、识别和/或区分细胞(例如胚胎和/或生物体)中的倍性,例如多倍性(例如平衡多倍性)和/或整倍性(例如二倍性)的方法和系统也不需要来自亲本之一或双方的核酸测序的核酸序列信息,并且一些实施例在没有来自亲本之一或双方的核酸测序的核酸序列信息的情况下进行。与检测和/或识别多倍性(例如平衡多倍性)的其他方法相比,这提供了本文提供的方法和系统的增加的效率、高性价比和减少的分析和计算时间的进一步优点。
核酸序列数据生成
本文提供的用于检测、识别、推断和/或区分细胞(例如胚胎、后代和/或生物体)中的多倍性(例如,平衡多倍性)和/或整倍性(例如,二倍性)和/或单倍性的方法和系统的一些实施例包括分析细胞和/或生物体的基因组的核苷酸序列。在一个示例中,细胞(例如胚胎细胞)的基因组核酸序列可以从细胞中提取的DNA样本的下一代测序(NGS)中获得。NGS,也称为第二代测序,基于高通量、大规模并行测序技术,涉及对DNA样本(例如,从胚胎中提取的)的核酸扩增所产生的数百万个核苷酸进行并行测序(参见,例如,Kulski(2016)“Next-Generation Sequencing-An Overview of the History,Tools and‘Omic’Applications,”记载于下一代测序-进展、应用和挑战,J.Kulski编辑,London:IntechOpen,第3-60页)。需要通过NGS测序的核酸样本可以通过多种方式获得,具体取决于样本的来源。例如,人类核酸可以经由脸颊刷拭子很容易地获得,以收集细胞,然后从中提取核酸。为了从胚胎中获得用于测序的最佳DNA量(例如,用于植入前遗传筛选),通常在囊胚阶段通过滋养外胚层活检收集细胞(例如5-7个细胞)。
在NGS中可能发生的人为假象、覆盖率的变化和错误也对序列数据的分析以准确评估倍性提出了挑战。此类人为假象和限制可能使对基因组的长重复区域进行测序和定位以及识别基因组中的多态等位基因和非整倍性变得困难。例如,因为大约40%的人类基因组由重复的DNA元件组成,与参考基因组中的重复元件比对的相同序列的较短单读数通常无法准确定位到基因组的特定区域。解决并可能减少序列确定中错误和/或不完整性的一些影响的一种方法是将双端测序技术结合到测序方法中。双端测序在将序列定位到基因组或参考组时提高了序列读数放置的准确性,例如在长重复区域中,并提高了结构重排(例如基因缺失、插入和倒位)的分辨率。例如,在本文提供的方法的一些实施例中,使用从来自胚胎的核酸的双端NGS获得的数据将读数定位增加了平均15%。双端测序方法是本领域已知的和/或本文描述的,并且涉及确定核酸片段在两个方向上的序列(即,从片段的一端读取一次,从片段的另一端读取第二次)。双端测序还通过将读数数量加倍有效地增加了测序覆盖率冗余,以及特别增加了困难基因组区域的覆盖率。
核酸序列定位
在本文提供的用于检测、识别和/或区分细胞(例如胚胎和/或生物体)中的倍性的方法和系统的一些实施例中,例如多倍性(例如平衡多倍性)和/或整倍性(例如二倍性),从细胞(例如胚胎细胞或生物体)获得的核酸序列用于使用基因组定位方法重建细胞/生物体的基因组(或其部分)。通常,基因组定位涉及在称为比对的过程中将序列与参考基因组(例如,人类基因组)匹配。可用于定位过程的人类参考基因组的示例包括基因组参考联盟的发布,例如2009年发布的GRCh37(hg19)和2013年发布的GRCh38(hg38)(例如参见,https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39)。通过比对,通常使用计算机程序将序列读数分配给基因组位点以进行序列匹配。许多比对程序是公开可用的,包括Bowtie(例如参见,http://bowtie-bio.sourceforge.net/manual.shtml)以及BWA(例如参见,http://bio-bwa.sourceforge.net/)。已处理(例如去除PCR重复和低质量序列)并与基因座匹配的序列通常称为比对序列或比对读数。
在将序列读数定位到基因组参考时,有可能识别序列核苷酸变异(SNV)。单核苷酸变异是基因组中单核苷酸位置变异的结果。用于SNV检测的几种不同的NGS分析程序(例如,变异调用软件)是公开可用的、本领域已知的和/或本文中描述的(例如,包括但不限于GATK(参见例如https://gatk.broadinstitute.org/)和深度变(参见,例如,等人(2018)自然生物技术,36:983-987)。在比对后,bcf工具软件(开源)用于生成具有最小覆盖率(例如,1)和最小深度(例如,1)的所有碱基的堆积,并从比对期间生成的bam文件生成基因型调用。通过对来自细胞或生物体样本核酸的序列进行基因组定位来检测和鉴定基因组特征,例如染色体异常,例如多倍性,提出了特殊的挑战,尤其是当序列数据是从低覆盖率测序方法获得时。例如,从稀疏序列数据中的噪声中解密信号比从高覆盖率测序获得的高分辨率序列更具挑战性。这种方法的主要挑战来自这样一个概念,即NGS方法容易在读取生成期间将错误引入测序读数。错误率在1:100到1:10,000之间,具体取决于测序平台方法,识别低覆盖率和/或低深度测序中的变异和测序错误之间的差异提供了独特而困难的信息学挑战。计算机程序和系统是本领域已知的和/或本文中描述的用于在鉴定某些基因组特征时增加序列数据解释的容易性和/或准确性。例如,在美国专利申请公开号2020/0111573中描述了用于自动检测染色体异常的系统和方法,包括节段重复/缺失、镶嵌特征、非整倍性和一些形式的多倍性,其通过引用并入本文。此类方法包括去噪/归一化(对原始序列读数进行去噪和归一化基因组序列信息以校正基因座效应(locus effect))以及机器学习和人工智能以将基因座分数(locus scores)解释(或解码)为核型图。例如,测序完成后,原始序列数据被解复用(归因于给定样本),读数与参考基因组(例如HG19)比对,以及每100万个碱基对位(base pair bin)中的读数总数被计算在内。该数据根据GC含量和深度进行归一化,并根据已知结果的样本生成的基线进行测试。然后将与2拷贝数量的统计偏差(如果存在,如果不存在=整倍体)报告为非整倍性。使用这种方法,减数分裂非整倍体和有丝分裂非整倍体可以基于CNV度量相互区分。基于与正常的偏差,生成具有存在的染色体总数、存在的任何非整倍性以及这些非整倍性的镶嵌水平(如果适用)的核型。
整倍性和多倍性(例如,非二倍体多倍性)中的单核苷酸变异
在本文提供的方法和系统中,其用于检测、识别、确定、推断和/或区分细胞(例如,胚胎、后代和/或生物体)中的倍性,例如多倍性(例如平衡多倍性、非二倍体多倍性)和/或整倍性(例如二倍性)和/或单倍性,,来自一个或多个细胞(例如胚胎细胞)的SNV序列信息用于倍性分析。在一些实施例中,SNV序列是从低覆盖率和/或低深度(例如,低分辨率)获得的低分辨率细胞的基因组核酸(基因组DNA)序列数据。在用于检测、推断、确定、识别和/或区分倍性,例如多倍性(例如平衡多倍性、非二倍体多倍性)的方法和系统的一些实施例中,SNV序列信息是从全基因组测序获得的,例如,完整的基因组DNA样本(例如,总核或染色体核酸样本)。在一些这样的实施例中,SNV序列信息是从低覆盖率和低深度的全基因组测序获得的低分辨率序列数据。如果超过1%的群体在基因组中的特定位置不携带相同的核苷酸,则SNV通常被称为单核苷酸多态性(SNP)。SNV通常是一个更通用的术语,用于描述不太明确的基因座。整个人类基因组中大约有1000万个或更多SNP,平均每200bp。虽然一些SNP可能与性状或疾病有关,但大多数没有已知的功能。没有两个个体(同卵双胞胎除外)具有相同模式的SNP,它们在给定人群中以主要和次要同种型形式存在。SNV和SNP在本文中可互换使用。
在使用来自细胞(例如胚胎或后代)的细胞)的SNV序列信息时,本文提供的方法和系统包括确定存在于来自总DNA(例如总DNA或基因组DNA)测序的序列数据中的SNV等位基因的数量以及与SNV等位基因总数的相关的检测到的参考和/或替代等位基因的发生率。该信息提供了实际观察到的替代等位基因测定。序列信息中的参考(REF)等位基因是指基因组中特定核苷酸序列的一种形式,其在序列的变异位置包含参考核碱基。参考核碱基是位于参考基因组中变异位置的核碱基(A、G、T或C),在定位方法中使用SNV时,序列读数与其比对。序列信息中的替代(ALT)等位基因是指基因组中特定核苷酸序列的一种形式,其包含与序列中变异位置处的参考核碱基不同的核碱基。在人类整倍体(即二倍体)胚胎中,一组染色体起源于母本,另一组染色体起源于父本,以及两组独立染色体的整体SNV模式(所有变异位置的基因组中每个SNV位置的核碱基同一性)将不同(即,有两种不同的SNV模式,胚胎包含每种模式的一个“剂量”)。在每个整体SNV模式中,存在在每组染色体中具有相同核碱基(例如,两个REF核碱基或两个ALT核碱基)的单个变异位置,以及在单独的染色体组中具有不同核碱基的单个变异位置(一个具有REF核碱基和另一个具有ALT核碱基)。在人类三倍体胚胎中,两组染色体起源于一个亲本并因此表现出与所述亲本一致的SNV模式,而第三组染色体起源于另一亲本并具有不同的SNV模式。因此,一种亲本SNV模式的剂量是三倍体中另一种SNV模式的两倍。因此,在出于说明剂量不平衡的目的的此概括性描述中,在人类细胞基因组中的三倍体的情况下,对于在两组不同染色体之间不同的特定含有SNV的等位基因,与不同形式的等位基因(例如,ALT等位基因)相比,一种形式的等位基因(例如,REF等位基因)的可用序列量可能不同,例如两倍。相比之下,在此概括说明中,在整倍体(即二倍体)人类细胞中,对于在两组不同染色体之间不同的特定含SNV的等位基因,就杂合等位基因而言,可用于一种形式的等位基因(例如,REF等位基因)可以更等同于可用于不同形式的等位基因(例如,ALT等位基因)的序列量。在从整倍体人类胚胎的核酸低覆盖率测序获得的低分辨率序列数据中,与在获得的高分辨率序列数据中相比,来自一组染色体变异的一个等位基因的序列丢失的可能性更大。在来自多倍体(例如三倍体)人类胚胎的基因组核酸的低分辨率序列数据的情况下,这种可能性进一步增加,特别是在平衡多倍性的情况下。
如本文所述和建立的,由于基因型发生概率、次要等位基因频率、测序和倍性状态之间的相互作用,观察到的单核苷酸变异(SNV)率(观察的可能性与样本中的普遍率(prevalence)的函数)的理论随机行为在二倍体和三倍体状态之间存在可测量的差异。在本文提供的方法和系统的一些实施例中,单倍体、整倍体和/或多倍体基因组的SNV率的差异被包括在确定倍性的推断中,例如整倍性或多倍性,例如使用低到非常低覆盖率的基因组测序(例如全基因组测序)的平衡多倍性。在此类实施例中,基于SNV率开发的统计数据用于方法和系统中,其能够从以低覆盖率(例如,0.1X覆盖率)和/或低深度NGS测序取得的低分辨率序列数据中以大约90%的敏感度和特异性检测和/或识别多倍性。
在整倍体和多倍体基因组中观察到ALT等位基因的概率差异
直觉地,在来自基因组DNA测序的序列读数中检测等位基因的概率部分地取决于由于潜在基因型而导致的测试基因组DNA样本中的等位基因频率。此外,检测到等位基因的概率取决于测序深度(例如测序的冗余度)。图1示出了来自整倍体(二倍体)和非整倍体(三体)细胞基因组DNA测序的序列数据中的观察到ALT(即变异等位基因)等位基因(本例中的“a”,其中“A”被认为是REF等位基因)的概率和测序深度的关系。等位基因频率的边界情况是纯合子样本(频率0%或100%)。测序深度的边界情况为零或无限(没有该等位基因的读数或该等位基因的无穷大读数)。
对于边界条件,对于整倍体或非整倍体杂合子样本,观察到ALT等位基因的概率是相同的。在这两个极端之间,预期具有较高ALT频率的样本更有可能报告ALT等位基因(参见图1和表1)。
表1.给定样本基因型的参考和替代等位基因的频率(或概率)
A=参考或REF等位基因;a=替代、变异或ALT等位基因
然而,来自非整倍体细胞的基因组核酸样本与来自整倍体细胞的基因组核酸样本相比,总体上将显示出不同的ALT等位基因序列计数,因为剂量不平衡会使替代等位基因与参考等位基因的净实际发生率发生偏差。要计算在整倍体和三体病例中观察变异等位基因的概率(即观察变异等位基因是否在序列数据中以及是否在样本中),考虑以下等式1:
Pr(ALT|k)=∑GPr(G)P(ALT|G,k) (1)
因此,在任何给定的位点,观察给定序列深度k的ALT等位基因的概率[Pr(ALT|k]可以等于(a)观察任何给定基因型G的ALT等位基因的概率[P(ALT|G,k)](例如,参照ALT等位基因的读数数量与基因组DNA中ALT等位基因的实例数量之间的关系),由(b)调整,(b)为基因型的概率[Pr(G)]。(a)和(b)项的进一步讨论如下。
P(ALT|G,k)
如上所述,在给定位点观察到非参考或ALT等位基因的概率可取决于两个因素:(1)给定基因型位点的ALT等位基因频率(例如,整倍体杂合子受试者的预期ALT频率为0.5),以及(2)测序深度。关于(2),例如,非常深的测序可以确保在ALT等位基因存在时观察到ALT等位基因,而浅测序可能会错过ALT等位基因(“假纯合性”)
总之,这可以被视为一种二项式概率,其具有参考(REF)等位基因概率p和在该位点测序计数k个等位基因。因此,检测到ALT等位基因的概率[P(ALT|G,k](即,在序列数据中检测到等位基因的概率)可以是1减去检测到参考等位基因的概率,即:
P(ALT|G,k)=1-pk (2)
请注意,参考等位基因的概率p是参考等位基因在基因型中的频率。例如,对于整倍体杂合子(Aa),p=0.5。例如,如果一个位点被测序10次,底层位点是整倍体杂合,那么在所有10个读数中没有观察到ALT的概率是0.510,因此观察到ALT的概率是1-0.510。
给定位点的基因型概率[Pr(G)]
对于整倍体,假设不考虑从每个亲本遗传的染色体,使得在哈代-温伯格平衡(HWE)下给定基因型的概率如下:
Pr(AA)=Pr(A)2
Pr(Aa)=2Pr(A)Pr(a)
Pr(aa)=Pr(a)2
对于整倍性,可以计算给定亲本基因型的胚胎基因型的条件概率(参见表2)。
表2.给定正常减数分裂的亲本基因型、它们的种群频率和整倍体胚胎基因型的条件概率。
等位基因频率A=Pr(A),a=Pr(a),其中A+a=1
分离(disjunction)的条件概率(d)m=Pr(dm|d),p=Pr(dp|d),其中m+p=1
可以使用不考虑亲代染色体的假设计算三体胚胎基因型的概率,同时允许亲本特异性不分离(m和p),即
m=Pr(dm|d),以及 (3)
p=Pr(dp|d) (4)
其中m是母配子中发生给定不分离的概率,p是父配子中发生该不分离的概率。由于这些是有条件的,因此m+p=1。
对于三体性,可以在给定亲本基因型和不分离的条件概率的情况下计算胚胎基因型的条件概率(参见表3)。
表3.给定减数分裂不分离事件,亲本基因型、它们的种群频率和胚胎基因型的条件概率。
等位基因频率A=Pr(A),a=Pr(a),其中A+a=1
分离的条件概率(d)m=Pr(dm|d),p=Pr(dp|d),其中m+p=1
关于上面的表2和3,应该注意到(a)观察纯合子的无条件概率(AA对AAA或aa对aaa)对于整倍体和三体胚胎样品可以是相同的,以及(b)观察三体性杂合子(AAa或Aaa)的无条件概率可以相同,并且总和等于整倍体样本(Aa)的杂合子概率。
上面讨论的等式1可以针对整倍体情况展开如下:
P(ALT|k)=(A4+2A3a+A2a2)(1-1k)+(2A3a+4A2a2+2Aa3)(1-0.5k)+(A2a2+2Aa3+a4)(1-0k) (5)
P(ALT|k)=(2A3a+4A2a2+2Aa3)(1-0.5k)+(A2a2+2Aa3+a4) (6)
上面讨论的等式1也可以针对三体情况展开如下:
因此,可以比较在两种情况下(对于整倍体胚胎和三倍体胚胎)观察到的变异的概率,如图2所示。图2中的图表说明了在来自整倍体基因组核酸样本的测序(深黑色曲线)和在三体基因组核酸样品测序的序列数据中观察到ALT等位基因的概率(浅色阴影曲线)的差异。概率显示为测序深度的函数(限制为>=1x)。每个面板代表不同频率(样本中的普遍率)(0.1、0.2、0.3、0.4)的概率。如图2所示,对于较大的k值(即增加的测序深度),在来自整倍体基因组核酸样本的测序的序列数据中观察到ALT等位基因的概率和在来自三体基因组核酸样品的测序的序列数据中观察到ALT等位基因的概率的差异减少了。此外,观察到ALT差异的概率差异的程度可能因基因型而异,这可能取决于群体等位基因频率。
用于检测、识别、确定和/或区分倍性的方法和系统
在本文提供的用于检测、推断、识别、确定和/或区分倍性,例如细胞(例如胚胎、后代和/或生物体)中的多倍性(例如,平衡多倍性)和/或整倍性(例如,二倍性)和/或二倍性的方法和系统的一些实施例中,整倍体和多倍体基因组的SNV率的差异被包括在确定倍性的推断中,例如整倍性或多倍性(例如非二倍体多倍性),例如使用低至极低覆盖率基因组测序(例如低覆盖率和/或低深度的全基因组测序)的平衡多倍性。在此类实施例中,基于SNV率开发的统计量用于能够从来自低覆盖和/或低深度(例如,低分辨率)序列数据中检测、推断和/或确定倍性(例如,多倍性)的方法和系统中,灵敏度和特异性约为90%(参见本文的示例)。图3是本文提供的示例性方法的工作流程300的图解表示。
图3是根据各种实施例,用于检测、推断、识别、确定和/或区分倍性,例如多倍性(例如,平衡多倍性)和/或整倍性(例如,二倍性)的示例性方法的工作流程300的示例图解表示。由于图3示出了方法的一个示例,应当理解,要描述的步骤的组合可以根据需要以各种组合使用,其中步骤被移除、添加或重新排序。此外,每个步骤中的分析可以根据需要根据此处的讨论进行更改或修改。
如图3所示,对为来自胚胎的基因组核酸的低覆盖率和/或低深度(例如低分辨率)测序获得的SNV在步骤301中接收的参考比对序列读数进行计数并且求和以确定序列数据中识别的独特SNV位点的总数。
在步骤302中,对识别的独特SNV位点的总数进行计数(或求和)。
在步骤303中,可以将参考和替代的包含SNV的序列读数分配到位中。
在步骤304中,计数(或求和)多个替换的包含SNV的序列读数(实际观察到的ALTSEQ)。
在步骤305中,计算预期已对整倍体胚胎观察到的替代的包含SNV的序列的数量(预测观察到的ALT SEQ)。
在步骤306中,计算实际观察到的ALT SEQ与预测观察到的ALT SEQ的偏差。
在步骤307中,如果偏差值低于预设阈值,则将胚胎指定为多倍体。相比之下,如果偏差高于预设阈值,则胚胎被指定为整倍体。
在各种实施例中,提供了用于鉴定、分类、确定、预测和/或推断胚胎中的倍性(例如,单倍性、整倍性、双倍性、平衡和不平衡多倍性)的方法。这些方法可以经由计算机软件或硬件来实现。该方法还可以在计算设备/系统上实施,该计算设备/系统可以包括用于识别、分类、确定、预测和/或推断胚胎中的多倍性(例如,单倍性、整倍性、双倍性、平衡和不平衡多倍性)的引擎的组合。在各种实施例中,计算设备/系统可以经由直接连接或通过互联网连接通信地连接到数据源、样本分析器和显示设备中的一个或多个。
图10是根据各种实施例的用于检测胚胎(例如,人胚胎)中的倍性的系统1000的示意图。系统1000可以包括数据存储1010、计算设备1030和显示器1080。系统1000还可以包括样本分析器1090。
样本分析器1090可以通过串行总线(如果两者形成集成仪器平台1012)或通过网络连接(如果两者都是分布式/分离的设备)可通信地连接到数据存储1010。样本分析器1090可以被配置为分析来自胚胎1020的样本。样本分析器1090可以是测序仪器,例如下一代测序仪器,被配置为对样本进行测序以收集测序数据用于进一步分析。在各种实施例中,然后可以将测序数据存储在数据存储1010中用于后续处理。在各种实施例中,测序数据集可以实时馈送到计算设备1030。在各种实施例中,测序数据集也可以在处理之前存储在数据存储1010中。在各种实施例中,测序数据集也可以实时馈送到计算设备1030。
数据存储1010可以通信地连接到计算设备1030。在各种实施例中,计算设备1030可以经由网络连接通信地连接到数据存储1010,该网络连接可以是“硬连线”物理网络连接(例如互联网、LAN、WAN、VPN等)或无线网络连接(例如Wi-Fi、WLAN等)。在各种实施例中,计算设备1030可以是工作站、大型计算机、分布式计算节点(“云计算”或分布式网络系统的一部分)、个人计算机、移动设备等。
数据存储1010可以被配置为接收胚胎序列数据。在各种实施例中,胚胎序列数据是通过低覆盖率测序获得的。低覆盖测序可以在大约0.001和10x之间。低覆盖测序可以在大约0.01到0.5x之间。低覆盖测序可以在大约0.25到0.2x之间。
计算设备1030还可以包括感兴趣区域引擎(ROI引擎)1040、单核苷酸多态性识别引擎(SNP识别引擎)1050和评分引擎1070。如上所述,计算设备1030可以通信连接到数据存储1010。
ROI引擎1040可以被配置成将接收到的序列数据与参考基因组比对并且在比对的胚胎序列数据中识别感兴趣的区域。感兴趣的区域可以是全基因组。
SNP识别引擎1050可以被配置为通过将接收的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SNP)。SNP识别引擎1050可以进一步被配置为过滤胚胎测序数据以去除测序人为假象。过滤可以包括排除未包括在已知SNP的参考数据库中的SNP。参考数据库可以包括大约1000个已知基因组。
评分引擎1070可以被配置为确定多倍体得分,包括对感兴趣区域中观察到的SNP的数量进行计数。评分引擎1070可以被配置为将多倍体得分与预定阈值进行比较。如果多倍体得分低于预定阈值,则评分引擎1070可以被配置为将胚胎识别为多倍体。在各种实施例中,多倍体是平衡的多倍体。
在鉴定出胚胎的倍性之后,可将通信连接到计算设备的显示器配置为显示包含胚胎的多倍体分类的报告。它可以作为结果或摘要显示在与计算设备1030通信连接的显示器或客户端1080上。在各种实施例中,显示器1080可以是瘦客户端计算设备。在各种实施例中,显示器1080可以是具有网络浏览器(例如,INTERNET EXPLORERTM、FIREFOXTM、SAFARITM等)的个人计算设备,该网络浏览器可用于控制感兴趣区域引擎(ROI引擎)1040、单核苷酸多态性识别引擎(SNP识别引擎)1050和评分引擎1070。
如果多倍体得分高于预定阈值,评分引擎1070可以进一步配置为将胚胎鉴定为整倍体。此外,显示器1080还可被配置为显示包含胚胎整倍体分类的报告。
应当理解,取决于特定应用或系统架构的要求,各种引擎可以组合或折叠成单个引擎、组件或模块。在各种实施例中,感兴趣区域引擎(ROI引擎)1040、单核苷酸多态性识别引擎(SNP识别引擎)1050和评分引擎1070可以根据特定应用或系统架构的需要包括额外的引擎或组件。
图11是显示根据各种实施例的用于检测胚胎中倍性的方法1100的示例性流程图。
在步骤1110中,接收胚胎序列数据。在各种实施例中,胚胎序列数据是通过低覆盖率测序获得的。低覆盖测序可以在大约0.001和10x之间。低覆盖测序可以在大约0.01到0.5x之间。低覆盖测序可以在大约0.25到0.2x之间。
在步骤1120中,将接收的序列数据与参考基因组比对。
在步骤1130中,识别比对的胚胎序列数据中的感兴趣区域。感兴趣的区域可以是全基因组的。
在步骤1140中,通过将接收的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SNP)。在各种实施例中,该方法还可包括过滤胚胎测序数据以去除测序人为假象。过滤可以包括排除未包括在已知SNP的参考数据库中的SNP。参考数据库可以包括大约1000个已知基因组。
在步骤1150中,确定倍性得分,该得分包括对感兴趣区域中观察到的SNP的数量进行计数。
在步骤1160中,将倍性得分与预定阈值进行比较。
在步骤1170中,如果倍性得分低于预定阈值,则胚胎被识别为多倍体。在各种实施例中,多倍体是平衡的多倍体。在各种实施例中,当倍性得分高于预定阈值时,胚胎被识别为倍性。
示例
一般而言,基于本文公开的各种实施例,在低到极低覆盖率的NGS数据中,多倍体基因组核酸测序数据的预期SNV发生总数(例如检测到SNV的频率)低于整倍体基因组核酸。在开发使用在基因组核酸测序(例如,低覆盖率测序)中检测到的变异等位基因(SNV)来推断或分类基因组倍性的方法和系统时,建立并测试了倍性变异等位基因检测模型。如这些实施例中所述,开发了一种算法,该算法考虑到在来自基因组核酸测序的序列信息中检测整倍体和多倍体基因组中替代等位基因的概率并考虑序列覆盖率(表示为“深度”),并使用带有样本数据的机器学习进行改进,以构建倍性变异等位基因检测模型。通过该模型,基于样本的SNV序列数据确定了可以分配给基因组核酸样本(例如,来自胚胎)的预测得分。还确定了阈值预测得分值。通过将分配给基因组核酸样本的预测分数与阈值分数进行比较,推断样本的倍性,低于阈值的得分表示多倍性。
为了验证该方法和观察结果,三个流动细胞由排列为96重的2X36个双端NextSeq(Illumina)数据生成,其目标是每个胚胎滋养外胚层活检样本的400万个读数对,导致典型覆盖率约为约0.1x(计算为4X10^6读数*2*36/3X10^9,其中分母是碱基对中的基因组大小,由于双端测序(即每个序列2个读数),所以分子中包含2*36)。该数据集包含87个已知倍性的人类胚胎细胞样本,复制品分布在三个批次中,包括40个二倍体案例(46:XX或46:XY)和10个多倍体案例(69:XXX、69:XXY或96:XXXX)。来自逗号分隔文件的数据与样本元数据以及全基因组(染色体1-22)数字SNV计数一起读取,为了确保结果的一致性,随机数种子被设置为任意0值。具有少于4000000个读数对的样本被排除在分析之外,因为被检测为具有由PGTai确定的镶嵌或完全非整倍性的样本(参见,例如,在美国专利申请公开号2020/0111573中描述)。通过对复制和多倍体类别进行分层,将数据随机分为训练集(数据的70%)和测试集(数据的30%)。
训练集使用ANCOVA线性模型进行评估,以估计测序覆盖率、多倍体类别和其他解释变量之间的关系。在这种情况下,异质位置的数量(称为digital_count_hets)和原始序列文件(在FASTQ中)与HG19参考基因组(rqc)特别比对的序列比例和测序覆盖率(就与参考比对的读数对的数量而言)被输入到该方法中。
图4示出了将对应于图3中描述的工作流程的算法应用于SNV测序测量的训练数据集的结果(例如,识别的SNV位点总数、ALT等位基因的序列计数总数、比对的总数序列读数)。对于样本多倍体效应得分与对齐的读数对数量的关系图。图表上的每个圆圈或三角形代表一个被分析的胚胎样本。圆圈对应于已知的二倍体样本,三角形对应于已知的多倍体样本。该图反映了每个样本的序列读数对的数量,这些序列读数对来自与参考基因组比对的样本核酸测序(测序覆盖率的度量)。图4中所示的显示说明了基于在测序覆盖率上将算法应用于训练数据集计算的多倍体效应得分在二倍体和多倍体样本之间获得的分离。然后针对测序覆盖率和其他协变量的影响调整图4中所示的每个样本的多倍体效应得分以获得每个样本的预测评分。每个样本的预测得分在图5中通过将代表每个样本的正方形与由增加的分数划定的垂直线上的点对齐来以图形方式指示。图中左侧排列并在排列下方标记为“二倍体”的方块表示二倍体样本,而排列在图右侧且排列在排列下方并标记为“多倍体”的方块表示多倍体样本。图5说明了基于预测得分实现的多倍体类别之间的分离,其中大多数二倍体样本的得分大于约0.98,而大多数多倍体样本的得分小于约0.98。
图6示出了用于评估训练集数据分析的性能的接收器操作特性(ROC)曲线。当临界值(阈值)升高时,该曲线为二元假设(即整倍性或多倍性)提供了准确度(敏感性和特异性)的统一显示。阈值c=0.9804734的最佳临界值是根据训练数据估计的(Youden,1950;为了最大化与对角线的距离)使用c的训练集敏感性/特异性为0.91/0.91。敏感性0.95水平置信区间通过2000次自举重复估计为(0.79,0.98)。95.8%的AUC(曲线下面积)值是该方法在区分整倍性和多倍性方面的高精度的衡量标准。
然后使用倍性变异等位基因检测模型和从训练集构建的临界值评估训练集中剩余的30%数据。图7呈现了将对应于图3中描述的工作流程的算法应用于SNV测序测量的训练数据集的结果(例如,鉴定的SNV位点的总数、ALT等位基因的序列计数总数、比对的总数序列读数)作为样本的多倍体效应得分与比对的读数对数量的关系图。图表上的每个圆圈或三角形代表一个被分析的胚胎样本。圆圈对应于已知的二倍体样本,三角形对应于已知的多倍体样本。该图反映了每个样品的序列读数对的数量,这些序列读数对来自与参考基因组比对的样品中的核酸测序(测序覆盖率的度量)。图7中所示的显示说明了基于在测序覆盖率上将算法应用于训练数据集计算的多倍体效应得分在二倍体和多倍体样本之间获得的分离。然后针对测序覆盖率和其他协变量的影响调整图7中所示的每个样本的多倍体效应评分以获得每个样本的预测得分。每个样本的预测得分在图8中通过将代表每个样本的正方形与由增加的分数划定的垂直线上的点对齐来图形地指示。图中左侧排列并在排列下方标记为“二倍体”的方块表示二倍体样本,而排列在图右侧且排列在排列下方并标记为“多倍体”的方块表示多倍体样本。图8说明了基于预测得分实现的多倍体类别之间的分离,其中大多数二倍体样本的得分大于约0.98,而大多数多倍体样本的得分小于约0.98。水平线显示阈值c=(根据训练数据构建的临界值),使用c的测试集敏感性/特异性被估计为0.93/0.92。
然后可以进行交叉验证以进一步评估对独立数据集的普遍性并防止样本选择中可能的过度拟合或偏差。进行了100倍蒙特卡罗交叉验证,其中每个折叠都需要一个与上述相同的程序,分层随机抽样将样本分为训练(70%的样本)和测试(30%)用于训练。如图9所示,在测试集中测量的中值敏感性/特异性为0.87/0.94,并且敏感性的95%置信区间估计为(0.73,1),这与以上估计的c.i.一致。最好的种子是19。
计算机实现系统
在各种实施例中,用于检测胚胎中倍性的方法可以通过计算机软件或硬件实施。即,如图10所示,本文公开的方法可以在包括感兴趣区域引擎(ROI引擎)1040、单核苷酸多态性识别引擎(SNP识别引擎)1050和评分引擎1070的计算设备1030上实施。在各种实施例中,计算设备1030可以经由直接连接或通过互联网连接通信地连接到数据存储1010和显示设备1080。
应当理解,图10中描绘的各种引擎可以根据特定应用或系统架构的要求组合或折叠成单个引擎、组件或模块。此外,在各种实施例中,感兴趣区域引擎(ROI引擎)1040、单核苷酸多态性识别引擎(SNP识别引擎)1050和评分引擎1070可以包括特定应用或系统架构所需的额外引擎或组件。
图12是说明计算机系统1200的框图,本教导的实施例可以在其上实施。在本教导的各种实施例中,计算机系统1200可以包括用于传送信息的总线1202或其他通信机制,以及与总线1202耦合用于处理信息的处理器1204。在各种实施例中,计算机系统1200还可以包括存储器,其可以是随机存取存储器(RAM)1206或其他动态存储设备,耦合到总线1202用于确定将由处理器1204执行的指令。存储器还可以用于在要由处理器1204执行的指令的执行期间存储临时变量或其他中间信息。在各种实施例中,计算机系统1200还可以包括耦合到总线1202的只读存储器(ROM)1208或其他静态存储设备,用于为处理器1204存储静态信息和指令。存储设备1210,例如磁盘或光盘,可以提供并耦合到总线1202以用于存储信息和指令。
在各种实施例中,计算机系统1200可以经由总线1202耦合到显示器1212,例如阴极射线管(CRT)或液晶显示器(LCD),用于向计算机用户显示信息。包括字母数字键和其他键的输入设备1214可以耦合到总线1202以将信息和命令选择传送到处理器1204。另一种类型的用户输入设备是光标控件1216,例如鼠标、轨迹球或光标方向键,用于将方向信息和命令选择传送到处理器1204并用于控制显示器1212上的光标移动。该输入设备1214通常在两个轴上具有两个自由度,第一轴(即,x)和第二轴(即,y),这允许设备指定平面中的位置。然而,应当理解,这里还考虑允许3维(x、y和z)光标移动的输入设备1214。
与本教导的某些实施方式一致,响应于处理器1204执行包含在存储器1206中的一个或多个指令的一个或多个序列,可由计算机系统1200提供结果。此类指令可从另一计算机可读介质或计算机可读存储介质(例如存储设备1210)读入存储器1206。包含在存储器1206中的指令序列的执行可使处理器1204执行本文所述的过程。或者,可以使用硬连线电路代替软件指令或与软件指令结合使用以实现本教导。因此,本教导的实现不限于硬件电路和软件的任何特定组合。
本文使用的术语“计算机可读介质”(例如,数据存储器、数据存储等)或“计算机可读存储介质”是指参与向处理器1204提供指令以供执行的任何介质。这种介质可以采用多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的示例可以包括但不限于光学、固态、磁盘,例如存储设备1210。易失性介质的示例可以包括但不限于动态存储器,例如存储器1206。传输介质的示例可以包括但不限于同轴电缆、铜线和光纤,包括构成总线1202的电线。
计算机可读介质的常见形式包括例如软盘、软盘、硬盘、磁带或任何其他磁介质、CD-ROM、任何其他光学介质、穿孔卡、纸带、具有孔洞图案的任何其他物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带,或任何其他计算机可以读取的有形介质。
除了计算机可读介质之外,指令或数据可以被提供为通信装置或系统中包括的传输介质上的信号,以将一个或多个指令的序列提供给计算机系统1200的处理器1204以供执行。例如,通信装置可以包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或多个处理器实现本文公开中概述的功能。数据通信传输连接的代表性示例可以包括但不限于电话调制解调器连接、广域网(WAN)、局域网(LAN)、红外数据连接、NFC连接等。
应当理解,可以使用作为独立设备的计算机系统1200或在诸如云计算网络的共享计算机处理资源的分布式网络上来实现这里描述的流程图、图表和所附公开的方法。
这里描述的方法可以根据应用通过各种方式来实现。例如,这些方法可以在硬件、固件、软件或其任何组合中实现。对于硬件实现,处理单元可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子设备、其他旨在执行本文所述功能的电子单元,或其组合内实现。
在各种实施例中,本教导的方法可以被实现为固件和/或以诸如C、C++、Python等常规编程语言编写的软件程序和应用程序。如果被实现为固件和/或软件,这里描述的实施例可以在非暂时性计算机可读介质上实现,其中存储了用于使计算机执行上述方法的程序。应当理解,这里描述的各种引擎可以被提供在计算机系统上,例如图12的计算机系统1200,由此处理器1204将执行由这些引擎提供的分析和确定,受制于由存储器组件1206/1208/1210和经由输入设备1214提供的用户输入中的任何一个或其组合提供的指令。
虽然结合各种实施例描述了本教导,但本教导并不旨在限于这些实施例。相反,如本领域技术人员将理解的,本教导包含各种替代、修改和等效物。
在描述各种实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,就该方法或过程不依赖于本文所述的特定步骤顺序而言,该方法或过程不应限于所描述的特定步骤顺序。如本领域普通技术人员将理解的,其他步骤序列可能是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对任何权利要求的限制。此外,针对该方法和/或过程的任何权利要求不应限于按书面顺序执行其步骤,并且本领域技术人员可以容易地理解该顺序可以改变并且仍然保持在各种实施例的精神和范围内。
实施例的列举
实施例1:一种检测胚胎中的倍性的方法,包括
接收胚胎序列数据;
将接收到的序列数据与参考基因组进行比对;
在比对的胚胎序列数据中识别感兴趣的区域;
通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP);
确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数;
将倍性得分与预定阈值进行比较;以及
如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
实施例2:根据实施例1所述的方法,进一步包括如果倍性得分高于预定阈值则将胚胎识别为整倍体。
实施例3:根据实施例1或2所述的方法,其中,多倍体是平衡的多倍体。
实施例4:根据实施例1至3中任一项所述的方法,其中,胚胎序列数据通过低覆盖测序获得。
实施例5:根据实施例4所述的方法,其中,低覆盖测序介于约0.001和10x之间。
实施例6:根据实施例4所述的方法,其中,低覆盖测序介于约0.01和0.5x之间。
实施例7:根据实施例4所述的方法,其中,低覆盖测序介于约0.25和0.2x之间。
实施例8:根据实施例1至7中任一项所述的方法,其中,感兴趣的区域是全基因组。
实施例9:根据实施例1至8中任一项所述的方法,进一步包括过滤胚胎测序数据以去除测序人为假象。
实施例10:根据实施例9所述的方法,其中,过滤包括排除未包括在已知SNP的参考数据库中的SNP。
实施例11:根据实施例10所述的方法,其中,参考数据库包括大约1000个已知基因组。
实施例12:一种存储用于检测胚胎中的倍性的计算机指令的非暂时性计算机可读介质,包括:
接收胚胎序列数据;
将接收到的序列数据与参考基因组进行比对;
在比对的胚胎序列数据中识别感兴趣的区域;
通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP);
确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数;
将倍性得分与预定阈值进行比较;以及
如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
实施例13:根据实施例12所述的方法,进一步包括如果倍性得分高于预定阈值则将胚胎识别为整倍体。
实施例14:根据实施例12或13所述的方法,其中,多倍体是平衡的多倍体。
实施例15:根据实施例12至14中任一项所述的方法,其中,胚胎序列数据通过低覆盖测序获得。
实施例16:根据实施例15所述的方法,其中,低覆盖测序介于约0.001和10x之间。
实施例17:根据实施例15所述的方法,其中,低覆盖测序介于约0.01和0.5x之间。
实施例18:根据实施例15所述的方法,其中,低覆盖测序介于约0.01和0.5x之间。
实施例19:根据实施例12至18中任一项所述的方法,其中,感兴趣的区域是全基因组。
实施例20:根据实施例12至19中任一项所述的方法,进一步包括过滤胚胎测序数据以去除测序人为假象。
实施例21:根据实施例20所述的方法,其中,过滤包括排除未包括在已知SNP的参考数据库中的SNP。
实施例22:根据实施例21所述的方法,其中,参考数据库包括大约1000个已知基因组。
实施例23:种检测胚胎中的倍性的系统,包括:
用于接收胚胎序列数据的数据存储;
通信连接到数据存储的计算设备,该计算设备包括:
ROI引擎,其被配置为将接收到的序列数据与参考基因组比对,并在比对的胚胎序列数据中识别感兴趣的区域;
SNP识别引擎,其被配置为通过将接收到的序列数据与比对的参考基因组进行比较以识别序列数据中的单核苷酸多态性(SMP);以及
评分引擎,其被配置为确定多倍体得分,包括对感兴趣区域中观察到的SNP的数量进行计数,将多倍体得分与预定阈值进行比较,以及如果多倍体得分低于预定阈值,则将胚胎识别为多倍体;
以及
显示器,其与计算设备通信连接并被配置为显示包含胚胎的多倍体分类的报告。
实施例24:根据实施例23所述的系统,其中,评分引擎还被配置为如果多倍体得分高于预定阈值则将胚胎识别为整倍体。
实施例25:根据实施例23或24所述的系统,其中,显示器还被配置为显示包含胚胎的整倍体分类的报告。
实施例26:根据实施例23至25中任一项所述的系统,其中,多倍体是平衡的多倍体。
实施例27:根据实施例23至26中任一项所述的系统,其中,胚胎序列数据通过低覆盖测序获得。
实施例28:根据实施例27所述的系统,其中,低覆盖测序介于约0.001和10x之间。
实施例29:根据实施例27所述的系统,其中,低覆盖测序介于约0.01和0.5x之间。
实施例30:根据实施例27所述的系统,其中,低覆盖测序介于约0.25和0.2x之间。
实施例31:根据实施例23至30中任一项所述的系统,其中,感兴趣的区域是全基因组。
实施例32:根据实施例23至31中任一项所述的系统,其中,SNP识别引擎进一步被配置为过滤胚胎测序数据以去除测序人为假象。
实施例33:根据实施例32所述的系统,其中,过滤包括排除未包括在已知SNP的参考数据库中的SNP。
实施例34:根据实施例33所述的系统,其中,参考数据库包括大约1000个已知基因组。
Claims (34)
1.一种检测胚胎中的倍性的方法,包括
接收胚胎序列数据;
将接收到的序列数据与参考基因组进行比对;
在比对的胚胎序列数据中识别感兴趣的区域;
通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP);
确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数;
将倍性得分与预定阈值进行比较;以及
如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
2.根据权利要求1所述的方法,进一步包括如果倍性得分高于预定阈值则将胚胎识别为整倍体。
3.根据权利要求1所述的方法,其中,多倍体是平衡的多倍体。
4.根据权利要求1所述的方法,其中,胚胎序列数据通过低覆盖率测序获得。
5.根据权利要求4所述的方法,其中,低覆盖率测序介于约0.001和10x之间。
6.根据权利要求4所述的方法,其中,低覆盖率测序介于约0.01和0.5x之间。
7.根据权利要求4所述的方法,其中,低覆盖率测序介于约0.25和0.2x之间。
8.根据权利要求1所述的方法,其中,感兴趣的区域是全基因组。
9.根据权利要求1所述的方法,进一步包括过滤胚胎测序数据以去除测序人为假象。
10.根据权利要求9所述的方法,其中,过滤包括排除未包括在已知SNP的参考数据库中的SNP。
11.根据权利要求10所述的方法,其中,参考数据库包括大约1000个已知基因组。
12.一种存储用于检测胚胎中的倍性的计算机指令的非暂时性计算机可读介质,包括:
接收胚胎序列数据;
将接收到的序列数据与参考基因组进行比对;
在比对的胚胎序列数据中识别感兴趣的区域;
通过将接收到的序列数据与比对的参考基因组进行比较来识别序列数据中的单核苷酸多态性(SMP);
确定倍性得分,包括对感兴趣区域中观察到的SNP的数量进行计数;
将倍性得分与预定阈值进行比较;以及
如果倍性得分低于预定阈值,则将胚胎识别为多倍体。
13.根据权利要求12所述的方法,进一步包括如果倍性得分高于预定阈值则将胚胎识别为整倍体。
14.根据权利要求13所述的方法,其中,多倍体是平衡的多倍体。
15.根据权利要求12所述的方法,其中,胚胎序列数据通过低覆盖率测序获得。
16.根据权利要求15所述的方法,其中,低覆盖率测序介于约0.001和10x之间。
17.根据权利要求15所述的方法,其中,低覆盖率测序介于约0.01和0.5x之间。
18.根据权利要求15所述的方法,其中,低覆盖率测序介于约0.01和0.5x之间。
19.根据权利要求12所述的方法,其中,感兴趣的区域是全基因组。
20.根据权利要求12所述的方法,进一步包括过滤胚胎测序数据以去除测序人为假象。
21.根据权利要求20所述的方法,其中,过滤包括排除未包括在已知SNP的参考数据库中的SNP。
22.根据权利要求21所述的方法,其中,参考数据库包括大约1000个已知基因组。
23.一种检测胚胎中的倍性的系统,包括:
用于接收胚胎序列数据的数据存储;
通信连接到数据存储的计算设备,该计算设备包括:
ROI引擎,其被配置为将接收到的序列数据与参考基因组比对,并在比对的胚胎序列数据中识别感兴趣的区域;
SNP识别引擎,其被配置为通过将接收到的序列数据与比对的参考基因组进行比较以识别序列数据中的单核苷酸多态性(SMP);以及
评分引擎,其被配置为确定多倍体得分,包括对感兴趣区域中观察到的SNP的数量进行计数,将多倍体得分与预定阈值进行比较,以及如果多倍体得分低于预定阈值,则将胚胎识别为多倍体;
以及
显示器,其与计算设备通信连接并被配置为显示包含胚胎的多倍体分类的报告。
24.根据权利要求23所述的系统,其中,评分引擎还被配置为如果多倍体得分高于预定阈值则将胚胎识别为整倍体。
25.根据权利要求24所述的系统,其中,显示器还被配置为显示包含胚胎的整倍体分类的报告。
26.根据权利要求23所述的系统,其中,多倍体是平衡的多倍体。
27.根据权利要求23所述的系统,其中,胚胎序列数据通过低覆盖率测序获得。
28.根据权利要求27所述的系统,其中,低覆盖率测序介于约0.001和10x之间。
29.根据权利要求27所述的系统,其中,低覆盖率测序介于约0.01和0.5x之间。
30.根据权利要求27所述的系统,其中,低覆盖率测序介于约0.25和0.2x之间。
31.根据权利要求23所述的系统,其中,感兴趣的区域是全基因组。
32.根据权利要求23所述的系统,其中,SNP识别引擎进一步被配置为过滤胚胎测序数据以去除测序人为假象。
33.根据权利要求32所述的系统,其中,过滤包括排除未包括在已知SNP的参考数据库中的SNP。
34.根据权利要求33所述的系统,其中,参考数据库包括大约1000个已知基因组。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962865122P | 2019-06-21 | 2019-06-21 | |
US62/865,122 | 2019-06-21 | ||
PCT/US2020/038826 WO2020257719A1 (en) | 2019-06-21 | 2020-06-19 | Systems and methods for determining genome ploidy |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114258572A true CN114258572A (zh) | 2022-03-29 |
Family
ID=71575813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080058295.1A Pending CN114258572A (zh) | 2019-06-21 | 2020-06-19 | 用于确定基因组倍性的系统和方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20200402610A1 (zh) |
EP (1) | EP3987524A1 (zh) |
JP (1) | JP7446343B2 (zh) |
KR (1) | KR20220064952A (zh) |
CN (1) | CN114258572A (zh) |
AU (1) | AU2020296110B2 (zh) |
CA (1) | CA3143759A1 (zh) |
WO (1) | WO2020257719A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116779035B (zh) * | 2023-05-26 | 2024-03-15 | 成都基因汇科技有限公司 | 多倍体转录组亚基因组分型方法及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008528040A (ja) | 2005-02-01 | 2008-07-31 | アジェンコート バイオサイエンス コーポレイション | ビーズベースの配列決定のための試薬、方法およびライブラリー |
CN103608818B (zh) * | 2011-02-09 | 2017-12-08 | 纳特拉公司 | 非侵入性产前倍性识别装置 |
US10196681B2 (en) * | 2011-10-06 | 2019-02-05 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
US10262755B2 (en) | 2014-04-21 | 2019-04-16 | Natera, Inc. | Detecting cancer mutations and aneuploidy in chromosomal segments |
IL304949A (en) | 2013-10-04 | 2023-10-01 | Sequenom Inc | Methods and processes for non-invasive evaluation of genetic variations |
AU2019356033A1 (en) | 2018-10-05 | 2021-05-27 | Coopersurgical, Inc. | Systems and methods for identifying chromosomal abnormalities in an embryo |
-
2020
- 2020-06-19 CN CN202080058295.1A patent/CN114258572A/zh active Pending
- 2020-06-19 KR KR1020227002131A patent/KR20220064952A/ko unknown
- 2020-06-19 US US16/907,121 patent/US20200402610A1/en active Pending
- 2020-06-19 WO PCT/US2020/038826 patent/WO2020257719A1/en unknown
- 2020-06-19 CA CA3143759A patent/CA3143759A1/en active Pending
- 2020-06-19 EP EP20739534.4A patent/EP3987524A1/en active Pending
- 2020-06-19 AU AU2020296110A patent/AU2020296110B2/en active Active
- 2020-06-19 JP JP2021576182A patent/JP7446343B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3987524A1 (en) | 2022-04-27 |
AU2020296110A1 (en) | 2022-01-06 |
KR20220064952A (ko) | 2022-05-19 |
JP2022537443A (ja) | 2022-08-25 |
CA3143759A1 (en) | 2020-12-24 |
AU2020296110B2 (en) | 2023-07-27 |
US20200402610A1 (en) | 2020-12-24 |
JP7446343B2 (ja) | 2024-03-08 |
WO2020257719A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176273B (zh) | 遗传变异的非侵入性评估的方法和过程 | |
US20110178719A1 (en) | Methods for Allele Calling and Ploidy Calling | |
US20220106642A1 (en) | Multiplexed Parallel Analysis Of Targeted Genomic Regions For Non-Invasive Prenatal Testing | |
Liu et al. | A comprehensive catalogue of regulatory variants in the cattle transcriptome | |
WO2021073604A1 (zh) | 清除噪音遗传数据、单体型定相、重构子代基因组的方法、系统和其用途 | |
JP7333838B2 (ja) | 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法 | |
Deleye et al. | Massively parallel sequencing of micro-manipulated cells targeting a comprehensive panel of disease-causing genes: A comparative evaluation of upstream whole-genome amplification methods | |
JP7446343B2 (ja) | ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法 | |
US20200399701A1 (en) | Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos | |
US20180247019A1 (en) | Method for determining whether cells or cell groups are derived from same person, or unrelated persons, or parent and child, or persons in blood relationship |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |