CN107949845A - 能够在多个平台上区分胎儿性别和胎儿性染色体异常的新方法 - Google Patents

能够在多个平台上区分胎儿性别和胎儿性染色体异常的新方法 Download PDF

Info

Publication number
CN107949845A
CN107949845A CN201680051588.0A CN201680051588A CN107949845A CN 107949845 A CN107949845 A CN 107949845A CN 201680051588 A CN201680051588 A CN 201680051588A CN 107949845 A CN107949845 A CN 107949845A
Authority
CN
China
Prior art keywords
fgr
equation
chromosome
score
sex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680051588.0A
Other languages
English (en)
Other versions
CN107949845B (zh
Inventor
权昌赫
尹禅英
李旻燮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ivan Gene Diagnostic Center Inc
Original Assignee
Ivan Gene Diagnostic Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ivan Gene Diagnostic Center Inc filed Critical Ivan Gene Diagnostic Center Inc
Publication of CN107949845A publication Critical patent/CN107949845A/zh
Application granted granted Critical
Publication of CN107949845B publication Critical patent/CN107949845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6879Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for sex determination
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)

Abstract

本发明涉及一种能够通过使用拷贝数变化(CNV)来区分克兰费尔特综合征(Kleinfeiter's syndrome)(XXY)、三X综合征(triple X syndrome)(XXX)和特纳综合征(Turner's syndrome)(单体X,XO)以及男性(XY)和女性(XX)以诊断胎儿性染色体非整倍性的方法。根据本发明的区分方法具有显著高的灵敏度和准确性,因为无论平台的种类和数据如何,通过进行标准化来均匀地调节参考线。本发明可用于通过容易诊断难以诊断的性染色体X和Y来诊断早期的性染色体异常,因为即使使用少量胎儿染色体分析仍是可能的,这对应于非侵入性产前诊断的优势,并且拷贝是多余的。

Description

能够在多个平台上区分胎儿性别和胎儿性染色体异常的新 方法
技术领域
本发明涉及一种使用通过进行下一代测序(NGS)从多个样品获得的数据的胎儿性别和胎儿性染色体(例如,删除和复制胎儿基因的性染色体X和Y区域中的一些区域)的非整倍性(aneuploidy)分析的方法,及其发现和验证,其中即使输入来自各种平台的异类数据(heterogeneous data)也可能获得相同的结果。
背景技术
从1970年代到最近,与染色体数值异常有关的疾病的诊断方法已经不断发展。过去,当母亲是35岁或更大年纪时,推荐进行羊膜检查或绒膜绒毛检查。已知这些技术是侵入性方法,其中胎儿丢失率为1/100至1/300,准确性不高,并且假阳性率和假阴性率高。被分类为高危人群的95%或更多的孕妇需要更准确和安全的诊断测试方法,以生出健康的婴儿。
为了诊断染色体异常和性染色体异常,使用下一代测序分析技术的具有安全性和高准确性的技术从2000年代后期引入(韩国专利申请第10-2010-7003969号,第10-2012-7034453号),其中通过测序无细胞DNA(cfDNA)诊断非整倍性与传统分析方法相比具有高准确性和低假阴性率的优点。
最近,正在进行基于下一代序列分析(NGS)技术的非侵入性产前测试(NIPT)技术,即一种最新的技术(Bianchi DW et al.,(2014)DNA Sequencing Versus StandardPrenatal Aneuploidy Screening.N.Engl.J.of Med.370:799–808.,Sparks AB et al.,(2012)Noninvasive Prenatal Detection and Selective Analysis of Cell-Free DNAObtained from Maternal Blood:Evaluation for Trisomy 21and Trisomy18.Am.J.Obstet.Gynecol.206:319.e1–9.,Ehrich,M.et al.,(2011)NoninvasiveDetection of Fetal Trisomy 21by Sequencing of DNA in Maternal Blood:A Studyin a Clinical Setting.Am.J.Obstet.Gynecol.204:205.e1–11.),并通过使用Illumina和Ion Torrent公司的两个平台进行快速和有效的临床分析测试。开始时使用Illumina平台的非侵入性产前测试(NIPT)分析的灵敏度和特异性约为98%(Lau,T.K.et al.,(2014)Non-invasive Prenatal Testing for Fetal Chromosomal Abnormalities by Low-Coverage Whole Genome Sequencing of Maternal Plasma DNA:Review of1982Consecutive Cases in a Single Center.Ultrasound Obstet.Gynecol.43:254–264.,Ashoor G et al.,(2012)Chromosome-Selective Sequencing of Maternal PlasmaCell-Free DNA for First Trimester Detection of Trisomy 21and Trisomy18.Am.J.Obstet.Gynecol.206:322.e1–5.)。然而,最近的研究显示了使用HiSeq(Illumina)和Ion Proton(Ion Torrent)的胎儿染色体13、18和21的非整倍性诊断灵敏度高于99.5%(Liao,C.,et al.,(2014)Noninvasive Prenatal Diagnosis of CommonAneuploidies by Semiconductor Sequencing.Proc.Natl.Acad.Sci.USA.111:7415–7420.)。
许多染色体相关的临床疾病与性染色体的拷贝数以及常染色体改变相关。最常见的性染色体非整倍性(SCA)是特纳综合征(Turner syndrome)[45,X]、XXX综合征(三X[47,XXX])、克兰费尔特综合征(Klinefelter syndrome)[47,XXY]和超雄综合征(Super malesyndrome)([47,XYY]综合征)。已知这些疾病具有相对罕见的发病率,但报道了这些疾病引起约0.3%的累积性染色体非整倍性(Morris,J.K.,et al.,Is The Prevalence ofKlinefelter Syndrome Increasing;Eur.J.Hum.Genet.2007;16:163-70.)。在庆北国立大学附属医院(Kyungpook National University Hospital)儿科的115例患者的20年研究中,克兰费尔特综合征的性染色体异常的频率为52%,特纳综合征为42%,XXX综合征为3%,并且混合型性腺发育不良为3%。克兰费尔特综合征具有97%的典型XXY型和3%的镶嵌性(mosaicism),特纳综合征具有67%的典型X型,23%的镶嵌性,和10%的X染色体的结构异常。XXX综合征具有67%的XXX型和33%的镶嵌性,并且混合型性腺发育不良全部是45,X/46,XY(Seo,Hyun ji et al.,a cytogenetic study in patients with sexchromosome abnomalities,Korea Journal of Pediatrics,Vol 48,No.12,2005)。
最近,通过使用胎儿细胞DNA(无细胞胎儿DNA,cffDNA)和NGS可检测到性染色体非整倍性,但通过定量比常染色体非整倍性的准确性更低的染色体数目来检测。此外,存在染色体X和Y之间的序列相似性以及与GC组成相关的测序偏差,并且染色体Y和其他染色体之间的相似性在信噪比处降低,并且具有小尺寸的染色体Y具有许多变异。大多数病例不容易被检测到,并且在性染色体非整倍性的分类中总是有问题。
不同于13、18和21染色体上的非整倍性,全球趋势是XO、XXX和XXY评判的准确性不高。事实上,在Verifi(Illumina)和NIFTY(BGI)的情况下,对13、18和21染色体的灵敏度为98.15%或更高。但是,Verifi对性染色体的单体X(Monosomy X)具有95%的灵敏度,并且对于XXX/XXY/XYY,数据的量小,并且因此不表示准确性。在NIFTY的情况下,基于修正的内部染色体Z-分数而不是基于现有的Z-分数,将单体X的灵敏度表示为75%,并且其余由于少量数据而未被表示。即使数据的量小,目前的算法也不具有高准确性,并且因此有必要开发一种优化的新算法。另外,当前的方法已经在每个特定平台的基础上开发,并且因此不可能应用其他平台的数据并且使用两个或更多个数据执行标准化。
另外,已知能够准确检测到高达4%的胎儿DNA,其与胎儿常染色体非整倍性相似(Chiu RW et al.,Maternal Plasma DNA Analysis With Massively ParallelSequencing by Ligation for Noninvasive Prenatal Diagnosis ofTrisomy21.Clin.Chem.2009;56:459–63.,Palomaki,G.E.,et al.,DNA Sequencing OfMaternal Plasma To Detect Down Syndrome:An International Clinical ValidationStudy.Genet Med.2011;13:913–20.),并且因此需要更好的方法和数据集的分类。
因此,为了解决性别分类和性染色体非整倍性的问题,本发明的发明人发现当进行GC比例和映射率(mappability)的LOESS标准化时,使用chrX和chrY的百分比确定chrX和chrY值,无论平台的种类和数据如何,通过使用内部染色体参考调节参考线以确定最终Z分数,可能以高准确性和灵敏度区分性别和性染色体异常,并且完成本发明。
发明内容
本发明的目的是提供一种无论样品和平台的类型如何通过一次同时标准化和分析所有输入的数据来区分胎儿性别和胎儿性染色体的方法。
为了实现前述目的,本发明提供了一种区分胎儿性别和胎儿性染色体异常的方法,其包括:(a)通过从母血中提取DNA而在两个或更多个平台上进行下一代测序(NGS);(b)将对每个平台测序的序列(读长(reads))与参考基因组数据库进行比对;(c)提取每个平台在染色体上唯一比对的独特读长,并计算独特读长相对于总读长的百分比(UR%);(d)同时计算每个平台的数据,设置截断值,并组织UR(y)%值;(e)使用组织的UR(y)%将男性和女性分类;(f)使用大小与染色体X和Y相似的三个或更多个常染色体计算部分参考染色体(相对FGR)值;和(g)使用所述部分参考染色体(相对FGR)值计算Z分数,并基于所述Z分数计算G分数(Gscore)和M分数(Mscore)以区分性染色体异常。
附图说明
图1是本发明的诊断性染色体非整倍性的整个流程图。
图2显示使用HiSeq平台(Illumina)分析的样品的性染色体独特读长%的分析结果。左纵轴表示UR(x)%,并且右纵轴表示UR(y)%。
图3显示使用HiSeq平台(Illumina)的两个实验组的性染色体独特读长%的分析结果之间的比较。
图4显示使用Ion Proton平台(Ion torrent)的两个实验组的性染色体独特读长%的分析结果之间的比较。
图5是显示使用Illumina平台在51个样品的截断值的基础上的性别分类的结果的图。
图6是显示在使用Ion Proton平台(Ion torrent)分析的两个不同实验组中在与图5中截断值相同的基础上的性别分类的结果的图。
图7是显示通过仅使用染色体7(chr7)和染色体20(chr20)作为内部参考计算的Z分数值的图。
图8是显示通过使用四个内部参考计算的M分数的图。
图9是显示通过使用四个内部参考计算的G分数的图。
图10是显示从中去除PCR复制的两个平台(Illumina的HiSeq和Ion torrent的IonProton)的图。
图11是显示在两个平台(Illumina的HiSeq和Ion torrent的Ion Proton)上独特读长的百分比的图。
图12是显示使用一个样品在两个平台上同时进行测序的流程图。
图13是显示当根据本发明的示例性实施方案将样品中的女性进行分类时,通过G分数区分的性染色体异常的结果的图。
图14是显示当根据本发明的示例性实施方案将样品中的男性进行分类时,通过M分数区分的性染色体异常的结果的图。
图15是显示根据本发明的示例性实施方案通过添加样品使用chrX和chrY区分性染色体异常的结果的图。
具体实施方式
除非另有定义,否则本文所使用的技术和科学术语具有与本发明所属领域的技术人员通常理解的那些相同的含义。一般地,本说明书和下述实验方法中使用的术语是本发明技术领域中公知的和通常使用的。
在本发明中,证实当使从两个或更多个NGS平台生成的测序数据标准化并基于截断值比对,然后使用在性染色体上使用部分参考染色体比对的独特读长%时,可能以高准确性和灵敏度区分胎儿性别和性染色体异常。
换言之,在本发明的示例性实施方案中,开发了以下方法:使用两个或更多个NGS平台测序提取自母血的基因组DNA(gDNA),基于GC含量和映射率(mappability)定量每个染色体的独特读长的量以设置截断值,使用chr7至chr10作为用于定量染色体X的部分参考染色体和使用chr19至chr22作为用于定量染色体Y的部分参考染色体,以及在男性的情况下计算M分数(男性分数)来确定正常(XY)和克兰费尔特综合征(XXY),和在女性的情况下计算G分数(女孩分数)来诊断XXX综合征(三X,XXX)以及特纳综合征(XO)和正常(XX)(图1)。
因此,在一方面,本发明涉及区分胎儿性别和胎儿性染色体异常的方法,其包括:(a)通过从母亲生物样品中提取DNA而在两个或更多个平台上进行下一代测序(NGS);(b)将对每个平台测序的序列(读长)与参考基因组数据库进行比对;(c)提取每个平台在染色体上唯一比对的独特读长,并计算独特读长相对于总读长的百分比(UR%);(d)同时计算每个平台的数据,设置截断值,并组织UR(y)%值;(e)使用组织的UR(y)%将男性和女性分类;(f)使用大小与染色体X和Y相似的三个或更多个常染色体计算部分参考染色体(相对FGR)值;和(g)使用相对FGR值计算Z分数,并基于所述Z分数计算G分数(Gscore)和M分数(Mscore)以区分性染色体异常。
在本发明中,所述生物样品可选自下组:血液、血浆、血清、尿和唾液。
在本发明中,步骤(a)包括:(a)通过离心所收集的生物样品以分离血浆;(b)从分离的血浆提取cfDNA;(c)使用提取的cfDNA制备文库;和(d)汇集制备的文库,然后使用NGS设备解码碱基序列。
汇集本发明的文库的特征可在于在Illumina平台的情况下进行珠子大小选择并在生命技术平台的情况下进行E-凝胶大小选择。
在本发明中,步骤(c)可包括:(a)去除测序中的PCR复制和歧义读长,仅比对完美匹配的读长,并提取读长,其中GC含量和映射率大于或等于比对序列中的截断值;和(b)基于提取的读长,根据以下等式计算唯一匹配染色体X的读长的百分比(UR(x)%)和唯一匹配染色体Y的读长的百分比(UR(y)%):
等式1)UR(x)%=染色体X(chrX)读长的数量/常染色体读长的总数X 100,和
等式2)UR(y)%=染色体Y(chrY)读长的数量/常染色体读长的总数X 100。
本发明的复制读长的去除可通过用于去除复制的任意方法进行,但是优选通过LOESS标准化进行。
在本发明中,分析GC含量和映射率的步骤可通过将每个区域分成100kb测序单元(bin)区域来进行,其中GC含量的截断值可为0.30至0.50,并且映射率的截断值可为20%或更大。
在本发明中,UR(y)%的标准化在染色体Y的基础上进行以在染色体XX和XY之间进行准确分类,其中可将单一样品的结果分成UR(y)%的截断标准,但是当在两个或更多个样品的大量样品或另一个平台样品上进行标准化时,不可能设置UR(y)%的截断(图3和4)。为了不但在一个实验室中获得多个样品的结果,而且还利用已经分析的许多结果,需要在多个平台并且一次在不同位置标准化结果,然后根据截断标准将男性和女性分类,并且因此其特征在于通过根据以下等式校正UR(y)%来进行标准化,每个平台的UR(y)%如下计算:
等式3)UR(y)%_新的=(UR(y)%_原始的-(三个最小UR(y)%值的平均值)
在本发明中,(d)的截断值优选在0.02至0.06的范围内,并且最优选0.037。
在本发明中,(e)的性别分类的特征在于,当组织的UR(y)%值大于或等于截断值时,确定为男性,并且当组织的UR(y)%值小于截断值时,确定为女性。
在本发明中,为了检测性染色体非整倍性,选择大小与染色体Y相似的染色体chr19至chr22作为内部染色体参考,选择大小与染色体X相似的染色体chr7至chr10作为内部染色体参考,并且计算部分参考染色体(相对FGR)(Lau,T.K.,et.al,J.Matern.FetalNeonatal Med.2012Aug;25(8):1370-4.)。从其中仅选择Chr7和chr20的论文获得不正确的结果,因为测序偏差很严重(图7),但是可证实计算了从FGR(7)到FGR(10)的各个值的平均值,并且因此误差率显著减小(图8和9)。
因此,在本发明中,步骤(f)可包括:
(a)选择大小与性染色体X(chrX)相似的常染色体(chr7、chr8、chr9和chr10)作为内部参考染色体,并且通过以下等式计算每个FGR:
等式4)FGR(7)=(UR(x)%+UR(y)%)/UR(7)%
等式5)FGR(8)=(UR(x)%+UR(y)%)/UR(8)%
等式6)FGR(9)=(UR(x)%+UR(y)%)/UR(9)%
等式7)FGR(10)=(UR(x)%+UR(y)%)/UR(10)%,和
(b)选择大小与性染色体Y(chrY)相似的常染色体(chr19、chr20、chr21和chr22)作为部分参考染色体,并且通过以下等式计算每个FGR:
等式8)FGR(19)=(UR(x)%+UR(y)%)/UR(19)%
等式9)FGR(20)=(UR(x)%+UR(y)%)/UR(20)%
等式10)FGR(21)=(UR(x)%+UR(y)%)/UR(21)%
等式11)FGR(22)=(UR(x)%+UR(y)%)/UR(22)%。
在本发明中,步骤(g)可包括:
(a)当确定胎儿的性别为女性时,通过以下步骤区分性染色体异常;
a-1)在以下等式中计算每个染色体的Z分数:
等式12)Z分数(7)={FGR(7)(平均FGR(7))}/(stdev FGR(7))
等式13)Z分数(8)={FGR(8)(平均FGR(8))}/(stdev FGR(8))
等式14)Z分数(9)={FGR(9)(平均FGR(9))}/(stdev FGR(9))
等式15)Z分数(10)={FGR(10)(平均FGR(10))}/(stdev FGR(10))
a-2)通过以下等式使用计算的Z分数计算G分数;和
等式16)G分数={Z分数(7)+Z分数(8)+Z分数(9)+Z分数(10)}/4
a-3)当所述G分数大于或等于1.5时,确定性染色体为XXX,当所述G分数大于-3且小于1.5时,确定所述性染色体为XX,并且当所述G分数小于或等于-3时,确定所述性染色体为XO;
(b)当确定胎儿的性别为男性时,通过以下步骤区分性染色体异常;
b-1)在以下等式中计算每个染色体的Z分数:
等式17)Z分数(19)={FGR(19)(平均FGR(19))}/(stdev FGR(19))
等式18)Z分数(20)={FGR(20)(平均FGR(20))}/(stdev FGR(20))
等式19)Z分数(21)={FGR(21)(平均FGR(21))}/(stdev FGR(21))
等式20)Z分数(22)={FGR(22)(平均FGR(22))}/(stdev FGR(22))
b-2)通过以下等式使用计算的Z分数计算M分数;和
等式21)M分数={Z分数(19)+Z分数(20)+Z分数(21)+Z分数(22)}/4
b-3)当所述M分数大于或等于0.7时,确定所述性染色体为XXY,当所述M分数大于-3且小于0.7时,确定所述性染色体为XY。
本发明还涉及一种计算机系统,其包括计算机可读介质,其具有加密的用于控制计算机系统的多个指令,以执行使用两个或更多个NGS平台从提取自母亲生物样品的gDNA区分胎儿性别和性染色体异常的方法,其中
所述生物样品含有胎儿的无细胞核酸分子,和
所述区分胎儿性别和性染色体异常的方法包括:
将对每个NGS平台测序的序列(读长)与参考基因组数据进行比对;
提取每个NGS平台的对染色体唯一的独特读长,并计算独特读长(UR%)相对于总读长的百分比;
同时计算每个NGS平台的数据,设置截断值,并组织UR(y)%值;
使用组织的UR(y)%值将男性和女性分类;
使用大小与染色体X和Y相似的三个或更多个常染色体计算部分参考染色体(相对FGR);和
使用所述相对FGR值计算Z分数,并且基于所述Z分数计算G分数(Gscore)和M分数(Mscore)以区分性染色体异常。
实施例
以下,将参考以下实施例详细描述本发明。然而,以下实施例仅用于示例本发明,并且将对本领域技术人员显而易见的是,本发明的范围不被解释为局限于这些实施例。
<实施例1>使用母亲DNA进行下一代测序
使用离心分离从母亲收集的血液以提取血浆,然后溶解血浆以通过提取30ng或更多的cfDNA制备文库。在Illumina平台的情况下,在组合适配体后,使用珠子大小选择进行汇集,接着测序。在生命技术平台的情况下,在组合适配体后,使用E-凝胶大小选择进行汇集,接着测序。
<实施例2>将测序后获得的序列与参考基因组(人GRCh38)进行比对
通过使用包括仅约250个间隔的GRCh38(2013年12月24日发布)的最新版本,进行序列的比对以去除混杂的序列。使用samtools查看选项以及去除PCR复制的一般picard提取最小独特读长。为了分析从两个或更多个平台生成的数据,分析了初始文件大小和读长长度的分布(表1)。因为仅所有区域中的独特读长不能通过一般PCR复制去除操作来收集(图10),在使用其他过滤选项后,为HiSeq收集了约85%的独特读长,并且为Proton收集了约76%的独特读长(表2)。
[表1]
10M读长的文件大小(单位:千兆字节)
样品ID 77 91 64 73 92 72 76 62 68 67 83 74 86 85 71 66 87 63 65 70 69 84
Illumina 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.6
Proton 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.9 2.8 2.8 2.8 2.8 2.8 2.7 2.7 2.6 2.6
10M读长的文件大小(单位:十亿字节)
样品ID
[表2]
10M读长的映射率%(单位:%)
10M读长的映射率%(单位:%)
<实施例3>通过标准化多样品和多平台数据的数据保持
将每个染色体分成100kb测序单元区域。然后,对于GC含量,去除除0.30<=GC含量<=0.50之外的区域,并且对于映射率,仅选择具有20%或更大映射率的区域以去除PCR复制和噪音区域。仅使用Z分数的平均值来观察总体变化。为了建立从Illumina和Proton平台之间的差异和每个实验组和位置或环境的差异获得的实验结果的偏差(图3和4)的标准,获得UR(y)%的三个最小值的平均值,并且从原始值减去该平均值,由此证实了该值的变化程度通过某一截断值显著减小(图5和6)。
<实施例4>使用保持的数据值和GM分数计算的性别分类
将来自在不同实验条件下使用不同平台进行的结果的相同三个最小值的平均值设置为参考线。然后,将染色体Y的独特读长UR(y)%的百分比的截断值设置在0.02至0.04的范围内以将男性和女性分类。当性别是女性(XX)时,XO和XXX通过使用超出正态分布的情况来区分。当性别是男性(XY)时,将超出正态XY分布的数据评判为XXY。
当关于UR(x)%(即chrX的独特读长的百分比)时,使用具有相似大小的chr7计算部分参考染色体,即相对FGR,并且计算各个Z分数(图7),并且当关于UR(y)%(即chrY的独特读长的百分比)时,也使用具有相似大小的chr20计算部分参考染色体,即相对FGR,并且计算各个Z分数(图7),值的分布程度高度偏差。因此,为了获得具有相似大小的染色体的平均值,证实获得大小与chrX相似的chr7、chr8、chr9和chr10的平均值以计算部分参考染色体(相对FGR)和Z分数,由此获得M分数,即最接近chrX的标准值的值(图9)。如在chrY中,根据与chrX相同的原则,证实获得chr19、chr20、chr21和chr22的平均值以计算相对FGR和Z分数,由此获得M分数,由此最精确的检测chrY的变化程度(图8)。
<实施例5>通过GM分数进行的最终诊断结果
通过使用实施例1至4的方法,证实可清楚地区分94个正常人,具有XXX基因型的1个人和具有XXY基因型的1个人(表3),并且可满足所有截断值。然后,通过羊膜腔穿刺术证实诊断。即使使用小样品,与同源染色体的异常相比,也较难获得样品,并且提供了可从标准比率清楚区分的分数,并且因此可证实该方法能够仅通过GM分数有效地评判染色体异常(图13和14)。可通过G分数从XXX中区分XX,并且可预测通过使用-3或更小的截断值也能够评判出XO。此外,证实了可通过M分数从XY有效地区分出XXY的分布。
[表3]
样品的数量
女性 男性
正常 49 45
XXX 1
XXY 1
总计 50 46
<实施例6>诊断另外的样品组的性别
通过使用在实施例5中公开的方法,证实分析了表4所示的样品组(具有XO基因型的3个人、具有XYY基因型的1个人和121个正常人的数据)以区分性别和染色体异常,概率为100%(图15)。
[表4]
女性 男性
正常 101 114
XXX 1
XO 3
XXY 1
XYY 1
总计 105 116
已经基于本发明的特定特征详细描述了本发明,并且对本领域技术人员显而易见的是,这些特定技术仅是优选的实施方案,并且因此本发明的范围不局限于这些实施方案。因此,本发明的实质范围通过所附权利要求及其等同物来定义。
工业实用性
根据本发明的区分胎儿性别和性染色体异常的方法不但可增加使用下一代测序(NGS)的性别分类的准确性,还可增加难以被检测出的XO、XXX、XXY等的检测准确性,并且因此可增加性染色体的商业使用连同常染色体异常的非侵入性检测。因此,本发明的方法可用于产前诊断,其能够确定由于在早期在胎儿中胎儿性染色体的异常造成畸形的发生。

Claims (11)

1.一种区分胎儿性别和胎儿性染色体异常的方法,其包括:(a)通过从母血提取DNA而在两个或更多个平台上进行下一代测序(NGS);
(b)将对每个平台测序的序列(读长)与参考基因组数据库进行比对;
(c)提取每个平台在染色体上唯一比对的独特读长,并计算独特读长相对于总读长的百分比(UR%);
(d)同时计算每个平台的数据,设置截断值,并组织UR(y)%值;
(e)使用组织的UR(y)%将男性和女性分类;
(f)使用大小与染色体X和Y相似的三个或更多个常染色体计算部分参考染色体(相对FGR)值;和
(g)使用所述部分参考染色体(相对FGR)值计算Z分数,并基于所述Z分数计算G分数(Gscore)和M分数(Mscore)以区分性染色体异常。
2.权利要求1的方法,其中所述步骤(a)包括以下步骤:
(a)通过离心所收集的生物样品以分离血浆;
(b)从分离的血浆提取cfDNA;
(c)使用提取的cfDNA制备文库;和
(d)汇集制备的文库,然后使用NGS设备解码碱基序列。
3.权利要求1的方法,其中所述步骤(c)包括以下步骤:
(a)去除测序中的PCR复制和歧义读长,仅比对完美匹配的读长,并提取读长,其中GC含量和映射率大于或等于比对序列中的截断值;和
(b)基于提取的读长,根据以下等式计算唯一匹配染色体X的读长的百分比(UR(x)%)和唯一匹配染色体Y的读长的百分比(UR(y)%):
等式1)UR(x)%=染色体X(chrX)读长的数量/常染色体读长的总数X 100,和
等式2)UR(y)%=染色体Y(chrY)读长的数量/常染色体读长的总数X 100。
4.权利要求3的方法,其中所述步骤(a)通过将每个区域分成100kb测序单元区域来进行,其中GC含量的截断值为0.30至0.50,并且映射率的截断值为20%或更大。
5.权利要求1的方法,其中所述步骤(d)通过藉由根据以下等式校正UR(y)%来标准化而进行,每个平台的UR(y)%如下计算:
等式3)UR(y)%_新的=(UR(y)%_原始-(三个最小UR(y)%值的平均值)。
6.权利要求1的方法,其中步骤(d)的截断值为0.02~0.06。
7.权利要求1的方法,其中(e)的性别分类的特征在于,当所述组织的UR(y)%值大于或等于所述截断值时,确定为男性,并且当所述组织的UR(y)%值小于所述截断值时,确定为女性。
8.权利要求1的方法,其中所述步骤(f)包括以下步骤:
(a)选择大小与性染色体X(chrX)相似的常染色体(chr7、chr8、chr9和chr10)作为内部参考染色体,并且通过以下等式计算每个FGR:
等式4)FGR(7)=(UR(x)%+UR(y)%)/UR(7)%
等式5)FGR(8)=(UR(x)%+UR(y)%)/UR(8)%
等式6)FGR(9)=(UR(x)%+UR(y)%)/UR(9)%
等式7)FGR(10)=(UR(x)%+UR(y)%)/UR(10)%,和
(b)选择大小与性染色体Y(chrY)相似的常染色体(chr19、chr20、chr21和chr22)作为部分参考染色体,并且通过以下等式计算每个FGR:
等式8)FGR(19)=(UR(x)%+UR(y)%)/UR(19)%
等式9)FGR(20)=(UR(x)%+UR(y)%)/UR(20)%
等式10)FGR(21)=(UR(x)%+UR(y)%)/UR(21)%
等式11)FGR(22)=(UR(x)%+UR(y)%)/UR(22)%。
9.权利要求1的方法,其中所述步骤(g)包括以下步骤:
(a)当确定胎儿的性别为女性时,通过以下步骤区分性染色体异常;
a-1)在以下等式中计算每个染色体的Z分数:
等式12)Z分数(7)={FGR(7)(平均FGR(7))}/(stdev FGR(7))
等式13)Z分数(8)={FGR(8)(平均FGR(8))}/(stdev FGR(8))
等式14)Z分数(9)={FGR(9)(平均FGR(9))}/(stdev FGR(9))
等式15)Z分数(10)={FGR(10)(平均FGR(10))}/(stdev FGR(10))
a-2)通过以下等式使用计算的Z分数计算G分数;和
等式16)G分数={Z分数(7)+Z分数(8)+Z分数(9)+Z分数(10)}/4
a-3)当所述G分数大于或等于1.5时,确定性染色体为XXX,当所述G分数大于-3且小于1.5时,确定所述性染色体为XX,并且当所述G分数小于或等于-3时,确定所述性染色体为XO;
(b)当确定胎儿的性别为男性时,通过以下步骤区分性染色体异常;
b-1)在以下等式中计算每个染色体的Z分数:
等式17)Z分数(19)={FGR(19)(平均FGR(19))}/(stdev FGR(19))
等式18)Z分数(20)={FGR(20)(平均FGR(20))}/(stdev FGR(20))
等式19)Z分数(21)={FGR(21)(平均FGR(21))}/(stdev FGR(21))
等式20)Z分数(22)={FGR(22)(平均FGR(22))}/(stdev FGR(22))
b-2)通过以下等式使用计算的Z分数计算M分数;和
等式21)M分数={Z分数(19)+Z分数(20)+Z分数(21)+Z分数(22)}/4
b-3)当所述M分数大于或等于0.7时,确定所述性染色体为XXY,当所述M分数大于-3且小于0.7时,确定所述性染色体为XY。
10.权利要求1的方法,其中所述生物样品选自下组:血液、血浆、血清、尿和唾液。
11.一种计算机系统,其包括计算机可读介质,其具有加密的用于控制计算机系统的多个指令,以执行使用两个或更多个NGS平台从提取自母亲生物样品的gDNA区分胎儿性别和性染色体异常的方法,其中
所述生物样品含有胎儿的无细胞核酸分子,和
所述区分胎儿性别和性染色体异常的方法包括:
将对每个NGS平台测序的序列(读长)与参考基因组数据进行比对;
提取每个NGS平台的对染色体唯一的独特读长,并计算独特读长(UR%)相对于总读长的百分比;
同时计算每个NGS平台的数据,设置截断值,并组织UR(y)%值;
使用组织的UR(y)%值将男性和女性分类;
使用大小与染色体X和Y相似的三个或更多个常染色体计算部分参考染色体(相对FGR);和
使用所述相对FGR值计算Z分数,并且基于所述Z分数计算G分数(Gscore)和M分数(Mscore)以区分性染色体异常。
CN201680051588.0A 2015-08-06 2016-08-08 能够在多个下一代测序平台上区分胎儿性别和胎儿性染色体异常的计算机系统 Active CN107949845B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020150111221A KR101817785B1 (ko) 2015-08-06 2015-08-06 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
KR10-2015-0111221 2015-08-06
PCT/KR2016/008679 WO2017023148A1 (ko) 2015-08-06 2016-08-08 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법

Publications (2)

Publication Number Publication Date
CN107949845A true CN107949845A (zh) 2018-04-20
CN107949845B CN107949845B (zh) 2022-06-14

Family

ID=57943356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680051588.0A Active CN107949845B (zh) 2015-08-06 2016-08-08 能够在多个下一代测序平台上区分胎儿性别和胎儿性染色体异常的计算机系统

Country Status (6)

Country Link
US (1) US11339426B2 (zh)
KR (1) KR101817785B1 (zh)
CN (1) CN107949845B (zh)
HK (1) HK1252917A1 (zh)
SG (1) SG11201801014QA (zh)
WO (1) WO2017023148A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211654A (zh) * 2019-05-30 2019-09-06 湖南自兴智慧医疗科技有限公司 一种自动隐藏性别信息的核型检测系统及方法
WO2019213810A1 (zh) * 2018-05-07 2019-11-14 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI603082B (zh) * 2016-09-30 2017-10-21 有勁生物科技股份有限公司 非侵入式胎兒性徵異常檢測系統及其方法與非侵入式胎兒性徵檢測系統及其方法
CN108733984B (zh) * 2017-10-30 2021-09-03 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
CN108256296B (zh) * 2017-12-29 2021-05-25 北京科迅生物技术有限公司 数据处理装置
KR102142904B1 (ko) * 2018-02-27 2020-08-10 이원다이애그노믹스(주) 비침습적 산전진단을 통한 태아의 성별 판별방법
KR102142909B1 (ko) * 2018-03-29 2020-08-10 이원다이애그노믹스(주) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
CN111755116A (zh) * 2019-03-29 2020-10-09 欧蒙医学诊断(中国)有限公司 一种判断样本性别的方法以及实施该方法的装置
CA3163405A1 (en) * 2019-11-29 2021-06-03 GC Genome Corporation Artificial intelligence-based chromosomal abnormality detection method
EP4184514A1 (en) 2021-11-23 2023-05-24 Eone Reference Laboratory Apparatus and method for diagnosing cancer using liquid biopsy data
WO2023219263A1 (ko) * 2022-05-09 2023-11-16 테라젠지놈케어 주식회사 가상 양성 데이터 및 가상 음성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
CN115910349B (zh) * 2023-01-09 2023-05-30 北京求臻医学检验实验室有限公司 基于低深度wgs测序末端特征的癌症早期预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790731A (zh) * 2007-03-16 2010-07-28 吉恩安全网络公司 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
CN103403183A (zh) * 2011-06-29 2013-11-20 深圳华大基因健康科技有限公司 胎儿遗传异常的无创性检测
CN103608466A (zh) * 2010-12-22 2014-02-26 纳特拉公司 非侵入性产前亲子鉴定方法
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10497461B2 (en) * 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
GB201215449D0 (en) * 2012-08-30 2012-10-17 Zoragen Biotechnologies Llp Method of detecting chromosonal abnormalities
WO2014133369A1 (ko) * 2013-02-28 2014-09-04 주식회사 테라젠이텍스 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치
EP3004383B1 (en) * 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790731A (zh) * 2007-03-16 2010-07-28 吉恩安全网络公司 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
CN103608466A (zh) * 2010-12-22 2014-02-26 纳特拉公司 非侵入性产前亲子鉴定方法
CN103403183A (zh) * 2011-06-29 2013-11-20 深圳华大基因健康科技有限公司 胎儿遗传异常的无创性检测
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019213810A1 (zh) * 2018-05-07 2019-11-14 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN110211654A (zh) * 2019-05-30 2019-09-06 湖南自兴智慧医疗科技有限公司 一种自动隐藏性别信息的核型检测系统及方法

Also Published As

Publication number Publication date
SG11201801014QA (en) 2018-03-28
KR20170017384A (ko) 2017-02-15
KR101817785B1 (ko) 2018-01-11
US11339426B2 (en) 2022-05-24
HK1252917A1 (zh) 2019-06-06
WO2017023148A1 (ko) 2017-02-09
US20190228131A1 (en) 2019-07-25
CN107949845B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN107949845A (zh) 能够在多个平台上区分胎儿性别和胎儿性染色体异常的新方法
JP7490219B2 (ja) ゲノム配列決定を使用する胎児染色体異数性の診断
CN105695567B (zh) 一种用于检测胎儿染色体非整倍体的试剂盒、引物和探针序列及检测方法
CN111712582B (zh) 使用核酸大小范围进行非侵入性产前检查和癌症检测
KR101614471B1 (ko) 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치
CN108604258B (zh) 染色体异常判断方法
KR20140023847A (ko) 태아 유전학적 이상의 비침습성 검출
CN105844116B (zh) 测序数据的处理方法和处理装置
CN104232777A (zh) 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN113450871B (zh) 基于低深度测序的鉴定样本同一性的方法
CN104951671A (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
KR101678962B1 (ko) 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
WO2019224668A1 (en) Method for determining the probability of the risk of chromosomal and genetic disorders from free dna of fetal origin
CN108475301A (zh) 用于确定包含核酸的混合物的样品中的拷贝数变异的方法
CN105765076A (zh) 一种染色体非整倍性检测方法及装置
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
Qian et al. Noninvasive prenatal screening for common fetal aneuploidies using single-molecule sequencing
RU2777072C1 (ru) Способ определения анеуплоидии плода в образце крови беременной женщины
WO2023102786A1 (zh) 基因标志物在预测孕妇早产风险中的应用
KR102142904B1 (ko) 비침습적 산전진단을 통한 태아의 성별 판별방법
RU2772912C1 (ru) Способ анализа митохондриальной ДНК для неинвазивного пренатального тестирования
CN106834476A (zh) 一种乳腺癌检测试剂盒
EP3149202A1 (en) Method of prenatal diagnosis
CN116323981A (zh) 线粒体dna质量控制
Vinh A Method to Create NIPT Samples with Turner Disorder to Evaluate NIPT Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1252917

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant