CN111373054B - 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质 - Google Patents
确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质 Download PDFInfo
- Publication number
- CN111373054B CN111373054B CN201880056925.4A CN201880056925A CN111373054B CN 111373054 B CN111373054 B CN 111373054B CN 201880056925 A CN201880056925 A CN 201880056925A CN 111373054 B CN111373054 B CN 111373054B
- Authority
- CN
- China
- Prior art keywords
- chromosome
- threshold
- average
- triploid
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000026487 Triploidy Diseases 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012360 testing method Methods 0.000 title claims abstract description 49
- 238000012163 sequencing technique Methods 0.000 claims abstract description 151
- 210000000349 chromosome Anatomy 0.000 claims abstract description 100
- 210000002593 Y chromosome Anatomy 0.000 claims abstract description 44
- 239000000523 sample Substances 0.000 claims description 80
- 239000013068 control sample Substances 0.000 claims description 14
- 210000003765 sex chromosome Anatomy 0.000 claims description 4
- 210000001519 tissue Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims 2
- 201000010099 disease Diseases 0.000 claims 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 7
- 238000002509 fluorescent in situ hybridization Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000011529 RT qPCR Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 239000013074 reference sample Substances 0.000 description 3
- 239000000344 soap Substances 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 206010068051 Chimerism Diseases 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 101100240528 Caenorhabditis elegans nhr-23 gene Proteins 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 210000001766 X chromosome Anatomy 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 231100000005 chromosome aberration Toxicity 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 238000013102 re-test Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种确定男性待测样本是否存在三倍体的方法。该方法包括:(1)将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;(2)基于步骤(1)中所述比对的结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;(3)针对所述至少一条常染色体的每一条,确定所述常染色体平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及(4)基于步骤(3)中获得的DRi,确定所述男性待测样本是否存在所述三倍体。
Description
技术领域
本发明涉及生物医学领域。具体而言,涉及确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质。
背景技术
三倍体指患者的体细胞具有三套染色体组,每对染色体都增加了一条,染色体总数为69(3n),包括69,XXY、69,XYY、69,XXX三种。三倍体胎儿在妊娠中占比达到2-3%,在早期流产物中占比达到15%,同样在IVF中也存在三倍体的情况,并且在IVF后三倍体的发生率高达2%-10%。三倍体主要产生原因为双雌受精和双雄受精。
目前检测三倍体的方法的主要有荧光原位杂交(fluorescent in situhybridization,FISH),比较基因组杂交(comparative genomic hybridization,CGH),单核苷酸多态性芯片技术(single nucleotide polymorphism,SNP array),短串联重复序列分析(Short tandem repeat,STR),实时聚合酶连锁反应(quantitative real-timepolymerase chain reaction,qPCR)。FISH方法简单快速,但分辨率和准确性低,并局限于单次杂交的探针数;CGH可以分析全部染色体,但分析时间长,仅能检测XYY和XXY两种,并且不能检测平衡易位和复杂的染色体畸变;SNP array可检测全部染色体非整倍体和部分单基因遗传病,但耗时过长,且成本高、数据分析困难,STR操作简单,检测准确性高,但受到位点限制检测功能单一,其操作的不便利性均限制了大规模的应用;qPCR容易发生等位基因脱扣或等位基因选择性扩增,发生率可达10%~25%,严重影响分析结果的准确性。
因此,针对三倍体的检测方法还有待开发和改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,在本发明的第一方面,本发明提出了一种确定男性待测样本是否存在三倍体的方法。根据本发明的实施例,所述方法包括:(1)将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;(2)基于步骤(1)中比对的结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;(3)针对所述至少一条常染色体的每一条,确定所述常染色体平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及(4)基于步骤(3)中获得的DRi,确定所述男性待测样本是否存在所述三倍体。根据本发明实施例的方法,可基于低覆盖度测序数据进行男性三倍体的检测,相比于现有技术,检测成本大幅降低、周期大幅缩短,且检测结果准确率高。
在本发明的第二方面,本发明提出了一种确定男性待测样本是否存在三倍体的系统。根据本发明的实施例,所述系统包括:比对装置,所述比对装置用于将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;平均测序深度确定装置,所述平均测序深度确定装置与所述比对装置相连,用于基于比对装置所获得的比对结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;DRi确定装置,所述DRi确定装置与所述平均测序深度确定装置相连,用于针对所述至少一条常染色体的每一条,确定所述常染色体平均测序深度与Y染色体的平均测序深度的比例,记为DRi,,其中,i表示染色体编号;以及判定装置,所述判定装置与所述DRi确定装置相连,用于基于DRi确定装置中获得的DRi,确定所述男性待测样本是否存在所述三倍体。根据本发明实施例的系统,可实现基于低覆盖度测序数据进行男性三倍体的检测,相比于现有技术,检测成本大幅降低、周期大幅缩短,且检测结果准确率高。
在本发明的第三方面,本发明提出了一种计算机可读介质。根据本发明的实施例,所述计算机可读介质中存储有指令,所述指令被适于处理执行以下步骤确定男性待测样本是否存在三倍体,(1)将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;(2)基于步骤(1)中所述比对的结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;(3)针对所述至少一条常染色体的每一条,确定所述常染色体的平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及(4)基于步骤(3)中获得的DRi,确定所述男性待测样本是否存在所述三倍体。根据本发明实施例的计算机可读介质,可实现基于低覆盖度测序数据进行男性三倍体的检测,相比于现有技术,检测成本大幅降低、周期大幅缩短,且检测结果准确率高。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的确定男性待测样本是否存在三倍体的系统的结构示意图;
图2是根据本发明实施例的判定装置的结构示意图;以及
图3是根据本发明实施例的测试集平均深度比分布图,其中,“o”表示阴性样本,“x”表示阳性样本,虚线表示判断未知样本的四个界线。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
确定男性待测样本是否存在三倍体的方法
在本发明的第一方面,本发明提出了一种确定男性待测样本是否存在三倍体的方法。根据本发明的实施例,所述方法包括:(1)将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;(2)基于步骤(1)中比对结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;(3)针对所述至少一条常染色体的每一条,确定所述常染色体平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及(4)基于步骤(3)中获得的DRi,确定所述男性待测样本是否存在所述三倍体。根据本发明实施例的方法,可基于低覆盖度测序数据进行男性三倍体的检测,相比于现有技术,检测成本大幅降低、周期大幅缩短,且检测结果准确率高。
根据本发明的实施例,所述将来自于所述男性待测样本的测序结果与参照序列进行比对可以采用SOAP(v2.20),把测序获得的序列比对到人类基因参考序列(Hg19)上,进而得到比对文件,以便确定能够与所述参照基因组序列比对上的所述测序序列的序列数。
根据本发明的实施例,所述三倍体为XXY或者XYY。
根据本发明的实施例,所述测序结果来自于低深度测序。根据本发明实施例,所述方法尤其适用于低深度测序数据的分析。
根据本发明的实施例,所述待测样本来自流产组织。进而取材方便,进一步降低检测成本。
根据本发明的实施例,所述预定染色体的平均测序深度是基于下列确定的:(a)能够与所述预定染色体的参照序列比对上的所述测序序列的序列数;(b)所述预定染色体的参照序列的长度;以及(c)所述多个测序序列的平均序列长度。
根据本发明的实施例,所述能够与所述预定染色体的参照序列比对上的所述测序序列为唯一比对序列。
根据本发明的具体实施例,在步骤(2)中,所述平均测序深度是按照下列公式确定的:
其中,
Di表示第i号染色体的平均深度,
i为1~24范围内的至少一个整数,其中,23和24分别表示X和Y染色体,
Ri表示能够与第i染色体的参照序列比对上的所述测序序列的序列数,
R_len表示所述多个测序序列的平均序列长度,
C_leni表示所述参照序列中第i号染色体的长度。
进而基于测序数据,获得每条染色体的平均测序深度,用于确定每条常染色体的平均测序深度与Y染色体的平均测序深度的比例。
根据本发明的实施例,所述预定染色体包括至少2条常染色体,优选至少10条常染色体,最优选22条常染色体。
根据本发明的实施例,待测样本的常染色体与Y染色体的平均测序深度比是按照公式DRi=Di/D24确定的,其中Di(i=1,2,3,……,22)表示所述预定染色体中所述至少一条常染色体的平测序均深度,D24表示Y染色体的平均测序深度。
根据本发明的实施例,步骤(4)进一步包括:(4-1)针对所述预定染色体中所述至少一条常染色体的每一条,确定所述常染色体的DRi与参考深度比的比值,记为DDRi,;(4-2)基于步骤(4-1)中获得的DDRi,确定所述预定染色体中所述至少一条常染色体的平均深度比,记为(4-3)基于步骤(4-2)中获得的/>确定所述男性待测样本中是否存在所述三倍体。进而,在步骤(4)中,依据/>判定男性待测样本中是否存在所述三倍体的结果更加准确。
根据本发明的实施例,所述参考深度比是预先基于多个具有已知三倍体状态的对照样本确定的。
根据本发明的再一具体实施例,所述对照样本针对性染色体,不具有三倍体。
根据本发明的具体实施例,所述参考深度比是预先基于至少100个,优选1000个,具有已知三倍体状态的对照样本确定的。
根据本发明的实施例,所述参考深度比可通过如下方式获得:随机选择多份(如1000份)针对性染色体,不具有三倍体的阴性对照样品作为参考集,计算参考集中每一个对照样本的第i号常染色体与Y染色体的平均测序深度比DR’i(i=1,2,3…22)(需要说明的是,此处的每一个对照样本的第i号常染色体与Y染色体的平均测序深度比DR’i与前面所述的平均测序深度DRi的计算方式一致,即DR’i=D’i/D’24,其中,D’i表示每一个对照样本中常染色体的平均测序深度,D’24表示每一个对照样本中Y染色体的平均测序深度,而D’i的获得也有前面所述的Di获得方式一致,即基于每一个对照样本进行测序,获得每一个对照样本测序序列与参照序列的对比结果——能够与第i号染色体的参照序列比对上的测序序列的序列数以及多个测序序列的平均序列长度,进而获得每一个对照样本中常染色体的平均测序深度D’i),进而再计算参考集中所有样品的常染色体与Y染色体的平均测序深度比的均值即/>(i=1,2,3…22),其中,n为参考集中的对照样品数,/>为第i号染色体的参考深度比。
根据本发明的实施例,所述比值DDRi是按照公式(i=1,2,3,……,22)确定的。
根据本发明的实施例,本申请所述的“预定染色体中所述至少一条常染色体的平均深度比”是指预定染色体中所述至少一条常染色体的DDRi的平均值,即常染色体的DRi与参考深度比的比值的平均值。根据本发明的具体实施例,所述预定染色体中所述至少一条常染色体的平均深度比是按照公式/>(i=1,2,3,……,22)确定的。根据本发明的再一具体实施例,所述预定染色体包括Y染色体和全部常染色体,并且所述全部常染色体的平均深度比/>是按照公式/>确定的。
根据本发明的实施例,步骤(4-3)中,将所述平均深度比与阈值比较,确定所述男性待测样本中是否存在所述三倍体。
根据本发明的实施例,步骤(4-3)中,所述平均深度比不低于第一阈值是所述男性待测样本为XXY三倍体的指示,所述平均深度比/>不超过第二阈值是所述男性待测样本为XYY三倍体的指示。
根据本发明的实施例,所述第一阈值和所述第二阈值是基于多个已知三倍体类型的参考样本确定的。
根据本发明的实施例,所述第一阈值和所述第二阈值是基于100~10000个已知三倍体类型的参考样本确定的。
根据本发明的实施例,所述第一阈值为至少1.14,优选至少1.15,所述第二阈值为不超过0.9,优选0.88,更优选0.85。
根据本发明的实施例,步骤(4-3)中,进一步包括,所述平均深度比位于预定区间范围内,是所述男性待测样本为非三倍体的指示,所述预定区间范围是基于所述第一阈值和所述第二阈值确定的。
根据本发明的实施例,所述预定区间范围的左端值不小于所述第二阈值,所述预定区间的右端值不高于所述第一阈值。
根据本发明的实施例,所述左端值与所述第二阈值的差值以及所述右端值与所述第一阈值的差值分别独立地不小于0.02,优选不小于0.03。
需要说明的是,如果排除测序数据波动,样本污染,染色体嵌合,染色体间长度差异等因素的影响,是所述男性待测样本为非三倍体的指示;/>是所述男性待测样本为XXY三倍体的指示,/>是所述男性待测样本为XYY三倍体的指示。实际上,染色体间长度差异,染色体嵌合,数据波动等因素的影响下,对于XXY三倍体样本而言,应该小于1.5,XYY而言应该大于0.75,阴性样本应该是在1左右波动。因此,结合实际数据特征,根据本发明实施例的设定的判定标准如下:
判定为XYY三倍体;/>判定为未知样本;判定为阴性;/>判定为未知样本;/>判定为XXY三倍体。
确定男性待测样本是否存在三倍体的系统
在本发明的第二方面,本发明提出了一种确定男性待测样本是否存在三倍体的系统。根据本发明的实施例,参考图1,所述系统包括:
比对装置100,所述比对装置100用于将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成。其中,将测序获得的序列与参照基因组序列进行比对,所述比对可采用SOAP(v2.20),把测序获得的序列比对到人类基因参考序列(Hg19)上,进而得到比对文件,以便确定能够与所述参照序列比对上的所述测序序列的序列数。需要说明的是,能够与所述预定染色体的参照序列比对上的所述测序序列为唯一比对序列。
平均测序深度确定装置200,所述平均测序深度确定装置200与所述比对装置100相连,用于基于比对装置所获得的比对结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体。其中,所述预定染色体的平均测序深度是基于下列确定的:(a)能够与所述预定染色体的参照序列比对上的所述测序序列的序列数,(b)所述预定染色体的参照序列的长度,以及(c)所述多个测序序列的平均序列长度;具体地,所述平均测序深度是按照下列公式确定的:Di表示第i号染色体的平均测序深度,i为1~24范围内的至少一个整数,23和24分别表示X和Y染色体,Ri表示能够与第i染色体的参照序列比对上的所述测序序列的序列数,R_len表示所述多个测序序列的平均序列长度,C_leni表示所述参照序列中第i号染色体的长度。所述预定染色体包括至少2条常染色体,优选至少10条常染色体,最优选22条常染色体。
DRi确定装置300,所述DRi确定装置300与所述平均测序深度确定装置200相连,用于针对所述至少一条常染色体的每一条,确定所述常染色体的平均测序深度与Y染色体的平均测序深度的比例DRi,其中,i表示染色体编号。其中,待测样本的常染色体与Y染色体的平均测序深度比可按照公式DRi=Di/D24确定,其中Di(i=1,2,3,……,22)表示所述预定染色体中所述至少一条常染色体的平测序均深度,D24表示Y染色体的平均测序深度。
判定装置400,所述判定装置400与所述DRi确定装置300相连,用于基于DRi确定装置300中获得的DRi,确定所述男性待测样本是否存在所述三倍体。具体地,所述三倍体为XXY或者XYY。
根据本发明的实施例,参考图2,所述判定装置400包括:
DDRi确定单元401,所述DDRi确定单元401用于针对所述预定染色体中所述至少一条常染色体的每一条,确定所述常染色体的DRi与参考深度比的比值DDRi。其中,所述比值DDRi可按照公式(i=1,2,3,……,22)确定,其中DRi表示常染色体与Y染色体的平均测序深度比,/>表示参考深度比。而参考深度比/>可采用下列方式获得:随机选择多份(至少100个,优选1000个)针对性染色体,不具有三倍体的阴性对照样品作为参考集,计算参考集中每一个对照样本的第i号常染色体与Y染色体的平均测序深度比DR’i(i=1,2,3…22),进而再计算参考集中所有样品的常染色体与Y染色体的平均测序深度比的均值即/>(i=1,2,3…22),其中,n为参考集中的对照样品数,/>为第i号染色体的参考深度比。
确定单元402,所述/>确定单元402与所述DDRi确定单元401相连,用于基于DDRi确定单元401中获得的DDRi,确定所述预定染色体中所述至少一条常染色体的平均深度比/>其中,预定染色体中所述至少一条常染色体的平均深度比是指预定染色体中所述至少一条常染色体的DDRi的平均值,即常染色体的DRi与参考深度比的比值的平均值,可根据公式/>(i=1,2,3,……,22)计算获得。当所述预定染色体包括Y染色体和全部常染色体时,所述全部常染色体的平均深度比/>可按照公式/>确定。
判定单元403,所述判定单元403与所述确定单元402相连,用于基于/>确定单元402中获得的/>确定所述男性待测样本中是否存在所述三倍体。
根据本发明的实施例,将所述平均深度比与阈值比较,确定所述男性待测样本中是否存在所述三倍体。
根据本发明的实施例,所述平均深度比不低于第一阈值是所述男性待测样本为XXY三倍体的指示,所述平均深度比/>不超过第二阈值是所述男性待测样本为XYY三倍体的指示。其中,所述第一阈值和所述第二阈值是基于多个已知三倍体类型的参考样本确定的,如所述第一阈值和所述第二阈值是基于100~10000件已知三倍体类型的参考样本确定的。根据本发明再一实施例,所述第一阈值为至少1.14,优选至少1.15,所述第二阈值为不超过0.9,优选0.88,更优选0.85。
根据本发明的实施例,所述平均深度比位于预定区间范围内,是所述男性待测样本为非三倍体的指示,所述预定区间范围是基于所述第一阈值和所述第二阈值确定的。根据本发明的具体实施例,所述预定区间范围的左端值不小于所述第二阈值,所述预定区间的右端值不高于所述第一阈值。如所述左端值与所述第二阈值的差值以及所述右端值与所述第一阈值的差值分别独立地不小于0.02,优选不小于0.03。
需要说明的是,如果排除测序数据波动,样本污染,染色体嵌合,染色体间长度差异等因素的影响,是所述男性待测样本为非三倍体的指示;/>是所述男性待测样本为XXY三倍体的指示,/>是所述男性待测样本为XYY三倍体的指示。实际上,染色体间长度差异,染色体嵌合,数据波动等因素的影响下,对于XXY三倍体样本而言,应该小于1.5,XYY而言应该大于0.75,阴性样本应该是在1左右波动。因此,结合实际数据特征,根据本发明实施例的判定单元403设定的判定标准如下:
判定为XYY三倍体;/>判定为未知样本;判定为阴性;/>判定为未知样本;/>判定为XXY三倍体。
根据本发明的实施例,所述三倍体为XXY或者XYY。
根据本发明的实施例,所述测序结果来自于低深度测序。根据本发明实施例的系统尤其适用于低深度测序数据的分析。
根据本发明的实施例,所述待测样本来自流产组织。进而取材方便,进一步降低检测成本。
根据本发明实施例的系统,可实现基于低覆盖度测序数据进行男性三倍体的检测,相比于现有技术,检测成本大幅降低、周期大幅缩短,且检测结果准确率高。
计算机可读介质
在本发明的第三方面,本发明提出了一种计算机可读介质。根据本发明的实施例,所述计算机可读介质中存储有指令,所述指令被适于处理执行以下步骤确定男性待测样本是否存在三倍体,(1)将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;(2)基于步骤(1)中所述比对的结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;(3)针对所述至少一条常染色体的每一条,确定所述常染色体的平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及(4)基于步骤(3)中获得的DRi,确定所述男性待测样本是否存在所述三倍体。根据本发明实施例的计算机可读介质,可实现基于低覆盖度测序数据进行男性三倍体的检测,相比于现有技术,检测成本大幅降低、周期大幅缩短,且检测结果准确率高。
根据本发明实施例的计算机可读介质的附加技术特征与效果与根据本发明实施例的确定男性待测样本是否存在三倍体的方法和系统类似,在此不再赘述。
下面详细描述本发明的实施例,可以理解的是,下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
实施例方法准确度确定
本实施例共采用1438例男性样本进行技术方案的实施和效果评估,总样本包括1370份阴性样本和68份阳性样本,其中6个阳性样本分别重测一次。所有样本的测序数据是基于BGISEQ-500平台单端测序得到的35bp(即SE 35bp)的序列集。基于该序列集,具体实施步骤如下:
(1)比对。采用SOAP(v2.20)把测序获得的序列比对到人类基因参考序列(Hg19)上,得到比对文件;
深度统计。统计第i号染色体比对到每条参照序列上的所述测序序列的序列数Ri,并
按照如下公式计算每条染色体的平均测序深度Di(i=1,2,3,……,23,24);
其中,R_len表示多个测序序列的平均序列长度,C_len表示参照序列中第i号染色体的长度;
从1370份阴性样本集中选择随机选择1000份样本作为参考集,剩余370份样本作为阴性测试集,68份阳性样本作为阳性测试集;
针对每个数据集中的每个样本,计算每条常染色体的平均深度与Y染色体的平均测序深度的比值,记为DRi=Di/D24(i=1,2,3,……,22);
计算参考集中所有样本每条常染色体平均测序深度的比值的均值,作为参考深度比,记为(i=1,2,3,……,22)其中,n表示参考集中样本总数,即1000,计算结果如表1(基于1000份阴性样本计算出来的每条常染色体与Y染色体平均测序深度的比值的均值)所示。
表1
染色体号 | 参考深度比 |
Chr1 | 6.112964937 |
Chr2 | 6.736292207 |
Chr3 | 6.839641171 |
Chr4 | 6.789753739 |
Chr5 | 6.713471917 |
Chr6 | 6.789617453 |
Chr7 | 6.47769284 |
Chr8 | 6.744608694 |
Chr9 | 5.362250795 |
Chr10 | 6.600260183 |
Chr11 | 6.676404007 |
Chr12 | 6.676860392 |
Chr13 | 5.773692658 |
Chr14 | 5.617135677 |
Chr15 | 5.233490287 |
Chr16 | 5.714839197 |
Chr17 | 6.202954763 |
Chr18 | 6.727149928 |
Chr19 | 5.894805862 |
Chr20 | 6.624890827 |
Chr21 | 5.192491328 |
Chr22 | 4.297267475 |
(6)计算测试集中每个样本每条常染色体的平均测序深度的比值与参考深度比的比值,记为(i=1,2,3,……,22);
(7)计算测试集中每个样本所有常染色体的平均测序深度的比值与参考深度比的比值的平均深度比,记为计算结果如表2(370份阴性测试集和68份阳性测试集的平均)所示,散点图如图3所示。
表2
/>
根据以上步骤,检测结论如下:
(1)68例阳性样本中,5例判定为XYY,其中一例结合NGS分析数据,确定为性染色体严重异常的样本,即XXY+的样本,+表示介于YY和YYY之间;61例判定为XXY;2例无法判定;6例重测样本判定结果均一致;
(2)370例阴性样本中,366例判定为阴性,4例无法判定。4例无法判定的样本根据NGS分析数据,均由于Y染色体整体偏低导致;
(3)本方法的准确率可达98.63%。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (55)
1.一种确定男性待测样本是否存在三倍体的非疾病诊断目的的方法,其特征在于,包括:
(1)将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;
(2)基于步骤(1)中所述比对的结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;
(3)针对所述至少一条常染色体的每一条,确定所述常染色体平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及
(4)基于步骤(3)中获得的DRi,确定所述男性待测样本是否存在所述三倍体;
其中,在步骤(2)中所述平均测序深度是按照下列公式确定的:
Di表示第i号染色体的平均测序深度,i为1~24范围内的至少一个整数;
Ri表示能够与第i号染色体的参照序列比对上的所述测序序列的序列数;
R_len表示所述多个测序序列的平均序列长度;C_leni表示所述参照序列中第i号染色体的长度;
其中,待测样本的常染色体与Y染色体的平均测序深度比是按照公式DRi=Di/D24确定的,其中Di(i=1,2,3,……,22)表示所述预定染色体中所述至少一条常染色体的平均测序深度,D24表示Y染色体的平均测序深度;
其中,步骤(4)进一步包括:
(4-1)针对所述预定染色体中所述至少一条常染色体的每一条,确定所述常染色体的DRi与参考深度比的比值,记为DDRi;
(4-2)基于步骤(4-1)中获得的DDRi,确定所述预定染色体中所述至少一条常染色体的平均深度比,记为
(4-3)基于步骤(4-2)中获得的将所述平均深度比/>与阈值比较,确定所述男性待测样本中是否存在所述三倍体;
所述阈值是基于多个已知三倍体类型的参考样本确定的。
2.根据权利要求1所述的方法,其特征在于,所述三倍体为XXY或者XYY。
3.根据权利要求1所述的方法,其特征在于,所述测序结果来自于低深度测序,所述待测样本来自流产组织。
4.根据权利要求1所述的方法,其特征在于,所述预定染色体包括至少2条常染色体。
5.根据权利要求1所述的方法,其特征在于,所述预定染色体包括至少10条常染色体。
6.根据权利要求1所述的方法,其特征在于,所述预定染色体为22条常染色体。
7.根据权利要求1所述的方法,其特征在于,所述参考深度比是预先基于多个具有已知三倍体状态的对照样本确定的。
8.根据权利要求7所述的方法,其特征在于,所述对照样本针对性染色体,不具有三倍体。
9.根据权利要求7所述的方法,其特征在于,所述参考深度比是预先基于至少100个具有已知三倍体状态的对照样本确定的。
10.根据权利要求7所述的方法,其特征在于,所述参考深度比是预先基于至少1000个具有已知三倍体状态的对照样本确定的。
11.根据权利要求7所述的方法,其特征在于,所述参考深度比是基于公式确定的,
其中,
n为所述对照样本的数目;
DR’i为(i=1,2,3…22),表示每一个对照样本的第i号常染色体与Y染色体的平均测序深度比,
为第i号染色体的参考深度比。
12.根据权利要求1所述的方法,其特征在于,所述比值DDRi是按照公式确定的。
13.根据权利要求1所述的方法,其特征在于,所述预定染色体中所述至少一条常染色体的平均深度比是按照公式/>确定的。
14.根据权利要求13所述的方法,其特征在于,所述预定染色体包括Y染色体和全部常染色体,并且所述全部常染色体的平均深度比是按照公式/>确定的。
15.根据权利要求1所述的方法,其特征在于,所述平均深度比不低于第一阈值是所述男性待测样本为XXY三倍体的指示,所述平均深度比/>不超过第二阈值是所述男性待测样本为XYY三倍体的指示。
16.根据权利要求15所述的方法,其特征在于,所述第一阈值和所述第二阈值是基于多个已知三倍体类型的参考样本确定的。
17.根据权利要求16所述的方法,其特征在于,所述第一阈值和所述第二阈值是基于100~10000个已知三倍体类型的参考样本确定的。
18.根据权利要求16所述的方法,其特征在于,所述第一阈值为至少1.14,所述第二阈值为不超过0.9。
19.根据权利要求16所述的方法,其特征在于,所述第一阈值为至少1.15,所述第二阈值为0.88。
20.根据权利要求16所述的方法,其特征在于,所述第一阈值为至少1.14,所述第二阈值为0.88。
21.根据权利要求16所述的方法,其特征在于,所述第一阈值为至少1.15,所述第二阈值为0.85。
22.根据权利要求16所述的方法,其特征在于,所述第一阈值为至少1.14,所述第二阈值为0.85。
23.根据权利要求16所述的方法,其特征在于,所述第一阈值为至少1.15,所述第二阈值不超过0.9。
24.根据权利要求16所述的方法,其特征在于,步骤(4-3)中,进一步包括,所述平均深度比位于预定区间范围内,是所述男性待测样本为非三倍体的指示,所述预定区间范围是基于所述第一阈值和所述第二阈值确定的。
25.根据权利要求24所述的方法,其特征在于,所述预定区间范围的左端值不小于所述第二阈值,所述预定区间的右端值不高于所述第一阈值。
26.根据权利要求25所述的方法,其特征在于,所述左端值与所述第二阈值的差值以及所述右端值与所述第一阈值的差值分别独立地不小于0.02。
27.根据权利要求25所述的方法,其特征在于,所述左端值与所述第二阈值的差值以及所述右端值与所述第一阈值的差值分别独立地不小于0.03。
28.一种确定男性待测样本是否存在三倍体的系统,其特征在于,包括:
比对装置,所述比对装置用于将来自于所述男性待测样本的测序结果与参照序列进行比对,所述测序结果由多个测序序列构成;
平均测序深度确定装置,所述平均测序深度确定装置与所述比对装置相连,用于基于比对装置所获得的比对结果,确定预定染色体的平均测序深度,所述预定染色体包括Y染色体和至少一条常染色体;
DRi确定装置,所述DRi确定装置与所述平均测序深度确定装置相连,用于针对所述至少一条常染色体的每一条,确定所述常染色体平均测序深度与Y染色体的平均测序深度的比例,记为DRi,其中,i表示染色体编号;以及
判定装置,所述判定装置与所述DRi确定装置相连,用于基于DRi确定装置中获得的DRi,确定所述男性待测样本是否存在所述三倍体;
其中,所述平均测序深度是按照下列公式确定的:
Di表示第i号染色体的平均深度,i为1~24范围内的至少一个整数;Ri表示能够与第i染色体的参照序列比对上的所述测序序列的序列数;R_len表示所述多个测序序列的平均序列长度;C_leni表示所述参照序列中第i号染色体的长度;
其中,待测样本的常染色体与Y染色体的平均测序深度比是按照公式DRi=Di/D24确定的,其中Di(i=1,2,3,……,22)表示所述预定染色体中所述至少一条常染色体的平测序均深度,D24表示Y染色体的平均测序深度;
其中,所述判定装置进一步包括:
DDRi确定单元,所述DDRi确定单元用于针对所述预定染色体中所述至少一条常染色体的每一条,确定所述常染色体的DRi与参考深度比的比值DDRi;
确定单元,所述确定单元与所述DDRi确定单元相连,用于基于DDRi确定单元中获得的DDRi,确定所述预定染色体中所述至少一条常染色体的平均深度比/>
判定单元,所述判定单元与所述确定单元相连,用于基于/>确定单元中获得的将所述平均深度比/>与阈值比较,确定所述男性待测样本中是否存在所述三倍体。
29.根据权利要求28所述的系统,其特征在于,所述三倍体为XXY或者XYY。
30.根据权利要求28所述的系统,其特征在于,所述测序结果来自低深度测序。
31.根据权利要求28所述的系统,其特征在于,所述待测样本来自流产组织。
32.根据权利要求28所述的系统,其特征在于,所述预定染色体包括至少2条常染色体。
33.根据权利要求28所述的系统,其特征在于,所述预定染色体包括至少10条常染色体。
34.根据权利要求28所述的系统,其特征在于,所述预定染色体包括至少22条常染色体。
35.根据权利要求28所述的系统,其特征在于,所述参考深度比是预先基于多个具有已知三倍体状态的对照样本确定的。
36.根据权利要求35所述的系统,其特征在于,所述对照样本针对性染色体,不具有三倍体。
37.根据权利要求35所述的系统,其特征在于,所述参考深度比是预先基于至少100个具有已知三倍体状态的对照样本确定的。
38.根据权利要求35所述的系统,其特征在于,所述参考深度比是预先基于1000个具有已知三倍体状态的对照样本确定的。
39.根据权利要求35所述的系统,其特征在于,所述参考深度比是基于公式确定的,
其中,
n为所述对照样本的数目;
DR’i为(i=1,2,3…22),表示每一个对照样本的第i号常染色体与Y染色体的平均测序深度比,
为第i号染色体的参考深度比。
40.根据权利要求28所述的系统,其特征在于,所述比值DDRi是按照公式确定的。
41.根据权利要求28所述的系统,其特征在于,所述预定染色体中所述至少一条常染色体的平均深度比是按照公式/>确定的。
42.根据权利要求41所述的系统,其特征在于,所述预定染色体包括Y染色体和全部常染色体,并且所述全部常染色体的平均深度比是按照公式/>确定的。
43.根据权利要求28所述的系统,其特征在于,所述平均深度比不低于第一阈值是所述男性待测样本为XXY三倍体的指示,所述平均深度比/>不超过第二阈值是所述男性待测样本为XYY三倍体的指示。
44.根据权利要求43所述的系统,其特征在于,所述第一阈值和所述第二阈值是基于多个已知三倍体类型的参考样本确定的。
45.根据权利要求44所述的系统,其特征在于,所述第一阈值和所述第二阈值是基于100~10000件已知三倍体类型的参考样本确定的。
46.根据权利要求45所述的系统,其特征在于,所述第一阈值为至少1.15,所述第二阈值为0.88。
47.根据权利要求45所述的系统,其特征在于,所述第一阈值为至少1.14,所述第二阈值为0.88。
48.根据权利要求45所述的系统,其特征在于,所述第一阈值为至少1.15,所述第二阈值为0.85。
49.根据权利要求45所述的系统,其特征在于,所述第一阈值为至少1.14,所述第二阈值为0.85。
50.根据权利要求45所述的系统,其特征在于,所述第一阈值为至少1.15,所述第二阈值不超过0.9。
51.根据权利要求28所述的系统,其特征在于,所述判定单元进一步适于执行以下操作,所述平均深度比位于预定区间范围内,是所述男性待测样本为非三倍体的指示,所述预定区间范围是基于所述第一阈值和所述第二阈值确定的。
52.根据权利要求51所述的系统,其特征在于,所述预定区间范围的左端值不小于所述第二阈值,所述预定区间的右端值不高于所述第一阈值。
53.根据权利要求52所述的系统,其特征在于,所述左端值与所述第二阈值的差值以及所述右端值与所述第一阈值的差值分别独立地不小于0.02。
54.根据权利要求52所述的系统,其特征在于,所述左端值与所述第二阈值的差值以及所述右端值与所述第一阈值的差值分别独立地不小于0.03。
55.一种计算机可读介质,其特征在于,所述计算机可读介质中存储有指令,所述指令被适于处理执行权利要求1~27任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/089328 WO2019227420A1 (zh) | 2018-05-31 | 2018-05-31 | 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111373054A CN111373054A (zh) | 2020-07-03 |
CN111373054B true CN111373054B (zh) | 2024-06-25 |
Family
ID=68697709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880056925.4A Active CN111373054B (zh) | 2018-05-31 | 2018-05-31 | 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111373054B (zh) |
WO (1) | WO2019227420A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113081B (zh) * | 2020-08-31 | 2021-12-14 | 东莞博奥木华基因科技有限公司 | 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105765076A (zh) * | 2013-12-17 | 2016-07-13 | 深圳华大基因股份有限公司 | 一种染色体非整倍性检测方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080070792A1 (en) * | 2006-06-14 | 2008-03-20 | Roland Stoughton | Use of highly parallel snp genotyping for fetal diagnosis |
US20100112590A1 (en) * | 2007-07-23 | 2010-05-06 | The Chinese University Of Hong Kong | Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment |
MY172864A (en) * | 2011-06-29 | 2019-12-13 | Bgi Shenzhen Co Ltd | Noninvasive detection of fetal genetic abnormality |
CN104120181B (zh) * | 2011-06-29 | 2017-06-09 | 深圳华大基因股份有限公司 | 对染色体测序结果进行gc校正的方法及装置 |
EP2728014B1 (en) * | 2012-10-31 | 2015-10-07 | Genesupport SA | Non-invasive method for detecting a fetal chromosomal aneuploidy |
JP6426162B2 (ja) * | 2013-06-13 | 2018-11-21 | アリオサ ダイアグノスティックス インコーポレイテッドAriosa Diagnostics,Inc. | 非侵襲的に胎児の性染色体異数性のリスクを計算する方法 |
CN106029899B (zh) * | 2013-09-30 | 2021-08-03 | 深圳华大基因股份有限公司 | 确定染色体预定区域中snp信息的方法、系统和计算机可读介质 |
CN104156631B (zh) * | 2014-07-14 | 2017-07-18 | 天津华大基因科技有限公司 | 染色体三倍体检验方法 |
CN105825076B (zh) * | 2015-01-08 | 2018-12-14 | 杭州天译基因科技有限公司 | 消除常染色体内和染色体间gc偏好的方法及检测系统 |
CN104789686B (zh) * | 2015-05-06 | 2018-09-07 | 浙江安诺优达生物科技有限公司 | 检测染色体非整倍性的试剂盒和装置 |
PT3283647T (pt) * | 2016-06-23 | 2019-02-11 | Trisomytest S R O | Método para determinação pré-natal não invasiva de aneuploidias cromossómicas do feto a partir de sangue materno |
-
2018
- 2018-05-31 WO PCT/CN2018/089328 patent/WO2019227420A1/zh active Application Filing
- 2018-05-31 CN CN201880056925.4A patent/CN111373054B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105765076A (zh) * | 2013-12-17 | 2016-07-13 | 深圳华大基因股份有限公司 | 一种染色体非整倍性检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019227420A1 (zh) | 2019-12-05 |
CN111373054A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031100B2 (en) | Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer | |
AU2022200046B2 (en) | Maternal plasma transcriptome analysis by massively parallel RNA sequencing | |
EP2561103B1 (en) | Noninvasive detection of fetal genetic abnormality | |
US20220106642A1 (en) | Multiplexed Parallel Analysis Of Targeted Genomic Regions For Non-Invasive Prenatal Testing | |
US20230304084A1 (en) | Method for quantifying the amount of a target sequence in a sample | |
CN111373054B (zh) | 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质 | |
TWI489305B (zh) | 對胎兒遺傳異常的無創性檢測 | |
Salsi et al. | A human pan-genomic analysis provides insights into the genetic and epigenetic make up of facioscapulohumeral muscular dystrophy | |
TWI564742B (zh) | Methods for determining the aneuploidy of fetal chromosomes, systems and computer-readable media | |
WO2014153755A1 (zh) | 确定胎儿染色体非整倍性的方法、系统和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |