CN111276184B - 一种检测已知拷贝数变异的方法及检测装置 - Google Patents
一种检测已知拷贝数变异的方法及检测装置 Download PDFInfo
- Publication number
- CN111276184B CN111276184B CN202010015325.2A CN202010015325A CN111276184B CN 111276184 B CN111276184 B CN 111276184B CN 202010015325 A CN202010015325 A CN 202010015325A CN 111276184 B CN111276184 B CN 111276184B
- Authority
- CN
- China
- Prior art keywords
- sample
- depth
- detected
- copy number
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 105
- 239000000523 sample Substances 0.000 claims abstract description 88
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 40
- 239000013074 reference sample Substances 0.000 claims abstract description 32
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 14
- 108090000623 proteins and genes Proteins 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 abstract description 14
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 238000012937 correction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 208000002903 Thalassemia Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 206010003883 azoospermia Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006801 homologous recombination Effects 0.000 description 2
- 238000002744 homologous recombination Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 201000006288 alpha thalassemia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 101150036080 at gene Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例公开了一种检测已知拷贝数变异的方法及检测装置,以及计算机可读存储介质,用于在已知拷贝数变异信息的情况下,准确识别测序样本中这些变异的携带种类以及组合情况。本发明实施例方法包括:获取待检测样本的全基因组测序数据;根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
Description
技术领域
本发明涉及地中海贫血病领域,尤其涉及一种检测已知拷贝数变异的方法及检测装置,以及计算机可读存储介质。
背景技术
很多疾病,如地中海贫血病(thalassemia)、男性无精症(Azoospermia)等的发生和拷贝数变异直接相关。因此,拷贝数变异在临产检测中有十分重要的意义;全基因组测序(Whole Genome Sequencing,WGS)能一次检查全基因组上的所有序列,随着基于第二代脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)测序技术(简称为二代测序)的全基因组检测价格的不断下降,很多临床指南与专家共识中都推荐使用这种手段作为一种疾病筛查手段。而随着全基因组测序的应用会越发普遍,全基因组数据的有效利用也将会变成一个越加凸显的问题。
然而,针对怎么利用全基因组测序数据检测基因水平的致病拷贝数变异,目前的检测手段依然存在不足,尤其是对于第二代DNA测序技术的方法,较短的读长为同源序列的定位造成了较大的困难,而第三代DNA测序技术的方法目前还没能得到大规模的应用。
目前常用的拷贝数变异检测方法可以包括:基于深度的方法(read-depth),基于断裂读段的方法(split-reads),基于读段对位置的方法(Paired-end)和基于组装的方法(assembly)。其中,read-depth虽然对断点位置的检测精度低,但能检测出由同源重组产生的拷贝数变异。Split-reads,Paired-end的方法虽然检测断点位置的精度较高,但不能检测同源重组产生的没有明确断点的变异,且对具体拷贝数的识别能力较弱。Assembly理论上是检测效果较为理想的计算方法,但由于要求测序深度较高,开销较为昂贵。
基于目前的工具,在检测基因水平的致病拷贝数变异时,尤其是存在同源区域时,效果往往不佳,难以直接应用于临床疾病的筛查和诊断。
发明内容
本发明实施例提供了一种检测已知拷贝数变异的方法及检测装置,以及计算机可读存储介质,用于在已知拷贝数变异信息的情况下,准确识别测序样本中这些变异的携带种类以及组合情况。即使在测序读长较短、检测区域存在同源序列这两种对传统拷贝数变异检测不利的条件下,本方法仍能获得较好的检测效果。这使得本方法可以临床的使用场景下,帮助更好的利用WGS数据进行疾病相关拷贝数变异的检测。
有鉴于此,本发明第一方面提供一种检测已知拷贝数变异的方法,可以包括:
获取待检测样本的全基因组测序数据;
根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;
根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;
从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
可选的,在本发明的一些实施例中,所述方法还包括:
获取基因型的拷贝数变异信息;
根据所述基因型的拷贝数变异信息,建立所述N个参考样本。
可选的,在本发明的一些实施例中,所述拷贝数变异信息包括:拷贝数变异位置和拷贝数变异类型;
所述根据所述基因型的拷贝数变异信息,建立所述N个参考样本,包括:
根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;
计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
可选的,在本发明的一些实施例中,所述根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,包括:
对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;
根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,所述方法还包括:
格式化输出所述待检测样本的推测基因型结果。
本发明第二方面提供一种检测装置,可以包括:
获取模块,用于获取待检测样本的全基因组测序数据;
处理模块,用于根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
可选的,在本发明的一些实施例中,
所述获取模块,还用于获取基因型的拷贝数变异信息;
所述处理模块,还用于根据所述基因型的拷贝数变异信息,建立所述N个参考样本。
可选的,在本发明的一些实施例中,
所述处理模块,具体用于根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
可选的,在本发明的一些实施例中,
所述处理模块,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,
所述处理模块,还用于格式化输出所述待检测样本的推测基因型结果。
本发明第三方面提供一种终端设备,可以包括:
收发器,处理器,存储器,其中,所述收发器,所述处理器和所述存储器通过总线连接;
所述存储器,用于存储操作指令;
所述收发器,用于获取待检测样本的全基因组测序数据;
所述处理器,用于调用所述操作指令,根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
本发明第四方面提供一种终端设备,可以包括本发明第二方面或者第三方面提供的检测装置。
本申请实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。需要说明的是,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的全部或部分可以以软件产口的形式体现出来,所述计算机软件产品存储在一个存储介质中,用于储存为上述设备所用的计算机软件指令,其包含用于执行上述第一方面为检测装置或者终端设备所设计的程序。
所述存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例第六方面提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如本申请第一方面或第一方面任一可能实现方式中所述的检测已知拷贝数变异的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,获取待检测样本的全基因组测序数据;根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。在已知拷贝数变异信息的情况下,准确识别测序样本中这些变异的携带种类以及组合情况。即使在测序读长较短、检测区域存在同源序列这两种对传统拷贝数变异检测不利的条件下,本方法仍能获得较好的检测效果。这使得本方法可以临床的使用场景下,帮助更好的利用WGS数据进行疾病相关拷贝数变异的检测。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,还可以根据这些附图获得其它的附图。
图1为本发明实施例中检测已知拷贝数变异的方法的一个实施例示意图;
图2为本发明实施例中检测装置的一个实施例示意图;
图3为本发明实施例中检测装置的另一个实施例示意图。
具体实施方式
本发明实施例提供了一种检测已知拷贝数变异的方法及检测装置,以及计算机可读存储介质,用于在已知拷贝数变异信息的情况下,准确识别测序样本中这些变异的携带种类以及组合情况。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,都应当属于本发明保护的范围。
在现有技术中,拷贝数变异检测这些方法大部分没有利用已知的拷贝数变异信息辅助检测,而已知的拷贝数变异信息的加入,则可能帮助增加检测的准确性。
并且对于许多的临床应用场景和面向消费者的基因检测(Direct To Consumer,DTC)应用场景,筛查明确的已知的拷贝数变异是重要的任务。事实上,对于携带率较高的疾病,主要的几种变异常常覆盖大多数携带者的情况(比如在中国南方地区,主要的4种拷贝数变异解释了99.7%的由拷贝数变异引起的alpha地中海贫血致病)。
本发明提出了一种基于已知基因拷贝数变异(copy number variants,CNV)信息的方法,可以包括:(1)根据已知的拷贝数变异信息,建立参考文件;(2)输入待测样本的全基因组测序数据;(3)计算待测样本在目标检测区域各位点的当前深度,还可以进行碱基-深度校正(GC校正);(4)计算待测样本为参考文件的似然值,以最大似然值的参考样本的基因型组合,作为待测样本的推测基因型结果。
即在已知常见的拷贝数变异信息的情况下,准确识别测序样本中这些变异的携带种类以及组合情况。即使在测序读长较短、检测区域存在同源序列这两种对传统拷贝数变异检测不利的条件下,使用本发明技术方案仍能获得较好的检测效果。这使得本方法可以临床的使用场景下,帮助更好的利用全基因组测序(whole genome sequencing,WGS)数据进行疾病相关CNV变异的检测。
下面以实施例的方式,对本发明技术方案做进一步的说明。如图1所示,为本发明实施例中检测已知拷贝数变异的方法的一个实施例示意图,可以包括:
101、获取基因型的拷贝数变异信息。
检测装置获取基因型的拷贝数变异信息。其中,拷贝数变异信息可以包括:拷贝数变异位置和拷贝数变异类型。
示例性的,拷贝数变异信息可以包括但不限于:疾病CNV信息和常见CNV信息;其中,疾病CNV会导致生病,常见CNV一般不会导致生病。
检测装置获取基因型的拷贝数变异信息,可以包括但不限于以下的实现方式:
实现方式一:检测装置向云端服务器或者电子设备发送第一获取指令,所述第一获取指令用于所述云端服务器或者所述电子设备发送基因型的拷贝数变异信息;检测装置接收所述云端服务器或者所述电子设备发送的基因型的拷贝数变异信息;
或者,
实现方式二:检测装置接收云端服务器或者电子设备发送的基因型的拷贝数变异信息;
或者,
实现方式三:检测装置接收用户输入的关于基因型的拷贝数变异信息。
102、根据所述基因型的拷贝数变异信息,建立所述N个参考样本。
检测装置根据所述基因型的拷贝数变异信息,建立所述N个参考样本,可以包括:检测装置根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;检测装置计算每种参考基因组合所在区域各位点的参考深度(简称参考深度),生成所述N个参考样本。
示例性的,建立N个参考样本可以如下所示:
(1)收集权威数据库、文献中,各个检测区域已知的拷贝数变异信息,拷贝数变异信息包括变异位置和变异类型。
(2)根据搜集到变异位置及变异类型信息,编辑参考基因组合对应的序列。
(3)根据每一种编辑好的参考基因组合对应的序列,生成深度均匀的读段。并根据需要,可将变异相互组合,用以模拟各种纯合和杂合的情况,可得到N种参考基因组合。
(4)计算每一种变异匹配的参考基因组合的目标检测区域的各参考位点背景深度,生成一系列参考文件,目标检测区域上覆盖有多条读段。
需要说明的是,在本发明实施例中,步骤101和102为可选的步骤。
103、获取待检测样本的全基因组测序数据。
检测装置获取待检测样本的全基因组测序数据,可以包括但不限于以下的实现方式:
实现方式一:检测装置向云端服务器或者电子设备发送第二获取指令,所述第二获取指令用于所述云端服务器或者所述电子设备发送待检测样本的全基因组测序数据;检测装置接收所述云端服务器或者所述电子设备发送的待检测样本的全基因组测序数据;
或者,
实现方式二:检测装置接收云端服务器或者电子设备发送的待检测样本的全基因组测序数据;
或者,
实现方式三:检测装置接收用户输入的关于待检测样本的全基因组测序数据。
104、根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度。
检测装置根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度(简称当前深度)。
105、根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数。
因为参考样本包括有参考基因组合所在区域各位点的参考深度,那么,检测装置可以根据目标检测区域各位点的当前深度,以及参考基因组合所在区域各位点的参考深度,计算每个参考样本为该待检测样本时,得到的N个似然值。
检测装置根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,可以包括:检测装置对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;检测装置根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值。
示例性的,检测装置对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度,具体可以通过如下步骤实现:
(1)选定一段区域作为GC偏移的采样位置。
(2)该段区域为采样区域,计算采样区域的平均深度和平均GC含量。
(3)例如,以100bp窗口长度,50bp为滑动长度的窗口,对采样区域计算每次滑动时对应窗口的GC含量与深度,进而,再计算采样区域的平均深度。
(4)采用以下公式1,计算每一种GC含量对应的GC校正系数:
GC校正系数=采样区域平均深度/采样区域该GC含量窗口的平均深度
(公式1)
(5)例如,对目标检测区域,可以分成连续的50bp长度的窗口,以该窗口及前后,合共150bp长度的区域以平均GC含量表示该窗口的GC含量。对该50bp窗口的每一个位点,计算其GC校正深度,为该参考位点背景深度,乘以该50bp窗口GC含量对应的GC校正系数:
GC校正深度=位点深度×对应的GC校正系数 (公式2)
示例性的,检测装置根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,可以通过如下步骤实现:
(1)依次计算N个参考样本为待测样本的似然值。对与参考样本m(m属于N),取目标检测区域外的一段区域作为背景,计算其背景深度Average_depthrefm,再根据目标检测区域内单个位点的深度depthrefm,待测样本的平均深度Average_depthsample,计算该点在带有reference m的变异时,所期望该位点的深度expected_depth(sample=m)。
其中,在公式3中,expected_depth(sample=m)表示所期望的该位点的深度,depthrefm表示目标检测区域内单个位点的深度,Average_depthrefm表示取目标检测区域外的一段区域作为背景,计算得到的背景深度,Average_depthsample为待测样本的平均深度。
(2)建立以期望深度expected_depth(sample=m)为λ值的泊松分布模型。并计算实际测出的该位点的深度k在该模型下的概率P(k)。
(3)依次计算待测样本对在检测区域每一点的P(k)进行累乘,得到待测样本带有参考样本m变异的似然值L(sample=refm),如下述公式4所示:
L(sample=refm)=∏dectect_regionP(k)(公式4)
(4)以似然值最大的参考样本代表的基因型组合为待测样本的基因型结果。
MLsample=max(L(sample=ref1),...,L(sample=refm),...,L(sample=refN))(公式5)
106、从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
检测装置从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
107、格式化输出所述待检测样本的推测基因型结果。
检测装置格式化输出所述待检测样本的推测基因型结果。即检测装置格式化输出的方式为变异检出格式(Variant Call Format,VCF)。其中,VCF是一种标准的记录变异信息的文本格式。
示例性的,下面为本发明实施例中一个alpha地贫基因型结果格式化输出的展示结果:
##fileformat=VCFv4.2
##INFO=<ID=END,Number=1,Type=Integer,Description="End positionof the structural variant">
##INFO=<ID=SVMETHOD,Number=1,Type=String,Description="Type ofapproach used to detect SV">
##INFO=<ID=LEN,Number=1,Type=String,Description="Length of SV">
##INFO=<ID=VARIANT>,Number=1,Type=String,Description="Name ofVariant">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
16 215400 1-<DEL>.PASS SVTYPE=DEL;SVMETHOD=CNVar;END=234700;LEN=19300;VARIANT=SEA GT 1/1example.bam
需要说明的是,在本发明实施例中,步骤107为可选的步骤。
本发明实施例能利用已有的拷贝数变异信息,增加常见且明确有害的复杂拷贝数变异的检测准确性,与分析效率,促进二代测序在医疗健康领域的应用。还可以对与传统方法较难分析的在较短读长的情况下,基因组同源区域,本方法仍能获得较好的分型效果。
在本发明实施例中,获取待检测样本的全基因组测序数据;根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。在已知拷贝数变异信息的情况下,准确识别测序样本中这些变异的携带种类以及组合情况。即使在测序读长较短、检测区域存在同源序列这两种对传统拷贝数变异检测不利的条件下,本方法仍能获得较好的检测效果。这使得本方法可以临床的使用场景下,帮助更好的利用WGS数据进行疾病相关CNV变异的检测。
如图2所示,为本发明实施例中检测装置的一个实施例示意图,可以包括:
获取模块201,用于获取待检测样本的全基因组测序数据;
处理模块202,用于根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
可选的,在本发明的一些实施例中,
获取模块201,还用于获取基因型的拷贝数变异信息;
处理模块202,还用于根据所述基因型的拷贝数变异信息,建立所述N个参考样本。
可选的,在本发明的一些实施例中,
处理模块202,具体用于根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
可选的,在本发明的一些实施例中,
处理模块202,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,
处理模块202,还用于格式化输出所述待检测样本的推测基因型结果。
如图3所示,为本发明实施例中检测装置的另一个实施例示意图,可以包括:
收发器301,处理器302,存储器303,其中,收发器301,处理器302和存储器303通过总线连接;
存储器303,用于存储操作指令;
收发器301,用于获取待检测样本的全基因组测序数据;
处理器302,用于调用所述操作指令,根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果。
可选的,在本发明的一些实施例中,
收发器301,还用于获取基因型的拷贝数变异信息;
处理器302,还用于根据所述基因型的拷贝数变异信息,建立所述N个参考样本。
可选的,在本发明的一些实施例中,
处理器302,具体用于根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
可选的,在本发明的一些实施例中,
处理器302,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,
处理器302,还用于格式化输出所述待检测样本的推测基因型结果。
可选的,本发明实施例还提供一种终端设备,还终端设备可以包括上述图2或者图3所示的检测装置。
在本发明实施例中,示例性的,终端设备可以包括一般的手持电子终端,诸如智能电话、便携式终端、终端、个人数字助理(Personal Digital Assistant,PDA)、便携式多媒体播放器(Personal Media Player,PMP)装置、笔记本电脑、笔记本(Note Pad)、无线宽带(Wireless Broadband,Wibro)终端、平板电脑(personal computer,PC)和智能PC。本申请还可应用于非便携式电子装置,诸如提供相机功能的智能电视。
终端设备也可以包括可穿戴设备。可穿戴设备即可以直接穿戴在用户身上,或是整合到用户的衣服或配件的一种便携式电子设备。可穿戴设备不仅仅是一种硬件设备,更可以通过软件支持以及数据交互、云端交互来实现强大的智能功能,比如:计算功能、定位功能、报警功能,同时还可以连接手机及各类终端。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种检测已知拷贝数变异的方法,其特征在于,包括:
获取待检测样本的全基因组测序数据;
根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;
根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;
从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果;
所述根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,包括:
对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;
根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值;
其中,对于参考样本m,m属于N,取所述目标检测区域外一段区域作为背景并计算背景深度,再依次根据所述目标检测区域内单个位点的深度、所述待检测样本的平均深度和背景深度计算所述单个位点带有参考样本m变异时的期望深度,建立所述期望深度为λ值的泊松分布模型并计算所述单个位点的深度k在所述泊松分布模型下的概率;将所有单个位点的概率累乘得到所述待检测样本带有参考样本m变异的似然值;
所述方法还包括:
获取基因型的拷贝数变异信息;
根据所述基因型的拷贝数变异信息,建立所述N个参考样本;
所述拷贝数变异信息包括:拷贝数变异位置和拷贝数变异类型;
所述根据所述基因型的拷贝数变异信息,建立所述N个参考样本,包括:
根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;
计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
格式化输出所述待检测样本的推测基因型结果。
3.一种检测装置,其特征在于,包括:
获取模块,用于获取待检测样本的全基因组测序数据;
处理模块,用于根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本时,得到的N个似然值,所述N个参考样本包括参考基因型组合所在区域各位点的参考深度,N为正整数;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的推测基因型结果;
所述处理模块,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算每个参考样本为所述待检测样本的似然值,得到的N个似然值;其中,对于参考样本m,m属于N,取所述目标检测区域外一段区域作为背景并计算背景深度,再依次根据所述目标检测区域内单个位点的深度、所述待检测样本的平均深度和背景深度计算所述单个位点带有参考样本m变异时的期望深度,建立所述期望深度为λ值的泊松分布模型并计算所述单个位点的深度k在所述泊松分布模型下的概率;将所有单个位点的概率累乘得到所述待检测样本带有参考样本m变异的似然值;
所述获取模块,还用于获取基因型的拷贝数变异信息;
所述处理模块,还用于根据所述基因型的拷贝数变异信息,建立所述N个参考样本;
其中,所述处理模块,具体用于根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
4.根据权利要求3所述的检测装置,其特征在于,
所述处理模块,还用于格式化输出所述待检测样本的推测基因型结果。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1或2所述的检测已知拷贝数变异的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010015325.2A CN111276184B (zh) | 2020-01-07 | 2020-01-07 | 一种检测已知拷贝数变异的方法及检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010015325.2A CN111276184B (zh) | 2020-01-07 | 2020-01-07 | 一种检测已知拷贝数变异的方法及检测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111276184A CN111276184A (zh) | 2020-06-12 |
CN111276184B true CN111276184B (zh) | 2023-12-26 |
Family
ID=70998803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010015325.2A Active CN111276184B (zh) | 2020-01-07 | 2020-01-07 | 一种检测已知拷贝数变异的方法及检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111276184B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539357B (zh) * | 2021-06-10 | 2024-04-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 基因检测方法、模型训练方法、装置、设备及系统 |
CN113823353B (zh) * | 2021-08-12 | 2024-02-09 | 上海厦维医学检验实验室有限公司 | 基因拷贝数扩增检测方法、装置及可读介质 |
CN117976059B (zh) * | 2024-04-02 | 2024-06-21 | 苏州贝康医疗器械有限公司 | 检测α-珠蛋白基因型的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107208156A (zh) * | 2015-02-09 | 2017-09-26 | 10X基因组学有限公司 | 用于使用变异识别数据来确定结构变异和定相的系统和方法 |
CN107810502A (zh) * | 2015-05-18 | 2018-03-16 | 瑞泽恩制药公司 | 用于拷贝数变异检测的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130316915A1 (en) * | 2010-10-13 | 2013-11-28 | Aaron Halpern | Methods for determining absolute genome-wide copy number variations of complex tumors |
US20160300013A1 (en) * | 2015-04-10 | 2016-10-13 | Agilent Technologies, Inc. | METHOD FOR SIMULTANEOUS DETECTION OF GENOME-WIDE COPY NUMBER CHANGES, cnLOH, INDELS, AND GENE MUTATIONS |
-
2020
- 2020-01-07 CN CN202010015325.2A patent/CN111276184B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107208156A (zh) * | 2015-02-09 | 2017-09-26 | 10X基因组学有限公司 | 用于使用变异识别数据来确定结构变异和定相的系统和方法 |
CN107810502A (zh) * | 2015-05-18 | 2018-03-16 | 瑞泽恩制药公司 | 用于拷贝数变异检测的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111276184A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111276184B (zh) | 一种检测已知拷贝数变异的方法及检测装置 | |
Milanese et al. | Microbial abundance, activity and population genomic profiling with mOTUs2 | |
Gruber-Vodicka et al. | phyloFlash: rapid small-subunit rRNA profiling and targeted assembly from metagenomes | |
Wick et al. | Performance of neural network basecalling tools for Oxford Nanopore sequencing | |
US11702708B2 (en) | Systems and methods for analyzing viral nucleic acids | |
Bushnell et al. | BBMerge–accurate paired shotgun read merging via overlap | |
Latorre-Pérez et al. | Assembly methods for nanopore-based metagenomic sequencing: a comparative study | |
Jeffares et al. | A beginners guide to estimating the non-synonymous to synonymous rate ratio of all protein-coding genes in a genome | |
Iwasaki et al. | MitoFish and MitoAnnotator: a mitochondrial genome database of fish with an accurate and automatic annotation pipeline | |
Li | Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences | |
Lee et al. | DUDE-Seq: fast, flexible, and robust denoising for targeted amplicon sequencing | |
DeJesus et al. | TRANSIT-a software tool for Himar1 TnSeq analysis | |
Ronen et al. | SEQuel: improving the accuracy of genome assemblies | |
Moreton et al. | Assembly, assessment, and availability of de novo generated eukaryotic transcriptomes | |
Brynildsrud et al. | CNOGpro: detection and quantification of CNVs in prokaryotic whole-genome sequencing data | |
Akers et al. | STAR Chimeric Post for rapid detection of circular RNA and fusion transcripts | |
US20130013213A1 (en) | Methods and apparatus for identification of disease associated mutations | |
Kremer et al. | Approaches for in silico finishing of microbial genome sequences | |
Jia et al. | Thousands of missing variants in the UK Biobank are recoverable by genome realignment | |
Fischer-Hwang et al. | Denoising of aligned genomic data | |
Corneli et al. | Mitochondrial genes and mammalian phylogenies: increasing the reliability of branch length estimation | |
Caraballo-Ortiz et al. | TopHap: rapid inference of key phylogenetic structures from common haplotypes in large genome collections with limited diversity | |
Chen et al. | Accounting for errors in data improves divergence time estimates in single-cell cancer evolution | |
Aledo | Phylogenies from unaligned proteomes using sequence environments of amino acid residues | |
CN111326211B (zh) | 一种检测地中海贫血基因变异的方法及检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |