CN114242164B - 一种全基因组复制的分析方法、装置和存储介质 - Google Patents
一种全基因组复制的分析方法、装置和存储介质 Download PDFInfo
- Publication number
- CN114242164B CN114242164B CN202111572507.0A CN202111572507A CN114242164B CN 114242164 B CN114242164 B CN 114242164B CN 202111572507 A CN202111572507 A CN 202111572507A CN 114242164 B CN114242164 B CN 114242164B
- Authority
- CN
- China
- Prior art keywords
- peak
- whole genome
- sample
- segments
- density distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种全基因组复制的分析方法、装置和存储介质。本申请方法包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,根据拷贝数变异信息中的segments片段绘制segments片段密度分布图,对segments片段密度分布图显示的峰进行判断,最后根据segments片段的极差和segments片段密度分布图的峰值个数判断待测样本是否发生全基因组复制。本申请方法,通过对segments片段密度分布图中特殊峰进行处理,及峰值判断规则制定,综合峰值个数与片段极差,能准确有效的实现通过低深度全基因组测序判断全基因组复制情况,填补了目前无法通过低深度全基因组测序判断全基因组复制的空白。
Description
技术领域
本申请涉及全基因组复制判断技术领域,特别是涉及一种全基因组复制的分析方法、装置和存储介质。
背景技术
拷贝数变异是指大片段DNA序列拷贝数的增加或者减少,是一种非常重要的基因组结构变异,包含大量的基因遗传信息,在人类遗传病、肿瘤及罕见病等复杂疾病中扮演重要的角色。基于全基因组测序的方法检测DNA拷贝数变异是一种重要途径。新一代测序技术因通量高速度快的特点成为基因组变异的主要分析平台,但其成本随着测序覆盖度的增加而增长。为了控制成本,在全基因组拷贝数变异分析中常使用低覆盖度测序数据。
全基因组复制(whole genome duplication,WGD),又称多倍体化,是指生物体细胞的整个基因组加倍,从而获得一套或多套额外的染色体的现象。有研究表明,全基因组复制在癌症的进展过程中非常常见,是最常见的事件之一,而该现象会导致染色体不稳定性,与各种癌症类型的不良预后相关。因此在癌症的研究过程中,判断样本是否发生WGD很有必要。
当前,越来越多的方法和软件针对样本是否发生WGD进行判断,比如有利用目标物种在基因集上的蛋白质序列进行WGD的检测;华大基因的基于密度聚类算法以及迈杰公司的ddNoise算法用于WGD校正。这些技术需要使用蛋白质序列数据,或者是使用全外显子测序数据,以及高深度全基因组测序(Whole Genome Sequencing,WGS)数据。到目前为止,都没有一种方法或者软件适用于人类低深度WGS情况下样本的WGD判断。
低深度全基因组测序具有成本相对较低的优点,如何利用低深度全基因组测序数据实现全基因组复制判断是目前亟待解决的问题。
发明内容
本申请的目的是提供一种新的全基因组复制的分析方法、装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种全基因组复制的分析方法,包括以下步骤:
拷贝数变异信息获取步骤,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息;其中,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;
过滤步骤,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;
全基因组复制初步判断步骤,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;
拷贝数片段信息密度分布图绘制步骤,包括根据segments片段绘制segments片段密度分布图;
密度分布图峰值个数判断步骤,包括对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;
全基因组复制判断步骤,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
需要说明的是,本申请的全基因组复制分析方法,采用低深度全基因组测序数据的拷贝数变异信息,根据segments片段的极差和segments片段密度分布图的峰值的个数对待测样本的全基因组复制情况进行判断。并且,本申请的分析方法,通过密度分布图中峰的规则判断与制定,特殊情况峰的判断与处理等,能够准确判断低深度WGS数据的WGD情况。
本申请的一种实现方式中,过滤步骤的窗口长度为50kb。
需要说明的是,本申请的一种实现方式中,具体的,待测样本的低深度全基因组测序,其下机数据使用realSeq和fastp软件进行预处理,然后使用BWA-mem2和samtools软件进行基因组比对,得到压缩比对文件BAM;进一步的,使用QDNAseq软件根据BAM文件检测待测样本的拷贝数变异,得到rawTCN.tsv文件;以该rawTCN.tsv文件作为本申请分析方法判断样本是否发生WGD的输入文件。该rawTCN.tsv文件每一行为一个50kb窗口所包含的信息,包括样本名、染色体、起始位置、终止位置、拷贝数与segments片段信息。因此,过滤步骤中提到的窗口长度即50kb。可以理解,根据不同的拷贝数变异检测软件或者参数设置,具体的窗口长度可以相应的改变;但是,过滤步骤的基本原则就是过滤去除较短的染色体数据,无论窗口长度如何变化,该基本思路不变;例如,可以直接理解为过滤去除250kb以下的短片段,或者根据需求调整该过滤长度。
本申请的一种实现方式中,拷贝数变异信息获取步骤中,获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,具体包括,将待测样本的低深度全基因组测序数据比对到参考基因组上,获得比对文件,根据比对文件分析待测样本的拷贝数变异信息。
本申请的一种实现方式中,低深度全基因组测序的测序深度不超过5。
需要说明的是,低深度全基因组测序一般是指测序深度不超过5的测序,进一步的,测序深度可以不超过3。
本申请的第二方面公开了一种全基因组复制的分析装置,包括拷贝数变异信息获取模块、过滤模块、全基因组复制初步判断模块、拷贝数片段信息密度分布图绘制模块、密度分布图峰值个数判断模块和全基因组复制判断模块;
拷贝数变异信息获取模块,包括用于获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;
过滤模块,包括用于过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;
全基因组复制初步判断模块,包括用于计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;
拷贝数片段信息密度分布图绘制模块,包括用于根据segments片段绘制segments片段密度分布图;
密度分布图峰值个数判断模块,包括用于对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;
全基因组复制判断模块,包括用于根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
需要说明的是,本申请的全基因组复制的分析装置,实际上就是通过各模块分别实现本申请的全基因组复制的分析方法中的各步骤;因此,各模块的具体限定可以参考本申请的全基因组复制的分析方法,在此不累述。例如,窗口长度,拷贝数变异信息的获取,低深度全基因组测序的测序深度等,都可以参考本申请的全基因组复制的分析方法。
本申请的第三方面公开了一种分析全基因组复制的装置,该装置包括存储器和处理器;存储器包括用于存储程序;处理器包括用于通过执行存储器存储的程序以实现本申请的全基因组复制的分析方法。
本申请的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的全基因组复制的分析方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请的全基因组复制的分析方法,通过对segments片段密度分布图中特殊峰进行处理,以及峰值判断规则的制定,综合峰值个数与片段极差情况判断待测样本的全基因组复制情况;能够准确有效的实现通过低深度全基因组测序判断全基因组复制情况;填补了目前无法通过低深度全基因组测序判断全基因组复制的空白。
附图说明
图1是本申请实施例中全基因组复制评估方法的流程框图;
图2是本申请实施例中全基因组复制评估装置的结构框图;
图3是本申请实施例中卵巢癌二倍体样本的片段信息密度分布图;
图4是本申请实施例中卵巢癌二倍体样本的总体CNV情况图;
图5是本申请实施例中卵巢癌四倍体样本的片段信息密度分布图;
图6是本申请实施例中卵巢癌四倍体样本的总体CNV情况图;
图7是本申请实施例中倍性标准品中二倍体标准品样本的片段信息密度分布图;
图8是本申请实施例中倍性标准品中二倍体标准品样本的总体CNV情况图;
图9是本申请实施例中倍性标准品中四倍体标准品样本的片段信息密度分布图;
图10是本申请实施例中倍性标准品中四倍体标准品样本的总体CNV情况图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他装置、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
目前为止,尚未有一种方法或者软件适用于人类低深度WGS情况下样本的WGD判断。本发明独创性地提出了基于低深度WGS数据判断样本是否发生WGD的方法,该方法的基本思路如下:提取样本中拷贝数片段信息;绘制拷贝数片段信息的密度分布图;通过拷贝数片段信息的极差情况判断样本是否发生WGD;进一步的,对密度分布图中峰制定判断规则;对特殊情况峰进行判断和处理;最后,综合峰值个数与片段信息极差情况判断样本是否发生WGD。该方法能准确判断低深度WGS数据的WGD情况。
基于以上思路,本申请创造性的提出了一种全基因组复制的分析方法,如图1所示,包括拷贝数变异信息获取步骤11、过滤步骤12、全基因组复制初步判断步骤13、拷贝数片段信息密度分布图绘制步骤14、密度分布图峰值个数判断步骤15和全基因组复制判断步骤16。
其中,拷贝数变异信息获取步骤11,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息;其中,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息。
本申请的一种实现方式中,待测样本进行低深度全基因组测序,例如测序深度为5;下机数据使用realSeq和fastp软件进行预处理;使用BWA-mem2和samtools软件进行基因组比对,参考基因组为hg19,得到压缩比对文件BAM;使用QDNAseq软件,根据BAM文件检测样本的拷贝数变异,得到rawTCN.tsv文件;该rawTCN.tsv文件作为判断待测样本是否发生WGD的输入文件。该rawTCN.tsv文件每一行为一个50kb窗口所包含的信息,包括样本名、染色体、起始位置、终止位置、拷贝数与片段信息(segments)。
过滤步骤12,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析。其中,窗口长度即50kb。
全基因组复制初步判断步骤13,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析。
拷贝数片段信息密度分布图绘制步骤14,包括根据segments片段绘制segments片段密度分布图。
本申请的一种实现方式中,具体的,整理样本的拷贝数片段信息,使用R包ggplot2绘制片段信息密度分布图,用于辅助判断样本的片段信息分布情况,同时从整体水平观察样本的峰值情形。
密度分布图峰值个数判断步骤15,包括对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰。
需要说明的是,拷贝数片段信息的密度公布图显示峰的形态各异,但是总体上分为两类。一类是仅有两个峰但是峰很挺拔;另一类是有多个峰,但是峰相对较宽。对于这两类峰,限制峰值大于最大峰值高度的15%就可以明显区分峰值个数。对于形状比较特殊的峰,使用上述规则会使部分峰多计数。比如在一个峰的上方出现了小凹槽,或者在一个峰的左侧或右侧出现一个小凸起。这种情况的峰都只算作一个峰。因此,本申请特别制定了峰的判断规则和特殊峰的处理方案,使得全基因组复制的判断更准确。
全基因组复制判断步骤16,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的全基因组复制的分析方法,本申请提出了一种全基因组复制的分析装置,如图2所示,包括拷贝数变异信息获取模块21、过滤模块22、全基因组复制初步判断模块23、拷贝数片段信息密度分布图绘制模块24、密度分布图峰值个数判断模块25和全基因组复制判断模块26。
其中,拷贝数变异信息获取模块21,包括用于获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息。例如,参考QDNAseq软件利用BAM文件检测拷贝数变异。
过滤模块22,包括用于过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析。
全基因组复制初步判断模块23,包括用于计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析。
拷贝数片段信息密度分布图绘制模块24,包括用于根据segments片段绘制segments片段密度分布图。例如,参考R包ggplot2绘制片段信息密度分布图。
密度分布图峰值个数判断模块25,包括用于对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰。
全基因组复制判断模块26,包括用于根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
本申请的另一实现方式中还提供了一种分析全基因组复制的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:拷贝数变异信息获取步骤,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;过滤步骤,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;全基因组复制初步判断步骤,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;拷贝数片段信息密度分布图绘制步骤,包括根据segments片段绘制segments片段密度分布图;密度分布图峰值个数判断步骤,包括对segments片段密度分布图显示的峰进行判断,判断标准包括:(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;全基因组复制判断步骤,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:拷贝数变异信息获取步骤,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;过滤步骤,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;全基因组复制初步判断步骤,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;拷贝数片段信息密度分布图绘制步骤,包括根据segments片段绘制segments片段密度分布图;密度分布图峰值个数判断步骤,包括对segments片段密度分布图显示的峰进行判断,判断标准包括:(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;全基因组复制判断步骤,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
实施例
本例采用40例卵巢癌样本与6例倍性标准品样本进行试验,所有肿瘤样本由北京吉因加医学检验实验室有限公司提供。其中,40例卵巢癌样本包括24例二倍体和16例四倍体,6例倍性标准品样本包括3例二倍体和3例四倍体。
所有样本进行低深度全基因组测序,具体测序深度为5。下机数据使用realSeq和fastp软件进行预处理,然后使用BWA-mem2和samtools软件进行基因组比对,参考基因组为hg19,得到压缩比对文件BAM。
使用QDNAseq软件,根据BAM文件检测待测样本的拷贝数变异,得到rawTCN.tsv文件。利用rawTCN.tsv文件作为输入文件,进行待测样本的全基因组复制情况分析,具体如下:
(1)拷贝数变异信息获取步骤,读取rawTCN.tsv文件,该文件每一行为一个50kb窗口所包含的信息,包括样本名、染色体、起始位置、终止位置、拷贝数与片段信息(segments)。
(2)过滤步骤,如果相同片段不大于5个窗口长度,则过滤掉这些较短片段,保留较长的染色体片段用于后续分析。
(3)全基因组复制初步判断步骤,通过拷贝数片段信息的极差情况判断样本是否发生WGD,具体的,计算样本的segments片段的最大值与最小值的差值即极差,如果该值小于或等于1,则表明样本的拷贝数变异较小,不会发生WGD;如果该值大于1,则有发生WGD的可能性,需要进一步判断。
(4)拷贝数片段信息密度分布图绘制步骤,整理样本的拷贝数片段信息,使用R包ggplot2绘制片段信息密度分布图,用于辅助判断样本的片段信息分布情况,同时从整体水平观察样本的峰值情形。
拷贝数片段信息的密度公布图显示峰的形态各异,但是总体上分为两类。一类是仅有两个峰但是峰很挺拔;另一类是有多个峰,但是峰相对较宽。对于这两类峰,限制峰值大于最大峰值高度的15%就可以明显区分峰值个数。
对于形状比较特殊的峰,使用上述规则会使部分峰多计数。比如在一个峰的上方出现了小凹槽,或者在一个峰的左侧或右侧出现一个小凸起。这种情况的峰都只算作一个峰。
因此,本例进一步的制定了密度分布图峰值个数的判断规则和特殊峰的处理方案。
(5)密度分布图峰值个数判断步骤,基于前述分析,密度分布图峰值个数的判断规则为:①只有大于最大峰值15%的峰才算作峰;②如果初步判断峰值个数大于2的样本,则继续进行判断;如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰。
(6)全基因组复制判断步骤,综合峰值个数与片段信息极差情况判断样本是否发生WGD,判断样本是否发生WGD规则如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,样本不发生WGD;
b.当样本segments片段极差大于1,且峰值个数大于等于3时,样本发生WGD;
c.当样本segments片段极差大于9,且峰值个数大于等于2时,样本发生WGD。
根据以上方法,本例对40例卵巢癌样本与6例倍性标准品样本进行检测,结果如图3至图10所示。图3为卵巢癌二倍体样本的片段信息密度分布图,图4为卵巢癌二倍体样本的总体CNV情况图,图5为卵巢癌四倍体样本的片段信息密度分布图,图6为卵巢癌四倍体样本的总体CNV情况图,图7为倍性标准品中二倍体标准品样本的片段信息密度分布图,图8为倍性标准品中二倍体标准品样本的总体CNV情况图,图9为倍性标准品中四倍体标准品样本的片段信息密度分布图,图10为倍性标准品中四倍体标准品样本的总体CNV情况图。
图3至图10的结果中,如图7所示,当样本segments片段极差小于1时,样本不发生WGD的结果;如图3所示,能够明显看出该图形峰值为2且segments片段极差值大于1,因此判断该样本没有发生WGD;如图5所示,当样本segments片段极差大于1且峰值个数大于等于3时,样本发生WGD;如图9所示,能够明显看出segments极差值大于9且峰值大于2,因此判断该样本发生WGD。
40例卵巢癌样本与6例倍性标准品样本的检测结果显示:40例卵巢癌样本中,24例二倍体均正确识别为二倍体;16例四倍体中的15例正确识别为四倍体,准确性达到97.5%。6例倍性标准品二倍体与四倍体均正确识别,准确性为100%。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
Claims (8)
1.一种全基因组复制的分析方法,其特征在于:包括以下步骤,
拷贝数变异信息获取步骤,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,所述拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息,所述低深度全基因组测序的测序深度不超过5;
过滤步骤,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;
全基因组复制初步判断步骤,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;
拷贝数片段信息密度分布图绘制步骤,包括根据segments片段绘制segments片段密度分布图;
密度分布图峰值个数判断步骤,包括对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;
全基因组复制判断步骤,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
2.根据权利要求1所述的分析方法,其特征在于:所述过滤步骤中,窗口长度为50kb。
3.根据权利要求1所述的分析方法,其特征在于:所述拷贝数变异信息获取步骤中,获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,具体包括,将待测样本的低深度全基因组测序数据比对到参考基因组上,获得比对文件,根据比对文件分析待测样本的拷贝数变异信息。
4.一种全基因组复制的分析装置,其特征在于:包括拷贝数变异信息获取模块、过滤模块、全基因组复制初步判断模块、拷贝数片段信息密度分布图绘制模块、密度分布图峰值个数判断模块和全基因组复制判断模块;
所述拷贝数变异信息获取模块,包括用于获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,所述拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息,所述低深度全基因组测序的测序深度不超过5;
所述过滤模块,包括用于过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;
所述全基因组复制初步判断模块,包括用于计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;
所述拷贝数片段信息密度分布图绘制模块,包括用于根据segments片段绘制segments片段密度分布图;
所述密度分布图峰值个数判断模块,包括用于对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;
所述全基因组复制判断模块,包括用于根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
5.根据权利要求4所述的分析装置,其特征在于:所述过滤模块中,窗口长度为50kb。
6.根据权利要求5所述的分析装置,其特征在于:所述拷贝数变异信息获取模块中,获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,具体包括,将待测样本的低深度全基因组测序数据比对到参考基因组上,获得比对文件,根据比对文件分析待测样本的拷贝数变异信息。
7.一种分析全基因组复制的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的全基因组复制的分析方法。
8.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-3任一项所述的全基因组复制的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111572507.0A CN114242164B (zh) | 2021-12-21 | 2021-12-21 | 一种全基因组复制的分析方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111572507.0A CN114242164B (zh) | 2021-12-21 | 2021-12-21 | 一种全基因组复制的分析方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114242164A CN114242164A (zh) | 2022-03-25 |
CN114242164B true CN114242164B (zh) | 2023-03-28 |
Family
ID=80760496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111572507.0A Active CN114242164B (zh) | 2021-12-21 | 2021-12-21 | 一种全基因组复制的分析方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114242164B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105986008A (zh) * | 2015-01-27 | 2016-10-05 | 深圳华大基因科技有限公司 | Cnv检测方法和装置 |
CN110910954A (zh) * | 2019-12-04 | 2020-03-24 | 上海捷易生物科技有限公司 | 一种低深度全基因组基因拷贝数变异的检测方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423534B (zh) * | 2016-05-24 | 2021-08-06 | 郝柯 | 基因组拷贝数变异的检测方法和系统 |
WO2020257605A1 (en) * | 2019-06-21 | 2020-12-24 | Coopersurgical, Inc. | Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos |
CN112802548B (zh) * | 2021-01-07 | 2021-10-22 | 深圳吉因加医学检验实验室 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
CN113160889B (zh) * | 2021-01-28 | 2022-07-19 | 人科(北京)生物技术有限公司 | 一种基于cfDNA组学特性的癌症无创早筛方法 |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
-
2021
- 2021-12-21 CN CN202111572507.0A patent/CN114242164B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105986008A (zh) * | 2015-01-27 | 2016-10-05 | 深圳华大基因科技有限公司 | Cnv检测方法和装置 |
CN110910954A (zh) * | 2019-12-04 | 2020-03-24 | 上海捷易生物科技有限公司 | 一种低深度全基因组基因拷贝数变异的检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114242164A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573125B (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
CN107423578B (zh) | 检测体细胞突变的装置 | |
CN109949861B (zh) | 肿瘤突变负荷检测方法、装置和存储介质 | |
CN107480470B (zh) | 基于贝叶斯与泊松分布检验的已知变异检出方法和装置 | |
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN110060733B (zh) | 基于单样本的二代测序肿瘤体细胞变异检测装置 | |
WO2023115662A1 (zh) | 一种变体核酸的检测方法 | |
CN112365922B (zh) | 用于检测msi的微卫星位点、其筛选方法及应用 | |
CN110993023B (zh) | 复杂突变的检测方法及检测装置 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN112687333A (zh) | 一种泛癌种的单样本微卫星不稳定性的分析方法和装置 | |
CN108256292A (zh) | 一种拷贝数变异检测装置 | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN114502744A (zh) | 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置 | |
CN111584002B (zh) | 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质 | |
CN113948151A (zh) | 一种低深度wgs下机数据的处理方法 | |
CN116189763A (zh) | 一种基于二代测序的单样本拷贝数变异检测方法 | |
CN111696622B (zh) | 一种校正和评估变异检测软件检测结果的方法 | |
CN113789371A (zh) | 一种基于批次矫正的拷贝数变异的检测方法 | |
WO2014083018A1 (en) | Method and system for processing data for evaluating a quality level of a dataset | |
CN114242164B (zh) | 一种全基因组复制的分析方法、装置和存储介质 | |
WO2023184330A1 (zh) | 基因组甲基化测序数据的处理方法、装置、设备和介质 | |
CN107885972A (zh) | 一种基于单端测序的融合基因检测方法及其应用 | |
CN114093421B (zh) | 一种判别淋巴瘤分子亚型的方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |