CN111508559B - 检测目标区域cnv的方法及装置 - Google Patents
检测目标区域cnv的方法及装置 Download PDFInfo
- Publication number
- CN111508559B CN111508559B CN202010319303.5A CN202010319303A CN111508559B CN 111508559 B CN111508559 B CN 111508559B CN 202010319303 A CN202010319303 A CN 202010319303A CN 111508559 B CN111508559 B CN 111508559B
- Authority
- CN
- China
- Prior art keywords
- sequencing
- detected
- data
- exons
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种检测目标区域CNV的方法及装置。该方法包括分别获取多个对照样本和待测样本的目标区域的测序数据,记为对照数据和待测数据;从对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,两者测序深度的大小关系记作参照关系,所有参照成对外显子的参照关系构成了参照关系谱;按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。该方法避免了现有方法中对测序数据进行标准化处理而导致数据敏感性降低以及检测结果稳定性差的问题。
Description
技术领域
本发明涉及基因测序数据分析领域,具体而言,涉及一种检测目标区域CNV的方法及装置。
背景技术
CNV(Copy number variation,拷贝数变异)根据大小可分为两个层次:显微水平(microscopic)和亚显微水平(submicroscopic)。显微水平的基因组结构变异主要是指显微镜下可见的染色体畸变,包括整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变异。亚微水平的基因组结构变异是指DNA片段长度在1Kb-3Mb的基因组结构变异,包括缺失、插入、重复等,这些统称为CNV。
目前检测CNV的主要方法包括低通量分子生物学实验技术和高通量二代测序技术(NGS)。低通量分子生物学实验技术包括染色体显带技术、荧光原位杂交技术(FISH)和微滴式数字PCR(ddPCR)。这些技术的主要缺陷包括:分辨率低、操作复杂、检测通量低且受人为因素影响较大。相比之下,二代测序技术在肿瘤组织样本CNV检测上具有较高的敏感性,但分析过程复杂,严重依赖于算法设计,目前存在的算法包括:CNVkit,Control-FreeC和contra。
CNVkit:输出的结果没有进行统计学模型检验,没有明确的统计学意义。对于长度较大的基因,会出现将一个基因分成多个片段,且容易产生不同的CNV状态和拷贝数目不一致情况。另外该算法没有一个明确的阈值对是否发生CNV进行定性。
Control-FreeC:该算法适用于全基因组测序和全外显子测序,对于目前区域测序数据检测效果不理想。尤其对于外显子级别的检测敏感性较低。
综上可知,现有技术中尚无对区域测序数据中的CNV进行有效分析的方案。
发明内容
本发明的主要目的在于提供一种检测目标区域CNV的方法及装置,以解决现有技术中难以对来源于目标区域的测序数据中的CNV进行有效检测的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种检测目标区域CNV的方法,该方法包括:获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
进一步地,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据包括:获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
进一步地,在获得对照数据之后,以及从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子之前,方法还包括:利用对照数据计算各外显子的测序深度,测序深度为覆盖外显子的碱基数与外显子长度的比值。
进一步地,利用二项分布检测待测关系与参照关系不一致的次数是否存在显著多次;优选地,在判定待测样本的目标区域发生CNV之后,方法还包括:根据待测关系与参照关系的变化方向,确定CNV为扩增还是缺失。
进一步地,在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值,在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值,在判断待测样本的目标区域发生CNV之后,方法还包括确定拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。
根据本申请的第二个方面,还提供了一种检测目标区域CNV的装置,该装置包括:获取模块,用于获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;参照关系谱构建模块,用于从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;第一检测模块,用于按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;第二检测模块,用于检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
进一步地,获取模块包括:第一获取比对模块,用于获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;第二获取比对模块,用于获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
进一步地,该装置还包括:测序深度计算模块,用于利用对照数据计算各外显子的测序深度,测序深度为覆盖外显子的碱基数与外显子长度的比值。
进一步地,第二检测模块为二项分布检测模块,优选地,该装置还包括:CNV类型确定模块,用于根据待测关系与参照关系的变化方向,确定CNV为拷贝数扩增还是拷贝数缺失。
进一步地,该装置还包括:参照深度比值计算模块,用于在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值;待测深度比值计算模块,用于在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值;拷贝数值计算模块,用于计算拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。
根据本申请的第三个方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种检测目标区域CNV的方法。
根据本申请的第四个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种检测目标区域CNV的方法。
应用本发明的技术方案,通过利用多个对照样本中任意两个外显子的测序深度的大小关系,筛选出测序深度的大小关系在所有对照样本中都保持一致的成对外显子,利用这类外显子的测序深度的大小关系(参照关系)构建参照关系谱,然后利用待测样本中的相应的成对外显子的测序深度的大小关系,即待测关系,最后通过判断待测关系与参照关系不一致的次数是否为显著多次,进而判断待测目标区域是否发生CNV。该方法避免了现有方法中对测序数据进行标准化处理而导致数据敏感性降低以及检测结果稳定性差的问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了不同区域的测序深度在同一样本和不同样本间的分布变化曲线图,其中,横坐标代表不同的外显子,纵坐标代表测序深度,每条折线代表不同的样本;以及
图2示出了根据本申请的一种优选实施例中检测目标区域CNV的方法的流程图;
图3示出了根据本申请的一种优选实施例中检测目标区域CNV的装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
CNV:copy number variation:拷贝数变异。
人类参考基因组:由人类基因组计划产生的基因组图谱,由23对染色体组成,其中包括22对体染色体、1条X染色体和1条Y染色体。人类基因组含有约31.6亿个DNA碱基对,碱基对是以氢键相结合的两个含氮碱基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列。
reads:高通量测序平台产生的序列被称为reads。
bam:对高通量测序平台产生的短序列进行比对到参考基因组形成的文件,格式是bam。
如背景技术部分提到的,现有技术难以对来源于目标区域的测序数据中的CNV进行有效检测的问题,为了改善这一状况,本申请对现有技术中目标区域的测序数据中的CNV难以有效的原因进行了分析和研究,发现存在以下原因:
现有的检测CNV的方法,大多都是适用于全基因组测序和全外显子测序,对于目标区域测序,通常将多个基因或者多个用药靶点区域合并构成panel(基因组合)进行实验测序。相比全基因组测序,目标区域测序的测序深度受panel捕获效率影响较大,则会出现整个panel区域测序深度起伏较大的情况。另外,不同样本在测序过程中无法保证测序数据量一致,会出现不同样本的测序数据量不在一个数量级而无法进行比较的情况。由于这两方面的原因,因而现有方法中都采用对区域测序深度进行标准化处理解决,标准化的方法包括z值等。然而发明人发现z值标准化会降低测序数据的敏感性,而且更重要的是,z值标准化的方法依赖于参与标准化的群体,如果群体发生变化,z值也会随着改变,从而容易导致产生相反的结果,因此使得现有方法的稳定性较差。
基于上述研究结果,发明人进一步对测序数据中不同样本的不同区域的测序深度的分布进行了比对分析,发现虽然同一个样本的不同区域测序深度波动很大,但是不同样本在相同区域的测序深度的分布一致性较高(见图1),因而本申请提出了全新的能够适用于检测测序深度波动较大的测序区域中的CNV的方法和装置。即利用任意两个外显子之间的测序深度的大小关系来表征不同区域的测序深度的波动情况。
实施例1
在本申请一种优选的实施例中,提供了一种检测目标区域CNV的方法,图2是根据本发明实施例的检测目标区域CNV的方法的流程图。如图2所示,该方法包括:
步骤S101,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;
步骤S103,从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;
步骤S105,按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;
步骤S107,检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
上述检测目标区域CNV的方法,通过利用多个对照样本中任意两个外显子的测序深度的大小关系,筛选出测序深度的大小关系在所有对照样本中都保持一致的成对外显子,利用这类外显子的测序深度的大小关系(参照关系)构建参照关系谱,然后利用待测样本中的相应的成对外显子的测序深度的大小关系,即待测关系,最后通过判断待测关系与参照关系不一致的次数是否为显著多次,进而判断待测目标区域是否发生CNV。该方法避免了现有方法中对测序数据进行标准化处理而导致数据敏感性降低以及检测结果稳定性差的问题。
上述方法中,目标测序区域是指根据研究目的,将多个基因或者多个用药靶点区域合并构成panel(基因组合)进行实验测序,其测序深度受到panel捕获效率的影响,不同的目标区域的测序深度变化幅度较大。如图1所示,同一样本中,不同外显子之间的测序深度相差几倍到几十倍,甚至几百倍。
需要说明的是,上述测序数据均是指与参考基因组序列比对后,剔除重复序列后剩余的能够比对到基因组上唯一位置的测序reads,具体的比对方法及去重方法采用现有软件(如比对软件BWA、去重软件Picard),按常规参数设置进行处理即可。优选地,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据包括:获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
上在获得对照数据之后,从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子之前,上述方法还包括:利用对照数据计算各外显子的测序深度,测序深度为覆盖外显子的碱基数与外显子长度的比值。此处的测序深度指的是各外显子的平均测序深度。
上述检测待测关系与参照关系不一致的次数是否存在显著多次的检测方法,可以利用包括二项分布检测在内的统计学方法来进行检测,也可以采用其他类似的显著性检验方法来进行检测,比如t检验。
为了更准确地检测上述CNV的变异类型,在一种优选的实施例中,在判定待测样本的目标区域发生CNV之后,上述方法还包括:根据待测关系与参照关系的变化方向,确定CNV为拷贝数扩增还是拷贝数缺失。根据待测关系与参照关系的变化方向,比如,参照关系为外显子1的测序深度大于外显子2的测序深度,而待测关系为外显子1的测序深度小于外显子2的测序深度,从而确定该CNV为拷贝数缺失。相反,如果参照关系为外显子1的测序深度小于外显子2的测序深度,而待测关系为外显子1的测序深度大于外显子2的测序深度,则确定该CNV为拷贝数扩增。
除了上述定性检测是否存在CNV以及如果存在时,该CNV是拷贝数扩增还是拷贝数缺失外,在一优选的实施例中,该方法还可以定量检测CNV的具体拷贝数值:在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值;在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值;在判断待测样本的目标区域发生CNV之后,方法还包括确定拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。倍体数为检测物种的染色体倍数,以人为例,倍体数为2。
实施例2
本实施例中,先从100例健康人的panel测序数据中,筛选任意两个外显子的测序深度大小关系,并保留在所有样本中该测序深度大小关系都一致的成对外显子,记录这类成对外显子各自对应的测序深度的大小关系(记为参照关系),从而构建对照样本的成对外显子的测序深度的大小关系谱(记为参照关系谱)。
在肿瘤组织样本的测序数据中,针对任一外显子,计算参照关系谱中与该外显子相关的成对外显子,计算每一成对外显子对应的测序深度的大小关系(记为待测关系),检测待测关系与参照关系不一致的情况是否存在显著多次,若是存在,则认为该外显子发生了CNV,部分检测结果如下:
表1:
目标外显子 | 比较外显子 | 健康人(参照关系) | 肿瘤样本(待测关系) | 不一致? |
BRCA1-exon1 | MTOR-Exon2 | > | < | Y |
BRCA1-exon1 | SPEN-Exon2 | > | < | Y |
BRCA1-exon1 | CDA-Exon1 | < | < | N |
BRCA1-exon1 | ID3-Exon2 | > | < | Y |
BRCA1-exon1 | CDKN2C-Exon1 | < | > | Y |
BRCA1-exon1 | JAK1-Exon20 | < | > | Y |
BRCA1-exon1 | PARP1-Exon23 | < | > | Y |
表1中,>号表示目标外显子的测序深度大于比较外显子的测序深度,<号表示目标外显子的测序深度小于比较外显子的测序深度,Y表示不一致,N表示一致。
实施例3
本实施例,利用与实施例2相同的100例正常人群样本的测序数据,构建了成对外显子的参照关系谱,具体如下:
表2:
进一步,针对待测样本中,目标外显子SPEN,NM_015001,Exon1和MET,NM_000245,Exon1进行拷贝数检测,具体信息如下:
表3:
结合表2和表3的数据,对判断缺失或扩增,以及定量计算拷贝数值的步骤的示例性说明:
目标外显子和比较外显子的参照关系分为两种:1)目标外显子>比较外显子;2)目标外显子<比较外显子。后续对于某个外显子的拷贝数的变化分为以下三步:1.该外显子是否发生了拷贝数变异;2.如果发生了拷贝数变异,是发生扩增还是缺失;3.发生扩增或者缺失的拷贝数数值是多少。
第一步和第二步:
在参照关系谱中目标外显子和比较外显子的关系为:目标外显子>比较外显子;如果在待测样本中目标外显子和比较外显子的关系发生在显著多(二项分布检验p<0.0001)的关系对中发生反转,即目标外显子<比较外显子。则认为该目标外显子发生了拷贝数变异,且定性为缺失。
在参照关系谱中目标外显子和比较外显子的关系为:目标外显子<比较外显子;如果在待测样本中目标外显子和比较外显子的关系发生在显著多(二项分布检验p<0.0001)的关系对中发生反转,即目标外显子>比较外显子。则认为该目标外显子发生了拷贝数变异,且定性为扩增。
第三步:
对所有外显子测序深度按照z-score进行标准化,提取目标外显子和比较外显子标准化后的数值,并进行比值分析,即发生拷贝数数值=zscore(目标外显子)/zscore(比较外显子)的均值*2。
如表3所示,SPEN Exon1的97个成对外显子待测关系中有95对和对照关系不一致,二项分布检验p<0.0001,表明SPEN Exon1发生了拷贝数变异(CNV)。而且大小关系是由目标外显子>比较外显子变为目标外显子<比较外显子,所以发生了拷贝数缺失。发生拷贝数的数值=zscore(目标外显子)/zscore(比较外显子)的均值*2,即拷贝数的数值为0.42/0.85*2=0.988。
MET,NM_000245,Exon1,+的97个成对外显子待测关系中有94对和对照关系不一致,二项分布检验p<0.0001,表明MET Exon1发生了拷贝数变异(CNV)。而且大小关系是由目标外显子<比较外显子变为目标外显子>比较外显子,所以发生了拷贝数扩增。发生拷贝数的数值=zscore(目标外显子)/zscore(比较外显子)的均值*2,即拷贝数的数值为1.69/0.85*2=3.976。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了一种检测目标区域CNV的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例4
在本实施例中,还提供了一种检测目标区域CNV的装置,如图3所示,该装置包括:获取模块20、参照关系谱构建模块40、第一检测模块60及第二检测模块80,其中,获取模块20用于获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;参照关系谱构建模块40用于从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;第一检测模块60用于按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;第二检测模块80用于检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
需要说明的是,上述获取模块所获取的测序数据均是指与参考基因组序列比对后,剔除重复序列后剩余的能够比对到基因组上唯一位置的测序reads。在一种优选的实施例中,上述获取模块包括:第一获取比对模块,用于获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;第二获取比对模块,用于获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
优选地,该装置还包括:测序深度计算模块,用于利用对照数据计算各外显子的测序深度,序深度为覆盖外显子的碱基数与外显子长度的比值。此处的测序深度指的是各外显子的平均测序深度。
上述第二检测模块中,对于检测待测关系与参照关系不一致的次数是否存在显著多次的检测模块,优选为二项分布检测模块。当然,也可以采用其他类似的显著性检验模块来进行检测,比如t检验模块。
为了更准确地检测上述CNV的变异类型,在一种优选的实施例中,该装置还包括:CNV类型确定模块,用于根据待测关系与参照关系的变化方向,确定CNV为拷贝数扩增还是拷贝数缺失。根据待测关系与参照关系的变化方向,比如,参照关系为外显子1的测序深度大于外显子2的测序深度,而待测关系为外显子1的测序深度小于外显子2的测序深度,则确定该CNV为拷贝数缺失。相反,如果参照关系为外显子1的测序深度小于外显子2的测序深度,而待测关系为外显子1的测序深度大于外显子2的测序深度,则确定该CNV为拷贝数扩增。
除了上述第二检测模块定性检测是否存在CNV以及如果存在时,通过CNV类型确定模块确定该CNV是拷贝数扩增还是拷贝数缺失外,在一优选的实施例中,该装置还包括:参照深度比值计算模块,用于在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值;待测深度比值计算模块,用于在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值;拷贝数值计算模块,用于计算拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。
通过参照深度比值计算模块计算得到参照深度比值,通过待测深度比值计算模块计算得到待测深度比值,两个比值相除,再乘以物种倍体数即可得到拷贝数值,从而能够定量表征CNV的变异程度。
实施例5
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例6
本发明的实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种检测目标区域CNV的方法。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本申请通过提出测序深度的大小关系来体现目标区域测序深度的分布情况,并以此代替标准化的方法,不仅有效解决了数据波动导致的目标区域CNV难以准确检测的问题,而且避免了数据标准化带来的检测不准确及稳定性差的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种检测目标区域CNV的方法,其特征在于,所述方法包括:
获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的所述目标区域的测序数据,记为待测数据;
从多个所述对照样本的所述对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,所述参照成对外显子的所述测序深度的大小关系记作参照关系,所有所述参照成对外显子及所述参照成对外显子的所述参照关系构成了参照关系谱;
按照所述参照关系谱,检测所述待测数据中所述参照成对外显子的测序深度的大小关系,记为待测关系;
检测所述待测关系与所述参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定所述待测样本的所述目标区域发生CNV,反之,不发生,
其中,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的所述目标区域的测序数据,记为待测数据包括:
获取多个对照样本的目标区域的测序数据,并将所述测序数据与参考基因组序列进行比对,得到唯一比对序列,记为所述对照数据;
获取待测样本的所述目标区域的测序数据,并将所述测序数据与所述参考基因组序列进行比对,得到唯一比对序列,记为所述待测数据;
其中,利用二项分布检测所述待测关系与所述参照关系不一致的次数是否存在显著多次。
2.根据权利要求1所述的方法,其特征在于,在获得所述对照数据之后,以及从多个所述对照样本的所述对照数据中筛选出所述测序深度的大小关系全部保持一致的两个外显子之前,所述方法还包括:利用所述对照数据计算各所述外显子的测序深度,所述测序深度为覆盖所述外显子的碱基数与所述外显子长度的比值。
3.根据权利要求1所述的方法,其特征在于,在判定所述待测样本的所述目标区域发生CNV之后,所述方法还包括:根据所述待测关系与所述参照关系的变化方向,确定所述CNV为扩增还是缺失。
4.根据权利要求1所述的方法,其特征在于,在筛选所述参照成对外显子并保留所述参照关系时,同时检测所述参照成对外显子的所述测序深度的比值的平均值或中位数,记为参照深度比值,
在检测所述待测关系时,同时检测所述待测数据中所述参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值,
在判断所述待测样本的所述目标区域发生CNV之后,所述方法还包括确定拷贝数值,所述拷贝数值为所述待测深度比值/所述参照深度比值*倍体数。
5.一种检测目标区域CNV的装置,其特征在于,所述装置包括:
获取模块,用于获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的所述目标区域的测序数据,记为待测数据;
参照关系谱构建模块,用于从多个所述对照样本的所述对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,所述参照成对外显子的所述测序深度的大小关系记作参照关系,所有所述参照成对外显子及所述参照成对外显子的所述参照关系构成了参照关系谱;
第一检测模块,用于按照所述参照关系谱,检测所述待测数据中所述参照成对外显子的测序深度的大小关系,记为待测关系;
第二检测模块,用于检测所述待测关系与所述参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定所述待测样本的所述目标区域发生CNV,反之,不发生,
其中,所述获取模块包括:
第一获取比对模块,用于获取多个对照样本的目标区域的测序数据,并将所述测序数据与参考基因组序列进行比对,得到唯一比对序列,记为所述对照数据;
第二获取比对模块,用于获取待测样本的所述目标区域的测序数据,并将所述测序数据与所述参考基因组序列进行比对,得到唯一比对序列,记为所述待测数据;
所述第二检测模块为二项分布检测模块。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:测序深度计算模块,用于利用所述对照数据计算各所述外显子的测序深度,所述测序深度为覆盖所述外显子的碱基数与所述外显子长度的比值。
7.根据权利要求5所述的装置,其特征在于,
所述装置还包括:CNV类型确定模块,用于根据所述待测关系与所述参照关系的变化方向,确定所述CNV为拷贝数扩增还是拷贝数缺失。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
参照深度比值计算模块,用于在筛选所述参照成对外显子并保留所述参照关系时,同时检测所述参照成对外显子的所述测序深度的比值的平均值或中位数,记为参照深度比值,
待测深度比值计算模块,用于在检测所述待测关系时,同时检测所述待测数据中所述参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值,
拷贝数值计算模块,用于计算拷贝数值,所述拷贝数值为所述待测深度比值/所述参照深度比值*倍体数。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的检测目标区域CNV的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的检测目标区域CNV的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010319303.5A CN111508559B (zh) | 2020-04-21 | 2020-04-21 | 检测目标区域cnv的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010319303.5A CN111508559B (zh) | 2020-04-21 | 2020-04-21 | 检测目标区域cnv的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508559A CN111508559A (zh) | 2020-08-07 |
CN111508559B true CN111508559B (zh) | 2021-08-13 |
Family
ID=71876300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010319303.5A Active CN111508559B (zh) | 2020-04-21 | 2020-04-21 | 检测目标区域cnv的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508559B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768000B (zh) * | 2021-01-25 | 2021-07-20 | 深圳吉因加医学检验实验室 | 一种预测met基因拷贝数变化类型的方法及装置 |
CN115132271B (zh) * | 2022-09-01 | 2023-07-04 | 北京中仪康卫医疗器械有限公司 | 一种基于批次内校正的cnv检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104561289A (zh) * | 2014-12-26 | 2015-04-29 | 北京诺禾致源生物信息科技有限公司 | 基因缺失突变的检测方法和装置 |
CN106355045A (zh) * | 2016-08-30 | 2017-01-25 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序小片段插入缺失检测的方法及装置 |
CN108920899A (zh) * | 2018-06-10 | 2018-11-30 | 杭州迈迪科生物科技有限公司 | 一种基于目标区域测序的单个外显子拷贝数变异预测方法 |
CN110648721A (zh) * | 2019-09-19 | 2020-01-03 | 北京市儿科研究所 | 针对外显子捕获技术检测拷贝数变异的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102533985B (zh) * | 2011-12-19 | 2014-08-06 | 深圳华大基因科技有限公司 | 一种检测dmd基因外显子缺失和/或重复的方法 |
WO2017085243A1 (en) * | 2015-11-18 | 2017-05-26 | Sophia Genetics S.A. | Methods for detecting copy-number variations in next-generation sequencing |
CN105760712B (zh) * | 2016-03-01 | 2019-03-26 | 西安电子科技大学 | 一种基于新一代测序的拷贝数变异检测方法 |
CN106682455B (zh) * | 2016-11-24 | 2019-03-26 | 西安电子科技大学 | 一种多样本拷贝数一致性变异区域的统计检验方法 |
PT3596233T (pt) * | 2017-03-17 | 2022-08-22 | Sequenom Inc | Métodos e processos para avaliação de mosaicismo genético |
CN108427864B (zh) * | 2018-02-14 | 2019-01-29 | 南京世和基因生物技术有限公司 | 一种拷贝数变异的检测方法、装置以及计算机可读介质 |
CN111028890B (zh) * | 2019-12-31 | 2020-09-11 | 东莞博奥木华基因科技有限公司 | 一种基于run间矫正的CNV检测方法 |
-
2020
- 2020-04-21 CN CN202010319303.5A patent/CN111508559B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104561289A (zh) * | 2014-12-26 | 2015-04-29 | 北京诺禾致源生物信息科技有限公司 | 基因缺失突变的检测方法和装置 |
CN106355045A (zh) * | 2016-08-30 | 2017-01-25 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序小片段插入缺失检测的方法及装置 |
CN108920899A (zh) * | 2018-06-10 | 2018-11-30 | 杭州迈迪科生物科技有限公司 | 一种基于目标区域测序的单个外显子拷贝数变异预测方法 |
CN110648721A (zh) * | 2019-09-19 | 2020-01-03 | 北京市儿科研究所 | 针对外显子捕获技术检测拷贝数变异的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111508559A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lähnemann et al. | Eleven grand challenges in single-cell data science | |
Zhao et al. | Detection of fetal subchromosomal abnormalities by sequencing circulating cell-free DNA from maternal plasma | |
RU2654575C2 (ru) | Способ и устройство для детектирования хромосомных структурных аномалий | |
Schrider | Background selection does not mimic the patterns of genetic diversity produced by selective sweeps | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
RU2768718C2 (ru) | Обнаружение соматического варьирования числа копий | |
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
CN108573125A (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CN111508559B (zh) | 检测目标区域cnv的方法及装置 | |
Zou et al. | An efficient resampling method for assessing genome-wide statistical significance in mapping quantitative trait loci | |
CN114502744B (zh) | 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN111312334B (zh) | 一种影响细胞间通讯的受体-配体系统分析方法 | |
CN112117003A (zh) | 一种肿瘤风险等级划分方法、系统、终端以及存储介质 | |
CN114694749B (zh) | 基因数据处理方法、装置、计算机设备和存储介质 | |
CN116453588A (zh) | 基于全基因组测序的strc基因拷贝数变异检测方法 | |
US8077951B2 (en) | Method and system for dynamic, automated detection of outlying feature and feature background regions during processing of data scanned from a chemical array | |
CN109920480B (zh) | 一种校正高通量测序数据的方法和装置 | |
US7124032B2 (en) | System and method for reconstructing pathways in large genetic networks from genetic perturbations | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
Balagurunathan et al. | Noise factor analysis for cDNA microarrays | |
CN115948521B (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
CN117153258A (zh) | 校正测序数据、检测染色体非整倍体的方法和装置 | |
Mccallum et al. | Quantifying copy number variations using a hidden Markov model with inhomogeneous emission distributions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |