CN105243299B - 一种检测cnv的精确断点及断点周围特征的方法及装置 - Google Patents
一种检测cnv的精确断点及断点周围特征的方法及装置 Download PDFInfo
- Publication number
- CN105243299B CN105243299B CN201510638685.7A CN201510638685A CN105243299B CN 105243299 B CN105243299 B CN 105243299B CN 201510638685 A CN201510638685 A CN 201510638685A CN 105243299 B CN105243299 B CN 105243299B
- Authority
- CN
- China
- Prior art keywords
- cnv
- breakpoint
- accurate
- breakpoints
- read pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:使用已知的CNV检测软件检测模糊的CNV断点;提取模糊的CNV断点周围异常的read pairs;找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,我们通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;获取断点周围特征;本发明还公开了一种检测CNV的精确断点及断点周围特征的装置;本发明检测CNV的精确断点及断点周围特征的方法及装置重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征。
Description
技术领域
本发明涉及CNV断点检测领域,尤其涉及一种检测CNV的精确断点及断点周围特征的方法及装置。
背景技术
目前,有很多方法被用来检测CNV,比如split-read的方法(AGE,Pindel,ClipCrop),paired-end的方法(BreakDancer,PEMer),read-depth的方法(ReadDepth,CNVnator,CNV-seq),sequence assembly的方法,及综合方法(DELLY:),这些方法中很多可以达到单碱基水平的精度,并且具有很高的精确度和灵敏度。但是,受到很多因素的影响,比如mapping error,测序错误及存在microhomology的情况等,这些方法检测出来的断点与真实的精确断点还是具有几十bp的差异的。同时,很多检测CNV的方法都是针对检测全基因组的CNV来设计的,因此一般功能比较受局限,细节部分不能完善,不能同时检测断点周围特征(micro-mutations,insert sequence and microhomology等),只能检测部分特征,比如Breakseq软件可以检测microhomology。
发明内容
本发明的目的之一是克服现有技术的不足而提供了一种检测CNV的精确断点及断点周围特征的方法。
本发明采用的技术方案为:一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:
使用已知的CNV检测软件检测模糊的CNV断点;
提取模糊的CNV断点周围异常的read pairs;
找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;
提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
作为对上述技术方案的进一步改进,所述步骤1)中,CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。使用多个CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。
作为对上述技术方案的更进一步改进,所述步骤1)中,CNV检测软件为Breakdancer、DELLY和CNVnator。
作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations)。
本发明的目的之二是提供了一种检测CNV的精确断点及断点周围特征的装置。
本发明采用的技术方案为:一种检测CNV的精确断点及断点周围特征的装置,包括:
模糊CNV断点检测模块,用于使用已知的CNV检测软件检测模糊的CNV断点;
异常read pairs提取模块,与所述模糊CNV断点检测模块相连,用于提取模糊的CNV断点周围异常的read pairs;
精确CNV断点获取模块,与所述异常read pairs提取模块相连,用于找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
精确CNV断点验证模块,与所述精确CNV断点获取模块相连,用于根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
新序列建立模块,与所述精确CNV断点验证模块相连,用于提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
断点周围特征获取模块,与所述新序列建立模块相连,用于提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的insertions,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
作为对上述技术方案的进一步改进,所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。使用多个CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。
作为对上述技术方案的更进一步改进,所述CNV检测软件为Breakdancer、DELLY和CNVnator。
作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations)。
相对于现有技术,本发明的有益效果为:
本发明的检测CNV的精确断点及断点周围特征的方法重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies,insertions和micro-mutations)。这些详细的信息可帮助研究者进行临床诊断及验证,帮助病人知道详细的CNV的变异信息,同时可帮助科学家研究CNV的发生机制及DNA的修复机制。
附图说明
图1是本发明检测CNV的精确断点及断点周围特征的方法的流程示意图;
图2是本发明实施例中使用breakdancer、delly和cnvnator软件确定模糊CNV断点的过程示意图;
图3是本发明实施例中确定精确的CNV断点的过程示意图;
图4是本发明实施例中验证样本两端CNV断点是否正常的过程示意图;
图5是本发明实施例中获取断点周围特征的过程示意图;
图6是本发明检测CNV的精确断点及断点周围特征的装置的结构示意图。
具体实施方式
本发明的目的是提供检测CNV的精确断点及断点周围特征的方法和装置,本发明重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies,insertions和micro-mutations)。
图1是本发明检测CNV的精确断点及断点周围特征的方法的流程示意图。
如图1所示,本发明检测CNV的精确断点及断点周围特征的方法包括以下步骤:
S102、使用已知的CNV检测软件检测模糊的CNV断点;
已知的CNV检测软件均可在此使用,CNV检测软件软件可为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq,但不限于以上几种;此步骤中得到断点是比较模糊的断点,一般与精确断点相差0-100bp左右;
S104、提取模糊的CNV断点周围异常的read pairs;
异常的read pairs指的是异常的insert size,一端比对上同时一端被截断的read pairs,一端比对到另外一条染色体上的read pairs,一端比对上同时一端比对不上的read pairs,异常正负链等;
S106、找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
S108、根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;由于断点那里容易出现比对异常,会出现mapping error及microhomologies,还需要进行以下步骤的微调;
S110、提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp,CNV,及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
S112、提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
在本发明的步骤S110,通过构建两条序列来模拟真实样本体内此段的情况,进行比对的时候,就能更加清楚的看到想要的断点信息及周围特点信息;步骤S112中,利用精确的CNV断点周围所有的read pairs去比对,相对于用异常的read pairs去比对,可以获得更为全面的信息。
本发明检测CNV的精确断点及断点周围特征的方法是为了检测CNV的精确断点及断点周围特征,包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations),同时检测插入(insertion)的来源。本方法可用于检测Deletion,串联重复的断点处的精确断点及周围特征。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
该实施例包括以下步骤:
第一步:确定模糊CNV断点
用DELLY、Breakdancer和CNVnator来预测模糊的CNV断点,预测结果如图2所示;
第二步:确定精确的CNV断点
1)提取模糊CNV断点周围异常read pairs;
2)我们重点看“一端比对上同时一端被截断的read pairs”,这样的read pairs对,尤其是存在于第一步得到的模糊CNV断点附近,并且具有超过3个被截断超过10bp的高质量的reads,我们通过计算read的mapping部分及被剪切部分,就能得到精确的CNV断点,如图3所示;
3)确定两个精确CNV断点后,用异常的insert size的read pairs来验证样本两端CNV断点是否正常,若显示正常(如图4所示),可以把异常的insert size的read pairs比对样本的reference上面;
第三步:精确断点及周围特征的确定
1)提取5’端上游及3’端下游,各2000bp的reference序列,构建成4000bp的第一条序列,同时把5’端上游2000bp,CNV,及3’端下游2000bp这段区间内reference的提取出来作为第二条序列;
2)提取断点周围所有的read pairs。用BWA把read pairs比对到这两条新序列上面来重新检测变异。对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征。如图这个案例中我们发现了5bp的insertion(TCTTG)及断点的侧翼序列上面有个CC的插入变异,如图5所示。
图6是本发明检测CNV的精确断点及断点周围特征的装置的结构示意图。
如图6所示,本发明检测CNV的精确断点及断点周围特征的装置包括:
模糊CNV断点检测模块1,用于使用已知的CNV检测软件检测模糊的CNV断点;
异常read pairs提取模块2,与所述模糊CNV断点检测模块1相连,用于提取模糊的CNV断点周围异常的read pairs;
精确CNV断点获取模块3,与所述异常read pairs提取模块2相连,用于找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,我们通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
精确CNV断点验证模块4,与所述精确CNV断点获取模块3相连,用于根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
新序列建立模块5,与所述精确CNV断点验证模块3相连,用于提取5’端上游及3’端下游,各2000bp的reference序列,构建成4000bp的新序列,同时把5‘端上游2000bp,CNV,及3’端下游2000bp这段区间内reference的提取出来作为第二个新序列;
断点周围特征获取模块6,与所述新序列建立模块5相连,用于提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的insertions,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
优选地,CNV检测软件为Breakdancer、DELLY和CNVnator。
优选地,所述断点周围特征包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations)。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (8)
1.一种检测CNV的精确断点及断点周围特征的方法,其特征在于:包括以下步骤:
使用已知的CNV检测软件检测模糊的CNV断点;
提取模糊的CNV断点周围异常的read pairs;
找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;
提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这三段区间内的参考基因组序列提取出来作为第二个新序列;
提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来。
2.根据权利要求1所述的检测CNV的精确断点及断点周围特征的方法,其特征在于:所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。
3.根据权利要求2所述的检测CNV的精确断点及断点周围特征的方法,其特征在于:所述CNV检测软件为Breakdancer、DELLY和CNVnator。
4.根据权利要求1所述的检测CNV的精确断点及断点周围特征的方法,其特征在于:所述断点周围特征包括微同源、插入和微突变。
5.一种检测CNV的精确断点及断点周围特征的装置,其特征在于:包括:
模糊CNV断点检测模块,用于使用已知的CNV检测软件检测模糊的CNV断点;
异常read pairs提取模块,与所述模糊CNV断点检测模块相连,用于提取模糊的CNV断点周围异常的read pairs;
精确CNV断点获取模块,与所述异常read pairs提取模块相连,用于找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
精确CNV断点验证模块,与所述精确CNV断点获取模块相连,用于根据异常的insertsize的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
新序列建立模块,与所述精确CNV断点验证模块相连,用于提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这三段区间内的参考基因组序列提取出来作为第二个新序列;
断点周围特征获取模块,与所述新序列建立模块相连,用于提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来。
6.根据权利要求5所述的检测CNV的精确断点及断点周围特征的装置,其特征在于:所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少一种。
7.根据权利要求6所述的检测CNV的精确断点及断点周围特征的装置,其特征在于:所述CNV检测软件为Breakdancer、DELLY和CNVnator。
8.根据权利要求5所述的检测CNV的精确断点及断点周围特征的装置,其特征在于:所述断点周围特征包括微同源、插入和微突变。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510638685.7A CN105243299B (zh) | 2015-09-30 | 2015-09-30 | 一种检测cnv的精确断点及断点周围特征的方法及装置 |
HK16101621.7A HK1213666A1 (zh) | 2015-09-30 | 2016-02-15 | 種檢測 的精確斷點及斷點周圍特徵的方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510638685.7A CN105243299B (zh) | 2015-09-30 | 2015-09-30 | 一种检测cnv的精确断点及断点周围特征的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105243299A CN105243299A (zh) | 2016-01-13 |
CN105243299B true CN105243299B (zh) | 2018-03-06 |
Family
ID=55040945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510638685.7A Active CN105243299B (zh) | 2015-09-30 | 2015-09-30 | 一种检测cnv的精确断点及断点周围特征的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105243299B (zh) |
HK (1) | HK1213666A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110299185B (zh) * | 2019-05-08 | 2023-07-04 | 西安电子科技大学 | 一种基于新一代测序数据的插入变异检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102586456A (zh) * | 2012-03-14 | 2012-07-18 | 上海翼和应用生物技术有限公司 | 一种多重竞争性pcr检测拷贝数变异的方法 |
CN104428428A (zh) * | 2012-09-06 | 2015-03-18 | 英国西门子公司 | 干渣粒化系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2014144349A (ru) * | 2012-04-05 | 2016-05-27 | БГИ Диагносис Ко., Лтд. | Способ и система детекции вариации числа копий |
-
2015
- 2015-09-30 CN CN201510638685.7A patent/CN105243299B/zh active Active
-
2016
- 2016-02-15 HK HK16101621.7A patent/HK1213666A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102586456A (zh) * | 2012-03-14 | 2012-07-18 | 上海翼和应用生物技术有限公司 | 一种多重竞争性pcr检测拷贝数变异的方法 |
CN104428428A (zh) * | 2012-09-06 | 2015-03-18 | 英国西门子公司 | 干渣粒化系统 |
Non-Patent Citations (1)
Title |
---|
林勇.面向下一代测序技术的结构变异检测算法综述.《计算机应用研究》.2014,第31卷(第2期),第328-332页. * |
Also Published As
Publication number | Publication date |
---|---|
CN105243299A (zh) | 2016-01-13 |
HK1213666A1 (zh) | 2016-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423578B (zh) | 检测体细胞突变的装置 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
JP5750676B2 (ja) | 細胞識別装置及びプログラム | |
CN103525939A (zh) | 无创检测胎儿染色体非整倍体的方法和系统 | |
CN107766696A (zh) | 基于RNA‑seq数据的真核生物可变剪接分析方法和系统 | |
CN110993029A (zh) | 一种检测染色体异常的方法及系统 | |
CN104830986A (zh) | 一种检测胎儿基因信息的方法、装置和系统 | |
CN116051551B (zh) | 基于图像处理的显示屏缺陷检测方法及相关装置 | |
CN104182759A (zh) | 基于扫描电镜的颗粒物形态识别方法 | |
CN113752266B (zh) | 基于协作化驱控一体机器人的人机协作方法、系统和介质 | |
CN107480472A (zh) | 一种基因融合的检测方法和装置 | |
CN105243299B (zh) | 一种检测cnv的精确断点及断点周围特征的方法及装置 | |
US20200126633A1 (en) | Method for controlling the quality of traditional chinese patent medicines based on metagenomics | |
CN104313136A (zh) | 一种无创人肝癌早期检测与鉴别诊断方法及系统 | |
CN103810402A (zh) | 用于基因组的数据处理方法和装置 | |
CN107885972B (zh) | 一种基于单端测序的融合基因检测方法及其应用 | |
CN208805156U (zh) | 一种基于机器视觉技术的电池在线检测装置 | |
CN107247871A (zh) | 项目检测时间核查预警方法及装置 | |
CN108678939B (zh) | 水泵汽蚀余量值的检测方法与系统 | |
CN114155914B (zh) | 基于宏基因组拼接错误的检测校正系统 | |
CN105087566B (zh) | 鉴定白木香的荧光定量pcr方法、引物和探针及其应用 | |
CN109543531B (zh) | 一种纤维提取和纤维视觉矫正的方法 | |
CN114841917A (zh) | 一种航空铝合金表面疲劳裂纹尖端动态检测方法及系统 | |
CN109321641B (zh) | 一种基于dna片段富集及测序技术的产前无创胎儿染色体检测系统 | |
CN104634883B (zh) | 一种具有融合峰基线调整功能的色谱工作站 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1213666 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1213666 Country of ref document: HK |