CN105243299B - 一种检测cnv的精确断点及断点周围特征的方法及装置 - Google Patents

一种检测cnv的精确断点及断点周围特征的方法及装置 Download PDF

Info

Publication number
CN105243299B
CN105243299B CN201510638685.7A CN201510638685A CN105243299B CN 105243299 B CN105243299 B CN 105243299B CN 201510638685 A CN201510638685 A CN 201510638685A CN 105243299 B CN105243299 B CN 105243299B
Authority
CN
China
Prior art keywords
cnv
breakpoint
accurate
breakpoints
read pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510638685.7A
Other languages
English (en)
Other versions
CN105243299A (zh
Inventor
朱文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201510638685.7A priority Critical patent/CN105243299B/zh
Publication of CN105243299A publication Critical patent/CN105243299A/zh
Priority to HK16101621.7A priority patent/HK1213666A1/zh
Application granted granted Critical
Publication of CN105243299B publication Critical patent/CN105243299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:使用已知的CNV检测软件检测模糊的CNV断点;提取模糊的CNV断点周围异常的read pairs;找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,我们通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;获取断点周围特征;本发明还公开了一种检测CNV的精确断点及断点周围特征的装置;本发明检测CNV的精确断点及断点周围特征的方法及装置重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征。

Description

一种检测CNV的精确断点及断点周围特征的方法及装置
技术领域
本发明涉及CNV断点检测领域,尤其涉及一种检测CNV的精确断点及断点周围特征的方法及装置。
背景技术
目前,有很多方法被用来检测CNV,比如split-read的方法(AGE,Pindel,ClipCrop),paired-end的方法(BreakDancer,PEMer),read-depth的方法(ReadDepth,CNVnator,CNV-seq),sequence assembly的方法,及综合方法(DELLY:),这些方法中很多可以达到单碱基水平的精度,并且具有很高的精确度和灵敏度。但是,受到很多因素的影响,比如mapping error,测序错误及存在microhomology的情况等,这些方法检测出来的断点与真实的精确断点还是具有几十bp的差异的。同时,很多检测CNV的方法都是针对检测全基因组的CNV来设计的,因此一般功能比较受局限,细节部分不能完善,不能同时检测断点周围特征(micro-mutations,insert sequence and microhomology等),只能检测部分特征,比如Breakseq软件可以检测microhomology。
发明内容
本发明的目的之一是克服现有技术的不足而提供了一种检测CNV的精确断点及断点周围特征的方法。
本发明采用的技术方案为:一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:
使用已知的CNV检测软件检测模糊的CNV断点;
提取模糊的CNV断点周围异常的read pairs;
找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;
提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
作为对上述技术方案的进一步改进,所述步骤1)中,CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。使用多个CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。
作为对上述技术方案的更进一步改进,所述步骤1)中,CNV检测软件为Breakdancer、DELLY和CNVnator。
作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations)。
本发明的目的之二是提供了一种检测CNV的精确断点及断点周围特征的装置。
本发明采用的技术方案为:一种检测CNV的精确断点及断点周围特征的装置,包括:
模糊CNV断点检测模块,用于使用已知的CNV检测软件检测模糊的CNV断点;
异常read pairs提取模块,与所述模糊CNV断点检测模块相连,用于提取模糊的CNV断点周围异常的read pairs;
精确CNV断点获取模块,与所述异常read pairs提取模块相连,用于找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
精确CNV断点验证模块,与所述精确CNV断点获取模块相连,用于根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
新序列建立模块,与所述精确CNV断点验证模块相连,用于提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
断点周围特征获取模块,与所述新序列建立模块相连,用于提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的insertions,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
作为对上述技术方案的进一步改进,所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。使用多个CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。
作为对上述技术方案的更进一步改进,所述CNV检测软件为Breakdancer、DELLY和CNVnator。
作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations)。
相对于现有技术,本发明的有益效果为:
本发明的检测CNV的精确断点及断点周围特征的方法重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies,insertions和micro-mutations)。这些详细的信息可帮助研究者进行临床诊断及验证,帮助病人知道详细的CNV的变异信息,同时可帮助科学家研究CNV的发生机制及DNA的修复机制。
附图说明
图1是本发明检测CNV的精确断点及断点周围特征的方法的流程示意图;
图2是本发明实施例中使用breakdancer、delly和cnvnator软件确定模糊CNV断点的过程示意图;
图3是本发明实施例中确定精确的CNV断点的过程示意图;
图4是本发明实施例中验证样本两端CNV断点是否正常的过程示意图;
图5是本发明实施例中获取断点周围特征的过程示意图;
图6是本发明检测CNV的精确断点及断点周围特征的装置的结构示意图。
具体实施方式
本发明的目的是提供检测CNV的精确断点及断点周围特征的方法和装置,本发明重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies,insertions和micro-mutations)。
图1是本发明检测CNV的精确断点及断点周围特征的方法的流程示意图。
如图1所示,本发明检测CNV的精确断点及断点周围特征的方法包括以下步骤:
S102、使用已知的CNV检测软件检测模糊的CNV断点;
已知的CNV检测软件均可在此使用,CNV检测软件软件可为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq,但不限于以上几种;此步骤中得到断点是比较模糊的断点,一般与精确断点相差0-100bp左右;
S104、提取模糊的CNV断点周围异常的read pairs;
异常的read pairs指的是异常的insert size,一端比对上同时一端被截断的read pairs,一端比对到另外一条染色体上的read pairs,一端比对上同时一端比对不上的read pairs,异常正负链等;
S106、找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
S108、根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;由于断点那里容易出现比对异常,会出现mapping error及microhomologies,还需要进行以下步骤的微调;
S110、提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp,CNV,及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;
S112、提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
在本发明的步骤S110,通过构建两条序列来模拟真实样本体内此段的情况,进行比对的时候,就能更加清楚的看到想要的断点信息及周围特点信息;步骤S112中,利用精确的CNV断点周围所有的read pairs去比对,相对于用异常的read pairs去比对,可以获得更为全面的信息。
本发明检测CNV的精确断点及断点周围特征的方法是为了检测CNV的精确断点及断点周围特征,包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations),同时检测插入(insertion)的来源。本方法可用于检测Deletion,串联重复的断点处的精确断点及周围特征。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
该实施例包括以下步骤:
第一步:确定模糊CNV断点
用DELLY、Breakdancer和CNVnator来预测模糊的CNV断点,预测结果如图2所示;
第二步:确定精确的CNV断点
1)提取模糊CNV断点周围异常read pairs;
2)我们重点看“一端比对上同时一端被截断的read pairs”,这样的read pairs对,尤其是存在于第一步得到的模糊CNV断点附近,并且具有超过3个被截断超过10bp的高质量的reads,我们通过计算read的mapping部分及被剪切部分,就能得到精确的CNV断点,如图3所示;
3)确定两个精确CNV断点后,用异常的insert size的read pairs来验证样本两端CNV断点是否正常,若显示正常(如图4所示),可以把异常的insert size的read pairs比对样本的reference上面;
第三步:精确断点及周围特征的确定
1)提取5’端上游及3’端下游,各2000bp的reference序列,构建成4000bp的第一条序列,同时把5’端上游2000bp,CNV,及3’端下游2000bp这段区间内reference的提取出来作为第二条序列;
2)提取断点周围所有的read pairs。用BWA把read pairs比对到这两条新序列上面来重新检测变异。对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征。如图这个案例中我们发现了5bp的insertion(TCTTG)及断点的侧翼序列上面有个CC的插入变异,如图5所示。
图6是本发明检测CNV的精确断点及断点周围特征的装置的结构示意图。
如图6所示,本发明检测CNV的精确断点及断点周围特征的装置包括:
模糊CNV断点检测模块1,用于使用已知的CNV检测软件检测模糊的CNV断点;
异常read pairs提取模块2,与所述模糊CNV断点检测模块1相连,用于提取模糊的CNV断点周围异常的read pairs;
精确CNV断点获取模块3,与所述异常read pairs提取模块2相连,用于找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,我们通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
精确CNV断点验证模块4,与所述精确CNV断点获取模块3相连,用于根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
新序列建立模块5,与所述精确CNV断点验证模块3相连,用于提取5’端上游及3’端下游,各2000bp的reference序列,构建成4000bp的新序列,同时把5‘端上游2000bp,CNV,及3’端下游2000bp这段区间内reference的提取出来作为第二个新序列;
断点周围特征获取模块6,与所述新序列建立模块5相连,用于提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的insertions,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。
优选地,CNV检测软件为Breakdancer、DELLY和CNVnator。
优选地,所述断点周围特征包括微同源(microhomologies)、插入(insertions)和微突变(micro-mutations)。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (8)

1.一种检测CNV的精确断点及断点周围特征的方法,其特征在于:包括以下步骤:
使用已知的CNV检测软件检测模糊的CNV断点;
提取模糊的CNV断点周围异常的read pairs;
找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;
提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这三段区间内的参考基因组序列提取出来作为第二个新序列;
提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来。
2.根据权利要求1所述的检测CNV的精确断点及断点周围特征的方法,其特征在于:所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。
3.根据权利要求2所述的检测CNV的精确断点及断点周围特征的方法,其特征在于:所述CNV检测软件为Breakdancer、DELLY和CNVnator。
4.根据权利要求1所述的检测CNV的精确断点及断点周围特征的方法,其特征在于:所述断点周围特征包括微同源、插入和微突变。
5.一种检测CNV的精确断点及断点周围特征的装置,其特征在于:包括:
模糊CNV断点检测模块,用于使用已知的CNV检测软件检测模糊的CNV断点;
异常read pairs提取模块,与所述模糊CNV断点检测模块相连,用于提取模糊的CNV断点周围异常的read pairs;
精确CNV断点获取模块,与所述异常read pairs提取模块相连,用于找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;
精确CNV断点验证模块,与所述精确CNV断点获取模块相连,用于根据异常的insertsize的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;
新序列建立模块,与所述精确CNV断点验证模块相连,用于提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这三段区间内的参考基因组序列提取出来作为第二个新序列;
断点周围特征获取模块,与所述新序列建立模块相连,用于提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来。
6.根据权利要求5所述的检测CNV的精确断点及断点周围特征的装置,其特征在于:所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少一种。
7.根据权利要求6所述的检测CNV的精确断点及断点周围特征的装置,其特征在于:所述CNV检测软件为Breakdancer、DELLY和CNVnator。
8.根据权利要求5所述的检测CNV的精确断点及断点周围特征的装置,其特征在于:所述断点周围特征包括微同源、插入和微突变。
CN201510638685.7A 2015-09-30 2015-09-30 一种检测cnv的精确断点及断点周围特征的方法及装置 Active CN105243299B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510638685.7A CN105243299B (zh) 2015-09-30 2015-09-30 一种检测cnv的精确断点及断点周围特征的方法及装置
HK16101621.7A HK1213666A1 (zh) 2015-09-30 2016-02-15 種檢測 的精確斷點及斷點周圍特徵的方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510638685.7A CN105243299B (zh) 2015-09-30 2015-09-30 一种检测cnv的精确断点及断点周围特征的方法及装置

Publications (2)

Publication Number Publication Date
CN105243299A CN105243299A (zh) 2016-01-13
CN105243299B true CN105243299B (zh) 2018-03-06

Family

ID=55040945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510638685.7A Active CN105243299B (zh) 2015-09-30 2015-09-30 一种检测cnv的精确断点及断点周围特征的方法及装置

Country Status (2)

Country Link
CN (1) CN105243299B (zh)
HK (1) HK1213666A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102586456A (zh) * 2012-03-14 2012-07-18 上海翼和应用生物技术有限公司 一种多重竞争性pcr检测拷贝数变异的方法
CN104428428A (zh) * 2012-09-06 2015-03-18 英国西门子公司 干渣粒化系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2014144349A (ru) * 2012-04-05 2016-05-27 БГИ Диагносис Ко., Лтд. Способ и система детекции вариации числа копий

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102586456A (zh) * 2012-03-14 2012-07-18 上海翼和应用生物技术有限公司 一种多重竞争性pcr检测拷贝数变异的方法
CN104428428A (zh) * 2012-09-06 2015-03-18 英国西门子公司 干渣粒化系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林勇.面向下一代测序技术的结构变异检测算法综述.《计算机应用研究》.2014,第31卷(第2期),第328-332页. *

Also Published As

Publication number Publication date
CN105243299A (zh) 2016-01-13
HK1213666A1 (zh) 2016-07-08

Similar Documents

Publication Publication Date Title
CN107423578B (zh) 检测体细胞突变的装置
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
JP5750676B2 (ja) 細胞識別装置及びプログラム
CN103525939A (zh) 无创检测胎儿染色体非整倍体的方法和系统
CN107766696A (zh) 基于RNA‑seq数据的真核生物可变剪接分析方法和系统
CN110993029A (zh) 一种检测染色体异常的方法及系统
CN104830986A (zh) 一种检测胎儿基因信息的方法、装置和系统
CN116051551B (zh) 基于图像处理的显示屏缺陷检测方法及相关装置
CN104182759A (zh) 基于扫描电镜的颗粒物形态识别方法
CN113752266B (zh) 基于协作化驱控一体机器人的人机协作方法、系统和介质
CN107480472A (zh) 一种基因融合的检测方法和装置
CN105243299B (zh) 一种检测cnv的精确断点及断点周围特征的方法及装置
US20200126633A1 (en) Method for controlling the quality of traditional chinese patent medicines based on metagenomics
CN104313136A (zh) 一种无创人肝癌早期检测与鉴别诊断方法及系统
CN103810402A (zh) 用于基因组的数据处理方法和装置
CN107885972B (zh) 一种基于单端测序的融合基因检测方法及其应用
CN208805156U (zh) 一种基于机器视觉技术的电池在线检测装置
CN107247871A (zh) 项目检测时间核查预警方法及装置
CN108678939B (zh) 水泵汽蚀余量值的检测方法与系统
CN114155914B (zh) 基于宏基因组拼接错误的检测校正系统
CN105087566B (zh) 鉴定白木香的荧光定量pcr方法、引物和探针及其应用
CN109543531B (zh) 一种纤维提取和纤维视觉矫正的方法
CN114841917A (zh) 一种航空铝合金表面疲劳裂纹尖端动态检测方法及系统
CN109321641B (zh) 一种基于dna片段富集及测序技术的产前无创胎儿染色体检测系统
CN104634883B (zh) 一种具有融合峰基线调整功能的色谱工作站

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1213666

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1213666

Country of ref document: HK