CN107992721B - 用于检测目标区域基因融合的方法、装置和存储介质 - Google Patents

用于检测目标区域基因融合的方法、装置和存储介质 Download PDF

Info

Publication number
CN107992721B
CN107992721B CN201711107002.0A CN201711107002A CN107992721B CN 107992721 B CN107992721 B CN 107992721B CN 201711107002 A CN201711107002 A CN 201711107002A CN 107992721 B CN107992721 B CN 107992721B
Authority
CN
China
Prior art keywords
target region
splicing
information
soft
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711107002.0A
Other languages
English (en)
Other versions
CN107992721A (zh
Inventor
陈龙昀
高志博
李淼
王佳茜
陈超
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yulce Biological Technology Co Ltd
Original Assignee
Shenzhen Yulce Biological Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yulce Biological Technology Co Ltd filed Critical Shenzhen Yulce Biological Technology Co Ltd
Priority to CN201711107002.0A priority Critical patent/CN107992721B/zh
Publication of CN107992721A publication Critical patent/CN107992721A/zh
Application granted granted Critical
Publication of CN107992721B publication Critical patent/CN107992721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种用于检测目标区域基因融合的方法、装置和存储介质,该方法包括:获取比对结果的步骤,提取目标区域信息的步骤,提取成对扩展区域信息的步骤,信息注释的步骤,断点统计打分的步骤,局部聚类的步骤,以及局部拼接的步骤。本发明充分利用双末端测序读段的优势以及比对的信息,检测过程不需要再次比对,也不需要进行复杂的组装过程,目标区域只覆盖其中一个融合区域也可检测到基因融合事件,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。

Description

用于检测目标区域基因融合的方法、装置和存储介质
技术领域
本发明涉及基因检测技术领域,具体涉及一种用于检测目标区域基因融合的方法、装置和存储介质。
背景技术
融合基因是由两个不相关的基因融合形成的一种基因产物,是染色体易位、中间缺失或染色体倒置所致的结果。
当前主流的用于检测基因融合的方法大部分是针对全基因组结构变异的,如CREST(clipping reveals structure,截取揭示结构)。CREST方法利用软剪切信息进行两次组装比对,存在资源要求高、检测速度慢等缺点,同时该方法考虑的还是全基因组范围的检测,对目标区域测序的检测效果较差。
现有检测目标区域基因融合的方法主要是FACTERA(Fusion And ChromosomalTranslocation Enumeration and Recovery Algorithm,融合/染色体易位枚举和检测算法),该方法在目标区域内利用双末端异常关系进行融合区域的聚类,再利用融合区域的软剪切信息进行解析比较,最后进行再比对确认融合结果。由于目标区域和聚类的限制条件,会造成敏感性方面的缺陷;使用的数据没有充分考虑比对错误对检测结果的影响,加上解析比较的模块不够严谨,会造成特异性偏低;比对的部分不能最大优化计算资源和运行时长。因此,还需对现有的基因融合检测方法进行改进,实现能快速精准地检测基因融合事件。
发明内容
本发明提供一种用于检测目标区域基因融合的方法、装置和存储介质,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。
根据第一方面,一种实施例中提供一种用于检测目标区域基因融合的方法,包括:获取比对结果的步骤,该步骤包括获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取目标区域信息的步骤,该步骤包括提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取成对扩展区域信息的步骤,该步骤包括提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释的步骤,该步骤包括对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分的步骤,该步骤包括根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类的步骤,该步骤包括分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接的步骤,该步骤包括对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
进一步地,上述方法还包括:预过滤的步骤,该步骤包括过滤掉潜在的假阳性集合。
进一步地,上述过滤掉潜在的假阳性集合包括如下至少一种:集合的支持数低于设定阈值,融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于设定阈值。
进一步地,上述方法还包括:若两个软剪切位点的基因组位置均落在所得到的簇区域内,则输出该基因融合结果,成功拼接的两条序列对应的软剪切位点区域视为融合的两个断点区域。
进一步地,在提取目标区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。
进一步地,上述目标区域的前后设定范围是前后200bp范围内。
进一步地,上述插入片段大小异常包括大于10Mb或一对读段分别比对到不同染色体上的情况。
进一步地,上述唯一比对序列的比对质量值和平均碱基质量值高于设定阈值。
进一步地,上述有效信息包括比对位置、序列碱基、质量值和比对标志。
进一步地,在提取成对扩展区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。
进一步地,上述成对扩展区域是根据一条比对到目标区域另一条比对到非目标区域的成对读段位置信息得到。
根据第二方面,一种实施例中提供一种用于检测目标区域基因融合的装置,包括:比对结果获取模块,用于获取目标区域捕获双末端测序数据比对到参考基因组的结果;目标区域信息提取模块,用于提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;成对扩展区域信息提取模块,用于提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释模块,用于对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分模块,用于根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类模块,用于分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接模块,用于对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
根据第三方面,一种实施例中提供一种用于检测目标区域基因融合的装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如第一方面的方法。
根据第四方面,一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。
本发明充分利用双末端测序读段的优势以及比对的信息,检测过程不需要再次比对,也不需要进行复杂的组装过程,目标区域只覆盖其中一个融合区域也可检测到基因融合事件,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。
附图说明
图1为本发明实施例中用于检测目标区域基因融合的方法的流程图;
图2为本发明实施例中序列拼接的四种可能类型的示意图;
图3为本发明实施例中用于检测目标区域基因融合的装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本发明相关的一些操作并没有在说明书中显示或者描述,这是为了避免本发明的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
本发明中涉及的术语的具体含义说明如下。
本发明所称的“参考基因组”,是指物种参考的标准基因组序列,例如人参考基因组(GRCh37)等。
本发明所称的“读段(Reads)”,是指测序所得基因组序列片段。
本发明所称的“PE测序”,是指双末端(Pair End)测序,是一种测序方法。
本发明所称的“InDel”,是指小片段插入/缺失。
本发明所称的“软剪切”,是指在读段(Reads)比对之后,存在部分序列比对到参考基因组,另一部分不能比对到参考基因组,比对不上的部分为软剪切部分,两部分分界点为软剪切位点。
本发明所称的“断点”,是指融合基因中两个基因连接的点,一般是两个基因各一个。
本发明所称的“错配个数”,是指两段序列比对时,可以允许存在一定的差异,差异值为错配个数。
本发明所称的“目标区域”,是指捕获的区域,例如Panel设计的捕获区域。
本发明所称的“BWA”,是指一种主流的基因组比对软件,生成BAM格式文件。
本发明所称的“BAM”,是指一种用于存储比对信息的标准二进制文件格式。
本发明所称的“重复读段(Duplicated reads)”,是指重复序列,由PCR扩增引入。
图1示出了本发明一种实施例的用于检测目标区域基因融合的方法,包括:
S101:获取比对结果的步骤,该步骤包括获取目标区域捕获双末端测序数据比对到参考基因组的结果。
该步骤的“结果”,例如可以是目标区域捕获双末端测序数据,经BWA比对软件比对到参考基因组(例如人参考基因组),标记重复读段(Duplicated reads)后的结果。这种结果可以是比对软件运行的结果,在其他实施例中,也可以是本发明的方法向上游扩展实现的功能。
S102:提取目标区域信息的步骤,该步骤包括提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息。
其中“前后设定范围”,例如目标区域的前后200bp内。“插入片段大小异常”,是相对于正常而言,正常的插入片段大小一般在200bp~400bp之间,具体因不同样本而不同。在本发明的一些实施例中,插入片段大小异常是指大于10Mb或者一对读段(Reads)分别比对到不同染色体上的情况。在本发明的一些实施例中,“唯一比对序列”是高质量唯一比对序列,例如读段(Reads)的比对质量值和平均碱基质量值高于设定阈值,设定阈值例如20等。“唯一比对序列”指读段(Reads)只比对到参考基因组一个位置,而不存在多处比对位置的序列。“有效信息”,指读段(Reads)的比对信息,包括比对位置、序列碱基、质量值和/或比对标志等。
在本发明的一些实施例中,在步骤S102之前,还包括:过滤掉存在多个插入缺失(InDel)或存在短串联重复序列的序列。
S103:提取成对扩展区域信息的步骤,该步骤包括提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息。
其中,“成对扩展区域”是根据一条比对到目标区域另一条比对到非目标区域的成对读段(Reads)位置信息得到的。类似于步骤S102,该步骤中“插入片段大小异常”,是相对于正常而言,正常的插入片段大小一般在200bp~400bp之间,具体因不同样本而不同。在本发明的一些实施例中,插入片段大小异常是指大于10Mb或者一对读段(Reads)分别比对到不同染色体上的情况。在本发明的一些实施例中,“唯一比对序列”是高质量唯一比对序列,例如读段(Reads)的比对质量值和平均碱基质量值高于设定阈值,设定阈值例如20等。“唯一比对序列”指读段(Reads)只比对到参考基因组一个位置,而不存在多处比对位置的序列。“有效信息”,指读段(Reads)的比对信息,包括比对位置、序列碱基、质量值和/或比对标志等。
在本发明的一些实施例中,提取成对扩展区域信息的步骤,在提取目标区域信息的步骤之后,需要依据在前一个步骤得到的成对读段(Reads)的比对位置信息。
在本发明的一些实施例中,在步骤S103之前,还包括:过滤掉存在多个插入缺失(InDel)或存在短串联重复序列的序列。
S104:信息注释的步骤,该步骤包括对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因。即,“基因注释”主要是根据比对位置的信息来注释这些读段(Reads)覆盖到哪些基因上。
S105:断点统计打分的步骤,该步骤包括根据基因注释结果将提取的成对读段(Reads)归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数。
其中“融合集合”是指融合基因对的集合,不同的融合集合即指不同的融合基因对。在本发明的一些实施例中,该步骤还包括:过滤掉不在基因内区域的成对读段(Reads),其中,“不在基因内区域”指的是那些注释到基因间区的结果,由于已知基因在基因组上的坐标范围是固定的,不同基因之间存在大片段的基因间区。“支持数”是指每个集合内的读段(Reads)数目。簇值(cluster score),是指对每个集合的打分值,例如软剪切读段(Reads)的值为1,PE异常的值为2,将在同一个断点上的这些值累加得到簇值。“PE异常”,是指插入片段异常的读段(Reads)对,但这些读段(Reads)中不包含软剪切的结果。在本发明的一些实施例中,软剪切的读段(Reads)打分可以比PE异常的打分高。
在本发明的一些实施例中,在步骤S105之后直接进行步骤S106。然而,考虑到假阳性集合可能造成不利影响,在本发明的一些实施例中,在步骤S105之后还包括:过滤掉潜在的假阳性集合。其中,“假阳性集合”包括如下一种或多种:集合的支持数低于设定阈值(例如,一般是4),融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于设定阈值(例如,一般是3)。
S106:局部聚类的步骤,该步骤包括分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合。
其中,“最多富集”,是指富集程度最高,可以理解为支持数最大,或者也可以用区间内的簇值总和来判断,即簇值总和最大。“簇区间”,是指读段(Reads)富集的区间,可以理解为聚集在读段(Reads)长度范围内的所有读段(Reads)组成的一个区间。“簇值总和”即是指区间内的所有簇值的总和。该步骤中,簇值总和的“设定阈值”例如一般是8,可根据覆盖深度调整。
S107:局部拼接的步骤,该步骤包括对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
该步骤中,软剪切序列的软剪切部分长度不低于设定阈值,例如一般是10。且错配个数不高于“设定阈值”,例如一般是2。在本发明的一些实施例中,拼接方式可分为四种类型,如图2所示,其中1a表示R1的左端跟R2的右端拼接,2a表示R2的左端跟R1的右端拼接,1b表示先对R1序列进行反向互补之后转变成1a的拼接类型,2b表示先对R1序列进行反向互补之后转变成2a的拼接类型。
在本发明的一些实施例中,还包括:若两个软剪切位点的基因组位置均落在所得到的簇区域内,则输出该基因融合结果,成功拼接的两条序列对应的软剪切位点区域视为融合的两个断点区域。
本发明的方法,对现有的检测目标区域基因融合的方法进行改进,去掉了比对和组装的步骤,有效降低了检测的运行时间和计算资源,使用局部拼接方式代替组装,消除了组装导致的不稳定性;充分利用PE比对的关系扩展了检测区域,而不仅限于原有的目标区域,聚类的方式是在基因对的基础上进行的局部聚类,基因对的确定利用了所有覆盖到的读段(Reads),其中包括软剪切的读段(Reads),这些手段能够有效地提升检测的敏感性;充分利用序列和比对得到的信息,先对不稳定的序列和结果进行过滤,如短串联重复序列、多个插入缺失(InDel)序列以及同源基因,利用现有读段(Reads)的长度优势,使用局部序列拼接的模式,要求拼接部分同时覆盖软剪切位点,同时结合局部聚类确定的簇区域来判断拼接有效性,这些手段能够有效地提升检测的特异性,降低假阳性率。本发明方法的应用能够实现快速精准地检测目标区域的基因融合。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明的一种实施例中提供一种用于检测目标区域基因融合的装置,如图3所示,包括:比对结果获取模块201,用于获取目标区域捕获双末端测序数据比对到参考基因组的结果;目标区域信息提取模块202,用于提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;成对扩展区域信息提取模块203,用于提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释模块204,用于对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分模块205,用于根据基因注释结果将提取的成对读段(Reads)归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类模块206,用于分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接模块207,用于对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
当然,本发明实施例的装置,也可以在一些方面具有本发明的方法的其它附加特征,例如,还可以包括:第一过滤模块,用于过滤掉存在多个插入缺失(InDel)或存在短串联重复序列的序列。还可以包括:第二过滤模块,用于过滤掉潜在的假阳性集合。
本发明的一种实施例还提供一种用于检测目标区域基因融合的装置,包括:存储器,用于存储程序;处理器,用于通过执行存储器存储的程序以实现如下方法:获取比对结果的步骤,该步骤包括获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取目标区域信息的步骤,该步骤包括提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取成对扩展区域信息的步骤,该步骤包括提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释的步骤,该步骤包括对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分的步骤,该步骤包括根据基因注释结果将提取的成对读段(Reads)归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类的步骤,该步骤包括分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接的步骤,该步骤包括对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
本发明的一种实施例还提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下方法:获取比对结果的步骤,该步骤包括获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取目标区域信息的步骤,该步骤包括提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取成对扩展区域信息的步骤,该步骤包括提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释的步骤,该步骤包括对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分的步骤,该步骤包括根据基因注释结果将提取的成对读段(Reads)归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类的步骤,该步骤包括分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接的步骤,该步骤包括对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
按照图1所示的流程,利用BWA对质评过的基因融合阳性样本(ALK exon 20-EML4exon13,45-55%)的目标区域PE测序数据与人参考基因组进行比对,经过标记重复读段(duplicated reads)等处理过程,得到BAM格式的比对结果,然后作为本发明的方法的输入数据进行目标区域基因融合的检测。具体而言,方法步骤和检测参数设定如下所示:
获取目标区域捕获双末端测序数据比对到人参考基因组的结果;过滤掉存在多个插入缺失(InDel)或存在短串联重复序列的序列;提取在目标区域及前后200bp内的插入片段大小异常(大于10Mb或者一对读段(Reads)分别比对到不同染色体上)的高质量(质量值高于20)唯一比对序列的有效信息(包括比对位置、序列碱基、质量值和比对标志);过滤掉存在多个插入缺失(InDel)或存在短串联重复序列的序列;提取在成对扩展区域内的插入片段大小异常(大于10Mb或者一对读段(Reads)分别比对到不同染色体上)的高质量(质量值高于20)唯一比对序列的有效信息(包括比对位置、序列碱基、质量值和比对标志);对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;根据基因注释结果将提取的成对读段(Reads)归类到不同的潜在融合集合中,过滤掉不在基因内区域的成对读段(Reads),并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;过滤掉潜在的假阳性集合,包括:集合的支持数低于4,融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于3;分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于8,则选取该潜在的基因融合;以及对分别支持两个基因的软剪切序列(软剪切部分长度不低于10)两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于2,视为拼接成功。
检测所用计算资源峰值为252M,运行时长为9分钟,最终得到检测结果如表1所示,评估效果如表2所示。
表1
Figure BDA0001464611060000101
表2
阳性位点 检出位点 检出阳性位点 敏感性 特异性
1 1 1 100% 100%
对比例1
使用FACTERA对实施例1中的BAM文件进行默认参数的检测,检测所用计算资源峰值为2.1G,运行时长为10分钟,得到的检测评估效果如表3所示。
表3
阳性位点 检出位点 检出阳性位点 敏感性 特异性
1 3 0 0% 0%
从以上结果中可以看出,与对比例1相比,本发明实施例1的资源需求和检测时长较现有方法更低,同时检测的敏感性和特异性也具有明显的优势。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种用于检测目标区域基因融合的方法,其特征在于,所述方法包括:
获取目标区域捕获双末端测序数据比对到参考基因组的结果;
提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;
提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;
对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;
根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数,所述断点的簇值是指将在同一个断点上的软剪切读段的值和PE异常的值累加得到的簇值,所述PE异常是指插入片段大小异常的读段对,但这些读段中不包含软剪切的结果;
分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;
对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
2.根据权利要求1所述的方法,其特征在于,在统计步骤之后和聚类步骤之前,所述方法还包括:过滤掉潜在的假阳性集合。
3.根据权利要求2所述的方法,其特征在于,所述假阳性集合包括如下至少一种:集合的支持数低于设定阈值,融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于设定阈值。
4.根据权利要求1所述的方法,其特征在于,在所述拼接之后,所述方法还包括:
若两个软剪切位点的基因组位置均落在所得到的簇区域内,则输出该基因融合结果,成功拼接的两条序列对应的软剪切位点区域视为融合的两个断点区域。
5.根据权利要求1所述的方法,其特征在于,在提取目标区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。
6.根据权利要求1所述的方法,其特征在于,所述目标区域的前后设定范围是前后200bp范围内;所述插入片段大小异常包括大于10Mb或一对读段分别比对到不同染色体上的情况;所述唯一比对序列的比对质量值和平均碱基质量值高于设定阈值;所述有效信息包括比对位置、序列碱基、比对质量值和比对标志。
7.根据权利要求1所述的方法,其特征在于,在提取成对扩展区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列;所述成对扩展区域是根据一条比对到目标区域另一条比对到非目标区域的成对读段位置信息得到。
8.一种用于检测目标区域基因融合的装置,其特征在于,所述装置包括:
比对结果获取模块,用于获取目标区域捕获双末端测序数据比对到参考基因组的结果;
目标区域信息提取模块,用于提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;
成对扩展区域信息提取模块,用于提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;
信息注释模块,用于对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;
断点统计打分模块,用于根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数,所述断点的簇值是指将在同一个断点上的软剪切读段的值和PE异常的值累加得到的簇值,所述PE异常是指插入片段大小异常的读段对,但这些读段中不包含软剪切的结果;
局部聚类模块,用于分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和
局部拼接模块,用于对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
9.一种用于检测目标区域基因融合的装置,其特征在于,所述装置包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1至7中任一项所述的方法。
CN201711107002.0A 2017-11-10 2017-11-10 用于检测目标区域基因融合的方法、装置和存储介质 Active CN107992721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711107002.0A CN107992721B (zh) 2017-11-10 2017-11-10 用于检测目标区域基因融合的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711107002.0A CN107992721B (zh) 2017-11-10 2017-11-10 用于检测目标区域基因融合的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN107992721A CN107992721A (zh) 2018-05-04
CN107992721B true CN107992721B (zh) 2020-03-31

Family

ID=62031426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711107002.0A Active CN107992721B (zh) 2017-11-10 2017-11-10 用于检测目标区域基因融合的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN107992721B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108624667A (zh) * 2018-05-15 2018-10-09 佛山市第人民医院(中山大学附属佛山医院) 一种基于二代测序的t细胞受体库分析方法及装置
CN108830044B (zh) * 2018-06-05 2020-06-26 序康医疗科技(苏州)有限公司 用于检测癌症样本基因融合的检测方法和装置
CN108875301B (zh) * 2018-06-07 2021-10-22 郑州云海信息技术有限公司 一种基因序列比对方法、pe配置控制器及可读存储介质
CN109698011B (zh) * 2018-12-25 2020-10-23 人和未来生物科技(长沙)有限公司 基于短序列比对的Indel区域校正方法及系统
CN110273028A (zh) * 2019-06-27 2019-09-24 深圳市海普洛斯生物科技有限公司 病毒整合型dna的富集方法、测序数据分析方法和装置
CN110387419B (zh) * 2019-08-20 2023-06-13 裕策医疗器械江苏有限公司 实体瘤多基因检测基因芯片及其制备方法和检测装置
CN111292809B (zh) * 2020-01-20 2021-03-16 至本医疗科技(上海)有限公司 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
CN112164423B (zh) * 2020-10-14 2021-03-23 深圳吉因加医学检验实验室 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN112687341B (zh) * 2021-03-12 2021-06-04 上海思路迪医学检验所有限公司 一种以断点为中心的染色体结构变异鉴定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298892A (zh) * 2014-09-18 2015-01-21 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
CN105543380A (zh) * 2016-01-27 2016-05-04 北京诺禾致源生物信息科技有限公司 一种检测基因融合的方法及装置
CN106815491A (zh) * 2016-12-29 2017-06-09 安诺优达基因科技(北京)有限公司 一种用于检测ffpe样本基因融合的装置
CN107133493A (zh) * 2016-02-26 2017-09-05 中国科学院数学与系统科学研究院 基因组序列的组装方法、结构变异探测方法和相应的系统
CN107229839A (zh) * 2017-05-25 2017-10-03 西安电子科技大学 一种基于新一代测序数据的Indel检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006113613A1 (en) * 2005-04-15 2006-10-26 Cedars-Sinai Medical Center 5′/3′ ratioing procedure for detection of gene rearrangements
US20120178635A1 (en) * 2009-08-06 2012-07-12 University Of Virginia Patent Foundation Compositions and methods for identifying and detecting sites of translocation and dna fusion junctions
WO2013097257A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因科技有限公司 一种检验融合基因的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298892A (zh) * 2014-09-18 2015-01-21 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
CN105543380A (zh) * 2016-01-27 2016-05-04 北京诺禾致源生物信息科技有限公司 一种检测基因融合的方法及装置
CN107133493A (zh) * 2016-02-26 2017-09-05 中国科学院数学与系统科学研究院 基因组序列的组装方法、结构变异探测方法和相应的系统
CN106815491A (zh) * 2016-12-29 2017-06-09 安诺优达基因科技(北京)有限公司 一种用于检测ffpe样本基因融合的装置
CN107229839A (zh) * 2017-05-25 2017-10-03 西安电子科技大学 一种基于新一代测序数据的Indel检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FACTERA: a practical method for the discovery of genomic rearrangements at breakpoint resolution;Aaron M.Newman etal;《BIOINFORMATICS APPLICATIONS NOTE》;20140820;第30卷(第23期);第3390–3393页 *

Also Published As

Publication number Publication date
CN107992721A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107992721B (zh) 用于检测目标区域基因融合的方法、装置和存储介质
CN108690871B (zh) 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN107944223B (zh) 基于二代测序的点突变检测过滤方法、装置和存储介质
CN107491666B (zh) 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN107423578B (zh) 检测体细胞突变的装置
CN114743594B (zh) 一种用于结构变异检测的方法、装置和存储介质
CN103993069A (zh) 病毒整合位点捕获测序分析方法
CN109658983A (zh) 一种识别和消除核酸变异检测中假阳性的方法和装置
CN111326212B (zh) 一种结构变异的检测方法
CN110491441A (zh) 一种模拟人群背景信息的基因测序数据仿真系统及方法
CN111718982A (zh) 一种肿瘤组织单样本体细胞突变检测方法及装置
CN107944228B (zh) 一种基因测序变异位点的可视化方法
CN103617256A (zh) 待变异检测文件的处理方法及装置
CN111341383A (zh) 一种检测拷贝数变异的方法、装置和存储介质
WO2018218787A1 (zh) 一种基于局部图的三代测序序列校正方法
JP6936961B2 (ja) 情報提供装置、端末、本人確認システム、情報提供方法及びプログラム
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN113724791A (zh) Cyp21a2基因ngs数据分析的方法、装置及应用
CN110556164B (zh) 用于目标区域捕获测序检测msi的方法、装置和存储介质
CN111180013B (zh) 检测血液病融合基因的装置
CN112687341B (zh) 一种以断点为中心的染色体结构变异鉴定方法
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
CN111584002B (zh) 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN112687339B (zh) 一种统计血浆dna片段测序数据中序列错误的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant