CN111583996B - 一种模型非依赖的基因组结构变异检测系统及方法 - Google Patents
一种模型非依赖的基因组结构变异检测系统及方法 Download PDFInfo
- Publication number
- CN111583996B CN111583996B CN202010313833.9A CN202010313833A CN111583996B CN 111583996 B CN111583996 B CN 111583996B CN 202010313833 A CN202010313833 A CN 202010313833A CN 111583996 B CN111583996 B CN 111583996B
- Authority
- CN
- China
- Prior art keywords
- variation
- nodes
- frequent
- genome
- subgraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种模型非依赖的基因组结构变异检测系统及方法,以模型非依赖结构变异检测理论为核心,通过变异信号提取模块、频繁最大子图挖掘模块和分类模块,实现了不依靠任何变异模型的结构变异检测。频繁变异模式挖掘模块正是抓住了结构变异遗留在基因组上的特征,仅仅通过挖掘大量正常数据中的异常点来判断潜在结构变异区域;其次,根据不同变异类型扰动基因组的方式不同,进而导致变异信号的不同排列顺序,基于此结合具有记忆功能的深度学习模型对不同变异类型进行分类。本发明不依靠任何变异模型,因此变异的检测灵敏度和错误率大大降低,并且适用于复杂变异类型的检测,不需要建立额外的结构变异模型。
Description
技术领域
本发明属于精准医疗技术领域,涉及一种模型非依赖的基因组结构变异检测系统及方法。
背景技术
世界上,没有两个人具有完全相同的基因组序列。即使是同卵双胞胎的基因组在发育分化过程中也会出现遗传物质上的后天差异。对大多数疾病来说,人们是否患病往往与自身携带的疾病易感基因变异相关。因此,了解个体基因组变异有助于人们掌握患病的风险,是实现精准医疗的关键。近年来,基因组测序技术迅猛发展,世界各国越来越多的科研机构、医院、疾病诊断服务公司对全球多种族人群、多种常见肿瘤和遗传疾病开展基于大样本的基因测序,目的在于揭示肿瘤等疾病的致病机理,改进复杂疾病的治疗法案,最终达到对病人的精准诊断和精准治疗。例如英美主导的千人基因组计划,从全球26个种族,共2535样本中收集民族特异性的基因组变异。美国于2005年启动肿瘤基因组路线图计划(TheCancer Genome Atlas),绘制30多种常见肿瘤的基因组变异图谱。英国于2010年启动UK10K,即英国万人基因组计划,研究在英国的各种族携带的基因组变异,并延伸探索变异与疾病、变异与药物治疗的相关性。
基因组变异主要以三种形式存在,分别是单碱基变异(SNP),短的插入缺失(INDEL)和结构变异(SV)。相较于其余两种变异形式,结构变异是较大尺度的变异,例如大片段缺失、插入,反转,易位等。虽然结构变异在人类基因组上相比较SNP和INDEL出现频率较低,但越来越多的研究表明基因组结构变异跟很多遗传病、肿瘤等的发生有着密切的关系,比如由基因组易位引起的融合基因导致了白血病的发生。随着我国人口老龄化问题加剧,癌症的发病率越来越高,当前市场上的检测多是针对已知靶标的定向检测,然而临床上仍存在大量未知原因引起的疾病,因此随着二代测序数据价格的不断下跌,全基因组检测将会成为临床诊断的另一趋势。目前对于全基因组结构变异检测的主要步骤包含:(1)建立基因组结构变异的模型;(2)推断该模型在测序数据比对结果中可能反应出的特征;(3)根据推断的变异信号特征鉴别结构变异。基于以上检测思路开发的工具,例如Pindel、CNVnator、GenomeSTRiP等方法在欧洲基因组研究所(EBI)、梅奥诊所(Mayo Clinic)、圣地亚哥儿童医院等国际顶尖科研医疗机构和Seven Bridge等公司都有着广泛的应用。
上述“先建模、后计算”的架构,在基因组数据分析方法学开发的起始阶段有助于迅速建立模型,理解变异信号的基本模式,在实际运用中推动了生物医学的发展。但是,由于不同的解决方案依赖的变异信号特征不同造成了这一些方案对不同大小范围、不同变异类型,变异的检测灵敏度和错误率千差万别,例如图1和图2所示,对于删除的不同变异信号模式。另一方面,随着简单变异类型的攻克以及越来越多的研究表明基因组复杂结构变异(图3)在疾病中的重要性,例如2015年《Nature》上首次全面介绍了基因组复杂结构变异以及2017年《Genome Biology》对689个Autism病人的研究,该研究发现了16种不同的复杂变异类型并深入分析了它们在疾病形成过程的作用,因此仅仅依靠建模的方法来设计检测系统已经无法满足未来检测的需求。
为了解决上述问题,大多数工具都采用打补丁的方式,也就是将新的变异类型的模型加入到原有工具当中。这其中最典型的就是针对第三代测速数据的检测算法Sniffles,该算法通过添加额外模型来检测两种复杂结构变异类型。然而测序技术发展至今,研究人员对基因组结构变异的了解仍是冰山一角,这种通过打补丁的方式检测结构变异的方法治标不治本。更重要的是,这种基于建模思路开发的工具由于要针对每种变异类型编写特定的代码,因此此类工具代码尤其复杂并且可读性差,这也直接导致了计算效率低和维护困难,例如被梅奥诊所(Mayo clinic)、七桥公司(Seven Bridge)等使用的Pindel检测工具,使用多核对一个30X全基因组测序的样本进行检测仍需要20小时以上。
综上所述,尽管经过近10年的发展,科研人员利用基因组测序数据检测简单类型变异,并将该信息运用到研究人类进化、种群迁移和融合、疾病的机理和治疗方案中,极大的推动了生物医学的发展。然而这种“先建模,后计算”的变异检测方法设计理论已经无法满足未来科研、医院和基因检测服务提供商对变异检测的需求。
发明内容
针对现有技术中存在的问题,本发明提供一种模型非依赖的基因组结构变异检测系统及方法,实现了不依靠任何变异模型的基因组结构变异检测。
本发明是通过以下技术方案来实现:
一种模型非依赖的基因组结构变异检测系统,包括:
比对模块,用于将测序数据与参考基因组进行比对,确定测序数据在参考基因组上的坐标并得到比对结果;
变异信号提取模块,用于从比对结果中提取构建变异信号图所需的节点以及建立节点之间的连接关系,以构建变异信号图;
频繁最大子图挖掘模块,用于采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图,并根据频繁最大子图中的节点自带属性的特点判断与该频繁最大子图对应的结构变异在基因组上的具体位置。
优选的,变异信号提取模块包括:
提取过滤模块,用于根据比对结果,通过一遍I/O,过滤掉噪音信号,提取出变异信号;
变异信号图构建模块,用于将潜在变异断点附近的同一种类型的变异信号整合在一起构成变异信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率和比对方向,按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声节点;过滤后的节点按照其在参考基因组上出现的位置保存在变异特征映射数据库中,同时建立节点的连接关系,得到变异信号图。
优选的,频繁最大子图挖掘模块包括:
挖掘模块,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特征映射数据库,此时n=1;在变异特征映射数据库中当前记录的下游D范围以内或满足读段连接关系的节点中,查找不同于当前记录的节点且节点的数值属性高于预设阈值,使用模式增长法构造包含n+1个节点的子图,将n+1更新为n并相应的更新变异特征映射数据库;重复模式增长法,直到构造的变异特征映射数据库小于预设阈值,得到变异信号图中的所有频繁最大子图;
变异位置确定模块,用于通过频繁最大子图中的不同类型节点的连接关系、裂解读段坐标和部分比对坐标来确定该频繁最大子图对应的结构变异在基因组中的位置。
进一步的,D设置为3倍的测序文库片段的标准差加测序文库片段平均值。
进一步的,变异位置确定模块使用较差匹配原则辅助判断结构变异在基因组中的位置。
一种模型非依赖的基因组结构变异检测方法,包括如下步骤:
步骤1,将测序数据与参考基因组进行比对,确定测序数据在参考基因组上的坐标并得到比对结果;
步骤2,从步骤1的比对结果中提取变异信号并将变异信号聚类合并生成变异信号图的节点,然后根据节点的构成元素建立节点之间的连接关系,构建得到变异信号图;
步骤3,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图,并判断频繁最大子图对应的结构变异在基因组中的位置。
优选的,步骤2具体包括:
1)提取变异信号:根据步骤1的比对结果,通过一遍I/O,过滤掉噪音信号,提取出变异信号;
2)将潜在变异断点附近的同一种类型的变异信号整合在一起,生成信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率和比对方向,按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声节点;过滤后的节点按照其在参考基因组上出现的位置保存在变异特征映射数据库中,同时建立节点的连接关系,得到变异信号图。
优选的,步骤3中,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图具体是采用加入距离约束和超项目数值属性约束的PrefixSpan算法进行:
1)找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特征映射数据库,该步骤中,n=1;
2)在变异特征映射数据库中当前记录的下游D范围以内或满足读段连接关系的节点中,查找不同于当前记录的节点且节点的数值属性高于预设阈值,使用模式增长法构造包含n+1个节点的频繁子图,将n+1更新为n并相应的更新变异特征映射数据库;
3)重复步骤2),直到构造的变异特征映射数据库小于预设阈值,从而得到变异信号图中的所有频繁最大子图。
优选的,步骤3中,采用频繁最大子图挖掘算法进行多样本同时挖掘。
优选的,步骤3中,判断频繁最大子图对应的结构变异在基因组中的位置是根据频繁最大子图中的不同类型节点的连接关系、裂解读段坐标和部分比对坐标,使用较差匹配原则辅助判断精确变异断点位置,其具体过程为:基于模式增长的字符串模糊匹配算法,变异断点一侧匹配到基因组上的序列记为M,另一侧未比对上的序列记为S,默认容错为2的交叉匹配正链最长序列记为L,负链记为K;当L>K>=20%*max(length(M),length(S))时,得到正链最佳匹配,反之如果K>L>=20%*max(length(M),length(S))时认为是负链最佳匹配。
与现有技术相比,本发明具有以下有益的技术效果:
本发明的模型非依赖的基因组结构变异检测系统以模型非依赖结构变异检测理论为核心,通过变异信号提取模块、频繁最大子图挖掘模块,实现了不依靠任何变异模型的结构变异检测。频繁最大子图挖掘模块正是抓住了结构变异遗留在基因组上的特征,仅仅通过挖掘大量正常数据中的异常点来判断潜在结构变异区域;其次,根据不同变异类型扰动基因组的方式不同,进而导致变异信号子图的构成不同。本发明不依靠任何变异模型,因此变异的检测灵敏度和错误率大大降低,并且适用于复杂变异类型的检测,不需要建立额外的结构变异模型。本发明所涉及的基因组结构变异检测系统是实现精准诊断的核心技术,同时抓住新一代测序技术所带来的精准医疗发展的重大机遇,勇于挑战最前沿的科学问题,创建变异检测新理论。本发明面向国家重大需求,研究国家战略性新兴产业“精准医疗”中的核心问题,有利于我国在基因组变异检测这一战略必争领域中,打破重大关键核心技术受制于人的局面,更有利于开辟新的“精准医疗”相关产业发展方向,培育新的经济增长点。
本发明首次提出模型非依赖的检测理论和根据该理论设计检测算法,通过变异信号提取、频繁最大子图挖掘,实现了不依靠任何变异模型的结构变异检测,同时通过舍弃变异模型的方式大大降低了算法实现的复杂度,简化了程序设计。本发明创新的使用频繁最大子图挖掘算法并结合实际问题进行了优化,进而完成对结构变异的检测;由于频繁最大子图挖掘算法具有很好的线性时间复杂度,轻量级的算法提升了结构变异的效率,30X的全基因组检测只需要30分钟,其中90%以上的检测时间用于原始比对文件的I/O读取,这一点使其可以满足临床快速检测的需求,并且该理论可以针对不同测序平台,包括并不限于第二代和第三代测序技术。其中关键点在于如何结合不同测序技术特点提取变异信号。
进一步的,频繁最大子图挖掘算法基于PrefixSpan算法,通过加入基因组距离和测序数据比对特征读段对和裂解读段产生的连接关系约束模式增长,达到在基因组上发现连续的变异信号富集区域。频繁最大子图挖掘不限于使用基于PrefixSpan的算法,其它模式挖掘算法同样适用。这里使用基于PrefixSpan的算法是根据其良好的时间和空间复杂度。
进一步的,频繁最大子图挖掘算法可以扩展到多样本同时检测,在多样本模式下,变异特征映射数据库的每一条序列对应每个样本提取的变异信号特征,通过对多样本变异特征数据库挖掘得到结果。采取多样本联合检测的优势在于,由于基因组自身的重复性和测序过程中的错误,数据点可能比对到基因组错误区间,导致假变异信号。然而,由于相同变异类型在基因组上有多个实例,且样本间具有局部相似性,相同变异模式会在样本间、样本内超长维度上频繁出现。因此,在高噪声、大量关键信号缺失并存情况下,基于横向多位点、纵向多样本的变异模式相似性特征,提高变异模式挖掘的灵敏度和准确率进而满足临床的需求。由于算法良好的时间和空间复杂度,多样本联合检测的复杂度成线性增长模式。
附图说明
图1为删除变异异常信号;a、b中深色条带装部分表示删除变异在基因组上留下的变异信号,两个实例中均包含明显的裂解读段和部分比对,其中b还包含较强异常读段对信号
图2为大于1000bp删除变异异常信号;a、b分别表示两种较大删除变异及其对应信号。其中a、b都包含明显异常比对读段对,但是a中的裂解比对和部分比对信号要更强。
图3为复杂结构变异异常信号;
图4为本发明模型非依赖结构变异检测理论关键步骤;
图5为针对第二代双端测序数据的模型非依赖结构变异检测算法流程;
图6为针对虚拟复杂结构变异检测的性能比较。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明提出了一种模型非依赖的基因组结构变异检测新理论,同时设计了一种基于新理论的针对第二代测序数据的高效基因组结构变异检测系统及方法。
本发明提出的模型非依赖结构变异检测理论(图4),具体表述为,对于各种不同的测序技术,结构变异都会将某种特定的异常形式保留在测序数据当中。因此,通过收集变异遗留的信号特征,同时使用模式识别、人工智能等方法识别变异存在的区域并判断其类型,达到结构变异检测目的。根据该理论设计算法的核心主要包含:(1)根据相应测序技术的特点提取变异信号;(2)根据变异信号设计变异模式检测算法;(3)根据(2)中变异模式并结合测序数据特点判断变异类型。
本发明针对提出的新检测理论,设计了一种针对第二代双端测序数据的高效多样本结构变异检测方法,流程如图5所示:
该方法具体包含以下几个步骤:
步骤1,将第二代双端测序数据与参考基因组进行比对,确定第二代双端测序数据在参考基因组上的坐标并得到比对结果。
检测基因组结构变异的第一步在于确定第二代双端测序数据在参考基因组上的坐标,即确定每个数据点的两个有向字符串短序列在30亿长的基因组上的最佳位置。
对于步骤1,目前该分析经过若干年发展,研究已经较为透彻,通常使用基于后缀数组和哈希表来完成该步骤。比对步骤包括seed generation、seed extension以及比对结果的输出。其中seed generation步骤用后缀数组或哈希表来确定某个数据点与哪一些基因组位点有一定相似性。其后通过seed extension完整比对整个数据点,确定最佳基因组位点。代表性的工具包括BWA-MEM,Bowtie,Novoalign等。
步骤2,从步骤1的比对结果中提取变异信号并存储:根据第二代双端测序数据的比对结果,通过一遍I/O,过滤掉噪音信号,提取出可靠变异信号,同时将相似变异信号进行聚类得到变异信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率、比对方向等可用信息。同时根据预先设置的变异信号强度、等位基因频率等去除可能存在的超项目中的背景噪声。随后把过滤后的节点按照参考基因组位置存入变异特征映射数据库中,并根据比对信息建立节点之间的连接关系,得到变异信号图。
步骤2具体包括提取变异信号和生成超项目两个步骤:
1)提取变异信号:经过步骤1的比对并将第二代双端测序数据定位在参考基因组坐标上后,在该步骤中从比对结果中查找任何异常情况。如果第二代双端测序数据中的一个数据点支持样本在其定位处局部不含有任何变异,则该数据点包含的一对有向字符串短序列与基因组长字符串无差别,且两字符串的方向和距离也是正常的。否则,该数据点带有变异信号:单碱基差异(mismatch),在样本带有单核苷酸突变时,多个数据点在同一个参考基因组位点会出现单个碱基与参考基因组序列的差别,同时基因组测序过程中的数据误差也会带来在基因组不同位点随机分布的单碱基差异;插入缺失差异(gap),如果相对参考基因组序列,样本在某一个基因组位点有一短序列的插入或者缺失,比对到该位点的多个数据点也会带有该插入缺失差异;部分比对(soft-clip),如果一个读段序列正好跨越一个较大的结构变异时,常用比对软件只能把读段在当前区域的相似位点找到,而与其它基因组区间比对的序列用soft-clip标记,即读段序列的一段能够与参考基因组比对上,另一段比对不上;片段裂解(split-read),在遇到部分比对结果时,通过类似于Pindel的软件将另外一段的序列也比对上,该片段裂解比对的结果携带同一个变异的两个变异断点之间连接的准确序列信息;异常比对读段对(discordant read pair),当一对读段对跨越一个变异或者一个变异断点两端时,该读段对将呈现异常特征,如读段对中两端读段之间距离缩短或增加,两端读段相对的方向和位置偏离正常特征;覆盖深度(read depth),当基因组的一个区间发生扩增或者缺失时,该区间的覆盖深度,即读段的个数将上升或者下降。
2)变异信号合并得到变异信号图的节点:提取变异信号以后,理论上直接运用序列模式挖掘算法,但是在一个变异断点附近可能有较多支持变异的数据点,且不同层次的变异信号可能交织在一起,难以观测到本质上应当存在的顺序关系。另外,测序数据中常见的噪声信号也会随机出现,干扰序列模式挖掘计算。因此,需要对同一个变异断点附近的同一种类型的变异信号整合在一起,只保留在局部信号连续排列且强度较高的。在得到节点后,会按照预先设置的变异信号强度、等位基因频率的参数过滤噪声节点。过滤后的节点会按照其在参考基因组上出现的位置保存在变异特征映射数据库中,这个变异特征映射数据库可以根据用户需求放在内存中或输出成文本形式以便于后续频繁最大子图挖掘算法使用。
步骤3,频繁最大子图挖掘:根据步骤2得到的变异特征映射数据库,设计针对带有访问顺序的频繁最大子图挖掘算法。根据该特殊设计的算法从变异信号图中检测出频繁最大子图,即频繁变异模式;然后结合第二代双端测序数据特征完善频繁变异模式和去除冗余频繁变异模式并判断频繁变异模式对应的结构变异在基因组中的准确位置;
频繁最大子图挖掘具体过程如下:
(1)挖掘频繁最大子图
使用鸟枪法对个体进行基因组测序后,把测序的数据点比对到参考基因组序列上,在样本和参考基因组一致的地方,数据点均匀覆盖且无大范围变异信号聚集,而只有由于测序错误产生的零星微弱变异信号随机分布。但是,在样本和参考基因组有差别的地方,即样本的变异断点附近会出现多种变异信号,而且信号较强。由于不同的变异对测序数据扰动的模式不一样,其变异断点处变异信号排列模式(即变异模式)也各不同。例如,在缺失变异的左断点出现RP+L、SR+、RD-的长度为3的变异模式,其中RP+L表示数据点的左端读段(read)出现且读段对(paired-end read)间距偏大;SR+表示从左到右跨过变异断点的读段;RD-表示从左到右覆盖深度从高到低。而在倒置变异的左断点出现RP+I、SR+I的变异模式,其中RP+I表示数据点的左端读段出现且另外一个读段的方向反转;SR+I表示从左到右跨过变异断点的读段且另外一个读段的方向反转。在本发明中,不预先设定变异信号的模型,直接从测序数据中同时挖掘不同变异信号构成的最大频繁子图和每一个子图对应的结构变异在基因组中的位点。
在数据挖掘领域,通常使用PrefixSpan算法来挖掘频带有顺序约束的频繁模式,该算法具有良好的空间和时间复杂度。但是在挖掘到的排列模式中只有前后排列顺序的信息,相邻项目之间的距离完全没有约束,即可能距离很远,也可能紧挨着。同时每个项目都是没有数值强弱信息的同等单元。但是基因组变异的挖掘需要在基因组局部较小的区间里面发现密集出现的强变异信号的连接模式,即在数据挖掘过程中对不同变异信号之间的距离和单个信号本身的强度都有约束。因此,将在PrefixSpan基本算法基础上,加入变异信号图中节点之间的距离约束和扩展模式时对新加入的节点的强度约束。
加入距离约束和节点数值属性约束的PrefixSpan算法如下:
1)找到包含1个节点的(记为n)的频繁子图及其在参考基因组位点上的变异特征映射数据库,为了减少变异特征映射数据库所需的内存空间,这里采用伪映射的方式,只存储每个后缀序列和其对应前缀的检索值。该项目自身数值属性需要高于预设阈值;
2)通过变异信号图中当前节点D范围以内的邻接边或满足读段连接关系的节点中,查找不同于当前记录的节点且节点的数值属性需要高于预设阈值,使用模式增长法构造包含n+1个节点的频繁子图,将n+1更新为n并更新其在参考基因组位点上的变异特征映射数据库;其中,D通常设置为3倍的测序文库片段的标准差加测序文库片段平均值;节点连接关系主要来自构成节点的读段对和裂解比对,通过节点间的连接关系判断当前变异模式能否继续增长。
3)重复2),直到构造的变异特征映射数据库小于一个预设阈值(定义变异模式是否频繁的阈值),即变异模式在参考基因组上的位点数(变异模式出现次数)小于该预设阈值,从而得到变异信号图中所有的频繁最大子图(即频繁变异模式)。其中,变异模式出现次数定义为该变异模式出现在所有序列中的频数。
PrefixSpan算法中,距离约束作为用户输入参数,默认值为测序文库中片段长度的平均值。
除此之外,使用较差匹配原则辅助判断精确变异断点位置,其具体过程为:该方法是基于模式增长的字符串模糊匹配算法,可以同时比对基因组正负双链。变异断点一侧匹配到基因组上的序列记为M,另一侧未比对上的序列记为S,默认容错为2的交叉匹配正链最长序列记为L,负链记为K。当L>K>=20%*max(length(M),length(S))时,得到正链最佳匹配,反之如果K>L>=20%*max(length(M),length(S))时认为是负链最佳匹配,此时该变异断点可能为反转变异断点。
本发明采用第二代双端测序数据进行检测,原因是第二代测序技术价格便宜,数据量大,临床应用比较容易实现。
本发明针对提出的新检测理论,还设计了一种模型非依赖的基因组结构变异检测系统,包括:
比对模块,用于将测序数据与参考基因组进行比对,确定测序数据在参考基因组上的坐标并得到比对结果;
变异信号提取模块,用于从比对结果中提取变异信号并聚类合并生成变异信号图中的节点,以及变异信号图图中节点之间的连接关系,以构建变异信号图;该变异信号图包含邻接边和成对边,这两种边对应不同的节点关系,并且可能同时存在于两个节点之间。
频繁最大子图挖掘模块,用于采用加入距离约束、测序特征和节点数值属性约束的频繁最大子图挖掘算法,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图,并判断频繁变异模式对应的结构变异在基因组中的位置。
变异信号提取模块包括:
提取过滤模块,用于根据比对结果,通过一遍I/O,过滤掉噪音信号,提取出变异信号;
变异信号图构建模块,首先将潜在变异断点附近的同一种类型的变异信号整合在一起构成变异信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率和比对方向,按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声节点;过滤后的节点按照其在参考基因组上出现的位置保存在变异特征映射数据库中,同时建立节点的连接关系,得到变异信号图。。
频繁最大子图挖掘模块包括:
挖掘模块,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法。该问题的挖掘受限于每个节点的访问顺序,即按照基因组从左到右进行图遍历,因此该方法采用prefixSpan算法的策略挖掘带顺序限制的频繁最大子图。采用加入距离约束和超项目数值属性约束的PrefixSpan算法,找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特征映射数据库,此时n=1;通过当前节点记录的边搜索与其存在连接关系的节点,查找到的节点数值属性高于预设阈值,其次,使用模式增长法构造包含n+1个节点的频繁子图,将n+1更新为n并相应的更新变异特征映射数据库;重复模式增长法,直到构造的变异特征映射数据库小于预设阈值,得到变异信号图中的所有频繁最大子图;
变异位置确定模块,用于根据频繁最大子图中的不同类型节点的连接关系、裂解读段坐标和部分比对坐标来确定频繁最大子图对应的结构变异在基因组中的位置,使用较差匹配原则辅助判断精确变异断点位置:基于模式增长的字符串模糊匹配算法,变异断点一侧匹配到基因组上的序列记为M,另一侧未比对上的序列记为S,默认容错为2的交叉匹配正链最长序列记为L,负链记为K;当L>K>=20%*max(length(M),length(S))时,得到正链最佳匹配,反之如果K>L>=20%*max(length(M),length(S))时认为是负链最佳匹配。
仿真实例
为了比较该模型非依赖算法与其他结构变异检测算法的性能,本发明从千人基因组计划中选取了最新的三个二代测序样本,每个样本的平均测序深度为75X。选取这三个样本主要有以下几个原因,首先这三个样本来自国际千人基因组计划,其整个实验流程及测序数据产生都达到了高标准,被领域内同行和专家所认可;其次,千人基因组对包含这三个样本在内的2500个样本基于不同测序技术进行了全面的结构变异检测,并分别与2015和2019在《自然》以及《自然·通讯》上发表了相应研究成果,因此本发明可以基于此构建针对此三个样本的高质量标准集;第三,选取的三个样本都是深度测序,每个样本的原始比对文件的大小都在120Gb左右,该数据可以很好的检验和评估不同方法对计算资源的消耗。另外,常用结构变异检测测序深度为30X和5X,对该数据进行下采样,可以评估在不同测序深度情况下不同算法的性能。
本发明选取了三个在领域内得到高度认可和广泛使用的算法进行性能比较,分别为Breakdancer、Delly和Lumpy。虽然这些算法都提供了多核运行的方法,本发明首先比较了在高性能计算平台上只使用单核运行模式,每个算法运行的计算配置完全一致。比较运行结果,发现本发明模型非依赖算法(图6中Mako代表本发明方法)在灵敏上和其他方法有明显提高,这说明了该全新的算法设计理论是可行的。对于临床应用,大幅度降低计算分析方法对硬件设备的要求是推进全基因组测序走进临床的一个巨大挑战。为了进一步验证该算法在轻量级计算设备上的计算能力,本发明选用了一个拥有16Gb内存,Intel i7处理器的个人电脑进行了测试。结果显示该算法可以在90min完成120Gb的检测,30min完成针对30X测序深度(50Gb)数据的检测。
Claims (10)
1.一种模型非依赖的基因组结构变异检测系统,其特征在于,包括:
比对模块,用于将测序数据与参考基因组进行比对,确定测序数据在参考基因组上的坐标并得到比对结果;
变异信号提取模块,用于从比对结果中提取构建变异信号图所需的节点以及建立节点之间的连接关系,以构建变异信号图;
频繁最大子图挖掘模块,用于采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图,并根据频繁最大子图中的节点自带属性的特点判断与该频繁最大子图对应的结构变异在基因组上的具体位置。
2.根据权利要求1所述的模型非依赖的基因组结构变异检测系统,其特征在于,变异信号提取模块包括:
提取过滤模块,用于根据比对结果,通过一遍I/O,过滤掉噪音信号,提取出变异信号;
变异信号图构建模块,用于将潜在变异断点附近的同一种类型的变异信号整合在一起构成变异信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率和比对方向,按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声节点;过滤后的节点按照其在参考基因组上出现的位置保存在变异特征映射数据库中,同时建立节点的连接关系,得到变异信号图。
3.根据权利要求1所述的模型非依赖的基因组结构变异检测系统,其特征在于,频繁最大子图挖掘模块包括:
挖掘模块,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特征映射数据库,此时n=1;在变异特征映射数据库中当前记录的下游D范围以内或满足读段连接关系的节点中,查找不同于当前记录的节点且节点的数值属性高于预设阈值,使用模式增长法构造包含n+1个节点的子图,将n+1更新为n并相应的更新变异特征映射数据库;重复模式增长法,直到构造的变异特征映射数据库小于预设阈值,得到变异信号图中的所有频繁最大子图;
变异位置确定模块,用于通过频繁最大子图中的不同类型节点的连接关系、裂解读段坐标和部分比对坐标来确定该频繁最大子图对应的结构变异在基因组中的位置。
4.根据权利要求3所述的模型非依赖的基因组结构变异检测系统,其特征在于,D设置为3倍的测序文库片段的标准差加测序文库片段平均值。
5.根据权利要求3所述的模型非依赖的基因组结构变异检测系统,其特征在于,变异位置确定模块使用较差匹配原则辅助判断结构变异在基因组中的位置。
6.一种模型非依赖的基因组结构变异检测方法,其特征在于,包括如下步骤:
步骤1,将测序数据与参考基因组进行比对,确定测序数据在参考基因组上的坐标并得到比对结果;
步骤2,从步骤1的比对结果中提取变异信号并将变异信号聚类合并生成变异信号图的节点,然后根据节点的构成元素建立节点之间的连接关系,构建得到变异信号图;
步骤3,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图,并判断频繁最大子图对应的结构变异在基因组中的位置。
7.根据权利要求6所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤2具体包括:
1)提取变异信号:根据步骤1的比对结果,通过一遍I/O,过滤掉噪音信号,提取出变异信号;
2)将潜在变异断点附近的同一种类型的变异信号整合在一起,生成信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率和比对方向,按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声节点;过滤后的节点按照其在参考基因组上出现的位置保存在变异特征映射数据库中,同时建立节点的连接关系,得到变异信号图。
8.根据权利要求6所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤3中,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图具体是采用加入距离约束和超项目数值属性约束的PrefixSpan算法进行:
1)找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特征映射数据库,该步骤中,n=1;
2)在变异特征映射数据库中当前记录的下游D范围以内或满足读段连接关系的节点中,查找不同于当前记录的节点且节点的数值属性高于预设阈值,使用模式增长法构造包含n+1个节点的频繁子图,将n+1更新为n并相应的更新变异特征映射数据库;
3)重复步骤2),直到构造的变异特征映射数据库小于预设阈值,从而得到变异信号图中的所有频繁最大子图。
9.根据权利要求6所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤3中,采用频繁最大子图挖掘算法进行多样本同时挖掘。
10.根据权利要求6所述的模型非依赖的基因组结构变异检测方法,其特征在于,步骤3中,判断频繁最大子图对应的结构变异在基因组中的位置是根据频繁最大子图中的不同类型节点的连接关系、裂解读段坐标和部分比对坐标,使用较差匹配原则辅助判断精确变异断点位置,其具体过程为:基于模式增长的字符串模糊匹配算法,变异断点一侧匹配到基因组上的序列记为M,另一侧未比对上的序列记为S,默认容错为2的交叉匹配正链最长序列记为L,负链记为K;当L>K>=20%*max(length(M),length(S))时,得到正链最佳匹配,反之如果K>L>=20%*max(length(M),length(S))时认为是负链最佳匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313833.9A CN111583996B (zh) | 2020-04-20 | 2020-04-20 | 一种模型非依赖的基因组结构变异检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313833.9A CN111583996B (zh) | 2020-04-20 | 2020-04-20 | 一种模型非依赖的基因组结构变异检测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111583996A CN111583996A (zh) | 2020-08-25 |
CN111583996B true CN111583996B (zh) | 2023-03-28 |
Family
ID=72123562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010313833.9A Active CN111583996B (zh) | 2020-04-20 | 2020-04-20 | 一种模型非依赖的基因组结构变异检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583996B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420122B (zh) * | 2020-11-04 | 2021-06-22 | 南京大学 | 一种内分泌干扰物与核受体作用的别构位点识别方法 |
CN112599193A (zh) * | 2021-03-02 | 2021-04-02 | 北京橡鑫生物科技有限公司 | 结构变异检测模型、其构建方法和装置 |
CN113963746B (zh) * | 2021-09-29 | 2023-09-19 | 西安交通大学 | 一种基于深度学习的基因组结构变异检测系统及方法 |
CN114155914B (zh) * | 2021-12-01 | 2024-06-25 | 复旦大学 | 基于宏基因组拼接错误的检测校正系统 |
CN115910199B (zh) * | 2022-11-01 | 2023-07-14 | 哈尔滨工业大学 | 一种基于比对框架的三代测序数据结构变异检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014183270A1 (zh) * | 2013-05-15 | 2014-11-20 | 深圳华大基因科技有限公司 | 一种检测染色体结构异常的方法及装置 |
WO2015000284A1 (zh) * | 2013-07-05 | 2015-01-08 | 中国科学院数学与系统科学研究院 | 一种测序序列映射方法及系统 |
CN110010193A (zh) * | 2019-05-06 | 2019-07-12 | 西安交通大学 | 一种基于混合策略的复杂结构变异检测方法 |
CN110491441A (zh) * | 2019-05-06 | 2019-11-22 | 西安交通大学 | 一种模拟人群背景信息的基因测序数据仿真系统及方法 |
CN110600078A (zh) * | 2019-08-23 | 2019-12-20 | 北京百迈客生物科技有限公司 | 一种基于纳米孔测序检测基因组结构变异的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080045A1 (en) * | 2017-09-13 | 2019-03-14 | The Jackson Laboratory | Detection of high-resolution structural variants using long-read genome sequence analysis |
-
2020
- 2020-04-20 CN CN202010313833.9A patent/CN111583996B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014183270A1 (zh) * | 2013-05-15 | 2014-11-20 | 深圳华大基因科技有限公司 | 一种检测染色体结构异常的方法及装置 |
WO2015000284A1 (zh) * | 2013-07-05 | 2015-01-08 | 中国科学院数学与系统科学研究院 | 一种测序序列映射方法及系统 |
CN110010193A (zh) * | 2019-05-06 | 2019-07-12 | 西安交通大学 | 一种基于混合策略的复杂结构变异检测方法 |
CN110491441A (zh) * | 2019-05-06 | 2019-11-22 | 西安交通大学 | 一种模拟人群背景信息的基因测序数据仿真系统及方法 |
CN110600078A (zh) * | 2019-08-23 | 2019-12-20 | 北京百迈客生物科技有限公司 | 一种基于纳米孔测序检测基因组结构变异的方法 |
Non-Patent Citations (2)
Title |
---|
基于特征挖掘的基因组缺失变异集成检测方法;张晓东等;《计算机科学》;20170115(第01期);全文 * |
基于读分割最优匹配的indels识别算法;王春宇等;《软件学报》;20171015(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111583996A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583996B (zh) | 一种模型非依赖的基因组结构变异检测系统及方法 | |
CN110010193B (zh) | 一种基于混合策略的复杂结构变异检测方法 | |
US11560598B2 (en) | Systems and methods for analyzing circulating tumor DNA | |
CA2424031C (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
US9165109B2 (en) | Sequence assembly and consensus sequence determination | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
CN113168886A (zh) | 用于使用神经网络进行种系和体细胞变体调用的系统和方法 | |
CA2930597A1 (en) | Methods for the graphical representation of genomic sequence data | |
CN114743594B (zh) | 一种用于结构变异检测的方法、装置和存储介质 | |
CN113160986B (zh) | 用于预测全身炎症反应综合征发展的模型构建方法及系统 | |
CN111243663A (zh) | 一种基于模式增长算法的基因变异检测方法 | |
CN109545283A (zh) | 一种基于序列模式挖掘算法的系统发生树构建方法 | |
Behboudi et al. | RPTRF: A rapid perfect tandem repeat finder tool for DNA sequences | |
Sobkowiak et al. | Comparing Mycobacterium tuberculosis transmission reconstruction models from whole genome sequence data | |
US20230298701A1 (en) | Deep-learning-based techniques for generating a consensus sequence from multiple noisy sequences | |
CN110819700A (zh) | 一种构建肺部小结节计算机辅助检测模型的方法 | |
CN114566221A (zh) | 遗传病ngs数据自动化分析解读系统 | |
CN113963746B (zh) | 一种基于深度学习的基因组结构变异检测系统及方法 | |
Armstrong | Enabling comparative genomics at the scale of hundreds of species | |
Esim et al. | Determination of malignant melanoma by analysis of variation values | |
CN105956417A (zh) | 云环境下基于编辑距离的相似碱基序列查询方法 | |
Martin | Algorithms and tools for the analysis of high throughput DNA sequencing data | |
Wojciechowski et al. | G-MAPSEQ–a new method for mapping reads to a reference genome | |
Lincy et al. | Analyzing DNA Pattern Matching through String Similarity Measurements in Cancer Sequence Data | |
Lloyd-Williams | Case studies in the data mining approach to health information analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |