CN110010193A

CN110010193A - 一种基于混合策略的复杂结构变异检测方法

Info

Publication number: CN110010193A
Application number: CN201910370728.6A
Authority: CN
Inventors: 王妙; 王嘉寅; 张选平; 韩博; 刘涛; 管彦芳; 王旭文; 王申杰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-07-12
Anticipated expiration: 2039-05-06
Also published as: CN110010193B

Abstract

本发明公开了一种基于混合策略的复杂结构变异检测方法，收集并统计双末端测序生成读对的插入片段长度分布和链向信息，确定读对比对链向、插入片段长度和两端读段比对到的染色体出现异常的读对；采用双末端映射法、局部组装法和分裂读段法的混合策略对断点进行识别；断点是一对参考基因组上的坐标，在样品中相邻，但在参考基因组上分隔；根据比对结果更新断点位置信息，将记录结构变异断点信息的断点间隔变为精确位置；结构变异断点信息包括结构变异类型、断点起始位置和支持读段个数；记录读对的比对质量和支持断点的读对个数，完成精确识别结构变异。本发明提高了变异检出精度，提供复杂结构变异的检出方法。

Description

一种基于混合策略的复杂结构变异检测方法

技术领域

本发明属于以精准医学为应用背景的数据科学技术领域，具体涉及一种基于混合策略的复杂结构变异检测方法。

背景技术

癌症是目前中国发病率、死亡率第一的疾病。近二十年来，现代肿瘤学，特别是肿瘤基因组学快速发展，由此带来的肿瘤精准诊疗使得癌症五年生存率大大提高。精准治疗的基础是以高敏感度、高特异性、高效地分析、检出关键的基因突变，精准治疗的疗效极大的依赖于数据分析的精度。

根据基因组学的定义，基因突变可分为单核苷酸变异(英文名称：singlenucleotide variants，英文缩写：SNV)和结构变异(英文名称：structural variation，英文缩写：SV)。其中SNV是由于脱氧核糖核酸(英文名称：deoxyribonucleic acid，英文缩写：DNA)序列上的单个核苷酸——腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶(英文缩写分别为A、T、C、G)——的改变而引起的变异，能造成生物包括人类在内的物种之间的不同个体的差异，表现为基因的多样性。结构变异是指基因组中部分序列结构的变化。结构变异在广义上指个体间非单核苷酸变异的基因组变化，典型的包括删除插入、倒位、串联重复、易位等五类。单核苷酸变异一直被视为人类遗传变异的主要形式，但这一概念在2004年之后发生了很大改变。研究人员发现在人类基因组上广泛存在着从数千碱基到数百万碱基长度的结构变化，与单核苷酸变异相比，虽然结构变异的频率较低，但累积的碱基数量却大大超过单核苷酸变异，对人类健康和疾病的影响更为显著。精准检测人类全基因组范围的结构变异，对变异形成机制的研究、疾病诊治等具有重要的意义。目前研究已经广泛证明，结构变异和基因拷贝数变异(英文名称：Copy number variations，英文缩写：CNV)在多种疾病中起核心作用。因此，敏感地检出个体基因组缺失变异并检测到其确切的断点位置，即达到碱基解析度(度量单位：bp)意义重大。一方面，确切的断点位置有利于系统地推断变异形成过程，研究变异的形成机理；另一方面，断点位置的精确化是后续一系列数据分析步骤，包括基因分型、变异功能评估等，的重要基础。

高通量测序技术又称下一代测序(英文名称：next-generation sequencing，英文缩写：NGS)技术。NGS技术可以一次性测定几十万甚至几百万条序列，是现今应用最广泛的基因组测序技术。相对于传统的桑格测序技术，NGS技术具有高速、高通量、低价格等优点，但是NGS产生读段长度(简称：读长)较短，普遍介于75bp至500bp之间。短读长对于突变的数据检测技术提出了计算挑战。其原因在于，由于读长度较短，当发生较为复杂的复杂结构变异时，算法的局部寻优空间复杂，不易计算。因此，已有软件普遍只给出一个大致的变异范围，大多不能达到碱基精度。不仅如此，低频、低测序深度的结构变异的精确检出也十分困难。其原因在于，低频、低测序深度的结构变异的支持读段数较低，单一的概率模型难以区分突变和测序、比对错误，需要综合多维度数据判断。低频是指突变频率介于0.1％至10％的变异。测序深度是指测序得到的碱基总量与基因组大小的比值。低测序深度是指深度小于500X(X是测序深度单位)的测序数据。

目前已有一些针对NGS数据的结构变异检测方法，但是普遍对低频突变的精确检出率不高，对含有复杂结构变异的识别率较差。目前检测结构变异的经典策略有四种，分别是双末端映射法、读深度法、序列组装法和分裂读段法。这四种策略各有利弊。双末端映射法的局限性是不能达到碱基精度，并且很大程度上受到预定的统计分布的标准差的影响。分裂读段法的优势是能够达到单个碱基的分辨率，局限性是难以准确检出复杂类型的结构变异。读深度方法主要应用在检测拷贝数变异上，局限性是适用的变异类型偏少，也不能精确的定位断点，断点的置信区间往往较大。局部组装法时空复杂度过高，计算环境要求严苛，对于CNV、微卫星区域、低复杂度区域容易发生装配失败。目前，学界较为流行的思路是将以上四种经典方法两两组合，运用组合策略检测结构变异。两两组合策略一定程度上提高了软件对于低频突变的敏感度和特异性，但是与临床需求相比仍显不足，而且尚未解决精确检出复杂结构变异的问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于混合策略的复杂结构变异检测方法，提高变异检出精度，提供复杂结构变异的检出方法。

本发明采用以下技术方案：

一种基于混合策略的复杂结构变异检测方法，收集并统计双末端测序生成读对的插入片段长度分布和链向信息，确定读对比对链向、插入片段长度和两端读段比对到的染色体出现异常的读对；采用双末端映射法、局部组装法和分裂读段法的混合策略对断点进行识别；断点是一对参考基因组上的坐标，在样品中相邻，但在参考基因组上分隔；根据比对结果更新断点位置信息，将记录结构变异断点信息的断点间隔变为精确位置；结构变异断点信息包括结构变异类型、断点起始位置和支持读段个数；记录读对的比对质量和支持断点的读对个数，完成精确识别结构变异。

具体的，双末端映射法具体为：通过识别读对的插入片段长度、比对链向信息和比对到的染色体号来确定结构变异。

进一步的，包含以下步骤：

S201、根据读对的插入片段长度、比对链向信息和比对到的染色体号来识别比对不一致的读对；读对包含两个读段，分别是读段1和读段2；当一个读对的两个读段被比对到参考基因组时，若其比对结果同时满足以下三种情况，则定义其为比对一致的读段；否则定义其为比对一致的读段：

情况一：读对比对在同一染色体上；

情况二：读对比对在参考序列的方向为一正一负，且读段一为正，读段二为负；

情况三：插入片段长度的区间是[μ-3σ，μ+3σ]，其中，μ为片段插入长度均值，σ为插入片段长度方差；

S202、对比对不一致的读对按照比对位置和比对到的染色体号进行排序；

S203、对比对不一致的读对按照比对到的染色体号、比对位置和比对链向信息进行聚类；

S204、初始化假定断点。

具体的，将双末端映射法得到结构变异的断点间隔，利用断点间隔寻找在间隔内的读段信息，收集断点间隔范围内的软剪辑读段、断点间隔范围内单端未比对上的读段和断点间隔范围内附近比对不一致的读对后进行组装；其中，软剪辑读段是在基因组测序过程中横跨删除位点及剪接位点的读段；当这些读段被比对到参考基因组时，一条读段被切成两段，匹配到不同的区域；单端未比对上的读段是一端比对到参考基因组上，另外一端读段由于跨越断点而没有比对到参考基因组上的读段想

进一步的，收集断点间隔范围内含有软剪辑的读段并组装具体为：

利用双末端映射法得到的结构变异信息，找到比对位置在断点间隔范围内且含有软剪辑的读段；根据参考基因组上对应的起始和结束坐标，分别收集所对应的读段，并对它们进行组装。

进一步的，收集断点间隔范围内的单端未比对上的读段并组装具体为：

在收集单端未比对上的读段时，将结构变异两端的断点作为锚点收集；利用断点作为锚点，利用比对上一端读段的比对位置信息、比对链向信息和结构变异的类型确定未比对上的读段的链向，最后根据锚点搜寻方向和最大搜寻长度收集跨越断点的读段信息，结构变异的类型包括删除、倒位、易位和串联重复。

进一步的，在双末端映射时收集所有比对不一致的读对，根据收集比对不一致的读对并聚类来初步识别断点间隔。

进一步的，对收集的符合组装条件的读段，按照读段类型进行组装，得到多条共有序列，最后将得到的多条共有序列再次组装，形成最终的共有序列。

更进一步的，分裂读段法的步骤如下：

S501、提取断点间隔范围内参考基因组的碱基序列；

S502、提取共有序列；

S503、参考基因组与共有序列比对。

更进一步的，对参考基因组的碱基序列进行反向互补操作的步骤如下：

S504、取得从双末端映射法得到的含有断点信息的断点间隔；

S505、从参考基因组上提取断点间隔范围内的碱基序列；

S506、根据不同的结构变异类型对获取到的参考基因组的碱基序列进行位置调换和反向互补操作；不同结构变异类型包括删除、倒位、易位和串联重复；得到参考基因组的碱基序列和共有序列后，使用间隔切除校准法中的双序列比对方法进行共有序列与参考基因组的比对，最后进行精确的断点识别；将共有序列拆分成两个片段分别映射到参考基因组上，当发生插入事件后，将共有序列拆成三个片段，中间没有比对上的片段为可能的插入片段。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于混合策略的复杂结构变异检测方法，解决现有算法不能有效地以碱基精度有效的检出低频突变中的删除、串联重复、倒位、易位四种结构变异，特别是难以在碱基精度下检出含有插入片段的删除变异的问题。低频是指突变频率介于0.1％至10％的变异。测序深度是指测序得到的碱基总量与基因组大小的比值。低测序深度是指深度小于500X(X是测序深度单位)的测序数据。

进一步的，采用双末端映射法，能够快速的定位结构变异的候选区间并初始化断点间隔。定位候选区间能够显著减小算法需要搜索的解空间，提高算法效率。断点是一对参考基因组上的坐标，在样品中相邻，但在参考基因组上分隔；断点间隔是记录结构变异断点的信息。

进一步的，收集了断点间隔的3类读段信息，分别是：断点间隔范围内软剪辑读段个数、断点间隔范围内单端未比对上的读段个数和断点范围内比对不一致的读对个数，其作用在于对读段进行细致分类；现有算法普遍只是收集未比对到参考基因组的读段，不同与现有算法，本方法同时也收集比对到参考基因组的读段，能够获得更全面的断点间隔信息，有助于识别测序错误和比对错误，有助于还原此处发生的结构变异。软剪辑读段是在基因组测序过程中横跨删除位点及剪接位点的读段；当这些读段被比对到参考基因组时，一条读段被切成两段，匹配到不同的区域；单端未比对上的读段是一端比对到参考基因组上，另外一端读段由于跨越断点而没有比对到参考基因组上的读段。

进一步的，收集了断点间隔范围内软剪辑读段并进行局部组装，其中，收集软剪辑读段的目的在于，该类读段为疑似跨越断点的读段，能够定位断点的位置；对假定断点间隔内收集的软剪辑读段进行组装的目的在于，这些软剪辑读段的碱基序列相似，且大多数包含断点的位置，组装后能够形成更长的共有序列，有助于减小比对歧义，有效去除比对错误的伪软剪辑读段，更准确的定位断点的位置。

进一步的，收集了断点间隔范围内单端未比对上的读段并组装，其中，收集单端未比对上的读段的目的在于，该类读段为疑似跨越断点的读段，且该类读段可能含有插入片段的序列信息；若此处发生了含有插入片段的删除变异，那么所插入的碱基序列只能由该类读段提供；对断点间隔两端的单端未比对上的读段分别组装的目的在于，同类型的读段包含的碱基序列相似，组装后能够形成更长的共有序列，有助于准确拼接处插入片段，有效去除比对错误的伪单端未比对上的读段，为后续步骤准确检出插入片段奠定基础。

进一步的，收集了断点间隔范围内比对不一致的读对，其目的在于，该类读对位于断点间隔范围内，且该类读对分别位于两端断点附近，根据读对的插入片段长度、比对的链向信息和比对的染色体编号，能够以较小的计算代价判定结构变异发生的类型和初始化断点间隔，达到有效的检出结构变异的目的。

进一步的，采用分别组装策略，对收集的三种类型读段，包括软剪辑读段、单端未比对上的读段和比对不一致的读对，对各类读段分别组装，形成每类读段的多条共有序列，然后再将形成的多条共有序列组装为最终的共有序列；每种类型的读段都存在由于测序错误、比对错误等原因引入的假阳性读段，分类组装可以有效降低各类错误对组装性能的干扰，提高组装步骤的准确度，进而拼接出可靠性更高的公共序列，用于断点的精确检出和插入片段的提取。

进一步的，分裂读段能够以碱基精度检出结构变异，特别的，能够有效检出含有插入片段的删除变异，并提取出插入片段的碱基序列。

综上所述，本发明实现了断点的初步识别和候选范围的初步确定，实现了结构变异两端断点的三种类型数据的收集和分别组装，将多条共有序列拼接为一条最终序列，使得拼接出来的序列更长、更可靠，最大的还原此处的结构变异，实现了以碱基精度检出结构变异，特别的，能够有效检出含有插入片段的删除变异，并提取出插入片段的碱基序列。基于此，解决现有算法不能有效地以碱基精度有效的检出低频突变中的删除、串联重复、倒位、易位四种结构变异，特别是难以在碱基精度下检出含有插入片段的删除变异。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明流程图；

图2为真实数据精确检出率结果图，横坐标表示突变发生频率区间，纵坐标表示碱基精度检出率；

图3为模拟样本倒位检出结果图，其中，(a)为倒位事件精确检出率，纵坐标表示精确检出率，横坐标表示模拟测序深度，(b)为假阳性个数，纵坐标表示倒位事件的假阳性个数，横坐标表示模拟测序深度；

图4为模拟样本不同突变频率下倒位检出结果图，其中纵坐标表示精确检出率，横坐标表示模拟测序深度，左一突变频率设置为5％，左二突变频率设置为10％，右二突变频率设置为20％，右一突变频率设置为50％；

图5为带有插入片段的删除事件结果图，插入片段长度分别设置为10bp(ins10bp)、20bp(ins20bp)、50bp(ins50bp)和100bp(ins100bp)。

具体实施方式

本发明提供了一种基于混合策略的复杂结构变异检测方法，整合了双末端映射法、分裂读段法和局部组装法三种策略来精确识别结构变异，提高了在低频突变和含有插入片段的删除变异中的结构变异的精确检出率。

请参阅图1，本发明一种基于混合策略的复杂结构变异检测方法，包括以下步骤：

S1、信息统计

收集统计读对的插入片段长度的统计信息(均值μ、方差σ)和链向信息。通过以上参数确定比对不一致的读对，比对不一致的读对是指读对比对链向、插入片段长度和两端读段比对到的染色体出现异常的读对；

S2、双末端映射

双末端映射法是通过识别读对的插入片段长度、比对链向信息和比对到的染色体号来确定结构变异，包含以下步骤：

S201、根据读对的插入片段长度、比对链向信息和比对到的染色体号来识别比对不一致的读对；

S204、初始化假定断点。

S3、数据提取

经过步骤S2双末端映射法得到结构变异的一个大致范围：断点间隔，利用断点间隔收集在断点间隔范围内的以下三种类型的读段信息：

S301、收集断点间隔范围内软剪辑读段并组装

利用步骤S2得到的结构变异信息，找到符合比对位置在断点间隔范围内的软剪辑读段根据参考基因组上对应的起始和结束坐标，分别收集所对应的读段，并对它们进行组装，软剪辑读段是在基因组测序过程中横跨删除位点及剪接位点的读段。

S302、收集断点间隔范围内单端未比对上的读段并组装

在收集单端未比对上的读段时，将结构变异两端的断点作为锚点来收集，结构变异的类型包括删除、倒位、易位和串联重复；对于每一个这样的读段来说，NCSV利用断点作为锚点，并利用比对到参考基因组上的一端的比对位置信息、比对链向和结构变异的类型来确定未比对上的读段的链向，根据锚点、搜寻方向和MAX_S_SIZE收集到跨越断点的读段，并对它们进行组装。

S303、收集断点间隔范围内比对不一致的读对并组装

步骤S2中用双末端映射法比对不一致的读对进行了识别和收集；然后，将这些比对不一致的读对进行组装，断点是一对参考基因组上的坐标，在样品中相邻，但在参考基因组上分隔。

S4、局部组装

对收集来的符合组装条件的读段，按照读段类型分别的进行组装，得到多条共有序列，最后将得到的多条共有序列再次组装，从而形成最终的共有序列；此处符合组装条件的读段是指步骤S3收集的软剪辑读段、单端未比对上的读段和比对不一致的读对，例如收集的S301中所述的比对位置在断点间隔范围内条件的软剪辑读段。读段类型是步骤S3中收集的三种读段类型，分别为软剪辑读段、单端未比对上的读段和比对不一致的读对。

S5、分裂读段

经过步骤S1～S4得到含有断点的基因组间隔和初步还原的读段的共有序列，为分裂读段法在单个碱基的分辨率下识别断点提供了可能。分裂读段法包含以下几个步骤：

S501、提取断点间隔范围内的参考基因组的碱基序列；

S502、提取形成的共有序列；

S503、参考基因组与共有序列比对；

对于不同的结构变异类型参考基因组的提取方式不同。本方法考虑的结构变异类型有：删除、倒位、易位和串联重复。

例如对于删除来说，只需将断点间隔范围内参考基因组的碱基序列提取拼接即可；但对于倒位来说，获取断点间隔范围内参考基因组的碱基序列后，还需要对参考基因组的碱基序列进行反向互补操作。具体方法如下：

S504、取得从S2双末端映射法得到的含有断点信息的断点间隔；

S505、从参考基因组上提取基因间隔范围内的碱基序列；

S506、根据不同的结构变异类型，对获取到的参考基因组的碱基序列进行位置调换和反向互补操作。

得到参考基因的碱基序列的碱基序列和共有序列后，使用间隔切除校准法(英文名称：Alignment with Gap Excision，英文缩写：AGE)中的双序列比对方法进行共有序列与参考基因的碱基序列的比对，最后进行精确的断点识别。

将共有序列拆分成两个片段分别映射到参考基因组上，但是当发生插入事件之后，将共有序列拆成三个片段，其中中间没有比对上的片段就为可能的插入片段。

S6、断点识别

根据比对的结果，更新断点位置信息，将断点间隔变为精确的位置，并记录比对质量和该断点的读段支持数。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

(1)真实数据实验结果

真实样本来源于近300例肺癌临床患者，筛选从16年1月到17年12月的临床肺癌患者信息，提取出296例发生基因融合的患者进行测试评估。分别用NCSV和DELLY软件检测了这296个样本，其中NCSV精确(以碱基分辨率)检出了258个样本，精确检出率为87.2％，然而对比DELLY其精确检出率为81.1％，检出了240个样本。精确检出数指的是以碱基分辨率检出来的变异数。相对的，不精确检出是指没有达到碱基分辨率的检出数，一般是只获得了双末端映射法支持的检出。一般的同时获得双末端映射法和分裂读段法支持的检出为精确检出，若没有特别说明都是默认精确检出率。请参阅图2，从检出结果可以看出NCSV的精确检出率要明显高于DELLY软件，比DELLY软件高了6.1个百分点，多检出18个样本。

(2)仿真数据实验结果

使用SVSIM结构变异模拟软件+WGSIM测序模拟软件来生成部分模拟数据，其中，SVSIM软件在全基因组任意位置模拟了倒位事件388个，大小从1000bp到10000bp不等，突变频率100％。然后我们使用WGSIM软件对模拟序列进行测序，深度分别为2X(X是测序深度单位)、5X、10X、20X和50X。检出情况如图所示。如图3所示，在绝大部分的结构变异类型和深度下，NCSV始终比其他算法更敏感。NCSV优异的灵敏度在较低深度的测试数据中最为显著(<10X)。

为了在更真实的情况下评估本方法的性能，利用GSDcreator突变测序数据模拟软件模拟了在不同突变频率，不同测序深度下，串联重复事件的突变数据。评估结果如图4所示。在所有的情况下，NCSV的精确检出率都比DELLY要高，特别是当测序深度和突变频率较低时。例如，当突变频率为5％，深度为40X时，DELLY的在单核苷酸分辨率下的精确检出率为0，相对比我们的精确检出率为7.5％。

使用GSDcreator软件模拟生成带有插入片段的复杂SV数据，来评估在这种复杂结构变异的检出性能。其中插入片段分别为10bp、20bp、50bp和100bp，测序深度为10X、20X、40X和80X，突变频率为100％，变异类型分别为删除，删除事件的大小取值为1000bp至10000bp。

评估结果如图5所示，当含有插入片段时，DELLY的精确检出率会大受影响，特别是当测序深度较低，插入片段较大时。

当插入片段大于20bp时，DELLY软件在各个深度下的精确检出率几乎为零，例如在删除变异中，插入片段为20bp，在所有深度下(10X,20X,40X,80X)的精确检出率都为0。

在同样的情况下，NCSV的精确检出率分别为32.59％，51.93％，73.12％，89.82％，对应的测序深度分别为10X，20X，40X，80X。综上所述，NCSV具有优于现有知名算法的性能表现：其一，NCSV在各种测序深度下、各种突变频率下、各种变异类型中碱基精度的精确检出率都较高，特别是在低频突变下。对比其他软件，NCSV的精确检出率优势更高，提高了结构变异的精确检出率，特别是在低频突变中；其二，NCSV还支持含有插入片段的删除变异的精确检出，并且提取出了准确的插入片段。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于混合策略的复杂结构变异检测方法，其特征在于，收集并统计双末端测序生成读对的插入片段长度分布和链向信息，确定读对比对链向、插入片段长度和两端读段比对到的染色体出现异常的读对；采用双末端映射法、局部组装法和分裂读段法的混合策略对断点进行识别；断点是一对参考基因组上的坐标，在样品中相邻，但在参考基因组上分隔；根据比对结果更新断点位置信息，将记录结构变异断点信息的断点间隔变为精确位置；结构变异断点信息包括结构变异类型、断点起始位置和支持读段个数；记录读对的比对质量和支持断点的读对个数，完成精确识别结构变异。

2.根据权利要求1所述的基于混合策略的复杂结构变异检测方法，其特征在于，双末端映射法具体为：通过识别读对的插入片段长度、比对链向信息和比对到的染色体号来确定结构变异。

3.根据权利要求2所述的基于混合策略的复杂结构变异检测方法，其特征在于，包含以下步骤：

情况一：读对比对在同一染色体上；

S204、初始化假定断点。

4.根据权利要求1所述的基于混合策略的复杂结构变异检测方法，其特征在于，将双末端映射法得到结构变异的断点间隔，利用断点间隔寻找在间隔内的读段信息，收集断点间隔范围内的软剪辑读段、断点间隔范围内单端未比对上的读段和断点间隔范围内附近比对不一致的读对后进行组装；其中，软剪辑读段是在基因组测序过程中横跨删除位点及剪接位点的读段；当这些读段被比对到参考基因组时，一条读段被切成两段，匹配到不同的区域；单端未比对上的读段是一端比对到参考基因组上，另外一端读段由于跨越断点而没有比对到参考基因组上的读段想。

5.根据权利要求4所述的基于混合策略的复杂结构变异检测方法，其特征在于，收集断点间隔范围内含有软剪辑的读段并组装具体为：

6.根据权利要求4所述的基于混合策略的复杂结构变异检测方法，其特征在于，收集断点间隔范围内的单端未比对上的读段并组装具体为：

7.根据权利要求4所述的基于混合策略的复杂结构变异检测方法，其特征在于，在双末端映射时收集所有比对不一致的读对，根据收集比对不一致的读对并聚类来初步识别断点间隔。

8.根据权利要求5或6或7所述的基于混合策略的复杂结构变异检测方法，其特征在于，对收集的符合组装条件的读段，按照读段类型进行组装，得到多条共有序列，最后将得到的多条共有序列再次组装，形成最终的共有序列。

9.根据权利要求8所述的基于混合策略的复杂结构变异检测方法，其特征在于，分裂读段法的步骤如下：

S501、提取断点间隔范围内参考基因组的碱基序列；

S502、提取共有序列；

S503、参考基因组与共有序列比对。

10.根据权利要求9所述的基于混合策略的复杂结构变异检测方法，其特征在于，对参考基因组的碱基序列进行反向互补操作的步骤如下：

S504、取得从双末端映射法得到的含有断点信息的断点间隔；

S505、从参考基因组上提取断点间隔范围内的碱基序列；