CN112349346A

CN112349346A - 检测基因组区域中的结构变异的方法

Info

Publication number: CN112349346A
Application number: CN202011162206.6A
Authority: CN
Inventors: 魏从翀; 刘成林; 张周; 毕腾腾; 王洪明; 张之宏; 揣少坤; 汉雨生
Original assignee: Guangzhou Burning Rock Dx Laboratory Co ltd
Current assignee: Guangzhou Burning Rock Dx Laboratory Co ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-09

Abstract

本公开涉及使用高通量测序数据检测基因组区域中的结构变异包括缺失、重复、倒位和易位的方法。本公开还提供了用于检测基因组区域中的结构变异的系统、设备和计算机可读介质。

Description

检测基因组区域中的结构变异的方法

技术领域：

本发明属于生物信息学领域，并具体涉及使用高通量测序数据检测基因组区域中的结构变异(SV)的方法和系统。

技术背景：

结构变异(structural variants，SV)是人类基因组中主要的变异形式之一。结构变异包括染色体片段的缺失、重复、倒位和易位等多种变异形式。结构变异存在于正常基因组和肿瘤基因组中，尽管在肿瘤基因组中发生的频率更高。一些基因的结构变异可能与遗传风险和靶向治疗的敏感性有关。

高通量测序技术又称为二代测序技术(NGS)为低成本、规模化的检测结构变异提供了便捷。除此之外，基于二代测序技术的检测方法可以检测断点信息在碱基分辨率级别的结构变异，而其他低通量的检测技术如荧光原位杂交技术(FISH)仅可以检测某种结构变异是否存在，不能得到断点信息。而使用微阵列技术的微阵列比较基因组杂交(array CGH)仅可以检测不平衡的结构变异包括缺失或者重复，其常用于检测拷贝数变化(CNV)。另外，它提供的断点信息的分辨率也非常有限。

结构变异作为一种复杂的变异形式需要有效的综合NGS数据中的多种信号才能更准确的检测出来。当前检测结构变异主要依赖于三种信号：paired-end reads信号(简称PE)，split-reads信号(简称SR)和read depth信号(简称RD)。目前，应用以上一种或多种信号的结构变异检测软件都有显著的假阳性问题，这十分影响结构变异检测在精准医疗领域的应用。

综上，目前本领域缺乏基于高通量测序技术的具有高敏感性和高精确度的结构变异检测方法以应用于精准医疗领域。

发明内容

以下列出了本公开中使用的部分术语及其定义。

NGS：高通量测序(High-Throughput Sequencing)又名二代测序(NextGeneration Sequencing，NGS)，是相对于传统的桑格测序(Sanger Sequencing)而言的。

FASTQ格式文件：是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。

SAM格式文件：SAM(Sequence Alignment/Map format)文件是一种序列比对格式标准，由Sanger制定，是以TAB为分割符的文本格式。

BAM格式文件：SAM格式文件的二进制文件。

BED格式文件：BED(Browser Extensible Data)文件是定义track特征信息比如注释的格式，是以TAB为分割符的文本格式。

SV：结构变异(structural variation)。

插入片段长度(insert size)：两端接头之间序列的长度。当某对读长来源于结构变异事件，它们经过比对软件回帖到基因组后往往有异常的插入片段长度。

Soft-clipping：是指一条比对记录(读长)不能回帖到基因组的部分，但是它仍然属于比对记录的一部分。

Split-read：是指一条比对记录(读长)拥有多重回帖，比对记录的不同部分可以贴到基因组不同的地方。对于多重回帖的读长可能预示着结构变异的存在。

Paired-end：是指双端测序的两个读长，即一对读长对。对于拥有异常方向或异常插入片段长度的两个读长可能预示着结构变异的存在。

QNAME：读长名称，对于双端测序的两个读长拥有相同的QNAME。

SAM/BAM FLAG：SAM/BAM文件的FLAG字段用于记录是否回帖，回帖方向，双端配对等信息。

本公开提供了基于高通量测序技术的检测基因组区域中的结构变异的方法，其可以检测基因、基因间和基因内的结构变异，包括缺失、重复、倒位和易位等。该方法主要包括信号提取、信号处理和报告生成的步骤。在信号提取阶段，读取高通量测序数据的序列比对文件例如SAM文件或BAM文件，提取SR信号和/或PE信号。

然后，在信号处理阶段中使用SR信号和/或PE信号分别进行结构变异类型的判断、信号聚类和信号过滤等步骤。处理完成后，任选地将两种信号聚类基于结构变异进行合并以形成综合信号聚类，并使用基于测序数据、基因组数据和生物学特征的过滤体系进行过滤。最后，任选地进行结构变异丰度的估计以及输出相应格式文件的报告。

相应的，在一方面，本公开涉及检测基因组区域中的的结构变异(SV)的方法，所述方法包括：

a.读取高通量测序数据的序列比对文件，

i)将含有soft-clipping的读长作为SR(Split-read)信号进入SR信号分析流程；和/或

ii)将在参考基因组中的回贴方向不是正向-反向的读长对，以及在参考基因组中回贴方向是正向-反向但具有异常插入片段长度(insert size)的读长对作为PE(Paired-end)信号进入PE信号分析流程；

b.进行SR信号分析流程以标记SV类型，并将标记为同一SV事件的SR信号进行聚类后形成SR信号聚类；和/或进行PE信号分析流程以标记SV类型，并将标记为同一SV事件的PE信号进行聚类后形成PE信号聚类；

c.对所述SR信号聚类和/或所述PE信号聚类进行过滤，从而获得过滤后的信号聚类，其指示基因组区域中的SV；和任选地

d.输出结果报告。

在另一方面，本公开涉及检测基因组区域中的的结构变异(SV)的方法，所述方法包括：

a.读取高通量测序数据的序列比对文件，将含有soft-clipping的读长作为SR信号进入SR信号分析流程；将在参考基因组中的回贴方向不正向-反向的读长对，以及在参考基因组中回贴方向是正向-反向但具有异常插入片段长度的读长对作为PE信号进入PE信号分析流程；

b.分别进行SR信号分析流程和PE信号分析流程以标记SV类型，并将标记为同一SV事件的SR信号进行聚类后形成SR信号聚类，将标记为同一SV事件的PE信号进行聚类后形成PE信号聚类；

c.根据断点坐标信息和读长的QNAME合并标记为同一SV事件的SR信号聚类和PE信号聚类，以形成综合信号聚类，所述综合信号聚类包括合并的SR信号聚类和PE信号聚类，或未能合并的单独SR信号聚类或PE信号聚类；

d.对所述综合信号聚类进行过滤，从而获得过滤后的综合信号聚类，其指示基因组区域中的SV；和任选地

e.输出结果报告。

图1显示了本公开的示例性方法的流程示意图。

在一些实施方案中，所述序列比对文件可以选自SAM文件和BAM文件。

由于建库方法，测序样本类型等的不同，不同来源的高通量测序数据其插入片段长度值分布可能存在较大差别。因此，在某些情况下单一预设的插入片段长度异常值的阈值可能不能适应方法或来源各异的数据。在本公开的方法的一些实施方案中，可以通过对插入片段长度分布的计算来动态设置插入片段长度异常值的阈值。

在一些实施方案中，可以通过以下步骤确定所述具有异常插入片段长度值的读长：

读取所述序列比对文件中的所有读长的插入片段长度值，或随机读取一定数量的读长的插入片段长度值；

使用所述插入片段长度值构建插入片段长度分布，并确定显著高于所述插入片段长度分布的异常阈值；和

确定具有超过所述异常阈值的插入片段长度的读长。

使用所述插入片段长度值构建normal或log-normal分布，并计算所述normal或log-normal分布的参数μ和σ；和

将具有超过μ+Nσ的插入片段长度值确定为具有异常插入片段长度值，

其中N为3-10之间的整数。例如，N可以是3、4、5、6、7、8、9或10。

在一些实施方案中，读取序列比对文件中的所有读长的插入片段长度值来构建normal分布或log-normal分布。在另一些实施方案中，在序列比对文件中的读长数量较大的情况下，可以随机读取一定数量的读长的插入片段长度值来进行计算，以减少插入片段长度分布参数计算时间。随机读取的读长的数量没有限制，只要其足以构建normal分布或log-normal分布并计算其分布参数。

在一些示例性的实施方案中，随机读取的读长的数量可以是几百个至几百万个，例如至少1千个，至少5千个，至少1万个，至少5万个，至少10万个，至少50万个或至少100万个读长，或者可以是不超过500万个，不超过200万个，不超过100万个或不超过50万个读长。

在一些实施方案中，使用normal分布来计算插入片段长度异常值的阈值。在另一些实施方案中，使用log-normal分布来计算插入片段长度异常值的阈值。

在一些实施方案中，所述SR信号分析流程可以包括：

将进入SR信号分析流程的读长根据QNAME分组(即，将具有相同QNAME的读长分为同一组)，并在每个组中根据读长的FLAG值进行主要回贴和次优回贴的配对，过滤掉不能配对的读长；

标记SV类型，包括：

在配对的主要回贴和次优回贴位于不同染色体上的情况下，将SV类型标记为易位；

在配对的主要回贴和次优回贴位于相同染色体上的情况下，将所述主要回贴和次优回贴按照染色体坐标排序，得到排序后的回贴方向信息，其共有四种可能性：正向-反向、反向-正向、正向-正向和反向-反向；同时获取排序后主要回贴和次优回贴的soft-clipping位置信息，其共有四种可能性：左-右、右-左、左-左和右-右；

若回贴方向是正向-正向或反向-反向，且soft-clipping位置是右-左，则将SV类型标记为缺失；

若回贴方向是正向-正向或反向-反向，且soft-clipping位置是左-右，则将SV类型标记为重复；和

若回帖方向是正向-反向或反向-正向，则将SV类型标记为倒位；

按照SV类型、回贴方向和断点坐标将标记为同一SV事件的SR信号进行聚类后形成SR信号聚类。

图2中显示了在SR信号分析流程中进行SV类型判断和标记的示例。

在上述方法的一些实施方案中，所述PE信号分析流程可以包括：

将进入PE信号分析流程的读长根据QNAME分组(即，将具有相同QNAME的读长分为同一组)，并在每个分组中根据读长的FLAG值进行R1和R2的配对，过滤掉不能配对的读长对；

标记SV类型，包括：

在配对的读长对中的R1和R2位于不同染色体上的情况下，将SV类型标记为易位；

在配对的读长对中的R1和R2位于相同染色体上的情况下，将所述R1和R2按照染色体坐标排序，得到排序后的读长对的回贴方向信息，其共有四种可能性：正向-反向、反向-正向、正向-正向和反向-反向；

若回帖方向是正向-反向，则将SV类型标记为缺失；

若回贴方向是反向-正向，则将SV类型标记为重复；

若回贴方向是正向-正向或反向-反向，则将SV类型标记为倒位；

按照SV类型、回贴方向和断点坐标将标记为同一SV事件的PE信号进行聚类后形成PE信号聚类。

图3中显示了在PE信号分析流程中，进行SV类型判断和标记的示例。

在上述方法的一些实施方案中，所述方法包括在读取高通量测序数据的序列比对文件时对读长进行过滤的步骤。在一些实施方案中，在读取序列比对文件时过滤掉MapQ小于设定的过滤阈值的读长。在一些实施方案中，所述过滤阈值可以设置为0-60之间的整数。例如，所述过滤阈值可以是0、5、10、15或20。

在一些实施方案中，在读取序列比对文件时过滤掉位于基因组重复区域的读长。已知人类基因组中存在大量重复区域，包括同聚物(homopolymer)序列(单个碱基的重复)和微卫星(micro satellite)序列(2-6个连续碱基的重复)等，这些区域严重影响回贴。在一些实施方案中，将基因组重复区域定义为同聚物序列或微卫星序列的长度超过约45bp的区域。

在一些实施方案中，所述SR信号分析流程可以进一步包括：

根据SR信号聚类中的读长的起始坐标和终止坐标，确定每个SR信号聚类中含有去重后模板的读长数量(unique)和读长总数量(total)；

记录去重后模板的读长数量为1且读长总数量大于重复阈值的SR信号聚类中的读长的QNAME，并在PE信号分析流程中过滤掉具有所述QNAME的读长(包含所述读长的读长对)，

其中所述重复阈值为2-10之间的整数。

例如，所述重复阈值可以是2、3、4、5、6、7、8、9或10。在一些实施方案中，所述过滤阈值可以是3。

这些QNAME(模板)可能是来自于背景噪音或者嵌合体假阳性。

在一些实施方案中，所述SR信号分析流程可以进一步包括将断点的两个坐标波动均小于或等于波动范围阈值的SR信号聚类进行合并，其中所述波动范围阈值为1bp至100bp之间的整数。

例如，所述波动范围阈值可以是1bp、2bp、5bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp或100bp。在一些实施方案中，所述波动范围阈值可以是10bp。

在一些实施方案中，所述PE信号分析流程可以进一步包括将断点的两个坐标波动均小于或等于波动范围阈值的PE信号聚类进行合并，其中所述波动范围阈值为1bp至100bp之间的整数。

在上述方法的一些实施方案中，可以对所述信号聚类进行过滤包括对所述信号聚类进行相似性评估并过滤掉具有高相似性的信号聚类，其中所述评估包括：

提取断点的两个坐标上下游各100-500bp的参考基因组序列并进行比对，若断点的两个坐标上下游的参考基因组序列之间的同一性超过同一性阈值且比对长度超过比对长度阈值，则认为所述信号聚类具有高相似性，

其中所述同一性阈值为70％-100％之间的百分数，且所述比对长度阈值为40bp-100bp之间的整数。

在一些实施方案中，提取断点的两个坐标各自上下游约100bp的参考基因组序列并进行比对。在一些实施方案中，提取断点的两个坐标上下游约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的参考基因组序列并进行比对。在一些实施方案中，提取断点的两个坐标上下游各200-250bp，例如约220bp的参考基因组序列进行比对。

在一些实施方案中，所述同一性阈值可以是例如70％、75％、80％、85％、90％、95％、98％或99％。例如，所述同一性阈值可以是80％-90％之间的百分数。

在一些实施方案中，所述比对长度阈值可以是45bp-55bp之间的整数，例如45bp、46bp、47bp、48bp、49bp、50bp、51bp、52bp、53bp、54bp或55bp。

在一些实施方案中，对所述信号聚类进行过滤包括评估所述信号聚类是否位于基因组重复区域并过滤掉位于重复区域的信号聚类，其中所述评估包括：

提取信号聚类断点的两个坐标上的读长序列，并识别所述序列中是否含有同聚物(homopolymer)序列和/或微卫星序列；在至少一个坐标上的读长序列含有同聚物序列和/或微卫星序列的情况下，则认为所述信号聚类位于基因组重复区域，

其中所述同聚物序列是指1个碱基重复10次或更多的序列，所述微卫星序列是指2-6个连续碱基重复4次或更多的序列。

在一些实施方案中，对所述信号聚类进行过滤包括评估信号聚类是否具有嵌合体并过滤掉具有嵌合体的信号聚类，其中所述评估包括：

提取每个断点坐标上读长的soft-clipping序列及soft-clipping的起始坐标，将soft-clipping序列及soft-clipping的起始坐标两者均一致的读长分为一组；

使用所述每个断点坐标上的分组评估这些分组所形成集合的离散程度(statistical dispersion)。

在至少一个断点坐标上的离散程度较高的情况下，则认为所述信号聚类为嵌合体。

将soft-clipping的起始坐标与断点坐标一致的分组作为主要分组，其他分组合并为次要分组，计算两个分组的熵值，

在至少一个断点坐标上的熵值超过0.5的情况下，则认为所述信号聚类具有嵌合体。

在一些实施方案中，对所述信号聚类进行过滤包括评估所述信号聚类是否为简单模板(simple template)并过滤掉为简单模板的信号聚类，其中所述评估包括：

提取信号聚类中读长模板的起始和终止坐标的波动范围，在所有读长模板的起始和终止坐标的波动范围都小于或等于波动范围阈值的情况下，则认为所述信号聚类为简单模板，

其中所述波动范围阈值为2bp-10bp之间的整数。

例如，所述波动范围阈值可以是2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp或10bp。在一些实施方案中，所述波动范围阈值可以是3bp。

在一些实施方案中，对所述信号聚类进行过滤包括评估所述信号聚类的平均mapq并过滤掉低平均mapq的信号聚类，所述评估包括：

提取信号聚类断点的两个坐标上读长的mapq值，并计算每个坐标上读长的平均mapq；在至少一个坐标上的读长的平均mapq小于或等于过滤阈值的情况下，则认为所述信号聚类为低平均mapq，

其中所述过滤阈值为20-30之间的整数。

例如，所述过滤阈值可以是20、21、22、23、24、25、26、27、28、29或30。在一些实施方案中，所述过滤阈值可以是25。

在一些实施方案中，对所述信号聚类进行过滤包括评估所述信号聚类是否存在于BED文件定义区域中，并过滤掉不在BED文件定义区域中的信号聚类，所述评估包括：

提取信号聚类断点的两个坐标，在所述两个坐标都不在BED文件定义区域的情况下，则认为所述信号聚类不在BED文件定义区域。

不在BED文件定义区域的阳性检出一般不是假阳性，而是不关心的区域或者没有做性能确认的区域。

在一些实施方案中，对所述信号聚类进行过滤包括过滤掉SV大小小于一定阈值的信号聚类。例如，可以过滤掉SV大小小于100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp的信号聚类。在一些实施方案中，可以过滤掉SV大小小于500bp的信号聚类。

SV大小较小的阳性检出一般不是假阳性，而是通常不属于结构变异的范畴。

在一些实施方案中，对所述信号聚类进行过滤包括根据信号聚类中读长的起始坐标和终止坐标，确定每个信号聚类中含有去重后模板的读长对数量(unique)和读长对总数量(total)，并过滤掉去重后模板的读长对数量小于过滤阈值的信号聚类。

在一些实施方案中，所述过滤阈值可以是2-15之间的整数。例如，所述过滤阈值可以是2、3、4、5、6、7、8、9、10、11、12、13、14或15。

在一些实施方案中，对所述信号聚类进行过滤包括可以包括以上高相似性过滤、基因组重复区域过滤、嵌合体过滤、简单模板过滤、低平均mapq过滤、BED文件定义区域过滤、SV大小过滤和基于不同模板的读长对数量的过滤中的任意一项或任意两项或多项的任何组合。例如，对所述信号聚类进行过滤可以包括以上过滤中的一项、两项、三项、四项、五项、六项、七项或全部八项。

在上述方法的一些实施方案中，所述方法可以进一步包括对过滤后的信号聚类注释SV丰度。

在一些实施方案中，所述方法可以进一步包括对过滤后的信号聚类注释断点的两个坐标位置处的基因和外显子/内含子信息，或当所述坐标处于基因间位置时注释其上下游的基因信息。

在一些实施方案中，所述方法用于分析目标基因组区域中的SV，且所述方法包括在读取高通量测序数据的序列比对文件时过滤掉不位于所述目标基因组区域中的读长。

在检测范围方面，本公开的方法不仅可以检测基因或基因间结构变异，也支持检测通常更小的基因内结构变异，其同样具有重要的临床意义。

在检测性能方面，本公开的方法通过独立提取SR与PE信号并分别进行信号分析流程，最后任选地综合信号的方式相比传统方法提高了敏感性。与此同时，通过针对测序数据，基因组数据以及生物学特征研发的过滤体系可以极大的提高精确度。

另外，本公开的方法支持丰富的样本类型，本公开的方法通过对异常插入片段长度分布的评估可以适应不同异常插入片段长度分布的样本数据，它们通常来源于不同的建库方法。本公开的方法还可以整合对嵌合体的识别和过滤，使得该方法可以以高敏感性和高精确度分析质量较差的FFPE组织样本，而这些样本多见于临床检测中。

在一个方面，本公开涉及用于检测基因组区域中的结构变异的系统，所述系统包括：

高通量测序模块；和

结构变异检测模块，

其中所述高通量测序模块配置为用于对靶基因组区域进行高通量测序并生成序列比对文件；且所述结构变异检测模块配置为通过本公开第一方面的方法检测所述靶基因组区域中的结构变异。

在一个方面，本公开涉及用于检测基因组区域中的结构变异的设备，其包括：

用于存储计算机程序指令的存储器；和

用于执行计算机程序指令的处理器，

其中当所述计算机程序指令由所述处理器执行时，所述设备执行本公开第一方面的方法。

在一个方面，本公开涉及计算机可读介质，其存储有计算机程序指令，其中当所述计算机程序指令被处理器执行时实现本公开第一方面的方法。

附图说明

图1显示了本公开的示例性方法的流程示意图。

图2中显示了在SR信号分析流程中，进行SV类型判断和标记的示例。

具体实施方式

实施例1.结构变异检测方法

在本公开的实施例中，使用以下方法(markSV方法)检测基因组区域中的结构变异。

1.序列比对文件生成：待测样品经过文库制备后，在Illumina测序平台进行上机测序生成FASTQ文件。对FASTQ文件进行质控后，用比对软件BWA-MEM以人类参考基因组(hg19/b37)对FASTQ文件进行比对回帖并生成SAM文件。将SAM文件用samtools软件转成BAM文件后，以BAM文件作为输入文件进行后续检测。

2.插入片段长度异常值计算：读取BAM文件中的读长来估计插入片段长度分布的参数及异常值的阈值。如果BAM文件含有超过100万个的读长，随机抽取100万个来进行计算以减少插入片段长度分布参数计算时间。插入片段长度分布默认为log-normal分布，通过计算插入片段长度分布的参数μ，σ并根据3sigma原则得出分布异常值阈值。如果某对读长的插入片段长度超过μ+3σ则视为异常插入片段长度。

3.读取BAM文件，过滤掉MapQ小于10的读长和位于长重复区域(同聚物序列或微卫星序列长度超过45bp)的读长，保留剩下的有效读长进入下一步。

4.提取有效读长中有关SV的信号：(1)含有soft-clipping的读长，作为SR信号进入SR信号分析流程；(2)读长对回帖方向不是正向-反向的读长，作为PE信号进入PE信号分析流程；(3)读长对回帖方向是正向-反向但是插入片段长度超过上述步骤2中计算的插入片段长度分布异常值阈值的读长，作为PE信号进入PE信号分析流程。

5.SR信号分析流程：

5.1进入SR信号分析流程的读长首先根据QNAME分组，并在每个组中根据FLAG值进行主要回帖和次优回帖的配对，过滤掉不能配对的读长；

5.2配对后的SR信号读长根据主要回帖和次优回帖的位置和方向信息判断SV类型，如图2中所示，并根据SV类型和断点坐标信息进行聚类后形成SR信号聚类；

5.3根据读长模板的起始坐标和终止坐标统计SR信号聚类中含有不同模版的读长数量(unique)和总数量(total)。记录unique为1且total大于3的SR信号聚类中的读长的QNAME，其将在PE信号分析流程中过滤掉；和

5.4将断点的两个坐标波动均小于或等于10bp的两个SR信号聚类合并。

6.PE信号分析流程：

6.1进入PE信号分析流程的读长对首先根据QNAME分组，并在每个组中根据FLAG值进行R1和R2的配对，过滤掉不能配对的读长；

6.2配对后的PE信号读长对根据R1和R2的位置和方向信息判断SV类型，如图3中所示；过滤掉具有上述步骤5.4中记录的QNAME的读长，并根据SV类型和断点坐标信息进行聚类后形成PE信号聚类；

6.3将断点的两个坐标波动均小于或等于10bp的两个PE信号聚类合并。

7信号整合：根据断点坐标信息和读长的QNAME合并SR信号聚类，PE信号聚类并形成综合信号聚类，其包括合并的SR信号聚类和PE信号聚类，或未能合并的单独SR信号聚类或PE信号聚类。

8.过滤器：

8.1针对综合信号聚类进行相似性的评估并过滤掉高相似性的综合信号聚类，具体如下：提取断点的两个坐标上下游各220bp的参考基因组序列，利用BLASTn进行比对，如果同一性超过80％且比对长度超过50bp则认为是高相似性；

8.2针对综合信号聚类进行重复区域的评估并过滤掉位于重复区域的综合信号聚类，具体如下：提取综合信号聚类断点的两个坐标上的读长序列，识别序列中是否含有同聚物(homopolymer；1个碱基序列重复超过10次及以上)，微卫星(2-6个连续碱基序列重复超过4次及以上)，或者两者的组合；在至少一个坐标上的读长序列含有同聚物序列和/或微卫星序列的情况下则认为位于重复区域；

8.3针对综合信号聚类进行嵌合体的评估并过滤掉具有嵌合体的综合信号聚类，具体如下：提取每个断点坐标上读长的soft-clipping序列及soft-clipping的起始坐标，将soft-clipping序列及soft-clipping的起始坐标两者均一致的读长分为一组；将soft-clipping的起始坐标与断点坐标一致的分组作为主要分组，其他分组合并为次要分组，计算两个分组的熵值；在至少一个断点坐标上的熵值超过0.5的情况下，则认为所述综合信号聚类具有嵌合体。

8.4针对综合信号聚类进行简单模板的评估并过滤掉是简单模板的综合信号聚类，具体如下：提取综合信号聚类中读长模版起始和终止坐标的波动范围，如果起始和终止坐标的波动范围都小于或等于3bp，则认为是简单模板；

8.5针对综合信号聚类进行平均mapq的评估并过滤掉低平均mapq的综合信号聚类，具体如下：提取综合信号聚类断点的两个坐标上读长的mapq值，并计算平均mapq；在至少一个坐标上的读长的平均mapq小于或等于过滤阈值25的情况下，则认为所述综合信号聚类为低平均mapq；

8.6针对综合信号聚类进行是否在BED文件定义区域的评估并过滤掉不在BED文件定义区域的综合信号聚类，具体如下：提取综合信号聚类断点的两个坐标，在两个坐标都不在BED文件定义区域的情况下，则认为所述综合信号聚类不在BED文件定义区域；对于没有指定BED文件的不进行该步骤；

8.7过滤掉SV大小小于500的综合信号聚类；

8.8根据综合信号聚类中读长的起始坐标和终止坐标，确定每个综合信号聚类中含有不同模板的读长对数量(unique)和读长对总数量(total)，并过滤掉unique值小于4的综合信号聚类。

9.输出报告：注释综合信号聚类，输出结果报告。

实施例2.模拟数据性能确认

模拟数据涵盖79个常见融合基因，一共11.81M的区域。模拟各种SV类型，以及包含从50bp到1,000,000bp大小的SV一共20,000例。测序深度设定在200x，SV丰度设定在50％。用实施例1中所述的方法(markSV方法)和另外3个主流SV分析软件进行比较。这3个SV分析软件分别为Delly v0.7.9，Lumpy v0.2.13，Manta v1.4.0。均用默认参数进行分析。保留VCF文件中FILTER为PASS的结果，其中Lumpy没有设置FILTER，保留全部结果。分析结果如下：

表1.markSV在20,000例广谱模拟数据中的敏感性和精确度

表2.四种SV分析软件在20,000例广谱模拟数据中的敏感性和精确度

SV分析软件	敏感性	精确度
			markSV	96.89％	99.94％
DELLY	87.79％	45.54％
			LUMPY	95.73％	48.93％
Manta	96.49％	86.40％

结果表明，本公开的方法在模拟数据中敏感性(PPA，阳性符合率)为96.89％，精确度(PPV，阳性预测值)为99.94％，在4种方法中具有最好的敏感性和精确度，且相比另外3种方法在精确度方面有较大的优势。

实施例3.标准品数据

标准品数据由包含两种融合(EML4-ALK，CD74-ROS1)的HD-C670细胞系混合样品梯度稀释制成，稀释后的丰度由ddPCR平台标定。为了确保可重复性，每个梯度在不同的上机批次、不同的试剂批次、不同的实验操作员等条件下重复多次，一共58例样本。结果如下：

表3.标准品数据摘要

用实施例1中所述的方法(markSV方法)和另外3个主流SV分析软件进行比较。这3个SV分析软件分别为Delly v0.7.9，Lumpy v0.2.13，Manta v1.4.0。均用默认分析参数分析。保留VCF文件中FILTER为PASS的结果，其中Lumpy没有设置FILTER，保留全部结果。分析结果如下：

表4.四种SV分析软件在标准品数据中的敏感性和精确度

SV分析软件	真阳	假阴	假阳	敏感性	精确度
						markSV	232	0	31	100％	88.21％
DELLY	230	2	941	97.34％	19.64％
						LUMPY	174	58	3963	96.62％	4.21％
Manta	232	0	624	100％	27.1％

对于标准品的58例样本，由于包含EML4-ALK与CD74-ROS1两种融合，并且这两种融合都是平衡易位事件(balanced translocation)，每例样本含有EML4-ALK，ALK-EML4，CD74-ROS1，ROS1-CD74等4个融合。综上对于标准品数据，一共有4*58＝232个真阳结果(TP)。

结果同样表明，本方法在模拟数据中敏感性(PPA，阳性符合率)为100％，精确度(PPV，阳性预测值)为88.21％。相比另外3种方法具有最好的敏感性和精确度，并且在精确度方面有较大的优势。

Claims

1.检测基因组区域中的结构变异(SV)的方法，所述方法包括：

a.读取高通量测序数据的序列比对文件，

d.输出结果报告。

2.检测基因组区域中的结构变异(SV)的方法，所述方法包括：

e.输出结果报告。

3.如权利要求1或2所述的方法，其中所述序列比对文件选自SAM文件和BAM文件。

4.如权利要求1-3中任一项所述的方法，其中通过以下步骤确定所述具有异常插入片段长度的读长：

确定具有超过所述异常阈值的插入片段长度的读长。

5.权利要求4所述的方法，其中通过以下步骤确定所述具有异常插入片段长度的读长：

其中N为3-10之间的整数。

6.如权利要求1-5中任一项所述的方法，其中所述SR信号分析流程包括：

将进入SR信号分析流程的读长根据QNAME分组，并在每个组中根据读长的FLAG值进行主要回贴和次优回贴的配对，过滤掉不能配对的读长；

标记SV类型，包括：

在配对的主要回贴和次优回贴位于相同染色体上的情况下，将所述主要回贴和次优回贴按照染色体坐标排序，得到排序后的回贴方向信息；同时获取排序后主要回贴和次优回贴的soft-clipping位置信息；

7.如权利要求1-6中任一项所述的方法，其中所述PE信号分析流程包括：

将进入PE信号分析流程的读长根据QNAME分组，并在每个组中根据读长的FLAG值进行R1和R2的配对，过滤掉不能配对的读长对；

标记SV类型，包括：

在配对的读长对中的R1和R2位于相同染色体上的情况下，将所述R1和R2按照染色体坐标排序，得到排序后的读长对的回贴方向信息；

若回帖方向是正向-反向，则将SV类型标记为缺失；

若回贴方向是反向-正向，则将SV类型标记为重复；

8.如权利要求1-7中任一项所述的方法，其中在读取序列比对文件时过滤掉MapQ小于过滤阈值的读长，

其中所述过滤阈值为0-60的之间的整数。

9.如权利要求8所述的方法，其中所述过滤阈值选自0、5、10、15和20。

10.如权利要求1-9中任一项所述的方法，其中在读取序列比对文件时过滤掉位于基因组重复区域的读长，所述基因组重复区域为1个碱基的重复或2-6个连续碱基的重复长度超过约45bp的区域。

11.如权利要求1-10中任一项所述的方法，其中所述SR信号分析流程进一步包括：

记录去重后模板的读长数量为1且读长总数量大于重复阈值的SR信号聚类中的读长的QNAME，并在PE信号分析流程中过滤掉具有所述QNAME的读长，

其中所述重复阈值为2-10之间的整数。

12.如权利要求11所述的方法，其中所述重复阈值为3。

13.如权利要求1-12中任一项所述的方法，其中所述SR信号分析流程进一步包括将断点的两个坐标波动均小于或等于波动范围阈值的SR信号聚类进行合并，其中所述波动范围阈值为1bp至100bp之间的整数。

14.如权利要求13所述的方法，其中所述波动范围阈值为10bp。

15.如权利要求1-14中任一项所述的方法，其中所述PE信号分析流程进一步包括将断点的两个坐标波动均小于或等于波动范围阈值的PE信号聚类进行合并，其中所述波动范围阈值为1bp至100bp之间的整数。

16.如权利要求15所述的方法，其中所述波动范围阈值为10bp。

17.如权利要求1-16中任一项所述的方法，其中对所述信号聚类进行过滤包括对所述信号聚类进行相似性评估并过滤掉具有高相似性的信号聚类，其中所述评估包括：

18.如权利要求17所述的方法，其中提取断点的两个坐标上下游各200-250bp的参考基因组序列进行比对。

19.如权利要求17或18所述的方法，其中所述同一性阈值为80％-90％之间的百分数，且所述比对长度阈值为45bp-55bp之间的整数。

20.如权利要求1-19中任一项所述的方法，其中对所述信号聚类进行过滤包括评估所述信号聚类是否位于基因组重复区域并过滤掉位于重复区域的信号聚类，其中所述评估包括：

21.如权利要求1-20中任一项所述的方法，其中对所述信号聚类进行过滤包括评估所述信号聚类是否为嵌合体并过滤掉为嵌合体的信号聚类，其中所述评估包括：

使用所述每个断点坐标上的分组评估这些分组所形成集合的离散程度(statisticaldispersion)；

22.如权利要求21所述的方法，其中通过以下步骤确定所述信号聚类是否为嵌合体：

在至少一个断点坐标上的熵值超过0.5的情况下，则认为所述信号聚类为嵌合体。

23.如权利要求1-22中任一项所述的方法，其中对所述信号聚类进行过滤包括评估所述信号聚类是否为简单模板(simple template)并过滤掉为简单模板的信号聚类，其中所述评估包括：

其中所述波动范围阈值为2bp-10bp之间的整数。

24.如权利要求23所述的方法，其中波动范围阈值为3bp。

25.如权利要求1-24中任一项所述的方法，其中对所述信号聚类进行过滤包括评估所述信号聚类的平均mapq并过滤掉低平均mapq的信号聚类，所述评估包括：

其中所述过滤阈值为20-30之间的整数。

26.如权利要求25所述的方法，其中所述过滤阈值为25。

27.如权利要求1-26中任一项所述的方法，其中对所述信号聚类进行过滤包括根据信号聚类中读长的起始坐标和终止坐标，确定每个信号聚类中含有去重后模板的读长对数量(unique)和读长对总数量(total)，并过滤掉去重后模板的读长对数量小于过滤阈值的信号聚类，

其中所述过滤阈值是2-15之间的整数。

28.如权利要求27所述的方法，其中所述过滤阈值是2、3、4、5、6或7。

29.如权利要求1-28中任一项所述的方法，其中所述方法进一步包括对过滤后的信号聚类注释断点的两个坐标位置处的基因和外显子/内含子信息，或当所述坐标处于基因间位置时注释其上下游的基因信息。

30.如权利要求1-29中任一项所述的方法，其中所述方法用于分析目标基因组区域中的SV，且所述方法包括在读取高通量测序数据的序列比对文件时过滤掉不位于所述目标基因组区域中的读长。

31.用于检测基因组区域中的结构变异的系统，所述系统包括：

高通量测序模块；和

结构变异检测模块，

其中所述高通量测序模块配置为用于对靶基因组区域进行高通量测序并生成序列比对文件；且所述结构变异检测模块配置为通过如权利要求1-30中任一项所述的方法检测所述靶基因组区域中的结构变异。

32.用于检测基因组区域中的结构变异的设备，其包括：

用于存储计算机程序指令的存储器；和

用于执行计算机程序指令的处理器，

其中当所述计算机程序指令由所述处理器执行时，所述设备执行权利要求1-30中任一项所述的方法。

33.计算机可读介质，所述计算机可读介质存储有计算机程序指令，其中当所述计算机程序指令被处理器执行时实现权利要求1-30中任一项所述的方法。