CN113362889A

CN113362889A - 基因组结构变异注释方法

Info

Publication number: CN113362889A
Application number: CN202110713095.1A
Authority: CN
Inventors: 安玥; 刘成林; 魏从翀; 张周; 张之宏; 揣少坤; 汉雨生
Original assignee: Guangzhou Burning Rock Dx Laboratory Co ltd
Current assignee: Guangzhou Burning Rock Dx Laboratory Co ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-07

Abstract

本公开涉及对基因组结构变异进行注释和预测融合蛋白形成的方法。本公开还提供了用于对基因组结构变异进行注释和预测融合蛋白形成的系统、设备和计算机可读介质。

Description

基因组结构变异注释方法

技术领域

本发明属于生物信息学领域，并具体涉及使用对基因组中的结构变异(SV)进行注释的方法和系统。

技术背景

结构变异(Structural Variants，SV)是人类基因组中最主要的变异形式。结构变异包含了缺失(Deletion)、扩增(Duplication)、插入(Insertion)、倒位(Transversion)、易位(Translocation)以及更为复杂形式的变异。在胚系突变当中，结构变异多态性是一些常见疾病的相关因素。在体系突变当中，通常以更为复杂形式出现的结构变异与癌症的发展具有一定相关性。

结构变异作为一种复杂的变异形式除了上述缺失、扩增、插入、倒位、易位等多样的变异类型外，它可能发生在基因内，也可能发生在基因间，它可能在同一个染色体上的跨度几十bp到几十兆bp，也可能是染色体间的易位。丰富的变异形式使得注释和解读结构变异十分困难。目前，针对结构变异的解读大多停留在基因或其结构的注释上，对于它的突变类型(mutation type)，推测影响，是否推测形成融合蛋白，融合蛋白的结构组成，功能影响的预测，HGVS以及致病性评级等临床关注的信息均无法合理有效的注释和预测。这大大制约了结构变异在精准医疗领域的应用。

综上，目前本领域缺乏可以有效注释解读结构变异特别是人类基因组结构变异的方法和系统。

发明内容

以下列出了本公开中使用的部分术语及其定义。

NGS：高通量测序(High-Throughput Sequencing)又名下一代测序(NextGeneration Sequencing，NGS)，是相对于传统的桑格测序(Sanger Sequencing) 而言的。

FASTQ格式文件：是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。

SAM格式文件：SAM(Sequence Alignment/Map format)文件是一种序列比对格式标准，由Sanger制定，是以TAB为分割符的文本格式。

BAM格式文件：SAM格式文件的二进制文件。

BED格式文件：BED(Browser Extensible Data)文件是定义track特征信息比如注释的格式，是以TAB为分割符的文本格式。

VCF格式文件：VCF(Variant Call Format)文件是一种保存基因序列变异的文本格式。

HGVS：人类基因组变异协会(Human Genome Variation Society)制定的序列变异的描述规范。

SV：结构变异(Structural Variation)。

本方法提供一种完整的对人类基因组结构变异注释和结构及功能预测的方法和系统。本方法除了对基因名称和结构的注释外，还可以进一步包括突变类型 (mutationtype)、推测影响(putative impact)的注释，预测是否形成融合蛋白，融合蛋白的结构组成，功能影响预测，HGVS注释以及致病性评级等临床关注的信息，来帮助相关专业人员评估结构变异的影响。

在一方面，本公开提供了一种对基因组结构变异(SV)进行注释的方法，所述方法包括：

a.提供SV信息，所述信息包括SV的类型、方向(orientation)和两个断点坐标，其中所述SV类型包括缺失、重复、倒位和易位；

b.根据断点坐标对每个断点所处的基因、转录本和断点在转录本中的位置，以及所述转录本的方向信息，CDS的最小外显子编号和最大外显子编号进行注释，或者当所述断点位于基因之间的区域时将其注释为基因间区域；和

c.根据SV类型和步骤b中对每个断点的注释，对SV产生的突变类型进行注释。

在上述方法的一些实施方案中，其中步骤a包括读取上游SV检测软件的分析结果以提取SV信息。在优选的实施方案中，所述SV变异检测软件选自Delly、 Manta、LUMPY、GRIDSS和markSV。

在一些实施方案中，步骤b包括：

b1.根据断点坐标将其注释为所述位置处的基因或基因间区域；

b2.确定b1中注释的基因的所有转录本及转录本的外显子、内含子、CDS和 UTR信息；

b3.根据断点在所述转录本中的位置，将其注释为位于UTR区域、外显子M 或内含子N，其中M为所述断点所处的CDS区域的外显子编号，N为所述断点处于两个CDS区域之间时，外显子编号较小的CDS的外显子编号；和

b4.获取所述基因的所述转录本的方向信息(+/-链信息)、CDS的最小外显子编号和最大外显子编号。

其中，在基因存在多个转录本的情况下，可以选择指定的转录本进行注释。在没有指定转录本的情况下，可以选择基因最长的转录本进行注释。

在上述方法的一些实施方案中，对突变类型进行注释包括对两个断点不在同一个基因内的SV进行注释，包括：

若两个断点都在基因间区域，则将突变类型注释为基因间变异；

若至少一个断点在基因区域，则将突变类型注释为基因融合。

在上述方法的一些实施方案中，对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是缺失的SV进行注释，包括：

(1)若两个断点在同一个外显子上，则根据至少一个断点与外显子边缘的距离，将突变类型注释为剪接区域变异或蛋白质改变变异；优选地，根据缺失核苷酸数量是否为3个核苷酸的倍数，将所述蛋白质改变变异注释为符合读码框缺失或移码变异；

(2)若两个断点在同一个内含子上，则根据至少一个断点与内含子上下游边缘的距离，将突变类型注释为剪接位点变异、剪接区域变异或内含子变异；优选地，根据至少一个断点与内含子上游边缘的距离或内含子下游边缘的距离，将所述剪接位点变异注释为剪接受体变异或剪接供体变异；

(3)若至少一个断点在UTR区域，另一个断点在同一个UTR的上、下游基因间区域，根据该UTR区域，将突变类型注释为5’UTR变异或3’UTR变异；

(4)若两个断点中一个在5’UTR上且另一个在3’UTR上，则将突变类型注释为拷贝数缺失变异；

(5)对于其他情况，将突变类型注释为大片段基因组重排。

在一些实施方案中，以上步骤(1)包括：若两个断点在同一个外显子上，则根据缺失核苷酸数量是否为3个核苷酸的倍数，将所述蛋白质改变变异注释为符合读码框缺失(缺失核苷酸数量为3个核苷酸的倍数)或移码变异(缺失核苷酸数量不是3个核苷酸的倍数)；其中若至少一个断点在外显子内边缘2bp以内，则将突变类型覆盖为剪接区域变异。

在一些实施方案中，以上步骤(2)包括：若两个断点在同一个内含子上，将突变类型注释为内含子变异；其中若至少一个断点在外显子上游外边缘2bp以内，则将突变类型覆盖为剪接受体变异，若至少一个断点在外显子下游外边缘2bp以内，则将突变类型覆盖为剪接供体变异，若至少一个断点在外显子外边缘2-20bp 之间，则将突变类型覆盖为剪接区域变异。

在上述方法的一些实施方案中，对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是重复的SV进行注释，包括：

(1)若两个断点在同一个外显子上或在相邻的外显子上，将突变类型注释为蛋白质改变变异；优选地，根据重复核苷酸数量是否为3个核苷酸的倍数，将所述蛋白质改变变异注释为符合读码框重复或移码变异；

(2)若两个断点中的一个在内含子上，且另一个在同一个内含子上或与该内含子相邻的外显子或UTR上，则将突变类型注释为内含子变异；

(3)若至少一个断点在UTR区域，另一个断点在同一个UTR区域的上、下游基因间区域，根据该UTR区域，将突变类型注释为5’UTR变异或3’UTR变异；

(4)若两个断点中一个在5’UTR上且另一个在3’UTR上，则将突变类型注释为拷贝数重复变异；

(5)对于其他情形，将突变类型注释为大片段基因组重排。

在上述方法的一些实施方案中，对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是倒位的SV进行注释，包括：

(1)若两个断点在同一个外显子上，根据至少一个断点与外显子边缘的距离，将突变类型注释为剪接区域变异或蛋白质改变变异；优选地，根据突变后的编码框内是否有终止子，将所述蛋白质改变变异注释为终止获得或错义变异；

(2)若两个断点在同一个内含子上，则根据至少一个断点与外显子上游、下游边缘的距离将突变类型注释为剪接位点变异、剪接区域变异或内含子变异；优选地，根据至少一个断点与外显子上游边缘的距离或外显子下游边缘的距离，将所述剪接位点变异注释为剪接受体变异或剪接供体变异；

(4)对于其他情况，将其突变类型注释为大片段基因组重排。

在一些实施方案中，以上步骤(1)包括：若两个断点在同一个外显子上，则根据突变后的编码框内是否有终止子，分别将突变类型注释为终止获得(有终止子) 或错义变异(无终止子)；其中若至少一个断点在外显子内边缘2bp以内，则将突变类型覆盖为剪接区域变异。

在一些实施方案中，以上步骤(2)包括：若两个断点在同一个内含子上，则将突变类型注释为内含子变异；其中若至少一个断点在外显子上游外边缘2bp以内，则将突变类型覆盖为剪接受体变异，若至少一个断点在外显子下游外边缘2bp以内，则将突变类型覆盖为剪接供体变异，若至少一个断点在外显子外边缘2-20bp 之间，则将突变类型覆盖为剪接区域变异。

在一些实施方案中，本公开的方法进一步包括对突变类型的推测影响进行注释。

在一些实施方案中，将拷贝数重复变异注释为推测影响为中，将拷贝数缺失变异和大片段基因组重排注释为推测影响为高。在一些实施方案中，除以上外，其它突变类型的推测影响按照snpEff软件的预测标准进行注释。

在一些实施方案中，所述snpEff软件的预测标准如下：

在一些实施方案中，本公开的方法进一步包括对突变类型为基因融合的SV 产生的新融合序列进行注释，包括：

a.根据SV方向构建融合序列，包括：

对于方向为FR(forward-reverse)的SV，将两个基因组回帖上的序列顺序连接；对于方向为RF(reverse-forward)的SV，将两个基因回帖上的序列逆序连接；对于方向为FF(forward-forward)的SV，将下游基因回帖上的序列反向互补后顺序与上游基因连接；对于方向为RR(reverse-reverse)的SV，将上游基因回帖上的序列反向互补后顺序与下游基因连接；

b.根据融合序列两个基因的组成关系和转录本方向，如下确定融合序列结构：

对于融合序列在基因组上游的基因，如果转录本链方向是正向，融合后序列保留断点所在外显子上游的外显子序列，如果转录本链方向是反向，融合后序列保留断点所在外显子下游的外显子序列；

对于融合序列在基因组下游的基因，如果转录本链方向是正向，融合后序列保留断点所在外显子下游的外显子序列，如果转录本链方向是反向，融合后序列保留断点所在外显子上游的外显子序列；

c.按照融合序列两个基因的组成关系和转录方向存在4种情形：(1)++，即融合序列的5’端是融合序列的左边，3’端是融合序列的右边；(2)--，即融合序列的 3’端是融合序列的左边，5’端是融合序列的右边；(3)+-，即融合序列的两个基因的转录方向冲突，不能确定5’端和3’端；和(4)-+，即融合序列的两个基因的转录方向冲突，不能确定5’端和3’端，

其中情形(1)和(2)预测为能够形成融合蛋白，且情形(3)和(4)预测为不能形成融合蛋白。

在一些实施方案中，本公开的方法进一步包括对SV的功能影响进行注释，包括：

对于基因间的SV，若两个基因中的一个是原癌基因，且预测为生成融合蛋白，则将功能影响注释为功能失去：若一个基因是肿瘤抑制基因，则将功能影响注释为功能失去；

对于基因内的SV，若所述基因是肿瘤抑制基因，则将功能影响注释为功能失去；对于已知会造成功能获得的基因内SV，则将功能影响注释为功能获得；

对于其他情形将功能影响注释为None。

在一些实施方案中，所述已知会造成功能获得的基因内SV可以选自BRAF exon11-18 amp，EGFR 18-25amp，MET exon15-21 amp和BRAF exon5-9 del。除以上列举的以外，本领域已知其它会造成功能获得的基因内SV。

在一些实施方案中，本公开的方法进一步包括对SV的致病等级进行注释，其中：

对于基因间的SV，若其注释为功能失去，则证据注释为PVS1，评级注释为可能致病；

对于基因内的SV，参考ACMG CNV指南(例如2019ACMG CNV指南)对证据等级和评级进行注释。

在一些实施方案中，本公开的方法进一步包括基于SV的类型和断点坐标生成HGVS数据结构的注释。在一些实施方案中，所述HGVS数据结构可以包括 g.HGVS、c.HGVS和/或p.HGVS数据结构。

在另一个方面，本公开涉及用于对基因组结构变异(SV)进行注释的系统，所述系统包括：

SV信息读取模块；和

SV注释模块，

其中所述SV信息读取模块配置为读取SV信息，所述信息包括SV的类型、方向(orientation)和两个断点坐标，其中所述SV类型包括缺失、重复、倒位和易位；且所述SV注释模块配置为通过本公开的第一方面中所述的方法对SV进行注释。

在一个方面，本公开涉及用于对基因组结构变异(SV)进行注释的设备，其包括：

用于存储计算机程序指令的存储器；和

用于执行计算机程序指令的处理器，

其中当所述计算机程序指令由所述处理器执行时，所述设备执行本公开的第一方面中所述的方法。

在另一个方面，本公开涉及计算机可读介质，所述计算机可读介质存储有计算机程序指令，其中当所述计算机程序指令被处理器执行时实现本公开的第一方面中所述的方法。

具体实施方式

实施例1.示例性结构变异(SV)检测方法

以下以markSV方法为例，说明获得基因组区域中的结构变异(SV)相关信息的方法。

1.序列比对文件生成：待测样品经过文库制备后，在Illumina测序平台进行上机测序生成FASTQ文件。对FASTQ文件进行质控后，用比对软件BWA-MEM以人类参考基因组(hg19/b37)对FASTQ文件进行比对回帖并生成SAM文件。将 SAM文件用samtools软件转成BAM文件后，以BAM文件作为输入文件进行后续检测。

2.插入片段长度异常值计算：读取BAM文件中的读长来估计插入片段长度分布的参数及异常值的阈值。如果BAM文件含有超过100万个的读长，随机抽取 100万个来进行计算以减少插入片段长度分布参数计算时间。插入片段长度分布默认为log-normal分布，通过计算插入片段长度分布的参数μ，σ并根据3sigma原则得出分布异常值阈值。如果某对读长的插入片段长度超过μ+3σ则视为异常插入片段长度。

3.读取BAM文件，过滤掉MapQ小于10的读长和位于长重复区域(同聚物序列或微卫星序列长度超过45bp)的读长，保留剩下的有效读长进入下一步。

4.提取有效读长中有关SV的信号：(1)含有soft-clipping的读长，作为SR信号进入SR信号分析流程；(2)读长对回帖方向不是正向-反向的读长，作为PE信号进入PE信号分析流程；(3)读长对回帖方向是正向-反向但是插入片段长度超过上述步骤2中计算的插入片段长度分布异常值阈值的读长，作为PE信号进入PE 信号分析流程。

5.SR信号分析流程：

5.1进入SR信号分析流程的读长首先根据QNAME分组，并在每个组中根据 FLAG值进行主要回帖和次优回帖的配对，过滤掉不能配对的读长；

5.2配对后的SR信号读长根据主要回帖和次优回帖的位置和方向信息判断 SV类型，并根据SV类型和断点坐标信息进行聚类后形成SR信号聚类；

5.3根据读长模板的起始坐标和终止坐标统计SR信号聚类中含有不同模版的读长数量(unique)和总数量(total)。记录unique为1且total大于3的SR信号聚类中的读长的QNAME，其将在PE信号分析流程中过滤掉；和

5.4将断点的两个坐标波动均小于或等于10bp的两个SR信号聚类合并。

6.PE信号分析流程：

6.1进入PE信号分析流程的读长对首先根据QNAME分组，并在每个组中根据FLAG值进行R1和R2的配对，过滤掉不能配对的读长；

6.2配对后的PE信号读长对根据R1和R2的位置和方向信息判断SV类型；过滤掉具有上述步骤5.4中记录的QNAME的读长，并根据SV类型和断点坐标信息进行聚类后形成PE信号聚类；

6.3将断点的两个坐标波动均小于或等于10bp的两个PE信号聚类合并。

7信号整合：根据断点坐标信息和读长的QNAME合并SR信号聚类，PE信号聚类并形成综合信号聚类，其包括合并的SR信号聚类和PE信号聚类，或未能合并的单独SR信号聚类或PE信号聚类。

8.过滤器：

8.1针对综合信号聚类进行相似性的评估并过滤掉高相似性的综合信号聚类，具体如下：提取断点的两个坐标上下游各220bp的参考基因组序列，利用BLASTn进行比对，如果同一性超过80％且比对长度超过50bp则认为是高相似性；

8.2针对综合信号聚类进行重复区域的评估并过滤掉位于重复区域的综合信号聚类，具体如下：提取综合信号聚类断点的两个坐标上的读长序列，识别序列中是否含有同聚物(homopolymer；1个碱基序列重复超过10次及以上)，微卫星 (2-6个连续碱基序列重复超过4次及以上)，或者两者的组合；在至少一个坐标上的读长序列含有同聚物序列和/或微卫星序列的情况下则认为位于重复区域；

8.3针对综合信号聚类进行嵌合体的评估并过滤掉具有嵌合体的综合信号聚类，具体如下：提取每个断点坐标上读长的soft-clipping序列及soft-clipping的起始坐标，将soft-clipping序列及soft-clipping的起始坐标两者均一致的读长分为一组；将soft-clipping的起始坐标与断点坐标一致的分组作为主要分组，其他分组合并为次要分组，计算两个分组的熵值；在至少一个断点坐标上的熵值超过0.5的情况下，则认为所述综合信号聚类具有嵌合体。

8.4针对综合信号聚类进行简单模板的评估并过滤掉是简单模板的综合信号聚类，具体如下：提取综合信号聚类中读长模版起始和终止坐标的波动范围，如果起始和终止坐标的波动范围都小于或等于3bp，则认为是简单模板；

8.5针对综合信号聚类进行平均mapq的评估并过滤掉低平均mapq的综合信号聚类，具体如下：提取综合信号聚类断点的两个坐标上读长的mapq值，并计算平均mapq；在至少一个坐标上的读长的平均mapq小于或等于过滤阈值25的情况下，则认为所述综合信号聚类为低平均mapq；

8.6针对综合信号聚类进行是否在BED文件定义区域的评估并过滤掉不在 BED文件定义区域的综合信号聚类，具体如下：提取综合信号聚类断点的两个坐标，在两个坐标都不在BED文件定义区域的情况下，则认为所述综合信号聚类不在BED文件定义区域；对于没有指定BED文件的不进行该步骤；

8.7过滤掉SV大小小于500的综合信号聚类；

8.8根据综合信号聚类中读长的起始坐标和终止坐标，确定每个综合信号聚类中含有不同模板的读长对数量(unique)和读长对总数量(total)，并过滤掉unique 值小于4的综合信号聚类。

9.输出报告：注释综合信号聚类，输出结果报告。

实施例2.结构变异(SV)注释流程

1.读取结构变异结果文件

读取解析上游结构变异检测软件(如markSV软件)的分析结果并从中提取注释需要的信息，如：SV类型，方向(orientation)，断点坐标(包含染色体号及基因组坐标)等信息。支持的格式包括自定义格式的tsv文件以及VCF格式文件。

2.基因及结构信息注释

结构变异通常包括两个断点，需要针对每一个断点注释基因及结构信息。对于基因及结构信息的注释分为基因注释，转录本注释，基因结构注释三个步骤。

2.1基因注释

根据断点的染色体号以及基因组坐标，在GENCODE数据库中先检索出其所处位置的基因及相关信息。对于断点所处位置没有任何基因的情况视为基因间区域。同时检索该断点上下游的基因，将该点注释为在上游基因和下游基因之间的基因间区域，形式为基因间(上游基因,下游基因)，与此同时结束基因及结构信息注释。对于断点所处位置有多个基因的情况，优先选择有蛋白功能的基因。

2.2转录本注释

根据上一步基因注释的基因ID，在GENCODE数据库中检索出该基因ID所有的转录本及其所含有的UTR，Exon，CDS等结构信息。如果根据配置信息，对于某个基因有指定的转录本则直接选择该转录本进入基因结构注释。否则，选择最长的转录本作为默认转录本进入基因结构注释。

2.3基因结构注释

根据上一步选择的转录本，历遍该转录本所含有的UTR，Exon，CDS等结构信息。如果断点在UTR区域，则视为该断点在这个基因，这个转录本的UTR区域。如果断点在CDS区域，获取该CDS区域的外显子号，则视为该断点在这个基因，这个转录本的外显子N区域(N为外显子号)。如果断点在两个相邻CDS区域之间，获取这两个CDS区域外显子号较小的那一个，则视为该断点在这个基因，这个转录本的内含子N区域(N为较小的外显子号)。与此同时收集这个基因，这个转录本方向信息(+/-链)，CDS最小外显子号和最大外显子号信息。

如此，基因及结构信息注释得到了每个断点所处基因，转录本，基因结构的信息，同时还有这个基因，这个转录本方向信息(+/-链)，CDS最小外显子号和最大外显子号等信息，以供后续流程使用。

3.突变类型及推测影响注释

突变类型的命名主要根据SO(Sequence Ontology)的框架来实施，并根据实际情况做了一定的调整。

3.1基因间结构变异

对于两个断点不处于同一个基因中的结构变异。如果两个断点都在基因间区域，则突变类型注释为基因间变异(SO:0001628)。如果只有一个断点在基因间区域，则突变类型注释为基因融合(SO:0001565)。如果两个断点都在基因区域，则突变类型注释为基因融合(SO:0001565)。

3.2基因内结构变异

对于两个断点处于同一个基因内的结构变异，根据变异类型具体判断。

3.2.1对于变异类型是缺失(Deletion)，做如下判断：

如果是两个断点在同一个外显子上的情况，如果缺失的长度是3个核苷酸的倍数，则突变类型注释为符合读码框缺失(SO:0001822)，否则突变类型注释为移码变异(SO:0001589)。在这其中，如果断点在外显子内边缘2bp(影响剪接)，则突变类型覆盖为剪接区域变异(SO:0001630)。

如果是两个断点在同一个内含子上的情况，则突变类型注释为内含子变异 (SO:0001627)。在这其中，如果断点在外显子上游外边缘2bp(影响剪接)，则突变类型覆盖为剪接受体变异(SO:0001574)；如果断点在外显子下游外边缘2bp (影响剪接)，则突变类型覆盖为剪接供体变异(SO:0001575)；如果断点在外显子外边缘2-20bp(影响剪接)，则突变类型覆盖为剪接区域变异(SO:0001630)。

如果是两个断点在同一个UTR上的情况，如果是5’UTR，则突变类型注释为 5’UTR变异(SO:0001623)。如果是3’UTR，则突变类型注释为3’UTR变异 (SO:0001624)。

如果是两个断点在不同外显子或不同的内含子或一个在外显子一个在内含子上的情况，则突变类型注释为大片段基因组重排。

如果是两个断点所处位置仅影响UTR区域的情况，例如：如果断点一个在 5’UTR区域，另一个在5’UTR区域上的内含子或外显子上(即：同一个5’UTR区域的上、下游基因区域)，则突变类型注释为5’UTR变异(SO:0001623)。如果断点一个在3’UTR区域，另一个在3’UTR区域上的内含子或外显子上(即：同一个 3’UTR区域的上、下游基因区域)，则突变类型注释为3’UTR变异(SO:0001624)。

如果两个断点一个在5’UTR另一个在3’UTR，则突变类型注释为拷贝数缺失变异。

对于其他情况，则突变类型注释为大片段基因组重排。

3.2.2对于变异类型是重复(Duplication)，做如下判断：

当两个断点在同一个外显子上或在相邻的两个外显子上的情况下，如果重复的长度是3个核苷酸的倍数，则突变类型注释为符合读码框插入(SO:0001821)，否则将突变类型注释为移码变异(SO:0001589)。

如果是两个断点在同一个内含子上的情况，则突变类型注释为内含子变异 (SO:0001627)。

如果是两个断点在两个不相邻的外显子上的情况，则突变类型注释为大片段基因组重排。

如果是两个断点在两个相邻的外显子和内含子上的情况，则突变类型注释为内含子变异(SO:0001627)。

如果是两个断点在两个不相邻的外显子和内含子上的情况，则突变类型注释为大片段基因组重排。

如果是两个断点在相邻的UTR和内含子上，则突变类型注释为内含子变异。

如果两个断点一个在5’UTR另一个在3’UTR，则突变类型注释为拷贝数重复变异。

对于其他情况，则突变类型注释为大片段基因组重排。

3.2.3对于变异类型是倒位(Inversion)，做如下判断：

如果是两个断点在同一个外显子上的情况，如果突变后的编码框内有终止子，则突变类型注释为终止获得(SO:0001587)。否则突变类型注释为错义变异 (SO:0001583)。在这其中，如果断点在外显子内边缘2bp(影响splice)，则突变类型覆盖为剪接区域变异(SO:0001630)。

如果是两个断点在不同外显子或不同的内含子或一个在外显子一个在内含子上的情况，则突变类型注释为大片段基因组重排(SO:0001572)。

如果两个断点一个在5’UTR另一个在3’UTR，则突变类型注释为大片段基因组重排。

对于其他情况，则突变类型注释为大片段基因组重排(SO:0001572)。

对于拷贝数重复变异，则注释推测影响为中。对于拷贝数缺失变异，则注释推测影响为高。

对于突变类型为大片段基因组重排，则注释推测影响为高。

其余突变类型的推测影响按照snpEff软件的预测标准进行注释，如下。

4.融合序列结构注释及融合蛋白预测

对于基因间的结构变异产生的新融合序列注释融合后序列的结构以及预测是否会形成融合蛋白以帮助判断该结构变异在蛋白功能方面的影响。

首先根据变异类型以及方向构建融合序列。对于染色体内变异类型有缺失，重复，倒位等，他们对应的方向分别为对应于“缺失”的FR(forward-reverse)，对应于“重复”的RF(reverse-forward)，以及对应于“倒位”的FF和RR(其中，倒位有left-spanning和right-spanning两种，left-spanning对应于FF方向，right- spanning对应于RR方向)。对于染色体间变异类型所对应的方向与染色体内的类似，也是FR，RF，FF，RR四种。对于FR类型，是两个基因回帖上的序列顺序连接。对于RF类型，是两个基因回帖上的序列逆序连接。对于FF类型，是将(基因组)下游基因回帖上的序列反向互补后顺序与(基因组)上游基因连接。对于RR 类型，是将(基因组)上游基因回帖上的序列反向互补后顺序与(基因组)下游基因连接。

然后根据融合序列两个基因的组成关系和转录方向确定融合序列的结构。对于融合序列左边的基因，如果该基因转录本为+，则融合后保留了该基因5’端的序列。如果该基因转录本为-，则融合后保留了该基因3’端的序列。对于融合序列右边的基因，如果该基因转录本为+，则融合后保留了该基因3’端的序列。如果该基因转录本为-，则融合后保留了该基因5’端的序列。对于保留5’端的序列，如果断点在外显子N上，则预测保留该基因外显子1-(N-1)的部分；如果断点在内含子N上，则预测保留该基因内含子1-N的部分。对于保留3’端的序列，如果断点在外显子N上，则预测保留该基因外显子(N+1)及之后的部分；如果断点在内含子N 上，则也预测保留该基因外显子(N+1)及之后的部分。

最后确定融合后新序列的转录方向。按照融合序列两个基因的组成关系和转录方向有以下4种可能：(1).++，即融合序列的5’端是融合序列的左边，3’端是融合序列的右边。(2).--，即融合序列的3’端是融合序列的左边，5’端是融合序列的右边，与(1)相反。以上两种情况均预测可以形成融合蛋白。(3).+-，即融合序列的两个基因的转录方向相冲突，不能断定5’端和3’端。(4).-+，也即融合序列的两个基因的转录方向相冲突，不能断定5’端和3’端。以上两种情况均预测不能形成融合蛋白。

5.HGVS注释

对于基因内的结构变异注释HGVS帮助描述和理解变异。

5.1生成g.HGVS

根据两个断点的坐标和变异类型即可生成g.HGVS，形式为{refseq}:g.{start}_{end}{var_type}。其中，refseq为染色体号对应的refseq，亦可以直接用染色体号；start为断点较小的坐标；end为断点较大的坐标；如果是缺失， var_type为是del，如果是重复，var_type是dup，如果倒位，var_type是inv。

5.2生成c.HGVS

根据上一步生成的g.HGVS，在mutalyzer上利用position-converter页面进行注释c.HGVS。对于一个g.HGVS因为基因不同以及转录本的不同可能生成多个 c.HGVS，先选择前述步骤注释出来基因名的相关条目。如果指定了转录本，则用该转录本及其c.HGVS。否则优先选择LRG转录本及其c.HGVS，如果没有LRG 转录本，则优先使用NM或MP开头的转录本及其c.HGVS。

5.3生成p.HGVS

根据上一步生成的转录本及c.HGVS，在mutalyzer上利用name-checker页面进行注释p.HGVS。对于无法注释p.HGVS情况，则将p.HGVS注释为None。默认p.HGVS是三字母的形式，同时根据氨基酸三字母和单字母转换关系，另外生成一个单字母p.HGVS形式以便后续流程使用。

上述过程与mutalyzer网页/接口交互的过程可以使用网络爬虫程序来实现自动化来提高效率和稳定性。

6.功能影响预测

对于基因间的结构变异，如果partner基因(两个基因中的一个)是原癌基因且上游流程预测生成融合蛋白则功能影响注释为功能失去。如果partner基因是肿瘤抑制基因则功能影响亦注释为功能失去。

对于基因内的结果变异，如果基因(两个基因相同)是肿瘤抑制基因则功能影响注释为功能失去。对于已知会造成功能获得的基因内结构变异，包括BRAF exon11-18 amp，EGFR 18-25amp，MET exon15-21 amp以及BRAF exon5-9 del，则功能影响注释为功能获得。

对于其他情况功能影响注释为None。

7.Classification注释

对于基因间的结构变异，如果上游流程注释为功能失去，则证据等级注释为PVS1，评级注释为可能致病。

对于基因内的结构变异，主要参考2019ACMG CNV指南对证据等级和评级进行注释和判断。

实施例3.结构变异注释

样本经过文库制备的一系列步骤后，在Illumina测序平台进行上机测序生成FASTQ文件。对FASTQ文件进行质控后，用比对软件BWA-MEM以人类参考基因组(hg19/b37)对FASTQ文件进行比对回帖并生成SAM文件。再将SAM文件用 samtools软件转成BAM文件后，以BAM文件作为输入文件，并用结构变异检测软件分析出结构变异结果。以结构变异结果作为输入文件，用本方法分析并得到分析结果。

分析步骤如实施例2中所述。分析结果以一个肺癌FFPE样本为例。该样本经过结构变异检测软件分析后结果中有一例染色体间易位(CTX)，方向为FR，一个断点在chr6:117647625，另一个断点在chr5:149782845。经过本方法分析后得出，该结构变异是突变类型为基因融合，并且发生在ROS1内含子32 (chr6:117647625)与CD74内含子6(chr5:149782845)的融合。融合形式为CD74- ROS1(C6:R33)，它表示该融合是CD74基因的5'UTR-内含子6与ROS1基因的外显子33-3'UTR相连接。并且本方法预测该融合会形成融合蛋白。

该样本经过FISH方法验证后为CD74-ROS1阳性，该结果表明该样本在DNA 层面有CD74和ROS1的融合。该样本同时也经过IHC方法验证后为CD74-ROS1阳性，该结果表明该样本在蛋白层面也有CD74和ROS1的融合。这两个验证结果均符合本方法预测结果。另外，本方法还提供其他注释与预测信息：推测影响为高，功能影响预测为功能失去，证据等级为PVS1，致病性评级为可能致病。

本方法不仅对结构变异注释了基因及其结构，还对于它的突变类型，推测影响，是否预测形成融合蛋白，融合蛋白的结构组成，功能影响预测，HGVS以及致病性评级等临床关注的信息也进行了注释或预测。从而由多个角度注释或预测了结构变异的基本信息以及临床相关的信息并为临床应用提供了更全面更深入的解读。

Claims

1.对基因组结构变异(SV)进行注释的方法，所述方法包括：

2.权利要求1的方法，其中步骤a包括读取上游SV检测软件的分析结果以提取SV信息，优选所述SV变异检测软件选自Delly、Manta、LUMPY、GRIDSS和markSV；

可选地，其中步骤b包括：

b2.确定b1中注释的基因的所有转录本及转录本的外显子、内含子、CDS和UTR信息，其中对于有指定转录本的基因选择该转录本进行注释，对于没有指定转录本的基因选择最长的转录本进行注释；

b3.根据断点在所述转录本中的位置，将其注释为位于UTR区域、外显子M或内含子N，其中M为所述断点所处的CDS区域的外显子编号，N为所述断点处于两个CDS区域之间时，外显子编号较小的CDS的外显子编号；和

3.权利要求1或2所述的方法，其中对突变类型进行注释包括对两个断点不在同一个基因内的SV进行注释，包括：

若至少一个断点在基因区域，则将突变类型注释为基因融合；

优选地，其中对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是缺失的SV进行注释，包括：

(5)对于其他情况，将突变类型注释为大片段基因组重排；

进一步优选地，其中对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是重复的SV进行注释，包括：

(5)对于其他情形，将突变类型注释为大片段基因组重排；

更进一步优选地，其中对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是倒位的SV进行注释，包括：

(4)对于其他情况，将其突变类型注释为大片段基因组重排。

4.权利要求1-3中任一项的方法，其进一步包括对突变类型的推测影响进行注释；优选地，其中将拷贝数重复变异注释为推测影响为中，将拷贝数缺失变异和大片段基因组重排注释为推测影响为高，其余突变类型的推测影响按照snpEff软件的预测标准进行注释。

5.权利要求3或4的方法，其中所述方法包括对突变类型为基因融合的SV产生的新融合序列进行注释，包括：

a.根据SV方向构建融合序列，包括：

c.按照融合序列两个基因的组成关系和转录方向存在4种情形：(1)++，即融合序列的5’端是融合序列的左边，3’端是融合序列的右边；(2)--，即融合序列的3’端是融合序列的左边，5’端是融合序列的右边；(3)+-，即融合序列的两个基因的转录方向冲突，不能确定5’端和3’端；和(4)-+，即融合序列的两个基因的转录方向冲突，不能确定5’端和3’端，

其中情形(1)和(2)预测为能够形成融合蛋白，且情形(3)和(4)预测为不能形成融合蛋白；

优选地，所述方法进一步包括对SV的功能影响进行注释，包括：

对于其他情形将功能影响注释为None；

进一步优选地，其中所述已知会造成功能获得的基因内SV选自BRAF exon11-18 amp，EGFR 18-25amp，MET exon15-21 amp和BRAF exon5-9 del。

6.权利要求5的方法，其中所述方法进一步包括对SV的致病等级进行注释，其中：

对于基因内的SV，参考ACMG CNV指南对证据等级和评级进行注释。

7.权利要求1-6中任一项的方法，其中所述方法进一步包括基于SV的类型和断点坐标生成HGVS数据结构的注释；优选地，其中所述HGVS数据结构包括g.HGVS、c.HGVS和/或p.HGVS数据结构。

8.用于对基因组结构变异(SV)进行注释的系统，所述系统包括：

SV信息读取模块；和

SV注释模块，

其中所述SV信息读取模块配置为读取SV信息，所述信息包括SV的类型、方向(orientation)和两个断点坐标，其中所述SV类型包括缺失、重复、倒位和易位；且所述SV注释模块配置为通过权利要求1-7中任一项所述的方法对SV进行注释。

9.用于对基因组结构变异(SV)进行注释的设备，其包括：

用于存储计算机程序指令的存储器；和

用于执行计算机程序指令的处理器，

其中当所述计算机程序指令由所述处理器执行时，所述设备执行权利要求1-7中任一项所述的方法。

10.计算机可读介质，所述计算机可读介质存储有计算机程序指令，其中当所述计算机程序指令被处理器执行时实现权利要求1-7中任一项所述的方法。