CN113628680B

CN113628680B - 一种基于基准集的基因组结构变异性能检测方法

Info

Publication number: CN113628680B
Application number: CN202111039173.0A
Authority: CN
Inventors: 朱晓; 雷宇; 孟悦; 边奕心; 赵松; 丁云鸿; 李玉霞
Original assignee: Harbin Normal University
Current assignee: Harbin Normal University
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2022-06-21
Anticipated expiration: 2041-09-06
Also published as: CN113628680A

Abstract

一种基于基准集的基因组结构变异性能检测方法，本发明涉及基于基准集的基因组结构变异性能检测方法。本发明的目的是为了解决现有基因组结构变异检测方法不够全面，且缺少公用的变异识别结果检测方法的问题。一种基于基准集的基因组结构变异性能检测方法具体过程为：步骤一、基于用户变异识别结果集和基准集，计算基因组结构变异中插入、缺失、复制、倒位变异在数量指标上的变异统计结果；步骤二、基于用户变异识别结果集和基准集，计算基因组结构变异中易位变异识别结果中断点区间的数量指标。本发明用于基因组结构变异性能检测领域。

Description

一种基于基准集的基因组结构变异性能检测方法

技术领域

本发明涉及基于基准集的基因组结构变异性能检测方法。

背景技术

人类基因组结构变异的研究在基因组进化、群体多态性分析、致病变异、人类健康等方面有着重要意义。人类基因组的变异主要分为三大类：(1)单核苷酸变异(SNV)，通俗讲就是指单个DNA碱基的不同；(2)小的Indel(insertion和deletion的统称)，指的是在基因组的某个位置上所发生的小片段序列的插入或者缺失，其长度通常在50bp以下；(3)大的结构变异，类型比较多，包括长度在50bp以上的大片段序列的插入、缺失、染色体倒位、染色体内部或染色体之间的序列易位，以及一些形式更为复杂的变异。

为了与SNV变异作区分，第2类(小的Indel)和第3类(大的结构变异)变异通常被称为基因组结构变异。与其它形式的遗传变异相比，结构变异赋予人类基因组更高的多样性。虽然人类基因组结构变异不如SNV普遍，但是由于其长度较长，能够使更多的碱基发生改变，甚至可能改变基因结构，从而具有更大的功能潜力，导致遗传性疾病的可能性更大。

基因组结构变异的主要类型^[1]有：插入(insertion)、缺失(deletion)、复制(duplication)、倒位(inversion)及易位(translocation)。这五种变异类型如图2所示。

基因组结构变异识别方法

目前，结构变异的识别主要基于高通量测序数据和单分子测序数据。

高通量测序数据的结构变异识别，主要有4类识别策略^[2]：(1)基于Read pair的识别策略，该策略是最常用的一种识别策略，许多识别方法基于该策略，如BreakDancer^[3]，PEMer^[4]等；(2)基于Read depth的识别策略，该类策略能有效检测大的复制和缺失类型的变异，无法有效识别长度较小的变异，同时该类策略识别的变异类型较少，典型的该类识别方法有CNVnator^[5]等。(3)基于Split read的识别策略，该策略能够检测缺失变异以及长度较小的插入变异，如Pindel^[6]。(4)基于序列拼接的识别策略，该类方法能够识别各种类型的变异，尤其适合处理长度较长的插入序列和复杂的结构变异，典型识别方法有CREST^[7]。

针对单分子测序数据识别结构变异的识别方法，主要分为两类方法：基于比对的方法和局部拼接与比对相结合的方法。基于比对的单分子测序数据的结构变异识别方法主要有PBHoney^[8]、Sniffles^[9]、NextSV^[10]、NanoSV^[11]和Picky^[12]；拼接与比对相结合的识别方法主要有SMRT-SV^[13]和SDA^[14]。这两类方法都以单分子测序数据与参考基因组之间的reads比对为基础。

结构变异识别结果性能检测方法

不同变异识别方法其识别结果通常差别较大，虽然有一些结构变异方面的性能检测方法，但基本都是不同研究团队内部私有的方法，缺少公用的变异性能检测方法，一定程度上阻碍了结构变异识别方法的研究。

此外，由于采用的序列比对算法以及变异识别方法的不同而导致的基因组某些复杂区域内的变异在不同识别结果中可能出现位置移位(如图3a、3b所示)，而现有检测方法通常直接计算用户识别结果集中变异与基准集中变异之间的交叠，未考虑识别结果中可能出现的位置移位，导致检测结果可能出现轻微偏差。

现有基因组结构变异性能检测方法通常仅在数量方面进行统计，未对变异区间进行细致的分析，分析不够全面、细致，不能有效反映变异之间的区间偏差情况。

发明内容

本发明的目的是为了解决现有基因组结构变异检测方法不够全面，且缺少公用的变异识别结果检测方法的问题，而提出一种基于基准集的基因组结构变异性能检测方法。

一种基于基准集的基因组结构变异性能检测方法具体过程为：

步骤一、基于用户变异识别结果集和基准集，计算基因组结构变异中插入、缺失、复制、倒位变异在数量指标上的变异统计结果；

所述基因组结构变异中插入、缺失、复制、倒位变异在数量指标上的变异统计结果包括：

用户插入、缺失、复制或倒位变异长度大于100kb的无效变异集；移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；以及召回率、精度、F₁ score；

用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量、未移除变异长度大于100kb的无效变异的变异区间的变异数量，以及基准集中插入、缺失、复制或倒位变异区间的变异数量；

步骤二、基于用户变异识别结果集和基准集，计算基因组结构变异中易位变异识别结果中断点区间的数量指标；

所述易位变异识别结果中断点区间的数量指标包括：

用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁ score；

用户易位变异识别结果中断点区间集合、基准集中易位变异的断点区间集合。

本发明的有益效果为：

本发明提出新的变异性能检测方法，方便研究者对不同的识别结果从不同的方面进行检测分析，本发明检测方法将在传统检测指标的基础上，进一步计算变异的区间偏差，从变异数量和变异区间两个方面，更加细致地对变异性能检测结果进行分析。该检测方法可以方便研究者在基因组结构变异方面的数据处理与分析。

利用基准集，本发明方法SV_STAT能够有效地对基因组结构变异性能进行检测，包括识别变异数量、真阳性数量(TP)、假阳性数量(FP)、假阴性数量(FN)、召回率(Recall)、精度(Precision)、F₁ score等指标，并且能进一步对变异识别结果的区间偏差进行细致分析。此外，本发明方法SV_STAT详细计算易位变异的断点区间在数量指标上的检测结果。本发明方法SV_STAT将为基因组结构变异的分析提供更为有效、快捷的检测方法，加快基因组分析的步伐。

附图说明

图1为本发明流程图；

图2为结构变异的主要类型(根据研究内容和相关文献绘制，实线代表单分子测序数据)图；

图3a为同一变异在不同识别结果中可能出现的位置移位1示意图；

图3b为同一变异在不同识别结果中可能出现的位置移位2示意图；

图4为不同方法在人类基因组chr1上的插入、缺失识别性能比较图，纵坐标为百分比；

图5为人类基因组chr1插入、缺失的识别结果统计图，横坐标为SVs区域大小，纵坐标为数量；

图6a为ASVCLR方法识别酿酒酵母模拟插入、缺失的区间大小比较图；

图6b为Sniffles方法识别酿酒酵母模拟插入、缺失的区间大小比较图；

图6c为Nextsv(sensitive)方法识别酿酒酵母模拟插入、缺失的区间大小比较图；

图6d为Nextsv(stringent)方法识别酿酒酵母模拟插入、缺失的区间大小比较图；

图6e为PBHoney-spots方法识别酿酒酵母模拟插入、缺失的区间大小比较图；

图6f为PBHoney-tails方法识别酿酒酵母模拟插入、缺失的区间大小比较图；

图7a为ASVCLR方法识别酿酒酵母复制类型变异(DUP)的不同长度区间的统计比较图；

图7b为Nextsv(sensitive)方法识别酿酒酵母复制类型变异(DUP)的不同长度区间的统计比较图；

图7c为Nextsv(stringent)方法识别酿酒酵母复制类型变异(DUP)的不同长度区间的统计比较图；

图7d为Sniffles方法识别酿酒酵母复制类型变异(DUP)的不同长度区间的统计比较图；

图7e为PBHoney-spots方法识别酿酒酵母复制类型变异(DUP)的不同长度区间的统计比较图；

图7f为PBHoney-tails不同方法识别酿酒酵母复制类型变异(DUP)的不同长度区间的统计比较图。

具体实施方式

具体实施方式一：本实施方式一种基于基准集的基因组结构变异性能检测方法具体过程为：

本发明提出公用的基因组结构变异性能检测方法，对基因组中常见的插入、缺失、复制、倒位和易位类型的结构变异进行更为系统、细致的分析。

根据采用的数据是模拟数据还是真实数据，基因组结构变异性能检测方法可以分为：模拟数据和真实数据。

在模拟数据上，由于具有结构变异的基准集，该类基因组结构变异性能检测方法适用于客观分析不同的结构变异性能检测方法，并对其进行比较。

在真实测序数据上，由于缺少结构变异的基准集，无法准确对结构变异性能检测结果进行分析。因此，本发明方法主要针对模拟数据的结构变异识别结果进行客观分析，主要分两个方面。

无论是模拟数据还是真实数据，只要有基准集，该方法都可适用；

步骤一、基于用户变异识别结果集和基准集，计算基因组结构变异中插入、缺失、复制、倒位变异在数量指标上的变异统计结果，并输出到终端屏幕上；

用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量(ref_reg_size_user_long_filtered)、未移除变异长度大于100kb的无效变异的变异区间的变异数量(ref_reg_size_user)，以及基准集中插入、缺失、复制或倒位变异区间的变异数量(ref_reg_size_benchmark)，主要统计基准集中变异长度在0-2kb之间的每种变异长度上的变异数量。

步骤二、基于用户变异识别结果集和基准集，计算基因组结构变异中易位变异识别结果中断点区间的数量指标，并输出到终端屏幕上；

所述易位变异识别结果中断点区间的数量指标包括：

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中基于用户变异识别结果集和基准集，计算基因组结构变异中插入、缺失、复制、倒位变异在数量指标上的变异统计结果，并输出到终端屏幕上；具体过程为：具体过程为：

由于现有识别方法(如Sniffles、nextSV、PBHoney、SMRT-SV等)的识别结果中，通常存在一些区间长度过大的变异，该类变异由于长度过大，不具有明显的意义，因此在SV_STAT方法中认为该类变异是无效变异，基因组结构变异性能检测之前需要将这些变异移除，以得到更加客观的结果。这类无效变异数量越多，说明识别结果的质量越低。

插入、缺失、复制、倒位变异表示为五元组Region＝(Chr,Start,End,Type,Size)；

其中，Chr为变异所在染色体的编号，Start与End分别为变异在染色体Chr上的起始与结束位置，Type为变异类型，取插入、缺失、复制或倒位，Size为变异大小；

给定用户插入、缺失、复制或倒位变异识别结果集S1和基准集S2；

计算用户插入、缺失、复制或倒位变异长度大于100kb的无效变异集；

移除用户插入、缺失、复制或倒位变异长度大于100kb的无效变异；

计算移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；以及召回率、精度、F₁ score；

计算用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量(ref_reg_size_user_long_filtered)、未移除变异长度大于100kb的无效变异的变异区间的变异数量(ref_reg_size_user)，以及基准集中的插入、缺失、复制或倒位变异区间的变异数量(ref_reg_size_benchmark)，主要统计变异长度在0-2kb之间的每种变异长度上的变异数量；

将用户插入、缺失、复制或倒位变异长度大于100kb的无效变异集；移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；召回率、精度、F₁ score；用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量、未移除变异长度大于100kb的无效变异的变异区间的变异数量；以及基准集中插入、缺失、复制或倒位变异区间的变异数量记录到文件中，并输出到终端屏幕上。

用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量(ref_reg_size_user_long_filtered)、未移除变异长度大于100kb的无效变异的变异区间的变异数量(ref_reg_size_user)，以及基准集中的变异区间的变异数量(ref_reg_size_benchmark)，这3个变异区间的变异数量通过“实施方式三”中的第(1)-(2)步骤得到，二元组形式保存变异区间的变异数量，格式如下：

变异识别结果集S₁是通过变异识别工具(如Sniffles、nextSV、PBHoney、SMRT-SV等)得到的，是这些工具的输出结果；

基准集S2是通过其他途径(如其他人的研究成果)得到的，是已知的；

三代数据的长度通常<100kb，二代数据长度更短通常<1kb，因此，可取100kb作为过滤阈值，超过该长度的变异将被认为是长度过大的变异。

模拟数据上通常采用识别变异数量、真阳性数量(TP)、假阳性数量(FP)、假阴性数量(FN)、召回率(Recall)、精度(Precision)、F₁ score等指标进行基因组结构变异性能检测。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或不同的是：所述计算移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；以及召回率、精度、F₁score；具体过程为：

(1)遍历S₁，移除变异长度大于100kb的无效变异，得到变异长度符合要求的变异集合S'₁；

(2)统计S'₁与S₂二个集合中0≤变异长度≤2kb中每种变异长度Size对应的变异数量，保存为二元组形式(Size,Num)；

(3)将S'₁中的每一个变异Region_i与S₂中的每一个变异Region_j进行两两比较，对Region_i和Region_j两端分别扩展100bp后计算交叠，并分别对扩展后的Region_i和Region_j的交叠进行标记，如果存在交叠则标记true；否则，标记为false；

(4)分别统计S'₁与S₂中的交叠标记为true的数量，分别记为移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数TP_user与基准集中插入、缺失、复制或倒位变异被识别的真阴性数TP_benchmark；

(5)分别统计S'₁与S₂中的交叠标记为false的数量，分别记为移除无效变异后的用户插入、缺失、复制或倒位变异识别结果假阳性数FP与基准集中插入、缺失、复制或倒位变异未被识别的假阴性数FN；

(6)计算精度Presision、召回率Recall和F₁ score如下：

在某些情况中，召回率和精度需要以牺牲另一个指标为代价来最大化精度或者召回率，因此，通常会使用精度和召回率的调和平均F₁ score对变异的数量指标进行综合性能检测；

计算变异识别结果的召回率、精度、F₁ score等数量指标的详细方法如算法3所示：

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述(3)中将S'₁中的每一个变异Region_i与S₂中的每一个变异Region_j进行两两比较，对Region_i和Region_j两端分别扩展100bp后计算交叠，并分别对扩展后的Region_i和Region_j的交叠进行标记，如果存在交叠则标记true；否则，标记为false；具体过程为：

取S'₁中的每一个变异Region_i＝(Chr,Star_i,End_i,Type_i,Size_i)，遍历基准集S₂，对于基准集中的任意变异Region_j＝(Chr,Start_j,End_j,Type_j,Size_j)，若Region_i和Region_j来自于同一条染色体Chr，在Region_i和Region_j的两端分别延长extSize个碱基(SV_STAT默认100bp)得到扩展后的新区间Region'_i＝(Chr,Start'_i,End'_i,Type_i,Size_i)和Region'_j＝(Chr,Start'_j,End'_j,Type_j,Size_j)；若Region_i和Region_j来自不同一条染色体Chr，则不进行比较(对于插入、缺失、复制、倒位变异)；

若Region'_i和Region'_j至少存在1个碱基的交叠，则二者有交叠，则称变异Region_i被识别出来标记true；否则二者无交叠，则称Region_i未被识别标记为false。

两端扩展能有效处理由于比对算法以及变异识别方法的不同而导致的基因组某些复杂区域内的同一变异在不同识别结果中可能出现位置移位，通过扩展100bp能够更有效地计算用户识别结果集中变异与基准集中变异之间的交叠。

判断两变异是否交叠的方法如算法1所示：

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述若Region'_i和Region'_j至少存在1个碱基的交叠，则二者有交叠，计算二者(用户变异和基准集变异)的变异区间重心距离偏差与变异区间长度比；

若Region'_i和Region'_j没有交叠，则无需计算；

具体过程为：

现有识别方法(如Sniffles、nextSV、PBHoney、SMRT-SV等)的识别结果中，通常存在某些变异区域与基准集中的变异区域有较大偏差的情况，甚至会出现一些长度较大的无效识别结果，同样也可能出现将同一变异拆分为相邻的多个变异的情况，导致识别结果的失真，出现偏差，从而降低识别准确性；然而，变异识别结果区间偏差的细致分析却未见报道。

为更加全面、细致地识别结果的偏差，本发明应用如下两个指标识别结果与基准集中目标变异的偏差：

1)、二者的重心距离；

2)、二者的区间长度比；

该偏差只适用于插入、缺失、复制、倒位，而易位变异通常位于不同染色体，因而不具有该偏差。

定义变异区间Region＝(Chr,Start,End,Type,Size)的重心如下：

若Region'_i的变异s与Region'_j的变异t有交叠，则变异s与变异t的变异区间重心距离偏差为：

d＝m_s-m_t

式中，m_s为变异区间s的重心，m_t为变异区间t的重心；

此外，若Region'_i的变异1与Region'_j的变异2有交叠，则定义变异1的变异区间Region₇＝(Chr₇,Start₇,End₇,Type,Size₇)与变异2的变异区间Region₈＝(Chr₈,Start₈,End₈,Type,Size₈)的变异区间长度比如下：

其中Chr₇为变异1的染色体编号，Chr₈为变异2的染色体编号，Start₇为变异1的染色体Chr₇上的起始位置，Start₈为变异2的染色体Chr₈上的起始位置，End₇为变异1的染色体Chr₇上的结束位置，End₈为变异2的染色体Chr₈上的结束位置，Type为变异类型，Size₇、Size₈为变异大小；

统计-1≤变异区间重心距离偏差≤1kb的分布；统计变异区间长度比的分布。

该比值越接近1，偏差越小，识别结果越精确；反之，识别结果精确性越低。

易位变异不需要进行区间差异分析。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述步骤二中基于用户变异识别结果集和基准集，计算基因组结构变异中易位变异识别结果中断点区间的数量指标，并输出到终端屏幕上；具体过程为：

易位类型的变异采用BEDPE格式存储，且通常变异长度较大，难以完整识别其整个变异区间，因此对于易位类型的变异，SV_STAT从断点的角度检测识别结果；

易位变异表示为八元组Tra＝(Chr'₁,Start'₁,End'₁,Chr'₂,Start'₂,End'₂,Type,Size)；

其中Chr'₁为易位变异前所在染色体的编号，Chr'₂为易位变异后所在染色体的编号，Start'₁为易位变异前在染色体Chr'₁上的起始位置，Start'₂为易位变异后在染色体Chr'₂上的起始位置，End'₁为易位变异前在染色体Chr'₁上的结束位置，End'₂为易位变异前在染色体Chr'₂上的结束位置，Type为变异类型，取易位TRA，Size为变异大小，取0；

由于识别结果中通常难以识别易位变异的全部坐标信息，某些坐标信息会有缺失，因此每条易位变异最多包含4个断点(Breakpoint,BP)(断点是指基因组序列发生改变(如易位)时，片段先断裂，然后被移走，那么发生断裂的基因组位置称为断点。一个片段断裂，通常会产生两个断点。如果是两个基因组片段发生交换，则理论上会产生4个断点。)；

在每个断点周围扩展extSize个碱基(默认100bp)构造断点区间，过程为：

在Chr₁的Start₁两边扩展extSize个碱基，得到断点区间Region₃＝(Chr₁,Start₁-extSize,Start₁+extSize,TRA,0)；同理，在Chr₁的End₁两边扩展extSize个碱基，得到断点区间Region₄＝(Chr₁,End₁-extSize,End₁+extSize,TRA,0)；同理，在Chr₂的Start₂两边扩展extSize个碱基，得到断点区间Region₅＝(Chr₂,Start₂-extSize,Start₂+extSize,TRA,0)；同理，在Chr₂的End₂两边扩展extSize个碱基，得到断点区间Region₆＝(Chr₂,End₂-extSize,End₂+extSize,TRA,0)；

判断用户变异识别结果集对应的易位变异区间与基准集中的易位变异区间是否有交叠，若有则称易位变异被识别出来，若没有则称其未被识别；

计算用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁ score；

计算用户易位变异识别结果中断点区间集合、基准集中易位变异的断点区间集合；

将用户易位变异识别结果中断点区间集合、基准集中易位变异的断点区间集合、用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁ score记录到文件中，并输出到终端屏幕上。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述计算用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁ score；具体过程为：

(1)提取用户变异识别结果集中的易位变异组成识别结果的易位变异集T₁；

(2)对T₁中的每条易位变异Tra＝(Chr₁,Start₁,End₁,Chr₂,Start₂,End₂,TRA,0)，通过两端扩展extSize(100bp)的方式构建断点区间Region₃、Region₄、Region₅和Region₆；

所述断点区间Region₃、Region₄、Region₅和Region₆获取过程为：

在Chr₁的Start₁两边分别扩展extSize个碱基，得到断点区间Region₃＝(Chr₁,Start₁-extSize,Start₁+extSize,TRA,0)；

在Chr₁的End₁两边分别扩展extSize个碱基，得到断点区间Region₄＝(Chr₁,End₁-extSize,End₁+extSize,TRA,0)；

在Chr₂的Start₂两边分别扩展extSize个碱基，得到断点区间Region₅＝(Chr₂,Start₂-extSize,Start₂+extSize,TRA,0)；

在Chr₂的End₂两边分别扩展extSize个碱基，得到断点区间Region₆＝(Chr₂,End₂-extSize,End₂+extSize,TRA,0)；

其中Chr₁为用户变异识别结果集中易位变异前所在染色体的编号，Chr₂为用户变异识别结果集中易位变异后所在染色体的编号，Start₁为用户变异识别结果集中易位变异前在染色体Chr₁上的起始位置，Start₂为用户变异识别结果集中易位变异后在染色体Chr₂上的起始位置，End₁为用户变异识别结果集中易位变异前在染色体Chr₁上的结束位置，End₂为用户变异识别结果集中易位变异前在染色体Chr₂上的结束位置，Type为变异类型，取易位TRA，Size为变异大小，取0；

(3)合并第(2)步中每条易位变异得到的断点区间Region₃、Region₄、Region₅和Region₆生成用户变异识别结果集中易位变异的断点区间集合T'₁；

(4)提取基准集中的易位变异组成基准集的易位变异集T₂；按照(2)-(3)步的方法生成基准集中易位变异的断点区间集合T'₂；

(5)顺序遍历T'₁中的每条断点区间记录Region_x，在T'₂中寻找与Region_x交叠至少1个碱基的断点区间，记录为集合{Region_y1,Region_y2,…,Region_ym}，如果该集合不为空，则称断点区间Region_x被识别出来，并将Region_x的交叠标记记为true，将{Region_y1,Region_y2,…,Region_ym}中对应的交叠标记记为true；如果该集合为空，则称断点区间Region_x未被识别出来标记为false，将T'₂中每条断点区间记为false；

(6)分别统计T'₁与T'₂中的交叠标记为true的数量，分别记为用户易位变异识别结果中断点区间的真阳性数TP_BP_user和基准集中易位变异断点区间被识别的真阴性数TP_BP_benchmark；

(7)分别统计T'₁与T'₂中的交叠标记为false的数量，分别记为用户易位变异识别结果中断点区间的假阳性数FP_BP和基准集中易位变异断点区间未被识别的假阴性数FN_BP；

(8)计算断点区间的精度Presision_BP、召回率Recall_BP和F₁ score如下：

两易位变异断点区间的交叠检测方法如算法4所示。

计算易位变异识别结果的召回率、精度、F₁ score等数量指标的详细方法如算法5所示：

其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

SV_STAT性能检测实验

人类基因组1号染色体插入、缺失变异的检测

基于人类基因组1号染色体的单分子模拟测序数据，研究人类基因组中的插入、缺失变异的识别。2016年，Kai Ye等人在Nature Medicine上发表的一篇文章^[15]，使用TCGA数据识别人类癌症基因组中的复杂插入、缺失变异。根据该论文发布的人类基因组1号染色体1128个插入、缺失变异(最小长度2bp，最大长度889bp)生成100×测序深度的PacBio模拟数据，然后应用不同识别方法识别插入、缺失变异。最后，应用SV_STAT对识别结果进行检测，结果如表1所示。

表1人类基因组1号染色体模拟数据的插入、缺失识别主要结果统计

模拟变异总数量为1128。较好的结果项加粗显示。真阳性数^a是指移除长度大于10kb的无效变异数据后的结果集中的真阳性变异数量。^bSniffles统计结果不包含48条长度大于10kb的基因组区域，其中最长的区间216Mbp，为1号染色体总长度的87.4％。^cSMRT-SV统计结果不包含1条长度为14.8kb的基因组区域。^dnextSV(sensitive)统计结果中不包含154条长度大于10kb的基因组区域。

从表1中可以看出，ASVCLR具有最好的识别结果，共识别出934个变异区域，假阳性数与假阴性数均较低(分别为19与208)，召回率为81.6％，精度为98.0％，F₁ score为89.1％。

另外，可以根据统计结果画出不同识别方法的召回率、精度和F₁ score的比较图，如图4所示。从图4中可以看到，ASVCLR的识别结果具有更高的召回率、精度以及F₁ score。

基于人类基因组1号染色体模拟数据，使用SV_STAT方法进一步分析了插入、缺失变异的识别情况，如图5所示。Benchmark曲线描述基准集中不同变异长度的数量，该数据集中总变异数量为1128，其中长度小于100bp的变异的数量为1116，长度不足10bp的变异数量为846(占总变异数量的75％)。从图4中可以看出，ASVCLR能有效识别基因组中的变异，NextSV与PBHoney均未能有效识别该类长度的变异，SMRT-SV虽然能识别大量长度较小的变异(数量高达14305)，然而绝大部分是假阳性数据，准确性很低。

酿酒酵母(S.pombe)多种变异识别结果的性能检测分析

使用SV_STAT对不同变异识别方法在酿酒酵母(S.pombe 972h-)基因组上的变异识别结果进行性能检测分析。SV_STAT比较了不同识别结果的变异区间偏差情况。由于插入、缺失是基因组最常见的两类变异，我们利用模拟数据分析不同识别结果在识别酿酒酵母(S.pombe 972h-)基因组中插入、缺失变异的区间重心距离，如图5所示。从图5中可以看出，不同识别结果的变异重心距离均位于0附近，ASVCLR的识别结果变异位置重心距离最接近0，具有比其他方法更加精确的变异边界。

使用SV_STAT对该模拟数据进行不同识别结果的区间长度比统计实验，统计识别结果中变异区间与基准集中变异区间长度比的分布情况，其区间长度比越接近1表明变异区间识别越完整，精确性越好，结果如图6a、6b、6c、6d、6e、6f所示。从图6a、6b、6c、6d、6e、6f中可以看出，ASVCLR识别结果中的变异区间长度比最接近1，其次是Sniffles，其他方法的识别效果则在变异区间大小方面均有较大偏差。同时，我们也可以看到Nextsv和PBHoney的正确识别的变异数量较少，变异识别性能较弱。

以复制类型的变异为例，使用SV_STAT分析了不同变异性能检测方法在酿酒酵母(S.pombe 972h-)基因组上的变异识别结果。模拟数据中包含了100个长度位于50bp-10kb的复制变异，使用不同的识别方法进行识别。在不同变异长度区间上，SV_STAT的性能检测结果如图7a、7b、7c、7d、7e、7f所示。从图7a、7b、7c、7d、7e、7f中可以看出，ASVCLR在不同的变异区间上均具有较好的识别性能，Sniffles识别的结果主要集中在>250bp的区间，而对长度较小的变异识别性能偏弱。nextSV与PBHoney的识别性能都较弱，有大量变异未能成功识别出来。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

参考文献：

1 J Weischenfeldt,O Symmons,F Spitz,JO Korbel.Phenotypic Impact ofGenomic Structural Variation:Insights from and for Human Disease.Nat RevGenet2013,14(2):125-138.

2 C Alkan,BP Coe,EE Eichler.Genome Structural Variation Discovery andGenotyping.Nat Rev Genet2011,12(5):363-376.

3 K Chen,JW Wallis,MD McLellan,DE Larson,JM Kalicki,CS Pohl,SDMcGrath,MC Wendl,QY Zhang,DP Locke,et al.Breakdancer:An Algorithm for High-Resolution Mapping of Genomic Structural Variation.Nature Methods2009,6(9):677-U676.

4 JO Korbel,A Abyzov,XJ Mu,N Carriero,P Cayting,Z Zhang,M Snyder,MBGerstein.Pemer:A Computational Framework with Simulation-Based Error Modelsfor Inferring Genomic Structural Variants from Massive Paired-End SequencingData.Genome Biol2009,10(2):R23.

5 A Abyzov,AE Urban,M Snyder,M Gerstein.Cnvnator:An Approach toDiscover,Genotype,and Characterize Typical and Atypical Cnvs from Family andPopulation Genome Sequencing.Genome Res2011,21(6):974-984.

6 K Ye,MH Schulz,Q Long,R Apweiler,ZM Ning.Pindel:A Pattern GrowthApproach to Detect Break Points of Large Deletions and Medium SizedInsertions from Paired-End Short Reads.Bioinformatics2009,25(21):2865-2871.

7 J Wang,CG Mullighan,J Easton,S Roberts,SL Heatley,J Ma,MC Rusch,KChen,CC Harris,L Ding,et al.Crest Maps Somatic Structural Variation in CancerGenomes with Base-Pair Resolution.Nat Methods2011,8(8):652-654.

8 AC English,WJ Salerno,JG Reid.Pbhoney:Identifying Genomic VariantsVia Long-Read Discordance and Interrupted Mapping.BMC Bioinformatics2014,15:180.

9 FJ Sedlazeck,P Rescheneder,M Smolka,H Fang,M Nattestad,A vonHaeseler,MC Schatz.Accurate Detection of Complex Structural Variations UsingSingle-Molecule Sequencing.Nat Methods2018,15(6):461-468.

10 L Fang,J Hu,D Wang,K Wang.Nextsv:A Meta-Caller for StructuralVariants from Low-Coverage Long-Read Sequencing Data.BMC Bioinformatics2018,19(1):180.

11 M Cretu Stancu,MJ van Roosmalen,I Renkens,MM Nieboer,S Middelkamp,J de Ligt,G Pregno,D Giachino,G Mandrile,J Espejo Valle-Inclan,et al.Mappingand Phasing of Structural Variation in Patient Genomes Using NanoporeSequencing.Nature communications2017,8(1):1326.

12 L Gong,CH Wong,WC Cheng,H Tjong,F Menghi,CY Ngan,ET Liu,CLWei.Picky Comprehensively Detects High-Resolution Structural Variants inNanopore Long Reads.Nat Methods2018,15(6):455-460.

13 J Huddleston,MJP Chaisson,KM Steinberg,W Warren,K Hoekzema,DGordon,TA Graves-Lindsay,KM Munson,ZN Kronenberg,L Vives,et al.Discovery andGenotyping of Structural Variation from Long-Read Haploid Genome SequenceData.Genome Res2017,27(5):677-685.

14 MR Vollger,PC Dishuck,M Sorensen,AE Welch,V Dang,ML Dougherty,TAGraves-Lindsay,RK Wilson,MJP Chaisson,EE Eichler.Long-Read Sequence andAssembly of Segmental Duplications.Nat Methods2019,16(1):88-94.

15 K Ye,J Wang,R Jayasinghe,EW Lameijer,JF McMichael,J Ning,MDMcLellan,M Xie,S Cao,V Yellapantula,et al.Systematic Discovery of ComplexInsertions and Deletions in Human Cancers.Nature medicine2016,22(1):97-104.

Claims

1.一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述方法具体过程为：

用户插入、缺失、复制或倒位变异长度大于100kb的无效变异集；移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；以及召回率、精度、F₁score；

所述易位变异识别结果中断点区间的数量指标包括：

用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁score；

2.根据权利要求1所述一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述步骤一中基于用户变异识别结果集和基准集，计算基因组结构变异中插入、缺失、复制、倒位变异在数量指标上的变异统计结果；具体过程为：

给定用户插入、缺失、复制或倒位变异识别结果集S₁和基准集S₂；

计算移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；以及召回率、精度、F₁score；

计算用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量、未移除变异长度大于100kb的无效变异的变异区间的变异数量，以及基准集中的插入、缺失、复制或倒位变异区间的变异数量；

将用户插入、缺失、复制或倒位变异长度大于100kb的无效变异集；移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；召回率、精度、F₁score；用户插入、缺失、复制或倒位变异识别结果集中移除变异长度大于100kb的无效变异后的变异区间的变异数量、未移除变异长度大于100kb的无效变异的变异区间的变异数量；以及基准集中插入、缺失、复制或倒位变异区间的变异数量记录到文件中。

3.根据权利要求2所述一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述计算移除无效变异后的用户插入、缺失、复制或倒位变异识别结果真阳性数、假阳性数；基准集中插入、缺失、复制或倒位变异被识别的真阴性数、未被识别的假阴性数；以及召回率、精度、F₁score；具体过程为：

(3)将S'₁中的每一个变异Region_i与S₂中的每一个变异Region_j进行两两比较，对Region_i和Region_j两端分别扩展extSize个碱基后计算交叠，并分别对扩展后的Region_i和Region_j的交叠进行标记，如果存在交叠则标记true；否则，标记为false；

(6)计算精度Presision、召回率Recall和F₁score如下：

4.根据权利要求3所述一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述(3)中将S'₁中的每一个变异Region_i与S₂中的每一个变异Region_j进行两两比较，对Region_i和Region_j两端分别扩展100bp后计算交叠，并分别对扩展后的Region_i和Region_j的交叠进行标记，如果存在交叠则标记true；否则，标记为false；具体过程为：

取S'₁中的每一个变异Region_i＝(Chr,Start_i,End_i,Type_i,Size_i)，遍历基准集S₂，对于基准集中的任意变异Region_j＝(Chr,Start_j,End_j,Type_j,Size_j)，若Region_i和Region_j来自于同一条染色体Chr，在Region_i和Region_j的两端分别延长extSize个碱基得到扩展后的新区间Region'_i＝(Chr,Start'_i,End'_i,Type_i,Size_i)和Region'_j＝(Chr,Start'_j,End'_j,Type_j,Size_j)；若Region_i和Region_j来自不同一条染色体Chr，则不进行比较；

5.根据权利要求4所述一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述若Region'_i和Region'_j至少存在1个碱基的交叠，则二者有交叠，计算二者的变异区间重心距离偏差与变异区间长度比；

若Region'_i和Region'_j没有交叠，则无需计算；

具体过程为：

定义变异区间Region＝(Chr,Start,End,Type,Size)的重心如下：

d＝m_s-m_t

式中，m_s为变异区间s的重心，m_t为变异区间t的重心；

6.根据权利要求4或5所述一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述步骤二中基于用户变异识别结果集和基准集，计算基因组结构变异中易位变异识别结果中断点区间的数量指标；具体过程为：

其中Chr'₁为易位变异前所在染色体的编号，Chr'₂为易位变异后所在染色体的编号，Start'₁为易位变异前在染色体Chr'₁上的起始位置，Start'₂为易位变异后在染色体Chr'₂上的起始位置，End'₁为易位变异前在染色体Chr'₁上的结束位置，End'₂为易位变异后在染色体Chr'₂上的结束位置，Type为变异类型，取易位TRA，Size为变异大小，取0；

计算用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁score；

将用户易位变异识别结果中断点区间集合、基准集中易位变异的断点区间集合、用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁score记录到文件中。

7.根据权利要求6所述一种基于基准集的基因组结构变异性能检测方法，其特征在于：所述计算用户易位变异识别结果中断点区间的真阳性数、假阳性数；基准集中易位变异断点区间被识别的真阴性数、未被识别的假阴性数；以及精度、召回率、F₁score；具体过程为：

(2)对T₁中的每条易位变异Tra＝(Chr₁,Start₁,End₁,Chr₂,Start₂,End₂,TRA,0)，构建断点区间Region₃、Region₄、Region₅和Region₆；

其中Chr₁为用户变异识别结果集中易位变异前所在染色体的编号，Chr₂为用户变异识别结果集中易位变异后所在染色体的编号，Start₁为用户变异识别结果集中易位变异前在染色体Chr₁上的起始位置，Start₂为用户变异识别结果集中易位变异后在染色体Chr₂上的起始位置，End₁为用户变异识别结果集中易位变异前在染色体Chr₁上的结束位置，End₂为用户变异识别结果集中易位变异后在染色体Chr₂上的结束位置，Type为变异类型，取易位TRA，Size为变异大小，取0；

(3)合并断点区间Region₃、Region₄、Region₅和Region₆生成用户变异识别结果集中易位变异的断点区间集合T'₁；

(8)计算断点区间的精度Presision_BP、召回率Recall_BP和F₁score如下：