CN111863135A

CN111863135A - 一种假阳性结构变异过滤方法、存储介质及计算设备

Info

Publication number: CN111863135A
Application number: CN202010681632.4A
Authority: CN
Inventors: 王嘉寅; 郑田; 张选平; 崔佳; 刘涛; 朱晓燕
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-10-30
Anticipated expiration: 2040-07-15
Also published as: CN111863135B; WO2022011855A1

Abstract

本发明公开了一种假阳性结构变异过滤方法、存储介质及计算设备，首先获取结构变异候选集，然后特征提取，将不同纯度特征数据迁移，进行极端决策树模型分类，对分类结果预测，实现假阳性结构变异过滤。本发明从结构变异检测结果文件中提取初始特征，结合迁移成分分析方法和极端决策树模型能够使用相同的模型很好的适应不同程度被稀释测序信号的结构变异检测样本，并且过滤的准确度更高且稳定。

Description

一种假阳性结构变异过滤方法、存储介质及计算设备

技术领域

本发明属于数据科学技术领域，具体涉及一种考虑被稀释测序信号的假阳性结构变异过滤方法、存储介质及计算设备。

背景技术

基因组结构变异(英文名称：Structural Variations，英文缩写：SV)指基因结构发生的改变，是一类复杂的直接致癌的染色体变异，是外界自然环境和内在生物体内代谢共同影响下的结果，正常组织细胞中出现肿瘤正是由于其组织特性在基因组中变异的累加造成的。近年来，下一代测序技术(英文名称：Next GenerationSequencing，英文缩写：NGS)的发展使得人们可以更快速地去分析基因，从碱基水平上识别基因中不同类型的结构变异进而追溯疾病产生的原因成为可能。基因结构变异的识别通过将个体基因测序结果与参考序列进行比较、分析得到，目前已有的结构变异检测方法和软件可以准确地检测不同类型的结构变异以及确定变异大小、位置等信息。精确地鉴定结构变异不仅可以加速人类对遗传机制的研究，同时对揭示复杂疾病机理也具有非常重要的作用。

成熟的变异检测方法有很多，基本上都是基于变量的特征进行检测和假阳性过滤。然而，我们发现两个原因可能导致测序信号的稀释和特征的耦合效应，即：1)肿瘤纯度，2)克隆结构和克隆比例。稀释测序信号会导致低频变异检测失败，检测方法因此降低了滤波阈值；然而，它引入了大量的误报。使用样本纯度，即待测目标物体在总样本中的比例，来测量信号被稀释的程度。当样本纯度低于50％时，变异的精确度将迅速下降(甚至低于25％)。据报道，样品纯度每降低2％，每兆碱基可引入166个假阳性。随着样本纯度由30％下降到5％，结构变异检测的假阳性率由19.375％上升到38.125％。假阳性将严重影响结构变异检测的准确性，干扰人类疾病相关机制的后续研究。为了解决这个问题，已经开发了许多计算技术来过滤这些误报，并且可以分为两种类型。一类以GATK[13]为代表，通过手动设置一个或多个生物指标阈值，过滤所有不合格的变异位点，包括测序深度信息、支持读段数目以及碱基质量等；另一类通过预先训练的深度学习模型对真阳性和假阳性进行分类。

然而，现有方法存在以下问题：

1)第一类方法使用特征作为基准来过滤误报，将未通过设置特征阈值的结构变异均过滤为假阳性结构变异，因此如果特征阈值设置不合适时易引起误判，这些一刀切的基准会在过滤假阳性的同时删除想要检出的低频变异，很难找到完美区分假阳性并不会误删低频变异的阈值设置，在处理低纯度样品时，准确率非常低；

2)现有方法都没有考虑到肿瘤纯度或克隆结构引起的测序信号被稀释的问题，更没有考虑到不同样本稀释程度不同时，分类基准不再适用的问题。机器学习过滤方法使用固定纯度的样本作为训练集，这些方法将假阳性过滤问题作为一个分类问题，并使用不同的特征作为分类准则。虽然滤波效果很好，但训练得到的分类特征基线只适用于该固定特征，当它们处理不同于训练样本的低纯度样本时，分类特征的基线不再准确，分类精度显著降低，呈现出非常高的假阳性。

另外，纯度是一个连续变量，不能简单地通过增加几个训练集就把它当作一个离散变量。而若针对不同肿瘤纯度或不同克隆结构的样本训练不同的分类模型成本过高，计算量过大，无法达到预期效果，为每个样本都训练模型不切实际且成本巨大。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种考虑被稀释测序信号假阳性结构变异过滤方法、存储介质及设备，主要面向第二代基因测序数据中，当基因组结构变异检测受到肿瘤纯度和克隆结构影响，测序信号被稀释产生大量假阳性的情况下，使用迁移学习策略实现假阳性过滤的问题。

本发明采用以下技术方案：

一种考虑被稀释测序信号的假阳性结构变异过滤方法，包括以下步骤：

S1、从不同样本纯度数据运行已有的结构变异检测工具检测结构变异，将检测工具中的过滤条件阈值调整到最低，获取结构变异候选集；

S2、以体现结构变异属性作为分类有效特征，从结果文件中特征提取；

S3、将每个特征向量存为一行，作为一个实例用以表示其对应的候选结构变异，将纯度为p的结构变异样本特征数据集记为X_p，纯度为p的结构变异样本标签数据集表示为Y_p，结合以上特征和标签，将纯度空间里的所有结构变异候选集记为Η，使用基于迁移学习方法迁移成分分析的迁移模型来对不同纯度的结构变异特征数据集进行数据迁移，拉近不同纯度数据分布的距离，实现不同纯度的特征数据迁移；

S4、不同纯度的结构变异特征数据集迁移后得到两个特征降维后的转换矩阵，含有23个列向量，将每个列向量作为一个特征，得到新的结构变异所有特征集合Θ'，将转换矩阵W作为特征数据集，对应的标签集为原标签集Y_p，每个候选结构变异用一行23个特征的向量x′表示，标签为原标签y，基于极端随机树模型训练分类模型，对真假阳性结构变异进行预测；

S5、使用多数投票法对m-1个纯度的预测标签进行投票，投票得到的结果为所有预测标签集中票数最多的标签，将该结果作为真假阳性结构变异分类的最终预测标签集合Y'_p；

S6、预测标签集合Y'_p中真阳性结构变异分类为1，假阳结构变异分类为0，过滤标签为0的结构变异，被归类为真阳性的结构变异作为最终输出结果，完成假阳性结构变异过滤。

具体的，步骤S2具体为：

S201、将所有纯度的集合纯度空间记为P，从不同纯度的结构变异检测结果文件中提取出全部的读数据相关信息；

S202、对于每个候选结构变异，从全部信息中提取出26个特征，将所有特征集合记为Θ。

具体的，步骤S3具体为：

S301、将纯度空间中的固定纯度为p的结构变异特征集作为目标域数据集D_t，纯度空间中的其他纯度为p_j的结构变异特征集作为源域数据集D_s；

S302、迁移成分分析利用最大均值差异衡量两个域的分布的距离；

S303、借用支持向量机核函数的思想求解最大均值差异距离；

S304、根据(KLK+μI)^-1KLK计算特征分解矩阵，并取前M个特征向量构造纯度p_j到纯度p的特征数据转换矩阵W。

进一步的，步骤S301中，目标域数据集D_t，具体为：

其中，n₂表示目标域的样本数目，

为目标域的特征空间和标签，p为目标域样本纯度，P为不同纯度样本集合；

源域数据集D_s，具体为：

其中，n₁表示源域的样本数目，

为源域数据的特征空间和标签，p_j为源域样本纯度。

进一步的，步骤S302中，最大均值差异距离DISTANCE(D_s,D_t)计算如下：

其中，x_i是源域的数据，x_j是目标域的数据，

是源域的数据分布映射，

是目标域的数据分布映射，n₁表示源域的样本数目，n₂表示目标域的样本数目。

进一步的，步骤S303具体为：

首先计算最大均值差异距离矩阵L，每个元素l_ij的计算方式为：

中心矩阵H为：

其中，x_i是源域的数据，x_j是目标域的数据，

为

的单位矩阵，n₁表示源域的样本数目，n₂表示目标域的样本数目；

然后使用线性核函数k(x,y)＝x^ty映射数据集

和

构造核矩阵K为：

其中，K_s,s，K_t,t分别为嵌入空间中源域和目标域数据上定义的Gram矩阵，K_s,t为跨域数据上定义的Gram矩阵，K_t,s＝K_s,t ^T。

具体的，步骤S4具体为：

S401、选择纯度p的目标域转换矩阵作为测试集

S402、设置迭代次数为K，根据CART决策树算法使用全部的训练集样本

训练每个基分类器，迭代K次，生成K颗决策树以及极端随机树；

S403、对生成的极端随机树模型使用测试集样本

生成预测结果，对所有基分类器的预测结果进行统计，利用投票决策的方法产生纯度p_j的训练集的分类结果，得到标签集

S404、每个纯度的测试集

对应除自身外的多个纯度的训练集

将每个训练集训练出的模型均使用测试集对真假结构变异进行分类，获得所有纯度样本的标签集合Υ'，包含m-1个标签集。

具体的，步骤S5中，最终预测标签集合Y'_p为：

其中，

为样本i的预测标签，p为样本纯度，P为样本纯度集合，n为不同纯度样本数量。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种过滤设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明是一种考虑被稀释测序信号的基于迁移学习策略的结构变异检测假阳性过滤方法，基于迁移学习策略进行数据迁移再使用机器学习模型分类，解决现有方法特征选择以及肿瘤纯度和克隆结构引起的被稀释测序信号样本假阳性问题，不需要样本纯度的准确值，能够适用于不同纯度的样本，且表现出了良好的性能。

进一步的，使用已有结构变异检测工具检测信号被稀释程度不同的样本(以样本纯度来定义测序信号被稀释程度)，得到结构变异候选集结果文件，并从结果文件中的读数据信息中提取相关特征；

进一步的，将不同样本纯度的特征数据分别作为源域和目标域，使用迁移成分分析(英文名称：Transfer Component Analysis，英文缩写：TCA)进行数据迁移，通过多次试验得到方法的最优参数，最终得到两个领域的特征转换矩阵；

进一步的，将不同样本纯度的源域特征转换矩阵分别输入到极端决策树(英文名称：Extra Tree，英文缩写：ET)进行训练，通过网格搜索得到模型的最佳参数，最终得到多个训练好的极端决策树模型。

进一步的，将固定样本纯度目标域特征转换矩阵作为测试集输入到各个极端决策树模型中，对所有模型预测的结果使用多数投票法决策出最终预测标签；

进一步的，根据分类得到的标签集，过滤标签为假阳的结构变异，输出为真阳结果。

综上所述，本发明从结构变异检测结果文件中提取初始特征，结合迁移成分分析方法和极端决策树模型能够使用相同的模型很好的适应不同程度被稀释测序信号的结构变异检测样本，并且过滤的准确度更高且稳定。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明流程图；

图2为仿真数据集中数目较少样本对比结果图，其中，(a)为准确度，(b)为召回率，(c)为F1值，(d)为精确度；

图3为仿真数据集中标签有错样本对比结果图，其中，(a)为准确度，(b)为召回率，(c)为F1值，(d)为精确度；

图4为真实数据集中的实验结果对比图。

具体实施方式

迁移学习策略能够无论模型训练样本的纯度如何，都能无差别地判断样本的全部纯度，去除假阳性，提高低频突变检测的准确性。转移学习包括从预先训练的模型中提取有意义的潜在表征，以用于一个新的、类似的目标。它能够将一个域(称为源)的知识“转移”到另一个域(称为目标)。这样，就可以利用一定样本纯度的假阳性过滤机器学习模型的知识来重建其他样本纯度模型。所要解决的技术问题有：

一、解决特征选择繁琐复杂的问题；

二、解决肿瘤纯度和克隆结构引起的被稀释测序信号问题；

三、本发明不会受到测序软件和检测工具的影响。

本发明提供了一种考虑被稀释测序信号的假阳性结构变异过滤方法FPTLfilter(Filtering False Positive structural variants based on Transfer Learning)，输入数据为从现有结构变异检测工具结果文件中提取出的结构变异候选集特征数据，输出数据为过滤假阳性结构变异后的结构变异集合。

本发明基于以下学术界的普遍共识：

1.目前常用检测算法通过二代测序技术产生的读对与参考序列进行比对得到的读数据信息，确定结构变异的不同类型以及变异大小、位置等信息；

2.肿瘤纯度和克隆结构会导致待检测结构变异信号被稀释，数据信息发生改变，在固定样本上训练得到的分类基线不再适用，较低的样本纯度可产生假阳性的变异识别。

请参阅图1，本发明一种考虑被稀释测序信号的假阳性结构变异过滤方法，包括以下步骤：

S1、获取结构变异候选集

从不同样本纯度数据运行已有的结构变异检测工具检测结构变异，为了保证检测出的候选结构变异集合范围足够大，能够引进大量的假阳性样本，为分类模型提供样本标签均衡的训练集和测试集，将检测工具中的过滤条件阈值调整到最低，得到不同纯度的结构变异候选集。

S2、特征提取

第二代测序技术产生的双末端测序数据比对到参考基因组序列后生成的结果文件包含了每个读数据的比对信息，如比对位置、比对质量、序列片段等信息。结构变异检测结果VCF(Variant Call Format)文件中同样包含这些信息，如果某个信息能够从某些方面体现结构变异的某个属性，则这个信息可被提取出作为分类的有效特征。从结果文件中提取特征，具体包含以下步骤：

S201、将所有纯度的集合纯度空间记为P＝{p_i,i＝1,2,…,m}，其中，p_i是样本的纯度，m是所有纯度的数目，也是不同纯度肿瘤样本的数目。从不同纯度的结构变异检测结果文件中提取出全部的读数据相关信息。

S202、根据读数据比对映射出的一致性和完整性以及其他比对属性对不同的结构变异会呈现出不同的特点，对于每个候选结构变异，从全部信息中共提取出了26个特征，将所有特征集合记为Θ＝{Z_i,i＝1,2,…,26}，其中，Z_i是每个特征的所有纯度向量集合。对于不同的结构变异检测软件，结果文件中的特征不同，提取出的特征也不尽相同，即特征提取这一步骤提取的特征并非固定的且可扩展。

S3、不同纯度特征数据迁移

将每个特征向量存为一行，作为一个实例用以表示其对应的候选结构变异，将纯度为p的结构变异样本特征数据集记为X_p，具体为：

其中，

是26维的行向量，n是实例的数目。

特征数据集对应一个相应的标签集表示类别，其中，1表示真阳性结构变异类，0表示假阳性结构变异类，纯度为p的结构变异样本标签数据集表示为Y_p，具体为：

其中，

是每个特征向量对应的标签。

结合以上特征和标签，将纯度空间里的所有结构变异候选集记为Η＝{(X_p,Y_p),p∈P}。

本发明使用基于迁移学习方法迁移成分分析的迁移模型来对不同纯度的结构变异特征数据集进行数据迁移，来拉近不同纯度数据分布的距离。具体包括以下步骤：

S301、选择源域和目标域数据集；

将纯度空间中的固定纯度为p的结构变异特征集作为目标域数据集D_t，具体为：

其中，n₂表示目标域的样本数目，

为目标域的特征空间和标签，p为目标域样本纯度，P为不同纯度样本集合。

纯度空间中的其他纯度为p_j的结构变异特征集作为源域数据集D_s，具体为：

其中，n₁表示源域的样本数目，

为源域数据的特征空间和标签，p_j为源域样本纯度。

S302、迁移成分分析利用最大均值差异(英文名称：maximum mean discrepancy，英文缩写：MMD)来衡量两个域的分布的距离；

最大均值差异距离DISTANCE(D_s,D_t)计算如下：

其中，x_i是源域的数据，x_j是目标域的数据，

是源域的数据分布映射，

是目标域的数据分布映射。

S303、借用支持向量机核函数的思想求解最大均值差异距离；

首先计算最大均值差异距离矩阵L，它的每个元素l_ij的计算方式为：

以及中心矩阵H：

其中，x_i是源域的数据，x_j是目标域的数据，

为

然后使用线性核函数k(x,y)＝x^ty映射数据集

和

构造核矩阵K：

S304、根据(KLK+μI)^-1KLK计算特征分解矩阵，并取前M个特征向量构造纯度p_j到纯度p的特征数据转换矩阵W如下：

其中，

是降维后的源域转换矩阵，

是降维后的目标域转换矩阵，经过多次试验查找得到最优特征维度，设置M为23。

S4、极端决策树模型分类

不同纯度的结构变异特征数据集迁移后得到两个特征降维后的转换矩阵，含有23个列向量，将每个列向量作为一个特征，可得到新的结构变异所有特征集合Θ'如下：

Θ'＝{Z′_i,i＝1,2,…,23}

其中，Z′_i是每个新的特征的所有纯度向量集合；

将转换矩阵W作为特征数据集，对应的标签集为原标签集Y_p，每个候选结构变异用一行23个特征的向量x′来表示，标签为原标签y，本发明基于极端随机树模型来训练分类模型，对真假阳性结构变异进行预测，具体包括以下步骤：

S401、选择纯度p的目标域转换矩阵作为测试集

其他纯度p_j的源域转换矩阵均作为训练集

训练每个基分类器，迭代K次，生成K颗决策树以及极端随机树。

S403、对生成的极端随机树模型使用测试集样本

生成预测结果，对所有基分类器的预测结果进行统计，利用投票决策的方法产生纯度p_j的训练集的分类结果，得到标签集如下：

其中，

是预测的标签。

S404、每个纯度的测试集

对应除自身外的多个纯度的训练集

将每个训练集训练出的模型均使用测试集对真假结构变异进行分类，获得所有纯度样本的标签集合

包含m-1个标签集。

S5、分类结果预测

集合Υ'中的每个纯度预测标签集合均为有效数据，不能用单独的标签作为最终的分类结果，使用多数投票法对m-1个纯度的预测标签进行投票，投票得到的结果为所有预测标签集中票数最多的标签，将该结果作为真假阳性结构变异分类的最终预测标签集合如下：

其中，

S6、假阳性结构变异过滤

预测标签集合Y'_p中真阳性结构变异分类为1，假阳结构变异分类为0，过滤标签为0的结构变异，被归类为真阳性的结构变异作为最终输出结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了验证本发明的有效性，首先测试迁移学习的必要性，将数据迁移前后的特征数据集分别应用于极端决策树分类模型，然后为了验证本发明的可行性，测试了结构变异候选集样本数较少和标签集包含错误标签的情况。使用准确度、精确度、召回率和F1值这四个指标来衡量模型的性能表现。

指标名称：真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。

定义准确度Accuracy＝(TP+TN)/(TP+TN+FN+FP)；

定义精确度Precision＝TP/(FP+TP)；

定义召回率Recall＝TP/(TP+FN)；

定义F1值F1-score＝(2·Precision·Recall)/(Precision+Recall)。

在仿真数据集上进行了测试，使用已有结构变异检测软件Speedseq获得了六种不同样本纯度P＝{5,10,15,20,25,30}(样本纯度分别为5％，10％，15％，20％，25％，30％)的结构变异候选集样本。由于目前已有算法均未考虑样本纯度导致的假阳性问题，本发明创新性的将迁移学习用于不同纯度样本的数据迁移，我们首先进行迁移学习必要性测试。每个纯度结构变异候选集均为包含4000个样本的平衡数据集，真阳和假阳类别样本比例为1:1。“TCA”表示使用迁移成分分析得到的转换矩阵用于分类的结果，“BASE”表示提取出的特征数据用于分类的结果，真假阳性分类结果如表1所示。

表1：迁移成分分析前后特征数据分类结果

可见，对特征数据通过迁移成分分析后再用于分类模型明显提高了每个纯度的准确度，精确度，召回率和F1值，可以验证迁移学习对不同纯度结构变异特征数据进行数据迁移大大提升了分类模型的综合性能，且对于低纯度样本更为有效。

为了验证本发明的可行性，在结构变异候选集样本数较少和标签集包含错误标签情况下进行了实验。对于数目较少样本，分别选择200、400和600个样本来测试，其中真阳和假阳类别样本数目相同；对于标签有错样本，使用4000个样本的特征数据集，标签的错误率分别设置为10％、20％和30％，错误率针对所有标签集样本，会导致样本类别不平衡。数目较少样本和标签有错样本的实验结果如表2和表3所示，结果对比图如图2和图3所示，图2中datasize100(200，300)分别表示三个样本的单个类别数目，x轴表示样本的纯度，y轴表示取值；图3中proportion10％(20％，30％)分别表示三个样本的标签错误率，x轴表示样本的纯度，y轴表示取值。

表2：数目较少样本实验结果

表3：标签有错样本实验结果

为了进一步验证本发明过滤真假阳性结构变异的能力，从Gene+公共数据库中获得了4组肺癌和4组乳腺癌数据，以测试在真实数据上的性能，这两类癌症的肿瘤纯度可能非常低，并且会严重影响它们的结构变异检测准确性。随后通过BWA-0.7.5a和GATK MUTect映射读取的原始序列的管道，使用CNVkit检测真实的结构变异信息。对每组数据随机选择50个真阳性样本和50个假阳性样本，组成100个均衡样本的结构变异候选集，并将我们的模型应用在8组数据集上进行真假阳性结构变异识别，并通过与公共数据库中的标准结果进行比较来对标签进行标注，分类结果如表4所示，绘制的对比结果图如图4所示，其中，x轴表示真实数据集的标号，y轴表示取值，图中四个指标分别表示准确度，召回率，F1值和精确度。

表4：真实数据集实验结果

与仿真数据集结果相同，FPTLfilter能够准确识别假阳性结构变异，在不同的纯度下都能很好地适应，可以显著减少假阳性，并且在低纯度样本下效率非常高且稳定。

综上所述，本发明一种考虑被稀释测序信号的假阳性结构变异过滤方法，解决了现有算法不能良好适用于不同程度被稀释测序信号的样本的问题。由于采用了迁移成分分析对不同纯度肿瘤样本进行数据迁移，本发明克服了样本测序信号被稀释导致的样本特征数据分布间隔，从而使得本发明在不同的样本纯度下都能表现出良好的性能。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。