CN114613430A

CN114613430A - 一种假阳性核苷酸变异位点的过滤方法及计算设备

Info

Publication number: CN114613430A
Application number: CN202210288608.3A
Authority: CN
Inventors: 顾嘉琦; 崔杨网
Original assignee: Suzhou Qinggangquan Biotechnology Co ltd
Current assignee: Suzhou Qinggangquan Biotechnology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-10

Abstract

本发明揭示了一种假阳性核苷酸变异位点的过滤方法及计算设备，方法包括以下步骤：获取测序原始数据；测序原始数据通过突变检测软件检测突变位点，判断位点结果并获取突变候选集；特征提取，对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格，形成特征数据集矩阵；随机取总数据的10％作为训练集，其余作为测试集，对训练集支持向量机建模，训练得到的模型，使用测试集进行评估；继续优化返回上一步骤，停止优化选定最优模型。本发明实现了只根据非对照样本的突变位点的参数，通过机器学习的支持向量机方案构建预测模型，对由软件运行后的突变位点文件进行假阳性位点的过滤，进而得到真阳性变异位点，从而简化后续样本的识别问题。

Description

一种假阳性核苷酸变异位点的过滤方法及计算设备

技术领域

本发明属于生物信息学技术领域，尤其涉及一种假阳性核苷酸变异位点的过滤方法及计算设备。

背景技术

伴随诊断是一种能够为有关患者提供针对特定治疗药物的治疗反应信息，有助于患者群体确定从某一治疗产品中获益，从而改善治疗愈后并降低保健开支的体外诊断技术。此外，伴随诊断还有助于确定最有可能针对治疗药物产生响应的患者群体。

从当前看，二代测序技术的出现为肿瘤的易感基因检测、伴随诊断、个性化用药等提供了更佳的技术支撑和选择，尤其是基于NGS的癌症panel检测使得该领域检测可以更加快速和低廉，达到了同时检测若干个基因和突变位点的目的。目前在中国的常用测序平台有Illumina平台和华大BGI平台。测序仪会对每个测得的碱基进行识别和打分，通过打分可以得到碱基正确性的可信度。

目前在科学研究中，使用的碱基变异识别软件包括但不限于GATK、Mutect2、Varscan、strelka、freebayes、Pindel等。其中Mutect2、Varscan、Strelka等需要配对的样本进行碱基识别，这样做的好处是通过对照中的胚系位点的识别，可以更好地将体系突变从样本中识别出来。但是在实际应用中，配对样本可能无法获取或者质量较差无法使用。针对这种情况，非强制配对的GATK、freebayes等软件可用，每种软件得到的结果虽然大部分相同，但或多或少因为参数的不同而有差异。即使得到的突变结果，其中也参杂着很多假阳性的位点，需要后期进一步的过滤或者人工判读。

在临床标本检测的应用中，往往还受到肿瘤样本纯度及其中克隆结构比例的影响。因为临床标本往往通过手术或者穿刺获取组织标本，在此过程中，或多或少会带有正常组织的残留，正常组织的残留会极大影响肿瘤样本中突变位点的识别；另一方面肿瘤由于其异质性，导致实体瘤中的癌细胞与癌细胞的性质极有可能也不相同，往往会形成细胞亚群，这些肿瘤细胞亚群的异质性往往会给治疗造成误判，需要精准地识别。这些影响会稀释低频的变异检测的准确率和精确度，虽然可以通过降低突变识别软件中的识别阈值来克服这一问题，但是降低的阈值往往会造成成千上万的假阳性位点，这些假阳性位点需要进一步过滤和识别。有研究表明，当样本纯度低于50％时，变异的精确度将迅速下降(甚至低于25％)，样品纯度每降低2％，每兆碱基可引入166个假阳性。随着样本纯度由30％下降到5％，结构变异检测的假阳性率由19.375％上升到38.125％，假阳性将严重影响碱基变异检测的准确性。

现有的识别碱基突变假阳性的方案主要有两种：第一种方案是检测软件自带的参数过滤方案，该方案直接根据用户设定的参数，比如QD、FS、MQ、MQRankSum、ReadPosRankSum、SOR等参数，对位点进行过滤，效果很不好。参数阈值设定得宽泛，容易导致没有效果；设定得苛刻，容易丢失阳性位点。第二种方案是通过事先获取的对照或正常标本预先进行检测，通过软件构建一组PON(Panel of Normal)数据集，即所谓的“污染库”，在PON数据集中，大部分位点都会有在对照或正常样本中的检出率。然后，在样本检测突变检测后，通过贝叶斯算法或机器学习的模型识别阳性位点，这个方法的好处是即使一个样本没有对照数据，因为有了一组PON数据集，可以认为有了集合对照，因此可以相对准确的对数据进行识别。其缺点也很明显，需要预先获取一定的对照数据集，在很多时候往往没有这个条件。

发明内容

本发明的目的是为了解决上述技术问题，而提供一种假阳性核苷酸变异位点的过滤方法及计算设备，从而实现只根据非对照样本的突变位点的参数，通过机器学习的支持向量机(SVM)方案构建预测模型，对由软件运行后的突变位点文件进行假阳性位点的过滤，进而得到真阳性变异位点，从而简化后续样本的识别问题。为了达到上述目的，本发明技术方案如下：

一种假阳性核苷酸变异位点的过滤方法，包括以下步骤：

获取测序原始数据；

测序原始数据通过突变检测软件检测突变位点，判断位点结果并获取突变候选集；

特征提取，对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格，形成特征数据集矩阵；

随机取总数据的10％作为训练集，其余作为测试集，对训练集支持向量机建模，训练得到的模型，使用测试集进行评估；

继续优化返回上一步骤，停止优化选定最优模型。

进一步的，获取测序原始数据之前还包括步骤，

取基因组DNA进行建库、杂交并纯化、测序、修剪、质控。

进一步的，取基因组DNA进行建库包括具体步骤，对基因组DNA使用可匹配同一测序平台测序的建库试剂盒进行建库。

进一步的，杂交并纯化包括具体步骤，

对建库得到的DNA文库使用同一种杂交探针进行杂交实验，并纯化。

进一步的，修剪、质控包括具体步骤，

对测序得到的原始数据通过数据接头修剪和低质量数据去除，质控后的数据与数据库中的基因组数据进行比对，生成bam文件。

进一步的，获取突变候选集包括具体步骤，

对bam文件使用突变检测软件，进行检测并输出vcf文件；

特征提取包括具体步骤，

从vcf文件中提取由突变检测软件检测生成的VAF参数作为变异特征。

进一步的，对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格之后还包括步骤，根据标准品的参考结果对每一个突变位点进行标记标签。

进一步的，对于表格中的VAF值、Ratio值、mVAF值和标签数据读入python程序。

进一步的，使用基于python的sklearn函数中的SVM函数对数据进行训练。

进一步的，选定最优模型包括具体步骤，

通过绘制ROC曲线，评估模型效果。

一种计算设备，包括至少一个处理器、存储器、及至少一个程序，其中程序存储在所述存储器中并被配置为所述处理器执行，所述程序包括用于执行所述的方法的指令。

与现有技术相比，本发明一种假阳性核苷酸变异位点的过滤方法及计算设备的有益效果主要体现在：

通过直接将样本经过传统突变软件，设定突变检测软件阈值为最低系数，检测得到的突变参数列表；根据突变参数列表提取VAF值，根据位点信息提取Ratio值和mVAF值制成表格；并通过支持向量机构建的过滤模型进行运算得到过滤后的阳性位点，实现尽可能少的人工干预，得到最优的阳性位点结果。从突变变异检测结果文件中提取初始特征，结合支持向量机测试得到的过滤模型，最终得到准确度和灵敏度更高的结果。

附图说明

图1为本发明实施例的流程结构示意图；

图2为本实施例支持向量机核函数的选择和超参数的优化示意图；

图3为本实施例传统突变检测软件与支持向量机构建模型后的方案的准确度比较箱形图；

图4为本实施例传统突变检测软件与支持向量机构建模型后的方案的特异性比较箱形图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

参照图1-4所示，本实施例为一种假阳性核苷酸变异位点的过滤方法，包括以下步骤：

取一批不少于10例的临床组织标准品样本，包括用游离DNA采血管采样的血液的标准品样本，经过抽提得到基因组DNA样本；或者现成的人源肿瘤基因组DNA标准品。

对基因组DNA使用可匹配同一测序平台测序的建库试剂盒进行建库。

对纯化得到的文库，在定量后上机测序，测序深度相似。

对测序得到的原始数据首先通过数据接头修剪、低质量数据去除(对碱基质量Q30<20的进行丢弃)和质控。

质控后的数据与数据库中的基因组数据进行比对，生成bam文件。

对bam文件使用传统的突变检测软件，如GATK、freebayes、platypus等，进行检测并输出vcf文件，判断位点结果并获取突变候选集。

从vcf格式的文件中提取由突变检测软件检测生成的VAF参数作为变异特征之一。VAF(Variant Allele Frequency)是变异等位基因频率，是在基因组某个位点位置支持等位基因突变的测序数占这个位点总的测序数的比值。

对同一批样本数据的每个检出的突变的VAF参数进行统计。如果一个样本中检出的突变在其他样本中不存在，则其他样本在该位点的VAF记为0(0代表该位点未发生突变)。

对每个位点计算这批样本中的Ratio值和mVAF值。按以下公式：Ratio＝突变位点的VAF值大于0.05的样本数/总样本数，mVAF＝突变位点所有VAF的中位数/总样本数。

对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格，并根据标准品的参考结果对每一个突变位点进行标记标签，形成特征数据集矩阵。如果是阳性位点，标记为TRUE；如果是阴性位点，标记为FALSE。

对于表格中的VAF值、Ratio值、mVAF值和标签数据读入python程序。

将数据集人为分为训练集和测试集，每次随机取总数据的10％作为训练集，其余作为测试集。对训练集得到模型，通过测试集进行评分，共训练3-10次，训练10次得到10个模型。

使用基于python的sklearn函数中的SVM函数对数据进行训练，其基本参数如下：

SVC(C＝1.0,kernel＝'rbf',gamma＝'auto_deprecated',decision_function_shape＝'ovr')

其中SVC是支持向量机的内置函数名称，C表示正则化系数，取默认值1.0。数值越小，说明正则化效果越强，即训练得到的模型更泛化，但也容易欠拟合。可根据实际情况进行更改。kernel表示核函数的选择，rbf表示高斯核函数。gamma表示核函数系数，在高斯核函数中生效，默认为“auto”。decision_function_shape表示多分类的方案选择，“ovo”表示one vs one，是阳性对阴性二分类问题，其余参数为默认。

对训练得到的模型，使用测试集进行评估，并绘制ROC曲线，评估模型效果，优化并选定最优模型。

在目前常规软件，如GATK，推荐突变位点信息通过一些硬过滤条件过滤，将剩余的位点按VAF>＝0.05作为阈值。其中VAF>＝0.05的位点为突变阳性位点，VAF<0.05的位点为突变阴性位点，但是有一部分VAF<0.05的位点也应该是阳性位点，但是GATK的推荐标准将这部分位点舍弃了。同时，有一部分VAF>＝0.05的突变位点，可能是背景噪音造成的，也应该是阴性位点。可以发现，通过VAF硬性地一刀切的方案是不合适的。在实践中，发现阳性位点的VAF值与该位点在所有样本中的检出率是有关联的，如果一个位点在癌症中发生突变的概率较高的时候，那么该位点的VAF的阈值可以适当减低；如果一个位点在癌症中发生突变的概率较低的时候，那么该位点的VAF的阈值应该提高到可以规避背景噪音干扰的程度。

每个位点最后结果判定的时候都会归类为阳性或者阴性位点，因此这个问题是二分类问题，本申请开发了一套基于机器学习中支持向量机的模型来简化其中的步骤。支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。支持向量机使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。通过VAF值和位点在癌症中发生突变的概率来进行监督学习，是一个线性不可分的问题，在传统的X-Y平面中无法通过一条直线来区分两类位点。因此，寻求将这些位点的参数在更高维的空间来进行映射，有极大的概率在高维空间上可以通过一个超曲面使之线性可分，支持向量机可以通过核函数方法进行非线性分类。

支持向量机的核函数一般有线性核、多项式核和高斯核。多项式核和高斯核研究的都是线性不可分的问题。同时，高斯核由于可以将二维的向量映射到更加高维的空间，因此比多项式核更具有优势。高斯核函数，即径向基函数(Radial Basis Function，RBF)，就是某种沿径向对称的标量函数。通常定义为空间中任一点X到某一中心Xc之间欧氏距离的单调函数，可记作κ(||X-Xc||)，其作用是计算相似度，将相似的点归类在一起。高斯核可以将非线性可分的问题从原始的特征空间映射到更高维的希尔伯特空间，从而转化为线性可分问题，此时作为决策边界的超平面为ω^Τφ(X)+b＝0，其中φ为映射函数。由于映射函数复杂且难以计算内积，因此通过映射函数的内积为核函数κ(X₁,X₂)＝φ(X1)^Tφ(X2)来简化。高斯核函数可以铜鼓序列最小优化的方案进行求解，即通过迭代方式求解支持向量机的对偶问题。

高斯核函数公式可以表示为

其中||x-x'||²代表高维空间中x与选定的x’的距离，

代表gamma参数。gamma参数是超参数。gamma参数值越大，得到的超曲面越精密，但容易过拟合，造成模型适应性低；反之，gamma参数值越小，得到的超曲面越粗放，容易导致欠拟合，造成结果失真，需要对gamma值进行观察调整。

应用本实施例时，通过直接将样本经过传统突变软件，设定突变检测软件阈值为最低系数，检测得到的突变参数列表；根据突变参数列表提取VAF值，根据位点信息提取Ratio值和mVAF值制成表格；并通过支持向量机构建的过滤模型进行运算得到过滤后的阳性位点，实现尽可能少的人工干预，得到最优的阳性位点结果。从突变变异检测结果文件中提取初始特征，结合支持向量机测试得到的过滤模型，最终得到准确度和灵敏度更高的结果。

具体的，取146例有对照的肿瘤组织样本进行假阳性核苷酸变异位点的过滤，方法如下：

模型的训练；

a)获取突变的候选集，取146例有对照的肿瘤组织样本，在实验中使用同一种探针进行捕获，文库通过illumina Novaseq平台测序。

对肿瘤组织样本的数据和其对照数据分别使用Trim-galore软件去除接头序列和低可信度序列，并使用FastQC软件进行质控评估。质控后的fastq文件使用bwa-mem算法并使用默认参数将数据进行基因组比对，生成bam文件。

将肿瘤组织样本和其对照样本，使用Varscan软件的默认参数进行配对突变检测，生成VCF文件。VCF文件使是突变检测后的结果文件，是存储变异位点信息的标准格式，信息包含CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE等列。其中，CHROM表示染色体名称，POS表示突变位点位置，ID表示变异位点在数据库中的编号，REF表示所在位点的参考碱基序列，ALT表示所在位点检出的突变碱基序列，QUAL表示变异位点质量值，INFO表示额外信息，FORMAT表示变异位点格式，SAMPLE表示样本来源的文件名。在INFO信息中还额外包含AD(Allele Depth)和DP(Depth)信息。AD表示样本中所在位点的每一种碱基的序列覆盖度。DP表示样本中该位点的覆盖度。突变位点的VAF值＝突变位点的AD/突变位点的DP，配对样本的检测结果更加可靠。将配对样本经过Varscan软件检测，且突变位点VAF值>＝0.05作为阳性位点，另包含部分突变位点VAF值<0.05，经过专家判读为阳性的位点也作为阳性位点，除此之外的检测到的位点作为阴性位点，以此标准判定每个肿瘤样本的所有位点的结果并且标记。

b)特征提取，对于探针中的每个位点进行突变可能性的预估，即每个样本的对应的位点的突变可能性进行预估。如果探针中的某位点在样本中未检出，则说明该位点未发生突变，该样本在该位点的VAF值为0。统计每个样本在每个位点的VAF值。

计算每个位点的Ratio值，即在该位点，VAF≧5％的样本占所有该位点检出突变的样本的比值：

计算每个位点的mVAF值，即在该位点，所有样本VAF值的中位数丰度。

将每个样本检测得到的VCF格式文件中的突变位点整理成五列，分别是位点编号、位点VAF值、突变所在位点的Ratio值、突变所在位点的mVAF值、位点判定结果(阳性TRUE或者阴性FALSE)。如下表1所示，

c)模型计算和选定，将整理成的表格作为矩阵读入计算机中。随机选取10％的数据作为训练集，其余数据作为测试集。使用机器学习的scikit-learn工具包中的支持向量机函数对测试集矩阵后四列进行模型模拟，模拟过程使用高斯核函数，代码如下：

参照图2所示，对计算得到的模型使用测试集进行测试，并绘制ROC曲线。此过程循环10次或者更多次，使得到更理想的模型。

图2所示为支持向量机核函数的选择和超参数的优化，其中

A.比较不同支持向量机核函数选择的差异；B.对高斯核函数模型中的C值进行优化并绘制ROC曲线确认最优值；C.对高斯核函数模型中的gamma值进行优化并绘制ROC曲线确认最优值。

通过比较10次建模的结果，选定最优的决策模型。

对不同检测突变软件的比较方式如下；

取2020年、2021年卫生部临床检验中心用于室间质评的10例标准品肿瘤组织样本，经过实验流程后，文库通过illumina Novaseq平台测序。测序得到的原始数据为fastq文件。

原始的fastq文件使用Trim-galore软件去除接头序列和低可信度序列，并使用fastqc软件进行质控评估。质控后的fastq文件使用bwa-mem算法并使用默认参数将数据进行基因组比对。比对后生成bam文件。

将bam文件分别通过freebayes、platypus、GATK的默认参数进行突变检测，并通过VAF＝0.05为阈值，判断位点的结果。

同时将bam文件分别通过freebayes、platypus、GATK的默认参数进行突变检测后生成的VCF格式文件，提取软件类型分别提取每个样本的每个检出位点提取VAF值，并根据位点匹配探针所在位点的Ratio值和mVAF值，通过选定的优化后的模型，以机器学习的过滤模型对每个位点进行判定，准确度统计结果如图3所示，特异性统计结果如图4所示。

图3为传统突变检测软件与支持向量机构建模型后的方案的准确度比较，准确度统计数据结果如表2所示：

表2如下：传统突变检测软件与支持向量机构建模型后的方案的准确度统计数据

方法名称	Freebayes	Platypus	GATK	Freebayes+SVM	Platypus+SVM	GATK+SVM
							平均值	0.94	0.86	0.84	0.98	0.97	0.97
标准差	0.05	0.08	0.08	0.02	0.03	0.03

结合图3，图中横坐标选取了freebayes、platypus、GATK三个传统软件以及这三个传统软件分别再使用支持向量机构建的模型(SVM)分析的方案，纵坐标为各方案的准确度的箱形图。图中显示出传统软件的平均准确度分别为0.94，0.86，0.84；各传统软件使用支持向量机模型分析方案后的平均准确度分别为0.98，0.97，0.97。在使用支持向量机模型后，整体平均准确度提升了10.2％。

图4为传统突变检测软件与支持向量机构建模型后的方案的特异性比较，特异性统计数据结果如表3所示：

表3如下：传统突变检测软件与支持向量机构建模型后的方案的特异性统计数据

方法名称	Freebayes	Platypus	GATK	Freebayes+SVM	Platypus+SVM	GATK+SVM
							平均值	0.98	0.78	0.88	0.98	0.97	0.96
标准差	0.04	0.16	0.18	0.02	0.03	0.04

结合图4，图中横坐标选取了freebayes、platypus、GATK三个传统软件以及这三个传统软件分别再使用支持向量机构建的模型(SVM)分析的方案，纵坐标为各方案的特异性的箱形图。图中显示出传统软件的平均特异性分别为0.98，0.78，0.88；各传统软件使用支持向量机模型分析方案后的平均准确度分别为0.98，0.97，0.96。在使用支持向量机模型后，整体平均特异性提升了22.6％。

实施例2：

一种计算设备，包括一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行实施例1的一种假阳性核苷酸变异位点的过滤方法的指令。

在本发明的描述中，术语“安装”、“相连”、“连接”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种假阳性核苷酸变异位点的过滤方法，其特征在于，包括以下步骤：

获取测序原始数据；

继续优化返回上一步骤，停止优化选定最优模型。

2.根据权利要求1所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：获取测序原始数据之前还包括步骤，

取基因组DNA进行建库、杂交并纯化、测序、修剪、质控。

3.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：取基因组DNA进行建库包括具体步骤，

4.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：杂交并纯化包括具体步骤，

5.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：修剪、质控包括具体步骤，

6.根据权利要求5所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：获取突变候选集包括具体步骤，

对bam文件使用突变检测软件，进行检测并输出vcf文件；

特征提取包括具体步骤，

7.根据权利要求1所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格之后还包括步骤，

根据标准品的参考结果对每一个突变位点进行标记标签。

8.根据权利要求7所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：

对于表格中的VAF值、Ratio值、mVAF值和标签数据读入python程序，使用基于python的sklearn函数中的SVM函数对数据进行训练。

9.根据权利要求1所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：

选定最优模型包括具体步骤，

通过绘制ROC曲线，评估模型效果。

10.一种计算设备，其特征在于：包括至少一个处理器、存储器、及至少一个程序，其中程序存储在所述存储器中并被配置为所述处理器执行，所述程序包括用于执行根据权利要求1-9任意一项所述的方法的指令。