CN111696622A

CN111696622A - 一种校正和评估变异检测软件检测结果的方法

Info

Publication number: CN111696622A
Application number: CN202010456693.0A
Authority: CN
Inventors: 王旭文; 杨玲; 易鑫; 黄毅; 吴玲清; 林浩翔
Original assignee: Shenzhen Guiinga Medical Laboratory; Beijing Jiyinjia Medical Laboratory Co ltd
Current assignee: Shenzhen Guiinga Medical Laboratory; Beijing Jiyinjia Medical Laboratory Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-22
Anticipated expiration: 2040-05-26
Also published as: CN111696622B

Abstract

本发明涉及一种校正和评估变异检测软件检测结果的方法，包括：输入检测文件，对所述检测文件中的多核苷酸变异进行识别和分割，对进行分割处理后所述检测文件中的变异结果进行去重和整合，获得校正检测结果，以参考软件的变异检测结果为金标准，对所述检测文件中的变异结果和/或所述校正检测结果进行一致性评估。本发明的校正和评估变异检测软件检测结果的方法，可基于任一变异检测软件的结果文件作为输入，对其检测结果进行校正和评估，能提高最终变异检出率。

Description

一种校正和评估变异检测软件检测结果的方法

技术领域

本发明属于基因检测技术领域，特别涉及一种校正和评估变异检测软件检测结果的方法。

背景技术

基因具有多种突变类型，最常见的为单核苷酸突变(SNV)，DNA片段插入(Insertion)和缺失(Deletion)，但在变异过程中，还经常发生多核苷酸变异(MNV)。多核苷酸变异为一个区块内有多个SNP或Indel，如：’1，1289564,AGCT,CGCC’即在1号染色体上的1289564位置发生了序列AGCT(REF)突变为序列(ALT)CGCC，实际上就是该序列首末端发生了碱基替换又称SNP变异；又比如：‘2,56892445，TGGCTGCAA,CGGCGGCA’，即在该序列的首端和中发生了碱基替换，同时又在该序列的末端发生了缺失，等等。在实际研究中，多核苷酸变异需要分割出来，进行变异信息的重整理，否则会影响基因下游数据的分析结果准确性。

基因突变是导致癌症发生的重要原因，不同癌症类型都会有不同的基因突变类型特征，目前最常用于组织上SNV检测的软件是GATK-mutect2，该软件很好的对测序数据做严格质量校正，还能够利用经大量临床医学数据训练出可靠贝叶斯模型和马尔可夫模型来检测SNV变异，检测结果准确。

但GATK算法计算速度比较慢，且对于检测血液样本的变异检测，还存在一些缺陷，首先，是不够灵敏来检测血液中极低的突变率位点。第二，GATK使用的模型参数是利用组织数据训练的，并不适合于血液样本。

并且基于不同的基因突变类型分析需求，需要应用其它软件进行变异信息检测，如FreeBayes检测灵敏度高，如Platypus能实现快速变异检测等。但这些软件检测变异结果中常常发现存在大量多态性位点信息，未被过滤，且检测出来的变异信息假阳性较高，检测结果不准确，与mutect2软件分析结果难以进行一致性对比，无法确认检测结果。当以mutact2该类软件的检测结果作为检测标准时，缺少与该类参考软件分析结果进行一致性比较的方法。

发明内容

针对上述问题，本发明提供了一种校正和评估变异检测软件检测结果。

一种校正和评估变异检测软件检测结果的方法，包括：

输入检测文件，对所述检测文件中的多核苷酸变异进行识别和分割；

对进行分割处理后所述检测文件中的变异结果进行去重和整合，获得校正检测结果；

以参考软件的变异检测结果为金标准，对所述检测文件中的变异结果和/或所述校正检测结果进行一致性评估。

进一步地，所述检测文件为任一变异检测软件的结果文件，对所述结果文件进行校正和评估。

进一步地，所述对所述检测文件中的多核苷酸变异进行识别和分割包括以下步骤：

步骤(1)：获取参考基因组和所述检测文件中变异读段的共有序列；

步骤(2)：按照优先选取最长共有序列原则确定选取共有序列，对所述选取共有序列的两端进行分割，获得新的两个变异信息M和N；

步骤(3)：通过递归算法对M和N再按照所述步骤(2)重复进行多核苷酸变异位点识别和分割；

步骤(4)：分别计算M、N与参考序列共有序列的长度，得到变异信息M的片段长度P和变异信息N的片段长度Q，通过P和Q的长度值判断，继续进行多核苷酸变异位点识别和分割，直至两端共有序列变异位点识别和分割完成。

进一步地，所述获取参考基因组和所述检测文件中变异读段的共有序列包括：

若参考序列和变异位点的长度均大于2，则基于模式识别算法查找参考基因组和变异读段的共有序列；

若参考序列和变异位点的长度都为2且参考基因组与变异位点俩碱基均不相同，则将该多态性变异位点拆分为两个SNP；

若参考序列的长度≥2，变异位点长度＞2，则基于模式识别算法查找参考基因组和变异读段的共有序列。

进一步地，所述对所述选取共有序列的两端进行分割是基于字符串分割技术对共有序列的两端进行分割。

进一步地，所述通过P和Q的长度值判断，继续进行多核苷酸变异位点识别和分割，包括：

若P>Q或P<Q时，先按照共有序列长度长的变异读段进行多核苷酸变异位点识别和分割；

当P＝Q时，按照M和N在基因组上的坐标信息，从左往右的顺序依次重复所述步骤(1)～(4)，直至将所有的多态性变异位点分割完毕。

进一步地，所述检测文件中的变异结果包括分割后和未分割的变异信息；

所述分割后和未分割的变异信息包括突变的染色体、突变位置以及参考碱基序列以及突变碱基序列；

所述对进行分割处理后所述检测文件中的变异结果进行整合为：将所述变异信息进行合并，按照变异信息中突变的染色体、突变位置以及参考序列相同的标准，将变异进行整合放到一行，作为一个位点的变异信息。

进一步地，所述对进行分割处理后所述检测文件中的变异结果进行去重，具体为：

对满足预设去重标准的变异结果，则采用随机算法保留一个变异信息，将去重后的变异结果作为所述校正检测结果；

所述预设去重标准为：以所述变异信息中的突变染色体、突变位置、参考序列以及发生变异序列是否相同作为变异结果是否重复的判断依据；若全部相同，则判断对比的变异信息重复，否则对比的变异信息不重复。

进一步地，所述一致性评估的标准为：突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内，若同时满足上述条件的判定为真阳性突变：

所述一致性评估的指标为灵敏度；

所述灵敏度计算通过：所述检测文件中的变异结果与所述参考软件过滤后的变异检测结果相比，所述检测文件中的变异数/参考软件中的变异检测总数；

和/或，

所述校正检测结果与所述参考软件过滤后的变异检测结果相比，所述校正检测结果变异数/参考软件中的变异检测总数。

一种校正和评估变异检测软件检测结果的方法的应用，所述校正和评估变异检测软件检测结果的方法，能够应用于全基因组测序、全外显子测序及其目标区域捕获测序数据的变异检测结果校正和评估。

本发明提供的校正和评估变异检测软件检测结果的方法，具有以下优势：

本方法适用于全基因组测序、全外显子测序及其目标区域捕获测序数据；

本方法可基于任一变异检测软件的结果文件作为输入，对其检测结果进行校正和评估，能提高最终变异检出率，校正前后灵敏度高达1％-1.5％；

并且，在识别多态性变异位点时，通过模式识别算法寻找共有序列，无需通过共有序列在自定义的距离内查找有无匹配的其它子共有序列，查找不受延伸窗口大小的限制；

适用于一切变异检测结果中含有多态性变异位点，且未进行处理的变异结果，保证检测结果的准确性；

在重复识别和分割多态性变异位点过程，本发明采用递归算法，既可以节省时间又可以节省开发所需内存。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明校正和评估变异检测软件检测结果的方法流程图；

图2示出了根据本发明实施例的基于Platypus变异检测软件的结果作为输入文件，对其检测结果进行校正和评估的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种校正和评估变异检测软件检测结果的方法，如图1所示，包括一以下步骤：

以参考软件的变异检测结果为金标准，对检测文件中的变异结果和/或校正检测结果进行一致性评估。

本方法适用于全基因组测序、全外显子测序及其目标区域捕获测序数据。本方法可基于任一变异检测软件的结果文件作为输入，实现对其检测结果进行校正和评估。

在本方法中对所述检测文件中的对多核苷酸变异进行识别和分割包括：

(1)获取参考基因组和所述检测文件中变异读段的共有序列：

(2)按照优先选取最长共有序列原则确定选取共有序列，对所述选取共有序列的两端进行分割，获得新的两个变异信息M和N；

(3)通过递归算法对M和N再按照上述步骤(2)重复进行多核苷酸变异位点识别和分割；

对选取共有序列的两端进行分割是基于字符串分割技术对共有序列的两端进行分割。

(4)分别计算M、N与参考序列共有序列的长度，得到变异信息M的片段长度P和变异信息N的片段长度Q，通过P和Q的长度值判断，继续进行多核苷酸变异位点识别和分割，直至两端共有序列变异位点识别和分割完成。

当P＝Q时，按照M和N在基因组上的坐标信息，从左往右的顺序依次重复步骤(1)～(4)，直至将所有的多态性变异位点分割完毕。

本方法中所述检测文件中的变异结果包括分割后和未分割的变异信息；

所述分割后和未分割的变异信息包括突变的染色体、突变位置、参考碱基序列以及突变碱基序列；

所述对进行分割处理后所述检测文件中的变异结果进行去重，具体为：

所述通过校正检测结果对所述检测结果进行一致性评估，包括：

所述一致性评估的标准为：突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内，若同时满足上述条件的判定为真阳性突变：

所述一致性评估的指标为灵敏度；

所述灵敏度计算通过：所述检测文件中的变异结果与参考软件过滤后的变异检测结果相比，所述检测文件中的变异数/参考软件中的变异检测总数；

和/或，

所述校正检测结果与参考软件过滤后的变异检测结果相比，所述校正检测结果变异数/参考软件中的变异检测总数。

实施例1

图2示出了基于Platypus变异检测软件的结果作为输入文件，对其检测结果进行校正和评估的流程图，具体包括以下内容：

选取三个不同肿瘤组织，每个肿瘤组织的对照组均为外周血白细胞(北京吉因加医学检验实验室提供)。

1、分别对肿瘤组织进行核酸提取，构建核酸文库，对进行目标捕获区域测序。

为保证变异检测的准确性，对肿瘤组织目标捕获区域的平均测序深度达到500x以上；对照组目标捕获区域平均测序深度为200X以上。

2、将检测的肿瘤组织和对照组测序数据分别与人参考基因组进行比对，得到比对结果文件。

采用BWA-MEM软件将所得检测组和对照组的测序数据与人参考基因组进行比对；

比对结果文件包括肿瘤组织比对结果和对照组比对结果。

3、将肿瘤组织比对结果和对照组比对结果，分别采用GATK-mutact2软件和Platypus变异检测软件进行变异检测分析，通过检测结果对比可知Platypus变异检测软件检测变异数目不准确，且存在大量多核苷酸变异位点。

对每组肿瘤组织的比对结果和对照组的比对结果分别进行GATK-mutact2软件和Platypus变异检测软件分析，对照组作为背景，查找肿瘤组织的变异，所得检测结果如表1所示：

表1三个样本应用Mutect2和Platyus软件检测数据

表2示出了Platyus软件与GATK-mutact2软件的消耗资源值，在检测过程中可知Platyus软件相较于GATK-mutact2软件能够在很短的时间内完成变异的检测。并且通过表1可知，无论是校正前还是校正后Platyus软件检测出SNP位点和indel位点发生变异的数目均远大于GATK-mutact2软件的检测结果，且Platyus软件检测结果中还存在大量多核苷酸变异位点。

表2两种软件资源消耗情况对比

软件	进程数	内存	耗时
				Platyus	6	0.5G	20分钟
GATK-mutact2	6	10G	700分钟

4、针对Platypus变异检测软件的变异检测结果，对其中的多核苷酸变异进行识别和分割。

对多核苷酸变异进行识别和分割需要进行以下步骤：

(1)获取人参考基因组和变异读段的共有序列。

共有序列的获取方法需要依据参考基因组的参考序列和变异位点的长度设置。

若参考序列和变异位点长度均大于2，则基于模式识别算法查找参考基因组和变异读段的共有序列；

若参考序列和变异位点长度都为2，且参考基因组与变异位点的俩碱基均不相同则将该多态性变异位点拆分为两个SNP位点，无需进行多核苷酸变异识别；

如果参考序列≥2，变异位点长度＞2，则基于模式识别算法查找参考基因组和变异读段的共有序列。

(2)获取共有序列后，优先选取最长共有序列原则对选取共有序列的两端进行分割，获得新的两个变异信息M和N。

其中，对选取共有序列两端的分割基于字符串分割技术。

(3)通过递归算法对M和N再按照上述步骤(2)重复进行多核苷酸变异位点识别和分割。

(4)分别计算M、N与参考序列共有序列的长度，得到变异信息M的片段长度P和变异信息N的片段长度Q，若P>Q或P<Q时，先按照共有序列长度长的变异读段进行多核苷酸变异位点识别和分割，直至两端共有序列变异位点识别和分割完成；

当P＝Q时，按照M和N在基因组上的坐标信息，从左往右的顺序依次重复步骤(1)～(4)，直至将所有的多核苷酸变异位点分割完毕。

5、对变异检测结果进行整合与去重

分割后和未分割的变异信息包括突变的染色体、突变位置、参考碱基序列以及突变碱基序列；

对变异结果进行整合为：将所述变异信息进行合并，即按照变异信息中突变的染色体、突变位置以及参考序列相同的标准，将突变碱基序列的变异进行整合放到一行，作为一个位点的变异信息。

对整合后的变异信息进行去重，对满足预设去重标准的变异结果，则采用随机算法保留一个变异信息即可。

预设去重标准为：将变异信息中的突变染色体、突变位置、参考序列以及发生变异序列是否相同作为变异结果是否重复的判断依据，若染色体、变异位置、参考序列和发生变异序列全部信息均相同则说明对比的变异信息重复，仅保留一个变异信息即可。

经过上述的多态性变异位点校正，三个样本能够回收大量单碱基多态性位点和插入缺失变异，具体数值参见表3。

表3三个样本应用Platyus软件检测结果校正数据对比

(7)对变异检测结果进行一致性评估。

一致性评估包括：以GATK mutect2软件的变异检测结果为金标准，对同一样本的变异检测结果进行一致性评估。

具体评判的标准为：突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内，若同时满足上述条件的判定为真阳性突变。

具体评估的指标为：敏感度，即Platypus变异检测软件的变异检测结果经过校正后，与GATK mutect2软件过滤后的变异检测结果相比，检测出的相同变异数/GATKmutect2软件中的变异检测总数。

根据表1的分析结果可知，三个样本经多核苷酸变异位点校正前后，灵敏度提高了1％-1.5％。使用Platypus变异检测软件后，采用本发明的一致性评估方法，在缩短检测时间的基础上提高了Platypus变异检测软件的灵敏度。

本实施例中仅以GATK-mutect2检测软件作为参考软件，对Platypus软件的检测结果进行示例性说明，但参考软件和输入检测结果文件不限于此。

通过本发明的一致性评估方法能够提高现有变异信息检测软件与GATK-mutect2检测结果的一致性，能够保证现有变异信息检测软件快速、准确的获得检测结果，对检测样本种类没有要求，适用范围广。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种校正和评估变异检测软件检测结果的方法，其特征在于，包括：

2.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述检测文件为任一变异检测软件的结果文件，对所述结果文件进行校正和评估。

3.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述对所述检测文件中的多核苷酸变异进行识别和分割包括以下步骤：

4.根据权利要求3所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述获取参考基因组和所述检测文件中变异读段的共有序列包括：

5.根据权利要求3所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述对所述选取共有序列的两端进行分割是基于字符串分割技术对共有序列的两端进行分割。

6.根据权利要求3所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述通过P和Q的长度值判断，继续进行多核苷酸变异位点识别和分割，包括：

7.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述检测文件中的变异结果包括分割后和未分割的变异信息；

8.根据权利要求7所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，所述对进行分割处理后所述检测文件中的变异结果进行去重，具体为：

9.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法，其特征在于，

所述一致性评估的指标为灵敏度；

和/或，

10.一种校正和评估变异检测软件检测结果的方法的应用，其特征在于，所述校正和评估变异检测软件检测结果的方法，能够应用于全基因组测序、全外显子测序及其目标区域捕获测序数据的变异检测结果校正和评估。