CN114566214B

CN114566214B - 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用

Info

Publication number: CN114566214B
Application number: CN202210444562.XA
Authority: CN
Inventors: 赵霄飞; 王思振
Original assignee: Genetron Health Beijing Co ltd
Current assignee: Genetron Health Beijing Co ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-05
Anticipated expiration: 2042-04-26
Also published as: CN114566214A

Abstract

本发明公开了检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用，属于变异或遗传工程领域。本发明所要解决的技术问题是如何准确地检测基因的缺失插入变异。本发明所提供的基因缺失插入变异检测方法包括把样本的变异检测结果文件中共同临近出现的简单变异合并成缺失插入变异，将其他简单变异保留得到保留后的简单变异，将缺失插入变异和保留后的简单变异组成的所有变异类型输出，获得缺失插入变异。本发明可以准确有效地检测样本基因的缺失插入变异，与人工审核结果高度一致，可给肿瘤患者提供更精准的遗传变异检测，可应用于制备研发肿瘤筛查产品、肿瘤分类和/或指导用药产品、以及预测肿瘤预后的产品。

Description

检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用

技术领域

本发明涉及变异或遗传工程领域中检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用。

背景技术

随着测序技术的发展，高通量测序的通量越来越大，因此产生的数据也越来越大。与此同时，高通量测序的应用也越来越广泛并且越来越重要。如今高通量测序已广泛应用于植物育种、病原微生物检测、物种进化、分类与溯源、微生物多样性分析、疾病的筛查、诊断与治疗等领域。例如，高通量测序在肿瘤领域被应用于肿瘤早筛、肿瘤预后、肿瘤分类和肿瘤用药指导。与此同时，大量的高通量测序数据带来了很多计算方面的挑战。在高通量测序数据分析流程中，最重要的步骤就是变异检测（variant call），在临床报告出具之前一般需要人工审核变异检测软件（variant caller）报出的变异检测结果。

变异可被分成很多种类型。Human Genome Variation Society（HGVS）定义了以下几种变异类型：替换（substitution，别名点突变）、缺失（deletion）、重复（duplication）、插入（insertion）、倒置（inversion）、缺失插入（deletion-insertion，经常被简化成delins）等，其中替换、缺失、重复和插入都属于简单变异（simple variants）。HGVS把缺失插入定义为：与参考序列相比，一个或多个核苷酸被其他核苷酸替代，但并不是发生点突变（substitution）、倒置（inversion）和转换（conversion）。很多缺失插入变异涉及肿瘤靶向用药，比如说EGFR基因19号外显子的缺失插入对肿瘤患者用药有重要指导意义，是恶性肿瘤中常见的变异、尤其在非小细胞肺癌患者中常见。根据文献报道，218/1057 的早期和285/1058 的晚期肺癌患者的肿瘤细胞含有EGFR基因的突变，而在EGFR基因有突变的患者中分别有53% 和61% 的早期/晚期患者的肿瘤细胞含有EGFR基因19号外显子缺失的突变（D'Angelo, S. P., Pietanza, M. C., Johnson, M. L., Riely, G. J., Miller, V.A., Sima, C. S., Kris, M. G. (2011). Incidence of EGFR exon 19 deletions andL858R in tumor specimens from men and cigarette smokers with lungadenocarcinomas. Journal of clinical oncology, 29(15),2066）。虽然缺失插入变异类型对癌症的用药和预后有非常重要的临床意义并且发生频率极高，但是目前基于高通量测序数据进行变异检测的方法检测出的结果中缺失插入变异都存在很多的假阴性和假阳性的问题。为了更好地检测出缺失插入变异，不同算法尝试了不同的方案，比如说GATKMutect（Cibulskis, K., Lawrence, M. S., Carter, S. L., Sivachenko, A., Jaffe,D., Sougnez, C., Getz, G. (2013). Sensitive detection of somatic pointmutations in impure and heterogeneous cancer samples. Nature biotechnology,31(3), 213-219）和Mutect2（Benjamin, D., Sato, T., Cibulskis, K., Getz, G.,Stewart, C., & Lichtenstein, L. (2019). Calling somatic SNVs and indels withMutect2. bioRxiv, 861054）通过寻找active regions和在active regions 做localizedassembly的方法检测缺失插入变异，Lancet通过根据De-Bruijn-like graphs数据结构做基因组单倍型（haplotype）组装来检测缺失插入变异（Narzisi, G., Corvelo, A.,Arora, K., Bergmann, E. A., Shah, M., Musunuri, R., Zody, M. C. (2018).Genome-wide somatic variant calling using localized colored de Bruijn graphs.Communications biology, 1(1), 1-9）。但是目前所有方法都无法很好地区分缺失插入变异和简单变异，并且经常输出错误的缺失插入具体变异形式，因此目前只能通过人工审核来寻找缺失插入变异。

NGS（Next Generation Sequencing）测序产生的数据为FASTQ格式，FASTQ格式的文件储存了生物信息领域中最原始的测序数据（Cock, P. J., Fields, C. J., Goto,N., Heuer, M. L., & Rice, P. M. (2010). The Sanger FASTQ file format forsequences with quality scores, and the Solexa/Illumina FASTQ variants.Nucleic Acids Research, 38(6), 1767-1771）。VCF（Variant Call Format）格式的文件是测序数据变异检测结果数据的储存文件，其中储存了生物信息领域中的变异信息（Danecek, P., Auton, A., Abecasis, G., Albers, C. A., Banks, E., DePristo, M.A., Sherry, S. T. (2011). The variant call format and VCFtools.Bioinformatics, 27(15), 2156-2158）。

发明内容

本发明所要解决的技术问题是如何准确地检测基因的缺失插入（delins）变异。

为了解决上述技术问题，本发明首先提供了检测基因组缺失插入变异的方法。所述方法可包括如下步骤：将样本的测序数据比对到参考基因组得到比对结果文件；对所述比对结果文件进行简单变异识别检测得到变异检测结果文件；对所述变异检测结果文件进行处理，把共同临近出现的简单变异合并成缺失插入变异，将所述变异检测结果文件中除去所述共同临近出现的简单变异后的其他简单变异保留得到保留后的简单变异，将所述缺失插入变异和所述保留后的简单变异组成的所有变异类型输出，获得所述样本的包含缺失插入变异的变异合并结果文件。

上文所述方法中，所述保留后的简单变异还可包括用于合并成所述缺失插入变异的简单变异。所述简单变异满足下述任一条件：

a）所述简单变异的深度大于等于总深度的75%，

b）所述简单变异的深度大于等于总深度的50%且所述缺失插入变异的最小/最大等位基因深度大于等于75%。所述等位基因可为所述缺失插入变异含有的简单变异的组合类型。所述深度可为去除重复序列之前的原始测序深度，所述测序深度也可为去除重复序列之后的有效测序深度，所述测序深度还可为经过分子标签成簇纠错后得到的有效测序数据。

所述分子标签（Unique Molecular Identifier, UMI）为在所述测序文库构建过程中在样本的原始测序核酸序列上连接的接头上带有的核酸序列，用于对样本的原始测序核酸序列进行标记。

上文所述方法中，所述共同临近可为两个及以上的变异在同一个DNA片段上（基因组位置上）临近发生（共同临近发生的变异一般来源于同一个突变事件，例如，紫外线辐射导致两个临近的碱基都发生错配，这就是同一个突变事件引起的两个错配，或者缺失修复失败导致临近的位置又发生了错配，在这种情况下缺失和错配也都来源于同一个突变事件）。

上文所述方法中，所述共同临近出现可为替换、缺失、重复和插入四种简单变异类型中至少两种变异类型临近出现或一种变异类型临近出现大于等于两次。

所述临近可为两个相邻的简单变异满足下述任一条件：

C1）两个简单变异中任何一个是错配并且相隔不超过B个核苷酸，

C2）两个简单变异中任何一个是插入或缺失并且相隔不超过O+E×L个核苷酸，所述L为插入或者缺失的核苷酸的个数。

所述B、O和E为BWA-MEM算法中的参数。

所述DNA片段可为比对结果文件中的比对片段。所述B、所述O和所述E的值的选取可参照BWA-MEM算法。在BWA-MEM算法中，所述B、O和E分别指的是在比对模块中，一个碱基（核苷酸）错配的罚分数值、新建插入和/或缺失的罚分数值和把已有插入和/或缺失延长一个碱基（核苷酸）的罚分数值。

上文所述方法中，所述测序数据可为所述样本的原始测序数据，即去除重复序列之前的测序数据。也可为所述原始测序数据去除重复序列之后的有效测序数据。还可为所述原始测序数据经过分子标签成簇纠错后得到的有效测序数据。

上文所述方法中，所述相邻可为在基因组上的位置相邻。

上文所述方法中，对所述变异检测结果文件进行处理可包括如下步骤：

D1、记录所述比对结果文件中比对片段的简单变异，保存其单倍型信息并记录保存次数，

D2、选择具有简单变异的比对片段对其单倍型信息进行如下处理：

D2-1）对覆盖所述比对片段上的基因组位置的单倍型按照保存次数从高向低的顺序排序，

D2-2）保留排序前8的所述单倍型，对于每个所述单倍型划分变异群。

所述变异群可为一群在基因组位置上临近的简单变异组合。

所述临近可为两个相邻的简单变异满足下述任一条件：

所述B、O和E为BWA-MEM算法中的参数。在BWA-MEM算法中，所述B、O和E分别指的是在比对模块中，一个碱基（核苷酸）错配的罚分数值、新建插入和/或缺失的罚分数值和把已有插入和/或缺失延长一个碱基（核苷酸）的罚分数值。

所述B、所述O和所述E的值的选取可参照BWA-MEM算法。所述B的值具体可为默认值4，所述O的值具体可为默认值6，所述E的值具体可为默认值1。

所述简单变异可为替换、缺失、重复和/或插入变异。所述单倍型信息可为由所述简单变异组成的字符串。

上文所述方法中，所述划分变异群还可包括如下步骤：

D2-2-3）把每个所述变异群合并成一个缺失插入变异，

D2-2-4）计算所述缺失插入变异的单倍型质量和所述缺失插入变异的变异质量，得到所述单倍型的变异质量，

D2-2-5）对所述缺失插入进行归一化。

所述缺失插入的单倍型质量的计算公式可为如下式I：

式I。

式I中，其中，所述A和B指的是支持缺失插入变异型和支持任何等位基因型和的read（测序读长）数量，所述

和

指的是在位点

支持（组成对应缺失插入变异的）简单变异型和支持任何等位基因型的read数量。所述

代表实际观测的丰度（allele fraction），所述

代表在假设变异群中的所有简单变异都互不相关的情况下通过理论计算得到的丰度。

所述缺失插入的变异质量的计算公式可为如下式II：

式II。

式II中，所述

为所有组成所述缺失插入的简单变异的变异质量值。所述简单变异的变异质量值的计算方法可使用UVC算法得到。

上文所述单倍型的变异质量可为所述缺失插入变异的单倍型质量和所述组成缺失插入变异的简单变异的变异质量中的最小值。

上文所述方法中，所述归一化可使用vt normalize的算法进行。上文所述方法中，对所述变异检测结果文件进行处理可使用UVC算法。

上文所述方法中，对所述比对结果文件进行简单变异识别检测可使用UVC算法进行检测。

为了解决上述技术问题，本发明还提供了基因组缺失插入变异检测的装置。所述装置包括如下模块：

M1、比对模块：用于将样本的测序数据比对到参考基因组得到比对结果文件，

M2、简单变异识别检测模块：用于对所述比对结果文件进行简单变异识别检测得到变异检测结果文件，

M3、变异检测结果文件处理模块：用于获得样本的缺失插入变异。

所述变异检测结果文件处理模块可通过包括如下步骤的方法建立：把共同临近出现的简单变异合并成缺失插入变异，将所述缺失插入变异代替所述共同临近出现的简单变异，将除去所述共同临近出现的简单变异后的其他简单变异保留得到保留后的简单变异，将所述缺失插入变异和所述保留后的简单变异组成的所有变异类型输出，获得所述样本的包含缺失插入变异的变异合并结果文件；所述共同临近出现为替换、缺失、重复和插入四种简单变异类型中至少两种变异类型临近出现或一种变异类型临近出现大于等于两次。

所述临近可为两个相邻的简单变异满足下述任一条件：

所述DNA片段可为比对结果文件中的比对片段。所述B、所述O和所述E的值的选取可参照BWA-MEM算法。所述B的值具体可为默认值4，所述O的值具体可为默认值6，所述E的值具体可为默认值1。

上文所述装置中，所述测序数据可为所述样本的原始测序数据，即去除重复序列之前的测序数据。也可为所述原始测序数据去除重复序列之后的有效测序数据。还可为所述原始测序数据经过分子标签成簇纠错后得到的有效测序数据。

上文所述装置中，所述相邻可为在基因组上的位置相邻。

上文所述装置中，所述保留后的简单变异还可包括用于合成所述缺失插入变异的简单变异。所述简单变异需满足下述至少一个特征：

a）所述简单变异的深度大于等于总深度的75%，

上文所述装置中，对所述变异检测结果文件处理模块还可通过包括如下步骤的方法建立：

所述变异群可为一群在基因组位置上临近的简单变异组合。所述临近可为两个相邻的简单变异满足下述任一条件：

为了解决上述技术问题，本发明还提供了一种存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机执行如上文所述的方法的步骤。

上文所述的方法和/或上文所述的装置和/或上文所述的计算机可读存储介质的下述任一种应用也属于本发明的保护范围：

P1、在制备肿瘤筛查产品中的应用，

P2、在制备肿瘤分类和/或指导用药产品中的应用，

P3、在制备预测肿瘤预后产品中的应用。

上文所述原始测序数据可为单端测序数据，也可为双端测序数据。

本发明实施中选取NCBI中SRA索引号是SRP268953的测序数据和SRA索引号是SRP159587的测序数据，使用本发明所建立的基于高通量测序的基因缺失插入变异检测方法进行包含缺失插入变异的变异分析检测，结果表明本发明所提供的基于高通量测序的基因缺失插入变异检测方法可以准确有效地检测样本基因的缺失插入变异，获得包括缺失插入类型变异的变异检测结果，与人工审核结果高度一致，可给患者提供更精准的基因检测。因此可应用于研发肿瘤筛查产品、肿瘤分类和/或指导用药产品、以及预测肿瘤预后的产品。

附图说明

图1为本发明建立的基于高通量测序地基因缺失插入变异检测方法的示意图。

图2为不同检测方法的评估结果（EGFR基因19号外显子缺失/缺失插入）。评估用的指标是变异检测错误的数量，包括变异结果没有检测出来和检测出来的结果错误。

图3为用变异检测错误的数量评估不同检测方法的结果。评估用的指标是变异检测错误的数量，包括变异结果没有检测出来和检测出来的结果错误。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、从高通量测序数据中检测基因缺失插入（delins）变异的方法。

NGS 测序产生的数据为FASTQ格式，FASTQ格式的文件储存了样本最原始的测序数据，但此格式的数据不易读懂；VCF（Variant Call Format）格式的文件是基于原始的测序数据进行变异识别检测获得的样本的变异信息数据，储存了样本的变异信息检测结果。本实施例描述了从样本FASTQ数据文件输入到生成VCF数据文件输出的过程。

1. 用BWA-MEM（https://sourceforge.net/projects/bio-bwa/）算法把样本的原始测序数据FASTQ文件中的reads（测序读长）比对到人参考基因组输出包含比对到参考基因组的NGS片段（比对片段，Alignment）的比对结果文件，为BAM格式文件。

2. 用UVC（对立统一变异识别）算法对BAM文件（比对结果文件）进行简单变异（即插入、重复、缺失和/或替换，其中替换需要被测序碱基质量至少是20的错配（Q20mismatch）支持）识别检测输出包含样本数据变异信息的变异检测结果文件，为VCF格式的文件。

其中UVC是基于高通量测序的基因简单变异检测方法，在中国发明专利（公开号CN111243664A）和文献（Zhao, X., Hu, A. C., Wang, S., & Wang, X. (2021). Callingsmall variants using universality with Bayes-factor-adjusted odds ratios.Briefings in Bioinformatics.2022 Jan 17;23(1):bbab458）中均有公开。UVC会寻找比对片段（Alignment）支持的简单变异（即非缺失插入变异）。

本发明在使用UVC识别简单变异的基础上，给UVC添加了功能，即记录这些简单变异的单倍型（haplotype）信息。此功能具体通过下述步骤实现：对每个比对到参考基因组的NGS片段（比对片段，Alignment），

a）根据VCF文件中的变异检测结果，记录每个Alignment上的简单变异的信息；简单变异信息含有基因组位置，野生型序列（参考基因组序列）和突变型序列（简单变异后的序列），

b）将每个Alignment上的简单变异保存成Alignment的单倍型信息。Alignment的单倍型信息用由参考基因组位置和简单变异组成的字符串代表，增加这个单倍型发生的次数，并记录保存次数，以便于最后统计单倍型的等位基因总深度。单倍型信息中的简单变异是根据基因组位置在字符串中被排序的。

3. 基因缺失插入（delins）变异检测。

对步骤2得到的包含每个样本数据变异信息的VCF文件格式的变异检测结果文件进行处理，把共同临近出现的简单变异合并成缺失插入变异，将合并后的缺失插入变异归一化后代替合并前的变异（即共同临近出现的简单变异），将所述变异检测结果文件中除去共同临近出现的简单变异后的其他简单变异结果保留得到保留后的简单变异，对所有变异类型（包括缺失插入变异和保留后的简单变异）输出VCF格式的结果，获得每个样本的包含缺失插入（delins）变异的VCF格式的合并变异结果文件。

其中共同临近出现的简单变异情况为：替换、缺失、重复和插入这四种简单变异类型其中至少两种（两种及以上）变异类型共同临近出现或一种变异类型至少共同临近出现两次。例如一个替换和一个缺失共同临近出现；再例如两个替换和一个缺失共同临近出现；或者替换、缺失、重复和插入四种简单变异类型中一种变异共同临近出现至少两次（大于等于两次），例如两个缺失共同临近出现。所述共同临近指的是至少两种（两种及以上）变异在同样的DNA片段。具体通过下述步骤实现。

选择每个具有简单变异的（即每个保存单倍型（haplotype））的比对片段的单倍型信息进行如下处理。

3.1 对覆盖所述比对片段上的基因组位置的单倍型按照保存次数从高向低的顺序排序。

保存次数多的单倍型更倾向于被认为是真的，因此按照单倍型保存次数从高到低的顺序，对所有单倍型进行排序。随后在每个基因组位置，挑选已经排序好的单倍型和其个数，从而避免在不同基因组位置上做重复运算。

3.2 保留排序前8的单倍型，对于每个保留的单倍型生成对应的变异群，具体进行如下处理。

Ⅰ）把单倍型划分成变异群，一个变异群是一群在基因组位置上临近的简单变异组合。

由于临近的简单变异通常是由同一个突变事件引起的，因此需要把临近的简单变异合并。每个基因组位置的单倍型信息是由简单变异组成的字符串，当简单变异为多个时，单倍型的简单变异根据基因组位置在字符串中被排序。对于每个字符串里相邻的两个简单变异，如果满足下述任一条件，则归纳到同一个变异群；反之则不归纳：

C2）两个简单变异中任何一个是插入或缺失并且相隔不超过O+E×L个核苷酸，其中L是插入或者缺失的核苷酸的个数。

以上规则中的参数B，O和E为BWA-MEM算法中的参数，在BWA-MEM算法中，B、O和E分别指的是在比对模块中，一个碱基（核苷酸）错配的罚分数值、新建插入和/或缺失的罚分数值和把已有插入和/或缺失延长一个碱基（核苷酸）的罚分数值。其默认值跟BWA-MEM算法保持一致（Li, H. (2013). Aligning sequence reads, clone sequences and assemblycontigs with BWA-MEM. arXiv preprint arXiv:1303.3997）。因此默认B=4，O=6，E=1。需要注意的是：一个变异群不一定只包含两个简单变异，因为三个或更多的简单变异有可能会被归纳到一个变异群里。

Ⅱ）把每个变异群合并成一个缺失插入变异。

载入hs37d5参考基因组序列。对于每个变异群，记录变异群起始位置和终止位置。变异群起始/终止位置分别指的是最小/大的在变异群中的简单变异起始位置。在变异群起始位置和终止位置中间如果有任何变异群中的简单变异没有覆盖的序列，则用载入的参考基因组序列在这两个位置之间填充。然后把变异群中的多个变异合并成一个缺失插入变异，并且输出这个缺失插入变异的起始位置，野生型（参考基因组）的序列和突变型（缺失插入变异）的序列。

Ⅲ）计算缺失插入变异的单倍型质量和缺失插入变异的变异质量，得到单倍型的变异质量。

缺失插入有两个变异质量值：单倍型质量（Haplotype Quality，简称HQ）和变异质量（Variant Quality，简称VQ）。把这两个质量结合，可以得到考虑单倍型的变异质量（Haplotype-aware Variant Quality，简称HVQ）。变异质量值代表变异的可信度。缺失插入的单倍型质量的计算公式如下式I：

式I。

式I中A和B指的是支持缺失插入变异型和支持任何等位基因型的read数量，

和

指的是在位点

支持（组成对应缺失插入变异的）简单变异型和支持任何等位基因型的read数量。

代表实际观测的丰度（allele fraction），

代表在假设变异群中的所有简单变异都互不相关的情况下通过理论计算得到的丰度。指数3是二代测序中的一个经验性常数（Zhao, X., Hu, A. C., Wang, S., & Wang, X. (2021). Calling smallvariants using universality with Bayes-factor-adjusted odds ratios. Briefingsin Bioinformatics.2022 Jan 17;23(1):bbab458）。

缺失插入质量的计算公式如下式II：

式II。

式II中

是所有组成此缺失插入的简单变异的变异质量值。简单变异的变异质量值的计算参照UVC算法（相关文献：Zhao, X., Hu, A. C., Wang, S., & Wang, X.(2021). Calling small variants using universality with Bayes-factor-adjustedodds ratios. Briefings in Bioinformatics.2022 Jan 17;23(1):bbab458；专利公开号为CN111243664A的中国发明专利）。

然后取HQ和VQ两个值中的最小值作为单倍型的变异质量。所有质量值都代表变异的可信度。质量的详细定义在VCF格式规范中有详细描述（Danecek, P., Auton, A.,Abecasis, G., Albers, C. A., Banks, E., DePristo, M. A., Sherry, S. T.(2011). The variant call format and VCFtools. Bioinformatics,27(15), 2156-2158）。

Ⅳ）对缺失插入做归一化操作。

VCF格式文件中允许一个变异有多种表现形式，但是每个变异通过使用左对齐（left alignment）和简约变异（parsimonious variant）做归一化（简称归一化）之后，都会产生唯一的VC变异表现形式。因此对合并后的缺失插入变异进行归一化（normalization），使用算法vt normalize（相关文献：Tan, A., Abecasis, G. R., & Kang, H. M. (2015).Unified representation of genetic variants. Bioinformatics, 31(13), 2202-2204）做归一化，产生包含新生成的缺失插入变异的变异检测结果。

Ⅴ）让新生成的缺失插入变异取代原有组成此缺失插入的简单变异，并保留没有被全部取代的简单变异。

任何缺失插入变异都可以被分解成至少两个（两个及以上）简单变异。被分解的简单变异有可能既属于缺失插入变异，也单独就是一个简单变异，因此既需要保留独自出现的简单变异，也需要取代组成复杂变异之后不存在的简单变异。如果任何合并成缺失插入变异的简单变异满足以下两个条件中的至少一个，那么这个简单变异（不管是否被合并为缺失插入变异）将会作为保留后的简单变异被保留，最终产生既包含（保留）简单变异也包含缺失插入变异的VCF格式变异检测结果：

a）简单变异的深度大于等于总深度（包含缺失插入变异）的75%，

b）简单变异的深度大于等于总深度的50%并且所有组成这个缺失插入变异的最小/最大等位基因（所述缺失插入变异含有的简单变异的组合类型）深度大于等于75%。

所述深度为测序数据的测序深度。

实施例2、基因缺失插入（delins）变异检测效果分析。

在NCBI下载SRA索引号是SRP159587的测序数据（相关文献：Tian, Y., Zhao, J.,Ren, P., Wang, B., Zhao, C., Shi, C., Guo, Y. (2018). Different subtypes ofEGFR exon19 mutation can affect prognosis of patients with non-small celllung adenocarcinoma. PLOS ONE, 13(11), e0201682）。

该数据为122例人非小细胞肺癌样本的测序数据结果，其中121例样本的基因组EGFR 基因19号外显子存在缺失或缺失插入类型的变异，1例样本为的基因组EGFR 基因的第21号外显子上存在L858R点突变。这组数据使用的是 panel捕获建库方法，用了IlluminaNextSeq 550测序。对于每个样本的原始测序数据FASTQ文件，进行以下操作。

1. 使用本发明建立的缺失插入变异检测方法检测样本基因变异信息。

采用实施例1中建立的缺失插入变异检测方法获得每个样本的既包含简单变异也包含缺失插入变异的VCF格式变异检测结果文件。

其中，在原始测序数据比对过程中，人参考基因组选择hs37d5参考基因组（Li, H.(2013). Aligning sequence reads, clone sequences and assembly contigs withBWA-MEM. arXiv preprint arXiv:1303.3997）。

在把单倍型划分成变异群的过程中，对于每个字符串里相邻的两个简单变异，如果满足下述任一条件，则归纳到同一个变异群；反之则不归纳：

其中的参数B、O和E选择默认值，即默认B=4，O=6，E=1。

2. 与现有技术和金标准检测方法的结果比较。

采用现有技术中的Mutect2方法、Freebayes方法、VarDict方法检测每个样本的包含缺失插入变异的基因变异信息，并和基因变异检测金标准结果进比较和校验，原始测序数据比对的参考基因组同样选择人参考基因组选择hs37d5参考基因组。

Mutect2、Freebayes和VarDict分别是三种既能检测简单变异又能检测缺失插入变异的工具。金标准由人工审核生成。

其中Mutect2方法的检测步骤参考如下文献：Benjamin, D., Sato, T.,Cibulskis, K., Getz, G., Stewart, C., & Lichtenstein, L. (2019). Callingsomatic SNVs and indels with Mutect2. bioRxiv, 861054。

Freebayes方法的检测步骤参考如下文献：Garrison, E., & Marth, G. (2012).Haplotype-based variant detection from short-read sequencing. arXiv preprintarXiv:1207.3907。

VarDict方法的检测步骤参考如下文献：Lai, Z., Markovets, A., Ahdesmaki,M., Chapman, B., Hofmann, O., McEwen, R., Dry, J. R. (2016). VarDict: a noveland versatile variant caller for next-generation sequencing in cancerresearch. Nucleic Acids Research, 44(11), e108-e108。比较检测结果如图2所示，评估用的指标是变异检测错误的数量，包括变异结果没有检测出来和检测出来的结果错误，使用本发明实施例1中建立的方法进行基因变异检测的错误的数量均为0，而使用现有技术中的Mutect2、Freebayes和VarDict三种方法进行基因变异检测结果均存在一定的变异检测错误。

实施例3、基于高通量测序的基因缺失插入变异检测的验证。

选取NCBI中SRA索引号是SRP268953的测序数据（Janku, F. , et al.Actionable mutations in plasma cell-free DNA in patients with advancedcancers referred for experimental targeted therapies.2015 Sep 15;6(27):24581），该数据为265例晚期癌症患者cfDNA样本的测序结果。其中经金标准人工审核得到43例样本为19号外显子缺失（19del），7例样本为20号外显子插入（20ins），其余样本结果为阴性（既不存在任何简单变异也不存在任何缺失插入变异）。

此数据组使用的是Illumina平台测序，用的是使用分子标签捕获的建库方法。对于每个样本的原始测序数据，分别使用本发明实施例1中建立的缺失插入变异检测方法和现有技术的Mutect2、Freebayes和VarDict三种基因变异检测方法检测每个样本的基因变异信息，并与经金标准人工审核得到基因变异检测结果进行比较。

其中每个样本的原始测序数据比对的参考基因组选择人参考基因组选择hs37d5参考基因组。本发明实施例1中建立的缺失插入变异检测方法中，在把单倍型划分成变异群的过程中，参数B、O和E选择默认值，即默认B=4，O=6，E=1。

比较结果如图3所示，使用本发明实施例1中建立的方法进行基因变异检测的错误的数量均为0，而使用现有技术中的Mutect2、Freebayes和VarDict三种方法进行基因变异检测结果均存在一定的变异检测错误。因此，本发明实施例1中建立的基因缺失插入变异检测方法可以准确有效地检测样本基因的包括缺失插入类型变异的变异检测结果，与人工审核结果高度一致，可给患者提供更精准的基因检测，从而让患者收益。因此可应用于研发肿瘤筛查产品、肿瘤分类和/或指导用药产品、以及预测肿瘤预后的产品。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

Claims

1.检测基因组缺失插入变异的方法，其特征在于：所述方法包括如下步骤：将样本的测序数据比对到参考基因组得到比对结果文件；对所述比对结果文件进行简单变异识别检测得到变异检测结果文件；对所述变异检测结果文件进行处理，把共同临近出现的简单变异合并成缺失插入变异，将所述变异检测结果文件中除去所述共同临近出现的简单变异后的其他简单变异保留得到保留后的简单变异，将所述缺失插入变异和所述保留后的简单变异组成的所有变异类型输出，获得所述样本的包含缺失插入变异的变异合并结果文件；

所述共同临近出现为替换、缺失、重复和插入四种简单变异类型中至少两种变异类型临近出现或一种变异类型临近出现大于等于两次；

所述临近为两个相邻的简单变异满足下述任一条件：

C1）两个简单变异中任何一个是错配并且相隔不超过B个核苷酸；

C2）两个简单变异中任何一个是插入或缺失并且相隔不超过O+E×L个核苷酸，所述L为插入或者缺失的核苷酸的个数；

所述B、O和E为BWA-MEM算法中的参数。

2.根据权利要求1所述的方法，其特征在于：所述保留后的简单变异还包括用于合并成所述缺失插入变异的简单变异。

3.根据权利要求1或2所述的方法，其特征在于：对所述变异检测结果文件进行处理包括如下步骤：

D1、记录所述比对结果文件中比对片段的简单变异，保存其单倍型信息并记录保存次数；

D2-1）对覆盖所述比对片段上的基因组位置的单倍型按照保存次数从高向低的顺序排序；

D2-2）保留排序前8的所述单倍型，对于每个所述单倍型划分变异群；

所述变异群为一群在基因组位置上临近的简单变异组合；所述临近为两个相邻的简单变异满足下述任一条件：

所述B、O和E为BWA-MEM算法中的参数。

4.根据权利要求1-3中任一权利要求所述的方法，其特征在于：对所述比对结果文件进行简单变异识别检测使用UVC算法进行检测。

5.检测基因组缺失插入变异的装置，其特征在于：所述装置包括如下模块：

M1、比对模块：用于将样本的测序数据比对到参考基因组得到比对结果文件；

M2、简单变异识别检测模块：用于对所述比对结果文件进行简单变异识别检测得到变异检测结果文件；

M3、变异检测结果文件处理模块：用于获得样本的缺失插入变异；

所述变异检测结果文件处理模块通过包括如下步骤的方法建立：把共同临近出现的简单变异合并成缺失插入变异，将所述缺失插入变异代替所述共同临近出现的简单变异，将除去所述共同临近出现的简单变异后的其他简单变异保留得到保留后的简单变异，将所述缺失插入变异和所述保留后的简单变异组成的所有变异类型输出，获得所述样本的包含缺失插入变异的变异合并结果文件；所述共同临近出现为替换、缺失、重复和插入四种简单变异类型中至少两种变异类型临近出现或一种变异类型临近出现大于等于两次；

所述临近为两个相邻的简单变异满足下述任一条件：

所述B、O和E为BWA-MEM算法中的参数。

6.根据权利要求5所述的装置，其特征在于：所述保留后的简单变异还包括用于合成所述缺失插入变异的简单变异。

7.根据权利要求5或6所述的装置，其特征在于：对所述变异检测结果文件处理模块还通过包括如下步骤的方法建立：

所述B、O和E为BWA-MEM算法中的参数。

8.一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行如权利要求1-5中任一权利要求所述的方法的步骤。

9.权利要求1-4中任一权利要求所述的方法和/或权利要求5或6或7所述的装置和/或权利要求8所述的计算机可读存储介质的下述任一种应用：

P1、在制备肿瘤筛查产品中的应用；

P2、在制备肿瘤分类和/或指导用药产品中的应用；

P3、在制备预测肿瘤预后产品中的应用。