CN114898803A

CN114898803A - 突变检测分析的方法、设备、可读介质及装置

Info

Publication number: CN114898803A
Application number: CN202210593582.3A
Authority: CN
Inventors: 鲍文娟; 戴立忠
Original assignee: Sansure Biotech Inc
Current assignee: Sansure Biotech Inc
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-12
Anticipated expiration: 2042-05-27
Also published as: CN114898803B

Abstract

本发明属于生物信息技术领域，具体地，涉及高通量测序数据分析方法及装置，更具体地，涉及突变检测的分析方法及装置。本突变检测方法实现了一种快速检测突变，且准确判断连锁/复杂突变并将其合并的方法。同时跳过了常规流程中SAM文件转为BAM文件、BAM文件的排序、加头文件、去重、重比对等等处理，大大缩短了分析时间；通过一次读取SAM/BAM文件，即可同时分析SNV和InDel突变；最后，通过逐一扫描SAM文件，结合突变特征筛选，在保证查全率的同时，兼顾对假阳性的甄别，结果更加准确。

Description

突变检测分析的方法、设备、可读介质及装置

技术领域

本发明属于生物信息技术领域，具体地，涉及高通量测序数据分析方法及装置，更具体地，涉及突变检测的分析方法及装置。

背景技术

肿瘤突变检测是通过从肿瘤患者外周血或病灶组织中提取DNA，进行高通量测序和生物信息分析，检测出相关的突变(如遗传变异、体细胞突变)，可用来指导用药或后续的治疗方案。因样本中来源于肿瘤的基因组占比通常不高，常常采用测序深度＞1000X的高深度测序，考虑到经济性，现行的检测方式大都为目标区域捕获测序，即通过捕获几十、几百，甚至上千个肿瘤相关的基因，再进行高深度测序。常规的分析流程通常是采用BWA比对、GATK重比对、Varscan2/Mutect2等突变检测软件对bam文件分别进行SNV、InDel分析，最后根据多个指标(如：深度、频率、p-value等)进行候选位点的筛选。该分析流程普遍耗时约1～2小时，且随着数据量的增加而增加；同时GATK重比对步骤对计算资源要求较高。而且，目前的软件大多基于理论模型计算，灵敏度和特异性方面难以满足高要求的临床样本。

对于连锁或复杂突变，现有的软件通常是给出多个独立的突变结果，通过频率和深度指标进行判断。但是在某些复杂情况下，仅仅靠频率和深度指标来判别连锁并不准确，常常导致注释错误。

因此，针对目前的分析流程存在耗时长、无法准确解决连锁/复杂突变带来的注释错误问题，急需开发一个更快速、准确的生物信息分析方法。

发明内容

有鉴于此，第一方面，本发明请求保护一种突变检测方法：

获得样本的测序数据和参考基因组序列；

对所述样本的测序数据和参考基因组序列进行比对，得到SNV位点信息和InDel位点信息；

对所述得到的SNV位点信息和InDel位点信息进行过滤，得到过滤之后的数据；

对所述过滤之后的数据进行连锁分析，包括：

对同一个染色体上的位置在40bp内的两个目标突变进行两个特征值字符串化后的Levenshtein相似度计算，当两个相似度均大于0.8时，则认定该两个突变为连锁；所述两个特征值分别为：包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标突变的reads数占比。

进一步地，在一些具体的实施方案中，对所述过滤之后的数据进行连锁分析，包括：

对同一个染色体上的位置在20bp内的两个目标突变进行两个特征值字符串化后的Levenshtein相似度计算，当两个相似度均大于0.8时，则认定该两个突变为连锁；所述两个特征值分别为：包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标突变的reads数占比。

在本发明中，术语“簇(cluster)”指的是将比对到相同位置、相同链、相同比对描述的reads归为一个cluster。每个cluster可认为来源于同一个DNA分子模板，或不同模板但原始序列相似。

在本发明中，术语“包括所述目标突变的簇的reads数”指的是包含某个目标突变的簇组成的reads数，例如：比对位置为chr1染色体、起始位置为100000、CIGAR描述为80M3D70M的簇由15条reads组成，则“15”为该定义所指值。

在本发明中，术语“包含所述目标突变的簇中支持该目标突变的reads占比”指的是支持某个目标突变的reads数在含有该目标突变的簇的reads数中的占比，例如：比对位置为chr1染色体、起始位置为100000、CIGAR描述为80M3D70M的簇由15条reads组成，发现位置100009有G>A的变化，且支持该变化的reads数为12，则0.8(12/15＝0.8)则为该定义所指值。

在本发明中，术语“字符串化”指的是对具体数字进行ASCII码十进制48-89范围内对应的字符映射。即将数值型数据映射为单字符串型，如果数值<1，则对其用倒数代替，计算后采用四舍五入取整。举例：

15经过以下计算：1/15*41+48＝50.73，取整后为51，得到十进制数51对应ASCII码表字符为“3”。

0.9经过以下计算：0.9*41+48＝84.9，取整后为85，得到十进制数85对应的ASCII码表字符为“U”。

在一些具体的实施方案中，所述对所述样本的测序数据和参考基因组序列进行比对，得到SNV位点信息和InDel位点信息，包括：所述获得SNV位点信息和InDel位点信息是指对每一个簇进行参考序列(refseq)和突变序列(altseq)重构；通过逐一比较重构的参考序列和突变序列之间的差异，得到SNV和InDel位点信息。

在一些具体的实施方案中，所述序列重构是指如果位置x有发生碱基替换，则参考序列和突变序列对应位置分别为参考碱基和突变碱基；如果位置x发生缺失，则参考序列保持原始碱基信息，突变序列用‘-’替代；如果位置x发生插入，则参考序列用‘-’替代，突变序列记录插入的碱基信息。通过参考序列和突变序列重构，cluster记录的SNV、InDel信息均记录留存。

在一些具体的实施方案中，判断为连锁之后，并对所述突变进行合并注释，重新生成合并后的变异结果。

在一些具体的实施方案中，同时获得SNV位点数据和InDel位点数据是否处于reads末端的信息，通过以下实现：

SNV位点数据：对于比对到正链：比对位置尾部5～10bp内，优选为5～8bp，更优选为5bp；比对到负链：比对位置起始5～10bp内，优选为5～8bp，更优选为5bp；

InDel位点数据：对于比对到正链：比对位置尾部5～15bp内，优选为5～10bp，更优选为8bp内；比对到负链：比对位置起始5～15bp内，优选为5～10bp，更优选为8bp内。

在一些具体的实施方案中，所述对所述SNV位点信息和InDel位点信息进行过滤，获得过滤之后的数据，包括：

对所述所述SNV位点信息和InDel位点信息进行至少两次过滤，获得所述两次过滤之后的数据。

在一些具体的实施方案中，对所述SNV位点信息和InDel位点信息进行第一过滤，得到第一过滤之后的数据，其中，所述第一过滤的条件包括以下至少之一：

cluster含有突变碱基的质量值低于设置值，设置值为20；

突变支持reads处于末端占当前cluster总reads数一半以上；

当前cluster中reads数大于预设值，预设值设定范围为5-10，更优选为5(可依据实际测序数据量以及过滤宽松度做调整)且突变支持reads数小于2；

当前cluster中reads数大于预设值，预设值设定范围为8-20，更优选为8(可依据实际测序数据量以及过滤宽松度做调整)且突变支持reads数小于3。

在一些具体的实施方案中，对所述SNV位点信息和InDel位点信息进行第二过滤，得到第二过滤之后的数据，其中，所述第二过滤的条件包括以下至少之一：

突变仅有正链或负链支持；

突变正负链比值超过预设值，预设值设定范围为5-10倍，更优选为7倍(可依据实际测序数据量以及过滤宽松度做调整。如对于链偏向严重的区域，可将条件放松，即设置为更大的数值)；

突变支持reads数少于预设值，预设值设定范围为5-40，更优选为20(可依据实际测序数据量以及过滤宽松度做调整。如需要提高灵敏度，可将数值设置为更小，但同时将引入更多的假阳性结果，需要根据实际测序数据进行参数摸索)；

对于位于重复区域的突变，突变支持reads数少于预设值，预设值设定范围为10-50，更优选为50(可依据实际数据量以及过滤宽松度做调整。如需要提高灵敏度，可将数值设置为更小，但同时将引入更多的假阳性结果，需要根据实际测序数据进行参数摸索)；

对于位于重复区域的突变，突变占比小于预设值，预设值设定范围为0.05-0.15，更优选为0.15(可依据实际数据量以及过滤宽松度做调整。如需要提高灵敏度，可将数值设置为更小，但同时将引入更多的假阳性结果，需要根据实际测序数据进行参数摸索)。

在一些具体的实施方案中，所述对所述过滤之后的数据进行连锁分析，满足连锁分析的条件，进入Levenshtein相似度计算；

连锁分析的条件包括：

包括突变的所有cluster数目中位于正链的个数＞＝3(strand_Pos＞＝3)；

包括突变的所有cluster数目中位于负链的个数＞＝3(strand_Neg＞＝3)；

突变支持reads数大于预设值，预设值设定范围为20-60，更优选为50(可依据实际数据量以及过滤宽松度做调整。降低此参数会增加耗时，并有增加假阳性结果的可能性)；

突变频率大于0.01。

在本发明中，Levenshtein相似度计算公式如下：

其中当a_i＝b_j时，

为0，否则为1。lev_a，b(i，j)就是a的前i个字符与b的前j个字符的编辑距离。

a、b的相似度Sim_a，6为Sim_a，b＝1-(lev_a，b(|a|，|b|)/max(|a|，|b|))。

，其中，其中a，b是两个数组(字符串)，i/j是数组下标。

在一些具体的实施方案中，以上分析采用多任务分布架构，各个染色体并行分析，最后将结果进行合并。

另一方面，本发明提供一种设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述任一项所述的突变检测方法。

在一些实施方案中，所述设备还包括至少一个输入设备和至少一个输出设备；在所述设备中，所述处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明的又一方面，提供了一种存储介质，所述存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述任一项所述的突变检测方法。

在一些实施方案中，存储介质为计算机可读存储介质。

本发明的又一方面，提供了一种装置，包括

比对模块，用于比对样本的测序数据和参考基因组序列；

过滤模块，用于过滤所述获得SNV位点信息和InDel位点信息；

连锁分析判断模块，用于分析目标突变两个特征值字符串化后的Levenshtein相似度计算以判断是否连锁，所述两个特征值分别为：包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标突变的reads数占比。

所述“分析目标突变两个特征值字符串化后的Levenshtein相似度计算”为分析目标突变两个特征值字符串化后的Levenshtein相似度是否大于0.8。

本突变检测的方法，实现了一种快速检测突变，且准确判断连锁和复杂突变并将其合并的方法。同时跳过了常规流程中SAM文件转为BAM文件、BAM文件的排序、加头文件、去重、重比对等等处理，大大缩短了分析时间；通过一次读取SAM/BAM文件，即可同时分析SNV和InDel突变；最后，通过逐一扫描SAM文件，结合突变特征筛选，在保证查全率的同时，兼顾对假阳性的甄别，结果更加准确。

附图说明

图1为连锁范围为20bp时，三种比对软件的比对结果；

图2为连锁范围为40bp时，BWA软件的比对结果；

图3为连锁范围为40bp时，GATK软件的比对结果；

图4为连锁范围为40bp时，本发明检测方法的比对结果。

具体实施方式

下文将结合具体实施方案和实施例，具体阐述本发明，本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解，这些具体实施方案和实施例是用于说明本发明，而非限制本发明。

实施例1、标准样品的分析和检测

样本为国家卫生健康委临床检验中心组织的2021年全国实体肿瘤体细胞突变高通量测序检测项目的标准品。通过目标捕获测序，得到原始fastq reads。

一、样本制备

国家卫生健康委临床检验中心寄送的血浆样本。

二、DNA提取以及样本质检

分别对5个样本进行cfDNA提取和质检，质控合格方可进行下一步操作。

三、文库制备

对提取后样本依次进行基因组打断、末端修复加A、接头连接、纯化、文库扩增、纯化、文库质控等步骤，质控合格方可进行下一步操作。

四、高通量测序

对建库后的样本通过Illumina Nextseq 500进行测序，测序类型为SE150。

五、突变检测生信分析

对下机的测序数据进行生信分析

1.用fastp 0.23.0对下机数据进行初步质控和过滤

(1)剔除首尾端碱基质量小于20的碱基或者N碱基

(2)剔除测序接头序列

(3)剔除切除接头及低质量序列后长度小于15bp的reads

2.用bwa-mem2比对人类基因组hg19

首先用bwa-mem2对人类参考基因组hg19建立索引，再采用默认参数进行基因组比对

3.本发明所述方法进行突变检测

即运行本发明所述方法程序，输入文件为比对结果文件(SAM或者BAM)。

六、实验结果及分析

表1

根据与室间质评出具的结果比较，本发明所述方法对所有阳性位点均检出且频率接近，对阴性样本也作出阴性判断。以上测试位点包括SNV、insert、deletion三种类型突变，本发明所述方法均准确检测出。

实施例2、临床样品的分析和检测

一、样本制备

组织样本DNA提取以及质检，质控合格方可进行下一步操作。

二、文库制备

三、高通量测序

四、突变检测生信分析

对下机的测序数据进行生信分析。与实施例1一致。

五、实验结果及分析

表2

本发明所述方法对所有突变位点均检出且频率接近。尤其对于T1样本FOXA1的复杂突变(20bp内连锁)，本发明所述方法给出了最准确的结果。

实施例3、对比方法的检测与分析

本发明所述方法在处理连锁/复杂突变上极具优势。针对20bp内的突变均能很好地甄别是否为连锁，并对其进行合并。比现有软件(如GATK)能更准确识别。

具体对比结果如图1所示，BWA比对软件给出CTCGAA6bp缺失、GCC3bp缺失、G>C的碱基变化。采用GATK进行突变检测时，GATK的结果为CTCGAA6bp缺失、G1bp缺失、CG2bp缺失，并给出3个突变描述；但本发明所述方法识别到此处为连锁的碱基改变，对其进行合并注释，得到CTCGAACATGTTGCCG>CATGTTC这个复杂突变结果[T1样本FOXA1]。

本发明所述方法创新地采用特征相似度方法判断连锁，具有高准确性。在将连锁范围从默认的20bp调整到40bp时，本发明所述方法依然给出了准确的结果，结果如图2-4所示。其中，BWA描述其32bp缺失、1bp mismatch、3bp match、1bp缺失(图2)；GATK检测为3个独立的突变结果(图3)；而本发明所述方法(连锁参数设置为40)识别到此处为连锁复杂突变，进行综合分析，得到最准确的突变描述(图4)。

Claims

1.一种突变检测方法，其特征在于，包括以下步骤：

获得样本的测序数据和参考基因组序列；

对所述过滤之后的数据进行连锁分析，包括：

2.根据权利要求1所述的突变检测方法，其特征在于，所述对所述样本的测序数据和参考基因组序列进行比对，得到SNV位点信息和InDel位点信息，包括：

对每一个簇进行参考序列和突变序列重构；通过逐一比较重构的参考序列和突变序列之间的差异，得到SNV和InDel位点信息。

3.根据权利要求1所述的突变检测方法，其特征在于，所述对所述SNV位点信息和InDel位点信息进行过滤，得到过滤之后的数据，包括：

对所述SNV位点信息和InDel位点信息进行至少两次过滤，获得所述两次过滤之后的数据。

4.根据权利要求1所述的突变检测方法，其特征在于，对所述SNV位点信息和InDel位点信息进行第一过滤，得到第一过滤之后的数据；

其中，所述第一过滤的条件包括以下至少之一：

cluster含有突变碱基的质量值低于设置值，设置值为20；

突变支持reads处于末端占当前cluster总reads数一半以上；

当前cluster中reads数大于预设值，预设值设定范围为5-10，且突变支持reads数小于2；

当前cluster中reads数大于预设值，预设值设定范围为8-20，且突变支持reads数小于3。

5.根据权利要求1所述的突变检测方法，其特征在于，对所述SNV位点信息和InDel位点信息进行第二过滤，得到第二过滤之后的数据；

其中，所述第二过滤的条件包括以下至少之一：

突变仅有正链或负链支持；

突变正负链比值超过预设值，预设值设定范围为5-10倍；

突变支持reads数少于预设值，预设值设定范围为5-40；

对于位于重复区域的突变，突变支持reads数预设值，预设值设定范围为10-50；

对于位于重复区域的突变，突变占比小于预设值，预设值设定范围为0.05-0.15。

6.根据权利要求1所述的突变检测方法，其特征在于，所述对所述过滤之后的数据进行连锁分析，满足连锁分析的条件，进入Levenshtein相似度计算；

所述连锁分析的条件包括：

包括突变的所有cluster数目中位于正链的个数>＝3；

包括突变的所有cluster数目中位于负链的个数>＝3；

突变支持reads数大于预设值，预设值设定范围为20-60；

突变频率大于0.01。

7.根据权利要求1～6中任一所述的突变检测方法，其特征在于，所述Levenshtein相似度计算公式如下：

其中当a_i＝b_j时，

a、b的相似度Sim_a，b为Sim_a，b＝1-(lev_a，b(|a|，|b|)/max(|a|，|b|))。

其中，a，b是两个数组(字符串)，i/j是数组下标。

8.一种装置，包括

比对模块，用于比对样本的测序数据和参考基因组序列；

过滤模块，用于过滤所述获得SNV位点信息和InDel位点信息；

9.一种设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现如权利要求1～7中任一项所述的突变检测方法。

10.一种存储介质，所述存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现如权利要求1～7中任一项所述的突变检测方法。