CN109698011B

CN109698011B - 基于短序列比对的Indel区域校正方法及系统

Info

Publication number: CN109698011B
Application number: CN201811593542.9A
Authority: CN
Inventors: 吴桂枝; 传军; 曾华萍; 宋卓; 孟飞; 陈香
Original assignee: Genetalks Bio Tech Changsha Co ltd
Current assignee: Genetalks Bio Tech Changsha Co ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-10-23
Anticipated expiration: 2038-12-25
Also published as: CN109698011A

Abstract

本发明公开了一种基于短序列比对的Indel区域校正方法及系统，本发明的校正步骤包括：读取比对结果文件确定indel区域，针对每一个indel区域依次找出突变的最小重复单元、迭代构建待处理扩展区、重构候选基因组序列，然后在比对结果文件中遍历提取构建待处理扩展区中的比对结果，针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基，并根据结果对所在read行进行校正，最终读取比对结果文件并根据校正生成输出文件。本发明综合indel区域的突变检测结果对indel区域的比对结果进行校正优化，能提高检出突变频率的准确性。

Description

基于短序列比对的Indel区域校正方法及系统

技术领域

本发明涉及生物基因的变异检测技术，具体涉及一种基于短序列比对的Indel区域校正方法及系统。

背景技术

在常规变异检测中，将二代测序数据（reads序列）比对回参考基因组，然后根据比对情况输出（包含匹配与差异信息），结果包括SNP（单核苷酸变异，如图1中a所示）、deletion（缺失，如图1中b所示）、insertion（插入，如图1中c所示）等。插入缺失标记indel即代指其中的insertion（插入）和deletion（缺失）。

现有的变异检测方法只考虑read序列与参考基因组的比对情况，单纯针对不同突变类型进行不同罚分，选择罚分最小的情况作为结果会导致一些错误比对，常常在read端头因为read序列信息不足而造成误判，例如read最后一个碱基与参考序列形成错配，但实际上这个错配可能是中间有一段deletion带来的。这样的错误在常规检测中或许影响不大，但是在一些诸如对突变频率准确性要求高、或者低频突变检测等领域，会严重影响其结果的准确性。

如图2所示，read1代表read端头没有跨过insertion或者deletion区域的比对情况，传统结论为match，因该情况几乎无法做出判断，导致做出错误判断；read2代表read跨过insertion或者deletion区域但是端头信息很少的比对情况，传统结论会做出错误判断；read3代表read跨过insertion或者deletion区域但是端头信息不足的比对情况，传统结论会做出错误判断；read4代表read跨过insertion或者deletion区域且端头信息足够做出正确判断的比对情况；read5代表read跨过insertion或者deletion区域且端头信息足够做出正确判断的比对情况。因此，如何提高Indel区域的检测结果准确度，已经成为一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于短序列比对的Indel区域校正方法及系统，本发明基于已有的国际公认比对软件bwa的比对结果，综合indel区域的突变检测结果，对indel区域的比对结果进行校正优化，提高检出突变频率的准确性。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于短序列比对的Indel区域校正方法，实施步骤包括：

1）读取比对结果文件，判断比对结果文件是否包含插入或缺失，如果没有则结束并退出；否则，记录所有indel区域的突变区域信息；

2）判断比对结果文件是否有待处理的indel区域，如果有则遍历选择一个indel区域作为当前indel区域，跳转执行步骤3）；否则，跳转执行步骤7）；

3）从当前indel区域的突变区域中找出突变的最小重复单元；

4）根据当前indel区域的突变区域及其最小重复单元迭代构建待处理扩展区；

5）根据待处理扩展区重构候选基因组序列；

6）在比对结果文件中遍历提取构建待处理扩展区中的比对结果，针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基，如果能够定位到定性碱基，则选择对应的候选基因组序列，根据选择的候选基因组序列重新计算当前indel区域所在read行的CIGAR信息和MD信息并记录以进行校正；否则，将当前indel区域的片段的突变修改为“Soft Clip”，并基于突变修改重新计算当前indel区域所在read行的CIGAR信息和MD信息以进行校正；跳转执行步骤2）；

7）读取比对结果文件，针对判断比对结果文件是否被校正，如果未被校正则直接输出到输出文件，否则针对比对结果文件中被校正的read行将记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息，并将修改后的比对结果文件输出到输出文件。

可选地，步骤1）的详细步骤包括：

1.1）读取比对结果文件并按read行输出到标准输出流；

1.2）以管道的形式遍历读取一个read行作为当前read行，如果读取成功则跳转执行步骤1.3），如果读取结束，则跳转执行步骤2）；

1.3）获取当前read行对应的CIGAR信息，判断该CIGAR信息中是否包含“I”或者“D”标记，如果包含“I”或者“D”标记则判定当前read行包含插入或缺失，记录当前read行所有indel区域的突变区域信息；跳转执行步骤1.2）。

可选地，步骤4）的详细步骤包括：

4.1）将当前indel区域的突变区域左右延伸第一预设长度个碱基得到扩展区域，提取参考基因组，判断最小重复单元的结束位置，如果重复单元在扩展区域内，则记录最小重复单元的结束位置，跳转执行步骤4.2）；如果重复单元不在扩展区域内，则跳转执行步骤4.1）进行迭代；

4.2）在扩展区域左右延伸第二预设长度，得到待处理扩展区。

可选地，步骤4.1）中第一预设长度为当前indel区域的长度的n倍。

可选地，所述n的值为2。

可选地，步骤4.2）中第二预设长度的长度为8个碱基。

可选地，步骤5）的详细步骤包括：根据待处理扩展区提取参考基因序列，根据待处理扩展区提取相关比对结果，根据当前indel区域所在read行的CIGAR信息和MD信息构建候选基因组序列，保存该候选基因组序列与突变信息。

可选地，步骤7）的详细步骤包括：

7.1）读取比对结果文件并按read行输出到标准输出流；

7.2）以管道的形式遍历读取一个read行作为当前read行，如果读取成功则跳转执行步骤7.3），如果读取结束，则结束并退出

7.3）判断当前read行是否被校正，如果未被校正则直接输出到输出文件，否则将当前read行记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息，并将修改后的比对结果文件输出到输出文件；跳转执行步骤7.2）。

本发明还提供一种基于短序列比对的Indel区域校正系统，包括计算机设备，所述计算机设备被编程以执行本发明前基于短序列比对的Indel区域校正方法的步骤；或者所述计算机设备的存储介质中存储有被编程以执行本发明前述基于短序列比对的Indel区域校正方法的计算机程序。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有被编程以执行本发明前述基于短序列比对的Indel区域校正方法的计算机程序。

和现有技术相比，本发明基于短序列比对的Indel区域校正方法及系统具有下述优点：本发明基于短序列比对的Indel区域校正综合indel区域的突变检测结果，对indel区域的比对结果进行校正优化，提高检出突变频率的准确性。

附图说明

图1为现有技术的基因变异的三种检测结果示意图。

图2为比对结果文件中的传统方法的基因变异检测结果。

图3为本发明实施例方法的基本流程示意图。

图4为本发明实施例方法步骤6）的流程示意图。

具体实施方式

如图3所示，本实施例基于短序列比对的Indel区域校正方法的实施步骤包括：

3）从当前indel区域的突变区域中找出突变的最小重复单元；

5）根据待处理扩展区重构候选基因组序列；

6）在比对结果文件中遍历提取构建待处理扩展区中的比对结果，针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基，如果能够定位到定性碱基，则选择对应的候选基因组序列，根据选择的候选基因组序列重新计算当前indel区域所在read行的CIGAR信息和MD信息并记录以进行校正；否则（read端头信息不足，无法定位到定性碱基），将当前indel区域的片段的突变修改为“SoftClip”，并基于突变修改重新计算当前indel区域所在read行的CIGAR信息和MD信息以进行校正，如图4所示；其中，定性碱基的定义如下：比如参考基因组序列（reference）为ACTAG，记录read为ATAG（缺失一个C），缺失之后的C和T就是定性碱基，比如记录read以AT结束就判断为缺失；以AC结束就判断为没缺失；跳转执行步骤2）；

本实施例中，步骤1）中比对结果文件具体为国际公认比对软件bwa的比对结果文件（bam文件），bam文件是一种通用的比对文件保存格式（按块压缩的），是一条条read的比对结果，包括read的id、碱基序列、测序质量值、比对的染色体、比对的位置、比对的情况（CIGAR、比对质量值、MD等）等信息。bam文件的读取方式采用共用工具samtools，命令“samtools view input.bam”会读取bam并按行输出到标准输出流，再以管道的形式读取。

CIGAR信息和MD信息记录有比对结果文件的每一个read行的比对信息，本实施例中校正优化直观体现为处理前后的CIGAR信息和MD信息内容有变化。CIGAR信息记录read和参考基因组序列（reference）的比对情况，格式由数字+字母循环组成。比如：45M3I52M4D50M，表示 45个碱基的匹配/不匹配检测结果（match/mismatch）+ 3个碱基的插入（insertion）+ 52个碱基的匹配/不匹配检测结果 + 4个碱基的缺失（deletion）+ 50个碱基的匹配/不匹配检测结果。

众所周知，CIGAR信息的相关字段定义如下：

M：Match/mismatch，即匹配/不匹配检测结果。

I：Insertion，即插入。

D：Deletion，即缺失。

S：Soft clip，即比对不到基因组但是存在于SEQ (segment SEQuence)中的序列。

H：Hard clip，即比对不到基因组并且不存在于SAM/BAM文件中的序列。

MD信息用于记录read与参考基因组序列（reference）的详细比对情况，格式由数字+操作符+字母组成。比如：40G4，表示 40个碱基的match + 1个碱基的mismatch（参考基因组序列是G） + 4个碱基的match。

本实施例中，步骤1）的详细步骤包括：

1.1）读取比对结果文件并按read行输出到标准输出流；

本实施例中，记录所有indel区域的突变区域信息包括：染色体、indel起始位置、indel结束位置、具体insertion/deletion突变信息（全流程中的记录、保存都是记录的当前运行内存中，不同的数据有不同的变量、数据结构）。

本实施例中，步骤3）用于从当前indel区域的突变区域中找出突变的最小重复单元。有些突变是串联重复单元，有些突变不是，所以需要找出最小重复单元，用来识别完整的区域（例如突变是CCCC，最小重复单元是C；突变是ACCT，自身即是最小重复单元；突变是ACGACGACG，ACG是最小重复单元）。

本实施例中，步骤4）的详细步骤包括：

本实施例中，步骤4.1）中第一预设长度为当前indel区域的长度的n倍。本实施例中，n的值为2，即左右延伸2倍突变长度个碱基得到扩展区域。

本实施例中，步骤4.2）中第二预设长度的长度为8个碱基。

本实施例中，步骤5）的详细步骤包括：根据待处理扩展区提取参考基因序列，根据待处理扩展区提取相关比对结果，根据当前indel区域所在read行的CIGAR信息和MD信息构建候选基因组序列，保存该候选基因组序列与突变信息。

本实施例中，步骤7）的详细步骤包括：

7.1）读取比对结果文件并按read行输出到标准输出流；

7.2）以管道的形式遍历读取一个read行作为当前read行，如果未读取成功则跳转执行步骤7.3），如果读取结束，则结束并退出

7.3）判断当前read行是否被校正，如果被校正则直接输出到输出文件，否则将当前read行记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息，并将修改后的比对结果文件输出到输出文件；跳转执行步骤7.2）。

本实施例还提供一种基于短序列比对的Indel区域校正系统，包括计算机设备，该计算机设备被编程以执行本实施例前基于短序列比对的Indel区域校正方法的步骤。

本实施例还提供一种基于短序列比对的Indel区域校正系统，包括带有存储介质的计算机设备，该存储介质中存储有被编程以执行本实施例前述基于短序列比对的Indel区域校正方法的计算机程序。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程以执行本实施例前述基于短序列比对的Indel区域校正方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于短序列比对的Indel区域校正方法，其特征在于实施步骤包括：

3）从当前indel区域的突变区域中找出突变的最小重复单元；

5）根据待处理扩展区重构候选基因组序列；

7）读取比对结果文件，针对判断比对结果文件是否被校正，如果未被校正则直接输出到输出文件，否则针对比对结果文件中被校正的read行将记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息，并将修改后的比对结果文件输出到输出文件；

步骤4）的详细步骤包括：

2.根据权利要求1所述的基于短序列比对的Indel区域校正方法，其特征在于，步骤1）的详细步骤包括：

1.1）读取比对结果文件并按read行输出到标准输出流；

3.根据权利要求1所述的基于短序列比对的Indel区域校正方法，其特征在于，步骤4.1）中第一预设长度为当前indel区域的长度的n倍。

4.根据权利要求3所述的基于短序列比对的Indel区域校正方法，其特征在于，所述n的值为2。

5.根据权利要求1所述的基于短序列比对的Indel区域校正方法，其特征在于，步骤4.2）中第二预设长度的长度为8个碱基。

6.根据权利要求1所述的基于短序列比对的Indel区域校正方法，其特征在于，步骤5）的详细步骤包括：根据待处理扩展区提取参考基因序列，根据待处理扩展区提取相关比对结果，根据当前indel区域所在read行的CIGAR信息和MD信息构建候选基因组序列，保存该候选基因组序列与突变信息。

7.根据权利要求1所述的基于短序列比对的Indel区域校正方法，其特征在于，步骤7）的详细步骤包括：

7.1）读取比对结果文件并按read行输出到标准输出流；

8.一种基于短序列比对的Indel区域校正系统，包括计算机设备，其特征在于：所述计算机设备被编程以执行权利要求1～7中任意一项所述基于短序列比对的Indel区域校正方法的步骤；或者所述计算机设备的存储介质中存储有被编程以执行权利要求1～7中任意一项所述基于短序列比对的Indel区域校正方法的计算机程序。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有被编程以执行权利要求1～7中任意一项所述基于短序列比对的Indel区域校正方法的计算机程序。