CN107451428A

CN107451428A - 下一代测序中末端短串联序列的优化处理方法

Info

Publication number: CN107451428A
Application number: CN201710650049.5A
Authority: CN
Inventors: 郑灏; 邓杏飞
Original assignee: Guangdong Guosheng Medical Technology Co Ltd
Current assignee: Guangdong Guosheng Medical Technology Co Ltd
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2017-12-08
Anticipated expiration: 2037-08-02
Also published as: CN107451428B

Abstract

本发明提供一种下一代测序中末端短串联序列的优化处理方法，属于基因测序技术领域，其包括机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对等步骤进行优化，利用先进的生物信息算法进行运算，可以有效地合并相同的下一代测序读序列，以减少变异检测的假阳性和假阴性。

Description

下一代测序中末端短串联序列的优化处理方法

技术领域

本发明属于基因测序技术领域，尤其涉及一种下一代测序中末端短串联序列的优化处理方法。

背景技术

近年来，基于下一代测序技术的基因组学技术及其在肿瘤检测中的应用备受关注。如果有效地分析测序结果进而检测出突变成为生物信息算法领域的一大研究方向。高敏感度和特异性的算法直接决定了下一代测序能否在临床上广泛的使用。下一代测序原始数据有很多的噪音信号，末端短串联序列是其中之一，其产生原因有很多种，比如PCR口吃（PCR Stutter）。有效地预处理末端短串联序列不仅可以增强序列比对质量，防止错误比对，同时可以进一步提高检测的敏感度和特异性。

发明内容

基于现有技术存在上述问题，本发明提供一种下一代测序中末端短串联序列的优化处理方法，其包括机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对等步骤进行优化，利用先进的生物信息算法进行运算，可以有效地合并相同的下一代测序读序列，以减少变异检测的假阳性和假阴性。

本发明通过以下技术方案达到目的：

下一代测序中末端短串联序列的优化处理方法，其包括以下步骤：机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对四个步骤；详细步骤如下：

步骤S10机器学习及辨别噪声序列：通过illumina nextseq 和 high seq序列测试集，训练神经网络，通过交叉验证，建立模型，利用模型通过BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分；

步骤S20同聚物处理：判断噪声序列中的同聚物是否处于测序高质量区，若处于高质量区，则对于A/T采取+2/-2的混沌序列比对方式，对于G/C采取+1/-1的混沌序列比对方式；若处于测序低质量区，则标记该区域，并进行序列裁剪；

步骤S30二核苷酸和三核苷酸处理：判断噪声序列中的二核苷酸和三核苷酸是否处于测序高质量区，若处于高质量区，则生成其紧缩核心形式；若处于测序低质量区，则标记该区域，并进行序列裁剪；

步骤S40序列比对，对降噪后的末端短串联序列进行序列比对，若多个读序列吻合，则予以合并，并记录其重复数用以后续的变异检测。

其中，所述的步骤S10，利用BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分后使用人工审查（IGV）来确认区分噪声序列与非噪声序列。

其中，步骤S30中的紧缩核心形式是核苷酸重复序列的最小重复单元。

其中，步骤S40中的比对算法采用BWA MEM算法进行比对。

本发明具有的有益效果：

1、对于PCR口吃效应或者测序错误产生的读（read）末端短序列进行优化，避免了PCR口吃效应或者测序错误产生的读（read）末端短序列产生的噪音序列对测序的影响。

2、有效地合并相同的下一代测序读序列，以减少变异检测的假阳性和假阴性，通过该优化算法，成功地消除了90%的由末端短串联序列造成的SNP和Indel的假阳性和假阴性。

具体实施方式

下面结合具体实施例对本发明作进一步的描述。

采用本发明提供的下一代测序中末端短串联序列的优化处理方法对EndStutter数据集进行优化，详细包括以下步骤：

步骤S10机器学习及辨别噪声序列：通过illumina nextseq 和 high seq序列测试集，训练神经网络，通过交叉验证，建立模型，利用模型通过BLAST比对方法对EndStutter数据集进行噪声末端短串联序列与非噪声末端短串联序列的区分，再使用人工审查（IGV）来确认区分噪声序列与非噪声序列；

步骤S30二核苷酸和三核苷酸处理：判断噪声序列中的二核苷酸和三核苷酸是否处于测序高质量区，若处于高质量区，则生成其紧缩核心形式，紧缩核心形式是核苷酸重复序列的最小重复单元；若处于测序低质量区，则标记该区域，并进行序列裁剪；

步骤S40序列比对，对降噪后的末端短串联序列采用BWA MEM算法进行序列比对，若多个读序列吻合，则予以合并，并记录其重复数用以后续的变异检测。

通过本发明提供的优化算法，成功地消除了90%的由末端短串联序列造成的SNP和Indel的假阳性和假阴性。

以上所述实施例仅表达了本发明的一种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.下一代测序中末端短串联序列的优化处理方法，其特征在于，其包括以下步骤：机器学习及辨别噪声序列、同聚物处理、二核苷酸和三核苷酸处理、序列比对四个步骤；详细步骤如下：

2.根据权利要求1所述的下一代测序中末端短串联序列的优化处理方法，其特征在于，所述的步骤S10，利用BLAST比对方法对目标序列数据进行噪声末端短串联序列与非噪声末端短串联序列的区分后使用人工审查（IGV）来确认区分噪声序列与非噪声序列。

3.根据权利要求1所述的下一代测序中末端短串联序列的优化处理方法，其特征在于，步骤S30中的紧缩核心形式是核苷酸重复序列的最小重复单元。

4.根据权利要求1所述的下一代测序中末端短串联序列的优化处理方法，其特征在于，步骤S40中的比对算法采用BWA MEM算法进行比对。