CN114155914B

CN114155914B - 基于宏基因组拼接错误的检测校正系统

Info

Publication number: CN114155914B
Application number: CN202111451194.3A
Authority: CN
Inventors: 赵兴明; 赖森莹
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2024-06-25
Anticipated expiration: 2041-12-01
Also published as: CN114155914A

Abstract

本发明公开了基于宏基因组拼接错误的检测校正系统，涉及基因组测序拼接技术领域，解决了由于高通量测序数据的通量高，序列短，噪声大的特点，这就导致基因组的组装结果通常会引入组装错误，而组装错误也给下游分析带来影响的问题，通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig，利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点；在预测到的组装错误所在具体位点处进行contig打断，从而进行校正，便能够检测出宏基因组组装的重叠群中的组装错误并进行校正，从而降低组装过程中引入的错误，提高组装结果的准确性。

Description

基于宏基因组拼接错误的检测校正系统

技术领域

本发明属于基因组测序拼接技术领域，具体是基于宏基因组拼接错误的检测校正系统。

背景技术

基于下一代测序的基因组测序拼接算法能够帮助了解环境样本中的微生物组成，由于高通量测序数据的通量高，序列短，噪声大的特点，以及宏基因组样本中通常包含数千物种的DNA片段，这就导致基因组的组装结果通常会引入组装错误，而组装错误也会给下游分析带来影响。

因此为了提高组装基因组的质量以及改善下游分析结果，故需要一种能够不基于参考基因组的宏基因组组装错误检测及校正系统，能够检测出宏基因组组装的重叠群中的组装错误并进行校正，从而降低组装过程中引入的错误，提高组装结果的准确性。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出基于宏基因组拼接错误的检测校正系统，该基于宏基因组拼接错误的检测校正系统解决了由于高通量测序数据的通量高，序列短，噪声大的特点，以及宏基因组样本中通常包含数千物种的DNA片段，这就导致基因组的组装结果通常会引入组装错误，而组装错误也会给下游分析带来影响的问题。

为实现上述目的，根据本发明的第一方面的实施例提出基于宏基因组拼接错误的检测校正系统，包括：

数据存储模块用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理，并生成比对结果bam文件；

特征提取模块用于对比对结果bam文件中提取并处理相关特征，其中样本特征主要包括四类：1、基于覆盖率的特征；2、基于双端短读段比对一致性的特征；3、基于k-mer一致性的特征；4、基于单碱基变异的特征；

数据预处理模块提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理，将整理后的数据输送至模型训练模块内；

模型训练模块根据整理好的数据集训练机器学习模型；

组装错误contig检测模块对存在组装错误的contig进行识别，其中contig存在于比对结果bam文件中；

组装错误位点识别模块，对拼接错误的contig上的组装错误位点进行识别；

组装错误校正模块对识别到的组装错误进行组装校正，生成contig特征矩阵。

优选的，模型训练模块内集训方式采用的是随机森林模型。

优选的，数据存储模块内部包括数据筛选单元和bwa比对单元；

数据存储模块对测序数据序列进行整理的步骤为：首先对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选，筛选出大于1000bp的contig文件用于后续的分析；将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对，bwa比对单元会生成比对结果，并且过滤掉低质量比对结果，最终得到比对结果bam文件。

优选的，特征提取模块对基于覆盖率的特征处理方式为：通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量，同时通过双端短读段映射后得到的覆盖率的变异度，生成contig对应的组装质量的标签。

优选的，特征提取模块对基于双端短读段比对一致性的特征的处理方式为：双端短读段映射到contig上后，基于双端短读段之间的距离远近，方向是否一致性，以及比对上的短读段是否能够或者仅部分能够比对上划分为不同类型的短读段，然后将这些不同类型短读段平均每个contig或者每个窗口的比例做为特征，生成短窗口水平的相关特征和contig水平的相关特征，通过短窗口水平的相关特征建立窗口特征矩阵。

优选的，特征提取模块对基于k-mer一致性的特征的处理方式为：衡量映射到contig上的短读段中的k-mer的丰度与对应的contig上的k-mer的丰度是否一致，计算KAD值，计算方式为：通过所计算的KAD值对特征进行提取。

优选的，特征提取模块对基于单碱基变异的特征的处理通过衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的是否一致，一致，则进行提取。

优选的，基于宏基因组拼接错误的检测校正系统，其检测校正步骤为：

S1、通过特征提取模块从比对结果bam文件中提取相关的特征；

S2、检测是否为训练模块；

S21、若是训练模块，则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型；

S22、若不是训练模块；

S221、若输入数据为宏基因组数据；

S2211、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig；

S2212、利用提取的短窗口水平的相关特征建立的窗口特征矩阵，通过组装错误位点识别模块进行识别得到组装错误所在的具体位点，并生成错误位点报告文件；

S2213、在预测到的组装错误所在具体位点处通过组装错误位点校正模块进行contig打断，从而进行校正，生成校正后的contig文件；

S222、若输入的数据不是宏基因组数据,那么则只执行S2212以及S22133步骤，而不需要执行S2211步骤；

S3、将校正后的contig文件以及错误位点报告文件进行输出。

与现有技术相比，本发明的有益效果是：通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig，利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点；在预测到的组装错误所在具体位点处进行contig打断，从而进行校正，便能够检测出宏基因组组装的重叠群中的组装错误并进行校正，从而降低组装过程中引入的错误，提高组装结果的准确性。

附图说明

图1为本发明的原理图；

图2为本发明的流程图

图3为本发明的几种不同类型的短读段示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，基于宏基因组拼接错误的检测校正系统，包括数据存储模块、数据预处理模块、模型训练模块、组织错误contig检测模块、组织错误位点识别模块以及组织错误校正模块和特征提取模块；

特征提取模块用于对比对结果bam文件中提取相关特征，其中样本特征主要包括四类：1、基于覆盖率的特征；2、基于双端短读段比对一致性的特征；3、基于k-mer一致性的特征；4、基于单碱基变异的特征；四类特征分别在contig水平和窗口水平上计算从而分别得到contig特征矩阵以及窗口特征矩阵。

模型训练模块根据整理好的数据集训练机器学习模型，其中整理好的数据为比对结果bam文件内部的数据，其集训方式采用的是随机森林模型；

组装错误校正模块对识别到的组装错误进行组装校正，生成contig特征矩阵；

数据存储模块内部包括数据筛选单元和bwa比对单元；

数据存储模块的具体操作步骤为：首先对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选，筛选出大于1000bp的contig文件用于后续的分析；将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对，bwa比对单元会生成比对结果，并且过滤掉低质量的比对结果，低质量比对结果为比对值低于10的比对结果，最终得到比对结果bam文件；

bwa比对单元主要用于将低差异度的短序列与参考基因组进行比对。

基于覆盖率的特征：通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量，主要计算短读段映射后得到的覆盖率的变异度，生成contig对应的组装质量的标签；

如图3所示，基于双端短读段比对一致性的特征：双端短读段映射到contig上后，基于双端短读段之间的距离远近，方向是否一致性，以及比对上的短读段是否能够仅部分能够比对上划分为不同类型的短读段，然后计算这些不同类型短读段平均每个contig或者每个窗口的比例做为特征，此类特征为短窗口水平的相关特征和contig水平的相关特征，通过短窗口水平的相关特征建立窗口特征矩阵；

基于k-mer一致性的特征：衡量映射到contig上的短读段中的k-mer的丰度与对应的contig上的k-mer的丰度的一致性，这里主要通过计算KAD(k-mer abundancedifference)值；

对于给定的某一个k-mer,c表示为映射到的某个contig中该类型k-mer的出现频率，n表示为映射到的某个contig上的双端短读段中该类型k-mer的丰度，m表示为该contig的平均测序深度。因此KAD计算方法如下：

通过所计算的KAD值对特征进行提取，其中提取限定值由操作人员自行设定；

基于单碱基变异的特征：主要衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的一致性。

样本特征矩阵为基于以上提取的四类特征建立样本特征矩阵，包括基于contig水平的特征矩阵，以及基于窗口的特征矩阵；

如图2所示，基于宏基因组拼接错误的检测校正系统，其检测校正步骤为：

S2、检测是否为训练模块；

S22、若不是训练模块；

S221、若输入数据为宏基因组数据；

S3、将校正后的contig文件以及错误位点报告文件进行输出。

得到contig特征矩阵后，即每一个contig都由特征向量表示，之后根据训练好的随机森林模型预测可能存在组装错误的contig，每一个contig都能得到相应的打分；

根据得到的窗口特征矩阵，即每一个100bp的窗口都由特征向量表示，此后则利用无监督的异常检测算法，即孤立森林算法检测出异常的位点，即可能存在组装错误的窗口，并利用read breakpoint的特征来最终定位拼接错误所在的碱基位置。

上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

本发明的工作原理：从bam文件中提取相关的特征，若实验选择训练模块，则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型，若实验选择预测模块，将考虑以下两种情况。若输入数据为宏基因组数据,则执行如下步骤：1、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig，2、利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点；3、在预测到的组装错误所在具体位点处进行contig打断，从而进行校正。而若输入的数据为单基因组数据(single),那么则只执行2、3步骤，而不需要执行1步骤。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于宏基因组拼接错误的检测校正系统，其特征在于，包括：

数据存储模块，用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理，并生成比对结果bam文件；

特征提取模块，用于对比对结果bam文件中提取并处理相关样本特征，其中样本特征包括基于覆盖率的特征、基于双端短读段比对一致性的特征、基于k-mer一致性的特征和基于单碱基变异的特征，得到满足条件的比对结果bam文件；

数据预处理模块，提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理，将整理后的数据输送至模型训练模块内；

模型训练模块，根据整理好的数据集训练机器学习模型，生成存在拼接错误的contig；

组装错误contig检测模块，对存在拼接错误的contig进行识别，其中contig存在于比对结果bam文件中；

组装错误校正模块，对识别到的组装错误进行组装校正，生成contig特征矩阵；

其检测校正步骤为：

S2、检测是否为训练数据；

S22、若不是训练数据；

S221、若输入数据为宏基因组数据；

S2212、利用提取的短窗口水平的特征建立的窗口特征矩阵，通过组装错误位点识别模块进行识别得到组装错误所在的具体位点，并生成错误位点报告文件；

S3、将校正后的contig文件以及错误位点报告文件进行输出。

2.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统，其特征在于，模型训练模块内所采用的机器学习模型为随机森林模型，其中整理好的数据为训练数据。

3.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统，其特征在于，数据存储模块内部包括数据筛选单元和bwa比对单元；

数据存储模块对测序数据序列进行整理的步骤为：

对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选，筛选出大于1000bp的contig文件用于后续的分析；

将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对，bwa比对单元生成比对结果，并且过滤掉低质量比对结果，低质量比对结果为比对值低于10的比对结果，最终得到比对结果bam文件。

4.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统，其特征在于，特征提取模块对基于覆盖率的特征处理方式为：通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量，同时通过双端短读段映射后得到的覆盖率的变异度，生成contig对应的组装质量的标签。

5.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统，其特征在于，特征提取模块对基于双端短读段比对一致性的特征的处理方式为：双端短读段映射到contig上后，基于双端短读段之间的距离远近，方向是否一致性，以及比对上的短读段是否能够或者仅部分能够比对上划分为不同类型的短读段，然后将这些不同类型短读段平均每个contig或者每个窗口的比例做为特征，生成短窗口水平的相关特征和contig水平的相关特征，通过短窗口水平的相关特征建立窗口特征矩阵。

6.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统，其特征在于，特征提取模块对基于k-mer一致性的特征的处理方式为：衡量映射到contig上的短读段中的k-mer的丰度与对应的contig上的k-mer的丰度是否一致，计算KAD值，计算方式为：通过所计算的KAD值对特征进行提取。

7.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统，其特征在于，特征提取模块对基于单碱基变异的特征的处理通过衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的是否一致，一致，则进行提取。