CN112599195B

CN112599195B - 一种基因序列拼接方法及应用

Info

Publication number: CN112599195B
Application number: CN202011374449.6A
Authority: CN
Inventors: 周泳屹; 马迎飞; 郭顺; 范小朋
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-04-19
Anticipated expiration: 2040-11-30
Also published as: CN112599195A

Abstract

本申请属于生物信息技术领域，特别是涉及一种基因序列拼接方法及应用。大多数时候，不同纲目科属种的基因组具有不同的结构特征，科研人员的经验可能不足以准确判断某些基因片段的拼接模式。本申请提供一种基因序列拼接方法，所述方法包括如下步骤：步骤1：对生物信息序列进行特征提取，并将所述特征量化为数据；步骤2：采用所述数据对模型进行训练；步骤3：采用所述训练出的模型进行基因序列拼接。增加了可选计算资源。可以准确判断某些基因片段的拼接模式。

Description

一种基因序列拼接方法及应用

技术领域

本申请属于生物信息技术领域，特别是涉及一种基因序列拼接方法及应用。

背景技术

随着各种基因组测序计划的推进，二十一世纪以来，基因数据量几乎以指数级的速度不断增长，但是目前却存在着一些急需突破的技术问题。由于基因组的长度过大，现有的基因测序技术仍然无法一次性读出整条基因序列，因此现有主流方法是将基因序列复制多条，然后随机地切割为多片可以一次性读取的序列片段，再根据其首尾重叠信息，重新将它们拼接起来。

鉴于这类方法缺少对于基因信息的理解，在切割的基因片段存在冗余、污染或者缺失的情况下，可能会存在多种可能性和不确定性，不一定能够完全准确地将基因序列拼接出来。此时，则需要大量专业人员通过经验判断、实际实验来对结果进行进一步的完善和修正。但大多数时候，不同纲目科属种的基因组具有不同的结构特征，科研人员的经验储备可能不足以准确判断某些基因片段的拼接模式。

发明内容

1.要解决的技术问题

基于由于现有方法缺少对于基因信息的理解，只是基于基因片段的覆盖(overlap)进行判断，在切割的基因片段存在冗余和污染的情况下，可能会存在多种可能性和不确定性，不一定能够完全准确地将基因序列拼接出来。此时，则需要大量专业人员通过经验判断、实际实验来对结果进行进一步的完善和修正。但大多数时候，不同纲目科属种的基因组具有不同的结构特征，科研人员的经验可能不足以准确判断某些基因片段的拼接模式的问题，本申请提供了一种基因序列拼接方法及应用。

2.技术方案

为了达到上述的目的，本申请提供了一种基因序列拼接方法，所述方法包括如下步骤：步骤1：对生物信息序列进行特征提取，并将所述特征量化为数据；步骤2：采用所述数据对模型进行训练；步骤3：采用所述训练出的模型进行基因序列拼接。

本申请提供的另一种实施方式为：所述步骤1中采用基于人工标注的特征进行提取，所述步骤2中模型为seq2seq神经网络模型。

本申请提供的另一种实施方式为：所述seq2seq神经网络模型包括词嵌入层、编码器和解码器。

本申请提供的另一种实施方式为：所述词嵌入层将一对相邻序列上文编码后的特征转换为矩阵，所述矩阵输入至所述编码器进行编码后，传输至所述解码器进行解码。

本申请提供的另一种实施方式为：所述编码器由多个门控单元循环神经网络串连构成，并且是双向流动的，同时从两端输入数据进行编码；所述解码器采用若干多个门控单元循环神经网络连接，所述解码器包括注意力机制和教师强迫。

本申请提供的另一种实施方式为：所述步骤2中训练时的解码策略为每次预测一个特征，直到所述序列预测的中止条件；然后通过损失函数“预测序列与训练数据的下文序列”的差异来反向传播更新梯度。

本申请提供的另一种实施方式为：所述中止条件包括预测序列片段的长度已经达到了算法限定的序列片段长度；所述中止条件包括算法预测该序列片段已经达到了完整基因序列的末尾，此时会预测特征为“序列结束”信号。

本申请提供的另一种实施方式为：所述步骤3包括：测出实际基因序列片段，将所述基因序列片段转换为人工注释信息，将所述注释信息按照特定长度划分为序列片段，将所述序列片段的所有组合可能输入所述模型进行计算，得到序列片段拼接的代价表，根据所述代价表计算哈密尔顿路径得到所述模型的拼接结果。

本申请提供的另一种实施方式为：所述哈密尔顿路径为寻找出一条环形路径，使得每个节点都会经过且仅经过一次，同时该路径的“代价”最低。

本申请还提供一种基因序列拼接方法的应用，将所述的基因序列拼接方法应用于人工合成基因或者基因测序的拼接。

3.有益效果

与现有技术相比，本申请提供的一种基因序列拼接方法的有益效果在于：

本申请提供的基因序列拼接方法，引入自然语言处理领域的方法，使用深度学习进行基因序列的拼接，并且在拼接的时候引入对序列语义信息的解读。

本申请提供的基因序列拼接方法，对基因序列的处理引入了语义理解。

本申请提供的基因序列拼接方法，引入了GPU进行计算，此处指的是相对于传统方法只使用了CPU而言，基于深度学习的方法支持使用GPU进行矩阵计算，增加了可选计算资源。

附图说明

图1是本申请的基因序列拼接方法总体框架示意图；

图2是本申请的模型结构与训练过程示意图；

图3是本申请的拼接流程示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

目前对于基因序列拼接的方法主要有两大类：基于Hamiltonian路径的和基于Eulerian路径的拼接算法。

Phrap算法是基于Hamiltonian路径的代表算法。它是基于重叠部分(Overlap)计算的。该算法先将所有的片段建立为顶点，然后每一对存在重叠的片段连结为一条边，最后基于这个图构建出一条路径，使得每一个顶点恰好被经过一次。

Euler算法是基于Eulerian的代表算法。它会先将所有基因片段进行误差识别和纠正，之后构造De Brujin图，把每一个序列片段构造为一条边，重复的序列记作同一条，最后找出一条欧拉路径，使得所有的边恰好都经过一次。

上述两种方法都没有对基因组片段所蕴含的生物信息进行太多理解，只是从算法层面完成任务。

但是，自然语言处理领域，2013年，Google提出了词向量的方法可以对单词进行量化，将一个单词转化为一个N维的向量，然后通过神经网络训练，提取出不同词汇之间的关系，表征在这个N维向量中，进而体现出各种属性，例如性别、年龄、职业等信息，该方法被称为word2vec。

2015年，UCB的研究小组将word2vec的方法首次应用到了生物序列领域。现有的将蛋白质序列按照固定长度3划分为单词，之后量化为词向量，发现词向量表示出来了三肽的一些生物信息，比如电荷数、作用力、稳定结构等。最后，该组将这样的词向量方法应用于蛋白质家族分类，取得了比传统方法下SVM要好的效果。可见对生物序列的信息进行解读，能够在一定程度上提升对序列的处理效果。

通过我们在实践中的经验，本申请发现自然语言与基因序列存在很多相似的地方，而自然语言处理领域在深度学习的影响下取得了可喜的进步，已经产生了许多行之有效的方法。

在这样的背景下，我们尝试引入深度学习的方法，使用大量的训练数据尝试学习到基因序列中的语义和结构问题，使得基因序列可以进行端到端的拼接，为基因序列的拼接提供一个新的可行方案。

参见图1～3，本申请提供一种基因序列拼接方法，所述方法包括如下步骤：步骤1：对生物信息序列进行特征提取，并将所述特征量化为数据；步骤2：采用所述数据对模型进行训练；步骤3：采用所述训练出的模型进行基因序列拼接。

基因序列的特征提取方法会直接影响到序列信息的表达效果，而基因的特征提取方法本身就是一个很复杂的问题，本申请采用了基于注释信息的特征提取方法。比如在训练的时候，采用的是NCBI库中的基因数据，封装级别为complete。在对基因序列进行量化之后，便可将数据集里的对于每一组相邻序列用于训练，使得模型在判断输入的一对基因片段时，那些越符合实际的相邻序列组合能得到越高的分值。在该算法中引入了注意力机制(attention mechanism)来帮助模型更准确地学习到序列中的不同位置的相互关系，并使用了教师强迫(teacher forcing)让模型可以更快地收敛。

进一步地，所述步骤1中采用基于人工标注的特征进行提取，所述步骤2中模型为seq2seq神经网络模型。

进一步地，所述seq2seq神经网络模型包括词嵌入层、编码器和解码器。

进一步地，所述词嵌入层将一对相邻序列上文编码后的特征转换为矩阵，所述矩阵输入至所述编码器进行编码后，传输至所述解码器进行解码。

进一步地，所述编码器由多个门控单元循环神经网络串连构成，并且是双向流动的，同时从两端输入数据进行编码；所述解码器采用若干多个门控单元循环神经网络连接，所述解码器包括注意力机制和教师强迫。

进一步地，所述步骤2中训练时的解码策略为每次预测一个特征，直到所述序列预测的中止条件；然后通过损失函数“预测序列与训练数据的下文序列”的差异来反向传播更新梯度。

进一步地，所述中止条件包括预测序列片段的长度已经达到了算法限定的序列片段长度；所述中止条件包括算法预测该序列片段已经达到了完整基因序列的末尾，此时会预测特征为“序列结束”信号。

进一步地，所述步骤3包括：测出实际基因序列片段，将所述基因序列片段转换为人工注释信息，将所述注释信息按照特定长度划分为序列片段，将所述序列片段的所有组合可能输入所述模型进行计算，得到序列片段拼接的代价表，根据所述代价表计算哈密尔顿路径得到所述模型的拼接结果。

进一步地，所述哈密尔顿路径为寻找出一条环形路径，使得每个节点都会经过且仅经过一次，同时该路径的“代价”最低。

实施例

1.对于生物信息序列的特征工程方法

特征工程指的是对生物信息序列的特征提取，并且量化为计算机所能理解的数据(矩阵)。对文本信息进行特征工程是所有基于深度学习的算法都必须要做的一步。

从特征提取的策略看，本申请使用了基于人工标注的特征进行提取(即NCBI库的基因片段功能标注)的策略，以达到类似于提取字、词、成语的目的。

从数据采样的策略看，构建了如下策略：

1)粗粒度上，由于生物信息序列较长，某些情况下需要进一步分割为更小的片段。对于蛋白质序列，其长度在数量级上与自然语言差不多，所以一般不用额外分割，当然也可以根据特定场景分割为多肽；而对于基因序列而言，其长度为上百万的数量级，这种情况下所包含的信息过于庞大复杂，需要进一步划分为序列片段。可选思路有：按照人工标注的长度(几百到几千)、按照二代测序技术的长度、按照自然语言片段的长度(n-gram,几十到几百单词)进行切割。

2)细粒度上，生物信息序列的起始点是一个比较重要的读取信息，但是在不同的应用场景下，获取到的数据起始点可能是不一样的。这个时候，对数据的采样方式则会有一些讲究。假如使用固定间隔的特征采样方式，每次提取固定间隔，然后直接跳到下一个间隔，在数据量足够大的时候可能可以覆盖到大部分情况，但是数据量小的时候可能表现较差；假如使用滑动窗口的特征采样方式，每次将起始点向后偏移一个单位或几个单位，那么所采样到的数据将可以覆盖到更多情况，不过也可能引入很多冗余信息。实际中，在开发新的算法模型阶段，对于大数据集使用固定间隔采样的策略，以加快版本迭代的速度；对于小数据集，使用滑动窗口采样以取得良好训练效果。而在训练实际落地模型的时候，统一使用滑动窗口策略以提高模型覆盖能力。

2.基于深度学习的测序和合成基因方法。

在对基因序列进行特征工程处理之后，便可将数据集里的对于每一组相邻序列用于训练，使得模型在判断输入的一对基因片段时，那些越符合实际的相邻序列组合能得到越高的分值。

在该算法中，引入了注意力机制(attention mechanism)来帮助模型更准确地学习到序列中的不同位置的相互关系，并使用了教师强迫(teacher forcing)让模型可以更快地收敛。

下面对整个训练流程进行描述。

首先是seq2seq神经网络模型，该模型的结构为词嵌入层+编码器+解码器。

词嵌入(embedding)层将一对相邻序列的上文编码后的特征转换为矩阵，输入到编码器。

编码器由多个GRU循环神经网络串连构成，并且是双向流动的，同时从两端输入数据进行编码。这么做是为了解决当输入的特征序列过长的时候，存在耦合关系的某些特征之间间隔过长，导致模型无法学习到对应的关联性的问题。

所有的特征输入到编码器进行编码之后，会传输到解码器进行解码。解码器同样使用了多个GRU网络双向连接。此外，为了更有效地捕捉一对相邻序列中，各个局部位置的强关联性(比如中英翻译的seq2seq模型中，主语与主语在两个语言里是强关联性的)，这里引入了注意力机制。

训练时的解码策略是每次预测出一个特征，直到该次序列预测的中止条件。中止条件有两种，一种是预测序列片段的长度已经达到了算法限定的序列片段长度；第二种是算法预测该序列片段已经达到了完整基因序列的末尾，此时会预测特征为“序列结束”信号。之后通过损失函数“预测序列与训练数据的下文序列”的差异来反向传播更新梯度。

此处H(p，q)为损失函数中常用的交叉熵函数。其中p和q分别为变量的实际概率分布和预测概率分布。这里由于我们最终使用的数据是离散的one-hot编码，即每个特征所转化为的向量中有且只有一个元素为1，所以只需要计算每个位置真实的那个特征和预测值是否一致即可。

当训练完毕之后，即可开始使用模型进行序列片段的拼接。

首先将测序得到的片段转化为标注信息，然后按照n个单词为一个句子的策略分割为多个序列片段。n的取值可以参照上述特征工程中的思想。在本发明的实际实验中，发现选取n为20到100能够取得较好的效果。

接着将所有片段两两组合为Ai Bi，输入到模型，计算出Ai Bi为相邻序列的概率。之后对所有概率取对数转化为“代价”，概率越大则代价越小，最终得到一张“代价表”。

使用哈密尔顿路径问题的求解方法，寻找出一条环形路径，使得每个节点都会经过且仅经过一次，同时该路径的“代价”最低。

最终该路径即为模型的拼接结果。

本申请提供的基因序列拼接方法可以准确判断某些基因片段的拼接模式。

已在变形菌的各个“属”这一生物分类层级上进行过模拟验证。

验证思路为，将NCBI数据库中的完整序列按照n个注释信息为一个序列片段的方式进行切割，并且每次切割后，以当前切割位点随机向前或向后偏移一些单词来模拟真实数据中可能存在的序列片段重叠或者缺失。

之后将模拟数据输入到算法模型进行拼接，完成之后检验效果。

检验的指标有两个，一个是单对上下文(相邻序列片段)的准确率，比如对于原始序列A->B，则预测结果为A->B则准确，B->A则错误。实验结果显示相邻序列准确率为80％到99％。

另一个是完整基因序列中所有位点的准确率，比如说对于序列A->B->C，如果拼接结果为A->B->C，则准确率为2/2＝100％，若拼接结果为A->C->B，则准确率为0/2＝0％。实验结果显示全位点的准确率为60％到90％。

本申请是“基于语义信息对基因序列片段进行拼接”，所以应用场景不限于基因测序的拼接，同样可以使用到人工合成基因等基于“基因序列拼接”的用途上面来。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种基因序列拼接方法，其特征在于：所述方法包括如下步骤：

步骤1：对生物信息序列进行特征提取，并将所述特征量化为数据；

步骤2：采用所述数据对模型进行训练；

步骤3：采用所述训练出的模型进行基因序列拼接；所述步骤3包括：测出实际基因序列片段，将所述基因序列片段转换为人工注释信息，将所述注释信息按照特定长度划分为序列片段，将所述序列片段的所有组合可能输入所述模型进行计算，得到序列片段拼接的代价表，根据所述代价表计算哈密尔顿路径得到所述模型的拼接结果；首先将测序得到的片段转化为标注信息，然后按照n个单词为一个句子的策略分割为多个序列片段，接着将所有片段两两组合为Ai Bi，输入到模型，计算出Ai Bi为相邻序列的概率，之后对所有概率取对数转化为“代价”，概率越大则代价越小，最终得到一张“代价表”；所述哈密尔顿路径为寻找出一条环形路径，使得每个节点都会经过且仅经过一次，同时所述路径的“代价”最低。

2.如权利要求1所述的基因序列拼接方法，其特征在于：所述步骤1中采用基于人工标注的特征进行提取，所述步骤2中模型为seq2seq神经网络模型。

3.如权利要求2所述的基因序列拼接方法，其特征在于：所述seq2seq神经网络模型包括词嵌入层、编码器和解码器。

4.如权利要求3所述的基因序列拼接方法，其特征在于：所述词嵌入层将一对相邻序列上文编码后的特征转换为矩阵，所述矩阵输入至所述编码器进行编码后，传输至所述解码器进行解码。

5.如权利要求3所述的基因序列拼接方法，其特征在于：所述编码器由多个门控单元循环神经网络串连构成，并且是双向流动的，同时从两端输入数据进行编码；所述解码器采用若干多个门控单元循环神经网络连接，所述解码器包括注意力机制和教师强迫。

6.如权利要求3所述的基因序列拼接方法，其特征在于：所述步骤2中训练时的解码策略为每次预测一个特征，直到所述序列预测的中止条件；然后通过损失函数“预测序列与训练数据的下文序列”的差异来反向传播更新梯度。

7.如权利要求6所述的基因序列拼接方法，其特征在于：所述中止条件包括预测序列片段的长度已经达到了算法限定的序列片段长度；所述中止条件包括算法预测该序列片段已经达到了完整基因序列的末尾，此时会预测特征为“序列结束”信号。

8.如权利要求1～7中任一项所述的基因序列拼接方法，其特征在于：将所述的基因序列拼接方法应用于人工合成基因或者基因测序的拼接。