CN107330512B

CN107330512B - 预测蛋白质序列的远同源性关系的系统及方法

Info

Publication number: CN107330512B
Application number: CN201710458184.XA
Authority: CN
Inventors: 刘滨; 王晓龙
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2020-06-16
Anticipated expiration: 2037-06-16
Also published as: CN107330512A

Abstract

本发明公开一种预测蛋白质序列的远同源性关系的系统及方法，神经网络结构包括：依次连接的输入层、LSTM层、随时间分布的全连接层和输出层，输入层用于获取输入的原始的蛋白质序列，将原始的蛋白质序列转换为神经网络能够处理的输入矩阵；LSTM层用于捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征；随时间分布的全连接层对LSTM层中的不同memory cell的输出以不同的权重，汇总依赖关系信息；输出层根据随时间分布的全连接层在每个时间步上输出连接而成的向量，预测蛋白质序列的远同源性关系。本发明无需人工构建特征和生成序列谱，节省了大量时间，并提高了预测的准确性。

Description

预测蛋白质序列的远同源性关系的系统及方法

技术领域

本发明涉及蛋白质远同源性检测技术领域，尤其涉及一种预测蛋白质序列的远同源性关系的系统及方法。

背景技术

蛋白质远同源性检测是生物信息学领域中的一个热点问题。蛋白质的远同源性指的是蛋白质之间序列相似度较低，但结构和功能相似度较高。通过蛋白质远同源性检测，能够提高蛋白质结构预测的准确度。

在这个问题上，最早是序列匹配的方法；然后是基于判别式方法，基于传统机器学习的方法致力于人工提取特征的方式和核方法的改进。

其中，基于序列匹配的方法是最早也最广泛应用的方法。但在序列相似度较低的情况下，该方法不能解决蛋白质远同源性检测问题。

而在判别式方法中，使用传统机器学习模型的方法的性能，很大程度上依赖于其人工构建特征的质量。由于对蛋白质知识的局限，人工构建的特征往往忽略了一些信息，大多提取的蛋白质信息量不够，影响预测性能。例如，目前已知的特征构建方法中，只引入了蛋白质子序列间相对位置关系，而忽略了其在整条序列上的绝对位置。而且，虽然一些基于比对的核方法取得了优良的效果，但是它存在耗时较长的问题。

另外，其他基于深度学习的方法是由一个LSTM(Long-Short Term Memory，一种递归神经网络)层和一个输出层组成。它只利用了LSTM在最后一个时间步上产生的输出作为蛋白质的表示向量，输送到输出层分类。而蛋白质序列较长，只用最后一个输出无法很好的捕捉子序列间的长依赖关系。并且，这个蛋白质表示向量中蕴含的依赖关系信息无法寻找到对应的蛋白质子序列，从而难以分析。此外，它基于蛋白质序列谱来预测蛋白质远同源性，导致计算复杂度大大增加。

发明内容

本发明的主要目的在于提供一种预测蛋白质序列的远同源性关系的系统及方法，无需人工构建特征和生成序列谱，节省时间，并提高预测的准确性。

为了达到上述目的，本发明提出一种预测蛋白质序列的远同源性关系的系统，包括：依次连接的输入层、LSTM层、随时间分布的全连接层和输出层，其中：

所述输入层，用于获取输入的原始的蛋白质序列，将原始的蛋白质序列转换为神经网络能够处理的输入矩阵；

所述LSTM层，用于捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征，所述当前输入子序列的特征包含其上下文依赖关系；

所述随时间分布的全连接层，用于对所述LSTM层中的不同memory cell的输出以不同的权重，汇总依赖关系信息；

所述输出层，用于根据所述随时间分布的全连接层在每个时间步上的输出连接而成的向量，预测蛋白质序列的远同源性关系。

其中，所述LSTM层包括单向LSTM层和双向LSTM层。

其中，所述单向LSTM层用于将蛋白质序列从左到右进行处理，在某个时间步上的输出，包含了当前输入子序列和在其左边的子序列间的依赖关系。

其中，所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成，分别从蛋白质序列的前端和后端开始处理，其中，对于同一个输入蛋白质子序列，前向LSTM层的输出和后向LSTM层的输出被连接成一个向量，前向LSTM层用于捕捉该输入蛋白质子序列与在它左边的子序列之间的依赖关系，后向LSTM层用于捕捉该输入蛋白质子序列与在它右边的子序列之间的依赖关系。

其中，所述输出层预测蛋白质序列的远同源性关系包括：产生一个预测输入蛋白质属于某个超家族的概率。

本发明还提出一种预测蛋白质序列的远同源性关系的方法，包括以下步骤：

通过输入层获取输入的原始的蛋白质序列，将原始的蛋白质序列转换为神经网络能够处理的输入矩阵；

通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出可以看作当前输入子序列的特征，所述当前输入子序列的特征包含其上下文依赖关系；

通过随时间分布的全连接层对所述LSTM层中的不同memory cell的输出以不同的权重，汇总依赖关系信息；

通过输出层根据所述随时间分布的全连接层在每个时间步上的输出连接而成的向量，预测蛋白质序列的远同源性关系。

其中，所述LSTM层为单向LSTM层；所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征的步骤包括：将蛋白质序列从左到右进行处理，在某个时间步上的输出，包含了当前输入子序列和在其左边的子序列间的依赖关系。

其中，所述LSTM层为双向LSTM层，所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成；所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征的步骤包括：

前向LSTM层和后向LSTM层分别从蛋白质序列的前端和后端开始处理，其中，对于同一个输入蛋白质子序列，前向LSTM层的输出和后向LSTM层的输出被连接成一个向量，通过前向LSTM层捕捉该输入蛋白质子序列与在它左边的子序列之间的依赖关系，通过后向LSTM层捕捉该输入蛋白质子序列与在它右边的子序列之间的依赖关系。

本发明设计了一种预测蛋白质序列的远同源性关系的系统及方法，基于深度学习技术，提出一个四层神经网络结构来预测蛋白质序列的远同源性关系，该发明能自动从原始蛋白质序列中发掘其特征，并侦测蛋白质子序列间的依赖关系，汇总依赖信息，从而分类。因此，它无需人工构建特征和生成序列谱，节省了大量时间，并提高了预测的准确性。

与传统用LSTM做单分类的方式不同，本发明利用了LSTM在每个时间步上的输出作为当前输入蛋白质子序列的特征，包含了其上下文依赖关系，然后，使用一个随时间分布的全连接网络，来给LSTM中同一个memory block中不同memory cell的输出以不同的权重，从而达到汇总子序列间依赖关系的目的。在LSTM层，本发明采用了两种结构，一种使用单向LSTM，一种使用双向LSTM，使用双向LSTM更适合该网络结构，由此取得了更好的性能，适用于对预测精度要求较高的场景。

附图说明

图1和图2分别是本发明预测蛋白质序列的远同源性关系的两种神经网络结构示意图。

图3是本发明预测蛋白质序列的远同源性关系的方法的流程示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1和图2，图1和图2是本发明预测蛋白质序列的远同源性关系的两种神经网络结构示意图。图1是使用单向LSTM作为LSTM层的网络结构图，图2是使用双向LSTM作为LSTM层的网络结构图。

如图1和图2所示，本发明提出一种预测蛋白质序列的远同源性关系的系统，为一个四层神经网络，该系统包括：依次连接的输入层、LSTM层、随时间分布的全连接层和输出层，其中：

其中，在LSTM层，可以使用单向LSTM层和双向LSTM层两种，其网络结构分别由图1和图2所示。图1是使用单向LSTM作为LSTM层的网络结构图，图2是使用双向LSTM作为LSTM层的网络结构图。

本发明基于深度学习技术，提出一个四层神经网络结构来预测蛋白质序列的远同源性关系。该发明能自动从原始蛋白质序列中发掘其特征，并侦测蛋白质子序列间的依赖关系，汇总依赖信息，从而分类。因此，它无需人工构建特征和生成序列谱，节省了大量时间，并提高了预测的准确性。

以下详细阐述本发明四层神经网络结构的原理：

具体地，其中，输入层的作用为将原始的蛋白质序列转换为神经网络能够处理的输入矩阵。

LSTM是一种循环神经网络，它由memory block随时间展开而成。LSTM的结构中每个时刻的隐层包含了多个memory blocks(一般采用一个block)，每个block包含了多个memory cell(即对历史信息进行记录)，每个memory cell包含一个Cell和三个gate。

LSTM能够按照一个顺序处理蛋白质序列，蛋白质序列长度一般在几百以上，由此包含其子序列的绝对位置信息。LSTM中的关键部件memory cell通过输入门、遗忘门、输出门的互相作用能够达到根据当前输入子序列和之前的子序列之间的关系，来达到吸收信息，更新状态，和输出信息的功能。因此，LSTM层的功能为捕捉蛋白质子序列间的依赖关系。

本发明通过将LSTM在每个时间步上的输出与随时间分布的全连接网络相连，来更好的捕捉蛋白质子序列间的依赖关系。并且，LSTM在每个时间步上的输出可以看作为当前输入子序列的特征，包含了其上下文依赖关系。

图1是用单向LSTM作为LSTM层的网络结构图。单向LSTM将蛋白质序列从左到右进行处理。在某个时间步上的输出，包含了当前输入子序列和在其左边的子序列间的依赖关系。虽然它能更好的捕捉蛋白质间的依赖关系，但对于某个时间步上的子序列来说，它的输出只能包含它和它左边的子序列间的依赖关系，忽略了“未来”信息。

图2是用双向LSTM作为LSTM层的网络结构图。总的来说，双向LSTM由一个前向LSTM和一个后向LSTM组成，它们分别从蛋白质序列的前段和后端开始处理。对于同一个输入蛋白质子序列，前向LSTM的输出和后向LSTM的输出将会被连接成一个向量。所以，对于一个子序列来说，前向LSTM能够捕捉它与在它左边的子序列之间的依赖关系，后向LSTM能够捕捉它与在它右边的子序列之间的依赖关系。因此，由这两个输出连接起来的向量能更好捕捉当前子序列的上下文依赖关系，从而能够更好的表示当前子序列。

然后，在LSTM层后加入一个随时间分布的全连接网络层。随时间分布指的是该全连接网络与LSTM层的memory block同时随时间展开。在同一个memory block中的memorycell能够抽取不同程度的子序列间的依赖关系。所以，加入一个随时间分布的全连接网络层来给不同memory cell的输出以不同的权重，从而更好的汇总依赖关系信息。

输出层实际上是一个一层的全连接网络，它的激活函数是sigmoid，输入为随时间分布的全连接网络在每个时间步上的输出连接而成的向量。最终，在输出层产生一个预测输入蛋白质属于某个超家族的概率。

相比现有技术，本发明提出了一个四层神经网络结构用于蛋白质远同源性检测方案，它由输入层、LSTM层、随时间分布的全连接层和输出层组成。与传统用LSTM做单分类的方式不同，本发明利用了LSTM在每个时间步上的输出作为当前输入蛋白质子序列的特征，包含了其上下文依赖关系。然后，使用一个随时间分布的全连接网络，来给LSTM中同一个memory block中不同memory cell的输出以不同的权重，从而达到汇总子序列间依赖关系的目的。

在LSTM层，本发明采用了两种结构，一种使用单向LSTM，一种使用双向LSTM。使用双向LSTM更适合该网络结构，由此取得了更好的性能，适用于对预测精度要求较高的场景。但是由于单向LSTM训练模型所需时间更少，所以它适用于对效率要求较高，对精度要求较低的情况。

此外，本发明还提出一种预测蛋白质序列的远同源性关系的方法，包括以下步骤：

S1，通过输入层获取输入的原始的蛋白质序列，将原始的蛋白质序列转换为神经网络能够处理的输入矩阵；

S2，通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征，所述当前输入子序列的特征包含其上下文依赖关系；

S3，通过随时间分布的全连接层对所述LSTM层中的不同memory cell的输出以不同的权重，汇总依赖关系信息；

S4，通过输出层根据所述随时间分布的全连接层在每个时间步上的输出连接而成的向量，预测蛋白质序列的远同源性关系。

其中，所述LSTM层为单向LSTM层时，所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征的步骤包括：将蛋白质序列从左到右进行处理，在某个时间步上的输出，包含了当前输入子序列和在其左边的子序列间的依赖关系。

所述LSTM层为双向LSTM层时，所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成；所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征的步骤包括：

其中，输入层的作用为将原始的蛋白质序列转换为神经网络能够处理的输入矩阵。

在LSTM层后加入一个随时间分布的全连接网络层。随时间分布指的是该全连接网络与LSTM层的memory block同时随时间展开。在同一个memory block中的memory cell能够抽取不同程度的子序列间的依赖关系。所以，加入一个随时间分布的全连接网络层来给不同memory cell的输出以不同的权重，从而更好的汇总依赖关系信息。

相比现有技术，本发明设计了一种预测蛋白质序列的远同源性关系的系统及方法，基于深度学习技术，提出一个四层神经网络结构来预测蛋白质序列的远同源性关系，该发明能自动从原始蛋白质序列中发掘其特征，并侦测蛋白质子序列间的依赖关系，汇总依赖信息，从而分类。因此，它无需人工构建特征和生成序列谱，节省了大量时间，并提高了预测的准确性。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种预测蛋白质序列的远同源性关系的系统，其特征在于，包括：依次连接的输入层、LSTM层、随时间分布的全连接层和输出层，其中：

所述输出层，用于根据所述随时间分布的全连接层在每个时间步上输出连接而成的向量，预测蛋白质序列的远同源性关系。

2.根据权利要求1所述的预测蛋白质序列的远同源性关系的系统，其特征在于，所述LSTM层包括单向LSTM层或双向LSTM层。

3.根据权利要求2所述的预测蛋白质序列的远同源性关系的系统，其特征在于，所述单向LSTM层用于将蛋白质序列从左到右进行处理，在某个时间步上的输出，包含了当前输入子序列和在其左边的子序列间的依赖关系。

4.根据权利要求2所述的预测蛋白质序列的远同源性关系的系统，其特征在于，所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成，分别从蛋白质序列的前端和后端开始处理，其中，对于同一个输入蛋白质子序列，前向LSTM层的输出和后向LSTM层的输出被连接成一个向量，前向LSTM层用于捕捉该输入蛋白质子序列与在它左边的子序列之间的依赖关系，后向LSTM层用于捕捉该输入蛋白质子序列与在它右边的子序列之间的依赖关系。

5.根据权利要求1所述的预测蛋白质序列的远同源性关系的系统，其特征在于，所述输出层预测蛋白质序列的远同源性关系包括：产生一个预测输入蛋白质属于某个超家族的概率。

6.一种预测蛋白质序列的远同源性关系的方法，其特征在于，包括以下步骤：

通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征，所述当前输入子序列的特征包含其上下文依赖关系；

7.根据权利要求6所述的预测蛋白质序列的远同源性关系的方法，其特征在于，所述LSTM层为单向LSTM层；所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征的步骤包括：将蛋白质序列从左到右进行处理，在某个时间步上的输出，包含了当前输入子序列和在其左边的子序列间的依赖关系。

8.根据权利要求6所述的预测蛋白质序列的远同源性关系的方法，其特征在于，所述LSTM层为双向LSTM层，所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成；所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系，在每个时间步上输出当前输入子序列的特征的步骤包括：