CN115881211B

CN115881211B - 蛋白质序列比对方法、装置、计算机设备以及存储介质

Info

Publication number: CN115881211B
Application number: CN202111587513.3A
Authority: CN
Inventors: 孙思琦; 李煜; 洪亮
Original assignee: Shanghai Zhiyu Biotechnology Co ltd
Current assignee: Shanghai Zhiyu Biotechnology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2024-02-20
Anticipated expiration: 2041-12-23
Also published as: WO2023116816A1; CN115881211A

Abstract

本申请提供一种蛋白质序列比对方法、装置、计算机设备以及存储介质，该方法通过蛋白序列编码模型对待查询的目标蛋白序列进行编码，得到目标蛋白编码，进而获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列，最后，根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。通过将蛋白序列映射至低维度空间中以获取对应的蛋白编码，进而通过蛋白编码序列对蛋白质序列库进行蛋白序列初筛，实现在进行蛋白序列比对之前过滤不相关的蛋白序列，以缩减蛋白序列比对的数据量，有效降低蛋白序列比对的耗时，提高同源蛋白序列搜索的效率。

Description

蛋白质序列比对方法、装置、计算机设备以及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种蛋白质序列比对方法、装置、计算机设备以及存储介质。

背景技术

蛋白质对人类生物学起着核心作用，随着蛋白质数据的增长，预测蛋白质结构及其功能成为一项重要任务。从大型的蛋白质序列库中进行序列比可以有效地挖掘某个蛋白序列的同源蛋白序列、并辅助该蛋白序列的蛋白质结构和功能的预测，但是蛋白质序列库中蛋白序列的数据量巨大，从蛋白质序列库中搜索召回同源蛋白序列的耗时长、效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种蛋白质序列比对方法、装置、计算机设备以及存储介质，用以提高搜索召回同源蛋白序列的速度，较少耗时。

第一方面，本申请提供一种蛋白质序列比对方法，该方法包括：

获取待查询的目标蛋白序列；

通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码；

获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列；

根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。

在本申请一些实施例中，蛋白质序列库中包括多个已知蛋白序列以及与已知蛋白序列关联的已知蛋白编码；

获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列，包括：

获取目标蛋白编码与各已知蛋白编码的编码相似度；

从多个已知蛋白编码中，获取与目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码确定为候选蛋白编码。

在本申请一些实施例中，获取目标蛋白编码与各已知蛋白编码的编码相似度，包括：

依次将蛋白质序列库中的已知蛋白编码作为第一蛋白编码，计算目标蛋白编码与第一蛋白编码的点积值；

将点积值确定为目标蛋白编码与第一蛋白编码的编码相似度。

在本申请一些实施例中，获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码之前，还包括：

获取新增的蛋白序列；

通过蛋白序列编码模型，对新增的蛋白序列进行编码，得到新增的蛋白序列关联的第二蛋白编码；

将新增的蛋白序列以及第二蛋白编码保存至蛋白质序列库中。

在本申请一些实施例中，通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码之前，还包括：

获取训练样本，训练样本包括样本蛋白序列对以及样本蛋白序列对的相似度标签，样本蛋白序列对包括第一样本蛋白序列以及第二样本蛋白序列；

基于预先构建的序列编码模型，对样本蛋白序列对进行编码，得到第一样本蛋白序列对应的第一样本蛋白编码以及第二样本蛋白序列对应的第二样本蛋白编码；

根据第一样本蛋白编码以及第二样本蛋白编码获取预测相似度；

根据预测相似度与相似度标签，对预先构建的序列编码模型的模型参数进行调整，得到蛋白序列编码模型。

在本申请一些实施例中，根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列，包括：

获取目标蛋白序列与各候选蛋白序列的相似序列片段；

基于各候选蛋白序列中的相似序列片段，筛选相似得分大于预设得分阈值的延伸相似片段；

根据目标蛋白序列与各候选蛋白序列的延伸相似片段，从候选蛋白序列中确定目标蛋白序列的同源蛋白序列。

在本申请一些实施例中，根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列之后，还包括：

基于同源蛋白序列的蛋白质三维结构，预测目标蛋白序列的三维结构；和/或

基于同源蛋白序列的蛋白质功能，预测目标蛋白序列的蛋白质功能。

第二方面，本申请提供一种蛋白质序列比对装置，该装置包括：

查询序列获取模块，用于获取待查询的目标蛋白序列；

蛋白序列编码模块，用于通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码；

蛋白序列召回模块，用于获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列；

蛋白序列比对模块，用于根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。

第三方面，本申请还提供一种计算机设备，该计算机设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现所述的蛋白质序列比对方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的蛋白质序列比对方法中的步骤。

第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

上述蛋白质序列比对方法、装置、计算机设备以及存储介质，在获取待查询的目标蛋白序列后，通过蛋白序列编码模型对所述目标蛋白序列进行编码，得到目标蛋白编码，进而获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码，以及所述候选蛋白编码关联的候选蛋白序列，最后，根据所述目标蛋白序列与所述候选蛋白序列的比对结果，确定所述目标蛋白序列的同源蛋白序列。通过将蛋白序列映射至低维度空间中以获取对应的蛋白编码，进而通过蛋白编码序列对蛋白质序列库进行蛋白序列初筛，实现在进行蛋白序列比对之前过滤不相关的蛋白序列，以缩减蛋白序列比对的数据量，有效降低蛋白序列比对的耗时，提高同源蛋白序列搜索的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中蛋白质序列比对方法的场景示意图；

图2是本申请实施例中蛋白质序列比对方法的流程示意图；

图3是本申请实施例中候选蛋白编码获取步骤的流程示意图；

图4是本申请实施例中蛋白质序列数据库构建步骤的流程示意图；

图5是本申请实施例中蛋白序列编码模型的训练步骤的流程示意图；

图6是本申请实施例中另一个蛋白质序列比对方法的流程示意图；

图7是本申请实施例中同源蛋白序列搜索耗时的示意图；

图8是本申请实施例中同源蛋白序列召回率的示意图；

图9是本申请实施例中蛋白质序列比对装置的结构示意图；

图10是本申请实施例中计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本申请实施例提供的蛋白质序列比对方法，可以应用于如图1所示的应用环境中。其中，终端100通过网络与服务器200通过网络进行通信。用户可以基于终端100输入待查询的目标蛋白序列，终端200接收到用户输入后，向服务器200发送序列比对请求，序列比对请求携带有目标蛋白序列。服务器200在接收到序列比对请求之后，通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码，进而获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列；最后，根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。其中，终端100可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器200可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的计算机设备，例如图1中仅示出1个服务器200，可以理解的，该蛋白质序列比对系统还可以包括一个或多个其他服务器，具体此处不作限定。另外，如图1所示，该蛋白质序列比对系统还可以包括存储器，用于存储数据，如存储蛋白质序列库或蛋白序列编码模型的模型参数等。

还需说明的是，图1所示蛋白质序列比对系统的场景示意图仅仅是一个示例，本发明实施例描述的蛋白质序列比对系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着蛋白质序列比对系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种蛋白质序列比对方法，主要以该方法应用于上述图1中的服务器200来举例说明，该方法包括步骤S210至S240，具体如下：

S210，获取待查询的目标蛋白序列。

其中，待查询的目标蛋白序列是指需要识别的蛋白序列，可以理解的是，蛋白序列是指核酸序列或者蛋白质一级结构上的序列。

S220，通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码。

其中，这里的蛋白序列编码模型是经过训练的网络模型，用于对所输入的蛋白序列进行编码，输出与该蛋白序列对应的蛋白编码，实现将高维度的蛋白序列映射到地低维度空间中。具体地，蛋白序列编码模型可以是基于Transformer构建的蛋白序列编码模型。

其中，目标蛋白编码是具有一定维度空间的向量，也可以是具有一定维度空间的矩阵；目标蛋白编码可反映目标蛋白序列的序列特征。可以理解的是，通过蛋白序列编码模型获得的蛋白编码的维度空间可以是一致的，也可以是不一致的(即蛋白序列编码模型的编码结果是不定长的)。

具体地，可以将目标蛋白序列输入至蛋白序列编码模型，蛋白序列编码模型将原始输入的目标蛋白序列进行编码压缩，提取维度更低的语义特征，输出该目标蛋白序列对应的目标蛋白编码。需要说明的是，在本实施例中涉及的对目标蛋白序列进行编码之前，应该存在有关蛋白序列编码模型的预训练，即准备样本蛋白序列对，以及标注样本蛋白序列对的相似度标签，相似度标签标注完成之后输入至蛋白序列编码模型进行学习训练，即可在实际应用时通过已训练的蛋白序列编码模型对任意蛋白序列进行编码。具体的模型训练实施步骤将在下文详细描述。

S230，获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列。

其中，预设蛋白质序列库包括多个已知的蛋白序列以及该蛋白序列关联的蛋白编码。具体地，对于蛋白质序列库中已知的蛋白序列，可以通过蛋白序列编码模型获取与该蛋白序列对应的蛋白编码。

更具体地，在一个实施例中，蛋白质序列库中已知的蛋白序列所关联的蛋白编码与目标蛋白编码的维度相同。

其中，在获取到目标蛋白编码后，可以根据目标蛋白编码从蛋白质序列库中已知的蛋白编码中获取候选蛋白编码，进而根据候选编码向量确定候选蛋白序列，该候选蛋白序列是与目标蛋白序列具有一定相似度的蛋白序列。

具体地，如图3所示，在一个实施例中，蛋白质序列库中包括多个已知蛋白序列以及与已知蛋白序列关联的已知蛋白编码；步骤S230包括：

S310，获取目标蛋白编码与各已知蛋白编码的编码相似度；

S320，从多个已知蛋白编码中，获取与目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码确定为候选蛋白编码。

其中，已知蛋白序列是指蛋白质序列库存储的、已知蛋白质结构以及蛋白质功能的蛋白序列。

其中，目标蛋白编码与已知蛋白编码间的编码相似度，可反映目标蛋白序列与已知蛋白序列间的相似程度。可以理解的是，编码相似度越大，则目标蛋白序列与已知蛋白序列的相似度越大；编码相似度越小，则目标蛋白序列与已知蛋白序列的相似度越小。

具体地，对于任意已知蛋白编码，服务器获取目标蛋白编码与该已知蛋白编码的编码相似度，具体可以是获取目标蛋白编码与该已知蛋白编码间的距离(例如向量距离或矩阵距离)，进而根据向量距离确定目标蛋白编码与该已知蛋白编码的编码相似度；也可以通过用于识别编码相似度的神经网络模型获取目标蛋白编码与该已知蛋白编码的编码相似度。

进一步地，若蛋白质序列库中已知的蛋白序列所关联的蛋白编码与目标蛋白编码为不定长的编码向量或编码矩阵，还可以将蛋白编码转化为转化为频谱，通过频谱比较目标蛋白编码与该已知蛋白编码间相似度。

进一步地，若蛋白质序列库中已知的蛋白序列所关联的蛋白编码与目标蛋白编码均为维度相同的编码向量，在同维度向量空间中的两个向量，比较其是否相似可以通过比较两者的方向是否相同，两个向量间的夹角为0(即两个向量方向重合)时，两个向量最相似。因此，在一个实施例中，步骤S310，获取目标蛋白编码与各已知蛋白编码的编码相似度，包括：依次将蛋白质序列库中的已知蛋白编码作为第一蛋白编码，计算目标蛋白编码与第一蛋白编码的点积值；将点积值确定为目标蛋白编码与第一蛋白编码的编码相似度。

其中，服务器可获取目标蛋白编码与已知蛋白编码间点积值，通过点积值衡量目标蛋白编码与该已知蛋白编码间方向的夹角，即目标蛋白编码与该已知蛋白编码间的相似度。可以理解的是，点积值越大，目标蛋白编码与已知蛋白编码越相似，即目标蛋白序列与已知蛋白序列越相似，点积值越小，目标蛋白编码与已知蛋白编码越不相似，即目标蛋白序列与已知蛋白序列越不相似。

在确定到目标蛋白编码与各个已知蛋白编码的编码相似度后，可以根据与目标蛋白编码间的编码相似度，对已知蛋白编码按照从大到小进行排序，进而召回排序在前预设数量的已知蛋白编码作为候选蛋白编码。其中，预设数量可以根据实际情况进行设置，例如可以设置为20万，服务器获取排序参数在前20万的已知蛋白编码作为候选蛋白编码，也可以设置为100万，服务器获取排序参数在前100万的已知蛋白编码作为候选蛋白编码。基于与目标蛋白编码相似度较高的候选蛋白编码，服务器从蛋白质序列库中召回了部分与目标蛋白序列相似度较高的候选蛋白序列，实现缩减后续序列比对的数据量。

S240，根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。

其中，基于与目标蛋白编码相似度较高的候选蛋白编码，服务器从蛋白质序列库中召回了部分与目标蛋白序列相似度较高的候选蛋白序列，对目标蛋白序列以及候选蛋白序列进行序列比对，进而根据序列比对结果，从候选蛋白序列中确定同源蛋白序列。

具体地，对目标蛋白序列以及候选蛋白序列进行序列比对，具体可以是通过序列比对算法(例如，Smith-Waterman算法)、多序列比对(Multiple Sequence Alignment,MSA)算法等算法实现，在此不进行限定。

进一步地，在一个实施例中，步骤S240包括：获取目标蛋白序列与各候选蛋白序列的相似序列片段；基于各候选蛋白序列中的相似序列片段，筛选相似得分大于预设得分阈值的延伸相似片段；根据目标蛋白序列与各候选蛋白序列的延伸相似片段，从候选蛋白序列中确定目标蛋白序列的同源蛋白序列。

具体地，对于任意一个候选蛋白序列，对该候选蛋白序列与目标蛋白序列进行分析，以获取该候选蛋白序列与目标蛋白序列的匹配的序列片段，得到相似序列片段。进而，在目标蛋白序列以及候选蛋白序列的相似序列片段的基础上进行序列片段延伸，并通过打分矩阵对延伸后的两个序列片段进行打分，得到相似得分，直至延伸后的两个序列片段间的相似得分低于预设得分阈值，可获取到相似得分高于预设得分阈值且最长的序列片段，即延伸相似片段。在获取到目标蛋白序列与各个候选蛋白序列的延伸相似片段后，从候选蛋白序列中确定目标蛋白序列的同源蛋白序列，极大的减小了时空复杂度，提高了算法运行的时间。

在一个实施例中，步骤S240之后，还可以基于同源蛋白序列的蛋白质三维结构，预测目标蛋白序列的三维结构。基于生物学中序列决定结构的规律，在确定到与目标蛋白序列的同源蛋白序列后，可以根据同源蛋白序列的蛋白结构，预测目标蛋白序列的蛋白结构。

同样的，在一个实施例中，步骤S240之后，还可以基于同源蛋白序列的蛋白质功能，预测目标蛋白序列的蛋白质功能。基于生物学中序列决定结构、结构决定功能的规律，在确定到与目标蛋白序列的同源蛋白序列后，可以根据同源蛋白序列的蛋白质结构以及蛋白质功能，预测目标蛋白序列的蛋白质功能。

上述蛋白质序列比对方法，在获取待查询的目标蛋白序列后，通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码，进而获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列，最后，根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。通过将蛋白序列映射至低维度空间中以获取对应的蛋白编码，进而通过蛋白编码序列对蛋白质序列库进行蛋白序列初筛，实现在进行蛋白序列比对之前过滤不相关的蛋白序列，以缩减蛋白序列比对的数据量，有效降低蛋白序列比对的耗时，提高同源蛋白序列搜索的效率。

在一个实施例中，如图4所示，获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码之前，还包括：

S410，获取新增的蛋白序列；

S420，通过蛋白序列编码模型，对新增的蛋白序列进行编码，得到新增的蛋白序列关联的第二蛋白编码；

S430，将新增的蛋白序列以及第二蛋白编码保存至蛋白质序列库中。

其中，在蛋白质序列数据库有数据更新时，可通过蛋白序列编码模型对新增的蛋白序列进行编码，以获取与新增的蛋白序列关联的第二蛋白编码，进而将新增的蛋白序列以及第二蛋白编码保存至蛋白质序列库。通过将蛋白序列编码为对应的蛋白编码，并保存至蛋白质序列库中，以便后续获取到待查询的目标蛋白序列时，可以基于目标蛋白序列的目标蛋白编码与蛋白质序列库中的蛋白编码进行相似度比对，快速筛选与目标蛋白编码序列匹配的蛋白编码(即候选蛋白编码)，实现快速检索、召回与目标蛋白序列相似的已知蛋白序列，有效减少后续蛋白序列比对的数据量，缩减蛋白序列比对的耗时。

在一个实施例中，如图5所示，通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码之前，还包括：

S510，获取训练样本，训练样本包括样本蛋白序列对以及样本蛋白序列对的相似度标签，样本蛋白序列对包括第一样本蛋白序列以及第二样本蛋白序列。

其中，训练样本是用于训练序列编码模型的数据，包括样本蛋白序列对以及样本蛋白序列对的相似度标签。其中，相似度标签用于标识训练样本中的样本蛋白序列对的相似性，具体可以设置为“0”和“1”；当训练样本中的样本蛋白序列对为不相似序列，则对应的相似度标签设置为“0”，当训练样本中的样本蛋白序列对为相似序列，则对应的相似度标签设置为“1”。

具体地，训练样本包括正样本以及负样本；以蛋白序列A为例，对于正样本(即样本蛋白序列对为相似序列)的获取，可搜索与蛋白序列A具有相似序列片段的蛋白序列，进而将蛋白序列A作为第一样本蛋白序列，将搜索得到的蛋白序列作为第二样本蛋白序列，对第一样本蛋白序列以及第二样本蛋白序列进行组合，生成正样本对应的训练样本；对于负样本(即样本蛋白序列对不相关的训练样本)的获取，可以将蛋白序列A作为第一样本蛋白序列，将除上述搜索得到的蛋白序列以外的任意一条蛋白序列作为第二样本蛋白序列，对第一样本蛋白序列以及第二样本蛋白序列进行组合进行组合，即生成负样本对应的训练样本。

S520，基于预先构建的序列编码模型，对样本蛋白序列对进行编码，得到第一样本蛋白序列对应的第一样本蛋白编码以及第二样本蛋白序列对应的第二样本蛋白编码。

其中，预先构建的序列编码模型可以是未经预训练的神经网络模型，也可以是经过预训练的神经网络模型，即序列编码模型具备一定初始化参数。

具体地，若预先构建的序列编码模型为经过预训练的神经网络模型，可以使用ESM-1b模型的参数，对该预先构建的序列编码模型的模型参数进行初始化的，此处ESM-1b模型已经用数十亿蛋白序列进行了预训练，在后续预先构建的序列编码模型的训练过程中可省略部分模型训练流程，节省模型训练时间。

S530，根据第一样本蛋白编码以及第二样本蛋白编码获取预测相似度。

S540，根据预测相似度与相似度标签，对预先构建的序列编码模型的模型参数进行调整，得到蛋白序列编码模型。

具体地，在获取到训练样本后，可将训练样本输入至预先构建的序列编码模型，通过预先构建的序列编码模型对样本蛋白序列对中的第一样本蛋白序列以及第二样本蛋白序列进行编码，以获取第一样本蛋白编码以及第二样本蛋白编码。进而，根据第一样本蛋白编码与第二样本蛋白编码获取第一样本蛋白序列与第二样本蛋白序列间的预测相似度，具体可以是获取第一样本蛋白编码与第二样本蛋白编码的点积值，将点积值确定为训练样本对应的预测相似度。进一步地，还可以设置相似度阈值，当点积值大于相似度阈值时，则该训练样本的样本蛋白序列对为相似的蛋白序列，对应的预测相似度为“1”，当点积值不大于相似度阈值时，则该训练样本的样本蛋白序列对为不相似的蛋白序列，对应的预测相似度为“0”。

更具体地，在获取到训练样本后，仍然以蛋白序列A为例，还可以将蛋白序列A对应的的一个正样本以及多个负样本作为一次模型训练的训练数据，输入至预先构建的序列编码模型，在获取到各个所输入的训练样本对应的点积值后，将点积值最高的训练样本的预测相似度确定为“1”，其他的训练样本的预测相似度确定为“0”。

在获取到多个训练样本的预测相似度后，可以根据多个训练样本的预测相似度以及相似度标签标识的真实相似度，基于该预先构建的序列编码模型的损失函数，获取该预先构建的序列编码模型的损失误差；进而，基于该损失误差对预先构建的序列编码模型的模型参数进行调整，至此完成一次模型训练，在对预先构建的序列编码模型进行多次迭代训练、达到停止模型训练的条件后，即得到蛋白序列编码模型。可以理解的是，达到停止模型迭代训练的条件可以设置为预测相似度与相似度标签间的误差小于预设误差阈值；也可以设置为前后两次训练后的模型参数的变化小于预设值；还可以设置为训练次数达到预设次数，在此不进行限定。

通过训练样本对预先构建的序列编码模型进行训练，得到蛋白序列编码模型，该蛋白序列编码模型可以将高维度的蛋白序列映射到地低维度空间中，得到可反映目标蛋白序列的序列特征的蛋白编码。

如图6所述，以下结合图6对本申请实施例提供的蛋白质序列比对方法进行进一步说明：

图6中，查询序列编码器可以是基于蛋白序列编码模型构建的编码器，可以记为f_θ，θ是蛋白序列编码模型的模型参数；同样的，候选序列编码器可以是基于蛋白序列编码模型构建的编码器，可以记是蛋白序列编码模型的模型参数。其中，蛋白序列编码模型可以是Transformer模型。

查询序列编码器f_θ将所输入的蛋白序列q映射到d维空间的一个向量，即f_θ(q)＝h_q∈R^d；同样的，候选序列编码器把所输入的蛋白序列c映射到同样维度的一个向量，即

需要说明的是，查询序列编码器的模型参数θ与候选序列编码器的模型参数可以是相同的模型参数，也可以是不同的模型参数。

如上所述蛋白序列编码模型的训练过程中，在获取到训练样本后，基于训练样本对预先构建的序列编码模型进行训练，达到停止训练条件后，得到蛋白序列编码模型，进而根据蛋白序列编码模型构建查询序列编码器以及候选序列编码器。此时，查询序列编码器的模型参数θ与候选序列编码器的模型参数可以是相同的模型参数。

此外，可以针对查询序列编码器以及候选序列编码器，预先构建与查询序列编码器对应的第一序列编码模型以及与候选序列编码器对应的第二序列编码模型。在获取到训练样本后，基于训练样本分别对预先构建的第一序列编码模型以及第二序列编码模型进行训练，其中可通过不同的loss回传梯度，对第一序列编码模型以及第二序列编码模型的模型参数进行调整，以得到与查询序列编码器对应的模型参数θ以及与候选序列编码器对应的模型参数最后，基于训练完成的第一序列编码模型构建查询序列编码器，基于训练完成的第二序列编码模型构建候选序列编码器。此时，查询序列编码器的模型参数θ与候选序列编码器的模型参数/>可以是不同的模型参数。

具体地，在获得查询序列编码器以及候选序列编码器后，先通过候选序列编码器对来自蛋白质序列数据库UniRef90的所有的已知蛋白序列进行编码，以获得各个已知蛋白序列对应的已知蛋白编码，并将各个已知蛋白序列及其对应的已知蛋白编码保存至蛋白质序列库中。可以理解的是，通过候选序列编码器对已知蛋白序列进行编码的过程可以离线状态下完成。

在接收到待查询的目标蛋白序列后，通过查询序列编码器对目标蛋白序列进行编码，以获取目标蛋白序列对应的目标蛋白编码。然后，计算目标蛋白编码与各个已知蛋白编码的点积值，具体如下式所示：

s_qc＝h_q·z_c

其中，s_qc表示目标蛋白编码与各个已知蛋白编码的点积值，h_q表示目标蛋白编码，z_c表示已知蛋白编码。

在获取目标蛋白编码与已知蛋白编码的点积值，将目标蛋白编码与已知蛋白编码作为目标蛋白序列和相应已知蛋白序列间的相似度得分。最后，根据相似度得分对蛋白质序列库中的已知蛋白序列进行排序，并为前K(K值大于0，如图6所示例子，K等于20万)个已知蛋白序列作为后续与目标蛋白序列进行序列比对的对象。

其中，蛋白质序列库可以基于FAISS算法构建，即在获取到已知蛋白序列以及已知蛋白序列对应的已知蛋白编码后，可将已知蛋白编码作为已知蛋白序列的索引进行保存。在获取到目标蛋白编码后，基于目标蛋白编码检索蛋白质序列库的索引(即已知蛋白编码)，在获取到待查询的目标蛋白序列对应的目标蛋白编码后，在索引上执行的基本搜索操作，实现快速搜索算法。

在获取到前K个已知蛋白序列后，将这前K个已知蛋白序列作为JackHMMER的输入，JackHMMER用于对所输入的已知蛋白序列以及目标蛋白序列执行多序列比对，以从已知蛋白序列中获取目标蛋白序列的同源蛋白序列。可以理解的是，本实施例输入至JackHMMER的已知蛋白序列是搜索召回的K(例如20万、100万等)个蛋白序列，而现有的技术方案中，往往是蛋白质序列数据库UniRef90中的所有蛋白序列进行，相较于现有的技术方案，本实施例在进行蛋白序列比对之前过滤不相关的蛋白序列，以缩减蛋白序列比对的数据量，有效降低蛋白序列比对的耗时，提高同源蛋白序列搜索的效率。

结合图7以及图8，搭建基于CPU或GPU的相似度比对筛选管线，基于UniRef90数据库，记录当前最常用的对齐方法JackHMMER在该数据库上直接搜索同源蛋白序列的搜索时间，以及使用本申请实施例中所提供的蛋白质序列比对方法在该数据库上搜索同源蛋白序列的搜索时间。如图7所示，“original”表示使用最常用的对齐方法JackHMMER直接在该数据库上进行同源蛋白序列搜索；“top100k”表示基于本申请实施例中所提供的蛋白质序列比对方法，在该数据库上先召回100万条候选蛋白序列，然后基于100万条候选蛋白序列进行同源蛋白序列搜索；“top200k”表示基于本申请实施例中所提供的蛋白质序列比对方法，在该数据库上先召回100万条候选蛋白序列，然后基于100万条候选蛋白序列进行同源蛋白序列搜索；“top400k”表示基于本申请实施例中所提供的蛋白质序列比对方法，在该数据库上先召回100万条候选蛋白序列，然后基于100万条候选蛋白序列进行同源蛋白序列搜索。图7中的条形图分别显示了“original”、“top100k”、“top200k”以及“top400k”对应搜索方法的搜索时间；图7中的折线图中显示了“top100k”、“top200k”以及“top400k”对应搜索方法相较于“original”搜索方法的速度提升倍数。从图7中可以得到，通过本申请实施例中所提供的蛋白质序列比对方法进行同源蛋白序列搜索，最高能以33倍提升搜索速度。

如图8所示，在图8中，CASP13、CASP14、Cameo分别为不同的蛋白结构预测比赛/平台，图中显示了在各个设定的返回数量K(20万、40万、100万以及200万)的情况下，通过本申请实施例中所提供的蛋白质序列比对方法进行同源蛋白序列搜索，同源蛋白序列召回率相较于在UniRef90数据库上直接搜索同源蛋白序列的召回率更高。

如表1所示，通过本申请实施例中所提供的蛋白质序列比对方法与现有的AlphaFold2相比，本申请实施例中所提供的蛋白质序列比对方法只有很小的精度损失，如在CASP13中，在现有的AlphaFold2的精确度为78.9，而通过本申请实施例中所提供的蛋白质序列比对方法“top200K”(在数据库上先召回20万条候选蛋白序列，然后基于20万条候选蛋白序列进行同源蛋白序列搜索)的精度在74.47。并且，通过本申请实施例中所提供的蛋白质序列比对方法能够超越应用了慢速构建全序列MSA的RoseTTAFold。

表1

为了更好实施本申请实施例提供的蛋白质序列比对方法，在本申请实施例所提蛋白质序列比对方法的基础之上，本申请实施例中还提供一种蛋白质序列比对装置，如图9所示，蛋白质序列比对装置900包括：

查询序列获取模块910，用于获取待查询的目标蛋白序列；

蛋白序列编码模块920，用于通过蛋白序列编码模型对目标蛋白序列进行编码，得到目标蛋白编码；

蛋白序列召回模块930，用于获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码，以及候选蛋白编码关联的候选蛋白序列；

蛋白序列比对模块940，用于根据目标蛋白序列与候选蛋白序列的比对结果，确定目标蛋白序列的同源蛋白序列。

在本申请一些实施例中，蛋白质序列库中包括多个已知蛋白序列以及与已知蛋白序列关联的已知蛋白编码；蛋白序列召回模块930，具体用于获取目标蛋白编码与各已知蛋白编码的编码相似度；从多个已知蛋白编码中，获取与目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码确定为候选蛋白编码。

在本申请一些实施例中，蛋白序列召回模块930，具体用于依次将蛋白质序列库中的已知蛋白编码作为第一蛋白编码，计算目标蛋白编码与第一蛋白编码的点积值；将点积值确定为目标蛋白编码与第一蛋白编码的编码相似度。

在本申请一些实施例中，蛋白质序列比对装置900还包括蛋白质序列库生成模块，蛋白质序列库生成模块用于获取新增的蛋白序列；通过蛋白序列编码模型，对新增的蛋白序列进行编码，得到新增的蛋白序列关联的第二蛋白编码；将新增的蛋白序列以及第二蛋白编码保存至蛋白质序列库中。

在本申请一些实施例中，蛋白质序列比对装置900还包括编码模型生成模块，编码模型生成模块用于获取训练样本，训练样本包括样本蛋白序列对以及样本蛋白序列对的相似度标签，样本蛋白序列对包括第一样本蛋白序列以及第二样本蛋白序列；基于预先构建的序列编码模型，对样本蛋白序列对进行编码，得到第一样本蛋白序列对应的第一样本蛋白编码以及第二样本蛋白序列对应的第二样本蛋白编码；根据第一样本蛋白编码以及第二样本蛋白编码获取预测相似度；根据预测相似度与相似度标签，对预先构建的序列编码模型的模型参数进行调整，得到蛋白序列编码模型。

在本申请一些实施例中，蛋白序列比对模块940，具体用于获取目标蛋白序列与各候选蛋白序列的相似序列片段；基于各候选蛋白序列中的相似序列片段，筛选相似得分大于预设得分阈值的延伸相似片段；根据目标蛋白序列与各候选蛋白序列的延伸相似片段，从候选蛋白序列中确定目标蛋白序列的同源蛋白序列。

在本申请一些实施例中，蛋白序列比对模块940，还用于基于同源蛋白序列的蛋白质三维结构，预测目标蛋白序列的三维结构；和/或基于同源蛋白序列的蛋白质功能，预测目标蛋白序列的蛋白质功能。

关于蛋白质序列比对装置的具体限定可以参见上文中对于蛋白质序列比对方法的限定，在此不再赘述。上述蛋白质序列比对装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请一些实施例中，蛋白质序列比对装置900可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该蛋白质序列比对装置900的各个程序模块，比如，图9所示的查询序列获取模块910、蛋白序列编码模块920、蛋白序列召回模块930以及蛋白序列比对模块940。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的蛋白质序列比对方法中的步骤。

例如，图10所示的计算机设备可以通过如图9所示的蛋白质序列比对装置900中的查询序列获取模块910执行步骤S210。计算机设备可通过蛋白序列编码模块920执行步骤S220。计算机设备可通过蛋白序列召回模块930执行步骤S230。计算机设备可通过蛋白序列比对模块940执行步骤S240。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种蛋白质序列比对方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一些实施例中，提供了一种计算机设备，包括一个或多个处理器；存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述蛋白质序列比对方法的步骤。此处蛋白质序列比对方法的步骤可以是上述各个实施例的蛋白质序列比对方法中的步骤。

在本申请一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器进行加载，使得处理器执行上述蛋白质序列比对方法的步骤。此处蛋白质序列比对方法的步骤可以是上述各个实施例的蛋白质序列比对方法中的步骤。

本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例所提供的一种蛋白质序列比对方法、装置、计算机设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种蛋白质序列比对方法，其特征在于，包括：

获取待查询的目标蛋白序列；

通过蛋白序列编码模型对所述目标蛋白序列进行编码，得到目标蛋白编码；

获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码，以及所述候选蛋白编码关联的候选蛋白序列，所述候选蛋白编码为所述预设蛋白质序列库中与所述目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码；

根据所述目标蛋白序列与所述候选蛋白序列的比对结果，确定所述目标蛋白序列的同源蛋白序列；

其中，所述根据所述目标蛋白序列与所述候选蛋白序列的比对结果，确定所述目标蛋白序列的同源蛋白序列，包括：

获取所述目标蛋白序列与各所述候选蛋白序列的相似序列片段；

基于各所述候选蛋白序列中的所述相似序列片段，筛选相似得分大于预设得分阈值的延伸相似片段；

根据所述目标蛋白序列与各所述候选蛋白序列的延伸相似片段，从所述候选蛋白序列中确定所述目标蛋白序列的同源蛋白序列。

2.根据权利要求1所述的方法，其特征在于，所述蛋白质序列库中包括多个已知蛋白序列以及与所述已知蛋白序列关联的已知蛋白编码；

所述获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码，以及所述候选蛋白编码关联的候选蛋白序列，包括：

获取所述目标蛋白编码与各所述已知蛋白编码的编码相似度；

从所述多个已知蛋白编码中，获取与所述目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码确定为候选蛋白编码。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标蛋白编码与各所述已知蛋白编码的编码相似度，包括：

依次将蛋白质序列库中的已知蛋白编码作为第一蛋白编码，计算所述目标蛋白编码与所述第一蛋白编码的点积值；

将所述点积值确定为所述目标蛋白编码与所述第一蛋白编码的编码相似度。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码之前，还包括：

获取新增的蛋白序列；

通过所述蛋白序列编码模型，对所述新增的蛋白序列进行编码，得到所述新增的蛋白序列关联的第二蛋白编码；

将所述新增的蛋白序列以及所述第二蛋白编码保存至所述蛋白质序列库中。

5.根据权利要求1所述的方法，其特征在于，所述通过蛋白序列编码模型对所述目标蛋白序列进行编码，得到目标蛋白编码之前，还包括：

获取训练样本，所述训练样本包括样本蛋白序列对以及所述样本蛋白序列对的相似度标签，所述样本蛋白序列对包括第一样本蛋白序列以及第二样本蛋白序列；

基于预先构建的序列编码模型，对所述样本蛋白序列对进行编码，得到所述第一样本蛋白序列对应的第一样本蛋白编码以及所述第二样本蛋白序列对应的第二样本蛋白编码；

根据所述第一样本蛋白编码以及所述第二样本蛋白编码获取预测相似度；

根据所述预测相似度与所述相似度标签，对所述预先构建的序列编码模型的模型参数进行调整，得到蛋白序列编码模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标蛋白序列与所述候选蛋白序列的比对结果，确定所述目标蛋白序列的同源蛋白序列之后，还包括：

基于所述同源蛋白序列的蛋白质三维结构，预测所述目标蛋白序列的三维结构；和/或

基于所述同源蛋白序列的蛋白质功能，预测所述目标蛋白序列的蛋白质功能。

7.一种蛋白质序列比对装置，其特征在于，所述装置包括：

查询序列获取模块，用于获取待查询的目标蛋白序列；

蛋白序列编码模块，用于通过蛋白序列编码模型对所述目标蛋白序列进行编码，得到目标蛋白编码；

蛋白序列召回模块，用于获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码，以及所述候选蛋白编码关联的候选蛋白序列，所述候选蛋白编码为所述预设蛋白质序列库中与所述目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码；

蛋白序列比对模块，用于根据所述目标蛋白序列与所述候选蛋白序列的比对结果，确定所述目标蛋白序列的同源蛋白序列；

8.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至6中任一项所述的蛋白质序列比对方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至6任一项所述的蛋白质序列比对方法中的步骤。