CN115512762B

CN115512762B - 多肽序列的生成方法、装置、电子设备及存储介质

Info

Publication number: CN115512762B
Application number: CN202211319513.XA
Authority: CN
Inventors: 林大勇; 刘荔行; 方晓敏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-06-20
Anticipated expiration: 2042-10-26
Also published as: CN115512762A

Abstract

本公开提供了一种多肽序列的生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及生物计算等技术领域。具体实施方案为：获取由多个第一氨基酸组成的蛋白质序列；对蛋白质序列进行编码，得到蛋白质序列L行的第一表征向量；通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，K为大于或者等于1的自然数；基于K个第二氨基酸，生成多肽序列。解析蛋白质序列中每一个氨基酸的第一表征向量，通过注意力机制对第一表征向量进行解码生成多肽序列，可以提升预测多肽序列的专注度，以此提升多肽序列预测的准确性和预测效率，降低多肽序列的预测成本。

Description

多肽序列的生成方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及生物计算等技术领域，尤其涉及一种多肽序列的生成方法、装置和电子设备及存储介质。

背景技术

蛋白质是生物体所必需的大分子，并在生物体内执行许多功能或与许多功能相关，这些功能包括例如催化代谢反应、促进DNA复制、响应刺激、为细胞和组织提供结构、以及转运分子。蛋白质由一条或多条氨基酸链构成，并且典型地形成三维构象。

当前技术中一般通过过滤具有特定属性的多肽数据，通过编码器-解码器方式来生成具有特定属性的多肽。

发明内容

本公开提供了一种用于多肽序列的生成方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种多肽序列的生成方法，包括：获取由多个第一氨基酸组成的蛋白质序列；对蛋白质序列进行编码，得到蛋白质序列L行的第一表征向量，第一表征向量中包括多个氨基酸之间的相互关联信息，其中，L为大于或者等于1的自然数；通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，K为大于或者等于1的自然数；基于K个第二氨基酸，生成多肽序列。

根据本公开的第二方面，提供了一种多肽序列的生成装置，包括：获取模块，用于获取由多个第一氨基酸组成的蛋白质序列；编码模块，用于对蛋白质序列进行编码，得到蛋白质序列L行的第一表征向量，第一表征向量中包括多个氨基酸之间的相互关联信息，其中，L为大于或者等于1的自然数；解码模块，用于通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，K为大于或者等于1的自然数；生成模块，用于基于K个第二氨基酸，生成多肽序列。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的多肽序列的生成方法。

根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序/指令，所述计算机指令用于使所述计算机执行上述一方面实施例所述的多肽序列的生成方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的多肽序列的生成方法。

解析蛋白质序列中每一个氨基酸的第一表征向量，通过注意力机制对第一表征向量进行解码生成多肽序列，可以提升预测多肽序列的专注度，以此提升多肽序列预测的准确性和预测效率，降低多肽序列的预测成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一多肽序列的生成方法的流程示意图；

图2为本公开实施例提供的另一多肽序列的生成方法的流程示意图；

图3为本公开实施例提供的另一多肽序列的生成方法的流程示意图；

图4为本公开实施例提供的解码器和编码器的连接示意框图；

图5为本公开实施例提供的一多肽序列的生成装置的结构示意图；

图6为根据本公开实施例的多肽序列的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的多肽序列的生成方法、装置和电子设备。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

生物计算是指利用生物系统固有的信息处理机理而研究开发的一种新的计算模式。生物计算研究包括器件和系统两个方面。利用有机(或生物)材料在分子尺度内构成的有序体系、提供通过分子层次上的物理化学过程信息检测、处理、传输和存储的基本单元。称为分子器件。生物计算系统的结构和计算原理不同于传统的计算系统，它的结构一般是并行分布式的。信息存储往往是短时记忆和长时记忆的结合，是通过学习完成的。它的计算则表现为复杂的动态过程，不仅存在精确的时间同步，甚至要求在分维时间尺度上才能描述。

图1为本公开实施例提供的一种多肽序列的生成方法的流程示意图。

如图1所示，该多肽序列的生成方法，可包括：

S101，获取由多个第一氨基酸组成的蛋白质序列。

蛋白质由多个氨基酸组成，在蛋白质分子中，氨基酸之间是以肽键相连的。肽键就是一个氨基酸的α-羧基与另一个氨基酸的α-氨基脱水缩合形成的键，氨基酸之间互相连接，在蛋白质中存在一定的结构和顺序，并通过排列和组合形成的蛋白质可以实现特定的功能。本公开实施例中的蛋白质序列包括多个第一氨基酸的排列和组合信息，可以表征蛋白质的结构和氨基酸组成等。此外，蛋白质序列中还包含蛋白质的蛋白同源进化信息、蛋白结构信息和蛋白功能信息等，用以表征蛋白质的进化、结构和功能。

在本公开实施例中，蛋白质序列中的氨基酸可通过氨基酸缩写的形式进行表现，举例来说，G指代甘氨酸，A指代丙氨酸，V指代缬氨酸等。需要说明的是，可通过查询氨基酸缩写表来确定氨基酸对应的缩写。

可选地，还可对每种不同的氨基酸进行自定义编号，该自定义标号为提前设定好的，并可根据实际的需求进行变更。举例来说，甘氨酸的自定义标号为001，丙氨酸的自定义编号为002，缬氨酸的自定义编号为003等。

在本公开实施例中，蛋白质序列的获取方法可为多种，此处不作任何限定。可选地，蛋白质序列可根据需要该蛋白质实现的功能特性进行预先配置，蛋白质的功能特性可包括物理特性和化学性质，举例来说，该功能特性可包括水合性质、结构性质和蛋白质的表面性质等；可选地，蛋白质序列也可为通过调取蛋白质序列数据库中的数据获取的，其中，蛋白质序列数据库指应用计算机功能分析生物学信息的数据库；可选地，还可对现有的蛋白质进行蛋白质序列测定。

S102，对蛋白质序列进行编码，得到蛋白质序列L行的第一表征向量，第一表征向量中包括多个第一氨基酸之间的相互关联信息，其中，L为大于或者等于1的自然数。

在本公开实施例中，第一表征向量为包含蛋白质序列中的序列信息的低维稠密的向量，这种低维稠密的向量能够表达相应蛋白质序列的某些特征，同时向量之间的距离也能够反应蛋白质序列中的第一氨基酸之间的相似性。

在本公开实施例中，由编码器对蛋白质序列中的第一氨基酸进行编码，在编码过程中可以关注多个第一氨基酸之间的相互关联，以生成蛋白质序列的L行第一表征向量。举例来说，蛋白质序列包括ABC三个氨基酸，编码器可以对ABC进行编码，在编码过程中关注三者之间的相互作用，以生成A对应的第一表征向量，AB对应的第一表征向量，和ABC对应的第一表征向量，进而得到蛋白质序列的3行第一表征向量。可以理解的是，蛋白质序列中的第一氨基酸之间会存在影响，编码器可以关注后面的氨基酸对前面氨基酸之间的影响。需要说明的是，可以对影响的长度进行设定，例如可以关注当前的第一氨基酸对前面M个第一氨基酸的影响。比方，蛋白质序列中包括20个第一氨基酸，可以设定后面的第一氨基酸对自己前面的4个第一氨基酸进行关注。

需要说明的是，第一表征向量中可包含多个向量元素，每个向量元素用以表征组成蛋白质的氨基酸，通过每个向量元素之间的排列顺序来表征氨基酸之间的连接关系和连接顺序。

需要说明的是，获取蛋白质序列的第一表征向量的方法可为多种，此处不作任何限定。

可选地，在获取到多个第一氨基酸组成的蛋白质序列后，可对于蛋白序列中的每个第一氨基酸，可以通过Embedding技术给予其一个长度为H的表征向量，此时第一表征向量即为L*H的向量。

可选地，还可将蛋白质序列输入至第一表征向量生成装置中，以获取蛋白质序列的第一表征向量。需要说明的是，该第一表征向量生成装置为提前训练好的，并存储在电子设备的存储空间中，以方便在需要时调取使用。

S103，通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，K为大于或者等于1的自然数。

需要说明的是，注意力机制是指在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案。在蛋白质预测的神经网络学习中，模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高氨基酸预测的效率和准确性。

通过注意力机制，对蛋白质序列的L行第一表征向量进行逐行扫描，进行分别计算，以分段输出得到K个第二氨基酸。

S104，基于K个第二氨基酸，生成多肽序列。

在本公开实施例中，在获取到K个第二氨基酸后，可基于K个第二氨基酸的获取顺序，进行组合，以生成蛋白质序列对应的多肽序列。

在本公开实施例中，首先获取由多个第一氨基酸组成的蛋白质序列，对蛋白质序列进行编码，得到蛋白质序列的第一表征向量，第一表征向量中包括多个第一氨基酸之间相互关联信息，并通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，基于K个第二氨基酸，生成多肽序列。通过解析蛋白质序列中每一个氨基酸的第一表征向量，并通过注意力机制对第一表征向量进行解码生成多肽序列，可以提升预测多肽序列的专注度，以此提升多肽序列预测的准确性和预测效率，降低多肽序列的预测成本。

上述实施例中，通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，还可通过图2进一步解释，该方法包括：

S201，从首行第一表征向量开始逐个输入解码器中，由解码器对当前输入的第一表征向量进行解码，得到相应的解码出的第二氨基酸。

S202，基于解码器当前已解码出的N个第二氨基酸，获取第二表征向量。

其中，第二表征向量中包括N个第二氨基酸之间的相互关联信息。

可以理解的是，通过当前输入的第一表征向量来预测多肽序列中的第二氨基酸，本公开实施例中，解码器可以参考之前已经输出的第二氨基酸的结构和顺序，对当前输入的第一表征向量进行解码。在解码过程中关注所有解码出的第二氨基酸，可以关注到已有第二氨基酸对当前输入的第一表征向量的影响或两者之间的相互作用，从而能够准确的预测当前第一表征向量对应的第二氨基酸。

需要说明的是，第二表征向量包含所有已生成第二氨基酸的序列信息的低维稠密的向量，第二表征向量可表征所有已生成的第二氨基酸的结构、长度、氨基酸组成和组成顺序等。

在本公开实施例中，所有已预测完成的第二氨基酸可对应一个第二表征向量。可选地，每一个第二氨基酸也可分别对应一个第二表征向量。此处不作任何限定

通过注意力机制生成了N个第二氨基酸后，在生成第N+1个第二氨基酸时，会参考之前已经生成好的N个第二氨基酸以及蛋白质序列中的蛋白同源进化信息、蛋白结构信息和蛋白功能信息等，确定当前需要生成的第二氨基酸的第二表征向量。

在本公开实施例中，可通过注意力机制对已输入的第二氨基酸进行处理，获取当前需要生成的第二氨基酸的第二表征向量。

需要说明的是，第一表征向量和第二表征向量并非一一对应的关系，即蛋白质序列的第一表征向量进行解码，存在无法获取对应的第二氨基酸的可能，因此，最终生成的K个第二氨基酸数量小于L个第一氨基酸。

S203，对解码器当前输入的第一表征向量和第二表征向量进行注意力机制，得到第N+1个第二氨基酸。

在获取到当前输入的第一表征向量和第二表征向量后，可通过对当前输入的第一表征向量和第二表征向量进行融合，并基于注意力机制，基于蛋白质序列，预测当前输入的第一氨基酸的表征向量对应的第N+1个第二氨基酸。

在本公开实施例中，首先基于解码器对当前已解码出的N个第二氨基酸，获取第二表征向量，然后从首个第一氨基酸的第一表征向量开始逐个输入解码器中，获取解码器当前输入的第一氨基酸的表征向量，最后对解码器当前输入的第一氨基酸的表征向量和第二表征向量进行注意力机制，得到第N+1个第二氨基酸。通过对已经获取到的第二氨基酸和已经输入的第一氨基酸进行特征向量分析，预测当前需要生成的第二氨基酸，以此，通过这种迭代的预测，可以提升多肽生成中氨基酸预测的效率和准确率。

在本公开实施例中，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，并且可以获取每个第二氨基酸的解码时间，进一步地，按照解码时间从早到晚对K个第二氨基酸进行合成，以生成多肽序列。以此，通过确认第二氨基酸的获取的时间顺序合成多肽，可以提升多肽合成的准确率。

需要说明的是，在生成第二氨基酸时，首个氨基酸可为随机生成的，也可为预先设定的，此处不作任何限定，具体可根据实际的设计需要进行限定。

蛋白质序列中可以携带预先设置的终止标识，编码器在编码到该终止标识时，生成该终止标识对应的编码信息，并标记在第一表征向量中。在解码过程中，在解码器解码到蛋白质序列的终止标识的编码信息时，就可以确定解码结束，停止继续解码，并输出所有解码出的第二氨基酸。以此，可通过设定终止标识，控制多肽链的生成过程，可以提升最终多肽链的生成效果，并降低生成成本。

可选地，也可为将所有的蛋白质序列中的第一氨基酸全部读取预测完成，则停止第二氨基酸的预测。

在本公开实施例中，可将蛋白质序列输入预训练的编码器中，由编码器获取蛋白质序列L行的初始表征向量，并对初始表征向量进行注意力机制，得到蛋白质序列L行的初始表征向量第一表征向量。以此，可以提升蛋白质序列的第一表征向量的获取效率，从而提升多肽序列的预测效率。

需要说明的是，编码器为提前训练好的，可通过部分使用蛋白质预训练大模型，对于每个输入的蛋白质都会返回一个蛋白质序列。

在本公开实施例中，每当解码器解码出新的第二氨基酸，基于新的第二氨基酸对第二表征向量进行更新。以此，通过对第二表征向后进行更新，为确认后续多肽中的氨基酸提供数据基础，同时可以提升预测效率。

上述实施例中，对第一氨基酸的表征向量和第二表征向量进行注意力机制，得到第N+1个第二氨基酸，还可通过图3进一步解释，该方法包括：

S301,对当前输入的第一氨基酸的表征向量和第二表征向量进行融合，得到第三表征向量。

在本公开实施例中，将第一氨基酸的表征向量和第二表征向量进行融合的方法可为多种，举例来说，可通过对应表征向量中的元素进行元素相加、元素拼接等，此处不作任何限定。

需要说明的是，第三表征向量征包含了已经生成的每个第二氨基酸所关注的蛋白质序列的位置，通过第三表征向量，可以分析出当前生成的第二氨基酸所组成的多肽链的结构，并基于当前的多肽链结构和蛋白质序列对后续生成的第二氨基酸进行预测。

S302，根据第三表征向量，获取氨基酸词典中每个第二氨基酸的生成概率。

在本公开实施例中，在获取到第三表征向量后，可通过对第三表征向量取平均后进行线性变换，得到氨基酸词典大小的目标表征向量，对目标表征向量进行归一化操作，得到氨基酸词典中每个第二氨基酸的生成概率。

实现中，当前L*H的向量的蛋白质序列，可在L行上取平均后得到H列向量，H列向量和矩阵H*C相乘作线性变换后，可以得到C维向量，其中C为氨基酸词典大小。需要说明的是，氨基酸词典为所有氨基酸及其对应的序号或者表征符号的集合。氨基酸词典为提前设定好的，并存储在电子设备的存储空间中，以方便在需要时调取使用。矩阵H*C为提前设定好的，此处不作任何限定，具体可根据实际的设计需要进行变更。以此，通过获取当前输入的第一表征向量对应的氨基酸词典中的生成概率，可以准确的预测出最佳的第二氨基酸。

需要说明的是，生成概率可通过生成概率函数进行获取，该生成概率函数可为提前设定好的，并可根据实际的设计需求进行变更，此处不作任何限定。举例来说，该生成概率函数可为softmax函数。

S303，根据生成概率确定第N+1个第二氨基酸。

在本公开实施例中，在获取到生成概率后，确定第二氨基酸的规则可为多种。

可选地，可将大于生成概率阈值的氨基酸，通过人工筛选的方式，确定为第N+1个第二氨基酸。该生成概率阈值可为提前设定好的，并可根据实际的设计需要进行变更。

在本公开实施例中首先对第一氨基酸的表征向量和第二表征向量进行融合，得到第三表征向量，然后根据第三表征向量，获取氨基酸词典中每个第二氨基酸的生成概率，最后根据生成概率确定第N+1个第二氨基酸。以此，通过将当前输入的第一氨基酸的表征向量和第二表征向量进行融合转化为第三向量，并以查表的形式从所有氨基酸中确定第二氨基酸，提升氨基酸生成的鲁棒性。

从氨基酸词典中，选取生成概率最大的第二氨基酸作为第N+1个第二氨基酸。以此，可以提升最终生成的多肽序列的鲁棒性。

在本公开实施例中，解码器是用于基于蛋白质序列预测多肽序列的装置，在本公开实施例中，如图4所示，编码器的输出端连接解码器的输入端，可将蛋白质输入到编码器中，以输出蛋白质的蛋白质序列，然后将蛋白质序列输入至编码器中，以生成该蛋白质对应的多肽序列。

需要说明的是，解码器可包含6层网络层，隐层大小为512，注意力头数量为8。编码器可基于Transformer的十亿参数量模型，模型包含20层网络层，隐层大小为2048，注意力头数量为16。

与上述几种实施例提供的多肽序列的生成方法相对应，本公开的一个实施例还提供了一种多肽序列的生成装置，由于本公开实施例提供的多肽序列的生成装置与上述几种实施例提供的多肽序列的生成方法相对应，因此上述多肽序列的生成方法的实施方式也适用于本公开实施例提供的多肽序列的生成装置，在下述实施例中不再详细描述。

图5为本公开实施例提供的一种多肽序列的生成装置的结构示意图。该多肽序列的生成装置500包括：获取模块510、编码模块520、解码模块530和生成模块540。

其中，获取模块510，用于获取由多个第一氨基酸组成的蛋白质序列。

编码模块520，用于对蛋白质序列进行编码，得到蛋白质序列L行的第一表征向量，第一表征向量中包括多个氨基酸之间的相互关联信息，其中，L为大于或者等于1的自然数。

解码模块530，用于通过注意力机制，对蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，K为大于或者等于1的自然数。

生成模块540，用于基于K个第二氨基酸，生成多肽序列。

在本公开的一个实施例中，解码模块530，还用于：从首行第一表征向量开始逐个输入解码器中，由解码器对当前输入的第一表征向量进行解码，得到相应的解码出的第二氨基酸；基于解码器当前已解码出的N个第二氨基酸，获取第二表征向量，其中，第二表征向量中包括N个第二氨基酸之间的相互关联信息；对解码器当前输入的第一表征向量和第二表征向量进行注意力机制，得到第N+1个第二氨基酸。

在本公开的一个实施例中，解码模块530，还用于：对解码器当前输入的第一表征向量和第二表征向量进行融合，得到第三表征向量；根据第三表征向量，获取氨基酸词典中每个第二氨基酸的生成概率；根据生成概率确定第N+1个第二氨基酸。

在本公开的一个实施例中，解码模块530，还用于：对第三表征向量取平均后进行线性变换，得到氨基酸词典大小的目标表征向量；对目标表征向量进行归一化操作，得到氨基酸词典中每个第二氨基酸的生成概率。

在本公开的一个实施例中，解码模块530，还用于：从氨基酸词典中，选取生成概率最大的第二氨基酸作为第N+1个第二氨基酸。

在本公开的一个实施例中，解码模块530，还用于：每当解码器解码出新的第二氨基酸，基于新的第二氨基酸对第二表征向量进行更新。

在本公开的一个实施例中，解码模块530，还用于：响应于解码器解码到蛋白质序列的终止标识，停止继续解码，并输出所有解码出的第二氨基酸。

在本公开的一个实施例中，生成模块540，还用于：获取K个第二氨基酸中每个第二氨基酸的解码时间；按照解码时间从早到晚对K个第二氨基酸进行合成，以生成多肽序列。

在本公开的一个实施例中，编码模块520，还用于：将蛋白质序列L行输入预训练的编码器中，由编码器获取蛋白质序列L行的初始表征向量，并对初始表征向量进行注意力机制，得到蛋白质序列L行的第一表征向量。

本公开的技术方案中，所涉及的蛋白质信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序/指令或者从存储单元606载到随机访问存储器(RAM)603中的计算机程序/指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如多肽序列的生成方法。例如，在一些实施例中，多肽序列的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元606些实施例中，计算机程序/指令的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序/指令加载到RAM 603并由计算单元601执行时，可以执行上文描述的多肽序列的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多肽序列的生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序/指令中，该一个或者多个计算机程序/指令可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序/指令来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多肽序列的生成方法，包括：

获取由多个第一氨基酸组成的蛋白质序列；

对所述蛋白质序列进行编码，得到所述蛋白质序列L行的第一表征向量，所述第一表征向量中包括多个氨基酸之间的相互关联信息，其中，所述L为大于或者等于1的自然数；

通过注意力机制，对所述蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，所述K为大于或者等于1的自然数；

获取所述K个第二氨基酸中每个第二氨基酸的解码时间；

按照所述解码时间从早到晚对所述K个第二氨基酸进行合成，以生成多肽序列；

所述通过注意力机制，对所述蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，包括：

从首行第一表征向量开始逐个输入解码器中，由所述解码器对当前输入的第一表征向量进行解码，得到相应的解码出的第二氨基酸；

基于所述解码器当前已解码出的N个第二氨基酸，获取第二表征向量，其中，所述第二表征向量中包括所述N个第二氨基酸之间的相互关联信息；

对所述解码器当前输入的第一表征向量和所述第二表征向量进行注意力机制，得到第N+1个第二氨基酸。

2.根据权利要求1所述的方法，其中，所述对所述解码器当前输入的第一表征向量和所述第二表征向量进行注意力机制，得到第N+1个第二氨基酸，包括：

对所述解码器当前输入的第一表征向量和所述第二表征向量进行融合，得到第三表征向量；

根据所述第三表征向量，获取氨基酸词典中每个第二氨基酸的生成概率；

根据所述生成概率确定所述第N+1个第二氨基酸。

3.根据权利要求2所述的方法，其中，所述根据所述第三表征向量，获取所述氨基酸词典中每个第二氨基酸的生成概率，包括：

对所述第三表征向量取平均后进行线性变换，得到氨基酸词典大小的目标表征向量；

对所述目标表征向量进行归一化操作，得到所述氨基酸词典中每个第二氨基酸的生成概率。

4.根据权利要求2所述的方法，其中，所述根据所述生成概率确定所述第N+1个第二氨基酸，包括：

从所述氨基酸词典中，选取所述生成概率最大的第二氨基酸作为所述第N+1个第二氨基酸。

5.根据权利要求1所述的方法，其中，所述方法还包括：

每当所述解码器解码出新的第二氨基酸，基于所述新的第二氨基酸对所述第二表征向量进行更新。

6.根据权利要求1所述的方法，其中，所述方法还包括：

响应于所述解码器解码到所述蛋白质序列的终止标识，停止继续解码，并输出所有解码出的第二氨基酸。

7.根据权利要求1所述的方法，其中，所述对所述蛋白质序列进行编码，得到所述蛋白质序列L行的第一表征向量，包括：

将所述蛋白质序列输入预训练的编码器中，由所述编码器获取所述蛋白质序列L行的初始表征向量，并对所述初始表征向量进行注意力机制，得到所述蛋白质序列L行的第一表征向量。

8.一种多肽序列的生成装置，包括：

获取模块，用于获取由多个第一氨基酸组成的蛋白质序列；

编码模块，用于对所述蛋白质序列进行编码，得到所述蛋白质序列L行的第一表征向量，所述第一表征向量中包括多个氨基酸之间的相互关联信息，其中，所述L为大于或者等于1的自然数；

解码模块，用于通过注意力机制，对所述蛋白质序列的第一表征向量进行解码，得到K个第二氨基酸，其中，所述K为大于或者等于1的自然数；

生成模块，用于基于K个所述第二氨基酸，生成多肽序列；

所述解码模块，还用于：

对所述解码器当前输入的第一表征向量和所述第二表征向量进行注意力机制，得到第N+1个第二氨基酸；

所述生成模块，还用于：

获取所述K个第二氨基酸中每个第二氨基酸的解码时间；

按照所述解码时间从早到晚对所述K个第二氨基酸进行合成，以生成所述多肽序列。

9.根据权利要求8所述的装置，其中，所述解码模块，还用于：

根据所述生成概率确定所述第N+1个第二氨基酸。

10.根据权利要求9所述的装置，其中，所述解码模块，还用于：

11.根据权利要求9所述的装置，其中，所述解码模块，还用于：

12.根据权利要求8所述的装置，其中，所述解码模块，还用于：

13.根据权利要求8所述的装置，其中，所述解码模块，还用于：

14.根据权利要求8所述的装置，其中，所述编码模块，还用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的多肽序列的生成方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的多肽序列的生成方法。