CN114724643A - 一种多肽化合物的筛选方法以及相关装置 - Google Patents

一种多肽化合物的筛选方法以及相关装置 Download PDF

Info

Publication number
CN114724643A
CN114724643A CN202110013890.XA CN202110013890A CN114724643A CN 114724643 A CN114724643 A CN 114724643A CN 202110013890 A CN202110013890 A CN 202110013890A CN 114724643 A CN114724643 A CN 114724643A
Authority
CN
China
Prior art keywords
polypeptide
activity
information
model
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110013890.XA
Other languages
English (en)
Inventor
叶阁焰
刘伟
黄俊洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110013890.XA priority Critical patent/CN114724643A/zh
Publication of CN114724643A publication Critical patent/CN114724643A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本申请公开了一种多肽化合物的筛选方法以及相关装置,应用于人工智能领域。通过获取多肽生成模型;然后基于多肽生成模型生成至少一个多肽序列,多肽生成模型包括编码层与解码层,编码层用于根据训练数据生成隐空间,隐空间用于提供采样点,多肽序列基于解码层对采样点解码所得;进而将多肽序列输入活性预测模型,以得到活性预测信息。从而实现快速且准确的多肽化合物活性筛选过程,由于活性预测模型的输入采用多肽生成模型中的特征维度采样所得的多肽序列,保证了采样的有效性,且无需人工进行,进一步提高了多肽化合物筛选的准确性。

Description

一种多肽化合物的筛选方法以及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种多肽化合物的筛选方法以及相关装置。
背景技术
AI(Artificial Intelligence,人工智能),是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。时下AI技术已经被广泛应用于多种场景下,比如AI医疗场景便是其中一种。
一般,在AI医疗场景中可以基于人工智能进行抗菌肽的活性预测,而对于预测的过程可以采用人工添加化合物特征,以进行相似化合物的识别。
但是,人工添加化合物特征的方式不利于大量多肽化合物的筛选,耗时耗力,且人工添加的特征容易出现错误,影响多肽化合物筛选的准确性。
发明内容
有鉴于此,本申请提供一种多肽化合物的筛选方法,可以有效提高多肽化合物筛选的准确性。
本申请第一方面提供一种多肽化合物的筛选方法,可以应用于终端设备中包含多肽化合物的筛选功能的系统或程序中,具体包括:
响应于目标指令获取多肽生成模型;
基于所述多肽生成模型生成至少一个多肽序列,所述多肽生成模型包括编码层与解码层,所述编码层用于根据训练数据生成隐空间,所述隐空间用于提供采样点,所述多肽序列基于所述解码层对所述采样点解码所得;
将所述多肽序列输入活性预测模型,以得到活性预测信息,所述活性预测信息用于筛选得到所述多肽序列中的目标多肽。
可选的,在本申请一些可能的实现方式中,所述基于所述多肽生成模型生成至少一个多肽序列,包括:
确定所述多肽生成模型中的所述编码层对应的所述隐空间;
基于高斯分布对所述隐空间进行采样,以得到所述采样点;
将所述采样点输入所述解码层,以得到所述多肽序列。
可选的,在本申请一些可能的实现方式中,所述将所述采样点输入所述解码层,以得到所述多肽序列,包括:
将所述采样点输入所述解码层,以得到候选序列;
获取所述目标指令中指示的活性信息;
确定所述活性信息对应的化合物参数限制信息;
基于所述化合物参数限制信息对所述候选序列进行筛选,以得到所述多肽序列。
可选的,在本申请一些可能的实现方式中,所述确定所述活性信息对应的化合物参数限制信息,包括:
根据所述活性信息确定目标多肽类别;
确定所述目标多肽类别对应的氨基酸数量范围;
根据所述氨基酸数量范围确定所述化合物参数限制信息。
可选的,在本申请一些可能的实现方式中,所述将所述多肽序列输入活性预测模型,以得到活性预测信息,包括:
确定所述多肽序列对应的第一氨基酸字符串序列;
将所述第一氨基酸字符串序列输入所述活性预测模型中的嵌入层,以得到第一嵌入矩阵;
将所述第一嵌入矩阵输入所述活性预测模型中的注意力编码层,以得到第一编码矩阵;
将所述第一编码矩阵输入所述活性预测模型中的平均池化层,以得到第一池化信息;
将所述第一池化信息输入所述活性预测模型中的全连接层,以得到第一活性预测值;
基于所述第一活性预测值确定所述活性预测信息。
可选的,在本申请一些可能的实现方式中,所述基于所述活性预测值确定所述活性预测信息,包括:
基于所述活性预测值生成目标活性序列;
根据预测规则确定所述目标活性序列中的目标项,所述预测规则基于数值大小或排序位置设定;
提取所述目标项,以得到所述活性预测信息。
可选的,在本申请一些可能的实现方式中,所述响应于目标指令获取多肽生成模型,包括:
获取所述目标指令对应的活性信息;
基于所述活性信息调用所述训练数据;
根据所述训练数据对初始生成模型进行训练,以生成所述多肽生成模型。
可选的,在本申请一些可能的实现方式中,所述根据所述训练数据对初始生成模型进行训练,以生成所述多肽生成模型,包括:
获取所述训练数据对应的第二氨基酸字符串序列;
将所述第二氨基酸字符串序列输入所述初始生成模型中金的嵌入层,以得到第二嵌入矩阵;
将所述第二嵌入矩阵输入所述初始生成模型中的编码层,以得到所述训练数据在隐空间中的分布信息;
基于所述分布信息进行解码,以得到解码数据;
确定所述解码数据与所述训练数据的差异信息;
基于所述差异信息对所述初始生成模型进行训练,以生成所述多肽生成模型。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
基于所述活性信息采集多肽活性数据;
确定所述多肽活性数据对应的第三氨基酸字符串序列;
将所述第三氨基酸字符串序列输入初始预测模型中的嵌入层,以得到第三嵌入矩阵;
将所述第三嵌入矩阵输入所述初始预测模型中的注意力编码层,以得到第二编码矩阵;
将所述第二编码矩阵输入所述初始预测模型中的平均池化层,以得到第二池化信息;
将所述第二编码矩阵输入所述初始预测模型中的全连接层,以得到第二活性预测值;
确定所述第二活性预测值与所述多肽活性数据对应的真实值之间的数值差异;
根据所述数值差异对所述初始预测模型进行训练,以得到所述多肽预测模型。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取所述目标指令对应的对比多肽;
确定所述对比多肽对应的氨基酸分布信息;
将所述对比多肽对应的氨基酸分布信息与所述多肽序列对应的氨基酸分布信息进行比对,以得到比对信息,所述比对信息用于指示所述多肽生成模型的生成效率。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取在多个活性指标下的活性预测信息;
提取多个所述活性指标下的活性预测信息中的相同项,以得到所述目标多肽。
可选的,在本申请一些可能的实现方式中,所述目标指令用于指示抗菌肽的筛选,所述多肽生成模型为变分编码器,所述活性预测模型为注意力机制编码器,所述活性预测信息为抗菌性预测值序列。
本申请第二方面提供一种多肽化合物的筛选装置,包括:
获取单元,用于响应于目标指令获取多肽生成模型;
生成单元,用于基于所述多肽生成模型生成至少一个多肽序列,所述多肽生成模型包括编码层与解码层,所述编码层用于根据训练数据生成隐空间,所述隐空间用于提供采样点,所述多肽序列基于所述解码层对所述采样点解码所得;
筛选单元,用于将所述多肽序列输入活性预测模型,以得到活性预测信息,所述活性预测信息用于筛选得到所述多肽序列中的目标多肽。
可选的,在本申请一些可能的实现方式中,所述生成单元,具体用于确定所述多肽生成模型中的所述编码层对应的所述隐空间;
所述生成单元,具体用于基于高斯分布对所述隐空间进行采样,以得到所述采样点;
所述生成单元,具体用于将所述采样点输入所述解码层,以得到所述多肽序列。
可选的,在本申请一些可能的实现方式中,所述生成单元,具体用于将所述采样点输入所述解码层,以得到候选序列;
所述生成单元,具体用于获取所述目标指令中指示的活性信息;
所述生成单元,具体用于确定所述活性信息对应的化合物参数限制信息;
所述生成单元,具体用于基于所述化合物参数限制信息对所述候选序列进行筛选,以得到所述多肽序列。
可选的,在本申请一些可能的实现方式中,所述生成单元,具体用于根据所述活性信息确定目标多肽类别;
所述生成单元,具体用于确定所述目标多肽类别对应的氨基酸数量范围;
所述生成单元,具体用于根据所述氨基酸数量范围确定所述化合物参数限制信息。
可选的,在本申请一些可能的实现方式中,所述筛选单元,具体用于确定所述多肽序列对应的第一氨基酸字符串序列;
所述筛选单元,具体用于将所述第一氨基酸字符串序列输入所述活性预测模型中的嵌入层,以得到第一嵌入矩阵;
所述筛选单元,具体用于将所述第一嵌入矩阵输入所述活性预测模型中的注意力编码层,以得到第一编码矩阵;
所述筛选单元,具体用于将所述第一编码矩阵输入所述活性预测模型中的平均池化层,以得到第一池化信息;
所述筛选单元,具体用于将所述第一池化信息输入所述活性预测模型中的全连接层,以得到第一活性预测值;
所述筛选单元,具体用于基于所述第一活性预测值确定所述活性预测信息。
可选的,在本申请一些可能的实现方式中,所述筛选单元,具体用于基于所述活性预测值生成目标活性序列;
所述筛选单元,具体用于根据预测规则确定所述目标活性序列中的目标项,所述预测规则基于数值大小或排序位置设定;
所述筛选单元,具体用于提取所述目标项,以得到所述活性预测信息。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于获取所述目标指令对应的活性信息;
所述获取单元,具体用于基于所述活性信息调用所述训练数据;
所述获取单元,具体用于根据所述训练数据对初始生成模型进行训练,以生成所述多肽生成模型。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于获取所述训练数据对应的第二氨基酸字符串序列;
所述获取单元,具体用于将所述第二氨基酸字符串序列输入所述初始生成模型中金的嵌入层,以得到第二嵌入矩阵;
所述获取单元,具体用于将所述第二嵌入矩阵输入所述初始生成模型中的编码层,以得到所述训练数据在隐空间中的分布信息;
所述获取单元,具体用于基于所述分布信息进行解码,以得到解码数据;
所述获取单元,具体用于确定所述解码数据与所述训练数据的差异信息;
所述获取单元,具体用于基于所述差异信息对所述初始生成模型进行训练,以生成所述多肽生成模型。
可选的,在本申请一些可能的实现方式中,所述筛选单元,具体用于基于所述活性信息采集多肽活性数据;
所述筛选单元,具体用于确定所述多肽活性数据对应的第三氨基酸字符串序列;
所述筛选单元,具体用于将所述第三氨基酸字符串序列输入初始预测模型中的嵌入层,以得到第三嵌入矩阵;
所述筛选单元,具体用于将所述第三嵌入矩阵输入所述初始预测模型中的注意力编码层,以得到第二编码矩阵;
所述筛选单元,具体用于将所述第二编码矩阵输入所述初始预测模型中的平均池化层,以得到第二池化信息;
所述筛选单元,具体用于将所述第二编码矩阵输入所述初始预测模型中的全连接层,以得到第二活性预测值;
所述筛选单元,具体用于确定所述第二活性预测值与所述多肽活性数据对应的真实值之间的数值差异;
所述筛选单元,具体用于根据所述数值差异对所述初始预测模型进行训练,以得到所述多肽预测模型。
可选的,在本申请一些可能的实现方式中,所述筛选单元,具体用于获取所述目标指令对应的对比多肽;
所述筛选单元,具体用于确定所述对比多肽对应的氨基酸分布信息;
所述筛选单元,具体用于将所述对比多肽对应的氨基酸分布信息与所述多肽序列对应的氨基酸分布信息进行比对,以得到比对信息,所述比对信息用于指示所述多肽生成模型的生成效率。
可选的,在本申请一些可能的实现方式中,所述筛选单元,具体用于获取在多个活性指标下的活性预测信息;
所述筛选单元,具体用于提取多个所述活性指标下的活性预测信息中的相同项,以得到所述目标多肽。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的多肽化合物的筛选方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的多肽化合物的筛选方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的多肽化合物的筛选方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过响应于目标指令获取多肽生成模型;然后基于多肽生成模型生成至少一个多肽序列,多肽生成模型包括编码层与解码层,编码层用于根据训练数据生成隐空间,隐空间用于提供采样点,多肽序列基于解码层对采样点解码所得;进而将多肽序列输入活性预测模型,以得到活性预测信息,活性预测信息用于筛选得到多肽序列中的目标多肽。从而实现快速且准确的多肽化合物活性筛选过程,由于活性预测模型的输入采用多肽生成模型中的特征维度采样所得的多肽序列,保证了采样的有效性,且无需人工进行,进一步提高了多肽化合物筛选的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为多肽化合物的筛选系统运行的网络架构图;
图2为本申请实施例提供的一种多肽化合物的筛选的流程架构图;
图3为本申请实施例提供的一种多肽化合物的筛选方法的流程图;
图4为本申请实施例提供的一种多肽化合物的筛选方法的场景示意图;
图5为本申请实施例提供的另一种多肽化合物的筛选方法的场景示意图;
图6为本申请实施例提供的另一种多肽化合物的筛选方法的场景示意图;
图7为本申请实施例提供的另一种多肽化合物的筛选方法的流程图;
图8为本申请实施例提供的另一种多肽化合物的筛选方法的流程图;
图9为本申请实施例提供的另一种多肽化合物的筛选方法的场景示意图;
图10为本申请实施例提供的一种多肽化合物的筛选装置的结构示意图;
图11为本申请实施例提供的一种终端设备的结构示意图;
图12为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种多肽化合物的筛选方法以及相关装置,可以应用于终端设备中包含多肽化合物的筛选功能的系统或程序中,通过响应于目标指令获取多肽生成模型;然后基于多肽生成模型生成至少一个多肽序列,多肽生成模型包括编码层与解码层,编码层用于根据训练数据生成隐空间,隐空间用于提供采样点,多肽序列基于解码层对采样点解码所得;进而将多肽序列输入活性预测模型,以得到活性预测信息,活性预测信息用于筛选得到多肽序列中的目标多肽。从而实现快速且准确的多肽化合物活性筛选过程,由于活性预测模型的输入采用多肽生成模型中的特征维度采样所得的多肽序列,保证了采样的有效性,且无需人工进行,进一步提高了多肽化合物筛选的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
抗菌肽(Antimicrobial Peptide,AMP):一类具有抗菌活性的多肽,是生物体先天免疫系统的重要组成部分,具有广谱杀菌作用,并且可以用于治疗癌症、抗病毒、抗感染等。
应理解,本申请提供的多肽化合物的筛选方法可以应用于终端设备中包含多肽化合物的筛选功能的系统或程序中,例如药物开发软件,具体的,多肽化合物的筛选系统可以运行于如图1所示的网络架构中,如图1所示,是多肽化合物的筛选系统运行的网络架构图,如图可知,多肽化合物的筛选系统可以提供与多个信息源的多肽化合物的筛选过程,即通过终端侧的化合物筛选需求向服务器发送筛选指令,在服务器中基于筛选指令进行化合物的生成,并对化合物的活性进行预测,从而反馈相关的活性化合物给终端;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到多肽化合物的筛选的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,例如不同活性的预测场景;具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述多肽化合物的筛选系统可以运行于个人移动终端,例如:作为药物开发软件这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供多肽化合物的筛选,以得到信息源的多肽化合物的筛选处理结果;具体的多肽化合物的筛选系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
AI(Artificial Intelligence,人工智能),是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。时下AI技术已经被广泛应用于多种场景下,比如AI医疗场景便是其中一种。
一般,在AI医疗场景中可以基于人工智能中的深度学习技术进行抗菌肽的活性预测,其中深度学习为机器学习的一种,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体的,对于多肽化合物活性预测的过程可以采用人工添加化合物特征,以进行相似化合物的识别。
但是,人工添加化合物特征的方式不利于大量多肽化合物的筛选,耗时耗力,且人工添加的特征容易出现错误,影响多肽化合物筛选的准确性。
为了解决上述问题,本申请提出了一种多肽化合物的筛选方法,该方法应用于图2所示的多肽化合物的筛选的流程框架中,如图2所示,为本申请实施例提供的一种多肽化合物的筛选的流程架构图,用户通过终端进行筛选指令的交互,进而触发服务器进行训练数据的采集,然后基于该训练数据对多肽生成模型和活性预测模型进行训练;可示例的,该多肽生成模型为变分编码器(Variational Auto-Encoder,VAE),而活性预测模型为基于注意力机制的编码器;进而基于训练好的多肽生成模型进行多肽化合物的生成,并基于活性预测模型进行活性预测,并反馈至终端。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种多肽化合物的筛选装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该多肽化合物的筛选装置通过响应于目标指令获取多肽生成模型;然后基于多肽生成模型生成至少一个多肽序列,多肽生成模型包括编码层与解码层,编码层用于根据训练数据生成隐空间,隐空间用于提供采样点,多肽序列基于解码层对采样点解码所得;进而将多肽序列输入活性预测模型,以得到活性预测信息,活性预测信息用于筛选得到多肽序列中的目标多肽。从而实现快速且准确的多肽化合物活性筛选过程,由于活性预测模型的输入采用多肽生成模型中的特征维度采样所得的多肽序列,保证了采样的有效性,且无需人工进行,进一步提高了多肽化合物筛选的准确性。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中多肽化合物的筛选方法进行介绍,请参阅图3,图3为本申请实施例提供的一种多肽化合物的筛选方法的流程图,该管理方法可以是由终端执行的,也可以是由服务器执行的,还可以是由终端与服务器共同执行的,下面以终端执行为例进行说明。本申请实施例至少包括以下步骤:
301、响应于目标指令获取多肽生成模型。
本实施例中,目标指令可以是针对于活性指标的多肽化合物筛选指令,具体的,活性指标即筛选所得的多肽化合物所具有的活性类型,例如:抗菌性、治疗癌症能力、抗病毒性、抗感染性等,在下述实施例中以抗菌性为例进行说明,即多肽化合物为抗菌肽,具体化合物形式因实际场景而定,此处不做限定。
可以理解的是,对于不同的活性指标对应了不同的多肽生成模型,该多肽生成模型即用于生成包含活性指标对应的多肽化合物特征的多个多肽化合物。
302、基于多肽生成模型生成至少一个多肽序列。
本实施例中,多肽生成模型包括编码层与解码层,该编码层用于根据训练数据生成隐空间(Latent Space),该隐空间用于提供采样点,该多肽序列基于解码层对采样点解码所得;其中,隐空间即为将训练数据基于活性指标对应的化合物特征向量化后的一种隐向量,基于该隐向量进行采样可以保证所得采样点均是基于有效特征(活性指标对应的化合物特征)所得,例如对于抗菌肽筛选的训练数据即为从公开数据库采集的抗菌肽数据,以及这些抗菌肽数据所对应的有效特征(氨基酸特征、构象特征、官能团特征等),从而基于该有效特征进行采样,保证了生成的抗菌肽的有效性。
在一种可能的场景中,多肽生成模型可以是变分编码器,具体如图4所示,图4为本申请实施例提供的一种多肽化合物的筛选方法的场景示意图;图中将训练数据中的抗菌肽输入变分编码器中的编码层,进而基于特征分类以及特征平均值进行隐空间的构建,从而得到训练数据在隐空间的分布,进而采样隐空间的一个点,将采样点经过解码单元进行解码,从而计算重构误差,并通过神经网络反向传播,以对变分编码器进行训练。其中,编码层可以是推断网络,用于原始输入数据的变分推断,生成隐变量的变分概率分布;解码层可以是生成网络,它是根据生成的隐变量变分概率分布还原为原始数据的近似概率分布,而推断网络和生成网络均为包含多层门循环单元(Gated Recurrent Unit,GRU)的循环神经网络(Recurrent Neural Networks,RNN)。
具体的,在隐空间中的采样过程可以是随机进行的,即首先确定多肽生成模型中的编码层对应的隐空间;然后基于高斯分布对隐空间进行采样,以得到采样点;进而将采样点输入解码层,以得到多肽序列。具体的,以抗菌肽为例,即将抗菌肽表示为氨基酸字符串序列,经过一个嵌入层(Embedding Layer),得到对应的嵌入矩阵(Embedding Matrix);然后将抗菌肽的嵌入矩阵,经过编码层,编码为隐空间上的分布,从而在隐空间上的分布中进行采样并解码,得到多肽序列。
可以理解的是,多肽序列为多个多肽化合物的集合,即基于有效特征的一系列化合物,相较于多特征结合的生成过程,基于有效特征的序列筛选,保证了化合物生成的全面性。
可选的,由于不同类别的多肽存在一定的参数限制,故可以首先将采样点输入解码层,以得到候选序列;然后获取目标指令中指示的活性信息,例如抗菌性;并确定活性信息对应的化合物参数限制信息,例如抗菌肽对应的链长;进而基于化合物参数限制信息对候选序列进行筛选,以得到多肽序列,从而保证了生成的多肽序列的准确性。
进一步的,还可以根据活性信息确定目标多肽类别,例如抗菌性对应为短肽;然后确定目标多肽类别对应的氨基酸数量范围;进而根据氨基酸数量范围确定化合物参数限制信息。例如抗菌肽是一种短肽,长度(氨基酸数量)范围一般是20~30个氨基酸,因此,可见将生成的抗菌肽序列长度限定为20~30个氨基酸,从而对多肽序列中的多肽化合物进行筛选,进一步保证了多肽序列的准确性。
303、将多肽序列输入活性预测模型,以得到活性预测信息。
本实施例中,活性预测信息用于筛选得到多肽序列中的目标多肽,具体的,活性预测信息可以是多肽序列对应的预测值序列,对应的筛选得到多肽序列中的目标多肽的过程可以是按照预设规则进行的,即首先基于活性预测值生成目标活性序列;然后根据预测规则确定目标活性序列中的目标项,该预测规则基于数值大小或排序位置设定;进而提取目标项,以得到活性预测信息。例如预设规则为从大到小的顺序排列,取预测值大的多肽化合物,也可以取预测值大于阈值的多肽化合物,具体方式因实际场景而定,此处不做限定。
具体的,对于得到活性预测信息的过程,可以首先确定多肽序列对应的第一氨基酸字符串序列;然后将第一氨基酸字符串序列输入活性预测模型中的嵌入层,以得到第一嵌入矩阵;进而将第一嵌入矩阵输入活性预测模型中的注意力编码层,以得到第一编码矩阵;并将第一编码矩阵输入活性预测模型中的平均池化层,以得到第一池化信息;进而将第一池化信息输入活性预测模型中的全连接层,以得到第一活性预测值;从而基于第一活性预测值确定活性预测信息。
在一种可能的场景中,上述活性预测模型可以采用基于注意力机制的编码器,如图5所示,图5为本申请实施例提供的一种多肽化合物的筛选方法的场景示意图;图中示出了首先将抗菌肽表示为氨基酸字符串序列(第一氨基酸字符串序列),经过一个嵌入层(第一嵌入矩阵),得到对应的嵌入矩阵(第一嵌入矩阵);然后将抗菌肽的嵌入矩阵输入Transformer算法的编码层(注意力编码),得到抗菌肽序列的编码矩阵(第一编码矩阵),进而将抗菌肽序列的编码矩阵经过平均池化层(Mean Pooling Layer)和全连接层,获得活性预测值(第一活性预测值)。
可选的,为了评估上述实施例中多肽生成模型的效率,可以获取目标指令对应的对比多肽;然后确定对比多肽对应的氨基酸分布信息;进而将对比多肽对应的氨基酸分布信息与多肽序列对应的氨基酸分布信息进行比对,以得到比对信息,比对信息用于指示多肽生成模型的生成效率。
在一种可能的场景中,可以将本申请中的抗菌肽生成算法与以往的算法在抗菌肽生成有效率(被活性预测模型预测为抗菌肽的比例)上进行对比;如表1所示,为抗菌多肽生成有效率对比;可见表中其中示出了有88%的抗菌肽序列被预测有抗菌活性的,高于另外两种多肽生成方法。
表1抗菌多肽生成有效率对比
方法 有效率(%)
随机生成 65
LSTM 82
本申请 88
另外,对于生成的抗菌肽中氨基酸分布情况的评估,如图6所示,图6为本申请实施例提供的另一种多肽化合物的筛选方法的场景示意图;可见生成的抗菌肽中氨基酸分布与真实的抗菌肽氨基酸分布基本一致,说明本申请生成的多肽序列的有效性。
进一步的,还可以将本申请中的抗菌肽活性预测算法与其他的算法进行比较,例如基于回归数据进行对比,如表2所示,为抗菌肽活性预测的回归数据效果对比,可见本申请中的算法的回归性优于其他算法。
表2抗菌肽活性预测的回归数据效果对比
方法 回归值R
Ridge 0.627
CNN 0.77
本申请 0.79
另外还可以基于分类数据进行对比,如表3所示,为抗菌肽活性预测的回归数据效果对比,可见本申请中的算法的分类效果优于其他算法。
表3抗菌肽活性预测分类数据效果对比
方法 AUC-ROC
iAMP-2L 0.849
CAMP RF 0.9363
CAMP SVM 0.9063
AMP Scanner 0.9648
本申请 0.972
结合上述实施例可知,通过响应于目标指令获取多肽生成模型;然后基于多肽生成模型生成至少一个多肽序列,多肽生成模型包括编码层与解码层,编码层用于根据训练数据生成隐空间,隐空间用于提供采样点,多肽序列基于解码层对采样点解码所得;进而将多肽序列输入活性预测模型,以得到活性预测信息,活性预测信息用于筛选得到多肽序列中的目标多肽。从而实现快速且准确的多肽化合物活性筛选过程,由于活性预测模型的输入采用多肽生成模型中的特征维度采样所得的多肽序列,保证了采样的有效性,且无需人工进行,进一步提高了多肽化合物筛选的准确性。
下面基于图4和图5所示的模型架构对模型训练的过程进行说明。请参阅图7,图7为本申请实施例提供的另一种多肽化合物的筛选方法的流程图,本申请实施例至少包括以下步骤:
701、确定目标指令对应的活性指标。
本实施例中,目标指令即对于还没有执行过筛选过程的活性指标的筛选过程,例如第一次执行抗癌活性的多肽化合物筛选,需要进行模型的训练后再执行具体的化合物的筛选进程。
702、基于活性指标采集训练数据。
本实施例中,训练数据的采集过程分别对应于多肽生成模型和活性预测模型,即多肽生成模型和活性预测模型对应的训练数据可以相同也可以不同,具体的数据来源可以是公开的网络数据、本地数据库数据、或基于爬虫技术所得的相关数据等,具体的数据来源因实际场景而定,此处不做限定。
703、根据训练数据对多肽生成模型和活性预测模型进行训练。
本实施例中,对于模型训练的过程,需要基于不同的活性信息(活性指标)进行,即首先获取目标指令对应的活性信息;然后基于活性信息调用训练数据;进而根据训练数据对初始生成模型进行训练,以生成多肽生成模型。
具体的,对于多肽生成模型的训练过程,可以是首先获取训练数据对应的第二氨基酸字符串序列;然后将第二氨基酸字符串序列输入初始生成模型中金的嵌入层,以得到第二嵌入矩阵;并将第二嵌入矩阵输入初始生成模型中的编码层,以得到训练数据在隐空间中的分布信息;然后基于分布信息进行解码,以得到解码数据;确定解码数据与训练数据的差异信息;从而基于差异信息对初始生成模型进行训练,以生成多肽生成模型。
另外,对于活性预测模型的训练过程,可以首先基于活性信息采集多肽活性数据;然后确定多肽活性数据对应的第三氨基酸字符串序列;进而将第三氨基酸字符串序列输入初始预测模型中的嵌入层,以得到第三嵌入矩阵;并将第三嵌入矩阵输入初始预测模型中的注意力编码层,以得到第二编码矩阵;进一步将第二编码矩阵输入初始预测模型中的平均池化层,以得到第二池化信息;将第二编码矩阵输入初始预测模型中的全连接层,以得到第二活性预测值;确定第二活性预测值与多肽活性数据对应的真实值之间的数值差异;从而根据数值差异对初始预测模型进行训练,以得到多肽预测模型。
下面结合抗菌肽筛选首次执行的场景(或训练数据调整后的场景),对训练过程和筛选的过程进行说明。
第一个阶段,多肽生成模型训练,首先根据公开数据库上搜集到的抗菌肽数据,训练得到一个变分编码器,用于后续的抗菌肽序列生成。具体地,如图1所示,本申请采用了两个包含多层GRU的循环神经网络,分别作为变分编码器的编码(Encoder)和解码(Decoder)单元,经过训练后使得经过编码、解码后的数据与初始数据之间的重构误差最小。具体可以首先将抗菌肽表示为氨基酸字符串序列,经过一个嵌入层(Embedding Layer),得到对应的嵌入矩阵(Embedding Matrix)。然后将抗菌肽的嵌入矩阵,经过编码单元,编码为隐空间(Latent Space)上的分布。进一步从上述分布中,采样隐空间的一个点,将采样点经过解码单元进行解码。最后计算重构误差,并通过神经网络反向传播。
第二个阶段,活性预测模型训练,首先根据公开数据库上搜集的抗菌肽活性数据,训练一个基于注意力机制的抗菌肽活性预测模型,用于后续的抗菌肽活性预测筛选。具体地,首先将抗菌肽表示为氨基酸字符串序列,经过一个嵌入层(Embedding Layer),得到对应的嵌入矩阵(Embedding Matrix);然后将抗菌肽的嵌入矩阵输入Transformer算法的Encoder模块,得到抗菌肽序列的编码矩阵。进而将抗菌肽序列的编码矩阵经过平均池化层(Mean Pooling Layer)和全连接层,获得活性预测值。最后计算活性预测值和真实值之间的误差,并通过神经网络反向传播。
第三个阶段,多肽化合物生成;即使用在第一个阶段中训练好的抗菌肽生成模型,生成抗菌肽序列。具体的可以首先根据高斯分布,采样隐空间的一个点。然后将上步得到的采样点经过解码单元进行解码,得到抗菌肽序列。另外,可以在解码过程中对生成的抗菌肽长度进行限制,抗菌肽是一种短肽,长度(氨基酸数量)范围一般是20~30个氨基酸,故可以将生成的抗菌肽序列长度限定为20~30个氨基酸。
第四个阶段,多肽化合物活性预测;即使用第二个阶段训练好抗菌肽活性预测模型,对第三个阶段得到的抗菌肽进行活性预测,并将预测结果根据抗菌活性预测值从大到小排序,筛选出最终的抗菌多肽,用于后期的湿实验验证,即应用于实验室的化学实验中。
通过上述实施例可见,本申请一方面提出了基于变分编码器的抗菌肽生成算法,提高了抗菌肽生成效率,另一方面,提出了一种基于注意力机制的抗菌肽活性预测算法,提高了抗菌肽活性预测准确度。
可以理解的是,上述多肽化合物筛选的方法可以作用于不同的活性指标的筛选,下面对该场景进行说明。请参阅图8,图8为本申请实施例提供的另一种多肽化合物的筛选方法的流程图,本申请实施例至少包括以下步骤:
801、响应于目标指令确定多个活性预测指标。
本实施例中,目标指令即为不同活性预测指标(活性指标)的筛选需求指令,例如对于具体抗菌性、抗癌性双重活性的多肽化合物筛选,具体的活性数量因实际场景而定,此处不做限定。
802、确定活性预测指标对应的多肽生成模型。
803、基于多肽生成模型生成对应的多肽序列。
804、将多肽序列输入活性预测模型,以得到多个活性预测信息。
本实施例中,对于不同的活性预测指标确定活性预测信息的过程即分别采用图3或图7所示实施例的筛选过程,相关特征可以进行参考,此处不做赘述。
805、确定多个活性预测信息中的相同项。
本实施例中,通过对多个活性预测信息中的相同项进行提取,即可以得到包含多种活性的目标多肽。
具体的,相同项的确定,可以是某一多肽化合物在不同活性指标中的预测值均大于活性阈值,即确定为相同项;也可以是某一多肽化合物在不同活性指标中的预测值均为最大值或在序列前三位,即确定为相同项,具体的数值范围因实际场景而定,此处不做限定。
在一种可能的场景中,本实施例可以采用图9所示的界面展示,图9为本申请实施例提供的另一种多肽化合物的筛选方法的场景示意图;图中示出了不同活性指标下的预测值序列,用户可以点击详情查询相关化合物的预测值的计算过程,具体的界面显示参数可以包含图3或图7所述的任意参数,具体参数相似因实际场景而定,此处不做限定。
通过上述实施例可知,通过基于不同活性指标下的训练数据对多肽生成模型和活性预测模型进行训练,保证了不同活性指标下多肽化合物筛选的准确性,从而保证了多活性多肽化合物筛选的准确性,为多功能化合物的筛选提供了可能。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图10,图10为本申请实施例提供的一种多肽化合物的筛选装置的结构示意图,筛选装置1000包括:
获取单元1001,用于响应于目标指令获取多肽生成模型;
生成单元1002,用于基于所述多肽生成模型生成至少一个多肽序列,所述多肽生成模型包括编码层与解码层,所述编码层用于根据训练数据生成隐空间,所述隐空间用于提供采样点,所述多肽序列基于所述解码层对所述采样点解码所得;
筛选单元1003,用于将所述多肽序列输入活性预测模型,以得到活性预测信息,所述活性预测信息用于筛选得到所述多肽序列中的目标多肽。
可选的,在本申请一些可能的实现方式中,所述生成单元1002,具体用于确定所述多肽生成模型中的所述编码层对应的所述隐空间;
所述生成单元1002,具体用于基于高斯分布对所述隐空间进行采样,以得到所述采样点;
所述生成单元1002,具体用于将所述采样点输入所述解码层,以得到所述多肽序列。
可选的,在本申请一些可能的实现方式中,所述生成单元1002,具体用于将所述采样点输入所述解码层,以得到候选序列;
所述生成单元1002,具体用于获取所述目标指令中指示的活性信息;
所述生成单元1002,具体用于确定所述活性信息对应的化合物参数限制信息;
所述生成单元1002,具体用于基于所述化合物参数限制信息对所述候选序列进行筛选,以得到所述多肽序列。
可选的,在本申请一些可能的实现方式中,所述生成单元1002,具体用于根据所述活性信息确定目标多肽类别;
所述生成单元1002,具体用于确定所述目标多肽类别对应的氨基酸数量范围;
所述生成单元1002,具体用于根据所述氨基酸数量范围确定所述化合物参数限制信息。
可选的,在本申请一些可能的实现方式中,所述筛选单元1003,具体用于确定所述多肽序列对应的第一氨基酸字符串序列;
所述筛选单元1003,具体用于将所述第一氨基酸字符串序列输入所述活性预测模型中的嵌入层,以得到第一嵌入矩阵;
所述筛选单元1003,具体用于将所述第一嵌入矩阵输入所述活性预测模型中的注意力编码层,以得到第一编码矩阵;
所述筛选单元1003,具体用于将所述第一编码矩阵输入所述活性预测模型中的平均池化层,以得到第一池化信息;
所述筛选单元1003,具体用于将所述第一池化信息输入所述活性预测模型中的全连接层,以得到第一活性预测值;
所述筛选单元1003,具体用于基于所述第一活性预测值确定所述活性预测信息。
可选的,在本申请一些可能的实现方式中,所述筛选单元1003,具体用于基于所述活性预测值生成目标活性序列;
所述筛选单元1003,具体用于根据预测规则确定所述目标活性序列中的目标项,所述预测规则基于数值大小或排序位置设定;
所述筛选单元1003,具体用于提取所述目标项,以得到所述活性预测信息。
可选的,在本申请一些可能的实现方式中,所述获取单元1001,具体用于获取所述目标指令对应的活性信息;
所述获取单元1001,具体用于基于所述活性信息调用所述训练数据;
所述获取单元1001,具体用于根据所述训练数据对初始生成模型进行训练,以生成所述多肽生成模型。
可选的,在本申请一些可能的实现方式中,所述获取单元1001,具体用于获取所述训练数据对应的第二氨基酸字符串序列;
所述获取单元1001,具体用于将所述第二氨基酸字符串序列输入所述初始生成模型中金的嵌入层,以得到第二嵌入矩阵;
所述获取单元1001,具体用于将所述第二嵌入矩阵输入所述初始生成模型中的编码层,以得到所述训练数据在隐空间中的分布信息;
所述获取单元1001,具体用于基于所述分布信息进行解码,以得到解码数据;
所述获取单元1001,具体用于确定所述解码数据与所述训练数据的差异信息;
所述获取单元1001,具体用于基于所述差异信息对所述初始生成模型进行训练,以生成所述多肽生成模型。
可选的,在本申请一些可能的实现方式中,所述筛选单元1003,具体用于基于所述活性信息采集多肽活性数据;
所述筛选单元1003,具体用于确定所述多肽活性数据对应的第三氨基酸字符串序列;
所述筛选单元1003,具体用于将所述第三氨基酸字符串序列输入初始预测模型中的嵌入层,以得到第三嵌入矩阵;
所述筛选单元1003,具体用于将所述第三嵌入矩阵输入所述初始预测模型中的注意力编码层,以得到第二编码矩阵;
所述筛选单元1003,具体用于将所述第二编码矩阵输入所述初始预测模型中的平均池化层,以得到第二池化信息;
所述筛选单元1003,具体用于将所述第二编码矩阵输入所述初始预测模型中的全连接层,以得到第二活性预测值;
所述筛选单元1003,具体用于确定所述第二活性预测值与所述多肽活性数据对应的真实值之间的数值差异;
所述筛选单元1003,具体用于根据所述数值差异对所述初始预测模型进行训练,以得到所述多肽预测模型。
可选的,在本申请一些可能的实现方式中,所述筛选单元1003,具体用于获取所述目标指令对应的对比多肽;
所述筛选单元1003,具体用于确定所述对比多肽对应的氨基酸分布信息;
所述筛选单元1003,具体用于将所述对比多肽对应的氨基酸分布信息与所述多肽序列对应的氨基酸分布信息进行比对,以得到比对信息,所述比对信息用于指示所述多肽生成模型的生成效率。
可选的,在本申请一些可能的实现方式中,所述筛选单元1003,具体用于获取在多个活性指标下的活性预测信息;
所述筛选单元1003,具体用于提取多个所述活性指标下的活性预测信息中的相同项,以得到所述目标多肽。
通过响应于目标指令获取多肽生成模型;然后基于多肽生成模型生成至少一个多肽序列,多肽生成模型包括编码层与解码层,编码层用于根据训练数据生成隐空间,隐空间用于提供采样点,多肽序列基于解码层对采样点解码所得;进而将多肽序列输入活性预测模型,以得到活性预测信息,活性预测信息用于筛选得到多肽序列中的目标多肽。从而实现快速且准确的多肽化合物活性筛选过程,由于活性预测模型的输入采用多肽生成模型中的特征维度采样所得的多肽序列,保证了采样的有效性,且无需人工进行,进一步提高了多肽化合物筛选的准确性。
本申请实施例还提供了一种终端设备,如图11所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11,手机包括:射频(radio frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作,以及在触控面板1131上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;可选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),可选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1180还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图12,图12是本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统1241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图12所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有多肽化合物的筛选指令,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中多肽化合物的筛选装置所执行的步骤。
本申请实施例中还提供一种包括多肽化合物的筛选指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中多肽化合物的筛选装置所执行的步骤。
本申请实施例还提供了一种多肽化合物的筛选系统,所述多肽化合物的筛选系统可以包含图10所描述实施例中的多肽化合物的筛选装置,或图11所描述实施例中的终端设备,或者图12所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,多肽化合物的筛选装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种多肽化合物的筛选方法,其特征在于,包括:
响应于目标指令获取多肽生成模型;
基于所述多肽生成模型生成至少一个多肽序列,所述多肽生成模型包括编码层与解码层,所述编码层用于根据训练数据生成隐空间,所述隐空间用于提供采样点,所述多肽序列基于所述解码层对所述采样点解码所得;
将所述多肽序列输入活性预测模型,以得到活性预测信息,所述活性预测信息用于筛选得到所述多肽序列中的目标多肽。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多肽生成模型生成至少一个多肽序列,包括:
确定所述多肽生成模型中的所述编码层对应的所述隐空间;
基于高斯分布对所述隐空间进行采样,以得到所述采样点;
将所述采样点输入所述解码层,以得到所述多肽序列。
3.根据权利要求2所述的方法,其特征在于,所述将所述采样点输入所述解码层,以得到所述多肽序列,包括:
将所述采样点输入所述解码层,以得到候选序列;
获取所述目标指令中指示的活性信息;
确定所述活性信息对应的化合物参数限制信息;
基于所述化合物参数限制信息对所述候选序列进行筛选,以得到所述多肽序列。
4.根据权利要求3所述的方法,其特征在于,所述确定所述活性信息对应的化合物参数限制信息,包括:
根据所述活性信息确定目标多肽类别;
确定所述目标多肽类别对应的氨基酸数量范围;
根据所述氨基酸数量范围确定所述化合物参数限制信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述多肽序列输入活性预测模型,以得到活性预测信息,包括:
确定所述多肽序列对应的第一氨基酸字符串序列;
将所述第一氨基酸字符串序列输入所述活性预测模型中的嵌入层,以得到第一嵌入矩阵;
将所述第一嵌入矩阵输入所述活性预测模型中的注意力编码层,以得到第一编码矩阵;
将所述第一编码矩阵输入所述活性预测模型中的平均池化层,以得到第一池化信息;
将所述第一池化信息输入所述活性预测模型中的全连接层,以得到第一活性预测值;
基于所述第一活性预测值确定所述活性预测信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述活性预测值确定所述活性预测信息,包括:
基于所述活性预测值生成目标活性序列;
根据预测规则确定所述目标活性序列中的目标项,所述预测规则基于数值大小或排序位置设定;
提取所述目标项,以得到所述活性预测信息。
7.根据权利要求1所述的方法,其特征在于,所述响应于目标指令获取多肽生成模型,包括:
获取所述目标指令对应的活性信息;
基于所述活性信息调用所述训练数据;
根据所述训练数据对初始生成模型进行训练,以生成所述多肽生成模型。
8.根据权利要求7所述的方法,其特征在于,所述根据所述训练数据对初始生成模型进行训练,以生成所述多肽生成模型,包括:
获取所述训练数据对应的第二氨基酸字符串序列;
将所述第二氨基酸字符串序列输入所述初始生成模型中金的嵌入层,以得到第二嵌入矩阵;
将所述第二嵌入矩阵输入所述初始生成模型中的编码层,以得到所述训练数据在隐空间中的分布信息;
基于所述分布信息进行解码,以得到解码数据;
确定所述解码数据与所述训练数据的差异信息;
基于所述差异信息对所述初始生成模型进行训练,以生成所述多肽生成模型。
9.根据权利要7所述的方法,其特征在于,所述方法还包括:
基于所述活性信息采集多肽活性数据;
确定所述多肽活性数据对应的第三氨基酸字符串序列;
将所述第三氨基酸字符串序列输入初始预测模型中的嵌入层,以得到第三嵌入矩阵;
将所述第三嵌入矩阵输入所述初始预测模型中的注意力编码层,以得到第二编码矩阵;
将所述第二编码矩阵输入所述初始预测模型中的平均池化层,以得到第二池化信息;
将所述第二编码矩阵输入所述初始预测模型中的全连接层,以得到第二活性预测值;
确定所述第二活性预测值与所述多肽活性数据对应的真实值之间的数值差异;
根据所述数值差异对所述初始预测模型进行训练,以得到所述多肽预测模型。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
获取所述目标指令对应的对比多肽;
确定所述对比多肽对应的氨基酸分布信息;
将所述对比多肽对应的氨基酸分布信息与所述多肽序列对应的氨基酸分布信息进行比对,以得到比对信息,所述比对信息用于指示所述多肽生成模型的生成效率。
11.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
获取在多个活性指标下的活性预测信息;
提取多个所述活性指标下的活性预测信息中的相同项,以得到所述目标多肽。
12.根据权利要求1所述的方法,其特征在于,所述目标指令用于指示抗菌肽的筛选,所述多肽生成模型为变分编码器,所述活性预测模型为注意力机制编码器,所述活性预测信息为抗菌性预测值序列。
13.一种多肽化合物的筛选装置,其特征在于,包括:
获取单元,用于响应于目标指令获取多肽生成模型;
生成单元,用于基于所述多肽生成模型生成至少一个多肽序列,所述多肽生成模型包括编码层与解码层,所述编码层用于根据训练数据生成隐空间,所述隐空间用于提供采样点,所述多肽序列基于所述解码层对所述采样点解码所得;
筛选单元,用于将所述多肽序列输入活性预测模型,以得到活性预测信息,所述活性预测信息用于筛选得到所述多肽序列中的目标多肽。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的多肽化合物的筛选方法。
15.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至12任一项所述的多肽化合物的筛选方法。
CN202110013890.XA 2021-01-06 2021-01-06 一种多肽化合物的筛选方法以及相关装置 Pending CN114724643A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110013890.XA CN114724643A (zh) 2021-01-06 2021-01-06 一种多肽化合物的筛选方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110013890.XA CN114724643A (zh) 2021-01-06 2021-01-06 一种多肽化合物的筛选方法以及相关装置

Publications (1)

Publication Number Publication Date
CN114724643A true CN114724643A (zh) 2022-07-08

Family

ID=82234769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110013890.XA Pending CN114724643A (zh) 2021-01-06 2021-01-06 一种多肽化合物的筛选方法以及相关装置

Country Status (1)

Country Link
CN (1) CN114724643A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410660A (zh) * 2022-11-02 2022-11-29 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115691654A (zh) * 2023-01-03 2023-02-03 北京中科弧光量子软件技术有限公司 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法
CN117711532A (zh) * 2024-02-05 2024-03-15 北京悦康科创医药科技股份有限公司 多肽氨基酸序列生成模型训练及相关产品
CN117711532B (zh) * 2024-02-05 2024-05-10 北京悦康科创医药科技股份有限公司 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410660A (zh) * 2022-11-02 2022-11-29 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115410660B (zh) * 2022-11-02 2023-01-24 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115691654A (zh) * 2023-01-03 2023-02-03 北京中科弧光量子软件技术有限公司 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法
CN117711532A (zh) * 2024-02-05 2024-03-15 北京悦康科创医药科技股份有限公司 多肽氨基酸序列生成模型训练及相关产品
CN117711532B (zh) * 2024-02-05 2024-05-10 北京悦康科创医药科技股份有限公司 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法

Similar Documents

Publication Publication Date Title
CN110009052B (zh) 一种图像识别的方法、图像识别模型训练的方法及装置
WO2020103721A1 (zh) 信息处理的方法、装置及存储介质
CN112052841B (zh) 一种视频摘要的生成方法以及相关装置
CN108304388A (zh) 机器翻译方法及装置
CN110069715B (zh) 一种信息推荐模型训练的方法、信息推荐的方法及装置
CN111553162A (zh) 一种意图识别的方法以及相关装置
CN111105852B (zh) 一种电子病历推荐方法、装置、终端及存储介质
CN109918684A (zh) 模型训练方法、翻译方法、相关装置、设备及存储介质
CN110443190B (zh) 一种对象识别方法和装置
CN110135497B (zh) 模型训练的方法、面部动作单元强度估计的方法及装置
CN111813532A (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN111914113A (zh) 一种图像检索的方法以及相关装置
CN109670174A (zh) 一种事件识别模型的训练方法和装置
CN111651604B (zh) 基于人工智能的情感分类方法和相关装置
CN114724643A (zh) 一种多肽化合物的筛选方法以及相关装置
CN110910964A (zh) 一种分子间的结合活性预测方法及装置
CN111222563A (zh) 一种模型训练方法、数据获取方法以及相关装置
CN114334036A (zh) 一种模型训练的方法、相关装置、设备以及存储介质
CN112862021B (zh) 一种内容标注方法和相关装置
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN104090905A (zh) 信息推荐方法和信息推荐系统
CN111738000B (zh) 一种短语推荐的方法以及相关装置
CN111265881B (zh) 一种模型训练方法、内容生成方法以及相关装置
CN112748899A (zh) 一种数据处理方法和相关设备
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination