CN117637029A - 基于深度学习模型的抗体可开发性预测方法和装置 - Google Patents

基于深度学习模型的抗体可开发性预测方法和装置 Download PDF

Info

Publication number
CN117637029A
CN117637029A CN202410111232.8A CN202410111232A CN117637029A CN 117637029 A CN117637029 A CN 117637029A CN 202410111232 A CN202410111232 A CN 202410111232A CN 117637029 A CN117637029 A CN 117637029A
Authority
CN
China
Prior art keywords
antibody
sequence
layer
network
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410111232.8A
Other languages
English (en)
Other versions
CN117637029B (zh
Inventor
司马鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chuangteng Software Co ltd
Original Assignee
Suzhou Chuangteng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chuangteng Software Co ltd filed Critical Suzhou Chuangteng Software Co ltd
Priority to CN202410111232.8A priority Critical patent/CN117637029B/zh
Publication of CN117637029A publication Critical patent/CN117637029A/zh
Application granted granted Critical
Publication of CN117637029B publication Critical patent/CN117637029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习模型的抗体可开发性预测方法和装置,所述方法包括:获取待预测抗体的序列文件,在所述序列文件中识别并提取CDR区和轻重链序列;将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。解决了现有技术中抗体可开发性评估计算量较大,评估效率较低的技术问题。

Description

基于深度学习模型的抗体可开发性预测方法和装置
技术领域
本发明涉及人工智能及抗体性能预测技术领域,具体涉及一种基于深度学习模型的抗体可开发性预测方法和装置。
背景技术
抗体在重大疾病的预防、诊断与治疗中起着至关重要的作用,为了提高利用抗体进行药物开发的成功率,需要对抗体的可开发性进行评估。具体地,可开发性评估是从海量的候选抗体中找出具有理想药效、安全性和药代动力学特性,并且具有理想的理化特性、满足生产、制剂工艺各项技术要求的先导抗体的过程。
抗体的稳定性很大程度上取决于是否容易聚集,而这又主要取决于抗体的疏水相互作用及静电相互作用,据此,在预测抗体稳定性时,已有技术多采用计算抗体可开发性指数的方式。具体地,根据全长抗体的结构计算抗体的净电荷,根据决定簇互补区的空间结构计算抗体的空间聚集属性;然后用这净电荷和空间聚集属性定义可开发性指数。基于该可开发性指数,通过回归模型可定量预测抗体的聚集倾向与稳定性。但利用空间结构预测抗体稳定性的方法,需要基于抗体晶体结构或同源建模形成的理论结构进行计算,其消耗计算资源、速度慢、准确率受理论预测模型精度的影响大,难以对候选抗体进行高通量评估。
因此,如何全面、准确、快速地对海量候选抗体进行可开发性评估,是抗体药物开发领域亟待解决的问题。
发明内容
为此,本发明实施例提供一种基于深度学习模型的抗体可开发性预测方法和装置,以解决现有技术中抗体可开发性评估计算量较大,评估效率较低的技术问题,以期实现全面、准确、快速地对海量候选抗体进行可开发性评估。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明提供了一种基于深度学习模型的抗体可开发性预测方法,所述方法包括:
获取待预测抗体的序列文件;
在所述序列文件中识别并提取CDR区和轻重链序列;
将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;
其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
在一些实施例中,所述嵌入编码层包括:
双向长短时记忆网络,所述双向长短时记忆网络用于对输入的待预测抗体的序列文件进行蛋白序列编码;
残差网络,所述残差网络用于通过逐层堆叠残差块对编码后的蛋白序列进行特征提取,以降低蛋白序列的维度;
多层自注意力网络,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取。
在一些实施例中,利用所述双向长短时记忆网络进行蛋白序列编码的过程,具体包括:
将蛋白序列输入双向长短时记忆网络的嵌入层,通过该嵌入层将每个氨基酸的向量表示映射到一个固定长度的向量;
双向长短时记忆网络的两个子网络LSTM分别从左到右和从右到左读取输入的蛋白序列,在编码过程中获取到前后的上下文信息,以得到蛋白序列特征;
其中,在每个时间步骤中,子网络LSTM将当前时间步的输入向量和前一时间步的隐状态作为输入,计算当前时间步的隐状态,所述隐状态包括细胞状态和隐藏状态,所述细胞状态用于保留长期记忆,所述隐藏状态用于传递信息。
在一些实施例中,所述残差网络具体包括至少一个残差块,每个残差块均包括主路径和跳跃路径;
其中,所述主路径用于提取输入蛋白序列的特征信息,所述跳跃路径用于提供绕过主路径的旁路路径。
在一些实施例中,残差网络通过逐层堆叠残差块对编码后的蛋白序列进行特征提取的过程,具体包括:
输入蛋白序列,将输入的蛋白序列经过卷积和池化操作,通过主路径进行特征提取,并生成中间特征映射;
利用跳跃路径将输入的蛋白序列与主路径输出的中间特征映射相加,形成残差;
将形成的残差通过激活函数进行非线性变换,并进入下一个残差块,直至循环至最后一个残差块;
将最后一个残差块输出的数据进行全局池化,得到最终的特征向量。
在一些实施例中,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取的过程,具体包括:
以残差网络输出的特征向量为输入序列传递给自注意力层;
通过计算注意力权重,在输入序列中建立每个位置与其他位置之间的相关性,以得到注意力权重;
将得到的注意力权重与输入序列的表示进行加权求和,以得到输出特征向量。
在一些实施例中,所述卷积神经网络的网络结构包括:
输入层,所述输入层用于接收蛋白序列;
卷积层,通过卷积核在蛋白序列上进行滑动,以提取局部相关特征,每个卷积核的滑动过程是通过在蛋白序列上进行一系列的乘积和求和操作实现的;对于每个卷积核的输出,通过激活函数引入非线性;
池化层,所述池化层用于通过池化操作减少特征图的维度,并保留目标特征;
全连接层,池化层的输出被连接到一个或多个全连接层中,全连接层将卷积层的输出映射到输出层,生成最终的预测结果。
本发明还提供了一种基于深度学习模型的抗体可开发性预测装置,所述装置包括:
数据获取单元,用于获取待预测抗体的序列文件;
序列提取单元,用于在所述序列文件中识别并提取CDR区和轻重链序列;
结果生成单元,用于将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;
其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。
本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明所提供的基于深度学习模型的抗体可开发性预测方法和装置,通过获取待预测抗体的序列文件,在所述序列文件中识别并提取CDR区和轻重链序列;将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
这样,本发明所提供的方法和装置,通过搭建深度学习网络训练得到的抗体可开发性评估的预测模型,可高效、精准预测高通量抗体可开发性评估指标,提高抗体药物的研发效率,有助于各种重大新发传染病抗体药物的开发,解决了现有技术中抗体可开发性评估计算量较大,评估效率较低的技术问题,从而实现了全面、准确、快速地对海量候选抗体进行可开发性评估。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明所提供的基于深度学习模型的抗体可开发性预测方法的流程图之一;
图2为本发明所提供的基于深度学习模型的抗体可开发性预测方法的流程图之二;
图3为利用本发明所提供的预测方法得到的预测值与实验值的比较结果图之一;
图4为利用本发明所提供的预测方法得到的预测值与实验值的比较结果图之二;
图5为利用本发明所提供的预测方法得到的预测值与实验值的比较结果图之三;
图6为本发明所提供的预测方法得到的预测结果的分布情况示意图;
图7为本发明所提供的基于深度学习模型的抗体可开发性预测装置的结构框图;
图8为本发明所提供的一种计算机设备的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在最新的研究中,通过对比分析了242种临床I期后抗体与大量二代测序人天然抗体的序列与结构,提出了治疗性抗体可开发性评估的5项指导意见:1)决定簇互补区(CDR)的总长度不能太长或太短;2)CDR附近表面疏水区不能过大或过小;3)CDR附近正电区不能过大;4)CDR附近负电区不能过大;5)重链和轻链的净电荷要对称。
基于上述评估原则,快速可靠的抗体可开发性预测器可以减少实验来加速抗体开发,还可以提醒科研人员预见潜在的功效和安全问题,并为修改提供指导。以前的工作已经设计了基于抗体3D结构的精确可开发性指数,但是,获取3D信息的成本很高,因此,可以根据序列信息计算抗体可开发性的深度学习模型工具是非常必要的。本发明将搭建深度学习网络训练抗体可开发性5项指标模型,包括互补决定区(CDR)的总长度,表面疏水性的程度和大小(PSH),CDR中的正电荷(PPC),CDR中的负电荷(PNC),以及重链、轻链表面电荷对称性(SFvCSP)等5项指标,从而实现对海量候选抗体进行可开发性评估。
下面结合图1-图7对本发明所提供的基于深度学习模型的抗体可开发性预测方法和装置进行介绍。
请参考图1,图1为本发明所提供的基于深度学习模型的抗体可开发性预测方法的流程图之一。
在一种具体实施方式中,本发明提供的基于深度学习模型的抗体可开发性预测方法包括以下步骤:
S110:获取待预测抗体的序列文件;从数据集来源上来讲,由于生物医药涵盖各种各样的任务,数据非常的复杂,而且数据的获得和处理需要很多专业知识。这导致了很多机器学习的研究者只能在少量典型且已被深入研究的任务上做方法研究,为了解决这个问题,来自Harvard、MIT、Stanford等名校的学生和教授一起发起了Therapeutics DataCommons (TDC),它是第一个机器学习在生物医药领域应用的大规模数据集。TDC目前包含了20余个有意义的任务,和70多个高质量数据集,从靶蛋白的发现、药物动力学、安全性、药物生产都有涉及,而且不仅仅是小分子,还有抗体、疫苗、miRNA等。因此本发明实施例可从TDC数据集中收集了五个抗体可开发性指标数据集,其中包含242种抗体及相应标签。
S120:在所述序列文件中识别并提取CDR区和轻重链序列。抗体CDR区是抗体分子中的特定区域,它对于抗原的结合和识别起着重要的作用,CDR通常包括CDR1、CDR2和CDR3三个区域,它们位于抗体的可变区域(Variable Region)。本发明实施例中,抗体可开发性五项指标都与CDR区息息相关,所以需要从抗体数据集序列中将CDR识别并提取出来,这对模型训练前的预处理是非常必要的。该实施例采用的是ANARCI(Adaptive numbering ofAntibody Residue Contacts)工具,用于识别抗体CDR的位置和编号,可以将抗体序列映射到标准的CDR定义,并提供了一个标准化的命名方案。
S130:将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;
其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
在具体使用场景中,将嵌入编码层和卷积神经网络进行训练后,将训练得到的预测模型集成为一个组件,用于高通量抗体序列可开发性评估筛选,如图2所示,在输入的Fasta文件中以两条为一组获取序列,截取获取的序列中属于Fv(抗体分子中保留抗原结合部位的最小功能片段,由轻链可变区和重链可变区组成)的部分,判断序列的轻重链,将轻重链传入到AI模型中,获得预测结果,根据预测结果生成并输出结果表格及性质分布图。
其中,Fasta文件格式是一种常用于存储生物序列信息(如DNA、RNA或蛋白质序列)的文本格式(主要是把序列储存到数据库中的一种形式)。
在判断蛋白序列的轻重链时,可通过抗体序列注释工具ANARCI识别重链和轻链,该程序会输出H或者L,H表示重链,L表示轻链。
在一些实施例中,嵌入编码层包括双向长短时记忆网络、残差网络和多层自注意力网络,利用这些网络对抗体蛋白序列进行特征编码,而后利用卷积神经网络对抗体蛋白序列特征编码后的特征进行提取。
具体地,所述嵌入编码层包括:
双向长短时记忆网络,所述双向长短时记忆网络用于对输入的待预测抗体的序列文件进行蛋白序列编码;
残差网络,所述残差网络用于通过逐层堆叠残差块对编码后的蛋白序列进行特征提取,以降低蛋白序列的维度;
多层自注意力网络,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取。
其中,利用所述双向长短时记忆网络进行蛋白序列编码的过程,具体包括:
将蛋白序列输入双向长短时记忆网络的嵌入层,通过该嵌入层将每个氨基酸的向量表示映射到一个固定长度的向量;
双向长短时记忆网络的两个子网络LSTM分别从左到右和从右到左读取输入的蛋白序列,在编码过程中获取到前后的上下文信息,以得到蛋白序列特征;
其中,在每个时间步骤中,子网络LSTM将当前时间步的输入向量和前一时间步的隐状态作为输入,计算当前时间步的隐状态,所述隐状态包括细胞状态和隐藏状态,所述细胞状态用于保留长期记忆,所述隐藏状态用于传递信息。
在一个具体使用场景中,双向长短时记忆网络(Bidirectional Long Short-TermMemory Network,BiLSTM)是一种深度学习模型,用于处理和编码序列数据。它在自然语言处理任务中得到了广泛应用,也可以用于编码蛋白序列。BiLSTM网络由两个LSTM网络组成,一个从左到右处理输入序列,另一个从右到左处理输入序列。这种结构使得网络能够捕捉序列中的上下文信息,并利用双向信息来对序列进行编码。在编码蛋白序列时,每个氨基酸可以表示为一个向量。整个蛋白序列可以看作是一个由向量组成的序列。BiLSTM网络接收蛋白序列作为输入,并通过多个时间步逐渐处理输入。首先,输入蛋白序列通过一个嵌入层,将每个氨基酸的向量表示映射到一个固定长度的向量。然后,BiLSTM网络的两个子网络分别从左到右和从右到左读取输入序列。在每个时间步骤中,LSTM单元将当前时间步的输入向量和前一时间步的隐状态作为输入,计算当前时间步的隐状态。该隐状态由一个细胞状态和一个隐藏状态组成。细胞状态用于保留长期记忆,隐藏状态用于传递信息。双向LSTM网络的关键在于它以相反的顺序处理输入序列的能力。通过同时使用从左到右和从右到左的LSTM单元,网络能够在编码过程中获取到前后的上下文信息。例如,当前时间步的左侧输入的编码将考虑到从序列开始到当前位置的信息,而右侧输入的编码将考虑到从序列末尾到当前位置的信息。因此,BiLSTM网络可以更全面地捕捉到蛋白序列的特征。最后,网络将左右两个LSTM网络的输出进行合并,形成一个综合的编码表示。这个编码表示可以作为后续任务的输入。
其中,所述残差网络具体包括至少一个残差块,每个残差块均包括主路径和跳跃路径;所述主路径用于提取输入蛋白序列的特征信息,所述跳跃路径用于提供绕过主路径的旁路路径。
在一些实施例中,残差网络通过逐层堆叠残差块对编码后的蛋白序列进行特征提取的过程,具体包括:
输入蛋白序列,将输入的蛋白序列经过卷积和池化操作,通过主路径进行特征提取,并生成中间特征映射;
利用跳跃路径将输入的蛋白序列与主路径输出的中间特征映射相加,形成残差;
将形成的残差通过激活函数进行非线性变换,并进入下一个残差块,直至循环至最后一个残差块;
将最后一个残差块输出的数据进行全局池化,得到最终的特征向量。
在一个具体使用场景中,残差网络(Residual Network)是一种深度学习网络结构,其主要思想是通过引入“残差块”(Residual Block)来解决深度神经网络训练过程中的梯度消失和网络退化问题。在残差网络中,每个残差块由两个主要部分组成:主路径和捷径(或称为跳跃连接、旁路连接)。主路径通过堆叠多层卷积、池化等操作来提取输入数据的特征信息。捷径连接则提供了绕过主路径的“跳跃”路径。在降维蛋白序列信息的过程中,残差网络可以通过逐层堆叠残差块的方式对序列进行特征提取和抽象,从而降低数据的维度,提取更为关键和有效的序列信息。
残差网络进行特征提取的具体步骤如下:
1.输入蛋白序列作为网络的输入;
2.序列经过一系列的卷积、池化等操作,通过主路径进行特征提取,并生成中间特征映射;
3.捷径连接将输入序列直接与主路径的输出相加,形成残差。这种方式将原始序列信息(即输入)与主路径提取的特征信息相融合,从而有助于解决信息丢失问题;
4.残差通过激活函数进行非线性变换,并进入下一个残差块,循环上述过程;
5.最后一个残差块的输出通过全局池化等操作得到最终的特征向量;
最终的特征向量可以用于分类、聚类、回归等任务,也可以再经过一些全连接层进行更复杂的操作。残差网络通过引入捷径连接和残差块,使得网络在训练过程中可以更容易地学习到更深层次的特征,并避免梯度消失问题,从而可以提高网络的表达能力,更好地降维蛋白序列信息。
在一些实施例中,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取的过程,具体包括:
以残差网络输出的特征向量为输入序列传递给自注意力层;
通过计算注意力权重,在输入序列中建立每个位置与其他位置之间的相关性,以得到注意力权重;
将得到的注意力权重与输入序列的表示进行加权求和,以得到输出特征向量。
具体地,多层自注意力网络(multi-layer self-attention network)是可以用于嵌入蛋白质序列信息的深度学习模型。它主要利用了自注意力机制(self-attentionmechanism),能够学习到序列中不同位置之间的相关性,并将这些相关性用于生成更有效的表示。在多层自注意力网络中,首先对蛋白质序列进行编码,常用的方法是使用嵌入层将序列中的每个氨基酸转换为一个向量表示。这些向量将作为输入序列传递给自注意力层。自注意力层由多个注意力头(attention head)组成,并在每个注意力头内部进行自注意力计算。在自注意力计算中,通过计算注意力权重,模型可以在序列中建立每个位置与其他位置之间的相关性。注意力权重的计算通常是通过计算输入序列中两个位置的相似性来完成的。这里的相似性可以通过张量乘积、点积等方式计算得到。得到注意力权重后,可以通过将这些权重与输入序列的表示进行加权求和的方式来计算输出特征向量,即对序列进行加权池化。这样做的好处是,可以通过学习到的注意力权重来聚焦于不同位置的重要特征,并将这些特征进行有效的整合。在多层自注意力网络中,通常会使用多个自注意力层进行特征的逐层提取和表示学习。每个自注意力层的输出将作为下一层的输入,并在此输入上再次进行自注意力计算。这样,模型可以逐渐学习到更高层次的抽象表示,以更好地捕捉蛋白质序列的特征。
在一些实施例中,所述卷积神经网络的网络结构包括:
输入层,所述输入层用于接收蛋白序列;
卷积层,通过卷积核在蛋白序列上进行滑动,以提取局部相关特征,每个卷积核的滑动过程是通过在蛋白序列上进行一系列的乘积和求和操作实现的;对于每个卷积核的输出,通过激活函数引入非线性;
池化层,所述池化层用于通过池化操作减少特征图的维度,并保留目标特征;
全连接层,池化层的输出被连接到一个或多个全连接层中,全连接层将卷积层的输出映射到输出层,生成最终的预测结果。
卷积神经网络(Convolutional Neural Network,CNN)是一种主要应用于图像处理和识别的深度学习模型。然而,CNN也可以应用于其他类型的数据,包括蛋白质序列。蛋白质序列是由氨基酸组成的字符串,而卷积神经网络通过在蛋白序列上进行卷积操作来提取编码信息。下面是详细描述卷积神经网络如何提取蛋白序列编码信息的过程:输入层:蛋白质序列作为模型的输入数据。序列可以被表示为一个独热编码的矩阵,也可以是其他编码后的特征信息。卷积层:卷积操作是CNN的核心部分。模型通过不同大小的卷积核在蛋白质序列上进行滑动,提取局部相关特征。每个卷积核的滑动过程是通过在序列上进行一系列的乘积和求和操作实现的。激活函数:对于每个卷积核的输出,通常会应用一个激活函数(例如ReLU函数)来引入非线性。这有助于网络捕获非线性特征,并使网络具有更强的表达能力。池化层:池化操作可以减少特征图的维度,并保留最重要的特征。通过限制卷积特征的大小,池化层可以减少计算量,并提高模型的鲁棒性。全连接层:池化层的输出被连接到一个或多个全连接层中。全连接层将卷积层的输出映射到最终的输出层,生成最终的预测结果。在训练CNN时,网络通过反向传播算法进行优化,以逐渐改进它对蛋白质序列的编码能力。具体来说,在一个标注有标签的蛋白质数据集上,通过计算模型预测结果和真实标签之间的误差,并根据误差对模型参数进行更新,使得模型逐渐收敛到更准确的预测能力。所以,卷积神经网络利用卷积、激活函数和池化操作,以及全连接层,可以从蛋白质序列中提取编码信息,从而用于蛋白质结构预测、功能注释和相关研究。
为了便于理解,下面以一个具体使用场景为例,简述本发明所提供的方法的实施过程和技术效果。
在数据集准备阶段,从TDC数据库下载收集抗体互补决定区的总长度(CDR_length),表面疏水性的程度和大小(PSH),CDR中的正电荷(PPC),CDR中的负电荷(PNC),以及重链、轻链表面电荷对称性(SFvCSP)等五个数据集。
抗体CDR识别阶段,通过ANARCI工具分别识别抗体轻链,重链中的3条CDR区片段,并截取,与上述性质标签保持一一对应,留作输入备用。
模型搭建阶段,编码层开始接双向长短时记忆网络(Bidirectional LSTM),主要捕捉CDR序列中每个残基的上下文信息,生成编码的序列表示,参数包括隐藏状态大小,输入序列维度,隐藏状态层数等;后续接残差网络,主要是降低数据维度、提取关键特征、减少噪音和冗余信息,参数包括各层神经元数量,激活函数等;编码层最后接多层自注意力网络(Multi-Layer Self-Attention Network),主要捕捉序列中的全局依赖关系和相关性,生成嵌入的序列表示,参数包括注意力头数、隐藏维度、层数等。编码层后面接的是卷积神经网络,主要用于提取编码信息,然后通过计算模型预测结果和真实标签之间的误差,并根据误差对模型参数进行更新,使得模型逐渐收敛到更准确的预测能力,参数包括:卷积核大小、步幅、填充、层数等。
通过多轮调参训练,获得了5个抗体可开发性模型,其训练结果如下表1-5所示:
如图3-图5所示,为了验证模型对新样本预测的准确性,对预测值与实验值进行了比较。其中,图3表示抗体CDR区总长度,图4表示CDR周边表面疏水性的区域评分,图5表示结构性Fv电荷对称性参数评分的实验值和模型预测值的比较,横坐标表示实验值,纵坐标表示模型预测值,散点表示测试的抗体样本数据,散点坐标越靠近对角线,说明预测越准确,可以发现大部分散点都在向对角线靠拢,说明模型的预测能力是可靠的。决定系数一般大于0.4即可。训练后的模型用于海量抗体可开发性评估筛选,预测结果如表6所示:
预测结果如图6,图6展示了CDR Length、PSH Score、PPC Score、PNC Score和SFvCSP Score等指标在治疗性抗体数据库中的分布情况及预测值的分布位置。其中,直方图为TAP数据库中已经应用于治疗的抗体的对应性质的值的分布情况;实线为预测出的抗体性质值;内侧虚线内部是获取该值在治疗性抗体数据集中的分布范围,外侧虚线以外是未在治疗性抗体数据集中观察到的值。据此,本发明可根据推荐预测对未知抗体进行批量筛选,如表7所示:
;/>
在上述具体实施方式中,本发明所提供的基于深度学习模型的抗体可开发性预测方法,通过获取待预测抗体的序列文件,在所述序列文件中识别并提取CDR区和轻重链序列;将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
这样,本发明所提供的方法,通过搭建深度学习网络训练得到的抗体可开发性评估的预测模型,可高效、精准预测高通量抗体可开发性评估指标,提高抗体药物的研发效率,有助于各种重大新发传染病抗体药物的开发,解决了现有技术中抗体可开发性评估计算量较大,评估效率较低的技术问题,从而实现了全面、准确、快速地对海量候选抗体进行可开发性评估。
除了上述方法,本发明还提供了一种基于深度学习模型的抗体可开发性预测装置,如图7所示,所述装置包括:
数据获取单元710,用于获取待预测抗体的序列文件;
序列提取单元720,用于在所述序列文件中识别并提取CDR区和轻重链序列;
结果生成单元730,用于将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;
其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
在一些实施例中,所述嵌入编码层包括:
双向长短时记忆网络,所述双向长短时记忆网络用于对输入的待预测抗体的序列文件进行蛋白序列编码;
残差网络,所述残差网络用于通过逐层堆叠残差块对编码后的蛋白序列进行特征提取,以降低蛋白序列的维度;
多层自注意力网络,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取。
在一些实施例中,利用所述双向长短时记忆网络进行蛋白序列编码的过程,具体包括:
将蛋白序列输入双向长短时记忆网络的嵌入层,通过该嵌入层将每个氨基酸的向量表示映射到一个固定长度的向量;
双向长短时记忆网络的两个子网络LSTM分别从左到右和从右到左读取输入的蛋白序列,在编码过程中获取到前后的上下文信息,以得到蛋白序列特征;
其中,在每个时间步骤中,子网络LSTM将当前时间步的输入向量和前一时间步的隐状态作为输入,计算当前时间步的隐状态,所述隐状态包括细胞状态和隐藏状态,所述细胞状态用于保留长期记忆,所述隐藏状态用于传递信息。
在一些实施例中,所述残差网络具体包括至少一个残差块,每个残差块均包括主路径和跳跃路径;
其中,所述主路径用于提取输入蛋白序列的特征信息,所述跳跃路径用于提供绕过主路径的旁路路径。
在一些实施例中,残差网络通过逐层堆叠残差块对编码后的蛋白序列进行特征提取的过程,具体包括:
输入蛋白序列,将输入的蛋白序列经过卷积和池化操作,通过主路径进行特征提取,并生成中间特征映射;
利用跳跃路径将输入的蛋白序列与主路径输出的中间特征映射相加,形成残差;
将形成的残差通过激活函数进行非线性变换,并进入下一个残差块,直至循环至最后一个残差块;
将最后一个残差块输出的数据进行全局池化,得到最终的特征向量。
在一些实施例中,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取的过程,具体包括:
以残差网络输出的特征向量为输入序列传递给自注意力层;
通过计算注意力权重,在输入序列中建立每个位置与其他位置之间的相关性,以得到注意力权重;
将得到的注意力权重与输入序列的表示进行加权求和,以得到输出特征向量。
在一些实施例中,所述卷积神经网络的网络结构包括:
输入层,所述输入层用于接收蛋白序列;
卷积层,通过卷积核在蛋白序列上进行滑动,以提取局部相关特征,每个卷积核的滑动过程是通过在蛋白序列上进行一系列的乘积和求和操作实现的;对于每个卷积核的输出,通过激活函数引入非线性;
池化层,所述池化层用于通过池化操作减少特征图的维度,并保留目标特征;
全连接层,池化层的输出被连接到一个或多个全连接层中,全连接层将卷积层的输出映射到输出层,生成最终的预测结果。
在上述具体实施方式中,本发明所提供的基于深度学习模型的抗体可开发性预测装置,通过获取待预测抗体的序列文件,在所述序列文件中识别并提取CDR区和轻重链序列;将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
这样,本发明所提供的装置,通过搭建深度学习网络训练得到的抗体可开发性评估的预测模型,可高效、精准预测高通量抗体可开发性评估指标,提高抗体药物的研发效率,有助于各种重大新发传染病抗体药物的开发,解决了现有技术中抗体可开发性评估计算量较大,评估效率较低的技术问题,从而实现了全面、准确、快速地对海量候选抗体进行可开发性评估。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和模型预测。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的模型预测用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,所述一个或多个程序指令用于被执行如上所述的方法。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习模型的抗体可开发性预测方法,其特征在于,所述方法包括:
获取待预测抗体的序列文件;
在所述序列文件中识别并提取CDR区和轻重链序列;
将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;
其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
2.根据权利要求1所述的基于深度学习模型的抗体可开发性预测方法,其特征在于,所述嵌入编码层包括:
双向长短时记忆网络,所述双向长短时记忆网络用于对输入的待预测抗体的序列文件进行蛋白序列编码;
残差网络,所述残差网络用于通过逐层堆叠残差块对编码后的蛋白序列进行特征提取,以降低蛋白序列的维度;
多层自注意力网络,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取。
3.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法,其特征在于,利用所述双向长短时记忆网络进行蛋白序列编码的过程,具体包括:
将蛋白序列输入双向长短时记忆网络的嵌入层,通过该嵌入层将每个氨基酸的向量表示映射到一个固定长度的向量;
双向长短时记忆网络的两个子网络LSTM分别从左到右和从右到左读取输入的蛋白序列,在编码过程中获取到前后的上下文信息,以得到蛋白序列特征;
其中,在每个时间步骤中,子网络LSTM将当前时间步的输入向量和前一时间步的隐状态作为输入,计算当前时间步的隐状态,所述隐状态包括细胞状态和隐藏状态,所述细胞状态用于保留长期记忆,所述隐藏状态用于传递信息。
4.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法,其特征在于,所述残差网络具体包括至少一个残差块,每个残差块均包括主路径和跳跃路径;
其中,所述主路径用于提取输入蛋白序列的特征信息,所述跳跃路径用于提供绕过主路径的旁路路径。
5.根据权利要求4所述的基于深度学习模型的抗体可开发性预测方法,其特征在于,残差网络通过逐层堆叠残差块对编码后的蛋白序列进行特征提取的过程,具体包括:
输入蛋白序列,将输入的蛋白序列经过卷积和池化操作,通过主路径进行特征提取,并生成中间特征映射;
利用跳跃路径将输入的蛋白序列与主路径输出的中间特征映射相加,形成残差;
将形成的残差通过激活函数进行非线性变换,并进入下一个残差块,直至循环至最后一个残差块;
将最后一个残差块输出的数据进行全局池化,得到最终的特征向量。
6.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法,其特征在于,所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取的过程,具体包括:
以残差网络输出的特征向量为输入序列传递给自注意力层;
通过计算注意力权重,在输入序列中建立每个位置与其他位置之间的相关性,以得到注意力权重;
将得到的注意力权重与输入序列的表示进行加权求和,以得到输出特征向量。
7.根据权利要求1所述的基于深度学习模型的抗体可开发性预测方法,其特征在于,所述卷积神经网络的网络结构包括:
输入层,所述输入层用于接收蛋白序列;
卷积层,通过卷积核在蛋白序列上进行滑动,以提取局部相关特征,每个卷积核的滑动过程是通过在蛋白序列上进行一系列的乘积和求和操作实现的;对于每个卷积核的输出,通过激活函数引入非线性;
池化层,所述池化层用于通过池化操作减少特征图的维度,并保留目标特征;
全连接层,池化层的输出被连接到一个或多个全连接层中,全连接层将卷积层的输出映射到输出层,生成最终的预测结果。
8.一种基于深度学习模型的抗体可开发性预测装置,其特征在于,所述装置包括:
数据获取单元,用于获取待预测抗体的序列文件;
序列提取单元,用于在所述序列文件中识别并提取CDR区和轻重链序列;
结果生成单元,用于将所述轻重链序列输入预先训练的预测模型,以得到所述预测模型输出的预测结果,所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图;
其中,所述预测模型是基于预先构建的深度学习网络,利用抗体样本的序列文件进行训练得到的,所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层,以及用于对特征编码后的代表序列进行特征提取卷积神经网络。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202410111232.8A 2024-01-26 2024-01-26 基于深度学习模型的抗体可开发性预测方法和装置 Active CN117637029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410111232.8A CN117637029B (zh) 2024-01-26 2024-01-26 基于深度学习模型的抗体可开发性预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410111232.8A CN117637029B (zh) 2024-01-26 2024-01-26 基于深度学习模型的抗体可开发性预测方法和装置

Publications (2)

Publication Number Publication Date
CN117637029A true CN117637029A (zh) 2024-03-01
CN117637029B CN117637029B (zh) 2024-04-19

Family

ID=90032499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410111232.8A Active CN117637029B (zh) 2024-01-26 2024-01-26 基于深度学习模型的抗体可开发性预测方法和装置

Country Status (1)

Country Link
CN (1) CN117637029B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927754A (zh) * 2020-12-30 2021-06-08 邵阳学院 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法
CN115508551A (zh) * 2022-09-09 2022-12-23 上海药明生物医药有限公司 一种抗体评估检测方法及其在抗体可开发性评估中的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927754A (zh) * 2020-12-30 2021-06-08 邵阳学院 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法
CN115508551A (zh) * 2022-09-09 2022-12-23 上海药明生物医药有限公司 一种抗体评估检测方法及其在抗体可开发性评估中的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEREK M. MASON等: "Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning", 《NATURE BIOMEDICAL ENGINEERING》, no. 4, 15 April 2021 (2021-04-15), pages 600 - 612, XP037483477, DOI: 10.1038/s41551-021-00699-9 *

Also Published As

Publication number Publication date
CN117637029B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
Wei et al. Machine learning in materials science
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111931865A (zh) 图像分类模型的训练方法、装置、计算机设备及存储介质
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN113344044B (zh) 一种基于领域自适应的跨物种医疗影像分类方法
CN113592060A (zh) 一种神经网络优化方法以及装置
CN112699941B (zh) 植物病害严重程度图像分类方法、装置、设备和存储介质
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
Chen et al. Binarized neural architecture search for efficient object recognition
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Zheng et al. Ddpnas: Efficient neural architecture search via dynamic distribution pruning
CN114999565A (zh) 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
Gao et al. Adversarial mobility learning for human trajectory classification
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN113836319B (zh) 融合实体邻居的知识补全方法及系统
Yang et al. Artificial intelligence in biomedical research
CN117637029B (zh) 基于深度学习模型的抗体可开发性预测方法和装置
Liu et al. TTFNeXt for real-time object detection
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN115579053A (zh) 药物重定位方法、装置、电子设备及存储介质
Yan et al. DNA-binding protein prediction based on deep transfer learning
Antony et al. Protein secondary structure assignment using residual networks
Song et al. Faster learning of temporal action proposal via sparse multilevel boundary generator
Zhang Efficient Methods for Model Performance Inference
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant