CN114743600A - 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 - Google Patents

基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 Download PDF

Info

Publication number
CN114743600A
CN114743600A CN202210394865.5A CN202210394865A CN114743600A CN 114743600 A CN114743600 A CN 114743600A CN 202210394865 A CN202210394865 A CN 202210394865A CN 114743600 A CN114743600 A CN 114743600A
Authority
CN
China
Prior art keywords
ligand
matrix
layer
deep learning
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210394865.5A
Other languages
English (en)
Inventor
刘奇磊
都健
赵雨靓
张磊
吴心远
孟庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210394865.5A priority Critical patent/CN114743600A/zh
Publication of CN114743600A publication Critical patent/CN114743600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及基于门控注意力机制的靶标‑配体结合亲和力的深度学习预测方法,属于计算机辅助药物设计技术以及生物和药物信息学领域。深度学习模型从配体的SMILES字符串和蛋白质的氨基酸序列开始,然后分别转换为配体矩阵和蛋白质矩阵。配体矩阵被送到全连接层和基于门增强的注意力层用于特征提取,将蛋白质矩阵送到一维卷积层和最大池化层,然后再送入基于门增强的注意力层。最后,通过矩阵行的加和来聚合配体矩阵的处理特征,并对蛋白质矩阵执行相同的过程,然后将两者拼接在一起送入后续的全连接层以预测蛋白质‑配体复合物的高/低结合亲和力的概率。本发明有效减少与实验分析相关的时间和成本,提高药物设计和虚拟筛选的效率。

Description

基于门控注意力机制的靶标-配体结合亲和力的深度学习预 测方法
技术领域
本发明涉及计算机辅助药物设计技术以及生物和药物信息学领域,尤其涉及一种靶标-配体结合亲和力预测方法。
背景技术
大多数生物过程由生物分子识别决定,其中蛋白质通常作为靶标与配体相互作用以调节生物功能,例如酶催化,信号转导等。靶标-配体相互作用的研究是重要的课题。靶标-配体相互作用的结合强度(以实数衡量)的数量通常定义为结合亲和力,可以通过抑制常数Ki、解离常数Kd和半数最大抑制浓度IC50来量化。现有药物大部分都是具有生物活性的小分子化合物,识别与靶蛋白具有高亲和力的配体(小分子候选药物)是药物发现早期的一项主要任务。
实验试错方法确定靶标-配体的亲和力存在耗时费力的问题。基于半经验的3D-定量构效关系模型虽预测靶标-配体亲和力的准确度高,且解释性强,但其通用性差,仅适用于某一类骨架的分子。基于物理驱动的方法(如分子动力学方法)具有较高的准确性和良好的解释性,然而巨大的计算时间成本阻碍了其在高通量筛选中的应用。相比于分子动力学方法,分子对接方法可大幅降低计算时间成本,但也牺牲了较多精度。基于数据驱动的方法(如机器学习方法)计算速度极快,然而大多数机器学习算法仍依赖专家知识进行特征提取/选择,在大数据集中难以权衡准确性和通用性。在海量数据和强大的并行计算能力推动下,由传统机器学习方法进一步发展得到的深度学习方法具有更强的数据拟合能力,尽管目前已提出了许多深度学习模型来预测结合亲和力,但大多数需要靶标-配体复合物的3D结构特征,与文本特征相比,3D结构特征不容易获得。
发明内容
针对现有技术存在的上述问题,本发明的目的是充分利用文本特征的优势,开发一种端到端的基于门控注意力机制的深度学习模型,以快速识别具有高结合亲和力的靶标-配体复合物。
为实现上述目的,本发明采用如下技术方案,包括以下具体步骤:
基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,包括以下具体步骤:
步骤1:建立结合亲和力数据库,用于后续的深度学习模型。
步骤2:将配体的SMILES字符串转换为配体矩阵,作为深度学习模型的输入。
步骤3:将蛋白质的氨基酸序列转换为蛋白质矩阵,作为深度学习模型的输入。
步骤4:构建用于模型训练的深度学习模型的架构,将配体矩阵送到一个全连接层和一个基于门增强的注意力层用于特征提取,通过矩阵行的加和方式来聚合配体片段的特征向量。
步骤5:将蛋白质矩阵先送到一维卷积层和最大池化层,以减少蛋白质矩阵的行数,然后再送入基于门增强的注意力层用于特征提取,通过矩阵行的加和方式来聚合蛋白质高阶氨基酸的特征向量。
步骤6:将聚合后的配体片段的特征向量与蛋白质高阶氨基酸的特征向量拼接在一起送入后续的全连接层以预测靶标-配体复合物的高/低结合亲和力的概率。
进一步地,步骤1具体包括:根据以下标准对结合亲和力数据库进行预处理:
步骤1.1:删除涉及IC50性质的条目,保留涉及Ki和Kd性质的条目。
步骤1.2:删除RDKit工具读取配体结构文件失败或Mol2vec方法找不到配体Morgen片段的条目。
步骤1.3:分别删除Morgen片段或氨基酸数大于阈值的靶标-配体复合物条目。
步骤1.4:Ki/d<n的靶标-配体复合物标记为高结合亲和力,用“1”表示,而Ki/d≥n的靶标-配体复合物标记为低结合亲和力,用“0”表示,Ki/d表示Ki或Kd,n表示抑制或解离常数阈值。
最后,在应用上述步骤1.1-1.4标准后,获得独特的靶标-配体复合物样本存储在结合亲和力数据库中,用于后续的深度学习模型。
进一步地,步骤2具体包括:
步骤2.1:使用Morgan算法将分子的SMILES字符串表示转换为Morgen片段。
步骤2.2:将Mol2vec中的Morgen片段的特征向量嵌入到步骤2.1得到的Morgen片段中。将每个分子的Morgen片段的特征向量求和来表示整个分子的特征向量。
步骤2.3:基于Mol2vec描述符,每个配体样本由一个二维矩阵表示,其中矩阵行表示Morgen片段,矩阵列表示片段的特征向量。
进一步地,步骤3具体包括:
步骤3.1:将蛋白质序列中每三个相邻的氨基酸视为一个高阶氨基酸。通过这种方式,将结合亲和力数据库中的蛋白质编写成高阶氨基酸字符串。
步骤3.2:通过深度学习模型中的嵌入方法,给每个高阶氨基酸字符串嵌入一个特征向量。
步骤3.3:每个蛋白质样本由一个二维矩阵表示,其中,矩阵行表示高阶氨基酸字符串,矩阵列表示高阶氨基酸字符串的特征向量。
进一步地,步骤4具体包括:
步骤4.1:将配体矩阵xL送到全连接层V以将配体特征的维数降低。
步骤4.2:将获得的降维后的配体矩阵x′L送到基于门增强的注意力层。在注意力层中,x′L首先通过一个可学习的权重矩阵W1进行变换,以获得具有显著特征的新配体矩阵x″L
步骤4.3:通过方程
Figure BDA0003598419100000041
得到注意力系数eij,其中eij表示第j个片段特征对第i个片段特征的重要性,通过求和
Figure BDA0003598419100000042
Figure BDA0003598419100000043
来强制eij等于eji
步骤4.4:将eij送到一个SoftMax激活函数,通过aij=exp(eij)/∑jexp(eij)等式得到归一化的注意力系数aij
步骤4.5:利用得到的aij,通过x″′L,i=∑jaijx″L,j等式将每个片段特征更新为相邻片段特征的线性组合,并且随后将Relu激活函数添加到x″′L,i
步骤4.6:应用门增强算法,通过前一个片段特征x′L,i和x″′L,i的线性组合使用方程
Figure BDA0003598419100000044
来获得基于门增强的注意力层的输出片段特征
Figure BDA0003598419100000045
zi表示为Zi=σ((x′L,i||x″′L,i)U)并解释为x′L,i和x″′L,i传递给
Figure BDA0003598419100000046
的权重系数,其中U是可学习向量,σ表示Sigmoid激活函数,(·||·)是拼接两个向量的操作符。
步骤4.7:通过
Figure BDA0003598419100000047
等式,将配体片段的特征向量相加成一个表示配体特征的向量。
进一步地,步骤5具体包括:
步骤5.1:将蛋白质矩阵xP送到一维卷积层和最大池化层。通过这种方式,一维卷积层和最大池化层能够从整个蛋白质序列中提取关键的高阶氨基酸,这有助于将氨基酸特征集中在靶标-配体复合物的口袋区域,同时减少模型冗余并节省下一个注意力层的计算时间成本。
步骤5.2:将步骤5.1处理的蛋白质矩阵x′P送到基于门增强的注意力层。在注意力层中,x′P首先通过一个可学习的权重矩阵W2进行变换,以获得具有显著特征的新蛋白质矩阵x″P
步骤5.3:通过方程
Figure BDA0003598419100000051
得到注意力系数ekl,其中ekl表示第l个高阶氨基酸特征对第k个高阶氨基酸特征的重要性,通过求和
Figure BDA0003598419100000052
Figure BDA0003598419100000053
来强制ekl等于elk
步骤5.4:将ekl送到一个SoftMax激活函数,通过akl=exp(ekl)/∑lexp(ekl)等式得到归一化的注意力系数akl
步骤5.5:利用得到的akl,通过x″′P,k=∑laklx″P,l等式将每个高阶氨基酸特征更新为相邻高阶氨基酸特征的线性组合,并且随后将Relu激活函数添加到x″′P,k
步骤5.6:应用门增强算法,通过前一个高阶氨基酸特征x′P,k和x″′P,k的线性组合使用方程
Figure BDA0003598419100000054
来获得基于门增强的注意力层的输出高阶氨基酸特征
Figure BDA0003598419100000055
zk表示为zk=σ((X′P,k||x″′P,k)U)并解释为x′P,k和x″′P,k传递给
Figure BDA0003598419100000056
的权重系数,其中U是可学习向量,σ表示Sigmoid激活函数,(·||·)是拼接两个向量的操作符。
步骤5.7:通过
Figure BDA0003598419100000057
等式,获得最终输出蛋白质特征的向量
Figure BDA0003598419100000058
进一步地,步骤6.1:将输出的配体特征向量
Figure BDA0003598419100000059
和输出的蛋白质特征向量
Figure BDA00035984191000000510
连接起来以表示靶标-配体复合物特征。
步骤6.2:随后将特征送到含LogSoftMax激活函数的全连接层和含LogSoftMax激活函数的输出层。
步骤6.3:在输出层之前还添加了一个dropout层,以克服训练过程中的过拟合问题。在训练过程之外执行额外的SoftMax运算从而归一化模型输出。
本发明与现有技术相比,主要有以下有益效果:
(1)首先,文献中的大多数研究都考虑了IC50性质。然而,这些IC50值是噪声数据,随实验条件变化很大,不同研究组之间并不统一。嘈杂的数据不利于训练深度学习模型。因此,我们的工作中去除了IC50性质,以使我们的深度学习模型更加合理。
(2)其次,选择基于文本的配体和蛋白质分子表示。文本表示方法不高度依赖于靶标-配体复合物的三维结构,与三维分子表示相比,文本表示方法在生成模型输入时可节省更多计算时间成本。针对配体,没有选择常用的基于文本的SMILES字符串,因为一个配体可能存在多个不同的SMILES字符串进行表示,这可能会导致表示配体时存在一些不确定性。为了避免这个问题,我们将SMILES字符串转换为基于文本的Mol2vec描述符来表示配体,因为Mol2vec由一组独特的Morgen片段组成,每一片段均嵌入了特征向量,与基于SMILES的文本表示方法相比具有更高的可解释性。此外,用高阶氨基酸字符串表示蛋白质,与常用的氨基酸序列表示相比,高阶氨基酸表示方法可描述氨基酸之间的相互作用,因此更加合理。
(3)第三,采用基于门增强的注意力机制和卷积神经网络这两种最先进的技术来有效地提取配体和蛋白质的特征,以加速我们的深度学习模型的学习过程,并在一定程度上减少了计算量。此外,门增强算法可以提高模型的预测精度。
基于这三个指标,我们的深度学习模型具有良好的分类能力,可以快速准确地识别具有高结合亲和力的靶标-配体复合物。该方法能够用于辅助药物设计和虚拟筛选,可以大量减少与实验分析相关的时间和成本,提高药物设计和虚拟筛选的效率。
附图说明
图1为本发明的流程图;
图2为本发明的训练过程、混淆矩阵和受试者工作特征(ROC)曲线,其中,(a)为深度学习模型训练集和验证集随轮(epochs)变化的交叉熵损失(CEL),(b)为深度学习模型训练集和验证集随轮(epochs)变化的ROC曲线下面积(AUC),(c)为测试集的二元分类混淆矩阵,(d)为测试集的ROC曲线。
具体实施方式
以下结合附图和实施例对本发明的流程以及效果进行解释说明。本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
参阅图1,本发明实施例具体公开一种端到端的基于门控注意力机制的靶标-配体复合物结合亲和力预测方法,包括以下步骤:
步骤1:根据以下标准对PDBbind数据库(2019版,http://www.pdbbind.org.cn/index.php)进行了处理,建立了一个结合亲和力数据库,用于后续的深度学习模型:
删除涉及IC50性质的条目,因为这些IC50值是噪声数据,随实验条件变化很大,不同研究组之间不统一。嘈杂的数据不利于训练深度学习模型。请注意,Ki和Kd可以近似地视为相同的性质,并且不随实验条件变化而变化。因此,涉及Ki和Kd性质的条目将保留在结合亲和力数据库中。删除RDKit工具读取配体结构文件失败或Mol2vec方法找不到配体Morgen片段的条目。分别删除Morgen片段大于140或氨基酸数大于1000的靶标-配体复合物条目。阈值取值判断原则是通过经验来判断的;请注意,阈值的使用能够减少配体和蛋白质矩阵的最大行数,从而提高深度学习模型的训练效率,代价是消除具有过多Morgen片段或氨基酸的少数靶标-配体复合物。Ki/d<1μM(μmol/L)的靶标-配体复合物标记为高结合亲和力(用“1”表示),而Ki/d≥1μM的靶标-配体复合物标记为低结合亲和力(用“0”表示),Ki/d表示Ki或Kd。最后,在应用上述标准后,总共获得了8,393个独特的靶标-配体复合物。获得的样本存储在我们的结合亲和力数据库中,用于后续的深度学习模型。
步骤2:将配体的SMILES字符串转换为配体矩阵,作为深度学习模型的输入(图1中的(a)):
先将配体的SMILES字符串转换为Mol2vec描述符,Mol2vec描述符学习分子子结构的向量表示。它首先使用Morgan算法(半径=1)将分子的SMILES字符串表示转换为Morgen片段(类似于基团的分子子结构)。然后,将Mol2vec中的Morgen片段的特征向量嵌入到步骤2.1得到的Morgen片段中。将每个分子的Morgen片段的特征向量求和来表示整个分子的特征向量。基于Mol2vec描述符,每个配体样本由一个140×300的二维矩阵表示,其中矩阵行表示Morgen片段,矩阵列表示片段的特征向量。考虑到并非每个配体都有140个Morgen片段,因此使用填充策略将“0”值添加到没有Morgen片段的矩阵行中。请注意,Mol2vec中的Morgen片段比基于文本的SMILES字符串更具可解释性。
步骤3:将蛋白质的氨基酸序列转换为蛋白质矩阵,作为深度学习模型的输入(图1中的(b)):
通常,蛋白质可以由氨基酸字符串组成的有序序列表示,将蛋白质序列中每三个相邻的氨基酸视为一个高阶氨基酸。例如,如果蛋白质序列是“Met-Gly-Arg-Pro-Leu”,那么高阶氨基酸是“Met-Gly-Arg”、“Gly-Arg-Pro”、“Arg-Pro-Leu”。通过这种方式,我们的结合亲和力数据库中的蛋白质总共生成了9,164个高阶氨基酸字符串。然后,通过深度学习模型中的嵌入方法,给每个高阶氨基酸字符串嵌入一个特征向量(特征大小设置为30)。最后,每个蛋白质样本由一个1,000×30的二维矩阵表示,其中矩阵行表示高阶氨基酸字符串,矩阵列表示高阶氨基酸字符串的特征向量。考虑到并非每个蛋白质都有1,000个高阶氨基酸,因此还使用填充策略将“0”值添加到没有高阶氨基酸的矩阵行中。
步骤4:有了获得的亲和力标签(参见步骤1)和输入表示(参见步骤2和3),下一步是构建用于模型训练的深度学习模型的架构。一方面,将配体矩阵送到一个全连接(FC)层和一个基于门增强的注意力层用于特征提取(图1中的(c)),通过矩阵行的加和方式来聚合配体片段的特征向量:
首先将配体矩阵xL(140×300)送到FC层V(300×30)以将配体特征的维数从300降低到30,这有助于减少模型冗余并节省训练成本。然后将获得的配体矩阵x′L(140×30)送到基于门增强的注意力层。在我们的注意力层中,x′L首先通过一个可学习的权重矩阵W1(30×30)进行变换,以获得具有显著特征的新配体矩阵x″L。然后通过方程
Figure BDA0003598419100000095
得到注意力系数eij,其中eij表示第j个片段特征对第i个片段特征的重要性,通过求和
Figure BDA0003598419100000096
Figure BDA0003598419100000097
来强制eij等于eji。之后,eij被送到一个SoftMax激活函数,通过aij=exp(eij)/∑jexp(eij)等式得到归一化的注意力系数aij。利用得到的aij,通过x″′L,i=∑jaijx″L,j等式将每个片段特征更新为相邻片段特征的线性组合,并且随后将Relu激活函数添加到x″′L,i。接下来,应用门增强算法,通过前一个片段特征x′L,i和x″′L,i的线性组合使用方程
Figure BDA0003598419100000091
来获得基于门增强的注意力层的输出片段特征
Figure BDA0003598419100000092
zi表示为zi=σ((x′L,i||x″′L,i)U)并解释为x′L,i和x″′L,i传递给
Figure BDA0003598419100000093
的权重系数,其中U是可学习向量(60×1),σ表示Sigmoid激活函数,(·||·)是拼接两个向量的操作符。最后,通过
Figure BDA0003598419100000094
等式,将配体片段的特征向量相加成一个表示配体特征的向量。
步骤5:另一方面,将蛋白质矩阵先送到一维卷积Conv1层和最大池化MaxPool层,以减少蛋白质矩阵的行数,然后再送入基于门增强的注意力层用于特征提取,通过这种方式节省注意层不必要的计算时间成本(图1中的(c)),再通过矩阵行的加和方式来聚合蛋白质高阶氨基酸的特征向量:
首先将蛋白质矩阵xP(1,000×30)送到Conv1层(输入通道=30,输出通道=30,内核大小=3,步幅=3)和MaxPool层(内核大小=3,步幅=3),其中内核用于使用参数共享机制扫描蛋白质矩阵的局部特征。通过这种方式,卷积层和MaxPool层能够从整个蛋白质序列中提取关键的高阶氨基酸,这有助于将氨基酸特征集中在靶标-配体复合物的口袋区域,同时减少模型冗余并节省下一个注意力层的计算时间成本。将处理的蛋白质矩阵x′P发送到基于门增强的注意力层。在注意力层中,x′P首先通过一个可学习的权重矩阵W2进行变换,以获得具有显著特征的新蛋白质矩阵x″P。通过方程
Figure BDA0003598419100000101
得到注意力系数ekl,其中ekl表示第l个高阶氨基酸特征对第k个高阶氨基酸特征的重要性,通过求和
Figure BDA0003598419100000102
Figure BDA0003598419100000103
来强制ekl等于elk。将ekl送到一个SoftMax激活函数,通过akl=exp(ekl)/∑lexp(ekl)等式得到归一化的注意力系数akl。利用得到的akl,通过x″′P,k=∑laklx″P,l等式将每个高阶氨基酸特征更新为相邻高阶氨基酸特征的线性组合,并且随后将Relu激活函数添加到x″′P,k。应用门增强算法,通过前一个高阶氨基酸特征x′P,k和x″′P,k的线性组合使用方程
Figure BDA0003598419100000104
来获得基于门增强的注意力层的输出高阶氨基酸特征
Figure BDA0003598419100000105
zk表示为zk=σ((x′P,k||x″′P,k)U)并解释为x′P,k和x″′P,k传递给
Figure BDA0003598419100000106
的权重系数,其中U是可学习向量,σ表示Sigmoid激活函数,(·||·)是拼接两个向量的操作符。通过
Figure BDA0003598419100000107
等式,获得最终输出蛋白质特征的向量
Figure BDA0003598419100000108
步骤6:将聚合后的配体片段的特征向量与蛋白质高阶氨基酸的特征向量拼接在一起送入后续的FC层以预测靶标-配体复合物的高/低结合亲和力的概率(图1中的(c)):
将输出的配体特征向量
Figure BDA0003598419100000111
和输出的蛋白质特征向量
Figure BDA0003598419100000112
拼接起来以表示靶标-配体复合物特征。随后将特征送到含LogSoftMax激活函数的FC层(60×30)和含LogSoftMax激活函数的输出层(FC层)(30×2)。基于经验试错发现LogSoftMax激活函数可以提升模型的分类效果。在输出层之前还添加了一个dropout层,以克服训练过程中的过拟合问题。请注意,LogSoftMax激活函数使输出层的预测总和不等于1。因此,为了预测高/低结合亲和力的概率,在训练过程之外执行额外的SoftMax运算从而归一化模型输出。
实施例
靶标-配体复合物以8:1:1的比例随机分为训练集、验证集和测试集。训练集、验证集和测试集的样本数分别为6,711、841和841。训练集中有3,102个低结合亲和力复合物(标签“0”)和3,609个高结合亲和力复合物(标签“1”),满足深度学习分类模型的数据平衡要求。我们的深度学习模型中的损失函数是交叉熵损失(CEL),这是分类任务中常用的损失函数。为了最小化损失函数,模型参数通过使用自适应矩估计(Adam)优化器进行优化,学习率设置从0.0005到0.00005变化,其中,当验证集的损失函数不随迭代减少时,使用衰减因子(0.5)来更新学习率。一般来说,50%是二分类模型中判断真假的阈值。例如,如果靶标-配体复合物的高结合亲和力的概率为70%,则认为该复合物的结合亲和力是高的(真)。受试者工作特征(ROC)曲线会选择一组阈值,并评估每个阈值中的真阳性率和假阳性率。ROC曲线下面积(AUC)被认为是评估深度学习模型分类标签能力的重要监督函数。AUC值相当于随机选择的真样本排名高于随机选择的假样本的概率。因此,它也可以被视为分类模型的不确定性指标。AUC越接近1,深度学习模型的分类能力表现越好,越稳定。
深度学习模型的超参数根据经验试错确定(如表1所示)。我们使用Python语言的开源Pytorch库建立深度学习模型。
表1深度学习模型的超参数设置
Figure BDA0003598419100000121
我们的深度学习模型的训练结果和性能如表2和图2所示。如表2所示,训练集、验证集、测试集的CEL和AUC值分别为0.369、0.442、0.401和0.914、0.880、0.901。图2中的(a)和图2中的(b)记录了深度学习模型训练集和验证集随轮(epochs)变化的CEL和AUC值。上述结果表明,所开发的深度学习模型不存在过拟合问题,并且能够对新样本进行令人满意的泛化预测。请注意,基于门增强的注意力层的引入能够加速我们模型的学习过程。在训练过程中,深度学习模型在第40个轮(epoch)表现良好。如果去除了注意力层,深度学习模型需要更多的轮(epochs)才能获得相似的结果。
图2中的(c)是一个基于二元分类的混淆矩阵(2×2),用于评估我们的深度学习模型的分类性能,其中x轴上的“0”和“1”代表低结合亲和力和高结合亲和力的标签值,y轴上的“0”和“1”定义了低结合亲和力和高结合亲和力的预测值。混淆矩阵有四种情况,包括真阴性(TN,x=0,y=0),假阴性(FN,x=1,y=0),真阳性(TP,x=1,y=1)和假阳性(FP,x=0,y=1)。测试样本根据它们的标签值和每个案例的预测值进行计数,图2中的(c)显示TN和TP中的样本数远大于FN和FP中的样本数,这表明开发的深度学习模型能够为区分高/低结合亲和力,即可提供良好的分类能力。此外,图2中的(d)给出了测试集的ROC曲线(实线),测试集的AUC结果(0.901)也支持我们的深度学习模型具有良好的分类性能。
表2深度学习模型的损失函数和度量函数
Figure BDA0003598419100000131
值得注意的是,与其它预测结合亲和力的深度学习模型(例如,KDEEP中的参数约1,000,000个)相比,我们所开发的深度学习模型简洁且训练参数(15,634)少很多,表明模型在训练和外推方面的效率。由于以下两个原因,我们的深度学习模型没有与其它深度学习模型进行比较:(1)其它模型中的训练样本涉及IC50性质,由于IC50是噪声数据并且严重依赖于实验条件,因此在本工作中没有考虑这一性质;(2)我们的深度学习模型本质上是一个分类模型,而其它深度学习模型几乎都是回归模型,用于定量预测结合亲和力大小,性能勉强令人满意(它们的Pearson系数在0.80左右)。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,包括以下具体步骤:
步骤1:建立结合亲和力数据库,用于后续的深度学习模型;
步骤2:将配体的SMILES字符串转换为配体矩阵,作为深度学习模型的输入;
步骤3:将蛋白质的氨基酸序列转换为蛋白质矩阵,作为深度学习模型的输入;
步骤4:构建用于模型训练的深度学习模型的架构,将配体矩阵送到一个全连接层和一个基于门增强的注意力层用于特征提取,通过矩阵行的加和方式来聚合配体片段的特征向量;
步骤5:将蛋白质矩阵先送到一维卷积层和最大池化层,以减少蛋白质矩阵的行数,然后再送入基于门增强的注意力层用于特征提取,通过矩阵行的加和方式来聚合蛋白质高阶氨基酸的特征向量;
步骤6:将聚合后的配体片段的特征向量与蛋白质高阶氨基酸的特征向量拼接在一起送入后续的全连接层以预测靶标-配体复合物的高/低结合亲和力的概率。
2.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤1具体包括:根据以下标准对结合亲和力数据库进行预处理:
步骤1.1:删除涉及IC50性质的条目,保留涉及Ki和Kd性质的条目;
步骤1.2:删除RDKit工具读取配体结构文件失败或Mol2vec方法找不到配体Morgen片段的条目;
步骤1.3:分别删除Morgen片段或氨基酸数大于阈值的靶标-配体复合物条目;
步骤1.4:Ki/d<n的靶标-配体复合物标记为高结合亲和力,用“1”表示,而Ki/d≥n的靶标-配体复合物标记为低结合亲和力,用“0”表示,Ki/d表示Ki或Kd,n表示抑制或解离常数阈值;
最后,在应用上述步骤1.1-1.4标准后,获得独特的靶标-配体复合物样本存储在结合亲和力数据库中,用于后续的深度学习模型。
3.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤2具体包括:
步骤2.1:使用Morgan算法将分子的SMILES字符串表示转换为Morgen片段;
步骤2.2:将Mol2vec中的Morgen片段的特征向量嵌入到步骤2.1得到的Morgen片段中;将每个分子的Morgen片段的特征向量求和来表示整个分子的特征向量;
步骤2.3:基于Mol2vec描述符,每个配体样本由一个二维矩阵表示,其中矩阵行表示Morgen片段,矩阵列表示片段的特征向量。
4.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤3具体包括:
步骤3.1:将蛋白质序列中每三个相邻的氨基酸视为一个高阶氨基酸;通过这种方式,将结合亲和力数据库中的蛋白质编写成高阶氨基酸字符串;
步骤3.2:通过深度学习模型中的嵌入方法,给每个高阶氨基酸字符串嵌入一个特征向量;
步骤3.3:每个蛋白质样本由一个二维矩阵表示,其中,矩阵行表示高阶氨基酸字符串,矩阵列表示高阶氨基酸字符串的特征向量。
5.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤4具体包括:
步骤4.1:将配体矩阵xL送到全连接层V以将配体特征的维数降低;
步骤4.2:将获得的降维后的配体矩阵x′L送到基于门增强的注意力层;在注意力层中,x′L首先通过一个可学习的权重矩阵W1进行变换,以获得具有显著特征的新配体矩阵x″L
步骤4.3:通过方程
Figure FDA0003598419090000031
得到注意力系数eij,其中eij表示第j个片段特征对第i个片段特征的重要性,通过求和
Figure FDA0003598419090000032
Figure FDA0003598419090000033
来强制eij等于eji
步骤4.4:将eij送到一个SoftMax激活函数,通过aij=exp(eij)/∑jexp(eij)等式得到归一化的注意力系数aij
步骤4.5:利用得到的aij,通过x″′L,i=∑jaijx″L,j等式将每个片段特征更新为相邻片段特征的线性组合,并且随后将Relu激活函数添加到x″′L,i
步骤4.6:应用门增强算法,通过前一个片段特征x′L,i和x″′L,i的线性组合使用方程
Figure FDA0003598419090000034
来获得基于门增强的注意力层的输出片段特征
Figure FDA0003598419090000035
zi表示为zi=σ((x′L,i||x″′L,i)U)并解释为x′L,i和x″′L,i传递给
Figure FDA0003598419090000036
的权重系数,其中U是可学习向量,σ表示Sigmoid激活函数,(·||·)是拼接两个向量的操作符;
步骤4.7:通过
Figure FDA0003598419090000037
等式,将配体片段的特征向量相加成一个表示配体特征的向量。
6.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤5具体包括:
步骤5.1:将蛋白质矩阵xP送到一维卷积层和最大池化层;通过这种方式,一维卷积层和最大池化层能够从整个蛋白质序列中提取关键的高阶氨基酸,这有助于将氨基酸特征集中在靶标-配体复合物的口袋区域,同时减少模型冗余并节省下一个注意力层的计算时间成本;
步骤5.2:将步骤5.1处理的蛋白质矩阵x′P送到基于门增强的注意力层;在注意力层中,x′P首先通过一个可学习的权重矩阵W2进行变换,以获得具有显著特征的新蛋白质矩阵x″P
步骤5.3:通过方程
Figure FDA0003598419090000041
得到注意力系数ekl,其中ekl表示第l个高阶氨基酸特征对第k个高阶氨基酸特征的重要性,通过求和
Figure FDA0003598419090000042
Figure FDA0003598419090000043
来强制ekl等于elk
步骤5.4:将ekl送到一个SoftMax激活函数,通过akl=exp(ekl)/∑lexp(ekl)等式得到归一化的注意力系数akl
步骤5.5:利用得到的akl,通过x″′P,k=∑laklx″P,l等式将每个高阶氨基酸特征更新为相邻高阶氨基酸特征的线性组合,并且随后将Relu激活函数添加到x″′P,k
步骤5.6:应用门增强算法,通过前一个高阶氨基酸特征x′P,k和x″′P,k的线性组合使用方程
Figure FDA0003598419090000044
来获得基于门增强的注意力层的输出高阶氨基酸特征
Figure FDA0003598419090000045
zk表示为zk=σ((x′P,k||x″′P,k)U)并解释为x′P,k和x″′P,k传递给
Figure FDA0003598419090000046
的权重系数,其中U是可学习向量,σ表示Sigmoid激活函数,(·||·)是拼接两个向量的操作符;
步骤5.7:通过
Figure FDA0003598419090000047
等式,获得最终输出蛋白质特征的向量
Figure FDA0003598419090000048
7.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤6具体包括:
步骤6.1:将输出的配体特征向量
Figure FDA0003598419090000049
和输出的蛋白质特征向量
Figure FDA00035984190900000410
拼接起来以表示靶标-配体复合物特征;
步骤6.2:随后将特征送到含LogSoftMax激活函数的全连接层和含LogSoftMax激活函数的输出层;
步骤6.3:在输出层之前还添加了一个dropout层,以克服训练过程中的过拟合问题;在训练过程之外执行额外的SoftMax运算从而归一化模型输出。
CN202210394865.5A 2022-04-15 2022-04-15 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 Pending CN114743600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210394865.5A CN114743600A (zh) 2022-04-15 2022-04-15 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210394865.5A CN114743600A (zh) 2022-04-15 2022-04-15 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法

Publications (1)

Publication Number Publication Date
CN114743600A true CN114743600A (zh) 2022-07-12

Family

ID=82280603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210394865.5A Pending CN114743600A (zh) 2022-04-15 2022-04-15 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法

Country Status (1)

Country Link
CN (1) CN114743600A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410660A (zh) * 2022-11-02 2022-11-29 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115620807A (zh) * 2022-12-19 2023-01-17 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115718263A (zh) * 2023-01-09 2023-02-28 北京科技大学 基于注意力的锂离子电池日历老化预测模型和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410660A (zh) * 2022-11-02 2022-11-29 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115410660B (zh) * 2022-11-02 2023-01-24 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115620807A (zh) * 2022-12-19 2023-01-17 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115718263A (zh) * 2023-01-09 2023-02-28 北京科技大学 基于注意力的锂离子电池日历老化预测模型和方法
CN115718263B (zh) * 2023-01-09 2023-04-07 北京科技大学 基于注意力的锂离子电池日历老化预测模型和方法

Similar Documents

Publication Publication Date Title
Zhao et al. HyperAttentionDTI: improving drug–protein interaction prediction by sequence-based deep learning with attention mechanism
Al-Ajlan et al. CNN-MGP: convolutional neural networks for metagenomics gene prediction
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
Le et al. Incorporating deep learning with convolutional neural networks and position specific scoring matrices for identifying electron transport proteins
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
US20230207054A1 (en) Deep learning network for evolutionary conservation
Arowolo et al. A survey of dimension reduction and classification methods for RNA-Seq data on malaria vector
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
Rahman et al. IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Chen et al. DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data
CN114375448A (zh) 用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜
Pan et al. Multi-head attention mechanism learning for cancer new subtypes and treatment based on cancer multi-omics data
Mesa et al. Hidden Markov models for gene sequence classification: Classifying the VSG gene in the Trypanosoma brucei genome
Sharma et al. A novel hybrid CNN and BiGRU-Attention based deep learning model for protein function prediction
Deng et al. Predict the protein-protein interaction between virus and host through hybrid deep neural network
Alzubaidi et al. Deep mining from omics data
Ghazikhani et al. Enhanced identification of membrane transport proteins: a hybrid approach combining ProtBERT-BFD and convolutional neural networks
Amutha et al. A Survey on Machine Learning Algorithms for Cardiovascular Diseases Predic-tion
Bonetta Valentino et al. Machine learning using neural networks for metabolomic pathway analyses
Qi et al. Cell Classification Based on Stacked Autoencoder for Single-Cell RNA Sequencing
Singh et al. Classification of non-coding rna-a review from machine learning perspective
US20240112751A1 (en) Copy number variation (cnv) breakpoint detection
KR102517005B1 (ko) 인공지능 기술을 이용하여 mhc와 펩타이드 간의 관계를 분석하기 위한 방법 및 장치
KR102482302B1 (ko) 인공지능 기술을 사용하여 클러스터 데이터에 대응되는 주조직 적합성 복합체를 결정하기 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination