CN110767266B - 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 - Google Patents

基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 Download PDF

Info

Publication number
CN110767266B
CN110767266B CN201911064826.3A CN201911064826A CN110767266B CN 110767266 B CN110767266 B CN 110767266B CN 201911064826 A CN201911064826 A CN 201911064826A CN 110767266 B CN110767266 B CN 110767266B
Authority
CN
China
Prior art keywords
graph
protein
erbb
data
ligand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911064826.3A
Other languages
English (en)
Other versions
CN110767266A (zh
Inventor
杨帅
王卓亚
王小红
赵志刚
窦方坤
曹皓伟
魏志强
刘昊
杨金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao National Laboratory for Marine Science and Technology Development Center
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qingdao National Laboratory for Marine Science and Technology Development Center
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao National Laboratory for Marine Science and Technology Development Center, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qingdao National Laboratory for Marine Science and Technology Development Center
Priority to CN201911064826.3A priority Critical patent/CN110767266B/zh
Publication of CN110767266A publication Critical patent/CN110767266A/zh
Application granted granted Critical
Publication of CN110767266B publication Critical patent/CN110767266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,包括:a).构建ErbB靶向蛋白数据,对于ErbB包含的4个受体酪氨酸激酶ErbB‑1、ErbB‑2、ErbB‑3和ErbB‑4均构建靶向蛋白数据集;b).扩大数据集规模,采用原始构象、旋转构象、优化构象的方法扩大数据集规模;c).构建ErbB靶向蛋白家族机器学习打分函数模型;d).模型的训练和评估。本发明的打分函数构建方法,建了一个ErbB蛋白家族机器学习分子亲和力评估数据集,为ErbB蛋白家族的机器学习任务奠定了数据基础;通过GCN技术突破了经典打分函数的瓶颈,提高了打分函数的性能,解决了机器学习打分函数通用模型准确率低的问题。

Description

基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法
技术领域
本发明涉及一种打分函数构建方法,更具体的说,尤其涉及一种基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法。
背景技术
评估蛋白质-配体的相互作用力是基于结构药物设计的基石。打分函数是评价蛋白质-配体亲和力的重要方法,如图1所示,给出了现有打分函数的分类示意图,现有技术方案主要分为两大类:经典打分函数、机器学习打分函数。
经典的打分函数基于知识经验,通过制定规则来定量衡量蛋白质-配体相互作用力。按照其打分规则侧重点不同,分为:基于力场的打分函数(例如:AutoDock)、基于知识的打分函数(例如:DrugScore)、基于经验的打分函数三大类(例如:X-Score)以及综合了经验和知识的打分方程(AutoDock Vina)。
机器学习打分函数则通过机器学习方法对蛋白质-配体相互作用力进行评估,从机器学习模型构建方法的角度,可细分为:基于支持向量机、随机森林树的方法、基于神经网络的方法,RFScore、NNScore、PotentialNet是极具代表意义的机器学习打分函数。经典打分函数与机器学习打分函数的区别如图2所示,总体来说,经典打分函数是基于既定规则的蛋白质-配体亲和力评估方法,而机器学习打分函数则运用机器学习的方法来实现端到端的蛋白质-配体评估。
打分函数在加快先导化合物发现、缩短制药周期方面极具价值,然而仍存在诸多不足。经典的打分函数通过线性方程衡量蛋白质-配体亲和力,它基于既有的经验或知识,无法利用大量的训练数据。基于机器学习的打分函数则通过拟合训练数据集进行蛋白质-配体亲和力评估,其准确性随着更多的训练样本而增加。
对于经典打分函数,由于蛋白质折叠动力学、分子力学、动态仿真等学科发展水平的限制,经典打分函数在对蛋白质-配体相互作用力的评估精度和可靠性上一直得不到提高,这导致其陷入发展瓶颈。
为了突破经典打分函数的瓶颈,机器学习打分函数应运而生。机器学习打分函数提高了对蛋白质-配体相互作用力的评估精度。然而,该类方法容易出现过拟合问题和泛化能力弱的问题。
由于蛋白结构的多样性导致的不同靶点在结合过程存在异质性,这导致打分函数对于不同蛋白家族的打分性能参差不齐。对于机器学习打分函数而言,同一个打分函数的打分性能因研究的蛋白家族不同而差异巨大,不同打分函数对同一家族的蛋白性能也差异巨大。因此,一个通用的机器学习模型并不适用于所有的蛋白质家族。越来越多的研究表明靶向特定蛋白类型的个性化打分函数比通用打分函数的性能更加优异。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,其特征在于,通过以下步骤来实现:
a).构建ErbB靶向蛋白数据,对于ErbB包含的4个受体酪氨酸激酶ErbB-1、ErbB-2、ErbB-3和ErbB-4均构建靶向蛋白数据集,靶向蛋白数据集包括蛋白质-配体复合物信息列表、蛋白质-配体亲和力数据、配体结构数据、蛋白质结构数据、蛋白质-配体结合位点数据,其中蛋白质-配体亲和力数据包括解离常数Kd和抑制常数Ki
b).扩大数据集规模,由于步骤a)中所构建的ErbB靶向蛋白数据集数量有限,故采用“构象生成”的方法扩大数据集规模,采用原始构象、旋转构象、优化构象的方法扩大数据集规模,原始构象为对蛋白质-配体复合物原始结构构象,旋转构象为将原始构象绕Z轴旋转180度得到的构象,优化构象为将旋转构象用OPLS-2005力场优化后的构象;
c).构建机器学习模型,采用基于图的卷积神经网络GCN,构建ErbB靶向蛋白家族机器学习打分函数模型,所构建的ErbB靶向蛋白家族机器学习打分函数依次由输入信号Input Graph Signals、分子特征Molecular Feature、特征传递/更新Message Passing/Update、分层学习Layer-wise Learning、蛋白质-配体亲和力打分预测Predictions五部分构成;
Input Graph Signals过程为读取数据集中蛋白质和配体的结构文件、蛋白质-配体亲和力数据,蛋白质-配体亲和力数据包含解离常数Kd和抑制常数Ki;Molecular Feature过程为分别提取蛋白质和配体的分子数据特征,利用特征矩阵存储分子中原子类型、价态,利用邻接矩阵存储分子中原子间化学键信息;Message Passing/Update过程为在卷积操作过程中传递、更新图结构中节点的特征,以实现对整个分子图特征的传递和更新;Layer-wise Learning过程为对分子图结构特征数据进行进一步的池化操作;
d).模型的训练和评估,将步骤b)获取的ErbB靶向蛋白数据集按照60:20:20的比例随机拆分为训练集、验证集和测试集,训练集用来训练模型,验证集用于调优参数,测试集用于评估模型,最终获预测精度满足要求的基于图卷积技术的面向ErbB靶向蛋白家族的机器学习打分函数。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,步骤c)中Molecular Feature过程中采用空间图卷积Spatial Graph Convolutions进行分子数据特征化处理,其具体通过Graph Convolution、Graph Pool、Graph Gather三个步骤来实现;
Graph Convolution中将分子视为无向有环图结构,首先选择中心节点v,k表示中心节点的特征;其次,选择与v距离为d的邻接节点u;接着,选择与u节点距离为d的节点迭代,并将该过程应用于整个图结构;最后,将v的邻接节点u的特征传递到v并更新v的特征;
Graph Pool采用max pool将邻接节点的特征堆叠到中心节点,并将其应用到整个图结构,在图结构中迭代进行max pool之后,将特征传递到图结构的中心节点v;
Graph Gather过程将图结构中节点及边的特征聚集到一起,最终得到M*M的邻接矩阵和M*N的特征矩阵,其中M表示分子图结构中原子的个数,N表示特征数;
在分子数据特征化处理过程中,在中心原子v与邻接原子u距离d的设置上将受体感受野Protein Gather Width、配体感受野Ligand Gather Width数值分别为3、2,配体卷积次数Number of Ligands Convolution Layers、受体卷积次数Number of ProteinConvolution Layers都设为3,即分子经过featurizer后需要在网络结构中进行3次卷积操作;Message Passing/Update、Layer-wise Learning过程的Learning Rate分别为1e-3和2e-4;网络结构中每层的dropout分别为0、0.25、0.4、0.5,bathes设为64,epoch为100。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,步骤c)中特征传递/更新Message Passing/Update过程中,基于消息传递神经网络MPNN的原理,在具有节点特征xi和边缘特征evw的无向图G上进行前向传递分两个阶段,即消息传递阶段和读出阶段,消息传递阶段运行T个时间步骤,并根据消息传递函数Mt和节点更新函数Ut定义,在消息传递阶段,图G中每个节点的隐藏状态hv t根据消息mv t+1更新,消息传递函数Mt和节点更新函数Ut算法分别如公式(1)和公式(2)所示:
Figure BDA0002258990120000041
Figure BDA0002258990120000042
其中,N(v)表示图G中v的邻居,读出阶段使用读出函数计算整个图的特征向量,图的特征向量如公式(3)所示,
Figure BDA0002258990120000043
在整个过程中,消息传递函数Mt,顶点更新函数Ut和读出函数R都是学习的可微函数。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,采用
Figure BDA0002258990120000044
方法定量衡量蛋白质-配体亲和力,
Figure BDA0002258990120000045
的度量指标如公式(4)和公式(5)所示:
Figure BDA0002258990120000051
Figure BDA0002258990120000052
其中,公式(5)是公式(4)的变式,yi是样本i的实验测量值,按照样本i的模型预测结果降序排列,σ(y)是归一化过程,T表示目标分子的总数,Nj是对目标j预测的样本数量,y(j)是针对目标j的实验测量值;
Figure BDA0002258990120000053
是对目标j第i个样品的值,
Figure BDA0002258990120000054
是针对目标j的实验测量平均值,σ(y(j))是归一化过程,求取目标j所有样品实验测量值的方差,
Figure BDA0002258990120000055
表示与目标j相关的第i个样品的权重。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,所述的靶向蛋白数据集包括蛋白质-配体复合物信息列表来源于ZINC15数据源、蛋白质-配体亲和力数据来源于ZINC15和RCSB PDB数据源、配体结构数据来源于ZINC15和RCSB PDB数据源、蛋白质结构数据来源于RCSB PDB数据源、蛋白质-配体结合位点数据来源于RCSB PDB数据源。
本发明的有益效果是:本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,首先构建了一个ErbB蛋白家族机器学习分子亲和力评估数据集,该数据集为ErbB蛋白家族的机器学习任务奠定了数据基础,对通过机器学习技术解决细胞代谢疾病、治疗神经疾病、抗肿瘤、心血管疾病治疗方面提供了崭新的解决方案。所构建的ErbB靶向蛋白家族机器学习打分函数模型,通过GCN技术突破了经典打分函数的瓶颈,提高了打分函数的性能。本发明面向ErbB蛋白质家族定制一款个性化机器学习打分函数,解决机器学习打分函数通用模型准确率低的问题。
附图说明
图1为现有打分函数的分类示意图;
图2为经典打分函数与机器学习打分函数的区别示意图;
图3为欧几里得数据与非欧几里得数据的区别示意图;
图4为分子的2D和3D结构示意图;
图5为本发明的基于GCN的ErbB靶向蛋白家族机器学习打分函数的模型示意图;
图6为本发明中Graph Convolution步骤的示意图;
图7为本发明中Graph Pool步骤的示意图;
图8为本发明中Graph Gather步骤的示意图;
图9为本发明中1KV2蛋白质-配体复合物示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,包含ErbB靶向蛋白数据集构建、数据预处理、机器学习模型、实验及度量这4个步骤,首先构建了一个ErbB靶向蛋白数据集,然后对数据集进行预处理,接着构建机器学习模型,该模型基于图卷积神经网络,最后是实验及度量指标的设置。
本发明的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,具体通过以下步骤来实现:
a).构建ErbB靶向蛋白数据,对于ErbB包含的4个受体酪氨酸激酶ErbB-1、ErbB-2、ErbB-3和ErbB-4均构建靶向蛋白数据集,靶向蛋白数据集包括蛋白质-配体复合物信息列表、蛋白质-配体亲和力数据、配体结构数据、蛋白质结构数据、蛋白质-配体结合位点数据,其中蛋白质-配体亲和力数据包括解离常数Kd和抑制常数Ki;
ErbB蛋白家族在调节细胞代谢、治疗神经疾病、抗肿瘤、心血管疾病治疗方面都发挥着重要作用。其包含有四个受体酪氨酸激酶(receptor tyrosine kinases,RTKs)成员:ErbB-1(EGFR/HER1),ErbB-2(HER2),ErbB-3(HER3),ErbB-4(HER4)。
其中,ErbB受体在调节细胞增殖、分化、迁移和凋亡的信号中起着至关重要的作用。ErbB信号通路的失活与神经退行性疾病相关,如多发性硬化和阿兹海默症;过量的ErbB信号转导与多种类型的实体瘤相关,如乳腺癌和肺癌等。ErbB蛋白家族信号传导对于发育也十分重要,ErbB-2和ErbB-4基因敲除会导致小鼠心肌功能不足,并显示周围神经系统异常发育。
由于ErbB蛋白家族在调节细胞代谢、治疗神经疾病、抗肿瘤、心血管疾病治疗的方面的重要作用,近年来有越来越多的科研人员进行ErbB蛋白家族的研究,因此构建一个ErbB靶向蛋白家族数据集具有重要意义。如表1所示给出了ErbB靶向蛋白数据集来源。
表1
ErbB靶向蛋白数据集 来源
蛋白质-配体复合物信息列表 ZINC15
蛋白质-配体亲和力数据 ZINC15、RCSB PDB
配体结构数据 ZINC15、RCSB PDB
蛋白质结构数据 RCSB PDB
蛋白质-配体结合位点数据 RCSB PDB
ErbB靶向蛋白数据集主要包含蛋白质、配体、蛋白质-配体结合位点的结构数据及蛋白质-配体结合亲和力数据,主要来源于ZINC15、RCSB PDB、Uniprot、PubChem数据源,如表2所示给出了ErbB靶向蛋白家族数据集的数据构成。
表2
Figure BDA0002258990120000071
数据集中主要包含蛋白质、配体结构数据,蛋白质-配体结合位点数据、蛋白质配体结合亲和力数据(解离常数Kd、抑制常数Ki)。
b).扩大数据集规模,由于步骤a)中所构建的ErbB靶向蛋白数据集数量有限,故采用“构象生成”的方法扩大数据集规模,采用原始构象、旋转构象、优化构象的方法扩大数据集规模,原始构象为对蛋白质-配体复合物原始结构构象,旋转构象为将原始构象绕Z轴旋转180度得到的构象,优化构象为将旋转构象用OPLS-2005力场优化后的构象;
在机器学习中,数据集的规模直接影响模型的质量,本发明采用ErbB靶向蛋白数据集有3718个成员,对于一个机器学习任务而言,其规模显然不能满足训练优质模型的需求,故在本发明中模仿经典打分函数构象预测的原理,采用“构象生成”的方法扩大数据集规模。本发明对配体使用了3种不同的初始构想生成方法,分别是:原始构象、旋转构象、优化构象,如表3所示,给出了3种构象生成的方法。
表3
构象名称 说明
原始构象 蛋白质-配体复合物原始结构构象
旋转构象 将原始构象绕Z轴旋转180度得到的构象
优化构象 将旋转构象用OPLS-2005力场优化后的构象
通过数据增强处理,本发明成功将ErbB靶向蛋白家族数据集的规模扩大到11154个成员,有助于提高机器学习模型的性能,并在一定程度上解决了数据集规模过小的问题。
c).构建机器学习模型,采用基于图的卷积神经网络GCN,构建ErbB靶向蛋白家族机器学习打分函数模型,所构建的ErbB靶向蛋白家族机器学习打分函数依次由输入信号Input Graph Signals、分子特征Molecular Feature、特征传递/更新Message Passing/Update、分层学习Layer-wise Learning、蛋白质-配体亲和力打分预测Predictions五部分构成;
如图3所示,给出了欧几里得数据与非欧几里得数据的区别示意图,分子数据是一种典型的图数据,属于非欧几里得数据域(Non-Euclidean Structure Data)的范畴。如图4所示,图像是由像素点(pixel)排列成的整齐矩阵构成的,属于欧几里得数据(EuclideanStructure Data)。
卷积神经网络(CNN)在处理图片时,可以采用固定大小的卷积核进行卷积计算。然而,分子结构数据是一种不规则图数据,属于非欧几里得数据,如图4所示给出了分子的2D和3D结构示意图,在分子的拓扑图结构中,每个原子的邻接原子的种类、数目均不同,而且相邻原子间化学键类型也不同,分子是一种不规则的图结构,而且具备一定的空间特性。这就决定了经典的CNN模型在进行卷积操作时无法在分子图数据上保持平移不变性,即:CNN无法采用一个同样尺寸的卷积核对分子数据进行卷积运算。
因为经典CNN模型不适用于分子机器学习的建模工作,而基于图的卷积神经网络(GCN)能针对性的解决Non-Euclidean Structure Data的机器学习建模问题,故本发明采用GCN进行ErbB靶向蛋白家族机器学习打分函数的建模工作,如图5所示,给出了本发明的基于GCN的ErbB靶向蛋白家族机器学习打分函数的模型示意图,该模型图中涉及的术语及注解如表4所示。
表4
术语 中文注释
Input Graph Signals 蛋白质、配体分子图数据载入。
Molecular Feature 分子特征矩阵,包含原子邻接矩阵和特征矩阵。
Neighbor autocoder 提取分子中原子邻接矩阵的过程。
Feature autocoder 提取分子中原子特征的过程。
Neighbor Matrix 分子中原子的邻接矩阵。
Feature Matrix 分子中原子的特征矩阵。
Message Passing 特征传递过程。
Message Update 特征更新过程。
Layer-wise Learning 分层学习,深度学习中的卷积、池化、全连接层设计。
Predictions 模型输出蛋白质-配体相互作用(亲和力)的数值。
ErbB靶向蛋白家族机器学习打分函数模型(简称EGCN Model)可以细分为InputGraph Signals(输入信号)、Molecular Feature(分子特征)、Message Passing/Update(特征传递/更新)、Layer-wise Learning(分层学习)、Predictions(蛋白质-配体亲和力打分预测)五部分。
Input Graph Signals过程为读取数据集中蛋白质和配体的结构文件、蛋白质-配体亲和力数据,蛋白质-配体亲和力数据包含解离常数Kd和抑制常数Ki
Molecular Feature过程为分别提取蛋白质和配体的分子数据特征,利用特征矩阵存储分子中原子类型、价态,利用邻接矩阵存储分子中原子间化学键信息;
Message Passing/Update过程为在卷积操作过程中传递、更新图结构中节点的特征,以实现对整个分子图特征的传递和更新;
Layer-wise Learning过程为对分子图结构特征数据进行进一步的池化操作。
分子特征化处理用于提取分子空间结构特征,有文献中又称作featurizer或node2vector。本发明采用空间图卷积Spatial Graph Convolutions进行分子图数据卷积操作。分子数据特征化处理可进一步细分Graph Convolution、Graph Pool和Graph Gather三步,如图6所示,给出了本发明中Graph Convolution步骤的示意图,Graph Convolution类似于CNN中的卷积,将分子视为无向有环图结构。首先,选择中心节点v,k表示该节点的特征;其次,选择与v距离d的邻接节点u;接着,选择与u节点距离为d的节点并迭代将该过程应用于整个图结构;最后,将v的邻接节点u的特征传递到v并更新v的特征。更详细的节点信息传递和中心节点信息更新过程如图7所示。
Graph Pool类似于CNN中的池化过程,本发明采用max pool将邻接节点的特征堆叠到中心节点,并将其应用到整个图结构。在图结构中迭代进行max pool之后,需要将特征传递到图结构的中心节点v,即是Graph gather的过程,Graph gather详情如图8所示。
GraphGather过程将图结构中节点及边的特征聚集到一起,最终得到M*M的邻接矩阵和M*N的特征矩阵,其中M表示分子图结构中原子的个数,N表示特征数。本发明在分子特征化处理过程涉及若干超参数设置,如表5所示,给出了ErbB靶向蛋白家族机器学习打分函数模型超参数设置。
表5
Figure BDA0002258990120000101
Figure BDA0002258990120000111
在ErbB靶向蛋白家族机器学习打分函数模型超参数设置过程中,本发明考虑到受体、配体分子结构差异等影响因素,经多次模型评估实验,在中心原子v与邻接原子u距离d的设置上将受体、配体感受野数值分别为3、2。Layers都设为3,即分子经过featurizer后需要在网络结构中进行3次卷积操作。Message Passing/Update、Layer-wise Learning过程Learning Rate分别为1e-3和2e-4。网络结构中每层的dropout分别为0、0.25、0.4、0.5,bathes设为64,epoch为100。
本发明采用空间图卷积对分子图特征进行特征化处理,这里对空间图卷积过程中涉及的Message Passing/Update方法进行详细说明,对节点特征更新Message Update算法和传递特征的Message Passing算法是空间图卷积的核心步骤,它其实是GCN对GraphConvolution过程的进一步细化。
Message Passing/Update过程基于消息传递神经网络MPNN的原理,在具有节点特征xi和边缘特征evw的无向图G上进行前向传递分两个阶段,即消息传递阶段和读出阶段,消息传递阶段运行T个时间步骤,并根据消息传递函数Mt和节点更新函数Ut定义,在消息传递阶段,图G中每个节点的隐藏状态hv t根据消息mv t+1更新,消息传递函数Mt和节点更新函数Ut算法分别如公式(1)和公式(2)所示:
Figure BDA0002258990120000112
Figure BDA0002258990120000113
其中,N(v)表示图G中v的邻居,读出阶段使用读出函数计算整个图的特征向量,图的特征向量如公式(3)所示,
Figure BDA0002258990120000114
在整个过程中,消息传递函数Mt,顶点更新函数Ut和读出函数R都是学习的可微函数。
在蛋白质-配体亲和力评估领域,科研人员一般采用RMS地址法、富集率分析法来定性定量地衡量打分函数的性能。对于蛋白质-配体的结合效果,直观的考虑,如图9所示,给出了本发明中1KV2蛋白质-配体复合物示意图,在1KV2蛋白质-配体复合物结构中,中心鸟巢状的腔体是蛋白质-配体的结合位点,腔体内的小分子是配体,配体与蛋白质镶嵌结合在一起。
1KV2蛋白质-配体复合物示意图是可视化的展示蛋白质-配体的结合效果,却无法定量衡量。本发明采用
Figure BDA0002258990120000121
方法定量衡量蛋白质-配体亲和力,
Figure BDA0002258990120000122
的度量指标如公式(4)和公式(5)所示:
Figure BDA0002258990120000123
Figure BDA0002258990120000124
其中,公式(5)是公式(4)的变式,yi是样本i的实验测量值,按照样本i的模型预测结果降序排列,σ(y)是归一化过程,T表示目标分子的总数,Nj是对目标j预测的样本数量,y(j)是针对目标j的实验测量值;
Figure BDA0002258990120000125
是对目标j第i个样品的值,
Figure BDA0002258990120000126
是针对目标j的实验测量平均值,σ(y(j))是归一化过程,求取目标j所有样品实验测量值的方差,
Figure BDA0002258990120000127
表示与目标j相关的第i个样品的权重。
d).模型的训练和评估,将步骤b)获取的ErbB靶向蛋白数据集按照60:20:20的比例随机拆分为训练集、验证集和测试集,训练集用来训练模型,验证集用于调优参数,测试集用于评估模型,最终获预测精度满足要求的基于图卷积技术的面向ErbB靶向蛋白家族的机器学习打分函数。
本发明构建了一个ErbB蛋白家族机器学习分子亲和力评估数据集。该数据集为ErbB蛋白家族的机器学习任务奠定了数据基础,对通过机器学习技术解决细胞代谢疾病、治疗神经疾病、抗肿瘤、心血管疾病治疗方面具有重要意义。本发明构建了ErbB靶向蛋白家族机器学习打分函数模型,将GCN技术应用于蛋白质-配体亲和力评估领域是一种崭新的思路。本发明通过“机器学习方法解决ErbB靶向蛋白家族新药研发”的整体思路。

Claims (5)

1.一种基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,其特征在于,通过以下步骤来实现:
a).构建ErbB靶向蛋白数据,对于ErbB包含的4个受体酪氨酸激酶ErbB-1、ErbB-2、ErbB-3和ErbB-4均构建靶向蛋白数据集,靶向蛋白数据集包括蛋白质-配体复合物信息列表、蛋白质-配体亲和力数据、配体结构数据、蛋白质结构数据、蛋白质-配体结合位点数据,其中蛋白质-配体亲和力数据包括解离常数Kd和抑制常数Ki
b).扩大数据集规模,由于步骤a)中所构建的ErbB靶向蛋白数据集数量有限,故采用“构象生成”的方法扩大数据集规模,采用原始构象、旋转构象、优化构象的方法扩大数据集规模,原始构象为对蛋白质-配体复合物原始结构构象,旋转构象为将原始构象绕Z轴旋转180度得到的构象,优化构象为将旋转构象用OPLS-2005力场优化后的构象;
c).构建机器学习模型,采用基于图的卷积神经网络GCN,构建ErbB靶向蛋白家族机器学习打分函数模型,所构建的ErbB靶向蛋白家族机器学习打分函数依次由输入信号InputGraph Signals、分子特征Molecular Feature、特征传递/更新Message Passing/Update、分层学习Layer-wise Learning、蛋白质-配体亲和力打分预测Predictions五部分构成;
Input Graph Signals过程为读取数据集中蛋白质和配体的结构文件、蛋白质-配体亲和力数据,蛋白质-配体亲和力数据包含解离常数Kd和抑制常数Ki;Molecular Feature过程为分别提取蛋白质和配体的分子数据特征,利用特征矩阵存储分子中原子类型、价态,利用邻接矩阵存储分子中原子间化学键信息;Message Passing/Update过程为在卷积操作过程中传递、更新图结构中节点的特征,以实现对整个分子图特征的传递和更新;Layer-wiseLearning过程为对分子图结构特征数据进行进一步的池化操作;
d).模型的训练和评估,将步骤b)获取的ErbB靶向蛋白数据集按照60:20:20的比例随机拆分为训练集、验证集和测试集,训练集用来训练模型,验证集用于调优参数,测试集用于评估模型,最终获预测精度满足要求的基于图卷积技术的面向ErbB靶向蛋白家族的机器学习打分函数。
2.根据权利要求1所述的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,其特征在于,步骤c)中Molecular Feature过程中采用空间图卷积Spatial GraphConvolutions进行分子数据特征化处理,其具体通过Graph Convolution、Graph Pool、Graph Gather三个步骤来实现;
Graph Convolution中将分子视为无向有环图结构,首先选择中心节点v,k表示中心节点的特征;其次,选择与v距离为d的邻接节点u;接着,选择与u节点距离为d的节点迭代,并将该过程应用于整个图结构;最后,将v的邻接节点u的特征传递到v并更新v的特征;
Graph Pool采用max pool将邻接节点的特征堆叠到中心节点,并将其应用到整个图结构,在图结构中迭代进行max pool之后,将特征传递到图结构的中心节点v;
Graph Gather过程将图结构中节点及边的特征聚集到一起,最终得到M*M的邻接矩阵和M*N的特征矩阵,其中M表示分子图结构中原子的个数,N表示特征数;
在分子数据特征化处理过程中,在中心原子v与邻接原子u距离d的设置上将受体感受野Protein Gather Width、配体感受野Ligand Gather Width数值分别为3、2,配体卷积次数Number of Ligands Convolution Layers、受体卷积次数Number of ProteinConvolution Layers都设为3,即分子经过featurizer后需要在网络结构中进行3次卷积操作;Message Passing/Update、Layer-wise Learning过程的Learning Rate分别为1e-3和2e-4;网络结构中每层的dropout分别为0、0.25、0.4、0.5,bathes设为64,epoch为100。
3.根据权利要求1或2所述的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,其特征在于,步骤c)中特征传递/更新Message Passing/Update过程中,基于消息传递神经网络MPNN的原理,在具有节点特征xi和边缘特征evw的无向图G上进行前向传递分两个阶段,即消息传递阶段和读出阶段,消息传递阶段运行T个时间步骤,并根据消息传递函数Mt和节点更新函数Ut定义,在消息传递阶段,图G中每个节点的隐藏状态hv t根据消息mv t+1更新,消息传递函数Mt和节点更新函数Ut算法分别如公式(1)和公式(2)所示:
Figure FDA0002258990110000031
Figure FDA0002258990110000032
其中,N(v)表示图G中v的邻居,读出阶段使用读出函数计算整个图的特征向量,图的特征向量如公式(3)所示,
Figure FDA0002258990110000033
在整个过程中,消息传递函数Mt,顶点更新函数Ut和读出函数R都是学习的可微函数。
4.根据权利要求1或2所述的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,其特征在于,采用
Figure FDA0002258990110000034
方法定量衡量蛋白质-配体亲和力,
Figure FDA0002258990110000035
的度量指标如公式(4)和公式(5)所示:
Figure FDA0002258990110000036
Figure FDA0002258990110000037
其中,公式(5)是公式(4)的变式,yi是样本i的实验测量值,按照样本i的模型预测结果降序排列,σ(y)是归一化过程,T表示目标分子的总数,Nj是对目标j预测的样本数量,y(j)是针对目标j的实验测量值;
Figure FDA0002258990110000038
是对目标j第i个样品的值,
Figure FDA0002258990110000039
是针对目标j的实验测量平均值,σ(y(j))是归一化过程,求取目标j所有样品实验测量值的方差,
Figure FDA00022589901100000310
表示与目标j相关的第i个样品的权重。
5.根据权利要求1或2所述的基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法,其特征在于:所述的靶向蛋白数据集包括蛋白质-配体复合物信息列表来源于ZINC15数据源、蛋白质-配体亲和力数据来源于ZINC15和RCSB PDB数据源、配体结构数据来源于ZINC15和RCSB PDB数据源、蛋白质结构数据来源于RCSB PDB数据源、蛋白质-配体结合位点数据来源于RCSB PDB数据源。
CN201911064826.3A 2019-11-04 2019-11-04 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 Active CN110767266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911064826.3A CN110767266B (zh) 2019-11-04 2019-11-04 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911064826.3A CN110767266B (zh) 2019-11-04 2019-11-04 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法

Publications (2)

Publication Number Publication Date
CN110767266A CN110767266A (zh) 2020-02-07
CN110767266B true CN110767266B (zh) 2023-04-18

Family

ID=69335543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911064826.3A Active CN110767266B (zh) 2019-11-04 2019-11-04 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法

Country Status (1)

Country Link
CN (1) CN110767266B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571124B (zh) * 2020-04-29 2024-04-23 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN111627493A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 一种激酶抑制剂的选择性预测方法和计算设备
CN111798933B (zh) * 2020-06-23 2024-03-01 苏州浦意智能医疗科技有限公司 一种基于深度学习的分子对接判别方法
CN111816252B (zh) * 2020-07-21 2021-08-31 腾讯科技(深圳)有限公司 一种药物筛选方法、装置及电子设备
CN112289371A (zh) * 2020-09-23 2021-01-29 北京望石智慧科技有限公司 蛋白质与小分子样本生成及结合能、结合构象预测方法
CN112185458B (zh) * 2020-10-23 2024-04-26 深圳晶泰科技有限公司 基于卷积神经网络预测蛋白和配体分子结合自由能的方法
CN112289372B (zh) * 2020-12-15 2022-04-22 武汉华美生物工程有限公司 一种基于深度学习的蛋白质结构设计方法及装置
CN117373563A (zh) * 2021-01-21 2024-01-09 北京晶泰科技有限公司 一种分子筛选方法和计算设备
CN113517038A (zh) * 2021-03-02 2021-10-19 阿里巴巴新加坡控股有限公司 药物与靶点之间亲和力的预测方法、装置及设备
CN113241126B (zh) * 2021-05-18 2023-08-11 百度时代网络技术(北京)有限公司 用于训练确定分子结合力的预测模型的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930181A (zh) * 2012-11-07 2013-02-13 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210027862A1 (en) * 2018-03-30 2021-01-28 Board Of Trustees Of Michigan State University Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930181A (zh) * 2012-11-07 2013-02-13 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘志海 ; 李婕 ; 韩莉 ; 李嫣 ; 王任小.构建药物-靶标亲合性打分函数的评价方法体系.中国科学. 化学.2015,第45卷(第9期),全文. *

Also Published As

Publication number Publication date
CN110767266A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN110767266B (zh) 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法
Noble et al. Spatial structure governs the mode of tumour evolution
Preuer et al. DeepSynergy: predicting anti-cancer drug synergy with Deep Learning
Kong et al. Network-based machine learning in colorectal and bladder organoid models predicts anti-cancer drug efficacy in patients
Ding et al. Interpretable dimensionality reduction of single cell transcriptome data with deep generative models
KR101953762B1 (ko) 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
Gonczarek et al. Interaction prediction in structure-based virtual screening using deep learning
Tanevski et al. Explainable multiview framework for dissecting spatial relationships from highly multiplexed data
Lin et al. Group sparse canonical correlation analysis for genomic data integration
Kutalik et al. A modular approach for integrative analysis of large-scale gene-expression and drug-response data
Zhang et al. Deep latent space fusion for adaptive representation of heterogeneous multi-omics data
Pei et al. Prediction of functional specificity determinants from protein sequences using log-likelihood ratios
CN114203269B (zh) 一种基于机器学习和分子对接技术的抗癌中药筛选方法
Stojković et al. Assessment of the nucleotide modifications in the high-resolution cryo-electron microscopy structure of the Escherichia coli 50S subunit
CN111312334A (zh) 一种影响细胞间通讯的受体-配体系统分析方法
Peyro et al. Evolutionarily conserved sequence features regulate the formation of the FG network at the center of the nuclear pore complex
Golriz Khatami et al. Using predictive machine learning models for drug response simulation by calibrating patient-specific pathway signatures
Gong et al. Application of Hi-C and other omics data analysis in human cancer and cell differentiation research
Oh et al. DRIM: a web-based system for investigating drug response at the molecular level by condition-specific multi-omics data integration
Chi et al. Bipartite graph-based approach for clustering of cell lines by gene expression–drug response associations
CN110426512A (zh) 区分过氧化酶激活增殖受体γ完全激动剂、部分激动剂、拮抗剂活性的方法
Braun et al. Mapping of Protein Binding Sites using clustering algorithms-Development of a pharmacophore based drug discovery tool
Subramanian et al. Angiogenesis goes computational–The future way forward to discover new angiogenic targets?
Li et al. Dual-view jointly learning improves personalized drug synergy prediction
Piran et al. SiFT: uncovering hidden biological processes by probabilistic filtering of single-cell data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant