CN111462833A - 一种虚拟药物筛选方法、装置、计算设备及存储介质 - Google Patents
一种虚拟药物筛选方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN111462833A CN111462833A CN201910050902.9A CN201910050902A CN111462833A CN 111462833 A CN111462833 A CN 111462833A CN 201910050902 A CN201910050902 A CN 201910050902A CN 111462833 A CN111462833 A CN 111462833A
- Authority
- CN
- China
- Prior art keywords
- compound
- matrix
- protein
- atoms
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
公开了一种虚拟药物筛选方法、装置、计算设备、存储介质。所述方法包括:对配体化合物和靶标蛋白质进行分子对接;以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录相应的预定结构信息并映射为结构信息矩阵组;利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到化合物‑蛋白质复合物的表示矩阵;对所述表示矩阵进行卷积、偏置、池化,得到结构向量;将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量,以此进行药物筛选。
Description
技术领域
本发明涉及药物筛选,具体的说,涉及一种虚拟药物筛选方法、装置、计算设备及存储介质。
背景技术
传统药物筛选是一项耗费大量时间、试剂、人力和设备的任务,不仅需要设计合成可能成药的化合物,还需要进行相应的生物化学或细胞实验验证其生物活性,但成功率不高。
为了克服传统药物筛选的缺陷,计算机辅助药物设计走进了人们的视野。一方面计算机技术不断进步,软硬件设施都得到了极大改善,另一方面现代药物研发过程中积累了大量的生物学数据和化学数据,这为计算机辅助药物设计的快速发展提供了良好条件。其中,基于配体化合物和靶标蛋白质的三维结构进行分子对接是进行计算机虚拟药物筛选的常用方法之一。分子对接是指利用计算机模拟两个分子结合生成稳定复合物的方法。在药物设计中,这两个分子通常是配体化合物小分子和靶标蛋白质大分子,当它们结合时会使得相应的生化过程受到抑制或者增强,从而产生治疗效果。正如同只有当钥匙正确的插入锁孔才能打开锁一样,只有当配体化合物和靶标蛋白质采取合适的构象结合,才能发挥药效。进行分子对接,可以不断调整配体化合物和靶标蛋白质的结合构象,从而预测最优的结合模式以及相应的结合强度,对于优化药物结构以及阐明生化过程具有重要意义。
分子对接过程的关键之一是评分函数,即对配体化合物和靶标蛋白质的结合构象进行评分,作为结合自由能的近似,用于指导构象采样——通过最小化评分函数(即最大化结合能的绝对值)来选择最佳的结合构象。常用的评分函数主要分为三类:其一是基于力场的评分函数,它涵盖了范德华力、静电力、氢键力等相互作用,根据第一性原理从头模拟计算分子的结合能;其二是基于先验知识的评分函数,它利用现有数据库中已知的结构数据及其结合能来产生一些简化的系数项来逼近复杂的物理作用,例如建立所有原子类型成对的结合能系数并求和作为结合能的近似,虽然极大地减少了计算量但是增加了过拟合的风险;其三是基于经验的评分函数,它整合了基于力场的和基于先验知识的评分函数,既包括了一些力场的物理参数,同时也设定诸如疏水性作用、去溶剂化作用等参数,这些参数可以通过现有已知数据来进行回归拟合。
Oleg Trott等人开发了用于分子对接和虚拟筛选的程序AutoDock Vina。AutoDock Vina通过预先定义的评分函数并通过复杂的梯度下降方式来调整结合构象以最小化评分函数。此外,利用多线程技术,AutoDock Vina可以在多核CPU机器上并行,比其之前的版本AutoDock 4在计算速度上快了两个数量级,同时显著地提高了预测结合构象的准确性。David Ryan Koes等人在AutoDock Vina的基础之上加以改进,设计了新的评分函数并优化以支持高通量筛选,开发了smina程序。但是这些分子对接程序仍然需要耗费大量时间进行计算,而在一些虚拟筛选的数据集上区分活性化合物和非活性化合物的能力有限。
另一方面,化合物的物理性质和化学性质与其生物活性、药物动力学性质有密切联系。Christopher A Lipinski提出了“5规则”用于粗略估计化合物的口服利用度,用于初步筛选化合物。这些规则所含有的数字都是5的倍数,即氢键供体数不超过5、相对分子质量不超过500、正辛醇-水分配系数小于5、氢键供体数不超过10,不满足这些条件的化合物更倾向于具有较差的吸收性。Daniel F.Veber等人的实验研究表明,当化合物具有不超过10个可旋转化学键,并且极性表面积不大于140平方埃,其通常具有较好的口服生物利用度。
发明内容
本发明披露了一种虚拟药物筛选方法,包括:利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;基于所述2维向量进行药物筛选。
在一些实施方式中,所述的虚拟药物筛选方法包括:所述化合物邻近原子和蛋白质邻近原子的预定结构信息包括所述化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型;将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组包括:将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵;利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵包括:利用神经网络分别对原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作,将嵌入后的四个矩阵在水平方向上拼接得到配体化合物-靶标蛋白质复合物的表示矩阵;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作包括:将所述结构向量与所述理化性质向量进行拼接,拼接后的向量与一权值矩阵相乘后得到中间向量,加上与所述中间向量具有相同维度的所述第二偏置项,再与另一权值矩阵相乘进行所述全连接操作。
在一些实施方式中,将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵包括:将原子类型和氨基酸残基类型映射为整数编号,偏电荷数按照下界为-1,上界为1,区间宽度为0.05的划分方式映射到相应的区间编号,与参考原子的距离按照下界为0,上界为5.1埃,区间宽度为0.3埃的划分方式映射到相应的区间编号;由原子类型和氨基酸残基类型的整数编号以及偏电荷数和与参考原子的距离的区间编号分别得到所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵。
在一些实施方式中,所述卷积操作利用卷积核数为400的权值矩阵进行。
在一些实施方式中,所述神经网络利用python神经网络软件库TensorFlow构建,所述神经网络设置四个平行的嵌入层,嵌入向量长度均设为200,分别用于对所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作。
在一些实施方式中,所述2维向量表示所述化合物对所述靶标蛋白质呈非活性和活性的原始分数,基于所述2维向量进行药物筛选包括:对所述原始分数进行softmax操作,得到输出的分数,根据输出的分数高低进行药物筛选。
在一些实施方式中,所述方法还包括:对神经网络进行训练,在训练神经网络时,采用交叉熵损失函数,学习速率设为0.075,最大迭代次数为5,优化方式为Adadelta。
在一些实施方式中,每一参考原子的所述化合物邻近原子和蛋白质邻近原子采用如下方式确定:计算所述参考原子与所有来自所述化合物和靶标蛋白质的原子在三维空间中的欧式距离,并按照所述欧式距离由近及远进行排序,将参考原子和化合物中离所述参考原子最近的预定数量个原子确定为化合物邻近原子,将蛋白质中离所述参考原子最近的预定数量个原子确定为蛋白质邻近原子。
在一些实施方式中,所述理化性质向量表示的化合物的物理化学性质利用python化学信息软件库rdkit计算,所述分子指纹为1024维的ECFP4分子指纹。
在一些实施方式中,所述化合物的物理化学性质包括氢键供体数、氢键受体数、可旋转化学键个数、芳香环个数、相对分子质量、拓扑极性表面积和正辛醇-水分配系数。
本发明也公开了一种虚拟药物筛选装置,包括:
分子对接单元,用于利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
特征选取单元,用于以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息,以及将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
神经网络预测单元,用于利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;以及
药物筛选单元,用于基于所述2维向量进行药物筛选。
本发明还提供一种计算设备,包括:
处理器,以及
存储器,其中存储有程序;
在所述处理器执行所述程序时,进行以下操作:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
本发明还提供了一种存储介质,用于存储程序,当所述程序被执行时,使得计算设备进行以下操作:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
不同于传统方法只单方面地利用结构信息或者化合物的物理化学性质信息,本发明有效地结合了这两方面的信息,既关注了配体化合物与靶标蛋白质结合的构象,有利于判断它们结合的强度,又关注了化合物本身的理化性质,有助于判断化合物的动力学特征,从而实现了更加准确的虚拟筛选。当训练数据量足够时,可以获得更好的效果。采用本发明的方法,可以利用计算机进行高通量虚拟药物筛选,节约了传统药物筛选所需的大量时间和人力物资。
附图说明
图1是本发明实施例的虚拟药物筛选方法流程图;
图2是本发明实施例的虚拟药物筛选方法与现有技术的两种筛选方法的比较示意图。
具体实施方式
如前所述,当前的药物筛选方法,要么只考虑了结构方面的信息,要么只考虑了化合物的物理化学性质信息,前者侧重于配体化合物和靶标蛋白质结合构象以及结合自由能,而后者侧重于化合物在生物体内的吸收、分配、代谢、排泄和毒性方面的药物动力学性质,两者无法直接地相互体现。
本发明人考虑到实际药物生效过程既需要药物分子与靶标蛋白质能以一定强度互相结合,也需要药物分子具有良好的药动学性质以保证自身在生物体内具有足够的浓度,因而认识到,在进行药物筛选时同时考虑这两方面的信息有助于提高区分活性化合物和非活性化合物的准确度。有鉴于此,为了改善判别配体化合物和靶标蛋白质是否具有生物活性的准确度,本发明设计出一种基于化合物与蛋白质三维结构和分子物理化学性质进行虚拟药物筛选的方法。这种方法通过分子对接程序对配体化合物分子与靶标蛋白质分子进行对接,将所得结果以及相应化合物的物理化学性质和分子指纹信息作为输入,通过神经网络进行学习和分类,从而筛选出具有成药潜力的化合物。本发明具有筛选通量高,预测结果准确的优点。本发明的方法与单纯使用结构信息的虚拟筛选方法相比,有效提升了化合物活性判别的准确度。
参考图1,具体的说,本发明的虚拟药物筛选方法,其主要流程包括分子对接、特征选取、神经网络预测。
分子对接:将保存有配体化合物和靶标蛋白质的三维结构的文件利用分子对接程序进行分子对接,将对接后具有原子类型、偏电荷数、与参考原子的距离、蛋白质分子中的原子所归属的氨基酸残基类型等结构信息的配体化合物和靶标蛋白质的三维结构的文件保存。在本发明的一个实施方案中,采用的是smina分子对接程序,采用的分子结构文件格式为pdbqt。
特征选取:利用对接后的结构文件,对配体化合物分子中的每一个原子(参考原子),按照三维空间中的欧式距离在化合物分子内部以及在靶标蛋白质分子中求其包括自身在内的邻近原子,记录这些邻近原子的预定结构信息,包括原子类型、偏电荷数、与参考原子的距离和所归属的氨基酸残基类型(针对来自于蛋白质分子的邻近原子)。其中原子类型和氨基酸残基类型按照离散型变量映射为整数编号,偏电荷数和距离按照区间映射为整数编号,分别储存为四个矩阵,即原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵(统称为结构信息矩阵组),矩阵的行数等于配体化合物分子的原子个数,列数等于邻近原子个数,值代表相应的原子类型/偏电荷数所处区间/距离所处区间/氨基酸残基类型。这些矩阵将用于神经网络嵌入(embedding)操作(参见下文)。此外,利用配体化合物分子的简化分子线性输入规范(Simplified molecular input line entry specification,SMILES)序列表示作为输入,利用化学信息学软件计算该化合物的物理化学性质及分子指纹,将结果保存为数值向量p0(称其为理化性质向量)用于神经网络。在本发明的一个实施方案中,参考原子在配体化合物中的邻近原子个数取为6,在蛋白质中则取为2;计算的物理化学性质包括氢键供体数、氢键受体数、可旋转化学键个数、芳香环个数、相对分子质量、拓扑极性表面积和正辛醇-水分配系数;所采用的分子指纹为ECFP-4,长度为1024。
神经网络预测:对原子类型、偏电荷数区间、距离区间和氨基酸残基类型进行嵌入操作,即把代表该类别信息的单个整数编号映射为预先定义好长度的向量。映射时,原始的输入矩阵映射为行数不变,列数变为邻近原子个数与嵌入向量长度之乘积。将四个映射后的矩阵按水平方向进行拼接(即行数不变),作为配体-蛋白质复合物的表示,与第一权值矩阵W1(卷积权值矩阵)进行卷积操作,加上第一偏置项b1(其是与卷积结果具有相同维数的实数向量)后,进行最大池化(max pooling)操作,得到向量p1(称其为结构向量)。将结构向量p1与理化性质向量p0进行拼接,拼接后的向量与第二权值矩阵W2(神经网络加权权值矩阵)相乘后得到中间向量p2,加上与中间向量p2具有相同维度的第二偏置项b2,再与第三权值矩阵W3相乘进行全连接操作得到初始评分,对初始评分进行softmax操作即得到最终评分作为输出,其值为0到1之间的数字,数值越大代表该化合物对该蛋白质具有生物活性的可能性越大,即越有可能成为药物。在本发明的一个实例中,四个矩阵各自的嵌入向量长度均设为200,权值矩阵W1的核数为400,W2为50,W3为2,神经网络的实现采用TensorFlow,训练神经网络时采用的损失函数为交叉熵损失函数,优化方式为Adadelta。
DUD-E是Michael M.Mysinger等人构建的用于评估分子对接和虚拟筛选性能的一个数据集,其包含有若干靶标蛋白质及其相应的活性化合物和非活性化合物。可以以此数据集来检测本发明的应用效果。
首先,利用分子对接程序smina对上述数据集中的化合物和靶标蛋白质进行分子对接,产生对接后的结构文件pdbqt,对输出文件进行分析。
假设某对接后的化合物分子所含原子个数为N,对其中每一个原子(参考原子),计算其与所有来自该化合物和靶标蛋白质的原子在三维空间中的欧式距离,并按照距离由近及远进行排序,在化合物原子中取包括参考原子自身在内的最近的6个邻近原子(称为化合物邻近原子),并在蛋白质原子中取最近的2个邻近原子(称为蛋白质邻近原子),记录这些邻近原子的原子类型、偏电荷数、与参考原子的距离。对于来自蛋白质邻近原子,额外记录其所归属的氨基酸残基类型。并将原子类型和氨基酸残基类型映射为整数编号,偏电荷数按照下界为-1,上界为1,区间宽度为0.05的划分方式映射到相应的区间编号,与参考原子的距离按照下界为0,上界为5.1埃,区间宽度为0.3埃的划分方式映射到相应的区间编号。如此,得到大小为N×8的原子类型矩阵、N×8的偏电荷数矩阵、N×8的距离矩阵和N×2的氨基酸残基类型矩阵。
另一方面,利用python化学信息软件库rdkit(如,rdkit 2018.09.1.0版本)计算该化合物的物理化学性质,包括氢键供体数、氢键受体数、可旋转化学键个数、芳香环个数、相对分子质量、拓扑极性表面积和正辛醇-水分配系数,以及1024维的ECFP4分子指纹,组成理化性质向量。
利用python神经网络软件库TensorFlow(如,tensorflow-gpu 1.12.0版本)构建神经网络。首先设置四个平行的嵌入层,嵌入向量长度均设为200,分别用于对原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作。将嵌入后的四个矩阵在水平方向上拼接得到配体化合物-靶标蛋白质复合物的表示矩阵,大小为N×5200。经过一核数为400的卷积核进行卷积操作,加上第一偏置项后,进行最大池化操作,得到结构向量。
所得的结构向量与理化性质向量拼接,与大小为1431×50的权值矩阵(神经网络权值矩阵)相乘(1431=400+7+1024),得到中间向量,加上与中间向量具有相同维度的第二偏置项,再与第三权值矩阵W3相乘进行全连接操作,得到一2维向量,表示该化合物对靶标蛋白质呈非活性和呈活性的原始分数,而后可以基于原始分数进行药物筛选。具体的,可以对原始分数进行softmax操作,得到输出的分数,再根据输出的分数高低进行药物筛选。此外,各权值矩阵由标准正态分布初始化,经神经网络梯度下降优化训练而得,具体的数值会根据具体训练实施的数据而变化。在训练神经网络时,采用交叉熵损失函数,学习速率设为0.075,最大迭代次数为5,优化方式为Adadelta。进行虚拟药物筛选时的计算机,其使用的GPU(Graphics Processing Unit,图形处理器)可以为NVIDIA TITAN Xp。
在一些实施方式中,本发明的一种虚拟药物筛选装置,可以包括:
分子对接单元,用于利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
特征选取单元,用于以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息,以及将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
神经网络预测单元,用于利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;以及
药物筛选单元,用于基于所述2维向量进行药物筛选。
可以理解的是,上述单元可以是软件程序的程序模块,然而,程序模块的具体设置并非限定于此,其他的设置方式同样可以包含于此。此外,软件程序也并不限于是windows软件程序,也可以是其他系统平台下的软件程序,例如linux软件程序,iOS和Android平台的APP,微信小程序等。
在一些实施方式,本发明的一种计算设备,包括:
处理器,以及
存储器,其中存储有程序;
在所述处理器执行所述程序时,进行以下操作:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
所述计算设备,可以是各种具有处理器和存储器的计算设备,例如台式计算机、笔记本、平板电脑、智能手机等等。
在一些实施方式中,本发明的一种存储介质,用于存储程序,当所述程序被执行时,该存储介质可以使得计算设备进行以下操作:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
该存储介质,可以是软盘、光碟、U盘、记忆棒等各种具有数据存储能力的设备,当所述存储介质与例如计算机连接时,所述计算机可以进行上述操作。
实施例采用5交叉验证,在96个来自于DUD-E数据集的靶标蛋白质上进行实验,一次训练和交叉验证耗时约为2h。评估标准采用受试者操作特征曲线(receiver operatingcharacteristic curve)的曲线下面积(Area under the curve,AUC),AUC的值在0到1之间,其值越大,意味着分类的正确率越高,亦即虚拟筛选的正确率越高,当AUC的值为0.5时,意味着该分类器性能与随机猜测相同。
表1和图2展示了直接使用分子对接程序smina的评分函数作为结果、仅使用配体化合物和靶标蛋白质结构信息的神经网络的预测结果、本发明结合结构信息与理化性质信息的神经网络的预测结果的对比。从比较的结果来看,在总体虚拟筛选预测性能上,本发明涉及方法表现最好,AUC平均值可达0.957,高于仅使用结构信息的神经网络AUC平均值0.934,远远超过smina评分函数AUC平均值0.741;在个体的表现上,在96个靶标蛋白质中,本发明的方法在74个靶标蛋白质的预测任务上AUC值最高,占所有蛋白质个数的77%。由此可见,本发明在筛选的正确率上优于现有的虚拟药物筛选的方法,同时具有高通量的优点。
表1
不同于传统方法只单方面地利用结构信息或者化合物的物理化学性质信息,本发明有效地结合了这两方面的信息,既关注了配体化合物与靶标蛋白质结合的构象,有利于判断它们结合的强度,又关注了化合物本身的理化性质,有助于判断化合物的动力学特征,从而实现了更加准确的虚拟筛选。当训练数据量足够时,可以获得更好的效果。采用本发明的方法,可以利用计算机进行高通量虚拟药物筛选,节约了传统药物筛选所需的大量时间和人力物资。
Claims (10)
1.一种虚拟药物筛选方法,其特征在于,包括:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
2.如权利要求1所述的虚拟药物筛选方法,其特征在于,包括:
所述化合物邻近原子和蛋白质邻近原子的预定结构信息包括所述化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组包括:将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵包括:利用神经网络分别对原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作,将嵌入后的四个矩阵在水平方向上拼接得到配体化合物-靶标蛋白质复合物的表示矩阵;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作包括:将所述结构向量与所述理化性质向量进行拼接,拼接后的向量与一权值矩阵相乘后得到中间向量,加上与所述中间向量具有相同维度的所述第二偏置项,再与另一权值矩阵相乘进行所述全连接操作;
优选的,将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵包括:
将原子类型和氨基酸残基类型映射为整数编号,偏电荷数按照下界为-1,上界为1,区间宽度为0.05的划分方式映射到相应的区间编号,与参考原子的距离按照下界为0,上界为5.1埃,区间宽度为0.3埃的划分方式映射到相应的区间编号;由原子类型和氨基酸残基类型的整数编号以及偏电荷数和与参考原子的距离的区间编号分别得到所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵;
优选的,所述神经网络利用python神经网络软件库TensorFlow构建,所述神经网络设置四个平行的嵌入层,嵌入向量长度均设为200,分别用于对所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作;
优选的,所述卷积操作利用卷积核数为400的权值矩阵进行。
3.如权利要求1所述的虚拟药物筛选方法,其特征在于,所述2维向量表示所述化合物对所述靶标蛋白质呈非活性和活性的原始分数,基于所述2维向量进行药物筛选包括:对所述原始分数进行softmax操作,得到输出的分数,根据输出的分数高低进行药物筛选。
4.如权利要求1所述的虚拟药物筛选方法,其特征在于,所述方法还包括:对神经网络进行训练,在训练神经网络时,采用交叉熵损失函数,学习速率设为0.075,最大迭代次数为5,优化方式为Adadelta。
5.如权利要求1所示的虚拟药物筛选方法,其特征在于,每一参考原子的所述化合物邻近原子和蛋白质邻近原子采用如下方式确定:
计算所述参考原子与所有来自所述化合物和靶标蛋白质的原子在三维空间中的欧式距离,并按照所述欧式距离由近及远进行排序,将参考原子和化合物中离所述参考原子最近的预定数量个原子确定为化合物邻近原子,将蛋白质中离所述参考原子最近的预定数量个原子确定为蛋白质邻近原子。
6.如权利要求1所述的虚拟药物筛选方法,其特征在于,所述理化性质向量表示的化合物的物理化学性质利用python化学信息软件库rdkit计算,所述分子指纹为1024维的ECFP4分子指纹。
7.如权利要求1所述的虚拟药物筛选方法,其特征在于,所述化合物的物理化学性质包括氢键供体数、氢键受体数、可旋转化学键个数、芳香环个数、相对分子质量、拓扑极性表面积和正辛醇-水分配系数。
8.一种虚拟药物筛选装置,其特征在于,包括:
分子对接单元,用于利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
特征选取单元,用于以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息,以及将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
神经网络预测单元,用于利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;以及
药物筛选单元,用于基于所述2维向量进行药物筛选。
9.一种计算设备,其特征在于,包括:
处理器,以及
存储器,其中存储有程序;
在所述处理器执行所述程序时,进行以下操作:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
10.一种存储介质,用于存储程序,其特征在于,
当所述程序被执行时,使得计算设备进行以下操作:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910050902.9A CN111462833B (zh) | 2019-01-20 | 2019-01-20 | 一种虚拟药物筛选方法、装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910050902.9A CN111462833B (zh) | 2019-01-20 | 2019-01-20 | 一种虚拟药物筛选方法、装置、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462833A true CN111462833A (zh) | 2020-07-28 |
CN111462833B CN111462833B (zh) | 2023-05-23 |
Family
ID=71684119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910050902.9A Active CN111462833B (zh) | 2019-01-20 | 2019-01-20 | 一种虚拟药物筛选方法、装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462833B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116963A (zh) * | 2020-09-24 | 2020-12-22 | 深圳智药信息科技有限公司 | 自动药物设计方法、系统、计算设备及计算机可读存储介质 |
CN112863634A (zh) * | 2021-01-12 | 2021-05-28 | 山东大学 | 基于新冠蛋白质异构网络聚类的中药处方推荐方法及系统 |
CN113393911A (zh) * | 2021-06-23 | 2021-09-14 | 石家庄鲜虞数字生物科技有限公司 | 一种基于深度学习的配体化合物快速预筛选模型 |
CN113436686A (zh) * | 2021-06-23 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的化合物库构建方法、装置、设备及存储介质 |
JP2022538823A (ja) * | 2020-09-27 | 2022-09-06 | 平安科技(深▲せん▼)有限公司 | 薬物分類方法と装置、端末デバイス及び記憶媒体 |
WO2024060939A1 (zh) * | 2022-09-21 | 2024-03-28 | 北京有竹居网络技术有限公司 | 分子表示方法及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1829524A (zh) * | 2003-05-08 | 2006-09-06 | 波特·W·安德森 | 基于gp160和人cd4蛋白共有的保守氨基酸序列的抗hiv-1化合物 |
WO2009064015A1 (ja) * | 2007-11-12 | 2009-05-22 | In-Silico Sciences, Inc. | インシリコスクリーニング装置、および、インシリコスクリーニング方法 |
CN102222178A (zh) * | 2011-03-31 | 2011-10-19 | 清华大学深圳研究生院 | 一种筛选和/或设计针对多靶标的药物的方法 |
CN106133734A (zh) * | 2013-12-13 | 2016-11-16 | 艾伯塔大学校董事会 | 选择具有降低心脏毒性风险的化合物的系统及方法 |
CN106446607A (zh) * | 2016-09-26 | 2017-02-22 | 华东师范大学 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
CN107862173A (zh) * | 2017-11-15 | 2018-03-30 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
WO2018213767A1 (en) * | 2017-05-19 | 2018-11-22 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
-
2019
- 2019-01-20 CN CN201910050902.9A patent/CN111462833B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1829524A (zh) * | 2003-05-08 | 2006-09-06 | 波特·W·安德森 | 基于gp160和人cd4蛋白共有的保守氨基酸序列的抗hiv-1化合物 |
WO2009064015A1 (ja) * | 2007-11-12 | 2009-05-22 | In-Silico Sciences, Inc. | インシリコスクリーニング装置、および、インシリコスクリーニング方法 |
CN102222178A (zh) * | 2011-03-31 | 2011-10-19 | 清华大学深圳研究生院 | 一种筛选和/或设计针对多靶标的药物的方法 |
CN106133734A (zh) * | 2013-12-13 | 2016-11-16 | 艾伯塔大学校董事会 | 选择具有降低心脏毒性风险的化合物的系统及方法 |
CN106446607A (zh) * | 2016-09-26 | 2017-02-22 | 华东师范大学 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
WO2018213767A1 (en) * | 2017-05-19 | 2018-11-22 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
CN107862173A (zh) * | 2017-11-15 | 2018-03-30 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
Non-Patent Citations (3)
Title |
---|
史海龙等: "传统中药中H7N9病毒神经氨酸酶抑制剂的计算机虚拟筛选", 《中国实验方剂学杂志》 * |
吴纯伟等: "药物靶标预测技术在中药网络药理学中的应用", 《中国中药杂志》 * |
赵晨等: "分子对接软件在药物设计中的应用", 《中国抗生素杂志》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116963A (zh) * | 2020-09-24 | 2020-12-22 | 深圳智药信息科技有限公司 | 自动药物设计方法、系统、计算设备及计算机可读存储介质 |
JP2022538823A (ja) * | 2020-09-27 | 2022-09-06 | 平安科技(深▲せん▼)有限公司 | 薬物分類方法と装置、端末デバイス及び記憶媒体 |
JP7227405B2 (ja) | 2020-09-27 | 2023-02-21 | 平安科技(深▲せん▼)有限公司 | 薬物分類方法と装置、端末デバイス及び記憶媒体 |
CN112863634A (zh) * | 2021-01-12 | 2021-05-28 | 山东大学 | 基于新冠蛋白质异构网络聚类的中药处方推荐方法及系统 |
CN112863634B (zh) * | 2021-01-12 | 2022-09-20 | 山东大学 | 基于新冠蛋白质异构网络聚类的中药处方推荐方法及系统 |
CN113393911A (zh) * | 2021-06-23 | 2021-09-14 | 石家庄鲜虞数字生物科技有限公司 | 一种基于深度学习的配体化合物快速预筛选模型 |
CN113436686A (zh) * | 2021-06-23 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的化合物库构建方法、装置、设备及存储介质 |
CN113393911B (zh) * | 2021-06-23 | 2022-08-19 | 石家庄鲜虞数字生物科技有限公司 | 一种基于深度学习的配体化合物快速预筛选方法 |
WO2022267752A1 (zh) * | 2021-06-23 | 2022-12-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的化合物处理方法、装置、设备、存储介质及计算机程序产品 |
CN113436686B (zh) * | 2021-06-23 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 基于人工智能的化合物库构建方法、装置、设备及存储介质 |
WO2024060939A1 (zh) * | 2022-09-21 | 2024-03-28 | 北京有竹居网络技术有限公司 | 分子表示方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111462833B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462833A (zh) | 一种虚拟药物筛选方法、装置、计算设备及存储介质 | |
US11080570B2 (en) | Systems and methods for applying a convolutional network to spatial data | |
Li et al. | An overview of scoring functions used for protein–ligand interactions in molecular docking | |
US10691725B2 (en) | Database and data processing system for use with a network-based personal genetics services platform | |
US20230377691A1 (en) | Estimating predisposition for disease based on classification of artifical image objects created from omics data | |
Xu et al. | A survey of transfer and multitask learning in bioinformatics | |
AU2003222214B2 (en) | Methods and systems to identify operational reaction pathways | |
KR102100985B1 (ko) | 패러다임 약물 반응 네트워크 | |
Knowles et al. | Multiobjective optimization on a budget of 250 evaluations | |
Liu et al. | Biclustering of microarray data with MOSPO based on crowding distance | |
Pagnuco et al. | Analysis of genetic association using hierarchical clustering and cluster validation indices | |
Hajirasouliha et al. | Precision medicine and artificial intelligence: overview and relevance to reproductive medicine | |
Larson et al. | A kernel regression approach to gene‐gene interaction detection for case‐control studies | |
Yuan et al. | Fine-mapping across diverse ancestries drives the discovery of putative causal variants underlying human complex traits and diseases | |
Li et al. | SRHiC: a deep learning model to enhance the resolution of Hi-C data | |
Qu et al. | Quantitative trait associated microarray gene expression data analysis | |
KR101067352B1 (ko) | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 | |
Wong et al. | Predicting protein-ligand binding site using support vector machine with protein properties | |
Godden et al. | Recursive median partitioning for virtual screening of large databases | |
Welchowski et al. | A framework for parameter estimation and model selection in kernel deep stacking networks | |
KR101090892B1 (ko) | 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법 | |
Balakin et al. | Structure-based versus property-based approaches in the design of G-protein-coupled receptor-targeted libraries | |
Chen et al. | Extended methods for gene–environment‐wide interaction scans in studies of admixed individuals with varying degrees of relationships | |
US20130246033A1 (en) | Predicting phenotypes of a living being in real-time | |
CN112837743A (zh) | 一种基于机器学习的药物重定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |