CN114333986A - 模型训练、药物筛选和亲和力预测的方法与装置 - Google Patents

模型训练、药物筛选和亲和力预测的方法与装置 Download PDF

Info

Publication number
CN114333986A
CN114333986A CN202111039673.4A CN202111039673A CN114333986A CN 114333986 A CN114333986 A CN 114333986A CN 202111039673 A CN202111039673 A CN 202111039673A CN 114333986 A CN114333986 A CN 114333986A
Authority
CN
China
Prior art keywords
protein
affinity
compound
atom
small molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111039673.4A
Other languages
English (en)
Inventor
黎浩添
刘伟
黄俊洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111039673.4A priority Critical patent/CN114333986A/zh
Publication of CN114333986A publication Critical patent/CN114333986A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请实施例提供一种模型训练、药物筛选和亲和力预测的方法与装置。本申请实施例提供一种预测小分子化合物与蛋白质之间亲和力的方法,其包括:基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;基于所述拓扑图G,确定特征向量;利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。利用该方法可以提高小分子化合物与蛋白质之间亲和力预测的效率、可解释性、可重复性、准确度和精度。

Description

模型训练、药物筛选和亲和力预测的方法与装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种模型训练、药物筛选和亲和力预测的方法与装置,更具体的,涉及预测小分子化合物与蛋白质之间亲和力的方法和装置,药物筛选方法和装置,训练机器学习模型的方法和装置。
背景技术
众所周知,新药的研发非常漫长、复杂且取决于许多因素,同时,新药开发也是非常昂贵的过程。据估计,每批准一种新药,制药公司平均在研发上的花费是26亿美元,主要原因是大部分的候选药物都失败了。
机器学习(Machine Learning,ML)通过丰富且高质量的数据改进指定问题的发现和决策。机器学习在药物发现的所有阶段都有应用:靶标验证、生物标志物的鉴定和临床试验中数字病理学数据的分析。目前常用的计算方法中,需要考虑到蛋白质-配体复合物的三维(3D)结构,进行分子对接,继而通过评分函数评估结合活性。然而,分子对接产生的对接姿势以及蛋白质-药物配体结合亲和力估计的评分函数不够准确,会导致较高的假阳性率。另外,目前机器学习的主要挑战还在于所产生的结果缺乏可解释性和可重复性差。
发明内容
本申请实施例提供一种模型训练、药物筛选和亲和力预测的方法与装置,以提高小分子化合物与蛋白质之间亲和力预测的效率、可解释性、可重复性、准确度和精度,从而可以降低药物筛选相关工作的成本,提高药物筛选的效率。
第一方面,本申请实施例提供一种预测小分子化合物与蛋白质之间亲和力的方法,其包括:基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;基于所述拓扑图G,确定特征向量;利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。
在一些实施例中,所述三维构象是通过下列步骤获得的:
基于所述小分子化合物和所述蛋白质的信息,利用接入软件生成候选构象;和
利用构象评价模型,基于所述候选构象确定所述三维构象,所述构象评价模型是利用已知存在相互作用的蛋白质和小分子化合物进行训练得到的。
在一些实施例中,所述构象评价模型是通过下列步骤得到的:
基于具有共晶数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个第一构象样本;
基于所述第一构象样本与所述共晶结构的偏差,将所述多个第一构象样本分类为正样本和负样本;
利用所述第一构象样本作为训练集,训练初步构象评价模型;
基于不具有共晶数据但已知活性数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个预测构象样本;
利用所述初步构象评价模型,对所述多个预测构象样本进行评价,以便选择包括正样本和负样本的第二构象样本;
利用所述第一构象样本和所述第二构象样本,对所述初步构象评价模型进行优化,以便获得所述构象评价模型。
在一些实施例中,所述接入区域是基于小分子化合物的原子以及蛋白质上的口袋原子确定的,所述口袋原子与所述小分子化合物的原子距离小于预定距离阈值。
在一些实施例中,所述距离阈值为1~100埃米,可选的,所述距离阈值为1~10埃米。
在一些实施例中,所述特征向量包括原子特征、键特征和拓扑图的边角特征,
所述原子特征包括下列特征的至少之一:原子类型、邻居数目、自由电子数目、原子的手性类型、原子的化合价、原子的杂化类型、原子是否具有预定属性、原子是否包含在3~8元环中、原子的电荷分布、原子属于蛋白质还是化合物、原子所属氨基酸类型、原子与各邻居的距离和原子所连接氢原子数目,以及
所述键特征包括下列特征的至少之一:原子与其他原子的成键数目、键的类型、成键原子之间的距离、键所连接的两个原子是否在同一环中、氢键、π-π堆积、π-离子、疏水性、盐桥以及X-bond。
在一些实施例中,所述机器学习模型设置有注意力读出层用于确定所述接入区域中各原子对所述亲和力的贡献权重。
在一些实施例中,所述机器学习模型包括设置下列至少之一的图神经网络:至少一个卷积层、至少一个前馈神经网络、至少一个注意力层、至少一个信息瓶颈单元。
在一些实施例中,所述机器学习模型依次包括:注意力层、第零图卷积神经网络层、第一图卷积神经网络层、线性转化层、第二图卷积神经网络层、第三图卷积神经网络层、注意力读出层、前馈神经网络,其中,所述注意力层对其输入矩阵进行升维转换,所述第一图卷积神经网络层对其输入矩阵进行降维转换,所述线性转化层不改变其输入矩阵的维度,所述第二图卷积神经网络层对其输入矩阵进行升维转换。
第二方面,本申请实施例提供一种药物筛选方法,其包括:
基于候选化合物的结构式以及蛋白质的氨基酸序列,确定所述候选化合物与所述蛋白质复合物的三维构象,所述蛋白质与预定疾病有关;
根据前面所述的方法,预测所述候选化合物与所述蛋白质的亲和力,所述亲和力高于预定阈值是所述候选化合物可以治疗所述预定疾病的指示。
在一些实施例中,所述候选化合物是基于对起始化合物进行改造获得的。
在一些实施例中,根据前面所述的方法,确定所述起始化合物与所述蛋白质的亲和力以及确定所述起始化合物中各原子对所述亲和力的贡献权重;和基于所述起始化合物中各原子对所述亲和力的贡献权重,确定所述改造的候选位点。
第三方面,本申请实施例提供一种训练机器学习模型的方法,所述机器学习模型用于预测小分子化合物与蛋白质之间的亲和力,所述方法包括:获取多个复合物的三维构象,所述复合物由已知亲和力的小分子化合物和蛋白质形成;基于所述复合物的三维构象确定接入区域;基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;基于所述拓扑图G,确定特征向量;利用所述已知亲和力作为标记,采用所述特征向量对所述机器学习模型进行训练,以便获得经过训练的机器学习模型。
第四方面,本申请实施例提供一种预测小分子化合物与蛋白质之间亲和力的装置,其包括:接入区域确定单元,用于基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;特征向量确定单元,用于基于所述接入区域内的原子以及化学键的特征,构建拓扑图G,并基于所述拓扑图G,确定特征向量;预测单元,用于利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。
第五方面,本申请实施例提供一种药物筛选装置,其包括:三维构象确定单元,用于基于候选化合物的结构式以及蛋白质的氨基酸序列,确定所述候选化合物与所述蛋白质复合物的三维构象,所述蛋白质与预定疾病有关;预测单元,用于根据前面所述的方法,预测所述候选化合物与所述蛋白质的亲和力,其中,所述亲和力高于预定阈值是所述候选化合物可以治疗所述预定疾病的指示。
第六方面,本申请实施例提供一种训练机器学习模型的装置,所述机器学习模型用于预测小分子化合物与蛋白质之间的亲和力,所述装置包括:获取单元,用于获取多个复合物的三维构象,所述复合物由已知亲和力的小分子化合物和蛋白质形成;接入区域确定单元,用于基于所述复合物的三维构象确定接入区域;特征向量确定单元,用于基于所述接入区域内的原子以及化学键的特征,构建拓扑图G,以及基于所述拓扑图G,确定特征向量;和训练单元,用于利用所述已知亲和力作为标记,采用所述特征向量对所述机器学习模型进行训练,以便获得经过训练的机器学习模型。
第七方面,本申请实施例提供一种计算设备,其包括:处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现前面如第一方面至第三方面任一方面所述的方法。
第八方面,本申请实施例提供一种计算机可读存储介质,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如第一方面至第三方面任一方面所述的方法。
本申请实施例提供的预测小分子化合物与蛋白质之间亲和力的方法和装置,药物筛选方法和装置,训练机器学习模型的方法和装置,通过对多个已知亲和力的小分子化合物与蛋白质进行三维结构分析,进行分子对接后,对于所形成的对接区域结合图形分析,获取图形边角特征以及各原子以及所成键的相关特征之后,对机器学习模型进行训练,得到可以预测小分子化合物与蛋白质之间的亲和力。由于进行分子对接之后,继续获取了更多的化合物和蛋白质的相关原子和键特征,因此,可以进一步提高机器学习模型的训练准确性,从而使用该准确训练后的机器学习模型进行小分子化合物与蛋白质之间亲和力等的相关预测工作时,以提高小分子化合物与蛋白质之间亲和力预测的效率、可解释性、可重复性、准确度和精度,从而可以降低药物筛选相关工作的成本,提高药物筛选的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例涉及的一种系统架构示意图;
图2为本申请一实施例涉及的用于预测小分子化合物与蛋白质之间亲和力的方法的流程示意图;
图3为本申请另一实施例涉及的用于预测小分子化合物与蛋白质形成复合物三维构象的示意图;
图4为本申请另一实施例涉及的从拓扑图提取特征向量的示意图;
图5为本申请另一实施例提供的从特征矩阵预测亲和力的框架图;
图6为本申请另一实施例提供的从特征矩阵预测亲和力的框架图;
图7为本申请另一实施例提供的筛选药物的方法的示意图;
图8显示了根据本申请实施例的预测小分子化合物与蛋白质之间亲和力的装置的结构示意图;
图9显示了根据本申请实施例的药物筛选装置;
图10显示了根据本申请实施例的训练机器学习模型的装置;
图11为本申请实施例涉及的计算设备的框图;
图12显示了C25H26N8O3(Schembl20951758)和络氨酸激酶的亲和力预测结果;
图13显示了2-氨基-4-甲氧基苯甲酸和邻氨基苯甲酸磷酸核糖基转移酶的亲和力预测结果;
图14显示了ADP和核糖核酸酶A的亲和力预测结果;
图15显示了根据本方法实施例获得三维构象的流程示意图;
图16显示了根据本发明实施例得到构象评价的流程示意图;和
图17显示了根据本发明实施例的注意力机制的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应理解,在本申请实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
为了便于理解本申请的实施例,首先对本申请实施例涉及到的相关概念进行如下简单介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
神经网络(Neural Network,NN),在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间。和其他机器学习方法一样,神经网络已经被用于解决各种各样的问题,例如机器视觉和语音识别。这些问题都是很难被传统基于规则的编程所解决的。
注意力机制(Attention Mechanism)在本文中是指用于表示各特征重要性权重的向量,为了预测或推断一个目标元素(例如拓扑图中的一个节点),可以使用注意力向量来估计目标元素与其他元素相关联的程度,并将这些元素的值乘以注意力向量进行加权后得到的总和作为目标元素的近似值。
在本文中使用的术语“小分子化合物”是指分子量不超过1000道尔顿,例如不超过900道尔顿,不超过800,不超过700,不超过600,或者不超过500道尔顿的化合物分子,其包括有机小分子和无机小分子。目前大部分药物都是小分子类药物,蛋白质、核酸等生物大分子的基本组成单位(如氨基酸、核糖核苷酸、脱氧核苷酸)也是小分子。通常而言,小分子药物通过与细胞内的蛋白质相互作用发挥其功能,尤其是通过抑制或者激活某些疾病的靶蛋白来发挥治疗效果。由于小分子化合物的分子量比较小,因此在人体内能较快速地扩散进入细胞,到达作用靶点。
在本文中所使用的术语“接入区域”是指小分子化合物与蛋白质相互作用的位置,其包括小分子化合物以及蛋白质口袋。蛋白质口袋是指以小分子的原子为中心,按照预定的半径,例如1~100埃米进行画圆,划分出来的氨基酸部分即为蛋白质口袋。
在本文中使用的术语“亲和力”是表征两种或者更多物质相互作用强度的力,可以用pIC50进行量化表示,即pIC50是一种亲和力的数值指标,该数值越大代表亲和力越强。
如何从海量的化合物中寻找到能够用于治疗特定疾病的小分子化合物以及如何对现有的化合物进行改造从而能够提高化合物与疾病靶点的作用进一步提高,一直是各大药厂进行新药研发中的主要工作。通常而言,药物筛选,通常需要依赖于药物专家的人工经验,通过不断的试错和验证来进行完善,例如,大量设计新的化合物结构式进行合成和生物活性测试,而这是极其消耗人力、物力和财力的。
AI技术的最大优势是可以在短时间内通过自学习的过程,消化大量的学习数据,实现无师自通的目的。
基于此,本申请实施例利用AI技术,通过构建小分子化合物和蛋白质的三维构象,进一步从该三维构象中选择接入区域进行亲和力的预测。对于接入区域而言,由于该区域中各原子以及键可以构成拓扑图中的顶点(V)和边(E),因此,可以采用向量G=(V,E)对接入区域的拓扑图进行量化,并进一步提取相关原子(顶点)和键(边)的其他性质,例如原子类型,化学键类型等特征,基于大量已知的亲和力数据,可以完成对机器学习模型(在本文中也称为“亲和力预测模型”、“目标预测模型”或者“SBDD-Poses”)的训练。具体的,由于化合物与蛋白质之间的作用力通常为非共价结合,因此,接入区域之外的特征对于预测模型的训练大多是徒劳的,对准确率的提升没有太多的实际意义,因此,根据一些实施例,利用本申请实施例的方案能够提高训练效率和训练准确性。使得训练后的预测模型也可以快速准确地预测出小分子化合物与蛋白质的结合位点,且预测成本低。即本申请实施例利用AI技术辅助预测化合物和蛋白质的亲和力,从而降低人力、物力的开销,提高了后续药物筛选的效率,降低了药物筛选的成本。
本申请的应用场景包括但不限于医疗、生物、科研等领域,例如用于药物生产、药物研发等,且整个识别过程不需要人为干预,识别成本低。
在一些实施例中,本申请实施例的系统架构如图1所示。
图1为本申请实施例涉及的一种系统架构示意图,用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。
其中,数据采集设备102用于从内容库106中读取训练数据,并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括蛋白质的氨基酸序列或其晶体结构、化合物的结构式、和/或化合物-蛋白质的共晶结构、接入区域拓扑图特征等。
在一些实施例中,训练设备103基于数据库105中维护的训练数据,对预测模型进行训练,使得训练后的目标预测模型可以准确预测出小分子化合物与蛋白质之间的亲和力。训练设备103得到的目标预测模型可以应用到不同的系统或设备中。
在附图1中,执行设备104配置有I/O接口107,与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待预测的蛋白质和小分子化合物的相关信息,例如复合物信息、接入区域拓扑图信息等。执行设备104中的计算模块109使用训练好的机器学习模型对输入的信息进行处理,输出小分子化合物与蛋白质的亲和力,并通过I/O接口将相应的结果发送至用户设备101。
其中,用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)或其他具有安装浏览器功能的终端设备。
执行设备104可以为服务器。
示例性的,服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器,也可以是多个测试服务器所组成的测试服务器集群。
本实施例中,执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要说明的是,图1仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中,上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上,上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
首先,结合图2对本申请实施例对预测小分子化合物与蛋白质之间亲和力的方法进行详细说明。
图2为本申请一实施例提供的用于预测小分子化合物与蛋白质之间亲和力的方法的流程示意图,如图2所示,该方法包括:
S101:基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;
根据本申请的实施例,复合物的三维构象可以通过小分子化合物(在本申请中有时直接称为“化合物”)与蛋白质的共晶结构来获得,即通过对小分子化合物和蛋白质在溶液中通过共晶反应,同时结晶出含有化合物和蛋白质两种成分的固相结构。获得共晶产物后,通过对共晶产物进行三维结构分析,例如X射线晶体衍射分析,电镜三维重构技术以及核磁共振技术,可以获得复合物的三维构象。另外,也可以通过公开的数据库获得相关蛋白质或者共晶产物的晶体数据,例如剑桥结构数据库(The Cambridge structuralDatabase,CSD)、蛋白质数据库(The Protein Data Bank,PDB)、无机晶体结构数据库(TheInorganic Crystal Structure Database,ICSD)、国际衍射数据中心的粉晶数据库(JCPDS-International Center for Diffraction Data,JCPDS-ICDD)等。
另外,在确定蛋白质和化合物的相关信息(例如氨基酸序列、结构式、或部分晶体数据)之后,可以通过多种软件进行三维结构重构,例如如图3所示,采用分子对接软件(Molecular Docking),可以基于HSA(人血清白蛋白)的氨基酸序列和化合物马尿酸的结构式,采用分子对接软件,能够获得HSA-马尿酸形成复合物的三维构象结构(参考doi:10.1371/journal.pone.0071422.g007),进一步可以在该三维构象结构中选择相应的接入区域。本领域技术人员可以采用多种已知的分子对接软件获取复合物的三维结构,例如包括但不限于AutoDock,AutoDockVina,LeDock,rDock,UCSF DOCK,LigandFit,GLIDE,GOLD,MOE Dock和Surflex-Dock等。通常,采用分子接入软件可以生成多种接入的结构,可以根据相应软件初步预测的亲和力等性能,选择最佳的一个或者数个结构进行后续分析。
另外,参考图15和图16,在一些实施例中,所采用的三维构象还可以是通过下列步骤获得的:
S510:基于所述小分子化合物和所述蛋白质的信息,利用接入软件生成候选构象;和
S520:利用构象评价模型,基于所述候选构象确定所述三维构象,所述构象评价模型是利用已知存在相互作用的蛋白质和小分子化合物进行训练得到的。
由于构象评价模型是基于已知存在相互作用的蛋白质和小分子化合物进行训练得到的,因此,该构象评价模型能够有效地对构象是否接近蛋白质和小分子化合物的真实三维结构进行预测。根据本申请的实施例,这里可以采用的小分子化合物和蛋白质的信息,包括已经知道的任何与功能相关的信息,例如包括但不限于结构式、氨基酸序列、原子组成、蛋白质三维结构、手性分子信息等。另外,这里这里可以用于进行训练的“已知存在相互作用的蛋白质和小分子化合物”是指任何可能存在形成复合物可能性的蛋白质和小分子,例如通过化学或者生物试验获知存在相互作用或者相互结合(例如通过酵母双杂交、免疫沉淀试验等证明的),或者已知能够形成共晶的情形。
根据本申请的实施例,针对一对蛋白质和小分子化合物,通过采用接入软件可以生成多个候选构象,从而可以得到多个三维构象,由此,所训练得到的模型具有更高的鲁棒性和泛化性。
在一些实施例中,所述构象评价模型是通过下列步骤得到的:
S610:基于具有共晶数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个第一构象样本。由于具有共晶数据的一对小分子化合物与蛋白质,意味着这些成员在生物环境下会发生相互作用,因此,这些数据可以有效地用于训练构象评价模型。
S620:基于所述第一构象样本与所述共晶结构的偏差,将所述多个第一构象样本分类为正样本和负样本。根据本申请的实施例,可以采用RMSD(root mean squaredeviation)来表征第一构象样本与共晶结构的偏差,如果偏差在预设的阈值之内,则可以认为所预测的构象样本接近共晶结构,从而可以认为是正样本,反之则可以认为是负样本。这里所采用的阈值可以为不超过5埃米,例如4埃米,3埃米,或者2埃米。由此,根据本申请的实施例,一方面扩大了训练样本的数目,例如,从一万个共晶结构,衍生出数十万个第一构象样本(例如,每个共晶结构可以选择一定数目的正样本和负样本,例如10到20个正样本,10到20个负样本)。另外一方面,可以通过正负样本共同进行训练,提高构象评价模型的训练效率和评价准确性。
S630:利用所述第一构象样本作为训练集,训练初步构象评价模型。根据本申请的实施例,通过采用第一构象样本作为训练集,可以采用正负样本作为标记,对机器学习模型进行训练,得到可以输出构象评价结果的模型。根据本申请的实施例,这里所采用的机器学习模型可以为神经网络,例如图神经网络,该机器学习模型,既可以输出分类结果,也可以输出评价量化结果。
S640:基于不具有共晶数据但已知活性数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个预测构象样本。
S650:利用所述初步构象评价模型,对所述多个预测构象样本进行评价,以便选择包括正样本和负样本的第二构象样本。
S660:利用所述第一构象样本和所述第二构象样本,对所述初步构象评价模型进行优化,以便获得所述构象评价模型。
通过利用不具有共晶数据但已知活性数据的所述小分子化合物和所述蛋白质的信息,可以进一步扩大训练集的规模。由于具有活性数据与具有共晶数据类似,可以表示小分子化合物与蛋白质会形成稳定的复合物结构。因此,这些成对的小分子化合物与蛋白质能够有效地用于进行构象评价。实际上,目前有海量的化合物与蛋白质的活性数据,可以有效地进一步提高模型训练的效率。根据本申请的实施例,通过采用接入软件能够得到多个预测构象样本,接下来通过初步构建的初步构象评价模型,对预测构象样本进行评价,可以分别得到至少一个正样本和至少一个负样本,由此这类化合物和蛋白质没有共晶数据,无法通过RMSD(root mean square deviation)等方式来区分正负样本,因此,可以选择初步构象评价模型输出结果中排名最高的一个或者几个构象样本作为正样本,排名最低的一个或者几个构象样本作为负样本。由此,可以进一步扩充后续优化构象评价模型的训练集。根据本申请的一些实施例,可以针对具有活性数据的数万甚至数十万小分子化合物和蛋白质的组合,各自得到一个或者几个正负样本。
参考图3,在获取复合物的三维构象结构之后,可以确定接入区域。根据一些实施例,接入区域是基于小分子化合物的原子以及蛋白质上的口袋原子确定的,所述口袋原子与所述小分子化合物的原子距离小于预定距离阈值。即可以通过选择距离化合物分子不超过预定阈值的蛋白质上的原子作为口袋原子,该预定阈值可以为大约1~100埃米,例如大约1~90埃米,大约1~80埃米,大约1~70埃米,大约1~60埃米,大约1~50埃米,大约1~40埃米,大约1~30埃米,大约1~20埃米或者大约1~10埃米。需要说明的是,上述范围涵盖了在该范围内所涉及的全部数值。另外,如无特别说明,本文中所用术语“大约”是指上下浮动10%。这样选择的蛋白质原子构成了蛋白质口袋,蛋白质口袋与化合物分子的原子组成接入区域。
S102:基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;
在确定接入区域后,可以通过对接入区域内的原子和键进行建模,构建拓扑图G,化合物可以通过图进行建模,其中,每个顶点表示原子或者化学基团,边表示化学键。
在一些实施例中,在选择接入区域内的原子进行构建拓扑图G时,可以不考虑氢原子。由于在有机物例如有机小分子和蛋白质中,氢原子是大量存在的,这些氢原子在拓扑图上会造成大量的背景数据,而通常这些氢原子对于化合物与蛋白质亲和力的贡献并不大,由此,通过去除氢原子可以降低计算资源的浪费,提高机器学习的训练效率和预测效率、精确度、准确性等。
S103:基于所述拓扑图G,确定特征向量;
参考图4,根据本申请的实施例,在获得拓扑图后,可以从拓扑图中确定特征向量。根据本方申请的实施例,这里所采用的特征向量,可以包括拓扑图的边角特征,另外还可以包括拓扑图上所涉及原子的特征,以及相关键例如化学键的特征。可以将相关的特征汇总称为一个多维的向量矩阵,从而实现了对接入区域的量化表征。
关于拓扑图的边角特征,可以采用邻接矩阵和度矩阵进行表征,其中,度矩阵是对角阵,对角上的元素为各个顶点的度,顶点的度表示和该顶点相关联的边的数量。邻接矩阵表示顶点间是否存在关系。对于给定的拓扑图,本领域技术人员可以通过人工确定邻接矩阵和度矩阵特征,也可以通过一些公开的软件进行计算,例如RDKit(https://www.rdkit.org/)。
如图4所示,圆代表着节点,比较小只有元素名字的是小分子的节点,比较大的是氨基酸残基的原子,生成的拓朴图只会保留小于一定距离以内的有交互的原子对(小分子原子和口袋原子),而每个节点都会有固定的维度的特征值。根据本申请的实施例,为了方便描述,在本文中采用[N,M]来表示用于输入至机器学习模型的数据,其表示针对N个节点(原子)的每一个分别设置M个特征(即除节点的编号外,参数特征为M维),由此,得到N×M的矩阵。本领域技术人员能够理解的是,在机器学习模型的处理过程中,N和M的数目会随着处理例如升维、降维等操作而变化。
关于原子特征,可以获取的原子特征包括选自下列的至少之一:原子类型、邻居数目、自由电子数目、原子的手性类型、原子的化合价、原子的杂化类型、原子是否具有预定属性、原子是否包含在3~8元环中、原子的电荷分布、原子属于蛋白质还是化合物、原子所属氨基酸类型、原子与各邻居的距离和原子所连接氢原子数目等。关于键特征,所述键特征包括下列特征的至少之一:原子与其他原子的成键数目、键的类型、成键原子之间的距离、键所连接的两个原子是否在同一环中、氢键、π-π堆积、π-离子、疏水性、盐桥以及X-bond。在本发明的一些实施例中,对于上述原子特征和键特征,可以采用独热编码的方式进行表征。
S104:利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。
本申请实施例中该步骤的执行主体为具有经过训练的机器学习模型的装置,例如亲和力预测装置,该预测装置可以为计算设备,或者计算设备中的一部分,例如为计算设备中的处理器。示例性的,上述测装置可以为图1中的计算模块。其中图1中的计算模块可以理解为计算设备,或者计算设备中的处理器等。
参考图4,在确定边角特征、原子特征、键特征后,可以将这些特征进行整合,获得多维的特征矩阵。进一步将该特征矩阵输入至机器学习模型进行分析,从而得到表征亲和力的数据,例如pIC50数值。
本申请实施例的预测模型为图神经网络模型。本申请实施例对预测模型的具体类型不做限制,只有是可以预测出化合物与蛋白质亲和力的深度神经网络模型即可。
参考图5,在一种可能的实现方式中,本申请实施例的预测模型为图神经网络(GNN),可选的,在输入至GNN之前,预先对特征矩阵进行注意力机制处理,从而可以提高输出结果的可解释性。
根据本申请的实施例,可以采用的GNN并不受特别限制,可以包括但不限于选自图卷积神经网络(GCN)、循环神经网络(GRN)、图注意力网络(GAT)至少之一。
根据本申请的实施例,可以采用的机器学习模型可以包括设置下列至少之一的图神经网络:至少一个卷积层、至少一个前馈神经网络、至少一个注意力层、至少一个信息瓶颈单元。本领域技术人员能够理解的是,各个信息处理层本身还可以嵌套多个神经网络,例如常规的前馈神经(FFN)。
参考图17为例说明注意力机制,最底层的输入x1,x2,x3…,xTx1可以分别代表某个节点的特征矩阵。首先,通过嵌入层(可选)将它们进行初步的embedding,得到a1,a2,a3…,aT;然后,使用三个矩阵WQ、WK和WV分别与之相乘,得到qi,ki,vi,i∈(1,2,3…T)。图17显示了与输入的x1所对应的输出b1是如何得到的。即:利用q1分别与k1,k2,k3…,kT计算向量点积,得到α1,11,21,3…,α1,T;将α1,11,21,3…,α1,T输入softmax层,从而得到均在0-1之间的注意力权重值:
Figure BDA0003248787080000151
将上一步得到的
Figure BDA0003248787080000152
分别与对应位置的v1,v2,v3…,vT相乘,然后求和,这样便得到了与输入的x1所对应的输出b1。同样地,与输入的x2所对应的输出b2也根据类似过程获得,只是此时是利用与b2对应的q1分别与k1,k2,k3…,kT计算向量点积。对于其他输入的节点也是同样的处理过程,且它们可以共享这些网络的参数WQ、WK和WV,这些矩阵也是需要在机器学习模型的训练过程中进行优化和学习的。
另外,根据本申请的一些实施例,参考图6,可以采用的机器学习模型可以设置有注意力读出层用于确定所述接入区域中各原子对所述亲和力的贡献权重。从而,最终输出结果会显示各原子对亲和力数值的贡献,也使得预测模型根据可解释性,从而可以确定哪些原子对于亲和力的影响最大,进一步可以为后续改造化合物提高化合物性能提供了重要的参考数据。
读出(readout)是指将经过各层进行更新后的所有节点(例如各原子)的特征聚合成一个代表整个图的向量表征。根据本申请的一些实施例,注意力读出层可以采用下列操作获取各原子对于最终输出结果(例如亲和力)的贡献权重:
首先针对注意力读出层的输入矩阵H:[N,M']中的每个节点的相同特征维度的数值进行加和,得到矩阵
Figure BDA0003248787080000164
举例而言,例如针对输入矩阵H
Figure BDA0003248787080000161
第一列表示原子的编号,其他列代表各原子节点所具有的经过多层处理后更新的M’维度的特征数值,进行加和处理后结果矩阵H_sum为
[1 8 19 17 19]。
接下来,将所得到矩阵H_sum进行转置得到矩阵
Figure BDA0003248787080000162
Figure BDA0003248787080000163
接下来,将输入矩阵H与矩阵H_sum^T进行点乘得到矩阵[N,1],进一步通过归一化指数函数,例如softmax()函数对矩阵[N,1]处理,得到N个节点中每一个对于输出结果的权重(在0~1范围内)。
由此,上述操作可以表示为softmax(HxH_sum^T)。
参考图6,所述机器学习模型可以包括设置下列至少之一的图神经网络:至少一个卷积层、至少一个前馈神经网络、至少一个注意力层、至少一个信息瓶颈单元。通过采用信息瓶颈单元,能够进一步提高机器学习模型的鲁棒性。
具体的,所述机器学习模型依次包括:注意力层、第零图卷积神经网络层(GCN-0)、第一图卷积神经网络层(GCN-1)、线性转化层、第二图卷积神经网络层(GCN-2)、第三图卷积神经网络层(GCN-3)、注意力读出层、前馈神经网络。
为了提高预测模型的鲁棒性,在一些实施例中,引入了信息瓶颈结构。由此,可以在训练过程中,让模型去实现选择相对关键的特征进行运算。换句话说,在预测模型中,首先将高维的Embedding转成低维的Embedding,然后再输成高维的Embedding,由此,可以显著提升模型的鲁棒性能。例如,根据一些实施例,所述注意力层对其输入矩阵进行升维转换,所述第一图卷积神经网络层对其输入矩阵进行降维转换,所述线性转化层不改变其输入矩阵的维度,所述第二图卷积神经网络层对其输入矩阵进行升维转换。从而,GCN-0、GCN-1、GCN-2共同构成了信息瓶颈结构,可以提高预测模型的鲁棒性。
另外,根据本申请的一些实施例,在模型中,还采用了残差连接的处理方式。换句话说,采用一个非线性变化函数来描述一个网络的输入输出,即输入为X,输出为F(x),F通常包括了卷积,激活等操作,可以将一个输入添加到函数的输出,即采用F(x)和X的线性叠加作为实际输出或者下一层的输入。这里进行线性叠加的X可以为本层的输入,也可以是其它层的输入。另外,还可以在加和后进行归一化处理,例如批量归一化(BatchNormalization)。例如,将所述第二图卷积神经网络层的输出结果与所述第一图卷积神经网络层的输出结果加和批量归一化后作为所述第三图卷积神经网络层的输入矩阵。将所述第三图卷积神经网络层的输出结果与所述第零图卷积输入层的输出结果加和批量归一化后后作为所述注意力读出层的输入矩阵。由此,可以进一步提高预测模型的准确性和精确度,在训练过程中,可以让模型在训练时更容易反向传播到前面的层,提高了模型训练的效率。
根据本申请的一些实施例,在进行上述处理后,通过前馈神经网络(FFN)进行亲和力预测后输出预测的亲和力数值。最后输出的1维数值即为pIC50(亲和力大小),模型再通过与已知的亲和力参数作为的Label做比较,采用Loss函数例如MSE(Mean Square Error),再通过反向传播,更新模型的参数。
关于上述所提到的多个图卷积神经网络(GCN)层,需要说明的是,本领域技术人员可以在相应的各层中进一步嵌套更多的神经网络。在每个GCN中,都可以采用下列作为卷积层的传播规则:
Figure BDA0003248787080000171
其中,
Figure BDA0003248787080000181
表示拓扑图G的邻接矩阵A加上表示自连接的单位矩阵IN,
Figure BDA0003248787080000182
表示拓扑图G的度数矩阵,即
Figure BDA0003248787080000183
H(l)表示第l层(包括0层,即输入层)的激活单元矩阵,
W(l)表示第l层的卷积核参数矩阵。
由此,在本申请的一些实施例中,通过基于复合物的三维构像数据,进一步提升机器学习模型预测蛋白质与配体亲和力的性能。具体的,基于原子级的图神经网络GNN架构,根据原子类型及氨基酸类型及其额外特征,基于三维数据构建的交互关键拓朴图,而训练的深度学习模型,进一步采用Readout Attention的方法,可以解释模型预测的理由,对于小分子与口袋之间交互的解释性。
另外,基于各节点的权重输出,可以在可视化软件里把原子的重要性画出来。可视化对于药物专家来说十分作用,可以极大地方便后续药物筛选和化合物改造。
另外,基于信息瓶颈的建模方法,可以提升以分子接入区域构像数据输入时模型的鲁棒性。
现有技术的预测模型,例如在于3D CNN使用的是3D Grid方式去作为输入特征,缺点是在空白的地方(没有原子)有很多多余的信息,即是噪音,而本发明实施例的方法是可以图的形式表示原子结构,并且选择最佳接入区域,减少很多计算量和模型可以训练得更优。
通过采用上述机器学习模型,能够提高预测化合物与蛋白质亲和力的效率、可解释性、可重复性、准确度和精度,从而可以降低药物筛选相关工作的成本,提高药物筛选的效率。现有的多种亲和力预测模型通常只是基于共晶数据训练的,预测性能低下。另外,可解释性的缺乏是目前深度学习的通病。因此,现有方法对于如何预测蛋白质与药物配体的亲和力都没有提供任何有洞见里的解释,即具体是哪些特征导致模型推理的结果,这个重要缺陷大大阻碍了模型在实际应用过程中的推广使用。本申请的技术方案有效的解决了现有技术的低精度以及缺乏可解释性的两大缺陷,预测蛋白质与药物配体的相互作用,获得了更好的泛化性及预测精度。
下面结合具体试验,进一步对本申请实施例的技术效果进行介绍。
实例1与其他预测模型的比较
发明人对本申请实施例的预测模型(SBDD-Poses)与其他已知的模型在Pdbbind数据集(用以训练模型精度的通用共晶数据集是PDBbind v2019refined数据集,测试集是PDBbind v2016 core set,当中2016Core set是近期业界常用的黄金测试集,因为该测试集是由人工高精度校准过,而且数据靶点比较分散,所以业界及学界常使用这套测试集来验证)上进行了实验,SBDD-Poses模型获得了最优的性能0.82,明显高于其他模型。结果如下:
Figure BDA0003248787080000191
*N表示数据点的数量,T表示靶点数量
另外,发明人构建了2个测试集,是由46个包含GPCR+Kinase+Protease靶点3400个数据点组成的测试集,命名为docking_test数据集。其与其他模型的比较结果如下:
Figure BDA0003248787080000192
Figure BDA0003248787080000201
由此,可以看出本申请实施例的预测模型在蛋白质与配体亲和力预测上,可以超越其他模型的性能。
实例2可解释性展示
发明人根据本申请实施例的预测模型分别对下列化合物和蛋白质的亲和力进行预测,并展示出各原子对亲和力的权重,图12~14分别显示了相应的可视化结果,为方便理解,将各自对应的蛋白质和化合物总结如下:
图12显示了C25H26N8O3(Schembl20951758)和络氨酸激酶的亲和力预测结果;
图13显示了2-氨基-4-甲氧基苯甲酸和邻氨基苯甲酸磷酸核糖基转移酶的亲和力预测结果;
图14显示了ADP和核糖核酸酶A的亲和力预测结果。
由此,可以很清楚地从图中看出各原子对亲和力的权重,后续可以通过对权重大的原子进行重点改造或者保护。
前面描述了基于蛋白质和化合物的结构信息预测蛋白质和化合物结合亲和力的方法,下面对该方法的应用即药物筛选方法进行描述。在本发明的另一方面,本发明提出了一种药物筛选方法,参考图7,根据一些实施例,该方法包括:
S201:基于候选化合物的结构式以及蛋白质的氨基酸序列,确定所述候选化合物与所述蛋白质复合物的三维构象,所述蛋白质与预定疾病有关。
前面针对基于化合物和蛋白质的氨基酸的序列或者结构获取三维结构的方法已经进行了详细描述,在此不再赘述。
需要说明的是,通常而言,疾病的发生与细胞信号通路的异常有关,因此,信号通路有关的各种酶、细胞因子等往往会成为药物筛选的重点目标。这类蛋白质也被成为药物筛选靶点,即药物在体内的作用结合位点,包括基因位点、受体、酶、离子通道、核酸等生物大分子。迄今已发现作为治疗药物靶点的总数约500个,其中受体尤其是G-蛋白偶联的受体(GPCR)靶点占绝大多数,另还有酶、抗菌、抗病毒、抗寄生虫药的作用靶点。合理化药物设计(rational drug design)可以依据生命科学研究中所揭示的包括酶、受体、离子通道、核酸等潜在的药物作用靶位,或其内源性配体以及天然底物的化学结构特征来设计药物分子,以发现选择性作用于靶点的新药。
另外,需要说明的是,候选化合物的来源并不受特别限制,其可以是任何方法获得的。根据本申请的实施例,所述候选化合物是基于对起始化合物进行改造获得的。具体的,可以通过下列步骤对起始化合物进行改造:
首先,确定所述起始化合物与所述蛋白质的亲和力以及确定所述起始化合物中各原子对所述亲和力的贡献权重;和
接下来,基于所述起始化合物中各原子对所述亲和力的贡献权重,确定所述改造的候选位点。
由于,本发明所描述的机器学习模型,能够对各原子对所述亲和力的贡献权重进行分析,由此,可以着重选择贡献权重高的原子进行改造,例如将原子的类型进行替换,例如将碳替换为氧或氮等,也可以采用生物电子等排体进行替换。在此不再赘述。
这里所提到的起始化合物,可以是任何可能与蛋白质相互作用的化合物,例如可以是已知的药物、先导化合物、苗头化合物等。尤其是,亲和力有待提高的已知药物。
S202:根据前面第一方面所述的方法,预测所述候选化合物与所述蛋白质的亲和力,所述亲和力高于预定阈值是所述候选化合物可以治疗所述预定疾病的指示。
这里所采用的阈值,可以采用对照化合物进行平行处理后给出,本领域技术人员也可以通过生物试验对已知的化合物和蛋白质的亲和力进行检测,作为所述参考阈值。
如前所述,本申请的一些实施例中,通过采用上述机器学习模型,能够提高预测化合物与蛋白质亲和力的效率、可解释性、可重复性、准确度和精度,从而可以降低药物筛选相关工作的成本,提高药物筛选的效率。具体而言,本申请实施例的方法是指从海量的小分子药库里通过模型预测排序,把最有可能成为药物(作为先导化合物或者苗头化合物)的小分子找出来,这个过程在制药行业里是非常重要的一环。通常,一般药企会筛选可能上万的小分子出来,然后进行湿实验去验证是否有活性,这个过程十分毫费资源,本发明实施例的方法能有效提升筛选出来是有活性分子的占比,将会为药企节省上亿美元的研发经费。
前面描述了基于蛋白质和化合物的结构信息预测蛋白质和化合物结合亲和力的方法,下面对该训练机器学习模型的方法进行描述。在本发明的第三方面,本发明提出了一种训练机器学习模型的方法,所述机器学习模型用于预测小分子化合物与蛋白质之间的亲和力,所述方法包括:
获取多个复合物的三维构象,所述复合物由已知亲和力的小分子化合物和蛋白质形成;基于所述复合物的三维构象确定接入区域;基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;基于所述拓扑图G,确定特征向量;利用所述已知亲和力作为标记,采用所述特征向量对所述机器学习模型进行训练,以便获得经过训练的机器学习模型。
在前面第一方面,已经对构建三维构象、拓扑图分析以及图神经网络等进行了详细描述,在此不再赘述。
需要说明的是,这里所提到的“已知亲和力”可以是文献报道的经过生物试验的亲和力,也可以是基于现有软件预测得到的亲和力。
在一些实施例中,机器学习模型的训练中可以采用已知的亲和力作为标记,将机器学习得到的数值与标记进行比较,采用MSE(Mean Square Error)作为Loss函数,在通过Back Propagation,更新模型的参数,获得最终经过训练的机器学习模型。根据一些实施例,由于在选择特征进行分析时,仅选择了接入区域,也去除了一些不相关的原子,例如氢原子,因此,可以极大提高机器学习的效率。通过采用上述机器学习模型,能够提高预测化合物与蛋白质亲和力的效率、可解释性、可重复性、准确度和精度,从而可以降低药物筛选相关工作的成本,提高药物筛选的效率。
根据本申请的一些实施例,本申请还提出了输入不变性的处理方式。即通过对输入数据进行旋转或者平移处理,输出结果不变的训练方式,可以进一步提高模型的可靠性。
另外,根据本申请的一些实施例,如前所述,本申请还提出了构象评价模型的训练方法,其包括下列步骤:
S610:基于具有共晶数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个第一构象样本。
S620:基于所述第一构象样本与所述共晶结构的偏差,将所述多个第一构象样本分类为正样本和负样本。
S630:利用所述第一构象样本作为训练集,训练初步构象评价模型。
S640:基于不具有共晶数据但已知活性数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个预测构象样本。
S650:利用所述初步构象评价模型,对所述多个预测构象样本进行评价,以便选择包括正样本和负样本的第二构象样本。
S660:利用所述第一构象样本和所述第二构象样本,对所述初步构象评价模型进行优化,以便获得所述构象评价模型。
前面已经对该构象评价模型的训练进行了详细描述,在此不再赘述。
下面,结合图8至图10,详细描述本申请的装置实施例。
图8显示了根据本申请实施例的预测小分子化合物与蛋白质之间亲和力的装置的结构示意图,该装置可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述预测化合物和蛋白质亲和力的方法。该装置包括:
接入区域确定单元210,用于基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;
特征向量确定单元220,用于基于所述接入区域内的原子以及化学键的特征,构建拓扑图G,并基于所述拓扑图G,确定特征向量;
预测单元230,用于利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。
图9显示了根据本申请实施例的药物筛选装置,该装置可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述药物筛选方法。该装置包括:
三维构象确定单元310,用于基于候选化合物的结构式以及蛋白质的氨基酸序列,确定所述候选化合物与所述蛋白质复合物的三维构象,所述蛋白质与预定疾病有关;
预测单元310,用于第一方面所述的方法,预测所述候选化合物与所述蛋白质的亲和力,其中,所述亲和力高于预定阈值是所述候选化合物可以治疗所述预定疾病的指示。
图10显示了根据本申请实施例的训练机器学习模型的装置,所述机器学习模型用于预测小分子化合物与蛋白质之间的亲和力,该装置可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述训练机器模型的方法。所述装置包括:
获取单元410,用于获取多个复合物的三维构象,所述复合物由已知亲和力的小分子化合物和蛋白质形成;
接入区域确定单元420,用于基于所述复合物的三维构象确定接入区域;
特征向量确定单元430,用于基于所述接入区域内的原子以及化学键的特征,构建拓扑图G,以及基于所述拓扑图G,确定特征向量;和
训练单元440,用于利用所述已知亲和力作为标记,采用所述特征向量对所述机器学习模型进行训练,以便获得经过训练的机器学习模型。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图11为本申请实施例涉及的计算设备的框图,该设备可以是图1所示的服务器,用于执行上述实施例所述的方法,具体参见上述方法实施例中的说明。
图11所示的计算设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如,存储器201、处理器202、通信接口203之间可以采用网络连接的方式,实现通信连接。或者,上述计算设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图14是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的计算设备200。
存储器201可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器201可以存储程序,当存储器201中存储的程序被处理器202执行时,处理器202和通信接口203用于执行上述方法。
处理器202可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器202还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器202读取存储器201中的信息,结合其硬件完成本申请实施例的方法。
通信接口203使用例如但不限于收发器一类的收发模块,来实现计算设备200与其他设备或通信网络之间的通信。例如,可以通过通信接口203获取数据集。
当上述计算设备200包括总线204时,总线204可包括在计算设备200各个部件(例如,存储器201、处理器202、通信接口203)之间传送信息的通路。
根据本申请的还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,各个方法实施例之间、各个装置实施例之间也可以互相参考,在不同实施例中的相同或对应内容可以互相引用,不做赘述。

Claims (17)

1.一种预测小分子化合物与蛋白质之间亲和力的方法,其特征在于,包括:
基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;
基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;
基于所述拓扑图G,确定特征向量;
利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。
2.根据权利要求1所述的方法,其特征在于,所述三维构象是通过下列步骤获得的:
基于所述小分子化合物和所述蛋白质的信息,利用接入软件生成候选构象;和
利用构象评价模型,基于所述候选构象确定所述三维构象,所述构象评价模型是利用已知存在相互作用的蛋白质和小分子化合物进行训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述构象评价模型是通过下列步骤得到的:
基于具有共晶数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个第一构象样本;
基于所述第一构象样本与所述共晶结构的偏差,将所述多个第一构象样本分类为正样本和负样本;
利用所述第一构象样本作为训练集,训练初步构象评价模型;
基于不具有共晶数据但已知活性数据的所述小分子化合物和所述蛋白质的信息,利用所述接入软件生成多个预测构象样本;
利用所述初步构象评价模型,对所述多个预测构象样本进行评价,以便选择包括正样本和负样本的第二构象样本;
利用所述第一构象样本和所述第二构象样本,对所述初步构象评价模型进行优化,以便获得所述构象评价模型。
4.根据权利要求1所述的方法,其特征在于,所述接入区域是基于小分子化合物的原子以及蛋白质上的口袋原子确定的,所述口袋原子与所述小分子化合物的原子距离小于预定距离阈值。
5.根据权利要求1所述的方法,其特征在于,所述特征向量包括原子特征、键特征和拓扑图的边角特征,
所述原子特征包括下列特征的至少之一:原子类型、邻居数目、自由电子数目、原子的手性类型、原子的化合价、原子的杂化类型、原子是否具有预定属性、原子是否包含在3~8元环中、原子的电荷分布、原子属于蛋白质还是化合物、原子所属氨基酸类型、原子与各邻居的距离和原子所连接氢原子数目,以及
所述键特征包括下列特征的至少之一:原子与其他原子的成键数目、键的类型、成键原子之间的距离、键所连接的两个原子是否在同一环中、氢键、π-π堆积、π-离子、疏水性、盐桥以及X-bond。
6.根据权利要求1所述的方法,其特征在于,所述机器学习模型设置有注意力读出层用于确定所述接入区域中各原子对所述亲和力的贡献权重。
7.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括设置下列至少之一的图神经网络:至少一个卷积层、至少一个前馈神经网络、至少一个注意力层、至少一个信息瓶颈单元。
8.根据权利要求1~7任一项的方法,其特征在于,所述机器学习模型依次包括:注意力层、第零图卷积神经网络层、第一图卷积神经网络层、线性转化层、第二图卷积神经网络层、第三图卷积神经网络层、注意力读出层、前馈神经网络,
其中,
所述注意力层对其输入矩阵进行升维转换,
所述第一图卷积神经网络层对其输入矩阵进行降维转换,
所述线性转化层不改变其输入矩阵的维度,
所述第二图卷积神经网络层对其输入矩阵进行升维转换。
9.一种药物筛选方法,其特征在于,包括:
基于候选化合物的结构式以及蛋白质的氨基酸序列,确定所述候选化合物与所述蛋白质复合物的三维构象,所述蛋白质与预定疾病有关;
根据权利要求1~8任一项所述的方法,预测所述候选化合物与所述蛋白质的亲和力,所述亲和力高于预定阈值是所述候选化合物可以治疗所述预定疾病的指示。
10.根据权利要求9所述的药物筛选方法,其特征在于,所述候选化合物是基于对起始化合物进行改造获得的。
11.根据权利要求10所述的药物筛选方法,其特征在于,包括:
根据权利要求1~8任一项所述的方法,确定所述起始化合物与所述蛋白质的亲和力以及确定所述起始化合物中各原子对所述亲和力的贡献权重;和
基于所述起始化合物中各原子对所述亲和力的贡献权重,确定所述改造的候选位点。
12.一种训练机器学习模型的方法,其特征在于,所述机器学习模型用于预测小分子化合物与蛋白质之间的亲和力,所述方法包括:
获取多个复合物的三维构象,所述复合物由已知亲和力的小分子化合物和蛋白质形成;
基于所述复合物的三维构象确定接入区域;
基于所述接入区域内的原子以及化学键的特征,构建拓扑图G;
基于所述拓扑图G,确定特征向量;
利用所述已知亲和力作为标记,采用所述特征向量对所述机器学习模型进行训练,以便获得经过训练的机器学习模型。
13.一种预测小分子化合物与蛋白质之间亲和力的装置,其特征在于,包括:
接入区域确定单元,用于基于复合物的三维构象确定接入区域,所述复合物由待分析的所述小分子化合物和所述蛋白质形成;
特征向量确定单元,用于基于所述接入区域内的原子以及化学键的特征,构建拓扑图G,并基于所述拓扑图G,确定特征向量;
预测单元,用于利用经过训练的机器学习模型对所述特征向量进行处理,以获得所述化合物与所述蛋白质之间的亲和力。
14.一种药物筛选装置,其特征在于,包括:
三维构象确定单元,用于基于候选化合物的结构式以及蛋白质的氨基酸序列,确定所述候选化合物与所述蛋白质复合物的三维构象,所述蛋白质与预定疾病有关;
预测单元,用于根据权利要求1~8任一项所述的方法,预测所述候选化合物与所述蛋白质的亲和力,其中,所述亲和力高于预定阈值是所述候选化合物可以治疗所述预定疾病的指示。
15.一种训练机器学习模型的装置,其特征在于,所述机器学习模型用于预测小分子化合物与蛋白质之间的亲和力,所述装置包括:
获取单元,用于获取多个复合物的三维构象,所述复合物由已知亲和力的小分子化合物和蛋白质形成;
接入区域确定单元,用于基于所述复合物的三维构象确定接入区域;
特征向量确定单元,用于基于所述接入区域内的原子以及化学键的特征,构建拓扑图G,以及基于所述拓扑图G,确定特征向量;和
训练单元,用于利用所述已知亲和力作为标记,采用所述特征向量对所述机器学习模型进行训练,以便获得经过训练的机器学习模型。
16.一种计算设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至8或9至11或12任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如权利要求1至8或9至11或12任一项所述的方法。
CN202111039673.4A 2021-09-06 2021-09-06 模型训练、药物筛选和亲和力预测的方法与装置 Pending CN114333986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039673.4A CN114333986A (zh) 2021-09-06 2021-09-06 模型训练、药物筛选和亲和力预测的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039673.4A CN114333986A (zh) 2021-09-06 2021-09-06 模型训练、药物筛选和亲和力预测的方法与装置

Publications (1)

Publication Number Publication Date
CN114333986A true CN114333986A (zh) 2022-04-12

Family

ID=81044554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039673.4A Pending CN114333986A (zh) 2021-09-06 2021-09-06 模型训练、药物筛选和亲和力预测的方法与装置

Country Status (1)

Country Link
CN (1) CN114333986A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708932A (zh) * 2022-05-06 2022-07-05 南昌大学抚州医学院 一种人工智能ai深度学习技术驱动的药物筛选算法
CN114927165A (zh) * 2022-07-20 2022-08-19 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN114999578A (zh) * 2022-06-10 2022-09-02 慧壹科技(上海)有限公司 配体筛选模型构建方法及装置、筛选方法、设备和介质
CN115328117A (zh) * 2022-07-15 2022-11-11 大理大学 基于强化学习的蛋白质动态配体通道最优路径分析方法
CN115620807A (zh) * 2022-12-19 2023-01-17 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115631787A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选系统和方法
CN115631786A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选方法、装置和执行设备
CN116312744A (zh) * 2023-05-18 2023-06-23 南京星罗基因科技有限公司 一种基于gnn神经网络的生物信息获取方法
WO2023217290A1 (zh) * 2022-10-11 2023-11-16 之江实验室 基于图神经网络的基因表型预测
CN117711525A (zh) * 2024-02-05 2024-03-15 北京悦康科创医药科技股份有限公司 活性预测模型训练及活性预测相关产品
WO2024060886A1 (zh) * 2022-09-23 2024-03-28 腾讯科技(深圳)有限公司 结合亲和力检测模型的训练方法及结合亲和力检测方法
WO2024183500A1 (zh) * 2023-03-03 2024-09-12 华为云计算技术有限公司 用于药物设计的方法、装置、设备、介质和程序产品

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708932A (zh) * 2022-05-06 2022-07-05 南昌大学抚州医学院 一种人工智能ai深度学习技术驱动的药物筛选算法
CN114999578A (zh) * 2022-06-10 2022-09-02 慧壹科技(上海)有限公司 配体筛选模型构建方法及装置、筛选方法、设备和介质
CN115328117A (zh) * 2022-07-15 2022-11-11 大理大学 基于强化学习的蛋白质动态配体通道最优路径分析方法
CN114927165A (zh) * 2022-07-20 2022-08-19 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN114927165B (zh) * 2022-07-20 2022-12-02 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
WO2024060886A1 (zh) * 2022-09-23 2024-03-28 腾讯科技(深圳)有限公司 结合亲和力检测模型的训练方法及结合亲和力检测方法
WO2023217290A1 (zh) * 2022-10-11 2023-11-16 之江实验室 基于图神经网络的基因表型预测
JP7522936B2 (ja) 2022-10-11 2024-07-25 之江実験室 グラフニューラルネットワークに基づく遺伝子表現型予測
CN115620807A (zh) * 2022-12-19 2023-01-17 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115631787A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选系统和方法
CN115631786A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选方法、装置和执行设备
WO2024183500A1 (zh) * 2023-03-03 2024-09-12 华为云计算技术有限公司 用于药物设计的方法、装置、设备、介质和程序产品
CN116312744A (zh) * 2023-05-18 2023-06-23 南京星罗基因科技有限公司 一种基于gnn神经网络的生物信息获取方法
CN116312744B (zh) * 2023-05-18 2023-09-22 南京星罗基因科技有限公司 一种基于gnn神经网络的生物信息获取方法
CN117711525A (zh) * 2024-02-05 2024-03-15 北京悦康科创医药科技股份有限公司 活性预测模型训练及活性预测相关产品
CN117711525B (zh) * 2024-02-05 2024-05-10 北京悦康科创医药科技股份有限公司 活性预测模型训练及活性预测相关产品

Similar Documents

Publication Publication Date Title
CN114333986A (zh) 模型训练、药物筛选和亲和力预测的方法与装置
CN109964278B (zh) 通过并行评估分类器输出校正第一分类器中的误差
Gao et al. Hierarchical graph learning for protein–protein interaction
KR20200129130A (ko) 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법
Fradera et al. Overview of methods and strategies for conducting virtual small molecule screening
US7702467B2 (en) Molecular property modeling using ranking
US20050278124A1 (en) Methods for molecular property modeling using virtual data
CN114333980B (zh) 模型训练、蛋白质特征提取和功能预测的方法与装置
Singh et al. Artificial intelligence and machine learning in pharmacological research: bridging the gap between data and drug discovery
Jin et al. CAPLA: improved prediction of protein–ligand binding affinity by a deep learning approach based on a cross-attention mechanism
Haberal et al. Prediction of protein metal binding sites using deep neural networks
Yu et al. SOMPNN: an efficient non-parametric model for predicting transmembrane helices
Yuan et al. Protein-ligand binding affinity prediction model based on graph attention network
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
Qin et al. Computational representations of protein–ligand interfaces for structure-based virtual screening
Wang Prediction of protein–ligand binding affinity via deep learning models
Luo et al. A Caps-UBI model for protein ubiquitination site prediction
CN114649053A (zh) 基于人工智能的蛋白质配体结合原子的识别方法、装置
CN115148279A (zh) 蛋白质与配体分子的亲和力预测方法及装置
Burri et al. AI-Driven Drug Discovery: Unravelling the Potential of Generative Adversarial Networks (GANs) in Pharmaceutical Research
Li et al. iEnhance: a multi-scale spatial projection encoding network for enhancing chromatin interaction data resolution
CN115631786B (zh) 一种虚拟筛选方法、装置和执行设备
Citarella et al. Reconstruction and visualization of protein structures by exploiting bidirectional neural networks and discrete classes
CN115631787B (zh) 一种基于3d蛋白质结构卷积神经网络的虚拟筛选系统
Zhang et al. PocketGen: Generating Full-Atom Ligand-Binding Protein Pockets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination