CN117037896A - 一种信息预测方法、设备、存储介质及计算机程序产品 - Google Patents

一种信息预测方法、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN117037896A
CN117037896A CN202210959036.7A CN202210959036A CN117037896A CN 117037896 A CN117037896 A CN 117037896A CN 202210959036 A CN202210959036 A CN 202210959036A CN 117037896 A CN117037896 A CN 117037896A
Authority
CN
China
Prior art keywords
acceptor
feature
ligand
sample
atom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210959036.7A
Other languages
English (en)
Inventor
蒋德军
杨子翊
叶兆丰
谢昌谕
张徐俊
张胜誉
侯廷军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210959036.7A priority Critical patent/CN117037896A/zh
Publication of CN117037896A publication Critical patent/CN117037896A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种信息预测方法、设备、存储介质及计算机程序程序产品,应用于云技术和人工智能等各种结合亲和力的预测场景;该信息预测方法包括:获取待预测复合物的受体配体结构,待预测复合物由受体和配体结合而成,受体包括各个受体原子,配体包括各个配体原子,受体配体结构包括各个受体原子与各个配体原子之间的连接关系;获取受体原子的受体原子特征、配体原子的配体原子特征、以及受体配体结构中的连接关系的非键特征;对受体原子特征、配体原子特征、以及与受体原子特征和配体原子特征对应的非键特征进行整合,得到目标非键特征;基于目标非键特征,预测目标结合亲和力。通过本申请,能够提升结合亲和力的预测准确度。

Description

一种信息预测方法、设备、存储介质及计算机程序产品
技术领域
本申请涉及人工智能领域中的信息处理技术,尤其涉及一种信息预测方法、设备、存储介质及计算机程序产品。
背景技术
为了预测复合物中受体与配体之间的结合亲和力,通常先人工地确定复合物的特征,再基于该特征预测复合物中受体与配体之间的结合亲和力;然而,上述预测复合物中受体与配体之间的结合亲和力的过程中,由于复合物的特征是基于人工确定的,影响了复合物的特征的准确度,进而影响了结合亲和力的预测准确度。
发明内容
本申请实施例提供一种信息预测方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提升结合亲和力的预测准确度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息预测方法,包括:
获取待预测复合物的受体配体结构,其中,所述待预测复合物由受体和配体结合而成,所述受体包括各个受体原子,所述配体包括各个配体原子,所述受体配体结构包括各个所述受体原子与各个所述配体原子之间的连接关系;
获取所述受体原子的受体原子特征,并获取所述配体原子的配体原子特征,以及获取所述受体配体结构中的所述连接关系的非键特征;
对所述受体原子特征、所述配体原子特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行整合,得到目标非键特征;
基于所述目标非键特征,预测所述待预测复合物的目标结合亲和力。
本申请实施例提供一种信息预测装置,包括:
结构获取模块,用于获取待预测复合物的受体配体结构,其中,所述待预测复合物由受体和配体结合而成,所述受体包括各个受体原子,所述配体包括各个配体原子,所述受体配体结构包括各个所述受体原子与各个所述配体原子之间的连接关系;
特征获取模块,用于获取所述受体原子的受体原子特征,并获取所述配体原子的配体原子特征,以及获取所述受体配体结构中的所述连接关系的非键特征;
特征整合模块,用于对所述受体原子特征、所述配体原子特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行整合,得到目标非键特征;
结果预测模块,用于基于所述目标非键特征,预测所述待预测复合物的目标结合亲和力。
在本申请实施例中,所述特征获取模块,还用于获取所述待预测复合物的受体结构,其中,所述受体结构包括各个所述受体原子之间的连接关系;获取所述受体原子的初始受体原子特征,其中,所述初始受体原子特征包括化学信息特征、几何结构特征和原子环境特征中的至少一种;基于所述受体结构中与所述受体原子相邻的所述受体原子,对所述初始受体原子特征进行特征聚合,得到所述受体原子特征。
在本申请实施例中,当所述初始受体原子特征包括所述几何结构特征时,所述特征获取模块,用于在所述受体结构中,针对遍历到的连接关系所关联的源受体原子和目标受体原子,获取除所述目标受体原子之外的所述源受体原子的相邻受体原子集合;获取所述相邻受体原子集合中的每个相邻受体原子与所述源受体原子之间的原子结构特征,得到与所述相邻受体原子集合对应的原子结构特征集合,其中,所述原子结构特征包括夹角结构特征、区域结构特征和距离结构特征中的至少一种;将所述原子结构特征集合的统计信息,确定为所述源受体原子的所述几何结构特征。
在本申请实施例中,所述特征获取模块,还用于在所述受体结构中,获取与当前受体原子连接的至少一个连接受体原子;对所述当前受体原子的第x-1层状态特征与每个所述连接受体原子的第x-1层状态特征进行拼接,得到初始注意力系数,其中,所述第x-1层状态特征通过对所述初始受体原子特征进行x-1次特征聚合获得,x为正整数;对所述初始注意力系数进行归一化,得到注意力系数;基于所述注意力系数与所述连接受体原子的所述第x-1层状态特征的融合结果,确定邻域特征;将所述邻域特征和所述当前受体原子对应的所述第x-1层状态特征的整合结果,确定为所述当前受体原子的第x层状态特征;将所述当前受体原子的第1层状态特征至第x层状态特征进行叠加,得到所述受体原子特征。
在本申请实施例中,所述特征整合模块,还用于对所述受体原子特征和所述配体原子特征进行融合,得到待拼接特征;将所述待拼接特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行拼接,得到所述目标非键特征。
在本申请实施例中,所述结果预测模块,还用于基于所述目标非键特征,获得所述待预测复合物对应的目标非键特征集合;对所述目标非键特征集合进行池化处理,得到至少一种池化特征,其中,所述池化处理包括加权求和池化处理、平均池化处理、最大池化处理和最小池化处理中的至少一种;基于至少一种所述池化特征,确定待预测特征;基于所述待预测特征,预测所述待预测复合物的所述目标结合亲和力。
在本申请实施例中,所述结果预测模块,还用于基于所述目标结合亲和力与结合亲和力阈值的比较结果,确定所述待预测复合物的目标构象正确性;基于所述目标构象正确性,确定所述待预测复合物的结合质量信息。
在本申请实施例中,所述信息预测装置还包括模型训练模块,用于获取复合物样本的受体配体结构样本、以及所述复合物样本对应的样本标签,其中,所述复合物样本由受体样本和配体样本结合而成;当所述样本标签包括结合亲和力标签时,基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第一非键样本特征,并基于所述第一非键样本特征预测所述复合物样本的预测结合亲和力,其中,所述待训练预测模型是指待训练的用于预测结合亲和力的网络模型;基于所述预测结合亲和力与所述结合亲和力标签之间的差异,训练所述待训练预测模型,得到所述预测模型,其中,所述目标结合亲和力通过预测模型获得。
在本申请实施例中,所述模型训练模块,还用于基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第二非键样本特征,并基于所述第二非键样本特征预测所述复合物样本的预测构象正确性,其中,所述待训练预测模型是指待训练的用于预测构象正确性的网络模型;确定与所述预测构象正确性负相关的损失调制系数;基于所述预测构象正确性与所述损失调制系数,训练所述待训练预测模型,得到所述预测模型,其中,所述待预测复合物的目标构象正确性通过所述预测模型获得。
在本申请实施例中,所述模型训练模块,还用于获取新的复合物样本对应的新的受体配体结构样本、以及所述新的复合物样本对应的新的结合亲和力标签,其中,所述新的复合物样本由新的受体样本和新的配体样本结合而成;基于所述预测模型,获取所述新的受体配体结构样本中的连接关系对应的新的目标非键样本特征,并基于所述新的目标非键样本特征预测所述新的复合物样本的新的预测结合亲和力;基于所述新的预测结合亲和力和所述新的结合亲和力标签之间的差异,训练所述预测模型,得到最新预测模型,所述最新预测模型用于对新的待预测复合物进行结合亲和力的预测。
在本申请实施例中,所述待训练预测模型包括第一特征提取模块、第二特征提取模块、第三特征提取模块和任务预测模块,所述第一特征提取模块和所述第二特征提取模块共享模型参数;所述模型训练模块,还用于基于所述第一特征提取模块,对所述复合物样本的受体结构样本中的受体原子样本进行特征提取,得到第一特征样本;基于所述第二特征提取模块,对所述复合物样本的配体结构样本中的配体原子样本进行特征提取,得到第二特征样本;基于所述第三特征提取模块,并结合所述第一特征样本和所述第二特征样本,获取所述受体配体结构样本中的连接关系对应的所述第一非键样本特征;基于所述任务预测模块对所述第一非键样本特征进行预测,得到所述复合物样本的所述预测结合亲和力。
在本申请实施例中,所述受体为金属蛋白,所述受体原子为蛋白原子或金属原子。
本申请实施例提供一种信息预测设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息预测方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令用于被处理器执行时,实现本申请实施例提供的信息预测方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现本申请实施例提供的信息预测方法。
本申请实施例至少具有以下有益效果:针对由受体和配体复合而成的待预测复合物,通过获取受体的各个受体原子与配体的各个配体原子之间的连接关系,并对受体原子的受体原子特征、配体原子的配体原子特征、以及与受体原子和配体原子之间的连接关系的非键特征进行整合,来获得目标非键特征,实现了受体原子与配体原子之间的相互作用的特征的准确获取;进而,基于目标非键特征,预测待预测复合物的目标结合亲和力,能够提升结合亲和力的预测准确度。
附图说明
图1是本申请实施例提供的信息预测系统的架构示意图;
图2是本申请实施例提供的图1中的一种服务器的组成结构示意图;
图3是本申请实施例提供的信息预测方法的流程示意图一;
图4是本申请实施例提供的信息预测方法的流程示意图二;
图5是本申请实施例提供的示例性的模型训练的流程示意图;
图6是本申请实施例提供的一种示例性的预测模型的结构示意图;
图7是本申请实施例提供的一种示例性的结合亲和力的预测流程示意图;
图8是本申请实施例提供的一种示例性的消息传递示意图;
图9是本申请实施例提供的一种示例性的获取边表示的示意图;
图10是本申请实施例提供的一种示例性的图池化示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
2)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
3)人工神经网络,是一种模仿生物神经网络结构和功能的数学模型,本申请实施例中人工神经网络的示例性结构包括图卷积网络(Graph Convolutional Network,GCN,一种用于处理图结构的数据的神经网络)、深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)、神经状态机(Neural State Machine,NSM)和相位函数神经网络(Phase-Functioned Neural Network,PFNN)等。本申请实施例中所涉及的待训练预测模型和预测模型均为人工神经网络对应的模型。
4)金属蛋白,是指含金属离子的蛋白质;在金属蛋白中,金属离子作为辅因子,以及金属离子通过配位与蛋白原子结合,其中,配位是指原子或原子团被中心原子所吸引的现象。在本申请实施例中,待预测复合物可以为金属蛋白与配体复合而成的。
5)结合亲和力,是指生物分子(又称为受体,比如,金属蛋白等蛋白分子,核酸分子)与配体之间的结合强度;其中,配体可以是指包括小分子和生物制剂在内的候选药物,用于作为激动剂或抑制剂与蛋白质相互作用以治疗疾病。本申请实施例提供的信息预测方法,用于预测结合亲和力。
6)分子对接,是指通过受体的特征、以及受体和药物分子之间的相互作用方式来进行药物设计的方法;包括学习分子间(比如,配体和受体之间)相互作用,以及预测结合模式和结合亲合力,用于进行虚拟筛选;另外,分子对接是分子在生物分子(比如,蛋白口袋)中进行几何匹配和能量匹配的过程,其中,几何匹配是分子间发生相互作用的基础,能量匹配是分子间保持稳定结合的基础;通常包括两个阶段:构象搜索及打分评价;其中,构象搜索是指通过改变分子的三维空间坐标、原子间的二面角等方式改变分子的构象;打分评价是指使用打分模型来预测蛋白配体的结合构象之间的结合亲和力。
7)打分模型,是指用于预测蛋白配体的结合亲和力的神经网络模型,基于人工智能,通过学习数据集中正负样本的结合模式(相互作用)的差异,来准确预测蛋白配体的结合亲和力。在本申请实施例中,预测模型即为打分模型。
8)二部图(Bipartite Graph),又称为二分图,顶点的类型为两种,且边存在于不同类型的顶点之间的图;也就是说,二部图的顶点集包括两个互不相交的子集,且二部图中每条边两端的顶点都属于不同的两个子集,从而同一个子集中的顶点不相邻。在本申请实施例中,受体配体结构即为二部图,包括受体原子集合(称为各个受体原子)和配体原子集合(称为各个配体原子),边表示受体原子与配体原子存在连接。
9)构象(Conformation),是指由于化学键的旋转所导致的原子或基团在空间的几何排列;也就是说,一个分子中,不改变共价键结构,仅改变单键周围的原子放置所产生的空间排布;其中,不同的构象之间可以相互转变,在各种构象形式中,势能最低、以及最稳定的构象是优势构象;一种构象改变为另一种构象时,不要求共价键的断裂和重新形成;构象改变不会改变分子的光学活性。
需要说明的是,为了对受体-配体的结合亲和力进行预测,通常采用机器学习模型(比如,NNScore2.0模型)、卷积网络模型(比如,RoseNet模型)和物理打分方法(比如,FlexX,AutodockZn,MpsDockZn,GM-DockZn和Lin_F9)实现。
当采用机器学习模型预测受体-配体的结合亲和力时,通常先采用人工提取受体-配体的特征,然后基于机器学习模型构建的预测器(比如为单隐层含10个神经元的感知机)进行结合亲和力的预测。其中,人工从三方面进行特征提取。一方面是能量分项,包括高斯项1(Gauss 1)、高斯项2(Gauss 2)、排斥项(Repulsion)、疏水项(Hydrophobic)和氢键项(Hydrogen-Bond)。另一方面是2.5埃内的受体配体的原子对计数,比如,所涉及的原子对类型包括:(非氢键芳香碳(A),非氢键芳香碳(A)),(非氢键芳香碳(A),非氢键的脂肪族碳(C)),(非氢键芳香碳(A),非氢键氯(CL)),(非氢键芳香碳(A),非氢键氟(F)),(非氢键芳香碳(A),非氢键铁(FE)),(非氢键芳香碳(A),供体1氢键氢(HD)),(非氢键芳香碳(A),非氢键镁(MG)),(非氢键芳香碳(A),非氢键锰(MN)),(非氢键芳香碳(A),非氢键氮(N)),(非氢键芳香碳(A),受体1氢键氮(NA)),(非氢键芳香碳(A),受体2氢键氧(OA)),(非氢键芳香碳(A),受体2氢键硫(SA)),(非氢键芳香碳(A),非氢键锌(ZN)),(非氢键溴(BR),非氢键的脂肪族碳(C)),(非氢键溴(BR),供体1氢键氢(HD)),(非氢键溴(BR),受体2氢键氧(OA)),(非氢键的脂肪族碳(C),非氢键的脂肪族碳(C)),(非氢键的脂肪族碳(C),非氢键氯(CL)),(非氢键的脂肪族碳(C),非氢键氟(F)),(非氢键的脂肪族碳(C),供体1氢键氢(HD)),(非氢键的脂肪族碳(C),非氢键镁(MG)),(非氢键的脂肪族碳(C),非氢键锰(MN)),(非氢键的脂肪族碳(C),非氢键氮(N)),(C,NA),(非氢键的脂肪族碳(C),受体1氢键氮(NA)),(C,OA),(非氢键的脂肪族碳(C),受体2氢键氧(OA)),(非氢键的脂肪族碳(C),受体2H键硫(SA)),(非氢键的脂肪族碳(C),非氢键锌(ZN)),(脂肪碳(A)芳香碳(C),受体2氢键氧(OA)),(非氢键氯(CL),非氢键铁(FE)),(非氢键氯(CL),供体1氢键氢(HD)),(非氢键氯(CL),非氢键镁(MG)(非氢键铁FE),非氢键氮(N)),(非氢键铁(FE),受体2氢键氧(OA)),(供体1氢键氢(HD),供体1氢键氢(HD)),(供体1氢键氢(HD),非氢键碘(I)),(供体1氢键氢(HD),非氢键镁(MG)),(供体1氢键氢(HD),非氢键锰(MN)),(供体1氢键氢(HD),非氢键氮(N)),(供体1氢键氢(HD),受体1H键氮(NA)),(供体1氢键氢(HD),受体2氢键氧(OA)),(供体1氢键氢(HD),非氢键磷(P)),(供体1氢键氢(HD),非氢键硫(S)),(供体1氢键氢(HD),受体2氢键硫(SA)),(供体1氢键氢(HD),非氢键锌(ZN)),(非氢键镁(MG),受体1氢键氮(NA)),(非氢键镁(MG),受体2氢键氧(OA)),(非氢键锰(MN),非氢键氮(N)),(非氢键锰(MN),受体2氢键氧(OA)),(非氢键氮(N),非氢键氮(N)),(N,NA),(非氢键氮(N),受体1氢键氮(NA)),(非氢键氮(N),受体2氢键氧(OA)),(非氢键氮(N),受体2氢键硫(SA)),(非氢键氮(N),非氢键锌(ZN)),(受体1氢键氮(NA),受体2氢键氧(OA)),(受体1氢键氮(NA),受体2氢键硫(SA)),(受体1氢键氮(NA),非氢键锌(ZN)),(受体2氢键氧(OA),受体2氢键氧(OA)),(受体2氢键氧(OA),受体2氢键硫(SA)),(受体2氢键氧(OA),非氢键锌(ZN)),(非氢键硫(S),非氢键锌(ZN)),(受体2氢键硫(SA),非氢键锌(ZN))。再一方面为4埃内的金属蛋白配体的原子对的静电相互作用的叠加和。然而,采用机器学习模型预测受体-配体的结合亲和力的过程中,对受体-配体特征敏感,而且受体-配体相互作用的表征生成需要广泛的专家知识,在专家知识的表征过程中,又可能会引入领域知识偏差;以及,采用机器学习模型预测受体-配体的结合亲和力的过程中,对配体结合构象的变化的敏感度较低,而配体结合构象的变化意味着受体-配体相互作用模型的预测结果也应当发生变化,因此,预测出的结合亲和力的准确度较差。
当采用卷积网络模型预测受体配体的结合亲和力时,在提取受体配体的特征的过程中,先需利用打分模型(比如,Rosetta应用)对复合物进行能量最小化,之后将能量最小化的复合物体素化成三维格点。三维格点在表征过程中涉及到的分子能量和分子描述符包括:芳香碳、氢键受体、正离子化、负离子化、金属离子、吸引、排斥、正静电、负静电、正隐式溶剂化和负隐式溶剂化;当在稀疏的三维矩形网格点上进行卷积处理时,计算效率较低,影响了结合亲和力的预测效率。
当采用物理打分方法预测受体配体的结合亲和力时,由于物理打分方法用于处理含锌离子的金属蛋白,应用域有限。
基于此,本申请实施例提供一种信息预测方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提升信息预测准确度。下面说明本申请实施例提供的信息预测设备的示例性应用,本申请实施例提供的信息预测设备可以实施为各种电子设备,比如可以实施为智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能家电、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、智能语音交互设备、便携式游戏设备和智能音箱等各种类型的终端,也可以实施为服务器。下面,将说明信息预测设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的信息预测系统的架构示意图;如图1所示,为支撑一个信息预测应用,在信息预测系统100中,终端200(示例性示出了终端200-1和终端200-2)通过网络300连接服务器400(称为信息预测设备),网络300可以是广域网或者局域网,又或者是二者的组合。另外,该信息预测系统100中还包括数据库500,用于向服务器400提供数据支持;并且,图1中示出的为数据库500独立于服务器400的一种情况,此外,数据库500还可以集成在服务器400中,本申请实施例对此不作限定。
终端200,用于通过网络300向服务器400发送针对待预测复合物的预测请求;并通过网络300接收服务器400响应于预测请求发送的目标结合亲和力,在图形界面(示例性示出了图形界面210-1和图形界面210-2)显示目标结合亲和力。
服务器400,用于通过网络300接收终端200发送的预测请求,响应于预测请求,获取待预测复合物的受体配体结构,其中,待预测复合物由受体和配体结合而成,受体包括各个受体原子,配体包括各个配体原子,受体配体结构包括各个受体原子与各个配体原子之间的连接关系;获取受体原子的受体原子特征,并获取配体原子的配体原子特征,以及获取受体配体结构中的连接关系的非键特征;对受体原子特征、配体原子特征、以及与受体原子特征和配体原子特征对应的非键特征进行整合,得到目标非键特征;基于目标非键特征,预测待预测复合物的目标结合亲和力。
在一些实施例中,服务器400可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端200可以是智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备和智能音箱等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不作限制。
参见图2,图2是本申请实施例提供的图1中的一种服务器的组成结构示意图,图2所示的服务器400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的信息预测装置可以采用软件方式实现,图2示出了存储在存储器450中的信息预测装置455,其可以是程序和插件等形式的软件,包括以下软件模块:结构获取模块4551、特征获取模块4552、特征整合模块4553、结果预测模块4554和模型训练模块4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,本申请实施例提供的信息预测装置可以采用硬件方式实现,作为示例,本申请实施例提供的信息预测装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息预测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的信息预测方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如结合亲和力的预测APP或者复合物质量评估APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
下面,将结合本申请实施例提供的信息预测设备的示例性应用和实施,说明本申请实施例提供的信息预测方法。另外,本申请实施例提供的信息预测方法应用于云技术、人工智能等各种结合亲和力的预测场景。
参见图3,图3是本申请实施例提供的信息预测方法的流程示意图一,将结合图3示出的步骤进行说明。
步骤301、获取待预测复合物的受体配体结构,其中,待预测复合物由受体和配体结合而成,受体包括各个受体原子,配体包括各个配体原子,受体配体结构包括各个受体原子与各个配体原子之间的连接关系。
在本申请实施例中,当信息预测设备进行结合亲和力预测时,所预测的对象即为待预测复合物;信息预测设备基于待预测复合物的结构信息,构建出能够表示各个受体原子与各个配体原子之间的连接关系的受体配体结构。
需要说明的是,待预测复合物的结构信息即为待预测复合物所包括的原子,以及各个原子之间的连接信息等,其中,连接信息包括连接方式和连接距离中的至少一种,连接方式包括共价连接方式和非共价连接方式等。各个受体原子与各个配体原子之间的连接关系,是指受体中的受体原子与配体中的配体原子之间的连接信息,比如,受体原子与配体原子之间的结合距离等;另外,受体配体结构可以是图结构的形式,也可以是描述信息的形式,等等,本申请实施例对此不作限定;当受体配体结构为图结构时,受体配体结构为二分图,并且,二分图的节点为受体中的各个受体原子与配体中的各个配体原子,边为受体原子与配体原子之间的连接信息。受体为生物分子,比如,蛋白分子或核酸分子;当受体为蛋白分子时,可以是非金属蛋白,又可以是金属蛋白,以及当受体为金属蛋白时,受体原子为蛋白原子或金属原子。
步骤302、获取受体原子的受体原子特征,并获取配体原子的配体原子特征,以及获取受体配体结构中的连接关系的非键特征。
在本申请实施例中,信息预测设备获取每个受体原子的特征,也就获得了受体原子特征;信息预测设备获取每个配体原子的特征,也就获得了配体原子特征;信息预测设备获取受体配体结构中的连接关系的特征,也就获得了非键特征,由于受体配体结构中的连接关系的特征表示受体原子与配体原子之间的非键作用信息,故这里将受体配体结构中的连接关系的特征称为非键特征;并且,一个受体原子与一个配体原子之间的连接关系,对应一个非键特征。
需要说明的是,信息预测设备可以对受体原子与配体原子之间的距离、结合键等信息进行特征提取,来获得非键特征。
步骤303、对受体原子特征、配体原子特征、以及与受体原子特征和配体原子特征对应的非键特征进行整合,得到目标非键特征。
在本申请实施例中,信息预测设备通过整合受体原子特征、配体原子特征、以及与受体原子特征和配体原子特征对应的非键特征,以将非键特征对应的受体原子的受体原子特征、以及该非键特征对应的配体原子的配体原子特征,均与该非键特征结合,来表示受体原子与配体原子之间结合作用信息的最终特征,即为目标非键特征。
步骤304、基于目标非键特征,预测待预测复合物的目标结合亲和力。
在本申请实施例中,信息预测设备获得一个配体原子和一个受体原子对应的目标非键特征,针对受体配体结构,能够获得目标非键特征集合,目标非键特征集合包括至少一个目标非键特征。从而,信息预测设备基于目标非键特征集合对待预测复合物的结合亲和力进行预测,也就得到了目标结合亲和力。
可以理解的是,针对由受体和配体复合而成的待预测复合物,通过获取受体的各个受体原子与配体的各个配体原子之间的连接关系,并对受体原子的受体原子特征、配体原子的配体原子特征、以及与受体原子和配体原子之间的连接关系的非键特征进行整合,来获得目标非键特征,实现了受体原子与配体原子之间的相互作用的特征的准确获取;进而,基于目标非键特征,预测待预测复合物的目标结合亲和力,能够提升结合亲和力的预测准确度。
在本申请实施例中,步骤302可通过步骤3021至步骤3023(图中未示出)实现;也就是说,信息预测设备获取受体原子的受体原子特征,包括步骤3021至步骤3023,下面对各步骤分别进行说明。
步骤3021、获取待预测复合物的受体结构,其中,受体结构包括各个受体原子之间的连接关系。
在本申请实施例中,信息预测设备基于待预测复合物的结构信息,构建出能够表示各个受体原子之间的连接关系的受体结构。
需要说明的是,受体结构可以是图结构的形式,也可以是描述信息的形式,等等,本申请实施例对此不作限定;当受体结构为图结构时,受体结构为同质图,并且,受体结构的节点为受体中的各个受体原子,边为各个受体原子之间的连接信息。
步骤3022、获取受体原子的初始受体原子特征。
在本申请实施例,信息预测设备获取受体原子对应的化学信息特征、几何结构特征和原子环境特征中的至少一种,也就获得了初始受体原子特征。
需要说明的是,化学信息特征是指受体原子的化学信息所对应的特征,包括原子元素信息、原子杂化方式和化学键类型中的至少一种所对应的特征;其中,原子元素信息是指受体原子的元素信息,比如,锌(Zn),镁(Mg),锰(Mn),钙(Ca),钠(Na)和铁(Fe)等金属元素,碳(C),氮(N),氧(O),硫(S),磷(P),硼(B),氟(F),氯(Cl),溴(Br)和碘(I)等非金属元素;化学键类型比如为单键、双键、共价键和非共价键等。几何结构特征是指受体原子对应的几何结构信息所对应的特征,比如,邻居节点的距离统计信息、边界统计信息和区域统计信息等三维几何结构信息。原子环境特征是指受体原子所处的化学环境所对应的特征,其中,受体原子所处的化学环境比如为径向化学环境,角度化学环境。
步骤3023、基于受体结构中与受体原子相邻的受体原子,对初始受体原子特征进行特征聚合,得到受体原子特征。
在本申请实施例中,信息预测设备可以将受体原子的初始受体原子特征直接确定为受体原子的受体原子特征,还可以通过对初始受体原子进行处理来获得受体原子特征,本申请实施例对此不作限定。当信息预测设备通过对初始受体原子进行处理来获得受体原子特征时,基于受体结构中与受体原子相邻的受体原子,对初始受体原子特征进行特征聚合,以将受体原子相邻的受体原子的特征聚合至该受体原子的特征上,得到受体原子特征。
可以理解的是,通过特征聚合,将受体原子的相邻的受体原子的特征聚合至该受体原子的特征上,使得受体原子的特征包括受体原子之间的相互作用信息;比如,当受体为金属蛋白时,受体原子为蛋白原子或金属原子,从而此时,受体原子特征包括蛋白原子与金属原子之间的相互作用信息;从而,当基于受体原子特征进行结合亲和力预测时,能够提升预测准确度。
在本申请实施例中,当初始受体原子特征包括几何结构特征时,信息推荐设备获取受体原子的初始受体原子特征,包括:信息推荐设备在受体结构中,针对遍历到的连接关系所关联的源受体原子和目标受体原子,获取除目标受体原子之外的源受体原子的相邻受体原子集合;并获取相邻受体原子集合中的每个相邻受体原子与源受体原子之间的原子结构特征,得到与相邻受体原子集合对应的原子结构特征集合;以及将原子结构特征集合的统计信息,确定为源受体原子的几何结构特征。
需要说明的是,信息推荐设备针对受体结构中的每个连接关系,获取该连接关系对应的两个受体原子(一个源受体原子和一个目标受体原子);接着,将受体结构中与源受体原子相邻的所有受体原子、且除目标受体原子之外的受体原子组成相邻受体原子集合,该相邻受体原子集合中包括至少一个相邻受体原子集合。原子结构特征包括夹角结构特征、区域结构特征和距离结构特征中的至少一种,夹角结构特征是指相邻受体原子与遍历到的连接关系之间的夹角所对应的特征,区域结构特征是指相邻受体原子、源受体原子和遍历到的连接关系关联的目标受体原子构成的区域所对应的特征,距离结构特征是指源受体原子与相邻受体原子之间的距离所对应的特征。原子结构特征集合的统计信息比如为最大信息、最小信息、平均信息、叠加和信息等。
在本申请实施例中,当原子结构特征包括夹角结构特征、区域结构特征和距离结构特征时,原子结构特征集合包括夹角结构特征集合、区域结构特征集合和距离结构特征集合,原子结构特征集合的统计信息包括夹角结构特征集合的统计信息、区域结构特征集合的统计信息和距离结构特征集合的统计信息;以夹角结构特征集合的统计信息为例进行说明,夹角结构特征集合的统计信息是指夹角结构特征集合中所有夹角结构特征的统计信息。
在本申请实施例中,步骤3023可通过步骤30231至步骤30236(图中未示出)实现;也就是说,信息预测设备基于受体结构中与受体原子相邻的受体原子,对初始受体原子特征进行特征聚合,得到受体原子特征,包括步骤30231至步骤30236,下面对各步骤分别进行说明。
步骤30231、在受体结构中,获取与当前受体原子连接的至少一个连接受体原子。
在本申请实施例中,当前受体原子为受体结构中的任一受体原子;信息预测设备针对当前受体原子,从受体结构中,获取与当前受体原子直接连接的所有的受体原子,也就获得了至少一个连接受体原子。其中,至少一个连接受体原子是指受体结构中与当前受体原子相邻的所有受体原子。
步骤30232、对当前受体原子的第x-1层状态特征与每个连接受体原子的第x-1层状态特征进行拼接,得到初始注意力系数。
在本申请实施例中,信息预测设备通过拼接当前受体原子的第x-1层状态特征与每个连接受体原子的第x-1层状态特征,来获取每个连接受体原子的第x-1层状态特征对当前受体原子的第x-1层状态特征的贡献度,也就获得了初始注意力系数。这里,信息预测设备可以基于指定参数,对当前受体原子的第x-1层状态特征与每个连接受体原子的第x-1层状态特征的拼接结果进行激活函数的处理,得到初始注意力系数。
需要说明的是,信息预测设备将初始受体原子特征确定为第0层状态特征,基于初始受体原子特征进行一次特征聚合,就得到了第1层状态特征,基于第1层状态特征再进行一次特征聚合就得到了第2层状态特征,……,基于第x-1层状态特征进行一次特征聚合就得到了第x层状态特征;从而,特征聚合是迭代进行的,并且,第x层状态特征通过对初始受体原子特征进行x-1次特征聚合获得,x为正整数。
步骤30233、对初始注意力系数进行归一化,得到注意力系数。
在本申请实施例中,信息预测设备获得了所有连接受体原子对应的所有初始注意力系数(即为至少一个连接受体原子对应的至少一个初始注意力系数)之后,基于所有初始注意力系数,对每个初始注意力系数进行归一化,也就获得了注意力系数。
步骤30234、基于注意力系数与连接受体原子的第x-1层状态特征的融合结果,确定邻域特征。
在本申请实施例中,信息预测设备将注意力系数与对应的连接受体原子的第x-1层状态特征进行融合,并将注意力系数与连接受体原子的第x-1层状态特征的融合结果,确定为连接受体原子的第x-1层状态特征对应于当前受体原子的子邻域特征;所有子领域特征组合为领域特征,表示所有连接受体原子的所有第x-1层状态特征对应于当前受体原子的领域特征。
步骤30235、将邻域特征和当前受体原子对应的第x-1层状态特征的整合结果,确定为当前受体原子的第x层状态特征。
在本申请实施例中,信息预测设备将邻域特征整合至当前受体原子对应的第x-1层状态特征上,也就获得了当前受体原子的第x层状态特征。
步骤30236、将当前受体原子的第1层状态特征至第x层状态特征进行叠加,得到受体原子特征。
在本申请实施例中,信息预测设备对当前受体原子的第1层状态特征至第x层状态特征进行叠加,所获得的叠加结果即为当前受体原子的最终特征,即为受体原子特征,也就是每个受体原子的最终特征。
可以理解的是,通过叠加当前受体原子的第1层状态特征至第x层状态特征,来获得受体原子的受体原子特征,能够降低随着网络层数或者聚合半径的增加出现过平滑现象的概率,从而能够提升受体原子特征获取的准确度,进而能够提升基于受体原子特征预测结合亲和力的准确度。
在本申请实施例中,信息预测设备获取受体原子的受体原子特征,包括:信息预测设备获取待预测复合物的配体结构,其中,配体结构包括各个配体原子之间的连接关系;获取配体原子的初始配体原子特征,其中,配体受体原子特征包括配体化学信息特征、配体几何结构特征和配体原子环境特征中的至少一种,配体化学信息特征是指配体原子的化学信息对应的特征,配体几何结构特征表是指配体原子对应的三维结构信息对应的特征,配体原子环境特征是指配体原子所处的化学环境对应的特征;基于配体结构中与配体原子相邻的配体原子,对初始配体原子特征进行特征传递,得到配体原子特征。这里,配体原子特征的获取过程,与受体原子特征的获取过程类似,本申请实施例在此不再重复描述。
在本申请实施例中,步骤303中信息预测设备对受体原子特征、配体原子特征、以及与受体原子特征和配体原子特征对应的非键特征进行整合,得到目标非键特征,包括:信息预测设备对受体原子特征和配体原子特征进行融合,得到待拼接特征;并将待拼接特征、以及与受体原子特征和配体原子特征对应的非键特征进行拼接,得到目标非键特征。
需要说明的是,信息预测设备将受体原子特征和配体原子特征融合为待拼接特征,以将获得的受体原子特征和配体原子特征迁移到受体配体结构中;接着,信息预测设备将待拼接特征与对应的非键特征进行拼接,也就获得了目标非键特征。
在本申请实施例中,步骤303中信息预测设备基于目标非键特征,预测待预测复合物的目标结合亲和力,包括:信息预测设备基于目标非键特征,获得待预测复合物对应的目标非键特征集合;并对目标非键特征集合进行池化处理,得到至少一种池化特征;以及基于至少一种池化特征,确定待预测特征;最后基于待预测特征,预测待预测复合物的目标结合亲和力。
需要说明的是,池化处理包括加权求和池化处理、平均池化处理、最大池化处理和最小池化处理中的至少一种;当池化处理为加权求和池化处理、平均池化处理、最大池化处理和最小池化处理中的一种时,至少一种池化特征为一种池化特征,从而信息预测设备基于至少一种池化特征,确定待预测特征,包括:信息预测设备将一种池化特征确定为待预测特征;当池化处理为加权求和池化处理、平均池化处理、最大池化处理和最小池化处理中的多种时,至少一种池化特征为多种池化特征,从而信息预测设备基于至少一种池化特征,确定待预测特征,包括:信息预测设备将多种池化特征拼接为待预测特征。
可以理解的是,当池化处理包括多种池化处理时,能够从多个维度来提取待预测特征中的信息,其中,加权求和池化处理能够提取待预测特征中的总体信息,最大池化处理能够提取待预测特征中的每个特征维度中的最大信息;如此,能够提升结合亲和力的预测准确度。
参见图4,图4是本申请实施例提供的信息预测方法的流程示意图二;如图4所示,在本申请实施例中,步骤304之后还包括步骤305和步骤306;也就是说,信息预测设备基于目标非键特征,预测待预测复合物的目标结合亲和力之后,该信息预测方法还包括步骤305和步骤306,下面对各步骤分别进行说明。
步骤305、基于目标结合亲和力与结合亲和力阈值的比较结果,确定待预测复合物的目标构象正确性。
在本申请实施例中,信息预测设备中设置有结合亲和力阈值,或者,信息预测设备能够从其他设备或接收到的信息中获取到结合亲和力阈值,该结合亲和力阈值是用于确定构象正确性的最低结合亲和力;从而,信息预测设备获得了目标结合亲和力之后,将该目标结合亲和力与该结合亲和力阈值进行比较,当比较结果表示目标结合亲和力大于结合亲和力阈值时,确定待预测复合物的目标构象正确性为构象正确;当比较结果表示目标结合亲和力小于或等于结合亲和力阈值时,确定待预测复合物的目标构象正确性为构象错误。也就是说,目标构象正确性表示待预测复合物的构象是否正确。
步骤306、基于目标构象正确性,确定待预测复合物的结合质量信息。
在本申请实施例中,当目标构象正确性表示待预测复合物的构象正确时,信息预测设备确定待预测复合物为高质量的结合质量信息;当目标构象正确性表示待预测复合物的构象错误时,信息预测设备确定待预测复合物为低质量的结合质量信息;从而,结合质量信息表示待预测复合物的质量高低。
在本申请实施例中,信息预测设备还可以基于目标非键特征,预测待预测复合物的目标构象正确性。
在本申请实施例中,信息预测设备预测结合亲和力,用于对候选复合物(称为待测复合物)进行排序,以根据排序结果选择目标候选复合物进行后续测试,从而提升候选复合物的筛选的效率。
参见图5,图5是本申请实施例提供的示例性的模型训练的流程示意图;如图5所示,在本申请实施例中,示例性的模型训练的流程包括步骤501至步骤503,下面对各步骤分别进行说明。
步骤501、获取复合物样本的受体配体结构样本、以及复合物样本对应的样本标签。
在本申请实施例中,信息预测设备获取用于模型训练的训练数据,也就获得了复合物样本、复合物样本的受体配体结构样本、以及复合物样本对应的样本标签;其中,复合物样本由受体样本和配体样本结合而成,受体样本包括各个受体样本原子,配体样本包括各个配体样本原子,受体配体结构样本包括各个受体样本原子与各个配体样本原子之间的连接关系;样本标签为复合物样本的标签。
步骤502、当样本标签包括结合亲和力标签时,基于待训练预测模型,获取受体配体结构样本中的连接关系对应的第一非键样本特征,并基于第一非键样本特征预测复合物样本的预测结合亲和力。
在本申请实施例中,信息预测设备能够获得待训练预测模型,或者,信息预测设备能够从其他设备或者接受到的信息中获得待训练预测模型;另外,样本标签可以为结合亲和力标签,表示真实的结合亲和力;此时,该待训练预测模型是指待训练的用于预测结合亲和力的网络模型。从而,信息预测设备采用待训练预测模型预测复合物样本的结合亲和力,也就获得了预测结合亲和力。
需要说明的是,待训练预测模型可以是构建的原始的神经网络模型,还可以是预训练出的神经网络模型,也可以是经过至少一次训练后的神经网络模型,等等,本申请实施例对此不作限定。
步骤503、基于预测结合亲和力与结合亲和力标签之间的差异,训练待训练预测模型,得到预测模型。
在本申请实施例中,信息预测设备获得了预测结合亲和力之后,基于预测结合亲和力与结合亲和力标签之间的差异,确定损失函数值(比如,通过均方误差获得损失函数值),并基于损失函数值在待训练预测模型中进行反向传播,以实现待训练预测模型的参数调整,从而实现对待训练预测模型的训练;另外,待训练预测模型的训练过程是迭代的,当满足训练结束条件时,当前训练出的待训练预测模型即为预测模型。
需要说明的是,训练结束条件可以是达到准确度指标阈值,也可以是达到训练次数阈值,还可以是达到训练时长阈值,又可以是以上的结合,等等,本申请实施例对此不作限定。另外,待预测复合物的目标结合亲和力可通过预测模型获得。
继续参见图5,在本申请实施例中,步骤503之后还包括步骤504和步骤505;也就是说,信息预测设备获取复合物样本的受体配体结构样本、以及复合物样本对应的样本标签之后,该信息预测方法还包括步骤504和步骤505,下面对各步骤分别进行说明。
步骤504、基于待训练预测模型,获取受体配体结构样本中的连接关系对应的第二非键样本特征,并基于第二非键样本特征预测复合物样本的预测构象正确性。
需要说明的是,在复合物样本的受体配体结构样本无标签时,该待训练预测模型是指待训练的用于预测构象正确性的网络模型。从而,信息预测设备采用待训练预测模型预测复合物样本的构象正确性,也就获得了预测构象正确性。
步骤505、确定与预测构象正确性负相关的损失调制系数,并基于预测构象正确性与损失调制系数,训练待训练预测模型,得到预测模型,其中,待预测复合物的目标构象正确性通过预测模型获得。
在本申请实施例中,信息预测设备获得了预测构象正确性之后,基于预测构象正确性,获取与预测构象正确性负相关的损失调制系数,并基于预测构象正确性与损失调制系数,确定损失函数值(比如,通过动态缩放的交叉熵损失(Focal Loss)获得损失函数值),并基于损失函数值迭代地训练待训练预测模型;其中,训练过程与步骤503描述的训练过程类似,本申请实施例在此不再重复描述。另外,待预测复合物的目标构象正确性可通过预测模型获得。
在本申请实施例中,步骤503中信息预测设备基于预测结合亲和力与结合亲和力标签之间的差异,训练待训练预测模型,得到预测模型之后,该信息预测方法还包括:信息预测设备获取新的复合物样本对应的新的受体配体结构样本、以及新的复合物样本对应的新的结合亲和力标签,其中,新的复合物样本由新的受体样本和新的配体样本结合而成;基于预测模型,获取新的受体配体结构样本中的连接关系对应的新的目标非键样本特征,并基于新的目标非键样本特征预测新的复合物样本的新的预测结合亲和力;基于新的预测结合亲和力和新的结合亲和力标签之间的差异,训练预测模型,得到最新预测模型,最新预测模型用于对新的待预测复合物进行结合亲和力的预测。
可以理解的是,当训练模型用于预测待预测复合物的目标构象正确性时,信息预测设备也可以基于新的训练数据优化训练模型,以基于优化后的训练模型进行构象正确性的预测。
在本申请实施例中,待训练预测模型包括第一特征提取模块、第二特征提取模块、第三特征提取模块和任务预测模块,第一特征提取模块和第二特征提取模块共享模型参数;此时,步骤502中信息预测设备基于待训练预测模型,获取受体配体结构样本中的连接关系对应的第一非键样本特征,并基于第一非键样本特征预测复合物样本的预测结合亲和力,包括:信息预测设备基于第一特征提取模块,对复合物样本的受体结构样本中的受体原子样本进行特征提取,得到第一特征样本;基于第二特征提取模块,对复合物样本的配体结构样本中的配体原子样本进行特征提取,得到第二特征样本;基于第三特征提取模块,并结合第一特征样本和第二特征样本,获取受体配体结构样本中的连接关系对应的第一非键样本特征;基于任务预测模块对第一非键样本特征进行预测,得到复合物样本的预测结合亲和力。
在本申请实施例中,步骤504中信息预测设备基于待训练预测模型,获取受体配体结构样本中的连接关系对应的第二非键样本特征,并基于第二非键样本特征预测复合物样本的预测构象正确性,包括:信息预测设备基于第一特征提取模块,对复合物样本的受体结构样本中的受体原子样本进行特征提取,得到第一特征样本;基于第二特征提取模块,对复合物样本的配体结构样本中的配体原子样本进行特征提取,得到第二特征样本;基于第三特征提取模块,并结合第一特征样本和第二特征样本,获取受体配体结构样本中的连接关系对应的第二非键样本特征;基于任务预测模块对第二非键样本特征进行预测,得到复合物样本的预测构象正确性。
需要说明的是,模型训练过程中所涉及的特征、特征提取过程、以及特征预测过程等,均与待预测复合物的预测过程类似,本申请实施例在此不再重复描述。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。该示例性应用描述了通过端到端的预测模型(MetalProGNet)预测金属蛋白-配体(称为待预测复合物)的结合亲和力(称为目标结合亲和力)的过程。
参见图6,图6是本申请实施例提供的一种示例性的预测模型的结构示意图;如图6所示,该预测模型6-1包括图表征模块6-11、分子内图卷积模块6-12(称为第一特征提取模块和第二特征提取模块)、分子间图卷积模块6-13(称为第三特征提取模块)、图池化模块6-14和任务模块6-15(与图池化模块6-14共同称为称为任务预测模块)。
图表征模块6-11,用于基于结构信息和化学信息对金属蛋白-配体的复合物6-2进行特征表示,以得到配体图6-21(称为配体结构)、蛋白-配体二分图6-22(称为受体配体结构)和蛋白口袋图6-23(称为受体结构)分别对应的原子特征6-24(称为初始受体原子特征或初始配体原子特征)和键特征6-25(称为非键特征);其中,配体图6-21和蛋白-配体二分图6-22中包括配体原子6-26,蛋白-配体二分图6-22和蛋白口袋图6-23中包括蛋白原子6-27,各个配体原子6-26之间、以及各个蛋白原子6-27之间通过共价连接方式6-28连接,配体原子与蛋白原子之间通过非共价连接方式6-29连接。
分子内图卷积模块6-12,用于对配体图6-21中的配体原子特征6-241进行第1层至第k层的消息传递,并通过对第1层至第k层的消息传递结果加和,得到最终的配体原子特征6-31(称为配体原子特征);以及用于对蛋白口袋图6-23中的蛋白原子特征6-242进行第1层至第k层的消息传递,并通过对第1层至第k层的消息传递结果加和,得到最终的蛋白原子特征6-32(称为受体原子特征);消息传递过程包含信息聚合和状态更新,信息聚合如图6中的信息流6-331所示,通过聚合相邻原子的原子特征6-24实现,状态更新如图6示出的更新标识6-332,用于实现对原子特征6-24的状态更新。另外,分子内图卷积模块6-12对于配体图6-21和蛋白口袋图6-23是参数共享的。
分子间图卷积模块6-13,用于结合配体原子特征6-31和蛋白原子特征6-32,以如图6示出的信息流6-41和更新标识6-42,对蛋白-配体二分图6-22中的键特征6-25进行更新,以学习到原子对之间的相互作用。
图池化模块6-14,用于对更新后的键特征6-25(称为目标非键特征)进行加权求和池化处理6-51和最大池化处理6-52,并拼接加权求和池化处理结果和最大池化结果(称为至少一种池化特征),以学习到分子间的相互作用。
任务模块6-15模块(又称为预测器),通过多个神经元6-61构建,用于对平均池化处理结果和平均池化结果的拼接结果(称为待预测特征)进行结合亲和力的预测。
基于图6,参见图7,图7是本申请实施例提供的一种示例性的结合亲和力的预测流程示意图;如图7所示,输入信息为金属蛋白-配体复合物的结构信息7-1(称为受体配体结构),输出信息为蛋白-配体的结合亲和力7-3(称为目标结合亲和力);其中,步骤7-21中,对结构信息7-1进行图表征,得到配体图6-21、蛋白-配体二分图6-22和蛋白口袋图6-23;步骤7-22中,通过分子内图卷积获得配体图6-21和蛋白口袋图6-23分别对应的节点表示(即为图6中的配体原子特征6-31和蛋白原子特征6-32);步骤7-23中,结合上一步获得的节点表示,并通过分子间图卷积获得蛋白-配体二分图6-22对应的边表示(即为图6中的更新后的键特征6-25);步骤7-24中,通过对上一步获得的边表示进行图池化,得到表征分子间相互作用的向量(即为图6中的平均池化处理结果和平均池化结果的拼接结果);在步骤7-25中,预测器基于表征分子间相互作用的向量,进行结合亲和力7-3的预测。
下面依次对步骤7-21中的图表征、步骤7-22中的分子内图卷积、步骤7-23中的分子间图卷积、步骤7-24中的图池化、以及步骤7-25中的预测分别进行说明。
需要说明的是,在图表征过程中,本申请实施例通过三张图表征金属蛋白-配体复合物中的分子内和分子间相互作用;其中,三张图包括配体图(Gl=(Vl,El))、蛋白口袋图(Gp=(Vp,Ep)和蛋白-配体二分图(Gpl=(Vpl,Epl))。并且,三张图中的节点对应的特征包括化学信息特征(原子类型,原子杂化方式,化学键类型等对应的特征)、三维几何特征(距离统计值,边角统计值,面积统计值,是结合金属蛋白-配体复合物的三维结构信息获取的特征,称为几何结构特征)和化学环境特征(用于充分表征原子所处的化学环境,称为原子环境特征)。其中,原子类型包括非金属元素类型,还包括金属元素类型。
在本申请实施例中,三维几何特征的获取过程包括步骤601至步骤611(图中未示出),下面对各步骤分别进行说明。
步骤601、获取配体图(Gl=(Vl,El))和蛋白口袋图(Gp=(Vp,Ep)中的任一个有向边Ecb
步骤602、判断有向边Eab(称为遍历到的连接关系)对应的节点Va除节点Vb之外是否有邻居节点集合Na(称为相邻受体原子集合)。如果否,则执行步骤603;如果是,则执行步骤604。
步骤603、确定有向边Eab的三维边特征为指定特征;比如,[0,0,0,0,0,0,0,0,0]。
步骤604、获取除节点Vb之外的任一邻居节点Vc(称为相邻原子)。其中,c取值范围为[1,C],C为邻居节点集合Na中节点的数量。
步骤605、获取节点Va与节点Vb之间的边,以及节点Va与邻居节点Vc之间的边的所形成的夹角最终得到夹角集合
步骤606、获取节点Va、节点Vb和邻居节点Vc构成的三角形面积Areabc,最终得到三角形面积集合Areas←Areas∪Areabc
步骤607、获取节点Va与邻居节点Vc之间的距离Disac,最终得到距离集合Distances←Distances∪Disac
步骤608、基于夹角集合Angles,获取C个夹角的最大值,总和值,以及平均值,即为Ang_S←[max(Angles),sum(Angles),mean(Angles)]。
步骤609、基于三角形面积集合reas,获取C个三角形面积的最大值,总和值以及平均值,即为Are_S←[max(Areas),sum(Areas),mean(Areas)]。
步骤610、基于距离集合Distances,获取C个距离的最大值,总和值,以及平均值,即为:
Dis_S←[max(Distances),sum(Distances),mean(Distances)]。
步骤611、通过式(1)获取有向边Eab的三维(3D)边特征式(1)如下所示。
其中,∥表示连接处理。
需要说明的是,在分子内图卷积过程中,通过消息传递实现配体图(Gl=(Vl,El))和蛋白口袋图(Gp=(Vp,Ep)中的节点表示的获取。参见图8,图8是本申请实施例提供的一种示例性的消息传递示意图;如图8所示,该示例性的消息传递包括成对拼接步骤801(PairConcatenation)、注意力系数计算(Attention Score Calculation)步骤802、信息聚合(Message Aggregation)步骤803和节点状态更新(Hidden State Updating)步骤804。
其中,成对拼接步骤801,用于对节点Vj的状态特征和节点Vi(称为当前受体原子)的状态特征进行拼接,如公式(2)所示。
其中,表示特征维度,表示第l层的参数,表示节点Vi对应的第l-1层的状态特征(称为第x-1层状态特征),表示节点Vj的第l-1层的状态特征,LeakyReLU()表示激活函数,表示通过对节点Vj的状态特征和节点Vi的状态特征进行拼接获得的非标准化注意力系数(称为初始注意力系数)。
注意力系数计算步骤802,用于基于非标准化注意力系数获得标准化注意力系数(称为注意力系数),如公式(3)所示。
其中,N(i)表示节点Vi的所有邻居节点,表示节点Vi和节点Vk的非标准化注意力系数,exp()表示指数函数。
信息聚合步骤803,用于基于标准化注意力系数和节点Vk的状态特征获取节点Vi的邻域特征
其中,表示第l层的参数,表示特征维度,ELU()表示激活函数。
节点状态更新步骤804,用于整合邻域特征和节点Vi的第l-1层的状态特征,如公式(5)所示。
其中,GRU()表示门控循环单元处理,ReLU()表示激活函数,BN()表示批量归一化处理(用于提升模型的收敛速度)。
这里,最终的节点表示的获取如公式(6)所示,公式(6)将节点每个隐层的状态相加,以解决随着网络层数或者聚合半径的增加所导致的过度平滑问题。
需要说明的是,步骤7-23中的分子间图卷积,用于学习蛋白-配体二分图Gpl=(Vpl,Epl)中蛋白原子和配体原子之间的相互作用。参见图9,图9是本申请实施例提供的一种示例性的获取边表示的示意图;如图9所示,该示例性的获取边表示的过程包括成对加和步骤901和边状态更新步骤902;其中,成对加和步骤901用于将配体的节点表示Hp(即为通过公式(6)获得)与金属蛋白的节点表示Hq(即为通过公式(6)获得)进行加和处理,得到Hpq(称为待拼接特征),边状态更新步骤902用于基于Hpq对初始的边表示Bpq进行状态更新;如式(7)所示。
其中,Hp+Hq为Hpq,Hp是指节点Vp的最终的节点表示Hq是指节点Vq的最终的节点表示MLP()表示多层感知机,Bpq为键特征。由于金属蛋白-配体复合物中的分子间相互作用由蛋白原子和配体原子之间的非键相互作用决定,更新后的边表示为蛋白原子和配体原子之间的相互作用,从而,基于更新后的边表示即可预测结合亲和力。
需要说明的是,步骤7-24中的图池化用于为金属蛋白-配体复合物提取全局的向量表示来进行结合亲和力的预测。参见图10,图10是本申请实施例提供的一种示例性的图池化示意图;如图10所示,通过对所有的分别进行加权求和池化处理10-1和最大池化处理10-2,并对加权求和池化处理10-1的结果和最大池化处理10-2的结果进行拼接,以获得分子间相互作用的特征10-3;如公式(8)至公式(11)所示。
其中,G*表示图池化的最终输出特征10-3,是由加权求和池化的输出特征和最大池化的输出特征拼接而成,如此,能够从多种维度来提取Bnew中的信息;其中,加权求和池化能够提取Bnew中的总体信息,而最大池化处理能够凸显Bnew中每个特征维度中的最大信息。另外,Bnew即为二分图Epl中的所有的 表示加权求和池化中的权重参数(包括其中,P为二分图Epl中边的数量),∑Tanh()表示加权求和池化处理6-51,MAXPOOl()表示最大池化处理6-52。
需要说明的是,步骤7-25中的预测器,采用全连接神经网络模型(FCNN)作为任务模块的基本架构。其中,在FCNN中的每个隐藏层后添加批归一化处理,以优化FCNN的收敛效率。对于预测结合亲和力的回归任务,采用均方误差(MSE)作为模型的损失函数,如公式(12)所示;对于预测构象是否正确的分类任务,采用动态缩放的交叉熵损失(Focal Loss)作为模型的损失函数,如公式(13)所示。
其中,M表示训练样本的数量;表示第d个训练样本的预测值,yd表示第d个训练样本的真实值,Sigmoid()表示激活函数,称为损失调制系数,γ和α为参数。
在本申请实施例中,还可以将金属蛋白-配体复合表达成一张整图,图中的边即包含共价相互连接又包含非共价相互连接,然后用相应的图神经网络模型学习节点表示或者边表示,并用相应的非共价边表示进行结合亲和力的预测。
下面说明MetalProGNet的评测结果。
本申请实施例从数据集(比如,“PDBbind”数据集)中获取3079个金属蛋白-配体复合物,将复合物按照6:2:2的比例依次划分成训练集,验证集和测试集;其中,训练集用于训练模型,验证集用于模型选择,测试集用于评估模型的泛化能力。另外,采用不同的构象(共晶构象、Glide SP构象和PLANTS构象)训练MetalProGNet。对于每种构象,均训练了两个MetalProGNet模型(混合模型和微调模型)。参见表1,表1为基于“PDBbind”数据集的评测结果,描述了MetalProGNet在不同构象、以及不同训练策略(混合和微调)下的性能表现(皮尔逊相关系数Rp,Rp越大性能越好)。
表1
从表1中可以看出,用晶体构象训练的MetalProGNet混合模型对618种金属蛋白-配体复合物的Rp为0.703。相比于模型1至模型4,预测精度明显较好。对于Glide SP构象和PLANTS构象模型,MetalProGNet在两者上的预测精度相比晶体构象有下降,但仍然优于模型1至模型4。
另外,继续参见表1,对于Glide SP构象数据集,MetalProGNet在混合训练策略下针对618种金属蛋白-配体复合物的Rp为0.629,模型1对应的Rp为0.580,与MetalProGNet相比,预测准确度较低;模型2对应的Rp为0.608,与MetalProGNet相比,预测准确度较低。对于PLANTS构象数据集,MetalProGNet在混合训练策略以及微调训练策略下针对618种金属蛋白-配体复合物的Rp均优于其他模型。继续参加表1,可以看出,在所有构象训练数据的所有策略下,,MetalProGNet与所有基线模型(模型1至模型4)相比,均可取得更好的Rp。如此表明,相比于模型1至模型4,MetalProGNet在预测金属蛋白-配体配合物的结合亲和力效果较好。
需要说明的是,Glide SP构象和PLANTS构象为对接构象,而共晶构象来源于结晶实验,可信度更高。针对共晶构象,MetalProGNet在混合训练策略下,Rp为0.703,在微调训练策略下Rp为0.680,与其余模型相比相比,MetalProGNet使用晶体构象具有更大的优势。模型1和模型2对测试集的最佳Rp分别是0.615,0.629,明显低于MetalProGNet的最佳Rp(0.703)。此外,参见表一,评分函数(模型3和模型4)在三种构象下均无法有效预测金属蛋白-配体复合物的结合亲和力;
在本申请实施例中,额外从ChEMBL数据库中获取22种金属蛋白(金属蛋白1至金属蛋白22)以及其对应的活性配体进行更进一步的验证,活性配体的构象通过对接软件(比如,PLANTS对接软件)产生(只取得分最好的构象)。针对22种金属蛋白,微调MetalProGNet,混合MetalProGNet,混合模型1(Rosenet_Mixture),微调模型1(Rosenet_Fine-tuning),混合模型2(NNScore2.0_Mixture),微调模型2(NNScore2.0_Fine-tuning),模型4(PLANTS),模型5(MMGBSA(OPLS_2005)),以及模型6(MMGBSA(OPLS3e))分别对应的预测能力(Rp)如表2至表5所示。
表2
表3
表4
表5
如表2至表4所示,MetalProGNet对Ki(抑制常数,越小抑制能力越强)配体或Kd(解离常数,值越小亲和力越强)配体的最佳Rp值可达0.7。例如,MetalProGNet对金属蛋白21中的80个Ki配体的最佳Rp值为0.726,对金属蛋白11中的28个Kd配体的最佳Rp为0.718。与此对应,剩余模型中的最佳Rp分别仅为0.613和0.662。在22种金属蛋白中,对于具有较多活性配体的金属蛋白,MetalProGNet(微调或者混合)对部分金属蛋白(包括金属蛋白5、金属蛋白7、金属蛋白10、金属蛋白18、金属蛋白19和金属蛋白22)能够实现Rp≈0.500的中等相关性。具体来说,MetalProGNet对金属蛋白5中的352个Kd配体的Rp为0.482,金属蛋白7中的489个Ki配体的Rp为0.488,金属蛋白10中的319个Ki配体的Rp为0.458,金属蛋白18中的137个Ki配体的Rp为0.483,金属蛋白19中的641个Ki配体的Rp为0.547,金属蛋白22中的393个Ki配体的Rp为0.453。与此相反,模型1和模型2对上述金属蛋白的不同活性配体给出的相关性大多位于0.2到0.4之间,表明MetalProGNet在金属蛋白-配体复合物的结合亲和力预测方面的准确度较高。
参见表5,模型5至模型6给出的最佳Rp值≈0.5,明显低于MetalProGNet的最佳Rp值(0.726)。参见表6,MetalProGNet对60%(21/35)的金属蛋白均可取得最优Rp。对于剩余40%的金属蛋白,基于物理的方法(包括模型4、模型5和模型6)占大多数(6/35),其次是模型2(5/35),最后是模型1(3/35)。此外,对于最佳Rp大于0.4的13个金属蛋白,MetalProGNet占62%(8/13)。综上所述,MetalProGNet在金属蛋白-配体复合物的结合亲和力预测中的准确度最高。
表6
可以理解的是,通过将金属蛋白-配体复合物表达成蛋白口袋图、配体图和金属蛋白-配体二分图,并通过分子内图卷积模块学习蛋白图和配体图的节点表示,后再通过分子间图卷积模块学习蛋白-配体图的边表示,最后再通过池化操作获取分子间相互作用的表示向量用于结合亲和力的预测。如此,能够提升预测准确度。此外,对于蛋白口袋图和配体图,共享同一个图卷积模块,能够提升计算效率。
下面继续说明本申请实施例提供的信息预测装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的信息预测装置455中的软件模块可以包括:
结构获取模块4551,用于获取待预测复合物的受体配体结构,其中,所述待预测复合物由受体和配体结合而成,所述受体包括各个受体原子,所述配体包括各个配体原子,所述受体配体结构包括各个所述受体原子与各个所述配体原子之间的连接关系;
特征获取模块4552,用于获取所述受体原子的受体原子特征,并获取所述配体原子的配体原子特征,以及获取所述受体配体结构中的所述连接关系的非键特征;
特征整合模块4553,用于对所述受体原子特征、所述配体原子特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行整合,得到目标非键特征;
结果预测模块4554,用于基于所述目标非键特征,预测所述待预测复合物的目标结合亲和力。
在本申请实施例中,所述特征获取模块4552,还用于获取所述待预测复合物的受体结构,其中,所述受体结构包括各个所述受体原子之间的连接关系;获取所述受体原子的初始受体原子特征,其中,所述初始受体原子特征包括化学信息特征、几何结构特征和原子环境特征中的至少一种;基于所述受体结构中与所述受体原子相邻的所述受体原子,对所述初始受体原子特征进行特征聚合,得到所述受体原子特征。
在本申请实施例中,当所述初始受体原子特征包括所述几何结构特征时,所述特征获取模块4552,用于在所述受体结构中,针对遍历到的连接关系所关联的源受体原子和目标受体原子,获取除所述目标受体原子之外的所述源受体原子的相邻受体原子集合;获取所述相邻受体原子集合中的每个相邻受体原子与所述源受体原子之间的原子结构特征,得到与所述相邻受体原子集合对应的原子结构特征集合,其中,所述原子结构特征包括夹角结构特征、区域结构特征和距离结构特征中的至少一种;将所述原子结构特征集合的统计信息,确定为所述源受体原子的所述几何结构特征。
在本申请实施例中,所述特征获取模块4552,还用于在所述受体结构中,获取与当前受体原子连接的至少一个连接受体原子;对所述当前受体原子的第x-1层状态特征与每个所述连接受体原子的第x-1层状态特征进行拼接,得到初始注意力系数,其中,所述第x-1层状态特征通过对所述初始受体原子特征进行x-1次特征聚合获得,x为正整数;对所述初始注意力系数进行归一化,得到注意力系数;基于所述注意力系数与所述连接受体原子的所述第x-1层状态特征的融合结果,确定邻域特征;将所述邻域特征和所述当前受体原子对应的所述第x-1层状态特征的整合结果,确定为所述当前受体原子的第x层状态特征;将所述当前受体原子的第1层状态特征至第x层状态特征进行叠加,得到所述受体原子特征。
在本申请实施例中,所述特征整合模块4553,还用于对所述受体原子特征和所述配体原子特征进行融合,得到待拼接特征;将所述待拼接特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行拼接,得到所述目标非键特征。
在本申请实施例中,所述结果预测模块4554,还用于基于所述目标非键特征,获得所述待预测复合物对应的目标非键特征集合;对所述目标非键特征集合进行池化处理,得到至少一种池化特征,其中,所述池化处理包括加权求和池化处理、平均池化处理、最大池化处理和最小池化处理中的至少一种;基于至少一种所述池化特征,确定待预测特征;基于所述待预测特征,预测所述待预测复合物的所述目标结合亲和力。
在本申请实施例中,所述结果预测模块4554,还用于基于所述目标结合亲和力与结合亲和力阈值的比较结果,确定所述待预测复合物的目标构象正确性;基于所述目标构象正确性,确定所述待预测复合物的结合质量信息。
在本申请实施例中,所述信息预测装置455还包括模型训练模块4555,用于获取复合物样本的受体配体结构样本、以及所述复合物样本对应的样本标签,其中,所述复合物样本由受体样本和配体样本结合而成;当所述样本标签包括结合亲和力标签时,基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第一非键样本特征,并基于所述第一非键样本特征预测所述复合物样本的预测结合亲和力,其中,所述待训练预测模型是指待训练的用于预测结合亲和力的网络模型;基于所述预测结合亲和力与所述结合亲和力标签之间的差异,训练所述待训练预测模型,得到所述预测模型,其中,所述目标结合亲和力通过预测模型获得。
在本申请实施例中,所述模型训练模块4555,还用于基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第二非键样本特征,并基于所述第二非键样本特征预测所述复合物样本的预测构象正确性,其中,所述待训练预测模型是指待训练的用于预测构象正确性的网络模型;确定与所述预测构象正确性负相关的损失调制系数;基于所述预测构象正确性与所述损失调制系数,训练所述待训练预测模型,得到所述预测模型,其中,所述待预测复合物的目标构象正确性通过所述预测模型获得。
在本申请实施例中,所述模型训练模块4555,还用于获取新的复合物样本对应的新的受体配体结构样本、以及所述新的复合物样本对应的新的结合亲和力标签,其中,所述新的复合物样本由新的受体样本和新的配体样本结合而成;基于所述预测模型,获取所述新的受体配体结构样本中的连接关系对应的新的目标非键样本特征,并基于所述新的目标非键样本特征预测所述新的复合物样本的新的预测结合亲和力;基于所述新的预测结合亲和力和所述新的结合亲和力标签之间的差异,训练所述预测模型,得到最新预测模型,所述最新预测模型用于对新的待预测复合物进行结合亲和力的预测。
在本申请实施例中,所述待训练预测模型包括第一特征提取模块、第二特征提取模块、第三特征提取模块和任务预测模块,所述第一特征提取模块和所述第二特征提取模块共享模型参数;所述模型训练模块4555,还用于基于所述第一特征提取模块,对所述复合物样本的受体结构样本中的受体原子样本进行特征提取,得到第一特征样本;基于所述第二特征提取模块,对所述复合物样本的配体结构样本中的配体原子样本进行特征提取,得到第二特征样本;基于所述第三特征提取模块,并结合所述第一特征样本和所述第二特征样本,获取所述受体配体结构样本中的连接关系对应的所述第一非键样本特征;基于所述任务预测模块对所述第一非键样本特征进行预测,得到所述复合物样本的所述预测结合亲和力。
在本申请实施例中,所述受体为金属蛋白,所述受体原子为蛋白原子或金属原子。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备等电子设备(称为预测设备)的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的信息预测方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的信息预测方法,例如,如图3示出的信息预测方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行(此时,这一个电子设备即预测设备),或者在位于一个地点的多个电子设备上执行(此时,位于一个地点的多个电子设备即预测设备),又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行(此时,分布在多个地点且通过通信网络互连的多个电子设备即预测设备)。
综上所述,通过本申请实施例针对由受体和配体复合而成的待预测复合物,通过获取受体的各个受体原子与配体的各个配体原子之间的连接关系,并对受体原子的受体原子特征、配体原子的配体原子特征、以及与受体原子和配体原子之间的连接关系的非键特征进行整合,来获得目标非键特征,实现了受体原子与配体原子之间的相互作用的特征的准确获取;进而,基于目标非键特征,预测待预测复合物的目标结合亲和力,能够提升结合亲和力的预测准确度。另外,受体原子特征和配体原子特征的获取均结合了几何结构和原子化学环境,以及受体原子特征和配体原子特征的获取均结合了原子图的消息传递实现,提升了特征的准确度。此外,当通过人工智能预测结合亲和力时,受体结构和配体结构的消息传递的过程所采用的模型共享参数,提升了预测模型的训练效率。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种信息预测方法,其特征在于,所述方法包括:
获取待预测复合物的受体配体结构,其中,所述待预测复合物由受体和配体结合而成,所述受体包括各个受体原子,所述配体包括各个配体原子,所述受体配体结构包括各个所述受体原子与各个所述配体原子之间的连接关系;
获取所述受体原子的受体原子特征,并获取所述配体原子的配体原子特征,以及获取所述受体配体结构中的所述连接关系的非键特征;
对所述受体原子特征、所述配体原子特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行整合,得到目标非键特征;
基于所述目标非键特征,预测所述待预测复合物的目标结合亲和力。
2.根据权利要求1所述的方法,其特征在于,所述获取所述受体原子的受体原子特征,包括:
获取所述待预测复合物的受体结构,其中,所述受体结构包括各个所述受体原子之间的连接关系;
获取所述受体原子的初始受体原子特征,其中,所述初始受体原子特征包括化学信息特征、几何结构特征和原子环境特征中的至少一种;
基于所述受体结构中与所述受体原子相邻的所述受体原子,对所述初始受体原子特征进行特征聚合,得到所述受体原子特征。
3.根据权利要求2所述的方法,其特征在于,当所述初始受体原子特征包括所述几何结构特征时,所述获取所述受体原子的初始受体原子特征,包括:
在所述受体结构中,针对遍历到的连接关系所关联的源受体原子和目标受体原子,获取除所述目标受体原子之外的所述源受体原子的相邻受体原子集合;
获取所述相邻受体原子集合中的每个相邻受体原子与所述源受体原子之间的原子结构特征,得到与所述相邻受体原子集合对应的原子结构特征集合,其中,所述原子结构特征包括夹角结构特征、区域结构特征和距离结构特征中的至少一种;
将所述原子结构特征集合的统计信息,确定为所述源受体原子的所述几何结构特征。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述受体结构中与所述受体原子相邻的所述受体原子,对所述初始受体原子特征进行特征聚合,得到所述受体原子特征,包括:
在所述受体结构中,获取与当前受体原子连接的至少一个连接受体原子;
对所述当前受体原子的第x-1层状态特征与每个所述连接受体原子的第x-1层状态特征进行拼接,得到初始注意力系数,其中,所述第x-1层状态特征通过对所述初始受体原子特征进行x-1次特征聚合获得,x为正整数;
对所述初始注意力系数进行归一化,得到注意力系数;
基于所述注意力系数与所述连接受体原子的所述第x-1层状态特征的融合结果,确定邻域特征;
将所述邻域特征和所述当前受体原子对应的所述第x-1层状态特征的整合结果,确定为所述当前受体原子的第x层状态特征;
将所述当前受体原子的第1层状态特征至第x层状态特征进行叠加,得到所述受体原子特征。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述受体原子特征、所述配体原子特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行整合,得到目标非键特征,包括:
对所述受体原子特征和所述配体原子特征进行融合,得到待拼接特征;
将所述待拼接特征、以及与所述受体原子特征和所述配体原子特征对应的所述非键特征进行拼接,得到所述目标非键特征。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述目标非键特征,预测所述待预测复合物的目标结合亲和力,包括:
基于所述目标非键特征,获得所述待预测复合物对应的目标非键特征集合;
对所述目标非键特征集合进行池化处理,得到至少一种池化特征,其中,所述池化处理包括加权求和池化处理、平均池化处理、最大池化处理和最小池化处理中的至少一种;
基于至少一种所述池化特征,确定待预测特征;
基于所述待预测特征,预测所述待预测复合物的所述目标结合亲和力。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述目标非键特征,预测所述待预测复合物的目标结合亲和力之后,所述方法还包括:
基于所述目标结合亲和力与结合亲和力阈值的比较结果,确定所述待预测复合物的目标构象正确性;
基于所述目标构象正确性,确定所述待预测复合物的结合质量信息。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取复合物样本的受体配体结构样本、以及所述复合物样本对应的样本标签,其中,所述复合物样本由受体样本和配体样本结合而成;
当所述样本标签包括结合亲和力标签时,基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第一非键样本特征,并基于所述第一非键样本特征预测所述复合物样本的预测结合亲和力,其中,所述待训练预测模型是指待训练的用于预测结合亲和力的网络模型;
基于所述预测结合亲和力与所述结合亲和力标签之间的差异,训练所述待训练预测模型,得到所述预测模型,其中,所述目标结合亲和力通过预测模型获得。
9.根据权利要求8所述的方法,其特征在于,所述获取复合物样本的受体配体结构样本之后,所述方法还包括:
基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第二非键样本特征,并基于所述第二非键样本特征预测所述复合物样本的预测构象正确性,其中,所述待训练预测模型是指待训练的用于预测构象正确性的网络模型;
确定与所述预测构象正确性负相关的损失调制系数;
基于所述预测构象正确性与所述损失调制系数,训练所述待训练预测模型,得到所述预测模型,其中,所述待预测复合物的目标构象正确性通过所述预测模型获得。
10.根据权利要求8所述的方法,其特征在于,所述基于所述预测结合亲和力与所述结合亲和力标签之间的差异,训练所述待训练预测模型,得到所述预测模型之后,所述方法还包括:
获取新的复合物样本对应的新的受体配体结构样本、以及所述新的复合物样本对应的新的结合亲和力标签,其中,所述新的复合物样本由新的受体样本和新的配体样本结合而成;
基于所述预测模型,获取所述新的受体配体结构样本中的连接关系对应的新的目标非键样本特征,并基于所述新的目标非键样本特征预测所述新的复合物样本的新的预测结合亲和力;
基于所述新的预测结合亲和力和所述新的结合亲和力标签之间的差异,训练所述预测模型,得到最新预测模型,所述最新预测模型用于对新的待预测复合物进行结合亲和力的预测。
11.根据权利要求8所述的方法,其特征在于,所述待训练预测模型包括第一特征提取模块、第二特征提取模块、第三特征提取模块和任务预测模块,所述第一特征提取模块和所述第二特征提取模块共享模型参数;
所述基于待训练预测模型,获取所述受体配体结构样本中的连接关系对应的第一非键样本特征,并基于所述第一非键样本特征预测所述复合物样本的预测结合亲和力,包括:
基于所述第一特征提取模块,对所述复合物样本的受体结构样本中的受体原子样本进行特征提取,得到第一特征样本;
基于所述第二特征提取模块,对所述复合物样本的配体结构样本中的配体原子样本进行特征提取,得到第二特征样本;
基于所述第三特征提取模块,并结合所述第一特征样本和所述第二特征样本,获取所述受体配体结构样本中的连接关系对应的所述第一非键样本特征;
基于所述任务预测模块对所述第一非键样本特征进行预测,得到所述复合物样本的所述预测结合亲和力。
12.根据权利要求1至3任一项所述的方法,其特征在于,所述受体为金属蛋白,所述受体原子为蛋白原子或金属原子。
13.一种信息预测设备,其特征在于,所述信息预测设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的信息预测方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令用于被处理器执行时,实现权利要求1至12任一项所述的信息预测方法。
15.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至12任一项所述的信息预测方法。
CN202210959036.7A 2022-08-10 2022-08-10 一种信息预测方法、设备、存储介质及计算机程序产品 Pending CN117037896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210959036.7A CN117037896A (zh) 2022-08-10 2022-08-10 一种信息预测方法、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210959036.7A CN117037896A (zh) 2022-08-10 2022-08-10 一种信息预测方法、设备、存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN117037896A true CN117037896A (zh) 2023-11-10

Family

ID=88626810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210959036.7A Pending CN117037896A (zh) 2022-08-10 2022-08-10 一种信息预测方法、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN117037896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690499A (zh) * 2023-12-08 2024-03-12 苏州腾迈医药科技有限公司 分子试验预测处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690499A (zh) * 2023-12-08 2024-03-12 苏州腾迈医药科技有限公司 分子试验预测处理方法及装置

Similar Documents

Publication Publication Date Title
Nguyen et al. Mathematical deep learning for pose and binding affinity prediction and ranking in D3R Grand Challenges
Méndez-Lucio et al. A geometric deep learning approach to predict binding conformations of bioactive molecules
Chen et al. Protein-protein interaction prediction using a hybrid feature representation and a stacked generalization scheme
Ramírez-Aportela et al. FRODOCK 2.0: fast protein–protein docking server
CN111695702B (zh) 分子生成模型的训练方法、装置、设备及存储介质
Lopes et al. Protein-protein interactions in a crowded environment: an analysis via cross-docking simulations and evolutionary information
Cai et al. FG-CF: Friends-aware graph collaborative filtering for POI recommendation
CN114756762B (zh) 数据处理方法、装置、设备及存储介质
Mohammadi et al. Ensemble learning from ensemble docking: Revisiting the optimum ensemble size problem
Xia et al. Accounting for observed small angle X‐ray scattering profile in the protein–protein docking server cluspro
Ekenna et al. Adaptive local learning in sampling based motion planning for protein folding
CN117037896A (zh) 一种信息预测方法、设备、存储介质及计算机程序产品
CN112151128A (zh) 相互作用信息的确定方法、装置、设备及存储介质
CN115116538A (zh) 一种蛋白质配体的亲和力预测方法、相关装置以及设备
CN115114329A (zh) 数据流异常检测的方法、装置、电子设备和存储介质
Tzeng et al. Massive open online course recommendation system based on a reinforcement learning algorithm
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
Zhang et al. A universal framework for accurate and efficient geometric deep learning of molecular systems
Martini et al. On Hadamard and Kronecker products in covariance structures for genotype× environment interaction
CN111931075B (zh) 一种内容推荐方法、装置、计算机设备及存储介质
Jiang et al. Out-of-the-box deep learning prediction of quantum-mechanical partial charges by graph representation and transfer learning
Jamroz et al. Ensemble-based evaluation for protein structure models
da Silva et al. Deep learning strategies for enhanced molecular docking and virtual screening
Tan et al. Prediction of drug–protein interaction based on dual channel neural networks with attention mechanism
KR102650868B1 (ko) 스코어링 함수의 학습 방법 및 이를 이용한 단백질-리간드 도킹 예측 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination