CN112086145B - 一种化合物活性预测方法、装置、电子设备和存储介质 - Google Patents
一种化合物活性预测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112086145B CN112086145B CN202010910952.2A CN202010910952A CN112086145B CN 112086145 B CN112086145 B CN 112086145B CN 202010910952 A CN202010910952 A CN 202010910952A CN 112086145 B CN112086145 B CN 112086145B
- Authority
- CN
- China
- Prior art keywords
- activity
- compound
- target protein
- detected
- active compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 400
- 230000000694 effects Effects 0.000 title claims abstract description 387
- 238000000034 method Methods 0.000 title claims abstract description 96
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 271
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 271
- 238000012549 training Methods 0.000 claims description 128
- 238000012360 testing method Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000010801 machine learning Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 229940079593 drug Drugs 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000003556 assay Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请属于计算机技术领域,涉及人工智能和机器学习技术,具体涉及一种化合物活性预测方法、装置、电子设备和存储介质。该方法参考已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,依据待测化合物的分子结构的特征信息,来预测待测化合物对目标靶点蛋白的活性,并输出待测化合物的活性预测结果。该方法利用已测活性化合物的活性数据,预测待测化合物对目标靶点蛋白的活性,可以快速确定待测化合物对目标靶点蛋白的活性,与通过反复多次实验进行活性检测相比,可以节省大量时间,提高确定化合物活性的效率。并且,该方法无需消耗待测化合物的样品,可以节省资源消耗。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种化合物活性预测方法、装置、电子设备和存储介质。
背景技术
在新药研发过程中,需要针对靶点蛋白筛选药物。在针对某个靶点蛋白筛选药物时,需要检测候选化合物针对该靶点蛋白的活性,活性值越大,表示该候选化合物对该靶点蛋白的抑制作用越好,越有可能被选为针对该靶点蛋白的药物。
目前,一般通过实验对化合物进行活性检测,通常需要经过多次实验反复检测,才可以确定某个化合物针对某个靶点蛋白的活性值。因此,通过实验检测化合物活性的方式,会耗费大量的时间。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种化合物活性预测方法、装置、电子设备和存储介质,可以提高确定化合物活性的效率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种化合物活性预测方法,包括:
获取待测化合物的分子结构的特征信息;
根据已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,以及所述待测化合物的分子结构的特征信息,预测所述待测化合物对所述目标靶点蛋白的活性;
输出所述待测化合物的活性预测结果。
第二方面,本申请实施例提供一种化合物活性预测装置,包括:
信息获取模块,用于获取待测化合物的分子结构的特征信息;
活性预测模块,用于根据已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,以及所述待测化合物的分子结构的特征信息,预测所述待测化合物对所述目标靶点蛋白的活性;
结果输出模块,用于输出所述待测化合物的活性预测结果。
在一种可选的实施例中,所述活性预测模块,具体用于:
采用所述目标靶点蛋白对应的活性预测网络模型,根据所述待测化合物的分子结构的特征信息,预测所述待测化合物对所述目标靶点蛋白的活性;所述目标靶点蛋白对应的活性预测网络模型是以已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据作为训练数据进行训练得到的;
其中,所述活性预测网络模型包括输入层、隐藏层和输出层;所述输入层用于对输入的所述待测化合物的分子结构的特征信息进行特征提取,得到所述待测化合物相对于所述目标靶点蛋白的特征向量,并将得到的特征向量输入至所述隐藏层;所述隐藏层用于对输入的特征向量进行降维处理,所述输出层用于根据降维处理后的特征向量预测所述待测化合物对所述目标靶点蛋白的活性。
在一种可选的实施例中,所述装置还包括模型训练模块,用于:
获取已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据;
将已测活性化合物的分子结构的特征信息输入待训练的活性预测网络模型,得到所述待训练的活性预测网络模型输出的已测活性化合物对目标靶点蛋白的预测活性;
根据已测活性化合物对目标靶点蛋白的预测活性和已测活性化合物对目标靶点蛋白的活性数据,确定损失值;
根据确定的损失值调整待训练的活性预测网络模型的网络参数,直至满足训练结束条件为止,将调整网络参数后的活性预测网络模型作为所述目标靶点蛋白对应的活性预测网络模型。
在一种可选的实施例中,所述待训练的活性预测网络模型为基于历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对非目标靶点蛋白的活性数据进行训练得到的基础活性预测网络模型;所述训练结束条件为达到预设训练次数。
在一种可选的实施例中,所述模型训练模块,还用于:
从每个非目标靶点蛋白对应的数据集中分别抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据;
将抽取的历史已测活性化合物的分子结构的特征信息输入待训练的基础活性预测网络模型和任务判别器,得到所述历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的预测活性;所述任务判别器用于确定历史已测活性化合物所属的数据集对应的非目标靶点蛋白;
根据历史已测活性化合物对目标靶点蛋白的预测活性和历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的活性数据,对待训练的基础活性预测网络模型和任务判别器的网络参数进行至少一次调整,得到已训练的基础活性预测网络模型。
在一种可选的实施例中,每个所述非目标靶点蛋白对应的数据集包括测试数据集和训练数据集;所述模型训练模块,还用于:
对于每个非目标靶点蛋白对应的数据集,从所述测试数据集和所述训练数据集中随机交替抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据。
在一种可选的实施例中,所述模型训练模块,还用于:
根据靶点蛋白的结构特征,对靶点蛋白进行聚类处理,得到多个聚类;每个聚类中包含多个靶点蛋白;
获取与所述目标靶点蛋白属于同一聚类的每个非目标靶点蛋白对应的数据集;每个所述非目标靶点蛋白对应的数据集中包括历史已测活性化合物对所述非目标靶点蛋白的活性数据和历史已测活性化合物的分子结构的特征信息。
第三方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面任一项所述的方法。
第四方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面任一项所述的方法。
本申请实施例的化合物活性预测方法、装置、电子设备和存储介质,参考已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,依据待测化合物的分子结构的特征信息,来预测待测化合物对目标靶点蛋白的活性,并输出待测化合物的活性预测结果。该方法利用已测活性化合物的活性数据,预测待测化合物对目标靶点蛋白的活性,可以快速确定待测化合物对目标靶点蛋白的活性,与通过反复多次实验进行活性检测相比,可以节省大量时间,提高确定化合物活性的效率。并且,该方法无需消耗待测化合物的样品,可以节省资源消耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的化合物活性预测方法的一种应用场景的示意图;
图2为本申请实施例提供的一种化合物活性预测应用中的界面图;
图3为本申请实施例提供的一种化合物活性预测方法的流程图;
图4为申请实施例提供的一种训练化合物活性预测模型的流程图;
图5为申请实施例提供的一种训练化合物活性预测模型的原理图;
图6为本申请实施例提供的另一种训练化合物活性预测模型的流程图;
图7为本申请实施例提供的一种化合物活性预测装置的结构示意图;
图8为本申请实施例提供的另一种化合物活性预测装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)人工神经网络(ANNs):一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,其内部通过大量节点(或称为神经元)的网络参数以及节点之间的相互连接的关系,从而达到对输入的信息进行处理的目的。
(2)摩根分子指纹(Morgan Fingerprints):用于描述物质的分子结构的特征,尤其是描述分子结构中与活性相关的特征。摩根分子指纹是一种圆形指纹,也属于拓扑型指纹,与扩展连通性指纹(Extended-Connectivity Fingerprints,ECFPs)相类似,指纹中的每个元素代表一种特定子结构。本申请实施例采用摩根分子指纹描述化合物的分子结构中与活性相关的特征,通过摩根算法对化合物的分子结构进行处理,可以得到该化合物的摩根分子指纹。
(3)元学习:可以通过监督学习方式挖掘机器学习框架处于各个阶段中神经网络的状态特征和质量参数的映射关系,并根据新学习任务的特征优化神经网络的性能。元学习的核心思想是从大量训练任务中学习神经网络的初始参数,该初始参数可使得新的机器学习任务在小样本条件下也能快速收敛到一个较优的解。本申请实施例采用元学习的方法基于多种已知活性的靶点蛋白的活性数据学习深度神经网络模型的初始参数,基于该初始参数,采用较少量的目标靶点蛋白的活性数据即可训练得到目标靶点蛋白对应的活性预测网络模型。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的计算机视觉技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在化合物活性预测的过程中,采用基于机器学习或深度学习的活性预测网络模型对已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系进行学习,从而可以根据输入的待测化合物的分子结构的特征信息生成待测化合物的活性预测结果。
为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
在药物研发过程中,需要对化合物进行筛选,筛选出苗头化合物。其中,苗头化合物指对特定靶标(目标靶点蛋白)具有活性的化合物。基于筛选出的苗头化合物进行后续的药物开发和优化。相关技术中,在对化合物进行筛选时,需要经过制作化合物样品,然后采用制作出的化合物样品针对目标靶点蛋白进行实验测定,才能确定待测化合物对目标靶点蛋白的活性。由于该方式费时费力,效率低下,本申请实施例提供了一种化合物活性预测方法。
本申请实施例提供的化合物活性预测方法,可以由用于对化合物的活性进行预测的电子设备执行。该电子设备可以是服务器,也可以是计算机或其他具有计算功能的设备。例如,电子设备上安装有化合物分析应用,化合物分析应用中具有对化合物的活性进行预测的功能模块。用户将待测化合物的信息和目标靶点蛋白的信息输入化合物分析应用后,电子设备可以根据待测化合物的信息获取待测化合物的分子结构的特征信息,然后参考已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,依据待测化合物的信息待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性。该方法充分利用已测活性化合物的活性数据,预测待测化合物对目标靶点蛋白的活性,可以快速确定待测化合物对目标靶点蛋白的活性,与通过反复多次实验进行活性检测相比,可以节省大量时间,提高确定化合物活性的效率,有效提升候选药物化合物的筛选效率,降低人工研发药物的时间开销和人力成本。并且,该方法无需消耗待测化合物的样品,可以节省资源消耗。
在一些实施例中,本申请实施例提供的化合物活性预测方法,也可以应用于图1所示的应用场景中。参见图1所示,该应用场景中包括多个终端设备11和服务器12。终端设备11与服务器12之间可以通过有线连接方式或无线连接方式进行连接并传输数据。例如,终端设备11与服务器12可以通过数据线连接或者通过有线网络连接;终端设备11与服务器12也可以通过射频模块、WiFi模块或者无线网络连接。
其中,终端设备11可以是计算机、笔记本、掌上电脑(Personal DigitalAssistant,PDA)、平板电脑等。服务器12可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台,也可以是个人计算机、大中型计算机或计算机集群等。根据实现需要,本申请实施例中的应用场景中可以具有任意数目的终端设备和服务器。本申请对此不做特殊限定。本申请实施例提供的化合物活性预测方法可以由服务器12执行,也可以由终端设备11和服务器12协作执行。
例如,某个药物研究机构设置有一台服务器12,用于对化合物的活性进行预测。在该研究机构内部的各个实验室均设置有终端设备11。研究人员可以通过自己实验室的终端设备11将待测化合物和目标靶点蛋白的信息传输至服务器12,由服务器12预测待测化合物对目标靶点蛋白的活性,并将待测化合物的活性预测结果反馈至终端设备11。
具体地说,终端设备11上安装有化合物分析客户端,化合物分析客户端中具有对化合物的活性进行预测的功能模块。用户10在新药研发过程中,需要针对目标靶点蛋白筛选苗头化合物时,打开终端设备11上的化合物分析客户端,进入对化合物的活性进行预测的功能模块。终端设备11上显示如图2所示的界面,用户10可以在该界面中输入待测化合物的信息和目标靶点蛋白的信息。
在一些实施例中,终端设备11可以将接收到的用户输入的待测化合物的信息和目标靶点蛋白的信息传输至服务器12,服务器12根据待测化合物的信息获取待测化合物的分子结构的特征信息,然后参考已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,依据待测化合物的信息待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性,并将待测化合物的活性预测结果反馈至终端设备11。终端设备11将待测化合物的活性预测结果展示给用户10。
在另一些实施例中,终端设备11通过客户端接收到用户输入的待测化合物的信息和目标靶点蛋白的信息,根据待测化合物的信息获取待测化合物的分子结构的特征信息,将待测化合物的分子结构的特征信息和目标靶点蛋白的信息发送至服务器12。服务器12接收到终端设备11发送的待测化合物的分子结构的特征信息和目标靶点蛋白的信息,根据已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,以及待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性,服务器12将待测化合物的活性预测结果发送至终端设备11,终端设备11将待测化合物的活性预测结果展示给用户10。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
图3示出了本申请实施例提供的一种化合物活性预测方法的流程图,该方法可以由图1中的服务器12执行,也可以由终端设备11或其它电子设备执行。示例性地,下文以用于对化合物的活性进行预测的计算机作为执行主体,说明本申请实施例的化合物活性预测方法的具体实现过程。如图3所示,该化合物活性预测方法包括如下步骤:
步骤S301,获取待测化合物的分子结构的特征信息。
示例性地,计算机上安装有化合物分析应用,化合物分析应用中具有对化合物的活性进行预测的功能模块。用户需要确定某个化合物针对目标靶点蛋白的活性时,打开计算机上的化合物分析客户端,进入对化合物的活性进行预测的功能模块。计算机可以显示如图2所示的界面,用户在该界面中输入待测化合物的信息和目标靶点蛋白的信息。
在一种实施例中,待测化合物的信息可以是化合物名称或编号,目标靶点蛋白的信息可以是化合物名称或编号。计算机可以预先获取多种化合物的分子结构的特征信息,保存在化合物分子信息库中。根据待测化合物的化合物名称或编号,计算机可以从保存的化合物分子信息库中获取待测化合物的分子结构的特征信息。或者,计算机可以预先获取多种化合物的分子结构信息,保存在化合物分子信息库中。根据待测化合物的化合物名称或编号,计算机可以从保存的化合物分子信息库中获取待测化合物的分子结构信息,根据待测化合物的分子结构信息,获取待测化合物的分子结构的特征信息。
在另一种实施例中,待测化合物的信息也可以是保存有待测化合物的分子结构信息的文档名称及获取路径。例如,可以通过计算机预先虚拟合成某种待测化合物,将该待测化合物的分子结构信息保存在某个路径下的某个文档中。在进行活性预测时,根据用户输入的文档名称及获取路径,可以获取保存有待测化合物的分子结构信息的文档,从而获取待测化合物的分子结构信息,根据待测化合物的分子结构信息,获取待测化合物的分子结构的特征信息。
示例性地,待测化合物的分子结构的特征信息可以采用待测化合物的摩根分子指纹表示。摩根分子指纹的生成过程可以包括以下几个步骤:原子初始化、迭代更新、特征生成。待测化合物的分子结构信息中包含原子的排列结构信息,原子初始化指为每个原子分配一个整数标识符,例如,可以通过将固定的哈希函数应用到一个原子与前一层相邻区域的连接特征上,从而生成表示该原子的特征,将哈希函数的输出结果作为该原子的整数标识符。迭代更新是以每个原子为中心,将周围一圈的原子合并进来,直到到达指定半径,组成一个子结构。特征生成是对子结构进行运算,并生成特征列表,根据生成的特征列表,得到待测化合物的摩根分子指纹。
步骤S302,根据已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,以及待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性。
在一种可选的实施例中,获取待测化合物的分子结构的特征信息之后,可以采用目标靶点蛋白对应的活性预测网络模型,根据待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性。具体地,可以将待测化合物的分子结构的特征信息输入已训练的活性预测网络模型,该活性预测网络模型为目标靶点蛋白对应的活性预测网络模型,得到活性预测网络模型输出的待测化合物对目标靶点蛋白的活性。
其中,目标靶点蛋白对应的活性预测网络模型是以已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据作为训练数据进行训练得到的。
活性预测网络模型可以是人工神经网络或深度神经网络模型。可选地,活性预测网络模型的网络结构可以包括输入层、隐藏层和输出层。其中,输入层用于对输入的待测化合物的分子结构的特征信息进行特征提取,得到待测化合物相对于目标靶点蛋白的特征向量,并将得到的特征向量输入至隐藏层。隐藏层用于对输入的特征向量进行降维处理。输出层用于根据降维处理后的特征向量预测待测化合物对目标靶点蛋白的活性。
步骤S303,输出待测化合物的活性预测结果。
计算机将待测化合物对目标靶点蛋白的活性作为待测化合物的活性预测结果进行输出。例如,计算机通过化合物分析应用的显示界面将待测化合物的活性预测结果展示给用户。
本申请实施例的化合物活性预测方法,通过从已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系来确定待测化合物对目标靶点蛋白的活性预测值,无需消耗待测化合物样品,且可充分利用已测活性化合物的活性数据,提升化合物活性预测准确度,有效地提高候选药物化合物的筛选效率,从而降低人工研发药物的时间开销和人力成本。
上述实施例中采用的目标靶点蛋白对应的活性预测网络模型可以由服务器基于训练数据进行训练得到,也可以由终端设备或用于对化合物的活性进行预测的电子设备基于训练数据进行训练得到。
在一些实施例中,目标靶点蛋白对应的活性预测网络模型是以已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据作为训练数据进行训练得到的。目标靶点蛋白对应的活性预测网络模型的训练过程可以如图4所示,包括如下步骤:
步骤S401,获取已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据。
可以预先获取针对目标靶点蛋白的训练数据集,训练数据集可以包括多个已测活性化合物对目标靶点蛋白的活性数据,以及已测活性化合物的分子结构的特征信息。例如,通过实验或其他方式,已知化合物A针对目标靶点蛋白的活性数据,则可以将化合物A的分子结构的特征信息和化合物A对目标靶点蛋白的活性数据作为一组训练数据,收集至目标靶点蛋白的训练数据集中。
示例性地,假设已知N个已测活性化合物对目标靶点蛋白的活性数据其中,xi为第i个已测活性化合物的分子结构的特征信息,例如,xi可以是1024维的摩根分子指纹。yi是为第i个已测活性化合物针对目标靶点蛋白的活性数据,表示该化合物对目标靶点蛋白的抑制作用。可以将上述N个已测活性化合物的分子结构的特征信息及其对目标靶点蛋白的活性数据组成训练数据集。
对活性预测网络模型进行训练时,从训练数据集中抽取训练数据,训练数据中包括已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据。
步骤S402,将已测活性化合物的分子结构的特征信息输入待训练的活性预测网络模型,得到待训练的活性预测网络模型输出的已测活性化合物对目标靶点蛋白的预测活性。
待训练的活性预测网络模型可以是深度神经网络模型,包括输入层、隐藏层和输出层。示例性地,中间的隐藏层的数量可以是两个,每个隐藏层可以包含500个神经元。以第i个已测活性化合物为例,将第i个已测活性化合物的分子结构的特征信息xi输入待训练的活性预测网络模型,得到待训练的活性预测网络模型输出的第i个已测活性化合物对目标靶点蛋白的预测活性fθ(xi)。
假设步骤S401中,从训练数据集中抽取的训练数据的个数为K个,将K个已测活性化合物的分子结构的特征信息x1,x2,x3,…,xK,输入待训练的活性预测网络模型,得到待训练的活性预测网络模型输出的K个已测活性化合物对目标靶点蛋白的预测活性分别为:fθ(x1),fθ(x2),fθ(x3),…,fθ(xK)。
步骤S403,根据已测活性化合物对目标靶点蛋白的预测活性和已测活性化合物对目标靶点蛋白的活性数据,确定损失值。
根据待训练的活性预测网络模型输出的上述K个已测活性化合物对目标靶点蛋白的预测活性fθ(x1),fθ(x2),fθ(x3),…,fθ(xK),以及上述K个已测活性化合物对目标靶点蛋白的活性数据y1,y2,y3,…,yK,可以确定待训练的活性预测网络模型的损失值。
在部分实施例中,待训练的活性预测网络模型的损失值L1(X)可以通过下式计算得到:
其中,fθ()表示目标靶点蛋白对应的活性预测网络模型的传递函数,θ为目标靶点蛋白对应的活性预测网络模型当前的网络参数,xi为第i个已测活性化合物的分子结构的特征信息,yi是为第i个已测活性化合物对目标靶点蛋白的活性数据。
在部分实施例中,确定活性预测网络模型的损失值时,可以采用交叉熵损失函数,具体公式如下:
其中,cross_entropy()表示交叉熵损失函数。
步骤S404,确定是否满足训练结束条件,如果否,执行步骤S405;如果是,执行步骤S406。
在一些实施例中,训练结束条件可以是损失值收敛至预设的目标值。在另外一些实施例中,训练结束条件可以是达到预设的训练次数。
步骤S405,根据确定的损失值调整待训练的活性预测网络模型的网络参数。
如果不满足训练结束条件,则对活性预测网络模型的网络参数进行调整,调整模型参数后,返回执行步骤S401,继续下一轮的训练过程。
步骤S406,结束训练得到已训练的活性预测网络模型。
如果满足训练结束条件,则将当前得到的活性预测网络模型作为目标靶点蛋白对应的活性预测网络模型。
本申请实施例的化合物活性预测方法,在对活性预测网络模型进行训练的过程中,根据已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据对待训练的活性预测网络模型进行训练,从而使模型具有良好的活性预测能力,可以使训练得到的目标靶点蛋白对应的活性预测网络模型能够输出所需要的待测化合物的活性预测结果。并且,由于目标靶点蛋白对应的活性预测网络模型是根据已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据进行训练得到的,因此可以描述已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系。
如果对于目标靶点蛋白,已知活性数据的化合物的数量较多,可以采用图4所示的训练方法训练得到目标靶点蛋白对应的活性预测网络模型。例如,对于目标靶点蛋白,如果已知活性数据的化合物的数量大于7000,则可以采用图4所示的训练方法训练得到目标靶点蛋白对应的活性预测网络模型。
考虑到在实际应用中,很多靶点蛋白的已知活性数据的化合物的数量有限,采用有限的训练数据对模型进行训练,会制约得到的活性预测网络模型的准确性。因此,在另一些实施例中,在训练目标靶点蛋白对应的活性预测网络模型时,除了获取已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据之外,还可以获取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对非目标靶点蛋白的活性数据。采用目标靶点蛋白对应的化合物的活性数据和非目标靶点蛋白对应的化合物的活性数据,共同训练得到目标靶点蛋白对应的活性预测网络模型。
具体地说,在对化合物的活性进行预测时,所有靶点蛋白对应的活性预测网络模型均可以采用相同结构的深度神经网络,不同靶点蛋白对应的活性预测网络模型仅是网络参数不同。如图5所示,假设已知n个历史靶点蛋白(分别为Assay 1、Assay 2、……Assay n)对应的化合物的活性数据,每个历史靶点蛋白对应的化合物的活性数据组成一个数据集,数据集中包括历史已测活性化合物的分子结构的特征信息(C1、C2、C3……)和历史已测活性化合物对该历史靶点蛋白的活性数据(pIC1、pIC2、pIC3……)。可以先根据已知的n个历史靶点蛋白对应的数据集训练得到基础活性预测网络模型。该基础活性预测网络模型为所有靶点蛋白可以共享的网络模型,即基础活性预测网络模型的网络参数θ0可以是所有靶点蛋白共享的初始网络参数。要得到任意一个目标靶点蛋白对应的活性预测网络模型,仅需要采用该目标靶点蛋白对应的化合物的活性数据对基础活性预测网络模型进行优化,经过有限步数的梯度优化,对基础活性预测网络模型的网络参数θ0进行调整,即可得到该目标靶点蛋白对应的活性预测网络模型。在图5中,目标靶点蛋白对应的数据集中包括已测活性化合物的分子结构的特征信息(C1、C2、C3、……Cm)和已测活性化合物对该历史靶点蛋白的活性数据(pIC1、pIC2、pIC3、……pICm),经优化后,该目标靶点蛋白(Assay t)对应的活性预测网络模型的网络参数为θt。
由于基础活性预测网络模型是根据多种历史靶点蛋白对应的化合物的活性数据进行训练得到的,因此在基础活性预测网络模型的基础上,仅需要少量的目标靶点蛋白对应的化合物的活性数据,经过有限次的训练,就可以得到目标靶点蛋白对应的活性预测网络模型。
更进一步地说,目标靶点蛋白对应的活性预测网络模型的训练过程可以如图6所示,包括如下步骤:
步骤S601,基于历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对非目标靶点蛋白的活性数据,训练得到基础活性预测网络模型。
首先确定具备可以用于化合物活性预测的网络结构的深度神经网络作为待训练的基础活性预测网络模型,然后利用已知的各个历史靶点蛋白对应的化合物的活性数据对确定的深度神经网络进行训练,得到基础活性预测网络模型,基础活性预测网络模型可以通过元学习训练方法进行训练,其训练过程将在下文中详细介绍。
步骤S602,获取已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据。
该步骤可以参照图4所示的步骤S401执行,在此不再赘述。
步骤S603,采用已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据,对基础活性预测网络模型进行一次训练,并确定损失值。
该步骤可以参照图4所示的步骤S402和步骤S403执行,在此不再赘述。
步骤S604,确定是否达到预设的训练次数,如果否,执行步骤S605;如果是,执行步骤S606。
由于基础活性预测网络模型已经是根据多种历史靶点蛋白对应的化合物的活性数据进行训练得到的,因此经过有限次的训练,就可以得到目标靶点蛋白对应的活性预测网络模型。例如,训练次数可以设定为5次、6次或7次。
步骤S605,根据确定的损失值调整基础活性预测网络模型的网络参数。
如果尚未达到预设的训练次数,则对活性预测网络模型的网络参数进行调整,调整模型参数后,返回执行步骤S602,继续下一轮的训练过程。
步骤S606,结束训练得到已训练的活性预测网络模型。
如果达到预设的训练次数,则将当前网络参数的基础活性预测网络模型作为目标靶点蛋白对应的活性预测网络模型。
上述实施例中,每一轮训练过程也称为一步梯度优化,每一步梯度优化的过程可以表示为:
其中,α为梯度优化的学习速率,xs为已测活性化合物的分子结构的特征信息,ys为已测活性化合物对目标靶点蛋白的活性数据,表示损失函数,表示梯度运算;θ0表示优化前的网络模型的网络参数,即所有靶点蛋白共享的基础活性预测网络模型的网络参数;θk表示优化后的网络模型的网络参数,或者说优化的目标,即训练得到的目标靶点蛋白对应的活性预测网络模型的网络参数。
在一些实施例中,上述步骤S601中,基础活性预测网络模型的训练过程可以包括如下步骤:
步骤一,获取多个非目标靶点蛋白对应的数据集。
每个非目标靶点蛋白对应的数据集包括历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据。
步骤二,从每个非目标靶点蛋白对应的数据集中分别抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据。
步骤三,将抽取的历史已测活性化合物的分子结构的特征信息输入待训练的基础活性预测网络模型和任务判别器,得到历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的预测活性。
在一些实施例中,在对基础活性预测网络模型进行训练时,可以根据非目标靶点蛋白的数量来构造训练任务。按照对应的非目标靶点蛋白不同,训练任务划分为多个任务Tj,每个任务Tj对应一个非目标靶点蛋白。
基础活性预测网络模型和任务判别器都可以采用深度神经网络。基础活性预测网络模型被配置为基于抽取的历史已测活性化合物的分子结构的特征信息来预测历史已测活性化合物对其所属的数据集对应的非目标靶点蛋白的预测活性;任务判别器被配置为判断历史已测活性化合物对应的预测活性来自哪个任务Tj。任务判别器根据历史已测活性化合物的预测活性对应于靶点蛋白的特征信息,可以确定历史已测活性化合物对应的非目标靶点蛋白,因此,任务判别器可以用于确定输入的历史已测活性化合物所属的数据集对应的非目标靶点蛋白。
可选地,构造训练任务时,可以使每个任务Tj的数据集满足N-way K-shot设置。N-way K-shot用于小样本学习(Few-shot Learning)的实验设置,N-way指训练数据有N个类别,在本申请实施例中为N个非目标靶点蛋白,K-shot指每个类别下分别有K个样本数据,即每个非目标靶点蛋白对应的数据集中有K个样本数据。上述设置方式可以使模型在少量样本情况下进行快速高效地学习。
步骤四,根据历史已测活性化合物的预测活性和历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的活性数据,对待训练的基础活性预测网络模型和任务判别器的网络参数进行至少一次调整,得到已训练的基础活性预测网络模型。
根据任务判别器的输出,可以确定历史已测活性化合物对所属的数据集对应的非目标靶点蛋白,进而可以获得历史已测活性化合物对应的非目标靶点蛋白的活性数据,将待训练的基础活性预测网络模型输出的历史已测活性化合物的预测活性与历史已测活性化合物对应的非目标靶点蛋白的活性数据进行比对,可以确定损失值,根据确定的损失值对待训练的基础活性预测网络模型和任务判别器的网络参数进行调整,直至损失值收敛至设定目标值,结束训练,将当前网络参数的基础活性预测网络模型作为已训练的基础活性预测网络模型。
上述每一轮训练过程也称为一步梯度优化,在训练基础活性预测网络模型时,每一步梯度优化的过程可以表示为:
其中,β为梯度优化的学习速率,K为每轮训练的样本数据的数量,xm为数据集中历史已测活性化合物的分子结构的特征信息,ym为数据集中历史已测活性化合物对目标靶点蛋白的活性数据,θi表示xm对应的训练任务,表示xm对于的预测活性,表示损失函数,表示梯度运算;θ0表示优化的目标,即所有靶点蛋白共享的基础活性预测网络模型的网络参数。
在训练模型的过程中,可以将每个非目标靶点蛋白对应的数据集划分为测试数据集和训练数据集,即将每个非目标靶点蛋白对应的化合物的活性数据分为两部分,一部分作为训练数据集,一部分作为测试数据集。在每次训练得到已训练的模型后,采用测试数据集中的数据对模型进行测试,以确定模型的性能是否达到要求,如果未达到要求,再次采用训练数据集中的数据对模型进行训练。
考虑到采用测试数据集对模型进行多次测试后,模型会记住测试数据集中的所有数据,再次采用测试数据集对模型进行测试时,虽然模型的性能并没有达到要求,但是模型对测试数据集中的数据输出的结果却很好,这种现象称为过拟合现象。为了缓解过拟合现象的发生,在一些实施例中,当每个非目标靶点蛋白对应的数据集包括测试数据集和训练数据集时,即时,对于每个非目标靶点蛋白对应的数据集,可以从测试数据集和训练数据集中随机交替抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据作为样本数据,采用样本数据对待训练的基础活性预测网络模型和任务判别器进行训练。
例如,假设在某一轮训练中,从某个非目标靶点蛋白对应的训练数据集中抽取的样本数据为(xs,ys),则该轮训练对应的梯度优化过程可以表示为:
在下一轮训练中,从某个非目标靶点蛋白对应的测试数据集中抽取的样本数据为(xt,yt),通过模型在测试数据(xt,yt)上的性能作为反馈,来优化基础活性预测网络模型的参数则该轮训练对应的梯度优化过程可以表示为:
该方法可以缓解过拟合问题,使得到的基础活性预测网络模型在各个靶点蛋白上具有更好地泛化性。
通过上述训练过程得到的基础活性预测网络模型的网络参数θ0可用于继续训练得到目标靶点蛋白对应的活性预测网络模型。当用于预测待测化合物对目标靶点蛋白的活性时,已训练的基础活性预测网络模型θ0作为待训练的活性预测网络模型,经过有限步的梯度优化得到目标靶点蛋白对应的活性预测网络模型,直接预测待测化合物对目标靶点蛋白的活性。
考虑到靶点蛋白的结构特征相差较远时,化合物的分子结构与化合物对靶点蛋白的活性数据之间的关联关系可能也会相差较远,即靶点蛋白的结构特征相差较远时,靶点蛋白对应的活性预测网络模型的网络参数之间可能也会相差较远。为了使在基础活性预测网络模型的基础上,可以更快地训练得到目标靶点蛋白对应的活性预测网络模型,并进一步提高活性预测网络模型对化合物活性预测的准确性,在一种可选的实施例中,对基础活性预测网络模型进行训练之前,可以先根据靶点蛋白的结构特征,对靶点蛋白进行聚类处理,得到多个聚类。其中,每个聚类中包含多个靶点蛋白。获取与目标靶点蛋白属于同一聚类的每个非目标靶点蛋白对应的数据集。每个非目标靶点蛋白对应的数据集中包括历史已测活性化合物对非目标靶点蛋白的活性数据和历史已测活性化合物的分子结构的特征信息。
采用与目标靶点蛋白属于同一聚类的每个非目标靶点蛋白对应的数据集进行元学习,得到的基础活性预测网络模型的网络参数θ0与目标靶点蛋白对应的活性预测网络模型的网络参数更接近,在此基础上进行训练,可以更快地得到更好的活性预测网络模型。
上述方法进一步考虑细粒度化的θ0,对靶点蛋白做聚类处理,使得第一个聚类的靶点蛋白共享一组参数(θ01),第二个聚类的靶点蛋白共享另外一组参数(θ02),以此类推。该方法考虑到有些靶点蛋白之间更相似,而另外一些靶点蛋白可能完全不同,因此可以进一步提升活性预测的精度。
与图3所示的化合物活性预测方法基于同一发明构思,本申请实施例中还提供了一种化合物活性预测装置,该化合物活性预测装置可以布设在服务器中,也可以布设在终端设备或其他电子设备中。由于该装置是本申请化合物活性预测方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图7示出了本申请实施例提供的一种化合物活性预测装置的结构示意图,如图7所示,该化合物活性预测装置包括信息获取模块701、活性预测模块702和结果输出模块703。其中,
信息获取模块701,用于获取待测化合物的分子结构的特征信息;
活性预测模块702,用于根据已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据之间的关联关系,以及待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性;
结果输出模块703,用于输出待测化合物的活性预测结果。
在一种可选的实施例中,活性预测模块702,具体用于:
采用目标靶点蛋白对应的活性预测网络模型,根据待测化合物的分子结构的特征信息,预测待测化合物对目标靶点蛋白的活性;目标靶点蛋白对应的活性预测网络模型是以已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据作为训练数据进行训练得到的;
其中,活性预测网络模型包括输入层、隐藏层和输出层;输入层用于对输入的待测化合物的分子结构的特征信息进行特征提取,得到待测化合物相对于目标靶点蛋白的特征向量,并将得到的特征向量输入至隐藏层;隐藏层用于对输入的特征向量进行降维处理,输出层用于根据降维处理后的特征向量预测待测化合物对目标靶点蛋白的活性。
在一种可选的实施例中,如图8所示,该装置还包括模型训练模块801,用于:
获取已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据;
将已测活性化合物的分子结构的特征信息输入待训练的活性预测网络模型,得到待训练的活性预测网络模型输出的已测活性化合物对目标靶点蛋白的预测活性;
根据已测活性化合物对目标靶点蛋白的预测活性和已测活性化合物对目标靶点蛋白的活性数据,确定损失值;
根据确定的损失值调整待训练的活性预测网络模型的网络参数,直至满足训练结束条件为止,将调整网络参数后的活性预测网络模型作为目标靶点蛋白对应的活性预测网络模型。
在一种可选的实施例中,待训练的活性预测网络模型为基于历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对非目标靶点蛋白的活性数据进行训练得到的基础活性预测网络模型;训练结束条件为达到预设训练次数。
在一种可选的实施例中,模型训练模块801,还用于:
从每个非目标靶点蛋白对应的数据集中分别抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据;
将抽取的历史已测活性化合物的分子结构的特征信息输入待训练的基础活性预测网络模型和任务判别器,得到历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的预测活性;任务判别器用于确定历史已测活性化合物所属的数据集对应的非目标靶点蛋白;
根据历史已测活性化合物对目标靶点蛋白的预测活性和历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的活性数据,对待训练的基础活性预测网络模型和任务判别器的网络参数进行至少一次调整,得到已训练的基础活性预测网络模型。
在一种可选的实施例中,每个非目标靶点蛋白对应的数据集包括测试数据集和训练数据集;该模型训练模块801,还用于:
对于每个非目标靶点蛋白对应的数据集,从测试数据集和训练数据集中随机交替抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据。
在一种可选的实施例中,该模型训练模块801,还用于:
根据靶点蛋白的结构特征,对靶点蛋白进行聚类处理,得到多个聚类;每个聚类中包含多个靶点蛋白;
获取与目标靶点蛋白属于同一聚类的每个非目标靶点蛋白对应的数据集;每个非目标靶点蛋白对应的数据集中包括历史已测活性化合物对非目标靶点蛋白的活性数据和历史已测活性化合物的分子结构的特征信息。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于预测化合物活性。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器12,也可以是其他电子设备,如图1所示的终端设备11。在该实施例中,电子设备的结构可以如图9所示,包括存储器901,通讯模块903以及一个或多个处理器902。
存储器901,用于存储处理器902执行的计算机程序。存储器901可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器901可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器901也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器901是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器901可以是上述存储器的组合。
处理器902,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器902,用于调用存储器901中存储的计算机程序时实现上述化合物活性预测方法。
通讯模块903用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器901、通讯模块903和处理器902之间的具体连接介质。本公开实施例在图9中以存储器901和处理器902之间通过总线904连接,总线904在图9中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线904可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器901中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的化合物活性预测方法。处理器902用于执行上述的化合物活性预测方法。
本申请的实施例还提供了一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请任一实施例所记载的化合物活性预测方法。
在一些可能的实施方式中,本申请提供的化合物活性预测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的化合物活性预测方法的步骤,例如,所述计算机设备可以执行如图3所示的步骤S301~S303的化合物活性预测方法的流程。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (9)
1.一种化合物活性预测方法,其特征在于,包括:
获取待测化合物的分子结构的特征信息;
采用目标靶点蛋白对应的活性预测网络模型,根据所述待测化合物的分子结构的特征信息,预测所述待测化合物对所述目标靶点蛋白的活性;所述目标靶点蛋白对应的活性预测网络模型是以已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据作为训练数据对待训练的活性预测网络模型进行训练得到的;所述待训练的活性预测网络模型为基于历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对非目标靶点蛋白的活性数据进行训练得到的基础活性预测网络模型;所述训练结束条件为达到预设训练次数;
输出所述待测化合物的活性预测结果。
2.根据权利要求1所述的方法,其特征在于,所述活性预测网络模型包括输入层、隐藏层和输出层;所述输入层用于对输入的所述待测化合物的分子结构的特征信息进行特征提取,得到所述待测化合物相对于所述目标靶点蛋白的特征向量,并将得到的特征向量输入至所述隐藏层;所述隐藏层用于对输入的特征向量进行降维处理,所述输出层用于根据降维处理后的特征向量预测所述待测化合物对所述目标靶点蛋白的活性。
3.根据权利要求1或2所述的方法,其特征在于,所述目标靶点蛋白对应的活性预测网络模型的训练过程包括:
获取已测活性化合物的分子结构的特征信息和已测活性化合物对目标靶点蛋白的活性数据;
将已测活性化合物的分子结构的特征信息输入待训练的活性预测网络模型,得到所述待训练的活性预测网络模型输出的已测活性化合物对目标靶点蛋白的预测活性;
根据已测活性化合物对目标靶点蛋白的预测活性和已测活性化合物对目标靶点蛋白的活性数据,确定损失值;
根据确定的损失值调整待训练的活性预测网络模型的网络参数,直至满足训练结束条件为止,将调整网络参数后的活性预测网络模型作为所述目标靶点蛋白对应的活性预测网络模型。
4.根据权利要求1所述的方法,其特征在于,所述基础活性预测网络模型的训练过程包括:
从每个非目标靶点蛋白对应的数据集中分别抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据;
将抽取的历史已测活性化合物的分子结构的特征信息输入待训练的基础活性预测网络模型和任务判别器,得到所述历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的预测活性;所述任务判别器用于确定历史已测活性化合物所属的数据集对应的非目标靶点蛋白;
根据历史已测活性化合物的预测活性和历史已测活性化合物对所属的数据集对应的非目标靶点蛋白的活性数据,对待训练的基础活性预测网络模型和任务判别器的网络参数进行至少一次调整,得到已训练的基础活性预测网络模型。
5.根据权利要求4所述的方法,其特征在于,每个所述非目标靶点蛋白对应的数据集包括测试数据集和训练数据集;所述从每个非目标靶点蛋白对应的数据集中分别抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据,包括:
对于每个非目标靶点蛋白对应的数据集,从所述测试数据集和所述训练数据集中随机交替抽取历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对该非目标靶点蛋白的活性数据。
6.根据权利要求4所述的方法,其特征在于,对所述基础活性预测网络模型进行训练之前,所述方法还包括:
根据靶点蛋白的结构特征,对靶点蛋白进行聚类处理,得到多个聚类;每个聚类中包含多个靶点蛋白;
获取与所述目标靶点蛋白属于同一聚类的每个非目标靶点蛋白对应的数据集;每个所述非目标靶点蛋白对应的数据集中包括历史已测活性化合物对所述非目标靶点蛋白的活性数据和历史已测活性化合物的分子结构的特征信息。
7.一种化合物活性预测装置,其特征在于,包括:
信息获取模块,用于获取待测化合物的分子结构的特征信息;
活性预测模块,用于采用目标靶点蛋白对应的活性预测网络模型,根据所述待测化合物的分子结构的特征信息,预测所述待测化合物对所述目标靶点蛋白的活性;所述目标靶点蛋白对应的活性预测网络模型是以已测活性化合物的分子结构的特征信息与已测活性化合物对目标靶点蛋白的活性数据作为训练数据对待训练的活性预测网络模型进行训练得到的;所述待训练的活性预测网络模型为基于历史已测活性化合物的分子结构的特征信息和历史已测活性化合物对非目标靶点蛋白的活性数据进行训练得到的基础活性预测网络模型;所述训练结束条件为达到预设训练次数;
结果输出模块,用于输出所述待测化合物的活性预测结果。
8.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~6中任一项所述的方法。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910952.2A CN112086145B (zh) | 2020-09-02 | 2020-09-02 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910952.2A CN112086145B (zh) | 2020-09-02 | 2020-09-02 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112086145A CN112086145A (zh) | 2020-12-15 |
CN112086145B true CN112086145B (zh) | 2024-04-16 |
Family
ID=73731985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010910952.2A Active CN112086145B (zh) | 2020-09-02 | 2020-09-02 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112086145B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008081435A (ja) * | 2006-09-27 | 2008-04-10 | Nec Corp | 化合物の仮想スクリーニング方法および装置 |
CN101968484A (zh) * | 2010-09-29 | 2011-02-09 | 彭恩泽 | 一种利用斑马鱼筛选线粒体靶向化合物的方法 |
CN102298674A (zh) * | 2010-06-25 | 2011-12-28 | 清华大学 | 基于蛋白质网络的药物靶标确定和/或药物功能确定方法 |
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
CN103150490A (zh) * | 2013-02-20 | 2013-06-12 | 浙江大学 | 用于发现中药活性成分及其作用靶点的网络药理学方法 |
CN105740626A (zh) * | 2016-02-01 | 2016-07-06 | 华中农业大学 | 一种基于机器学习的药物活性预测方法 |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
CN109979541A (zh) * | 2019-03-20 | 2019-07-05 | 四川大学 | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 |
CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
CN110767271A (zh) * | 2019-10-15 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
WO2020124050A1 (en) * | 2018-12-13 | 2020-06-18 | The Broad Institute, Inc. | Tiled assays using crispr-cas based detection |
CN111445945A (zh) * | 2020-03-20 | 2020-07-24 | 北京晶派科技有限公司 | 一种小分子活性预测方法、装置和计算设备 |
CN111540419A (zh) * | 2020-04-28 | 2020-08-14 | 上海交通大学 | 基于深度学习的抗老年痴呆药物有效性预测系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050026198A1 (en) * | 2003-06-27 | 2005-02-03 | Tamara Balac Sipes | Method of selecting an active oligonucleotide predictive model |
JP2010165230A (ja) * | 2009-01-16 | 2010-07-29 | Pharma Design Inc | 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム |
US20120090043A1 (en) * | 2009-06-30 | 2012-04-12 | Universite De Liege | Targets for retrovirus associated diseases |
CA2826894A1 (en) * | 2011-02-14 | 2012-08-23 | Carnegie Mellon University | Learning to predict effects of compounds on targets |
DK3435084T3 (da) * | 2012-08-16 | 2023-05-30 | Mayo Found Medical Education & Res | Prostatakræftprognose under anvendelse af biomarkører |
US20180172667A1 (en) * | 2015-06-17 | 2018-06-21 | Uti Limited Partnership | Systems and methods for predicting cardiotoxicity of molecular parameters of a compound based on machine learning algorithms |
EP3612545A4 (en) * | 2017-04-18 | 2021-01-13 | X-Chem, Inc. | METHOD OF IDENTIFICATION OF CONNECTIONS |
US20190050537A1 (en) * | 2017-08-08 | 2019-02-14 | International Business Machines Corporation | Prediction and generation of hypotheses on relevant drug targets and mechanisms for adverse drug reactions |
US10600005B2 (en) * | 2018-06-01 | 2020-03-24 | Sas Institute Inc. | System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model |
-
2020
- 2020-09-02 CN CN202010910952.2A patent/CN112086145B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008081435A (ja) * | 2006-09-27 | 2008-04-10 | Nec Corp | 化合物の仮想スクリーニング方法および装置 |
CN102298674A (zh) * | 2010-06-25 | 2011-12-28 | 清华大学 | 基于蛋白质网络的药物靶标确定和/或药物功能确定方法 |
CN101968484A (zh) * | 2010-09-29 | 2011-02-09 | 彭恩泽 | 一种利用斑马鱼筛选线粒体靶向化合物的方法 |
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
CN103150490A (zh) * | 2013-02-20 | 2013-06-12 | 浙江大学 | 用于发现中药活性成分及其作用靶点的网络药理学方法 |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
CN105740626A (zh) * | 2016-02-01 | 2016-07-06 | 华中农业大学 | 一种基于机器学习的药物活性预测方法 |
WO2020124050A1 (en) * | 2018-12-13 | 2020-06-18 | The Broad Institute, Inc. | Tiled assays using crispr-cas based detection |
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
CN109979541A (zh) * | 2019-03-20 | 2019-07-05 | 四川大学 | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 |
CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
CN110767271A (zh) * | 2019-10-15 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN111445945A (zh) * | 2020-03-20 | 2020-07-24 | 北京晶派科技有限公司 | 一种小分子活性预测方法、装置和计算设备 |
CN111540419A (zh) * | 2020-04-28 | 2020-08-14 | 上海交通大学 | 基于深度学习的抗老年痴呆药物有效性预测系统 |
Non-Patent Citations (2)
Title |
---|
Sivani Tadepalli ; Nasrin Akhter ; Daniel Barbará ; Amarda Shehu.《Anomaly Detection-Based Recognition of Near-Native Protein Structures》.《 IEEE Transactions on NanoBioscience》.2020,562-570. * |
活性天然产物靶标蛋白的鉴定;周怡青;肖友利;;化学学报(03);22-34 * |
Also Published As
Publication number | Publication date |
---|---|
CN112086145A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720822B2 (en) | Gradient-based auto-tuning for machine learning and deep learning models | |
EP3807804A1 (en) | Variationally and adiabatically navigated quantum eigensolvers | |
US20210350225A1 (en) | Determining multivariate time series data dependencies | |
US11681913B2 (en) | Method and system with neural network model updating | |
CN113302605A (zh) | 鲁棒且数据效率的黑盒优化 | |
Yong et al. | Supervised maximum-likelihood weighting of composite protein networks for complex prediction | |
Cheriguene et al. | A new hybrid classifier selection model based on mRMR method and diversity measures | |
Welchowski et al. | A framework for parameter estimation and model selection in kernel deep stacking networks | |
Manoochehri et al. | Predicting drug-target interaction using deep matrix factorization | |
Gupta et al. | Relevance feedback based online learning model for resource bottleneck prediction in cloud servers | |
CN116109449A (zh) | 一种数据处理方法及相关设备 | |
Gao et al. | Active sampler: Light-weight accelerator for complex data analytics at scale | |
Sharma et al. | Recent advancement and challenges in deep learning, big data in bioinformatics | |
Urquiza et al. | Method for prediction of protein–protein interactions in yeast using genomics/proteomics information and feature selection | |
Mandt et al. | Sparse probit linear mixed model | |
Dabbu et al. | Water atom search algorithm-based deep recurrent neural network for the big data classification based on spark architecture | |
US11620550B2 (en) | Automated data table discovery for automated machine learning | |
Hu et al. | Learning from deep representations of multiple networks for predicting drug–target interactions | |
Liu et al. | DNA protein binding recognition based on lifelong learning | |
CN112086145B (zh) | 一种化合物活性预测方法、装置、电子设备和存储介质 | |
Fan et al. | Neighborhood constraint matrix completion for drug-target interaction prediction | |
Varshavardhini et al. | An Efficient Feature Subset Selection with Fuzzy Wavelet Neural Network for Data Mining in Big Data Environment. | |
Alweshah et al. | Hybrid Aquila optimizer for efficient classification with probabilistic neural networks | |
Golzari et al. | VR-BFDT: A variance reduction based binary fuzzy decision tree induction method for protein function prediction | |
Kong et al. | Identifying Multiple Influential Nodes for Complex Networks Based on Multi-agent Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40034925 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |