CN113255769B - 化合物属性预测模型训练方法和化合物属性预测方法 - Google Patents
化合物属性预测模型训练方法和化合物属性预测方法 Download PDFInfo
- Publication number
- CN113255769B CN113255769B CN202110577756.2A CN202110577756A CN113255769B CN 113255769 B CN113255769 B CN 113255769B CN 202110577756 A CN202110577756 A CN 202110577756A CN 113255769 B CN113255769 B CN 113255769B
- Authority
- CN
- China
- Prior art keywords
- compound
- prediction model
- attribute
- sample
- spatial structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 title claims abstract description 71
- 239000000126 substance Chemical group 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 12
- 238000005381 potential energy Methods 0.000 claims description 11
- 238000000329 molecular dynamics simulation Methods 0.000 claims description 9
- 230000001988 toxicity Effects 0.000 claims description 8
- 231100000419 toxicity Toxicity 0.000 claims description 8
- 239000002356 single layer Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 5
- 102000004169 proteins and genes Human genes 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 238000004590 computer program Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000010410 layer Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003596 drug target Substances 0.000 description 2
- 230000008406 drug-drug interaction Effects 0.000 description 2
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 1
- 206010070863 Toxicity to various agents Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 239000000890 drug combination Substances 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种化合物属性预测模型训练、化合物属性预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及深度学习、神经网络等人工智能领域。该方法的一具体实施方式包括:获取构成样本化合物的原子、化学键所形成的空间结构信息;获取样本化合物的属性信息;将空间结构信息作为输入样本、对应的属性信息作为输出样本,训练得到化合物属性预测模型;其中,化合物属性预测模型用于表征化合物的空间结构与属性之间的对应关系。应用该实施方式提供的化合物属性预测模型能够更准确的预测化合物的属性信息。
Description
技术领域
本公开涉及人工智能领域,具体涉及深度学习、神经网络技术领域,尤其涉及一种化合物属性预测模型训练和化合物属性预测方法,以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
近些年来,由AI(Artificial Intelligence,人工智能)驱动的药物设计与传统的生物实验相比获得了更多的关注,因此用深度学习方法来促进药物分子的精确预测变得越来越重要,例如药物毒性预测、药物配体和蛋白质受体的亲和力预测等。
因此,如何能够准确的预测化合物分子的相关属性,是本领域技术人员亟待解决的问题。
发明内容
本公开实施例提出了一种化合物属性预测模型训练、化合物属性预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本公开实施例提出了一种化合物属性预测模型训练方法,包括:获取构成样本化合物的原子、化学键所形成的空间结构信息;获取样本化合物的属性信息;将空间结构信息作为输入样本、对应的属性信息作为输出样本,训练得到化合物属性预测模型,化合物属性预测模型用于表征化合物的空间结构与属性之间的对应关系。
第二方面,本公开实施例提出了一种化合物属性预测模型训练装置,包括:空间结构信息获取单元,被配置成获取构成样本化合物的原子、化学键所形成的空间结构信息;属性信息获取单元,被配置成获取样本化合物的属性信息;化合物属性预测模型训练单元,被配置成将空间结构信息作为输入样本、对应的属性信息作为输出样本,训练得到化合物属性预测模型;其中,化合物属性预测模型用于表征化合物的空间结构与属性之间的对应关系。
第三方面,本公开实施例提出了一种化合物属性预测方法,包括:获取待测化合物的空间结构信息;调用预设的化合物属性预测模型预测与空间结构信息对应的属性信息;其中,化合物属性预测模型根据如第一方面中任一实现方式描述的化合物属性预测模型训练方法得到。
第四方面,本公开实施例提出了一种化合物属性预测装置,包括:待测化合物信息获取单元,被配置成获取待测化合物的空间结构信息;预测模型处理单元,被配置成调用预设的化合物属性预测模型预测与空间结构信息对应的属性信息;其中,化合物属性预测模型根据如第二方面中任一实现方式描述的化合物属性预测模型训练装置得到。
第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的化合物属性预测模型训练方法或如第三方面中任一实现方式描述的化合物属性预测方法。
第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的化合物属性预测模型训练方法或如第三方面中任一实现方式描述的化合物属性预测方法。
第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的化合物属性预测模型训练方法或如第三方面中任一实现方式描述的化合物属性预测方法。
本公开实施例提供的化合物属性预测模型训练、化合物属性预测方法,通过提取构成化合物的原子、化学键所形成的空间结构信息,并将其作为输入样本、对应的属性信息作为输出样本来训练模型,使得训练出的化合物属性预测模型可以根据化合物分子的空间结构来预测相应的属性信息,充分利用了化合物分子的属性受到其空间结构的影响的特性,得以提升对陌生化合物属性预测的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构;
图2为本公开实施例提供的一种化合物属性预测模型训练方法的流程图;
图3为本公开实施例提供的一种获取样本化合物的空间结构信息的方法的流程图;
图4为本公开实施例提供的一种训练得到化合物属性预测模型的方法的流程图;
图5为与图4所示训练方法相对应的图神经网络形成示意图;
图6为本公开实施例提供的一种化合物属性预测模型训练装置的结构框图;
图7为本公开实施例提供的一种化合物属性预测装置的结构框图;
图8为本公开实施例提供的一种适用于执行化合物属性预测模型训练方法和/或化合物属性预测方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要的保密措施,且不违背公序良俗。
图1示出了可以应用本申请的用于训练化合物属性预测模型以及化合物属性预测的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如分子动力学模拟类应用、模型训练类应用、模型调用类应用等。
终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以可以为用户提供化合物属性预测服务的模型调用类应用为例,服务器105在运行该模型调用类应用时可实现如下效果:首先,通过网络104接收终端设备101、102、103直接传入的获取待测化合物的空间结构信息,亦或在仅接收到终端设备101、102、103传入的待测化合物时,调用内置的分子动力学模拟类应用得到该待测化合物的空间结构信息;然后,调用预设的化合物属性预测模型预测与该空间结构信息对应的属性信息,该化合物属性预测模型用于表征化合物的空间结构与属性之间的对应关系。
其中,化合物属性预测模型可由服务器105上内置的模型训练类应用按如下步骤训练得到:首先,获取构成样本化合物的原子、化学键所形成的空间结构信息;然后,获取样本化合物的属性信息;将空间结构信息作为输入样本、对应的属性信息作为输出样本,训练得到化合物属性预测模型,化合物属性预测模型用于表征化合物的空间结构与属性之间的对应关系。
由于为训练得到化合物属性预测模型需要占用较多的运算资源和较强的运算能力,因此本申请后续各实施例所提供的化合物属性预测模型训练方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,化合物属性预测模型训练装置一般也设置于服务器105中。但同时也需要指出的是,在终端设备101、102、103也具有满足要求的运算能力和运算资源时,终端设备101、102、103也可以通过其上安装的化合物属性预测模型训练类应用完成上述本交由服务器105做的各项运算,进而输出与服务器105同样的结果。相应的,化合物属性预测模型训练装置也可以设置于终端设备101、102、103中。在此种情况下,示例性系统架构100也可以不包括服务器105和网络104。
当然,用于训练得到化合物属性预测模型的服务器可以不同于调用训练好的化合物属性预测模型来使用的服务器。特殊的,经由服务器105训练得到的化合物属性预测模型也可以通过模型蒸馏的方式得到适合置入终端设备101、102、103的轻量级的化合物属性预测模型,即可以根据实际需求的识别准确度灵活选择使用终端设备101、102、103中的轻量级的化合物属性预测模型,还是选择使用服务器105中的较复杂的化合物属性预测模型。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本公开实施例提供的一种化合物属性预测模型训练方法的流程图,其中流程200包括以下步骤:
步骤201:获取构成样本化合物的原子、化学键所形成的空间结构信息;
本步骤旨在由化合物属性预测模型训练方法的执行主体(例如图1所示的服务器105)获取样本化合物的空间结构信息。
区别于仅由一种原子构成的单质,化合物至少由两种不同的原子构成,且各原子之间形成各种化学键,因此空间结构信息只要由原子、化学键所形成,例如化学键的键角、键长、各原子的三维坐标、化合物分子的整体势能、原子距离等等。具体的,上述提及的几种空间结构信息可通过分子动力学模拟应用或相关的实验测定。
需要说明的是,由于空间结构是基于作为基础的平面结构进一步增加维度形成的,因此本公开所描述的空间结构信息实际上也包含作为基础的平面结构信息。
之所以要获取空间结构信息,是因为从微观角度来看,化合物分子的属性预测以及药物和靶标的相互作用等下游任务,从本质上是分子间(蛋白质可以看成大分子)相互作用的结果,这个过程与分子的空间结构和能量具有密切的关系。因此获取到空间结构信息是识别该相互作用的基础。
步骤202:获取样本化合物的属性信息;
在步骤201的基础上,本步骤旨在获取样本化合物的属性信息。具体的,属性信息可以包括水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性中的至少一项。
当然,除上述列举出的几种具体化合物属性外,还可能存在其它因化合物的不同空间结构所展示出的不同属性,此处不再一一列举。
步骤203:将空间结构信息作为输入样本、对应的属性信息作为输出样本,训练得到化合物属性预测模型。
在步骤202的基础上,本步骤旨在由上述执行主体从由空间结构信息作为输入样本、对应的属性信息作为输出样本的样本对中,训练出学习到其中包含的对应关系的化合物属性预测模型。
其中,化合物的属性信息可由多种方式获得,以毒性为例,可通过理论分析、细胞测试、活体测试等多种方式验证得到是否存在毒性以及毒性强弱。
具体的,在确定所采用的训练样本对的基础上,可用于训练得到表征化合物的空间结构与属性之间的对应关系的化合物属性预测模型的模型种类存在多种,例如常见的卷积神经网络、残差网络、图神经网络等,不同种类的模型根据其特性在不同的方面存在差异,具体选用哪一种模型可根据实际场景下所有的需求灵活选择。
本公开实施例提供的化合物属性预测模型训练方法,通过提取构成化合物的原子、化学键所形成的空间结构信息,并将其作为输入样本、对应的属性信息作为输出样本来训练模型,使得训练出的化合物属性预测模型可以根据化合物分子的空间结构来预测相应的属性信息,充分利用了化合物分子的属性受到其空间结构的影响的特性,得以提升对陌生化合物属性预测的准确性。
请参考图3,图3为本公开实施例提供的一种获取样本化合物的空间结构信息的方法的流程图;即针对图2所示的流程200中的步骤201提供了一种具体的实现方式,流程200中的其它步骤并不做调整,也将本实施例所提供的具体实现方式以替换步骤201的方式得到一个新的完整实施例。其中流程300包括以下步骤:
步骤301:获取构成样本化合物的各原子、各原子构成的化学键;
步骤302:通过分子动力学模拟或实验测算的方式,确定各原子的三维坐标、不同化学键之间的键角、各原子的原子距离、各原子和各化学键共同呈现的整体势能;
在步骤301的基础上,本步骤旨在由上述执行主体通过分子动力学模拟或实验测算的方式来获取到从不同角度描述化合物空间结构的不同空间结构信息。
其中,分子动力学模拟属于一种仿真工具,可根据预设的数据库信息在虚拟空间对分子的具体结构进行模拟,并根据预设的结构稳定性判别条件来确定可能的空间结构。
步骤303:将三维坐标、键角、原子距离以及整体势能中的至少一项,作为样本化合物的空间结构信息。
在步骤302的基础上,本步骤旨在由上述执行主体将三维坐标、键角、原子距离以及整体势能中的至少一项,作为样本化合物的空间结构信息。
基于当前的化合物属性来看,化学键之间的键角是导致构成化合物的各分子形成空间结构的重要因素,因此在对准确性要求不高的场景下,可仅将各化学键之间的键角作为唯一的空间结构信息来使用;针对准确性要求较高的场景,也可以将各化学键之间的键角作为核心的空间结构信息,将三维坐标、原子距离、整体势能等作为辅助补全用的空间结构信息,以通过综合核心和辅助补全用的空间结构信息,来尽可能的提升判别准确性。
请参考图4,图4为本公开实施例提供的一种训练得到化合物属性预测模型的方法的流程图,即针对图2所示的流程200中的步骤203提供了一种具体的实现方式,流程200中的其它步骤并不做调整,也将本实施例所提供的具体实现方式以替换步骤203的方式得到一个新的完整实施例。其中流程400包括以下步骤:
步骤401:将原子作为节点、化学键作为边,构建第一图神经网络;
通过将原子作为节点、将连接两个作为节点的原子的化学键作为边,得以构建以节点和边为核心的第一图神经网络,但如图5左侧示出的atom-bond graph(原子-化学键图神经网络),该第一图神经网络只在平面上描述了化合物的拓扑结构。
步骤402:将化学键作为节点、键角作为边,构建第二图神经网络;
通过将化学键作为节点、将两个化学键所夹相同的原子所构成的空间夹角作为边,得以构建以节点和边为核心的第二图神经网络,如图5右侧示出的bond-angle graph(化学键-键角图神经网络),该第二图神经网络在空间层面描述了键角信息。
步骤403:根据第一图神经网络和第二图神经网络构建初始预测模型;
在步骤401和步骤402的基础上,本步骤旨在由描述有键角这一空间结构信息的第二图神经网络将描述有平面结构信息的第一图神经网络作为基础,形成全面的初始预测模型。
如图5所示,其中atom-bond网络关注于原子和化学键之间的性质,该图神经网络可以建模出分子图的平面拓扑结构,而bond-angle网络关注于化学键之间的键角,该图神经网络可以建模出分子图的三维空间结构。
步骤404:控制初始预测模型从由键角作为输入样本、对应的属性信息作为输出样本的样本对中学习对应关系,训练得到化合物属性预测模型。
在步骤403的基础上,本步骤旨在由上述执行主体控制初始预测模型以迭代的方式不断的从样本对中学习输入样本与输出样本之间的对应关系,以最终得到可用的化合物属性预测模型。
其中,为了尽可能的提升预先效果和提升训练效率,可根据不同种类的空间结构信息之间的难以程度制定从易到难的渐进式学习计划。
本实施例以选择键角作为空间结构信息为例,通过构建分别关注平面结构和空间结构的两个图神经网络,然后通过结合两个关注点但存在衔接点的图神经网络来构建到尽可能全面的化合物属性预测模型,方案更加落地、提升了方案的可行性。
在上述任意实施例的基础上,还可以通过叠加训练出的单层的化合物属性预测模型的方式,来得到高阶属性预测模型。从而满足对与更复杂空间结构与属性之间关联的预测。
具体的,一层的化合物属性预测模型可以建模一阶邻居的特征和空间结构,二层的化合物属性预测模型可以建模二阶邻居的特征和空间结构,以此类推当叠加至n层的化合物属性预测模型时,就可以建模n阶邻居的特征和空间结构。因此通过设置合适的n,便可以建模出高阶的甚至完整的3d空间结构,直接将丰富而复杂的空间结构信息融入到网络之中。通过这种方式可以把化合物分子的各方面特征和空间结构都考虑进来,学习到更加全面的信息,进而提高模型在各种预测任务上的性能。例如判断分子毒性,通过DTI(Drug-Target Interaction,药物-靶标相互作用)准确识别靶向药物,通过DDI(Drug-DrugInteractio,药物联合应用互动)提前预测药物联用等。
上述各实施例从各个方面阐述了如何训练得到化合物属性预测模型,为了尽可能的从实际使用场景突出训练出的化合物属性预测模型所起到的效果,本公开还具体提供了一种使用训练好的化合物属性预测模型来解决实际问题的方案,一种化合物属性预测方法包括如下步骤:
获取待测化合物的空间结构信息;
调用预设的化合物属性预测模型预测与空间结构信息对应的属性信息。
本实施例的执行主体可以区别于上述用于训练得到化合物属性预测模型的执行主体,也可以为相同的执行主体,可根据实际需求灵活选择,此处不做具体限定。
进一步参考图6和图7,作为对上述各图所示方法的实现,本公开分别提供了一种化合物属性预测模型训练装置实施例和一种化合物属性预测装置的实施例,化合物属性预测模型训练装置实施例与图2所示的化合物属性预测模型训练方法实施例相对应,化合物属性预测装置实施例与化合物属性预测方法实施例相对应。上述装置具体可以应用于各种电子设备中。
如图6所示,本实施例的化合物属性预测模型训练装置600可以包括:空间结构信息获取单元601、属性信息获取单元602、化合物属性预测模型训练单元603。其中,空间结构信息获取单元601,被配置成获取构成样本化合物的原子、化学键所形成的空间结构信息;属性信息获取单元602,被配置成获取样本化合物的属性信息;化合物属性预测模型训练单元603,被配置成将空间结构信息作为输入样本、对应的属性信息作为输出样本,训练得到化合物属性预测模型;其中,化合物属性预测模型用于表征化合物的空间结构与属性之间的对应关系。
在本实施例中,化合物属性预测模型训练装置600中:空间结构信息获取单元601、属性信息获取单元602、化合物属性预测模型训练单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,空间结构信息获取单元601可以被进一步配置成:
获取构成样本化合物的各原子、各原子构成的化学键;
通过分子动力学模拟或实验测算的方式,确定各原子的三维坐标、不同化学键之间的键角、各原子的原子距离、各原子和各化学键共同呈现的整体势能;
将三维坐标、键角、原子距离以及整体势能中的至少一项,作为样本化合物的空间结构信息。
在本实施例的一些可选的实现方式中,属性信息获取单元602可以被进一步配置成:
获取经实验确定出的样本化合物的水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性中的至少一项。
在本实施例的一些可选的实现方式中,响应于空间结构信息包括键角,化合物属性预测模型训练单元603可以被进一步配置成:
将原子作为节点、化学键作为边,构建第一图神经网络;
将化学键作为节点、键角作为边,构建第二图神经网络;
根据第一图神经网络和第二图神经网络构建初始预测模型;
控制初始预测模型从由键角作为输入样本、对应的属性信息作为输出样本的样本对中学习对应关系,训练得到化合物属性预测模型。
在本实施例的一些可选的实现方式中,化合物属性预测模型训练装置600中还可以包括:
单层模型叠加单元,被配置成叠加训练出的单层的化合物属性预测模型,得到高阶属性预测模型
如图7所示,本实施例的化合物属性预测装置700可以包括:待测化合物信息获取单元701、预测模型处理单元702。其中,待测化合物信息获取单元701,被配置成获取待测化合物的空间结构信息;预测模型处理单元702,被配置成调用预设的化合物属性预测模型预测与空间结构信息对应的属性信息;其中,化合物属性预测模型根据化合物属性预测模型训练装置600得到。
在本实施例中,化合物属性预测装置700中:待测化合物信息获取单元701、预测模型处理单元702的具体处理及其所带来的技术效果可分别对应方法实施例中的相关说明,在此不再赘述。
本实施例作为对应于上述方法实施例的装置实施例存在,本实施例提供的化合物属性预测模型训练装置以及化合物属性预测装置,通过提取构成化合物的原子、化学键所形成的空间结构信息,并将其作为输入样本、对应的属性信息作为输出样本来训练模型,使得训练出的化合物属性预测模型可以根据化合物分子的空间结构来预测相应的属性信息,充分利用了化合物分子的属性受到其空间结构的影响的特性,得以提升对陌生化合物属性预测的准确性。
根据本公开的实施例,本公开还提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现上述任一实施例描述的化合物属性预测模型训练方法和/或化合物属性预测方法。
根据本公开的实施例,本公开还提供了一种可读存储介质,该可读存储介质存储有计算机指令,该计算机指令用于使计算机执行时能够实现上述任一实施例描述的化合物属性预测模型训练方法和/或化合物属性预测方法。
本公开实施例提供了一种计算机程序产品,该计算机程序在被处理器执行时能够实现上述任一实施例描述的化合物属性预测模型训练方法和/或化合物属性预测方法。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如化合物属性预测模型训练方法和/或化合物属性预测方法。例如,在一些实施例中,化合物属性预测模型训练方法和/或化合物属性预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的化合物属性预测模型训练方法和/或化合物属性预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行化合物属性预测模型训练方法和/或化合物属性预测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。
本公开实施例的技术方案,通过提取构成化合物的原子、化学键所形成的空间结构信息,并将其作为输入样本、对应的属性信息作为输出样本来训练模型,使得训练出的化合物属性预测模型可以根据化合物分子的空间结构来预测相应的属性信息,充分利用了化合物分子的属性受到其空间结构的影响的特性,得以提升对陌生化合物属性预测的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (10)
1.一种化合物属性预测模型训练方法,包括:
获取构成样本化合物的各原子、各所述原子构成的化学键;通过分子动力学模拟或实验测算的方式,确定各所述原子的三维坐标、不同所述化学键之间的键角、各所述原子的原子距离、各所述原子和各所述化学键共同呈现的整体势能;将所述三维坐标、所述键角、所述原子距离以及所述整体势能中的至少一项,作为所述样本化合物的空间结构信息;
获取所述样本化合物的属性信息;
将所述原子作为节点、所述化学键作为边,构建第一图神经网络;将所述化学键作为节点、所述键角作为边,构建第二图神经网络;根据所述第一图神经网络和所述第二图神经网络构建初始预测模型;控制所述初始预测模型从由所述键角作为输入样本、对应的属性信息作为输出样本的样本对中学习对应关系,训练得到化合物属性预测模型。
2.根据权利要求1所述的方法,其中,所述获取所述样本化合物的属性信息,包括:
获取经实验确定出的样本化合物的水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性中的至少一项。
3.根据权利要求1-2任一项所述的方法,还包括:
叠加训练出的单层的化合物属性预测模型,得到高阶属性预测模型。
4.一种化合物属性预测方法,包括:
获取待测化合物的空间结构信息;
调用预设的化合物属性预测模型预测与所述空间结构信息对应的属性信息;其中,所述化合物属性预测模型根据权利要求1-3中任一项所述的化合物属性预测模型训练方法得到。
5.一种化合物属性预测模型训练装置,包括:
空间结构信息获取单元,被配置成获取构成样本化合物的各原子、各所述原子构成的化学键;通过分子动力学模拟或实验测算的方式,确定各所述原子的三维坐标、不同所述化学键之间的键角、各所述原子的原子距离、各所述原子和各所述化学键共同呈现的整体势能;将所述三维坐标、所述键角、所述原子距离以及所述整体势能中的至少一项,作为所述样本化合物的空间结构信息;
属性信息获取单元,被配置成获取所述样本化合物的属性信息;
化合物属性预测模型训练单元,被配置成将所述原子作为节点、所述化学键作为边,构建第一图神经网络;将所述化学键作为节点、所述键角作为边,构建第二图神经网络;根据所述第一图神经网络和所述第二图神经网络构建初始预测模型;控制所述初始预测模型从由所述键角作为输入样本、对应的属性信息作为输出样本的样本对中学习对应关系,训练得到化合物属性预测模型。
6.根据权利要求5所述的装置,其中,所述属性信息获取单元被进一步配置成:
获取经实验确定出的样本化合物的水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性中的至少一项。
7.根据权利要求5-6任一项所述的装置,还包括:
单层模型叠加单元,被配置成叠加训练出的单层的化合物属性预测模型,得到高阶属性预测模型。
8.一种化合物属性预测装置,包括:
待测化合物信息获取单元,被配置成获取待测化合物的空间结构信息;
预测模型处理单元,被配置成调用预设的化合物属性预测模型预测与所述空间结构信息对应的属性信息;其中,所述化合物属性预测模型根据权利要求5-7中任一项所述的化合物属性预测模型训练装置得到。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的化合物属性预测模型训练方法和/或权利要求4所述的化合物属性预测方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的化合物属性预测模型训练方法和/或权利要求4所述的化合物属性预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577756.2A CN113255769B (zh) | 2021-05-26 | 2021-05-26 | 化合物属性预测模型训练方法和化合物属性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577756.2A CN113255769B (zh) | 2021-05-26 | 2021-05-26 | 化合物属性预测模型训练方法和化合物属性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255769A CN113255769A (zh) | 2021-08-13 |
CN113255769B true CN113255769B (zh) | 2024-03-29 |
Family
ID=77184631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110577756.2A Active CN113255769B (zh) | 2021-05-26 | 2021-05-26 | 化合物属性预测模型训练方法和化合物属性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255769B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220480B (zh) * | 2022-02-17 | 2022-05-10 | 武汉宏韧生物医药股份有限公司 | 一种药物成分分析方法及系统 |
CN114822721A (zh) * | 2022-05-20 | 2022-07-29 | 北京百度网讯科技有限公司 | 分子图生成方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10061300B1 (en) * | 2017-09-29 | 2018-08-28 | Xometry, Inc. | Methods and apparatus for machine learning predictions and multi-objective optimization of manufacturing processes |
CN111524557A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的逆合成预测方法、装置、设备及存储介质 |
CN111639961A (zh) * | 2020-04-15 | 2020-09-08 | 北京三快在线科技有限公司 | 信息预测方法、装置、电子设备和计算机可读介质 |
CN112420125A (zh) * | 2020-11-30 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 分子属性预测方法、装置、智能设备和终端 |
CN112579758A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
KR20210040316A (ko) * | 2020-09-30 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램 |
WO2021073391A1 (zh) * | 2019-10-15 | 2021-04-22 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11680063B2 (en) * | 2018-09-06 | 2023-06-20 | Insilico Medicine Ip Limited | Entangled conditional adversarial autoencoder for drug discovery |
-
2021
- 2021-05-26 CN CN202110577756.2A patent/CN113255769B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10061300B1 (en) * | 2017-09-29 | 2018-08-28 | Xometry, Inc. | Methods and apparatus for machine learning predictions and multi-objective optimization of manufacturing processes |
WO2021073391A1 (zh) * | 2019-10-15 | 2021-04-22 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
CN111639961A (zh) * | 2020-04-15 | 2020-09-08 | 北京三快在线科技有限公司 | 信息预测方法、装置、电子设备和计算机可读介质 |
CN111524557A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的逆合成预测方法、装置、设备及存储介质 |
KR20210040316A (ko) * | 2020-09-30 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램 |
CN112420125A (zh) * | 2020-11-30 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 分子属性预测方法、装置、智能设备和终端 |
CN112579758A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
Non-Patent Citations (4)
Title |
---|
Dual message passing neural network for molecular property prediction;Hehuan Ma;《arxiv》;全文 * |
人工神经网络用于化合物的属性识别;高锦红;《西南民族大学学报》;全文 * |
基于深度学习的超短期光伏精细化预测模型研究;史佳琪;张建华;;电力建设(06);全文 * |
深度神经网络在化学中的应用研究;秦琦枫;曾斌;刘思莹;;江西化工(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255769A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255769B (zh) | 化合物属性预测模型训练方法和化合物属性预测方法 | |
CN113343803A (zh) | 模型训练方法、装置、设备和存储介质 | |
CN112000893B (zh) | 常驻区域预测方法、装置、设备及存储介质 | |
CN113657467B (zh) | 模型预训练方法、装置、电子设备和存储介质 | |
CN113705628B (zh) | 预训练模型的确定方法、装置、电子设备以及存储介质 | |
US20220414689A1 (en) | Method and apparatus for training path representation model | |
CN113961765B (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
CN113190746B (zh) | 推荐模型的评估方法、装置及电子设备 | |
CN113255770B (zh) | 化合物属性预测模型训练方法和化合物属性预测方法 | |
CN117574143A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN116796282A (zh) | 分子筛选方法、训练方法、装置、电子设备以及存储介质 | |
CN114973333B (zh) | 人物交互检测方法、装置、设备以及存储介质 | |
CN114429801A (zh) | 数据处理方法、训练方法、识别方法、装置、设备及介质 | |
CN113222414B (zh) | 模型稳定性的评估方法、装置、电子设备和存储介质 | |
CN116186549B (zh) | 模型的训练方法、装置、设备和介质 | |
CN113836291B (zh) | 数据处理方法、装置、设备和存储介质 | |
CN114693995B (zh) | 应用于图像处理的模型训练方法、图像处理方法和设备 | |
CN114970741B (zh) | 数据处理方法、装置及电子设备 | |
CN114549941B (zh) | 一种模型测试方法、装置及电子设备 | |
WO2022021199A1 (zh) | 一种神经网络模型构建方法及其设备 | |
CN116342253A (zh) | 贷款风险评分方法、装置、设备以及存储介质 | |
CN118520092A (zh) | 投诉事件处理方法、装置、电子设备及存储介质 | |
CN116860632A (zh) | 基于知识图谱的软件测试方法、装置、设备以及存储介质 | |
CN117131223A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN118212033A (zh) | 一种数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |