CN111063398B - 一种基于图贝叶斯优化的分子发现方法 - Google Patents

一种基于图贝叶斯优化的分子发现方法 Download PDF

Info

Publication number
CN111063398B
CN111063398B CN201911327186.0A CN201911327186A CN111063398B CN 111063398 B CN111063398 B CN 111063398B CN 201911327186 A CN201911327186 A CN 201911327186A CN 111063398 B CN111063398 B CN 111063398B
Authority
CN
China
Prior art keywords
molecule
molecular
property
graph
molecules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911327186.0A
Other languages
English (en)
Other versions
CN111063398A (zh
Inventor
杨博
崔佳旭
张春旭
孙冰怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201911327186.0A priority Critical patent/CN111063398B/zh
Publication of CN111063398A publication Critical patent/CN111063398A/zh
Application granted granted Critical
Publication of CN111063398B publication Critical patent/CN111063398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种基于图贝叶斯优化的分子发现方法。所述方法包括:获取候选分子集合;从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子‑性质对集合;根据所述分子‑性质对集合对代理模型进行训练,得到训练后的代理模型;根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,从所述候选集合中选择希望分子进行性质评估,得到希望分子性质;根据所述希望分子性质找到具有期望性质的分子。本发明基于图贝叶斯优化的分子发现方法通过对候选集中的分子进行预测,再根据预测结果选择分子进行评估得到分子的实际性质,有根据的选择分子进行评估,减少分子的评估次数,从而减小分析评估的代价。

Description

一种基于图贝叶斯优化的分子发现方法
技术领域
本发明涉及分子发现领域,特别是涉及一种基于图贝叶斯优化的分子发现方法。
背景技术
分子发现一直是计算化学、材料设计等领域中的重要问题。其主要目的是从大量的分子空间中发现具有某一期望性质的分子。在进行分子发现过程中,具有如下特点:(1)分子空间通常十分巨大。例如:潜在的类药物分子个数约1023-1060。(2)分子空间是离散的。(3)评价一个分子的某项性质(如:类药物性质、有效性等)通常需要花费高昂代价。例如:应用密度泛函理论(Density functional theory)估计分子性质,高精度的估计是在基于高昂的计算量得到的,或者通过临床试验来评价一个分子的有效性,这可能导致一些致命的危害。
目前分子发现方法主要有进化算法、模拟退火、进化策略、混合方法等。然而这些方法需要大量的评估来维护种群多样性,是直接在评估代价高昂的空间搜索的,从而导致分子发现的代价较高。另一种最新的分子发现技术是首先把所有分子编码到向量空间中,然后在向量空间进行优化(如使用贝叶斯优化),最后通过把得到的向量解码回分子。然而这一做法即使在向量空间搜索时考虑代价,其在训练编码-解码工具(如变分自编码器)时,为保证编码-解码的准确性,仍然需要花费大量额外的预训练时间,最终还是无法降低分子发现的代价。
发明内容
本发明的目的是提供一种基于图贝叶斯优化的分子发现方法,降低分子发现的代价。
为实现上述目的,本发明提供了如下方案:
一种基于图贝叶斯优化的分子发现方法,所述方法包括:
获取候选分子集合;所述候选分子集合包括若干个分子;
从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子-性质对集合;
根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型;所述代理模型用于对分子的性质进行预测;
根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质;
根据所述候选分子集合中的各分子的预测性质从所述候选集合中选择希望分子进行性质评估,得到希望分子性质;
根据所述希望分子性质找到具有期望性质的分子。
可选的,所述候选分子集合采用随机图生成方法、进化方法、深度图生成模型方法或人工给定方法生成。
可选的,对随机选取的若干个分子进行性质评估的过程为并行评估。
可选的,所述根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型具体包括:
根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重;
根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数;
根据所述训练后的神经网络权重和所述训练后的贝叶斯线性回归中的超参数得到训练后的代理模型。
可选的,所述根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重具体包括:
将所述分子-性质对集合中的分子均以属性图表示,得到所述分子-性质对集合中各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;
分别对各分子图均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局表示进行映射得到第一特征;
根据所述第一特征,采用单层线性回归方法得到分子图对应分子的性质;
根据所述分子的性质通过最小化误差训练所述神经网络权重,得到所述训练后的神经网络权重。
可选的,所述根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数具体包括:
根据所述分子-性质对集合对,采用最大化边际似然方法估计贝叶斯线性回归中的超参数。
可选的,所述根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质具体包括:
将所述候选集合中的分子均以属性图表示,得到所述候选集合中的各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;
分别对各分子图均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局表示进行映射得到第二特征;
根据所述第二特征,采用贝叶斯线性回归方法对分子图对应的分子的性质进行预测。
可选的,根据各分子的预测性质从所述候选集合中选择希望分子为并行选择;
对所述希望分子进行性质评估的过程为并行评估。
可选的,所述根据所述希望分子性质找到具有期望性质的分子具体包括:
根据所述希望分子性质判断是否找到期望的分子,得到判断结果;
若所述判断结果为否,则将所述希望分子和所述希望分子性质添加到所述分子-性质对集合,更新所述分子-性质对集合,重新对代理模型进行训练;
若所述判断结果为是,则将所述希望分子性质对应的分子作为结果输出。
可选的,根据所述训练后的代理模型指导生成候选集。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于图贝叶斯优化的分子发现方法通过对候选集中的分子进行预测,再根据预测结果选择分子进行评估得到分子的实际性质。即有根据的选择分子进行评估,减少分子的评估次数,从而减小分析评估的代价。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于图贝叶斯优化的分子发现方法流程图;
图2为本发明实施例提供的代理模型架构图;
图3为本发明实施例提供的图神经网络执行过程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于图贝叶斯优化的分子发现方法,降低分子发现的代价。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例提供的基于图贝叶斯优化的分子发现方法流程图,如图1所示,所述方法包括:
S101:获取候选分子集合;所述候选分子集合包括若干个分子。
所述候选分子集合采用随机图生成方法、进化方法、深度图生成模型方法或人工给定方法生成。
S102:从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子-性质对集合。对随机选取的若干个分子进行性质评估的过程为并行评估。
S103:根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型;所述代理模型用于对分子的性质进行预测。本实施例中还可根据所述训练后的代理模型指导生成候选集。
根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型具体包括:根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重。
根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数。本实施例中,根据所述分子-性质对集合对,采用最大化边际似然方法估计贝叶斯线性回归中的超参数。
根据所述训练后的神经网络权重和所述训练后的贝叶斯线性回归中的超参数得到训练后的代理模型。
所述根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重具体包括:
将所述分子-性质对集合中的分子均以属性图表示,得到所述分子-性质对集合中各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;
分别对各分子图均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局表示进行映射得到第一特征;
根据所述第一特征,采用单层线性回归方法得到分子图对应分子的性质;
根据所述分子的性质通过最小化误差训练所述神经网络权重,得到所述训练后的神经网络权重。
S104:根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质。
将所述候选集合中的分子均以属性图表示,得到所述候选集合中的各分子的分子图;所述分子图包括若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布;
分别对各分子图均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局表示进行映射得到第二特征;
根据所述第二特征,采用贝叶斯线性回归方法对分子图对应的分子的性质进行预测。
S105:根据所述候选分子集合中的各分子的预测性质从所述候选集合中选择希望分子进行性质评估,得到希望分子性质。根据各分子的预测性质从所述候选集合中选择希望分子为并行选择;对所述希望分子进行性质评估的过程为并行评估。
S106:根据所述希望分子性质找到具有期望性质的分子。
根据所述希望分子性质判断是否找到期望的分子,得到判断结果;
若所述判断结果为否,则将所述希望分子和所述希望分子性质添加到所述分子-性质对集合,更新所述分子-性质对集合,重新对代理模型进行训练;
若所述判断结果为是,则将所述希望分子性质对应的分子作为结果输出。
本实施例给出一种具体的模块化方式对本发明的基于图贝叶斯优化的分子发现方法进行说明。主要包括8个模块:评估模块、生成模块、初始化模块、训练模块、预测模块、选择模块、收集模块、以及增广模块。方法执行包括以下步骤:
步骤1.首先利用初始化模块进行分子的初始化评估。可以使用已经人工评估的、具有良好表现的化学分子图集合,或者生成若干随机分子进行初始化。初始化具体过程如下:随机选取候选集合中的某个分子,把带评估分子放入评估系统(评估系统会在评估模块中详细介绍)中,然后在该系统中做真实的化学实验或者利用计算机辅助模拟,从而得到分子的性质。
这个过程可以同时评估多个分子已减少评估整体分子集合的时间,即并行化评估。在得到初始化的分子-性质对的集合后,把该集合作为训练集。
步骤2.在得到训练集合后,利用分子图和对应的分子性质训练代理模型,即:由训练模块实现。在这里,把分子自然地建模成属性图表示,图中的节点表示分子中的原子,边表示化学键,同时节点属性为原子One-Hot编码以及原子质量等性质,边属性为化学键类型,全局属性为分子的原子数、原子类型分布、化学键类型分布等。待训练的代理模型架构如图2所示。该代理架构的输入是分子图(或称为属性图),输出是对应的期望性质。其能够直接作用在离散的分子图空间中。该架构主要由编码层、图神经网络、全局池化层、全链接层、以及贝叶斯线性回归层构成。下面分别细化每一层的设计。
编码层:在实际应用中,分子图中的节点、边或全局属性的原始特征通常是稀疏的,如分子中原子类型、化学键类型的One-Hot编码等。该层的目的是把这些原始稀疏特征映射到一个密集的特征空间表示。具体的编码方式如下:
其中,Fe表示输入的原始边上的特征,即化学键类型的One-Hot编码,Fv表示输入的原始节点特征,即原子类型的One-Hot编码及原子质量,FG表示输入的原始全局特征,即原子数、原子类型分布、化学键类型分布。MLPedge、MLPnode、MLPglobal分别表示多层全链接网络,用于映射到密集特征空间,并且这些网络之间不共享参数。分别表示密集编码后的边、节点以及全局表示。隐含表示是由原始特征经过神经网络非线性变换而成。
图神经网络:该层的目的是自动地从分子图结构和其上下文属性中提取分子图的隐含表示。具体地,本实施例使用图神经网络来提取分子图图的特征。目前,大部分的图神经网络都是基于信息传播(message passing)的。通常需要实现如下传播函数:
从邻居节点向边传播信息:
从邻居边向节点传播信息:
向全局特征传播信息:
其中,Fe表示上一轮更新得到的边上的隐含表示,Fn表示上一轮更新得到的节点上的隐含表示,FG表示上一轮更新得到的全局隐含表示,这些隐含表示通常是上一层的输出,且最开始一层的输入的隐含表示为编码层的输出。E表示所有化学键,V表示分子图中的所有原子。cat(·)表示串联若干个表示。N(n)表示与原子n直接相连的化学键的集合。fedge、fnode、fglobal分别表示把所有需要传播的相关信息进行处理,更新原来的隐含表示。agg(·)表示把相关信息的聚合函数。通常的聚合函数可以为平均聚合(mean)、最大化聚合(max)、求和聚合(sum)等。该图神经网络的执行过程可以具体分为三个步骤:更新边、更新节点、以及更新全局属性,如图3所示。该网络可以传播多轮,并且每一轮的网络参数可以不共享从而增加模型学习能力,从而得到合理的融合了分子图结构及其上下文特征的表示。
全局池化层:该层的功能是把上一层学得的分子图的局部表示进行合理的融合,从而得到分子全局的表示向量。下面详述如何融合所有原子的表示、所有化学键的表示、以及全局表示的技术。
1)融合所有化学键特征的技术:
其中,Nonlinear(·)表示非线性函数,例如:ReLU、TanH、softmax等。WE表示需要学习的权重参数,Fe是上一层图神经网络的一部分输出,即所有化学键的隐含表示。
2)融合所有节点(原子)特征的技术:
其中,WV表示需要学习的权重参数,Fv是上一层图神经网络的一部分输出,即所有原子的隐含表示。
3)融合所有节点特征的技术:
其中,WG表示需要学习的权重参数,FG是上一层图神经网络的一部分输出,即全局特征的隐含表示。
在分别地融合原子、化学键、以及全局的特征之后,我们串联这三个向量作为最终的分子图的全局表示,即:
全链接层:该层的功能是把映射一个特征空间,使得得到的特征为φ,从而进行最终的预测。
对于深度代理模型的训练过程,具体分为两部分:训练神经网络权重以及训练贝叶斯线性回归层中的超参数。
训练神经网络权重:为了训练神经网络中的权重,把最后一层的贝叶斯线性回归替换成单层的线性回归来输出最终的性质。然后通过最小化如下误差来训练网络中的权重:
其中,表示分子的预测性质,yi表示训练集中分子的真实性质,W表示网络中的所有参数,γ表示惩罚系数。
训练贝叶斯线性回归层中的超参数:通过上一步骤我们可以得到网络中训练好的权重,从而输入一个分子就可以得到这个分子的最终表示并经过全链接网络得到一个向量φ。从回归的角度看,这个向量φ可以看作是一个分子图经过M个基函数得到的,其中M是φ的维度。因此,我们可以把这个预测的过程看作自适应基回归。其中,所谓自适应基是由于这些M个基函数是由神经网络隐含表示的。在得到训练集合中所有(N个)分子图的φ(可以看作经过M个基函数映射得到的)之后,我们可以将其组合成决策矩阵/>从而基于这个决策矩阵和训练集合真实输出进行分子的性质预测。在预测时,我们需要估计贝叶斯线性回归中的超参数:σw与σnoise。可以利用最大化边际似然的方式来估计这些参数。或者考虑其不确定性,为其分配合理的先验,并最大化其后验分布,或通过蒙特卡洛采样技术进行估计。
步骤3.在基于训练集合完成代理模型的训练后,利用训练好的代理模型进行一步预测,从而指导生成模块生成候选分子集合,即生成模块主要功能是为预测模块提供候选集合。生成模块的实现可以通过随机图生成方法、进化方法、以及深度图生成模型等方法生成分子候选集合,也可以通过人工的方式给定候选集合(即人工固定搜索空间)。同时,生成模块可以通过训练模块进行指导。指导方法可分为数据指导和模型指导。数据指导指利用训练模块中的训练集修正生成模块。例如:从固定的分子搜索空间去除训练集中表现差的解。模型指导指根据训练好的代理模型的预测功能,修正生成模型,使其屏蔽生成劣质解的能力,从而确保尽量生成优质解集合,进而加快优化进程,减少评估。注意到,该步骤的最终输出是候选分子的集合。
步骤4.在得到候选分子的集合后,利用训练好的代理模型进行带不确定性的分子性质预测。这个功能是由预测模块完成的。具体如下:由于图神经网络模块能够自动地从数据中有效地提取合理地特征,因此这里我们使用贝叶斯线性回归进行性质的预测。预测均值为:
其中,φ*表示需要预测的分子G*经过神经网络的到的最终向量表示,y表示训练集中N个分子的评估完成的真实性质。
预测方差为:
注意到,这里预测分子的性质是具有不确定性的,这是由于在神经网络的最后一层引入了贝叶斯线性回归,为最后一层的参数加入了不确定性从而达到的效果。当然,我们也可以为网络上所有权重都引入不确定性构成贝叶斯神经网络,但这样会在估计这些不确定性的权重时消耗大量的计算资源。因此为了平衡预测的不确定性(鲁棒性)与可计算性,仅在最后一层引入不确定性。
步骤5.在预测候选集合中所有的分子的性质之后,需要考虑从候选集合中如何选择最有“希望”的分子,从而避免选择“坏”分子进行评估,减少评估次数。选择“希望”分子的功能是由选择模块完成的,其利用预测模块得到的性质的预测从搜索空间中选择有“希望”的候选分子。为了能够在评估模块中并行评估多个分子,该模块需要同时生成多个有“希望”的候选分子。应用如下公式进行选择:
其中,ymax表示已评估分子的最大值,P表示正在运行的分子的集合,我们根据已有数据对正在评估的分子进行预测,得到的预测分布为p(y|P)。该方法有效地利用了上述模块对性质预测的期望和方差,并且考虑了未完成评估的分子。例如:已评估N个分子,正在评估M个分子,相当于若要选择第(N+M+1)个分子进行评估,此时需要同时考虑已评估N个分子,正在评估M个分子,并利用性质预测的不确定性指导选择。
步骤6.从上一步骤中选择出一个“希望”的分子之后,我们需要利用评估模块进行分子的性质评估。评估过程中包含一个“黑箱”评估系统,用于评估分子的性质。评估过程具体为:把一个分子输入到“黑箱”评估系统中,然后系统会经过不可见的计算返回对应的分子的性质。这里所谓“黑箱”是指我们不知道评估系统的具体表达式,只能通过调用的形式输入分子,返回对应性质。具体的评估过程描述如下:输入一个分子图,评估系统接受该分子图,然后做真实的化学实验或者利用计算机辅助模拟,从而得到分子的性质。这个评估过程通常具有高昂的代价,尤其是模拟时所需大量的计算资源。因此,为节约评估时间,这里我们利用同时评估若干个分子,即可以在计算机簇中同时计算评估多个分子,从而减少总评估时间或代价。该步骤输出所有待评估分子的真实性质。
步骤7.在得到需要评估的分子的性质之后,需要进行收集整合,将评估的性质与分子进行对应。具体的操作由收集模块完成:收集当前“黑箱”评估系统中评估完成的分子,而对仍然在评估系统中评估的分子该模块不予处理。收集所有分子性质后,通过增广模块把新评估完成的分子添加到上一轮迭代的训练集中,进而形成新的训练集合。以提供训练模块(步骤2)使用。因此,训练集合是不断增加的,从而使得训练的代理模型预测越来越精确,进而从候选集合选出的分子越来越好。
步骤8.在返回步骤2进行下一轮训练、选择之前,我们需要进行判定是否达到结束条件。通常的结束条件为:已找到期望的分子,即分子性质满足某一要求或达到某一指标。因此,在达到结束条件时,我们从所有已经评估的分子中拿出最优秀的分子作为方法最后的输出。若没有达到结束条件,则继续按照流程执行(返回步骤2)。
本实施例还提供本发明的技术方法与现有技术进行的对照实验。对比的现有技术1原理为:每一次迭代随机地选择分子进行评估,无模型指导优化。
现有技术2与技术3原理均为:首先无监督地训练一个变分自编码器,把分子映射到连续的隐式空间,然后在这个隐空间上利用基于高斯过程的贝叶斯优化算法进行全局优化。
对照实验设计如下:实验目的是从2万5千分子中寻找到药性最高且最易于合成的分子。为每个技术运行多次来寻找最优解,得到的对比实验结果如表1所示。
表1对照实验表
可以看到,本技术能在较少的评估次数(代价)下以近乎100%的准确度找到最优的分子,并且所用算法时间和评估时间最少。
本发明的基于图贝叶斯优化的分子发现方法还具有以下效果:
利用分子能够很自然地建模成图的特点,把分子表示成属性图,即:图中的节点表示分子中的原子,边表示化学键,同时节点属性为原子One-Hot编码以及原子质量等性质,边属性为化学键类型,全局属性为分子的原子数、原子类型分布、化学键类型分布等。然后利用提出的新的深度模型做代理,直接作用在离散的分子图上,并同时全面地考虑其结构与属性两方面信息。同时,我们的方法具有线性复杂度,为高可扩展性和高并行度提供了有效的解决方案。
采用一个代理模型(对应训练模块中的深度代理模型)来替代原始具有高昂评估代价的黑箱系统,在选择下一评估点时,从代理的评估廉价的空间中进行检索,而不是直接在评估高昂的黑箱系统中搜索(对应选择模块),进而能够减少真实评估次数,从而能够在少量评估代价下发现理想分子。
本发明的深度代理模型能够直接在离散的分子空间进行优化,并且在优化过程中能够自动提取特征,充分利用分子的结构信息以及其上下文信息(如:原子特征、化学键特征、分子全局特征等),同时避免了手工提取特征的繁重工作。
在训练模块中的深度代理模型的最后一层,添加了一个贝叶斯线性层,使得预测时针对已评估个数仅呈线性复杂度,能够高度并行。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种基于图贝叶斯优化的分子发现方法,其特征在于,所述方法包括:
获取候选分子集合;所述候选分子集合包括若干个分子;
从所述候选分子集合中随机选取若干个分子进行性质评估,得到分子-性质对集合;
根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型;所述代理模型用于对分子的性质进行预测;
根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质;
根据所述候选分子集合中的各分子的预测性质从所述候选分子集合中选择希望分子进行性质评估,得到希望分子性质;
根据所述希望分子性质找到具有期望性质的分子;
其中,所述代理模型具体包括:编码层、图神经网络、全局池化层、全链接层和贝叶斯线性回归层;
根据所述分子-性质对集合对代理模型进行训练,得到训练后的代理模型具体包括:
根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重;
根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数;
根据所述训练后的神经网络权重和所述训练后的贝叶斯线性回归中的超参数得到训练后的代理模型;
其中,所述候选分子集合中的分子,以及,所述分子-性质对集合中的分子均以属性图表示,所述候选分子集合中的各分子的分子图,以及,所述分子-性质对集合中的各分子的分子图均包括:若干个节点、若干条边和若干个全局属性;所述节点表示分子中的原子,所述节点的属性为原子One-Hot编码和原子质量,所述边表示化学键,所述边的属性为化学键类型,所述全局属性为分子的原子数、原子类型分布或化学键类型分布。
2.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,
所述候选分子集合采用随机图生成方法、进化方法、深度图生成模型方法或人工给定方法生成。
3.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,对随机选取的若干个分子进行性质评估的过程为并行评估。
4.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,所述根据所述分子-性质对集合对神经网络权重进行训练,得到训练后的神经网络权重具体包括:
分别对所述分子-性质对集合中的各分子图,均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局表示进行映射得到第一特征;
根据所述第一特征,采用单层线性回归方法得到分子图对应分子的性质;
根据所述分子的性质通过最小化误差训练所述神经网络权重,得到所述训练后的神经网络权重。
5.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,所述根据所述分子-性质对集合对贝叶斯线性回归中的超参数进行训练,得到训练后的贝叶斯线性回归中的超参数具体包括:
根据所述分子-性质对集合,采用最大化边际似然方法估计贝叶斯线性回归中的超参数。
6.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,所述根据所述训练后的代理模型对所述候选分子集合中的分子分别进行性质预测,得到所述候选分子集合中的各分子的预测性质具体包括:
分别对所述候选分子集合中的各分子图,均执行以下操作:
将每个边属性、每个节点属性和每个全局属性均进行密集编码,得到密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性;
根据密集编码后的节点属性、密集编码后的边属性和密集编码后的全局属性,采用图神经网络提取分子图的特征,得到各化学键特征、各原子特征和各节点特征;
将各化学键特征、各原子特征和各节点特征分别进行融合,得到融合后的化学键特征、融合后的原子特征和融合后的节点特征;
将所述融合后的化学键特征、融合后的原子特征和融合后的节点特征进行串联,得到分子图的全局表示;
将所述全局表示进行映射得到第二特征;
根据所述第二特征,采用贝叶斯线性回归方法对分子图对应的分子的性质进行预测。
7.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,
根据各分子的预测性质从所述候选分子集合中选择希望分子为并行选择;
对所述希望分子进行性质评估的过程为并行评估。
8.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,所述根据所述希望分子性质找到具有期望性质的分子具体包括:
根据所述希望分子性质判断是否找到期望的分子,得到判断结果;
若所述判断结果为否,则将所述希望分子和所述希望分子性质添加到所述分子-性质对集合,更新所述分子-性质对集合,重新对代理模型进行训练;
若所述判断结果为是,则将所述希望分子性质对应的分子作为结果输出。
9.根据权利要求1所述的一种基于图贝叶斯优化的分子发现方法,其特征在于,根据所述训练后的代理模型指导生成候选集。
CN201911327186.0A 2019-12-20 2019-12-20 一种基于图贝叶斯优化的分子发现方法 Active CN111063398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911327186.0A CN111063398B (zh) 2019-12-20 2019-12-20 一种基于图贝叶斯优化的分子发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911327186.0A CN111063398B (zh) 2019-12-20 2019-12-20 一种基于图贝叶斯优化的分子发现方法

Publications (2)

Publication Number Publication Date
CN111063398A CN111063398A (zh) 2020-04-24
CN111063398B true CN111063398B (zh) 2023-08-18

Family

ID=70302515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911327186.0A Active CN111063398B (zh) 2019-12-20 2019-12-20 一种基于图贝叶斯优化的分子发现方法

Country Status (1)

Country Link
CN (1) CN111063398B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695702B (zh) * 2020-06-16 2023-11-03 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111798934B (zh) * 2020-06-23 2023-11-14 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN112669916B (zh) * 2020-12-25 2022-03-15 浙江大学 一种基于对比学习的分子图表示学习方法
CN113409898B (zh) * 2021-06-30 2022-05-27 北京百度网讯科技有限公司 分子结构获取方法、装置、电子设备及存储介质
CN113628697A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种针对分类不平衡数据优化的随机森林模型训练方法
CN116362127B (zh) * 2023-03-31 2024-04-19 西南大学 一种cad模型运动部件及运动属性联合解析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232434A (zh) * 2019-04-28 2019-09-13 吉林大学 一种基于属性图优化的神经网络架构评估方法
CN110276377A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN110443364A (zh) * 2019-06-21 2019-11-12 深圳大学 一种深度神经网络多任务超参数优化方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553357B2 (en) * 1999-09-01 2003-04-22 Koninklijke Philips Electronics N.V. Method for improving neural network architectures using evolutionary algorithms
US7184993B2 (en) * 2003-06-10 2007-02-27 Microsoft Corporation Systems and methods for tractable variational approximation for interference in decision-graph Bayesian networks
US8341097B2 (en) * 2009-01-30 2012-12-25 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and circuits for learning of relation-based networks
US11068799B2 (en) * 2014-09-05 2021-07-20 Icahn School Of Medicine At Mount Sinai Systems and methods for causal inference in network structures using belief propagation
US20190138901A1 (en) * 2017-11-06 2019-05-09 The Royal Institution For The Advancement Of Learning/Mcgill University Techniques for designing artificial neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232434A (zh) * 2019-04-28 2019-09-13 吉林大学 一种基于属性图优化的神经网络架构评估方法
CN110276377A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN110443364A (zh) * 2019-06-21 2019-11-12 深圳大学 一种深度神经网络多任务超参数优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江原.基于图卷积与神经协同过滤的融合信息推荐模型.中国优秀硕士学位论文电子期刊.2019,I138-5269. *

Also Published As

Publication number Publication date
CN111063398A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111063398B (zh) 一种基于图贝叶斯优化的分子发现方法
Baymurzina et al. A review of neural architecture search
Li et al. Interval multi-objective optimisation of structures using adaptive Kriging approximations
Beretta et al. Learning the structure of Bayesian Networks: A quantitative assessment of the effect of different algorithmic schemes
Hu et al. Improving one-shot NAS with shrinking-and-expanding supernet
Song et al. Reliability-based design optimization using adaptive surrogate model and importance sampling-based modified SORA method
CN111710376B (zh) 大分子及团簇体系分块计算负载均衡方法及系统
CN109685204A (zh) 模型搜索方法及装置、图像处理方法及装置
Habib et al. A multiple surrogate assisted multi/many-objective multi-fidelity evolutionary algorithm
da Silva et al. A memetic algorithm-based indirect approach to web service composition
Ma et al. Reliability-based design optimization using adaptive Kriging-A single-loop strategy and a double-loop one
Fu et al. MOLER: Incorporate molecule-level reward to enhance deep generative model for molecule optimization
Hull Machine learning for economics and finance in tensorflow 2
Wu et al. Generative design for resilience of interdependent network systems
Shi et al. Network reliability analysis through survival signature and machine learning techniques
Zhou et al. Deep learning-based intelligent multilevel predictive maintenance framework considering comprehensive cost
Shahrzad et al. Estimating the advantage of age-layering in evolutionary algorithms
Dubrova et al. Finding attractors in synchronous multiple-valued networks using SAT-based bounded model checking
CN110858311B (zh) 基于深度非负矩阵分解的链路预测方法及系统
Kovalchuk et al. 20 years of computational science: Selected papers from 2020 International Conference on Computational Science
Keshvari‐Khor et al. Identification of continuous‐time switched linear systems from low‐rate sampled data
CN113869033A (zh) 融入迭代式句对关系预测的图神经网络句子排序方法
Chen et al. A Latent Variable Approach for Non-Hierarchical Multi-Fidelity Adaptive Sampling
Anireh et al. HTM-MAT: An online prediction software toolbox based on cortical machine learning algorithm
Zhu et al. A brief survey of quantum architecture search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant