CN115206456B - 基于属性编辑流的分子生成方法 - Google Patents

基于属性编辑流的分子生成方法 Download PDF

Info

Publication number
CN115206456B
CN115206456B CN202210826709.1A CN202210826709A CN115206456B CN 115206456 B CN115206456 B CN 115206456B CN 202210826709 A CN202210826709 A CN 202210826709A CN 115206456 B CN115206456 B CN 115206456B
Authority
CN
China
Prior art keywords
molecule
flow
molecular
attribute
molecules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210826709.1A
Other languages
English (en)
Other versions
CN115206456A (zh
Inventor
刘勇
刘晨阳
杨雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang University
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN202210826709.1A priority Critical patent/CN115206456B/zh
Publication of CN115206456A publication Critical patent/CN115206456A/zh
Application granted granted Critical
Publication of CN115206456B publication Critical patent/CN115206456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

基于属性编辑流的分子生成方法,本发明涉及分子生成方法。本发明的目的是为了解决现有分子生成方法中CRNN模型没能给出与待合成分子结构相似的分子,以及Mol‑CycleGAN模型对属性的优化欠缺灵活性,且属性的选择需要是0或1真假逻辑取值的,即有或无,不能包含第三种取值,更不能是连续的数值,导致无法生成与原分子结构相似且十分接近目标属性的新分子的问题。过程为:一、建立分子对数据集;二、建立属性编辑流分子生成模型AEMF;三、训练属性编辑流分子生成模型AEMF;四、基于训练好的属性编辑流分子生成模型AEMF生成目标分子。本发明用于分子生成领域。

Description

基于属性编辑流的分子生成方法
技术领域
本发明涉及分子生成方法。
背景技术
以往的大多数分子生成相关工作都是以随机方式来生成分子,或是对QED和logP等属性做进一步的定向优化,对于分子的其他性质则少有涉略。据我们所知,Kotsias P C等人提出了一个从头设计分子的模型CRNN(KotsiasPC,Arús-PousJ,ChenH,etal.Directsteeringofdenovomoleculargenerationwithdescriptorconditionalrecurrentneuralnetworks[J].NatureMachineIntelligence,2020,2(5):254-265.),其根据分子的属性和分子指纹直接对分子数据集进行建模,在生成分子的过程中,以分子属性为输入,经过RNN网络顺序生成SMILES字符串,以分子的属性为导向生成分子。而对于新分子的合成,知晓其结构的同时往往需要从已知的与其结构相似的分子化合物入手,通过化学反应或人工手段来合成,然而CRNN模型采用的是从头生成分子的方式,其并没能给出与待合成分子结构相似的分子;此外
Figure BDA0003744220310000011
等人提出了一种基于GAN的分子生成模型Mol-CycleGAN(
Figure BDA0003744220310000012
PochaA,KaczmarczykJ,etal.Mol-CycleGAN:agenerativemodelformolecularoptimization[J].JournalofCheminformatics,2020,12(1):1-18.),该工作将分子数据集依照分子属性进行了分类,如将分子数据集分为两个集合X和Y,X、Y分别是具有某种属性和不具有某种属性的分子的集合,如X中的分子无活性,Y中的分子有活性。而模型中的生成器即训练从集合X到Y的一种映射,这样就可针对这一属性对分子进行改造式生成,但该过程对属性的优化欠缺灵活性,且属性的选择需要是0或1真假逻辑取值的,即有或无,不能包含第三种取值,更不能是连续的数值。
发明内容
本发明的目的是为了解决现有分子生成方法中CRNN模型没能给出与待合成分子结构相似的分子,以及Mol-CycleGAN模型对属性的优化欠缺灵活性,且属性的选择需要是0或1真假逻辑取值的,即有或无,不能包含第三种取值,更不能是连续的数值,导致无法生成与原分子结构相似且十分接近目标属性的新分子的问题,而提出基于属性编辑流的分子生成方法。
基于属性编辑流的分子生成方法具体过程为:
步骤一、建立分子对数据集;
步骤二、建立属性编辑流分子生成模型AEMF;
步骤三、训练属性编辑流分子生成模型AEMF;
步骤四、基于训练好的属性编辑流分子生成模型AEMF生成目标分子。
本发明的有益效果为:
本发明提出了一种基于流模型的可进行多属性编辑的分子生成模型AEMF,该模型可根据给出的原分子和需要的目标属性,对模型隐空间中对原分子对应的隐向量进行属性语义上的向量操作,将经过属性编辑后的隐向量在流模型中解码,生成诸多与原分子结构相似且十分接近目标属性的新颖分子。
本发明针对以往分子生成工作中的问题提出了一个属性编辑流分子生成模型AEMF,该模型可对输入的分子进行属性编辑,通过AttrEditor模块可在隐空间中对分子的编码进行语义上的向量操作,生成诸多与原分子相似的分子,并且生成的这些分子的属性与给出的目标属性十分接近。这更加贴近新化合物合成的过程,对已有的化合物分子进行针对性质的改造,由于改造后生成的全新分子与原分子的相似性较高,所以更易于通过化学反应等方式来人工合成。
由于本发明模型对分子的性质改造是在流模型的隐空间中进行的,这要求隐空间必须是连续的,这样才可以保证进行了属性编辑向量位移后得到的隐向量是正确的。
附图说明
图1为AEMF模型训练过程图;
图2为AttrEditor模块内部结构图;
图3为AEMF模型生成过程图;
图4为原分子结构图;
图5a为AEMF生成的分子结构部分1图;
图5b为AEMF生成的分子结构部分2图。
具体实施方式
具体实施方式一:本实施方式基于属性编辑流的分子生成方法具体过程为:
在以往的分子生成相关工作当中,大多数工作都是进行一种随机生成,之后对分子的特定属性和分数进行定向优化,如易合成性、药物相似性等,然而分子还有很多类别的性质,其在药物设计和材料科学等领域的应用当中有着至关重要的作用,然而现今的分子生成任务当中很少有工作针对分子的其他属性做出定向设计或属性编辑。而在化合物合成的研究工作中,想要通过化学反应制造或人工合成一个全新的化合物,就需要找到与现有分子的结构相近的相关分子化合物,所以根据已有的分子生成与它结构相似,但同时又在某个或某些化学性质上有较大差异的全新分子便有着重大的研究意义。
本发明设计了一个流模型AEMF,可以对分子的多种属性进行编辑,进而生成具有目标属性的诸多分子,且生成的分子与原分子在结构上较为相似。我们通过分子计算库rdkit量化计算了生成分子与原分子的相似程度以及生成分子属性与目标属性的接近程度。同时对于模型生成的分子,我们在有效性、新颖性、唯一性指标上对比了近两年的其它分子生成模型,实验结果显示我们的模型在这些指标上的表现优于其它模型,同时我们的模型生成的诸多分子的化学性质也都与目标性质有着微小的差距。
步骤一、建立分子对数据集;
步骤二、建立属性编辑流分子生成模型AEMF;
步骤三、训练属性编辑流分子生成模型AEMF;
步骤四、基于训练好的属性编辑流分子生成模型AEMF生成目标分子。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中建立分子对数据集;具体过程为:
选取分子数据集(现有的),由rdkit库计算得出分子数据集中每个分子的多个化学性质;
将每个分子的多个化学性质数值作为分量构成每个分子对应的属性向量(八个数值每个值作为一个分量,八个分量构成1个分子对应的属性向量);
计算分子数据集中每一个分子与所有其它分子的属性向量之间的欧氏距离,同时也计算出每一个分子与所有其它分子的相似性程度;
设置欧氏距离阈值和相似性阈值;
将分子数据集中所有既满足分子A和分子B的属性向量之间的欧氏距离大于欧氏距离阈值,又满足分子A和分子B的相似性程度大于相似性阈值的分子A和分子B保留,获得分子对数据集;
每一对分子都是属性差异较大但相似程度又比较高的。
需要说明的是该方法对化学性质的选取可任意,不是只能选这八种性质,可根据具体的需求做出更改。
根据上述八种属性,我们扫描整个分子数据集,计算出每一个分子与所有其它分子的属性向量之间的欧氏距离,同时也计算出每一个分子与所有其它分子的相似性程度,最终筛选出九万对分子对,每一对分子都是属性差异较大但相似程度又比较高的。其具体过程如算法1所示,算法时间复杂度为O(n2)。
Figure BDA0003744220310000041
算法1中,输入分子数据集molecular dataset,rdkit.similar(·)表示计算两个分子的相似性,则structure_similar的值衡量了两个分子之间的相似性,其值在0~1之间,越接近1表明两个分子越相似,反之不相似。rdkit.calculate_attribute(·)表示计算分子如上阐述的八个属性值并将这八个属性值构成一个向量,故dist是两个分子属性向量attribute_A和attribute_B的欧氏距离。算法中的value_similar和value_dist为我们设置的筛选阈值,其中value_similar值为0.7,value_dist值为0.6,该方法返回一个分子对数据集,该分子对数据集是根据上述阈值在原分子数据集中筛选得出的。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述分子数据集为QM9分子数据集。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述每个分子的多个化学性质为八种化学性质;
八种化学性质分别是分子量MolWt、脂水分配系数MolLogP、拓扑极表面积TPSA、重原子分子量HeavyAtomMolWt、氢键受体数NumHAcceptors、氢键供体数NumHDonors、环数RingCount、氨基羟基数NHOHCount;
所述分子量MolWt、脂水分配系数MolLogP、拓扑极表面积TPSA、重原子分子量HeavyAtomMolWt的取值为浮点型;
所述氢键受体数NumHAcceptors、氢键供体数NumHDonors、环数RingCount、氨基羟基数NHOHCount的取值为整型;
分子量MolWt、脂水分配系数MolLogP、拓扑极表面积TPSA、重原子分子量HeavyAtomMolWt、氢键受体数NumHAcceptors、氢键供体数NumHDonors、环数RingCount、氨基羟基数NHOHCount八个数值作为分量构成每个分子对应的属性向量(八个数值每个值作为一个分量,八个分量构成1个分子对应的属性向量)。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤二中建立属性编辑流分子生成模型AEMF;具体过程为:
属性编辑流分子生成模型AEMF包括流模块Flow和属性编辑器AttrEditor;
本发明设计了一款属性编辑流分子生成模型AEMF(Attribute EditingMolecular Flow),该模型包括条件流模型Flow和属性编辑器AttrEditor两部分,模型框架如图1所示。
图1中的Flow为流模块,流模块Flow可实现分子数据到隐空间分布的可逆计算,给出一个分子m对应的图结构G(V,E),通过流模块Flow计算可得到分子m在隐空间对应的隐向量z,同时隐向量z经过流模块Flow的逆运算可得到分子m的图结构G(V,E);如下式:
Figure BDA0003744220310000051
构建分子的边流Edge_flow和节点条件流Node_flow;
其中边流Edge_flow学习了一种可逆映射fE(E),实现了化学键信息(边数据)E到隐空间ZE的相互转换,如式(2)所示;
Figure BDA0003744220310000052
其中,fE表示学习边数据信息的边流Edge_flow;
节点条件流Node_flow学习了一种可逆映射fV|E(V|E),实现了原子信息(节点数据)V到隐空间ZV|E的相互转换,如式(3)所示;
Figure BDA0003744220310000053
其中,fV|E表示学习节点数据信息的节点条件流Node_flow,V|E是一种条件概率,表示给出边信息条件下的节点信息,ZV|E|E是一种条件概率,表示给出边信息条件下的隐空间信息;
对于边流Edge_flow,fE(E)损失函数为
Figure BDA0003744220310000061
其中,PE表示边信息的概率函数,
Figure BDA0003744220310000062
表示隐空间信息的概率函数,det()表示行列式;
对于节点条件流Node_flow,fV|E(V|E)损失函数为
Figure BDA0003744220310000063
其中,PV|E表示给出边的条件下节点的条件概率,
Figure BDA0003744220310000064
表示给出边的条件下隐空间数据的条件概率,fV|E表示节点条件流Node_flow学习到的可逆映射;
所以针对整个流模块flow,将式6作为整个流模型Flow极大似然的优化目标;
Figure BDA0003744220310000065
其中,θE表示边流神经网络的可学习参数,θV|E表示节点条件流神经网络的可学习参数,PE(E;θE)表示边信息的概率函数,PG-data表示真实数据分布的概率函数,
Figure BDA0003744220310000066
表示数学期望;
图1中的AttrEditor为属性编辑模块,属性编辑器AttrEditor输入为分子1的属性a1和隐空间编码z1以及分子2的属性a2,通过构建的分子对数据集对属性编辑器AttrEditor进行训练,使属性编辑器AttrEditor输出z′2尽可能的靠近分子2的隐空间编码z2,即属性编辑器AttrEditor损失函数为均方误差LossMSE(z2′,z2);
属性编辑器AttrEditor内部包含全连接层Layer_lamda、N个隐藏层(即图2中的Layer_1、Layer_2、Layer_3)和输出层(即图2中的Layer_out);
所述N取值为正整数;
在属性编辑器AttrEditor内部,首先计算两个属性向量的差Δa=a2-a1,之后Δa经过全连接层Layer_lamda得到向量La,将隐空间向量z1和La拼接后的向量输入第一隐藏层,剩下的隐藏层输入都是前一个隐藏层的输出和La拼接后的向量,第N个隐藏层输出z′2,z′2经输出层输出。
AttrEditor中的隐藏层数可以根据输入不同而进行适当更改,我们这里是三个隐藏层。
AttrEditor模块内部结构如图2所示。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤三中训练属性编辑流分子生成模型AEMF;具体过程为:
属性编辑流分子生成模型AEMF首先训练流模块Flow,使流模块Flow具备将分子数据编码到隐空间中的能力,然后训练AttrEditor模块,通过流模块分子对数据集Flow可计算出一对分子中,m1分子对应的隐空间向量z1,通过rdkit库可计算出m1分子的属性向量a1,同样,也可计算出m2分子对应的隐空间向量z2和属性向量a2,z1、a1和a2作为模块AttrEditor的输入,将AttrEditor网络的输出与z2做均方误差,以此作为损失函数来优化AttrEditor模块,得到训练好的属性编辑流分子生成模型AEMF。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至五之一不同的是,所述训练流模块Flow,使流模块Flow具备将分子数据编码到隐空间中的能力,具体过程为:
根据分子数据集QM9训练流模块Flow,使流模块Flow具备将分子数据编码到隐空间中的能力。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至五之一不同的是,所述训练AttrEditor模块,具体过程为:
根据分子对数据集训练AttrEditor模块。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述步骤四中基于训练好的属性编辑流分子生成模型AEMF生成目标分子;具体过程为:
给出原分子n和目标属性向量at,通过rdkit库计算出分子m的属性向量a,通过训练好的属性编辑流分子生成模型AEMF中的流模块Flow计算出分子m对应的隐空间向量z,将z、a以及at作为输入送入到训练好的属性编辑流分子生成模型AEMF中的AttrEditor中,输出目标分子的隐空间向量zt,通过流模块Flow的逆运算对zt进行解码则得到具有目标属性at的分子mt
以zt为高斯分布期望,设置标准差进行高斯采样,采样J次获取J个向量记作zt(1)、zt(2)、…、zt(J),
zt(1)通过流模块Flow的逆运算解码可得到分子mt(1);zt(2)通过流模块Flow的逆运算解码可得到分子mt(2);以此类推得到分子mt(J),而这J个分子都是具有目标属性at或属性接近目标属性at的分子。
当经过AttrEditor模块内部的三个(或多个)隐藏层的运算得到输出zt后,以zt为高斯分布期望,0.6为标准差进行高斯采样。这里选择的标准差是0.6,也可以根据实际情况选择其它数值作为标准差。假如采样100次,得到100个向量记作zt(1)、zt(2)、…、zt(100),zt(1)通过流模块Flow的逆运算解码可得到分子mt(1);zt(2)通过流模块Flow的逆运算解码可得到分子nt(2);以此类推得到生成的100个分子,而这100个分子都是具有目标属性at或属性接近目标属性at的分子。
图3和算法2展示了AEMF模型的分子生成过程。
Figure BDA0003744220310000081
其中K为欲生成的分子个数,ε表示从高斯分布中采样的噪声,rdkit.calculate_attribute(·)表示计算分子的属性,mol_to_adj(·)表示将分子转换为节点矩阵和边矩阵形式,flow(·)和flow-1(·)表示流模型的正向和逆向计算,attreditor(·)表示属性编辑器,其根据输入计算出目标分子的隐空间向量,construct_mol(·)表示由节点矩阵和边矩阵构建出分子,check_validity(·)表示检查分子的化学有效性,validity(·)表示对分子进行化合价修正。
对于AEMF模型生成的分子除了要进行基本的有效性、唯一性、和新颖性评估外,还要评估AEMF模型对分子的改造能力。给出了原分子m以及目标属性at,模型生成的分子为
Figure BDA0003744220310000091
通过rdkit库计算每一个生成分子的属性记作
Figure BDA0003744220310000092
计算了所有
Figure BDA0003744220310000093
与at的欧氏距离
Figure BDA0003744220310000094
以此来衡量生成分子的属性与目标属性的接近程度,di的值越小,生成分子的属性越接近目标属性;此外通过rdkit库计算了生成的分子与原分子的相似性记作simi,其值越小说明生成的分子与原分子结构越相似。至此本发明实现了一个分子生成模型,该模型可以编辑分子的属性,将输入的分子改造为具有目标性质的分子,且改造生成的分子与原分子结构相似。
其它步骤及参数与具体实施方式一至八之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
数据集描述
采用QM9(Ramakrishnan R,Dral P O,Rupp M,et al.Quantum chemistrystructures and properties of 134kilo molecules[J].Scientific data,2014,1(1):1-7.)数据集进行实验,该数据集拥有约13万个分子,最大重原子数为9,包含碳C,氮N,氧O,氟F四种重原子,其具体描述参见下面a)。此外根据分子间的结构相似性和属性相似程度对QM9数据集做了筛选,构建了一个分子对数据集,该数据集包含九万对分子,每对分子包含分子m1和m2,m1与m2的结构相似,且属性差异较大,以此数据集来训练属性编码器AttrEditor网络。
a)、采用QM9(Ramakrishnan R,Dral P O,Rupp M,et al.Quantum chemistrystructures and properties of 134kilo molecules[J].Scientific data,2014,1(1):1-7.)数据集进行实验,该数据集由Ramakrishnan和Dral等人通过量子化学计算方法在GDB-17数据库(Ruddigkeit L,Van Deursen R,Blum L C,et al.Enumeration of166billion organic small molecules in the chemical universe database GDB-17[J].Journal of chemical information and modeling,2012,52(11):2864-2875.)中根据基准11筛选出来的前133885个分子,对应于所有中性分子的GDB-9子集,每个分子由SMILES字符串表示,最多有九个重原子(CONF),不包括氢,所有的分子大小分布如图3-5所示。此外数据集包括小氨基酸,如甘氨酸、丙氨酸,以及核苷、胞嘧啶、尿嘧啶和胸腺嘧啶,还包括医药相关的有机构建块,例如丙酮酸、哌嗪或羟基脲。在133885个分子中,有621个化学计量比,其中C7H10O2占主导地位。同时该数据集包含平衡几何、前线轨道本征值、偶极矩、谐波频率、极化率以及对应于环境温度下的原子化能、焓和熵的热化学能等13个特征。该数据集可在quantum-machine.org/datasets/网址免费下载。
实验过程
以QM9数据集训练Flow模块,在pytorch1.7.1环境下,learning_rate设置为0.001,采用adam优化器,batch_size大小为256,在rtx3060上训练了200个epoch,大约用时4.5小时;当Flow模块完成训练后,以分子对数据集训练了AttrEditor模块,learning_rate设置为0.002,采用adam优化器,batch_size大小为32,在rtx3060上训练了100个epoch。
整个AEMF模型训练完成后,我们给出一个原分子m和目标属性向量at,由AttrEditor模块计算出经过属性编辑(由属性a到属性at)的隐空间向量zt,我们在隐空间中以zt为中心标准差为0.7进行多次高斯采样得到更多的隐空间向量,这些向量通过流模块Flow的逆过程解码,生成了对应的分子。
首先对生成的分子在有效性、唯一性和新颖性指标上做了评估,并对比了近几年的其它分子生成模型;其次计算了生成的分子的属性,衡量了它们与目标属性的接近程度;最后我们计算了生成的分子与原分子的相似性,以进一步判断生成的分子与原分子在结构上的变化程度。
评价指标
在有效性、唯一性、新颖性对生成的分子做基础的评估,他们的详细介绍参见b)。同时定义了目标性和相似度两个指标来对生成的分子做属性和结构的评估。
b)选取了分子生成任务当中常用的评价指标来评估CompMF模型,分别是有效性(Validity),唯一性(Uniqueness)和新颖性(Novelty)。
有效性:生成的分子若满足化合价的约束条件,则视为化学有效的,有效性描述化学有效的分子在所有生成的分子中的占比。
唯一性:生成的分子若不与其它生成的分子重复,则视该分子是唯一的,反之该分子不是唯一的,唯一性描述在生成的分子中唯一的分子所占的百分比。
新颖性:生成的分子若不与训练集中的分子重复,则视该分子是新颖的,反之该分子不是新颖的,新颖性描述在生成的分子中新颖的分子所占的百分比。
其具体的计算式如下:
Figure BDA0003744220310000101
Figure BDA0003744220310000102
Figure BDA0003744220310000103
其中train为训练数据集,gens表示生成的分子集合,num(·)为计数函数,correct(·)表示对分子进行化合价修正,valid(·)返回分子集合中化学有效的分子集合,set(·)为去重函数。
1)目标性描述生成的分子与目标属性的接近程度。计算生成分子的属性向量与目标属性向量的欧氏距离,并对其进行归一化操作,其值在0~1之间,越接近0表示分子属性越接近目标属性,反之离目标属性越远。
2)相似度描述生成的分子与原分子的相似程度。计算生成的分子与原分子的相似性,其值在0~1之间,越接近0表明生成分子的结构越接近原分子,反之结构相差越大。
结果与分析
根据本发明模型方法对分子进行基于属性编辑的生成,对生成的分子在有效性、唯一性、新颖性指标上做出了评估,并且对比了近两年的一些分子生成工作,包括GraphNVP(MadhawaK,IshiguroK,NakagoK,etal.Graphnvp:Aninvertibleflowmodelforgeneratingmoleculargraphs[J].arXivpreprintarXiv:1905.11600,2019.),GRF(HondaS,AkitaH,IshiguroK,etal.Graphresidualflowformoleculargraphgeneration[J].arXivpreprintarXiv:1909.13521,2019.),GraphAF(ShiC,XuM,ZhuZ,etal.Graphaf:aflow-basedautoregressivemodelformoleculargraphgeneration[J].arXivpreprintarXiv:2001.09382,2020.),MoFlow(ZangC,WangF.MoFlow:aninvertibleflowmodelforgeneratingmoleculargraphs[C]//Proceedingsofthe 26thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining.2020:617-626.),GraphDF(LuoY,YanK,JiS.GraphDF:Adiscreteflowmodelformoleculargraphgeneration[J].arXivpreprintarXiv:2102.01189,2021.)。
其中GraphNVP采用标准化流设计来生成分子,GRF采用one-hot形式一次生成一整个分子,MoFlow模型以整体的方式捕获化学结构,其对分子的建模取得了比较好的效果,而GraphAF和GraphDF采用自回归流的方式来序列生成分子,即将已生成的节点和边作为流模型的上下文信息,来生成新的节点和边,同时在生成的过程中进行化合价有效性检查与修正,其中GraphAF采用连续流设计,而GraphDF采用离散流设计。本发明的模型AEMF与他们的对比结果如表1所示。
表1生成模型的各项指标
Figure BDA0003744220310000111
由表1可以看出,在有效性和新颖性指标上,本发明的模型由于近两年的其它模型,在唯一性指标上,GraphNVP和MoFlow表现得更佳,但本发明的模型得分仅仅比他们低0.11,同时需要注意的是,表中的其它模型在生成分子时均采用随机生成的方式,并没有对属性做出定向的约束。
由于采用条件流模型对分子整体进行建模,本发明的模型对分子信息的捕捉更全面,除此之外本发明以分子对数据集训练属性编辑器,所以相对于以往的分子生成工作,本发明的模型AEMF在保证有效性、新颖性、唯一性的同时还保证了生成分子的目标性和原相似性,根据输入生成具有目标属性且与原分子结构相似的全新分子结构,本发明在表2中展示了生成的100个分子的属性与目标属性的接近程度,其数值均经过了归一化处理,越接近0则表示该分子的属性与目标属性的接近程度越高;在表3中展示了生成的分子与原分子的相似性,数值越接近0表示该分子的结构与原分子结构的相似性越高。
表2生成分子的属性与目标属性的接近程度
Figure BDA0003744220310000121
表3生成分子与原分子的相似性
Figure BDA0003744220310000122
Figure BDA0003744220310000131
由表2和表3可以看出,本发明的模型生成的分子在保证性质上接近目标属性的同时,也与原分子保持了一定的相似性。
由于本发明根据分子的属性和分子的相似性构建了分子对数据集,以成对的分子数据来训练属性编辑器,每个训练对都是属性相差较大但是结构较为相似的两个分子,得益于这样的设计,我们的属性编辑器可以学习到分子属性的改变导致分子在隐空间中的向量的改变,这样我们可以通过在隐空间中做语义上的向量操作来改变生成分子的属性,由于分子对训练集的构建,使得模型可以在原有分子的基础上对分子做出任意的属性编辑,即使属性改变较大,也仍在一定程度上保持了分子的结构,这给后续通过化学反应合成分子提供了有力依据。
最后本发明在图4展示了原分子的结构图,在图5a、5b中展示了根据原分子进行属性编辑生成的诸多分子部分结构图,图5a、5b合起来为根据原分子进行属性编辑生成的诸多分子结构图。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.基于属性编辑流的分子生成方法,其特征在于:所述方法具体过程为:
步骤一、建立分子对数据集;
步骤二、建立属性编辑流分子生成模型AEMF;
步骤三、训练属性编辑流分子生成模型AEMF;
步骤四、基于训练好的属性编辑流分子生成模型AEMF生成目标分子;
所述步骤二中建立属性编辑流分子生成模型AEMF;具体过程为:
属性编辑流分子生成模型AEMF包括流模块Flow和属性编辑器AttrEditor;
流模块Flow可实现分子数据到隐空间分布的可逆计算,给出一个分子m对应的图结构G(V,E),通过流模块Flow计算可得到分子m在隐空间对应的隐向量z,同时隐向量z经过流模块Flow的逆运算可得到分子m的图结构G(V,E);如下式:
Figure FDA0004115304060000011
构建分子的边流Edge_flow和节点条件流Node_flow;
其中边流Edge_flow学习了一种可逆映射fE(E),实现了化学键信息到隐空间ZE的相互转换,如式(2)所示;
Figure FDA0004115304060000012
其中,fE表示学习边数据信息的边流Edge_flow;
节点条件流Node_flow学习了一种可逆映射fV|E(V|E),实现了原子信息到隐空间ZV|E的相互转换,如式(3)所示;
Figure FDA0004115304060000013
其中,fV|E表示学习节点数据信息的节点条件流Node_flow,V|E是一种条件概率,表示给出边信息条件下的节点信息,ZV|E|E是一种条件概率,表示给出边信息条件下的隐空间信息;
对于边流Edge_flow,fE(E)损失函数为
Figure FDA0004115304060000014
其中,PE表示边信息的概率函数,
Figure FDA0004115304060000015
表示隐空间信息的概率函数,det()表示行列式;
对于节点条件流Node_flow,fV|E(V|E)损失函数为
Figure FDA0004115304060000021
其中,PV|E表示给出边的条件下节点的条件概率,
Figure FDA0004115304060000022
表示给出边的条件下隐空间数据的条件概率,fV|E表示节点条件流Node_flow学习到的可逆映射;
所以针对整个流模块flow,将式6作为整个流模型Flow极大似然的优化目标;
Figure FDA0004115304060000023
其中,θE表示边流神经网络的可学习参数,θV|E表示节点条件流神经网络的可学习参数,PE(E;θE)表示边信息的概率函数,PG-data表示真实数据分布的概率函数,
Figure FDA0004115304060000024
表示数学期望;
属性编辑器AttrEditor输入为分子1的属性a1和隐空间编码z1以及分子2的属性a2,通过构建的分子对数据集对属性编辑器AttrEditor进行训练,使属性编辑器AttrEditor输出z'2尽可能的靠近分子2的隐空间编码z2,即属性编辑器AttrEditor损失函数为均方误差LossMSE(z′2,z2);
属性编辑器AttrEditor内部包含全连接层Layer_lamda、N个隐藏层和输出层;
所述N取值为正整数;
在属性编辑器AttrEditor内部,首先计算两个属性向量的差Δa=a2-a1,之后Δa经过全连接层Layer_lamda得到向量La,将隐空间向量z1和La拼接后的向量输入第一隐藏层,剩下的隐藏层输入都是前一个隐藏层的输出和La拼接后的向量,第N个隐藏层输出z'2,z'2经输出层输出。
2.根据权利要求1所述的基于属性编辑流的分子生成方法,其特征在于:所述步骤一中建立分子对数据集;具体过程为:
选取分子数据集,由rdkit库计算得出分子数据集中每个分子的多个化学性质;
将每个分子的多个化学性质数值作为分量构成每个分子对应的属性向量;
计算分子数据集中每一个分子与所有其它分子的属性向量之间的欧氏距离,同时也计算出每一个分子与所有其它分子的相似性程度;
设置欧氏距离阈值和相似性阈值;
将分子数据集中所有既满足分子A和分子B的属性向量之间的欧氏距离大于欧氏距离阈值,又满足分子A和分子B的相似性程度大于相似性阈值的分子A和分子B保留,获得分子对数据集。
3.根据权利要求2所述的基于属性编辑流的分子生成方法,其特征在于:所述分子数据集为QM9分子数据集。
4.根据权利要求3所述的基于属性编辑流的分子生成方法,其特征在于:所述每个分子的多个化学性质为八种化学性质;
八种化学性质分别是分子量MolWt、脂水分配系数MolLogP、拓扑极表面积TPSA、重原子分子量HeavyAtomMolWt、氢键受体数NumHAcceptors、氢键供体数NumHDonors、环数RingCount、氨基羟基数NHOHCount;
所述分子量MolWt、脂水分配系数MolLogP、拓扑极表面积TPSA、重原子分子量HeavyAtomMolWt的取值为浮点型;
所述氢键受体数NumHAcceptors、氢键供体数NumHDonors、环数RingCount、氨基羟基数NHOHCount的取值为整型;
分子量MolWt、脂水分配系数MolLogP、拓扑极表面积TPSA、重原子分子量HeavyAtomMolWt、氢键受体数NumHAcceptors、氢键供体数NumHDonors、环数RingCount、氨基羟基数NHOHCount八个数值作为分量构成每个分子对应的属性向量。
5.根据权利要求4所述的基于属性编辑流的分子生成方法,其特征在于:所述步骤三中训练属性编辑流分子生成模型AEMF;具体过程为:
属性编辑流分子生成模型AEMF首先训练流模块Flow,使流模块Flow具备将分子数据编码到隐空间中的能力,然后训练AttrEditor模块,通过流模块分子对数据集Flow可计算出一对分子中,m1分子对应的隐空间向量z1,通过rdkit库可计算出m1分子的属性向量a1,同样,也可计算出m2分子对应的隐空间向量z2和属性向量a2,z1、a1和a2作为模块AttrEditor的输入,将AttrEditor网络的输出与z2做均方误差,以此作为损失函数来优化AttrEditor模块,得到训练好的属性编辑流分子生成模型AEMF。
6.根据权利要求5所述的基于属性编辑流的分子生成方法,其特征在于:所述训练流模块Flow,使流模块Flow具备将分子数据编码到隐空间中的能力,具体过程为:
根据分子数据集QM9训练流模块Flow,使流模块Flow具备将分子数据编码到隐空间中的能力。
7.根据权利要求6所述的基于属性编辑流的分子生成方法,其特征在于:所述训练AttrEditor模块,具体过程为:
根据分子对数据集训练AttrEditor模块。
8.根据权利要求7所述的基于属性编辑流的分子生成方法,其特征在于:所述步骤四中基于训练好的属性编辑流分子生成模型AEMF生成目标分子;具体过程为:
给出原分子m和目标属性向量at,通过rdkit库计算出分子m的属性向量a,通过训练好的属性编辑流分子生成模型AEMF中的流模块Flow计算出分子m对应的隐空间向量z,将z、a以及at作为输入送入到训练好的属性编辑流分子生成模型AEMF中的AttrEditor中,输出目标分子的隐空间向量zt,通过流模块Flow的逆运算对zt进行解码则得到具有目标属性at的分子mt
以zt为高斯分布期望,设置标准差进行高斯采样,采样J次获取J个向量记作zt(1)、zt(2)、…、zt(J),
zt(1)通过流模块Flow的逆运算解码可得到分子mt(1);zt(2)通过流模块Flow的逆运算解码可得到分子mt(2);以此类推得到分子mt(J),而这J个分子都是具有目标属性at或属性接近目标属性at的分子。
CN202210826709.1A 2022-07-13 2022-07-13 基于属性编辑流的分子生成方法 Active CN115206456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210826709.1A CN115206456B (zh) 2022-07-13 2022-07-13 基于属性编辑流的分子生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210826709.1A CN115206456B (zh) 2022-07-13 2022-07-13 基于属性编辑流的分子生成方法

Publications (2)

Publication Number Publication Date
CN115206456A CN115206456A (zh) 2022-10-18
CN115206456B true CN115206456B (zh) 2023-04-25

Family

ID=83580508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210826709.1A Active CN115206456B (zh) 2022-07-13 2022-07-13 基于属性编辑流的分子生成方法

Country Status (1)

Country Link
CN (1) CN115206456B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113166743A (zh) * 2018-10-15 2021-07-23 马萨诸塞大学 Nme2cas9-脱氨酶融合蛋白的可编程dna碱基编辑
CN114360635A (zh) * 2022-01-04 2022-04-15 北京航空航天大学 基于流生成模型的药物隐藏靶点预测系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017189677A1 (en) * 2016-04-27 2017-11-02 Arc Bio, Llc Machine learning techniques for analysis of structural variants
WO2020102751A2 (en) * 2018-11-15 2020-05-22 Openeye Scientific Software, Inc. Molecular structure editor with version control and simultaneous editing operations
CN113299349A (zh) * 2021-04-15 2021-08-24 中南大学 一种基于可逆流的材料分子成分生成方法
CN114334040A (zh) * 2021-11-26 2022-04-12 腾讯科技(深圳)有限公司 分子图重构模型的训练方法、装置以及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113166743A (zh) * 2018-10-15 2021-07-23 马萨诸塞大学 Nme2cas9-脱氨酶融合蛋白的可编程dna碱基编辑
CN114360635A (zh) * 2022-01-04 2022-04-15 北京航空航天大学 基于流生成模型的药物隐藏靶点预测系统及方法

Also Published As

Publication number Publication date
CN115206456A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
WO2022047677A1 (zh) 药物分子筛选方法及系统
Wang et al. Fuzzy partition based soft subspace clustering and its applications in high dimensional data
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN114913938B (zh) 一种基于药效团模型的小分子生成方法、设备及介质
Yang et al. Accelerating evolutionary neural architecture search via multifidelity evaluation
CN116383401A (zh) 一种融合文本描述与图卷积机制的知识图谱补全方法
CN113641854B (zh) 一种将文字转化为视频的方法及系统
CN115206456B (zh) 基于属性编辑流的分子生成方法
CN117153294B (zh) 一种单一体系的分子生成方法
Hajewski et al. An evolutionary approach to variational autoencoders
CN111755081A (zh) 一种高甲烷吸附率MOFs生成与筛选的方法
CN116525029A (zh) 一种基于流模型的分子图生成方法与装置
CN116453617A (zh) 一种结合主动学习的多目标优化分子生成方法和系统
Wu et al. Genetic-algorithm-based Convolutional Neural Network for Robust Time Series Classification with Unreliable Data.
CN115713986A (zh) 基于注意力机制的材料晶体属性预测方法
CN111581583B (zh) 基于改进投影寻踪的地磁图适配性综合评价方法
CN113420868A (zh) 一种基于深度强化学习的旅行商问题求解方法及求解系统
CN116130036B (zh) 一种基于图表示的金属有机框架的逆向设计方法
KR101297211B1 (ko) 순수한 유기화합물의 파라코르를 예측하는 다중선형회귀-인공신경망 혼성모형
Liu et al. GEM-2: Next Generation Molecular Property Prediction Network by Modeling Full-range Many-body Interactions
Georgieva et al. Cluster validity measures based on the minimum description length principle
Mrabah et al. Exploring the interaction between local and global latent configurations for clustering single-cell RNA-seq: a unified perspective
CN117524353B (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
CN117133116B (zh) 一种基于时空关联网络的交通流预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant