CN117012304B - 融合ggnn-gan的深度学习分子生成系统及方法 - Google Patents
融合ggnn-gan的深度学习分子生成系统及方法 Download PDFInfo
- Publication number
- CN117012304B CN117012304B CN202311203938.9A CN202311203938A CN117012304B CN 117012304 B CN117012304 B CN 117012304B CN 202311203938 A CN202311203938 A CN 202311203938A CN 117012304 B CN117012304 B CN 117012304B
- Authority
- CN
- China
- Prior art keywords
- molecular
- molecule
- gan
- ggnn
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 21
- 239000000126 substance Substances 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 230000000704 physical effect Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009509 drug development Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000003041 virtual screening Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medical Informatics (AREA)
- Medicinal Chemistry (AREA)
- Databases & Information Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了融合GGNN‑GAN的深度学习分子生成系统及方法,包括:数据收集模块、预处理模块和分子生成模块;数据收集模块用于收集初始分子的分子数据,分子数据包括:化学结构、活性和物理性质;预处理模块用于对分子数据进行编码,生成对应的特征矩阵;分子生成模块用于基于特征矩阵,训练GGNN‑GAN分子生成模型,并利用GGNN‑GAN分子生成模型生成新的分子结构。本申请在数据量足够的情况下,生成的分子在有效性、新颖性和唯一性方面得到显著提升,在数据量少的情况下进行训练,可以通过GAN进行数据扩充,解决分子数据较少时的训练不足的问题,从而使生成模型能够生成与原始数据具有相同特点的新分子。
Description
技术领域
本申请属于化学分子生成技术领域,具体涉及融合GGNN-GAN的深度学习分子生成系统及方法。
背景技术
如何获取所需特性的新型分子是药物发现、化学和材料科学领域所面临的巨大挑战。传统方法主要是依赖现有的分子数据库进行搜索,在此基础上材料科学家和药物化学家们根据已有经验对现有分子进行改进,从而获取新型分子,此方法具有极大的偶然性且严重依赖所从业人员的工作经验。化学空间本质上是离散的,整个分子库搜索空间巨大,数量可达1060。现有的分子化合物数据库包含1600多亿个分子,遍历整个分子空间耗时漫长,且难以实现。因此,使用传统方法获取所需新分子,无疑是一个周期长、成本高、失败率高的过程。
计算机辅助设计的出现使得分子生成和优化变得更为简捷,目前常采用高通量筛选和虚拟筛选的方式获取已知分子,但是这种筛选方式是从现有分子数据库中获得尽可能多的起始化合物,而不是具有特定生物活性或是具有所需性质的化合物。因此,虚拟筛选在分子容易合成或虚拟化合物容易获取时表现良好,但是当数据量过于庞大时,其成本也会显著增加。
随着人工智能的发展,深度学习逐渐应用于药物发现、化学和材料科学领域。基于深度学习的分子生成方法无需对化学规则进行明确的编程,就可以生成与原始化合物结构高度相似的化合物,这无疑为先导化合物的生成和优化提供了新的手段,极大加快了分子生成和优化的速度,具有良好的研究与应用前景。目前应用于分子生成的深度学习方法主要包括循环神经网络、自编码器、生成对抗网络、流。
基于RNN的分子生成模型将每个分子的SMILES序列当作一个句子,通过学习训练样本的概率分布,使用语言模型生成新的SIMLES序列,但其存在长距离依赖的问题。基于VAE的分子生成模型利用编码器将分子表示为向量,并由解码器重构该向量,通过对连续潜在空间的分子直接进行编码和解码,从而找到具有所需特性的新分子,其优化的目标是误差的下界,因此基于VAE的模型不够精确。基于Flow的分子生成模型主要任务是学习分子图与其潜在表示之间的可逆映射,但其所需训练计算的成本是GAN的几倍。基于GAN的分子生成模型主要是结合强化学习、自编码器等方式进行分子生成,GAN的生成器和判别器通过博弈的手段来不断的对两个模型进行迭代的优化,二者相互博弈,共同学习从而达到最优。
在分子生成的过程中,已有模型的分子生成多样性效果较差、有效性较低,不适用于分子数量少的情况。因此,目前仍然需要发展新的、在分子数据量少的情况下,模型能够进行充分训练的方法,促进深度学习在新药研发中的应用,为缩短药物研发周期和降低药物研发成本提供有利条件。
发明内容
本申请旨在解决现有技术的不足,提出融合GGNN-GAN的深度学习分子生成系统及方法,通过结合GGNN和GAN,在数据量足够的情况下,使用本申请进行训练,生成的分子在有效性、新颖性和唯一性方面得到显著提升。
为实现上述目的,本申请提供了如下方案:
融合GGNN-GAN的深度学习分子生成系统,包括:数据收集模块、预处理模块和分子生成模块;
所述数据收集模块用于收集初始分子的分子数据,所述分子数据包括:化学结构、活性和物理性质;
所述预处理模块用于对所述分子数据进行编码,生成对应的特征矩阵;
所述分子生成模块用于基于所述特征矩阵,训练GGNN-GAN分子生成模型,并利用所述GGNN-GAN分子生成模型生成新的分子结构。
优选的,所述预处理模块包括:第一转换单元和第二转换单元;
所述第一转换单元用于将所述分子数据的SMILES序列转换为分子图;
所述第二转换单元用于将所述分子图转换为所述特征矩阵,所述特征矩阵包括:节点特征矩阵、边特征矩阵和邻接矩阵。
优选的,所述GGNN-GAN分子生成模型包括:生成器和判别器;
所述生成器用于基于所述特征矩阵对分子结构进行建模和学习,并生成新分子;
所述判别器用于得到所述新分子是所述初始样本的概率,并识别所述新分子是否为所述初始分子,若不是,则标记所述新分子,并将标记后新分子传入至所述生成器中。
优选的,所述生成器包括:信息传递单元、节点更新单元和读取单元;
所述信息传递单元用于基于所述边特正矩阵和所述邻接矩阵计算边消息;
所述节点更新单元用于更新所述节点特征矩阵,得到更新后的节点信息;
所述读取单元用于提取节点的图级别表示,并基于所述图级别表示、所述边消息和所述节点信息进行全局的图读出,得到所述新分子。
优选的,所述图级别表示包括:节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。
优选的,所述判别器包括:第一全连接层、第二全连接层、第三全连接层和第四全连接层;
所述第一全连接层用于将所述新分子的信息映射到1024维的特征空间,得到1024维特征;
所述第二全连接层用于将所述1024维特征映射到512维的特征空间,得到512维特征;
所述第三全连接层用于将所述512维特征映射到256维的特征空间,得到256维特征;
所述第四全连接层用于将所述256维特征映射到1维的特征空间,得到所述新分子是所述初始样本的概率。
优选的,所述判别器还包括函数映射单元;
所述函数映射单元用于将所述概率通过Sigmoid函数映射到0-1的范围内。
本申请还提供了融合GGNN-GAN的深度学习分子生成方法,包括以下步骤:
收集初始分子的分子数据,所述分子数据包括:化学结构、活性和物理性质;
对所述分子数据进行编码,生成对应的特征矩阵;
基于所述特征矩阵,训练GGNN-GAN分子生成模型,并利用所述GGNN-GAN分子生成模型生成新的分子结构。
与现有技术相比,本申请的有益效果为:
本申请通过结合GGNN和GAN,提出了一种新的分子训练方法GGNN-GAN。在数据量足够的情况下,使用本申请进行训练,生成的分子在有效性、新颖性和唯一性方面得到显著提升。在数据量少的情况下进行训练,可以通过GAN进行数据扩充,解决分子数据较少时的训练不足的问题,从而使生成模型能够生成与原始数据具有相同特点的新分子。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的系统结构示意图;
图2为本申请实施例的预处理的工作流程示意图;
图3为本申请实施例的GGNN-GAN模型整体结构示意图;
图4为本申请实施例的生成器结构示意图;
图5为本申请实施例的信息传递单元结构示意图;
图6为本申请实施例的节点更新单元结构示意图;
图7为本申请实施例的读取单元结构示意图;
图8为本申请实施例的判别器结构示意图;
图9为本申请实施例的方法步骤示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
在本实施例中,如图1所示,融合GGNN-GAN的深度学习分子生成系统,包括:数据收集模块、预处理模块和分子生成模块。
数据收集模块用于收集初始分子的分子数据,分子数据包括:化学结构、活性和物理性质等。
预处理模块用于对分子数据进行编码,生成对应的特征矩阵。
预处理模块包括:第一转换单元和第二转换单元;第一转换单元用于将分子数据的SMILES序列转换为分子图;第二转换单元用于将分子图转换为特征矩阵,特征矩阵包括:节点特征矩阵、边特征矩阵和邻接矩阵。
在本实施例中,第一转换单元使用RDKit开源框架将分子的SMILES序列转化为分子图形式,分子图表示了分子中的原子和它们之间的化学键关系。第二转换单元使用RDKit.Chem方法将每个分子图转换为由one-hot编码表示的节点特征矩阵、边特征矩阵和邻接矩阵。节点特征是指每个原子的特征向量,用于表示原子的性质和环境信息。节点特征可以包括原子类型、电荷、氢键供体和受体属性等。边特征是指化学键的特征向量,用于表示化学键的类型和性质。边特征可以包括键的类型(单键、双键、三键等)和键长等。邻接矩阵是一个二维矩阵,用于表示原子之间的连通性。矩阵的每个元素表示两个原子之间是否存在连接,存在则为1,否则为0。邻接矩阵可以通过分子图的连接信息来构建。对于单键和双键,它们在特征矩阵中是等价表示的,因为可以从相应的原子描述符推导出来。通过将分子表示为特征矩阵,可以将分子的结构和性质用计算机可处理的方式进行编码和表示。这种特征矩阵的表示形式在深度学习模型中特别有用,可以用于分子属性预测、反应预测、化合物生成等化学计算任务。预处理的总体工作流程如图2所示。
分子生成模块用于基于特征矩阵,训练GGNN-GAN分子生成模型,并利用GGNN-GAN分子生成模型生成新的分子结构。
GGNN-GAN分子生成模型包括:生成器和判别器;生成器用于基于特征矩阵对分子结构进行建模和学习,并生成新分子;判别器用于得到新分子是初始样本的概率,并识别新分子是否为初始分子,若不是,则标记新分子,并将标记后新分子传入至生成器中。
在本实施例中,生成器分为信息传递、节点更新、读取三个模块,前两个模块用于对分子结构进行建模和学习,读取模块利用分子结构信息生成新的分子。判别器是一个二分类神经网络,通过四个全连接层判断分子是来自训练集还是生成器新生成的分子,并将新生成的分子标记为Fake,传入到生成器中,让生成器继续学习并生成新的分子,生成器和判别器通过对抗学习来反复优化生成器和判别器之间的竞争关系。模型整体结构如图3所示。
生成器如图4所示,包括:信息传递单元、节点更新单元和读取单元。信息传递单元如图5所示,用于基于边特正矩阵和邻接矩阵计算边消息。将邻接矩阵和边特征矩阵导入信息传递单元,通过循环遍历数据集中的边特征种类的数量次,为每个边特征创建一个基于MLP(多层感知机)的消息传递神经网络,用于计算每个边特征产生的消息。首先,将边特征矩阵进行形状变换,使其变为一个三维张量,其中第二个维度表示边特征的数量,接下来,通过将每个边特征与对应的邻居节点特征相乘,得到每个边特征对应的消息,对每个边特征的消息进行非线性变换。最后,将所有边特征产生的消息求和,以生成边消息的表示:Edge_message(100)张量。
节点更新单元如图6所示,用于更新节点特征矩阵,得到更新后的节点信息。将节点特征矩阵导入节点更新单元,使用GRUCell门控循环单元对节点特征矩阵进行更新,最终生成更新后的节点信息Node_message(100)张量。
读取单元如图7所示,用于提取节点的图级别表示,并基于图级别表示、边消息和节点信息进行全局的图读出,得到新分子。图级别表示包括:节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。GraphGather模块从节点的隐藏表示中提取图级别的表示。将信息传递单元和节点更新单元生成的Edge_message(100)、Node_message(100)和GraphGather模块提取的信息导入GlobalReadout模块,通过两个MLP层来进行全局的图读出操作,其中第一个MLP层隐藏层的维度500、深度4,第二个MLP层隐藏层的维度500、深度4、每个节点的附加特征的长度为4,通过节点和图级别的表示生成图级别的输出Graph_output(625)张量,即生成器生成的新分子信息。
判别器如图8所示,包括:第一全连接层、第二全连接层、第三全连接层和第四全连接层。判别器将生成器生成的分子信息Graph_output(625)张量传递给顺序模型进行前向传播,计算损失,并通过梯度下降算法更新判别器的参数。
第一全连接层用于将新分子的信息映射到1024维的特征空间,得到1024维特征;第二全连接层用于将1024维特征映射到512维的特征空间,得到512维特征;第三全连接层用于将512维特征映射到256维的特征空间,得到256维特征;第四全连接层用于将256维特征映射到1维的特征空间,输出一个标量valid或fake,得到新分子是初始样本的概率。判别器还包括函数映射单元;函数映射单元用于将概率通过Sigmoid函数映射到0-1的范围内,表示分子是来自训练集还是生成器新生成的分子。
实施例二
在本实施例中,如图9所示,融合GGNN-GAN的深度学习分子生成方法,包括以下步骤:
S1.收集初始分子的分子数据,分子数据包括:化学结构、活性和物理性质等。
S2.对分子数据进行编码,生成对应的特征矩阵。
将分子数据的SMILES序列转换为分子图;将分子图转换为特征矩阵,特征矩阵包括:节点特征矩阵、边特征矩阵和邻接矩阵。
在本实施例中,使用RDKit开源框架将分子的SMILES序列转化为分子图形式,分子图表示了分子中的原子和它们之间的化学键关系。使用RDKit.Chem方法将每个分子图转换为由one-hot编码表示的节点特征矩阵、边特征矩阵和邻接矩阵。节点特征是指每个原子的特征向量,用于表示原子的性质和环境信息。节点特征可以包括原子类型、电荷、氢键供体和受体属性等。边特征是指化学键的特征向量,用于表示化学键的类型和性质。边特征可以包括键的类型(单键、双键、三键等)和键长等。邻接矩阵是一个二维矩阵,用于表示原子之间的连通性。矩阵的每个元素表示两个原子之间是否存在连接,存在则为1,否则为0。邻接矩阵可以通过分子图的连接信息来构建。对于单键和双键,它们在特征矩阵中是等价表示的,因为可以从相应的原子描述符推导出来。通过将分子表示为特征矩阵,可以将分子的结构和性质用计算机可处理的方式进行编码和表示。这种特征矩阵的表示形式在深度学习模型中特别有用,可以用于分子属性预测、反应预测、化合物生成等化学计算任务。预处理的总体工作流程如图2所示
S3.基于特征矩阵,训练GGNN-GAN分子生成模型,并利用GGNN-GAN分子生成模型生成新的分子结构。
GGNN-GAN分子生成模型包括:生成器和判别器;生成器用于基于特征矩阵对分子结构进行建模和学习,并生成新分子;判别器用于得到新分子是初始样本的概率,并识别新分子是否为初始分子,若不是,则标记新分子,并将标记后新分子传入至生成器中。
在本实施例中,生成器分为信息传递、节点更新、读取三个模块,前两个模块用于对分子结构进行建模和学习,读取模块利用分子结构信息生成新的分子。判别器是一个二分类神经网络,通过四个全连接层判断分子是来自训练集还是生成器新生成的分子,并将新生成的分子标记为Fake,传入到生成器中,让生成器继续学习并生成新的分子,生成器和判别器通过对抗学习来反复优化生成器和判别器之间的竞争关系。模型整体结构如图3所示。
生成器包括:信息传递单元、节点更新单元和读取单元。信息传递单元用于基于边特正矩阵和邻接矩阵计算边消息。将邻接矩阵和边特征矩阵导入信息传递单元,通过循环遍历数据集中的边特征种类的数量次,为每个边特征创建一个基于MLP(多层感知机)的消息传递神经网络,用于计算每个边特征产生的消息。首先,将边特征矩阵进行形状变换,使其变为一个三维张量,其中第二个维度表示边特征的数量,接下来,通过将每个边特征与对应的邻居节点特征相乘,得到每个边特征对应的消息,对每个边特征的消息进行非线性变换。最后,将所有边特征产生的消息求和,以生成边消息的表示:Edge_message(100)张量。
节点更新单元用于更新节点特征矩阵,得到更新后的节点信息。将节点特征矩阵导入节点更新单元,使用GRUCell门控循环单元对节点特征矩阵进行更新,最终生成更新后的节点信息Node_message(100)张量。
读取单元用于提取节点的图级别表示,并基于图级别表示、边消息和节点信息进行全局的图读出,得到新分子。图级别表示包括:节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。GraphGather模块从节点的隐藏表示中提取图级别的表示。将信息传递单元和节点更新单元生成的Edge_message(100)、Node_message(100)和GraphGather模块提取的信息导入GlobalReadout模块,通过两个MLP层来进行全局的图读出操作,其中第一个MLP层隐藏层的维度500、深度4,第二个MLP层隐藏层的维度500、深度4、每个节点的附加特征的长度为4,通过节点和图级别的表示生成图级别的输出Graph_output(625)张量,即生成器生成的新分子信息。
判别器包括:第一全连接层、第二全连接层、第三全连接层和第四全连接层。判别器将生成器生成的分子信息Graph_output(625)张量传递给顺序模型进行前向传播,计算损失,并通过梯度下降算法更新判别器的参数。
第一全连接层用于将新分子的信息映射到1024维的特征空间,得到1024维特征;第二全连接层用于将1024维特征映射到512维的特征空间,得到512维特征;第三全连接层用于将512维特征映射到256维的特征空间,得到256维特征;第四全连接层用于将256维特征映射到1维的特征空间,输出一个标量valid或fake,得到新分子是初始样本的概率。判别器还包括函数映射单元;函数映射单元用于将概率通过Sigmoid函数映射到0-1的范围内,表示分子是来自训练集还是生成器新生成的分子。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (4)
1.融合GGNN-GAN的深度学习分子生成系统,其特征在于,包括:数据收集模块、预处理模块和分子生成模块;
所述数据收集模块用于收集初始分子的分子数据,所述分子数据包括:化学结构、活性和物理性质;
所述预处理模块用于对所述分子数据进行编码,生成对应的特征矩阵;
所述分子生成模块用于基于所述特征矩阵,训练GGNN-GAN分子生成模型,并利用所述GGNN-GAN分子生成模型生成新的分子结构;
所述预处理模块包括:第一转换单元和第二转换单元;
所述第一转换单元用于将所述分子数据的SMILES序列转换为分子图;
所述第二转换单元用于将所述分子图转换为所述特征矩阵,所述特征矩阵包括:节点特征矩阵、边特征矩阵和邻接矩阵;
所述GGNN-GAN分子生成模型包括:生成器和判别器;
所述生成器用于基于所述特征矩阵对分子结构进行建模和学习,并生成新分子;
所述判别器用于得到所述新分子是初始样本的概率,并识别所述新分子是否为所述初始分子,若不是,则标记所述新分子,并将标记后新分子传入至所述生成器中;
所述生成器包括:信息传递单元、节点更新单元和读取单元;
所述信息传递单元用于基于所述边特正矩阵和所述邻接矩阵计算边消息;
所述节点更新单元用于更新所述节点特征矩阵,得到更新后的节点信息;
所述读取单元用于提取节点的图级别表示,并基于所述图级别表示、所述边消息和所述节点信息进行全局的图读出,得到所述新分子;
所述判别器包括:第一全连接层、第二全连接层、第三全连接层和第四全连接层;
所述第一全连接层用于将所述新分子的信息映射到1024维的特征空间,得到1024维特征;
所述第二全连接层用于将所述1024维特征映射到512维的特征空间,得到512维特征;
所述第三全连接层用于将所述512维特征映射到256维的特征空间,得到256维特征;
所述第四全连接层用于将所述256维特征映射到1维的特征空间,得到所述新分子是所述初始样本的概率。
2.根据权利要求1所述融合GGNN-GAN的深度学习分子生成系统,其特征在于,所述图级别表示包括:节点特征的尺寸、隐藏节点特征的尺寸和输出特征的尺寸。
3.根据权利要求1所述融合GGNN-GAN的深度学习分子生成系统,其特征在于,所述判别器还包括函数映射单元;
所述函数映射单元用于将所述概率通过Sigmoid函数映射到0-1的范围内。
4.融合GGNN-GAN的深度学习分子生成方法,其特征在于,包括以下步骤:
收集初始分子的分子数据,所述分子数据包括:化学结构、活性和物理性质;
对所述分子数据进行编码,生成对应的特征矩阵;
基于所述特征矩阵,训练GGNN-GAN分子生成模型,并利用所述GGNN-GAN分子生成模型生成新的分子结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311203938.9A CN117012304B (zh) | 2023-09-18 | 2023-09-18 | 融合ggnn-gan的深度学习分子生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311203938.9A CN117012304B (zh) | 2023-09-18 | 2023-09-18 | 融合ggnn-gan的深度学习分子生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117012304A CN117012304A (zh) | 2023-11-07 |
CN117012304B true CN117012304B (zh) | 2024-02-02 |
Family
ID=88567452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311203938.9A Active CN117012304B (zh) | 2023-09-18 | 2023-09-18 | 融合ggnn-gan的深度学习分子生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117012304B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592114B (zh) * | 2024-01-19 | 2024-04-19 | 中国电子科技集团公司第三十研究所 | 面向网络平行仿真的数据脱敏方法、系统和可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128314A (zh) * | 2018-10-30 | 2020-05-08 | 深圳市云网拜特科技有限公司 | 一种药物发现方法和系统 |
CN115104105A (zh) * | 2020-02-19 | 2022-09-23 | 英矽智能科技有限公司 | 用于图到序列模型方法的对抗性自动编码器架构 |
CN116525029A (zh) * | 2023-04-26 | 2023-08-01 | 武汉大学 | 一种基于流模型的分子图生成方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230290114A1 (en) * | 2020-12-16 | 2023-09-14 | Ro5 Inc. | System and method for pharmacophore-conditioned generation of molecules |
-
2023
- 2023-09-18 CN CN202311203938.9A patent/CN117012304B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128314A (zh) * | 2018-10-30 | 2020-05-08 | 深圳市云网拜特科技有限公司 | 一种药物发现方法和系统 |
CN115104105A (zh) * | 2020-02-19 | 2022-09-23 | 英矽智能科技有限公司 | 用于图到序列模型方法的对抗性自动编码器架构 |
CN116525029A (zh) * | 2023-04-26 | 2023-08-01 | 武汉大学 | 一种基于流模型的分子图生成方法与装置 |
Non-Patent Citations (1)
Title |
---|
Learn Travel Time Distribution with Graph Deep Learning and Generative Adversarial Network;Xiaozhuang Song等;《IEEE Intelligent Transportation Systems Conference》;1385-1390 * |
Also Published As
Publication number | Publication date |
---|---|
CN117012304A (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113707235B (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
WO2022222231A1 (zh) | 药物与靶标的相互作用预测方法、装置、设备及存储介质 | |
CN111710375B (zh) | 一种分子性质预测方法及系统 | |
CN113299354A (zh) | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 | |
CN112926303B (zh) | 一种基于BERT-BiGRU的恶意URL检测方法 | |
CN107729497A (zh) | 一种基于知识图谱的词嵌入深度学习方法 | |
CN117012304B (zh) | 融合ggnn-gan的深度学习分子生成系统及方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN111428848B (zh) | 基于自编码器和3阶图卷积的分子智能设计方法 | |
CN111710376B (zh) | 大分子及团簇体系分块计算负载均衡方法及系统 | |
CN112397155B (zh) | 一种单步逆向合成方法及系统 | |
CN115836351A (zh) | 利用基于原子轨道的特征确定分子性质的系统和方法 | |
CN114511154B (zh) | 一种基于时空复杂图卷积网络的交通流预测方法 | |
CN114999565B (zh) | 一种基于表示学习和图神经网络的药物靶标亲和力预测方法 | |
CN113948157B (zh) | 化学反应分类方法、装置、电子设备及存储介质 | |
CN113420868A (zh) | 一种基于深度强化学习的旅行商问题求解方法及求解系统 | |
CN116628510A (zh) | 一种自训练可迭代的人工智能模型训练方法 | |
CN114495500A (zh) | 一种基于对偶动态时空图卷积的交通预测方法 | |
CN115526246A (zh) | 一种基于深度学习模型的自监督分子分类方法 | |
Guo et al. | Graph neural networks: Graph transformation | |
CN118038032A (zh) | 基于超点嵌入和聚类的点云语义分割模型及其训练方法 | |
Hu et al. | Graph transformer based dynamic multiple graph convolution networks for traffic flow forecasting | |
CN104156462A (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
CN116884535A (zh) | 一种基于三分支结构深度学习模型的分子筛选方法 | |
CN108830030B (zh) | 原子类型定义系统及其原子类型匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |