CN112397157A - 基于子图-变分自编码结构的分子生成方法 - Google Patents
基于子图-变分自编码结构的分子生成方法 Download PDFInfo
- Publication number
- CN112397157A CN112397157A CN202011170128.4A CN202011170128A CN112397157A CN 112397157 A CN112397157 A CN 112397157A CN 202011170128 A CN202011170128 A CN 202011170128A CN 112397157 A CN112397157 A CN 112397157A
- Authority
- CN
- China
- Prior art keywords
- subgraph
- molecular
- molecules
- sub
- molecule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000000126 substance Substances 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000005314 correlation function Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 claims description 2
- 238000007637 random forest analysis Methods 0.000 claims description 2
- 239000002994 raw material Substances 0.000 claims 1
- 239000003814 drug Substances 0.000 abstract description 7
- 229940079593 drug Drugs 0.000 abstract description 7
- 238000013461 design Methods 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000003786 synthesis reaction Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种基于子图‑变分自编码结构的分子生成方法,首先挖掘训练集中所有分子的频繁子图集,再通过基于统计的计数阈值与药学性质筛选频繁子图,得到满足条件的分子子图总集S*;对训练集中的每个分子G进行图分解,得到相应的分子子图集合S;将分子集S输入编码器进行编码,得到相应的隐空间向量Z;最后将Z输入解码器进行解码,得到重构的分子G′,本发明克服了传统逐原子生成方法带来的化学特性缺失和难以合成等缺点,通过子结构的应用保证了分子的某些化学性质,进而生成化学性质稳定并且易于合成的分子结构,为新型药物小分子的发现与设计带来极大的便利,降低了相关工作人员对领域知识的依赖,提高了新型药物设计和开发的效率,缩短研发周。
Description
技术领域
本发明属于人工智能药物研发领域,具体涉及基于分子子图-自编码结构的分子生成与优化的药物研发领域。
背景技术
在药物分子生成与优化领域中,由于分子间排列组合众多,形成的分子空间过于庞大,通过人工自定义规则来筛选的空间有限,如何利用已有分子数据,自动化地找到与目标分子最相关的分子或分子空间至关重要。传统的方法通常是对已知分子和目标分子的化学性质进行分析,并人工设计新的分子结构。这种方法效率非常低,而且这个过程非常依赖于化学家的领域知识和经验,因此有人提出基于机器学习的方法自动生成新分子;常用的方法是将分子表示为SMILES(简化分子线性输入规范)字符串,然后训练图神经网络模型或者是RNN模型来自动生成新分子结构。
目前常见的自动生成新分子的模型主要是先把分子表示为SMILES形式,再利用常用的时间序列模型或自然语言处理模型来生成SMILES序列,最后再转成对应的分子。然而分子的SMILES表示并不能很好的刻画分子之间的相似性,两种化学结构高度相似的分子可能会被编码成两串相差甚远的SMILES字符。并且,SMILES序列生成模型中,并不能很好的保持有效的化学结构。
在最新的研究中,有人提出基于Graph的分子生成模型,如图1所示,就是将分子表示为一个图,然后以图作为输入数据,生成一个新的图,新图就是新生成的分子。这种方法通常是以原子为单位不断进行生成,最后形成一个完整的分子图。这种基于图的方法生成的分子虽然在某些化学特性比SMILES具有更好的表达性,但是由于整个图是基于单个原子逐步产生的,因此在生成的过程中,并没有考虑一些全局的化学结构,因此得到的分子通常在某些化学特性上并不能满足实际需求。
发明内容
发明目的:通过子图的方式保持并传递相关的化学结构与特性,再通过隐变量空间发掘更多潜在的分子结构,进而进行自动组合,生成多样化的分子。
技术方案;本发明基于VAE框架提出了一种基于分子子图-自编码结构的分子生成与优化方法,具体流程如图1所示,主要过程如下:
首先基于gSpan算法挖掘训练集中所有分子(没有任何特别的功能)的频繁子图集(图1-b),再通过基于统计的计数阈值与药学性质筛选频繁子图,得到满足条件的分子子图总集S*(图1-c);
其次对训练集中的每个分子G进行图分解,得到相应的分子子图集合S(图1-d);
再次将分子集S输入multiscale VAE的编码器进行编码,得到相应的隐空间向量z(图1-3);
最后将z输入multiscale VAE的解码器进行解码,得到重构的分子G′(图1-4);
通过上述过程联合训练编码器和解码器,当训练完成后,可先利用编码器将输入分子映射到隐空间中,再通过对隐变量的解码来生成所需要的分子。其中multiscale VAE如图2所示,分别包含原子层的编码解码与子图层的编码解码。
技术效果:本发明创新性地提出了基于分子子图-自编码结构的分子生成方法,克服了传统逐原子生成方法带来的化学特性缺失和难以合成等缺点,通过子结构的应用保证了分子的某些化学性质,进而生成化学性质稳定并且易于合成的分子结构,为新型药物小分子的发现与设计带来极大的便利,降低了相关工作人员对领域知识的依赖,提高了新型药物设计和开发的效率,缩短研发周期,具有较高的实用价值。
附图说明
图1是本发明子图-自编码分子生成模型流程图;
图2是本发明multiscale VAE编码解码。
具体实施方式:
发明原理:为了生成具备某种或者某几种指定化学特性的全新药物分子,并且在实际中是可以合成的,本发明提出了一种基于子图-变分自编码结构的分子生成方法,即首先通过gSpan算法(一种基于图模式搜索的生成频繁子图集的算法)获取训练集分子中的所有频繁子图集,筛选满足条件的子图作为分子子图的总集,然后将分子分割为环或频繁子图集,再利用多尺度变分自编码模型(multiscale VAE(变分自动编码器))重建原分子图。我们通过子图的方式保持并传递相关的化学结构与特性,再通过隐变量空间发掘更多潜在的分子结构,进而进行自动组合,生成多样化的分子。
基于本文提出的基于分子子图-变分自编码器的分子生成方法生成全新药物分子的具体流程如下:
生成分子子图总集
(1)设置频繁度k,利用gSpan算法将训练集中的分子生成频繁子图集;
(2)用随机森林算法训练特定化学药性检测器Ri;
(3)筛选频繁子图集:用上述检测器Ri检测(1)所得频繁子图集,筛选大于一定阈值的频繁子集作为分子子图总集。
1.分子分解成子图集
首先利用RDKit(开源的化学工具包)自带的相关函数找到分子中的环,然后基于分子子图总集,根据子图大小,按照后项搜索匹配原则,从较大的子图开始依次分割原分子。
2.训练多尺度变分自编码器multiscale VAE
这里我们选用反馈神经网络GRU表示图网络中的节点传播,用多层全连接网络MLP表示原子到子图的聚合。
(1)原子层分子图:u,v表示原子,{e(au)},{e(buv)}分别表示所有以原子为顶点的集合与以原子与原子相连为边的集合。
(2)子图层分子图:Si表示第i个子图,fSi表示第子图Si代表的顶点,dij表示Si到Sj的连接。
(3)隐变量:
(4)预测下一个添加的子图St:
(5)预测St添加到Sk的方式:
pM=softmax(hM·zG)
其中1-3为multiscale VAE编码过程,4-5为multiscale VAE解码过程,损失函数为
其中Q(z|G)是均值、方差与G相似的正态分布,P(G|z)表示隐变量解码时的损失。注意在解码过程5中原分子重建时我们有原始分子图,故训练过程中存在真实的标签信息。
4.生成新的分子
从隐空间进行随机采样,基于multiscale VAE的解码器,生成新的分子;
以上实施例进一步说明本发明的内容,但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的修改或替换,均属于本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。
Claims (4)
1.基于子图-变分自编码结构的分子生成方法,其特征在于:
步骤一,挖掘训练集中所有分子的频繁子图集,再通过基于统计的计数阈值与药学性质筛选频繁子图,得到满足条件的分子子图总集S*;
步骤二,对训练集中的每个分子G进行图分解,得到相应的分子子图集合S;
步骤三,将分子集S输入变分自编码器进行编码,得到相应的隐空间向量Z;
步骤四,将Z输入变分自解码器进行解码,得到重构的分子G′。
2.根据权利要求1所述的基于子图-变分自编码结构的分子生成方法,其特征在于步骤一,所述的生成子图总集S*方法,
(1)设置频繁度k,利用gSpan算法将训练集中的分子生成频繁子图集;
(2)用随机森林算法训练特定化学药性检测器Ri;
(3)筛选频繁子图集:用上述检测器Ri检测(1)所得频繁子图集,筛选大于一定阈值的频繁子集作为分子子图总集S*。
3.根据权利要求1或2所述的基于子图-变分自编码结构的分子生成方法,其特征在于步骤二,所述的分子子图集合S生成方法,
(1)利用化学工具包自带的相关函数找到分子中的环;
(2)基于分子子图总集,根据子图大小,按照后项搜索匹配原则,从较大的子图开始依次分割原分子,所有的化学性质稳定的最小单元的集合S。
4.根据权利要求1或2所述的基于子图-变分自编码结构的分子生成方法,其特征在于步骤三,所述的变分自编码器,其训练方法如下:(ⅰ)原子层分子图:u,v表示原子,{e(au)},{e(buv)}分别表示所有以原子为顶点的集合与以原子与原子相连为边的集合。
(ii)子图层分子图:Si表示第i个子图,fSi表示第子图Si代表的顶点,dij表示Si到Sj的连接。
(iii)隐变量:
(iv)预测下一个添加的子图St:
(v)预测St添加到Sk的方式:
pM=softmax(hM·zG)
其中ⅰ-iii为编码过程,iv Mtk={(uj,vj)|uj∈Sk,vj∈St}-v为解码过程,损失函数为
其中Q(z|G)是均值、方差与G相似的正态分布,P(G|z)表示隐变量解码时的损失;在解码过程ⅴ中原分子重建时有原始分子图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011170128.4A CN112397157A (zh) | 2020-10-28 | 2020-10-28 | 基于子图-变分自编码结构的分子生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011170128.4A CN112397157A (zh) | 2020-10-28 | 2020-10-28 | 基于子图-变分自编码结构的分子生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112397157A true CN112397157A (zh) | 2021-02-23 |
Family
ID=74597857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011170128.4A Pending CN112397157A (zh) | 2020-10-28 | 2020-10-28 | 基于子图-变分自编码结构的分子生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112397157A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038516A (zh) * | 2021-11-25 | 2022-02-11 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化 |
CN115424666A (zh) * | 2022-09-13 | 2022-12-02 | 江苏先声医学诊断有限公司 | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 |
CN117877623A (zh) * | 2023-12-13 | 2024-04-12 | 重庆大学 | 一种基于多层级可解释性表征的最优分子子结构选取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634539A (zh) * | 2019-09-12 | 2019-12-31 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置及存储介质 |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
US20200176087A1 (en) * | 2018-12-03 | 2020-06-04 | Battelle Memorial Institute | Method for simultaneous characterization and expansion of reference libraries for small molecule identification |
CN111428848A (zh) * | 2019-09-05 | 2020-07-17 | 中国海洋大学 | 基于自编码器和3阶图卷积的分子智能设计方法 |
CN111816265A (zh) * | 2020-06-30 | 2020-10-23 | 北京晶派科技有限公司 | 一种分子生成方法和计算设备 |
-
2020
- 2020-10-28 CN CN202011170128.4A patent/CN112397157A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200176087A1 (en) * | 2018-12-03 | 2020-06-04 | Battelle Memorial Institute | Method for simultaneous characterization and expansion of reference libraries for small molecule identification |
CN111428848A (zh) * | 2019-09-05 | 2020-07-17 | 中国海洋大学 | 基于自编码器和3阶图卷积的分子智能设计方法 |
CN110634539A (zh) * | 2019-09-12 | 2019-12-31 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置及存储介质 |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN111816265A (zh) * | 2020-06-30 | 2020-10-23 | 北京晶派科技有限公司 | 一种分子生成方法和计算设备 |
Non-Patent Citations (1)
Title |
---|
WENGONG JIN: "Junction Tree Variational Autoencoder for Molecular Graph Generation", pages 1 - 2, Retrieved from the Internet <URL:https://arxiv.org/abs/1802.04364> * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038516A (zh) * | 2021-11-25 | 2022-02-11 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化 |
CN114038516B (zh) * | 2021-11-25 | 2024-04-19 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化方法 |
CN115424666A (zh) * | 2022-09-13 | 2022-12-02 | 江苏先声医学诊断有限公司 | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 |
CN117877623A (zh) * | 2023-12-13 | 2024-04-12 | 重庆大学 | 一种基于多层级可解释性表征的最优分子子结构选取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112397157A (zh) | 基于子图-变分自编码结构的分子生成方法 | |
CN110580501B (zh) | 一种基于变分自编码对抗网络的零样本图像分类方法 | |
JP7247258B2 (ja) | コンピュータシステム、方法及びプログラム | |
Fu et al. | Mimosa: Multi-constraint molecule sampling for molecule optimization | |
Fu et al. | Core: Automatic molecule optimization using copy & refine strategy | |
CN103235974B (zh) | 一种提高海量空间数据处理效率的方法 | |
Faez et al. | Deep graph generators: A survey | |
CN113707235A (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN110533570A (zh) | 一种基于深度学习的通用隐写方法 | |
Weissenberg et al. | Is there a procedural logic to architecture? | |
Foo et al. | Ai-generated content (aigc) for various data modalities: A survey | |
CN117524353A (zh) | 一种基于多维度分子信息的分子大模型、构建方法及应用 | |
Li et al. | Small-sample production prediction of fractured wells using multitask learning | |
Bhaskar et al. | Molecular graph generation via geometric scattering | |
CN114038516B (zh) | 一种基于变分自编码器的分子生成与优化方法 | |
CN113641854B (zh) | 一种将文字转化为视频的方法及系统 | |
Din et al. | Learning high-dimensional evolving data streams with limited labels | |
Zhang et al. | Towards unbiased training in federated open-world semi-supervised learning | |
Shao et al. | Synchronization-inspired co-clustering and its application to gene expression data | |
de Castro et al. | BAIS: A Bayesian Artificial Immune System for the effective handling of building blocks | |
Yu et al. | Self-attentive attributed network embedding through adversarial learning | |
Jiang et al. | Unsupervised Adversarial Domain Adaptation Regression for Rate of Penetration Prediction | |
Müller et al. | Extracting knowledge from life courses: Clustering and visualization | |
CN115240787A (zh) | 基于深度条件循环神经网络的全新分子生成方法 | |
Alymani et al. | Machine learning methods for clustering architectural precedents-classifying the relationship between building and ground |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |