CN115240787A - 基于深度条件循环神经网络的全新分子生成方法 - Google Patents

基于深度条件循环神经网络的全新分子生成方法 Download PDF

Info

Publication number
CN115240787A
CN115240787A CN202210883279.7A CN202210883279A CN115240787A CN 115240787 A CN115240787 A CN 115240787A CN 202210883279 A CN202210883279 A CN 202210883279A CN 115240787 A CN115240787 A CN 115240787A
Authority
CN
China
Prior art keywords
molecule
neural network
molecular
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210883279.7A
Other languages
English (en)
Inventor
杨胜勇
汪益妃
邹俊
杨欣
吴明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210883279.7A priority Critical patent/CN115240787A/zh
Publication of CN115240787A publication Critical patent/CN115240787A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于深度循环神经网络的全新分子生成方法,利用循环神经网络框架的特征提取器和分子生成器以及基于成药与靶标相关规则构建的性质筛选器,建立了全新分子生成模型。该方法将化合物分子表示为SMILES(简化分子线性输入规范),通过模型训练阶段,学习训练数据化合物分子特征,得到训练模型;通过分子重构阶段,利用训练模型重构分子;通过分子生成阶段,利用训练模型生成分子;通过分子筛选阶段,利用性质筛选器筛选具有特定性质的分子。本发明可用于全新化合物分子的生成,通过单次训练即可模拟训练分子的特征和性质,从而进行具有特定性质的分子生成。采用本发明生成的分子具有分子结构新颖、类药性质优异的特点。

Description

基于深度条件循环神经网络的全新分子生成方法
技术领域
本发明涉及计算机人工智能与新药分子设计的交叉技术领域,特别涉及一种基于深度条件循环神经网络的全新分子生成方法,是一种基于深度循环神经网络框架和基于成药性与靶标相关规则进行全新分子设计的方法。
背景技术
在基于结构的小分子药物设计方法中,全新分子生成在药物研发过程中起重要作用,是创新药物发现的关键技术。以虚拟筛选为代表的传统药物设计方法,主要用于从已知虚拟化合物库进行搜索。然而,由于化学空间中潜在可合成分子数目庞大(1023—1060),以及当前计算机计算性能的限制,对整个化学空间进行全局搜索较难,对搜索结果的分析和处理需要大量的专业经验。人工智能技术作为一种数据驱动的计算方法,具有可以从数据集中快速、自动学习药物分子的化学结构和结构-药效关系等知识的特点,能够帮助科学家设计具有目标性质的分子,为药物发现和开发带来希望。基于深度神经网络的从头分子设计方法作为一种新型人工智能技术,具有无须枚举虚拟化合物库即可生成全新分子的优势。对于从头开始的工作流程,要产生一组保证包含特定子结构的分子,要么分子生成器必须知道分子图谱,要么可以应用后处理过滤器来删除没有所需图谱的分子。已有研究中,引入预测模型指导生成模型对化学空间的探索工作,取得了许多进展。指导分子生成器对化学空间的探索,并经常涉及使用一个或多个QSAR模型。然而,这些模型在给定一组训练实例的情况下预测未来化合物的分子特性。尽管依赖预测模型是很自然的,但应谨慎行事,因为分子生成器可以利用模型特有的特征,这些特征是由模型特有的和数据特有的偏差引起的,导致生成的分子尽管在数值上是优越的,但实际上并不实用。同时,在针对特定靶标的研究中,缺乏有效的生成方式,影响最终生成的效果,无法满足新药分子设计的要求。在分子生成的过程中,已有模型的分子生成多样性效果较差,难以应用于特定靶标的全新化合物分子的生成。因此,目前仍然需要发展新的、面向具体靶标的全新分子生成方法,促进机器学习在新药研发中的应用,为缩短药物研发周期和降低药物研发成本提供有利条件。
发明内容
本发明的目的在于提出一种基于深度条件循环神经网络的全新化合物分子生成方法,能够实现满足包括特定靶标亲和力、可成药性、合成可及性等多种目标性质的分子生成。
本发明的基本思路是:收集化合物分子作为训练数据,以深度循环神经网络为基本框架,构建特征提取器实现分子特征提取,构建分子生成器进行全新分子生成,同时结合成药与靶标相关规则的性质筛选,从而用于满足目标性质的分子生成。
本发明的技术方案是。
一种基于深度条件循环神经网络的全新分子生成方法,其特征在于:将化合物分子表示为SMILES(简化分子线性输入规范),利用深度循环神经网络框架的特征提取器和分子生成器,以及基于成药与靶标相关规则构建的性质筛选器的全新分子生成模型;特征提取器利用双向循环神经网络从化合物分子提取等长的特征向量;分子生成器利用深度循环神经网络并结合特征向量进行推断过程,实现分子重构或生成;性质筛选器对特定靶标亲和力、可成药性、合成可及性多种目标性质进行筛选,获得具有特定性质的化合物分子库。
包括以下步骤。
(1)训练数据的收集与处理,词嵌入矩阵编码表的提取。
(2)模型训练阶段,学习训练数据化合物分子特征,得到训练模型。
(3)分子重构阶段,利用训练模型重构分子。
(4)分子生成阶段,利用训练模型生成分子。
(5)分子筛选阶段,利用性质筛选器筛选具有特定性质的分子。
进一步地,所述步骤(1)具体包括。
收集化合物分子并进行预处理,建立训练数据集,以sdf格式保存。
使用基于频率的分析方法,构建词嵌入矩阵编码表;所有化学信息相关分析均通过开源代码包RDKit实现。
采用标准SMILES字符串表示的化合物分子,通过词嵌入矩阵编码表转化为向量矩阵表示,以TFRecord格式保存。
进一步地,所述步骤(2)具体包括。
将训练数据通过特征提取器编码为固定长度的特征向量。
分子生成器接受训练数据和特征向量作为输入,进行模型训练。
多次通过格点搜索的方法,手动调整模型的超参数(学习率、神经元数目、神经网络层数等),保留交叉熵损失函数收敛值最小的训练模型。
选择多次训练过程中的最佳模型作为训练模型。
进一步地,所述步骤(3)具体包括。
运行训练模型,特征提取器将化合物分子编码为等长的特征向量。
分子生成器接受起始符和特征向量作为输入,进行分子重构。
通过重构分子数据计算重构率。
保存重构的分子数据。
进一步地,所述步骤(4)具体包括。
运行训练模型,特征提取器将化合物分子编码为等长的特征向量。
对所得特征向量进行数据增强,得到新的向量分布。
分子生成器接受起始符和新的向量分布作为输入,进行分子生成。
多次手动调试数据增强过程的超参数,保留最佳生成结果。
预先设定生成终止条件,当满足终止条件时,终止生成过程,保存生成的分子数据。
进一步地,所述步骤(5)具体包括。
性质筛选:对包括脂水分配系数、分子量、氢键供体数、氢键受体数、可旋转键的数目、极性表面积、合成可及性评分、成药性评分等常用分子描述符对生成分子进行了筛选;所有分子描述符的计算通过开源代码包RDKit实现。
特定靶标筛选:结合特定靶标特点,使用包括强化学习、药效团模型、活性预测模型、受体—配体相互作用模拟评分等技术,实现生成分子对特定靶标的筛选;所有计算/模拟过程通过自建程序或开源代码包RDKit或Discovery Studio软件实现。
进一步地,所述的基于深度条件循环神经网络的全新分子生成模型包括特征提取器、分子生成器和性质筛选器,所述的训练数据作为特征提取器和/或分子生成器的输入,所述特征提取器的输出作为分子生成器的输入;所述分子生成器的输出作为性质筛选器的输入。
进一步地,特征提取器利用双向循环神经网络将化合物分子编码为等长的特征向量,包括2个过程。
1)前向循环神经网络f (F),按x 1x t顺序读取输入序列,计算前向隐藏状态 ( h (F) 1 , ⋯ , h (F) t );后向循环神经网络f (B) ,按x tx 1顺序读取输入序列,计算后向隐藏状态 ( h (B) t , ⋯ , h (B) 1 ) ;对于某一时刻m。
h (F) m = f forward (x m, h (F) m - 1 ) 。
h (B) m = f backward (x m , h (B) m + 1 ) 。
x m表示第m时刻的输入字符,h (F) m表示第m时刻的前向隐含层向量,h (B) m表示第m时刻的后向隐含层向量,f forward (x) 和f backward (x) 表示非线性函数。
2)通过前向隐含层向量h (F) t与后向隐含层向量h (B) t计算隐含层向量h t
h t = [ ( h (F) t )T , ( h (B) t )T ]T
h t表示第t时刻的隐含层向量。
进一步地,分子生成器利用深度循环神经网络,结合特征向量进行模型拟合、分子重构或生成,具体包括。
对于模型拟合。
1)通过隐含层向量h t与输入字符x t,生成t时刻的输出字符o t
p ( o t | x t , h t ) = g ( x t , h t ) 。
h t = f ( h t - 1 , x t ) 。
o t表示t时刻的输出字符,x t表示t时刻的输入字符,h t表示t时刻深度循环神经网络隐含层向量,g (x) 和 f (x) 表示非线性函数。
2)通过所有输出字符的概率计算输出序列O的概率。
p (O) = Πp ( o t | x t , h t ) 。
p (O) 表示输出序列O的概率。
对于分子重构或生成。
1)通过隐含层向量h t与t时刻之前的预测字符{ y 1 , ⋯ , y t - 1 },生成t时刻的预测字符。
p ( y t | { y 1 , ⋯ , y t - 1 } , h t ) = g' ( y t - 1 , h t ) 。
h t = f ' (h t - 1 , y t - 1 ) 。
y t表示t时刻的预测字符,h t表示t时刻深度循环神经网络隐含层向量,g' (x)和f ' (x)表示非线性函数。
2)通过所有预测字符的概率计算预测序列Y的概率。
p (Y) = Πp ( y t | { y 1 , ⋯ , y t - 1 } , h t ) 。
p (Y) 表示预测序列Y的概率。
本发明的积极效果是:本发明属于一种全新分子生成模型,该模型由特征提取器、分子生成器和性质筛选器三个部分组成。本发明的创新之处在于利用分子生成器有效获取了化合物分子表征在计算机语境下的生成规则和分子表征与特定性质之间的非显式关系,进一步使用特征提取器抽取的特征向量作为条件输入,可以对训练分子的特征和性质进行有效模拟,以自监督的方式学习到训练数据中的隐含数据分布,通过特征提取器、分子生成器和性质筛选器的有机组合,实现了具有特定性质的全新分子生成。相比于以前的其它基于深度学习或机器学习进行分子生成的方法,本方法具有的优势如下。
第一,本发明的方法比传统的分子生成方法效果更好。传统的分子生成方法在进行分子生成是往往是从人为定义的简单数据分布中进行无条件限定的随机采样,生成的分子完全依赖于固定的模型参数。本发明通过对以自监督方式学习到的训练数据的隐含数据分布进行定向采样,实现了基于真实世界数据模拟的全新分子生成,使用深度条件循环神经网络生成的分子具有训练数据的特定性质,同时,生成的分子具有分子结构新颖、类药性质优异的特点。
第二,本发明的方法使用的深度条件循环神经网络相较于传统循环神经网络,具有更好的分子生成效果。深度条件循环神经网络使用特征提取器抽取的特征向量,通过对训练数据的特征和性质进行有效模拟,提升了模型的分子生成效果。
附图说明
图1是本发明提供的分子生成方法的总体工作流程图。
图2是本发明提供的分子生成方法的模型示意图。
图3是本发明实施例的分子生成方法的实施步骤图。
图4是本发明的训练阶段流程图。
图5是本发明的重构阶段流程图。
图6是本发明的生成阶段流程图。
图7是本发明的筛选阶段示意图。
具体实施方式
附图给出了采用本发明实现具有特定性质的分子生成的具体过程。
本发明提出的基于深度条件循环神经网络的全新分子生成方法,涉及计算机人工智能与新药分子设计的交叉技术领域,其核心思想是将条件输入引入循环网络框架,在有效获取化合物分子表征在计算机语境下的生成规则和分子表征与特定性质之间的非显式关系的基础上模拟训练分子的特征和性质,能够有效利用以自监督方式学习到的训练数据中的隐含数据分布,实现具有特定性质的全新分子生成。
如图1所示,本发明方法包括构建符合需求的化合物分子数据库、计算并规范化合物分子表征、构建特征提取器框架、设计并实现数据增强模块、构建分子生成器框架、分子生成过程执行、构建性质筛选器和生成化合物分子库过程执行等步骤。
如图2所示,本发明方法是基于深度条件循环神经网络的全新分子生成方法。模型利用循环神经网络框架构建特征提取器和分子生成器,基于成药与靶标相关规则构建性质筛选器。特征提取器利用双向循环神经网络将由化合物分子的标准SMILES字符编码的词嵌入向量抽取为固定长度的特征向量;分子生成器利用深度循环神经网络对特征向量和词嵌入向量进行转码,实现输出和分子生成;性质筛选器采用分子描述符、强化学习、药效团模型、活性预测模型、受体—配体相互作用模拟评分等技术对特定靶标亲和力、可成药性、合成可及性多种目标性质进行计算和分析,并筛选得到具有特定性质的化合物分子库。
特征提取器利用双向循环神经网络将化合物分子编码为等长的特征向量,包括2个过程:1)前向循环神经网络f (F),按x 1 x t 顺序读取输入序列,计算前向隐藏状态 (h (F) 1 , ⋯ , h (F) t ) ;后向循环神经网络f (B),按x tx 1顺序读取输入序列,计算后向隐藏状态 ( h (B) t , ⋯ , h (B) 1 ) ;对于某一时刻m:h (F) m = f forward ( x m, h (F) m – 1 ) ,h (B) m= f backward ( x m, h (B) m+1 ) ,x m 表示第m时刻的输入字符,h (F) m 表示第m时刻的前向隐含层向量,h (B) m 表示第m时刻的后向隐含层向量,f forward (x) 和f backward (x) 表示非线性函数;2)通过前向隐含层向量h (F) t 与后向隐含层向量h (B) t计算隐含层向量h t h t =[(h (F) t)T,( h (B) t )T ]Th t 表示第t时刻的隐含层向量。
分子生成器利用深度循环神经网络,结合特征向量进行模型拟合、分子重构或生成,具体包括:对于模型拟合:1)通过隐含层向量h t 与输入字符x t ,生成t时刻的输出字符o tp ( o t | x t , h t ) = g ( x t , h t ),h t = f ( h t - 1 , x t ),o t 表示t时刻的输出字符,x t 表示t时刻的输入字符,h t 表示t时刻深度循环神经网络隐含层向量,g (x) 和f (x) 表示非线性函数;2)通过所有输出字符的概率计算输出序列O的概率:p(O) = Πp ( o t | x t , h t ),p (O)表示输出序列O的概率;对于分子重构或生成:1)通过隐含层向量h t 与t时刻之前的预测字符{ y 1 , ⋯ , y t - 1 },生成t时刻的预测字符:p ( y t | { y 1 , ⋯ , y t - 1 } , h t ) = g' ( y t - 1 , h t ) ,h t = f ' ( h t - 1, y t - 1 ),y t 表示t时刻的预测字符,h t 表示t时刻深度循环神经网络隐含层向量,g'(x) 和f ' (x) 表示非线性函数;2)通过所有预测字符的概率计算预测序列Y的概率:p(Y) = Πp ( y t | { y 1 , ⋯ , y t - 1 } , h t ),p (Y) 表示预测序列Y的概率。
如图3所示,本发明方法的具体操作步骤如下。
步骤1:训练数据获取,训练数据的收集与处理,词嵌入矩阵编码表的提取。
步骤2:模型训练,学习训练数据化合物分子特征,得到训练模型。
步骤3:分子重构,利用训练模型重构分子。
步骤4:分子生成,利用训练模型生成分子。
步骤5:分子筛选,利用性质筛选器筛选具有特定性质的分子。
在本发明中,所述步骤1具体为:收集化合物分子并进行预处理,建立训练数据集,以sdf格式保存;使用基于频率的分析方法,构建词嵌入矩阵编码表;所有化学信息相关分析均通过开源代码包RDKit实现;采用标准SMILES字符串表示的化合物分子,通过词嵌入矩阵编码表转化为向量矩阵表示,以TFRecord格式保存。
如图4所示,在本发明中,所述步骤2具体为:将训练数据通过特征提取器编码为固定长度的特征向量;分子生成器接受训练数据和特征向量作为输入,进行模型训练;多次通过格点搜索的方法,手动调整模型的超参数(学习率、神经元数目、神经网络层数、训练步数等),保留交叉熵损失函数收敛值最小的训练模型;选择多次训练过程中的最佳模型作为训练模型。
如图5所示,在本发明中,所述步骤3具体为:运行训练模型,特征提取器将化合物分子编码为等长的特征向量;分子生成器接受起始符和特征向量作为输入,进行分子重构;通过重构分子数据计算重构率;保存重构的分子数据。
如图6所示,在本发明中,所述步骤4具体为:运行训练模型,特征提取器将化合物分子编码为等长的特征向量;对所得特征向量进行数据增强,得到新的向量分布;分子生成器接受起始符和新的向量分布作为输入,进行分子生成;多次手动调试数据增强过程的超参数,保留最佳生成结果;预先设定生成终止条件,当满足终止条件时,终止生成过程,保存生成的分子数据。
如图7所示,在本发明中,所述步骤5具体为:性质筛选:对包括脂水分配系数、分子量、氢键供体数、氢键受体数、可旋转键的数目、极性表面积、合成可及性评分、成药性评分等常用分子描述符对生成分子进行了筛选;所有分子描述符的计算通过开源代码包RDKit实现;特定靶标筛选:结合特定靶标特点,使用包括强化学习、药效团模型、活性预测模型、受体—配体相互作用模拟评分等技术,实现生成分子对特定靶标的筛选;所有计算/模拟过程通过自建程序或开源代码包RDKit或Discovery Studio软件实现。
以下通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
生成靶向RIPK1的化合物分子,同时满足包括靶标亲和力、可成药性、合成可及性等多种目标性质。实施过程如下。
第一步:获取RIPK1活性化合物分子作为训练数据。从ChEMBL数据库中收录的针对RIPK1进行活性测试的全部化合物,同时收集整理了专利数据库中RIPK1相关专利中的化合物分子。将获得的原始数据均按照以下标准流程进行检查和选择,具体流程如下。
(1)保留具有IC50值的化合物;删除明确注明“Not Determined”和“Not Active”的化合物;删除IC50值不确定和范围定义模糊的化合物(例如:范围小于100 μM的化合物、范围大于1 μM的化合物)。(2)去除重复化合物。(3)对于ChEMBL数据库,对照原始参考文献检查化合物的IC50值和化学结构;对于专利数据库,在ChemDraw软件中手动录入符合条件的分子结构式,并转化为SMILES格式。(4)设定化合物的活性阈值,即IC50值小于设定阈值的化合物定义为RIPK1活性化合物。(5)使用RDKit将收集到的RIPK1活性化合物转化为标准SMILES字符串,并移除无法被RDKit处理的分子。经过上述数据收集、整理和清洗流程,最终得到RIPK1活性化合物数据集,共计1030个分子。
第二步:使用训练数据,建立基于深度条件循环神经网络的分子生成模型。在此过程中,模型进行参数更新的部分包括特征提取器和分子生成器。在模型训练过程中,通过手动调整模型的超参数(学习率、神经元数目、神经网络层数等),保留多次训练过程中的最佳模型作为训练模型。本例从以下几个方面进行调试。
模型训练阶段的学习率候选范围:0.01,0.001,0.0001,0.00001;批处理大小候选范围:5,10,20,50;数据增强的正态分布设置:期望为1,标准差为0。
特征提取器利用双向循环神经网络将化合物分子编码为等长的特征向量。特征提取器神经元层数候选范围:1,2,4;特征提取器每层神经元数目候选范围:32,64,128,256。
分子生成器利用深度循环神经网络,结合特征向量进行模型拟合。分子生成器神经元层数候选范围:1,2,4;分子生成器每层神经元数目候选范围:64,128,256,512。
第三步:从上一步获得的训练模型,通过重构分子数据计算重构率,进行模型分子重构性能评估。保存重构的分子数据。
分子重构阶段的批处理大小候选范围:500,1000,2000,5000。
第四步:利用上一步通过重构评估的训练模型,进行分子生成。
运行训练模型,特征提取器将化合物分子编码为等长的特征向量;对所得特征向量进行数据增强,得到新的向量分布;分子生成器接受起始符和新的向量分布作为输入,进行分子生成;多次手动调试数据增强过程的超参数,保留最佳生成结果;预先设定生成终止条件,当满足终止条件时,终止生成过程,保存生成的分子数据。
分子生成阶段的批处理大小候选范围:500,1000,2000,5000。
第五步:对上一步生成的分子,使用自建程序或开源代码包RDKit或DiscoveryStudio软件进行分子筛选。最终得到具有良好成药性、靶向RIPK1的全新化合物分子库。
全新分子生成在药物研发过程中起重要作用,是创新药物发现的关键技术。传统药物设计方法如虚拟筛选和药效团模型主要用于对已知虚拟化合物库进行搜索。由于化学空间中药物分子数目庞大以及当前计算机计算性能的限制,使得对整个化学空间进行搜索变得不切实际,对搜索结果的分析和处理还需要大量的专业经验。基于深度神经网络的从头分子设计方法作为一种新型人工智能技术,可用于生成具有所需性质的分子。具有无须枚举虚拟化合物库即可生成具有优化性质的新分子等优势。
现有分子生成方法在进行分子生成是往往是从人为定义的简单数据分布中进行无条件限定的随机采样,生成的分子完全依赖于固定的模型参数。而本发明提出的基于深度条件循环神经网络的全新分子生成方法通过对以自监督方式学习到的训练数据的隐含数据分布进行定向采样,实现了基于真实世界数据模拟的全新分子生成,使用深度条件循环神经网络生成的分子具有训练数据的特定性质,同时,生成的分子具有分子结构新颖、类药性质优异的特点。同时,使用特征提取器抽取的特征向量,通过对训练数据的特征和性质进行有效模拟,提升了模型的分子生成效果。

Claims (9)

1.本发明公布了一种基于深度条件循环神经网络的全新分子生成方法,其特征在于:将化合物分子表示为SMILES(简化分子线性输入规范),利用深度循环神经网络框架的特征提取器和分子生成器,以及基于成药与靶标相关规则构建的性质筛选器,建立了全新分子生成模型;特征提取器利用双向循环神经网络从化合物分子提取等长的特征向量;分子生成器利用深度循环神经网络并结合特征向量进行推断过程,实现分子重构或生成;包括以下步骤:
(1)训练数据的收集与处理,词嵌入矩阵编码表的提取;
(2)模型训练阶段,学习训练数据化合物分子特征,得到训练模型;
(3)分子重构阶段,利用训练模型重构分子;
(4)分子生成阶段,利用训练模型生成分子;
(5)分子筛选阶段,利用性质筛选器筛选具有特定性质的分子。
2.如权利要求1所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于,所述步骤(1)具体包括:
收集化合物分子并进行预处理,建立训练数据集,以sdf格式保存;
使用基于频率的分析方法,构建词嵌入矩阵编码表;所有化学信息相关分析均通过开源代码包RDKit实现;
采用标准SMILES字符串表示的化合物分子,通过词嵌入矩阵编码表转化为向量矩阵表示,以TFRecord格式保存。
3.如权利要求1所述的一种基于深度循环神经网络的全新分子生成方法,其特征在于,所述步骤(2)具体包括:
将训练数据通过特征提取器编码为固定长度的特征向量;
分子生成器接受训练数据和特征向量作为输入,进行模型训练;
多次通过格点搜索的方法,手动调整模型的超参数(学习率、神经元数目、神经网络层数等),保留交叉熵损失函数收敛值最小的训练模型;
选择多次训练过程中的最佳模型作为训练模型。
4.如权利要求1所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于,所述步骤(3)具体包括:
运行训练模型,特征提取器将化合物分子编码为等长的特征向量;
分子生成器接受起始符和特征向量作为输入,进行分子重构;
通过重构分子数据计算重构率;
保存重构的分子数据。
5.如权利要求1所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于,所述步骤(4)具体包括:
运行训练模型,特征提取器将化合物分子编码为等长的特征向量;
对所得特征向量进行数据增强,得到新的向量分布;
分子生成器接受起始符和新的向量分布作为输入,进行分子生成;
多次手动调试数据增强过程的超参数,保留最佳生成结果;
预先设定生成终止条件,当满足终止条件时,终止生成过程,保存生成的分子数据。
6.如权利要求1所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于,所述步骤(5)具体包括:
性质筛选:对包括脂水分配系数、分子量、氢键供体数、氢键受体数、可旋转键的数目、极性表面积、合成可及性评分、成药性评分等常用分子描述符对生成分子进行了筛选;所有分子描述符的计算通过开源代码包RDKit实现;
特定靶标筛选:结合特定靶标特点,使用包括强化学习、药效团模型、活性预测模型、受体—配体相互作用模拟评分等技术,实现生成分子对特定靶标的筛选;所有计算/模拟过程通过自建程序或开源代码包RDKit或Discovery Studio软件实现。
7.如权利要求1所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于,所述的基于深度条件循环神经网络框架的全新分子生成模型包括特征提取器、分子生成器和性质筛选器,所述的训练数据作为特征提取器和分子生成器的输入,所述特征提取器的输出作为分子生成器的输入;所述分子生成器的输出作为性质筛选器的输入。
8.如权利要求7所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于:
特征提取器利用双向循环神经网络将化合物分子编码为等长的特征向量,包括2个过程:
1)前向循环神经网络f (F) ,按x 1x t 顺序读取输入序列,计算前向隐藏状态 (h (F) 1 , ⋯ , h (F) t );后向循环神经网络f (B) ,按x tx 1顺序读取输入序列,计算后向隐藏状态 (h (B) t , ⋯ , h (B) 1 );对于某一时刻m:
h (F) m = f forward ( x m , h (F) m - 1 )
h (B) m = f backward ( x m , h (B) m + 1 )
x m表示第m时刻的输入字符,h (F) m 表示第m时刻的前向隐含层向量,h (B) m 表示第m时刻的后向隐含层向量,f forward (x)和f backward (x)表示非线性函数;
2)通过前向隐含层向量h (F) t 与后向隐含层向量h (B) t 计算隐含层向量h t
h t = [ ( h (F) t )T , ( h (B) t )T ]T
h t 表示第t时刻的隐含层向量。
9.如权利要求7所述的一种基于深度条件循环神经网络的全新分子生成方法,其特征在于:
分子生成器利用深度循环神经网络,结合特征向量进行模型拟合、分子重构或生成,具体包括:
对于模型拟合:
1)通过隐含层向量h t与输入字符x t,生成t时刻的输出字符o t
p (o t | x t , h t ) = g ( x t , h t )
h t = f ( h t - 1 , x t )
o t 表示t时刻的输出字符,x t 表示t时刻的输入字符,h t 表示t时刻深度循环神经网络隐含层向量,g (x)和f (x)表示非线性函数;
2)通过所有输出字符的概率计算输出序列O的概率:
p (O) = Πp ( o t | x t , h t )
p (O) 表示输出序列O的概率;
对于分子重构或生成:
1)通过隐含层向量h t与t时刻之前的预测字符{y 1 , ⋯ , y t - 1 },生成t时刻的预测字符:
p ( y t | { y 1 , ⋯ , y t - 1 } , h t ) = g' ( y t - 1 , h t )
h t = f ' ( h t - 1 , y t - 1 )
y t 表示t时刻的预测字符,h t 表示t时刻深度循环神经网络隐含层向量,g' (x) 和f ' (x) 表示非线性函数;
2)通过所有预测字符的概率计算预测序列Y的概率:
p (Y) = Πp ( y t | { y 1 , ⋯ , y t - 1 } , h t )
p (Y) 表示预测序列Y的概率。
CN202210883279.7A 2022-07-26 2022-07-26 基于深度条件循环神经网络的全新分子生成方法 Pending CN115240787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210883279.7A CN115240787A (zh) 2022-07-26 2022-07-26 基于深度条件循环神经网络的全新分子生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210883279.7A CN115240787A (zh) 2022-07-26 2022-07-26 基于深度条件循环神经网络的全新分子生成方法

Publications (1)

Publication Number Publication Date
CN115240787A true CN115240787A (zh) 2022-10-25

Family

ID=83675493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210883279.7A Pending CN115240787A (zh) 2022-07-26 2022-07-26 基于深度条件循环神经网络的全新分子生成方法

Country Status (1)

Country Link
CN (1) CN115240787A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117334271A (zh) * 2023-09-25 2024-01-02 江苏运动健康研究院 一种基于指定属性生成分子的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117334271A (zh) * 2023-09-25 2024-01-02 江苏运动健康研究院 一种基于指定属性生成分子的方法

Similar Documents

Publication Publication Date Title
CN112270951B (zh) 基于多任务胶囊自编码器神经网络的全新分子生成方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Fu et al. Mimosa: Multi-constraint molecule sampling for molecule optimization
CN110970099A (zh) 一种基于正则化变分自动编码器的药物分子生成方法
Chuan et al. Modeling temporal tonal relations in polyphonic music through deep networks with a novel image-based representation
Cheng et al. Group SELFIES: a robust fragment-based molecular string representation
Wu et al. Evolutionary computation in the era of large language model: Survey and roadmap
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN112820361A (zh) 一种基于对抗模仿学习的药物分子生成方法
Mikuła et al. Magnushammer: A transformer-based approach to premise selection
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN114999565B (zh) 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN113076545A (zh) 一种基于深度学习的内核模糊测试序列生成方法
CN112151127A (zh) 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
Zhumagambetov et al. Transmol: repurposing a language model for molecular generation
Moyano et al. Performing multi-target regression via gene expression programming-based ensemble models
CN115240787A (zh) 基于深度条件循环神经网络的全新分子生成方法
CN117524353A (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
CN112819062B (zh) 基于混合粒子群和连续投影的荧光光谱二次特征选择方法
CN117456037A (zh) 一种信息的传播图生成方法与装置
Huang et al. In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought
CN116453584A (zh) 蛋白质三维结构预测方法及系统
CN113707234B (zh) 一种基于机器翻译模型的先导化合物成药性优化方法
Oliveira Pereira et al. End-to-end deep reinforcement learning for targeted drug generation
CN115168728A (zh) 一种基于动态注意力机制的会话推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination