CN117095762A - 一种基于遗传算法和自编码器的化合物生成方法 - Google Patents
一种基于遗传算法和自编码器的化合物生成方法 Download PDFInfo
- Publication number
- CN117095762A CN117095762A CN202311052506.2A CN202311052506A CN117095762A CN 117095762 A CN117095762 A CN 117095762A CN 202311052506 A CN202311052506 A CN 202311052506A CN 117095762 A CN117095762 A CN 117095762A
- Authority
- CN
- China
- Prior art keywords
- model
- compound
- vector
- molecular
- genetic algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 146
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 64
- 230000002068 genetic effect Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 135
- 238000005556 structure-activity relationship Methods 0.000 claims abstract description 42
- 230000000694 effects Effects 0.000 claims abstract description 36
- 229920001184 polypeptide Chemical class 0.000 claims abstract description 36
- 108090000765 processed proteins & peptides Chemical class 0.000 claims abstract description 36
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 36
- 239000000126 substance Substances 0.000 claims abstract description 25
- -1 small molecule compounds Chemical class 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000004071 biological effect Effects 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims description 43
- 125000004122 cyclic group Chemical group 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000013136 deep learning model Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 9
- 206010064571 Gene mutation Diseases 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000013179 statistical model Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000004617 QSAR study Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 150000007523 nucleic acids Chemical group 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 10
- 238000009510 drug design Methods 0.000 description 7
- 150000001413 amino acids Chemical class 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000012664 BCL-2-inhibitor Substances 0.000 description 5
- 229940123711 Bcl2 inhibitor Drugs 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 3
- 108010090931 Proto-Oncogene Proteins c-bcl-2 Proteins 0.000 description 2
- 102000013535 Proto-Oncogene Proteins c-bcl-2 Human genes 0.000 description 2
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 150000002611 lead compounds Chemical class 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 239000011701 zinc Substances 0.000 description 2
- 102100021569 Apoptosis regulator Bcl-2 Human genes 0.000 description 1
- 208000004736 B-Cell Leukemia Diseases 0.000 description 1
- 208000003950 B-cell lymphoma Diseases 0.000 description 1
- 108700003861 Dominant Genes Proteins 0.000 description 1
- 101000971171 Homo sapiens Apoptosis regulator Bcl-2 Proteins 0.000 description 1
- 240000006394 Sorghum bicolor Species 0.000 description 1
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 1
- 235000009430 Thespesia populnea Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000027455 binding Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 229940121649 protein inhibitor Drugs 0.000 description 1
- 239000012268 protein inhibitor Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Abstract
本发明公开了一种基于遗传算法和自编码器的化合物生成方法,包括步骤:选取或从头训练一个分子生成模型;收集已有化合物及其活性数据,使用分子生成模型向量化收集到的化合物,建立化合物构效关系模型;以构效关系模型作为打分函数,使用遗传算法在分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量;使用分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。本发明充分考虑了分子生成可能遇到的多种情况,方法具有极高的鲁棒性,操作简单,低计算资源需求,可以生成具有全新骨架结构的小分子化合物或者具有全新序列的多肽。
Description
技术领域
本发明涉及药物设计技术领域,尤其涉及一种基于遗传算法和自编码器的化合物生成方法。
背景技术
全新药物设计是一个高成本、长周期、高风险的任务。在传统的计算机辅助药物设计中,药物设计人员的首要选择是筛选已经被公开报道的化合物组成化合物库(如已上市药物数据库、CHEMBL数据库)或者组合化学库(如ZINC数据库)。然而,对于热门的药物靶点,这些现有的化合物库可能已经被虚拟筛选或者高通量筛选过多次,从而导致后来的药物化学家越来越难从已有的化合物库中筛选到全新的、具有特点靶标结合活性的化合物分子。因此,建立全新的虚拟化合物库对于从头药物设计很有必要。
近年来,以深度学习为代表的人工智能技术正在药物设计领域中扮演着越来越重要的作用,在早期药物发现、先导化合物优化、临床试验数据分析等药物研发阶段辅助科研人员缩短研发周期、节约研发成本。利用深度生成神经网络进行小分子化合物与多肽的生成可以用来建立虚拟数据集,为后续的先导化合物虚拟筛选提供虚拟化合物库,从而拓展药物研发人员可以探索的化学空间,为新颖药物的设计提供解决方案。
尽管从头建立深度生成模型用于分子生成任务是建立虚拟化合物库的可行方案,但是该方案往往需要数十万条数据用于模型训练,这限制了模型在大多数药物设计课题中的应用,因为不可能已知数十万条针对于特定靶标的活性信息。迁移学习或者强化学习均可以在预训练深度生成模型的基础上,通过额外的数据训练或者环境应答生成出具有特定属性的分子,这使得深度生成模型可以应用到具体的课题中。然而,迁移学习和强化学习都需要较为复杂的训练过程,需要对预训练的模型进行二次训练,从而进一步修改模型参数,这一过程可能使得模型忘记掉已经学习到的信息,从而降低模型的表现。为了克服上述三种分子生成方案的缺点,本专利提出了一种使用机器学习直接在深度生成模型构建的虚拟化学空间中寻找具有特点物理、化学或者生物学性质的方法,无需修改预训练深度生成模型的参数,具有操作简单、低计算资源需求等优点。
发明内容
为了解决现有技术中的不足,本发明旨在提供一种基于遗传算法和自编码器的化合物生成方法。本发明利用遗传算法直接在预训练的深度生成模型所构建的虚拟化学空间中寻找可能具有特定物理、化学或者生物学性质的小分子化合物或者多肽,从而获取结构新颖的苗头分子,辅助小分子药物或者多肽药物的理性设计。
为实现上述目的,本发明采取的技术方案为:
一方面,本发明提供一种基于遗传算法和自编码器的化合物生成方法,所述化合物为小分子化合物或多肽类化合物,包括以下步骤:
(1)选取或从头训练一个合适的分子生成模型;
(2)收集已有化合物及其活性数据,使用步骤(1)中的分子生成模型向量化收集到的化合物,建立化合物构效关系模型;
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法在步骤(1)的分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量,得到遗传算法选定的向量;
(4)使用步骤(1)中的分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。
进一步地,所述分子生成模型选自自编码器模型、变分自编码器模型或变分自编码器模型与其他神经网络联合使用的自编码器联合模型;
所述其他神经网络选自循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer、图神经网络、卷积神经网络及以上网络的变体网络。
进一步地,所述循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer及以上网络的变体网络用于生成小分子化合物的简化分子线性输入规范(SMIES),多肽的氨基酸序列或核酸序列;
所述图神经网络、卷积神经网络用于生成小分子化合物的二维或三维结构信息。
进一步地,所述化合物为小分子化合物时,分子生成模型选自变分自编码器与图神经网络的自编码器联合模型;
小分子化合物的二维结构被用来表示小分子化合物的固有结构信息,拓扑图被用来描述小分子化合物中原子的性质以及原子间的连接信息。图神经网络被用来提取小分子化合物的特征。确定的化合物G,可以用G=(V,E)来表示,其中V代表该化合物所包含的所有原子(拓扑图中的节点),E代表该化合物所包含的所有化学键(拓扑图中的边)。在图神经网络中,特定节点(原子)的特征除了由该原子的性质决定之外,还来自有与该节点(原子)直接或者间接相连的原子所决定,即特定节点(原子)的性质由该节点(原子)本身和节点(原子)所处于的化学环境所共同决定。
进一步地,所述化合物为多肽类化合物时,分子生成模型选自变分自编码器与双向门控循环单元网络的自编码器联合模型;
氨基酸的序列被用来表示多肽分子的固有结构信息,独热编码被用来编码特定位置氨基酸的类别,双向门控循环单元网络被用来处理氨基酸的位置编码信息并且提取多肽分子的整体特征。
进一步地,所述活性数据包括化合物的物理、化学或者生物学性质数据;优选地,已有化合物及其活性数据来自公开发表或者数据库(CHEMBL、PubChem等)收录的具有特定物理、化学、生物学性质的分子;应当尽可能全面的收集具有特定物理、化学、生物学性质的数据信息;
所述化合物构效关系模型为小分子化合物结构或多肽分子序列与其物理、化学或者生物学性质的关系模型。具体而言,所述化合物构效关系模型的构建方法,包括如下步骤:
①收集并整理已有化合物及其活性数据,用于构建构效关系模型;
②采用步骤(1)所述分子生成模型中的编码网络部分提取已有化合物的特征,并且使用一组特定的向量表示;
③利用特征工程技术,从提取的化合物特征中选择用于构效关系模型构建的特征;
④使用数据统计模型、机器学习模型或者深度学习模型来构建构效关系模型;
其中,数据统计模型、机器学习模型或者深度学习模型通过自动机器学习平台构建;
优选地,所述自动机器学习平台选自MLBOX、AUTOML;
优选地,所述数据统计模型选自线性回归、多元线性回归;
优选地,所述机器学习模型选自支持向量机、随机森林、决策树、逻辑回归;
优选地,所述深度学习模型选自全连接网络;
⑤对构建的构效关系模型进行模型评估与验证;
优选地,采用均方根误差、平均绝对误差、相关系数、决定系数进行定量构效关系模型的评估与验证,所述定量构效关系模型为回归模型;
优选地,采用马修斯相关系数、正确率进行定性构效关系模型的评估与验证,所述定性构效关系模型为分类模型。
进一步地,步骤(3)中遗传算法选定的向量获得的步骤包括:
①初始化族群:从已有化合物所处于的向量空间中随机生成向量作为初始化族群;
②计算个体的适应度:使用步骤(2)中建立的构效关系模型作为打分函数为每一个随机生成的向量打分;
③自然选择:删除掉打分在后的向量;
④基因突变:在初始化族群中随机地选择向量,并且改变单个向量中的单个维度的数值;
⑤基因片段交换:在初始化族群中随机地选择向量,并且使两个向量之间交换等长的向量片段;
重复步骤②-⑤,获得遗传算法选定的向量。
进一步地,步骤①中所述随机生成向量的每一位特征,其取值不超过已有化合物在该特征位置的最大值,且不低于已有化合物在该特征位置的最小值。
进一步地,步骤③中删除掉打分在后10-30%的向量;
进一步地,步骤⑤中在初始化族群中随机地选择20-60%的向量;
进一步地,步骤⑤中随机地选择的向量数为步骤③中删除的向量数的2倍。
进一步地,步骤(3)所述遗传算法选自拉马克遗传算法;
进一步地,对于步骤(3)中遗传算法选定的向量通过聚类去除掉相似的向量,再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物。
进一步地,所述化合物生成方法还包括对步骤(3)遗传算法选定的向量进行局部优化,局部优化后再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物,使得寻找到的分子在局部区域具有最优的物理、化学、生物学性质;
所述局部优化指的是改变多维向量中某一维度的数值,且向量中某一维度的数值改变占该维度原有数值的比率为0%-20%;
优选地,所述局部优化使用随机梯度下降进行。
具体地,局部优化指的是在构效关系模型的指导下,对经遗传算法选定的向量进行微小调整,使其在构效关系模型评估中获取更高打分。其中,优化指的是改变多维向量中某一维度的数值,局部指的是向量中某一维度的数值改变占该维度原有数值的比率不能太大,优选地,向量中某一维度的数值改变占该维度原有数值的比率为0%-20%。优选地,局部优化使用随机梯度下降来对向量进行微小调整
进一步地,步骤(2)建立多个构效关系模型,以步骤(2)建立的多个构效关系模型作为打分函数。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行上述基于遗传算法和自编码器的化合物生成方法。
上述技术方案具有如下优点或者有益效果:
1、本发明公开了一种基于遗传算法和自编码器的化合物生成方法,以构效关系模型作为打分函数,使用遗传算法探索分子生成模型构建的化学空间,从而实现具有特定化学性质的化合物的自动生成,在实施过程中无需改变预训练深度生成模型的参数,并且在遗传算法的探索过程中无需解码分子,具有速度快、操作简单、低计算资源需求等优点。具体地:
(1)操作简单。该工作流程无需为每一个特定的分子生成任务训练全新的深度学习模型,也无需使用迁移学习或者强化学习的方法来调整预训练模型的参数,而是直接调用预训练的分子生成模型。
(2)低计算资源需求。该流程的核心是在构效关系模型的指导下,使用遗传算法在潜在的向量空间中寻找具有较高打分的向量。遗传算法不牵扯到分子的编码和解码,仅仅是在向量维度上的操作,对计算资源的要求较低。
(3)充分利用已公开报道的分子活性信息。由于构效关系模型被用来作为打分函数指导遗传算法寻找具有高适应度得分的向量。因此,目标向量的特征是由构效关系模型决定的。换句话说,目标化合物的性质是由已有的分子结构和活性信息决定的。
(4)生成具有全新化学结构的抑制剂。该流程在潜在的向量空间中采样,并且通过分子解码来生成分子。因此,生成的化合物分子可能是从未被公开报道过的化合物。
2、遗传算法会使得优势的基因(向量片段)在种群中快速传播,从而造成同一批次生成的化合物分子具有类似的化合物结构,这不利于生成化合物的多样性。本发明通过不同算法以及描述符数量建立多个构效关系模型,以多个构效关系模型作为打分函数,生成多批次的化合物,不同批次之间的化合物多样性要大于单批化合物内部的化合物多样性,从而提升化合物的多样性。
本发明进一步对遗传算法选定的向量进行局部优化,其中,局部优化指的是在构效关系模型的指导下,对经遗传算法选定的向量进行微小调整,从而使其在构效关系模型评估中获取更高打分。
本发明进一步在将遗传算法选定的向量使用分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物之前,通过聚类去除掉相似的向量,以提升化合物的多样性。
附图说明
图1是本发明基于遗传算法和自编码器的化合物生成方法的流程图。
图2是Bcl-2蛋白抑制剂构效关系模型的ROC曲线。
图3是遗传算法的流程图。
图4是遗传算法优化过程中个体适应度的分布直方图。
图5是随机生成的化合物(a)与遗传算法优化后生成化合物(b)的结构比较。
具体实施方式
下述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。因此,以下提供的本发明实施例中的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
在本发明中,若非特指,所有的设备和原料等均可从市场购得或是本行业常用的。下述实施例中的方法,如无特别说明,均为本领域的常规方法。
在一些实施例中,基于遗传算法和自编码器的小分子化合物及多肽生成方法的流程图如图1所示。
本发明提供的基于遗传算法和自编码器的化合物生成方法,所述化合物为小分子化合物或多肽类化合物,包括以下步骤:
(1)选取或从头训练一个合适的分子生成模型;
(2)收集已有化合物及其活性数据,使用步骤(1)中的分子生成模型向量化收集到的化合物,建立化合物构效关系模型;
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法在步骤(1)的分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量,得到遗传算法选定的向量;
(4)使用步骤(1)中的分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。
在一些实施例中,分子生成模型选自自编码器模型、变分自编码器模型或变分自编码器模型与其他神经网络联合使用的自编码器联合模型;在一个具体实施方案中,其他神经网络选自循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer、图神经网络、卷积神经网络及以上网络的变体网络。
在一些实施例中,循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer及以上网络的变体网络用于生成小分子化合物的简化分子线性输入规范(SMIES),多肽的氨基酸序列或核酸序列;图神经网络、卷积神经网络用于生成小分子化合物的二维或三维结构信息。
在一些实施例中,化合物为小分子化合物时,分子生成模型选自变分自编码器与图神经网络的自编码器联合模型。小分子化合物的二维结构被用来表示小分子化合物的固有结构信息,拓扑图被用来描述小分子化合物中原子的性质以及原子间的连接信息。图神经网络被用来提取小分子化合物的特征。确定的化合物G,可以用G=(V,E)来表示,其中V代表该化合物所包含的所有原子(拓扑图中的节点),E代表该化合物所包含的所有化学键(拓扑图中的边)。在图神经网络中,特定节点(原子)的特征除了由该原子的性质决定之外,还来自有与该节点(原子)直接或者间接相连的原子所决定,即特定节点(原子)的性质由该节点(原子)本身和节点(原子)所处于的化学环境所共同决定。
在一些实施例中,化合物为多肽类化合物时,分子生成模型选自变分自编码器与双向门控循环单元网络的自编码器联合模型。氨基酸的序列被用来表示多肽分子的固有结构信息,独热编码被用来编码特定位置氨基酸的类别,双向门控循环单元网络被用来处理氨基酸的位置编码信息并且提取多肽分子的整体特征。
在一些实施例中,活性数据包括化合物的物理、化学或者生物学性质数据;优选地,已有化合物及其活性数据来自公开发表或者数据库(CHEMBL、PubChem等)收录的具有特定物理、化学、生物学性质的分子。所述化合物构效关系模型为小分子化合物结构或多肽分子序列与其物理、化学或者生物学性质的关系模型。具体而言,通过步骤(1)中选定的分子生成模型中的编码网络部分提取已有化合物的特征,通过线性回归、多元线性回归等数据统计模型,支持向量机、决策树、逻辑回归等机器学习模型,全连接网络等深度学习模型建立构效关系模型,构建方法包括如下步骤:
①收集并整理已有化合物及其活性数据,用于构建构效关系模型;
②采用步骤(1)所述分子生成模型中的编码网络部分提取已有化合物的特征,并且使用一组特定的向量表示;
③利用特征工程技术,从提取的化合物特征中选择用于构效关系模型构建的特征;
④使用数据统计模型、机器学习模型或者深度学习模型来构建构效关系模型;
其中,数据统计模型、机器学习模型或者深度学习模型一般通过MLBOX、AUTOML等自动机器学习平台构建;
优选地,数据统计模型选自线性回归、多元线性回归;
优选地,机器学习模型选自支持向量机、随机森林、决策树、逻辑回归;
优选地,深度学习模型选自全连接网络;
⑤对构建的构效关系模型进行模型评估与验证;
优选地,采用均方根误差、平均绝对误差、相关系数、决定系数指标进行定量构效关系模型的评估与验证;
优选地,采用马修斯相关系数、正确率指标进行定性构效关系模型的评估与验证。
在一些实施例中,支持向量机、随机森林这两种机器学习模型由于具有建模较为简单、建模速度快等优点而被用于建立构效关系模型。
在一个具体实施方式中,当化合物为小分子化合物时,步骤(2)详细步骤包括:收集已有化合物及其活性数据,对收集的已有化合物经过步骤(1)所述分子生成模型过滤,将通过分子生成模型编码测试的化合物随机划分训练集和测试集,采用步骤(1)所述分子生成模型中的连接树编码器和分子编码器编码已有化合物,并且将分子编码器生成的向量与连接树编码器生成的向量连接起来,随后使用最小-最大缩放(Min-Max Scaling)来归一化的数值,将向量的每一位都归一化至0.1-0.9的区间内,使用支持向量机和随机森林两种机器学习算法建立化合物的构效关系模型。
在一些实施例中,步骤(3)遗传算法选定的向量获得的步骤包括:
①初始化族群:从已有化合物所处于的向量空间中随机生成向量作为初始化族群;优选地,所述随机生成向量的每一位特征,其取值不超过已有化合物在该特征位置的最大值,且不低于已有化合物在该特征位置的最小值;
②计算个体的适应度:使用步骤(2)中建立的构效关系模型作为打分函数为每一个随机生成的向量打分;
③自然选择:删除掉打分在后的向量;优选地,删除掉打分在后10-30%的向量;
④基因突变:在初始化族群中随机地选出个体进行基因突变,具体地,在初始化族群中随机地选择向量,并且改变单个向量中的单个维度的数值;
⑤基因片段交换:在初始化族群中随机地选择个体,并且每两个个体发生基因杂交产生新的一个个体,具体地,在初始化族群中随机地选择向量,并且使两个向量之间交换等长的向量片段;优选地,步骤⑤中在初始化族群中随机地选择20-60%的向量;优选地,随机地选择的向量数为步骤③中删除的向量数的2倍;
重复步骤②-⑤。
在一些实施例中,对于步骤(3)遗传算法选定的向量通过聚类去除掉相似的向量,再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物。
在一些实施例中,所述生成方法还包括对步骤(3)遗传算法选定的向量进行局部优化,局部优化后再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物,使得寻找到的分子在局部区域具有最优的物理、化学、生物学性质;所述局部优化指的是改变多维向量中某一维度的数值,且向量中某一维度的数值改变占该维度原有数值的比率为0%-20%;优选地,所述局部优化使用随机梯度下降进行。
在一些实施例中,步骤(2)通过不同算法以及描述符数量建立多个构效关系模型,以步骤(2)建立的多个构效关系模型作为打分函数,以提升化合物的多样性。
实施例1
本实施例以B细胞淋巴瘤/白血病-2蛋白(Bcl-2)抑制剂的设计为例对本发明基于遗传算法和自编码器的化合物生成方法进行详细阐释。即本实施例自动生成可能具有Bcl-2蛋白抑制效果的小分子化合物。详细步骤如下:
(1)选择基于图神经网络与自编码器的预训练连接树-变分自编码器模型(JT-VAE)为预训练的深度分子生成模型,该模型是2018年来自麻省理工学院在第35届国际机器学习会议上发布的分子生成模型,该模型基于ZINC数据库中的化合物训练并且集成到DeepGraph Library(DGL)库中。
(2)收集公开报道的Bcl-2抑制剂及其活性数据,使用步骤(1)中的JT-VAE模型向量化收集到的Bcl-2抑制剂,建立构效关系模型。
在本次测试实例中,现有的Bcl-2抑制剂及其生物学活性数据下载于CHEMBL数据库,经过数据清洗与高低活性化合物划分,共有高活性数据1160条,低活性数据1001条。随后判断这些化合物是否可以被JT-VAE模型参数化,经过JT-VAE模型过滤,共有905个化合物通过了JT-VAE模型的编码测试。随机划分训练集和测试集,训练集中共有719个化合物,测试集中共有186个化合物。JT-VAE模型中的连接树编码器和分子编码器被用来编码化合物分子,并且将分子编码器生成的1*28维的向量与连接树编码器生成的1*28维的向量连接起来组成1*56维的向量。紧接着,使用最小-最大缩放(Min-Max Scaling)来归一化的数值,将向量的每一位都归一化至0.1-0.9的区间内。
使用支持向量机和随机森林两种机器学习算法建立Bcl-2抑制剂的构效关系模型,模型在训练集和测试集的ROC曲线可见图2。其中SVM模型预测训练集的AUC(曲线下面积)值为1,预测测试集的AUC值为0.98,在训练集上的准确率为0.998,在训练集上的马修斯相关系数为0.994;RF模型预测训练集的AUC值为1,预测测试集的AUC值为0.98,在测试集上的准确率为0.941,在测试集上的马修斯相关系数为0.876,说明模型有较好的预测效果。
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法探索分子生成模型定义的向量空间,寻找可能具有目标物理、化学及生物学性质的化合物所对应的向量。遗传算法的流程如图3所示,共包含五个步骤:初始化族群,计算个体的适应度,自然选择,基因突变以及基因片段交换。具体而言:
①初始化族群:首先从向量空间中随机地生成1000000个向量作为初始化族群,此处的向量空间为已知Bcl-2抑制剂所处在的向量空间,而非任意的向量空间。具体实施时,对于随机生成向量的每一位特征,其取值不能超过已知活性化合物在该特征位置的最大值,也不能低于已知活性化合物在该特征位置的最小值。
②计算个体的适应度:使用在步骤(2)中建立的支持向量机和随机森林模型为每一个向量打分,两个模型打分的平均值作为向量的最终得分。
③自然选择:删除掉打分在后10%的向量。
④基因突变:在族群中随机地选出200个个体进行基因突变,单个个体中单个位点发生基因突变的概率为1/28;
此处,基因突变指的是在族群随机选择个体,并且改变单个个体中的单个位点的数值。换句话说,基因突变指的是在所有的向量中随机的选出向量,并且改变单个向量中的单个维度的数值。
具体到本实施例,向量共有28维,选择其中的一个维度进行数据改变,因此,单个向量中单个维度基因突变的概率为1/28。
⑤基因片段交换:在族群中随机地选择20%的个体,并且每两个个体发生基因杂交产生新的一个个体,即整个族群通过基因杂交补充了10%的新个体;
此处,基因片段交换指的是在族群随机选择两个个体,并且使得两个个体之间交换等长的基因片段。换句话说,基因片段交换指的是在所有的向量中随机的选出两个向量,并且使得两个向量之间交换等长的向量片段;
具体到本实施例,两个向量基因片段交换会产生一个新的向量。因此,选择20%的个体进行片段交换一共会产生10%的新个体。
重复②-⑤步。在每一次循环中,族群丧失10%的个体,并且产生10%的新个体,族群中个体数目保持不变。整个种群一共进行了200次迭代。
(4)使用步骤(1)中的分子生成模型中的解码器网络将步骤(3)产生的向量还原为具体的化合物。将产生的向量使用JT-VAE模型的解码器进行解码,解码的成功率(生成分子的有效性)为46.73%。生成的分子中,1000个SMILES字符串被随机地选取,去除重复之后还剩余415个,其生成化合物的的独特性为41.5%。经过第1,50,100,150,200次迭代的个体分布直方图被展示在图4中。从图4中可见,随着遗传算法的迭代,种群中的个体越来越具有较高的适应度打分。
一部分从向量空间中随机生成的向量和经过本发明遗传算法优化的向量被解码出来,其结构被展示在图5中,可见随机生成的化合物中含有大量的重复的结构,而经过遗传算法优化的分子结构更加具有多样性。
在速度方面,该过程可以分为遗传算法的优化以及分子解码两个步骤。在遗传算法优化步骤,对于含有十万个体的种群,可以在单个CPU上于两小时内完成优化。分子解码阶段所消耗的时间取决于步骤(1)中选取模型的参数规模以及模型复杂程度。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于遗传算法和自编码器的化合物生成方法,其特征在于,所述化合物为小分子化合物或多肽类化合物,包括以下步骤:
(1)选取或从头训练一个分子生成模型;
(2)收集已有化合物及其活性数据,使用步骤(1)中的分子生成模型向量化收集到的化合物,建立化合物构效关系模型;
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法在步骤(1)的分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量,得到遗传算法选定的向量;
(4)使用步骤(1)中的分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。
2.根据权利要求1所述的化合物生成方法,其特征在于,所述分子生成模型选自自编码器模型、变分自编码器模型或变分自编码器模型与其他神经网络联合使用的自编码器联合模型;
所述其他神经网络选自循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer、图神经网络、卷积神经网络及以上网络的变体网络。
3.根据权利要求2所述的化合物生成方法,其特征在于,所述循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer及以上网络的变体网络用于生成小分子化合物的简化分子线性输入规范(SMIES),多肽的氨基酸序列或核酸序列;
所述图神经网络、卷积神经网络用于生成小分子化合物的二维或三维结构信息;
优选地,所述化合物为小分子化合物时,分子生成模型选自变分自编码器与图神经网络的自编码器联合模型;
优选地,所述化合物为多肽类化合物时,分子生成模型选自变分自编码器与双向门控循环单元网络的自编码器联合模型。
4.根据权利要求1所述的化合物生成方法,其特征在于,所述活性数据包括化合物的物理、化学或者生物学性质数据;
所述化合物构效关系模型为小分子化合物结构或多肽分子序列与其物理、化学或者生物学性质的关系模型;
所述化合物构效关系模型的构建方法,包括如下步骤:
①收集并整理已有化合物及其活性数据,用于构建构效关系模型;
②采用步骤(1)所述分子生成模型中的编码网络部分提取已有化合物的特征,并且使用一组特定的向量表示;
③利用特征工程技术,从提取的化合物特征中选择用于构效关系模型构建的特征;
④使用数据统计模型、机器学习模型或者深度学习模型来构建构效关系模型;
其中,数据统计模型、机器学习模型或者深度学习模型通过自动机器学习平台构建;
优选地,所述自动机器学习平台选自MLBOX、AUTOML;
优选地,所述数据统计模型选自线性回归、多元线性回归;
优选地,所述机器学习模型选自支持向量机、随机森林、决策树、逻辑回归;
优选地,所述深度学习模型选自全连接网络;
⑤对构建的构效关系模型进行模型评估与验证;
优选地,采用均方根误差、平均绝对误差、相关系数、决定系数进行定量构效关系模型的评估与验证,所述定量构效关系模型为回归模型;
优选地,采用马修斯相关系数、正确率进行定性构效关系模型的评估与验证,所述定性构效关系模型为分类模型。
5.根据权利要求1所述的化合物生成方法,其特征在于,步骤(3)中遗传算法选定的向量获得的步骤包括:
①初始化族群:从已有化合物所处于的向量空间中随机生成向量作为初始化族群;
②计算个体的适应度:使用步骤(2)中建立的构效关系模型作为打分函数为每一个随机生成的向量打分;
③自然选择:删除掉打分在后的向量;
④基因突变:在初始化族群中随机地选择向量,并且改变单个向量中的单个维度的数值;
⑤基因片段交换:在初始化族群中随机地选择向量,并且使两个向量之间交换等长的向量片段;
重复步骤②-⑤,获得遗传算法选定的向量。
6.根据权利要求5所述的化合物生成方法,其特征在于,步骤①中所述随机生成向量的每一位特征,其取值不超过已有化合物在该特征位置的最大值,且不低于已有化合物在该特征位置的最小值;
优选地,步骤③中删除掉打分在后10-30%的向量;
优选地,步骤⑤中在初始化族群中随机地选择20-60%的向量;
优选地,步骤⑤中随机地选择的向量数为步骤③中删除的向量数的2倍。
7.根据权利要求1所述的化合物生成方法,其特征在于,步骤(3)所述遗传算法选自拉马克遗传算法;
优选地,对于步骤(3)中遗传算法选定的向量通过聚类去除掉相似的向量,再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物。
8.根据权利要求1所述的化合物生成方法,其特征在于,所述生成方法还包括对步骤(3)遗传算法选定的向量进行局部优化,局部优化后再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物;
所述局部优化指的是改变多维向量中某一维度的数值,且向量中某一维度的数值改变占该维度原有数值的比率为0%-20%;
优选地,所述局部优化使用随机梯度下降进行。
9.根据权利要求1所述的化合物生成方法,其特征在于,步骤(2)建立多个构效关系模型,以步骤(2)建立的多个构效关系模型作为打分函数。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行权利要求1-9任一项所述生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311052506.2A CN117095762A (zh) | 2023-08-21 | 2023-08-21 | 一种基于遗传算法和自编码器的化合物生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311052506.2A CN117095762A (zh) | 2023-08-21 | 2023-08-21 | 一种基于遗传算法和自编码器的化合物生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117095762A true CN117095762A (zh) | 2023-11-21 |
Family
ID=88781462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311052506.2A Pending CN117095762A (zh) | 2023-08-21 | 2023-08-21 | 一种基于遗传算法和自编码器的化合物生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095762A (zh) |
-
2023
- 2023-08-21 CN CN202311052506.2A patent/CN117095762A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240144092A1 (en) | Generative machine learning systems for drug design | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
JP2881711B2 (ja) | 神経回路網の遺伝子的合成 | |
CN109887540A (zh) | 一种基于异构网络嵌入的药物靶标相互作用预测方法 | |
CN104751842B (zh) | 深度神经网络的优化方法及系统 | |
US8332347B2 (en) | System and method for inferring a network of associations | |
CN109063164A (zh) | 一种基于深度学习的智能问答方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN110069690B (zh) | 一种主题网络爬虫方法、装置及介质 | |
CN112232413A (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN113838536B (zh) | 翻译模型构建方法、产物预测模型构建方法及预测方法 | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
US20240055071A1 (en) | Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product | |
CN112270958A (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
CN110021340A (zh) | 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 | |
Wang et al. | Molecular property prediction based on a multichannel substructure graph | |
CN114913938B (zh) | 一种基于药效团模型的小分子生成方法、设备及介质 | |
CN116601715A (zh) | 通过主动学习进行药物优化 | |
CN115132270A (zh) | 药物筛选方法及系统 | |
Du et al. | Species tree and reconciliation estimation under a duplication-loss-coalescence model | |
Shirmohammady et al. | PPI-GA: a novel clustering algorithm to identify protein complexes within protein-protein interaction networks using genetic algorithm | |
CN117095762A (zh) | 一种基于遗传算法和自编码器的化合物生成方法 | |
CN115631805A (zh) | 基于图神经网络的药物与蛋白质亲和力预测方法及系统 | |
CN112768081B (zh) | 基于子图及节点的共调控生物网络模体发现方法及装置 | |
CN112686306B (zh) | 基于图神经网络的icd手术分类自动匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |