CN117095762A - 一种基于遗传算法和自编码器的化合物生成方法 - Google Patents

一种基于遗传算法和自编码器的化合物生成方法 Download PDF

Info

Publication number
CN117095762A
CN117095762A CN202311052506.2A CN202311052506A CN117095762A CN 117095762 A CN117095762 A CN 117095762A CN 202311052506 A CN202311052506 A CN 202311052506A CN 117095762 A CN117095762 A CN 117095762A
Authority
CN
China
Prior art keywords
model
compound
vector
molecular
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311052506.2A
Other languages
English (en)
Inventor
袁曙光
王世玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Alpha Molecular Technology Co ltd
Original Assignee
Shenzhen Alpha Molecular Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Alpha Molecular Technology Co ltd filed Critical Shenzhen Alpha Molecular Technology Co ltd
Priority to CN202311052506.2A priority Critical patent/CN117095762A/zh
Publication of CN117095762A publication Critical patent/CN117095762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本发明公开了一种基于遗传算法和自编码器的化合物生成方法,包括步骤:选取或从头训练一个分子生成模型;收集已有化合物及其活性数据,使用分子生成模型向量化收集到的化合物,建立化合物构效关系模型;以构效关系模型作为打分函数,使用遗传算法在分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量;使用分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。本发明充分考虑了分子生成可能遇到的多种情况,方法具有极高的鲁棒性,操作简单,低计算资源需求,可以生成具有全新骨架结构的小分子化合物或者具有全新序列的多肽。

Description

一种基于遗传算法和自编码器的化合物生成方法
技术领域
本发明涉及药物设计技术领域,尤其涉及一种基于遗传算法和自编码器的化合物生成方法。
背景技术
全新药物设计是一个高成本、长周期、高风险的任务。在传统的计算机辅助药物设计中,药物设计人员的首要选择是筛选已经被公开报道的化合物组成化合物库(如已上市药物数据库、CHEMBL数据库)或者组合化学库(如ZINC数据库)。然而,对于热门的药物靶点,这些现有的化合物库可能已经被虚拟筛选或者高通量筛选过多次,从而导致后来的药物化学家越来越难从已有的化合物库中筛选到全新的、具有特点靶标结合活性的化合物分子。因此,建立全新的虚拟化合物库对于从头药物设计很有必要。
近年来,以深度学习为代表的人工智能技术正在药物设计领域中扮演着越来越重要的作用,在早期药物发现、先导化合物优化、临床试验数据分析等药物研发阶段辅助科研人员缩短研发周期、节约研发成本。利用深度生成神经网络进行小分子化合物与多肽的生成可以用来建立虚拟数据集,为后续的先导化合物虚拟筛选提供虚拟化合物库,从而拓展药物研发人员可以探索的化学空间,为新颖药物的设计提供解决方案。
尽管从头建立深度生成模型用于分子生成任务是建立虚拟化合物库的可行方案,但是该方案往往需要数十万条数据用于模型训练,这限制了模型在大多数药物设计课题中的应用,因为不可能已知数十万条针对于特定靶标的活性信息。迁移学习或者强化学习均可以在预训练深度生成模型的基础上,通过额外的数据训练或者环境应答生成出具有特定属性的分子,这使得深度生成模型可以应用到具体的课题中。然而,迁移学习和强化学习都需要较为复杂的训练过程,需要对预训练的模型进行二次训练,从而进一步修改模型参数,这一过程可能使得模型忘记掉已经学习到的信息,从而降低模型的表现。为了克服上述三种分子生成方案的缺点,本专利提出了一种使用机器学习直接在深度生成模型构建的虚拟化学空间中寻找具有特点物理、化学或者生物学性质的方法,无需修改预训练深度生成模型的参数,具有操作简单、低计算资源需求等优点。
发明内容
为了解决现有技术中的不足,本发明旨在提供一种基于遗传算法和自编码器的化合物生成方法。本发明利用遗传算法直接在预训练的深度生成模型所构建的虚拟化学空间中寻找可能具有特定物理、化学或者生物学性质的小分子化合物或者多肽,从而获取结构新颖的苗头分子,辅助小分子药物或者多肽药物的理性设计。
为实现上述目的,本发明采取的技术方案为:
一方面,本发明提供一种基于遗传算法和自编码器的化合物生成方法,所述化合物为小分子化合物或多肽类化合物,包括以下步骤:
(1)选取或从头训练一个合适的分子生成模型;
(2)收集已有化合物及其活性数据,使用步骤(1)中的分子生成模型向量化收集到的化合物,建立化合物构效关系模型;
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法在步骤(1)的分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量,得到遗传算法选定的向量;
(4)使用步骤(1)中的分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。
进一步地,所述分子生成模型选自自编码器模型、变分自编码器模型或变分自编码器模型与其他神经网络联合使用的自编码器联合模型;
所述其他神经网络选自循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer、图神经网络、卷积神经网络及以上网络的变体网络。
进一步地,所述循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer及以上网络的变体网络用于生成小分子化合物的简化分子线性输入规范(SMIES),多肽的氨基酸序列或核酸序列;
所述图神经网络、卷积神经网络用于生成小分子化合物的二维或三维结构信息。
进一步地,所述化合物为小分子化合物时,分子生成模型选自变分自编码器与图神经网络的自编码器联合模型;
小分子化合物的二维结构被用来表示小分子化合物的固有结构信息,拓扑图被用来描述小分子化合物中原子的性质以及原子间的连接信息。图神经网络被用来提取小分子化合物的特征。确定的化合物G,可以用G=(V,E)来表示,其中V代表该化合物所包含的所有原子(拓扑图中的节点),E代表该化合物所包含的所有化学键(拓扑图中的边)。在图神经网络中,特定节点(原子)的特征除了由该原子的性质决定之外,还来自有与该节点(原子)直接或者间接相连的原子所决定,即特定节点(原子)的性质由该节点(原子)本身和节点(原子)所处于的化学环境所共同决定。
进一步地,所述化合物为多肽类化合物时,分子生成模型选自变分自编码器与双向门控循环单元网络的自编码器联合模型;
氨基酸的序列被用来表示多肽分子的固有结构信息,独热编码被用来编码特定位置氨基酸的类别,双向门控循环单元网络被用来处理氨基酸的位置编码信息并且提取多肽分子的整体特征。
进一步地,所述活性数据包括化合物的物理、化学或者生物学性质数据;优选地,已有化合物及其活性数据来自公开发表或者数据库(CHEMBL、PubChem等)收录的具有特定物理、化学、生物学性质的分子;应当尽可能全面的收集具有特定物理、化学、生物学性质的数据信息;
所述化合物构效关系模型为小分子化合物结构或多肽分子序列与其物理、化学或者生物学性质的关系模型。具体而言,所述化合物构效关系模型的构建方法,包括如下步骤:
①收集并整理已有化合物及其活性数据,用于构建构效关系模型;
②采用步骤(1)所述分子生成模型中的编码网络部分提取已有化合物的特征,并且使用一组特定的向量表示;
③利用特征工程技术,从提取的化合物特征中选择用于构效关系模型构建的特征;
④使用数据统计模型、机器学习模型或者深度学习模型来构建构效关系模型;
其中,数据统计模型、机器学习模型或者深度学习模型通过自动机器学习平台构建;
优选地,所述自动机器学习平台选自MLBOX、AUTOML;
优选地,所述数据统计模型选自线性回归、多元线性回归;
优选地,所述机器学习模型选自支持向量机、随机森林、决策树、逻辑回归;
优选地,所述深度学习模型选自全连接网络;
⑤对构建的构效关系模型进行模型评估与验证;
优选地,采用均方根误差、平均绝对误差、相关系数、决定系数进行定量构效关系模型的评估与验证,所述定量构效关系模型为回归模型;
优选地,采用马修斯相关系数、正确率进行定性构效关系模型的评估与验证,所述定性构效关系模型为分类模型。
进一步地,步骤(3)中遗传算法选定的向量获得的步骤包括:
①初始化族群:从已有化合物所处于的向量空间中随机生成向量作为初始化族群;
②计算个体的适应度:使用步骤(2)中建立的构效关系模型作为打分函数为每一个随机生成的向量打分;
③自然选择:删除掉打分在后的向量;
④基因突变:在初始化族群中随机地选择向量,并且改变单个向量中的单个维度的数值;
⑤基因片段交换:在初始化族群中随机地选择向量,并且使两个向量之间交换等长的向量片段;
重复步骤②-⑤,获得遗传算法选定的向量。
进一步地,步骤①中所述随机生成向量的每一位特征,其取值不超过已有化合物在该特征位置的最大值,且不低于已有化合物在该特征位置的最小值。
进一步地,步骤③中删除掉打分在后10-30%的向量;
进一步地,步骤⑤中在初始化族群中随机地选择20-60%的向量;
进一步地,步骤⑤中随机地选择的向量数为步骤③中删除的向量数的2倍。
进一步地,步骤(3)所述遗传算法选自拉马克遗传算法;
进一步地,对于步骤(3)中遗传算法选定的向量通过聚类去除掉相似的向量,再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物。
进一步地,所述化合物生成方法还包括对步骤(3)遗传算法选定的向量进行局部优化,局部优化后再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物,使得寻找到的分子在局部区域具有最优的物理、化学、生物学性质;
所述局部优化指的是改变多维向量中某一维度的数值,且向量中某一维度的数值改变占该维度原有数值的比率为0%-20%;
优选地,所述局部优化使用随机梯度下降进行。
具体地,局部优化指的是在构效关系模型的指导下,对经遗传算法选定的向量进行微小调整,使其在构效关系模型评估中获取更高打分。其中,优化指的是改变多维向量中某一维度的数值,局部指的是向量中某一维度的数值改变占该维度原有数值的比率不能太大,优选地,向量中某一维度的数值改变占该维度原有数值的比率为0%-20%。优选地,局部优化使用随机梯度下降来对向量进行微小调整
进一步地,步骤(2)建立多个构效关系模型,以步骤(2)建立的多个构效关系模型作为打分函数。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行上述基于遗传算法和自编码器的化合物生成方法。
上述技术方案具有如下优点或者有益效果:
1、本发明公开了一种基于遗传算法和自编码器的化合物生成方法,以构效关系模型作为打分函数,使用遗传算法探索分子生成模型构建的化学空间,从而实现具有特定化学性质的化合物的自动生成,在实施过程中无需改变预训练深度生成模型的参数,并且在遗传算法的探索过程中无需解码分子,具有速度快、操作简单、低计算资源需求等优点。具体地:
(1)操作简单。该工作流程无需为每一个特定的分子生成任务训练全新的深度学习模型,也无需使用迁移学习或者强化学习的方法来调整预训练模型的参数,而是直接调用预训练的分子生成模型。
(2)低计算资源需求。该流程的核心是在构效关系模型的指导下,使用遗传算法在潜在的向量空间中寻找具有较高打分的向量。遗传算法不牵扯到分子的编码和解码,仅仅是在向量维度上的操作,对计算资源的要求较低。
(3)充分利用已公开报道的分子活性信息。由于构效关系模型被用来作为打分函数指导遗传算法寻找具有高适应度得分的向量。因此,目标向量的特征是由构效关系模型决定的。换句话说,目标化合物的性质是由已有的分子结构和活性信息决定的。
(4)生成具有全新化学结构的抑制剂。该流程在潜在的向量空间中采样,并且通过分子解码来生成分子。因此,生成的化合物分子可能是从未被公开报道过的化合物。
2、遗传算法会使得优势的基因(向量片段)在种群中快速传播,从而造成同一批次生成的化合物分子具有类似的化合物结构,这不利于生成化合物的多样性。本发明通过不同算法以及描述符数量建立多个构效关系模型,以多个构效关系模型作为打分函数,生成多批次的化合物,不同批次之间的化合物多样性要大于单批化合物内部的化合物多样性,从而提升化合物的多样性。
本发明进一步对遗传算法选定的向量进行局部优化,其中,局部优化指的是在构效关系模型的指导下,对经遗传算法选定的向量进行微小调整,从而使其在构效关系模型评估中获取更高打分。
本发明进一步在将遗传算法选定的向量使用分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物之前,通过聚类去除掉相似的向量,以提升化合物的多样性。
附图说明
图1是本发明基于遗传算法和自编码器的化合物生成方法的流程图。
图2是Bcl-2蛋白抑制剂构效关系模型的ROC曲线。
图3是遗传算法的流程图。
图4是遗传算法优化过程中个体适应度的分布直方图。
图5是随机生成的化合物(a)与遗传算法优化后生成化合物(b)的结构比较。
具体实施方式
下述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。因此,以下提供的本发明实施例中的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
在本发明中,若非特指,所有的设备和原料等均可从市场购得或是本行业常用的。下述实施例中的方法,如无特别说明,均为本领域的常规方法。
在一些实施例中,基于遗传算法和自编码器的小分子化合物及多肽生成方法的流程图如图1所示。
本发明提供的基于遗传算法和自编码器的化合物生成方法,所述化合物为小分子化合物或多肽类化合物,包括以下步骤:
(1)选取或从头训练一个合适的分子生成模型;
(2)收集已有化合物及其活性数据,使用步骤(1)中的分子生成模型向量化收集到的化合物,建立化合物构效关系模型;
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法在步骤(1)的分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量,得到遗传算法选定的向量;
(4)使用步骤(1)中的分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。
在一些实施例中,分子生成模型选自自编码器模型、变分自编码器模型或变分自编码器模型与其他神经网络联合使用的自编码器联合模型;在一个具体实施方案中,其他神经网络选自循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer、图神经网络、卷积神经网络及以上网络的变体网络。
在一些实施例中,循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer及以上网络的变体网络用于生成小分子化合物的简化分子线性输入规范(SMIES),多肽的氨基酸序列或核酸序列;图神经网络、卷积神经网络用于生成小分子化合物的二维或三维结构信息。
在一些实施例中,化合物为小分子化合物时,分子生成模型选自变分自编码器与图神经网络的自编码器联合模型。小分子化合物的二维结构被用来表示小分子化合物的固有结构信息,拓扑图被用来描述小分子化合物中原子的性质以及原子间的连接信息。图神经网络被用来提取小分子化合物的特征。确定的化合物G,可以用G=(V,E)来表示,其中V代表该化合物所包含的所有原子(拓扑图中的节点),E代表该化合物所包含的所有化学键(拓扑图中的边)。在图神经网络中,特定节点(原子)的特征除了由该原子的性质决定之外,还来自有与该节点(原子)直接或者间接相连的原子所决定,即特定节点(原子)的性质由该节点(原子)本身和节点(原子)所处于的化学环境所共同决定。
在一些实施例中,化合物为多肽类化合物时,分子生成模型选自变分自编码器与双向门控循环单元网络的自编码器联合模型。氨基酸的序列被用来表示多肽分子的固有结构信息,独热编码被用来编码特定位置氨基酸的类别,双向门控循环单元网络被用来处理氨基酸的位置编码信息并且提取多肽分子的整体特征。
在一些实施例中,活性数据包括化合物的物理、化学或者生物学性质数据;优选地,已有化合物及其活性数据来自公开发表或者数据库(CHEMBL、PubChem等)收录的具有特定物理、化学、生物学性质的分子。所述化合物构效关系模型为小分子化合物结构或多肽分子序列与其物理、化学或者生物学性质的关系模型。具体而言,通过步骤(1)中选定的分子生成模型中的编码网络部分提取已有化合物的特征,通过线性回归、多元线性回归等数据统计模型,支持向量机、决策树、逻辑回归等机器学习模型,全连接网络等深度学习模型建立构效关系模型,构建方法包括如下步骤:
①收集并整理已有化合物及其活性数据,用于构建构效关系模型;
②采用步骤(1)所述分子生成模型中的编码网络部分提取已有化合物的特征,并且使用一组特定的向量表示;
③利用特征工程技术,从提取的化合物特征中选择用于构效关系模型构建的特征;
④使用数据统计模型、机器学习模型或者深度学习模型来构建构效关系模型;
其中,数据统计模型、机器学习模型或者深度学习模型一般通过MLBOX、AUTOML等自动机器学习平台构建;
优选地,数据统计模型选自线性回归、多元线性回归;
优选地,机器学习模型选自支持向量机、随机森林、决策树、逻辑回归;
优选地,深度学习模型选自全连接网络;
⑤对构建的构效关系模型进行模型评估与验证;
优选地,采用均方根误差、平均绝对误差、相关系数、决定系数指标进行定量构效关系模型的评估与验证;
优选地,采用马修斯相关系数、正确率指标进行定性构效关系模型的评估与验证。
在一些实施例中,支持向量机、随机森林这两种机器学习模型由于具有建模较为简单、建模速度快等优点而被用于建立构效关系模型。
在一个具体实施方式中,当化合物为小分子化合物时,步骤(2)详细步骤包括:收集已有化合物及其活性数据,对收集的已有化合物经过步骤(1)所述分子生成模型过滤,将通过分子生成模型编码测试的化合物随机划分训练集和测试集,采用步骤(1)所述分子生成模型中的连接树编码器和分子编码器编码已有化合物,并且将分子编码器生成的向量与连接树编码器生成的向量连接起来,随后使用最小-最大缩放(Min-Max Scaling)来归一化的数值,将向量的每一位都归一化至0.1-0.9的区间内,使用支持向量机和随机森林两种机器学习算法建立化合物的构效关系模型。
在一些实施例中,步骤(3)遗传算法选定的向量获得的步骤包括:
①初始化族群:从已有化合物所处于的向量空间中随机生成向量作为初始化族群;优选地,所述随机生成向量的每一位特征,其取值不超过已有化合物在该特征位置的最大值,且不低于已有化合物在该特征位置的最小值;
②计算个体的适应度:使用步骤(2)中建立的构效关系模型作为打分函数为每一个随机生成的向量打分;
③自然选择:删除掉打分在后的向量;优选地,删除掉打分在后10-30%的向量;
④基因突变:在初始化族群中随机地选出个体进行基因突变,具体地,在初始化族群中随机地选择向量,并且改变单个向量中的单个维度的数值;
⑤基因片段交换:在初始化族群中随机地选择个体,并且每两个个体发生基因杂交产生新的一个个体,具体地,在初始化族群中随机地选择向量,并且使两个向量之间交换等长的向量片段;优选地,步骤⑤中在初始化族群中随机地选择20-60%的向量;优选地,随机地选择的向量数为步骤③中删除的向量数的2倍;
重复步骤②-⑤。
在一些实施例中,对于步骤(3)遗传算法选定的向量通过聚类去除掉相似的向量,再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物。
在一些实施例中,所述生成方法还包括对步骤(3)遗传算法选定的向量进行局部优化,局部优化后再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物,使得寻找到的分子在局部区域具有最优的物理、化学、生物学性质;所述局部优化指的是改变多维向量中某一维度的数值,且向量中某一维度的数值改变占该维度原有数值的比率为0%-20%;优选地,所述局部优化使用随机梯度下降进行。
在一些实施例中,步骤(2)通过不同算法以及描述符数量建立多个构效关系模型,以步骤(2)建立的多个构效关系模型作为打分函数,以提升化合物的多样性。
实施例1
本实施例以B细胞淋巴瘤/白血病-2蛋白(Bcl-2)抑制剂的设计为例对本发明基于遗传算法和自编码器的化合物生成方法进行详细阐释。即本实施例自动生成可能具有Bcl-2蛋白抑制效果的小分子化合物。详细步骤如下:
(1)选择基于图神经网络与自编码器的预训练连接树-变分自编码器模型(JT-VAE)为预训练的深度分子生成模型,该模型是2018年来自麻省理工学院在第35届国际机器学习会议上发布的分子生成模型,该模型基于ZINC数据库中的化合物训练并且集成到DeepGraph Library(DGL)库中。
(2)收集公开报道的Bcl-2抑制剂及其活性数据,使用步骤(1)中的JT-VAE模型向量化收集到的Bcl-2抑制剂,建立构效关系模型。
在本次测试实例中,现有的Bcl-2抑制剂及其生物学活性数据下载于CHEMBL数据库,经过数据清洗与高低活性化合物划分,共有高活性数据1160条,低活性数据1001条。随后判断这些化合物是否可以被JT-VAE模型参数化,经过JT-VAE模型过滤,共有905个化合物通过了JT-VAE模型的编码测试。随机划分训练集和测试集,训练集中共有719个化合物,测试集中共有186个化合物。JT-VAE模型中的连接树编码器和分子编码器被用来编码化合物分子,并且将分子编码器生成的1*28维的向量与连接树编码器生成的1*28维的向量连接起来组成1*56维的向量。紧接着,使用最小-最大缩放(Min-Max Scaling)来归一化的数值,将向量的每一位都归一化至0.1-0.9的区间内。
使用支持向量机和随机森林两种机器学习算法建立Bcl-2抑制剂的构效关系模型,模型在训练集和测试集的ROC曲线可见图2。其中SVM模型预测训练集的AUC(曲线下面积)值为1,预测测试集的AUC值为0.98,在训练集上的准确率为0.998,在训练集上的马修斯相关系数为0.994;RF模型预测训练集的AUC值为1,预测测试集的AUC值为0.98,在测试集上的准确率为0.941,在测试集上的马修斯相关系数为0.876,说明模型有较好的预测效果。
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法探索分子生成模型定义的向量空间,寻找可能具有目标物理、化学及生物学性质的化合物所对应的向量。遗传算法的流程如图3所示,共包含五个步骤:初始化族群,计算个体的适应度,自然选择,基因突变以及基因片段交换。具体而言:
①初始化族群:首先从向量空间中随机地生成1000000个向量作为初始化族群,此处的向量空间为已知Bcl-2抑制剂所处在的向量空间,而非任意的向量空间。具体实施时,对于随机生成向量的每一位特征,其取值不能超过已知活性化合物在该特征位置的最大值,也不能低于已知活性化合物在该特征位置的最小值。
②计算个体的适应度:使用在步骤(2)中建立的支持向量机和随机森林模型为每一个向量打分,两个模型打分的平均值作为向量的最终得分。
③自然选择:删除掉打分在后10%的向量。
④基因突变:在族群中随机地选出200个个体进行基因突变,单个个体中单个位点发生基因突变的概率为1/28;
此处,基因突变指的是在族群随机选择个体,并且改变单个个体中的单个位点的数值。换句话说,基因突变指的是在所有的向量中随机的选出向量,并且改变单个向量中的单个维度的数值。
具体到本实施例,向量共有28维,选择其中的一个维度进行数据改变,因此,单个向量中单个维度基因突变的概率为1/28。
⑤基因片段交换:在族群中随机地选择20%的个体,并且每两个个体发生基因杂交产生新的一个个体,即整个族群通过基因杂交补充了10%的新个体;
此处,基因片段交换指的是在族群随机选择两个个体,并且使得两个个体之间交换等长的基因片段。换句话说,基因片段交换指的是在所有的向量中随机的选出两个向量,并且使得两个向量之间交换等长的向量片段;
具体到本实施例,两个向量基因片段交换会产生一个新的向量。因此,选择20%的个体进行片段交换一共会产生10%的新个体。
重复②-⑤步。在每一次循环中,族群丧失10%的个体,并且产生10%的新个体,族群中个体数目保持不变。整个种群一共进行了200次迭代。
(4)使用步骤(1)中的分子生成模型中的解码器网络将步骤(3)产生的向量还原为具体的化合物。将产生的向量使用JT-VAE模型的解码器进行解码,解码的成功率(生成分子的有效性)为46.73%。生成的分子中,1000个SMILES字符串被随机地选取,去除重复之后还剩余415个,其生成化合物的的独特性为41.5%。经过第1,50,100,150,200次迭代的个体分布直方图被展示在图4中。从图4中可见,随着遗传算法的迭代,种群中的个体越来越具有较高的适应度打分。
一部分从向量空间中随机生成的向量和经过本发明遗传算法优化的向量被解码出来,其结构被展示在图5中,可见随机生成的化合物中含有大量的重复的结构,而经过遗传算法优化的分子结构更加具有多样性。
在速度方面,该过程可以分为遗传算法的优化以及分子解码两个步骤。在遗传算法优化步骤,对于含有十万个体的种群,可以在单个CPU上于两小时内完成优化。分子解码阶段所消耗的时间取决于步骤(1)中选取模型的参数规模以及模型复杂程度。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于遗传算法和自编码器的化合物生成方法,其特征在于,所述化合物为小分子化合物或多肽类化合物,包括以下步骤:
(1)选取或从头训练一个分子生成模型;
(2)收集已有化合物及其活性数据,使用步骤(1)中的分子生成模型向量化收集到的化合物,建立化合物构效关系模型;
(3)以步骤(2)建立的构效关系模型作为打分函数,使用遗传算法在步骤(1)的分子生成模型定义的向量空间中寻找具有目标物理、化学或者生物学活性的小分子化合物或多肽类化合物所对应的向量,得到遗传算法选定的向量;
(4)使用步骤(1)中的分子生成模型中的解码器网络将遗传算法选定的向量还原为具体的小分子化合物或多肽类化合物。
2.根据权利要求1所述的化合物生成方法,其特征在于,所述分子生成模型选自自编码器模型、变分自编码器模型或变分自编码器模型与其他神经网络联合使用的自编码器联合模型;
所述其他神经网络选自循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer、图神经网络、卷积神经网络及以上网络的变体网络。
3.根据权利要求2所述的化合物生成方法,其特征在于,所述循环神经网络、双向循环神经网络、门控循环单元网络、双向门控循环单元网络、长短期记忆网络、双向长短期记忆网络、一维卷积神经网络、递归神经网络、Transformer及以上网络的变体网络用于生成小分子化合物的简化分子线性输入规范(SMIES),多肽的氨基酸序列或核酸序列;
所述图神经网络、卷积神经网络用于生成小分子化合物的二维或三维结构信息;
优选地,所述化合物为小分子化合物时,分子生成模型选自变分自编码器与图神经网络的自编码器联合模型;
优选地,所述化合物为多肽类化合物时,分子生成模型选自变分自编码器与双向门控循环单元网络的自编码器联合模型。
4.根据权利要求1所述的化合物生成方法,其特征在于,所述活性数据包括化合物的物理、化学或者生物学性质数据;
所述化合物构效关系模型为小分子化合物结构或多肽分子序列与其物理、化学或者生物学性质的关系模型;
所述化合物构效关系模型的构建方法,包括如下步骤:
①收集并整理已有化合物及其活性数据,用于构建构效关系模型;
②采用步骤(1)所述分子生成模型中的编码网络部分提取已有化合物的特征,并且使用一组特定的向量表示;
③利用特征工程技术,从提取的化合物特征中选择用于构效关系模型构建的特征;
④使用数据统计模型、机器学习模型或者深度学习模型来构建构效关系模型;
其中,数据统计模型、机器学习模型或者深度学习模型通过自动机器学习平台构建;
优选地,所述自动机器学习平台选自MLBOX、AUTOML;
优选地,所述数据统计模型选自线性回归、多元线性回归;
优选地,所述机器学习模型选自支持向量机、随机森林、决策树、逻辑回归;
优选地,所述深度学习模型选自全连接网络;
⑤对构建的构效关系模型进行模型评估与验证;
优选地,采用均方根误差、平均绝对误差、相关系数、决定系数进行定量构效关系模型的评估与验证,所述定量构效关系模型为回归模型;
优选地,采用马修斯相关系数、正确率进行定性构效关系模型的评估与验证,所述定性构效关系模型为分类模型。
5.根据权利要求1所述的化合物生成方法,其特征在于,步骤(3)中遗传算法选定的向量获得的步骤包括:
①初始化族群:从已有化合物所处于的向量空间中随机生成向量作为初始化族群;
②计算个体的适应度:使用步骤(2)中建立的构效关系模型作为打分函数为每一个随机生成的向量打分;
③自然选择:删除掉打分在后的向量;
④基因突变:在初始化族群中随机地选择向量,并且改变单个向量中的单个维度的数值;
⑤基因片段交换:在初始化族群中随机地选择向量,并且使两个向量之间交换等长的向量片段;
重复步骤②-⑤,获得遗传算法选定的向量。
6.根据权利要求5所述的化合物生成方法,其特征在于,步骤①中所述随机生成向量的每一位特征,其取值不超过已有化合物在该特征位置的最大值,且不低于已有化合物在该特征位置的最小值;
优选地,步骤③中删除掉打分在后10-30%的向量;
优选地,步骤⑤中在初始化族群中随机地选择20-60%的向量;
优选地,步骤⑤中随机地选择的向量数为步骤③中删除的向量数的2倍。
7.根据权利要求1所述的化合物生成方法,其特征在于,步骤(3)所述遗传算法选自拉马克遗传算法;
优选地,对于步骤(3)中遗传算法选定的向量通过聚类去除掉相似的向量,再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物。
8.根据权利要求1所述的化合物生成方法,其特征在于,所述生成方法还包括对步骤(3)遗传算法选定的向量进行局部优化,局部优化后再使用步骤(1)中的分子生成模型中的解码器网络还原为具体的小分子化合物或多肽类化合物;
所述局部优化指的是改变多维向量中某一维度的数值,且向量中某一维度的数值改变占该维度原有数值的比率为0%-20%;
优选地,所述局部优化使用随机梯度下降进行。
9.根据权利要求1所述的化合物生成方法,其特征在于,步骤(2)建立多个构效关系模型,以步骤(2)建立的多个构效关系模型作为打分函数。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行权利要求1-9任一项所述生成方法。
CN202311052506.2A 2023-08-21 2023-08-21 一种基于遗传算法和自编码器的化合物生成方法 Pending CN117095762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311052506.2A CN117095762A (zh) 2023-08-21 2023-08-21 一种基于遗传算法和自编码器的化合物生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311052506.2A CN117095762A (zh) 2023-08-21 2023-08-21 一种基于遗传算法和自编码器的化合物生成方法

Publications (1)

Publication Number Publication Date
CN117095762A true CN117095762A (zh) 2023-11-21

Family

ID=88781462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311052506.2A Pending CN117095762A (zh) 2023-08-21 2023-08-21 一种基于遗传算法和自编码器的化合物生成方法

Country Status (1)

Country Link
CN (1) CN117095762A (zh)

Similar Documents

Publication Publication Date Title
US20240144092A1 (en) Generative machine learning systems for drug design
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
JP2881711B2 (ja) 神経回路網の遺伝子的合成
CN109887540A (zh) 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN104751842B (zh) 深度神经网络的优化方法及系统
US8332347B2 (en) System and method for inferring a network of associations
CN109063164A (zh) 一种基于深度学习的智能问答方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
CN110069690B (zh) 一种主题网络爬虫方法、装置及介质
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN113838536B (zh) 翻译模型构建方法、产物预测模型构建方法及预测方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
CN112270958A (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN110021340A (zh) 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法
Wang et al. Molecular property prediction based on a multichannel substructure graph
CN114913938B (zh) 一种基于药效团模型的小分子生成方法、设备及介质
CN116601715A (zh) 通过主动学习进行药物优化
CN115132270A (zh) 药物筛选方法及系统
Du et al. Species tree and reconciliation estimation under a duplication-loss-coalescence model
Shirmohammady et al. PPI-GA: a novel clustering algorithm to identify protein complexes within protein-protein interaction networks using genetic algorithm
CN117095762A (zh) 一种基于遗传算法和自编码器的化合物生成方法
CN115631805A (zh) 基于图神经网络的药物与蛋白质亲和力预测方法及系统
CN112768081B (zh) 基于子图及节点的共调控生物网络模体发现方法及装置
CN112686306B (zh) 基于图神经网络的icd手术分类自动匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination