CN115104105A - 用于图到序列模型方法的对抗性自动编码器架构 - Google Patents

用于图到序列模型方法的对抗性自动编码器架构 Download PDF

Info

Publication number
CN115104105A
CN115104105A CN202180014982.8A CN202180014982A CN115104105A CN 115104105 A CN115104105 A CN 115104105A CN 202180014982 A CN202180014982 A CN 202180014982A CN 115104105 A CN115104105 A CN 115104105A
Authority
CN
China
Prior art keywords
data
discriminator
model
potential
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180014982.8A
Other languages
English (en)
Inventor
A·扎沃若克夫
E·O·普丁
K·S·克彻托夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insilicon Intelligent Technology Co ltd
Original Assignee
Insilicon Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insilicon Intelligent Technology Co ltd filed Critical Insilicon Intelligent Technology Co ltd
Publication of CN115104105A publication Critical patent/CN115104105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

图到序列(G2S)架构被配置为使用对象的图数据来生成新对象的序列数据。该过程可以与可以表示为图数据和序列数据的对象类型一起使用。例如,这样的数据是分子数据,其中每个分子可以表示为分子图和SMILES。示例还包括图像到文本或/和图像到语音转换的深度学习中的热门任务。图像可以自然地表示为图,而文本和语音可以原生表示为序列。G2S架构可以包括图编码器和样本生成器,其在潜在空间中产生潜在数据,可以利用对象的属性来对这些潜在数据设置条件。潜在数据被输入到鉴别器中以获得真实或假的对象,并被输入到解码器中以生成新对象的序列数据。

Description

用于图到序列模型方法的对抗性自动编码器架构
相关申请的交叉引用
本专利申请要求于2020年2月19日提交的申请号为62/978,721的美国临时申请的优先权,其临时内容通过具体引用整体并入本文。
背景技术
技术领域
本公开涉及一种用于将化学品从一种格式转换为另一种格式(例如从图模型转换为序列模型)的方法的对抗性自动编码器架构。
相关技术描述
深度神经网络(DNN)是最近为复杂数据处理和人工智能(AI)而创建的计算机系统架构。DNN包括机器学习模型,该模型采用多个非线性计算单元的隐藏层来预测一组接收到的输入的输出。DNN可以出于各种目的以各种配置提供,并继续开发以提高性能和预测能力。
深度学习在其整个开发过程中已经被用于各种目的,例如从图片或其他功能生成文本。最近,DNN已被用于生物标志物的开发、药物发现和药物再利用。在某种程度上,正在使用计算机技术来代替或增强标准药物的发现,以抵消识别潜在药物并在潜在药物作为商业药物销售之前使其通过监管程序所花费的大量时间和成本。虽然标准药物发现流水线包括许多阶段,但找到一组可能改变特定蛋白质或信号通路活性的初始分子仍然是一个问题。
可以通过去除不显示显著前景的化合物来提高新药候选物的命中率。这些化合物可以在早期阶段使用机器学习模型被确定为不适合进行进一步研究,该机器学习模型可以用于估计化合物的性质并指导药物优化过程。机器学习可用于使用变分自动编码器、图卷积和图消息传递网络来学习分子的有用潜在表示。
人工神经网络(ANN)是一类机器学习(ML)模型,它基于生物神经元的概念,广泛应用于分类、回归、聚类和对象生成等各种人工智能任务。通常,单个人工神经元接受所谓的输入信号(例如,通常表示为N维真值向量),并输出输入乘以应用了一些线性或非线性函数(例如sigmoid或双曲正切)的神经元的可学习权重之和。通常,ANN包括大量的逐层组织的人工神经元。每个ANN都有输入层、隐藏层和输出层。DNN是具有一个或多个隐藏层的ANN。
由于ML中几乎所有任务都是根据优化问题制定的,因此每个DNN都有一定的训练和验证程序,这些程序基于反向传播算法。例如,在训练阶段进行二进制分类的情况下,针对训练样本(例如,可获得真实标签的样本)计算一些损失函数(例如,二进制交叉熵),然后将聚合误差反向传播到DNN输入层。这个过程通常重复多次,直到协议在模型上收敛。验证阶段训练的DNN预测看不见的对象的标签(例如,模型在训练期间看不到对象),并且计算一些质量度量来估计训练的DNN模型的功效。
在一些实例中,以更简单的形式和在低维空间中表示复杂的高维对象是有益的。因此,存在称为自动编码器(AE)的特定DNN。AE包括两个DNN:编码器和解码器。编码器将输入信号压缩到称为潜在表示的低维空间中。解码器采用输入对象的潜在表示,并返回重建的输入信号。AE的训练目标是最小化输入信号与重建信号之间的误差。
生成对抗网络(GAN)是一种基于范式对抗学习的DNN,并且能够生成现实对象,例如图像、文本、语音和分子以及其他对象。在这个概念中,表示为DNN的两个参与者之间存在最小最大(minimax)比较,它们是生成器和鉴别器。生成器获取一些样本数据(例如,典型地从原始对象数据的标准正态分布或均匀分布中采样数据)并产生假样本。鉴别器获取样本并决定该样本是从真实分布(例如,来自真实训练集)还是从生成器产生的假样本中提取。生成器和鉴别器相互竞争,并且证明了这样的最小最大比较具有纳什均衡。生成器和鉴别器都通过反向传播进行训练,其中一个的误差就是另一个的收益。GAN可以很容易地扩展为有条件的生成。
对抗性自动编码器(AAE)是基于GAN的AE模型。它具有三个DNN组件:编码器、解码器和鉴别器。在AAE中,编码器与生成器相同,因此编码器用于两个目的:1)它像编码器一样将对象压缩到潜在空间中;2)它接收样本数据(例如,通常来自原始对象数据的标准正态分布或对象的其他训练数据)并输出假样本(例如,对象的)在潜在空间中,就像生成器一样。像往常一样,解码器将潜在空间的点映射到对象中。AAE和GAN架构之间的明显区别在于,在AAE中,鉴别器不是对对象进行分类,而是对其潜在表示进行分类(例如,通过使用编码器获得)。
编码器和生成器不相同的架构称为对抗性正则化自动编码器(ARAE)。在ARAE的情况下,对AAE中的潜在空间没有限制,部分原因是显式生成器可以在潜在空间中诱导任何分布。因此,ARAE比AAE更灵活。
被称为序列对序列(Seq2Seq)的DNN是AE架构的特例,其中编码器和解码器都是循环神经网络(RNN)。在Seq2Seq的情况下,编码器的输入和解码器的输出是符号序列。
被称为图到序列(G2S)的DNN是有条件的AAE/ARAE模型,其接收图表示对象,然后输出序列或字符串表示对象。G2S的某些方面是通过使用图表示来保持对象的结构和拓扑信息。G2S编码器将图压缩到保留其结构关系的潜在点,然后G2S解码器将潜在点映射到序列或字符串中。因此,G2S模型在许多情况下可能是有用的。但是,G2S建模仍然可以改进。
因此,在对象是可以表示为序列(例如,SMILES)的复杂图(例如,分子)的情况下,改进G2S模型将是有利的。
发明内容
在一些实施例中,一种用于训练模型以生成对象的计算机实现的方法可以具有自动编码器步骤,包括:提供变分、对抗性或变分和对抗性的组合的自动编码器架构,其被配置为图到序列(G2S)模型;将用于多个真实对象的图数据输入到G2S模型的编码器中;利用G2S模型的解码器从潜在空间数据生成序列数据;从G2S模型的鉴别器生成鉴别器输出数据;对编码器和解码器执行优化;以及报告训练的G2S模型。
在一些实施例中,用于训练模型以生成对象的计算机实现的方法可以包括自动编码器步骤,例如如下:提供被配置为图到序列(G2S)模型的对抗性自动编码器架构;获得用于多个真实对象的图数据;将图数据输入到编码器中;利用编码器从图数据生成在潜在空间中具有潜在向量的潜在数据;获得真实对象的属性数据;将来自图数据的潜在向量与在潜在空间中的属性数据连接;将潜在空间数据输入到解码器中;利用所述解码器从所述潜在空间数据生成序列数据,其中所述序列数据表示真实对象并且包括符号logits;计算所述序列数据的logits与所获得的图数据的序列数据之间的对数似然性;将潜在空间数据输入到鉴别器中;从鉴别器生成鉴别器输出数据,其中鉴别器输出数据包括鉴别器logits;计算鉴别器logits和标签“1”的对数似然性,其中标签“1”是鉴别器的真实输出数据;对编码器和解码器执行梯度下降步骤;以及报告训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型存储在数据库中。
在一些实施例中,计算机实现的训练协议可以包括生成器步骤,包括:将正态分布的样本数据输入到G2S模型的生成器;用鉴别器生成鉴别器样本数据;对生成器执行优化;以及报告生成器训练的G2S模型。
在一些实施例中,用于训练模型以生成对象的计算机实现的方法可以包括生成器步骤,包括:获得对象数据的正态分布的样本数据;将样本数据输入到生成器中;用生成器生成样本潜在向量,其中,样本潜在向量在潜在空间中;将属性数据与样本潜在向量连接;将潜在空间数据输入到鉴别器以获得具有样本logits的鉴别器样本数据;计算鉴别器样本logits和标签“1”的对数似然性,其中,标签“1”是鉴别器的真实输出数据;计算生成器的雅可比钳位项;对编码器和解码器执行梯度下降步骤;以及报告生成器训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型存储在数据库中。
在一些实施例中,计算机实现的训练可以包括鉴别器步骤,包括:计算鉴别器的有效性;使用计算出的有效性对鉴别器执行优化;以及报告鉴别器训练的G2S模型。
在一些实施例中,用于训练模型以生成对象的计算机实现的方法可以包括鉴别器步骤,包括:计算鉴别器样本logits和标签“0”的对数似然性,其中标签“0”是鉴别器的假输出数据;使用来自鉴别器logits和标签“1”的对数似然性以及来自鉴别器样本logits和标签“0”的对数似然性的结果,对鉴别器执行梯度下降步骤;以及报告生成器训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型存储在数据库中。
在一些实施例中,生成新对象的计算机实现的方法可以包括:提供图到序列(G2S)模型,如本文所述;将真实对象及其属性的图数据输入到G2S模型中;用图数据和属性数据训练G2S模型以获得已训练的G2S模型;将期望属性的期望属性数据输入到已训练的G2S模型中;用已训练的G2S模型生成具有期望属性的新对象;以及报告具有期望属性的新对象。在一些方面,所述方法(例如,非计算机实现的步骤)可以包括:创建新对象(例如,具有属性的物理对象)的真实版本;以及验证新对象以具有期望属性。在一些方面,真实对象是分子,并且该分子的属性包括生化属性和/或结构化属性。在一些方面,真实对象是图像,属性是具有自然语言单词序列的描述。
在一些实施例中,生成新对象的计算机实现的方法可以包括:将正态分布的样本数据输入到G2S模式的生成器中;利用对象的至少一个期望属性对潜在空间中的潜在向量数据进行条件设置;将已设置条件的潜在向量数据输入到解码器中;以及生成具有所述至少一个期望属性的所生成对象的序列数据。在一些方面,所述正态分布是具有所述至少一个期望属性的真实对象的正态分布。
在一些实施例中,提供了存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由一个或多个处理器执行,使得计算机系统执行本文所述的任何计算机实现的方法的操作。
在一些实施例中,计算机系统可以包括:一个或多个处理器;以及存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由一个或多个处理器执行,使得计算机系统执行任何计算机实现的方法的操作。
前述总结仅是说明性的,并不旨在以任何方式限制。除了上述说明性方面、实施例和特征之外,通过参考附图和下面的详细描述,其他方面、实施例和特征将变得显而易见。
附图说明
结合附图,从下面的描述和所附权利要求中,本公开的前述和以下信息以及其他特征将变得更加完全明显。应当理解,这些附图仅描绘了根据本公开的几个实施例,并且因此不被认为是对其范围的限制,将通过使用附图以额外的特征和细节来描述本公开。
图1示出了图到序列(G2S)模型架构的示意图。
图2包括说明G2S模型的训练过程的流程图。
图3包括说明用训练好的G2S模型生成对象的过程的流程图。
图4包括示出了使用具有REINFORCE优化的G2S模型与目标分子的Tanimoto相似性最大化的示例的图。
图5包括示出了在G2S潜在空间上使用贝叶斯优化算法对药物相似性(QED)定量估计最大化的示例的图。
图6示出了用于基于支架和/或片段设置条件的改进的G2S模型架构用于分子生成的示意图。
图7示出了基于图6的改进的G2S模型架构的支架和具有给定支架的所得生成的分子的实例。
图8示出了可以在本文所述的方法中使用的计算系统的示意图。
附图中的元件和组件可以根据本文描述的实施例中的至少一个进行布置,并且该布置可以由本领域普通技术人员根据本文提供的公开内容进行修改。
具体实施方式
在下面的详细描述中,参考构成本发明一部分的附图。在附图中,除非上下文另有指示,否则相似的符号通常标识相似的组件。在具体实施方式、附图和权利要求中描述的说明性实施例并不意味着是限制性的。在不脱离本文所呈现的主题的精神或范围的情况下,可以利用其他实施例,并且可以进行其他改变。容易理解的是,如本文一般描述的和在附图中示出的本公开的方面可以以各种不同的配置来布置、替换、组合、分离和设计,所有这些在本文中都被明确考虑。
一般地,本技术包括用于改进G2S输出的改进的图到序列(G2S)模型和协议。G2S可以利用图数据作为编码器的输入,例如本文所述。图数据可以基于例如社交网络、引文网络、分子结构等的数据集。图结构化数据可以具有各种大小的无序节点,并且图中的每个节点可以具有不同数量的邻居节点。图结构化数据是已知的,并且可以根据源数据通过各种技术获得。一些示例包括邻接矩阵、特征矩阵或其他。相应地,G2S可以与可以被转换为图结构化数据的任何源数据,或者可以是图结构化数据的源数据一起使用。例如,源数据可以是分子的序列数据,例如简化的分子线性输入规范(SMILES),可以通过已知技术将其转换为图结构化数据。然后,可以将分子的图结构化数据输入到编码器中,例如本文所述。
相应地,本G2S模型可用于生成新的化学实体,但也可用于生成可以在图结构化数据(例如,图数据)和序列结构化数据(例如,序列数据)两者中表示的其他对象。数据可以在图数据或序列数据中获得。当获得序列数据作为源数据时,执行转换以将序列数据转换为图数据。可以定制转换函数,使其取决于输入数据的类型。SMILES的转换协议的示例如下:每个分子都可以表示为SMILES和分子图,因此从序列到图的转换过程只是将分子的表示从序列表示(例如,SMILES)替换为图表示(例如,分子图)。图表示通常可以包括邻接矩阵(例如,原子之间的连接)和节点(例如,原子)特征。
在一些实施例中,数据可以被配置为提高G2S模型训练和验证的正确性。相应地,数据可以具有关于图数据和序列数据的以下属性。首先,数据的每个样本(或组成样本)应能够表示为图和序列。其次,数据应允许将样本从图表示映射到序列表示,反之亦然。在示例中,这样的数据是分子数据,其中每个分子可以表示为分子图并且以分子序列(例如SMILES格式)表示。
另外,深度学习中的流行任务可以使用图像到文本和/或图像到语音转换。图像可以自然地表示为图,而文本和语音可以原生表示为序列。因此,这些类型的数据,以及其他,可以表示为图或序列数据,并用于G2S模型训练和验证协议。
在一些实施例中,本文描述的G2S协议可以应用于分子数据集。例如,G2S协议可以应用于包含多达九个重原子的小有机分子的QM9数据集,并可以应用于来自ZINC数据库的ZINC250数据集,ZINC数据库包含可能是可能的药物的市售化合物(分子)。这些分子可用于虚拟筛选。对于来自QM9和ZINC250数据集中的所有分子,计算了几种化学属性,包括药物相似性的定量估计(QED)、LogP(亲脂性的度量)和其他可用作G2S模型中条件生成属性的分子描述符。数据可以作为序列数据获得,然后转换为用于G2S模型的图数据。然后可以使用图数据和每个示例分子的属性。
G2S模型可以具有各种配置。然而,本文所述的本G2S模型可以通过包括图数据的复杂性来提供分子生成的改进,可以用于获得生成的分子对象的更精确的序列数据。
在一些实施例中,G2S模型可以包括编码器、解码器、生成器和鉴别器。在某些方面,G2S模型被训练为ARAE。在某些方面,G2S模型以AAE方式训练。在一些方面,编码器是DNN,可以被配置为:多层感知器(MLP);卷积神经网络(CNN)及其变体(例如,像对角线CNN);任何种类的图卷积网络(GCN);或任何种类的图神经网络(GNN)。可以使用的DNN被配置为处理图结构对象(例如,分子、蛋白质、计算机病毒等)并输出对应于输入图数据的潜在向量。在某些方面,解码器是DNN,可以被配置为:MLP;长短期记忆网络(LSTM);或门控循环单元网络(GRU)。解码器被配置为使用潜在向量输出字符串序列。在某些方面,鉴别器是DNN,例如1D CNN或MLP,其获取潜在点并输出将点分类为真实或虚假类别的二进制标签。在一些方面,生成器是DNN,例如1D CNN或MLP,其接收来自标准正态分布的样本并输出潜在空间中的点。
图1示出了G2S架构100的实施例,其被示出为包括编码器102、解码器104、生成器106和鉴别器108。如图所示,图数据110被提供给编码器102,编码器102处理图数据110以获得潜在空间数据112。G2S架构100还包括图数据110中的对象(例如,分子)的条件数据114被链接到潜在空间数据112,其中条件数据114与潜在空间数据112中的对象的潜在向量连接,比如在潜在空间。条件数据114可以包括每个对象的属性数据,并且属性数据与各自对象的潜在向量链接(例如,在条件生成的情况下)。来自编码器102的潜在空间数据112(可选地与条件数据114连接)可以被提供给解码器104,其被处理以获得序列数据116。序列数据116可以包括从解码器104获得的符号logits。如本文更详细描述的,符号logits(例如,来自解码器104在序列数据116中)之间的对数似然性可以用与被引入到编码器102中的图数据110对应的序列数据来计算。在一些情况下,可以获得与图数据110对应的序列数据,而在其它情况下,从序列数据获得图数据110。在任何情况下,将与图数据110对应的该序列数据与从解码器104输出的序列数据116进行比较,该比较可以通过计算序列数据116的符号logits和对应于图数据110的序列数据的符号logits之间的对数似然性来进行。
来自编码器102的潜在空间数据112(可选地与条件数据110连接)可以被提供给鉴别器108,并且鉴别器108可以生成输出数据118。输出数据118可以是真输出或假输出,这将在下面详细描述。然后,输出数据118可以包括从鉴别器108获得的符号logits。如本文更详细描述的,符号logits(例如,来鉴别器108在输出数据118中)之间的对数似然性可以用标签“1”来计算。鉴别器108可以为包括与图数据110的对象匹配的对象的真输出输出标签“1”,并且可以为仅包括合成对象的假输出输出标签“0”。因此,输出数据118可以是序列数据,其可以对应于被引入到编码器102中的图数据110的序列数据(例如,其可以是真的或“1”)。在任何情况下,将与图数据110对应的该序列数据与从鉴别器108输出的输出数据118的序列数据进行比较,该比较可以通过计算输出数据118的符号logits和对应于真的或具有标签“1”的图数据110的序列数据的符号logits之间的对数似然性来进行。
在一些情况下,可以使用在logits和来自解码器104的序列之间以及在logits和标签“1”之间计算的损耗(例如,对数似然性)来对编码器102和解码器104执行梯度下降步长计算。具有较低损耗的序列或对象可以是优选的。可以执行梯度下降步长计算,直到损耗低于损耗阈值。
另外,G2S架构100包括被配置为接收样本数据120的生成器106。样本数据120可以是来自对象数据的自然标准分布的样本。然后,生成器105可以在潜在空间中生成样本潜在空间数据122(例如,其不同于来自编码器102的潜在空间数据112和图数据110,例如,图潜在空间数据112)。G2S架构100还包括图数据110中的对象(例如,分子)的条件数据114被链接到样本潜在空间数据122,其中条件数据114与潜在空间数据122中的对象的潜在向量连接。条件数据114可以包括每个对象的属性数据,并且属性数据与各自对象的潜在向量链接(例如,在条件生成的情况下)。来自生成器106的潜在空间数据122(可选地与条件数据1104连接)可以被提供给鉴别器108,其被处理以获得样本输出数据124。样本输出数据124可以是真输出或假输出,这将在下面进行详细描述。然后,样本输出数据124可以包括从鉴别器108获得的符号logits。如本文更详细描述的,符号logits(例如,来自鉴别器108在样本输出数据124中)之间的对数似然性可以用标签“1”来计算。鉴别器108可以为包括与样本数据120的对象匹配的对象的真输出输出标签“1”,并且可以为仅包括合成对象的假输出输出标签“0”。因此,输出数据124可以是序列数据,其可以对应于被引入到生成器106中的样本数据120的序列数据(例如,其可以是真的或“1”)。在任何情况下,将与样本数据120对应的该序列数据与从鉴别器108输出的输出数据118的序列数据进行比较,该比较可以通过计算输出数据124的符号logits和对应于真的或具有标签“1”的样本数据120的序列数据的符号logits之间的对数似然性来进行。
在一些实施例中,G2S架构100可以计算生成器的雅可比钳位(Jacobianclamping)项。为了使潜在空间更平滑,可以执行雅可比钳位(JC)正则化。JC的功能是将生成器106的雅可比范数钳制在两个值之间。换句话说,JC的目标是最小化生成器106的样本数据120输入和使用这些输入产生的生成器106的输出(例如,潜在空间数据122)之间的扰动的绝对差。JC是添加到公共模型损耗中的正则化项。
在一些情况下,可以使用在logits和标签“1”之间计算的损耗(例如,对数似然性)以及雅可比钳位的结果,对生成器106和鉴别器108执行梯度下降步长计算。具有较低损耗的序列或对象可以是优选的。可以执行梯度下降步长计算,直到损耗低于损耗阈值。
在一些实施例中,G2S架构100可以计算logits(例如,来自鉴别器108在样本输出数据124中)之间的对数似然性,其可以用标签“0”(假)来计算。鉴别器108可以为仅包括合成对象的假输出输出标签“0”。因此,输出数据124可以是与被引入到生成器106中的样本数据120的序列数据相对应的序列数据。而且,可以使用在logits和标签“0”之间计算的损耗(例如,对数似然性)以及在上述来自鉴别器108的输出数据118和标签“1”中的损耗(例如,对数似然性),对鉴别器108执行梯度下降步长计算。具有较低损耗的序列或对象可以是优选的。可以执行梯度下降步长计算,直到损耗低于损耗阈值。
在一些情况下,损耗不是足够小的。结果,可以降低自动编码器的学习率。具有G2S架构100的协议可以通过迭代来执行,直到损耗是合适的。
图2示出了可与图1的G2S架构100一起使用的模型训练过程200的流程图。模型训练过程可以如所描述的那样执行。模型训练过程可以包括如下所述的自动编码器步骤。模型训练过程200可以包括获得真实对象数据,该真实对象数据可以是在框202处的真实对象的序列表示的形式。真实对象可以具有与真实对象相关的真实对象属性203,这些对象属性可以根据需要而变化,以生成以某种方式匹配真实对象的对象。真实对象可以与真实对象属性相关联。例如,可以将表示为序列数据的真实对象的一个小批量(minibatch)与真实对象的属性一起采样。在一些方面,获得序列表示的真实对象,然后模型训练过程200可以包括在框204处将真实对象的序列表示转换为真实对象的图表示的转换协议。也就是说,将真实对象的序列数据转换为图数据,可以通过任何转换协议。但是,可以直接获得用于真实对象的图数据,而不必执行变换,但是随后可能需要将图数据转换为原始序列数据,以便可以将从解码器输出的序列数据与原始序列数据进行比较。然后,在框206处,真实对象的图数据可以作为输入被提供到编码器中,编码器被配置为将图数据处理为潜在空间中的潜在向量。相应地,编码器可以获得图数据的潜在向量。模型训练过程200可以在箭头208处将真实对象属性203与潜在向量连接(例如,链接)。当存在由编码器条件生成潜在向量的情况时,连接可能会有所帮助。因此,潜在空间210可以包括与真实对象属性相关联的真实对象的潜在向量。
在框212处,无论潜在向量是否与真实对象属性连接,潜在空间210中的数据都可以被输入到解码器中,并被处理以获得序列数据。也就是说,解码器可以产生重建对象214,例如重建对象的序列表示。然后可以计算来自框212的logits(例如,重建对象214)和来自框202的序列之间的对数似然性,例如本文所述。
然后可以将重建对象与真实对象进行比较,并且可以在框216处计算重建损耗。
另外,模型训练过程200可以包括在框220处将来自潜在空间210的潜在数据输入到鉴别器以获得鉴别器输出数据。然后可以在框222处计算鉴别器输出数据的对抗性损耗。在一些方面,计算对抗性损耗可以包括计算来自框220处的logits和标签“1”(例如,真实的)之间的对数似然性。然后,过程200可以包括使用来自框216的损耗以及来自框220的logits和标签“1”(例如,真实的)之间计算的对数似然性的损耗,对编码器和解码器执行梯度下降步骤。
图2还示出了模型训练过程200可以包括生成器步骤。因此,可以在框230处对样本数据的一个小批量(例如,正态分布的N(0,1))进行采样。在框232处,样本数据可以被输入到生成器中进行处理以获得样本数据的潜在向量。样本数据的潜在向量可以在潜在空间210中。模型训练过程200可以在箭头234处将真实对象属性203与样本潜在向量连接。当存在由生成器条件生成样本数据的潜在向量的情况时,连接可能会有所帮助。因此,潜在空间210可以包括与真实对象属性相关联的样本数据的潜在向量。
在框236处,无论是否与真实对象属性相关联,在潜在空间210中的样本数据的潜在向量的数据可以输入到鉴别器中,以获得样本数据潜在向量的鉴别器输出。然后可以在框238处使用样本数据潜在向量的鉴别器输出来计算对抗性损耗。
然后,符号logits(例如,来自鉴别器在样本输出数据中)之间的对数似然性可以用标签“1”来计算。鉴别器可以为包括与样本输出数据的对象匹配的对象的真输出输出标签“1”,并且可以为仅包括合成对象的假输出输出标签“0”。因此,样本输出数据可以是序列数据,其对应于被引入到生成器中的样本数据的序列数据(例如,其可以是真实的或“1”)。在任何情况下,将与样本数据对应的该序列数据与从鉴别器输出的具有样本向量数据的输出数据的序列数据进行比较,该比较可以通过计算样本输出数据的符号logits和对应于是真实的或具有标签“1”的输入样本数据的序列数据的符号logits之间的对数似然性来进行。
在一些实施例中,模型训练过程200可以计算生成器的雅可比钳位项。为了使潜在空间更平滑,可以执行雅可比钳位(JC)正则化。在一些情况下,可以使用在logits和标签“1”之间计算的损耗(例如,对数似然性)以及雅可比钳位的结果来执行梯度下降步长计算。具有较低损耗的序列或对象可以是优选的。可以执行梯度下降步长计算,直到损耗低于损耗阈值。
图2还示出了模型训练过程200可以包括鉴别器步骤。这样,鉴别器步骤可以计算logits(例如,来自鉴别器在样本输出数据中)之间的对数似然性,其可以用标签“0”(假)来计算。鉴别器可以为仅包含合成对象的假输出输出标签“0”。因此,输出样本数据可以是与被引入到生成器中的样本数据120的序列数据相对应的序列数据。然后,可以使用在logits和标签“0”之间计算的损耗(例如,对数似然性)以及在上述来自鉴别器的输出数据和标签“1”中的损耗(例如,对数似然性),对鉴别器执行梯度下降步长计算。具有较低损耗的序列或对象可以是优选的。可以执行梯度下降步长计算,直到损耗低于损耗阈值。在某些情况下,损耗不是足够小的。结果,可以降低自动编码器的学习率。具有G2S架构100的协议可以通过迭代来执行,直到损耗是合适的。
以下示例可以用作G2S模型的训练过程(图1)。使用Adam优化器在随机梯度下降的情况下执行训练过程,对于自动编码器的初始学习率等于0.001,对于生成器和鉴别器的初始学习率等于0.0001。对于每次迭代,执行以下步骤(图2):自动编码器步骤;生成器步骤,鉴别器步骤,以及可选地,自动编码器步骤的降低率。
自动编码器步骤可以如下执行:a)对表示为具有属性的序列的真实对象进行小批量采样;b)将采样的真实对象转换为图;c)使用编码器获得图的潜在向量;d)在条件生成的情况下将属性与潜在向量连接;e)使用解码器获得具有符号logits(wikipedia.org/wiki/Logit)的序列;f)计算来自步骤e)的logits与来自步骤a)的序列之间的对数似然性;g)使用来自步骤c)的图的潜在向量获得鉴别器的输出;h)计算来自步骤g)的logits和标签‘1’(例如,真实的)之间的对数似然性;以及i)使用来自步骤f)和步骤h)的损耗,对编码器和解码器执行梯度下降步骤。
生成器步骤可以如下进行:a)对象数据进行小批量采样以得到分布的样本数据N(0,1);b)使用生成器获得样本数据的潜在向量;c)在条件生成的情况下将属性与潜在向量连接;d)使用来自步骤c)的潜在向量获得鉴别器的输出;e)计算来自步骤d)的logits和和标签‘1’(例如,真实的)之间的对数似然性;f)计算生成器的雅可比钳位项;以及g)使用来自在步骤e)和步骤f)中获得的数据的损耗,对生成器执行梯度下降步骤。
鉴别器步骤可以如下执行:a)计算来自生成器步骤d)的logits和标签‘O’(例如,假的)之间的对数似然性;以及b)使用来自自动编码器步骤h)和鉴别器步骤a)的损耗,对鉴别器执行梯度下降步骤。
然后,如果需要或期望,可以降低自动编码器步骤的学习率。然后可以再次执行协议,并且可以执行后续迭代,直到损耗最小化或结果合适为止。
图3示出了生成对象300的方法,其中利用预定义的期望属性生成对象。通常,方法300使用如本文所述已经训练好的G2S模型。一旦G2S模型被训练,就可以生成对象。该方法可以包括在框302处对对象数据进行采样以获得样本数据(例如,N(0,1))。然后,方法300可以包括在框304处将采样数据输入到生成器中以产生样本潜在向量。在框306处,提供要由解码器生成的对象的期望属性(例如,生成条件)。然后在框308处,将样本潜在向量与期望属性(例如,生成条件)连接以获得样本潜在向量的连接表示。在框310处,将样本潜在向量的连接表示输入到解码器中。然后在框312处,解码器获取样本潜在向量的连接表示并产生序列数据。序列数据是具有期望属性(例如,生成条件)的对象的数据。例如,当对象是分子时,序列数据可以是SMILES序列。期望属性可以提供关于生成的具有序列数据的对象的指导。因此,在生成过程中,属性需要与潜在向量(由生成器产生的)连接。然后,解码器使用具有属性的最终潜在向量产生SMILES序列。
在一些实施例中,对象的生成可以通过属性的优化来完成。对象的生成可以在训练协议期间或之后执行,例如本文所述。有几种不同的技术用于执行属性优化协议,属性优化协议可以与G2S模型联合使用,以生成具有期望属性的对象。因此,对象可以被优化以具有与对象相关联的特定属性。如本文所述,可以识别期望属性并将其与潜在向量连接,并且结果是生成了利用期望属性优化的对象。例如,在训练过程中,结合G2S模型进行了优化强化学习。例如,在训练优化之后,对贝叶斯优化和生成拓扑映射进行了测试。
因此,训练方法可以利用增强学习协议来补充。在一些实施例中,增强学习协议利用与G2S模型结合的REINFORCE算法,以便找到更多具有期望属性的分子。增强协议可以使用奖励,该奖励可以将生成的分子引向具有期望属性的分子,从而可以生成更多具有期望属性的分子。特别地,在训练阶段,G2S模型可以使用条件生成(例如,条件是具有直接传递到模型的潜在空间的期望属性的实值向量),并且使用增强学习技术,例如REINFORCE或其他。但是,当对G2S模型进行训练时,使用潜在流形以找到覆盖具有所需属性的对象的区域是可行的,这样做的方法是贝叶斯优化和生成拓扑映射,两者都可以与训练好的G2S结合使用。在某些方面,增强学习用于不同的G2S变体。
在一些实施例中,REINFORCE是通过以下规则直接更新策略权重的一系列增强学习方法:
Figure BDA0003800576460000101
其中α是学习率,πθ(at|st)是策略(将动作映射到概率),vt是从经验收集的在时间t的值函数的样本。
在一些实施例中,增强学习使用策略梯度方法,该策略梯度方法可以包括一系列增强学习方法,它们基于通过使用梯度下降来优化策略。可以将增强学习与G2S结合使用,以便找到更多具有预定义期望属性(奖励)的分子,例如上文所述。在某些方面,REINFORCE算法具有以下更新规则:
Figure BDA0003800576460000102
其中J是目标函数,T是输出序列的长度,πθ(at|st)是策略(例如,随动作从状态到概率分布的映射),Gt为折扣奖励,bt为基线回报。
在一些实施例中,增强学习的方法可以在训练期间实施,例如在本文所述的训练方法之一中。可以在预训练后进行增强。在原始数据集上预训练G2S模型之后,除了生成器和解码器之外,所有G2S模型部分和参数都被设置(例如,保持或冻结)。在设置G2S模型之后,可以执行以下带有增强的训练过程:1)对对象数据进行批量采样,得到分布的样本数据N(0,1);2)使用生成器获得潜在向量;3)使用解码器获得对象;4)计算生成对象的属性(例如,奖励);5)如果某些生成对象的奖励与期望的奖励足够接近,则生成器和解码器的参数发生变化,以便更好地探索相应良好奖励对象的潜在流形;以及6)重复步骤1至5)直到收敛。
在一些实施例中,与G2S模型结合使用的奖励(例如,可以是对象的属性)可以包括:溶解度;LogP;SLogP;QED以及与目标分子的Tanimoto相似性。使用Tanimoto相似性,在图4中示出了G2S和REINFORCE模型收敛的示例。
在一些实施例中,具有潜在向量的潜在空间可以被优化,例如通过贝叶斯优化(BO)。因此,本文所述的方法还可以包括执行BO协议的步骤。潜在空间的BO可以与先前训练的G2S模型结合使用,以便确定或识别具有期望属性的潜在空间流形。可以执行BO协议,使得函数建立目标函数的概率模型,例如奖励函数。协议可以使用概率模型从G2S模型的潜在空间中选择最有希望的区域(例如,对象、特定区域中的对象、流形等)。然后可以利用真实目标函数来评估这些选定的希望区域,以便识别例如生成的序列数据的一个或多个对象。在某些方面,BO协议可以包括以下协议:1)启动代理模型(例如,回归模型,例如线性回归模型);2)根据对象的期望属性从训练好的G2S的潜在空间的最有希望的区域中采样一批点;3)使用解码器获得对象;4)计算生成对象的属性;5)使用来自步骤2)采样批次和来自步骤4)的真实属性更新代理模型;以及重复步骤2)至5),直到收敛(或步骤1)至5))。
BO协议可以利用对象的一个或多个期望属性来执行。因此,某些属性可以优于其他属性,或者可以存在属性层次结构,这可以在BO协议期间使用。相应地,BO协议可以利用优选属性来执行,使得该优化优化生成对象中的那些优选属性。在分子生成过程中,有许多属性需要优化,例如本文所述的那些或其他,其中可以使用对象的任何属性。对于分子对象,属性可以是从结构化要求到物理化学属性的任何化学属性。例如,使用训练好的G2S模型和BO协议的QED优化过程如图5所示。
在一些实施例中,具有潜在向量的潜在空间可以被处理以提供生成拓扑映射(GTM)。GTM是基于高斯过程的模型,其用于根据某些属性估计流形。也就是说,确定对象的特定属性,例如分子对象的属性,并且一旦生成对象,GTM就估计潜在空间中的具有这些属性的对象的流形。GTM可以与G2S模型结合使用,以便找到具有期望属性的对象。可以实现GTM,以便构建某些流形的人类可读的2D地图,该2D地图可以通过某些选择属性着色。不同属性可能有不同颜色或标记。因此,可以利用定义的标记或着色来识别所选属性。GTM包括N个高斯,并且建立在网格M×M(地图)上,其中每个高斯(G)可以从地图(2D)转换到流形(R_d)。所有高斯都支持2D和R_d流形上的拓扑属性。在一些实例中,协议可以修改GTM构建的过程,以便最大化生成对象的多样性,并使用以下算法从M×M网格更新每个点p_i,j:
Figure BDA0003800576460000111
其中N(p)是点p的邻居,“dist”是潜在流形中的欧几里得距离。具有建议更新的GTM能够使用先前训练的G2S平滑GTM训练过程,如下所示:1)收集一组具有相应标签的对象(例如,对象的属性);2)如果对象对于G2S模型是新的(例如,对象尚未由协议中的G2S模型生成),使用来自步骤1)的对象微调G2S模型;3)使用编码器获得对象的潜在向量;4)训练GTM,然后使用标签(例如,属性)将潜在向量转换为2D地图(例如,彩色2D地图);5)根据其具有期望属性的对象从GTM的2D地图中选择最有希望的区域,然后将所选的希望区域的这些对象转换到G2S潜在空间;6)使用解码器获得G2S潜在空间中的所选对象;7)计算生成对象的属性;8)使用来自步骤6)的新对象和相应属性更新GTM,并重复步骤1)至8),或如果不需要重复步骤1),则重复步骤2)至8)。
在一些实施例中,G2S模型可用于具有期望属性的对象的序列的基于图的条件生成。具有预定义期望属性的对象的生成可以使用图3中所示并结合图3描述的过程来执行。首先,将生成条件(例如,对象的期望属性)与由生成器从样本数据产生的潜在向量连接。然后,解码器采用具有属性的对象的连接表示,并产生具有期望属性的对象的SMILES序列。
在一些实施例中,DNN(例如G2S模型的编码器)可以被配置为用于子图条件协议,该协议可以是条件神经网络。它可以是与G2S的编码器具有相同权重的DNN,也可以是具有较小架构的类似编码器的某些独立GNN。给定到某些子图(例如支架或分子片段),可以使用条件神经网络的输出或某些子图的潜在表示来对G2S的生成过程进行条件设置。这种过程的主要目标是强制生成图包含给定子图(包含给定支架或片段的分子)。图6示出了用于分子生成的图条件生成G2S架构400的示例。
架构400提供图条件网络,以使用附加图编码器神经网络432(称为图条件编码器432)基于连续子图表示来对数据和具有属性的对象的生成进行条件设置。因此,图6示出了基于图的条件生成G2S架构400的实施例,其被示出为包括图编码器402、序列解码器404、生成器406和鉴别器408以及附加图条件编码器432。如图所示,图数据410(例如,分子图数据)被提供给图编码器402,其处理分子图数据410以获得潜在空间数据412。架构400还包括被链接到潜在空间数据412的图条件编码器432,其中图条件编码器432接收条件数据430,其可以是支架或支架片段或结构化片段数据(例如,支架数据430)的形式。支架数据430由图条件编码器432处理以在潜在空间数据412中生成对应的潜在向量,其可以类似于由图编码器402生成的潜在向量来使用。子图条件设置可以由图条件编码器432来完成,图条件编码器432可以具有与图编码器402相同的权重。因此,使用包括子图条件设置的已设置条件的神经网络或已设置条件的潜在表示的输出来对G2S序列生成过程进行条件设置。
支架数据430可以包括每个对象的结构化属性数据。来自编码器402和图条件编码器432的潜在空间数据412可以被提供给解码器404,其被处理以获得序列数据416,例如以SMILES数据的形式。
来自图编码器402和图条件编码器432的潜在空间数据412可以被提供给鉴别器408,并且鉴别器408可以生成输出数据418,例如本文所述。输出数据418可以是真输出或假输出,这在本文进行了详细描述。因此,输出数据418可以是与被引入到图编码器402中的分子图数据410的序列数据相对应的序列数据。
另外,架构400包括被配置为接收样本数据420的生成器406。可以从对象数据的自然标准分布采样样本数据420。然后,生成器405可以在潜在空间中生成潜在空间数据422(例如,其不同于来自图编码器402和图数据410以及来自图条件编码器432和支架数据430的潜在空间数据412)。来自生成器406的潜在空间数据422可以被提供给鉴别器408,其被处理以获得样本输出数据424。样本输出数据424可以是真输出或假输出,这在本文进行了详细描述。可以如本文所述,例如结合图1和图2来处理架构400。
在一些实施例中,使用架构400的这种过程的结果是强制生成的序列数据416(例如,是否转换为图数据)包含给定子图(例如,包含给定支架或片段的分子),例如从支架数据430。也就是说,一旦获得序列数据中生成的分子的结构,该结构就包括给定子图的结构。例如,该架构可用于生成序列数据(例如,SMILES),使得生成的分子的结构包括已设置条件的支架数据。图条件网络允许通过使用附加图编码器神经网络(例如,432)对连续子图表示进行条件设置。具有单独的图条件网络的G2S模型能够高精度地生成具有给定支架的分子。在该实施例中,相对于特定支架,使用来自ZINC250数据集的所有独特支架所实现的精度约为78%的精度,或者使用生成的分子中的单原子类型或边缘类型替换具有98%的精度。具有单独的图条件网络的G2S模型能够以使用来自ZINC250数据集的所有独特片段的93%的精度,或者以使用生成的分子中的单原子类型或边缘类型替换的100%的精度生成具有给定片段(例如,支架的部分或分子的部分)的分子。在给定支架条件下生成的分子的示例如图7所示。因此,架构400能够生成包括被输入到图条件编码器432中的支架或片段的分子。
在一些实施例中,本文描述的架构可以用于从具有图的数据生成对象的新序列表示的方法中,其中新序列具有给定(例如,定义的、预定的)属性(例如,结构属性或其他属性,例如本文所述)。该方法可以包括向机器学习平台提供对象(例如,在图数据中)及其属性(例如,作为条件数据,例如经由附加编码器或连接),其中机器学习平台输出训练的模型。然后,该方法包括机器学习平台获取训练的模型和对象的一组属性,并输出具有给定属性的新对象(例如,对象的一组属性)。在一些方面,对象是分子结构;然而,对象可以是图片、文本、声音等。在某些方面,分子结构表示为SMILES字符串、InChI、SYBYL线符号(SLN)、SMILES任意目标规范(SMARTS)、Wiswesser线符号(WLN)、ROSDAL或分子的其他序列表示。
分子的图数据的示例可以包括具有原子、原子和键特征之间的连接的二维或三维邻接矩阵、具有原子和键特征的分子邻接列表、COO(坐标格式)。
在一些方面,对象属性是对象的分子结构的生化属性。生化属性可以包括与生物学相关的分子属性,例如受体活性、结合常数、解离常数、表位结合或其他。
在一些方面,对象属性是分子结构的结构化属性。结构化属性也可以称为物理化学属性,例如在物理化学领域中使用的属性。结构化属性的一些示例可以包括药物相似性(QED)的定量估计、LogP(亲脂性的度量)、SLogP和其他分子描述符。
在一些实施例中,可以为G2S模型生成模型。G2S模型可以包括机器学习平台,该机器学习平台包括两个或更多个机器学习模型。在一些方面,机器学习平台包括两个或更多个机器学习模型以及两个或更多个机器学习算法。在一些方面,所述两个或更多个机器学习模型是神经网络,例如全连接神经网络、卷积神经网络、图神经网络、循环神经网络或其他。在一些方面,机器学习算法包括增强学习、贝叶斯优化或其他。
在一些实施例中,机器学习模型将图对象的数据转换为其潜在表示。然后,机器学习模型将新对象从潜在代码重构回该新对象的序列表示。机器学习模型可以在所有潜在对象上强制执行潜在代码的特定分布。其特定分布可以包括期望属性或通过图条件编码器连接或处理的那些属性。
在一些实施例中,通过对抗性训练或用于训练的变分推理来训练G2S模型。
在一些实施例中,G2S模型包括单独的机器学习模型,其被配置为参数化具有相同属性值的对象的潜在代码的期望分布。在一些方面,单独的机器学习模型是神经网络或高斯过程。在一些方面,单独的机器学习模型是图神经网络,期望属性是支架或分子图的片段。
在一些实施例中,输入到编码器(例如,图编码器)的分子结构是反应的压缩图,其中产物表示为SMIRKS字符串。因此,SMILES字符串是在一行文本中描述化学结构的一种方法。几个软件包使用SMILES字符串作为输入和存储化学结构信息的方法。SMIRKS字符串是在文本中描述化学反应的一种方法。如果选择反应并使用“Copy As SMILES”命令,则会将SMIRKS字符串复制到剪贴板。如果在剪贴板上有SMIRKS字符串时使用“Paste SpecialSMILES”命令,则会将反应粘贴到文档中。因此,所述对象属性可包括所述对象的分子的催化剂属性或反应类型。
虽然已经结合分子对象描述了本G2S模型,但是本文描述的模型和协议可以与作为具有描述的图像对象一起使用。在一些方面,这些描述是自然语言单词的序列。在一些方面,属性是具有来自原始输入图像的对象的图像。
在一些实施例中,用于在所选训练集上的卓越模型性能的编码器架构可以包括宽对角卷积架构。但是,G2S模型也可以使用类似GNN/GCN的编码器进行训练。这些训练适用于所描述的G2S模型的所有编码器。对角卷积与传统的离散卷积运算不同,它是在其大小为n的对角线上应用该运算,但不是在所有输入矩阵上应用。在这种情况下,在训练之前,要求输入矩阵进行N-gram归一化(例如,具有表示为应更靠近对角线的图节点的特征)。对于二维情况下的对角卷积,协议可以考虑大小为N×N的邻接矩阵A,在网络的第一层上总共采用n≥1个卷积滤波器。因此,在步骤j应用滤波器F后接收的特征可以如下:
Figure BDA0003800576460000141
F1,i,i∈{1,…,n0}。
因此,卷积仅应用于n×n个对角子矩阵。这种方法表现良好:加速训练并提高模型的整体性能。在修改后的G2S中,使用的对角卷积的版本,称为宽对角卷积(WDC)。WDC不仅通过主对角线,而且通过在每侧偏移为m的输入矩阵的所有对角线。在步骤j应用具有垂直(m_v)和水平(m_h)偏移的滤波器F后收到的更正式的特征是:
Figure BDA0003800576460000142
因此,WDC是第一层接收域的大小和要学习的参数量之间的权衡。
此外,对于像图到序列(G2S)映射这样的复杂任务,ARAE通常比AAE更容易训练,因为编码器和生成器都互相帮助以找到平衡。另一方面,AAE也用于G2S型号。为了使潜在空间更加平滑,在G2S-ARAE模型中使用了用于潜在空间的雅可比钳位(JC)正则化,如本文所述。
当使用JC时,主要目标可以是将生成器的雅可比范数钳制在两个值之间。换句话说,JC的目标是最小化生成器的输入和生成器的输出(例如,使用这些输入产生的)之间的扰动的绝对差。JC是添加到公共模型损耗中的正则化项。JC损耗公式如下如下:
Q:=||G(z)-G(z′)||/|z|-z′||;
Lmax=(max(Q,λmax)-λmax)2
Lmin=(min(Q,λmin)-λmin)2
L=Lmax+Lmin
其中z是一批样本数据,z’是轻微扰动的z,G是生成器网络,L_max和L_min是超参数。因此,L_max=3和L_min=1之间的JC导致更好的结果。
在一些实施例中,可以训练G2S模型。在一些方面,在训练之前,可以使用广度优先搜索(BFS)来增强输入图数据。BFS导致邻接矩阵对角线附近的图数据压缩,因此可以使用对角卷积来更自然地处理输入图数据。此外,它允许用更少的参数更快地训练模型。
在一些训练程序中,G2S模型的最终损耗是三个损耗之和:自动编码器损耗、对抗性损耗和雅可比钳位损耗。
在一些实施例中,自动编码器损耗是标准负对数似然性,其中L是序列的长度,N是词汇量大小:
Figure BDA0003800576460000151
在一些方面,训练可以使用WGAN-GP算法进行具有以下损耗的生成器和鉴别器(critic)训练,其中P_g为生成对象,P_r为真实对象,D为鉴别器(critic),GP为梯度惩罚,L为GP项的权重系数:
Figure BDA0003800576460000152
Figure BDA0003800576460000153
在一些实施例中,编码器网络利用来自解码器和critic的梯度进行训练(例如,在ARAE的情况下),其最终损失为:
Lencoder=NLL(xr)+Lcritic(xr)。
基于重建损耗和生成度量(例如Frechet初始距离)做出收敛判决。在属性优化任务的情况下,将考虑生成对象的属性。
在一些实施例中,一种用于训练模型以生成对象的方法可以包括自动编码器步骤,例如如下:提供被配置为图到序列(G2S)模型的模型;获得多个真实对象的图数据;将图数据输入到编码器中;利用编码器从图数据生成在潜在空间中具有潜在向量的潜在数据;获得真实对象的属性数据;将来自图数据的潜在向量与潜在空间中的属性数据连接;将潜在空间数据输入到解码器中;利用所述解码器从所述潜在空间数据生成序列数据,其中所述序列数据表示真实对象并且包括符号logits;计算所述序列数据的logits与所获得的图数据的序列数据之间的对数似然性;将所述潜在空间数据输入到鉴别器中;从鉴别器生成鉴别器输出数据,其中鉴别器输出数据包括鉴别器logits;计算鉴别器logits和标签“1”的对数似然性,其中标签“1”是鉴别器的真实输出数据;对编码器和解码器执行梯度下降步骤;以及报告训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型存储在数据库中。
在一些实施例中,一种用于训练模型以生成对象的方法可以包括生成器步骤,包括:获得正态分布的样本数据;将样本数据输入到生成器中;用生成器生成样本潜在向量,其中样本潜在向量在潜在空间中;将属性数据与样本潜在向量连接;将潜在空间数据输入到鉴别器中以获得具有样本logits的鉴别器样本数据;计算鉴别器样本logits和标签“1”的对数似然性,其中标签“1”是鉴别器的真实输出数据;计算生成器的雅可比钳位项;对编码器和解码器执行梯度下降步骤;以及报告生成器训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型存储在数据库中。
在一些实施例中,一种用于训练模型以生成对象的方法可以包括鉴别器步骤,包括:计算鉴别器样本logits和标签“0”的对数似然性,其中标签“0”是鉴别器的假输出数据;使用来自鉴别器logits和标签“1”的对数似然性,以及来自鉴别器样本logits和标签“0”的对数似然性的结果,对鉴别器执行梯度下降步骤;以及报告生成器训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型存储在数据库中。
在一些实施例中,该方法可以包括:降低自动编码器步骤的学习率;以及执行自动编码器步骤、生成器步骤和鉴别器步骤的至少一个迭代。
在一些实施例中,该方法可以包括:获得具有序列数据的真实对象数据和序列数据中的序列的属性数据;以及将序列数据转换为图数据。
在一些实施例中,该方法可以包括执行优化协议以优化对象的生成,每个对象具有预定属性。在一些方面,所述优化协议基于所述预定属性对所述对象的生成进行条件设置,其中所述条件是直接传递到所述G2S模型的潜在空间中的所述预定属性的实值向量。
在一些实施例中,优化协议包括增强学习协议,包括:a)将正态分布的样本数据输入到生成器中;b)利用生成器获得样本潜在向量;c)使用解码器获得生成对象;d)计算生成对象的属性,计算属性具有期望属性;e)当所生成对象的子集的计算属性充分接近期望属性时,生成器和解码器的参数发生改变以提供潜在空间的改进的潜在流形,所述改进的潜在流形具有具有期望属性的期望对象;f)重复步骤a)至e),直到收敛;以及g)提供至少一个具有期望属性的对象。
在一些实施例中,期望属性选自溶解度、亲脂性、药物相似性的定量估计、与目标分子的Tanimoto相似性或其组合。
在一些实施例中,优化协议包括关于潜在空间的贝叶斯优化协议,包括:a)提供G2S模型;b)从潜在空间中的识别区域获得一批点,所述识别区域具有具有期望属性的对象的潜在向量;c)利用解码器生成对象;d)计算解码器生成对象的属性;e)利用来自步骤b)的一批点和来自步骤d)的计算属性更新G2S模型;f)重复步骤a)至e),直到收敛;以及g)提供至少一个具有期望属性的对象。
在一些实施例中,所述方法可以包括执行生成拓扑映射协议,所述生成拓扑映射协议包括:a)获得具有期望属性的一组对象;b)利用编码器获得该组对象的潜在向量;c)将所述一组对象的潜在向量转换为具有在2D地图上识别的属性的2D地图;d)选择具有期望属性的2D地图的至少一个区域;e)将所述至少一个区域转换为G2S潜在空间;f)使用解码器生成对象;g)计算生成对象的属性;h)利用由解码器生成的对象和来自步骤g)的计算属性来更新2D地图;i)重复步骤b)至h),直到获得至少一个具有期望属性的对象;以及j)报告所述至少一个具有期望属性的对象。可以如本文所述执行报告。在一些方面,所述方法可以包括:利用具有期望属性的该组对象训练G2S模型;以及重复步骤b)至h),直到获得至少一个具有期望属性的对象;以及报告所述至少一个具有期望属性的对象。
在一些实施例中,所述方法可以包括:获得支架数据,所述支架数据包括分子的至少一部分的结构化数据;将所述支架数据输入到支架编码器中;以及在所述潜在空间中生成支架潜在向量,其中,所述解码器生成的对象以所述结构化数据为条件,并且具有所述分子的至少一部分的结构。
在一些实施例中,真实对象是分子,并且分子的属性是生化属性和/或结构化属性。在一些实施例中,序列数据包括SMILES、InChI、SYBYL线符号(SLN)、SMILES任意目标规范(SMARTS)、Wiswesser线符号(WLN)、ROSDAL或其组合。
在一些实施例中,G2S模型包括机器学习平台,该机器学习平台包括至少两个机器学习模型,所述机器学习模型是选自由全连接神经网络、卷积神经网络、图神经网络和循环神经网络组成的组中的神经网络。在一些方面,机器学习平台包括至少两个机器学习算法,所述至少两个机器学习算法是增强学习算法和贝叶斯优化算法。
在一些实施例中,所述方法可以包括使用单独的机器学习模型,所述机器学习模型被配置为参数化具有相同期望属性值的对象的潜在向量的期望分布。单独的机器学习模型是神经网络、高斯过程或图神经网络,当是图神经网络时,期望属性是分子支架或其片段。
在一些实施例中,图数据包括化学反应的浓缩图,并且由解码器生成的序列数据是SMIRKS数据,并且其中对象属性是反应类型或反应类型的催化剂。
在一些实施例中,真实对象是图像,属性是具有自然语言单词序列的描述。
在一些实施例中,一种生成新对象的方法可以包括:提供图到序列(G2S)模型,如本文所述;将真实对象及其属性的图数据输入到G2S模型中;利用图数据和属性数据训练G2S模型以获得已训练的G2S模型;将期望属性的期望属性数据输入到已训练的G2S模型中;利用已训练的G2S模型生成具有期望属性的新对象;以及报告具有期望属性的新对象。在一些方面,该方法可以包括:创建新对象的真实版本;以及验证新对象以具有期望属性。在一些方面,真实对象是分子,并且该分子的属性包括生化属性和/或结构化属性。在一些方面,真实对象是图像,属性是具有自然语言单词序列的描述。
在一些实施例中,生成新对象的方法可以包括:将正态分布的样本数据输入到G2S模式的生成器中;利用对象的至少一个期望属性对潜在空间中的潜在向量数据进行条件设置;将已设置条件的潜向量数据输入到解码器中;并且生成具有所述至少一个期望属性的生成对象的序列数据。在一些方面,所述正态分布是具有所述至少一个期望属性的真实对象的正态分布。
本领域技术人员将理解,对于本文所公开的这个和其他过程和方法,在过程和方法中执行的功能可以以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且这些步骤和操作中的一些可以是可选的,组合成更少的步骤和操作,或者扩展成额外的步骤和操作,而不会减损所公开的实施例的本质。
本公开不限于在本申请中描述的特定实施例,这些实施例旨在作为各个方面的说明。可以在不脱离其精神和范围的情况下进行许多修改和变化,这对于本领域技术人员来说是显而易见的。在本公开的范围内的功能上等同的方法和装置,除了本文列举的那些之外,对于本领域技术人员从前述描述中显而易见。这样的修改和变化旨在落入所附权利要求的范围内。本公开将仅由所附权利要求的条款以及这些权利要求所享有的等同物的全部范围来限制。应当理解,本公开内容不限于特定的方法、试剂、化合物组合物或生物系统,其当然可以变化。还应理解的是,本文使用的术语仅用于描述特定实施例的目的,而并非旨在限制。
在一个实施例中,本方法可以包括在计算系统上执行的方面。这样,所述计算系统可以包括存储器设备,所述存储器设备具有用于执行所述方法的计算机可执行指令。所述计算机可执行指令可以是计算机程序产品的一部分,所述计算机程序产品包括用于执行权利要求中的任一项所述的方法中的一个或多个算法。
在一个实施例中,本文描述的任何操作、过程、方法或步骤可以被实现为存储在计算机可读介质上的计算机可读指令。计算机可读指令可以由来自桌面计算系统、便携式计算系统、平板计算系统、手持式计算系统以及网络元件、基站、毫微蜂窝基站和/或任何其他计算设备的各种计算系统的处理器执行。
在系统的各个方面的硬件和软件实现之间几乎没有区别;硬件或软件的使用通常是(但不总是,因为在某些情况下,硬件和软件之间的选择可能变得重要)代表成本与效率权衡的设计选择。可以通过各种载体实现本文所述的过程和/或系统和/或其他技术(例如,硬件、软件和/或固件),并且优选的载体将随着部署过程和/或系统和/或其他技术的环境而变化。例如,如果实现者确定速度和准确性是最重要的,则实现者可以选择主要的硬件和/或固件载体;如果灵活性是最重要的,则实现者可以选择主要的软件实现;或者,又可选地,实现者可以选择硬件、软件和/或固件的某些组合。
前面的详细描述已经通过使用框图、流程图和/或示例阐述了过程的各种实施例。就这样的框图、流程图和/或示例包含一个或多个功能和/或操作而言,本领域技术人员将理解,这样的框图、流程图或示例中的每个功能和/或操作可以单独地和/或共同地通过各种各样的硬件、软件、固件或实际上它们的任何组合实现。在一个实施例中,本文描述的主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式来实现。然而,本领域技术人员将认识到,本文所公开的实施例的全部或部分的一些方面可以等同地在集成电路中实现,作为在一个或多个计算机上运行的一个或多个计算机程序(例如,作为运行在一个或多个计算机系统上的一个或多个程序),作为运行在一个或多个处理器上的一个或多个程序(例如,作为运行在一个或多个微处理器上的一个或多个程序),作为固件,或作为其实际上的任何组合,根据本公开内容,设计电路和/或编写用于软件和/或固件的代码将完全在本领域技术人员的技术范围内。此外,本领域技术人员将理解,本文描述的主题的机制能够以各种形式作为程序产品分配,并且本文描述的主题的说明性实施例适用于与用于实际执行分配的信号承载介质的特定类型无关的情况。信号承载介质的示例包括但不限于以下:可记录型介质,例如软盘、硬盘驱动器、CD、DVD、数字磁带、计算机存储器等;以及传输类型介质,例如数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。
本领域技术人员将认识到,在本领域中常见的是以本文阐述的方式描述设备和/或过程,然后使用工程实践将这样描述的设备和/或过程集成到数据处理系统中。也就是说,本文所述的装置和/或过程的至少一部分可以通过合理数量的实验被集成到数据处理系统中。本领域技术人员将认识到,典型的数据处理系统通常包括以下中的一个或多个:系统单元外壳、视频显示设备、例如易失性和非易失性存储器的存储器、例如微处理器和数字信号处理器的处理器、例如操作系统的计算实体、驱动器、图形用户界面和应用程序、一个或多个交互设备(例如触摸板或屏幕)和/或包括反馈回路和控制电机的控制系统(例如,用于感测位置和/或速度的反馈;用于移动和/或调节组件和/或数量的控制电机)。典型的数据处理系统可以利用任何合适的市售组件来实现,例如通常在数据计算/通信和/或网络计算/通信系统中找到的组件。
本文描述的主题有时示出包含在不同其他组件内或与不同其他组件连接的不同组件。应当理解的是,这种所描绘的架构仅仅是示例性的,并且实际上实现相同功能的许多其他架构可以实现。在概念意义上,实现相同功能的组件的任何布置被有效地“关联”,从而实现期望功能。因此,本文中组合以实现特定功能的任何两个组件可以被视为彼此“相关联”从而实现期望功能,而与架构或中间组件无关。同样,如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦合”以实现期望功能,并且能够如此关联的任何两个组件也可以被视为“可操作地耦合”,以实现期望功能。可操作地可耦合的具体示例包括但不限于物理上可配合和/或物理上相互作用的组件和/或无线可交互和/或无线地相互作用的组件和/或逻辑上相互作用和/或逻辑上可可交互的组件。
图8示出了被布置成执行本文描述的任何计算方法的示例计算设备600。在非常基本的配置602中,计算设备600通常包括一个或多个处理器604和系统存储器606。存储器总线608可用于在处理器604和系统存储器606之间通信。
根据期望配置,处理器604可以是任何类型,包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器604可以包括多级高速缓存(例如一级高速缓存610和二级高速缓存612)、处理器核614和寄存器616。示例处理器核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或其任何组合。示例存储器控制器618还可以与处理器604一起使用,或者在一些实现中,存储器控制器618可以是处理器604的内部部分。
根据期望配置,系统存储器606可以是任何类型,包括但不限于易失性存储器(例如RAM)、非易失性存储器(例如ROM、闪存等)或其任何组合。系统存储器606可以包括操作系统620、一个或多个应用程序622和程序数据624。应用程序622可以包括确定应用程序626,其被布置成执行如本文所述的功能,包括关于本文所述的方法所描述的那些功能。程序数据624可包括可用于分析由传感器单元240提供的污染特性的确定信息628。在一些实施例中,应用程序622可以被布置为在操作系统620上与程序数据624一起来操作,使得由不可信计算节点执行的工作可以被验证,如本文所述。在图6中通过内虚线内的那些组件示出了该描述的基本配置602。
计算设备600可以具有额外的特征或功能,以及额外的接口,以方便基本配置602与任何所需设备和接口之间的通信。例如,总线/接口控制器630可用于方便基本配置602与一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是可移动存储设备636、不可移动存储设备638或其组合。可移动存储和不可移动存储设备的示例包括例如柔性磁盘驱动器和硬盘驱动器(HDD)的磁盘设备、例如光盘(CD)驱动器或数字通用磁盘(DVD)驱动器的光盘驱动器、固态驱动器(SSD)和磁带机等。示例计算机存储介质可以包括在用于存储信息(例如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质。
系统存储器606、可移动存储设备636和不可移动存储设备638是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用磁盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备,或可用于存储期望信息并且可由计算设备600访问的任何其他介质。任何这样的计算机存储介质可以是计算设备600的一部分。
计算设备600还可以包括接口总线640,用于方便通过总线/接口控制器630从各种接口设备(例如,输出设备642、外围接口644和通信设备646)到基本配置602的通信。示例输出设备642包括图形处理单元648和音频处理单元650,其可以被配置为经由一个或多个A/V端口652与例如显示器或扬声器的各种外部设备通信。示例外围接口644包括串行接口控制器654或并行接口控制器656,其可以被配置为经由一个或多个I/O端口658与例如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)的外部设备或其他外围设备(例如,打印机、扫描仪等)通信。示例通信设备646包括网络控制器660,其可以被布置为方便经由一个或多个通信端口664通过网络通信链路与一个或多个其他计算设备662通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据(例如载波或其他传输机制)来体现,并且可以包括任何信息传递介质。“调制数据信号”可以是以在信号中编码信息的方式设置或改变其一个或多个特性的信号。作为示例而非限制,通信介质可以包括例如有线网络或直接有线连接的有线介质,以及例如声学、射频(RF)、微波、红外(IR)和其他无线介质的无线介质。本文使用的术语计算机可读介质可以包括存储介质和通信介质两者。
计算设备600可以被实现为小型便携式(或移动)电子设备的一部分,例如蜂窝电话、个人数据助理(PDA)、个人媒体播放器设备、无线网络手表设备、个人耳机设备、应用专用设备或包括上述功能中的任一个的混合设备。计算设备600还可以被实现为包括笔记本电脑和非笔记本电脑配置两者的个人计算机。计算设备600还可以是任何类型的网络计算设备。计算设备600还可以是如本文所述的自动化系统。
本文描述的实施例可以包括使用包括各种计算机硬件或软件模块的专用或通用计算机。
在本发明范围内的实施例还包括用于承载或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机访问的任何可用介质。作为示例而非限制,这种计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备,或可用于承载或存储以计算机可执行指令或数据结构的形式表示的期望程序代码并且可由通用或专用计算机访问的任何其他介质。当信息通过网络或其他通信连接(硬连线、无线、或硬连线或无线的组合)传输或提供给计算机时,计算机正确地将连接视为计算机可读介质。因此,任何这样的连接被适当地称为计算机可读介质。上述各项的组合也应包括在计算机可读介质的范围内。
计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行特定功能或一组功能的指令和数据。尽管已经以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解,在所附权利要求中定义的主题不一定限于上述特定特征或行为。相反,上述特定特征和行为被公开为实施权利要求的示例形式。
如本文所用,术语“模块”或“组件”可以指在计算系统上执行的软件对象或例程。本文描述的不同组件、模块、引擎和服务可以被实现为在计算系统上执行的对象或过程(例如,作为单独的线程)。虽然本文所述的系统和方法优选地以软件实现,但是硬件或软件和硬件的组合中的实现也是可能的和预期的。在本说明书中,“计算实体”可以是如本文先前定义的任何计算系统,或者在计算系统上运行的任何模块或调制器的组合。
关于本文中的基本上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用的情况从复数转换为单数和/或从单数转换为复数。为了清楚起见,本文可以明确地阐述各种单数/复数排列。
本领域技术人员将理解的是,一般而言,本文中使用的术语,尤其是所附权利要求(例如,所附权利要求的主体)通常旨在作为“开放”术语(例如,术语“包括”应被解释为“包括但不限于”,术语“具有”应被解释为“至少具有”,术语“包含”应被解释为“包含但不限于”等)。本领域技术人员将进一步理解的是,如果引入的权利要求叙述的意图是特定数量,则在权利要求中将明确地叙述这样的意图,并且在没有这样的叙述的情况下不存在这样的意图。例如,为了帮助理解,所附权利要求可以包含介绍性短语“至少一个”和“一个或更多”来介绍权利要求叙述。然而,此类短语的使用不应被解释为暗示由不定冠词“一”或“一个”引入权利要求叙述将包含此类引入的权利要求叙述的任何特定权利要求限制为仅包含一个此类叙述的实施例,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”和不定冠词,例如“一”或“一个”(例如,“一”和/或“一个”应解释为“至少一个”或“一个或多个”);用于引入权利要求叙述的定冠词的使用也是如此。此外,即使明确列举了特定数量的引入的权利要求叙述,本领域技术人员也将认识到,这种叙述应被解释为至少表示所列举的数量(例如,“两个叙述”的裸列举,而没有其他修饰词,表示至少两个叙述,或两个或更多个叙述)。此外,在使用类似于“A、B和C等中的至少一个”的约定的那些情况下,一般而言,这种构造是在本领域技术人员将理解该约定的意义上的(例如,“具有A、B和C中的至少一个的系统”将包括但不限于单独具有A、单独具有B、单独具有C、同时具有A和B、同时具有A和C、同时具有B和C、和/或同时具有A、B和C的系统等)。在使用类似于“A、B或C等中的至少一个”的约定的那些情况下,一般而言,这种构造是在本领域技术人员将理解该约定的意义上的(例如,“具有A、B或C中的至少一个的系统”将包括但不限于单独具有A、单独具有B、单独具有C、同时具有A和B、同时具有A和C、同时具有B和C、和/或同时具有A、B和C的系统等)。本领域技术人员将进一步理解的是,无论是在说明书、权利要求或附图中,实际上任何表示两个或更多个替代术语的析取词和/或短语都应被理解为考虑包括术语中的一个、术语中的任一个或两个术语的可能性。例如,短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。
此外,在根据Markush组描述本公开的特征或方面的情况下,本领域技术人员将认识到,本公开也因此根据Markush组的任何单独成员或成员的子组来描述。
如本领域技术人员将理解的,出于任何和所有目的,例如就提供书面描述而言,本文公开的所有范围还包括任何和所有可能的子范围及其子范围的组合。任何列出的范围都可以很容易地识别为充分描述和允许将相同的范围分解为至少相等的一半、三分之一、四分之一、五分之一、十分之一等。作为非限制性示例,本文所讨论的每个范围可以容易地分解为下三分之一、中三分之一和上三分之一等。如本领域技术人员还将理解的,例如“直到”、“至少”等的所有语言都包括所列举的数字,并且指代随后可以分解为如上所述的子范围的范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个细胞的组是指具有1、2或3个细胞的组。类似地,具有1-5个细胞的组是指具有1、2、3、4或5个细胞的组,等等。
根据前述内容,应当理解,为了说明的目的,本文已经描述了本公开的各种实施例,并且在不脱离本公开的范围和精神的情况下可以进行各种修改。因此,本文公开的各种实施例不旨在是限制性的,其真实范围和精神由以下权利要求指示。
本专利的交叉引用:2018年6月2日提交的申请号为16/015,990的美国申请;2018年9月18日提交的申请号为16/134,624的美国申请;2019年9月5日提交的申请号为16/562,373的美国申请;2018年9月6日提交的申请号为62/727,926的美国申请;2018年10月17日提交的申请号为62/746,771的美国申请;以及2019年2月22日提交的申请号为62/809,413的美国申请;这些申请通过具体引用全文并入本文。
本文叙述的所有参考文献通过具体引用全部并入本文。

Claims (29)

1.一种用于训练模型以生成对象的方法,其特征在于,所述方法包括自动编码器步骤,所述自动编码器步骤包括:
提供变分、对抗性或变分和对抗性组合的自动编码器架构,该自动编码器架构被配置为图到序列(G2S)模型;
将多个真实对象的图数据输入到所述G2S模型的编码器中;
利用所述G2S模型的解码器从潜在空间数据生成序列数据;
从所述G2S模型的鉴别器生成鉴别器输出数据;
对所述编码器和所述解码器执行优化;以及
报告训练的G2S模型。
2.根据权利要求1所述的方法,其特征在于,所述方法包括自动编码器步骤,所述自动编码器步骤包括:
获得多个真实对象的图数据;
将所述图数据输入到编码器中;
利用所述编码器从所述图数据生成在潜在空间中具有潜在向量的潜在数据;
获取所述真实对象的属性数据;
将来自所述图数据的潜在向量与在潜在空间中的属性数据连接;
将潜在空间数据输入到解码器中;
利用所述解码器从所述潜在空间数据生成序列数据,其中所述序列数据表示真实对象并且包括符号logits;
计算所述序列数据的符号logits与所获得的图数据的序列数据之间的对数似然性;
将潜在空间数据输入到鉴别器中;
从所述鉴别器生成鉴别器输出数据,其中所述鉴别器输出数据包括鉴别器logits;
计算所述鉴别器logits和标签“1”的对数似然性,其中标签“1”是所述鉴别器的真实输出数据;
对所述编码器和解码器执行梯度下降步骤;以及
报告训练的G2S模型。
3.根据权利要求1所述的方法,其特征在于,还包括生成器步骤,所述生成器步骤包括:
将正态分布的样本数据输入到所述G2S模型的生成器中;
利用所述鉴别器生成鉴别器样本数据;
对所述生成器执行优化;以及
报告生成器训练的G2S模型。
4.根据权利要求2所述的方法,其特征在于,还包括生成器步骤,所述生成器步骤包括:
获得正态分布的样本;
将样本数据输入到生成器中;
利用所述生成器生成样本潜在向量,其中所述样本潜在向量在潜在空间中;
将所述属性数据与所述样本潜在向量连接;
将潜在空间数据输入到所述鉴别器中以获得具有样本logits的鉴别器样本数据;
计算鉴别器输出logits和标签“1”的对数似然性,其中标签“1”是所述鉴别器的真实输出数据;
计算所述生成器的雅可比钳位项;
对所述生成器执行梯度下降步骤;以及
报告生成器训练的G2S模型。
5.根据权利要求3所述的方法,其特征在于,还包括鉴别器步骤,所述鉴别器步骤包括:
计算所述鉴别器的有效性;
使用计算出的有效性对所述鉴别器执行优化;以及
报告鉴别器训练的G2S模型。
6.根据权利要求4所述的方法,其特征在于,还包括鉴别器步骤,所述鉴别器步骤包括:
计算鉴别器输出logits和标签“0”的对数似然性,其中标签“0”是所述鉴别器的假输出数据;
使用来自鉴别器logits和标签“1”的对数似然性,以及来自鉴别器logits和标签“0”的对数似然性的结果,对所述鉴别器执行梯度下降步骤;以及
报告鉴别器训练的G2S模型。
7.根据权利要求5所述的方法,其特征在于,还包括:
降低所述自动编码器步骤的学习率;以及
执行所述自动编码器步骤、生成器步骤和鉴别器步骤的至少一个迭代。
8.根据权利要求1所述的方法,其特征在于,还包括:
获得具有序列数据的真实对象数据和所述序列数据中的序列的属性数据;以及
将所述序列数据转换为图数据。
9.根据权利要求5所述的方法,其特征在于,还包括执行优化协议以优化所述对象的生成,每个对象具有预定属性。
10.根据权利要求9所述的方法,其特征在于,所述优化协议基于所述预定属性对所述对象的生成进行条件设置,其中,所述条件是直接传递到所述G2S模型的所述潜在空间中的所述预定属性的真实值向量。
11.根据权利要求6所述的方法,其特征在于,还包括优化协议,所述优化协议包括增强学习协议,所述增强学习协议包括:
a)将正态分布的样本数据输入到所述生成器中;
b)利用所述生成器获得样本潜在向量;
c)使用所述解码器获得生成对象;
d)计算所述生成对象的属性,所计算的属性具有期望属性;
e)当生成对象的子集的计算属性充分接近所述期望属性时,所述生成器和解码器的参数发生改变以提供所述潜在空间的改进的潜在流形,所述改进的潜在流形具有期望对象,所述期望对象具有期望属性的;
f)重复步骤a)至e)直到收敛;以及
g)提供至少一个具有所述期望属性的对象。
12.根据权利要求11所述的方法,其特征在于,所述期望属性选自溶解度、亲脂性、药物相似性的定量估计、与目标分子的Tanimoto相似性或其组合。
13.根据权利要求6所述的方法,其特征在于,还包括优化协议,所述优化协议包括在所述潜在空间上的贝叶斯优化协议,所述方法包括:
a)提供G2S模型;
b)从所述潜在空间中的识别区域获得一批点,所述识别区域具有对象的潜在向量,所述对象具有期望属性;
c)利用所述解码器生成对象;
d)计算所述解码器生成对象的属性;
e)利用来自步骤b)的一批点和来自步骤d)的计算属性更新G2S模型;
f)重复步骤a)至e)直到收敛;以及
g)提供至少一个具有期望属性的对象。
14.根据权利要求6所述的方法,其特征在于,还包括执行生成拓扑映射协议,包括:
a)获得具有期望属性的一组对象;
b)利用所述编码器获得该组对象的潜在向量;
c)将该组对象的潜在向量转换为具有在2D地图上识别的属性的2D地图;
d)选择具有期望属性的2D地图的至少一个区域;
e)将所述至少一个区域转换为G2S潜在空间;
f)使用所述解码器生成对象;
g)计算生成对象的属性;
h)利用由解码器生成的对象和来自步骤g)的计算属性来更新2D地图;
i)重复步骤b)至h),直到获得至少一个具有期望属性的对象;以及
j)报告所述至少一个具有期望属性的对象。
15.根据权利要求14所述的方法,其特征在于,还包括:
利用具有期望属性的该组对象训练G2S模型;以及
重复步骤b)至h),直到获得至少一个具有期望属性的对象;以及
报告所述至少一个具有期望属性的对象。
16.根据权利要求1所述的方法,其特征在于,还包括:
获得支架数据,所述支架数据包括分子的至少一部分的结构化数据;
将所述支架数据输入到支架编码器中;以及
在所述潜在空间中生成支架潜在向量,
其中,所述解码器生成的对象以所述结构化数据为条件,并且具有所述分子的所述至少一部分的结构。
17.根据权利要求1所述的方法,其特征在于,所述真实对象是分子,并且所述分子的属性是生化属性和/或结构化属性。
18.根据权利要求1所述的方法,其特征在于,所述序列数据包括SMILES、InChI、SYBYL线符号(SLN)、SMILES任意目标规范(SMARTS)、Wiswesser线符号(WLN)、ROSDAL或其组合。
19.根据权利要求1所述的方法,其特征在于,所述G2S模型包括机器学习平台,所述机器学习平台包括至少两个机器学习模型,所述机器学习模型是选自由全连接神经网络、卷积神经网络、图神经网络和循环神经网络组成的组中的神经网络。
20.根据权利要求19所述的方法,其特征在于,所述机器学习平台包括至少两个机器学习算法,所述至少两个机器学习算法是增强学习算法和贝叶斯优化算法。
21.根据权利要求5所述的方法,其特征在于,还包括单独的机器学习模型,所述单独的机器学习模型被配置为参数化具有相同期望属性值的对象的潜在向量的期望分布,其中所述单独的机器学习模型是神经网络、高斯过程或图神经网络,当是图形神经网络时,所述期望属性是分子支架或其片段。
22.根据权利要求5所述的方法,其特征在于,所述图数据包括化学反应的浓缩图,并且由所述解码器生成的所述序列数据是SMIRKS数据,并且其中所述对象属性是反应类型或所述反应类型的催化剂。
23.根据权利要求1所述的方法,其特征在于,所述真实对象是图像,并且所述属性是具有自然语言单词序列的描述。
24.一种生成对象的方法,其特征在于,所述方法包括:
提供图到序列(G2S)模型;
将真实对象的图数据及其属性输入到所述G2S模型中;
利用所述图数据和属性数据训练所述G2S模型,以获得已训练的G2S模型;
将期望属性的期望属性数据输入到已训练的G2S模型中;
利用已训练的G2S模型生成具有所述期望属性的新对象;以及
报告具有所述期望属性的新对象。
25.根据权利要求24所述的方法,其特征在于,还包括:
创建所述新对象的真实版本;以及
验证所述新对象以具有所述期望属性。
26.根据权利要求25所述的方法,其特征在于,所述真实对象是分子,并且所述分子的属性包括生化属性和/或结构化属性。
27.根据权利要求25所述的方法,其特征在于,所述真实对象是图像,并且所述属性是具有自然语言单词序列的描述。
28.根据权利要求24所述的方法,其特征在于,包括:
将正态分布的样本数据输入到G2S模式的生成器中;
利用对象的至少一个期望属性对潜在空间中的潜在向量数据进行条件设置;
将已设置条件的潜在向量数据输入到解码器中;以及
生成具有所述至少一个期望属性的生成对象的序列数据。
29.根据权利要求28所述的方法,其特征在于,所述正态分布是具有所述至少一个期望属性的真实对象的正态分布。
CN202180014982.8A 2020-02-19 2021-02-19 用于图到序列模型方法的对抗性自动编码器架构 Pending CN115104105A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062978721P 2020-02-19 2020-02-19
US62/978,721 2020-02-19
PCT/IB2021/051404 WO2021165887A1 (en) 2020-02-19 2021-02-19 Adversarial autoencoder architecture for methods of graph to sequence models

Publications (1)

Publication Number Publication Date
CN115104105A true CN115104105A (zh) 2022-09-23

Family

ID=74759233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180014982.8A Pending CN115104105A (zh) 2020-02-19 2021-02-19 用于图到序列模型方法的对抗性自动编码器架构

Country Status (4)

Country Link
US (1) US20230075100A1 (zh)
EP (1) EP4107668A1 (zh)
CN (1) CN115104105A (zh)
WO (1) WO2021165887A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012304A (zh) * 2023-09-18 2023-11-07 河北农业大学 融合ggnn-gan的深度学习分子生成系统及方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7006297B2 (ja) * 2018-01-19 2022-01-24 富士通株式会社 学習プログラム、学習方法および学習装置
US20210287137A1 (en) * 2020-03-13 2021-09-16 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
US11961287B2 (en) * 2020-10-02 2024-04-16 Servicenow Canada Inc. Method and system for meaningful counterfactual explanations
CN114386067B (zh) * 2022-01-06 2022-08-23 承德石油高等专科学校 一种基于人工智能的设备生产数据安全传输方法及系统
US20230253076A1 (en) 2022-02-07 2023-08-10 Insilico Medicine Ip Limited Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
CN117256000A (zh) * 2022-02-18 2023-12-19 维萨国际服务协会 用于使用通用对抗训练来生成鲁棒图神经网络的方法、系统和计算机程序产品
EP4261831A1 (en) * 2022-04-13 2023-10-18 Bayer AG Prediction of chemical compounds with desired properties

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3486816A1 (en) * 2017-11-16 2019-05-22 Institut Pasteur Method, device, and computer program for generating protein sequences with autoregressive neural networks

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012304A (zh) * 2023-09-18 2023-11-07 河北农业大学 融合ggnn-gan的深度学习分子生成系统及方法
CN117012304B (zh) * 2023-09-18 2024-02-02 河北农业大学 融合ggnn-gan的深度学习分子生成系统及方法

Also Published As

Publication number Publication date
EP4107668A1 (en) 2022-12-28
WO2021165887A1 (en) 2021-08-26
US20230075100A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
CN115104105A (zh) 用于图到序列模型方法的对抗性自动编码器架构
Han et al. Unsupervised generative modeling using matrix product states
Gao et al. Enhancing generative models via quantum correlations
US9990558B2 (en) Generating image features based on robust feature-learning
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN110366734B (zh) 优化神经网络架构
US20220027738A1 (en) Distributed synchronous training architecture using stale weights
CN109816000A (zh) 一种新的特征选择与参数优化方法
US11334791B2 (en) Learning to search deep network architectures
Glauner Comparison of training methods for deep neural networks
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
WO2020209860A1 (en) Leveraging lagging gradients in machine-learning model training
CN115244546A (zh) 确定性解码器变分自动编码器
US10790045B1 (en) System and method for screening homopolymers, copolymers or blends for fabrication
Teji et al. Predicting missing links in gene regulatory networks using network embeddings: A qualitative assessment of selective embedding techniques
Rakhshani et al. On the performance of deep learning for numerical optimization: an application to protein structure prediction
CN116646001B (zh) 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
WO2020201913A1 (en) Computer architecture for labeling documents
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
US20220198286A1 (en) System and method for molecular reconstruction from molecular probability distributions
Bacciu Hidden tree markov networks: Deep and wide learning for structured data
CN114595641A (zh) 组合优化问题的求解方法和系统
Görmez Dimensionality reduction for protein secondary structure prediction
Dey et al. Deep-n-Cheap: An automated efficient and extensible search framework for cost-effective deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination