基于自编码器和3阶图卷积的分子智能设计方法
技术领域
本发明属于分子智能设计方法领域,特别涉及一种基于自编码器和3阶图卷积的分子智能设计方法。
背景技术
目前,自编码器(Autoencoder)是一种特定的神经网络结构,其目的是为了将输入信息映射到某个更低维度的空间,生成包含重要特征的编码隐向量,这部分称为编码器,可用函数h=f(x)表示,然后再利用解码器将隐向量重构成为尽量能还原原输入的结果,用函数r=g(h)。我们的目的就是尽量使g(f(x))=x,当然如果只是简单的将输入复制到输出是没有任何意义的,我们需要加一定的限制条件,使我们的模型学习到数据中更重要的特征。
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。我们可以这样来看待注意力机制:将资源库中的构成元素想象成是由一系列的<键,值>数据对构成,此时给定目标中的某个元素,通过计算此元素和各个键的相似性或者相关性,得到每个键对应值的权重系数,然后对值进行加权求和,即得到了最终的注意力数值。
分子可以被看做一个图结构的数据,在之前的模型中,已经有很多基于神经网络的工作被用于处理图结构的数据。例如,最早的GNN网络可以被用于处理有环图、有向图或无向图。然而,GNN网络本身必须使整个网络达到不动点之后才可以进行计算。针对这一问题,有的工作将GRU引入到网络结构中,进一步提出了GGNN网络。后来,人们开始关注将卷积操作引入到图领域中,这一类算法可以被分为谱方法(spectral approaches)与非谱方法(non-spectral approaches)两大类。
谱方法是基于对图进行谱表示的一类方法。其上的卷积操作与图拉普拉斯矩阵的特征值分解有关,因此,往往需要进行密集的矩阵运算,而且整个计算并不是局部的。为了解决这一问题,提出了GCN网络,该网络可以有效地对节点的一阶邻居进行处理,而且可以避免复杂的矩阵运算。然而,这些模型都依赖于图的结构,因此,在特定图结构上训练得到的模型往往不可以直接被使用到其他图结构上。不同于谱方法,非谱方法是直接在图上(而不是在图的谱上)定义卷积。一种GraphSAGE模型,该模型使用一种归纳的方法来计算节点表示。具体来说,该模型首先从每个节点的邻节点中抽取出固定数量的节点,然后再使用特定的方式来融合这些邻节点的信息(如直接对这些节点的特征向量求平均,或者将其输入到一个RNN中),这一方法已经在很多大型归纳学习问题中取得了很好的效果。但针对分子graph生成,并没有研究用于挖掘分析分子的官能团。分子官能团在分子性质方面起重大作用,甚至可以决定一个分子的类别归属,若能在分子生成过程中对分子官能团进行甄选,对于提升生成分子性质有重大意义。
现有的GCN仍然缺少一个重要的结构特征来学习更好的结构、属性关系。分子不仅仅是一个简单的原子集合。根据不同的化学环境,相同的原子通常会产生不同的分子特性。例如,芳环,脂肪链和羰基的碳原子由于其不同的化学环境而具有不同的特征。化学家可以识别与分子特性相关的官能团。极性和非极性基团是这种分子极性和溶解度的实例。因此,正确识别决定目标属性的分子子结构,以了解更准确的结构-属性关系至关重要。但是,之前的模型对所有原子和键应用相同的卷积权重。换句话说,无论化学环境如何,它们都将所有原子和键看的同等重要。
但是,药物分子生成大多依赖生化学家的经验,有很大的主观性和局限性,目前利用深度学习进行分子生成的工作中,并没有对分子官能团进行很好的挖掘和利用,而分子官能团对于新药来说,起决定性作用。
发明内容
本发明提出一种基于自编码器和3阶图卷积的分子智能设计方法,能够结合注意力模型和自编码器,对分子的3阶子结构进行空间图卷积,找出对分子贡献度大的原子对应的官能团。
本发明的技术方案是这样实现的:一种基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,包括如下步骤:
步骤1、编码器将药物分子以分子图的形式进行表达,并将每个分子图都分解为对应的3阶子结构;
步骤2、编码器将3阶子结构进行图卷积,输出分子的隐向量,得到隐向量空间;
步骤3、对解码器进行训练;
步骤4、解码器在隐向量空间中寻找和药物分子相近的隐向量,并对此隐向量进行解码,得到新的药物分子。
作为一种优选的实施方式,步骤1中药物分子的表示方式包括原子特征表示、键特征表示和分子连接表示,3阶子结构中的阶数指邻近原子距离。
作为一种优选的实施方式,原子特征由原子类型、每个原子的芳香性、电荷、手性特征组成,这些特征连接而成,构成24维的one-hot(0,1)向量,原子可由此向量唯一表示。
作为一种优选的实施方式,键特征由键类型、是否在苯环内、是否可旋转构成,这些特征连接而成,构成15维的one-hot(0,1)向量,键可由此向量唯一表示。
作为一种优选的实施方式,分子连接由邻接矩阵表构成,设置邻接矩阵表大小为50×50,整个邻接矩阵表为A(25,25)。
作为一种优选的实施方式,步骤2中3阶子结构进行图卷积即为利用图卷积算子提取原子每阶的子结构特征,最终得到每个节点的特征表示,所述图卷积算子的公式为:
hi:节点i特征表达;
bij:节点i和节点j之间的键的特征表达;
cij:归一化因子,取节点度的倒数;
Ni:节点i的邻居,包含i本身;
wj:节点j的权重参数。
作为一种优选的实施方式,每个节点的特征表示为:
hi=wi1hi1+wi2hi2+wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重。
作为一种优选的实施方式,步骤3中解码器的训练过程由2个损失函数组成,2个损失函数包括拓扑预测损失和类别预测损失。
作为一种优选的实施方式,步骤4中寻找的方法包括距离度量,即为在隐向量空间中寻找每个子结构的相邻子结构,并结合注意力模型,赋予不同子结构不同的注意力因子,得出在新药生成过程中其重大作用的子结构,其每个节点的特征表示为:
hi=ai1wi1hi1+ai2wi2hi2+ai3wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重;
ai1:一阶子结构对应的注意力因子;
ai2:二阶子结构对应的注意力因子;
ai3:三阶子结构对应的注意力因子。
作为一种优选的实施方式,步骤4中对隐向量进行解码的方法即为采用平均值的方法对原子各维度特征进行聚合,其公式为:
hG=∑hi/n
n:代表分子中原子个数;
hi:每个原子的特征表达;
hG:整个分子的图特征表达。
采用了上述技术方案后,本发明的有益效果是:
1、提出一种新型的基于注意力的分子生成方式,首次对原子对应的不同阶子结构进行空间图卷积,形成原子特征,找到对分子贡献度大的官能团。
2、分子生成过程提出基于注意力的生成方式,可以采用不同阶子结构混合生成,而非之前的原子紧跟原子的生成方式。
3、本发明通过对隐向量空间进行距离度量,找到跟原始分子相近的隐向量表达,通过训练好的模型将此向量进行解码,得到新的药物分子。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图;
图2为3阶子结构示意图;
图3为分子分阶空间图卷积示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1至图3所示,一种基于自编码器和3阶图卷积的分子智能设计方法,该分子智能设计方法由两大部分构成,包括编码器和解码器。编码器将药物分子以分子图的形式进行表达,并将每个分子图都分解为对应的3阶子结构,对3阶子结构进行图卷积,输出分子的隐向量,解码器负责在隐向量空间中寻找每个子结构的相邻子结构,作为此子结构的相似子结构,结合注意力模型,赋予不同子结构不同的注意力因子,将子结构进行组合筛选,得出新的药物分子。
分子可以有多种表达方式,如smile格式、分子指纹(FECP)格式、分子图(graph)格式,其中,分子图格式能较好保存分子中原子的连接构象,因此,我们采用分子图格式来表达分子。在分子图中,原子由图节点表示,连接两个原子的化学键由图中边表示。由于键没有方向,所以分子图属于无向图。
原子特征表示:原子特征由原子类型、每个原子的芳香性、电荷、手性特征组成,这些特征连接而成,构成24维的one-hot(0,1)向量,原子可由此向量唯一表示。具体特征如下表所示:
键特征表示:键特征由键类型(单、双、三或其他构成)、是否在苯环内、是否可旋转构成。这些特征连接而成,构成15维的one-hot(0,1)向量,键可由此向量唯一表示。
特征 |
内容 |
大小 |
键类型 |
单、双、三、芳香 |
4 |
环 |
键是否包含在环内 |
1 |
旋转 |
键是否可在三维空间旋转 |
1 |
|
|
6 |
分子连接表示:整个分子的连接关系由邻接矩阵表构成,设置邻接矩阵表大小为50×50,整个邻接矩阵表表示为A(25,25)。给原子排序,按照顺序标号,若两个序号i,j的原子间有键连接,则将A(i,j)和A(j,i)设为1,若分子中原子个数不足50,其余用0填充。整个分子的关联关系就由邻接矩阵表唯一确定。
整个分子由原子特征、键特征、分子邻接矩阵表唯一确定。
本发明中的阶数指邻近原子距离,如图2所示,以图中N0为中心原子为例,N0的一阶子结构指与N0原子相距一个距离的原子与中心原子形成的子结构,包括N0,N1和在这些原子之间的键。分子二阶子结构向外扩展到与中心原子距离两个键的N2原子,包括N0,N1,N2和这些原子之间的键。分子三阶子结构向外扩展到与中心原子距离三个键的N3原子,包括N0,N1,N2,N3和这些原子之间的键。
空间图卷积神经网络专门处理图结构数据。它跟传统的卷积神经网络类似,与全连接的多层感知机模型相比,图卷积神经网络利用更少的参数达到相对低的计算量,可以利用图卷积神经网络通过分析邻接原子关系识别决定分子特性的重要的原子特征。
图卷积算子:
hi:节点i特征表达;
bij:节点i和节点j之间的键的特征表达;
cij:归一化因子,取节点度的倒数;
Ni:节点i的邻居,包含i本身;
wj:节点j的权重参数。
利用图卷积算子提取原子每阶的子结构,特征,子结构即为官能团。对于一阶子结构,邻近节点选择与中心原子距离一个距离的原子作为邻近原子Ni,用图卷子算子提取特征;二阶子结构中,邻近节点选择与中心原子最短距离两个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征。三阶子结构中,邻近节点选择与中心原子最短距离为3个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征。三阶子结构每阶均进行图卷积算子运算。
利用图卷积算子提取原子每阶的子结构特征。对于一阶子结构,邻近节点选择与中心原子距离一个距离的原子作为邻近原子Ni,用图卷子算子提取特征;二阶子结构中,邻近节点选择与中心原子最短距离两个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征;三阶子结构中,邻近节点选择与中心原子最短距离为3个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征。三阶子结构每阶均进行图卷积算子运算。
最终每个节点的特征表示为:
hi=wi1hi1+wi2hi2+wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重。
解码器训练过程由2个损失函数组成,包括拓扑预测损失和类别预测损失,拓扑预测指根据当前分子状态,预测下一个产生原子的类型,采用哪一阶的拓扑子结构,与编码器采用同一个子结构计算方式。类别预测损失指生成分子跟原分子的类别相似性。
注意力模型主要应用在自然语言处理中,例如,机器翻译时,找到不同单词间的关系,利用神经网络的能力找到最佳意思表达的单词,翻译整个单词,注意力模型是自然语言处理中成功的最重要因素。由于注意力模型能抓住一句话中主要单词,同样,我们将注意力模型引入分子无向图,利用不同子结构对当前分子中所在原子的重要性,注意力模型找出决定分子特征的主要冠能团。上述公式的连接方式更新为:
hi=ai1wi1hi1+ai2wi2hi2+ai3wi3hi3
ai1:一阶子结构对应的注意力因子;
ai2:二阶子结构对应的注意力因子;
ai3:三阶子结构对应的注意力因子。
注意力因子是注意力系数,用来衡量哪一阶子结构对原子状态更新的重要性。
ai,j=f(hi,hi,j)
函数f衡量两个向量间的相似性,采用余弦相似性进行度量。
每个分子由不同的原子组成,所以整个分子的隐向量特征空间表达由每个原子的特征聚合而成,本发明采用平均值的方法对原子各维度特征进行聚合。
hG=∑hi/n
n:代表分子中原子个数;
hi:每个原子的特征表达;
hG:整个分子的图特征表达。
对分子的特征表达进行降维处理,使之能在二维平面进行展示,不同分子编码为隐向量空间中的一个点,从隐向量空间进行解码操作,得到对应的药物分子结构。假设疗效相近的药物分子结构也相似,若计划产生新的药物分子,在对应的隐向量空间中选择距离较近的隐向量进行解码,即可得对应的新药物分子。
图卷积将所有此原子和邻居的原子特征用相同的卷积权重相加,输出更新后的节点特征,但是这样并没有考虑邻居原子对中心原子的贡献程度,也没有考虑前一时刻的原子状态对当前时刻原子状态的贡献程度。同时没有考虑到键的特征。通过基于注意力的编码解码结构,可以将每个原子不同级别子结构在此分子中的重要性进行充分挖掘,利用,得出对最终分子的性质、结构起重要作用的子结构。
在一个图结构中,本发明采用消息传递框架更新原子状态:
H(l+1)=σ(AH(l)W(l))
l代表消息传递的轮数,σ()代表激活函数,A代表邻接矩阵,W(l)代表第l层的卷积权重,假设2号原子有3个邻接原子,上述公式可被写为:
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。