CN111428848A - 基于自编码器和3阶图卷积的分子智能设计方法 - Google Patents
基于自编码器和3阶图卷积的分子智能设计方法 Download PDFInfo
- Publication number
- CN111428848A CN111428848A CN201910839116.7A CN201910839116A CN111428848A CN 111428848 A CN111428848 A CN 111428848A CN 201910839116 A CN201910839116 A CN 201910839116A CN 111428848 A CN111428848 A CN 111428848A
- Authority
- CN
- China
- Prior art keywords
- order
- convolution
- atom
- molecular
- substructure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013461 design Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 43
- 239000003814 drug Substances 0.000 claims abstract description 12
- 229940079593 drug Drugs 0.000 claims abstract description 11
- 239000002547 new drug Substances 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 1
- 125000004429 atom Chemical group 0.000 description 87
- 125000000524 functional group Chemical group 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 125000001931 aliphatic group Chemical group 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/002—Biomolecular computers, i.e. using biomolecules, proteins, cells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Abstract
本发明提出了一种基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,包括如下步骤:步骤1、编码器将药物分子以分子图的形式进行表达,并将每个分子图都分解为对应的3阶子结构;步骤2、编码器将3阶子结构进行图卷积,输出分子的隐向量,得到隐向量空间;步骤3、对解码器进行训练;步骤4、解码器在隐向量空间中寻找和药物分子相近的隐向量,并对此隐向量进行解码,得到新的药物分子,借此,本发明具有结合自编码器和图卷积网络方法,对分子的三阶子结构进行空间图卷积,找出对分子贡献度大的原子对应子结构,即官能团的优点。
Description
技术领域
本发明属于分子智能设计方法领域,特别涉及一种基于自编码器和3阶图卷积的分子智能设计方法。
背景技术
目前,自编码器(Autoencoder)是一种特定的神经网络结构,其目的是为了将输入信息映射到某个更低维度的空间,生成包含重要特征的编码隐向量,这部分称为编码器,可用函数h=f(x)表示,然后再利用解码器将隐向量重构成为尽量能还原原输入的结果,用函数r=g(h)。我们的目的就是尽量使g(f(x))=x,当然如果只是简单的将输入复制到输出是没有任何意义的,我们需要加一定的限制条件,使我们的模型学习到数据中更重要的特征。
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。我们可以这样来看待注意力机制:将资源库中的构成元素想象成是由一系列的<键,值>数据对构成,此时给定目标中的某个元素,通过计算此元素和各个键的相似性或者相关性,得到每个键对应值的权重系数,然后对值进行加权求和,即得到了最终的注意力数值。
分子可以被看做一个图结构的数据,在之前的模型中,已经有很多基于神经网络的工作被用于处理图结构的数据。例如,最早的GNN网络可以被用于处理有环图、有向图或无向图。然而,GNN网络本身必须使整个网络达到不动点之后才可以进行计算。针对这一问题,有的工作将GRU引入到网络结构中,进一步提出了GGNN网络。后来,人们开始关注将卷积操作引入到图领域中,这一类算法可以被分为谱方法(spectral approaches)与非谱方法(non-spectral approaches)两大类。
谱方法是基于对图进行谱表示的一类方法。其上的卷积操作与图拉普拉斯矩阵的特征值分解有关,因此,往往需要进行密集的矩阵运算,而且整个计算并不是局部的。为了解决这一问题,提出了GCN网络,该网络可以有效地对节点的一阶邻居进行处理,而且可以避免复杂的矩阵运算。然而,这些模型都依赖于图的结构,因此,在特定图结构上训练得到的模型往往不可以直接被使用到其他图结构上。不同于谱方法,非谱方法是直接在图上(而不是在图的谱上)定义卷积。一种GraphSAGE模型,该模型使用一种归纳的方法来计算节点表示。具体来说,该模型首先从每个节点的邻节点中抽取出固定数量的节点,然后再使用特定的方式来融合这些邻节点的信息(如直接对这些节点的特征向量求平均,或者将其输入到一个RNN中),这一方法已经在很多大型归纳学习问题中取得了很好的效果。但针对分子graph生成,并没有研究用于挖掘分析分子的官能团。分子官能团在分子性质方面起重大作用,甚至可以决定一个分子的类别归属,若能在分子生成过程中对分子官能团进行甄选,对于提升生成分子性质有重大意义。
现有的GCN仍然缺少一个重要的结构特征来学习更好的结构、属性关系。分子不仅仅是一个简单的原子集合。根据不同的化学环境,相同的原子通常会产生不同的分子特性。例如,芳环,脂肪链和羰基的碳原子由于其不同的化学环境而具有不同的特征。化学家可以识别与分子特性相关的官能团。极性和非极性基团是这种分子极性和溶解度的实例。因此,正确识别决定目标属性的分子子结构,以了解更准确的结构-属性关系至关重要。但是,之前的模型对所有原子和键应用相同的卷积权重。换句话说,无论化学环境如何,它们都将所有原子和键看的同等重要。
但是,药物分子生成大多依赖生化学家的经验,有很大的主观性和局限性,目前利用深度学习进行分子生成的工作中,并没有对分子官能团进行很好的挖掘和利用,而分子官能团对于新药来说,起决定性作用。
发明内容
本发明提出一种基于自编码器和3阶图卷积的分子智能设计方法,能够结合注意力模型和自编码器,对分子的3阶子结构进行空间图卷积,找出对分子贡献度大的原子对应的官能团。
本发明的技术方案是这样实现的:一种基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,包括如下步骤:
步骤1、编码器将药物分子以分子图的形式进行表达,并将每个分子图都分解为对应的3阶子结构;
步骤2、编码器将3阶子结构进行图卷积,输出分子的隐向量,得到隐向量空间;
步骤3、对解码器进行训练;
步骤4、解码器在隐向量空间中寻找和药物分子相近的隐向量,并对此隐向量进行解码,得到新的药物分子。
作为一种优选的实施方式,步骤1中药物分子的表示方式包括原子特征表示、键特征表示和分子连接表示,3阶子结构中的阶数指邻近原子距离。
作为一种优选的实施方式,原子特征由原子类型、每个原子的芳香性、电荷、手性特征组成,这些特征连接而成,构成24维的one-hot(0,1)向量,原子可由此向量唯一表示。
作为一种优选的实施方式,键特征由键类型、是否在苯环内、是否可旋转构成,这些特征连接而成,构成15维的one-hot(0,1)向量,键可由此向量唯一表示。
作为一种优选的实施方式,分子连接由邻接矩阵表构成,设置邻接矩阵表大小为50×50,整个邻接矩阵表为A(25,25)。
作为一种优选的实施方式,步骤2中3阶子结构进行图卷积即为利用图卷积算子提取原子每阶的子结构特征,最终得到每个节点的特征表示,所述图卷积算子的公式为:
hi:节点i特征表达;
bij:节点i和节点j之间的键的特征表达;
cij:归一化因子,取节点度的倒数;
Ni:节点i的邻居,包含i本身;
wj:节点j的权重参数。
作为一种优选的实施方式,每个节点的特征表示为:
hi=wi1hi1+wi2hi2+wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重。
作为一种优选的实施方式,步骤3中解码器的训练过程由2个损失函数组成,2个损失函数包括拓扑预测损失和类别预测损失。
作为一种优选的实施方式,步骤4中寻找的方法包括距离度量,即为在隐向量空间中寻找每个子结构的相邻子结构,并结合注意力模型,赋予不同子结构不同的注意力因子,得出在新药生成过程中其重大作用的子结构,其每个节点的特征表示为:
hi=ai1wi1hi1+ai2wi2hi2+ai3wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重;
ai1:一阶子结构对应的注意力因子;
ai2:二阶子结构对应的注意力因子;
ai3:三阶子结构对应的注意力因子。
作为一种优选的实施方式,步骤4中对隐向量进行解码的方法即为采用平均值的方法对原子各维度特征进行聚合,其公式为:
hG=∑hi/n
n:代表分子中原子个数;
hi:每个原子的特征表达;
hG:整个分子的图特征表达。
采用了上述技术方案后,本发明的有益效果是:
1、提出一种新型的基于注意力的分子生成方式,首次对原子对应的不同阶子结构进行空间图卷积,形成原子特征,找到对分子贡献度大的官能团。
2、分子生成过程提出基于注意力的生成方式,可以采用不同阶子结构混合生成,而非之前的原子紧跟原子的生成方式。
3、本发明通过对隐向量空间进行距离度量,找到跟原始分子相近的隐向量表达,通过训练好的模型将此向量进行解码,得到新的药物分子。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图;
图2为3阶子结构示意图;
图3为分子分阶空间图卷积示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1至图3所示,一种基于自编码器和3阶图卷积的分子智能设计方法,该分子智能设计方法由两大部分构成,包括编码器和解码器。编码器将药物分子以分子图的形式进行表达,并将每个分子图都分解为对应的3阶子结构,对3阶子结构进行图卷积,输出分子的隐向量,解码器负责在隐向量空间中寻找每个子结构的相邻子结构,作为此子结构的相似子结构,结合注意力模型,赋予不同子结构不同的注意力因子,将子结构进行组合筛选,得出新的药物分子。
分子可以有多种表达方式,如smile格式、分子指纹(FECP)格式、分子图(graph)格式,其中,分子图格式能较好保存分子中原子的连接构象,因此,我们采用分子图格式来表达分子。在分子图中,原子由图节点表示,连接两个原子的化学键由图中边表示。由于键没有方向,所以分子图属于无向图。
原子特征表示:原子特征由原子类型、每个原子的芳香性、电荷、手性特征组成,这些特征连接而成,构成24维的one-hot(0,1)向量,原子可由此向量唯一表示。具体特征如下表所示:
键特征表示:键特征由键类型(单、双、三或其他构成)、是否在苯环内、是否可旋转构成。这些特征连接而成,构成15维的one-hot(0,1)向量,键可由此向量唯一表示。
特征 | 内容 | 大小 |
键类型 | 单、双、三、芳香 | 4 |
环 | 键是否包含在环内 | 1 |
旋转 | 键是否可在三维空间旋转 | 1 |
6 |
分子连接表示:整个分子的连接关系由邻接矩阵表构成,设置邻接矩阵表大小为50×50,整个邻接矩阵表表示为A(25,25)。给原子排序,按照顺序标号,若两个序号i,j的原子间有键连接,则将A(i,j)和A(j,i)设为1,若分子中原子个数不足50,其余用0填充。整个分子的关联关系就由邻接矩阵表唯一确定。
整个分子由原子特征、键特征、分子邻接矩阵表唯一确定。
本发明中的阶数指邻近原子距离,如图2所示,以图中N0为中心原子为例,N0的一阶子结构指与N0原子相距一个距离的原子与中心原子形成的子结构,包括N0,N1和在这些原子之间的键。分子二阶子结构向外扩展到与中心原子距离两个键的N2原子,包括N0,N1,N2和这些原子之间的键。分子三阶子结构向外扩展到与中心原子距离三个键的N3原子,包括N0,N1,N2,N3和这些原子之间的键。
空间图卷积神经网络专门处理图结构数据。它跟传统的卷积神经网络类似,与全连接的多层感知机模型相比,图卷积神经网络利用更少的参数达到相对低的计算量,可以利用图卷积神经网络通过分析邻接原子关系识别决定分子特性的重要的原子特征。
图卷积算子:
hi:节点i特征表达;
bij:节点i和节点j之间的键的特征表达;
cij:归一化因子,取节点度的倒数;
Ni:节点i的邻居,包含i本身;
wj:节点j的权重参数。
利用图卷积算子提取原子每阶的子结构,特征,子结构即为官能团。对于一阶子结构,邻近节点选择与中心原子距离一个距离的原子作为邻近原子Ni,用图卷子算子提取特征;二阶子结构中,邻近节点选择与中心原子最短距离两个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征。三阶子结构中,邻近节点选择与中心原子最短距离为3个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征。三阶子结构每阶均进行图卷积算子运算。
利用图卷积算子提取原子每阶的子结构特征。对于一阶子结构,邻近节点选择与中心原子距离一个距离的原子作为邻近原子Ni,用图卷子算子提取特征;二阶子结构中,邻近节点选择与中心原子最短距离两个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征;三阶子结构中,邻近节点选择与中心原子最短距离为3个键长度的原子作为邻近原子Ni,图卷积算子提取原子特征。三阶子结构每阶均进行图卷积算子运算。
最终每个节点的特征表示为:
hi=wi1hi1+wi2hi2+wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重。
解码器训练过程由2个损失函数组成,包括拓扑预测损失和类别预测损失,拓扑预测指根据当前分子状态,预测下一个产生原子的类型,采用哪一阶的拓扑子结构,与编码器采用同一个子结构计算方式。类别预测损失指生成分子跟原分子的类别相似性。
注意力模型主要应用在自然语言处理中,例如,机器翻译时,找到不同单词间的关系,利用神经网络的能力找到最佳意思表达的单词,翻译整个单词,注意力模型是自然语言处理中成功的最重要因素。由于注意力模型能抓住一句话中主要单词,同样,我们将注意力模型引入分子无向图,利用不同子结构对当前分子中所在原子的重要性,注意力模型找出决定分子特征的主要冠能团。上述公式的连接方式更新为:
hi=ai1wi1hi1+ai2wi2hi2+ai3wi3hi3
ai1:一阶子结构对应的注意力因子;
ai2:二阶子结构对应的注意力因子;
ai3:三阶子结构对应的注意力因子。
注意力因子是注意力系数,用来衡量哪一阶子结构对原子状态更新的重要性。
ai,j=f(hi,hi,j)
函数f衡量两个向量间的相似性,采用余弦相似性进行度量。
每个分子由不同的原子组成,所以整个分子的隐向量特征空间表达由每个原子的特征聚合而成,本发明采用平均值的方法对原子各维度特征进行聚合。
hG=∑hi/n
n:代表分子中原子个数;
hi:每个原子的特征表达;
hG:整个分子的图特征表达。
对分子的特征表达进行降维处理,使之能在二维平面进行展示,不同分子编码为隐向量空间中的一个点,从隐向量空间进行解码操作,得到对应的药物分子结构。假设疗效相近的药物分子结构也相似,若计划产生新的药物分子,在对应的隐向量空间中选择距离较近的隐向量进行解码,即可得对应的新药物分子。
图卷积将所有此原子和邻居的原子特征用相同的卷积权重相加,输出更新后的节点特征,但是这样并没有考虑邻居原子对中心原子的贡献程度,也没有考虑前一时刻的原子状态对当前时刻原子状态的贡献程度。同时没有考虑到键的特征。通过基于注意力的编码解码结构,可以将每个原子不同级别子结构在此分子中的重要性进行充分挖掘,利用,得出对最终分子的性质、结构起重要作用的子结构。
在一个图结构中,本发明采用消息传递框架更新原子状态:
H(l+1)=σ(AH(l)W(l))
l代表消息传递的轮数,σ()代表激活函数,A代表邻接矩阵,W(l)代表第l层的卷积权重,假设2号原子有3个邻接原子,上述公式可被写为:
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,包括如下步骤:
步骤1、编码器将药物分子以分子图的形式进行表达,并将每个分子图都分解为对应的3阶子结构;
步骤2、编码器将3阶子结构进行图卷积,输出分子的隐向量,得到隐向量空间;
步骤3、对解码器进行训练;
步骤4、训练后的解码器在隐向量空间中寻找和药物分子相近的隐向量,并对此隐向量进行解码,得到新的药物分子。
2.根据权利要求1所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述步骤1中药物分子的表示方式包括原子特征表示、键特征表示和分子连接表示,3阶子结构中的阶数指邻近原子距离。
3.根据权利要求2所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述原子特征由原子类型、每个原子的芳香性、电荷、手性特征组成,这些特征连接而成,构成24维的one-hot(0,1)向量,原子可由此向量唯一表示。
4.根据权利要求2所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述键特征由键类型、是否在苯环内、是否可旋转构成,这些特征连接而成,构成15维的one-hot(0,1)向量,键可由此向量唯一表示。
5.根据权利要求2所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述分子连接由邻接矩阵表构成,设置邻接矩阵表大小为50×50,整个邻接矩阵表为A(25,25)。
7.根据权利要求6所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述每个节点的特征表示为:
hi=wi1hi1+wi2hi2+wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重。
8.根据权利要求1所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述步骤3中解码器的训练过程由2个损失函数组成,2个损失函数包括拓扑预测损失和类别预测损失。
9.根据权利要求1所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述步骤4中寻找的方法包括距离度量,即为在隐向量空间中寻找每个子结构的相邻子结构,并结合注意力模型,赋予不同子结构不同的注意力因子,得出在新药生成过程中其重大作用的子结构,其每个节点的特征表示为:
hi=ai1wi1hi1+ai2wi2hi2+ai3wi3hi3
hi:节点i的特征表达;
hi2:原子i一阶子结构图卷积的特征表达;
hi2:原子i二阶子结构图卷积的特征表达;
hi3:原子i三阶子结构图卷积的特征表达;
wi1:原子i一阶子结构图卷积特征对应的权重;
wi2:原子i二阶子结构图卷积特征对应的权重;
wi3:原子i三阶子结构图卷积特征对应的权重;
ai1:一阶子结构对应的注意力因子;
ai2:二阶子结构对应的注意力因子;
ai3:三阶子结构对应的注意力因子。
10.根据权利要求1所述的基于自编码器和3阶图卷积的分子智能设计方法,其特征在于,所述步骤4中对隐向量进行解码的方法即为采用平均值的方法对原子各维度特征进行聚合,其公式为:
hG=∑hi/n
n:代表分子中原子个数;
hi:每个原子的特征表达;
hG:整个分子的图特征表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839116.7A CN111428848B (zh) | 2019-09-05 | 2019-09-05 | 基于自编码器和3阶图卷积的分子智能设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839116.7A CN111428848B (zh) | 2019-09-05 | 2019-09-05 | 基于自编码器和3阶图卷积的分子智能设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428848A true CN111428848A (zh) | 2020-07-17 |
CN111428848B CN111428848B (zh) | 2024-02-13 |
Family
ID=71546805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910839116.7A Active CN111428848B (zh) | 2019-09-05 | 2019-09-05 | 基于自编码器和3阶图卷积的分子智能设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428848B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916143A (zh) * | 2020-07-27 | 2020-11-10 | 西安电子科技大学 | 基于多样子结构特征融合的分子活性预测方法 |
CN112085127A (zh) * | 2020-10-26 | 2020-12-15 | 安徽大学 | 一种混合高低阶邻居信息的半监督分类方法 |
CN112397157A (zh) * | 2020-10-28 | 2021-02-23 | 星药科技(北京)有限公司 | 基于子图-变分自编码结构的分子生成方法 |
CN112820375A (zh) * | 2021-02-04 | 2021-05-18 | 闽江学院 | 基于多图卷积神经网络的中药推荐方法 |
CN113470761A (zh) * | 2021-09-03 | 2021-10-01 | 季华实验室 | 发光材料性质预测方法、系统、电子设备和存储介质 |
CN113707236A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN113707236B (zh) * | 2021-08-30 | 2024-05-14 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460809A (zh) * | 2017-02-22 | 2018-08-28 | 西门子保健有限责任公司 | 用于前列腺癌检测和分类的深度卷积编码器-解码器 |
WO2018220368A1 (en) * | 2017-05-30 | 2018-12-06 | Gtn Ltd | Tensor network machine learning system |
CN109885723A (zh) * | 2019-02-20 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种视频动态缩略图的生成方法、模型训练的方法及装置 |
-
2019
- 2019-09-05 CN CN201910839116.7A patent/CN111428848B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460809A (zh) * | 2017-02-22 | 2018-08-28 | 西门子保健有限责任公司 | 用于前列腺癌检测和分类的深度卷积编码器-解码器 |
WO2018220368A1 (en) * | 2017-05-30 | 2018-12-06 | Gtn Ltd | Tensor network machine learning system |
CN109885723A (zh) * | 2019-02-20 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种视频动态缩略图的生成方法、模型训练的方法及装置 |
Non-Patent Citations (2)
Title |
---|
BIDISHA SSMANTA: ""NeVAE:A Deep Generative Model for Molecular Graphs"" * |
XAVIER BRESSON ET AL.: ""A Two-Step Graph Convolutional Decoder for Molecule Generation"" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916143A (zh) * | 2020-07-27 | 2020-11-10 | 西安电子科技大学 | 基于多样子结构特征融合的分子活性预测方法 |
CN111916143B (zh) * | 2020-07-27 | 2023-07-28 | 西安电子科技大学 | 基于多样子结构特征融合的分子活性预测方法 |
CN112085127A (zh) * | 2020-10-26 | 2020-12-15 | 安徽大学 | 一种混合高低阶邻居信息的半监督分类方法 |
CN112397157A (zh) * | 2020-10-28 | 2021-02-23 | 星药科技(北京)有限公司 | 基于子图-变分自编码结构的分子生成方法 |
CN112820375A (zh) * | 2021-02-04 | 2021-05-18 | 闽江学院 | 基于多图卷积神经网络的中药推荐方法 |
CN113707236A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
WO2023029352A1 (zh) * | 2021-08-30 | 2023-03-09 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN113707236B (zh) * | 2021-08-30 | 2024-05-14 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN113470761A (zh) * | 2021-09-03 | 2021-10-01 | 季华实验室 | 发光材料性质预测方法、系统、电子设备和存储介质 |
CN113470761B (zh) * | 2021-09-03 | 2022-02-25 | 季华实验室 | 发光材料性质预测方法、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111428848B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428848B (zh) | 基于自编码器和3阶图卷积的分子智能设计方法 | |
CN113707235B (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN106897254B (zh) | 一种网络表示学习方法 | |
CN109376857A (zh) | 一种融合结构和属性信息的多模态深度网络嵌入方法 | |
CN106777318A (zh) | 基于协同训练的矩阵分解跨模态哈希检索方法 | |
Zanghi et al. | Strategies for online inference of model-based clustering in large and growing networks | |
Sun et al. | Dual-decoder graph autoencoder for unsupervised graph representation learning | |
Vaida et al. | Hypergraph link prediction: learning drug interaction networks embeddings | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
CN115148302A (zh) | 一种基于图神经网络与多任务学习的化合物性质预测方法 | |
Sento | Image compression with auto-encoder algorithm using deep neural network (DNN) | |
CN114118369A (zh) | 一种基于群智能优化的图像分类卷积神经网络设计方法 | |
Shao et al. | Link prediction algorithms for social networks based on machine learning and HARP | |
CN112199884A (zh) | 物品分子生成方法、装置、设备及存储介质 | |
Wang et al. | Learning to group and label fine-grained shape components | |
CN112086144A (zh) | 分子生成方法、装置、电子设备及存储介质 | |
Palmucci et al. | Where is your field going? A machine learning approach to study the relative motion of the domains of physics | |
CN110136017A (zh) | 一种基于数据增强和非负矩阵稀疏分解的群组发现方法 | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
CN112905906A (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
CN107944045B (zh) | 基于t分布哈希的图像检索方法及系统 | |
CN114038516B (zh) | 一种基于变分自编码器的分子生成与优化方法 | |
CN117093830A (zh) | 一种考虑局部与全局的用户负荷数据修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |