CN114171138A

CN114171138A - 一种面向化合物建模的集合表示学习方法

Info

Publication number: CN114171138A
Application number: CN202111524100.0A
Authority: CN
Inventors: 马帅; 周金雨
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-11

Abstract

本发明通过人工智能领域的方法，实现了一种面向化合物建模的集合表示学习方法。方法针对化合物分子建模过程，提出原子群的概念，并在原子群的概念上建立基于集合表示学习的化合物标签预测通用模型。原子群用于建模化合物分子，集合表示学习的化合物标签预测通用模型包含五个模块：输入层、交互层、排列不变层、集合表示层和输出层。本发明提供的方法实现了根据不同粒度聚集临近元素组成多阶元素，这些元素的向量表示根据邻接关系通过信息传递来不断地更新迭代。最后对同阶元素池化等操作解决了化合物建模的集合表示问题。

Description

一种面向化合物建模的集合表示学习方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种面向化合物建模的集合表示学习方法。

背景技术

机器学习是人工智能的一个分支，是近30年不断发展的一门横跨多领域的交叉学科，它主要利用数据或以往的经验，以此优化计算机程序的性能标准。机器学习领域发展至今，许多算法已经能很好地解决分类、回归等经典问题。但是目前算法主要将一个固定长度的输入向量映射到对应的目标值，对于一些很常见的集合(Set)数据，传统机器学习方法无法处理。集合是一些能够确定的不同的对象组成的一个整体，它的一个应用场景可以是：假设某电商平台中某个产品x有M(x)个顾客评论，这些评论包含D个特征，如打分、评论词数等，如何去预测该产品x的销量y？与常见的单实例对应单标签的回归预测任务不同，这个问题有很显著的特点：输入数据是一个包含多个实例的集合。集合有三个特性：无序性、互异性和确定性。在集合中，无序性指的是集合内的元素没有顺序的概念，无序性在上述问题中体现在：M(x)个顾客评论任意调换顺序后仍是同一个集合，它们对预测的结果不应有所差异。无序性是传统机器学习方法无法处理集合数据的主要原因之一，因为传统方法对输入顺序高度敏感；除了集合三个特性以外，在具体应用中集合中元素数量是可变的，在上述问题中体现在不同产品的评论数一般不同，并且评论会动态地增删，这对机器学习方法使用也造成一定影响。

集合数据很常见，除了电商销量预测例子之外，下面继续展示两个应用场景：调研时通常会对每一个调查问卷赋予一个代表整体的全局属性。每个调查问卷通常包含许多参与者的反应数据，调研通常会在不同地理位置重复进行，这将产生多个问卷数据，每个问卷数据包含的多个参与者反应数据可视为一个集合；社交网络中的许多事件都创建了多维记录集合，这些记录代表参与者的不同反应。某个事件可能会创建多个这样的记录，在这个场景一个事件可以表示集合，每个事件也可能与对应于事件类型的类标签关联。这些应用场景都有一个共性，它们都可以视为包含子数据集的父数据集，其中每个子数据集应该从同一个特定领域应用中产生。

集合这类数据很普遍，同时以集合输入的问题也很常见，经过调研以下应用都需要输入集合类型的数据。MIL(Multiple Instance Learning，多实体学习)预测多个实体共用的标签，比如预测包含多个段落的文章标签、预测由多个局部区域组成的图片标签等，在这个问题中单个实体没有标签信息，这些带标签的包组成的实体可以视为一个集合结构；3D形状识别(3D-Shape Recognition)、点云分类(Pointcloud Classification)任务的输入是多个空间坐标，输出是整体形状标签，这类任务可以将多个坐标视为一个集合。另外很多其他问题，比如元学习(Meta-Learning)问题通过不同但相关的任务来学习目标任务，这种问题能看作从多个相似任务组成的集合中学习的问题。

对于上述问题，如果使用机器学习算法则需要先获得集合的数据表示。这个过程是将原始数据点映射到新空间，映射过程通常需要尽可能保留数据之间的性质，数据表示方法决定了能从原始数据中提取到多少有用的信息用于之后的分类、预测等任务。传统获取数据表示的方法通常从原始数据中进行细致的特征工程预处理工作来构建特征表示。特征工程需要细致的设计工作和庞大的专业知识，一项特定的任务通常需要专用的特征工程算法，这使得特征工程的工作量大，耗时且不灵活。

表示学习旨在自动从原始数据中学习对象的信息表示，无需人工提取特征。可以将学习到的表示进一步作为机器学习系统的输入，以解决预测或分类问题。这种模型在处理大规模和嘈杂的非结构化数据(例如语音、图像、视频、时间序列和文本)时将变得更加灵活和理想。

深度学习是表示学习的一种典型方法，深度学习具有两个显著特征：

1.深度学习算法通常使用低维实值密集向量表示每个对象，该向量被称为分布式表示。与传统表示方案(例如词袋模型)中的独热表示相比，分布式表示能够以更紧凑、更平滑的方式表示数据，因此能更鲁棒地解决大规模数据中的稀疏性问题。

2.深度学习算法通常学习分层的深度架构来表示对象，该深度架构一般为多层神经网络。深层架构能够从原始数据中提取对象的抽象特征，这被认为是深度学习在语音识别和计算机视觉方面取得巨大成功的重要原因。

深度学习方法的基础是神经网络，本研究将使用神经网络来对集合进行表示学习。由于神经网络不能直接输入任意格式的数据，为了能够让神经网络输入集合数据，机器学习系统在运行之前需要从原始数据中提取有效信息到一个内部表示，也就是特征向量中。对集合的表示学习需要体现集合的特征，这是主要的挑战。

虽然数据和问题很常见，获取集合的表示不是一件简单的任务。集合具有三个特性：无序性、互异性和确定性。其中集合的无序性是集合表示的难点，无序性使得即使集合中元素顺序发生改变，对于集合整体来说不应改变。深度学习不能很好处理集合无序性，因为传统的前馈神经网络对输入向量顺序高度相关，没有处理排列无关数据的能力。除此之外，在大多数应用场景下，集合中元素的长度不会相等，这使得集合表示的方法需要处理这种情况。而前馈神经网络仅能处理定长的向量，如何将变长的集合数据表示成定长的表示是个难题。

由于集合中的元素也可能是非结构化无法直接用向量表示的数据，例如在句子的关键词集场景下，需要先获得词语的表示，这涉及到对文本的表示学习，可以使用word2vec等语言模型学习得到，挑选最佳表示方法并获取较优的元素表示是难点之一。

目前针对集合表示的研究很少。据目前调研所知，仅有3篇论文专门对集合表示进行研究：Deep Sets、Set Transformer、RepSet。Deep Sets是最早提出有关集合机器学习理论的研究，它用池化方法处理元素表示。Set Transformer注意到Deep Sets方法不能有效捕捉集合元素间交互信息，引入Transformer的多头注意力机制计算元素间的权重，但是受注意力机制所限，无法处理变长的集合。RepSet提出新颖的集合表示方法，但是引入大量训练参数，且计算多个相似度矩阵较耗时，同时该方法获得的表示不具有解释性，集合和元素表示一致需要较大代价。

现有技术主要有三种方法

1基于度量方法

深度学习应用到集合的表示学习之前，解决集合有关机器学习问题的最常用方法是定义距离、相似性度量或kernel方法，用这些度量去找到每对集合之间的对应关系，然后应用到基于实例的机器学习算法，例如k-NN(k-Nearest Neighbors，k-近邻)或SVM(Support Vector Machine，支持向量机)。在过去有许多作用在集合间的kernel方法被提出，大多数的这些核会估计每个集合的概率分布，然后使用基于分布的比较度量来推导它们的相似性，例如Fisher核，概率乘积和Bhattacharyya相似性度量。此外，还有kernel方法将每个向量集合映射到多分辨率直方图，然后为了找到两个集合之间的近似对应关系，他们将直方图与加权直方图相交测度进行比较。这种方法在前期一直主导了该领域，并在许多数据集上取得了最先进的结果。

尽管这些基于度量的方法在某些任务中非常有效，但它们仍有很多缺陷。第一个缺陷是他们都有很高的计算复杂度，因为它们将所有集合彼此进行比较，每次需要计算一个相似度矩阵。在大多数情况下，集合之间计算内核的复杂度是元素数量的二次方，而在分类问题中，优化SVM分类器的复杂度是训练样本的数量的二次方。第二个缺陷是它是一个多阶段方法。数据表示和学习彼此独立。理想情况下，本研究希望采用端到端的方法。

2循环神经网络

集合的一个重要属性是具体应用中元素的数量实际上是不固定的。由于神经网络需要为每个集合创建一个固定长度的表示，以使其能够用于机器学习相关应用，所以神经网络无法输入不固定长度的集合。在神经网络变种中，循环神经网络经过专门设计可输入可变长度的序列。使用循环神经网络解决集合输入问题的一个研究是set2seq，该模型是对seq2seq的改进，用于解决集合输入的任务。这项工作中的一个重要观察结果是：循环神经网络假设元素之间的顺序，并且以不同方式对元素进行排序会导致截然不同的结果。尽管set2seq中的方法能够找到该问题的部分解决方案，但它仍然受到使用有序神经网络的影响，因此不满足集合的排列不变性。

3基于对称性方法

Chen等人提出了将哈尔散射变换用于图的分类任务，并为图数据构建了一个排列不变的表示以模拟分类任务在某些图节点之间的排列不变性。哈尔散射变化通过对加法、绝对值的减法的深度级联，不断迭代计算正交哈尔小波变换。

对于某个以无向无权图G＝(V,E)定义的信号x，图中点集合V＝{1,...,d}，边关联相邻的节点。为了简化问题假设边集长度是2的自然数幂集。一个哈尔散射面向成对元素通过迭代地应用如下公式进行排列不变操作的计算：

(α,β)→(α+β,|α-β|)

哈尔散射变换具有的排列不变性应用在集合能有效解决集合的无序性。Zaheer等人在2017年提出一种网络架构Deep Sets首次让神经网络满足了集合表示的要求。在DeepSets架构中，集合中的每个元素都首先单独地输入到接收固定长度向量的前馈神经网络。然后，使用池化操作(平均值、求和、取最值等)聚集结果特征空间嵌入。对聚合嵌入进行进一步的非线性处理得到最终的输出。这种非常简单的处理思路既满足了集合的排列不变性、不固定长度的要求，而且更重要的是，它被证明是任何集合函数的通用近似器。

Deep Sets提出后吸引不少学者在其基础上进行改进，提出了新颖且优越的模型。Set Transformer是基于多头注意力机制的集合表示方法，它能捕捉Deep Sets难以捕捉的元素之间的交互信息，在摊销聚类这个任务有更好的效果。RepSet是一个新颖的处理集合输入的网络结构，内部包含很多可训练的隐向量集合被用来与输入集合的元素互相间进行内积运算，之后用二分图匹配方法得到集合表示中的一个分量。作者同时提出了对应简化版架构ApproxRepSet，以适应大规模集合任务。

当前集合表示学习方法存在诸多问题。

首先，目前针对集合数据结构本身的特性重视不够。集合具有三个特性：无序性、互异性和确定性，获取集合的表示不是一件简单的任务。其中集合的无序性是集合表示的难点，无序性使得即使集合中元素顺序发生改变，对于集合整体来说不应改变。深度学习不能很好处理集合无序性，因为传统的前馈神经网络对输入向量顺序高度相关，没有处理排列无关数据的能力。

其次，目前针对集合表示的研究很少。集合数据很常见且应用场景很多，目前集合有关的机器学习工作是一件富有挑战的事情，亟需人们注意到这个领域。

再次，目前集合表示方法无法解决化合物标签预测问题。主要有两点原因。第一点是集合中元素的长度在大多数应用场景下不会相等，这使得集合表示的方法需要处理这种情况。而前馈神经网络仅能处理定长的向量，如何将变长的集合数据表示成定长的表示是个难题。第二点是化合物分子建模为原子表征的集合后，原子间存在关联信息，目前很少有研究考虑到这个场景。

发明内容

为此，本发明首先提出一种面向化合物建模的集合表示学习方法，针对化合物数据特点和已有方法表达缺陷，提出原子群的概念，每个原子群有一个低维稠密向量来表示，并在提出的集合表示方法基础之上应用到化合物标签预测问题上，提出CombiSet模型；

原子群用于建模化合物分子，表示为：

其中

分别代表一阶、二阶和三阶原子群，表示原子群内的原子x_i,x_j与x_i,x_j,x_k存在关联信息，多阶群体的最大阶数不会超过原有集合的元素数量，并且仅有一个最大阶的群体；在对集合中元素进行多粒度建模过程中，需要定义元素间是否有关联关系，比如在化合物标签预测问题中，一阶群体间的关联关系表示原子间具有化学键。并非所有问题中元素都有关联关系，这时需要人为根据元素间相似度或者距离度量设定阈值来定义关联关系。对于无法定义相似度、距离的问题，可认为所有元素对间都有关联关系，此时元素和关联关系可构成完全图，因此对于所有的问题元素间均可存在关联关系。

原子群之间的关联性：

在同阶群体中，对于大于一阶的群体的关联关系定义，定义为它们间共有阶数减一个相同的元素，如下式所示：

v_n,a关联

v_n,a,v_n,b表示n阶群体的向量表示，a,b表示群体包含元素的集合。

对于不同阶群体的关联关系定义，本文定义为它们间包含元素集合存在真子集关系，如下式所示：

m≠n,|a|<|b|,v_m,a关联

所述原子群预测化合物分子标签的方法，表示为：

其中的

为所有单原子对待预测值的贡献，通过原子的向量表示、特征和原子之间的结构特征计算得到；

表示两阶原子群对待预测值的贡献，所述两阶原子群指具有邻接关系的一阶原子群组合而成的整体，将所有两阶原子群作为顶点组成一个新图，新图的边可以定义为两个两阶原子群都共享同一个一阶原子群，在新图中的顶点贡献同样是通过顶点的向量表示、特征和原子之间的结构特征计算得到，两阶原子群的向量表示通过该原子群内部包含原子的向量表示进行哈达玛积等计算得到，它的顶点和边的特征向量需要通过特征工程得到。两阶原子群可以视为对化合物的化学键的建模，它的结构特征是化学键之间的夹角；

进而，

表示三个具有邻接关系的原子群对待预测值的贡献；

所述集合表示学习的化合物标签预测通用模型包含五个模块：输入层、交互层、排列不变层、集合表示层和输出层；输入层输入原子群的低维稠密向量。输入层与后面的交互层、排列恒等层被所有原子群共享使用，然后在集合表示层根据原子群的阶数汇聚成矩阵(这一层原子群会转化成矩阵)，进行后续处理。

所述输入层包含一个嵌入查找表和神经网络，对每个原子共享，用于获取的首轮向量表示

首先原子的离散特征通过嵌入查找表得到特征对应的嵌入表示

该向量之后与原子预训练得到的初始向量表示进行连接操作，接着通过神经网络计算出首轮向量表示

所述交互层用于对原子向量表示多轮训练迭代，将不同粒度的相邻原子整体建模成对应阶数的原子群，同阶的原子群包含相同的低阶原子群时具有邻接关系，同阶原子群对应的向量表示在交互层进行连接操作，之后送入到神经网络中；对于不同阶的原子群将它们向量表示累加起来，送入到神经网络中；进入神经网络后的中间向量会求和，得到下一轮的向量表示，所述交互层对每个原子进行k次迭代计算，形成k轮训练迭代，这里的k是任意大于一的整数含义，实际按情况设置具体k值。(过大会过拟合，过小会欠训练导致训练效果不好)。

所述排列恒等层对每个原子群的首轮向量表示

计算得到

经过k轮训练迭代后原子群的影响会传递到k-阶邻近度的原子；

所述集合表示层对每一阶的原子群向量表示求和，然后以纵向连接方式组成一个矩阵，之后通过卷积层操作得到集合的向量表示E_set，输出层包含三层神经网络，其中的输出层维度取决于待解决问题需要的维度。

所述输入层的具体结构为：对于当前输入特征向量是第c阶中的第i个原子Atom_c,i，该原子的原始特征向量分别为连续型的特征向量C_c,i、离散型的特征向量D_c,i，使用嵌入查找表来将D_c,i映射成

隐向量

将与初始表示向量P_c,i连接起来一起输入到一个全连接神经网络中，计算得到Atom_c,i初始向量表示

的计算方式为：

式中

是全连接层中可训练参数，

是向量连接符号，φ₁是激励函数。

所述交互层具有两个阶段：信息的传递和节点的更新；

同阶原子群表示的更新过程为：

其中

表示原子群i的邻接原子群，

表示原子群i的邻接原子群j的第n轮向量表示，

表示向量拼接；

不同阶原子群表示的更新过程为：

其中k表示原子群最大阶数，

中的m表示除第c阶外其他阶次序的序数，表示除第c阶外第m个其他阶的次序，

表示原子群i的邻接原子群j的第n轮向量表示，其中原子群j的阶数是

向量表示的更新在交互层还依赖于原子群的连续型特征向量C_c,i，C_c,i与之前聚集同阶、非同阶信息得到的中间变量

和

分别通过对应的神经网络，最后以求和的形式得到下一轮向量表示

计算过程为：

每一个原子群都被交互层处理多轮。

所述恒等排列层中每一层都输入前一层输出向量表示，首层的输入是原子群的初始向量表示经过输入层的计算得到，排列恒等层中每层更新所有原子群的向量表示，并将更新后的表示传入到下一层，k层堆砌共同组成了排列恒等层；每一层迭代计算结束，原子群的向量表示都得到更新，随着k轮更新，得到最终训练后各原子群的向量表示。

所述集合表示层对每一阶原子群的向量表示分别求和：

每一阶原子群的向量表示进过聚集操作后会对应一个列向量h_c，每一个列向量h_c都对应一个阶数c的所有原子群，将h_c视为一个包含c阶原子群的集合，并将所有的h_c连接起来组成一个矩阵W_c,ed：

连接后的矩阵W_c,ed将通过卷积层操作，用于对不同阶原子群赋权，该卷积层输入通道数和输出通道数均为1，卷积核大小取决于原子群最大阶数和纵向视野的宽度，卷积层输出的向量长度一般固定为原始向量长度的一半，通过设置步长和填充来调整，通过卷积层操作后，最后得到集合的向量表示E_set：

E_set＝W_c,ed*kernel

式中的*表示卷积操作，kernel表示卷积核。

所述输出层由三层神经网络组成，输出的维度依靠具体任务而定，模型训练时，使用交叉熵损失函数作为目标训练函数，如式所示：

式中，y指的是模型输出实际值，取值为(0,1)，p指的是期望输出。

本发明所要实现的技术效果在于：

1.提出基于多阶训练迭代的集合表示学习方法。本文提出集合多阶建模方法并建模多阶群体与集合预测值的关系，通过训练迭代更新多阶群体向量表示，并基于此提出集合表示方法，给出相应的证明，还对化合物数据进行集合建模。。

2.设计并实现基于集合表示学习的化合物标签预测方法。本文对多阶训练迭代方法进行具体实现，以化合物标签预测问题为例对设计的方法进行更细致地改进，考虑化合物中原子和化学键的特征和结构信息，提出了CombiSet模型。

3.实验验证方法的有效性。本文在AIDS、MUTAG和Mutagenicity数据集进行实验，和已有的集合表示方法进行实验对比，验证本研究提出方法的优越性。通过与已有方法实验对比，在三个数据集中均取得最优的实验结果，其中该方法在Mutagenicity数据集预测效果提高了9.58％。本模型利用的排列恒等层、和点边特征在消融实验中反映出比不利用时的准确率分别增长了6.7％和10％。

附图说明

图1甲酸一阶原子群建模；

图2甲酸二阶原子群建模；

图3甲酸多阶原子群建模；

图4CombiSet整体模型示意图；

图5输入层示意图；

图6同阶原子群交互；

图7不同阶原子群交互；

图8交互层示意图；

图9单轮迭代训练示意图；

图10排列恒等层示意图；

图11不同阶向量表示求和；

图12不同阶向量表示连接；

图13卷积操作；

图14集合表示层示意图；

图15输出层示意图；

图16排列恒等层有无对预测的影响；

图17点和边特征利用对预测的影响

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种面向化合物建模的集合表示学习方法。

化合物分子建模：

首先，在化合物分子建模过程，本发明提出原子群的概念。原子群指的是原子组成的群体，它可能包含一个或多个原子，每个原子群都代表一个整体，对应多种属性；原子群中原子的个数代表该原子群的阶数、粒度，对于同一阶的原子群，它们可能存在某种关系，比如距离、角度信息。

本发明提出建模化合物分子的角度是建模不同粒度的原子群，原子群用于建模化合物分子，表示为：

其中

原子群之间的关联性：

v_n,a关联

m≠n,|a|<|b|,v_m,a关联

任何待预测的分子标签或属性值可以看成这些不同粒度原子群的贡献累加形成，如下式所示。

式子中的

可以视为所有单原子对待预测值的贡献，这些贡献可以通过原子的向量表示、特征和原子之间的结构特征计算得到，这部分是预测的基础。

式子中

表示两阶原子群对待预测值的贡献，这里的两阶原子群指的具有邻接关系的一阶原子群组合而成的整体。将所有两阶原子群作为顶点组成一个新图，新图的边可以定义为两个两阶原子群都共享同一个一阶原子群。在新图中的顶点贡献同样是通过顶点的向量表示、特征和原子之间的结构特征计算得到。两阶原子群的向量表示可以通过原子群内部包含的原子的向量表示通过哈达玛积等变换得到，顶点和边的特征需要通过特征工程。以另一个视角看待两阶原子群，它可以视为对原始图边的建模，结构特征可视为边之间的夹角。

以此类推，

表示旧图中三个具有邻接关系的原子群对待预测值的贡献，高阶的原子群可以视为化合物分子中的官能团，这些官能团往往对预测起到很大贡献。

以甲酸(HCOOH)为例，见图1，分子共有五种原子，分别对应五个一阶原子群{H₁},{C},{O₁},{O₂},{H₂}，一阶原子群特征可以是某原子的原子类型、电荷量等，一阶原子群间的结构特征是原子群间的距离、方位信息，每个一阶原子群都对应向量表示。

甲酸(HCOOH)的二阶原子群有四个，如图2所示。二阶原子群特征可以是化学键类型、共用电子对数目等，二阶原子群间的结构特征是二阶原子群间组成的夹角，每个二阶原子群都对应向量表示，这种表示在本研究中通过一阶原子群的哈达玛积得到。

甲酸(HCOOH)的多阶原子群分别有三、二、一个，如图3所示。多阶原子群特征更加丰富，可以刻画出化合物分子各种各样的几何、结构性质。对于三阶以上的原子群来说原子群代表一个整体，比如官能团-CHO(醛基)、-COOH(羧基)，它们往往决定分子的化学性质，对预测起到至关重要的作用。对于三阶原子群间的结构特征可以是原子群组成的面与面之间的夹角。多阶原子群向量表示一般需要用到特征工程。

整体模型：

之后，本发明提出了基于集合表示学习的化合物标签预测模型CombiSet(Combination Set)，图4是整体模型示意图。CombiSet包含五个模块：输入层、交互层、排列不变层、集合表示层和输出层。输入层主要包含一个嵌入查找表和神经网络，它对每个原子共享，用于获取的首轮向量表示

首先原子的离散特征会通过嵌入查找表得到特征对应的嵌入表示

该向量之后会与原子预训练得到的初始向量表示进行连接操作，得到中间向量

会通过神经网络计算出首轮向量表示

交互层用于对原子向量表示多轮训练迭代，本发明建模化合物分子方法将不同粒度的相邻原子整体建模成对应阶数的原子群，同阶的原子群包含相同的低阶原子群时具有邻接关系，同阶原子群对应的向量表示在交互层会进行连接操作，之后送入到神经网络中；不同阶的原子群会将它们向量表示累加起来，送入到神经网络中。在交互层结合了当前原子群的连续型特征向量，它们会通过神经网络中。这些进入神经网络后的中间向量会求和，得到下一轮的向量表示。这些过程往往进行了多次，进行k轮训练迭代。

排列恒等层是k轮训练迭代的形象化表示，所有不同粒度的原子群都会经过交互层计算得到下一轮的向量表示，这些原子群在每一轮计算过程都具有排列恒等的特性。最终每个原子群的首轮向量表示

会计算得到

理论上经过k轮训练迭代后原子群的影响会传递到k-阶邻近度的原子，这对化合物分子建模是有实际意义的，因为某些重要原子群的影响会随着训练迭代传递出去。

集合表示层用于计算集合的向量表示，需满足排列不变性。集合表示层对每一阶的原子群向量表示求和，然后以纵向连接方式组成一个矩阵，之后通过卷积层操作得到集合的向量表示E_set。输出层包含三层神经网络，其中的输出层维度取决于待解决问题需要的维度。

输入层

模型的输入层将原子群的初始表示向量与离散型特征向量结合，转换为训练前的向量表示。原子群的原始特征向量包括连续型的特征向量C和离散型的特征向量D。假设当前输入特征向量是第c阶中的第i个原子Atom_c,i，该原子的原始特征向量分别设为C_c,i、D_c,i。输入层使用嵌入查找表来将D_c,i映射成

隐向量

输入层示意图见图5。

的计算方式为：

式中

是全连接层中可训练参数，

是向量连接符号，φ₁是激励函数。

交互层

CombiSet模型的交互层经过两个阶段：信息的传递和节点的更新。在以异质图角度对化合物分子的建模中，每一个原子群都会发送信息到其邻接的原子群和从其邻接的原子群接收信息。这些收到的信息将用于更新当前原子群的向量表示。

根据原子群是否同阶的关系，原子群接收信息处理的方式略有不同，总体来说同阶原子群表示的更新过程如式所示：

其中

表示原子群i的邻接原子群，

表示原子群i的邻接原子群j的第n轮向量表示，

表示向量拼接，图6是同阶原子群交互的示意图。

不同阶原子群表示的更新过程如下式所示：

其中k表示原子群最大阶数，

图7是不同阶原子群交互的示意图。

除了原子群间通过信息传递更新向量表示之外，向量表示的更新在交互层还依赖于原子群的连续型特征向量C_c,i，C_c,i与之前聚集同阶、非同阶信息得到的中间变量

和

将会分别通过对应的神经网络，最后以求和的形式得到下一轮向量表示

过程如下。

CombiSet模型的交互层经过了信息的传递和节点的更新阶段后对应原子群的向量表示得到一轮的更新，化合物分子建模的每一个原子群都会进过交互层的处理，并且每一个原子群都会被交互层处理多轮。交互层的整体示意图如图8所示。

排列恒等层

CombiSet模型堆砌k次交互层来编码异质图远端信息到本节点的向量表示，取名为排列恒等层。排列恒等层中每一层都输入前一层输出向量表示，首层的输入是原子群的初始向量表示经过输入层的计算得到。排列恒等层中每层都会更新所有原子群的向量表示，并将更新后的表示传入到下一层，k层堆砌共同组成了排列恒等层，图9是首层的示意图。

每一层迭代计算结束，原子群的向量表示都得到更新，随着k轮更新，得到最终训练后各原子群的向量表示，图10是排列恒等层的示意图。

集合表示层

集合表示层用于获得集合的向量表示，该层的操作不应依赖集合中元素顺序，即满足排列不变性。由于对于化合物分子的标签预测问题，不同阶的原子群对标签预测的贡献之和用来建模为待预测值。在排列恒等层中进过k轮训练迭代后，每个原子群的向量表示信息更丰富，现需要聚集不同阶的原子群，集合表示层对每一阶原子群的向量表示分别求和，如下式、图11所示：

每一阶原子群的向量表示进过聚集操作后会对应一个列向量h_c，每一个列向量h_c都对应一个阶数c的所有原子群，可以将h_c视为一个包含c阶原子群的集合，CombiSet的集合表示层将所有的h_c连接起来组成一个矩阵W_c,ed，如下式、图12所示。

连接后的矩阵W_c,ed将通过卷积层操作，用于对不同阶原子群赋权。该卷积层输入通道数和输出通道数均为1，卷积核大小取决于原子群最大阶数和纵向视野的宽度，卷积层输出的向量长度一般固定为原始向量长度的一半，通过设置步长和填充来调整。通过卷积层操作后，最后得到集合的向量表示E_set，如下式、图13所示：

E_set＝W_c,ed*kernel

式中的*表示卷积操作，kernel表示卷积核。

集合表示层的整体示意图如图14所示。

输出层

集合表示层输出结果得到集合的向量表示，输出层主要用于集合下游任务的定制化处理，该层主要由三层神经网络组成，输出的维度依靠具体任务而定，见图15。输出层输出的是对化合物标签的预测结果，是一个0到1的实数值。这里的标签一般是二分类的，只有两种可能：是或者不是，比如是否对HIV有活性是二分类标签的例子。输出层对每个标签取值都输出它的预测的可能性，然后最大可能性的标签取值作为输出结果。

CombiSet模型训练时，使用交叉熵损失函数作为目标训练函数，如式所示：

实验结果：

本节中将CombiSet模型与现有的三种集合表示方法进行对比，预测的平均准确率和标准差如表1所示。

实验结果展示

在表中，粗体的数字是每个数据集最优预测结果，星号标记的数字是最优对比方法的结果。“Impro.”表示CombiSet相比最优对比方法的效果提高百分比。

从图中分析实验结果，可以得出如下结论：

CombiSet模型实验结果比现有的先进模型更好，在三个数据集中均取得最优的实验结果。特别地在Mutagenicity数据集，CombiSet相比最优对比方法提高了9.58％。在MUTAG数据集优于最佳对比方法4.31％，即使在AIDS数据集中各模型预测结果相近的情况下也优于最佳对比方法0.09％。本发明将CombiSet模型带来预测效果提升归功于对化合物多粒度的建模，以及训练迭代和利用原子、边特征带来的表达力提升。

利用元素间交互信息可以提升化合物分子预测的性能。本实验过程中SetTransformer和CombiSet模型均利用了元素间交互信息，这些信息对于化合物分子建模来说非常重要。

下面将介绍两个消融实验，分别对比CombiSet模型中的排列恒等层有无、点和边特征是否利用对实验预测结果的影响。对比实验过程中使用控制变量法，仅当前研究的超参数发生改变，其他超参数默认设置为进过TPE方法获得最优超参数组合。篇幅原因本节展示的是Mutagenicity数据集上的测试结果。

排列恒等层有无对预测的影响

本实验对比了排列恒等层有无对预测结果的影响，对比了交互层数为0与为3时的预测实验结果，如图16所示。从实验结果分析得出，排列恒等层会影响训练收敛时间和预测准确率。其中没有排列恒等层的CombiSet模型在约150轮达到收敛状态，有排列恒等层且层数为3的模型在约75轮达到收敛状态。没有排列恒等层的CombiSet模型最终的平均预测准确率为75.21％，有排列恒等层且层数为3的模型则为80.23％，平均准确率增长了6.7％。实验结果说明了排列恒等层会显著的提高预测准确率。

点和边特征利用对预测的影响

本实验对比了是否利用点和边的特征对预测结果的影响，实验结果如图17所示。没有利用点和边特征的CombiSet模型的平均预测准确率为72.93％，反之利用点和边特征的模型的平均预测准确率为80.23％，增长了10％。实验结果说明了点和边特征的利用会显著的提高预测准确率。

Claims

1.一种面向化合物建模的集合表示学习方法，其特征在于：针对某一化合物，通过构建一个低维稠密向量来表示的原子群对化合物进行多粒度建模，构成集合表示学习方法的一个特性，并在此基础上，构建集合表示学习的化合物标签预测模型CombiSet预测化合物标签；

所述原子群用于建模化合物分子的方法为：

其中

分别代表一阶、二阶和三阶原子群，表示原子群内的原子x_i，x_j与x_i，x_j，x_k存在关联信息，多阶群体的最大阶数不会超过原有集合的元素数量，并且仅有一个最大阶的群体；

所述原子群用于建模化合物标签预测值的方法为：

其中的

表示两阶原子群对待预测值的贡献，所述两阶原子群指具有关联信息的两个一阶原子群组合而成的整体，将所有两阶原子群作为顶点组成一个新图，新图的边可以定义为两个两阶原子群都共享同一个一阶原子群，在新图中的顶点贡献同样是通过顶点的向量表示、特征和原子之间的结构特征计算得到，两阶原子群的向量表示通过该原子群内部包含原子的向量表示进行哈达玛积等计算得到，它的顶点和边的特征向量需要通过特征工程得到，两阶原子群可以视为对化合物的化学键的建模，它的结构特征是化学键之间的夹角；

进而，

表示三个具有关联信息的原子群对待预测值的贡献。大于二阶的原子群可以建模化合物的官能团等局部结构，它们的结构特征可以是面夹角等复杂空间属性；

所述集合表示学习的化合物标签预测模型CombiSet包含五个模块：输入层、交互层、排列不变层、集合表示层和输出层；

输入原子群的低维稠密向量，首先原子的离散特征通过嵌入查找表得到特征对应的嵌入表示

所述交互层用于对原子向量表示进行多轮训练迭代，迭代次数为k，将不同粒度的相邻原子整体建模成对应阶数的原子群，同阶的原子群包含相同的低阶原子群时具有邻接关系，同阶原子群对应的向量表示在交互层进行连接操作，之后送入到神经网络中；对于不同阶的原子群将它们向量表示累加起来，送入到神经网络中；进入神经网络后的中间向量会求和，得到下一轮的向量表示，所述交互层对每个原子群进行k次迭代计算，形成k轮训练迭代，；

所述排列恒等层对每个原子群的首轮向量表示

计算得到

所述集合表示层对每一阶的原子群的低维稠密向量表示求和，然后以纵向连接方式组成一个矩阵，之后通过卷积层操作得到集合的向量表示E_set；

所述输出层包含三层神经网络，其中的输出层维度取决于待解决问题需要的维度，所述输出层最后将预测数值与判断结果对应，对每个标签取值都输出它的预测的可能性，然后最大可能性的标签的判断结果取值作为输出结果。

2.如权利要求1所述的一种面向化合物建模的集合表示学习方法，其特征在于：所述输入层的具体结构为：对于当前输入特征向量是第c阶中的第i个原子Atom_c，i，该原子的原始特征向量分别为连续型的特征向量C_c，i、离散型的特征向量D_c，i，使用嵌入查找表来将D_c，i映射成

隐向量

将与初始表示向量P_c，i连接起来一起输入到一个全连接神经网络中，计算得到Atom_c，i初始向量表示

的计算方式为：

式中

是全连接层中可训练参数，

是向量连接符号，φ₁是激励函数。

3.如权利要求2所述的一种面向化合物建模的集合表示学习方法，其特征在于：所述交互层具有两个阶段：信息的传递和节点的更新；

同阶原子群表示的更新过程为：

其中

表示原子群i的邻接原子群，

表示原子群i的邻接原子群j的第n轮向量表示，

表示向量拼接；

不同阶原子群表示的更新过程为：

其中k表示原子群最大阶数，

向量表示的更新在交互层还依赖于原子群的连续型特征向量C_c，i，C_c，i与之前聚集同阶、非同阶信息得到的中间变量

和

计算过程为：

每一个原子群都被交互层处理多轮。

4.如权利要求3所述的一种面向化合物建模的集合表示学习方法，其特征在于：所述恒等排列层中每一层都输入前一层输出向量表示，首层的输入是原子群的初始向量表示经过输入层的计算得到，排列恒等层中每层更新所有原子群的向量表示，并将更新后的表示传入到下一层，k层堆砌共同组成了排列恒等层；每一层迭代计算结束，原子群的向量表示都得到更新，随着k轮更新，得到最终训练后各原子群的向量表示。

5.如权利要求4所述的一种面向化合物建模的集合表示学习方法，其特征在于：所述集合表示层对每一阶原子群的向量表示分别求和：

每一阶原子群的向量表示进过聚集操作后会对应一个列向量h_c，每一个列向量h_c都对应一个阶数c的所有原子群，h_c视为一个包含c阶原子群的集合，并将所有的h_c连接起来组成一个矩阵W_c，ed：

连接后的矩阵W_c，ed将通过卷积层操作，用于对不同阶原子群赋权，该卷积层输入通道数和输出通道数均为1，卷积核大小取决于原子群最大阶数和纵向视野的宽度，卷积层输出的向量长度一般固定为原始向量长度的一半，通过设置步长和填充来调整，通过卷积层操作后，最后得到集合的向量表示E_set：

E_set＝W_c，ed*kernel

式中的*表示卷积操作，kernel表示卷积核。

6.如权利要求5所述的一种面向化合物建模的集合表示学习方法，其特征在于：所述输出层由三层神经网络组成，输出的维度依靠具体任务而定，模型训练时，使用交叉熵损失函数作为目标训练函数，如式所示：

式中，y指的是模型输出实际值，取值为(0，1)，p指的是期望输出。