CN115331754A

CN115331754A - 基于哈希算法的分子分类方法

Info

Publication number: CN115331754A
Application number: CN202210995952.6A
Authority: CN
Inventors: 吴炜; 罗川; 吴立军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-11

Abstract

本发明公开了一种基于哈希算法的分子分类方法，包括获取已知分类的分子并构建分子结构图；计算图中顶点的向量表达；得到各个顶点的邻接节点向量和表达并拼接得到各个顶点的哈希码向量表达；将顶点的哈希码向量表达全部相加；得到每个分子结构图的向量表达；计算任意两个分子结构图之间的相似度并构建核矩阵；训练得到分子图分类器；获取待分类分子的分子结构图与已知分子结构图之间的相似度，并输入到分子图分类器得到分类结果。本发明方法避免了图神经网络中海量的参数学习，同时不再依赖昂贵的高端硬件，能够在满足分子分类精度的前提下，明显降低时间开销，尤其适用于大规模分子图数据集场景下的分类任务，而且可靠性高，精确性好，效率较高。

Description

基于哈希算法的分子分类方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于哈希算法的分子分类方法。

背景技术

图数据在现实生活中非常普遍，如生物化学领域的化学分子式、社交网络、道路交通网络等。随着大数据时代的到来，图数据的种类和数量都呈现指数式增长，也推动了图挖掘技术的高速发展。图挖掘领域的一个重要应用是图分类；图分类技术用于通过在已知图上训练一个分类器来学习未知图的标签类别信息。图分类技术也推动了数据挖掘技术在生物化学领域的发展，有利于快速鉴定分子对某种物质的反应，尤其在大规模分子测试中。

根据图中顶点所携带的信息，图数据通常分为两类：带离散属性的图和带连续属性的图。前者典型例子为化学分子式，每个顶点表示一个原子，每条边表示一种化学键，这种图仅包括最简单的信息。后者包括蛋白质交互图，顶点表示蛋白质，边表示蛋白质之间的连接，更重要的是，每个顶点包含多个代表理化性质的属性，其值通常为实数值。目前，常用的图分类技术主要聚焦于前者。

但是，现今依旧存在一些针对后者(比如蛋白质交互图等复杂图数据)的分类方法。该类方法主要包括核方法和图神经网络方法。作为一类传统方法，核方法主要用于测量图之间的相似度，其关键在于通过提取子结构来将复杂的分子图结构表示成向量。但是，核方法会随着图规模的增加，导致子结构数量急剧增加，进而导致效率低下。图神经网络技术能够学习分子图结构中的隐藏模式；近些年的研究表明图神经网络技术具有强大的图表达能力，能够有效保存分子图中的信息。但是，图神经网络技术由于海量的参数计算，极其依赖价格昂贵的高端硬件(比如图形处理器，Graphics Processing Unit，GPU)，并且需要大量的计算和存储资源。

发明内容

本发明的目的在于提供一种可靠性高、精确性好且效率较高的基于哈希算法的分子分类方法。

本发明提供的这种基于哈希算法的分子分类方法，包括如下步骤：

S1.获取已知分类的分子，并构建对应的分子结构图；

S2.针对步骤S1获取的分子结构图，采用SimHash算法计算图中各个顶点的向量表达；

S3.针对图中的每个顶点，找到顶点的所有邻居节点，并将对应的邻居节点的向量表达相加，得到各个顶点的邻接节点向量和表达；

S4.拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，得到各个顶点的哈希码向量表达；

S5.将各个顶点的哈希码向量表达全部相加；

S6.针对步骤S1获取的每一个分子结构图，均重复步骤S2～S5直至设定的次数，得到每个分子结构图的向量表达；

S7.根据步骤S6得到的每个分子结构图的向量表达，计算任意两个分子结构图之间的相似度，从而构建核矩阵；

S8.将步骤S7得到的核矩阵输入到支持向量机中，从而训练得到分子图分类器；

S9.针对待分类的分子，获取该分子的分子结构图的向量表达，计算该分子与已知分子结构图之间的相似度，并将相似度结果输入到步骤S8得到的分子图分类器中，从而得到待分类的分子的分类结果。

步骤S2所述的针对步骤S1获取的分子结构图，采用SimHash算法计算图中各个顶点的向量表达，具体包括如下步骤：

初始化SimHash算法的参数：生成服从高斯分布的K个d维向量；d为分子结构图中顶点的特征个数；

将分子结构图中的每个顶点，在初始阶段表示为d维特征向量x，并随机生成K个服从高斯分布的d维超平面法向量n^(k)，k＝1,2,...,K；

采用以下算式，将特征向量x转换为K维哈希码，从而得到顶点的向量表达：

式中

为第k维哈希码。

步骤S3所述的将对应的邻居节点的向量表达相加，具体为将对应的邻居节点的向量表达，进行对应位的相加。

步骤S4所述的拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，得到各个顶点的哈希码向量表达，具体为拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，从而将每个顶点表达为2K维哈希码，从而得到各个顶点的哈希码向量表达。

步骤S5所述的将各个顶点的哈希码向量表达全部相加，具体为将全部顶点的哈希码向量表达，进行对应位相加。

步骤S6所述的针对步骤S1获取的每一个分子结构图，均重复步骤S2～S5直至设定的次数，得到每个分子结构图的向量表达，具体包括如下步骤：

针对步骤S1获取的每一个分子结构图，重复步骤S2～S5直至设定的次数R，得到每个分子结构图的向量表达；在重复步骤S2时，在初始化SimHash算法的参数过程中，生成服从高斯分布的K个K维向量。

步骤S7所述的根据步骤S6得到的每个分子结构图的向量表达，计算任意两个分子结构图之间的相似度，从而构建核矩阵，具体包括如下步骤：

根据步骤S6得到的每个分子结构图的向量表达，计算任意两个分子结构图之间的海明相似度；

采用如下算式计算得到核矩阵：

式中k(i,j)为核矩阵的第i行第j列的元素，用于表示图g_i和图g_j的相似度；

为图g_i在第r次向量表达中的第k维值；

为图g_j在第r次向量表达中的第k维值；

表示上述两值相等时为1，不相等时为0。

步骤S8所述的将步骤S7得到的核矩阵输入到支持向量机中，从而训练得到分子图分类器，具体包括如下步骤：

采用支持向量机来训练分子图分类器：

w^T·x+b＝0

式中w为超平面法向量；x为分子图的向量表达；b为截距；

将得到的核矩阵作为支持向量机的非线性核，构建以下目标函数：

0≤α_i≤C,i＝1,2,...,n

式中α＝[α₁,α₂,...,α_n]；n为分子图的个数；α_i为拉格朗日乘子；y_i为分子图标签；k(i,j)为核矩阵的第i行第j列的元素；C为惩罚因子；

采用二次规划算法求解目标函数，得到最优解

然后计算b的最优值

为

最后，得到分子图分类器；对于一个分子所对应的分子结构图g_m，该分子的类别标签预测结果为

其中k(m,i)为图g_m与图g_i的相似度，sign(Z)为二值函数，若Z为正数则sign(Z)＝1，若Z为负数则sign(Z)＝-1；标签预测结果为1表示阳性，标签预测结果为-1表示阴性。

本发明提供的这种基于哈希算法的分子分类方法，通过随机生成若干组SimHash函数来高效表达分子图结构，取得了关于分子图数量的线性时间和空间复杂度，并有效保存了图之间的相似度信息，能够生成用于支持向量机的核矩阵，并将核矩阵输入到支持向量机中训练得到分子图分类器，从而完成分子的分类；本发明方法避免了图神经网络中海量的参数学习，同时不再依赖昂贵的高端硬件，能够在满足分子分类精度的前提下，明显降低时间开销，尤其适用于大规模分子图数据集场景下的分类任务，而且可靠性高，精确性好，效率较高。

附图说明

图1为本发明的方法流程示意图。

图2为本发明方法的整体思路示意图。

图3为本发明的步骤S2～S5的过程示意图。

具体实施方式

如图1所示为本发明的方法流程示意图：

一般场合下，每个分子都可以建模为一个图g＝(V,E,A,f)，其中V为该图的顶点集，E为该图的边集，A为该图的属性集，图中每个顶点携带多个数值型属性，f:

将顶点表示成|A|维的实值向量

每个维度代表一个属性，维度值代表属性值。同时，该分子图对应一个类别标签

表示该分子的某种属性。本发明方法的主要目标是给定n个分子的分子结构图

和对应的类别标签

将n个分子结构图表达为n个低维向量

通过从

中学习得到分子图分类器，从而实现未知分子的标签分类，具体思路如图2所示。

因此，本发明提供的这种基于哈希算法的分子分类方法，包括如下步骤：

S1.获取已知分类的分子，并构建对应的分子结构图；

S2.针对步骤S1获取的分子结构图，采用SimHash算法计算图中各个顶点的向量表达；具体包括如下步骤：

式中

为第k维哈希码；

S3.针对图中的每个顶点，找到顶点的所有邻居节点，并将对应的邻居节点的向量表达相加，得到各个顶点的邻接节点向量和表达；具体为将对应的邻居节点的向量表达，进行对应位的相加；

S4.拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，得到各个顶点的哈希码向量表达；具体为拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，从而将每个顶点表达为2K维哈希码，从而得到各个顶点的哈希码向量表达；

S5.将各个顶点的哈希码向量表达全部相加；具体为将全部顶点的哈希码向量表达，进行对应位相加；

S6.针对步骤S1获取的每一个分子结构图，均重复步骤S2～S5直至设定的次数，得到每个分子结构图的向量表达，具体包括如下步骤：

针对步骤S1获取的每一个分子结构图，重复步骤S2～S5直至设定的次数R，得到每个分子结构图的向量表达；在重复步骤S2时，在初始化SimHash算法的参数过程中，生成服从高斯分布的K个K维向量；其中，步骤S2～S5的过程示意图，如图3所示；

具体实施时，在第一次初始化时，生成服从高斯分布的K个d维向量；在第二次～第R次初始化时，均生成的是服从高斯分布的K个K维向量；

S7.根据步骤S6得到的每个分子结构图的向量表达，计算任意两个分子结构图之间的相似度，从而构建核矩阵；具体包括如下步骤：

采用如下算式计算得到核矩阵：

为图g_i在第r次向量表达中的第k维值；

为图g_j在第r次向量表达中的第k维值；

为表示上述两值相等时为1，不相等时为0；

S8.将步骤S7得到的核矩阵输入到支持向量机中，从而训练得到分子图分类器；具体包括如下步骤：

采用支持向量机来训练分子图分类器：

w^T·x+b＝0

式中w为超平面法向量；x为分子图的向量表达；b为截距；

0≤α_i≤C,i＝1,2,...,n

采用二次规划算法求解目标函数，得到最优解

然后计算b的最优值

为

其中k(m,i)为图g_m与图g_i的相似度，sign(Z)为二值函数，若Z为正数则sign(Z)＝1，若Z为负数则sign(Z)＝-1；标签预测结果为1表示阳性，标签预测结果为-1表示阴性，阳性即表示该分子具备该预测属性，阴性表示该分子不具备该预测属性；

本发明提供的这种分子分类方法，适用于包括蛋白质交互图等具有复杂分子结构图的分子的分类。分类结果为该分子是否具有某一种性质，比如环氧合酶COX-2抑制剂在体外活性试验中，根据它们对人类重组酶的反应，分为活性化合物和非活性化合物。

Claims

1.一种基于哈希算法的分子分类方法，包括如下步骤：

S1.获取已知分类的分子，并构建对应的分子结构图；

S5.将各个顶点的哈希码向量表达全部相加；

2.根据权利要求1所述的基于哈希算法的分子分类方法，其特征在于步骤S2所述的针对步骤S1获取的分子结构图，采用SimHash算法计算图中各个顶点的向量表达，具体包括如下步骤：

初始化SimHash算法的参数：生成服从高斯分布的R组K个d维向量；d为分子结构图中顶点的特征个数；

式中

为第k维哈希码。

3.根据权利要求2所述的基于哈希算法的分子分类方法，其特征在于步骤S3所述的将对应的邻居节点的向量表达相加，具体为将对应的邻居节点的向量表达，进行对应位的相加。

4.根据权利要求3所述的基于哈希算法的分子分类方法，其特征在于步骤S4所述的拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，得到各个顶点的哈希码向量表达，具体为拼接各个顶点的向量表达和该顶点的邻接节点向量和表达，从而将每个顶点表达为2K维哈希码，从而得到各个顶点的哈希码向量表达。

5.根据权利要求4所述的基于哈希算法的分子分类方法，其特征在于步骤S5所述的将各个顶点的哈希码向量表达全部相加，具体为将全部顶点的哈希码向量表达，进行对应位相加。

6.根据权利要求5所述的基于哈希算法的分子分类方法，其特征在于步骤S6所述的针对步骤S1获取的每一个分子结构图，均重复步骤S2～S5直至设定的次数，得到每个分子结构图的向量表达，具体包括如下步骤：

7.根据权利要求6所述的基于哈希算法的分子分类方法，其特征在于步骤S7所述的根据步骤S6得到的每个分子结构图的向量表达，计算任意两个分子结构图之间的相似度，从而构建核矩阵，具体包括如下步骤：

采用如下算式计算得到核矩阵：

为图g_i在第r次向量表达中的第k维值；

为图g_j在第r次向量表达中的第k维值；

为表示上述两值相等时为1，不相等时为0。

8.根据权利要求7所述的基于哈希算法的分子分类方法，其特征在于步骤S8所述的将步骤S7得到的核矩阵输入到支持向量机中，从而训练得到分子图分类器，具体包括如下步骤：

采用支持向量机来训练分子图分类器：

w^T·x+b＝0

式中w为超平面法向量；x为分子图的向量表达；b为截距；

0≤α_i≤C,i＝1,2,...,n

采用二次规划算法求解目标函数，得到最优解

然后计算b的最优值

为