CN115331754A - 基于哈希算法的分子分类方法 - Google Patents
基于哈希算法的分子分类方法 Download PDFInfo
- Publication number
- CN115331754A CN115331754A CN202210995952.6A CN202210995952A CN115331754A CN 115331754 A CN115331754 A CN 115331754A CN 202210995952 A CN202210995952 A CN 202210995952A CN 115331754 A CN115331754 A CN 115331754A
- Authority
- CN
- China
- Prior art keywords
- vector
- molecular
- molecular structure
- vertex
- structure diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于哈希算法的分子分类方法,包括获取已知分类的分子并构建分子结构图;计算图中顶点的向量表达;得到各个顶点的邻接节点向量和表达并拼接得到各个顶点的哈希码向量表达;将顶点的哈希码向量表达全部相加;得到每个分子结构图的向量表达;计算任意两个分子结构图之间的相似度并构建核矩阵;训练得到分子图分类器;获取待分类分子的分子结构图与已知分子结构图之间的相似度,并输入到分子图分类器得到分类结果。本发明方法避免了图神经网络中海量的参数学习,同时不再依赖昂贵的高端硬件,能够在满足分子分类精度的前提下,明显降低时间开销,尤其适用于大规模分子图数据集场景下的分类任务,而且可靠性高,精确性好,效率较高。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于哈希算法的分子分类方法。
背景技术
图数据在现实生活中非常普遍,如生物化学领域的化学分子式、社交网络、道路交通网络等。随着大数据时代的到来,图数据的种类和数量都呈现指数式增长,也推动了图挖掘技术的高速发展。图挖掘领域的一个重要应用是图分类;图分类技术用于通过在已知图上训练一个分类器来学习未知图的标签类别信息。图分类技术也推动了数据挖掘技术在生物化学领域的发展,有利于快速鉴定分子对某种物质的反应,尤其在大规模分子测试中。
根据图中顶点所携带的信息,图数据通常分为两类:带离散属性的图和带连续属性的图。前者典型例子为化学分子式,每个顶点表示一个原子,每条边表示一种化学键,这种图仅包括最简单的信息。后者包括蛋白质交互图,顶点表示蛋白质,边表示蛋白质之间的连接,更重要的是,每个顶点包含多个代表理化性质的属性,其值通常为实数值。目前,常用的图分类技术主要聚焦于前者。
但是,现今依旧存在一些针对后者(比如蛋白质交互图等复杂图数据)的分类方法。该类方法主要包括核方法和图神经网络方法。作为一类传统方法,核方法主要用于测量图之间的相似度,其关键在于通过提取子结构来将复杂的分子图结构表示成向量。但是,核方法会随着图规模的增加,导致子结构数量急剧增加,进而导致效率低下。图神经网络技术能够学习分子图结构中的隐藏模式;近些年的研究表明图神经网络技术具有强大的图表达能力,能够有效保存分子图中的信息。但是,图神经网络技术由于海量的参数计算,极其依赖价格昂贵的高端硬件(比如图形处理器,Graphics Processing Unit,GPU),并且需要大量的计算和存储资源。
发明内容
本发明的目的在于提供一种可靠性高、精确性好且效率较高的基于哈希算法的分子分类方法。
本发明提供的这种基于哈希算法的分子分类方法,包括如下步骤:
S1.获取已知分类的分子,并构建对应的分子结构图;
S2.针对步骤S1获取的分子结构图,采用SimHash算法计算图中各个顶点的向量表达;
S3.针对图中的每个顶点,找到顶点的所有邻居节点,并将对应的邻居节点的向量表达相加,得到各个顶点的邻接节点向量和表达;
S4.拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,得到各个顶点的哈希码向量表达;
S5.将各个顶点的哈希码向量表达全部相加;
S6.针对步骤S1获取的每一个分子结构图,均重复步骤S2~S5直至设定的次数,得到每个分子结构图的向量表达;
S7.根据步骤S6得到的每个分子结构图的向量表达,计算任意两个分子结构图之间的相似度,从而构建核矩阵;
S8.将步骤S7得到的核矩阵输入到支持向量机中,从而训练得到分子图分类器;
S9.针对待分类的分子,获取该分子的分子结构图的向量表达,计算该分子与已知分子结构图之间的相似度,并将相似度结果输入到步骤S8得到的分子图分类器中,从而得到待分类的分子的分类结果。
步骤S2所述的针对步骤S1获取的分子结构图,采用SimHash算法计算图中各个顶点的向量表达,具体包括如下步骤:
初始化SimHash算法的参数:生成服从高斯分布的K个d维向量;d为分子结构图中顶点的特征个数;
将分子结构图中的每个顶点,在初始阶段表示为d维特征向量x,并随机生成K个服从高斯分布的d维超平面法向量n(k),k=1,2,...,K;
采用以下算式,将特征向量x转换为K维哈希码,从而得到顶点的向量表达:
步骤S3所述的将对应的邻居节点的向量表达相加,具体为将对应的邻居节点的向量表达,进行对应位的相加。
步骤S4所述的拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,得到各个顶点的哈希码向量表达,具体为拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,从而将每个顶点表达为2K维哈希码,从而得到各个顶点的哈希码向量表达。
步骤S5所述的将各个顶点的哈希码向量表达全部相加,具体为将全部顶点的哈希码向量表达,进行对应位相加。
步骤S6所述的针对步骤S1获取的每一个分子结构图,均重复步骤S2~S5直至设定的次数,得到每个分子结构图的向量表达,具体包括如下步骤:
针对步骤S1获取的每一个分子结构图,重复步骤S2~S5直至设定的次数R,得到每个分子结构图的向量表达;在重复步骤S2时,在初始化SimHash算法的参数过程中,生成服从高斯分布的K个K维向量。
步骤S7所述的根据步骤S6得到的每个分子结构图的向量表达,计算任意两个分子结构图之间的相似度,从而构建核矩阵,具体包括如下步骤:
根据步骤S6得到的每个分子结构图的向量表达,计算任意两个分子结构图之间的海明相似度;
采用如下算式计算得到核矩阵:
步骤S8所述的将步骤S7得到的核矩阵输入到支持向量机中,从而训练得到分子图分类器,具体包括如下步骤:
采用支持向量机来训练分子图分类器:
wT·x+b=0
式中w为超平面法向量;x为分子图的向量表达;b为截距;
将得到的核矩阵作为支持向量机的非线性核,构建以下目标函数:
0≤αi≤C,i=1,2,...,n
式中α=[α1,α2,...,αn];n为分子图的个数;αi为拉格朗日乘子;yi为分子图标签;k(i,j)为核矩阵的第i行第j列的元素;C为惩罚因子;
最后,得到分子图分类器;对于一个分子所对应的分子结构图gm,该分子的类别标签预测结果为其中k(m,i)为图gm与图gi的相似度,sign(Z)为二值函数,若Z为正数则sign(Z)=1,若Z为负数则sign(Z)=-1;标签预测结果为1表示阳性,标签预测结果为-1表示阴性。
本发明提供的这种基于哈希算法的分子分类方法,通过随机生成若干组SimHash函数来高效表达分子图结构,取得了关于分子图数量的线性时间和空间复杂度,并有效保存了图之间的相似度信息,能够生成用于支持向量机的核矩阵,并将核矩阵输入到支持向量机中训练得到分子图分类器,从而完成分子的分类;本发明方法避免了图神经网络中海量的参数学习,同时不再依赖昂贵的高端硬件,能够在满足分子分类精度的前提下,明显降低时间开销,尤其适用于大规模分子图数据集场景下的分类任务,而且可靠性高,精确性好,效率较高。
附图说明
图1为本发明的方法流程示意图。
图2为本发明方法的整体思路示意图。
图3为本发明的步骤S2~S5的过程示意图。
具体实施方式
如图1所示为本发明的方法流程示意图:
一般场合下,每个分子都可以建模为一个图g=(V,E,A,f),其中V为该图的顶点集,E为该图的边集,A为该图的属性集,图中每个顶点携带多个数值型属性,f:将顶点表示成|A|维的实值向量每个维度代表一个属性,维度值代表属性值。同时,该分子图对应一个类别标签表示该分子的某种属性。本发明方法的主要目标是给定n个分子的分子结构图和对应的类别标签将n个分子结构图表达为n个低维向量通过从中学习得到分子图分类器,从而实现未知分子的标签分类,具体思路如图2所示。
因此,本发明提供的这种基于哈希算法的分子分类方法,包括如下步骤:
S1.获取已知分类的分子,并构建对应的分子结构图;
S2.针对步骤S1获取的分子结构图,采用SimHash算法计算图中各个顶点的向量表达;具体包括如下步骤:
初始化SimHash算法的参数:生成服从高斯分布的K个d维向量;d为分子结构图中顶点的特征个数;
将分子结构图中的每个顶点,在初始阶段表示为d维特征向量x,并随机生成K个服从高斯分布的d维超平面法向量n(k),k=1,2,...,K;
采用以下算式,将特征向量x转换为K维哈希码,从而得到顶点的向量表达:
S3.针对图中的每个顶点,找到顶点的所有邻居节点,并将对应的邻居节点的向量表达相加,得到各个顶点的邻接节点向量和表达;具体为将对应的邻居节点的向量表达,进行对应位的相加;
S4.拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,得到各个顶点的哈希码向量表达;具体为拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,从而将每个顶点表达为2K维哈希码,从而得到各个顶点的哈希码向量表达;
S5.将各个顶点的哈希码向量表达全部相加;具体为将全部顶点的哈希码向量表达,进行对应位相加;
S6.针对步骤S1获取的每一个分子结构图,均重复步骤S2~S5直至设定的次数,得到每个分子结构图的向量表达,具体包括如下步骤:
针对步骤S1获取的每一个分子结构图,重复步骤S2~S5直至设定的次数R,得到每个分子结构图的向量表达;在重复步骤S2时,在初始化SimHash算法的参数过程中,生成服从高斯分布的K个K维向量;其中,步骤S2~S5的过程示意图,如图3所示;
具体实施时,在第一次初始化时,生成服从高斯分布的K个d维向量;在第二次~第R次初始化时,均生成的是服从高斯分布的K个K维向量;
S7.根据步骤S6得到的每个分子结构图的向量表达,计算任意两个分子结构图之间的相似度,从而构建核矩阵;具体包括如下步骤:
根据步骤S6得到的每个分子结构图的向量表达,计算任意两个分子结构图之间的海明相似度;
采用如下算式计算得到核矩阵:
S8.将步骤S7得到的核矩阵输入到支持向量机中,从而训练得到分子图分类器;具体包括如下步骤:
采用支持向量机来训练分子图分类器:
wT·x+b=0
式中w为超平面法向量;x为分子图的向量表达;b为截距;
将得到的核矩阵作为支持向量机的非线性核,构建以下目标函数:
0≤αi≤C,i=1,2,...,n
式中α=[α1,α2,...,αn];n为分子图的个数;αi为拉格朗日乘子;yi为分子图标签;k(i,j)为核矩阵的第i行第j列的元素;C为惩罚因子;
最后,得到分子图分类器;对于一个分子所对应的分子结构图gm,该分子的类别标签预测结果为其中k(m,i)为图gm与图gi的相似度,sign(Z)为二值函数,若Z为正数则sign(Z)=1,若Z为负数则sign(Z)=-1;标签预测结果为1表示阳性,标签预测结果为-1表示阴性,阳性即表示该分子具备该预测属性,阴性表示该分子不具备该预测属性;
S9.针对待分类的分子,获取该分子的分子结构图的向量表达,计算该分子与已知分子结构图之间的相似度,并将相似度结果输入到步骤S8得到的分子图分类器中,从而得到待分类的分子的分类结果。
本发明提供的这种分子分类方法,适用于包括蛋白质交互图等具有复杂分子结构图的分子的分类。分类结果为该分子是否具有某一种性质,比如环氧合酶COX-2抑制剂在体外活性试验中,根据它们对人类重组酶的反应,分为活性化合物和非活性化合物。
Claims (8)
1.一种基于哈希算法的分子分类方法,包括如下步骤:
S1.获取已知分类的分子,并构建对应的分子结构图;
S2.针对步骤S1获取的分子结构图,采用SimHash算法计算图中各个顶点的向量表达;
S3.针对图中的每个顶点,找到顶点的所有邻居节点,并将对应的邻居节点的向量表达相加,得到各个顶点的邻接节点向量和表达;
S4.拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,得到各个顶点的哈希码向量表达;
S5.将各个顶点的哈希码向量表达全部相加;
S6.针对步骤S1获取的每一个分子结构图,均重复步骤S2~S5直至设定的次数,得到每个分子结构图的向量表达;
S7.根据步骤S6得到的每个分子结构图的向量表达,计算任意两个分子结构图之间的相似度,从而构建核矩阵;
S8.将步骤S7得到的核矩阵输入到支持向量机中,从而训练得到分子图分类器;
S9.针对待分类的分子,获取该分子的分子结构图的向量表达,计算该分子与已知分子结构图之间的相似度,并将相似度结果输入到步骤S8得到的分子图分类器中,从而得到待分类的分子的分类结果。
3.根据权利要求2所述的基于哈希算法的分子分类方法,其特征在于步骤S3所述的将对应的邻居节点的向量表达相加,具体为将对应的邻居节点的向量表达,进行对应位的相加。
4.根据权利要求3所述的基于哈希算法的分子分类方法,其特征在于步骤S4所述的拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,得到各个顶点的哈希码向量表达,具体为拼接各个顶点的向量表达和该顶点的邻接节点向量和表达,从而将每个顶点表达为2K维哈希码,从而得到各个顶点的哈希码向量表达。
5.根据权利要求4所述的基于哈希算法的分子分类方法,其特征在于步骤S5所述的将各个顶点的哈希码向量表达全部相加,具体为将全部顶点的哈希码向量表达,进行对应位相加。
6.根据权利要求5所述的基于哈希算法的分子分类方法,其特征在于步骤S6所述的针对步骤S1获取的每一个分子结构图,均重复步骤S2~S5直至设定的次数,得到每个分子结构图的向量表达,具体包括如下步骤:
针对步骤S1获取的每一个分子结构图,重复步骤S2~S5直至设定的次数R,得到每个分子结构图的向量表达;在重复步骤S2时,在初始化SimHash算法的参数过程中,生成服从高斯分布的K个K维向量。
8.根据权利要求7所述的基于哈希算法的分子分类方法,其特征在于步骤S8所述的将步骤S7得到的核矩阵输入到支持向量机中,从而训练得到分子图分类器,具体包括如下步骤:
采用支持向量机来训练分子图分类器:
wT·x+b=0
式中w为超平面法向量;x为分子图的向量表达;b为截距;
将得到的核矩阵作为支持向量机的非线性核,构建以下目标函数:
0≤αi≤C,i=1,2,...,n
式中α=[α1,α2,...,αn];n为分子图的个数;αi为拉格朗日乘子;yi为分子图标签;k(i,j)为核矩阵的第i行第j列的元素;C为惩罚因子;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210995952.6A CN115331754A (zh) | 2022-08-19 | 2022-08-19 | 基于哈希算法的分子分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210995952.6A CN115331754A (zh) | 2022-08-19 | 2022-08-19 | 基于哈希算法的分子分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331754A true CN115331754A (zh) | 2022-11-11 |
Family
ID=83926230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210995952.6A Pending CN115331754A (zh) | 2022-08-19 | 2022-08-19 | 基于哈希算法的分子分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331754A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432125A (zh) * | 2023-06-01 | 2023-07-14 | 中南大学 | 基于哈希算法的代码分类方法 |
-
2022
- 2022-08-19 CN CN202210995952.6A patent/CN115331754A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432125A (zh) * | 2023-06-01 | 2023-07-14 | 中南大学 | 基于哈希算法的代码分类方法 |
CN116432125B (zh) * | 2023-06-01 | 2023-09-05 | 中南大学 | 基于哈希算法的代码分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Learning context-sensitive similarity by shortest path propagation | |
Yan et al. | Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN106021990A (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN115661550A (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
Balcan et al. | Learning to link | |
Yuan et al. | DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks | |
Shen et al. | Clustering-driven deep adversarial hashing for scalable unsupervised cross-modal retrieval | |
CN114783526A (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 | |
Kajla et al. | Additive angular margin loss in deep graph neural network classifier for learning graph edit distance | |
CN115331754A (zh) | 基于哈希算法的分子分类方法 | |
Termritthikun et al. | Evolutionary neural architecture search based on efficient CNN models population for image classification | |
WO2022226940A1 (en) | Method and system for generating task-relevant structural embeddings from molecular graphs | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
CN116432125A (zh) | 基于哈希算法的代码分类方法 | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN113517045A (zh) | 一种基于路径生成的电子病历icd代码预测方法及预测系统 | |
Shim et al. | Fast and accurate interpretation of workload classification model | |
Lall et al. | Generating realistic cell samples for gene selection in scRNA-seq data: A novel generative framework | |
Nurmamatovich et al. | Neural network clustering methods | |
Jia et al. | On geometric structure of activation spaces in neural networks | |
CN112445939A (zh) | 一种社交网络群体发现系统、方法及存储介质 | |
Liu et al. | An overview of biological data generation using generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |