CN113656665A - 一种基于哈希的半监督离散网络表示方法 - Google Patents
一种基于哈希的半监督离散网络表示方法 Download PDFInfo
- Publication number
- CN113656665A CN113656665A CN202110848848.XA CN202110848848A CN113656665A CN 113656665 A CN113656665 A CN 113656665A CN 202110848848 A CN202110848848 A CN 202110848848A CN 113656665 A CN113656665 A CN 113656665A
- Authority
- CN
- China
- Prior art keywords
- encoder
- representation
- matrix
- nodes
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 230000004913 activation Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 4
- 239000000126 substance Substances 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/382—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于哈希的半监督离散网络表示方法,网络包括节点自身的特征信息,节点之间的关联信息,节点的类别标签信息,得到表示过程如下:根据所述的节点之间的关联信息构建滤波矩阵;根据所述的滤波矩阵构建图自编码器,包括解码器和编码器,输出低维特征表示和重构特征,计算重构误差;二值激活低维特征表示,生成离散网络表示;使用分类器将离散网络表示分类,计算分类误差;构造总目标函数,优化编码器、解码器和分类器的参数,得到最终模型与离散网络表示。本发明方法获得的离散网络表示所需的存储空间极小,表达能力更强,在节点分类任务中表现出色,且在推荐系统、社区发现等任务上都有重要意义。
Description
技术领域
本发明涉及机器学习技术领域,特别是一种基于哈希的半监督离散网络表示方法。
背景技术
真实世界中的实体之间通常会交互,形成大规模的复杂网络,比如:社交网络、文献引用网络等,有效提取网络中的信息成为了现在的热点问题。网络表示学习的目标是提取网络节点的低维潜在表示,其中的关键是保持节点自身的特性,网络的结构关系。
目前已有的算法难以兼顾潜在表示的表达能力和信息存储的开销。这些方法中,哈希表示虽然在大规模图像检索中非常的有效,但忽略了网络的结构关系,表达能力较弱;传统网络表示学习方法得到的实值表示虽然能有较强的表达能力,但是存储的开销上难以做到哈希码的轻量;现有的离散网络表示的方法,通过相对简单的变换获得网络表示,表达能力有限。
发明内容
本发明的目的在于提供一种基于哈希的半监督离散网络表示方法,将节网络点的高维特征映射到低维的汉明空间,并且保持网络相邻节点间的相似性结构。
实现本发明目的的解决方案为:一种基于哈希的半监督离散网络表示方法,网络包括节点自身的特征信息,节点之间的关联信息,节点的类别标签信息,得到表示过程如下:
步骤1、根据所述的节点之间的关联信息构建滤波矩阵;
步骤2、根据所述的滤波矩阵构建图自编码器,包括解码器和编码器,输出低维特征表示和重构特征,计算重构误差;
步骤3、二值激活低维特征表示,生成离散网络表示;
步骤4、使用分类器将离散网络表示分类,计算分类误差;
步骤5、构造总目标函数,优化编码器、解码器和分类器的参数,得到最终模型与离散网络表示。
本发明与现有技术相比,其显著优点为:(1)利用节点之间的关联信息构建滤波矩阵;利用滤波矩阵构建的网络模型,网络表示的表达能力更强;(2)根据节点自身特征信息,图自编码器输出的重构的特征,节点的类别标签信息,分类器输出的类别预测,构造目标函数,包含重构误差以及分类误差两部分,通过端到端联合学习,优化网络参数,得到离散网络表示,存储占用空间明显更少,在下游任务中拥有更好的表现。
附图说明
图1是本发明基于哈希的半监督离散网络表示方法的流程图。
图2是储存网络的表示所需空间柱状图。
具体实施方式
结合图1,本发明一种基于哈希的半监督离散网络表示方法,网络包括节点自身的特征信息,节点之间的关联信息,节点的类别标签信息,得到表示过程如下:
步骤1、根据所述的节点之间的关联信息构建滤波矩阵;
步骤2、根据所述的滤波矩阵构建图自编码器,包括解码器和编码器,输出低维特征表示和重构特征,计算重构误差;
步骤3、二值激活低维特征表示,生成离散网络表示;
步骤4、使用分类器将离散网络表示分类,计算分类误差;
步骤5、构造总目标函数,优化编码器、解码器和分类器的参数,得到最终模型与离散网络表示。
进一步地,所述网络为社交网络或文献引用网络。
计算低通滤波矩阵FL,高通滤波矩阵FH:
其中,δL、∈L是低通滤波矩阵控制平滑程度和增益的参数,δH、∈H是高通滤波矩阵控制锐化程度和增益的参数。
进一步地,步骤2所述根据所述的滤波矩阵构建图自编码器,包括解码器和编码器,输出低维特征表示和重构特征,计算重构误差,具体如下:
(1)使用多层的编码器网络Encoder(·,FL;θencoder),其中FL是所述的低通滤波矩阵,θencoder为编码器网络参数,层间的传播规则使用如下公式:
其中,是编码器第t层的激活矩阵的可训练权重矩阵;σ(·)表示激活函数,Ht是编码器第t层的激活矩阵,编码器第0层的激活矩阵,即编码器的输入H(0),H(0)=X,X是节点的特征矩阵;编码器输出X的低维表示Z=Encoder(X,FL;θencoder);
(2)使用多层的解码器网络Decoder(·,FH;θdecoder),其中FH是所述的低通滤波矩阵,θdecoder为解码器网络参数,层间的传播规则使用如下公式:
其中,是解码器第t层的可训练权重矩阵;Ht+l是解码器第t层的激活矩阵,其中l表示编码器层数,解码器第0层的激活矩阵,即编码器的输出H(l),H(l)=Z,Z为编码器输出的低维表示;解码器输出X的重构特征
(3)使用均方差评估重构误差LX:
其中,m为节点的个数。
进一步地,步骤3所述二值激活低维特征表示,生成离散网络表示,具体如下:
在节点的关联信息辅助下,将低维表示Z进行如下激活,得到离散表示B:
其中,sign(·)表示符号函数;V(·)表示第号节点;N(·)表示与相邻的节点的集合;V(i)表示第i号节点;N(V(i))表示与第i号节点相邻的节点的集合;V(k)表示第k号节点。
进一步地,步骤4中使用分类器将离散网络表示分类,计算分类误差,具体如下:
进一步地,步骤5所述构造总目标函数,优化编码器、解码器和分类器的参数,得到最终模型与离散网络表示具体如下:
L=λLX+(1-λ)LY
其中,L是总损失,λ是平衡两个损失的因子;根据总损失L,使用Adam算法优化θencoder、θdecoder、θclassifier,得到最终模型和离散网络嵌入。
下面结合附图及具体实施例对本发明做进一步详细说明。
实施例
本实施例结合一个文本分类任务来对本发明做进一步说明:
(1)本实施例采用标准的文献引用网络数据集——cora数据集来测试数据集。
cora数据集共2708个节点,每个节点都是一篇论文,论文被分为7类。每个节点都有1433个特征,每个特征都对应一个词,且该元素只有0或1这两个取值。取0表示该元素对应的词不在论文中,取1表示在论文中。如果两篇论文之间有引用的关系,则两篇论文之间有一条边。数据以邻接矩阵A和特征矩阵X,标签向量Y形式表示。
(3)多层的编码器网络的层间的传播规则使用如下公式
Ht+1=ReLU(FLHtθt)
其中,ReLU(·)表示线性整流单元。H(0)=X。编码器输出X的低维表示Z。多层的解码器网络的层间的传播规则使用如下公式
(4)将所述的低维表示Z进行如下激活,得到离散表示B
(6)以L=λLx+(1-λ)LY作为总损失
其中,L是总损失。λ是平衡两个损失的因子,取0.3。使用Adam算法优化总损失L,学习率取0.002,得到模型,获得最终离散表示。
实验控制测试集中有标签节点比例从10%到90%变化,分别进行训练。最终分类结果,如表1所示。与经典的网络表示方法DeepWalk、Node2vec、TADW、HSCA,以及其他的离散网络表示方法,如NetHash、LQANR、BANE相比,可以看出本发明在该任务上,分类的评价指标micro-F1,macro-F1都优于其他方法。部分方法存储网络表示所需的空间,如图2所示,相比DeepWalk,Node2vec等的实值方法,本方法存储网络表示所需的空间明显更小。
表1本方法与其他方法节点分类结果的比较表格
注:横轴百分比值表示有标签的节点的比例
综上所述,本发明利用节点之间的关联信息构建滤波矩阵;利用滤波矩阵构建的网络模型,网络表示的表达能力更强;根据节点自身特征信息,图自编码器输出的重构的特征,节点的类别标签信息,分类器输出的类别预测,构造目标函数,包含重构误差以及分类误差两部分,通过端到端联合学习,优化网络参数,得到离散网络表示,存储占用空间明显更少,在下游任务中拥有更好的表现。
Claims (7)
1.一种基于哈希的半监督离散网络表示方法,其特征在于,网络包括节点自身的特征信息,节点之间的关联信息,节点的类别标签信息,得到表示过程如下:
步骤1、根据所述的节点之间的关联信息构建滤波矩阵;
步骤2、根据所述的滤波矩阵构建图自编码器,包括解码器和编码器,输出低维特征表示和重构特征,计算重构误差;
步骤3、二值激活低维特征表示,生成离散网络表示;
步骤4、使用分类器将离散网络表示分类,计算分类误差;
步骤5、构造总目标函数,优化编码器、解码器和分类器的参数,得到最终模型与离散网络表示。
2.根据权利要求1所述的基于哈希的半监督离散网络表示方法,其特征在于,所述网络为社交网络或文献引用网络。
4.根据权利要求2或3所述的基于哈希的半监督离散网络表示方法,其特征在于,步骤2所述根据所述的滤波矩阵构建图自编码器,包括解码器和编码器,输出低维特征表示和重构特征,计算重构误差,具体如下:
(1)使用多层的编码器网络Encoder(·,FL;θencoder),其中FL是所述的低通滤波矩阵,θencoder为编码器网络参数,层间的传播规则使用如下公式:
其中,是编码器第t层的激活矩阵的可训练权重矩阵;σ(·)表示激活函数;Ht是编码器第t层的激活矩阵,编码器第0层的激活矩阵,即编码器的输入H(0)H(0)=X,X是节点的特征矩阵;编码器输出X的低维表示Z=Encoder(X,FL;θencoder);
(2)使用多层的解码器网络Decoder(·,FH;θdecoder),其中FH是所述的低通滤波矩阵,θdecoder为解码器网络参数,层间的传播规则使用如下公式:
其中,是解码器第t层的可训练权重矩阵;Ht+l是解码器第t层的激活矩阵,其中l表示编码器层数,解码器第0层的激活矩阵,即编码器的输出H(l),H(l)=Z,Z为编码器输出的低维表示;解码器输出X的重构特征
(3)使用均方差评估重构误差LX:
其中,m为节点的个数。
7.根据权利要求6所述的基于哈希的半监督离散网络表示方法,其特征在于,步骤5所述构造总目标函数,优化编码器、解码器和分类器的参数,得到最终模型与离散网络表示具体如下:
L=λLX+(1-λ)LY
其中,L是总损失,λ是平衡两个损失的因子;根据总损失L,使用Adam算法优化θencoder、θdecoder、θclassifier,得到最终模型和离散网络嵌入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110848848.XA CN113656665B (zh) | 2021-07-27 | 2021-07-27 | 一种基于哈希的半监督离散网络表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110848848.XA CN113656665B (zh) | 2021-07-27 | 2021-07-27 | 一种基于哈希的半监督离散网络表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656665A true CN113656665A (zh) | 2021-11-16 |
CN113656665B CN113656665B (zh) | 2024-05-28 |
Family
ID=78490693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110848848.XA Active CN113656665B (zh) | 2021-07-27 | 2021-07-27 | 一种基于哈希的半监督离散网络表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656665B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102905130A (zh) * | 2012-09-29 | 2013-01-30 | 浙江大学 | 基于视觉感知的多分辨率jnd模型建构方法 |
US20180365801A1 (en) * | 2015-12-01 | 2018-12-20 | Teledyne E2V Semiconductors Sas | Method for processing signals from a matrix for taking colour images, and corresponding sensor |
CN109165743A (zh) * | 2018-07-17 | 2019-01-08 | 东南大学 | 一种基于深度压缩自编码器的半监督网络表示学习算法 |
CN112529168A (zh) * | 2020-12-29 | 2021-03-19 | 中国人民解放军国防科技大学 | 一种基于gcn的属性多层网络表示学习方法 |
-
2021
- 2021-07-27 CN CN202110848848.XA patent/CN113656665B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102905130A (zh) * | 2012-09-29 | 2013-01-30 | 浙江大学 | 基于视觉感知的多分辨率jnd模型建构方法 |
US20180365801A1 (en) * | 2015-12-01 | 2018-12-20 | Teledyne E2V Semiconductors Sas | Method for processing signals from a matrix for taking colour images, and corresponding sensor |
CN109165743A (zh) * | 2018-07-17 | 2019-01-08 | 东南大学 | 一种基于深度压缩自编码器的半监督网络表示学习算法 |
CN112529168A (zh) * | 2020-12-29 | 2021-03-19 | 中国人民解放军国防科技大学 | 一种基于gcn的属性多层网络表示学习方法 |
Non-Patent Citations (2)
Title |
---|
JINGKUAN SONG: "Self-Supervised Video Hashing with Hierarchical Binary Auto-encoder", TRANSACTIONS ON IMAGE PROCESSING, pages 1 - 11 * |
PARTHA PRATIM ROY: "Seal detection and recognition : An approach for document indexing", 2009 10TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, pages 101 - 105 * |
Also Published As
Publication number | Publication date |
---|---|
CN113656665B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Turchenko et al. | A deep convolutional auto-encoder with pooling-unpooling layers in caffe | |
CN108108854B (zh) | 城市路网链路预测方法、系统及存储介质 | |
Cao et al. | Class-specific soft voting based multiple extreme learning machines ensemble | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
Navarin et al. | Universal readout for graph convolutional neural networks | |
CN114357312B (zh) | 基于图神经网络自动建模的社区发现方法及个性推荐方法 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
Pawar et al. | Assessment of autoencoder architectures for data representation | |
CN110781401A (zh) | 一种基于协同自回归流实现的Top-n项目推荐方法 | |
Khawar et al. | Learning the structure of auto-encoding recommenders | |
CN115761275A (zh) | 一种基于图神经网络的无监督社区发现方法及系统 | |
Bari et al. | AestheticNet: deep convolutional neural network for person identification from visual aesthetic | |
CN113642674A (zh) | 一种基于图卷积神经网络的多轮对话分类方法 | |
Kim et al. | Provable memorization capacity of transformers | |
CN115983351A (zh) | 一种基于对比学习的自监督图神经网络方法 | |
Kundu et al. | Ternary residual networks | |
Paul et al. | Non-iterative online sequential learning strategy for autoencoder and classifier | |
CN113988002A (zh) | 一种基于神经聚类方法的近似注意力系统及方法 | |
Giveki et al. | A new method for image classification and image retrieval using convolutional neural networks | |
CN113656665A (zh) | 一种基于哈希的半监督离散网络表示方法 | |
CN113591930B (zh) | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 | |
Alagarsamy et al. | RNN LSTM-based deep hybrid learning model for text classification using machine learning variant xgboost | |
Majumdar | Kernelized linear autoencoder | |
Bandyopadhyay et al. | Sac2vec: Information network representation with structure and content | |
Zhai et al. | Deep product quantization for large-scale image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Shen Xiaobo Inventor after: Mao Zhen Inventor after: Wang Rui Inventor after: Yin Kanghua Inventor before: Mao Zhen Inventor before: Shen Xiaobo Inventor before: Wang Rui Inventor before: Yin Kanghua |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |