CN108345901A - 一种基于自编码神经网络的符号图节点分类方法 - Google Patents

一种基于自编码神经网络的符号图节点分类方法 Download PDF

Info

Publication number
CN108345901A
CN108345901A CN201810044169.5A CN201810044169A CN108345901A CN 108345901 A CN108345901 A CN 108345901A CN 201810044169 A CN201810044169 A CN 201810044169A CN 108345901 A CN108345901 A CN 108345901A
Authority
CN
China
Prior art keywords
node
graphical diagram
vector
expression vector
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810044169.5A
Other languages
English (en)
Inventor
向阳
袁书寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201810044169.5A priority Critical patent/CN108345901A/zh
Publication of CN108345901A publication Critical patent/CN108345901A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自编码神经网络的符号图节点分类方法,该方法包括如下步骤:S1、基于符号图结构构建邻接矩阵;S2、基于自编码模型学习符号图节点的表示向量,使得由正边连接的两个节点的表示向量相近,而由负边连接的两个节点的表示向量远离;S3、在得到节点表示向量的基础上,利用少量有类型标签的节点训练分类器;S4、利用已经训练后的分类器预测未知节点的类型,输出节点类型,进而根据节点类型分类。与现有技术相比,本发明具有计算复杂度低、需要的训练数据较少、不需要重新训练新增节点等优点。

Description

一种基于自编码神经网络的符号图节点分类方法
技术领域
本发明涉及一种符号图节点分类方法,尤其是涉及一种基于自编码神经网络的符号图节点分类方法。
背景技术
符号图作为一种特殊的图结构广泛存在于现实社会中,例如有在线社交网络允许用户标注其他用户为好友或敌人,这样的社交网络用户关系即构成一个符号图模型。同时,基于社交网络构建的符号图中,节点代表一位用户,而用户的类型对于社交网络分析十分重要,例如,在社交网络用户分析中,需要了解哪些用户是正常用户或恶意用户。因此,符号图的节点分类是图或社交网络分析的重要任务。
深度神经网络在图像、文本和语音识别等领域取得了众多突破性进展。深度神经网络取得成功的关键在于表示学习。表示学习可以自动的学习输入数据的语义特征表示。例如,在文本领域,所有的词均表示为一个低维实值向量,这些词向量反映了词间的语义关系。在图像识别领域,一个深度神经网络的各个层学习图像不同层次的表示。近年来,有大量的工作研究基于深度神经网络的非符号图(Unsigned Network)表示学习。图表示学习将图中的每个节点表示为低维向量(Network Embedding),这些低维向量反映了节点在图中的结构信息。由于现有的非符号图表示学习没有考虑图中节点的关系,因此并不适合用于符号图学习中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自编码神经网络的符号图节点分类方法。
本发明的目的可以通过以下技术方案来实现:
一种基于自编码神经网络的符号图节点分类方法,该方法包括如下步骤:
S1、基于符号图结构构建邻接矩阵;
S2、基于自编码模型学习符号图节点的表示向量,使得由正边连接的两个节点的表示向量相近,而由负边连接的两个节点的表示向量远离;
S3、在得到节点表示向量的基础上,利用少量有类型标签的节点训练分类器;
S4、利用已经训练后的分类器预测未知节点的类型,输出节点类型,进而根据节点类型分类。
步骤S1具体为:给定一个包含N个节点的符号图,构建一个N×N维的矩阵M,M中第i行第j的值mij表示符号图中第i个和j个节点的连接状态,若两个节点为正边连接则mij为1,若两个节点为负边连接则mij为-1,若两个节点没有边连接则mij为0,其中,i=1,2……N,j=1,2……N。
所述的自编码模型包括编码器和解码器,所述的编码器用于将每个节点的连接特征向量转换至低维空间得到表示向量,所述的解码器将每个节点对应的低维空间的表示向量转换到原始空间,进而基于自编码模型学习符号图节点的表示向量具体为:将符号图的邻接矩阵输入至自编码模型,自编码模型提取每个符号图节点的连接特征向量,所述的表示该节点与符号图中所有节点的连接关系,编码器对连接特征向量进行降维,得到每个节点的表示向量。
自编码模型具体建立方法包括:
S21、建立编码器模型,编码器获取符号图中第i个节点的表示向量hi
hi=σ(Wmi+b),
其中,mi为第i个节点的连接特征向量,W为编码器训练参数,b为编码器偏置变量,σ为编码器的激活函数,σ=1+e-x,e为自然常数,x为激活函数的输入;
S22、建立解码器模型,解码器根据表示向量hi获取符号图中第i个节点的重构特征向量
其中,W′为解码器训练参数,b′为解码器偏置变量;
S23、以lloss最小为目标函数,更新编码器训练参数W和解码器训练参数W′,其中:
lloss=lre+αlpos+βlneg
其中,Ω为和节点i有正边连接的节点集合,Φ为和节点i有负边连接的节点集合,||*||2表示*的L2范数,α和β为正则化参数。
步骤S3具体为:
S31、选取符号图中的多个节点作为训练样本,标注训练样本中每个节点的节点类型YL
S32、获取训练样本中各个节点的表示向量HL
S33、以HL为分类器的输入,YL为训练目标训练得到SVM分类器f(HL),所述的SVM分类器以节点的表示向量为输入,节点类型为输出。
步骤S4具体为:获取待预测的符号图节点的表示向量HU,利用SVM分类器预测得到该节点的节点类型YU=f(HU),进而根据符号图中各个节点的节点类型进行分类。
与现有技术相比,本发明具有如下优点:
(1)本发明提出于自编码神经网络的符号图学习方法,将节点表示为低维向量,再次基础上训练节点分类器时,仅需要较少的数据,计算复杂度低,需要的训练数据较少;
(2)本发明在符号图出现新的节点时不需要重新训练模型,即可得到新增节点的低维的表示向量,进而通过分类器进行节点类型识别和分类。
附图说明
图1为本发明基于自编码神经网络的符号图节点分类方法的流程框图;
图2为本发明自编码模型的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于自编码神经网络的符号图节点分类方法,用于实现符号图模型节点表示向量的无监督学习,并可依赖少量标记数据训练分类器实现节点类型分类,方法的输入为符号图结构,输出为节点的类别。本实施例以社交网络中的用户分类为例,详细说明本发明实施步骤。如图1所示,基于自编码神经网络的符号图节点分类方法包括如下步骤:
S1、基于符号图结构构建邻接矩阵,具体地:
给定一个包含N个节点的符号图,构建一个N×N维的矩阵M,M中第i行第j的值mij表示符号图中第i个和j个节点的连接状态,若两个节点为正边连接则mij为1,若两个节点为负边连接则mij为-1,若两个节点没有边连接则mij为0,其中,i=1,2……N,j=1,2……N。
以支持将用户间的关系标注为好友或敌人的社交网络为例,将社交网络中的用户看作成符号图中的节点,则用户之间的好友或敌人关系可以看作一条边,即用户i将用户j标注为好友,则节点i和节点j之间有一条正边,用户i将用户k标注为敌人,则节点i和节点k之间有一条负边。因此定义M为该符号图的邻接矩阵,若节点i和节点j之间有一条正边,则mij的值为1;若节点i和节点k之间有一条负边,则mik的值为-1,没有边连接的两个节点,对应的值为0。
S2、利用自编码模型学习符号图节点的表示向量,使得由正边连接的两个节点的表示向量相近,而由负边连接的两个节点的表示向量远离。邻接矩阵中的一行mi指示了节点i的连接情况,但是对于一个包含N个节点符号图来说,mi的维度高且十分稀疏,即对于一个节点通常只和少数的节点有连接关系。因此,利用自编码模型对mi降维,得到其低维的表示向量,同时该低维表示应该能保持节点的结构关系。因此,该步骤中基于自编码模型学习符号图节点的表示向量,使得由正边连接的两个节点的表示向量相近,而由负边连接的两个节点的表示向量远离,具体地:
自编码模型包括编码器和解码器,所述的编码器用于将每个节点的连接特征向量转换至低维空间得到表示向量,所述的解码器将每个节点对应的低维空间的表示向量转换到原始空间,进而基于自编码模型学习符号图节点的表示向量具体为:将符号图的邻接矩阵输入至自编码模型,自编码模型提取每个符号图节点的连接特征向量,所述的表示该节点与符号图中所有节点的连接关系,编码器对连接特征向量进行降维,得到每个节点的表示向量。
自编码模型具体建立方法包括:
S21、建立编码器模型,编码器获取符号图中第i个节点的表示向量hi
hi=σ(Wmi+b),
其中,mi为第i个节点的连接特征向量,W为编码器训练参数,b为编码器偏置变量,σ为编码器的激活函数,σ=1+e-x,e为自然常数,x为激活函数的输入;
S22、建立解码器模型,解码器根据表示向量hi获取符号图中第i个节点的重构特征向量
其中,W′为解码器训练参数,b′为解码器偏置变量;
S23、以lloss最小为目标函数,更新编码器训练参数W和解码器训练参数W′,其中:
lloss=lre+αlpos+βlneg
其中,Ω为和节点i有正边连接的节点集合,Φ为和节点i有负边连接的节点集合,||*||2表示*的L2范数,α和β为正则化参数。
步骤S3具体为:
S31、选取符号图中的多个节点作为训练样本,标注训练样本中每个节点的节点类型YL
S32、获取训练样本中各个节点的表示向量HL
S33、以HL为分类器的输入,YL为训练目标训练得到SVM分类器f(HL),所述的SVM分类器以节点的表示向量为输入,节点类型为输出。
S3、在得到节点表示向量的基础上,利用少量有类型标签的节点训练分类器;
S4、利用已经训练后的分类器预测未知节点的类型,输出节点类型,进而根据节点类型分类。
步骤S4具体为:获取待预测的符号图节点的表示向量HU,利用SVM分类器预测得到该节点的节点类型YU=f(HU),进而根据符号图中各个节点的节点类型进行分类。
上述方法的一个优势在于当社交网络出现新的节点时,不需要重新训练所有的节点表示向量,而只需要利用该新增节点与现有节点的连接情况构建自编码模型的输入,从而得到新增节点的低维表示向量,进而可以用于该新增用户的分类预测。
上述实施方式仅为例举,不表示对发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (6)

1.一种基于自编码神经网络的符号图节点分类方法,其特征在于,该方法包括如下步骤:
S1、基于符号图结构构建邻接矩阵;
S2、基于自编码模型学习符号图节点的表示向量,使得由正边连接的两个节点的表示向量相近,而由负边连接的两个节点的表示向量远离;
S3、在得到节点表示向量的基础上,利用少量有类型标签的节点训练分类器;
S4、利用已经训练后的分类器预测未知节点的类型,输出节点类型,进而根据节点类型分类。
2.根据权利要求1所述的一种基于自编码神经网络的符号图节点分类方法,其特征在于,步骤S1具体为:给定一个包含N个节点的符号图,构建一个N×N维的矩阵M,M中第i行第j的值mij表示符号图中第i个和j个节点的连接状态,若两个节点为正边连接则mij为1,若两个节点为负边连接则mij为-1,若两个节点没有边连接则mij为0,其中,i=1,2……N,j=1,2……N。
3.根据权利要求1所述的一种基于自编码神经网络的符号图节点分类方法,其特征在于,所述的自编码模型包括编码器和解码器,所述的编码器用于将每个节点的连接特征向量转换至低维空间得到表示向量,所述的解码器将每个节点对应的低维空间的表示向量转换到原始空间,进而基于自编码模型学习符号图节点的表示向量具体为:将符号图的邻接矩阵输入至自编码模型,自编码模型提取每个符号图节点的连接特征向量,所述的表示该节点与符号图中所有节点的连接关系,编码器对连接特征向量进行降维,得到每个节点的表示向量。
4.根据权利要求3所述的一种基于自编码神经网络的符号图节点分类方法,其特征在于,自编码模型具体建立方法包括:
S21、建立编码器模型,编码器获取符号图中第i个节点的表示向量hi
hi=σ(Wmi+b),
其中,mi为第i个节点的连接特征向量,W为编码器训练参数,b为编码器偏置变量,σ为编码器的激活函数,σ=1+e-x,e为自然常数,x为激活函数的输入;
S22、建立解码器模型,解码器根据表示向量hi获取符号图中第i个节点的重构特征向量
其中,W′为解码器训练参数,b′为解码器偏置变量;
S23、以最小为目标函数,更新编码器训练参数W和解码器训练参数W′,其中:
其中,Ω为和节点i有正边连接的节点集合,Φ为和节点i有负边连接的节点集合,||*||2表示*的L2范数,α和β为正则化参数。
5.根据权利要求1所述的一种基于自编码神经网络的符号图节点分类方法,其特征在于,步骤S3具体为:
S31、选取符号图中的多个节点作为训练样本,标注训练样本中每个节点的节点类型YL
S32、获取训练样本中各个节点的表示向量HL
S33、以HL为分类器的输入,YL为训练目标训练得到SVM分类器f(HL),所述的SVM分类器以节点的表示向量为输入,节点类型为输出。
6.根据权利要求5所述的一种基于自编码神经网络的符号图节点分类方法,其特征在于,步骤S4具体为:获取待预测的符号图节点的表示向量HU,利用SVM分类器预测得到该节点的节点类型YU=f(HU),进而根据符号图中各个节点的节点类型进行分类。
CN201810044169.5A 2018-01-17 2018-01-17 一种基于自编码神经网络的符号图节点分类方法 Pending CN108345901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810044169.5A CN108345901A (zh) 2018-01-17 2018-01-17 一种基于自编码神经网络的符号图节点分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810044169.5A CN108345901A (zh) 2018-01-17 2018-01-17 一种基于自编码神经网络的符号图节点分类方法

Publications (1)

Publication Number Publication Date
CN108345901A true CN108345901A (zh) 2018-07-31

Family

ID=62961505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810044169.5A Pending CN108345901A (zh) 2018-01-17 2018-01-17 一种基于自编码神经网络的符号图节点分类方法

Country Status (1)

Country Link
CN (1) CN108345901A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829517A (zh) * 2019-03-07 2019-05-31 成都医云科技有限公司 目标检测去重方法及装置
CN109844749A (zh) * 2018-08-29 2019-06-04 区链通网络有限公司 一种基于图算法的节点异常检测方法、装置及存储装置
CN110032665A (zh) * 2019-03-25 2019-07-19 阿里巴巴集团控股有限公司 确定关系网络图中图节点向量的方法及装置
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111651668A (zh) * 2020-05-06 2020-09-11 上海晶赞融宣科技有限公司 用户画像的标签生成方法及装置、存储介质、终端
WO2021089012A1 (zh) * 2019-11-06 2021-05-14 中国科学院深圳先进技术研究院 图网络模型的节点分类方法、装置及终端设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109844749A (zh) * 2018-08-29 2019-06-04 区链通网络有限公司 一种基于图算法的节点异常检测方法、装置及存储装置
WO2020042024A1 (zh) * 2018-08-29 2020-03-05 区链通网络有限公司 一种基于图算法的节点异常检测方法、装置及存储装置
CN109844749B (zh) * 2018-08-29 2023-06-20 区链通网络有限公司 一种基于图算法的节点异常检测方法、装置及存储装置
CN109829517A (zh) * 2019-03-07 2019-05-31 成都医云科技有限公司 目标检测去重方法及装置
CN110032665A (zh) * 2019-03-25 2019-07-19 阿里巴巴集团控股有限公司 确定关系网络图中图节点向量的方法及装置
CN110032665B (zh) * 2019-03-25 2023-11-17 创新先进技术有限公司 确定关系网络图中图节点向量的方法及装置
WO2021089012A1 (zh) * 2019-11-06 2021-05-14 中国科学院深圳先进技术研究院 图网络模型的节点分类方法、装置及终端设备
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111291190B (zh) * 2020-03-23 2023-04-07 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111651668A (zh) * 2020-05-06 2020-09-11 上海晶赞融宣科技有限公司 用户画像的标签生成方法及装置、存储介质、终端
CN111651668B (zh) * 2020-05-06 2023-06-09 上海晶赞融宣科技有限公司 用户画像的标签生成方法及装置、存储介质、终端

Similar Documents

Publication Publication Date Title
CN108345901A (zh) 一种基于自编码神经网络的符号图节点分类方法
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
Young et al. Augmenting end-to-end dialogue systems with commonsense knowledge
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN110263325B (zh) 中文分词系统
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107145484A (zh) 一种基于隐多粒度局部特征的中文分词方法
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN103473380A (zh) 一种计算机文本情感分类方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112559749A (zh) 在线教育师生智能匹配方法、装置及存储介质
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
Ansari et al. Language Identification of Hindi-English tweets using code-mixed BERT
Touati-Hamad et al. Arabic quran verses authentication using deep learning and word embeddings
Cui et al. Sentiment analysis of tweets by CNN utilizing tweets with emoji as training data
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN115934891A (zh) 问句理解方法及装置
US20230168989A1 (en) BUSINESS LANGUAGE PROCESSING USING LoQoS AND rb-LSTM
CN116049393A (zh) 一种基于gcn的方面级文本情感分类方法
CN115640799A (zh) 基于增强型动量对比学习的句向量表征方法
CN114491029A (zh) 基于图神经网络的短文本相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180731

RJ01 Rejection of invention patent application after publication