CN110874607A - 一种网络节点的聚类方法及装置 - Google Patents

一种网络节点的聚类方法及装置 Download PDF

Info

Publication number
CN110874607A
CN110874607A CN201811016527.8A CN201811016527A CN110874607A CN 110874607 A CN110874607 A CN 110874607A CN 201811016527 A CN201811016527 A CN 201811016527A CN 110874607 A CN110874607 A CN 110874607A
Authority
CN
China
Prior art keywords
network
similarity
clustering
network node
network nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811016527.8A
Other languages
English (en)
Inventor
周晟
杨红霞
王中要
余平刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811016527.8A priority Critical patent/CN110874607A/zh
Publication of CN110874607A publication Critical patent/CN110874607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网络节点的聚类方法及装置。其中所述聚类方法包括:获取第一网络节点的第一聚类中心和第一相似度权重参数;根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;根据所述距离,将所述第一网络节点进行第一聚类。采用本申请提供的方法,解决了现有技术中,网络节点的聚类方法不支持针对不同种类的网络节点,利用网络节点属性信息和网络结构信息进行聚类的问题。

Description

一种网络节点的聚类方法及装置
技术领域
本申请涉及网络信息挖掘领域,具体涉及一种网络节点的聚类方法及装置。
背景技术
网络是一种用来刻画节点间关系的常用数据结构,例如社交网络反映的是用户之间的好友关系,电商网络刻画的是消费者的购买关系。
基于网络节点属性的聚类方法,包括K-means,Spectral Clustering等。通过将节点的属性表示为节点的特征向量,利用特征向量得到节点之间的相似度或者是在低维空间上的表示,然后对节点进行聚类。这种聚类方法只能处理节点的属性特征,不能处理网络中的结构特征,尤其是有不同种类的网络节点和边的异构网络。
基于网络结构的聚类方法,利用网络的拓扑结构,定义基于网络结构的节点之间的相似度或潜在的邻接关系,根据这些信息对节点进行聚类。这种聚类方法只能处理网络结构,但是当网络中存在不同种类的边的时候,算法只能消除边的多义性,不能有效挖掘边的语意信息。同时,不能处理节点的属性特征信息。
异构网络中的聚类方法,结合异构网络中节点的属性特征和网络结构,对节点进行聚类。虽然异构网络中存在不同种类的节点,现有的方法只能研究同种类的节点之间的关系,因此只能对网络中特定的某一类节点进行聚类。
现有技术中,网络节点的聚类方法只能处理节点的属性信息;或者只能处理网络结构信息;在带属性的异构网络中,只能对同种类的节点进行聚类,不能结合属性信息和结构信息对不同种类的节点进行聚类。
发明内容
本申请提供一种网络节点的聚类方法及装置,以解决现有技术中,网络节点的聚类方法不支持针对不同类别的网络节点,同时结合网络节点属性信息和网络结构信息进行聚类的问题。
本申请提供一种网络节点的聚类方法,包括:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
可选的,还包括:
更新所述第一聚类中心,获取第二聚类中心;
根据所述第二聚类中心和第一相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛;
若否,将所述网络节点进行第二聚类。
可选的,还包括:
若判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和收敛,则更新所述第一相似度权重参数,获取第二相似度权重参数;
根据所述第二聚类中心和第二相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和是否收敛;
若否,将所述第一网络节点进行第三聚类。
可选的,还包括:
若判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和收敛,则输出所述第一聚类的结果。
可选的,所述根据所述第一相似度权重参数,所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度,包括:
根据所述网络节点属性信息,获取所述第一网络节点之间的网络节点属性相似度;
根据所述网络结构信息,获取所述第一网络节点之间的网络结构相似度;
根据所述网络节点属性相似度、所述网络结构相似度、所述第一相似度权重参数,获取所述第一网络节点之间的第一相似度。
可选的,所述获取所述第一网络节点之间的网络节点属性相似度,包括:
计算所述第一网络节点的属性特征向量之间的余弦距离;
将所述余弦距离确定为所述第一网络节点之间的网络节点属性相似度。
可选的,所述获取所述第一网络节点之间的网络结构相似度包括:
根据所述第一网络节点的聚类目标,定义所述第一网络节点之间的网络路径;
根据所述网络路径,获取所述网络结构相似度。
可选的,所述将所述第一网络节点进行第一聚类,包括:
将所述第一网络节点的类标签设置为所述第一网络节点归属的聚类中心的类标签。
可选的,所述更新所述第一聚类中心,获取第二聚类中心,包括:
获取所述第一网络节点的类标签;
在具有相同类标签的第二网络节点中,根据所述第二网络节点之间的相似度获取所述第二聚类中心。。
可选的,所述更新所述第一相似度权重参数,获取第二相似度权重参数,包括:
获取所述第一网络节点的类标签;
获取具有相同类标签的第二网络节点和所述第二网络节点的中心节点;
以所述第二网络节点中的标准分割值最小化为目标,对所述第一相似度权重参数进行优化,获取满足所述目标的所述第二相似度权重参数。
可选的,所述判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛,包括:
将所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和与所述第一聚类中心的网络节点和所述第一聚类中心的第三距离之和进行对比,获取所述第一距离之和与所述第三距离之和的差值;
若所述差值小于预定的阈值,判断所述第一距离之和收敛。
本申请提供一种网络节点的聚类装置,其特征在于,包括:
参数获取单元,用于获取第一网络节点的第一聚类中心和第一相似度权重参数;
相似度获取单元,用于根据所述第一相似度权重参数,所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
计算单元,用于根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
第一聚类单元,用于根据所述距离,将所述第一网络节点进行第一聚类。
可选的,还包括:
第二聚类获取单元,用于更新所述第一聚类中心,获取第二聚类中心;
第一判断单元,用于根据所述第二聚类中心和第一相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛;
第二聚类单元,用于若否,将所述网络节点进行第二聚类。
可选的,还包括:
第二参数获取单元,用于判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和收敛,则更新所述第一相似度权重参数,获取第二相似度权重参数;
第二判断单元,用于根据所述第二聚类中心和第二相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和是否收敛;
第三聚类单元,用于若否,将所述第一网络节点进行第三聚类。
可选的,还包括:
输出单元,用于判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和收敛,则输出所述第一聚类的结果。
可选的,所述相似度获取单元,具体用于:
根据所述网络节点属性信息,获取所述第一网络节点之间的网络节点属性相似度;
根据所述网络结构信息,获取所述第一网络节点之间的网络结构相似度;
根据所述网络节点属性相似度、所述网络结构相似度、所述第一相似度权重参数,获取所述第一网络节点之间的第一相似度。
可选的,包括网络节点属性相似度计算单元,具体用于
计算所述第一网络节点的属性特征向量之间的余弦距离;
将所述余弦距离确定为所述第一网络节点之间的网络节点属性相似度。。
可选的,包括网络结构相似度获取单元,具体用于:
根据所述第一网络节点的聚类目标,定义所述第一网络节点之间的网络路径;
根据所述网络路径,获取所述网络结构相似度。
可选的,所述第一聚类单元,具体用于:
将所述第一网络节点的类标签设置为所述第一网络节点归属的聚类中心的类标签。
可选的,所述第二聚类获取单元,具体用于:
获取所述第一网络节点的类标签;
在具有相同所述类标签的第二网络节点中,根据所述第二网络节点之间的相似度获得所述第二网络节点的中心节点,所述中心节点作为所述第二聚类中心。
可选的,所述第二参数获取单元,具体用于:
获取所述第一网络节点的类标签;
获取具有相同类标签的第二网络节点和所述第二网络节点的中心节点;
以所述第二网络节点中的标准分割值最小化为目标,对所述第一相似度权重参数进行优化,获取满足所述目标的所述第二相似度权重参数。
可选的,所述第一判断单元,具体用于:
将所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和与所述第一聚类中心的网络节点和所述第一聚类中心的第三距离之和进行对比,获取所述第一距离之和与所述第三距离之和的差值;
若所述差值小于预定的阈值,判断所述第一距离之和收敛。
本申请提供一种用电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
本申请提供一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现以下步骤:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
采用本申请提供的方法,利用网络节点的节点属性信息和网络结构信息,对不同种类的网络节点进行聚类,解决了现有技术中,网络节点的聚类方法不支持针对不同种类的网络节点,利用网络节点属性信息和网络结构信息进行聚类的问题。
附图说明
图1是本申请提供的一种网络节点的聚类方法的第一实施例的流程图。
图2是本申请第一实施例涉及的一个聚类实例的流程图。
图3是本申请提供的一种网络节点的聚类装置的第二实施例的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种网络节点的聚类方法。请参看图1,该图为本申请第一实施例的流程图。以下结合图1对本申请第一实施例进行详细说明。所述方法包括如下步骤:
步骤S101:获取第一网络节点的第一聚类中心和第一相似度权重参数。
本步骤用于获取第一网络节点的第一聚类中心和第一相似度权重参数。
网络是一种用来建模实体之间关系的数据结构,它由点集和边集构成,其中点集是实体的集合,边集是实体之间关系的集合。
聚类(clustering)是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。
聚类中心,是指将网络节点进行聚类之后,每一个具有相同类标签的网络节点的中心网络节点。所述第一相似度权重参数用来描述计算网络节点的相似度时针对网络节点属性信息,网络结构信息等因素的权重。
在常用的聚类方法中,例如K-means算法中,首先要确定聚类中心的个数,聚类中心的个数K需要事先给定,但在实际中这个K值的选定是非常难以估计的,通常情况下事先并不知道给定的数据集应该分成多少个类别才最合适。这个过程会是一个漫长的调试过程,可以通过设置一个[k,k+n]范围的K类值,然后逐个观察聚类结果,最终决定该使用什么K值对当前数据集是最佳的
在实际情况中,往往是对特定的数据集有对应一个最佳的K值,而换一个数据集,可能原来的K值效果就会下降。但是同一个项目中的一类数据,总体上来说,通过一个抽样小数据集确定一个最佳K值后,对之后的所有K值都能获得较好的效果
刚开始时的原始数据,杂乱无章,需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。在实际使用中往往不知道待聚类样本中哪些是需要关注的标签,人工事先指定聚类中心基本上是不现实的,在大多数情况下可以采取随机产生聚类中心这种策略,假设数据集可以分为两类,令K=2,随机在坐标上选两个点,作为两个类的聚类中心。
本申请中聚类中心的选择也可以选择上述K-means中确定聚类中心的方法。
同理,第一相似度权重参数在聚类之前也是无法准确确定的,可以随机选定。
步骤S102:根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度。
本步骤用于根据所述第一相似度权重参数,所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度。
所述根据所述第一相似度权重参数,所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度,包括:
根据所述网络节点属性信息,获取所述第一网络节点之间的网络节点属性相似度;
根据所述网络结构信息,获取所述第一网络节点之间的网络结构相似度;
根据所述网络节点属性相似度、所述网络结构相似度、所述第一相似度权重参数,获取所述第一网络节点之间的第一相似度。
下面对于网络节点属性以及网络结构进行举例说明。
以电商产品网络为例,在该网络中,网络节点的种类包括商家,用户,产品等,商家网络节点的属性信息包括商家的地址,店铺访问量,店铺月销量等信息;用户网络节点的属性包括IP地址,购买数量,性别年龄等;商品网络节点的属性,包括价格,产地,制造商等信息;用户通过在商家购买产品这个操作,实现了三种网络节点的连接;在网络中,不同类型的边(用户购买物品,用户出现在某个地理位置)描述了网络结构信息。
网络节点的相似度是指,以电商的商品网络为例,用户类网络节点和商品类网络节点的相似度可以表示用户对商品的喜好程度,用户类网络节点和店铺类网络节点的相似度可以表示用户和店铺的潜在偏好。店铺类网络节点和商品类网络节点的相似度可以表示店铺中所售商品和某一个具体商品的相似度。
所述获取所述第一网络节点之间的网络节点属性相似度,包括:
计算所述第一网络节点的属性特征向量之间的余弦距离;
将所述余弦距离确定为所述第一网络节点之间的网络节点属性相似度。
余弦距离用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:
Figure BDA0001785721790000081
在Python中可以调用相关的库函数来计算。
网络节点的属性采集,可以通过后台日志系统进行采集。采集到的信息可以通过One-Hot编码或者数值化处理,变成节点对应的特征向量。
One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
所述获取所述第一网络节点之间的网络结构相似度包括:
根据所述第一网络节点的聚类目标,定义所述第一网络节点之间的网络路径;
根据所述网络路径,获取所述网络结构相似度。
计算网络结构的相似度,可以根据任务需求,定义网络上具有语意含义的路径。利用这些路径,得到每种路径下节点之间的网络结构相似度。
步骤S103:根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离。
本步骤用于根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离。
计算网络节点距离可以使用Manhattan Distance距离(曼哈顿距离),计算公式如下:
Figure BDA0001785721790000091
也可以使用Euclidean Distance距离(欧拉距离),计算公式如下:
Figure BDA0001785721790000092
这两种距离的计算都是常用的方法,对于上述公式的使用方法就不再详细阐述了。
步骤S104:根据所述距离,将所述第一网络节点进行第一聚类。
本步骤用于根据所述距离,将所述第一网络节点进行第一聚类。
根据上面计算出的距离,将网络节点分配到距离最近的聚类中心代表的类。
所述将所述第一网络节点进行第一聚类,包括:
将所述第一网络节点的类标签设置为所述第一网络节点归属的聚类中心的类标签。
网络节点分完成后,将所述第一网络节点的类标签设置为所述第一网络节点归属的聚类中心的类标签
本实施例提供的网络节点的聚类方法,还包括:
更新所述第一聚类中心,获取第二聚类中心;
根据所述第二聚类中心和第一相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛;
若否,将所述网络节点进行第二聚类。
保持第一相似度权重参数的值不变,仅仅更新所述第一聚类中心,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛。更新第一聚类中心,可以采用在第一聚类中心归属的类中,针对每一个网络节点重新进行计算,获取第二聚类中心。
所述更新所述第一聚类中心,获取第二聚类中心,包括:
获取所述第一网络节点的类标签;
在具有相同类标签的第二网络节点中,根据所述第二网络节点之间的相似度获取所述第二聚类中心。
首先获取所述第一网络节点的类标签,然后根据所述第二网络节点之间的相似度进行计算获取所述第二聚类中心。这里相似度包括了网络节点属性信息和网络结构信息。
所述判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛,包括:
将所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和与所述第一聚类中心的网络节点和所述第一聚类中心的第三距离之和进行对比,获取所述第一距离之和与所述第三距离之和的差值;
若所述差值小于预定的阈值,判断所述第一距离之和收敛。
本实施例提供的网络节点的聚类方法,还包括:
若判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和收敛,则更新所述第一相似度权重参数,获取第二相似度权重参数;
根据所述第二聚类中心和第二相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和是否收敛;
若否,将所述第一网络节点进行第三聚类。
这里提供的更新聚类中心,相似度权重参数,采用EM算法来实现。通过极大似然估计建立目标函数,然后通过EM算法来找到似然函数的极大值。目标函数如下:
Figure BDA0001785721790000101
EM(最大期望)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。
EM算法经过两个步骤交替进行计算:
1)计算期望(E),利用概率模型参数的现有估计值,计算隐藏变量的期望;
2)最大化(M),利用E步上求得的隐藏变量的期望,对参数模型进行最大似然估计。
3)M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
总体来说,EM的算法流程如下:
输入:观察数据x=(x(1),x(2),...x(m)),联合分布p(x,z|θ),条件分布p(z|x,θ),最大迭代次数J。
1)随机初始化模型参数θ的初值θ0。
2)for j from 1 to J开始EM算法迭代:
a)E步:计算联合分布的条件概率期望:
Qi(z(i))=P(z(i)|x(i),θj))
L(θ,θj)=∑i=1m∑z(i)Qi(z(i))logP(x(i),z(i)|θ)
b)M步:极大化L(θ,θj),得到θj+1:θj+1=argmaxθL(θ,θj)
c)如果θi+1已收敛,则算法结束。否则继续回到步骤a)进行E步迭代。
输出:模型参数θ。
所述更新所述第一相似度权重参数,获取第二相似度权重参数,包括:
获取所述第一网络节点的类标签;
获取具有相同类标签的第二网络节点和所述第二网络节点的中心节点;
以所述第二网络节点中的标准分割值最小化为目标,对所述第一相似度权重参数进行优化,获取满足所述目标的所述第二相似度权重参数。
这里提供了更新相似度权重参数的方法。
本实施例提供的网络节点的聚类方法,其还包括:
若判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和收敛,则输出所述第一聚类的结果。
第一聚类的结果可以为第一聚类的类标签。
图2是采用本申请提供的网络节点的聚类方法的一个应用实例的流程图。首先采集网络的网络节点信息以及网络结构信息,随后计算网络节点之间的网络属性网络结构的相似度,进而初始化聚类中心和权重参数(即相似度权证参数),接着开始进行迭代操作。迭代过程如下,首先,将网络节点分配到最近的聚类中心代表的类,然后更新聚类中心,判断更新之后的网络节点距离是否收敛,如果收敛,则更新权重参数,否则重新进入将网络节点分配到最近的聚类中心代表的类的步骤。在更新权重参数之后,再次判断更新之后的网络节点距离是否收敛,如果收敛,则输出聚类结果,如果不收敛,则重新进入将网络节点分配到最近的聚类中心代表的类的步骤。
通过上述方法,使用多次迭代,可以将不同种类的网络节点,利用网络节点属性信息和网络结构信息进行聚类,获得最终的聚类结果。
在上述的实施例中,提供了一种网络节点的聚类方法,与之相对应的,本申请还提供一种网络节点的聚类装置。请参看图2,其为本申请的一种网络节点的聚类装置实施例的流程图。由于本实施例,即第二实施例,基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种网络节点的聚类装置,包括:
参数获取单元301,用于获取第一网络节点的第一聚类中心和第一相似度权重参数;
相似度获取单元302,用于根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
计算单元303,用于根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
第一聚类单元304,用于根据所述距离,将所述第一网络节点进行第一聚类。
本实施例提供的聚类装置,还包括:
第二聚类获取单元,用于更新所述第一聚类中心,获取第二聚类中心;
第一判断单元,用于根据所述第二聚类中心和第一相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛;
第二聚类单元,用于若否,将所述网络节点进行第二聚类。
本实施例提供的聚类装置,还包括:
第二参数获取单元,用于判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和收敛,则更新所述第一相似度权重参数,获取第二相似度权重参数;
第二判断单元,用于根据所述第二聚类中心和第二相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和是否收敛;
第三聚类单元,用于若否,将所述第一网络节点进行第三聚类。
本实施例提供的聚类装置,还包括:
输出单元,用于判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和收敛,则输出所述第一聚类的结果。
本实施例中,所述相似度获取单元,具体用于:
根据所述网络节点属性信息,获取所述第一网络节点之间的网络节点属性相似度;
根据所述网络结构信息,获取所述第一网络节点之间的网络结构相似度;
根据所述网络节点属性相似度、所述网络结构相似度、所述第一相似度权重参数,获取所述第一网络节点之间的第一相似度。
本实施例中,包括网络节点属性相似度计算单元,具体用于
计算所述第一网络节点的属性特征向量之间的余弦距离;
将所述余弦距离确定为所述第一网络节点之间的网络节点属性相似度。。
本实施例中,包括网络结构相似度获取单元,具体用于:
根据所述第一网络节点的聚类目标,定义所述第一网络节点之间的网络路径:
根据所述网络路径,获取所述网络结构相似度。
本实施例中,所述第一聚类单元,具体用于:
将所述第一网络节点的类标签设置为所述第一网络节点归属的聚类中心的类标签。
本实施例中,所述第二聚类获取单元,具体用于:
获取所述第一网络节点的类标签;
在具有相同所述类标签的第二网络节点中,根据所述第二网络节点之间的相似度获得所述第二网络节点的中心节点,所述中心节点作为所述第二聚类中心。
本实施例中,所述第二参数获取单元,具体用于:
获取所述第一网络节点的类标签;
获取具有相同类标签的第二网络节点和所述第二网络节点的中心节点;
以所述第二网络节点中的标准分割值最小化为目标,对所述第一相似度权重参数进行优化,获取满足所述目标的所述第二相似度权重参数。
本实施例中,所述第一判断单元,具体用于:
将所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和与所述第一聚类中心的网络节点和所述第一聚类中心的第三距离之和进行对比,获取所述第一距离之和与所述第三距离之和的差值;
若所述差值小于预定的阈值,判断所述第一距离之和收敛。
本申请第三实施例提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
本申请第四实施例提供一种计算机可读取存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现以下步骤:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (14)

1.一种网络节点的聚类方法,其特征在于,包括:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
2.根据权利要求1所述的网络节点的聚类方法,其特征在于,还包括:
更新所述第一聚类中心,获取第二聚类中心;
根据所述第二聚类中心和第一相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛;
若否,将所述网络节点进行第二聚类。
3.根据权利要求2所述的网络节点的聚类方法,其特征在于,还包括:
若判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和收敛,则更新所述第一相似度权重参数,获取第二相似度权重参数;
根据所述第二聚类中心和第二相似度权重参数,判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和是否收敛;
若否,将所述第一网络节点进行第三聚类。
4.根据权利要求3所述的网络节点的聚类方法,其特征在于,还包括:
若判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第二距离之和收敛,则输出所述第一聚类的结果。
5.根据权利要求1所述的网络节点的聚类方法,其特征在于,所述根据所述第一相似度权重参数,所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度,包括:
根据所述网络节点属性信息,获取所述第一网络节点之间的网络节点属性相似度;
根据所述网络结构信息,获取所述第一网络节点之间的网络结构相似度;
根据所述网络节点属性相似度、所述网络结构相似度、所述第一相似度权重参数,获取所述第一网络节点之间的第一相似度。
6.根据权利要求5所述的网络节点的聚类方法,其特征在于,所述获取所述第一网络节点之间的网络节点属性相似度,包括:
计算所述第一网络节点的属性特征向量之间的余弦距离;
将所述余弦距离确定为所述第一网络节点之间的网络节点属性相似度。
7.根据权利要求5所述的网络节点的聚类方法,其特征在于,所述获取所述第一网络节点之间的网络结构相似度包括:
根据所述第一网络节点的聚类目标,定义所述第一网络节点之间的网络路径;
根据所述网络路径,获取所述网络结构相似度。
8.根据权利要求1所述的网络节点的聚类方法,所述将所述第一网络节点进行第一聚类,包括:
将所述第一网络节点的类标签设置为所述第一网络节点归属的聚类中心的类标签。
9.根据权利要求2所述的网络节点的聚类方法,其特征在于,所述更新所述第一聚类中心,获取第二聚类中心,包括:
获取所述第一网络节点的类标签;
在具有相同类标签的第二网络节点中,根据所述第二网络节点之间的相似度获取所述第二聚类中心。
10.根据权利要求3所述的网络节点的聚类方法,其特征在于,所述更新所述第一相似度权重参数,获取第二相似度权重参数,包括:
获取所述第一网络节点的类标签;
获取具有相同类标签的第二网络节点和所述第二网络节点的中心节点;
以所述第二网络节点中的标准分割值最小化为目标,对所述第一相似度权重参数进行优化,获取满足所述目标的所述第二相似度权重参数。
11.根据权利要求2所述的网络节点的聚类方法,其特征在于,所述判断归属于所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和是否收敛,包括:
将所述第二聚类中心的网络节点和所述第二聚类中心的第一距离之和与所述第一聚类中心的网络节点和所述第一聚类中心的第三距离之和进行对比,获取所述第一距离之和与所述第三距离之和的差值;
若所述差值小于预定的阈值,判断所述第一距离之和收敛。
12.一种网络节点的聚类装置,其特征在于,包括:
参数获取单元,用于获取第一网络节点的第一聚类中心和第一相似度权重参数;
相似度获取单元,用于根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
计算单元,用于根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
第一聚类单元,用于根据所述距离,将所述第一网络节点进行第一聚类。
13.一种用电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
14.一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现以下步骤:
获取第一网络节点的第一聚类中心和第一相似度权重参数;
根据所述第一相似度权重参数、所述第一网络节点之间的网络节点属性信息和网络结构信息,获取所述第一网络节点之间的第一相似度;
根据所述第一相似度,计算所述第一网络节点和所述第一聚类中心的距离;
根据所述距离,将所述第一网络节点进行第一聚类。
CN201811016527.8A 2018-08-31 2018-08-31 一种网络节点的聚类方法及装置 Pending CN110874607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811016527.8A CN110874607A (zh) 2018-08-31 2018-08-31 一种网络节点的聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811016527.8A CN110874607A (zh) 2018-08-31 2018-08-31 一种网络节点的聚类方法及装置

Publications (1)

Publication Number Publication Date
CN110874607A true CN110874607A (zh) 2020-03-10

Family

ID=69716465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811016527.8A Pending CN110874607A (zh) 2018-08-31 2018-08-31 一种网络节点的聚类方法及装置

Country Status (1)

Country Link
CN (1) CN110874607A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526037A (zh) * 2020-03-23 2020-08-11 北京三快在线科技有限公司 网络节点的配置方法、装置、电子设备及可读存储介质
CN114650167A (zh) * 2022-02-08 2022-06-21 联想(北京)有限公司 一种异常检测方法、装置、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
CN103106279A (zh) * 2013-02-21 2013-05-15 浙江大学 一种同时基于节点属性以及结构关系相似度的聚类方法
CN104008165A (zh) * 2014-05-29 2014-08-27 华东师范大学 一种基于网络拓扑结构和节点属性的社团检测方法
CN106960390A (zh) * 2017-01-03 2017-07-18 上海大学 基于节点聚合度的重叠社区划分方法
CN107153713A (zh) * 2017-05-27 2017-09-12 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN107273934A (zh) * 2017-06-28 2017-10-20 电子科技大学 一种基于属性融合的图聚类方法
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
CN103106279A (zh) * 2013-02-21 2013-05-15 浙江大学 一种同时基于节点属性以及结构关系相似度的聚类方法
CN104008165A (zh) * 2014-05-29 2014-08-27 华东师范大学 一种基于网络拓扑结构和节点属性的社团检测方法
CN106960390A (zh) * 2017-01-03 2017-07-18 上海大学 基于节点聚合度的重叠社区划分方法
CN107153713A (zh) * 2017-05-27 2017-09-12 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN107273934A (zh) * 2017-06-28 2017-10-20 电子科技大学 一种基于属性融合的图聚类方法
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526037A (zh) * 2020-03-23 2020-08-11 北京三快在线科技有限公司 网络节点的配置方法、装置、电子设备及可读存储介质
CN114650167A (zh) * 2022-02-08 2022-06-21 联想(北京)有限公司 一种异常检测方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11748379B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
US9454580B2 (en) Recommendation system with metric transformation
CN107464132B (zh) 一种相似用户挖掘方法及装置,电子设备
TW201933232A (zh) 店鋪資訊推薦方法、裝置及用戶端
JP5965911B2 (ja) オンライン取引プラットフォームに基づくデータ処理
US11074295B2 (en) Distributed graph embedding method and apparatus, device, and system
CN109522435B (zh) 一种图像检索方法及装置
CN107786943B (zh) 一种用户分群方法及计算设备
EP2668590A1 (en) Identifying categorized misplacement
US10909442B1 (en) Neural network-based artificial intelligence system for content-based recommendations using multi-perspective learned descriptors
WO2020199745A1 (zh) 一种样本聚类方法及装置
CN107590690B (zh) 数据处理方法、装置及服务器
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN101127049A (zh) 结构化数据的聚类
CN113268656A (zh) 一种用户推荐方法、装置、电子设备及计算机存储介质
CN110874607A (zh) 一种网络节点的聚类方法及装置
Chen Research and application of clustering algorithm for text big data
EP3928201A1 (en) Systems and methods for preference and similarity learning
Yu et al. Sparse reconstruction with spatial structures to automatically determine neighbors
CN111695917A (zh) 商品推荐方法、系统、电子设备和存储介质
CN111428741B (zh) 网络社区的发现方法、装置、电子设备及可读存储介质
US11366833B2 (en) Augmenting project data with searchable metadata for facilitating project queries
CN111475691B (zh) 一种推荐对象数据的获取方法、装置及电子设备
US20130325416A1 (en) Contribution Model
De Amorim et al. Selecting the Minkowski exponent for intelligent K-Means with feature weighting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination