CN111339376A - 用于网络节点聚类的方法以及装置 - Google Patents

用于网络节点聚类的方法以及装置 Download PDF

Info

Publication number
CN111339376A
CN111339376A CN202010412423.XA CN202010412423A CN111339376A CN 111339376 A CN111339376 A CN 111339376A CN 202010412423 A CN202010412423 A CN 202010412423A CN 111339376 A CN111339376 A CN 111339376A
Authority
CN
China
Prior art keywords
homogeneous
network nodes
community
community subgraph
homogeneity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010412423.XA
Other languages
English (en)
Other versions
CN111339376B (zh
Inventor
李怀松
王睿祺
张晓旭
金先明
李晶莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010412423.XA priority Critical patent/CN111339376B/zh
Publication of CN111339376A publication Critical patent/CN111339376A/zh
Application granted granted Critical
Publication of CN111339376B publication Critical patent/CN111339376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供用于网络节点聚类的方法以及装置,其中所述用于网络节点聚类的方法包括:查找出具有相同属性和/或相同行为模式的网络节点;通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;利用图划分算法对所述同质图进行类的划分,得到多个社区子图。

Description

用于网络节点聚类的方法以及装置
技术领域
本说明书实施例涉及互联网技术领域,特别涉及一种用于网络节点聚类的方法。本说明书一个或者多个实施例同时涉及一种用于网络节点聚类的装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,通过网络平台进行交互已经成为广大互联网用户普遍的行为。然而,网络在给用户带来便利的同时,一些不法团伙也在利用网络进行洗钱等行为。为了避免这些不法团伙的损害,需要在众多网络节点中,通过聚类来发现可疑的团伙。
但是,目前普遍采用的聚类方法计算复杂度较高,划分出的类成员差异性大,无法满足当前的需要。
发明内容
有鉴于此,本说明书施例提供了一种用于网络节点聚类的方法。本说明书一个或者多个实施例同时涉及一种用于网络节点聚类的装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种用于网络节点聚类的方法,包括:查找出具有相同属性和/或相同行为模式的网络节点;通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
可选地,还包括:计算所述社区子图中网络节点的同质度,所述同质度用于表示所述网络节点在所述社区子图中与其他网络节点的属性以及行为模式相同的程度;将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。
可选地,所述计算所述社区子图中网络节点的同质度包括:利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度;或者,通过计算所述社区子图中所述网络节点的轮廓系数,得到所述网络节点的同质度。
可选地,还包括:利用所述社区子图中同质边的权重,计算出所述社区子图的类重要度。
可选地,还包括:获取所述社区子图中同质边的初始权重;针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值;针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。
可选地,还包括:根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。
根据本说明书实施例的第二方面,提供了一种用于网络节点聚类的装置,包括:同质查找模块,被配置为查找出具有相同属性和/或相同行为模式的网络节点。同质图构造模块,被配置为通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图。划分模块,被配置为利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
可选地,还包括:同质度计算模块,被配置为计算所述社区子图中网络节点的同质度,所述同质度用于表示所述网络节点在所述社区子图中与其他网络节点的属性以及行为模式相同的程度。删除模块,被配置为将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。
可选地,所述同质度计算模块,被配置为利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度;或者,通过计算所述社区子图中所述网络节点的轮廓系数,得到所述网络节点的同质度。
可选地,还包括:类重要度计算模块,被配置为利用所述社区子图中同质边的权重,计算出所述社区子图的类重要度。
可选地,还包括:初始权重获取模块,被配置为获取所述社区子图中同质边的初始权重。修正值计算模块,被配置为针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值。权重修正模块,被配置为针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。
可选地,还包括:报文生成模块,被配置为根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:查找出具有相同属性和/或相同行为模式的网络节点;通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现本说明书任一实施例所述用于网络节点聚类的方法的步骤。
本说明书一个实施例提供了用于网络节点聚类的方法,由于该方法查找出具有相同属性或相同行为模式的网络节点,通过在具有相同属性或相同行为模式的网络节点间构造同质边,构造出同质图,从而同质图中的同质边能够有效表达节点间的相似性,再利用图划分算法对所述同质图进行类的划分,得到多个社区子图,既避免了复杂的相似度计算,降低了计算复杂度,而且类内成员差异小,类划分更加准确。
附图说明
图1是本说明书一个实施例提供的一种用于网络节点聚类的方法的流程图;
图2是本说明书一个实施例提供的同质图示意图;
图3是本说明书一个实施例提供的一种用于网络节点聚类的方法的处理过程流程图;
图4是本说明书一个实施例提供的一种用于网络节点聚类的装置的结构示意图;
图5是本说明书另一个实施例提供的一种用于网络节点聚类的装置的结构示意图;
图6是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
图划分算法,是将一个图划分成多个子图的算法,子图内部相似性或关系紧密,子图间差别大。例如,LPA(Label Propagation Algorithm,标签传播算法):一种基于图的半监督学习方法;再例如,Louvain:用于社会网络挖掘的社区发现算法。
网络节点,是与网络相连的点,可以是工作站、客户、网络用户、个人计算机、服务器、打印机等。例如,可以从网络平台的历史数据中,获取登录、注册、浏览、使用该网络平台的网络节点,以便根据本说明书实施例提供的用于网络节点聚类的方法为该网络平台的网络节点聚类。
在本说明书中,提供了一种用于网络节点聚类的方法,本说明书同时涉及一种用于网络节点聚类的装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一个实施例提供的一种用于网络节点聚类的方法的流程图,包括步骤102至步骤106。
步骤102:查找出具有相同属性和/或相同行为模式的网络节点。
网络节点的属性包括用于描述网络节点自身特征的信息。例如可以包括:网络节点的IP地址、网络节点的商户的经营地址等属性。网络节点的行为模式包括用于描述网络节点自身行为的信息以及与其他网络节点交互的信息。例如可以包括:交易模式如交易对手、交易场景等。根据这些属性及行为模式,例如可以查找出Top1交易对手一样、主要交易场景一样,或者IP地址一样的两个客户即两个网络节点。
需要说明的是,在实际应用中,可以根据不同场景的实际情况来设置查找哪些属性、行为模式。属性可以是一个或多个属性,行为模式可以是一个或多个。网络节点间具有相同属性或相同行为模式,可以是指一个网络节点的任一个或多个属性或行为模式与另一个网络节点的任一个或多个属性或行为模式相同。
步骤104:通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图。
例如,对于任两个网络节点,如果存在至少一个相同属性和/或相同行为模式,即可在该两个网络节点间建立一条边,这种边称为同质边。如一个客户和另一个客户有相同的属性即构造一条同质边。同质边的权重,可以根据两个网络节点的相同属性和/或相同行为模式对应的权重来确定。例如,如果任两个网络节点间,存在两个和/或两个以上相同属性和/或相同行为模式,则可以将该两个网络节点间的两个或两个以上相同属性和/或相同行为模式对应的权重相加得到同质边的权重。
可以理解的是,通过构造同质边使各个网络节点形成连接即构造出同质图。例如,可以根据网络节点自身属性的变化和/或者行为模式的变化,通过同质边构建动态同质图,从而依据该动态同质图及时执行聚类得到更新的多个社区子图。由于同质边能够有效表达节点间的相似性,根据同质边的信息,可以直接得到网络节点间的聚集因素,可解释性强。
步骤106:利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
构造完同质图后,可以使用图划分算法来进行类的划分,划分出的类即社区子图。例如,图划分算法可以采用LPA、Louvain等算法。
例如,Louvain算法是基于模块度(Modularity)的社区发现算法,通过模块度来衡量一个社区的紧密程度。如果一个网络节点加入到某一社区中会使得该社区的模块度有最大程度的增加,则该节点就应当属于该社区。如果加入其它社区后没有使其模块度增加,则留在自己当前社区中。具体地,例如,Louvain算法可以包括两个阶段:第一个阶段中,遍历如图2所示同质图202中的网络节点,通过比较网络节点给每个邻居社区带来的模块度的变化,将单个网络节点加入到能够使模块度有最大增量的社区中;第二个阶段中,将属于同一社区的顶点合并为一个超点并重新构造同质图,例如,如图2所示的同质图204中属于同一社区的顶点“1”、“2”、“4”、“0”、“5”合并为一个超点,“3”、“7”、“6”合并为一个超点,“8”、“15”、“9”、“14”、“10”、“12”合并为一个超点,得到重新构造的同质图,一个社区作为同质图的一个新的网络节点,此时两个超点之间边的权重是两个超点内所有原始顶点之间相连的边权重之和,即两个社区之间的边权重之和。Louvain算法不断迭代第一阶段和第二阶段,直到算法稳定(例如,图的模块度不再变化)或者到达最大迭代次数,最终输出得到多个社区子图。
其中,所述模块度可以基于以下算式进行计算:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE006
,表示网络节点i与网络节点j之间同质边的权重;
Figure DEST_PATH_IMAGE008
,表示所有与网络节点i相连的同质边的权重之和;
Figure DEST_PATH_IMAGE010
,表示节点i所属的社区;
Figure DEST_PATH_IMAGE012
,表示节点j所属的社区;m,表示图中所有同质边的权重之和。
可见,由于该方法查找出具有相同属性和/或相同行为模式的网络节点,通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图,从而同质图中的同质边能够有效表达节点间的相似性,再利用图划分算法对所述同质图进行类的划分,得到多个社区子图,既避免了复杂的相似度计算,又能够通过图划分算法得到准确的聚类结果。
本说明书一个或多个实施例中,为了进一步提高类的准确率,降低类中成员的差异性,该方法还可以计算所述社区子图中网络节点的同质度,所述同质度用于表示所述网络节点在所述社区子图中与其他网络节点的属性以及行为模式相同的程度;将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。在该实施方式中,通过将低于预设同质度阈值的网络节点从类中删除实现了类提纯,提高了类的纯度,降低了类中成员的差异性,提高了类的准确率。
例如,所述计算所述社区子图中网络节点的同质度可以包括:利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度。例如,同质度simi=a*k+b*w。其中,k,表示网络节点在社区子图中与其他网络节点之间的同质边的边数,w表示网络节点在社区子图中与其他网络节点之间的同质边的权重,a,b是根据实际场景需要设置的调节参数。在该实施方式中,通过同质边数量以及同质边的权重准确计算出用来表示属性以及行为模式相同程度的同质度,从而进一步提高了类的准确率,降低类中成员的差异性。
再例如,所述计算所述社区子图中网络节点的同质度可以包括:通过计算所述社区子图中所述网络节点的轮廓系数,得到所述网络节点的同质度。例如,所述同质度可以通过以下算式计算得到:
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
,表示样本i到同簇其他样本的平均距离,
Figure 273545DEST_PATH_IMAGE018
越小,说明样本i越应该被聚类到该簇,将
Figure 405450DEST_PATH_IMAGE018
作为样本i的簇内不相同的程度;
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
表示样本i到其他某簇j的所有样本的平均距离,作为样本i与其他某簇j的不相同的程度,
Figure DEST_PATH_IMAGE024
定义为样本i的簇间不同程度。
又例如,还可以使用PageRank的方法计算出社区子图中网络节点的同质度,在此不再赘述。
本说明书一个或多个实施例中,考虑到类重要度相当于对类进行打分,类重要度越高,类中成员属性、行为模式相同的程度越高,越是属于同一个类,类重要度在类的筛选和挖掘行为模式中可以发挥有效的作用,因此,本说明书实施例中还进一步利用所述社区子图中同质边的权重,计算出所述社区子图的类重要度。
例如,为了更加准确地计算出类重要度,本说明书一个或多个实施例中,考虑到类内其他网络节点与同质边两端网络节点的连接,对同质边的权重具有削弱作用,因此,需要对同质边的权重进行修正。具体地,例如,所述方法还可以包括:获取所述社区子图中同质边的初始权重;针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值;针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。例如,在得到修正后权重之后,还可以进一步利用所述社区子图中的同质边的修正后权重,计算出所述社区子图的类重要度。
例如,可以通过以下算式计算出所述社区子图的类重要度
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE030
表示第n个社区子图,m表示第n个社区子图中所有边的初始权重之和,i表示
Figure 248553DEST_PATH_IMAGE030
中第i个网络节点,j表示
Figure 124105DEST_PATH_IMAGE030
中第j个网络节点,
Figure 356503DEST_PATH_IMAGE006
表示连接网络节点i和网络节点j的同质边初始权重,
Figure 675620DEST_PATH_IMAGE008
表示
Figure 360679DEST_PATH_IMAGE030
中所有与网络节点i相连的同质边的初始权重之和,
Figure DEST_PATH_IMAGE032
表示
Figure 571081DEST_PATH_IMAGE030
中所有与网络节点j相连的同质边的初始权重之和,
Figure DEST_PATH_IMAGE034
的计算结果表示网络节点i和网络节点j间的同质边的修正后权重。
再例如,还可以使用PageRank的方法计算出类重要度,在此不再赘述。
可选地,在得到同质图的多个社区子图之后,还可以根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。所述解释性报文,是指描述社区子图公共属性、公共行为模式的信息。报文生成方法不限,例如,可以直接提取社区子图中的同质边对应的属性和/或行为模式信息,例如,相同交易对手,相同交易场景,相同的经营范围等,将提取到的信息填写到报文模板中,形成例如“类中大部分客户都在经营XXX”、“都与XXX有资金往来”、“交易的场景都是XXX”、“这批客户都是XXX类型的客户”之类的解释性报文。可以理解的是,由于本说明书实施例提供的方法所划分出的社区子图中,具有通过相同属性和/或相同行为模式构建的同质边,因此,直接利用同质边对应的相同属性和/或相同行为模式,更加易于生成所述解释性报文。
可选地,结合上述多个实施例,还可以将划分得到的多个社区子图推送到产品端,实时展示社区子图的分布情况、类重要度、网络节点的同质度、解释性报文等,以便于更加清晰明了地在产品端展示聚类的结果。
下面,对结合上述多个实施例的一实施方式进行详细说明。图3示出了本说明书一个实施例提供的一种用于网络点聚类的方法的处理过程流程图,具体步骤包括步骤302至步骤322。
步骤302:查找出具有相同属性和/或相同行为模式的网络节点。
步骤304:通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图。
步骤306:利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
步骤308:利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度。
例如,可以利用社区子图中每个网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出每个网络节点的同质度
步骤310:将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。
步骤312:获取所述社区子图中同质边的初始权重。
步骤314:针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值。
步骤316:针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。
步骤318:利用所述社区子图中的同质边的修正后权重,计算出所述社区子图的类重要度。
步骤320:根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。
步骤322:将所述多个社区子图以及各自对应的类重要度、网络节点的同质度、解释性报文发送给产品端。
可见,根据该实施例,通过构建同质图、图划分算法实现了类划分,经过类提纯提高类的准确率,通过计算网络节点的同质度实现了对类成员打分,针对社区子图生成了解释性报文,最后又实现了类推送与展示,使得类的划分更加更加清晰准确地展示在产品端,充分满足了当前对聚类效果的需求。
与上述方法实施例相对应,本说明书还提供了用于网络节点聚类的装置实施例,图4示出了本说明书一个实施例提供的一种用于网络节点聚类的装置的结构示意图。如图4所示,该装置包括:同质查找模块402、同质图构造模块404及划分模块406。
该同质查找模块402,可以被配置为查找出具有相同属性和/或相同行为模式的网络节点。
该同质图构造模块404,可以被配置为通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图。
该划分模块406,可以被配置为利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
可见,由于该装置查找出具有相同属性和/或相同行为模式的网络节点,通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图,从而同质图中的同质边能够有效表达节点间的相似性,再利用图划分算法对所述同质图进行类的划分,得到多个社区子图,既避免了复杂的相似度计算,又能够通过图划分算法得到准确的聚类结果。
图5示出了本说明书另一个实施例提供的一种用于网络节点聚类的装置的结构示意图。如图5所示,该装置还可以包括:同质度计算模块408及删除模块410。
该同质度计算模块408,可以被配置为计算所述社区子图中网络节点的同质度,所述同质度用于表示所述网络节点在所述社区子图中与其他网络节点的属性以及行为模式相同的程度。
该删除模块410,可以被配置为将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。
在该实施方式中,通过将低于预设同质度阈值的网络节点从类中删除实现了类提纯,提高了类的纯度,降低了类中成员的差异性,提高了类的准确率。
例如,所述同质度计算模块408,可以被配置为利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度;或者,通过计算所述社区子图中所述网络节点的轮廓系数,得到所述网络节点的同质度。
本说明书一个或多个实施例中,如图5所示,该装置还可以包括:类重要度计算模块412,可以被配置为利用所述社区子图中同质边的权重,计算出所述社区子图的类重要度。通过该实施方式计算出类重要度,可以使类重要度在类的筛选和挖掘行为模式中发挥有效的作用。
本说明书一个或多个实施例中,如图5所示,该装置还可以包括:初始权重获取模块414、修正值计算模块416及权重修正模块418。
该初始权重获取模块414,可以被配置为获取所述社区子图中同质边的初始权重。
该修正值计算模块416,可以被配置为针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值。
该权重修正模块418,可以被配置为针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。
在该实施方式中,考虑到类内其他网络节点与同质边两端网络节点的连接,对同质边的权重具有削弱作用,因此,通过对同质边的权重进行修正,使同质边的修正后的权重更加准确。
例如,在得到修正后权重之后,还可以进一步利用所述社区子图中的同质边的修正后权重,计算出所述社区子图的类重要度,提高类重要度的准确度,
本说明书一个或多个实施例中,如图5所示,该装置还可以包括:报文生成模块420,可以被配置为根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。可以理解的是,由于本说明书实施例提供的方法所划分出的社区子图中,具有通过相同属性和/或相同行为模式构建的同质边,因此,直接利用同质边对应的相同属性和/或相同行为模式,更加易于生成所述解释性报文。
上述为本实施例的一种用于网络节点聚类的装置的示意性方案。需要说明的是,该用于网络节点聚类的装置的技术方案与上述的用于网络节点聚类的方法的技术方案属于同一构思,用于网络节点聚类的装置的技术方案未详细描述的细节内容,均可以参见上述用于网络节点聚类的方法的技术方案的描述。
图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令:
查找出具有相同属性和/或相同行为模式的网络节点;
通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;
利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的用于网络节点聚类的方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述用于网络节点聚类的方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
查找出具有相同属性和/或相同行为模式的网络节点;
通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;
利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的用于网络节点聚类的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述用于网络节点聚类的方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种用于网络节点聚类的方法,包括:
查找出具有相同属性和/或相同行为模式的网络节点;
通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;
利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
2.根据权利要求1所述的方法,还包括:
计算所述社区子图中网络节点的同质度,所述同质度用于表示所述网络节点在所述社区子图中与其他网络节点的属性和/或行为模式相同的程度;
将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。
3.根据权利要求2所述的方法,所述计算所述社区子图中网络节点的同质度包括:
利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度;
或者,
通过计算所述社区子图中所述网络节点的轮廓系数,得到所述网络节点的同质度。
4.根据权利要求1所述的方法,还包括:
利用所述社区子图中同质边的权重,计算出所述社区子图的类重要度。
5.根据权利要求1或4所述的方法,还包括:
获取所述社区子图中同质边的初始权重;
针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值;
针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。
6.根据权利要求1所述的方法,还包括:
根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。
7.一种用于网络节点聚类的装置,包括:
同质查找模块,被配置为查找出具有相同属性和/或相同行为模式的网络节点;
同质图构造模块,被配置为通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;
划分模块,被配置为利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
8.根据权利要求7所述的装置,还包括:
同质度计算模块,被配置为计算所述社区子图中网络节点的同质度,所述同质度用于表示所述网络节点在所述社区子图中与其他网络节点的属性和/或行为模式相同的程度;
删除模块,被配置为将所述社区子图中同质度低于预设同质度阈值的网络节点从所述社区子图中删除。
9.根据权利要求8所述的装置,所述同质度计算模块,被配置为利用所述社区子图中所述网络节点与其他网络节点连接的同质边数量以及同质边的权重,计算出所述网络节点的同质度;或者,通过计算所述社区子图中所述网络节点的轮廓系数,得到所述网络节点的同质度。
10.根据权利要求7所述的装置,还包括:
类重要度计算模块,被配置为利用所述社区子图中同质边的权重,计算出所述社区子图的类重要度。
11.根据权利要求7或10所述的装置,还包括:
初始权重获取模块,被配置为获取所述社区子图中同质边的初始权重;
修正值计算模块,被配置为针对所述社区子图中的同质边,将所针对的同质边一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和乘以所针对的同质边另一端的网络节点与所述社区子图中其他网络节点相连的同质边的初始权重之和,得到所针对的同质边的权重修正值;
权重修正模块,被配置为针对所述社区子图中的同质边,将所针对的同质边的初始权重减去所针对的同质边的权重修正值,得到所针对的同质边的修正后权重。
12.根据权利要求7所述的装置,还包括:
报文生成模块,被配置为根据所述社区子图中的同质边对应的相同属性和/或相同行为模式,生成所述社区子图的解释性报文。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
查找出具有相同属性和/或相同行为模式的网络节点;
通过在具有相同属性和/或相同行为模式的网络节点间构造同质边,构造出同质图;
利用图划分算法对所述同质图进行类的划分,得到多个社区子图。
14.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至6任意一项所述用于网络节点聚类的方法的步骤。
CN202010412423.XA 2020-05-15 2020-05-15 用于网络节点聚类的方法以及装置 Active CN111339376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010412423.XA CN111339376B (zh) 2020-05-15 2020-05-15 用于网络节点聚类的方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010412423.XA CN111339376B (zh) 2020-05-15 2020-05-15 用于网络节点聚类的方法以及装置

Publications (2)

Publication Number Publication Date
CN111339376A true CN111339376A (zh) 2020-06-26
CN111339376B CN111339376B (zh) 2020-10-27

Family

ID=71182953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010412423.XA Active CN111339376B (zh) 2020-05-15 2020-05-15 用于网络节点聚类的方法以及装置

Country Status (1)

Country Link
CN (1) CN111339376B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333654A (zh) * 2020-10-28 2021-02-05 华北电力大学 提高无线传感网鲁棒性的能量局部均衡拓扑控制算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008165A (zh) * 2014-05-29 2014-08-27 华东师范大学 一种基于网络拓扑结构和节点属性的社团检测方法
US20160364469A1 (en) * 2008-08-08 2016-12-15 The Research Foundation For The State University Of New York System and method for probabilistic relational clustering
CN106407373A (zh) * 2016-09-12 2017-02-15 电子科技大学 一种异质网络社团结构以及基于该结构的社团发现方法
CN108228706A (zh) * 2017-11-23 2018-06-29 中国银联股份有限公司 用于识别异常交易社团的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364469A1 (en) * 2008-08-08 2016-12-15 The Research Foundation For The State University Of New York System and method for probabilistic relational clustering
CN104008165A (zh) * 2014-05-29 2014-08-27 华东师范大学 一种基于网络拓扑结构和节点属性的社团检测方法
CN106407373A (zh) * 2016-09-12 2017-02-15 电子科技大学 一种异质网络社团结构以及基于该结构的社团发现方法
CN108228706A (zh) * 2017-11-23 2018-06-29 中国银联股份有限公司 用于识别异常交易社团的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王思檬: "边异质网络社区发现方法的研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333654A (zh) * 2020-10-28 2021-02-05 华北电力大学 提高无线传感网鲁棒性的能量局部均衡拓扑控制算法

Also Published As

Publication number Publication date
CN111339376B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
Zareie et al. Influential node ranking in social networks based on neighborhood diversity
Morone et al. Influence maximization in complex networks through optimal percolation
Harenberg et al. Community detection in large‐scale networks: a survey and empirical evaluation
Hu et al. Improving one-shot nas with shrinking-and-expanding supernet
US8856047B2 (en) Fast personalized page rank on map reduce
CN113626723B (zh) 一种基于表示学习的属性图社区搜索方法和系统
Bondell et al. Shrinkage inverse regression estimation for model-free variable selection
Ebadian et al. Fast algorithm for k-truss discovery on public-private graphs
CN110825935A (zh) 社区核心人物挖掘方法、系统、电子设备及可读存储介质
CN111339376B (zh) 用于网络节点聚类的方法以及装置
Jia et al. Improving fast adversarial training with prior-guided knowledge
CN113254797B (zh) 一种社交网络社区的搜索方法、装置以及处理设备
CN108614932B (zh) 基于边图的线性流重叠社区发现方法、系统及存储介质
Luo et al. A Study on Many‐Objective Optimization Using the Kriging‐Surrogate‐Based Evolutionary Algorithm Maximizing Expected Hypervolume Improvement
Palsetia et al. Excavating social circles via user interests
CN115169455A (zh) 基于改进的社区发现算法的交易数据异常检测方法及装置
CN114385596A (zh) 数据处理方法及装置
Wang et al. Coarse-to-fine searching for efficient generative adversarial networks
CN114332472A (zh) 一种基于图神经网络的数据处理方法及装置
Xu et al. An improved Hara-Takamura procedure by sharing computations on junction tree in Gaussian graphical models
Nawaz et al. Collaborative similarity measure for intra graph clustering
CN110738418A (zh) 一种弱连接重叠社区的检测方法
Zeng et al. Selective edge shedding in large graphs under resource constraints
CN111292171A (zh) 金融理财产品推送方法及装置
US20230342420A1 (en) Approximate maximal clique enumeration for dynamic graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant