CN112686766B - 一种社交网络的嵌入表示方法、装置、设备和存储介质 - Google Patents
一种社交网络的嵌入表示方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112686766B CN112686766B CN202011585175.5A CN202011585175A CN112686766B CN 112686766 B CN112686766 B CN 112686766B CN 202011585175 A CN202011585175 A CN 202011585175A CN 112686766 B CN112686766 B CN 112686766B
- Authority
- CN
- China
- Prior art keywords
- node
- social network
- network
- embedded representation
- reserved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000005295 random walk Methods 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000014759 maintenance of location Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种社交网络的嵌入表示方法、装置、设备和存储介质,方法包括:响应于分析请求,获取待分析社交网络;对所述待分析社交网络中的各节点生成对应的随机游走序列;对各所述随机游走序列上的节点进行节点对采集,得到采集节点对;从所有所述采集节点对中选取保留节点对;根据所述保留节点对对应的网络训练参数,得到所述待分析社交网路的嵌入表示结果。解决了现有对社交网络的嵌入表示只考虑了网络结构信息,导致得到的有用信息不够准确技术问题。
Description
技术领域
本申请涉及网络分析技术领域,尤其涉及一种社交网络的嵌入表示方法、装置、设备和存储介质。
背景技术
各种社交软件(例如Facebook、Wechat等)的发展,为人们在网络中与他人的交流带来了彻底的变革。在网络中用户相互关联,组成一个社交网络。社交网络研究之一是,根据社交网络中用户的有用信息将用户分类为有意义的群体,它有许多的实际应用,例如用户搜索,针对性广告和推荐。因此,如何准确地从社交网络中学习有用的信息是研究者关注的问题。
嵌入表示是现有学习有用信息的方法之一,所谓嵌入表示即将每个节点表示为一个低维向量以有效的捕获社交网络中的信息。但是在利用上述的嵌入表示方法时,网络结构信息和节点属性信息对嵌入表示的影响不均衡,导致最终得到的嵌入表示结果不够准确。
发明内容
本申请提供了一种社交网络的嵌入表示方法、装置、设备和存储介质,解决了现有对社交网络的嵌入表示时得到的有用信息不够准确技术问题。
有鉴于此,本申请第一方面提供了一种社交网络的嵌入表示方法,包括:
响应于分析请求,获取待分析社交网络;
对所述待分析社交网络中的各节点生成对应的随机游走序列;
对各所述随机游走序列上的节点进行节点对采集,得到采集节点对;
从所有所述采集节点对中选取保留节点对;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网路的嵌入表示结果。
可选地,从所有所述采集节点对中选取保留节点对,具体包括:
从所有所述采集节点对中,选取重复频次最多的N个节点对作为保留节点对,其中N为1以上的自然数;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网路的嵌入表示结果,具体包括:
将N个所述保留节点对输入至预置网络中进行训练;
更新所述预置网络的网络训练参数和学习率;
当所述更新次数为预设次数以上的值时,输出所述网络训练参数;
根据所述网络训练参数构建所述待分析社交网络的嵌入表示结果。
可选地,更新所述预置网络的网络训练参数和学习率,具体包括:
更新所述预置网路对应的学习率,并以更新后的所述学习率对应的下降步长更新所述网络训练参数。
可选地,从所有所述采集节点对中选取保留节点对,具体包括:
根据多个保留比例,从所有所述采集节点对中选取各所述保留比例对应的保留节点对;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网路的嵌入表示结果,具体包括:
将各所述保留比例对应的保留节点对输入至预置网络,得到所述预置网络输出的各所述保留比例对应的网络训练参数;
根据各所述保留比例对应的网络训练参数构建对应的嵌入表示子结果,并计算各嵌入表示子结果的KNN得分;
将KNN得分最高的所述嵌入表示子结果作为所述待分析社交网络的嵌入表示结果。
可选地,多个所述保留比例呈等比数列分布。
可选地,对所述待分析社交网络中的各节点生成对应的随机游走序列,具体包括:
以所述待分析社交网络中的各节点为起点,生成对应的随机游走序列。
可选地,对各所述随机游走序列上的节点进行节点对采集,得到采集节点对,具体包括:
以预置间距为采集间距,对各所述随机游走序列中的节点进行两两采集,得到采集节点对。
本申请第二方面提供了一种社交网络的嵌入表示装置,包括:
获取单元,用于响应于分析请求,获取待分析社交网络;
生成单元,用于对所述待分析社交网络中的各节点生成对应的随机游走序列;
采集单元,用于对各所述随机游走序列上的节点进行节点对采集,得到采集节点对;
选取单元,用于从所有所述采集节点对中选取保留节点对;
确定单元,用于根据所述保留节点对对应的网络训练参数,得到所述待分析社交网路的嵌入表示结果。
本申请第三发明提供了一种社交网络的嵌入表示设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如第一方面所述的社交网络的嵌入表示方法。
本申请第四方面提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行如第一方面所述的社交网络的嵌入表示方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种社交网络的嵌入表示方法,包括响应于分析请求,获取待分析社交网络;对所述待分析社交网络中的各节点生成对应的随机游走序列;对各所述随机游走序列上的节点进行节点对采集,得到采集节点对;从所有所述采集节点对中选取保留节点对;根据所述保留节点对对应的网络训练参数,得到所述待分析社交网路的嵌入表示结果。解决了现有对社交网络的嵌入表示只考虑了网络结构信息,导致得到的有用信息不够准确技术问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为社交网络的结构举例示意图;
图2为对图1仅学习网络结构信息的嵌入表示分布;
图3为对图1仅学习节点属性信息的嵌入表示分布;
图4本申请实施例中一种社交网络的嵌入表示方法的实施例一的流程示意图;
图5为通过本实施例中的嵌入表示方法对图1进行嵌入表示后的嵌入表示分布;
图6本申请实施例中一种社交网络的嵌入表示方法的实施例二的流程示意图;
图7本申请实施例中一种社交网络的嵌入表示方法的实施例三的流程示意图;
图8本申请实施例中一种社交网络的嵌入表示装置的实施例的结构示意图。
具体实施方式
为了便于理解,首先对社交网络中的相关原理及定义说明如下:
社交网络是一个带属性的社交图G=(V,E,X),其中V是节点集,E是边集,X是属性集。每个节点vi∈V的属性是一个d维特征向量;xi∈X,它描述了节点的属性信息。社交网络嵌入表示的目的是将每个节点vi∈V映射到一个低维空间中,并以节点vi的映射图像Φ(vi)作为学习的节点进行表示。学习的节点表示应该满足三个性质:低维,保留网络结构信息和保留节点属性信息。
节点属性信息将会趋向于将具有相同属性信息的节点聚集在一起,例如相同性别的人;而网络结构信息会趋向于将具有相同邻居的节点聚集在一起。二者指示的分布不一定是相同的。举一个具体的例子,如图1所示的社交网络,节点1、2、5为性别女,节点3、4为性别男。网络结构信息希望节点2和4聚集在一起,因为他们具有共同的邻居节点1和3,其次希望节点1和3聚集在一起,因为他们大部分邻居(即2和4)相同,最后希望节点5靠近节点2和4,因为他们具有共同的邻居节点3;而节点属性信息希望将节点1,2和5聚集在一起,将节点3和4聚集在一起,因为他们具有相同的属性。图2和3分别是仅学习网络结构信息和仅学习节点属性信息的嵌入表示分布。
由上述可知,网络结构信息和节点属性信息指示着不同的分布。在学习过程中,因嵌入表示的维度有限,可能难以保留所有的信息。对于不同信息源的学习,必然隐含一个权重,这决定着学习的表示更倾向于哪个分布。目前,现有方法中网络结构信息对嵌入表示的影响较大,而节点属性信息的影响较小。在这些方法中,模型不断地强化网络结构信息,使得网络结构信息的影响在不断地加强,节点属性信息的影响则不断地减弱,最终导致了网络结构信息和节点属性信息对嵌入表示影响的不均衡。故,本申请中希望找到网络结构信息和节点属性信息对嵌入表示影响的一个平衡点。
有鉴于此,本申请实施例提供了一种社交网络的嵌入表示方法、装置、设备和存储介质,解决了现有对社交网络的嵌入表示只考虑了网络结构信息,导致得到的有用信息不够准确技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图4,本申请实施例中一种社交网络的嵌入表示方法的实施例一的流程示意图。
本实施例中的一种社交网络的嵌入表示方法包括:
步骤401、响应于分析请求,获取待分析社交网络。
本实施例中的待分析社交网络可以是现有的多种社交网络结构,当然社交网络也可以是本领域技术人员配置的一些网络,具体地可以根据需要进行选择,在此不再一一赘述。
步骤402、对待分析社交网络中的各节点生成对应的随机游走序列。
在获取到待分析社交网络后,对待分析社交网络中的各节点生成对应的随机游走序列。
随机游走序列的具体配置,本领域技术人员可以根据需要进行,在本实施例中不再赘述。
步骤403、对各随机游走序列上的节点进行节点对采集,得到采集节点对。
随机游走序列上有多个节点,将这些节点两两采集,便可得到采集节点对。具体节点对的采集方式本实施例中不做具体限定和赘述。
步骤404、从所有采集节点对中选取保留节点对。
对各随机游走序列上的节点进行节点对采集后,得到采集节点对,采集节点对的数量较多,如果全部的对这些采集节点对进行分析,势必会导致在学习过程中,因嵌入表示的维度有限,模型不断地强化网络结构信息,使得网络结构信息的影响在不断地加强,节点属性信息的影响则不断地减弱,导致网络结构信息和节点属性信息对嵌入表示影响的不均衡。因此,本实施例中是通过减少随机游走过程中获得的节点对,节省了嵌入表示的维度,同时该节省部分的维度可以用来表示节点的属性信息,通过上述的方式减少了网络结构信息对嵌入表示的影响,加强了节点属性信息对嵌入表示的影响。
步骤405、根据保留节点对对应的网络训练参数,得到待分析社交网路的嵌入表示结果。
根据保留节点对对应的网络训练参数,便可得到待分析社交网络的嵌入表示结果。本实施例中通过保留节点对的设置,减少了网络结构信息对嵌入表示的影响,加强了节点属性信息对嵌入表示的影响,使得得到的嵌入表示结果更准确,即得到的有用信息更准确。
如图5所示为通过本实施例中的嵌入表示方法对图1进行嵌入表示后的嵌入表示分布,由图5可知,由于本实施例中优先地考虑了节点属性信息。图5中的节点5更接近节点1和2而不是节点2和4,因为其更优先考虑了节点5的属性信息,而不是网络结构信息。如此处理的优点在于,更优先的考虑了节点属性信息,使得嵌入表示更均衡的学习了网络结构信息和节点属性信息。
本实施例中首先响应于分析请求,获取待分析社交网络,接着对待分析社交网络中的各节点生成对应的随机游走序列;对各随机游走序列上的节点进行节点对采集,得到采集节点对;从所有采集节点对中选取保留节点对;根据保留节点对对应的网络训练参数,得到待分析社交网路的嵌入表示结果。解决了现有对社交网络的嵌入表示只考虑了网络结构信息,导致得到的有用信息不够准确技术问题。
以上为本申请实施例提供的一种社交网络的嵌入表示方法的实施例一,以下为本申请实施例提供的一种社交网络的嵌入表示方法的实施例二。
请参阅图6,本申请实施例中一种社交网络的嵌入表示方法的实施例二的流程示意图。
本实施例中的一种社交网络的嵌入表示方法包括:
步骤601、响应于分析请求,获取待分析社交网络。
需要说明的是,步骤601的描述与实施例一种步骤401的描述相同,在此不再赘述。
步骤602、对待分析社交网络中的各节点生成对应的随机游走序列。
本实施例中,对待分析社交网络中的各节点生成对应的随机游走序列,具体包括:
以待分析社交网络中的各节点为起点,生成对应的随机游走序列。
可以理解的是,以各节点为起点生成对应的随机游走序列时,随机游走的长度本领域技术人员可以根据需要进行设置,例如,设置为40、50、80等,在此不做限定和赘述。
当随机游走序列的长度为40时,即随机游走序列中的节点数量为40个。节点1的随机游走序列为由节点1开头,待分析社交网络中的另外39个的节点构成的一个序列。
各节点的随机游走序列的数目可以是多个,例如,10个、8个、20个等,具体本领域技术人员可以根据需要进行设置。具体在配置某一节点的多个随机游走序列时,从该节点开始随机游走一次生成一个随机游走序列,则对应的多个随机游走序列是从该节点开始随机游走对应数目的次数后得到的。
步骤603、对各随机游走序列上的节点进行节点对采集,得到采集节点对。
可以理解的是,对各随机游走序列上的节点进行节点对采集,得到采集节点对,具体包括:
以预置间距为采集间距,对各随机游走序列中的节点进行两两采集,得到采集节点对。可以理解的是,采集的两个节点之间的距离小于预置间距,也即当两个节点之间的距离小于预置间距时,将这两个节点作为一对的采集节点对。例如,随机游走序列为节点1、节点2、节点5、节点7、节点8、节点10、节点14,预置间距为相隔两个节点间距间隔,则得到的采集节点对为:节点1和节点2、节点1和节点5、节点2和节点5、节点2和节点7、节点5和节点7、节点5和节点8……以此类推。可以理解的是,上述的采集间距本领域技术人员可以根据需要进行设置,上述的说明仅仅是一种示意性的举例说明。
步骤604、从所有采集节点对中,选取重复频次最多的N个节点对作为保留节点对,其中N为1以上的自然数。
本实施例中保留高频次节点对,过滤低频次节点对,以达到降低网络结构信息对嵌入表示的影响,从而提升节点属性信息的影响这一目的,具体地是从所有的采集节点对中选取重复频次最多的N个节点对作为保留节点对。
步骤605、将N个保留节点对输入至预置网络中进行训练。
在得到N个保留节点对后,将N个保留节点对输入至预置网络中进行训练。
步骤606、更新预置网络的网络训练参数和学习率。
本实施例中,更新预置网络的网络训练参数和学习率,具体包括:
更新预置网路对应的学习率,并以更新后的学习率对应的下降步长更新网络训练参数。
在将N个保留节点对输入至预置网络后,预置网络中设置有网络训练参数和学习率的初始值,基于该学习率的初始值,对网络训练参数进行更新,然后再更新学习率,并基于更新后的学习率更新网络训练参数,以此类推。
步骤607、当更新次数为预设次数以上的值时,输出网络训练参数。
当步骤606中的更新次数为预设次数以上的值时,输出此时的网络训练参数。
步骤608、根据网络训练参数构建待分析社交网络的嵌入表示结果。
上述步骤607中输出的网络训练参数,即待分析社交网络嵌入表示的映射,也就是说为待分析社交网络中节点vi的映射图像Φ(vi)。得到上述的网络训练参数便可以构建待分析社交网络的嵌入表示结果。
本实施例中通过高频次节点对保留的方式,即关注了重要节点对,在减少网络结构信息影响的同时,尽可能确保减小的部分不至于对嵌入表示结果造成大的影响。
以上为本申请实施例提供的一种社交网络的嵌入表示方法的实施例二,以下为本申请实施例提供的一种社交网络的嵌入表示方法的实施例三。
本实施例中的一种社交网络的嵌入表示方法包括:
请参阅图7,本申请实施例中一种社交网络的嵌入表示方法的实施例三的流程示意图。
步骤701、响应于分析请求,获取待分析社交网络。
需要说明的是,步骤501的描述与实施例一种步骤401的描述相同,在此不再赘述。
步骤702、对待分析社交网络中的各节点生成对应的随机游走序列。
对待分析社交网络中的各节点生成对应的随机游走序列,具体包括:
以待分析社交网络中的各节点为起点,生成对应的随机游走序列。
可以理解的是,以各节点为起点生成对应的随机游走序列时,随机游走的长度本领域技术人员可以根据需要进行设置,例如,设置为40、50、80等,在此不做限定和赘述。
当随机游走序列的长度为40时,即随机游走序列中的节点数量为40个。节点1的随机游走序列为由节点1开头,待分析社交网络中的另外39个的节点构成的一个序列。
各节点的随机游走序列的数目可以是多个,例如,10个、8个、20个等,具体本领域技术人员可以根据需要进行设置。具体在配置某一节点的多个随机游走序列时,从该节点开始随机游走一次生成一个随机游走序列,则对应的多个随机游走序列是从该节点开始随机游走对应数目的次数后得到的。
步骤703、对各随机游走序列上的节点进行节点对采集,得到采集节点对。
对各随机游走序列上的节点进行节点对采集,得到采集节点对,具体包括:
以预置间距为采集间距,对各随机游走序列中的节点进行两两采集,得到采集节点对。
以预置间距为采集间距,对各随机游走序列中的节点进行两两采集,得到采集节点对。例如,随机游走序列为节点1、节点2、节点5、节点7、节点8、节点10、节点14,预置间距为相隔两个节点间距间隔,则得到的采集节点对为:节点1和节点5、节点2和节点7、节点5和节点8……以此类推。可以理解的是,上述的采集间距本领域技术人员可以根据需要进行设置,上述的说明仅仅是一种示意性的举例说明。
步骤704、根据多个保留比例,从所有采集节点对中选取各保留比例对应的保留节点对。
根据多个保留比例,确定各保留比例对应的保留节点对,例如,保留比例为1,则保留节点对的数量和采集节点对的数量相同;当保留比例为0.5,则保留节点对数量为采集节点对数量的一半。
本实施例中的多个保留比例呈等比数列分布。可以理解的是,上述的保留比例也可以为其他数据关系的数值,例如等差数列等,本实施例中不再一一赘述。
步骤705、将各保留比例对应的保留节点对输入至预置网络,得到预置网络输出的各保留比例对应的网络训练参数。
将各保留比例时对应确定的保留节点对输入至预置网络,得到预置网络输出的该保留比例对应的网络训练参数。
具体某一保留比例时,该保留比例对应的网络训练参数的设置,可以参见实施例中的有关描述,在此不再赘述。
步骤706、根据各保留比例对应的网络训练参数构建对应的嵌入表示子结果,并计算各嵌入表示子结果的KNN得分。
本实施例中KNN得分计算表达式为:
其中,accuracyi为嵌入表示j对第i个属性的分类任务准确率,n为属性数量,score为KNN得分。
步骤707、将KNN得分最高的嵌入表示子结果作为待分析社交网络的嵌入表示结果。
本实施例中首先响应于分析请求,获取待分析社交网络,接着对待分析社交网络中的各节点生成对应的随机游走序列;对各随机游走序列上的节点进行节点对采集,得到采集节点对;从所有采集节点对中选取保留节点对;根据保留节点对对应的网络训练参数,得到待分析社交网路的嵌入表示结果。解决了现有对社交网络的嵌入表示只考虑了网络结构信息,导致得到的有用信息不够准确技术问题。
以上为本申请实施例提供的一种社交网络的嵌入表示方法的实施例三,以下为本申请实施例提供的一种社交网络的嵌入表示方法的实验例。
为了验证本发明提出的嵌入表示方法的性能,进行如下实验进行验证,首先对本实验例中的相关参数和数据说明如下:
数据集。实验数据集为facebook,google,twitter。其中,节点表示用户,边表示用户之间无权重的链接,属性表示描述用户的特征向量,具体的信息如下表1所示。
表1
将本申请中的嵌入表示方法和四个对比方法进行了对比,对对比方法的相关说明有如下:
原理说明:
对比方法一:使用随机游走生成节点上下文,并使用Skip-Gram模型学习网络结构信息。
对比方法二:使用有偏的随机游走和Skip-Gram模型来捕获局部和全局的网络结构信息。
对比方法三:通过随机游走生成节点上下文,使用Skip-Gram模型学习网络结构信息,并通过非线性映射联合学习了节点属性信息。
对比方法四:同时利用自编码器和Skip-Gram模型学习网络结构信息和节点属性信息。
本申请中的方法一(以下简称为方法一):上述实施例三中描述的嵌入表示方法。
本申请中的方法二(以下简称为方法二):上述实施例二中描述的嵌入表示方法。
参数说明:
为了方便对比,我们将嵌入表示维度统一为128。
对比方法一:随机游走次数为10,随机游走长度为40,窗口大小为5。
对比方法二:随机游走次数为10,随机游走长度为80,窗口大小为10。
对比方法三:随机游走次数为40,随机游走长度为100,窗口大小为10。
对比方法四:随机游走次数为10,随机游走长度为80,窗口大小为10。
方法一:随机游走次数为40,随机游走长度为100,窗口大小为10。
方法二:随机游走次数为40,随机游走长度为100,窗口大小为10。
验证各方法对节点分类任务和聚类任务的有效性。对于节点分类任务,采用了KNN分类方法,将待分类节点以外的所有节点作为训练集,并报告了分类任务的准确率。实验后的分类实验结果如下表2所示,聚类实验结果如下表3所示:
表2
如上表2所示,对于节点分类任务,方法一在三个数据集的分类任务上分别取得了98.54%,89.98%和71.96%的准确率,优于大部分的对比方法,方法二在在三个数据集的分类任务上分别取得了93.64%,88.85%和71.03%的准确率,同样也是优于大部分的对比方法。
表3
对于节点聚类任务,采用了K-Means聚类方法,重复了十次聚类,并报告了聚类任务的平均准确率。如上表3所示,方法一在三个数据集的聚类任务上分别取得了94.85%,89.82%和70.75%的准确率,优于所有的对比方法,方法二在三个数据集的聚类任务上分别取得了86.44%,70.65%和59.67%,优于大部分的对比方法。
方法一和方法二在分类任务和聚类任务的效果上都取得了显著的提升。由上述的结果可知,方法一在facebook上的实验结果引人注目。在该数据集上,仅仅使用了3.1*10-3%的节点对,却在分类任务上取得了98.54%的准确率,在聚类任务上取得了94.85%的准确率。值得注意的是,未训练的嵌入表示在分类任务上的准确率为85.17%,远高于学习所有网络结构信息后的分类任务准确率75.76%。在完全学习网络结构信息之后,分类效果反而降低了。这个例子强烈体现了节点属性信息对于学习嵌入表示的作用不亚于网络结构信息,如果学习网络结构信息的过程中,过分忽视节点属性信息,可能适得其反。
上述的实验结果表明,减少网络结构信息,确实可以起到保留更多属性信息的作用,以学习到更好的社交网络嵌入表示。
以上为本申请实施例提供的一种社交网络的嵌入表示方法的实验例,以下为本申请实施例提供的一种社交网络的嵌入表示装置的实施例。
请参阅图8,本申请实施例中一种社交网络的嵌入表示装置的实施例的结构示意图。
本实施例一种社交网络的嵌入表示装置包括:
获取单元801,用于响应于分析请求,获取待分析社交网络;
生成单元802,用于对待分析社交网络中的各节点生成对应的随机游走序列;
采集单元803,用于对各随机游走序列上的节点进行节点对采集,得到采集节点对;
选取单元804,用于从所有采集节点对中选取保留节点对;
确定单元805,用于根据保留节点对对应的网络训练参数,得到待分析社交网路的嵌入表示结果。
本实施例中首先响应于分析请求,获取待分析社交网络,接着对待分析社交网络中的各节点生成对应的随机游走序列;对各随机游走序列上的节点进行节点对采集,得到采集节点对;从所有采集节点对中选取保留节点对;根据保留节点对对应的网络训练参数,得到待分析社交网路的嵌入表示结果。解决了现有对社交网络的嵌入表示只考虑了网络结构信息,导致得到的有用信息不够准确技术问题。
本申请实施例还提供了一种社交网络的嵌入表示设备的实施例,本实施例中的社交网络的嵌入表示设备包括处理器以及存储器;存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行上述实施例中的社交网络的嵌入表示方法。
本实施例中实施例还提供了一种存储介质的实施例,本实施例中的存储介质用于存储程序代码,程序代码用于执行上述实施例中的社交网络的嵌入表示方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个待安装电网网络,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种社交网络的嵌入表示方法,其特征在于,包括:
响应于分析请求,获取待分析社交网络;
对所述待分析社交网络中的各节点生成对应的随机游走序列;
对各所述随机游走序列上的节点进行节点对采集,得到采集节点对;
从所有所述采集节点对中选取保留节点对;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网络的嵌入表示结果;
所述从所有所述采集节点对中选取保留节点对,具体包括:
根据多个保留比例,从所有所述采集节点对中选取各所述保留比例对应的保留节点对;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网络的嵌入表示结果,具体包括:
将各所述保留比例对应的保留节点对输入至预置网络,得到所述预置网络输出的各所述保留比例对应的网络训练参数;
根据各所述保留比例对应的网络训练参数构建对应的嵌入表示子结果,并计算各嵌入表示子结果的KNN得分;
将KNN得分最高的所述嵌入表示子结果作为所述待分析社交网络的嵌入表示结果;
所述KNN得分表达式为:
;
其中,为嵌入表示j对第i个属性的分类任务准确率,n为属性数量,score为KNN得分。
2.根据权利要求1所述的社交网络的嵌入表示方法,其特征在于,从所有所述采集节点对中选取保留节点对,具体包括:
从所有所述采集节点对中,选取重复频次最多的N个节点对作为保留节点对,其中N为1以上的自然数;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网络的嵌入表示结果,具体包括:
将N个所述保留节点对输入至预置网络中进行训练;
更新所述预置网络的网络训练参数和学习率;
当所述更新次数为预设次数以上的值时,输出所述网络训练参数;
根据所述网络训练参数构建所述待分析社交网络的嵌入表示结果。
3.根据权利要求2所述的社交网络的嵌入表示方法,其特征在于,更新所述预置网络的网络训练参数和学习率,具体包括:
更新所述预置网络对应的学习率,并以更新后的所述学习率对应的下降步长更新所述网络训练参数。
4.根据权利要求1所述的社交网络的嵌入表示方法,其特征在于,多个所述保留比例呈等比数列分布。
5.根据权利要求1所述的社交网络的嵌入表示方法,其特征在于,对所述待分析社交网络中的各节点生成对应的随机游走序列,具体包括:
以所述待分析社交网络中的各节点为起点,生成对应的随机游走序列。
6.根据权利要求1所述的社交网络的嵌入表示方法,其特征在于,对各所述随机游走序列上的节点进行节点对采集,得到采集节点对,具体包括:
以预置间距为采集间距,对各所述随机游走序列中的节点进行两两采集,得到采集节点对。
7.一种社交网络的嵌入表示装置,其特征在于,包括:
获取单元,用于响应于分析请求,获取待分析社交网络;
生成单元,用于对所述待分析社交网络中的各节点生成对应的随机游走序列;
采集单元,用于对各所述随机游走序列上的节点进行节点对采集,得到采集节点对;
选取单元,用于从所有所述采集节点对中选取保留节点对;
确定单元,用于根据所述保留节点对对应的网络训练参数,得到所述待分析社交网络的嵌入表示结果;
所述从所有所述采集节点对中选取保留节点对,具体包括:
根据多个保留比例,从所有所述采集节点对中选取各所述保留比例对应的保留节点对;
根据所述保留节点对对应的网络训练参数,得到所述待分析社交网络的嵌入表示结果,具体包括:
将各所述保留比例对应的保留节点对输入至预置网络,得到所述预置网络输出的各所述保留比例对应的网络训练参数;
根据各所述保留比例对应的网络训练参数构建对应的嵌入表示子结果,并计算各嵌入表示子结果的KNN得分;
将KNN得分最高的所述嵌入表示子结果作为所述待分析社交网络的嵌入表示结果;
所述KNN得分表达式为:
;
其中,为嵌入表示j对第i个属性的分类任务准确率,n为属性数量,score为KNN得分。
8.一种社交网络的嵌入表示设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至6中任一项所述的社交网络的嵌入表示方法。
9.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至6中任一项所述的社交网络的嵌入表示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585175.5A CN112686766B (zh) | 2020-12-26 | 2020-12-26 | 一种社交网络的嵌入表示方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585175.5A CN112686766B (zh) | 2020-12-26 | 2020-12-26 | 一种社交网络的嵌入表示方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686766A CN112686766A (zh) | 2021-04-20 |
CN112686766B true CN112686766B (zh) | 2024-05-31 |
Family
ID=75454546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011585175.5A Active CN112686766B (zh) | 2020-12-26 | 2020-12-26 | 一种社交网络的嵌入表示方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686766B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325152A (zh) * | 2018-09-27 | 2019-02-12 | 国信优易数据有限公司 | 一种节点嵌入表示方法和装置 |
CN110879856A (zh) * | 2019-11-27 | 2020-03-13 | 国家计算机网络与信息安全管理中心 | 一种基于多特征融合的社交群体分类方法及系统 |
CN111476673A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于神经网络的社交网络间用户对齐的方法、装置、介质 |
CN112100332A (zh) * | 2020-09-14 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 词嵌入表示学习方法及装置、文本召回方法及装置 |
-
2020
- 2020-12-26 CN CN202011585175.5A patent/CN112686766B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325152A (zh) * | 2018-09-27 | 2019-02-12 | 国信优易数据有限公司 | 一种节点嵌入表示方法和装置 |
CN110879856A (zh) * | 2019-11-27 | 2020-03-13 | 国家计算机网络与信息安全管理中心 | 一种基于多特征融合的社交群体分类方法及系统 |
CN111476673A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于神经网络的社交网络间用户对齐的方法、装置、介质 |
CN112100332A (zh) * | 2020-09-14 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 词嵌入表示学习方法及装置、文本召回方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112686766A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pelevina et al. | Making sense of word embeddings | |
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
Shi et al. | A link clustering based overlapping community detection algorithm | |
Xie et al. | Overlapping community detection in networks: The state-of-the-art and comparative study | |
Cukierski et al. | Graph-based features for supervised link prediction | |
CN108280236B (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
US11074274B2 (en) | Large scale social graph segmentation | |
CN103942571A (zh) | 一种基于遗传规划算法的图形图像分类方法 | |
Zhou et al. | ECMdd: Evidential c-medoids clustering with multiple prototypes | |
CN116521936B (zh) | 一种基于用户行为分析的课程推荐方法、装置及存储介质 | |
CN106789338B (zh) | 一种在动态大规模社交网络中发现关键人物的方法 | |
Chen et al. | A temporal recommendation mechanism based on signed network of user interest changes | |
CN112733035A (zh) | 基于知识图谱的知识点推荐方法、装置、存储介质及电子装置 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN109639469A (zh) | 一种联合学习稀疏属性网络表征方法及系统 | |
CN113570391B (zh) | 基于人工智能的社群划分方法、装置、设备及存储介质 | |
CN115374106A (zh) | 一种基于知识图谱技术的数据智能分级方法 | |
CN110472659A (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN112699402B (zh) | 基于联邦个性化随机森林的可穿戴设备活动预测方法 | |
Kumar et al. | Gene expression data clustering using variance-based harmony search algorithm | |
CN112686766B (zh) | 一种社交网络的嵌入表示方法、装置、设备和存储介质 | |
Praveen et al. | A k-means clustering algorithm on numeric data | |
Rong et al. | Exploring network behavior using cluster analysis | |
CN111104571A (zh) | 一种基于比特币交易时序序列相似性的用户聚类方法 | |
Singh et al. | Review of existing methods for finding initial clusters in K-means algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |