CN108921189B - 针对社交网络用户属性的推演方法及装置 - Google Patents

针对社交网络用户属性的推演方法及装置 Download PDF

Info

Publication number
CN108921189B
CN108921189B CN201810502401.5A CN201810502401A CN108921189B CN 108921189 B CN108921189 B CN 108921189B CN 201810502401 A CN201810502401 A CN 201810502401A CN 108921189 B CN108921189 B CN 108921189B
Authority
CN
China
Prior art keywords
feature vector
label
cluster
user node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810502401.5A
Other languages
English (en)
Other versions
CN108921189A (zh
Inventor
毛剑
田文倩
杨晨
关振宇
刘建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Information Safety Research Institute Co ltd
Beihang University
Original Assignee
China Information Safety Research Institute Co ltd
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Information Safety Research Institute Co ltd, Beihang University filed Critical China Information Safety Research Institute Co ltd
Priority to CN201810502401.5A priority Critical patent/CN108921189B/zh
Publication of CN108921189A publication Critical patent/CN108921189A/zh
Application granted granted Critical
Publication of CN108921189B publication Critical patent/CN108921189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对社交网络用户属性的推演方法及装置,其中,方法包括以下步骤:根据与原始簇一一对应的第一标签用户节点的第一特征向量得到第一标签用户节点所在原始簇的第一均值特征向量;根据第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到第二标签用户节点的第二特征向量;根据第二特征向量和第二标签用户节点迭代更新第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代。该方法可以实现根据社交网络中少量显性属性信息,高效地推演出更多用户的隐性属性信息,有效提高推演的准确性和适用性,简单易实现。

Description

针对社交网络用户属性的推演方法及装置
技术领域
本发明涉及计算机、通信和信息安全技术领域,特别涉及一种针对社交网络用户属性的推演方法及装置。
背景技术
随着移动互联网的迅速发展,社交网络信息分析与挖掘成为了工业界与学术界的热点研究议题。社交网络汇聚着庞大的人际网络关系信息和各种属性、行为等信息。基于社交网络内容的现实应用需求,社交网络平台的运营商会基于特定需求将社交网络信息(关系、属性、行为)进行部分开放,与诸如广告商、市场分析机构、科研机构等组织共享。分析社交网络的用户属性特征能够帮助社交网络运营商给用户提供更多便捷优质的服务,同时也能为研究用户行为的影响力、用户偏好等提供基础数据支撑。
社交网络中用户通常只显示部分或者不显示自己的属性信息,而用户的人际关系通常是直接显露出来的。通过人际关系和部分显性的属性信息(用户在社交网络中展示出来的属性信息)能推演出用户的其他隐性属性信息(用户在社交网络中没有展示的属性信息)。目前在社交网络属性推演的研究中,主要有以下几种方法:基于社区发现的算法、基于传统机器学习的方法、基于投票的方法、基于随机游走的方法。每种方法有着各自的优缺点,适用于不同的场景。基于社区发现的算法考虑同质性,认为相似的用户之间具有更密集的关系;基于传统机器学习的方法利用已知用户生成的特征向量样本训练分类器,对未知用户信息进行预测;基于投票的方法采用迭代的方法累积用户从邻居节点获得的权重,并选取最大的权重的属性赋予未知用户;基于随机游走的方法从未知用户出发,沿着关系图移动,最终将停留的已知用户对应的属性赋予该未知用户。
然而,相关技术中的属性推演方法缺少应用于超大规模社交网络数据集的算法性能测试,另外在大规模社交网络数据集中,已知的用户属性占少部分,从少数已知属性推演出大量未知属性的精确度有待提高,推演的精度差,且适用性差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种针对社交网络用户属性的推演方法,该方法可以实现根据社交网络中少量显性属性信息,高效地推演出更多用户的隐性属性信息,有效提高推演的准确性和适用性,简单易实现。
本发明的另一个目的在于提出一种针对社交网络用户属性的推演装置。
为达到上述目的,本发明一方面实施例提出了一种针对社交网络用户属性的推演方法,包括以下步骤:根据与所述原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量;根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量;根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代。
本发明实施例的针对社交网络用户属性的推演方法,利用半监督学习技术,仅根据社交网络用户关系结构特性,即用户之间互为朋友、关注与被关注等这类关系信息和少量的已知属性信息的用户,推演出未知属性信息用户的属性,同时具有高效性并能够适用于多场景,从而实现根据社交网络中少量显性属性信息,高效地推演出更多用户的隐性属性信息,有效提高推演的准确性和适用性,简单易实现。
另外,根据本发明上述实施例的针对社交网络用户属性的推演方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述第一均值特征向量为:
Figure BDA0001670820600000021
其中,vj为所述第一标签用户节点,ωj为所述第一特征向量,K为所述原始簇的簇数,VSm为第m原始簇的标签用户节点集合。
进一步地,在本发明的一个实施例中,其中,所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1,其余为0。
进一步地,在本发明的一个实施例中,初始化所述第二特征向量中第m维分量的值为所述第m原始簇的标签用户节点数量占总标签节点数量的比例,其中,所述总标签节点为所述第一标签用户节点的集合;或者所述第二特征向量为每一维初始化为0的向量。
进一步地,在本发明的一个实施例中,根据所述第一标签用户节点与第二标签用户节点的连接距离特征计算更新第二标签用户节点的第二特征向量。
进一步地,在本发明的一个实施例中,其中,根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。
为达到上述目的,本发明另一方面实施例提出了一种针对社交网络用户属性的推演装置,包括:第一计算模块,用于根据与所述原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量;第二计算模块,用于根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量;迭代更新模块,用于根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代。
本发明实施例的针对社交网络用户属性的推演装置,利用半监督学习技术,仅根据社交网络用户关系结构特性,即用户之间互为朋友、关注与被关注等这类关系信息和少量的已知属性信息的用户,推演出未知属性信息用户的属性,同时具有高效性并能够适用于多场景,从而实现根据社交网络中少量显性属性信息,高效地推演出更多用户的隐性属性信息,有效提高推演的准确性和适用性,简单易实现。
另外,根据本发明上述实施例的针对社交网络用户属性的推演装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述第一均值特征向量为:
Figure BDA0001670820600000031
其中,vj为所述第一标签用户节点,ωj为所述第一特征向量,K为所述原始簇的簇数,VSm为第m原始簇的标签用户节点集合。
进一步地,在本发明的一个实施例中,所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1,其余为0。
进一步地,在本发明的一个实施例中,初始化所述第二特征向量中第m维分量的值为所述第m原始簇的标签用户节点数量占总标签节点数量的比例,其中,所述总标签节点为所述第一标签用户节点的集合;或者所述第二特征向量为每一维初始化为0的向量。
进一步地,在本发明的一个实施例中,根据所述第一标签用户节点与第二标签用户节点的连接距离特征计算更新第二标签用户节点的第二特征向量。
进一步地,在本发明的一个实施例中,其中,根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的社交网络属性推演方法实施例详细描述图;
图2为根据本发明一个实施例的针对社交网络用户属性的推演方法的流程图;
图3为根据本发明一个具体实施例的针对社交网络用户属性的推演方法的流程图;
图4为根据本发明一个实施例的针对社交网络用户属性的推演装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在介绍针对社交网络用户属性的推演方法及装置之前,首先,将社交网络抽象为一个图G=(V,E),其中V表示社交网络中所有的用户节点的集合,E表示社交网络用户之间的关系边的集合。其中没有属性标签的用户节点集合用VU表示,已有属性标签的用户节点集合用VS表示。将所有已知标签用户vj∈VS根据所属标签划分为不同的原始簇,簇数K等于属性标签属性值的不同种类数,即VS={VS1,VS2,...,VSK}。本发明实施例提供的社交网络用户属性推演方法的输入为:社交网络构成的网络图G及少量不同簇已经带有属性标签的用户节点集合VS={VS1,VS2,...,VSK},输出为:划分后的标记簇{VC1,VC2,...,VCK}。本发明实施例提供的社交网络用户属性推演方法的输入输出如图1所示。
下面参照附图描述根据本发明实施例提出的针对社交网络用户属性的推演方法及装置,首先将参照附图描述根据本发明实施例提出的针对社交网络用户属性的推演方法。
图2是本发明一个实施例的针对社交网络用户属性的推演方法的流程图。
如图2所示,该针对社交网络用户属性的推演方法包括以下步骤:
在步骤S201中,根据与原始簇一一对应的第一标签用户节点的第一特征向量得到第一标签用户节点所在原始簇的第一均值特征向量。
可以理解的是,本发明实施例技术方案可以分为两个部分,分别为初始化部分和迭代更新部分,如图3所示,步骤1:初始化已知标签用户节点vj∈VS的特征向量ωj(基于用户节点所属原始簇定义已知标签用户节点的特征向量);计算并初始化每一原始簇m∈{1,2,...,K}中原始已知标签用户节点的均值特征向量μm
进一步地,在本发明的一个实施例中,其中,第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1,其余为0。
具体而言,初始化已知标签用户节点vj∈VS的特征向量ωj,并基于用户节点所属原始簇定义已知标签用户节点的特征向量。初始化已知标签节点的特征向量为一K维向量,K表示聚类的簇数,该标签节点属于哪一簇m,对应向量的第m维分量为1,其余为0。
例如,初始化已知标签节点vj∈VS特征向量为ωj=[ωj1j2,...,ωjK],ωjm=1,m∈{1,2,...,K}当且仅当该标签节点属于第m原始簇,即vj∈VSm;否则ωjm=0。
进一步地,在本发明的一个实施例中,第一均值特征向量为:
Figure BDA0001670820600000051
其中,vj为第一标签用户节点,ωj为第一特征向量,K为原始簇的簇数,VSm为第m原始簇的标签用户节点集合。
具体而言,所有的均值特征向量均可以采用该公式进行计算,计算并初始化每一原始簇m∈{1,2,...,K}中原始已知标签用户节点的均值特征向量μm。计算并初始化每一原始簇均值特征向量的方法是取各簇内所有已知标签节点的特征向量的算数平均。
例如,对于第m簇,其中已知标签节点vj∈VSm,计算它们的平均,
Figure BDA0001670820600000052
即得到了第m簇的均值特征向量μm
在步骤S202中,根据第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到第二标签用户节点的第二特征向量。
可以理解的是,下面将进行迭代更新部分的介绍,如图2所示,步骤2:初始化未知标签用户节点vi∈VU的特征向量ωi。步骤3:根据原始已知标签节点集合VS初始化标记簇VC={VC1,VC2,...,VCK}(即最后需要输出结果的簇,标记簇在每次迭代过程中元素发生变化,而原始簇中不会发生变化)。步骤4:根据未知标签用户节点vj∈VS与已知标签用户节点vi∈VU在网络图结构上的连接距离特征,计算并更新未知标签用户节点vi∈VU的特征向量ωi
进一步地,在本发明的一个实施例中,初始化第二特征向量中第m维分量的值为第m原始簇的标签用户节点数量占总标签节点数量的比例,其中,总标签节点为第一标签用户节点的集合,或者所述第二特征向量为每一维初始化为0的向量。
具体而言,初始化未知标签用户节点vi∈VU的特征向量ωi。初始化已知标签节点和未知标签节点的特征向量采用不同的方法。初始化未知标签节点的特征向量为一K维向量,每一分量的值等于对应簇中已知标签节点数量占总的标签节点数量的比例。在每次迭代伊始,重新初始化原始未知标签节点的特征向量。
例如,初始化未知标签节点vi∈VU特征向量为ωi=[ωi1i2,...,ωiK],其中
Figure BDA0001670820600000061
(这里也可以初始化ωim=0,m∈{1,2,...,K})。
进一步地,根据原始已知标签节点集合VS初始化标记簇VC={VC1,VC2,...,VCK}(即最后需要输出结果的簇,标记簇在每次迭代过程中元素发生变化,而原始簇中不会发生变化)。
为区分原始标签节点的簇和后续通过迭代划分标签节点的簇,这里需要将原始簇和标记簇区分开,标记簇在每次迭代过程中添加新的元素而原始簇始终不变。并且在每次迭代时都需要重新初始化标记簇,因为未知标签的节点在每次迭代中可能被划分到不同的标记簇中,初始化标记簇等于原始簇。
例如,初始化标记簇VC={VC1,VC2,...,VCK},其中VSm=VCm,m∈{1,2,...,K}。
进一步地,根据已知标签用户节点vj∈VS与未知标签用户节点vi∈VU在网络图结构上的连接距离特征,计算并更新未知标签用户节点vi∈VU的特征向量ωi
计算所有未知标签节点与原始簇中已知标签节点的距离,并根据距离的大小量化更新所有未知标签节点的特征向量。距离的计算可以使用两个节点在网络图中的最短路径。对于每个未知标签的节点都要计算它与所有已知标签节点的距离,距离越近的节点,相似的程度越大;反之相似程度越小。
例如,对于未知标签节点vi∈VU,计算它与目前第m原始簇中已知标签节点vj∈VSm在网络图G上的最短路径Dij=hop(vi,vj),其中用hop()函数表示求两个节点在网络图上的最短路径,则vi的特征向量可以更新为
Figure BDA0001670820600000062
在步骤S203中,根据第二特征向量和第二标签用户节点迭代更新第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代。
可以理解的是,本发明实施例根据第二特征向量和第二标签用户节点迭代更新标记簇,并更新标记簇的第二均值特征向量,依据第二均值特征向量判断迭代是否继续。其中,预设条件为第二均值特征向量趋于稳定时,停止迭代更新标记簇。需要说明的是,第一均值特征向量是原始簇的,不参与迭代的更新变化,并作为第一次判断标记簇是否迭代更新的对比均值特征向量;第二均值特征向量是标记簇的,随着迭代会产生变化。
具体而言,如图3所示,步骤5:根据特征向量ωi选择未知标签节点vi∈VU的所属标记簇VCm(m∈{1,2,...,K})并将其加入该簇VCm=VCm∪{vi}。步骤6:计算每一标记簇VCm,m∈{1,2,...,K}中标签用户节点的均值特征向量μm,并判断其是否发生变化来决定算法是否继续迭代。若各标记簇均值特征向量都不产生变化则迭代停止,输出标记簇。
进一步地,在本发明的一个实施例中,其中,根据第二特征向量中的预设分量对应的维数得到第二标签用户节点的标记簇。
具体而言,根据特征向量ωi选择未知标签节点vi∈VU的所属标记簇VCm(m∈{1,2,...,K})并将其加入该簇VCm=VCm∪{vi}。取得到的未知标签节点的特征向量中的最大分量所对应的维数作为该未知标签节点所属的标记簇,然后将该节点加入该簇。
对于未知标签节点vi∈VU,得到它更新后的特征向量ωi=[ωi1i2,...,ωiK],取该向量最大的分量ωim(即ωim≥ωix
Figure BDA0001670820600000071
)所对应的簇m,作为该未知节点vi加入的标记簇。更新完所有未知标签节点的特征向量后,将它们分别加入对应的簇。
进一步地,计算每一标记簇m∈{1,2,...,K}中标签用户节点的均值特征向量μm,并判断其是否发生变化来决定算法是否继续迭代。若各标记簇均值特征向量都不产生变化则迭代停止,输出标记簇。
计算每一标记簇均值特征向量的方法是取各簇内所有已知标签节点的特征向量的算数平均。因为在整个算法的迭代中,原始未知标签节点的加入的簇可能会发生变化,这一轮迭代后加入的簇可以和上一轮迭代后加入的簇不一样。采用标记簇的均值特征向量作为算法收敛的条件,随后判断每个簇的均值特征向量是否产生变化,都不产生变化后则迭代停止,输出最终标记簇;否则继续迭代更新部分。
例如,对于第m标记簇,其中已有标签的节点vj∈VCm,计算它们的平均,
Figure BDA0001670820600000072
即得到了第m簇的均值特征向量μm。判断所有μm,m∈{1,2,...,K}是否发生变化,都不变化则停止迭代,输出标记簇;否则继续迭代更新部分。
以上详述的本发明实施例的一个具体实施方案如图1所示,图1是本发明一个实施例的社交网络属性推演方法实施例详细描述图。
根据本发明实施例提出的针对社交网络用户属性的推演方法,基于半监督学习算法,合理地解决了网络图中已知标签少的问题,并在半监督学习的基础上,使用均值特征向量作为每一簇特征向量的中心判断迭代的停止,更好地利用每簇中所有的已标签用户节点信息,并且提高用户节点划分到每簇中的准确度,且在更新特征向量时,仅利用未标签用户节点和已知标签用户节点在结构上的相似特征,因为社交网络的关系结构特征是最容易获取的,减少属性推演的开销并且更易于实施,简单易实现。
其次参照附图描述根据本发明实施例提出的针对社交网络用户属性的推演装置。
图4是本发明一个实施例的针对社交网络用户属性的推演装置的结构示意图。
如图4所示,该针对社交网络用户属性的推演装置10包括:第一计算模块100、第二计算模块200和迭代更新模块300。
其中,第一计算模块100用于根据与原始簇一一对应的第一标签用户节点的第一特征向量得到第一标签用户节点所在原始簇的第一均值特征向量。第二计算模块200用于根据第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到第二标签用户节点的第二特征向量。迭代更新模块300用于根据第二特征向量和第二标签用户节点迭代更新第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代。本发明实施例的装置10可以实现根据社交网络中少量显性属性信息,高效地推演出更多用户的隐性属性信息,有效提高推演的准确性和适用性,简单易实现。
进一步地,在本发明的一个实施例中,第一均值特征向量为:
Figure BDA0001670820600000081
其中,vj为第一标签用户节点,ωj为第一特征向量,K为原始簇的簇数,VSm为第m原始簇的标签用户节点集合。
进一步地,在本发明的一个实施例中,第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1,其余为0。
进一步地,在本发明的一个实施例中,初始化第二特征向量中第m维分量的值为第m原始簇的标签用户节点数量占总标签节点数量的比例,其中,总标签节点为第一标签用户节点的集合;或者第二特征向量为每一维初始化为0的向量。
进一步地,在本发明的一个实施例中,根据第一标签用户节点与第二标签用户节点的连接距离特征计算更新第二标签用户节点的第二特征向量。
进一步地,在本发明的一个实施例中,其中,根据第二特征向量中的预设分量对应的维数得到第二标签用户节点的标记簇。
需要说明的是,前述对针对社交网络用户属性的推演方法实施例的解释说明也适用于该实施例的针对社交网络用户属性的推演装置,此处不再赘述。
根据本发明实施例提出的针对社交网络用户属性的推演装置,基于半监督学习算法,合理地解决了网络图中已知标签少的问题,并在半监督学习的基础上,使用均值特征向量作为每一簇特征向量的中心判断迭代的停止,更好地利用每簇中所有的已标签用户节点信息,并且提高用户节点划分到每簇中的准确度,且在更新特征向量时,仅利用未标签用户节点和已知标签用户节点在结构上的相似特征,因为社交网络的关系结构特征是最容易获取的,减少属性推演的开销并且更易于实施,简单易实现。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种针对社交网络用户属性的推演方法,所述方法应用于社交网络运营商为用户提供服务,其特征在于,包括以下步骤:
根据与原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量,所述原始簇不参与迭代的更新变化;
根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量;具体地:初始化第二标签用户节点的第二特征向量,第二特征向量为一K维向量,每一分量的值等于对应簇中第一标签节点数量占总的标签节点数量的比例,在每次迭代伊时,重新初始化第二标签用户节点的第二特征向量;计算所有所述第二标签用户节点与所述第一标签用户节点的距离,并根据距离的大小量化更新所有初始化之后的所述第二标签用户节点的第二特征向量;距离的计算使用两个节点在网络图中的最短路径,距离越近的节点,相似的程度越大;反之相似程度越小;第二特征向量的更新公式为:
Figure FDA0002940062180000011
其中,第二标签用户节点vi,第一标签用户节点vj,网络图G,最短路径Dij=hop(vi,vj),hop()函数表示求两个节点在网络图上的最短路径;以及
根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代,所述标记簇随着迭代产生变化;所述标记簇的更新具体包括:根据特征向量ωi选择未知标签节点vi∈VU的所属标记簇VCm,m∈{1,2,...,K},并将其加入该簇VCm=VCm∪{vi};计算每一标记簇VCm,m∈{1,2,...,K}中标签用户节点的均值特征向量μm,并判断其是否发生变化来决定算法是否继续迭代;若各标记簇均值特征向量都不产生变化则迭代停止,输出标记簇,以使社交网络运营商根据每簇中所有的已标签用户的特征向量进行分析,以为根据已标签用户的特征向量的分析结果为用户提供服务。
2.根据权利要求1所述的针对社交网络用户属性的推演方法,其特征在于,所述第一均值特征向量为:
Figure FDA0002940062180000012
其中,vj为所述第一标签用户节点,ωj为所述第一特征向量,K为所述原始簇的簇数,VSm为第m原始簇的标签用户节点集合。
3.根据权利要求2所述的针对社交网络用户属性的推演方法,其特征在于,其中,所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1,其余为0。
4.根据权利要求1-3任一项所述的针对社交网络用户属性的推演方法,其特征在于,初始化所述第二特征向量中第m维分量的值为第m原始簇的第一标签用户节点数量占总标签节点数量的比例,其中,所述总标签节点为所述第一标签用户节点的集合;或者所述第二特征向量为每一维初始化为0的向量。
5.根据权利要求1所述的针对社交网络用户属性的推演方法,其特征在于,其中,根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。
6.一种针对社交网络用户属性的推演装置,所述装置应用于社交网络运营商为用户提供服务,其特征在于,包括:
第一计算模块,用于根据与原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量,所述原始簇不参与迭代的更新变化;
第二计算模块,用于根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量,具体地:初始第二标签用户节点的第二特征向量,第二特征向量为一K维向量,每一分量的值等于对应簇中第一标签节点数量占总的标签节点数量的比例,在每次迭代伊时,重新初始化第二标签用户节点的第二特征向量;计算所有所述第二标签用户节点与所述第一标签用户节点的距离,并根据距离的大小量化更新所有初始化之后的所述第二标签用户节点的第二特征向量;距离的计算使用两个节点在网络图中的最短路径,距离越近的节点,相似的程度越大;反之相似程度越小;第二特征向量的更新公式为:
Figure FDA0002940062180000021
其中,第二标签用户节点vi,第一标签用户节点vj,网络图G,最短路径Dij=hop(vi,vj),hop()函数表示求两个节点在网络图上的最短路径;以及
迭代更新模块,根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇,并在第二均值特征向量满足预设条件时停止迭代,所述标记簇随着迭代产生变化;所述标记簇的更新具体包括:根据特征向量ωi选择未知标签节点vi∈VU的所属标记簇VCm,m∈{1,2,...,K},并将其加入该簇VCm=VCm∪{vi};计算每一标记簇VCm,m∈{1,2,...,K}中标签用户节点的均值特征向量μm,并判断其是否发生变化来决定算法是否继续迭代;若各标记簇均值特征向量都不产生变化则迭代停止,输出标记簇,以使社交网络运营商根据每簇中所有的已标签用户的特征向量进行分析,以为根据已标签用户的特征向量的分析结果为用户提供服务。
7.根据权利要求6所述的针对社交网络用户属性的推演装置,其特征在于,所述第一均值特征向量为:
Figure FDA0002940062180000031
其中,vj为所述第一标签用户节点,ωj为所述第一特征向量,K为所述原始簇的簇数,VSm为第m原始簇的标签用户节点集合。
8.根据权利要求7所述的针对社交网络用户属性的推演装置,其特征在于,其中,所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1,其余为0。
9.根据权利要求6-7任一项所述的针对社交网络用户属性的推演装置,其特征在于,初始化所述第二特征向量中第m维分量的值为第m原始簇的标签用户节点数量占总标签节点数量的比例,其中,所述总标签节点为所述第一标签用户节点的集合;或者所述第二特征向量为每一维初始化为0的向量。
10.根据权利要求6所述的针对社交网络用户属性的推演装置,其特征在于,其中,根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。
CN201810502401.5A 2018-05-23 2018-05-23 针对社交网络用户属性的推演方法及装置 Active CN108921189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810502401.5A CN108921189B (zh) 2018-05-23 2018-05-23 针对社交网络用户属性的推演方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810502401.5A CN108921189B (zh) 2018-05-23 2018-05-23 针对社交网络用户属性的推演方法及装置

Publications (2)

Publication Number Publication Date
CN108921189A CN108921189A (zh) 2018-11-30
CN108921189B true CN108921189B (zh) 2021-05-18

Family

ID=64403893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810502401.5A Active CN108921189B (zh) 2018-05-23 2018-05-23 针对社交网络用户属性的推演方法及装置

Country Status (1)

Country Link
CN (1) CN108921189B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162692B (zh) * 2018-12-10 2021-05-25 腾讯科技(深圳)有限公司 用户标签确定方法、装置、计算机设备和存储介质
CN110442800B (zh) * 2019-07-22 2022-05-20 哈尔滨工程大学 一种融合节点属性和图结构的半监督社区发现方法
CN112488867B (zh) * 2020-12-18 2023-04-18 北京航空航天大学 社交信息服务中用户属性推演方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242676A (ja) * 2012-05-18 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> ユーザ属性推定装置、ユーザ属性推定方法、及びプログラム
CN103999072A (zh) * 2011-11-08 2014-08-20 谷歌公司 用于使用社交移动应用来发现属性的方法和装置
CN104699679A (zh) * 2013-12-04 2015-06-10 腾讯科技(北京)有限公司 一种确定社交网络平台中用户属性的方法和系统
US20170220601A1 (en) * 2008-03-20 2017-08-03 Facebook, Inc. Tag Suggestions for Images on Online Social Networks
CN107291840A (zh) * 2017-05-31 2017-10-24 北京奇艺世纪科技有限公司 一种用户属性预测模型构建方法和装置
CN107368534A (zh) * 2017-06-21 2017-11-21 南京邮电大学 一种预测社交网络用户属性的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220601A1 (en) * 2008-03-20 2017-08-03 Facebook, Inc. Tag Suggestions for Images on Online Social Networks
CN103999072A (zh) * 2011-11-08 2014-08-20 谷歌公司 用于使用社交移动应用来发现属性的方法和装置
JP2013242676A (ja) * 2012-05-18 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> ユーザ属性推定装置、ユーザ属性推定方法、及びプログラム
CN104699679A (zh) * 2013-12-04 2015-06-10 腾讯科技(北京)有限公司 一种确定社交网络平台中用户属性的方法和系统
CN107291840A (zh) * 2017-05-31 2017-10-24 北京奇艺世纪科技有限公司 一种用户属性预测模型构建方法和装置
CN107368534A (zh) * 2017-06-21 2017-11-21 南京邮电大学 一种预测社交网络用户属性的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Age prediction in blogs:a study of style,content,and online behavior in pre-and post-social media generations;Rosenthal S etal.;《Annual Meeting of the Association for Computational Linguistics》;20111231;第19-24页 *
基于距离模型的用户关系强度评估;张俊豪 等;《理论研究》;20151231(第10期);第86-91页 *
社交网络节点及其关系的研究;吴慧 等;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315;第20-32页 *

Also Published As

Publication number Publication date
CN108921189A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108133330B (zh) 一种面向社交众包任务分配方法及其系统
CN109460793B (zh) 一种节点分类的方法、模型训练的方法及装置
US11715044B2 (en) Methods and systems for horizontal federated learning using non-IID data
Yu et al. Personalized QoS prediction for web services using latent factor models
CN108921189B (zh) 针对社交网络用户属性的推演方法及装置
Liu et al. End-to-end deep reinforcement learning based recommendation with supervised embedding
WO2019019385A1 (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
CN107085616B (zh) Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法
Georgiou et al. Improving the scalability of recommender systems by clustering using genetic algorithms
CN107480213B (zh) 基于时序文本网络的社区检测与用户关系预测方法
Zhu et al. Role defining using behavior-based clustering in telecommunication network
US11100688B2 (en) Methods and systems for encoding graphs
US20150039539A1 (en) Method and Apparatus For Propagating User Preference Information in a Communications Network
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
CN111932386A (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
Zhu et al. Portal nodes screening for large scale social networks
CN107133268B (zh) 一种用于Web服务推荐的协同过滤方法
Jamali et al. A generalized stochastic block model for recommendation in social rating networks
Li et al. Community detection based on regularized semi-nonnegative matrix tri-factorization in signed networks
Yuji The trust value calculating for social network based on machine learning
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN108427730B (zh) 一种基于随机游走和条件随机场的社会标签推荐方法
CN114896514B (zh) 一种基于图神经网络的Web API标签推荐方法
CN106778872B (zh) 基于密度的连通图的聚类方法与装置
Liu et al. Learning distributed representations for community search using node embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant