CN108921189A

CN108921189A - 针对社交网络用户属性的推演方法及装置

Info

Publication number: CN108921189A
Application number: CN201810502401.5A
Authority: CN
Inventors: 毛剑; 田文倩; 杨晨; 关振宇; 刘建伟
Original assignee: China Information Security Research Institute Co Ltd; Beihang University
Current assignee: China Information Security Research Institute Co Ltd; Beihang University
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-11-30
Anticipated expiration: 2038-05-23
Also published as: CN108921189B

Abstract

本发明公开了一种针对社交网络用户属性的推演方法及装置，其中，方法包括以下步骤：根据与原始簇一一对应的第一标签用户节点的第一特征向量得到第一标签用户节点所在原始簇的第一均值特征向量；根据第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到第二标签用户节点的第二特征向量；根据第二特征向量和第二标签用户节点迭代更新第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。该方法可以实现根据社交网络中少量显性属性信息，高效地推演出更多用户的隐性属性信息，有效提高推演的准确性和适用性，简单易实现。

Description

针对社交网络用户属性的推演方法及装置

技术领域

本发明涉及计算机、通信和信息安全技术领域，特别涉及一种针对社交网络用户属性的推演方法及装置。

背景技术

随着移动互联网的迅速发展，社交网络信息分析与挖掘成为了工业界与学术界的热点研究议题。社交网络汇聚着庞大的人际网络关系信息和各种属性、行为等信息。基于社交网络内容的现实应用需求，社交网络平台的运营商会基于特定需求将社交网络信息(关系、属性、行为)进行部分开放，与诸如广告商、市场分析机构、科研机构等组织共享。分析社交网络的用户属性特征能够帮助社交网络运营商给用户提供更多便捷优质的服务，同时也能为研究用户行为的影响力、用户偏好等提供基础数据支撑。

社交网络中用户通常只显示部分或者不显示自己的属性信息，而用户的人际关系通常是直接显露出来的。通过人际关系和部分显性的属性信息(用户在社交网络中展示出来的属性信息)能推演出用户的其他隐性属性信息(用户在社交网络中没有展示的属性信息)。目前在社交网络属性推演的研究中，主要有以下几种方法：基于社区发现的算法、基于传统机器学习的方法、基于投票的方法、基于随机游走的方法。每种方法有着各自的优缺点，适用于不同的场景。基于社区发现的算法考虑同质性，认为相似的用户之间具有更密集的关系；基于传统机器学习的方法利用已知用户生成的特征向量样本训练分类器，对未知用户信息进行预测；基于投票的方法采用迭代的方法累积用户从邻居节点获得的权重，并选取最大的权重的属性赋予未知用户；基于随机游走的方法从未知用户出发，沿着关系图移动，最终将停留的已知用户对应的属性赋予该未知用户。

然而，相关技术中的属性推演方法缺少应用于超大规模社交网络数据集的算法性能测试，另外在大规模社交网络数据集中，已知的用户属性占少部分，从少数已知属性推演出大量未知属性的精确度有待提高，推演的精度差，且适用性差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种针对社交网络用户属性的推演方法，该方法可以实现根据社交网络中少量显性属性信息，高效地推演出更多用户的隐性属性信息，有效提高推演的准确性和适用性，简单易实现。

本发明的另一个目的在于提出一种针对社交网络用户属性的推演装置。

为达到上述目的，本发明一方面实施例提出了一种针对社交网络用户属性的推演方法，包括以下步骤：根据与所述原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量；根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量；根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。

本发明实施例的针对社交网络用户属性的推演方法，利用半监督学习技术，仅根据社交网络用户关系结构特性，即用户之间互为朋友、关注与被关注等这类关系信息和少量的已知属性信息的用户，推演出未知属性信息用户的属性，同时具有高效性并能够适用于多场景，从而实现根据社交网络中少量显性属性信息，高效地推演出更多用户的隐性属性信息，有效提高推演的准确性和适用性，简单易实现。

另外，根据本发明上述实施例的针对社交网络用户属性的推演方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述第一均值特征向量为：

其中，v_j为所述第一标签用户节点，ω_j为所述第一特征向量，K为所述原始簇的簇数，V_Sm为第m原始簇的标签用户节点集合。

进一步地，在本发明的一个实施例中，其中，所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1，其余为0。

进一步地，在本发明的一个实施例中，初始化所述第二特征向量中第m维分量的值为所述第m原始簇的标签用户节点数量占总标签节点数量的比例，其中，所述总标签节点为所述第一标签用户节点的集合；或者所述第二特征向量为每一维初始化为0的向量。

进一步地，在本发明的一个实施例中，根据所述第一标签用户节点与第二标签用户节点的连接距离特征计算更新第二标签用户节点的第二特征向量。

进一步地，在本发明的一个实施例中，其中，根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。

为达到上述目的，本发明另一方面实施例提出了一种针对社交网络用户属性的推演装置，包括：第一计算模块，用于根据与所述原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量；第二计算模块，用于根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量；迭代更新模块，用于根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。

本发明实施例的针对社交网络用户属性的推演装置，利用半监督学习技术，仅根据社交网络用户关系结构特性，即用户之间互为朋友、关注与被关注等这类关系信息和少量的已知属性信息的用户，推演出未知属性信息用户的属性，同时具有高效性并能够适用于多场景，从而实现根据社交网络中少量显性属性信息，高效地推演出更多用户的隐性属性信息，有效提高推演的准确性和适用性，简单易实现。

另外，根据本发明上述实施例的针对社交网络用户属性的推演装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1，其余为0。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的社交网络属性推演方法实施例详细描述图；

图2为根据本发明一个实施例的针对社交网络用户属性的推演方法的流程图；

图3为根据本发明一个具体实施例的针对社交网络用户属性的推演方法的流程图；

图4为根据本发明一个实施例的针对社交网络用户属性的推演装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在介绍针对社交网络用户属性的推演方法及装置之前，首先，将社交网络抽象为一个图G＝(V,E)，其中V表示社交网络中所有的用户节点的集合，E表示社交网络用户之间的关系边的集合。其中没有属性标签的用户节点集合用V_U表示，已有属性标签的用户节点集合用V_S表示。将所有已知标签用户v_j∈V_S根据所属标签划分为不同的原始簇，簇数K等于属性标签属性值的不同种类数，即V_S＝{V_S1,V_S2,...,V_SK}。本发明实施例提供的社交网络用户属性推演方法的输入为：社交网络构成的网络图G及少量不同簇已经带有属性标签的用户节点集合V_S＝{V_S1,V_S2,...,V_SK}，输出为：划分后的标记簇{V_C1,V_C2,...,V_CK}。本发明实施例提供的社交网络用户属性推演方法的输入输出如图1所示。

下面参照附图描述根据本发明实施例提出的针对社交网络用户属性的推演方法及装置，首先将参照附图描述根据本发明实施例提出的针对社交网络用户属性的推演方法。

图2是本发明一个实施例的针对社交网络用户属性的推演方法的流程图。

如图2所示，该针对社交网络用户属性的推演方法包括以下步骤：

在步骤S201中，根据与原始簇一一对应的第一标签用户节点的第一特征向量得到第一标签用户节点所在原始簇的第一均值特征向量。

可以理解的是，本发明实施例技术方案可以分为两个部分，分别为初始化部分和迭代更新部分，如图3所示，步骤1：初始化已知标签用户节点v_j∈V_S的特征向量ω_j(基于用户节点所属原始簇定义已知标签用户节点的特征向量)；计算并初始化每一原始簇m∈{1,2,...,K}中原始已知标签用户节点的均值特征向量μ_m。

进一步地，在本发明的一个实施例中，其中，第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1，其余为0。

具体而言，初始化已知标签用户节点v_j∈V_S的特征向量ω_j，并基于用户节点所属原始簇定义已知标签用户节点的特征向量。初始化已知标签节点的特征向量为一K维向量，K表示聚类的簇数，该标签节点属于哪一簇m，对应向量的第m维分量为1，其余为0。

例如，初始化已知标签节点v_j∈V_S特征向量为ω_j＝[ω_j1,ω_j2,...,ω_jK]，ω_jm＝1,m∈{1,2,...,K}当且仅当该标签节点属于第m原始簇，即v_j∈V_Sm；否则ω_jm＝0。

进一步地，在本发明的一个实施例中，第一均值特征向量为：

其中，v_j为第一标签用户节点，ω_j为第一特征向量，K为原始簇的簇数，V_Sm为第m原始簇的标签用户节点集合。

具体而言，所有的均值特征向量均可以采用该公式进行计算，计算并初始化每一原始簇m∈{1,2,...,K}中原始已知标签用户节点的均值特征向量μ_m。计算并初始化每一原始簇均值特征向量的方法是取各簇内所有已知标签节点的特征向量的算数平均。

例如，对于第m簇，其中已知标签节点v_j∈V_Sm，计算它们的平均，即得到了第m簇的均值特征向量μ_m。

在步骤S202中，根据第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到第二标签用户节点的第二特征向量。

可以理解的是，下面将进行迭代更新部分的介绍，如图2所示，步骤2：初始化未知标签用户节点v_i∈V_U的特征向量ω_i。步骤3：根据原始已知标签节点集合V_S初始化标记簇V_C＝{V_C1,V_C2,...,V_CK}(即最后需要输出结果的簇，标记簇在每次迭代过程中元素发生变化，而原始簇中不会发生变化)。步骤4：根据未知标签用户节点v_j∈V_S与已知标签用户节点v_i∈V_U在网络图结构上的连接距离特征，计算并更新未知标签用户节点v_i∈V_U的特征向量ω_i。

进一步地，在本发明的一个实施例中，初始化第二特征向量中第m维分量的值为第m原始簇的标签用户节点数量占总标签节点数量的比例，其中，总标签节点为第一标签用户节点的集合，或者所述第二特征向量为每一维初始化为0的向量。

具体而言，初始化未知标签用户节点v_i∈V_U的特征向量ω_i。初始化已知标签节点和未知标签节点的特征向量采用不同的方法。初始化未知标签节点的特征向量为一K维向量，每一分量的值等于对应簇中已知标签节点数量占总的标签节点数量的比例。在每次迭代伊始，重新初始化原始未知标签节点的特征向量。

例如，初始化未知标签节点v_i∈V_U特征向量为ω_i＝[ω_i1,ω_i2,...,ω_iK]，其中(这里也可以初始化ω_im＝0,m∈{1,2,...,K})。

进一步地，根据原始已知标签节点集合V_S初始化标记簇V_C＝{V_C1,V_C2,...,V_CK}(即最后需要输出结果的簇，标记簇在每次迭代过程中元素发生变化，而原始簇中不会发生变化)。

为区分原始标签节点的簇和后续通过迭代划分标签节点的簇，这里需要将原始簇和标记簇区分开，标记簇在每次迭代过程中添加新的元素而原始簇始终不变。并且在每次迭代时都需要重新初始化标记簇，因为未知标签的节点在每次迭代中可能被划分到不同的标记簇中，初始化标记簇等于原始簇。

例如，初始化标记簇V_C＝{V_C1,V_C2,...,V_CK}，其中V_Sm＝V_Cm，m∈{1,2,...,K}。

进一步地，根据已知标签用户节点v_j∈V_S与未知标签用户节点v_i∈V_U在网络图结构上的连接距离特征，计算并更新未知标签用户节点v_i∈V_U的特征向量ω_i。

计算所有未知标签节点与原始簇中已知标签节点的距离，并根据距离的大小量化更新所有未知标签节点的特征向量。距离的计算可以使用两个节点在网络图中的最短路径。对于每个未知标签的节点都要计算它与所有已知标签节点的距离，距离越近的节点，相似的程度越大；反之相似程度越小。

例如，对于未知标签节点v_i∈V_U，计算它与目前第m原始簇中已知标签节点v_j∈V_Sm在网络图G上的最短路径D_ij＝hop(v_i,v_j)，其中用hop()函数表示求两个节点在网络图上的最短路径，则v_i的特征向量可以更新为

在步骤S203中，根据第二特征向量和第二标签用户节点迭代更新第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。

可以理解的是，本发明实施例根据第二特征向量和第二标签用户节点迭代更新标记簇，并更新标记簇的第二均值特征向量，依据第二均值特征向量判断迭代是否继续。其中，预设条件为第二均值特征向量趋于稳定时，停止迭代更新标记簇。需要说明的是，第一均值特征向量是原始簇的，不参与迭代的更新变化，并作为第一次判断标记簇是否迭代更新的对比均值特征向量；第二均值特征向量是标记簇的，随着迭代会产生变化。

具体而言，如图3所示，步骤5：根据特征向量ω_i选择未知标签节点v_i∈V_U的所属标记簇V_Cm(m∈{1,2,...,K})并将其加入该簇V_Cm＝V_Cm∪{v_i}。步骤6：计算每一标记簇V_Cm，m∈{1,2,...,K}中标签用户节点的均值特征向量μ_m，并判断其是否发生变化来决定算法是否继续迭代。若各标记簇均值特征向量都不产生变化则迭代停止，输出标记簇。

进一步地，在本发明的一个实施例中，其中，根据第二特征向量中的预设分量对应的维数得到第二标签用户节点的标记簇。

具体而言，根据特征向量ω_i选择未知标签节点v_i∈V_U的所属标记簇V_Cm(m∈{1,2,...,K})并将其加入该簇V_Cm＝V_Cm∪{v_i}。取得到的未知标签节点的特征向量中的最大分量所对应的维数作为该未知标签节点所属的标记簇，然后将该节点加入该簇。

对于未知标签节点v_i∈V_U，得到它更新后的特征向量ω_i＝[ω_i1,ω_i2,...,ω_iK]，取该向量最大的分量ω_im(即ω_im≥ω_ix，)所对应的簇m，作为该未知节点v_i加入的标记簇。更新完所有未知标签节点的特征向量后，将它们分别加入对应的簇。

进一步地，计算每一标记簇m∈{1,2,...,K}中标签用户节点的均值特征向量μ_m，并判断其是否发生变化来决定算法是否继续迭代。若各标记簇均值特征向量都不产生变化则迭代停止，输出标记簇。

计算每一标记簇均值特征向量的方法是取各簇内所有已知标签节点的特征向量的算数平均。因为在整个算法的迭代中，原始未知标签节点的加入的簇可能会发生变化，这一轮迭代后加入的簇可以和上一轮迭代后加入的簇不一样。采用标记簇的均值特征向量作为算法收敛的条件，随后判断每个簇的均值特征向量是否产生变化，都不产生变化后则迭代停止，输出最终标记簇；否则继续迭代更新部分。

例如，对于第m标记簇，其中已有标签的节点v_j∈V_Cm，计算它们的平均，即得到了第m簇的均值特征向量μ_m。判断所有μ_m，m∈{1,2,...,K}是否发生变化，都不变化则停止迭代，输出标记簇；否则继续迭代更新部分。

以上详述的本发明实施例的一个具体实施方案如图1所示，图1是本发明一个实施例的社交网络属性推演方法实施例详细描述图。

根据本发明实施例提出的针对社交网络用户属性的推演方法，基于半监督学习算法，合理地解决了网络图中已知标签少的问题，并在半监督学习的基础上，使用均值特征向量作为每一簇特征向量的中心判断迭代的停止，更好地利用每簇中所有的已标签用户节点信息，并且提高用户节点划分到每簇中的准确度，且在更新特征向量时，仅利用未标签用户节点和已知标签用户节点在结构上的相似特征，因为社交网络的关系结构特征是最容易获取的，减少属性推演的开销并且更易于实施，简单易实现。

其次参照附图描述根据本发明实施例提出的针对社交网络用户属性的推演装置。

图4是本发明一个实施例的针对社交网络用户属性的推演装置的结构示意图。

如图4所示，该针对社交网络用户属性的推演装置10包括：第一计算模块100、第二计算模块200和迭代更新模块300。

其中，第一计算模块100用于根据与原始簇一一对应的第一标签用户节点的第一特征向量得到第一标签用户节点所在原始簇的第一均值特征向量。第二计算模块200用于根据第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到第二标签用户节点的第二特征向量。迭代更新模块300用于根据第二特征向量和第二标签用户节点迭代更新第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。本发明实施例的装置10可以实现根据社交网络中少量显性属性信息，高效地推演出更多用户的隐性属性信息，有效提高推演的准确性和适用性，简单易实现。

进一步地，在本发明的一个实施例中，第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1，其余为0。

进一步地，在本发明的一个实施例中，初始化第二特征向量中第m维分量的值为第m原始簇的标签用户节点数量占总标签节点数量的比例，其中，总标签节点为第一标签用户节点的集合；或者第二特征向量为每一维初始化为0的向量。

进一步地，在本发明的一个实施例中，根据第一标签用户节点与第二标签用户节点的连接距离特征计算更新第二标签用户节点的第二特征向量。

需要说明的是，前述对针对社交网络用户属性的推演方法实施例的解释说明也适用于该实施例的针对社交网络用户属性的推演装置，此处不再赘述。

根据本发明实施例提出的针对社交网络用户属性的推演装置，基于半监督学习算法，合理地解决了网络图中已知标签少的问题，并在半监督学习的基础上，使用均值特征向量作为每一簇特征向量的中心判断迭代的停止，更好地利用每簇中所有的已标签用户节点信息，并且提高用户节点划分到每簇中的准确度，且在更新特征向量时，仅利用未标签用户节点和已知标签用户节点在结构上的相似特征，因为社交网络的关系结构特征是最容易获取的，减少属性推演的开销并且更易于实施，简单易实现。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种针对社交网络用户属性的推演方法，其特征在于，包括以下步骤：

根据与所述原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量；

根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量；以及

根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。

2.根据权利要求1所述的针对社交网络用户属性的推演方法，其特征在于，所述第一均值特征向量为：

3.根据权利要求2所述的针对社交网络用户属性的推演方法，其特征在于，其中，所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1，其余为0。

4.根据权利要求1-3任一项所述的针对社交网络用户属性的推演方法，其特征在于，初始化所述第二特征向量中第m维分量的值为所述第m原始簇的第一标签用户节点数量占总标签节点数量的比例，其中，所述总标签节点为所述第一标签用户节点的集合；或者所述第二特征向量为每一维初始化为0的向量。

5.根据权利要求1所述的针对社交网络用户属性的推演方法，其特征在于，其中，根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。

6.一种针对社交网络用户属性的推演装置，其特征在于，包括：

第一计算模块，用于根据与所述原始簇一一对应的第一标签用户节点的第一特征向量得到所述第一标签用户节点所在原始簇的第一均值特征向量；

第二计算模块，用于根据所述第一标签用户节点和第二标签用户节点在网络图结构上的连接距离特征得到所述第二标签用户节点的第二特征向量；以及

迭代更新模块，根据所述第二特征向量和所述第二标签用户节点迭代更新所述第二标签用户节点的标记簇，并在第二均值特征向量满足预设条件时停止迭代。

7.根据权利要求6所述的针对社交网络用户属性的推演装置，其特征在于，所述第一均值特征向量为：

8.根据权利要求7所述的针对社交网络用户属性的推演装置，其特征在于，其中，所述第m原始簇的标签用户节点的第一特征向量对应的第m维分量为1，其余为0。

9.根据权利要求6-7任一项所述的针对社交网络用户属性的推演装置，其特征在于，初始化所述第二特征向量中第m维分量的值为所述第m原始簇的标签用户节点数量占总标签节点数量的比例，其中，所述总标签节点为所述第一标签用户节点的集合；或者所述第二特征向量为每一维初始化为0的向量。

10.根据权利要求6所述的针对社交网络用户属性的推演装置，其特征在于，其中，根据所述第二特征向量中的预设分量对应的维数得到所述第二标签用户节点的标记簇。