CN108022171B

CN108022171B - 一种数据处理方法及设备

Info

Publication number: CN108022171B
Application number: CN201610933379.0A
Authority: CN
Inventors: 刘家豪; 凌国惠; 郑子彬; 陈川
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2021-10-15
Anticipated expiration: 2036-10-31
Also published as: CN108022171A

Abstract

本发明公开了一种数据处理方法及设备，所述方法包括：获取表征节点之间具有第一关联关系的第一社交网络模型；将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵；获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的结构相似度和特征属性的相似度；基于所述结构相似度和特征属性的相似度确定融合相似度，对确定的融合相似度进行筛选，基于筛选后的融合相似度生成第三邻接矩阵；基于所述第三邻接矩阵生成表征节点之间第二关联关系的第二社交网络模型。

Description

一种数据处理方法及设备

技术领域

本发明涉及数据处理技术，尤其涉及一种数据处理方法及设备。

背景技术

随着社交网络的兴起产生了越来越多的用户数据，分析社交网络中的用户数据也成为日渐热门的一个话题；社交网络中用户与用户之间相互联系形成网络，并用网络图的方式表达网络结构，在网络图中可用节点表示用户，节点之间的连边表示用户之间的好友关系；传统的基于社交网络模型的研究课题包括社区发现、链路预测和图表征等。

现有技术中，通过计算社交网络模型中，基于对结构相似度和特征属性的相似度采用线性平均的方式进行计算生成重构的社交网络模型。但是，在现实社交网络中如果两个用户生活在不同的用户社区中，而社区本身也具有较大的差异性，那么即使这两个用户的特征属性非常高，对于社交网络来说也没有意义，即用户间关系链的强度和特征属性的相似度应满足非线性的关系；因此，现有技术中基于对结构相似度和特征属性的相似度采用线性平均的方式进行计算生成重构的社交网络模型对于社交网络模型的研究并没有实际意义。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的问题而提供一种数据处理方法及设备。

本发明实施例提供一种数据处理方法，所述方法包括：

获取表征节点之间具有第一关联关系的第一社交网络模型；

将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；其中，所述第一邻接矩阵表示节点之间的直接关联关系；

将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵；所述第一节点为所述第一社交网络模型中的任一节点；

获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度；

获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度；

基于所述任意两个节点的结构相似度和特征属性的相似度确定融合相似度，对确定的融合相似度按照预设要求进行筛选，基于满足预设要求的融合相似度生成第三邻接矩阵；

基于所述第三邻接矩阵生成表征节点之间第二关联关系的第二社交网络模型。

上述方案中，所述将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵，包括：

遍历所述第一社交网络模型中的节点，将具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0，生成第一邻接矩阵。

上述方案中，所述将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵，包括：

遍历所述第一社交网络模型中的节点，将分别与第一节点具有直接关联关系的任意两个节点对应的元素值为置为1，生成第二邻接矩阵。

上述方案中，所述获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度，包括：

获取所述第二邻接矩阵中具有直接关联关系的节点u和节点v，基于所述第一邻接矩阵所表示的第一社交网络模型分别确定所述节点u对应的包含有所述节点u的第一邻居节点集合，以及所述节点v对应的包含有所述节点v的第二邻居节点集合；

分别确定所述第一邻居节点集合的第一节点数量以及所述第二邻居节点集合的第二节点数量；基于所述第一邻居节点集合、所述第二邻居节点集合、所述第一节点数量和所述第二节点数量确定所述结构相似度。

上述方案中，所述获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度，包括：

获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度；

对所述多个特征属性的相似度按照加权平均算法进行处理后获得所述任意两个节点的特征属性的相似度。

上述方案中，所述获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度，包括：

分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的对应于第一特征属性的第一行向量和第二行向量；其中，所述第一特征属性为所述多个特征属性中的任一特征属性；所述第一行向量和所述第二行向量中的数值分别表征在预设时间范围内的多个指定时间段、所述任意两个节点的第一特征属性的状态；

基于所述第一行向量和所述第二行向量确定所述任意两个节点的对应于所述第一特征属性的第一相似度。

上述方案中，所述基于所述任意两个节点的结构相似度和特征属性的相似度确定融合相似度，包括：

依据

计算任意两个节点的融合相似度；

其中，TP_S表示融合相似度，P_S表示特征属性相似度，T_S表示结构相似度，α和β为加权参数。

上述方案中，所述对确定的融合相似度按照预设要求进行筛选，基于满足预设要求的融合相似度生成第三邻接矩阵，包括：

将所述第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为对应的融合相似度；

将全部小于预设阈值的融合相似度替换为零，生成第三邻接矩阵。

本发明实施例还提供一种数据处理设备，所述设备包括：第一获取单元、处理单元、第一生成单元、第二获取单元、第三获取单元、第二生成单元和第三生成单元；其中，

所述第一获取单元，用于获取表征节点之间具有第一关联关系的第一社交网络模型；

所述处理单元，用于将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；其中，所述第一邻接矩阵表示节点之间的直接关联关系；

所述第一生成单元，用于将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵；所述第一节点为所述第一社交网络模型中的任一节点；

所述第二获取单元，用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度；

所述第三获取单元，用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度；

所述第二生成单元，用于基于所述任意两个节点的结构相似度和特征属性的相似度确定融合相似度，对确定的融合相似度按照预设要求进行筛选，基于满足预设要求的融合相似度生成第三邻接矩阵；

所述第三生成单元，用于基于所述第三邻接矩阵生成表征节点之间第二关联关系的第二社交网络模型。

上述方案中，所述处理单元，具体用于遍历所述第一社交网络模型中的节点，将具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0，生成第一邻接矩阵。

上述方案中，所述第一生成单元，具体用于遍历所述第一社交网络模型中的节点，将分别与第一节点具有直接关联关系的任意两个节点对应的元素值为置为1，生成第二邻接矩阵。

上述方案中，所述第一获取单元，具体用于获取所述第二邻接矩阵中具有直接关联关系的节点u和节点v，基于所述第一邻接矩阵所表示的第一社交网络模型分别确定所述节点u对应的包含有所述节点u的第一邻居节点集合，以及所述节点v对应的包含有所述节点v的第二邻居节点集合；

上述方案中，所述第二获取单元，具体用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度；

上述方案中，所述第二获取单元，具体用于分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的对应于第一特征属性的第一行向量和第二行向量；其中，所述第一特征属性为所述多个特征属性中的任一特征属性；所述第一行向量和所述第二行向量中的数值分别表征在预设时间范围内的多个指定时间段、所述任意两个节点的第一特征属性的状态；

上述方案中，所述第二生成单元，具体用于依据

计算任意两个节点的融合相似度；

上述方案中，所述第二生成单元，具体用于将所述第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为对应的融合相似度；

本发明实施例中所提供的数据处理方法及设备，数据处理设备根据社交网络模型中节点的特征属性的相似度和基于好友关系的结构相似度获取融合相似度，并在获取融合相似度时，根据实际需要对各特征属性进行加权处理，得到不同特征定位的重构的社交网络模型；如此，使得表示重构网络模型的邻接矩阵既包括了用户的好友关系链的相似度，又包括了用户的特征属性的相似度；因此，基于重构后的社交网络模型进行相应的社区发现、链路预测和图表征得到的结果更加具有现实意义。

附图说明

图1为本发明实施例一种数据处理方法的基本处理流程示意图；

图2为本发明实施例一种社交网络模型示意图；

图3为本发明实施例一种数据处理方法的详细处理流程示意图；

图4为本发明实施例一种数据处理设备的组成结构示意图；

图5为本发明实施例一种终端设备的硬件实体组成结构示意图。

具体实施方式

发明人发现，基于社交网络模型的社区发现是基于现实网络中存在的结构特点寻找社交网络模型中的一种子图，子图内部的连边数量远大于子图与子图之间的连边数量，该子图称之为社区；社交网络模型中的节点因关系紧密形成社区，社区发现对于好友推荐和用户画像等具有重要作用。

基于社交网络模型的链路预测是指通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性；链路预测既包含了对未知链接的预测，也包含了对未来链接的预测，链路预测的研究可以从理论上帮助认识复杂网络演化的机制。

基于社交网络模型的网络图表征是对大规模网络数据的降维过程，相比于主成分分析法、奇异值分解等传统的降维方法在可视化过程中更能够保证社区的结构特征，因此，图表征的研究对于大规模网络数据分析具有很大的帮助。

传统的社区发现、链路预测和图表征都是基于网络结构的，即用户间的好友关系；但是，在社交网络模型中除了用户间的好友关系，还包括用户的兴趣爱好、地理位置等非网络结构的信息。

通过计算社交网络模型中相邻用户的结构相似度、相邻用户的所有特征属性求余弦得到特征属性的相似度，以及将结构相似度和特征属性的相似度进行线性加权平均，得到任意两节点之间连边的权重，进而生成重构的社交网络模型；即基于对结构相似度和特征属性的相似度采用线性平均的方式进行计算生成重构的社交网络模型。这种社交网络的重构方式存在的问题是，如果两个用户生活在不同的用户社区中，而社区本身也具有较大的差异性，那么即使这两个用户的特征属性非常高，对于社交网络来说也没有意义。基于此，提示本发明以下各实施例

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明实施例一种数据处理方法的基本处理流程示意图，如图1所示，包括以下步骤：

步骤101，获取表征节点之间具有第一关联关系的第一社交网络模型；

这里，所述第一社交网络模型中具有连边的两个节点具有第一关联关系，具有第一关联关系的两个用户之间为好友关系。

步骤102，将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；

具体地，遍历所述第一社交网络模型中的节点，将具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0，生成第一邻接矩阵；

这里，所述第一社交网络模型中有N个节点，则所述第一邻接矩阵为N×N的矩阵，且所述第一邻接矩阵为对称矩阵；

所述第一邻接矩阵表示所述第一社交网络模型中的节点之间具有直接关联关系，所述直接关联关系是指两个节点之间具有连边；举例来说，如果所述第一社交网络模型中的节点1和节点2之间具有连边，则认为节点1和节点2之间具有直接关联关系；那么，第一邻接矩阵中的元素A₁₂的值为1。如果所述第一社交网络模型中的节点1和节点3之间不具有连边，则认为节点1和节点3之间不具有直接关联关系；那么第一邻接矩阵中的元素A₁₃的值为0。

步骤103，将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵；所述第一节点为所述第一社交网络模型中的任一节点；

这里，所述第一节点为所述第一社交网络模型中的任一节点；

举例来说，如果所述第一社交网络模型中的节点1和节点2之间具有连边，节点2和节点3之间具有连边，而节点1和节点3之间不具有连边，那么，记录节点1和节点3在所述第二邻接矩阵中具有直接关联关系。

步骤104，获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度；

具体的，获取所述第二邻接矩阵中具有直接关联关系的节点u和节点v，基于所述第一邻接矩阵所表示的第一社交网络模型分别确定所述节点u对应的包含有所述节点u的第一邻居节点集合，以及所述节点v对应的包含有所述节点v的第二邻居节点集合；

分别确定所述第一邻居节点集合的第一节点数量以及所述第二邻居节点集合的第二节点数量；基于所述第一邻居节点集合、所述第二邻居节点集合、所述第一节点数量和所述第二节点数量确定所述结构相似度；

这里，可利用如下公式计算节点u和节点v的结构相似度：

其中，Ts表示结构相似度，N[u]表示节点u在第一矩阵中包含自身的所有邻接节点的集合，N[v]表示节点v在第一矩阵中包含自身的所有邻接节点的集合，|N[u]∩N[v]表示N[u]与N[v]交集的数量，d[u]表示集合N[u]中的节点数量，d[v]表示集合N[v]中的节点数量。

步骤105，获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度；

具体地，获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度；对所述多个特征属性的相似度按照线性加权平均算法进行处理后获得所述任意两个节点的特征属性的相似度；在计算特征属性的相似度时，加权参数可根据实际情况灵活设置；

在获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度时，分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的对应于第一特征属性的第一行向量和第二行向量；其中，所述第一特征属性为所述多个特征属性中的任一特征属性；所述第一行向量和所述第二行向量中的数值分别表征在预设时间范围内的多个指定时间段、所述任意两个节点的第一特征属性的状态；基于所述第一行向量和所述第二行向量确定所述任意两个节点对应于所述第一特征属性的第一相似度；

这里，可利用如下公式计算第二邻接矩阵中具有直接关联关系的两个节点的每个特征属性的相似度：

其中，所述第二邻接矩阵中节点的每个特征属性均有对应的行向量值，如关注公众号与否记录为相应的特征属性对应的行向量值为1和0，不同地理位置在单月发布状态或签到的次数记录为相应的特征属性对应的行向量值为实际次数值、或实际次数值按预设的规则分类统计后的数值；

A和B为第二邻接矩阵中具有直接关联关系的两个节点对于同一特征的行向量，A＝[a₁，a₂，...a_n]，B＝[b₁，b₂，...b_n]，a_n和b_n分别表示所述两个节点在所述特征上的值，

所述特征属性包括：地理位置信息、个人兴趣、行为偏好等，在对多个特征属性按照加权平均算法进行处理时，可根据实际需要对各特征属性的相似度进行加权处理，得到用户A与用户B的特征属性的相似度。

步骤106，基于所述任意两个节点的结构相似度和特征属性的相似度确定融合相似度，对确定的融合相似度按照预设要求进行筛选，基于满足预设要求的融合相似度生成第三邻接矩阵；

具体的，首先根据如下公式中非线性指数的形式计算任意两个节点的融合相似度；

其中，TP_S表示融合相似度，P_S表示特征属性的相似度，T_S表示结构相似度，α和β为加权参数；α和β的值可根据实际需要进行调整。

再将所述第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为对应的融合相似度；

最后，两个节点之间的融合相似度小于预设阈值时，可以认为这两个节点之间的关联性小；因此，将全部小于预设阈值的融合相似度替换为零，生成第三邻接矩阵；

这里，所述第三邻接矩阵既包括了用户的好友关系链的相似度，又包括了用户的特征属性的相似度；使得基于重构后的社交网络模型进行对应的社区发现、链路预测和图表征得到的结果更加具有现实意义。

步骤107，基于所述第三邻接矩阵生成表征节点之间第二关联关系的第二社交网络模型；

具体地，所述第三邻接矩阵中具有第二关联关系的两个节点在所述第二社交网络模型中具有连边，所述第三邻接矩阵中不具有第二关联关系的两个节点在所述第二社交网络模型中不具有连边。

应用本发明实施例，使得表示重构网络模型的邻接矩阵既包括了用户的好友关系链的相似度，又包括了用户的特征属性的相似度；基于重构后的社交网络模型进行相应的社区发现、链路预测和图表征得到的结果更加具有现实意义。

图2为本发明实施例的一种社交网络模型示意图，以图2所示社交网络模型为例，本发明实施例一种数据处理方法的详细处理流程示意图，如图3所示，包括以下步骤：

步骤201，获取用于表示网络模型的第一邻接矩阵；

具体地，遍历所述第一社交网络模型中的节点，将具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0，生成第一邻接矩阵A；

如图2所示，节点1和节点2之间具有连边，认为节点1和节点2具有直接关联关系，则所述第一邻接矩阵中的元素A₁₂的值为1；节点1和节点6之间不具有连边，认为节点1和节点6不具有直接关联关系，则所述第一邻接矩阵A中的元素A₁₆的值为1；同理，可计算第一邻接矩阵A中各元素的值；

步骤202，将所述第一社交网络模型中最大跳数为2的两个节点记为具有直接关联关系而生成第二邻接矩阵；

具体地，如图2所示，节点3分别与节点1、节点5具有连边，而节点1与节点5不具有连边，则认为节点1和节点5之间的跳数为2，记录节点1和节点5具有直接关联关系，所述第二邻接矩阵中的元素A₁₅的值为1；同理，所述第二邻接矩阵中的元素A₁₄、A₁₆的值均为1；节点2、节点3与节点1之间的跳数为1，所述第二邻接矩阵中的元素A₁₂、A₁₃的值也为1；以此类推，得到第二邻接矩阵A1，

步骤203，获取第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度；

具体地，以计算第二邻接矩阵中节点1和节点5的结构相似度为例，在第一邻接矩阵中节点1的邻居为节点2和节点3，节点5的邻居为节点3，节点1和节点5的邻居的交集为节点3，则节点1和节点5的结构相似度为：

步骤204，获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度；

具体地，先获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度；再对所述多个特征属性的相似度按照线性加权平均算法进行处理后获得所述任意两个节点的特征属性的相似度，计算特征属性相似度时的加权参数可根据实际情况灵活设置。

以图2所示网络模型中节点1和节点5为例，首先获取节点1和节点5中第一特征属性的行向量，利用下述公式计算节点1和节点5基于所述第一特征属性的相似度：

A和B为第二邻接矩阵中节点1和节点5对于同一特征的行向量，A＝[a₁，a₂，...a_n]，B＝[b₁，b₂，...b_n]，a_n和b_n分别表示节点1和节点5在所述特征上的值，

其次，基于同样的方法，分别计算节点1与节点5的各特征属性的相似度；

最后，根据实际需要对各特征属性的相似度进行加权处理，得到节点1与节点5的特征属性的相似度；

利用与计算节点1与节点5的特征属性的相似度同样的方法，可计算第二邻接矩阵中具有直接关联关系的各节点对的特征属性的相似度。

步骤205，基于任意两个节点的结构相似度和特征属性的相似度确定融合相似度；

具体的，根据如下公式计算任意两个节点的融合相似度；

其中，TP_S表示融合相似度，P_S表示任意两个节点的特征属性的相似度，T_S表示任意两个结构相似度，α和β为加权参数；α和β的值可根据实际需要进行调整。

步骤206，将第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为计算得到的两个节点的融合相似度；

这里，将第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为计算得到的两个节点的融合相似度后，生成矩阵A1’；

步骤207，将小于0.3的融合相似度替换为零，生成第三邻接矩阵；

这里，将低于预设阈值的融合相似度进行剔除，简化后续对重构网络模型的研究和计算；所述预设阈值可根据实际需要灵活设置，通常设置为0.2至0.4之间；

本实施例中，设置阈值为0.3，得到第三邻接矩阵A2为：

应用本发明实施例，由于所述第三邻接矩阵既包括了用户的好友关系链的相似度，又包括了用户的特征属性的相似度，使得表示重构网络模型的邻接矩阵既包括了用户的好友关系链的相似度，又包括了用户的特征属性的相似度；基于重构后的社交网络模型进行相应的社区发现、链路预测和图表征得到的结果更加具有现实意义。

为实现本发明上述方法实施例，本发明还提供一种数据处理设备，所述数据处理设备的组成结构示意图，如图4所示，包括：第一获取单元11、处理单元12、第一生成单元13、第二获取单元14、第三获取单元15、第二生成单元16和第三生成单元17；其中，

所述第一获取单元11，用于获取表征节点之间具有第一关联关系的第一社交网络模型；

所述处理单元12，用于将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；其中，所述第一邻接矩阵表示节点之间的直接关联关系；

所述第一生成单元13，用于将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵；所述第一节点为所述第一社交网络模型中的任一节点；

所述第二获取单元14，用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度；

所述第三获取单元15，用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度；

所述第二生成单元16，用于基于所述任意两个节点的结构相似度和特征属性的相似度确定融合相似度，对确定的融合相似度按照预设要求进行筛选，基于满足预设要求的融合相似度生成第三邻接矩阵；

所述第三生成单元17，用于基于所述第三邻接矩阵生成表征节点之间第二关联关系的第二社交网络模型。

本发明实施例中，所述处理单元12，具体用于遍历所述第一社交网络模型中的节点，将具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0，生成第一邻接矩阵。

本发明实施例中，所述第一生成单元13，具体用于遍历所述第一社交网络模型中的节点，将分别与第一节点具有直接关联关系的任意两个节点对应的元素值为置为1，生成第二邻接矩阵。

本发明实施例中，所述第一获取单元11，具体用于获取所述第二邻接矩阵中具有直接关联关系的节点u和节点v，基于所述第一邻接矩阵所表示的第一社交网络模型分别确定所述节点u对应的包含有所述节点u的第一邻居节点集合，以及所述节点v对应的包含有所述节点v的第二邻居节点集合；

本发明实施例中，所述第二获取单元14，具体用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度；对所述多个特征属性的相似度按照加权平均算法进行处理后获得所述任意两个节点的特征属性的相似度。

本发明实施例中，所述第二获取单元14，具体用于分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的对应于第一特征属性的第一行向量和第二行向量；其中，所述第一特征属性为所述多个特征属性中的任一特征属性；所述第一行向量和所述第二行向量中的数值分别表征在预设时间范围内的多个指定时间段、所述任意两个节点的第一特征属性的状态；基于所述第一行向量和所述第二行向量确定所述任意两个节点的对应于所述第一特征属性的第一相似度。

本发明实施例中，所述第二生成单元16，具体用于依据

计算任意两个节点的融合相似度；

本发明实施例中，所述第二生成单元16，具体用于将所述第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为对应的融合相似度；将全部小于预设阈值的融合相似度替换为零，生成第三邻接矩阵。

本实施例中，所述第一社交网络模型中有N个节点，则所述第一邻接矩阵为N×N的矩阵，且所述第一邻接矩阵为对称矩阵；所述第一邻接矩阵表示所述第一社交网络模型中的节点之间具有直接关联关系；举例来说，如果所述第一社交网络模型中的节点1和节点2之间具有连边，则认为节点1和节点2之间具有直接关联关系；那么，第一邻接矩阵中的元素A₁₂的值为1。如果所述第一社交网络模型中的节点1和节点3之间不具有连边，则认为节点1和节点3之间不具有直接关联关系；那么第一邻接矩阵中的元素A₁₃的值为0。

本实施例中，所述第一节点为所述第一社交网络模型中的任一节点；在生成第二邻接矩阵过程中，如果所述第一社交网络模型中的节点1和节点2之间具有连边，节点2和节点3之间具有连边，而节点1和节点3之间不具有连边，那么，记录节点1和节点3在所述第二邻接矩阵中具有直接关联关系。

本实施例中，第二获取单元14利用如下公式计算第二邻接矩阵中任意两节点在第一邻接矩阵中的结构相似度：

本实施例中，第三获取单元15利用如下公式计算第二邻接矩阵中具有直接关联关系的两个节点的每个特征属性的相似度：

本实施例中，所述第三邻接矩阵中具有第二关联关系的两个节点在所述第二社交网络模型中具有连边，所述第三邻接矩阵中不具有第二关联关系的两个节点在所述第二社交网络模型中不具有连边。

本实施例中，所述第三邻接矩阵既包括了用户的好友关系链的相似度，又包括了用户的特征属性的相似度；使得基于重构后的社交网络模型进行对应的社区发现、链路预测和图表征得到的结果更加具有现实意义。

本实施例中，所述数据处理设备可以是计算机等终端设备或者服务器等网络设备。所述数据处理设备中的第一获取单元11、处理单元12、第一生成单元13、第二获取单元14、第三获取单元15、第二生成单元16和第三生成单元17，在实际应用中均可由所述设备中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital SignalProcessor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

本实施例中，数据处理设备作为硬件实体的一个示例，如图5所示。所述数据处理设备包括处理器61、存储介质62以及至少一个外部通信接口63；所述处理器61、存储介质62以及外部通信接口63均通过总线64连接。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取表征节点之间具有第一关联关系的第一社交网络模型，所述第一关联关系用于表征所述第一社交网络模型中具有连边的两个节点之间的关系；

将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；其中，所述第一邻接矩阵表示节点之间的直接关联关系，所述预设表示方式包括将所述第一社交网络模型中具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0；

分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中对应的邻居节点集合，基于所述邻居节点集合以及所述邻居节点集合中的节点数量，确定所述任意两个节点的结构相似度；

获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度，所述特征属性的相似度是对所述任意两个节点的多个特征属性的相似度按照加权平均算法进行处理后得到的；

依据

确定任意两个节点的融合相似度，其中，TP_S表示融合相似度，P_S表示特征属性相似度，T_S表示结构相似度，α和β为加权参数；

将所述第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为对应的所述融合相似度；将全部小于预设阈值的融合相似度替换为零，生成第三邻接矩阵；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将所述第一社交网络模型中分别与第一节点具有直接关联关系的任意两个节点记为具有直接关联关系而生成第二邻接矩阵，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中的结构相似度，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度，包括：

7.一种数据处理设备，其特征在于，所述设备包括：第一获取单元、处理单元、第一生成单元、第二获取单元、第三获取单元、第二生成单元和第三生成单元；其中，

所述第一获取单元，用于获取表征节点之间具有第一关联关系的第一社交网络模型，所述第一关联关系用于表征所述第一社交网络模型中具有连边的两个节点之间的关系；

所述处理单元，用于将所述第一社交网络模型按预设表示方式表示为第一邻接矩阵；其中，所述第一邻接矩阵表示节点之间的直接关联关系，所述预设表示方式包括将所述第一社交网络模型中具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0；

所述第二获取单元，用于分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点在所述第一邻接矩阵中对应的邻居节点集合，基于所述邻居节点集合以及所述邻居节点集合中的节点数量，确定所述任意两个节点的结构相似度；

所述第三获取单元，用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的特征属性的相似度，所述特征属性的相似度是对所述任意两个节点的多个特征属性的相似度按照加权平均算法进行处理后得到的；

所述第二生成单元，用于依据

确定任意两个节点的确定融合相似度，其中，TP_S表示融合相似度，P_S表示特征属性相似度，T_S表示结构相似度，α和β为加权参数；将所述第二邻接矩阵中具有直接关联关系的任意两个节点对应的元素值替换为对应的所述融合相似度；将全部小于预设阈值的融合相似度替换为零生成第三邻接矩阵；

8.根据权利要求7所述的设备，其特征在于，所述处理单元，具体用于遍历所述第一社交网络模型中的节点，将具有直接关联关系的任意两个节点对应的元素值置为1，将不具有直接关联关系的任意两个节点对应的元素值置为0，生成第一邻接矩阵。

9.根据权利要求7或8所述的设备，其特征在于，所述第一生成单元，具体用于遍历所述第一社交网络模型中的节点，将分别与第一节点具有直接关联关系的任意两个节点对应的元素值为置为1，生成第二邻接矩阵。

10.根据权利要求7或8所述的设备，其特征在于，所述第一获取单元，具体用于获取所述第二邻接矩阵中具有直接关联关系的节点u和节点v，基于所述第一邻接矩阵所表示的第一社交网络模型分别确定所述节点u对应的包含有所述节点u的第一邻居节点集合，以及所述节点v对应的包含有所述节点v的第二邻居节点集合；

11.根据权利要求7或8所述的设备，其特征在于，所述第二获取单元，具体用于获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的多个特征属性的相似度；

12.根据权利要求11所述的设备，其特征在于，所述第二获取单元，具体用于分别获取所述第二邻接矩阵中具有直接关联关系的任意两个节点的对应于第一特征属性的第一行向量和第二行向量；其中，所述第一特征属性为所述多个特征属性中的任一特征属性；所述第一行向量和所述第二行向量中的数值分别表征在预设时间范围内的多个指定时间段、所述任意两个节点的第一特征属性的状态；

13.一种数据处理设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的计算机程序时，实现权利要求1至6任一项所述的数据处理方法。

14.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至6任一项所述的数据处理方法。