CN111815468A

CN111815468A - 一种基于用户身份关联的多源社交网络构建方法

Info

Publication number: CN111815468A
Application number: CN202010498851.9A
Authority: CN
Inventors: 王勇; 潘中怀; 杨静; 张泽宝; 王昊
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-10-23
Anticipated expiration: 2040-06-04
Also published as: CN111815468B

Abstract

本发明的一种基于用户身份关联的多源社交网络构建方法，属于社交网络分析技术领域。首先定义伪超边的概念并构造伪超边超图模型，通过引入拓扑亲密值度量超图中节点间拓扑结构相似性，然后将超图中节点的用户名属性向量化进行相似度计算，进而提出基于联合锁定策略的用户身份关联方法实现跨社交网络用户匹配，最后基于用户匹配结果进行社交关系填补完成多源社交网络构建。本发明提出的基于用户身份关联的多源社交网络的构建方法最大化利用网络拓扑信息，综合利用结构特性和用户属性进行用户匹配，克服单一网络的局限性，构建的网络更加完备、精准，在种子节点有限的情况下也能获得较好地效果。

Description

一种基于用户身份关联的多源社交网络构建方法

技术领域

本发明涉及基于一种基于用户身份关联的多源社交网络构建方法，属于社交网络分析技术领域。

背景技术

随着互联网技术的高速发展和移动智能终端的大量普及，人们通过多个社交网络平台进行信息交流、情感沟通等，社交网络已经成为维持社会关系、信息传播的重要媒介和平台，基于社交网络的舆情监控、广告推送以及好友推荐等成为前沿热点研究领域之一。社交网络构建是社交网络分析研究的基础和核心，构建更加完备和精准的多源社交网络是保障分析结果准确与有效应用的关键。面对多源异构网络融合的复杂性，现阶段国内外多源社交网络构建研究较少，主要集中在单一目标网络建模方面。一般地，跨媒体社交网络构建主要通过研究社交网络固有的“小世界”、“无标度”等特性，基于图论、统计学等领域知识，进行单一社交网络模型构建，然后结合跨社交网络用户关联、关系填补等技术，进而实现多源社交网络的构建。

基于用户身份关联是多源社交网络构建的核心关键技术，常用方法主要包括：基于字符串的相似性进行匹配，利用机器学习等技术提取用户单一属性字符串或结合的多种属性字符串来计算用户的相似程度，并依据用户属性的重要程度或特有程度施以不同大小的权重完成跨社交网络用户身份的匹配；基于拓扑结构的算法，利用网络拓扑结构蕴含信息，结合多属性方法对用户进行识别，提高了匹配准确率；利用用户属性和三度影响力原则创建的匹配模型来推测用户的身份特征，从而解决了因局部拓扑结构稀疏导致的匹配结果不稳定的问题。现有基于用户身份关联的多源社交网络构建方法大多依赖属性字符串的匹配或与匹配过程的相互组合，或是利用拓扑结构进行相似性计算，前者需要大量的种子节点进行训练，后者依据过于单一，因而很难做到种子节点较少的情况下精确匹配与社交关系的有效填补，如何更加有效地描述、刻画现实世界的真实网络依然是重要挑战。

发明内容

本发明的目的是提出一种基于用户身份关联的多源社交网络构建方法，以克服单一网络的局限性，使构建的网络更加完备、精准，在种子节点有限的情况下也能获得较好地效果。

一种基于用户身份关联的多源社交网络构建方法，所述构建方法包括以下步骤：

步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型，融入弱连接的非直接好友关系；

步骤二、基于伪超边超图模型，计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值，然后根据不同网络节点之间的拓扑相似度，通过对拓扑相似度的分段划分获得节点候选集；

步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示，并使用余弦相似度来计算候选集中节点对中用户名的相似度；

步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集，识别当前最优跨网络节点对，加入种子节点集，重复JUA算法并最终输出匹配节点集合；

步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合，返回融合后的复合网络。

进一步的，在步骤一中，使用伪超边超图模型构建算法PHA建立伪超边超图模型，具体为：社交网络G_h(V_h，E_h，E_ph)的超图结构称为伪超边超图模型，其中V_h是超点集，代表网络中的用户节点，E_h是超边集，表示具有直接好友关系的用户构成超边集合，E_ph是伪超边集，表示拥有共同好友关系的非好友节点构成的伪超边集合，对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值，由超边内节点关系权重应大于伪超边，对于节点间直接相连所构成的超边关系，将其权重设置为

对于由弱连接关系构建的伪超边结构，由于节点之间并没有直接相连，将其权值设置为δ且

并引入参数q<1，令

以比值的形式度量两种关系。

进一步的，在步骤二中，计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值，具体的计算方法为：

其中，G_h为种子节点集，f(v_i，v_j)为节点关系函数，用于判断节点对(v_i，v_j)所在的节点关系，E_h/E_ph/Null为返回值；当f(v_i，v_j)返回E_h时，

此时超边中的两个节点联系紧密，拓扑亲密值高；当f(v_i，v_j)返回E_ph时，

此时两节点在网络中为弱连接关系，不直接相连，所以节点联系疏远，拓扑亲密值低；否则，

进一步的，在步骤二中，不同网络节点之间的拓扑相似度的具体计算方法为：

其中，

和

是不同社交网络中的任意节点，

分别为第K个种子节点对之间的拓扑亲密值，

为不同网络中的节点

和节点

与所有种子节点对的

之和。

进一步的，在步骤三中，利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示，并使用余弦相似度来计算候选集中节点对中用户名的相似度，具体为：

TF-IDF＝tf_j，ni*idf_j,

其中，tf_j，ni表示对用户名进行二分词后的特征j在用户名n_i中出现的频次，idf_j,为逆向特征频率，表示特征j出现在整个候选集用户名中的次数和候选集中用户名总数，计算方法如下公式所示：

其中，|N|为用户名总数，n_i为N中的一个用户名，

在节点候选集中节点用户名属性的向量化表示后，使用余弦相似度方法进行用户名的相似度计算，计算方法如下公式所示：

其中，CC_name代表两个用户名的相似度，n_i、n_j代表候选集中节点用户名属性的向量化表示后的向量空间，t_ki、t_kj表示用户名中第K个特征向量与TF-IDF权重的乘积。

进一步的，在步骤四中，采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配，具体为：

步骤四一、将一般简单网络G^x(V^x，E^x)和G^y(V^y，E^y)，输入超边与伪超边的权重比值q以及种子点集S，构建伪超边超图模型

和

步骤四二、遍历节点，计算节点与每个种子节点的拓扑亲密值T，进而根据每个节点的T值计算出拓扑相似度S_n，依据拓扑相似度S_n的值在两个网络中选择最优值节点对进入候选集；

步骤四三、之后计算候选集中节点用户名的余弦相似度，选择用户名属性相似度和S_n都较为相似的两个节点作为结果加入匹配结果集，将步骤四三的匹配结果作为种子节点加入种子节点集S；

步骤四四、重新计算T和Sn并重复步骤四二至步骤四三，当所有节点均已被遍历时停止迭代，输出最后的匹配结果集。

进一步的，在步骤五中，利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行多源社交网络融合，具体为：

步骤五一、遍历JUA算法得到的匹配节点结果集合，并在伪超边超图模型网络中一一标记；

步骤五二、生成一个新的节点，将标记节点对的连线全部复制，将标记的节点对及其身上的连线全部清除；

步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作，最后输出构建完成的融合网络。

本发明的主要优点是：本发明提出一种基于用户身份关联的多源社交网络构建方法，首先定义伪超边的概念并构造伪超边超图模型，通过引入拓扑亲密值度量超图中节点间拓扑结构相似性，然后将超图中节点的用户名属性向量化进行相似度计算，进而提出基于联合锁定策略的用户身份关联方法实现跨社交网络用户匹配，最后基于用户匹配结果进行社交关系填补完成多源社交网络构建。本发明提出的基于用户身份关联的多源社交网络的构建方法最大化利用网络拓扑信息，综合利用结构特性和用户属性进行来用户匹配，克服单一网络的局限性，构建的网络更加完备、精准，在种子节点有限的情况下也能获得较好地效果。

附图说明

图1为本发明的一种基于用户身份关联的多源社交网络构建方法的方法流程图；

图2为用户名所含特征数量示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，本发明提出了一种基于用户身份关联的多源社交网络构建方法的一实施例，所述构建方法包括以下步骤：

在步骤一中，使用伪超边超图模型构建算法PHA建立伪超边超图模型，具体为：社交网络G_h(V_h，E_h，E_ph)的超图结构称为伪超边超图模型，其中V_h是超点集，代表网络中的用户节点，E_h是超边集，表示具有直接好友关系的用户构成超边集合，E_ph是伪超边集，表示拥有共同好友关系的非好友节点构成的伪超边集合，对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值，由超边内节点关系权重应大于伪超边，对于节点间直接相连所构成的超边关系，将其权重设置为

并引入参数q<1，令

以比值的形式度量两种关系。

在步骤二中，计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值，具体的计算方法为：

具体的，由于好友关系在不同社交网络中非常容易保持一致性，所以在多个好友网络间，可以借助已知是同一用户的节点(种子节点)来判断其他用户(待匹配用户)是否为同一用户，因为多网络中的同一用户与种子节点之间具有跨网络一致性。因此可利用这种一致性来筛选待匹配用户对的候选集。

在超图模型网络中，两个节点同时存在的超边与伪超边越多，这两个节点间的拓扑亲密值就越高，且超边权值高于伪超边，拓扑亲密值刻画了两个好友间的一种亲密程度。

已知社交关系网络G(V，E)，以及在其上构建的伪超边超图模型网络G_h(V_h，E_h，E_ph)，G_h中的两个节点v_i∈V_h和v_j∈V_h的拓扑亲密值计算方法如下式所示：

其中，G_h表示种子节点集，f(v_i，v_j)是节点关系函数，用来判断节点对(v_i，v_j)所在的节点关系，返回值为E_h/E_ph/Null；当f(v_i，v_j)返回E_h时，

此时超边中的两个节点联系比较紧密，拓扑亲密值较高；当f(v_i，v_j)返回E_ph时，

此时两节点在网络中为弱连接关系，并不直接相连，所以节点联系较为疏远，拓扑亲密值较低；否则，

可利用节点的拓扑亲密值来比较不同网络中的用户相似度。因此，对于不同网络中的两个节点

和

它们的网络拓扑结构相似性便可以一定程度上表示用户相似性，据此来求取待匹配节点对的候选集。拓扑相似度计算表达式如下式所示：

若节点

和

是现实中的同一个真实用户，那么它们与所有种子节点的拓扑亲密值的差的绝对值

就会很小，那么用户相似度

就会很大。通过计算所有的待匹配节点的S_n值并进行分段划分，便可获得节点对候选集。

在步骤二中，不同网络节点之间的拓扑相似度的具体计算方法为：

其中，

和

是不同社交网络中的任意节点，

分别为第K个种子节点对之间的拓扑亲密值，

为不同网络中的节点

和节点

与所有种子节点对的

之和。

在步骤三中，利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示，并使用余弦相似度来计算候选集中节点对中用户名的相似度，具体为：

TF-IDF＝tf_j，ni*idf_j,

其中，|N|为用户名总数，n_i为N中的一个用户名，

其中，CC_name代表两个用户名的相似度，n_i、n_j代表候选集中节点用户名属性的向量化表示后的向量空间，

表示用户名中第K个特征向量与TF-IDF权重的乘积。

具体的，社交网络内的相邻好友的节点拓扑亲密值相近，且他们拓扑亲密值差值及拓扑结构相似性可以在一定程度上反映出节点相似情况。在此基础上，若要进一步锁定匹配的节点对，还需要借助其他信息来判定。

生活中常用的用户名是一个个字符串，且极可能包含特殊字符，若要计算字符串之间的相似度，最常用的方法便是将其转化为一个数字再进行比对，因此本实施例采用自然语言处理领域的分词方法对用户名信息向量化处理，将字符串分割成多个特征，并用向量的多个维度来表示。

在此之前，本实施例要先对用户名统一规格，首先将英文字母统一大小写，然后去掉里面的表情元素等特殊符号，再将用户名的中英文字符分离，得到中英文字符串。在特征提取时，分词的效果很大程度上影响着相似度的计算，对于“n-gram”频数，由于用户名本身一般不会太长，因此对于中英文字符串均取n＝2，相当于对原始字符串进行二分词；最后利用TF-IDF策略计算每个特征的权值，从而实现用户名属性的向量化表示。

对每个“2-gram”特征j，其词频表达式如下式所示：

其中，|N|为用户名总数，n_i为N中的一个用户名。

参照图2所示，例如在{Susua，Sue，Susa，Lisa}所组成的用户名集合N中，从观察来看，Susun与Susa最为相似，Sue与Lisa毫无相似性，接下来通过计算的方式对其验证。

由于例子中的用户名为纯英文，因此将用户名字符串直接进行“2-gram”分词，即上述集合含有特征：su，us，ua等，所有特征及其频数如图2所示。

计算得到各特征的idf值，如表1所示：

表1用户名特征词频idf

再与其频数相乘即可得到用户名字符串对应的向量表示形式，即V_Susua＝(0.83，1，2，0，0，0，0)；V_Sue＝(0.415，0，0，2，0，0，0)；V_Susa＝(0.415，1，0，0，1，0，0)；V_Lisa＝(0，0，0，0，1，2，2)。对于含有中文的用户名同理，只需将中英文字符串特征按对应位置结合即可。本实施例使用余弦相似度来计算用户名的相似度，四个用户名的余弦相似度CC_name值如表2所示。

表2用户名字符串的相似度

由于前面提出的方法已经确定了待匹配节点对的候选集，因此本处实际上并不需要对所有用户名都进行相似度计算，因此候选集大大降低了算法的运行时间(本示例为了演示计算了所有用户名间的相似度)。由数据可知，Susua、Susa、Sue三个相似的用户中Susua与Susa更相似一些，Sue与Susua较相似，Lisa与Susa略有相似，这与人们的视觉感受相符，从理论上表明了算法具有一定的有效性，本示例仅为了说明该部分的逻辑可行性。

在步骤四中，采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配，具体为：

和

在步骤五中，利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行网络融合，具体为：

Claims

1.一种基于用户身份关联的多源社交网络构建方法，其特征在于，所述构建方法包括以下步骤：

2.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法，其特征在于，在步骤一中，使用伪超边超图模型构建算法PHA建立伪超边超图模型，具体为：社交网络G_h(V_h，E_h，E_ph)的超图结构称为伪超边超图模型，其中V_h是超点集，代表网络中的用户节点，E_h是超边集，表示具有直接好友关系的用户构成超边集合，E_ph是伪超边集，表示拥有共同好友关系的非好友节点构成的伪超边集合，对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值，由超边内节点关系权重应大于伪超边，对于节点间直接相连所构成的超边关系，将其权重设置为