CN110110094B

CN110110094B - 基于社交网络知识图谱的跨网络人物关联方法

Info

Publication number: CN110110094B
Application number: CN201910323380.5A
Authority: CN
Inventors: 李弼程; 王瑞; 杜文倩; 郁友琴; 马海江
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2022-07-01
Anticipated expiration: 2039-04-22
Also published as: CN110110094A

Abstract

本发明公开了基于社交网络知识图谱的跨网络人物关联方法，属于知识图谱与社交网络分析领域，包括以下步骤：步骤1.训练词向量；步骤2.发现候选实体；步骤3.根据社交网络知识图谱的结构特征，计算网络度量指标；步骤4.用户向量生成；步骤5.定义社交网络结构相似度和用户画像语义相似度；步骤6.融合相似度计算，根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。该发明可用于社交网络中挖掘用户信息，发现重要节点，也可以用作对重要节点信息的补全，为精准推荐提供数据支撑。

Description

基于社交网络知识图谱的跨网络人物关联方法

技术领域

本发明涉及知识图谱与社交网络分析领域，特别是指基于社交网络知识图谱的跨网络人物关联方法。

背景技术

随着社交网络的日益普及，数亿人花费大量的时间在社会媒体上以史无前例的速度分享、交流、联系和互动，并产生了海量的用户生成数据。利用社交媒体数据做社交媒体挖掘已经成为了一个快速发展的新领域。研究表明：至少50％的用户拥有两个或者多个社交网络账号，90％的新浪微博用户使用微信，至少80％的Facebook用户使用Twitter。所以分析不同社交网络的相同用户对于发现用户兴趣爱好，情感倾向等方面都有重要的意义。尽管社交网络数据呈现指数级的增长，用户在社交网络上的用户信息往往是不全面的。在具体的场景下，用户在一个社交网络平台上的邮箱是存在的，然而在另一个社交网络中可能是不存在的，因此通过关联不同社交网络中的相同用户，可以获取用户在其他社交网络中的属性信息和关系信息，用做社交网络知识图谱的补全和质量评估工作。

目前主流的跨网络用户关联方法，一般是对社交网络用户的注册用户信息进行分析，通过分析社交网络中的用户名、昵称、地理位置等属性，设计用户的相似度矩阵，基于此矩阵关联不同社交网络中的相同用户。然而，这些方法存在数据依赖严重的问题，如果采集的数据项基本为空，跨网络人物的关联就会丢失，而且这些方法均没有关注社交网络的图结构对于人物关联的重要性，均无法处理社交网络中的图关系，无法描述图模型的结构信息。

知识图谱是Google在2012年提出的一种知识表示形式，是一个大规模的语义网络，包含实体、概念以及实体和概念之间的语义关系。通过构建知识图谱，可以解决传统标签模式下不能解决的深层次推理问题和可视化展示问题。

所以，利用社交网络数据构建知识图谱，使用知识图谱的相关特性对社交网络的结果和内容进行分析。一方面，知识图谱使得社交网络分析效率更快，可以有效解决社交网络数据噪声大和完全无结构化的问题；另一方面，利用社交网络知识图谱可以充分挖掘社交网络的隐藏信息，为之后的用户精准画像与推荐提供数据支持。

发明内容

本发明的主要目的在于解决以上现有技术由于忽略社交网络的结构信息而导致的不能准确描述跨网络的人物关联的技术缺陷，提供了一种基于社交网络知识图谱的跨网络人物关联方法。

本发明采用如下技术方案：

基于社交网络知识图谱的跨网络人物关联方法，其特征在于，包括如下步骤：

步骤1.建立Structural Skip-Gram词向量训练模型，训练语义表征能力更强的词向量；

步骤2.利用社交网络知识图谱中存储的人物实体的属性，寻找与待关联人物实体相关的候选人物实体；

步骤3.根据社交网络知识图谱的结构特征，计算每一个候选人物实体与待关联人物实体的网络度量指标，其包括属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数；

步骤4.基于社交网络知识图谱对候选人物实体与待关联人物实体构造用户画像，并使用训练好的Structural Skip-Gram词向量模型将用户画像表征为用户向量；

步骤5.基于网络度量指标定义社交网络结构相似度，基于用户向量定义人物实体的用户向量语义相似度；

步骤6.根据社交网络结构相似度和用户向量语义相似度计算人物实体的融合相似度，根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。

所述步骤1中，训练语义表征能力更强的词向量包括：

步骤1.1获取的社交网络语料并进行数据预处理，包括中文分词和去停用词；

步骤1.2基于Skip-Gram模型，加入多个投影层，用于表征上下文词序信息；

步骤1.3定义Structural Skip-Gram词向量模型的目标函数，完成StructuralSkip-Gram词向量模型的训练。

所述步骤2具体包括如下：

首先，确定社交网络知识图谱中待关联人物实体的指称项v；

然后，对社交网络知识图谱的设有人物实体指称项v的属性进行查询，查询与该待关联人物实体的指称项v属性相同的人物实体；

最后，将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合。

所述步骤3中，所述网络度量指标的计算方法如下：

步骤3.1基于社交网络知识图谱人物实体的用户名属性，经过词向量表征后，求每一维向量的平均值，作为人物实体的属性系数；

步骤3.2基于PageRank计算网页重要性的思想，对每一个人物实体进行PageRank值的计算；

步骤3.3基于社交网络媒体挖掘的中心性方法，计算每一个人物实体的中间中心性；

步骤3.4基于社交网络媒体挖掘的中心性方法，计算每一个人物实体的特征向量中心性；

步骤3.5基于社交网络媒体挖掘的传递性原理，对每一个人物实体进行聚类系数的计算；

步骤3.6将计算的五个网络度量指标做归一化处理，将归一化后的网络度量指标向量化。

所述步骤4中用户画像以及用户向量构建的方法为：

步骤4.1根据社交网络知识图谱中存储的人物实体的用户属性，查询社交网络知识图谱中人物实体对应的全部属性信息；

步骤4.2基于查询的结果，对重要特征进行提取，构建人物的基于属性的用户画像；

步骤4.3利用步骤1训练的词向量，对构建的用户画像向量化表示，构建基于属性的用户向量。

所述步骤5中，相似度定义方法为：

步骤5.1计算社交网络结构的相似度，采用修正的余弦相似度的计算方法，去中心化之后再进行相似度计算；

步骤5.2采用交叉余弦相似度的方法计算用户向量的语义相似度。

所述用户向量包括用户指称向量集合w_V和用户向量候选人物实体集合w_V'，所述步骤5.2具体为：

步骤5.2.1从用户指称向量集合w_V中选取指称实体i的用户向量

i＝1.2.3...n，n表示社交网络知识图谱中的人物实体的个数；

步骤5.2.2从用户向量

中选取第j个属性词向量

j＝1.2.3.4.5.6.7.8；

步骤5.2.3从用户向量候选人物实体集合w_V'选取用户m的用户向量

m为候选人物实体的个数；

步骤5.2.4从用户向量

中选取第k个属性词向量

k＝1.2.3.4.5.6.7.8；

步骤5.2.5计算用户属性向量

与用户属性向量

之间的语义相似度；

步骤5.2.6重复步骤5.2.3-5.2.5，直到计算完用户向量

的各个属性与用户向量

之间各个属性之间的语义相似度，得到相似度矩阵M_j*k，；

步骤5.2.7取相似度矩阵M_j*k的均值作为最终用户向量语义相似度的值。

所述步骤6中，相似度融合的方法为：社交网络结构相似度和用户向量语义相似度以一定的比例进行融合得到最终人物实体的用户相似度，然后将计算的用户相似度降序排列，相似度得分最高的候选实体人物的节点作为跨网络人物关联的最终节点。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

1.本发明中，利用词向量训练的Structural Skip-Gram模型，在考虑词共现模式的基础上，增加考虑词序对于词向量模型的影响，相比传统的词向量训练方法，增强了词向量的语义表达能力。

2.本发明中，将知识图谱引入社交网络分析领域，通过构建基于社交网络领域的知识图谱，以图的形式体现社交网络的联系和互动特征，进而借助知识图谱的图模型特征，对社交网络中的人物实体进行挖掘与分析。

3.本发明中，利用社交网络数据知识图谱的结构特征，采用图计算的方法，对社交网络知识图谱中的人物节点进行多维度的社交网络指标度量。相比传统的社交网络分析方式，通过计算多个社交网络参数，可以降低单一度量值存在的问题，增强人物实体的分辨能力；

4.本发明中，利用社交网络知识图谱的内容特征，构建基于社交网络用户属性的用户画像，将用户信息训练词向量，对用户画像进行语义相似度计算。结合上述社交网络度量指标，从两个维度进行跨网络的人物关联，提高了人物关联的准确率。

5.本发明可用于社交网络中挖掘用户信息，发现重要节点，也可以用作对重要节点信息的补全，为精准推荐提供数据支撑。

附图说明

图1为本发明的流程图；

图2为本发明的整体框架图；

图3为本发明的基于Structural Skip-Gram模型词向量训练流程图；

图4为本发明的候选实体生成流程图；

图5为本发明的基于用户属性的用户画像构建流程图；

图6为本发明的相似性度量流程图；

图7(1)为本发明单一社交网络度量指标的跨网络人物关联方法的结果；

图7(2)为本发明基于社交网络知识图谱结构度量指标的跨网络人物关联方法的结果；

图8(1)为本发明词向量不同维度的训练时间结果；

图8(2)为本发明基于用户画像相似度的跨网络人物关联方法的结果；

图9为本发明融合因子α不同取值对于跨网络人物关联的影响；

图10为本发明基于最优融合相似度的跨网络人物关联方法的结果。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

参见图1、图2，基于社交网络知识图谱的跨网络人物关联方法，包括如下：

步骤1.通过增加词向量训练过程中神经网络的投影层个数，为词向量模型加入上下文语序，基于此设计Structural Skip-Gram词向量训练模型，训练语义表征能力更强的词向量。

步骤2.利用社交网络知识图谱中存储的人物实体的属性，寻找与待关联人物实体相关的候选人物实体。

步骤3.根据社交网络知识图谱的结构特征，计算每一个候选人物实体与待关联人物实体的属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数五个网络度量指标。

步骤4.基于社交网络知识图谱对候选人物实体与待关联人物实体构造用户画像，并使用训练好的词向量模型将用户画像表征为用户向量。

步骤5.基于网络度量指标定义社交网络结构相似度，基于用户画像定义人物实体的用户画像语义相似度。

步骤6.根据社交网络结构相似度和用户画像语义相似度计算人物实体的融合相似度，根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。

步骤1中训练优化的词向量的方法为：

步骤1.1对获取的社交网络语料进行数据预处理，其中包括中文分词和去停用词。

首先添加用户自定义词典，将用户名作为新词添加到用户自定义词典中，然后使用中文分词工具将社交网络语料进行中文分词，最后进行去停用词处理。

假设w_t是文档的第t个词语，滑动窗口大小为c。在每个位于区间[t-c,t+c]的词语，相较于传统的Skip-Gram模型使用一个投影层，加入上下文语序后的Structural Skip-Gram模型使用2c个投影层，用于表征上下文词序信息；

定义模型中输入的词用于预测上下文词语的概率函数p(w_t+i|w_t)，其数学定义如下:

其中，w和

分别代表输入的词向量和输出的词向量，Z代表语料库的规模，即语料库中词语的个数。c表示滑动窗口的大小，

表示相对于w_t的距离为r的w_t+i的输出词向量的位置向量。在

中隐式记录词序信息来更新w_t的词嵌入。

步骤1.3定义模型的目标函数，结合上述两个步骤完成词向量模型的训练。

首先，定义训练加入上下文词序的Skip-Gram模型的目标函数L_SSG，其数学定义如下：

其次，最大化目标函数。然后，定义词向量训练过程中的各个参数。其中，词向量的维度设置为200维，滑动窗口大小设置为5。

步骤2中候选人物实体生成的方法为：根据社交网络人物知识图谱中人物实体存储的属性，挑选与待关联人物实体相关的实体作为候选人物实体。

首先，确定实体指称项，即社交网络知识图谱中待关联的人物实体v；

然后，对社交网络知识图谱实体指称项v的属性进行查询，查询跟指称项v属性相同的人物实体，查询的条件是知识图谱中人物实体指称项的各个属性。针对用户名以及昵称属性，用户名或者昵称相同就作为候选实体，针对其他属性，属性三个及以上相同即作为候选实体；

最后，将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合v'＝{v'₁,...,v'_m},m表示候选人物实体的个数。

步骤3中计算社交网络度量指标的方法为：

社交网络知识图谱G(V,E)，其中V表示社交网络知识图谱中所有的人物实体，E表示所有的人物实体之间的关系。人物实体拥有众多属性，其中包括用户名、用户头像、昵称、邮箱、手机号码等可以表征一个用户特征的属性，在这些属性之中，使用训练好的词向量工具表征出社交网络人物节点的用户名信息，然后利用词向量的平均值作为人物实体的属性系数，假设用户v_i的用户名向量

则该人物实体的属性系数：

其中，x_t代表词向量第t维的权值。

在社交网络知识图谱G(V,E)，一旦一个节点成为权威节点，它将像它所有的外连接节点传递其中心性，这是不可取的。所以让中心性除以节点的外连接数目，这样每个邻居节点获得源节点中心的一部分，其计算方式为：

其中α为常数，控制每个节点的PageRank中心性值，β为偏差项，用来解决中心性值为0的问题，A为图谱中人物实体子图的邻接矩阵，

表示第j个节点的出度值。

考虑实体节点在连接其他节点是所表现出的重要性，其中一种方法是计算其他节点间通过节点v_i的最短路径数目，其计算方法为：

其中，σ_st表示从节点s到节点t的最短路径数目。σ_st(v_i)是s到t经过v_i的最短路径数目。

特征向量中心性用社交网络知识图谱G(V,E)的邻接矩阵A记录邻居节点。设c_e(v_i)表示节点v_i的特征向量中心性，该值是其邻居节点中心性的函数，并且它在邻居节点中心性的总和中占有一定的比例，其计算方法为：

其中，λ是某个固定的常量。假设c_e＝(c_e(v₁),c_e(v₂),...,c_e(v_n))^T是所有节点的中心向量，那么上式可以改写为：λc_e＝A^Tc_e。

其中，c_e是邻接矩阵A^T的特征向量，λ是对应的特征值。

聚类系数用来分析图的传递性。当社交网络知识图谱G(V,E)中存在三角形时，便可以观察到传递性。利用知识图谱中长度为2的路径以及判断第三条边是否存在来计算聚类系数，或者通过三角形的个数进行求解。综合以上两种求解方法，聚类次数c_coe定义为：

步骤3.6为了避免某个指标的度量值过大，将计算的五个网络度量指标做归一化处理，将归一化后的网络度量指标向量化。

为了避免单一的度量值因为数值过大带来的误差偏大问题，将所有的度量指标做归一化处理,归一化的公式为：

其中，x表示需要归一化的度量指标值，min和max分别表示各个度量系数的最小值和最大值。

最后社交网络知识图谱G(V,E)中每个人物实体的社交网络结构向量都可以表示为：

步骤4中用户画像以及用户向量构建的方法为：

步骤4.1根据社交网络知识图谱中存储的人物实体的属性信息，查询社交网络知识图谱中人物实体的属性；

根据社交网络知识图谱G(V,E)，根据人物实体V中存储的用户属性，在图数据库中搜索实体对应的全部的属性信息。即查询知识图谱G(V,E)中的(实体，属性，属性值)三元组，并以词典的形式返回。

基于查询后返回的用户属性词典，对用户属性每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序，选取权重较高的八个维度代表的属性作为用户向量的输入。

特征权重的计算方式是统计该属性在用户画像中出现的次数，选取出现次数最高的八个维度作为用户向量的维度。

基于步骤1的词向量训练模型，将步骤4.2得到的用户画像中的每一维属性表征成为词向量的形式，重复迭代，直到所有维度的用户属性全部都被表征成为对应的词向量。其中，实体指称项训练的用户向量用w_v表示，候选人物实体用户向量用w_v'表示。

步骤5中相似度度量的方法为：

步骤5.1计算社交网络结构的相似度，考虑到各个维度的量纲的差异性，采用修正的余弦相似度的计算方法，去中心化之后再进行相似度计算；

社交网络知识图谱G(V,E)不同节点之间的社交网络结构相似度用修正的余弦相似度度量方法为：

其中，C_s(v)和C_s(v')分别表示人物实体指称项v和人物实体候选实体v'的社交网络结构向量，C_s(v)_i表示社交网络结构向量的第i个维度，n表示社交网络结构向量的维度，

表示社交网络结构向量的平均值。所有人物实体的社交网络结构相似度以矩阵的形式表示如下：

其中，

表示第b个实体指称项与第d个候选人物实体之间的社交网络结构相似度。

步骤5.2计算用户画像相似度，考虑其携带语义信息，经过词向量表征后，每个词都携带了上下文信息，采用交叉余弦相似度的方法计算用户画像的相似度。

步骤5.2中交叉修正余弦相似度度量的方法为：

步骤5.2.1从用户指称向量集合w_V中选取指称实体i的用户向量

i＝1.2.3...n，n表示社交网络知识图谱中的人物实体的个数；

通过用户向量表征用户画像，指称实体的用户画像V＝{v₁,v₂,...,v_n}可以被表征为一个用户向量的集合

其中n表示社交网络知识图谱中的人物实体的个数。从用户指称向量集合w_V中提取指称实体i的用户向量

步骤5.2.2从用户向量

中选取第j个属性词向量

j＝1.2.3.4.5.6.7.8；

通过步骤3可知，每一个用户被表征维一个八维的用户向量，每一维表示用户的一个属性，每一维的属性又被词向量表征成为一个两百维的向量。从用户向量

中提取每一维的词向量

步骤5.2.3从用户向量候选实体集合w_V'选取用户向量

m为候选实体的个数；

步骤5.2.4从用户向量

中选取第k个属性词向量

k＝1.2.3.4.5.6.7.8；

步骤5.2.5计算用户属性向量

与用户属性向量

之间的语义相似度；

训练的词向量具有语义特征，用余弦相似度的方法计算用户向量中每个属性之间的相似度，作为两个人物实体属性的交叉余弦语义相似度：

其中，

表示用户向量中属性向量的i个维度，n表示属性向量的维度，一般取200。

步骤5.2.6重复步骤5.2.3-5.2.5，直到计算完用户向量

的各个属性与用户向量

之间各个属性之间的语义相似度，得到相似度矩阵

其形式如下：

其中，

表示用户向量

的第j个属性与

的第k个属性之间的属性相似度。

步骤5.2.7取相似度矩阵M_j*k的均值作为最终用户向量相似度的值，其计算公式为：

步骤6中相似度融合的方法为：将社交网络结构相似度和用户画像相似度以一定的比例进行融合得到最终人物实体的用户相似度，然后将计算的用户相似度降序排列，相似度得分最高的候选实体人物的节点作为跨网络人物关联的最终节点，相似度融合计算方法为：

其中，ψ为融合因子，表示社交网络结构相似度占融合相似度的比例，取值范围为[0,1]。

如图2所示，本发明涉及词向量模型训练，度量社交网络知识图谱结构和用户向量构建以及相似度计算与融合四个模块。为了使得人物关联更加准确，需要使用表征能力更强的词向量模型，使用Structural Skip-Gram模型进行词向量的训练，加入了不同的投影层表达上下文的语序信息，所以其表达能力比传统词向量更强，更能适应复杂语义下词语的表征，能够提高算法的效率。

如图3所示，词向量训练模块由社交网络语料数据预处理及词向量训练组成，将获取到的社交网络语料进行中文分词与去停用词的处理，使用Structural Skip-Gram模型，增加上下文的词序信息，完成词向量的训练。词向量训练的各个参数如表1所示。

表1:词向量训练的各个参数值

如图4所示，候选实体生成模块首先，确定实体指称项，即社交网络知识图谱中待关联的实体v；然后，对社交网络知识图谱实体指称项v的属性进行查询，查询跟指称项v属性相同或者相似的实体，查询的条件是知识图谱中人物实体指称项的各个属性：针对用户名以及昵称属性，用户名或者昵称相同就作为候选实体，针对其他属性，属性三个及以上相同即作为候选实体；最后，将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合v'＝{v'₁,...,v'_m},m表示候选人物实体的个数。

度量社交网络知识图谱结构模块由社交网络知识图谱度量指标选择和社交网络知识图谱度量指标计算两部分组成。首先，通过研究各个社交网络度量指标的含义，选取属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数五个网络度量指标作为最终社交网络知识图谱的度量指标。然后根据定义对选取的社交网络指标进行计算。

如图5所示，用户向量构建模块由用户画像构建和基于词向量的用户向量构建两部分组成。首先，根据社交网络中存储的人物实体的属性对社交网络知识图谱中人物的属性进行遍历，获取每个人物实体的属性；然后，对获取的属性根据出现次数进行重要性的评估，选取出现频率最高的八维属性作为用户画像中用户的属性。最后，利用上述训练的词向量模型对生成的用户画像进行向量化表示，构建基于词向量的用户向量。

如图6所示，相似度计算模块包括社交网络结构相似性计算，用户画像相似度计算以及融合形似度计算。首先，考虑到各个维度的量纲的差异性，社交网络结构相似性采用修正的余弦相似度进行计算，计算公式为:

其中，C_s(v₁)和C_s(v'₁)分别表示人物实体指称项v₁和人物实体候选实体v'₁的社交网络结构向量，C_s(v₁)_i表示社交网络结构向量的第i个维度，n表示社交网络结构向量的维度，

表示社交网络结构向量的平均值；然后，用户画像相似度采用交叉余弦语义相似度进行计算，计算公式为:

其中，

表示用户向量中属性向量的i个维度，n表示属性向量的维度。通过对每一维用户的属性进行相似度的计算，得到相似度矩阵，取相似度矩阵的均值作为最终用户向量相似度的值；最后，使用融合相似度将社交网络结构相似度和用户画像相似度以一定的比例进行融合得到最终人物实体的用户相似度，然后将计算的用户相似度降序排列，相似度得分最高的候选人物实体的节点作为跨网络人物关联的最终节点，相似度融合计算方法为：

实施例1

标记Twitter和Facebook的相同用户5000个，使用获取的社交网络账号构建社交网络知识图谱，构建好的人物实体数目规模为三万，使用属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数分别进行跨网络人物的关联。统计跨网络人物关联的召回数、召回率、准确数、准确率以及F1值。召回率、准确率以及F1值的计算公式如下：

如图7(1)所示，选取的五个社交网络参数均能较好的表征社交网络知识图谱的结构。如表2所示，单一参数的召回数均在一千以上,而且PageRank以及特征向量中心性的召回数已经超过半数水平。

表2：单一度量指标下跨网络人物关联结果

方法	召回个数	准确个数	召回率	准确率	F1值
						用户系数	2256	1047	0.4512	0.2094	0.286046866
PageRank	3078	1521	0.6156	0.3042	0.407187476
						特征向量中心性	2997	1413	0.5994	0.2826	0.384105321
中间中心性	1547	852	0.3094	0.1704	0.219765569
						聚类系数	2036	1305	0.4072	0.261	0.318105956

如图7(2)所示，选取五个社交网络参数的组合形式进行跨网络人物关联，准确率比最好的PageRank算法还要高出12个百分点，因为使用组合的社交网络参数向量，可以规避单一的参数指标带来的问题，比如PageRank存在的度为0的问题等。所以实验表明，社交网络参数向量在跨网络人物关联中的作用是明显的，但是由于仅仅考虑了社交网络知识图谱的结构信息，尚未考虑知识图谱的内容信息，所以整体的准确率不高。

实施例2

标记Twitter和Facebook的相同用户5000个，使用获取的社交网络账号构建社交网络知识图谱，构建好的人物实体数目规模为三万。通过遍历社交网络知识图谱，建立每个人物实体的人物画像，通过词向量将人物画像表征为人物向量，从而进行社交网络人物关联。

如图8(1)所示，词向量维度越大，训练时间越长，当词向量维度超过两百维之后，训练时间的增长速度明显加快，而维度太小的话词向量的表达能力会受到限制，所以词向量的维度为200维最为合适。

如图8(2)所示，结果表明使用用户画像计算相似度然后进行跨网络人物关联，相比使用社交网络度量向量来讲，准确率要更高,如表3所示。但是由于用户画像只考虑了知识图谱的内容信息，忽略了结构信息，所以整体的准确率也不能满足要求。

表3：不同词向量维度下跨网络人物关联结果

词向量维度	召回个数	准确个数	召回率	准确率	F1值
						50	1451	544	0.2902	0.1088	0.158264
100	1948	1007	0.3896	0.2014	0.265534
						150	2341	1542	0.4682	0.3084	0.371859
200	3647	2421	0.7294	0.4842	0.582029
						250	3544	2025	0.7088	0.405	0.515468
300	3074	1897	0.6148	0.3794	0.469232

实施例3

如图9所示，综合上述两种方法进行跨网络人物关联，其中根据公式

选取不同的融合因子ψ的值，找到准确率最高的融合因子的值作为最终融合因子的值，如表4所示，融合因子的最佳取值为0.4。

表4：不同融合因子取值的跨网络人物关联方法结果

融合因子取值	召回数	准确数	召回率	准确率	F1值
						0.1	3356	2678	0.6712	0.5356	0.595782
0.2	3587	3014	0.7174	0.6028	0.655126
						0.3	4005	3894	0.801	0.7788	0.789744
0.4	3789	3457	0.7578	0.6914	0.723079
						0.5	3049	2647	0.6098	0.5294	0.566763
0.6	2876	2412	0.5752	0.4824	0.524729
						0.7	2059	1741	0.4118	0.3482	0.377339
0.8	1837	1452	0.3674	0.2904	0.324393
						0.9	1074	674	0.2148	0.1348	0.165647

如图10所示，最终采用社交网络知识图谱度量相似度与用户画像相似度的方法进行跨网络人物关联，考虑了知识图谱的结构信息和内容信息，跨网络人物关联的准确率达到了百分之九十，可是满足现阶段的跨网络人物关联需求。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。