CN115048563A

CN115048563A - 基于熵权法的跨社交网络用户身份匹配方法、介质及装置

Info

Publication number: CN115048563A
Application number: CN202210971332.9A
Authority: CN
Inventors: 饶志宏; 王莉莉; 康荣保; 张晓�; 赵尔凡; 杜艳霞
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-13

Abstract

本发明提供一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置，所述方法包括如下步骤：S10，数据收集：采集多个社交网络的用户属性信息；S20，特征提取和融合：基于用户属性信息提取并融合用户属性特征；S30，相似度计算：计算两用户不同属性特征的相似度；S40，身份匹配：利用熵权法为两用户不同属性分配权重，基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度；S50，输出结果：根据两用户的总体相似度判断两用户是否身份匹配。本发明通过多维度的信息融合与分析方法来匹配用户身份，提升了用户身份匹配效果。

Description

基于熵权法的跨社交网络用户身份匹配方法、介质及装置

技术领域

本发明涉及社交网络技术领域，具体而言，涉及一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置。

背景技术

社交网络是人们通过互联网进行联系和互动的便捷方式，如美国的Facebook、Twitter、Instagram，以及我国的微博和人人网等。社交网络提供的服务越来越丰富，包括文本信息发布、图像与视频共享、用户间关注、用户评论等。人们在不同社交网络上的行为活动侧重点不同，如新浪微博以媒体属性为主，人人网以社交属性为主。越来越多的用户注册不同的社交网络，以获得不同的服务，这给构建一个完整的用户画像带来了极大的困难。跨社交网络中用户身份匹配是实现用户完整画像构建的前提。

跨社交网络用户身份匹配主要是判断不同社交网络平台上的用户是否对应同一个实体用户。目前的跨社交网络用户身份匹配技术大致可以分为基于用户属性的身份匹配、基于用户关系的身份匹配、基于用户生成内容（User Generated Content, UGC）的身份匹配和基于综合属性的身份匹配。

基于用户属性的身份匹配技术主要通过计算用户的属性（用户名、用户头像、用户位置、性别、年龄、教育程度、职业等）相似度进行匹配。在大型社交网络中用户属性存在较大的重复性，且多数社交网络对用户属性信息设定为隐私数据，单纯依靠用户属性方法无法解决大型社交网络用户身份匹配问题。

基于UGC的身份匹配技术主要通过计算用户发布的内容（位置、时间、文本等）相似度，提取两个社交网络内容相似度、时间相似度和空间相似度等特征，采用机器学习方法对用户身份进行匹配。然而，许多用户的生成内容设置为“不可见”，这也给用户身份匹配带来了困难。

基于用户关系的身份匹配技术目前研究还不多，相较于用户属性信息，用户关系中涵盖的虚假信息量更少。目前，基于用户关系的身份匹配方法有两种：一种是有先验节点的身份匹配方法，另一种是无先验节点的用户匹配方法。有先验节点的用户匹配方法主要在已知部分先验用户（已匹配的用户对）的前提下，通过建立用户相似度模型，来迭代匹配新的用户对。有先验节点的用户匹配方法的关键是需要找到高质量的“种子用户”，当前用户越来越重视隐私保护，如何找到高质量的“种子用户”是该研究的一个重点问题。无先验节点的身份匹配方法认为相同用户在不同的社交网络上具有类似的好友关系，在无需高质量的用户关系对的情况下，可以通过用户关系结构来计算相似度。该方法普适度高，但实现难度更大。

除了单纯使用用户属性信息、UGC信息和与用户关系信息之外，还有一些研究致力于综合运用这些信息来提升用户身份匹配效果。基于综合属性的身份匹配方法综合运用用户属性信息、用户发布的内容以及用户关系，充分考虑用户的动态变化，对用户的兴趣进行建模分析，对用户身份进行匹配。这种综合运用了属性、关系和UGC等各种维度信息的身份匹配方法，能够实现更好的匹配效果，但由于多维度信息的融合建模技术难度较高，目前这种身份匹配方法的研究尚处于起步阶段。

发明内容

本发明旨在提供一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置，以解决目前跨社交网络用户身份匹配难度大、效果不佳的问题。

本发明提供的一种基于熵权法的跨社交网络用户身份匹配方法，包括如下步骤：

S10，数据收集：采集多个社交网络的用户属性信息；

S20，特征提取和融合：基于用户属性信息提取并融合用户属性特征；

S30，相似度计算：计算两用户不同属性特征的相似度；

S40，身份匹配：利用熵权法为两用户不同属性分配权重，基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度；

S50，输出结果：根据两用户的总体相似度判断两用户是否身份匹配。

进一步地，步骤S10中采集多个社交网络的用户属性信息的方法包括：

S11，利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集；所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表；

S12，对采集的用户属性信息进行数据预处理；所述数据预处理包括噪声数据去除和混乱文本重组。

进一步地，步骤S20中基于用户属性信息提取并融合用户属性特征的方法包括：

S21，基本属性特征提取：

对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表，将数据预处理后的字符串作为属性特征；

对于关注数和粉丝数，将关注数和粉丝数组成二维向量作为属性特征；

对于获赞数和文章数，将获赞数和文章数组成二维向量作为属性特征；

对于地理位置，将地理位置统一转换为WGS84坐标信息；所述地理位置包括详细地址、GPS定位和城市名称；

S22，短文本特征提取：

对于采用短文本方式存储的个人描述、关注话题和发布内容，将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档，每个词语的重要程度用TF-IDF值进行评估，从而通过计算文档中每个词语的TF-IDF值，来提取短文本的属性特征；

S23，特征融合：

对社交网络A中任一用户u _k和社交网络B中任一用户u _j进行属性特征提取和融合；

融合后，用户u _k的属性特征为

，其中，属性特征总数g=14；

分别表示用户u _k的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征；

表示由关注数与粉丝数组成的二维向量；

表示由获赞数与文章数组成的二维向量；

表示用户的WGS84坐标信息；

是由不同词语的TF-IDF值组成的向量，分别表示用户u _k的个人描述、关注话题和发布内容的特征向量；

同理得到用户u _j的属性特征为

，其中，属性特征总数g=14；

分别表示用户u _j的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征；

表示由关注数与粉丝数组成的二维向量；

表示由获赞数与文章数组成的二维向量；

表示用户的WGS84坐标信息；

是由不同词语的TF-IDF值组成的向量，分别表示用户u _j的个人描述、关注话题和发布内容的特征向量。

进一步地，步骤S22中短文本特征提取的方法包括：

计算TF值：

其中，TF表示词频，即一个词语在文档中出现的频率；

表示词语

在文档

中出现的频率；

表示词语

在文档

中出现的次数；

表示所有词语在文档

中出现的次数之和；

计算IDF值：

其中，

表示文档

包含词语

，

表示包含词语

的所有文档数目，加1以避免分母为0的情况，|D|表示文档总数；

计算TF-IDF值：

其中，

表示词语

的词频，

表示词语

的逆文档频率，

表示词语

的TF-IDF值。

进一步地，步骤S30中计算两用户不同属性特征的相似度的方法包括：

S31，对于用户名、性别、学历和好友列表属性特征，采用Levenshtein距离来计算属性特征之间的相似度；

S32，对于职业、兴趣、个人主页URL和Email，采用完全匹配法来计算属性特征之间的相似度；

S33，对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量，以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征，采用余弦相似度来计算属性特征之间的相似度；

S34，对于地理位置转换成的WGS84坐标信息，采用大圆距离来计算属性特征之间的相似度。

进一步地，步骤S40中利用熵权法为两用户不同属性分配权重的方法包括：

S41，计算属性特征相似度出现的概率：

其中，p _ij为第i个属性特征中第j个数值所占的比重，n ₂为社交网络B中用户数量；

表示用户u _k和用户u _j的第i个属性特征的相似度；

S42，计算属性特征的信息熵：

其中，

表示用户u _k和用户u _j的第i个属性特征的信息熵；

S43，计算属性权重：

其中，

，

表示用户u _k和用户u _j的第i个属性特征的权重。

进一步地，步骤S40中基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为：

其中，Similarity(u _k,u _j)表示用户u _k和用户u _j的总体相似度。

进一步地，步骤S50中根据两用户的总体相似度判断两用户是否身份匹配的方法为：

若用户u _k和用户u _j的总体相似度Similarity(u _k,u _j)超过某个阈值，则认为用户u _k和用户u _j归属于同一个实体用户。

本发明还提供一种计算机终端存储介质，存储有计算机终端可执行指令，所述计算机终端可执行指令用于执行如上述的基于熵权法的跨社交网络用户身份匹配方法。

本发明还提供一种计算装置，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的基于熵权法的跨社交网络用户身份匹配方法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明通过多维度的信息融合与分析方法来匹配用户身份，提升了用户身份匹配效果，在网络安全、网络舆情监测以及数字取证调查等方面具有较高的应用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中基于熵权法的跨社交网络用户身份匹配方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

跨社交网络的用户身份匹配问题一般可以描述为：任意给定社交网络A中任一用户u _k和社交网络B中任一用户u _j，判定他们是否归属于同一个实体用户。假设用户u _k的属性特征为

，用户u _j的属性特征为

，两用户的相似度为

，其中

表示用户u _k和u _j的第i个属性特征的相似度，

越大，表示这个属性特征对用户身份同一性的支持度越高。不同的用户属性特征对身份同一性的重要程度也不相同，对于用户u _k和u _j，若属性特征的权重为

，其中

表示第i个属性特征的权重（权重越高，表示该属性特征越重要），那么两用户的总体相似度为

。若两用户的总体相似度超过某个阈值，则认为用户u _k和u _j归属于同一个实体用户。

本发明综合运用用户属性信息、用户关系信息和UGC信息，基于熵权法，通过计算用户间属性的总体相似度来实现跨社交网络的用户身份匹配。如图1所示，本实施例提出一种基于熵权法的跨社交网络用户身份匹配方法，包括如下步骤：

S10，数据收集：采集多个社交网络的用户属性信息；

S30，相似度计算：计算两用户不同属性特征的相似度；

具体地：

S10，数据收集：采集多个社交网络的用户属性信息；

用户名是各社交网站最容易获得的身份信息，通常是由中文、英文、数字、特殊字符组成的字符串，能够反用户真实姓名、出生日期、起名偏好等用户身份特征。除了用户名之外，还有一些其他的属性信息也能够反应用户身份特征，如性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、好友列表等。用户的个人主页URL和Email对身份匹配具有很高的重要性，若两个账户的个人主页URL或者Email完全相同，那么他们为同一个实体用户的概率非常大。

由此，本实施例中采集多个社交网络的用户属性信息的方法包括：

具体地：

S21，基本属性特征提取：

(1)对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表，将数据预处理后的字符串直接作为属性特征；

(2)关注数与粉丝数能够反应用户的交友模式，如一些大V用户的粉丝数较多，而关注者相对少，而普通用户往往关注着较多，粉丝数相对较少。因此，对于关注数和粉丝数，将关注数和粉丝数组成二维向量作为属性特征；

(3)获赞数与文章数能够反映用户发文章意愿的大小和文章的质量。如账号发文较少但获赞数较高，说明用户发文的质量较高，影响力高，而有些账号发布的文章很多，但获赞很少，说明用户发布的文章影响力较小、质量低。因此，对于获赞数和文章数，将获赞数和文章数组成二维向量作为属性特征；

(4)为了统一计算相似度，对于地理位置，将地理位置统一转换为WGS84坐标信息；所述地理位置包括详细地址、GPS定位和城市名称；

S22，短文本特征提取：

对于采用短文本方式存储的个人描述、关注话题和发布内容，将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档，每个词语的重要程度用TF-IDF值进行评估，从而通过计算文档中每个词语的TF-IDF值，来提取短文本的属性特征；具体地：

第一步，计算TF值：

其中，TF表示词频，即一个词语在文档中出现的频率；

表示词语

在文档

中出现的频率；

表示词语

在文档

中出现的次数；

表示所有词语在文档

中出现的次数之和；

第二步，计算IDF值：

其中，

表示文档

包含词语

，

表示包含词语

第三步，计算TF-IDF值：

其中，

表示词语

的词频，

表示词语

的逆文档频率，

表示词语

的TF-IDF值。

S23，特征融合：

融合后，用户u _k的属性特征为

，其中，属性特征总数g=14；

表示由关注数与粉丝数组成的二维向量；

表示由获赞数与文章数组成的二维向量；

表示用户的WGS84坐标信息；

同理得到用户u _j的属性特征为

，其中，属性特征总数g=14；

表示由关注数与粉丝数组成的二维向量；

表示由获赞数与文章数组成的二维向量；

表示用户的WGS84坐标信息；

S30，相似度计算：计算两用户不同属性特征的相似度；

对于不同的属性特征采用不同的相似度计算方法，如表1所示。

表1，用户属性特征的相似度计算方法：

字段名	相似度计算方法
		用户名	Levenshtein距离
性别	Levenshtein距离
		学历	Levenshtein距离
职业	完全匹配
		兴趣	完全匹配
URL	完全匹配
		Email	完全匹配
好友列表	Levenshtein距离
		<关注数, 粉丝数>	余弦相似度
<获赞数, 文章数>	余弦相似度
		位置	大圆距离
个人描述	余弦相似度
		关注话题	余弦相似度
发布内容	余弦相似度

具体地：

S31，对于用户名、性别、学历和好友列表属性特征，采用Levenshtein距离来计算属性特征之间的相似度，计算公式如下：

其中，Sim _name表示属性特征n ₁和属性特征n ₂之间的相似度，lev(n ₁,n ₂)表示属性特征n ₁和属性特征n ₂之间的Levenshtein距离；lev(n _i)表示n _i的字符数。

S32，对于职业、兴趣、个人主页URL和Email，采用完全匹配法来计算属性特征之间的相似度：若两用户属性特征的信息完全一致，则相似度为1，否则为0。

S33，对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量，以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征，采用余弦相似度来计算属性特征之间的相似度：

余弦相似度是根据两个向量夹角余弦值的大小来评估两向量之间的相似度。余弦值越接近1，余弦夹角越接近0，表示两向量越相似。对于向量x ₁=(x ₁₁,x ₁₂,…,x _1n)和向量x ₂=(x ₂₁,x ₂₂,…,x _2n)，则两向量的余弦相似度为：

S34，对于地理位置转换成的WGS84坐标信息，采用大圆距离来计算属性特征之间的相似度：

假设位置l _k和位置l _j分别表示用户u _k和用户u _j的地理位置，地点l _k的GPS坐标为(lat _k,lon _k)，地点l _j的GPS坐标为(lat _j,lon _j)，则采用大圆距离来计算两个坐标之间的距离，若两个坐标之间的距离在80km以内，则相似度为1，否则为0。大圆距离是指从地球的一点触发到达球面上另外一点所经过的最短路径长度，计算公式如下：

其中，d(l _k,l _j)表示位置l _k和位置l _j的大圆距离，单位为km；R=6371km，表示地球半径；lat _k和lat _j分别表示位置l _k和位置l _j的纬度，lon _k和lon _j分别表示位置位置l _k和位置l _j的经度。

在对社交网络用户各属性分配权重时，可以采用主观赋权法和客观赋权法两种方法。主观赋权法需要结合大量的相关经验，鲁棒性较差；客观赋权法包括熵权法、离差法和均方差法等。熵权法根据各属性的相似度确定权重，匹配用户的相似度与不匹配用户的相似度差别越大，信息熵值越小，该属性越有价值，权重也应该越大，属性的信息熵值与权重呈反比。

具体地：

S41，计算属性特征相似度出现的概率：

表示用户u _k和用户u _j的第i个属性特征的相似度；

S42，计算属性特征的信息熵：

其中，

表示用户u _k和用户u _j的第i个属性特征的信息熵；

S43，计算属性权重：

其中，

，

表示用户u _k和用户u _j的第i个属性特征的权重。

S44，基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为：

其中，Similarity(u _j,u _k)表示用户u _k和用户u _j的总体相似度。

S50，输出结果：根据两用户的总体相似度判断两用户是否身份匹配：若用户u _k和用户u _j的总体相似度Similarity(u _k,u _j)超过某个阈值，则认为用户u _k和用户u _j归属于同一个实体用户。

此外，在一些实施例中，提出一种计算机终端存储介质，存储有计算机终端可执行指令，所述计算机终端可执行指令用于执行如前文实施例所述的基于熵权法的跨社交网络用户身份匹配方法。计算机存储介质的示例包括磁性存储介质(例如，软盘、硬盘等)、光学记录介质(例如，CD-ROM、DVD等)或存储器，如存储卡、ROM或RAM等。计算机存储介质也可以分布在网络连接的计算机系统上，例如是应用程序的商店。

此外，在一些实施例中，提出一种计算装置，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前文实施例所述的基于熵权法的跨社交网络用户身份匹配方法。计算装置的示例包括PC机、平板电脑、智能手机或PDA等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。