CN115048563A - 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 - Google Patents

基于熵权法的跨社交网络用户身份匹配方法、介质及装置 Download PDF

Info

Publication number
CN115048563A
CN115048563A CN202210971332.9A CN202210971332A CN115048563A CN 115048563 A CN115048563 A CN 115048563A CN 202210971332 A CN202210971332 A CN 202210971332A CN 115048563 A CN115048563 A CN 115048563A
Authority
CN
China
Prior art keywords
user
attribute
similarity
users
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210971332.9A
Other languages
English (en)
Inventor
饶志宏
王莉莉
康荣保
张晓�
赵尔凡
杜艳霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202210971332.9A priority Critical patent/CN115048563A/zh
Publication of CN115048563A publication Critical patent/CN115048563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置,所述方法包括如下步骤:S10,数据收集:采集多个社交网络的用户属性信息;S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;S30,相似度计算:计算两用户不同属性特征的相似度;S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配。本发明通过多维度的信息融合与分析方法来匹配用户身份,提升了用户身份匹配效果。

Description

基于熵权法的跨社交网络用户身份匹配方法、介质及装置
技术领域
本发明涉及社交网络技术领域,具体而言,涉及一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置。
背景技术
社交网络是人们通过互联网进行联系和互动的便捷方式,如美国的Facebook、Twitter、Instagram,以及我国的微博和人人网等。社交网络提供的服务越来越丰富,包括文本信息发布、图像与视频共享、用户间关注、用户评论等。人们在不同社交网络上的行为活动侧重点不同,如新浪微博以媒体属性为主,人人网以社交属性为主。越来越多的用户注册不同的社交网络,以获得不同的服务,这给构建一个完整的用户画像带来了极大的困难。跨社交网络中用户身份匹配是实现用户完整画像构建的前提。
跨社交网络用户身份匹配主要是判断不同社交网络平台上的用户是否对应同一个实体用户。目前的跨社交网络用户身份匹配技术大致可以分为基于用户属性的身份匹配、基于用户关系的身份匹配、基于用户生成内容(User Generated Content, UGC)的身份匹配和基于综合属性的身份匹配。
基于用户属性的身份匹配技术主要通过计算用户的属性(用户名、用户头像、用户位置、性别、年龄、教育程度、职业等)相似度进行匹配。在大型社交网络中用户属性存在较大的重复性,且多数社交网络对用户属性信息设定为隐私数据,单纯依靠用户属性方法无法解决大型社交网络用户身份匹配问题。
基于UGC的身份匹配技术主要通过计算用户发布的内容(位置、时间、文本等)相似度,提取两个社交网络内容相似度、时间相似度和空间相似度等特征,采用机器学习方法对用户身份进行匹配。然而,许多用户的生成内容设置为“不可见”,这也给用户身份匹配带来了困难。
基于用户关系的身份匹配技术目前研究还不多,相较于用户属性信息,用户关系中涵盖的虚假信息量更少。目前,基于用户关系的身份匹配方法有两种:一种是有先验节点的身份匹配方法,另一种是无先验节点的用户匹配方法。有先验节点的用户匹配方法主要在已知部分先验用户(已匹配的用户对)的前提下,通过建立用户相似度模型,来迭代匹配新的用户对。有先验节点的用户匹配方法的关键是需要找到高质量的“种子用户”,当前用户越来越重视隐私保护,如何找到高质量的“种子用户”是该研究的一个重点问题。无先验节点的身份匹配方法认为相同用户在不同的社交网络上具有类似的好友关系,在无需高质量的用户关系对的情况下,可以通过用户关系结构来计算相似度。该方法普适度高,但实现难度更大。
除了单纯使用用户属性信息、UGC信息和与用户关系信息之外,还有一些研究致力于综合运用这些信息来提升用户身份匹配效果。基于综合属性的身份匹配方法综合运用用户属性信息、用户发布的内容以及用户关系,充分考虑用户的动态变化,对用户的兴趣进行建模分析,对用户身份进行匹配。这种综合运用了属性、关系和UGC等各种维度信息的身份匹配方法,能够实现更好的匹配效果,但由于多维度信息的融合建模技术难度较高,目前这种身份匹配方法的研究尚处于起步阶段。
发明内容
本发明旨在提供一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置,以解决目前跨社交网络用户身份匹配难度大、效果不佳的问题。
本发明提供的一种基于熵权法的跨社交网络用户身份匹配方法,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配。
进一步地,步骤S10中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组。
进一步地,步骤S20中基于用户属性信息提取并融合用户属性特征的方法包括:
S21,基本属性特征提取:
对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串作为属性特征;
对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;
S23,特征融合:
对社交网络A中任一用户u k 和社交网络B中任一用户u j 进行属性特征提取和融合;
融合后,用户u k 的属性特征为
Figure 100002_DEST_PATH_IMAGE001
,其中,属性特征总数g=14;
Figure 402539DEST_PATH_IMAGE002
分别表示用户u k 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;
Figure 100002_DEST_PATH_IMAGE003
表示由关注数与粉丝数组成的二维向量;
Figure 560857DEST_PATH_IMAGE004
表示由获赞数与文章数组成的二维向量;
Figure 100002_DEST_PATH_IMAGE005
表示用户的WGS84坐标信息;
Figure 161603DEST_PATH_IMAGE006
是由不同词语的TF-IDF值组成的向量,分别表示用户u k 的个人描述、关注话题和发布内容的特征向量;
同理得到用户u j 的属性特征为
Figure 100002_DEST_PATH_IMAGE007
,其中,属性特征总数g=14;
Figure 421683DEST_PATH_IMAGE008
分别表示用户u j 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;
Figure 100002_DEST_PATH_IMAGE009
表示由关注数与粉丝数组成的二维向量;
Figure 766076DEST_PATH_IMAGE010
表示由获赞数与文章数组成的二维向量;
Figure 100002_DEST_PATH_IMAGE011
表示用户的WGS84坐标信息;
Figure 795212DEST_PATH_IMAGE012
是由不同词语的TF-IDF值组成的向量,分别表示用户u j 的个人描述、关注话题和发布内容的特征向量。
进一步地,步骤S22中短文本特征提取的方法包括:
计算TF值:
Figure 100002_DEST_PATH_IMAGE013
其中,TF表示词频,即一个词语在文档中出现的频率;
Figure 566859DEST_PATH_IMAGE014
表示词语
Figure 100002_DEST_PATH_IMAGE015
在文档
Figure 799388DEST_PATH_IMAGE016
中出现的频率;
Figure 100002_DEST_PATH_IMAGE017
表示词语
Figure 213052DEST_PATH_IMAGE015
在文档
Figure 565536DEST_PATH_IMAGE016
中出现的次数;
Figure 773664DEST_PATH_IMAGE018
表示所有词语在文档
Figure 477177DEST_PATH_IMAGE016
中出现的次数之和;
计算IDF值:
Figure 100002_DEST_PATH_IMAGE019
其中,
Figure 428953DEST_PATH_IMAGE020
表示文档
Figure 100002_DEST_PATH_IMAGE021
包含词语
Figure 167102DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE023
表示包含词语
Figure 526889DEST_PATH_IMAGE022
的所有文档数目,加1以避免分母为0的情况,|D|表示文档总数;
计算TF-IDF值:
Figure 717699DEST_PATH_IMAGE024
其中,
Figure 100002_DEST_PATH_IMAGE025
表示词语
Figure 473166DEST_PATH_IMAGE015
的词频,
Figure 800242DEST_PATH_IMAGE026
表示词语
Figure 350172DEST_PATH_IMAGE015
的逆文档频率,
Figure 28278DEST_PATH_IMAGE027
表示词语
Figure 56277DEST_PATH_IMAGE015
的TF-IDF值。
进一步地,步骤S30中计算两用户不同属性特征的相似度的方法包括:
S31,对于用户名、性别、学历和好友列表属性特征,采用Levenshtein距离来计算属性特征之间的相似度;
S32,对于职业、兴趣、个人主页URL和Email,采用完全匹配法来计算属性特征之间的相似度;
S33,对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量,以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征,采用余弦相似度来计算属性特征之间的相似度;
S34,对于地理位置转换成的WGS84坐标信息,采用大圆距离来计算属性特征之间的相似度。
进一步地,步骤S40中利用熵权法为两用户不同属性分配权重的方法包括:
S41,计算属性特征相似度出现的概率:
Figure 100002_DEST_PATH_IMAGE028
其中,p ij 为第i个属性特征中第j个数值所占的比重,n 2为社交网络B中用户数量;
Figure 503438DEST_PATH_IMAGE029
表示用户u k 和用户u j 的第i个属性特征的相似度;
S42,计算属性特征的信息熵:
Figure 100002_DEST_PATH_IMAGE030
其中,
Figure 975002DEST_PATH_IMAGE031
表示用户u k 和用户u j 的第i个属性特征的信息熵;
S43,计算属性权重:
Figure 140404DEST_PATH_IMAGE032
其中,
Figure 972094DEST_PATH_IMAGE033
Figure 100002_DEST_PATH_IMAGE034
表示用户u k 和用户u j 的第i个属性特征的权重。
进一步地,步骤S40中基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为:
Figure 273762DEST_PATH_IMAGE035
其中,Similarity(u k ,u j )表示用户u k 和用户u j 的总体相似度。
进一步地,步骤S50中根据两用户的总体相似度判断两用户是否身份匹配的方法为:
若用户u k 和用户u j 的总体相似度Similarity(u k ,u j )超过某个阈值,则认为用户u k 和用户u j 归属于同一个实体用户。
本发明还提供一种计算机终端存储介质,存储有计算机终端可执行指令,所述计算机终端可执行指令用于执行如上述的基于熵权法的跨社交网络用户身份匹配方法。
本发明还提供一种计算装置,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的基于熵权法的跨社交网络用户身份匹配方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明通过多维度的信息融合与分析方法来匹配用户身份,提升了用户身份匹配效果,在网络安全、网络舆情监测以及数字取证调查等方面具有较高的应用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中基于熵权法的跨社交网络用户身份匹配方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
跨社交网络的用户身份匹配问题一般可以描述为:任意给定社交网络A中任一用户u k 和社交网络B中任一用户u j ,判定他们是否归属于同一个实体用户。假设用户u k 的属性特征为
Figure 165495DEST_PATH_IMAGE001
,用户u j 的属性特征为
Figure DEST_PATH_IMAGE036
,两用户的相似度为
Figure 818193DEST_PATH_IMAGE037
,其中
Figure 187995DEST_PATH_IMAGE038
表示用户u k u j 的第i个属性特征的相似度,
Figure 609749DEST_PATH_IMAGE038
越大,表示这个属性特征对用户身份同一性的支持度越高。不同的用户属性特征对身份同一性的重要程度也不相同,对于用户u k u j ,若属性特征的权重为
Figure 406803DEST_PATH_IMAGE039
,其中
Figure 530486DEST_PATH_IMAGE040
表示第i个属性特征的权重(权重越高,表示该属性特征越重要),那么两用户的总体相似度为
Figure DEST_PATH_IMAGE041
。若两用户的总体相似度超过某个阈值,则认为用户u k u j 归属于同一个实体用户。
本发明综合运用用户属性信息、用户关系信息和UGC信息,基于熵权法,通过计算用户间属性的总体相似度来实现跨社交网络的用户身份匹配。如图1所示,本实施例提出一种基于熵权法的跨社交网络用户身份匹配方法,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配。
具体地:
S10,数据收集:采集多个社交网络的用户属性信息;
用户名是各社交网站最容易获得的身份信息,通常是由中文、英文、数字、特殊字符组成的字符串,能够反用户真实姓名、出生日期、起名偏好等用户身份特征。除了用户名之外,还有一些其他的属性信息也能够反应用户身份特征,如性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、好友列表等。用户的个人主页URL和Email对身份匹配具有很高的重要性,若两个账户的个人主页URL或者Email完全相同,那么他们为同一个实体用户的概率非常大。
由此,本实施例中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组。
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
具体地:
S21,基本属性特征提取:
(1)对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串直接作为属性特征;
(2)关注数与粉丝数能够反应用户的交友模式,如一些大V用户的粉丝数较多,而关注者相对少,而普通用户往往关注着较多,粉丝数相对较少。因此,对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
(3)获赞数与文章数能够反映用户发文章意愿的大小和文章的质量。如账号发文较少但获赞数较高,说明用户发文的质量较高,影响力高,而有些账号发布的文章很多,但获赞很少,说明用户发布的文章影响力较小、质量低。因此,对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
(4)为了统一计算相似度,对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;具体地:
第一步,计算TF值:
Figure 235137DEST_PATH_IMAGE013
其中,TF表示词频,即一个词语在文档中出现的频率;
Figure 245818DEST_PATH_IMAGE014
表示词语
Figure 479354DEST_PATH_IMAGE015
在文档
Figure 841065DEST_PATH_IMAGE016
中出现的频率;
Figure 287090DEST_PATH_IMAGE017
表示词语
Figure 683436DEST_PATH_IMAGE015
在文档
Figure 87872DEST_PATH_IMAGE016
中出现的次数;
Figure 936880DEST_PATH_IMAGE018
表示所有词语在文档
Figure 186595DEST_PATH_IMAGE016
中出现的次数之和;
第二步,计算IDF值:
Figure 188181DEST_PATH_IMAGE019
其中,
Figure 763518DEST_PATH_IMAGE020
表示文档
Figure 834243DEST_PATH_IMAGE021
包含词语
Figure 153229DEST_PATH_IMAGE022
Figure 258588DEST_PATH_IMAGE023
表示包含词语
Figure 4827DEST_PATH_IMAGE022
的所有文档数目,加1以避免分母为0的情况,|D|表示文档总数;
第三步,计算TF-IDF值:
Figure 297268DEST_PATH_IMAGE024
其中,
Figure 419945DEST_PATH_IMAGE025
表示词语
Figure 379811DEST_PATH_IMAGE015
的词频,
Figure 31372DEST_PATH_IMAGE026
表示词语
Figure 342267DEST_PATH_IMAGE015
的逆文档频率,
Figure 255253DEST_PATH_IMAGE027
表示词语
Figure 804046DEST_PATH_IMAGE015
的TF-IDF值。
S23,特征融合:
对社交网络A中任一用户u k 和社交网络B中任一用户u j 进行属性特征提取和融合;
融合后,用户u k 的属性特征为
Figure 157667DEST_PATH_IMAGE001
,其中,属性特征总数g=14;
Figure 424700DEST_PATH_IMAGE002
分别表示用户u k 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;
Figure 623600DEST_PATH_IMAGE042
表示由关注数与粉丝数组成的二维向量;
Figure 558058DEST_PATH_IMAGE004
表示由获赞数与文章数组成的二维向量;
Figure 817001DEST_PATH_IMAGE043
表示用户的WGS84坐标信息;
Figure 571331DEST_PATH_IMAGE006
是由不同词语的TF-IDF值组成的向量,分别表示用户u k 的个人描述、关注话题和发布内容的特征向量;
同理得到用户u j 的属性特征为
Figure 839501DEST_PATH_IMAGE007
,其中,属性特征总数g=14;
Figure 362886DEST_PATH_IMAGE008
分别表示用户u j 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;
Figure 792731DEST_PATH_IMAGE009
表示由关注数与粉丝数组成的二维向量;
Figure 299935DEST_PATH_IMAGE010
表示由获赞数与文章数组成的二维向量;
Figure 840638DEST_PATH_IMAGE011
表示用户的WGS84坐标信息;
Figure 31579DEST_PATH_IMAGE012
是由不同词语的TF-IDF值组成的向量,分别表示用户u j 的个人描述、关注话题和发布内容的特征向量。
S30,相似度计算:计算两用户不同属性特征的相似度;
对于不同的属性特征采用不同的相似度计算方法,如表1所示。
表1,用户属性特征的相似度计算方法:
字段名 相似度计算方法
用户名 Levenshtein距离
性别 Levenshtein距离
学历 Levenshtein距离
职业 完全匹配
兴趣 完全匹配
URL 完全匹配
Email 完全匹配
好友列表 Levenshtein距离
<关注数, 粉丝数> 余弦相似度
<获赞数, 文章数> 余弦相似度
位置 大圆距离
个人描述 余弦相似度
关注话题 余弦相似度
发布内容 余弦相似度
具体地:
S31,对于用户名、性别、学历和好友列表属性特征,采用Levenshtein距离来计算属性特征之间的相似度,计算公式如下:
Figure 632325DEST_PATH_IMAGE044
其中,Sim name 表示属性特征n 1和属性特征n 2之间的相似度,lev(n 1,n 2)表示属性特征n 1和属性特征n 2之间的Levenshtein距离;lev(n i )表示n i 的字符数。
S32,对于职业、兴趣、个人主页URL和Email,采用完全匹配法来计算属性特征之间的相似度:若两用户属性特征的信息完全一致,则相似度为1,否则为0。
S33,对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量,以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征,采用余弦相似度来计算属性特征之间的相似度:
余弦相似度是根据两个向量夹角余弦值的大小来评估两向量之间的相似度。余弦值越接近1,余弦夹角越接近0,表示两向量越相似。对于向量x 1=(x 11,x 12,…,x 1n )和向量x 2=(x 21,x 22,…,x 2n ),则两向量的余弦相似度为:
Figure 361246DEST_PATH_IMAGE045
S34,对于地理位置转换成的WGS84坐标信息,采用大圆距离来计算属性特征之间的相似度:
假设位置l k 和位置l j 分别表示用户u k 和用户u j 的地理位置,地点l k 的GPS坐标为(lat k ,lon k ),地点l j 的GPS坐标为(lat j ,lon j ),则采用大圆距离来计算两个坐标之间的距离,若两个坐标之间的距离在80km以内,则相似度为1,否则为0。大圆距离是指从地球的一点触发到达球面上另外一点所经过的最短路径长度,计算公式如下:
Figure DEST_PATH_IMAGE046
其中,d(l k ,l j )表示位置l k 和位置l j 的大圆距离,单位为kmR=6371km,表示地球半径;lat k lat j 分别表示位置l k 和位置l j 的纬度,lon k lon j 分别表示位置位置l k 和位置l j 的经度。
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
在对社交网络用户各属性分配权重时,可以采用主观赋权法和客观赋权法两种方法。主观赋权法需要结合大量的相关经验,鲁棒性较差;客观赋权法包括熵权法、离差法和均方差法等。熵权法根据各属性的相似度确定权重,匹配用户的相似度与不匹配用户的相似度差别越大,信息熵值越小,该属性越有价值,权重也应该越大,属性的信息熵值与权重呈反比。
具体地:
S41,计算属性特征相似度出现的概率:
Figure 971219DEST_PATH_IMAGE028
其中,p ij 为第i个属性特征中第j个数值所占的比重,n 2为社交网络B中用户数量;
Figure 734776DEST_PATH_IMAGE029
表示用户u k 和用户u j 的第i个属性特征的相似度;
S42,计算属性特征的信息熵:
Figure 506423DEST_PATH_IMAGE030
其中,
Figure 237487DEST_PATH_IMAGE031
表示用户u k 和用户u j 的第i个属性特征的信息熵;
S43,计算属性权重:
Figure 119993DEST_PATH_IMAGE047
其中,
Figure 738056DEST_PATH_IMAGE048
Figure 680604DEST_PATH_IMAGE034
表示用户u k 和用户u j 的第i个属性特征的权重。
S44,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为:
Figure DEST_PATH_IMAGE049
其中,Similarity(u j ,u k )表示用户u k 和用户u j 的总体相似度。
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配:若用户u k 和用户u j 的总体相似度Similarity(u k ,u j )超过某个阈值,则认为用户u k 和用户u j 归属于同一个实体用户。
此外,在一些实施例中,提出一种计算机终端存储介质,存储有计算机终端可执行指令,所述计算机终端可执行指令用于执行如前文实施例所述的基于熵权法的跨社交网络用户身份匹配方法。计算机存储介质的示例包括磁性存储介质(例如,软盘、硬盘等)、光学记录介质(例如,CD-ROM、DVD等)或存储器,如存储卡、ROM或RAM等。计算机存储介质也可以分布在网络连接的计算机系统上,例如是应用程序的商店。
此外,在一些实施例中,提出一种计算装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前文实施例所述的基于熵权法的跨社交网络用户身份匹配方法。计算装置的示例包括PC机、平板电脑、智能手机或PDA等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于熵权法的跨社交网络用户身份匹配方法,其特征在于,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配;
步骤S10中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组;
步骤S20中基于用户属性信息提取并融合用户属性特征的方法包括:
S21,基本属性特征提取:
对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串作为属性特征;
对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;
S23,特征融合:
对社交网络A中任一用户u k 和社交网络B中任一用户u j 进行属性特征提取和融合;
融合后,用户u k 的属性特征为
Figure DEST_PATH_IMAGE001
,其中,属性特征总数g=14;
Figure 370416DEST_PATH_IMAGE002
分别表示用户u k 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;
Figure DEST_PATH_IMAGE003
表示由关注数与粉丝数组成的二维向量;
Figure 219423DEST_PATH_IMAGE004
表示由获赞数与文章数组成的二维向量;
Figure DEST_PATH_IMAGE005
表示用户的WGS84坐标信息;
Figure 297DEST_PATH_IMAGE006
是由不同词语的TF-IDF值组成的向量,分别表示用户u k 的个人描述、关注话题和发布内容的特征向量;
同理得到用户u j 的属性特征为
Figure DEST_PATH_IMAGE007
,其中,属性特征总数g=14;
Figure 251150DEST_PATH_IMAGE008
分别表示用户u j 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;
Figure DEST_PATH_IMAGE009
表示由关注数与粉丝数组成的二维向量;
Figure 826488DEST_PATH_IMAGE010
表示由获赞数与文章数组成的二维向量;
Figure DEST_PATH_IMAGE011
表示用户的WGS84坐标信息;
Figure 677638DEST_PATH_IMAGE012
是由不同词语的TF-IDF值组成的向量,分别表示用户u j 的个人描述、关注话题和发布内容的特征向量;
步骤S22中短文本特征提取的方法包括:
计算TF值:
Figure DEST_PATH_IMAGE013
其中,TF表示词频,即一个词语在文档中出现的频率;
Figure 996624DEST_PATH_IMAGE014
表示词语
Figure DEST_PATH_IMAGE015
在文档
Figure 367562DEST_PATH_IMAGE016
中出现的频率;
Figure DEST_PATH_IMAGE017
表示词语
Figure 113801DEST_PATH_IMAGE015
在文档
Figure 671822DEST_PATH_IMAGE016
中出现的次数;
Figure 528919DEST_PATH_IMAGE018
表示所有词语在文档
Figure 488785DEST_PATH_IMAGE016
中出现的次数之和;
计算IDF值:
Figure DEST_PATH_IMAGE019
其中,
Figure 422237DEST_PATH_IMAGE020
表示文档
Figure DEST_PATH_IMAGE021
包含词语
Figure 733133DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
表示包含词语
Figure 393921DEST_PATH_IMAGE022
的所有文档数目,加1以避免分母为0的情况,|D|表示文档总数;
计算TF-IDF值:
Figure 208293DEST_PATH_IMAGE024
其中,
Figure DEST_PATH_IMAGE025
表示词语
Figure 827494DEST_PATH_IMAGE015
的词频,
Figure 94527DEST_PATH_IMAGE026
表示词语
Figure 559006DEST_PATH_IMAGE015
的逆文档频率,
Figure 480082DEST_PATH_IMAGE027
表示词语
Figure 4604DEST_PATH_IMAGE015
的TF-IDF值。
2.根据权利要求1所述的基于熵权法的跨社交网络用户身份匹配方法,其特征在于,步骤S30中计算两用户不同属性特征的相似度的方法包括:
S31,对于用户名、性别、学历和好友列表属性特征,采用Levenshtein距离来计算属性特征之间的相似度;
S32,对于职业、兴趣、个人主页URL和Email,采用完全匹配法来计算属性特征之间的相似度;
S33,对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量,以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征,采用余弦相似度来计算属性特征之间的相似度;
S34,对于地理位置转换成的WGS84坐标信息,采用大圆距离来计算属性特征之间的相似度。
3.根据权利要求2所述的基于熵权法的跨社交网络用户身份匹配方法,其特征在于,步骤S40中利用熵权法为两用户不同属性分配权重的方法包括:
S41,计算属性特征相似度出现的概率:
Figure DEST_PATH_IMAGE028
其中,p ij 为第i个属性特征中第j个数值所占的比重,n 2为社交网络B中用户数量;
Figure 24513DEST_PATH_IMAGE029
表示用户u k 和用户u j 的第i个属性特征的相似度;
S42,计算属性特征的信息熵:
Figure DEST_PATH_IMAGE030
其中,
Figure 27104DEST_PATH_IMAGE031
表示用户u k 和用户u j 的第i个属性特征的信息熵;
S43,计算属性权重:
Figure 816069DEST_PATH_IMAGE032
其中,
Figure 511492DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE034
表示用户u k 和用户u j 的第i个属性特征的权重。
4.根据权利要求2所述的基于熵权法的跨社交网络用户身份匹配方法,其特征在于,步骤S40中基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为:
Figure 753118DEST_PATH_IMAGE035
其中,Similarity(u k ,u j )表示用户u k 和用户u j 的总体相似度。
5.根据权利要求2所述的基于熵权法的跨社交网络用户身份匹配方法,其特征在于,步骤S50中根据两用户的总体相似度判断两用户是否身份匹配的方法为:
若用户u k 和用户u j 的总体相似度Similarity(u k ,u j )超过某个阈值,则认为用户u k 和用户u j 归属于同一个实体用户。
6.一种计算机终端存储介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行如权利要求1-5中任一权利要求所述的基于熵权法的跨社交网络用户身份匹配方法。
7.一种计算装置,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5中任一权利要求所述的基于熵权法的跨社交网络用户身份匹配方法。
CN202210971332.9A 2022-08-15 2022-08-15 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 Pending CN115048563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210971332.9A CN115048563A (zh) 2022-08-15 2022-08-15 基于熵权法的跨社交网络用户身份匹配方法、介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210971332.9A CN115048563A (zh) 2022-08-15 2022-08-15 基于熵权法的跨社交网络用户身份匹配方法、介质及装置

Publications (1)

Publication Number Publication Date
CN115048563A true CN115048563A (zh) 2022-09-13

Family

ID=83167322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210971332.9A Pending CN115048563A (zh) 2022-08-15 2022-08-15 基于熵权法的跨社交网络用户身份匹配方法、介质及装置

Country Status (1)

Country Link
CN (1) CN115048563A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091260A (zh) * 2023-04-07 2023-05-09 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284589A (zh) * 2018-09-05 2019-01-29 武汉大学 一种跨社交网络实体身份解析方法
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110598129A (zh) * 2019-09-09 2019-12-20 河南科技大学 基于两级信息熵的跨社交网络用户身份识别方法
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN112507247A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种融合用户状态信息的跨社交网络用户对齐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284589A (zh) * 2018-09-05 2019-01-29 武汉大学 一种跨社交网络实体身份解析方法
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110598129A (zh) * 2019-09-09 2019-12-20 河南科技大学 基于两级信息熵的跨社交网络用户身份识别方法
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN112507247A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种融合用户状态信息的跨社交网络用户对齐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴铮 等: "基于信息熵的跨社交网络用户身份识别方法", 《计算机应用》 *
张淑婷: "基于多维信息的跨平台用户身份识别模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091260A (zh) * 2023-04-07 2023-05-09 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统

Similar Documents

Publication Publication Date Title
JP5281405B2 (ja) 表示のための高品質レビューの選択
JP5635590B2 (ja) 推論による広告のターゲット化のためにソーシャルネットワーク内の情報を梃子として用いること
CN103188139B (zh) 一种推荐朋友的信息展示方法和装置
US20150293997A1 (en) User Profile Stitching
CN106656732A (zh) 一种基于场景信息获取聊天回复内容的方法及装置
CN107590232B (zh) 一种基于网络学习环境的资源推荐系统及方法
EP2484113A1 (en) A method, apparatus and system for increasing website data transfer speed
Gharehchopogh et al. Data mining application for cyber space users tendency in blog writing: a case study
JP5730741B2 (ja) 話題推薦装置及び方法及びプログラム
CN107943910B (zh) 一种基于组合算法的个性化图书推荐方法
CN111611499B (zh) 协同过滤方法、协同过滤装置及系统
CN110990683A (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
WO2010096986A1 (zh) 移动搜索方法及装置
CN109905873A (zh) 一种基于特征标识信息的网络账号关联方法
CN106933878B (zh) 一种信息处理方法及装置
Wang et al. Group-based personalized location recommendation on social networks
CN115048563A (zh) 基于熵权法的跨社交网络用户身份匹配方法、介质及装置
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN108959364B (zh) 一种社交媒体事件级新闻中新闻媒体影响力评估方法
CN105447148B (zh) 一种Cookie标识关联方法及装置
Li et al. Modeling and analysis of group user portrait through WeChat mini program
US20100125630A1 (en) Method and Device to Provide Trusted Recommendations of Websites
Kotzias et al. Addressing the Sparsity of Location Information on Twitter.
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
Heravi et al. Tweet location detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220913