CN115048563A - 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 - Google Patents
基于熵权法的跨社交网络用户身份匹配方法、介质及装置 Download PDFInfo
- Publication number
- CN115048563A CN115048563A CN202210971332.9A CN202210971332A CN115048563A CN 115048563 A CN115048563 A CN 115048563A CN 202210971332 A CN202210971332 A CN 202210971332A CN 115048563 A CN115048563 A CN 115048563A
- Authority
- CN
- China
- Prior art keywords
- user
- attribute
- similarity
- users
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置,所述方法包括如下步骤:S10,数据收集:采集多个社交网络的用户属性信息;S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;S30,相似度计算:计算两用户不同属性特征的相似度;S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配。本发明通过多维度的信息融合与分析方法来匹配用户身份,提升了用户身份匹配效果。
Description
技术领域
本发明涉及社交网络技术领域,具体而言,涉及一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置。
背景技术
社交网络是人们通过互联网进行联系和互动的便捷方式,如美国的Facebook、Twitter、Instagram,以及我国的微博和人人网等。社交网络提供的服务越来越丰富,包括文本信息发布、图像与视频共享、用户间关注、用户评论等。人们在不同社交网络上的行为活动侧重点不同,如新浪微博以媒体属性为主,人人网以社交属性为主。越来越多的用户注册不同的社交网络,以获得不同的服务,这给构建一个完整的用户画像带来了极大的困难。跨社交网络中用户身份匹配是实现用户完整画像构建的前提。
跨社交网络用户身份匹配主要是判断不同社交网络平台上的用户是否对应同一个实体用户。目前的跨社交网络用户身份匹配技术大致可以分为基于用户属性的身份匹配、基于用户关系的身份匹配、基于用户生成内容(User Generated Content, UGC)的身份匹配和基于综合属性的身份匹配。
基于用户属性的身份匹配技术主要通过计算用户的属性(用户名、用户头像、用户位置、性别、年龄、教育程度、职业等)相似度进行匹配。在大型社交网络中用户属性存在较大的重复性,且多数社交网络对用户属性信息设定为隐私数据,单纯依靠用户属性方法无法解决大型社交网络用户身份匹配问题。
基于UGC的身份匹配技术主要通过计算用户发布的内容(位置、时间、文本等)相似度,提取两个社交网络内容相似度、时间相似度和空间相似度等特征,采用机器学习方法对用户身份进行匹配。然而,许多用户的生成内容设置为“不可见”,这也给用户身份匹配带来了困难。
基于用户关系的身份匹配技术目前研究还不多,相较于用户属性信息,用户关系中涵盖的虚假信息量更少。目前,基于用户关系的身份匹配方法有两种:一种是有先验节点的身份匹配方法,另一种是无先验节点的用户匹配方法。有先验节点的用户匹配方法主要在已知部分先验用户(已匹配的用户对)的前提下,通过建立用户相似度模型,来迭代匹配新的用户对。有先验节点的用户匹配方法的关键是需要找到高质量的“种子用户”,当前用户越来越重视隐私保护,如何找到高质量的“种子用户”是该研究的一个重点问题。无先验节点的身份匹配方法认为相同用户在不同的社交网络上具有类似的好友关系,在无需高质量的用户关系对的情况下,可以通过用户关系结构来计算相似度。该方法普适度高,但实现难度更大。
除了单纯使用用户属性信息、UGC信息和与用户关系信息之外,还有一些研究致力于综合运用这些信息来提升用户身份匹配效果。基于综合属性的身份匹配方法综合运用用户属性信息、用户发布的内容以及用户关系,充分考虑用户的动态变化,对用户的兴趣进行建模分析,对用户身份进行匹配。这种综合运用了属性、关系和UGC等各种维度信息的身份匹配方法,能够实现更好的匹配效果,但由于多维度信息的融合建模技术难度较高,目前这种身份匹配方法的研究尚处于起步阶段。
发明内容
本发明旨在提供一种基于熵权法的跨社交网络用户身份匹配方法、介质及装置,以解决目前跨社交网络用户身份匹配难度大、效果不佳的问题。
本发明提供的一种基于熵权法的跨社交网络用户身份匹配方法,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配。
进一步地,步骤S10中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组。
进一步地,步骤S20中基于用户属性信息提取并融合用户属性特征的方法包括:
S21,基本属性特征提取:
对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串作为属性特征;
对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;
S23,特征融合:
对社交网络A中任一用户u k 和社交网络B中任一用户u j 进行属性特征提取和融合;
融合后,用户u k 的属性特征为,其中,属性特征总数g=14;分别表示用户u k 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;表示由关注数与粉丝数组成的二维向量;表示由获赞数与文章数组成的二维向量;表示用户的WGS84坐标信息;是由不同词语的TF-IDF值组成的向量,分别表示用户u k 的个人描述、关注话题和发布内容的特征向量;
同理得到用户u j 的属性特征为,其中,属性特征总数g=14;分别表示用户u j 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;表示由关注数与粉丝数组成的二维向量;表示由获赞数与文章数组成的二维向量;表示用户的WGS84坐标信息;是由不同词语的TF-IDF值组成的向量,分别表示用户u j 的个人描述、关注话题和发布内容的特征向量。
进一步地,步骤S22中短文本特征提取的方法包括:
计算TF值:
计算IDF值:
计算TF-IDF值:
进一步地,步骤S30中计算两用户不同属性特征的相似度的方法包括:
S31,对于用户名、性别、学历和好友列表属性特征,采用Levenshtein距离来计算属性特征之间的相似度;
S32,对于职业、兴趣、个人主页URL和Email,采用完全匹配法来计算属性特征之间的相似度;
S33,对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量,以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征,采用余弦相似度来计算属性特征之间的相似度;
S34,对于地理位置转换成的WGS84坐标信息,采用大圆距离来计算属性特征之间的相似度。
进一步地,步骤S40中利用熵权法为两用户不同属性分配权重的方法包括:
S41,计算属性特征相似度出现的概率:
S42,计算属性特征的信息熵:
S43,计算属性权重:
进一步地,步骤S40中基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为:
其中,Similarity(u k ,u j )表示用户u k 和用户u j 的总体相似度。
进一步地,步骤S50中根据两用户的总体相似度判断两用户是否身份匹配的方法为:
若用户u k 和用户u j 的总体相似度Similarity(u k ,u j )超过某个阈值,则认为用户u k 和用户u j 归属于同一个实体用户。
本发明还提供一种计算机终端存储介质,存储有计算机终端可执行指令,所述计算机终端可执行指令用于执行如上述的基于熵权法的跨社交网络用户身份匹配方法。
本发明还提供一种计算装置,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的基于熵权法的跨社交网络用户身份匹配方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明通过多维度的信息融合与分析方法来匹配用户身份,提升了用户身份匹配效果,在网络安全、网络舆情监测以及数字取证调查等方面具有较高的应用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中基于熵权法的跨社交网络用户身份匹配方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
跨社交网络的用户身份匹配问题一般可以描述为:任意给定社交网络A中任一用户u k 和社交网络B中任一用户u j ,判定他们是否归属于同一个实体用户。假设用户u k 的属性特征为,用户u j 的属性特征为,两用户的相似度为,其中表示用户u k 和u j 的第i个属性特征的相似度,越大,表示这个属性特征对用户身份同一性的支持度越高。不同的用户属性特征对身份同一性的重要程度也不相同,对于用户u k 和u j ,若属性特征的权重为,其中表示第i个属性特征的权重(权重越高,表示该属性特征越重要),那么两用户的总体相似度为。若两用户的总体相似度超过某个阈值,则认为用户u k 和u j 归属于同一个实体用户。
本发明综合运用用户属性信息、用户关系信息和UGC信息,基于熵权法,通过计算用户间属性的总体相似度来实现跨社交网络的用户身份匹配。如图1所示,本实施例提出一种基于熵权法的跨社交网络用户身份匹配方法,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配。
具体地:
S10,数据收集:采集多个社交网络的用户属性信息;
用户名是各社交网站最容易获得的身份信息,通常是由中文、英文、数字、特殊字符组成的字符串,能够反用户真实姓名、出生日期、起名偏好等用户身份特征。除了用户名之外,还有一些其他的属性信息也能够反应用户身份特征,如性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、好友列表等。用户的个人主页URL和Email对身份匹配具有很高的重要性,若两个账户的个人主页URL或者Email完全相同,那么他们为同一个实体用户的概率非常大。
由此,本实施例中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组。
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
具体地:
S21,基本属性特征提取:
(1)对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串直接作为属性特征;
(2)关注数与粉丝数能够反应用户的交友模式,如一些大V用户的粉丝数较多,而关注者相对少,而普通用户往往关注着较多,粉丝数相对较少。因此,对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
(3)获赞数与文章数能够反映用户发文章意愿的大小和文章的质量。如账号发文较少但获赞数较高,说明用户发文的质量较高,影响力高,而有些账号发布的文章很多,但获赞很少,说明用户发布的文章影响力较小、质量低。因此,对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
(4)为了统一计算相似度,对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;具体地:
第一步,计算TF值:
第二步,计算IDF值:
第三步,计算TF-IDF值:
S23,特征融合:
对社交网络A中任一用户u k 和社交网络B中任一用户u j 进行属性特征提取和融合;
融合后,用户u k 的属性特征为,其中,属性特征总数g=14;分别表示用户u k 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;表示由关注数与粉丝数组成的二维向量;表示由获赞数与文章数组成的二维向量;表示用户的WGS84坐标信息;是由不同词语的TF-IDF值组成的向量,分别表示用户u k 的个人描述、关注话题和发布内容的特征向量;
同理得到用户u j 的属性特征为,其中,属性特征总数g=14;分别表示用户u j 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;表示由关注数与粉丝数组成的二维向量;表示由获赞数与文章数组成的二维向量;表示用户的WGS84坐标信息;是由不同词语的TF-IDF值组成的向量,分别表示用户u j 的个人描述、关注话题和发布内容的特征向量。
S30,相似度计算:计算两用户不同属性特征的相似度;
对于不同的属性特征采用不同的相似度计算方法,如表1所示。
表1,用户属性特征的相似度计算方法:
字段名 | 相似度计算方法 |
用户名 | Levenshtein距离 |
性别 | Levenshtein距离 |
学历 | Levenshtein距离 |
职业 | 完全匹配 |
兴趣 | 完全匹配 |
URL | 完全匹配 |
完全匹配 | |
好友列表 | Levenshtein距离 |
<关注数, 粉丝数> | 余弦相似度 |
<获赞数, 文章数> | 余弦相似度 |
位置 | 大圆距离 |
个人描述 | 余弦相似度 |
关注话题 | 余弦相似度 |
发布内容 | 余弦相似度 |
具体地:
S31,对于用户名、性别、学历和好友列表属性特征,采用Levenshtein距离来计算属性特征之间的相似度,计算公式如下:
其中,Sim name 表示属性特征n 1和属性特征n 2之间的相似度,lev(n 1,n 2)表示属性特征n 1和属性特征n 2之间的Levenshtein距离;lev(n i )表示n i 的字符数。
S32,对于职业、兴趣、个人主页URL和Email,采用完全匹配法来计算属性特征之间的相似度:若两用户属性特征的信息完全一致,则相似度为1,否则为0。
S33,对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量,以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征,采用余弦相似度来计算属性特征之间的相似度:
余弦相似度是根据两个向量夹角余弦值的大小来评估两向量之间的相似度。余弦值越接近1,余弦夹角越接近0,表示两向量越相似。对于向量x 1=(x 11,x 12,…,x 1n )和向量x 2=(x 21,x 22,…,x 2n ),则两向量的余弦相似度为:
S34,对于地理位置转换成的WGS84坐标信息,采用大圆距离来计算属性特征之间的相似度:
假设位置l k 和位置l j 分别表示用户u k 和用户u j 的地理位置,地点l k 的GPS坐标为(lat k ,lon k ),地点l j 的GPS坐标为(lat j ,lon j ),则采用大圆距离来计算两个坐标之间的距离,若两个坐标之间的距离在80km以内,则相似度为1,否则为0。大圆距离是指从地球的一点触发到达球面上另外一点所经过的最短路径长度,计算公式如下:
其中,d(l k ,l j )表示位置l k 和位置l j 的大圆距离,单位为km;R=6371km,表示地球半径;lat k 和lat j 分别表示位置l k 和位置l j 的纬度,lon k 和lon j 分别表示位置位置l k 和位置l j 的经度。
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
在对社交网络用户各属性分配权重时,可以采用主观赋权法和客观赋权法两种方法。主观赋权法需要结合大量的相关经验,鲁棒性较差;客观赋权法包括熵权法、离差法和均方差法等。熵权法根据各属性的相似度确定权重,匹配用户的相似度与不匹配用户的相似度差别越大,信息熵值越小,该属性越有价值,权重也应该越大,属性的信息熵值与权重呈反比。
具体地:
S41,计算属性特征相似度出现的概率:
S42,计算属性特征的信息熵:
S43,计算属性权重:
S44,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度的方法为:
其中,Similarity(u j ,u k )表示用户u k 和用户u j 的总体相似度。
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配:若用户u k 和用户u j 的总体相似度Similarity(u k ,u j )超过某个阈值,则认为用户u k 和用户u j 归属于同一个实体用户。
此外,在一些实施例中,提出一种计算机终端存储介质,存储有计算机终端可执行指令,所述计算机终端可执行指令用于执行如前文实施例所述的基于熵权法的跨社交网络用户身份匹配方法。计算机存储介质的示例包括磁性存储介质(例如,软盘、硬盘等)、光学记录介质(例如,CD-ROM、DVD等)或存储器,如存储卡、ROM或RAM等。计算机存储介质也可以分布在网络连接的计算机系统上,例如是应用程序的商店。
此外,在一些实施例中,提出一种计算装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前文实施例所述的基于熵权法的跨社交网络用户身份匹配方法。计算装置的示例包括PC机、平板电脑、智能手机或PDA等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于熵权法的跨社交网络用户身份匹配方法,其特征在于,包括如下步骤:
S10,数据收集:采集多个社交网络的用户属性信息;
S20,特征提取和融合:基于用户属性信息提取并融合用户属性特征;
S30,相似度计算:计算两用户不同属性特征的相似度;
S40,身份匹配:利用熵权法为两用户不同属性分配权重,基于两用户不同属性特征的相似度以及权重计算两用户的总体相似度;
S50,输出结果:根据两用户的总体相似度判断两用户是否身份匹配;
步骤S10中采集多个社交网络的用户属性信息的方法包括:
S11,利用网络爬虫技术对多个社交网络的用户属性信息进行数据采集;所述用户属性信息包括用户名、性别、学历、职业、个人描述、兴趣、关注话题、发布内容、关注数、粉丝数、获赞数、文章数、个人主页URL、Email、地理位置和好友列表;
S12,对采集的用户属性信息进行数据预处理;所述数据预处理包括噪声数据去除和混乱文本重组;
步骤S20中基于用户属性信息提取并融合用户属性特征的方法包括:
S21,基本属性特征提取:
对于采用字符串存储的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表,将数据预处理后的字符串作为属性特征;
对于关注数和粉丝数,将关注数和粉丝数组成二维向量作为属性特征;
对于获赞数和文章数,将获赞数和文章数组成二维向量作为属性特征;
对于地理位置,将地理位置统一转换为WGS84坐标信息;所述地理位置包括详细地址、GPS定位和城市名称;
S22,短文本特征提取:
对于采用短文本方式存储的个人描述、关注话题和发布内容,将社交网络中用户的个人描述、关注话题和发布内容分别视作由多个词语组成的文档,每个词语的重要程度用TF-IDF值进行评估,从而通过计算文档中每个词语的TF-IDF值,来提取短文本的属性特征;
S23,特征融合:
对社交网络A中任一用户u k 和社交网络B中任一用户u j 进行属性特征提取和融合;
融合后,用户u k 的属性特征为,其中,属性特征总数g=14;分别表示用户u k 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;表示由关注数与粉丝数组成的二维向量;表示由获赞数与文章数组成的二维向量;表示用户的WGS84坐标信息;是由不同词语的TF-IDF值组成的向量,分别表示用户u k 的个人描述、关注话题和发布内容的特征向量;
同理得到用户u j 的属性特征为,其中,属性特征总数g=14;分别表示用户u j 的用户名、性别、学历、职业、兴趣、个人主页URL、Email和好友列表属性特征;表示由关注数与粉丝数组成的二维向量;表示由获赞数与文章数组成的二维向量;表示用户的WGS84坐标信息;是由不同词语的TF-IDF值组成的向量,分别表示用户u j 的个人描述、关注话题和发布内容的特征向量;
步骤S22中短文本特征提取的方法包括:
计算TF值:
计算IDF值:
计算TF-IDF值:
2.根据权利要求1所述的基于熵权法的跨社交网络用户身份匹配方法,其特征在于,步骤S30中计算两用户不同属性特征的相似度的方法包括:
S31,对于用户名、性别、学历和好友列表属性特征,采用Levenshtein距离来计算属性特征之间的相似度;
S32,对于职业、兴趣、个人主页URL和Email,采用完全匹配法来计算属性特征之间的相似度;
S33,对于关注数和粉丝数组成的二维向量、获赞数和文章数组成的二维向量,以及个人描述、关注话题和发布内容提取的TF-IDF值组成的属性特征,采用余弦相似度来计算属性特征之间的相似度;
S34,对于地理位置转换成的WGS84坐标信息,采用大圆距离来计算属性特征之间的相似度。
5.根据权利要求2所述的基于熵权法的跨社交网络用户身份匹配方法,其特征在于,步骤S50中根据两用户的总体相似度判断两用户是否身份匹配的方法为:
若用户u k 和用户u j 的总体相似度Similarity(u k ,u j )超过某个阈值,则认为用户u k 和用户u j 归属于同一个实体用户。
6.一种计算机终端存储介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行如权利要求1-5中任一权利要求所述的基于熵权法的跨社交网络用户身份匹配方法。
7.一种计算装置,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5中任一权利要求所述的基于熵权法的跨社交网络用户身份匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210971332.9A CN115048563A (zh) | 2022-08-15 | 2022-08-15 | 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210971332.9A CN115048563A (zh) | 2022-08-15 | 2022-08-15 | 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115048563A true CN115048563A (zh) | 2022-09-13 |
Family
ID=83167322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210971332.9A Pending CN115048563A (zh) | 2022-08-15 | 2022-08-15 | 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048563A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091260A (zh) * | 2023-04-07 | 2023-05-09 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284589A (zh) * | 2018-09-05 | 2019-01-29 | 武汉大学 | 一种跨社交网络实体身份解析方法 |
CN110097125A (zh) * | 2019-05-07 | 2019-08-06 | 郑州轻工业学院 | 一种基于嵌入表示的跨网络账户关联方法 |
CN110598129A (zh) * | 2019-09-09 | 2019-12-20 | 河南科技大学 | 基于两级信息熵的跨社交网络用户身份识别方法 |
CN111815468A (zh) * | 2020-06-04 | 2020-10-23 | 哈尔滨工程大学 | 一种基于用户身份关联的多源社交网络构建方法 |
CN112507247A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
-
2022
- 2022-08-15 CN CN202210971332.9A patent/CN115048563A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284589A (zh) * | 2018-09-05 | 2019-01-29 | 武汉大学 | 一种跨社交网络实体身份解析方法 |
CN110097125A (zh) * | 2019-05-07 | 2019-08-06 | 郑州轻工业学院 | 一种基于嵌入表示的跨网络账户关联方法 |
CN110598129A (zh) * | 2019-09-09 | 2019-12-20 | 河南科技大学 | 基于两级信息熵的跨社交网络用户身份识别方法 |
CN111815468A (zh) * | 2020-06-04 | 2020-10-23 | 哈尔滨工程大学 | 一种基于用户身份关联的多源社交网络构建方法 |
CN112507247A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
Non-Patent Citations (2)
Title |
---|
吴铮 等: "基于信息熵的跨社交网络用户身份识别方法", 《计算机应用》 * |
张淑婷: "基于多维信息的跨平台用户身份识别模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091260A (zh) * | 2023-04-07 | 2023-05-09 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5281405B2 (ja) | 表示のための高品質レビューの選択 | |
JP5635590B2 (ja) | 推論による広告のターゲット化のためにソーシャルネットワーク内の情報を梃子として用いること | |
CN103188139B (zh) | 一种推荐朋友的信息展示方法和装置 | |
US20150293997A1 (en) | User Profile Stitching | |
CN106656732A (zh) | 一种基于场景信息获取聊天回复内容的方法及装置 | |
CN107590232B (zh) | 一种基于网络学习环境的资源推荐系统及方法 | |
EP2484113A1 (en) | A method, apparatus and system for increasing website data transfer speed | |
Gharehchopogh et al. | Data mining application for cyber space users tendency in blog writing: a case study | |
JP5730741B2 (ja) | 話題推薦装置及び方法及びプログラム | |
CN107943910B (zh) | 一种基于组合算法的个性化图书推荐方法 | |
CN111611499B (zh) | 协同过滤方法、协同过滤装置及系统 | |
CN110990683A (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
WO2010096986A1 (zh) | 移动搜索方法及装置 | |
CN109905873A (zh) | 一种基于特征标识信息的网络账号关联方法 | |
CN106933878B (zh) | 一种信息处理方法及装置 | |
Wang et al. | Group-based personalized location recommendation on social networks | |
CN115048563A (zh) | 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
CN108959364B (zh) | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 | |
CN105447148B (zh) | 一种Cookie标识关联方法及装置 | |
Li et al. | Modeling and analysis of group user portrait through WeChat mini program | |
US20100125630A1 (en) | Method and Device to Provide Trusted Recommendations of Websites | |
Kotzias et al. | Addressing the Sparsity of Location Information on Twitter. | |
CN115204436A (zh) | 检测业务指标异常原因的方法、装置、设备及介质 | |
Heravi et al. | Tweet location detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220913 |