CN104899267B - 一种社交网站账号相似度的综合数据挖掘方法 - Google Patents

一种社交网站账号相似度的综合数据挖掘方法 Download PDF

Info

Publication number
CN104899267B
CN104899267B CN201510268991.6A CN201510268991A CN104899267B CN 104899267 B CN104899267 B CN 104899267B CN 201510268991 A CN201510268991 A CN 201510268991A CN 104899267 B CN104899267 B CN 104899267B
Authority
CN
China
Prior art keywords
msub
mrow
social network
similarity
network sites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510268991.6A
Other languages
English (en)
Other versions
CN104899267A (zh
Inventor
徐琳
王犇
葛唯益
刘畅
徐欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201510268991.6A priority Critical patent/CN104899267B/zh
Publication of CN104899267A publication Critical patent/CN104899267A/zh
Application granted granted Critical
Publication of CN104899267B publication Critical patent/CN104899267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种社交网站账号相似度的综合数据挖掘方法,该方法能够用于网络舆情监控中,解决识别同一用户的多个社交网站账号的问题。本发明综合考虑了影响社交网站账号综合相似度的三大类因素:个人属性、交互行为和内容,并利用训练样本确定各因素相似度在综合相似度计算中所占的权重。与现有技术相比,本发明的技术优势在于:(1)为识别同一用户的多个社交网站账号提供量化、可靠、全面的参考,并且适用于大数据环境下的计算机自动处理;(2)采用训练样本确定各因素相似度在综合相似度计算中所占的权重,能够保持与人工处理结果的一致性。

Description

一种社交网站账号相似度的综合数据挖掘方法
技术领域
本发明属于计算机互联网数据挖掘技术,用于计算机互联网数据传播控制,特别是一种社交网站账号相似度的综合数据挖掘方法。
背景技术
以微博为代表的社交网站的兴起,极大增加了互联网信息传播的速度和广度。社交网站用户之间通过“互粉”、转发、评论、“@”等操作使得信息能够在极短的时间内在社交网上大规模扩散。这种短时间、大范围的信息传播既给用户获取信息带来了极大的便利,但是也带来了网络谣言泛滥的严重问题。
为了应对网络谣言泛滥的问题,舆情监控是社交网站管理不可缺少的环节。舆情监控包括两方面内容:一是内容的识别,二是传播的控制。为了实现传播控制,管理者可以通过采取禁言、封停社交网站账号等方式来避免谣言的扩散,但是谣言传播者也可以通过注册多个社交网站账号来逃避管理者的监管。同时,谣言传播者也可以通过注册多个社交网站账号的方式进一步加快谣言传播的速度,扩大谣言传播的范围。因此,识别同一用户注册的多个社交网站账号是社交网站舆情监控中必须解决的关键技术问题。
识别同一用户注册的多个社交网站账号实际上是社交网站账号间的相似度分析。现有的社交网站数据挖掘方法无法直接运用于社交网站账号相似度分析,主要有两方面原因:1)由于现有数据挖掘方法主要用于用户关系分析,社交关系的紧密程度并不等同于用户社交网站账号间的相似程度;2)社交网站账号间相似度是一个受多种因素影响的综合性指标,包括:个人属性、发贴内容、转发模式等,目前的数据挖掘方法缺乏对影响关联性多种因素的综合考虑,因此不适用于社交网站账号间关联性分析。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种社交网站账号相似度的综合数据挖掘方法,包括不同社交网站账号综合相似度计算方法。
不同社交网站账号综合相似度计算方法实施步骤如下:
步骤1:计算两个不同社交网站账号的个人属性因素的相似度。个人属性因素包括:用户名、性别、地区、最后发表时间、粉丝数、关注数、文本数、简介、联系方式等。按照个人属性因素的数据类型,将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、时间型和整型。对于不同的个人属性因素,需要根据其类型采用相应的相似度计算方法。
步骤2:计算两个不同社交网站账号交互行为的相似度。社交网站账号之间的交互行为包括:关注、转发、评论、“@”等。将社交网站账号之间的交互行为都视为一条有向边,则每种交互行为在社交网站账号之间构成一张有向图。每种交互行为(关注、转发、评论、“@”等)有2种影响社交网站账号相似度的方式:正向认同和反向认同、连通性和距离,需要分别计算每种交互行为的上述两项因素的相似度。
步骤3:计算两个不同社交网站账号的内容的相似度。若两个社交网站账号经常发出内容相同的文本、博客等,则两个社交网站账号的相似度就越高。
步骤4:通过对各因素相似度的加权平均,计算两个社交网站账号的综合相似度。
进一步地,步骤1中,按照个人属性因素的数据类型,将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、时间型和整型,对于各种个人属性因素,根据其类型采用相应的相似度计算方法;对于两个不同的用户社交网站账号a和b,表示a和b在因素fi上的相似度,相似度是一个大小在[0,1]间的数,其中i=1,2,…,N,N为影响社交网站账号相似度的因素数量,分别表示社交网站账号a和b在影响因素fi上的取值,各种数据类型个人属性因素的相似度计算方法如下:
(a)字符串型:
为字符串时,相似度计算方法为:
其中,函数edis(A,B)表示求字符串A和B的编辑距离,是指字符串A转换成字符串B所需的最少操作次数,函数strlen(A)表示求字符串A的长度;表示求得之间的最大值;
(b)文本型:
为文本时,相似度计算方法如下:
(b-1)提取文本中出现的词语,构成一个词语集合;
(b-2)分别统计文本中各个词语出现的词频,按顺序排列构成词频向量
(b-3)求向量的余弦值,计算得到相似度:
其中,符号| |为向量取模运算;
(c)布尔型、枚举型或者地址型:
为布尔型、枚举型或者地址型时,相似度计算方法为:
(d)时间型:
为时间型时,相似度计算方法为:
其中,thr是相似度门限,即当社交网站账号a和b因素fi相差超过时间thr时,即认为社交网站账号的因素fi没有关联,thr取值范围是0~+∞,,例如:取值为24小时,即时间差超过24小时则认为没有相似性;表示求得thr和之间的最小值;
(e)整型:
为整型时,相似度计算方法为:
表示求得和1中的最大值。
步骤2中,将社交网站账号之间的交互行为都视为一条有向边,每种交互行为在社交网站账号之间构成一张有向图,每种交互行为有两类影响社交网站账号相似度的方式:正向认同和反向认同、连通性和距离,每种交互行为对社交网站账号综合相似度的每类影响方式,均作为影响社交网站账号综合相似度的因素,两个不同社交网站账号交互行为的相似度的计算方法为:
(1)正向认同和反向认同:
正向认同和反向认同的相似度计算方法为:
其中,对于正向认同关系,F(a)表示从社交网站账号a出发的所有有向边指向的社交网站账号的集合,F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账号的集合;对于反向认同关系,F(a)表示到达社交网站账号a的所有有向边另一端的社交网站账号集合,F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合,num( )表示统计括号内集合的元素的数量;
(2)连通性和距离:
连通性和距离的相似度计算方法为:
其中,a和b相互可达是指:若将一种账号之间发生的交互行为作为一条有向边,则账号a能够通过一条以上有向边到达账号b;账号b也能够通过一条以上有向边到达账号a,可达账号之间的距离d是指账号a和b之间间隔的最小有向边数量。
步骤3中采用如下方法计算两个社交网站账号间的内容相似度:
对于社交网站账号a内容的集合Φa和社交网站账号b内容的集合Φb
其中,sa,j是文本型数据,表示文本的内容,1≤j≤Ma,Ma是社交网站账号a的内容数量,
其中,sb,k是文本型数据,表示文本的内容,1≤k≤Mb,Mb是社交网站账号b的内容数量,
两个不同社交网站账号的内容相似度的计算步骤为:
(3-1)采用计算文本型个人属性因素相似度的计算方法,两两计算集合Φa中每个元素sa,j与集合Φb中每个元素sb,k的相似度,构成一个集合记为{sj,k},
(3-2)令j=1;m=0,j为计数器,m是a和b两个账号相同的内容的数量,初始值为0;
(3-3)若max(sj,k|1≤k≤Mb)≥tr,则将m更新为m+1,其中,tr为用户配置门限,取值在(0,1)间,即两个文本型的内容相似度超过tr时,则判定文本是相同的;
(3-4)将j更新为j+1;
(3-5)若j≤Ma,返回(3-3),否则进入(3-6);
(3-6)计算社交网站账号a和b内容相似度,计算表达式为:
Ma和Mb分别是账号a和b拥有的内容数量,是定值,max(Ma,Mb)表示求得Ma和Mb之间的最大值。
步骤4中采用如下方法计算两个社交网站账号间的综合相似度:
其中,wi是各个影响因素的权重,必须满足
本发明提供的一种社交网站账号相似度的综合数据挖掘方法还包括各个影响因素的权重wi的计算方法:
一个训练样本是已知综合相似度的两个社交网站账号。通过输入的训练样本来“训练”系统,得出影响综合相似度各因素的权重,进而实现待测社交网站账号的综合相似度的自动计算。假设共输入P个训练样本,第l个训练样本综合相似度记为Yl,因素fi的相似度记为Xi,l,其中l=1,2,…,P,i=1,2…,N。
根据训练样本计算因素权重的步骤如下:
步骤4-1:输入P个训练样本;
步骤4-2:利用P个训练样本的综合相似度Yl构造矩阵
步骤4-3:计算所有P个训练样本各个因素的相似度Xi,l
步骤4-4:利用Xi,l构造因素相似度矩阵
步骤4-5:利用线性回归公式得到权重矩阵矩阵中的元素即权重wi的值。
该方法能够用于网络舆情监控中,解决识别同一用户的多个社交网站账号的问题。本发明综合考虑了影响社交网站账号综合相似度的三大类因素:个人属性、交互行为和内容,并利用训练样本确定各因素相似度在综合相似度计算中所占的权重。
有益效果:与现有技术相比,本发明的技术优势在于:为识别同一用户的多个社交网站账号提供量化、可靠、全面的参考,并且适用于大数据环境下的计算机自动处理。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为综合相似度计算过程。
图2与微博账号“南京正在发生”综合相似度最高10个账号。
具体实施方式
社交网站账号相似度受多种因素影响,在计算综合相似度时,必须综合考虑多种影响因素,并确定每种因素的权重。结合图1,本发明首先根据输入的训练样本确定影响综合相似度的每种因素的权重;然后利用得到的因素权重自动完成待测账号的综合相似度计算。本发明可以分为两部分,第一部分是不同社交网站账号综合相似度计算方法,第二部分基于训练样本的因素权重的计算方法。
不同社交网站账号综合相似度计算的实施步骤如下:
假设a和b分别为两个不同的用户社交网站账号,表示a和b在因素fi上的相似度,是一个大小在[0,1]间的数。其中i=1,2,…,N,N为影响社交网站账号相似度的因素数量。不同社交网站账号综合相似度计算方法计算步骤为:
步骤1:计算两个不同社交网站账号的个人属性因素的相似度。
个人属性因素包括:用户名、性别、地区、最后发表时间、粉丝数、关注数、文本数、简介、联系方式等。其中,联系方式可以包括多个,如QQ、MSN、邮箱、手机号等。按照个人属性因素的数据类型,将个人属性因素分为无空格字符串型、文本型、布尔型、枚举型、地址型、时间型和整型。对于不同的个人属性因素,根据其类型采用相应的相似度计算方法。假设分别表示社交网站账号a和b在影响因素fi上的取值。
(1)字符串型
不同社交网站账号的字符串型个人属性因素之间的编辑距离越小,则该个人属性因素相似度越大。数据类型为字符串型的个人属性因素如:用户名、昵称等。当为字符串时,相似度计算方法可以表示为:
其中,为字符串,函数edis(A,B)表示求字符串A和B的编辑距离,是指字符串A转换成字符串B所需的最少操作次数;函数strlen(A)表示求字符串A的长度。该式子反映编辑距离越大,影响因素的相似度越高。
(2)文本型
不同社交网站账号的有文本型个人属性因素之间的词向量余弦越小,则该个人属性因素相似度越大。数据类型为文本型的个人属性因素如:个人简介、个性签名等。当为文本时,相似度计算方法如下:
1)提取文本中出现的词语,构成一个词语集合;
2)分别统计文本中各个词语出现的词频,按顺序排列构成词向量
3)求向量的余弦值,得到相似度,即:
其中,符号| |为向量取模运算。
(3)布尔型、枚举型、地址型
不同社交网站账号的布尔型、枚举型和地址型的个人属性因素只有在完全相同时才能认为其具有关联。布尔型的个人属性因素如:性别;枚举型的个人属性因素如:国家、城市等;地址型的个人属性因素如:QQ、MSN、邮箱、手机号邮编、地址等联系方式。当为布尔型、枚举型和地址型时,相似度计算方法可以表示为:
(4)时间型
不同社交网站账号的时间型个人因素属性之间的差值越小,则相似度越高。数据类型为时间型的个人属性因素如:最后发帖时间。当为时间型时,相似度计算方法可以表示为:
其中,thr是相似度门限,即当社交网站账号a和b因素fi相差超过时间thr时,即认为社交网站账号的因素fi没有关联。thr是可配置参数,取值范围是0~+∞,一般可以取24小时。
(5)整型
不同社交网站账号的整型个人因素属性之间的差值越小,则相似度越高。数据类型为整型的个人属性因素如:粉丝数、关注数、发帖数等。当为整型时,相似度计算方法可以表示为:
步骤2:计算两个不同社交网站账号交互行为的相似度。
社交网站账号之间的交互行为包括:关注、转发、评论、“@”等。将每一次交互行为都视为一条有向边,则每种交互行为在社交网站账号之间构成一张有向图。例如:社交网站账号a关注了社交网站账号b,则社交网站账号a到社交网站账号b之间有一条指向社交网站账号b的“有向边”。
每种交互行为(关注、转发、评论、“@”等)有2种影响社交网站账号相似度的方式:正向认同和反向认同、连通性和距离,下面分别阐述:
(1)正向认同和反向认同
一个社交网站账号的有向边指向另一个社交网站账号,则这两个社交网站账号之间是正向认同关系。若两个社交网站账号与同一个社交网站账号发生正向认同关系,则这两个社交网站账号具有一定的相似性。例如:社交网站账号a和社交网站账号b同时关注了社交网站账号c,则社交网站账号a和b之间具有一定的相似性。
一个社交网站账号被另一个社交网站账号的有向边所指,则这两个社交网站账号之间是反向认同关系。若两个社交网站账号与同一个社交网站账号发生反向认同关系,则这两个社交网站账号具有一定的相似性。例如:社交网站账号c同时关注了社交网站账号a和社交网站账号b,则社交网站账号a和b之间具有一定的相似性。
正向认同和反向认同的相似度可以表示为:
其中,对于正向认同关系,F(a)表示从社交网站账号a出发的所有有向边指向的社交网站账号的集合,F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账号的集合;对于反向认同关系,F(a)表示到达社交网站账号a的所有有向边另一端的社交网站账号集合,F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合。num( )表示统计括号内集合的元素的数量。
(2)连通性和距离
每种交互行为在社交网站账号之间构成一张有向图,若两个社交网站账号在有向图中通过若干条有向边是互相可达的,则认为两个社交网站账号是强相关的。例如:社交网站账号a关注了社交网站账号b,社交网站账号b关注了社交网站账号c,社交网站账号c关注了社交网站账号a,则存在两条路径a→b→c和c→a使得社交网站账号a和社交网站账号c是相互可达的。
相互可达的社交网站账号之间的相似度受社交网站账号之间的距离的影响。社交网站账号之间的距离是两个社交网站账号之间的最短路径上的有向边数量,距离越长,相似度越低。
连通性和距离的相似度可以表示为:
其中,d是相互可达社交网站账号之间的距离,指账号a和b之间间隔的最小有向边数量。
步骤3:计算两个不同社交网站账号的内容的相似度。
若两个社交网站账号经常发出内容相同的文本、博客等,则两个社交网站账号的相似度就越高。
假设Φa和Φb分别是社交网站账号a和社交网站账号b内容的集合
其中,sa,j是文本型数据,表示文本的内容,如:社交网站账号a的1篇博客或1篇微博等;Ma是社交网站账号a的内容数量,1≤j≤Ma
类似的,
其中,sb,k是文本型数据,表示文本的内容,如:社交网站账号b的1篇博客或1篇微博等;Mb是社交网站账号b的内容数量,1≤k≤Mb
两个不同社交网站账号的内容相似度的计算步骤为:
步骤3-1,两两计算Φa中每个元素sa,j与Φb中每个元素sb,k的相似度,构成一个集合记为{sj,k},计算方法与步骤1中文本型个人属性因素相似度的计算方法相同;
步骤3-2,令j=1;m=0;
步骤3-3,若max(sj,k|1≤k≤Mb)≥tr,则m=m+1;其中,tr为用户配置门限,取值在(0,1)间,即两个文本型的内容相似度超过tr时,则认为文本是相同的;
步骤3-4,将j更新为j+1;
步骤3-5,若j≤Ma,返回步骤3-3,否则进入步骤3-6;
步骤3-6,计算社交网站账号a和b内容相似度,计算表达式为:
步骤4:计算两个社交网站账号的综合相似度:
其中,wi是各个影响因素的权重,必须满足wi的取值通过基于训练样本的因素权重的计算方法确定。
基于训练样本的因素权重的计算方法的实施步骤如下:
一个训练样本是已知综合相似度的两个社交网站账号。通过输入的训练样本来“训练”系统,得出影响综合相似度各因素的权重,进而实现待测社交网站账号的综合相似度的自动计算。假设共输入P个训练样本,第l个训练样本综合相似度记为Yl,因素fi的相似度记为Xi,l,其中l=1,2,…,P,i=1,2…,N。
根据训练样本计算因素权重的步骤如下:
步骤4-1:输入P个训练样本;
步骤4-2:利用P个训练样本的综合相似度Yl构造矩阵
步骤4-3:计算所有P个训练样本各个因素的相似度Xi,l
步骤4-4:利用Xi,l构造因素相似度矩阵
步骤4-5:利用线性回归公式得到权重矩阵矩阵中的元素即权重wi的值。
实施例一:
根据本发明提供的方法构建了新浪微博账号相似度计算系统,系统选取新浪微博账号的27个影响因素,其中个人属性因素14个,交互行为因素12个,内容因素1个,通过对上述影响因素相似度的计算,确定微博账号的综合相似度。采用上述系统对随机选取的超过40万个新浪微博账号进行了综合相似度自动检测。
首先,向系统输入500个新浪微博账号训练样本,每个样本包含两个账号的全部信息及该样本两个账号的综合相似度Yl,其中l=1,2,…,500。采用如下方法确定影响综合相似度各因素的权重值:
步骤1:输入500个训练样本;
步骤2:利用500个训练样本的综合相似度Yl构造矩阵其中;
步骤3:计算所有500个训练样本27个影响因素的相似度Xi,l,其中i=1,2,…,27;
步骤4:利用Xi,l构造因素相似度矩阵
步骤5:利用线性回归公式得到权重矩阵矩阵中的元素即权重wi的值。
经过计算得到的权重w1到w27的值为:
w1=0.0197;w2=0.0160;w3=0.0041;w4=0.0400;
w5=0.0079;w6=0.0101;w7=0.0136;w8=0.0118;
w9=0.0140;w10=0.0259;w11=0.0181;w12=0.0119;
w13=0.0197;w14=0.0200;w15=0.0427;w16=0.0270;
w17=0.0470;w18=0.0514;w19=0.0516;w20=0.0818;
w21=0.0609;w22=0.0479;w23=0.0666;w24=0.0614;
w25=0.0542;w26=0.0838;w27=0.0909;
然后,在完成对系统的训练后,系统对待测的约40万个新浪微博账号两两检测综合相似度,按照综合相似度从高到低,列出与每个新浪微博账号最相似的10个账号。例如:图2中显示了系统计算得出的与微博账号“南京正在发生”综合相似度最高10个账号。检测两个账号综合相似度的步骤为:
步骤1:两两计算不同新浪微博账号的个人属性因素的相似度。
纳入统计的新浪微博账号个人属性因素及其类型如表1,分别计算这些个人属性因素的相似度。
表1
步骤2:两两计算不同微博账号交互行为的相似度。
(1)正向认同和反向认同
考虑新浪关注、转发、评论、“@”四种交互行为所构成的正向认同和反向认同关系,分别计算其相似度。计算相似度时,集合F(a)和F(b)的定义如表2:
表2:
(2)连通性和距离
如表3所示,考虑新浪微博关注、转发、评论、“@”四种交互行为构成的有向图的连通性和距离,即关注相互可达、转发相互可达、评论相互可达和“@”相互可达,分别计算其相似度。
表3:
序号i 交互行为 说明
23 关注 在关注行为构成的有向图中相互可达
24 转发 在转发行为构成的有向图中相互可达
25 评论 在评论行为构成的有向图中相互可达
26 @ 在“@”行为构成的有向图中相互可达
步骤3:两两计算不同新浪微博账号的内容的相似度
每个新浪微博账号发出的每一条微博,作为该账号的一个内容,微博数量即该账号的内容数量。因此,在新浪微博的统计中,sa,j表示账号a的第j篇微博,j满足0≤j≤Ma,Ma为账号a的微博总数。
序号i 说明
27 内容的相似度,在计算中tr取值为0.8,即内容80%相似时,两条微博判为相同。
步骤4:两两计算不同新浪微博账号的综合相似度。
计算时权重wi即采用通过训练样本确定的权重值。
本发明提供了一种社交网站账号相似度的综合数据挖掘方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种社交网站账号相似度的综合数据挖掘方法,其特征在于,包括社交网站账号综合相似度的计算的方法,步骤如下:
步骤1,计算两个不同社交网站账号的个人属性因素的相似度;
步骤2,计算两个不同社交网站账号交互行为的相似度;
步骤3,计算两个不同社交网站账号的内容的相似度;
步骤4,通过对步骤1~3中计算得到的相似度的加权平均,计算两个社交网站账号的综合相似度;
步骤1中,按照个人属性因素的数据类型,将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、时间型和整型,对于各种个人属性因素,根据其类型采用相应的相似度计算方法;对于两个不同的用户社交网站账号a和b,表示a和b在因素fi上的相似度,相似度是一个大小在[0,1]间的数,其中i=1,2,…,N,N为影响社交网站账号相似度的因素数量,分别表示社交网站账号a和b在影响因素fi上的取值,各种数据类型个人属性因素的相似度计算方法如下:
(a)字符串型:
为字符串时,相似度计算方法为:
<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>s</mi> <mi>t</mi> <mi>r</mi> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mo>(</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>)</mo> <mo>,</mo> <mi>s</mi> <mi>t</mi> <mi>r</mi> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mo>(</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,函数edis(A,B)表示求字符串A和B的编辑距离,是指字符串A转换成字符串B所需的最少操作次数,函数strlen(A)表示求字符串A的长度;表示求得之间的最大值;
(b)文本型:
为文本时,相似度计算方法如下:
(b-1)提取文本中出现的词语,构成一个词语集合;
(b-2)分别统计文本中各个词语出现的词频,按顺序排列构成词频向量
(b-3)求向量的余弦值,计算得到相似度:
<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>&amp;CenterDot;</mo> <mover> <msub> <mi>L</mi> <mi>b</mi> </msub> <mo>&amp;RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> <mo>&amp;CenterDot;</mo> <mo>|</mo> <mover> <msub> <mi>L</mi> <mi>b</mi> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,符号||为向量取模运算;
(c)布尔型、枚举型或者地址型:
为布尔型、枚举型或者地址型时,相似度计算方法为:
<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>&amp;NotEqual;</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
(d)时间型:
为时间型时,相似度计算方法为:
<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>t</mi> <mi>h</mi> <mi>r</mi> <mo>,</mo> <mo>|</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>a</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>s</mi> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mo>|</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mi>h</mi> <mi>r</mi> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,thr是相似度门限,即当社交网站账号a和b因素fi相差超过时间thr时,即认为社交网站账号的因素fi没有关联,thr取值范围是0~+∞,表示求得thr和之间的最小值;
(e)整型:
为整型时,相似度计算方法为:
表示求得和1中的最大值;
步骤2中,将社交网站账号之间的交互行为都视为一条有向边,每种交互行为在社交网站账号之间构成一张有向图,每种交互行为有两类影响社交网站账号相似度的方式:正向认同和反向认同、连通性和距离,每种交互行为对社交网站账号综合相似度的每类影响方式,均作为影响社交网站账号综合相似度的因素,两个不同社交网站账号交互行为的相似度的计算方法为:
(1)正向认同和反向认同:
正向认同和反向认同的相似度计算方法为:
<mrow> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>(</mo> <mi>a</mi> <mo>)</mo> <mo>&amp;cap;</mo> <mi>F</mi> <mo>(</mo> <mi>b</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>(</mo> <mi>a</mi> <mo>)</mo> <mo>&amp;cup;</mo> <mi>F</mi> <mo>(</mo> <mi>b</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,对于正向认同关系,F(a)表示从社交网站账号a出发的所有有向边指向的社交网站账号的集合,F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账号的集合;对于反向认同关系,F(a)表示到达社交网站账号a的所有有向边另一端的社交网站账号集合,F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合,num()表示统计括号内集合的元素的数量;
(2)连通性和距离:
连通性和距离的相似度计算方法为:
其中,a和b相互可达是指:若将一种账号之间发生的交互行为作为一条有向边,则账号a能够通过一条以上有向边到达账号b;账号b也能够通过一条以上有向边到达账号a,可达账号之间的距离d是指账号a和b之间间隔的最小有向边数量;
步骤3中采用如下方法计算两个社交网站账号间的内容相似度:
对于社交网站账号a内容的集合Φa和社交网站账号b内容的集合Φb
<mrow> <msub> <mi>&amp;Phi;</mi> <mi>a</mi> </msub> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>a</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>a</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>a</mi> <mo>,</mo> <mn>3</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>a</mi> <mo>,</mo> <msub> <mi>M</mi> <mi>a</mi> </msub> </mrow> </msub> <mo>}</mo> <mo>,</mo> </mrow>
其中,sa,j是文本型数据,表示文本的内容,1≤j≤Ma,Ma是社交网站账号a的内容数量,
<mrow> <msub> <mi>&amp;Phi;</mi> <mi>b</mi> </msub> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mn>3</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <msub> <mi>M</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>}</mo> <mo>,</mo> </mrow>
其中,sb,k是文本型数据,表示文本的内容,1≤k≤Mb,Mb是社交网站账号b的内容数量,
两个不同社交网站账号的内容相似度的计算步骤为:
(3-1)采用计算文本型个人属性因素相似度的计算方法,两两计算集合Φa中每个元素sa,j与集合Φb中每个元素sb,k的相似度,构成一个集合记为{sj,k},
(3-2)令j=1;m=0,j为计数器,m是a和b两个账号相同的内容的数量,初始值为0;
(3-3)若max(sj,k|1≤k≤Mb)≥tr,则将m更新为m+1,其中,tr为用户配置门限,取值在(0,1)间,即两个文本型的内容相似度超过tr时,则判定文本是相同的;
(3-4)将j更新为j+1;
(3-5)若j≤Ma,返回(3-3),否则进入(3-6);
(3-6)计算社交网站账号a和b内容相似度,计算表达式为:
Ma和Mb分别是账号a和b拥有的内容数量,是定值,max(Ma,Mb)表示求得Ma和Mb之间的最大值;
步骤4中采用如下方法计算两个社交网站账号间的综合相似度:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>sim</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,wi是各个影响因素的权重,必须满足
所述各个影响因素的权重wi的计算的方法如下:
输入P个训练样本,第l个训练样本综合相似度记为Yl,因素fi的相似度记为Xi,l,其中l=1,2,…,P,i=1,2…,N,根据训练样本计算因素权重的步骤如下:
步骤4-1:输入P个训练样本;
步骤4-2:利用P个训练样本的综合相似度Yl构造矩阵
步骤4-3:计算所有P个训练样本各个因素的相似度Xi,l
步骤4-4:利用Xi,l构造因素相似度矩阵
步骤4-5:利用线性回归公式得到权重矩阵 矩阵中的各个元素即对应各个影响因素的权重wi的值。
CN201510268991.6A 2015-05-22 2015-05-22 一种社交网站账号相似度的综合数据挖掘方法 Active CN104899267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510268991.6A CN104899267B (zh) 2015-05-22 2015-05-22 一种社交网站账号相似度的综合数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510268991.6A CN104899267B (zh) 2015-05-22 2015-05-22 一种社交网站账号相似度的综合数据挖掘方法

Publications (2)

Publication Number Publication Date
CN104899267A CN104899267A (zh) 2015-09-09
CN104899267B true CN104899267B (zh) 2017-12-19

Family

ID=54031930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510268991.6A Active CN104899267B (zh) 2015-05-22 2015-05-22 一种社交网站账号相似度的综合数据挖掘方法

Country Status (1)

Country Link
CN (1) CN104899267B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105871585A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 终端关联方法及装置
CN106126586A (zh) * 2016-06-21 2016-11-16 安徽师范大学 一种基于综合评价信任的社交网络推荐模型构建方法
CN106126654B (zh) * 2016-06-27 2019-10-18 中国科学院信息工程研究所 一种基于用户名相似度的跨网站用户关联方法
CN106815322B (zh) * 2016-12-27 2020-05-22 东软集团股份有限公司 一种数据处理的方法和装置
CN107835154A (zh) * 2017-10-09 2018-03-23 武汉斗鱼网络科技有限公司 一种批量注册账号识别方法及系统
CN108170725A (zh) * 2017-12-11 2018-06-15 仲恺农业工程学院 集成多特征信息的社交网络用户关系强度计算方法和装置
CN110110218B (zh) * 2018-02-01 2023-10-31 西安华企众信科技发展有限公司 一种身份关联方法及终端
CN108491393B (zh) * 2018-03-29 2022-05-20 国信优易数据股份有限公司 一种情感词情感强度确定方和装置
CN110324278A (zh) * 2018-03-29 2019-10-11 北大方正集团有限公司 账号主体一致性检测方法、装置及设备
CN108876644B (zh) * 2018-05-24 2022-02-22 微梦创科网络科技(中国)有限公司 一种基于社交网络的相似账号计算方法及装置
CN108846422B (zh) * 2018-05-28 2021-08-31 中国人民公安大学 跨社交网络的账号关联方法及系统
CN109753602B (zh) * 2018-12-04 2020-12-25 中国科学院计算技术研究所 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN109872242B (zh) * 2019-01-30 2020-10-13 北京字节跳动网络技术有限公司 信息推送方法和装置
CN111669451B (zh) * 2019-03-07 2022-10-21 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN110197197B (zh) * 2019-04-15 2022-08-30 贵州电网有限责任公司 一种基于文本相似度改进的电网档案相似度计算方法
CN110598126B (zh) * 2019-09-05 2023-04-18 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN111147511A (zh) * 2019-12-31 2020-05-12 杭州涂鸦信息技术有限公司 一种用户的身份串并方法及系统
CN111259169A (zh) * 2020-02-05 2020-06-09 四川无声信息技术有限公司 新闻评论相似账号确定方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101983383A (zh) * 2008-02-01 2011-03-02 罗纳德·H·温斯顿 相似性匹配系统和方法
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及系统
CN104239338A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 信息推荐方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739314B2 (en) * 2005-08-15 2010-06-15 Google Inc. Scalable user clustering based on set similarity
US20090198723A1 (en) * 2008-02-05 2009-08-06 Savov Andrey I System and method for web-based data mining of document processing information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101983383A (zh) * 2008-02-01 2011-03-02 罗纳德·H·温斯顿 相似性匹配系统和方法
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及系统
CN104239338A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 信息推荐方法及装置

Also Published As

Publication number Publication date
CN104899267A (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN104899267B (zh) 一种社交网站账号相似度的综合数据挖掘方法
Chen et al. A performance evaluation of machine learning-based streaming spam tweets detection
CN103927398B (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN103778186B (zh) 一种“网络马甲”的检测方法
CN103150374B (zh) 一种识别微博异常用户的方法和系统
US11361045B2 (en) Method, apparatus, and computer-readable storage medium for grouping social network nodes
CN105005594B (zh) 异常微博用户识别方法
Lee et al. When twitter meets foursquare: tweet location prediction using foursquare
CN105045857A (zh) 一种社交网络谣言识别方法及系统
CN106570144A (zh) 推荐信息的方法和装置
CN109829089A (zh) 基于关联图谱的社交网络用户异常检测方法和系统
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN105447505B (zh) 一种多层次重要邮件检测方法
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN103793503A (zh) 一种基于web文本的观点挖掘与分类的方法
CN103458042A (zh) 一种微博广告用户检测方法
Liu et al. Do rumors diffuse differently from non-rumors? a systematically empirical analysis in sina weibo for rumor identification
Chen et al. Influencerank: An efficient social influence measurement for millions of users in microblog
CN107291886A (zh) 一种基于增量聚类算法的微博话题检测方法及系统
CN107169873A (zh) 一种多特征融合的微博用户权威度评价方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN107590558A (zh) 一种基于多层集成学习的微博转发预测方法
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
Grover et al. Prediction model for influenza epidemic based on Twitter data
CN109978020A (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant