CN108897789A

CN108897789A - 一种跨平台的社交网络用户身份识别方法

Info

Publication number: CN108897789A
Application number: CN201810594317.0A
Authority: CN
Inventors: 马强; 张琦; 郑龙水; 何燕玲; 邢玲
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-27
Anticipated expiration: 2038-06-11
Also published as: CN108897789B

Abstract

本发明公开了一种跨平台的社交网络用户身份识别方法，该方法将用户档案数据和用户行为数据结合；在用户行为数据的分析上，提出了一种基于频繁模式的文本相似度计算方法，实现了用户的文本的个性化相似度计算；在众多的维度数据权重分配上，提出了基于信息熵的后验概率权重分配方法，解决了多维数据权重失衡的问题；最后本文采用了基于稳定婚姻匹配的方法实现了多对多的用户身份识别，本发明提高了用户识别准确度。

Description

一种跨平台的社交网络用户身份识别方法

技术领域

本发明属于数据挖掘领域，更具体讲，是一种跨平台的社交网络用户身份识别方法。

背景技术

随着社交网络的飞速发展，一个实体用户一般拥有多个社交网络平台上的网络账户，把这些网络账户所对应的实体用户识别出来具有重要的意义，比如在商业应用、网络安全、推荐系统等方面，所以近年来很多学者在此方面做了很多的工作。

在现有的跨平台的社交网络身份识别技术中，采用基于排名的交叉匹配方法(RCM)实现了跨平台的社交网络用户身份识别，但是RCM方法缺少对用户行为分析和赋予用户属性合理的权值，从而导致了最终的识别结果准确率不高，因为用户行为数据往往更能反映出用户的真实个性，同时用户的不同维度所扮演的权重不一样，但是在现有的跨平台的社交网络身份识别技术中，很少会考虑用户属性权重的问题，或者是采用后验经验法对用户的不同维度赋予权重，这样也导致了最终的识别结果准确率不高。

发明内容

本发明的目的在于克服现有技术的不足，提供种跨平台的社交网络用户身份识别方法，该方法将用户档案数据和用户行为数据相结合，在用户行为数据的分析上，提出了一种基于频繁模式的文本相似度计算方法，实现了用户的文本的个性化相似度计算；在众多的维度数据权重分配上，提出了基于信息熵的后验概率权重分配方法，解决了多维数据权重失衡的问题；最后采用了基于稳定婚姻匹配的方法实现了多对多的用户身份识别，以提高用户识别准确率。

为实现上述发明目的，本发明一种跨平台的社交网络用户身份识别方法，包括以下步骤：

(1)从社交网站账户数据中抽取出使用所述社交网站账户的各用户档案数据和用户行为数据；

(2)将用户档案数据和用户行为数据分别按照不同的特征属性划分成不同的维度，在不同的维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度，并基于不同的维度下的相似度构建用户档案数据相似度向量和用户行为数据相似度向量，将用户档案数据相似度向量和用户行为数据相似度向量一起组成用户相似度向量；

(3)基于信息熵的后验概率权值分配方法为用户的不同维度赋予相应的权重；

(4)基于步骤(2)的用户相似度向量和步骤(3)为用户的不同维度赋予的权重构造用户评分公式，以稳定婚姻匹配算法进行匹配评分，将最终评分与评分阈值进行比较，从而得出最终识别结果。

本发明的有益效果是：本发明将用户档案数据和用户行为数据结合，分别对用户行为数据和用户档案数据进行分析，在不同维度下分别采用相应的相似度计算方法计算相似度，根据相似度构建用户相似度向量，同时，采用基于信息熵的后验概率权值分配方法为用户的不同维度赋予相应的权重；将用户相似度向量和权重进行结合构造用户评分公式，以稳定婚姻匹配算法进行匹配评分，将最终评分与评分阈值进行比较，从而得出最终识别结果，因此本发明提高了识别准确度。

进一步，所述步骤(2)具体包括：

将用户档案数据按照不同特征属性划分成不同维度，在不同的维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度，并将不同维度下的相似度与其相应的阈值进行比较，如果大于阈值则返回“1”，小于阈值则返回“0”，从而构成用户档案数据相似度向量；

将用户行为数据分别按照用户博文数据，博文特殊符号数据，博文状态时间数据划分成不同维度，在不同维度下分别构建频繁项集、特殊符号向量和时间戳向量，并根据构建的频繁项集、特殊符号向量和时间戳向量分别采用相应的相似度计算方法计算两个平台下的博文数据相似度、特殊符号相似度和时间戳相似度；将博文数据相似度、特殊符号相似度和时间戳相似度分别与其相应的阈值进行比较，如果大于阈值则返回“1”，小于阈值则返回“0”，从而构成用户档案数据相似度向量；

所述用户档案数据相似度向量和用户行为数据相似度向量构成用户相似度向量。

采用上述进一步方案的有益效果是：因为用户的行为更能反映用户的真实个性，所以本发明对用户行为数据进行分析，并将其分析的结果映射到用户相似度向量中去，从而实现了更加准确跨平台的用户身份识别。

进一步，所述用户档案数据在不同维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度包括：

Dice系数计算，其计算公式为：

其中，a、b分别表示两个字符串集合；

余弦相似度计算，即把两个字符串量化成词向量，其计算公式为：

其中，x_i和y_i表示词向量，i表示词向量的第i个维度，n表示词向量维度；

精确匹配：指两个特征属性是一模一样；

所述用户行为数据在不同维度下分别采用相应的相似度计算方法计算两个平台下的博文数据相似度、特殊符号相似度和时间戳相似度包括：

基于频繁模式的文本相似度计算方法计算用户A和B的博文数据相似度，其计算公式为：

其中，表示A用户的频繁项E_i的支持度计数，表示B用户的频繁项E_i的支持度计数，表示E_i的项集数；

特殊符号相似度计算，其计算公式为：

其中，x_i和y_i分别表示两个用户的特殊符号特征向量，n代表特殊符号特征向量的维度；

时间戳相似度计算，其计算公式为：

其中，u_ai和u_bi代表平均时间段动态数，n表示时间戳的维度。

采用上述进一步方案的有益效果是：本发明提出的基于频繁模式挖局的个性化用户博文数据相似度计算方法对用户的博文进行相似度计算。相较与常见的博文相似度计算方法，此方法更能发现用户潜在的用词特征。

进一步，所述步骤(3)的基于信息熵的后验概率权值分配方法，其计算公式为：

其中，p(y_s|s)是特征属性的后验概率，即是同一个用户特征属性y_s一致的概率；p(x)为在该特征属性下的可能取值概率；x表示某一特征属性；X表示所有特征属性。

采用上述进一步方案的有益效果是：由于用户的不同维度所扮演的重要程度不一样，所以有必要为用户的不同维度赋予不同的权重，相较于传统的主观经验权值分配方法和后验经验权值分配方法，本发明的方法创新的将属性后验概率和信息熵结合在了一起，构成了基于信息熵的后验概率权值分配方法，此方法采用了信息熵的成熟理论不但对用户的不同维度进行了合理的度量，并且也稀释了主观经验的负影响。总的来讲，此方法使得权值的分配即符合主观认知也不失科学依据。

进一步，所述步骤(4)的评分公式：

其中，Score表示匹配的最终评分，W_i表示用户第i个特征属性的权重，代表用户A和B在第i个维度上的相似度，n表示用户相似度向量维度；

所述以稳定婚姻匹配算法进行匹配评分，将最终评分与评分阈值进行比较，从而得出最终识别结果，其步骤如下：

a.将网络平台A上的每个用户和网络平台B上的所有用户通过评分公式进行匹配评分；

b.按照最终评分高低顺序将网络平台A上的每个用户与网络平台B上排名首位的用户进行配对，如果网络平台B上的该用户未与网络平台A上其他人配对过，则将该用户和网络平台A上的当前用户配对；如果该用户已经和网络平台A上其他用户配对过，则该用户将和自己配对过的用户进行比较，选择和自己评分最高的用户作为匹配对；

c.如果所有的用户都已经配对则进入步骤d，如果还有未配对的用户，则返回步骤b；

d.设定评分阈值，将匹配评分高于评分阈值的作为同一个实体用户，而评分低于评分阈值的不作为同一个实体用户，从而产生最终的识别结果。

采用上述进一步方案的有益效果是：稳定婚姻匹配被视为用于解决和找到一个稳定匹配的问题，在这里采用稳定婚姻匹配使得匹配流程更加合理高效稳定。

附图说明

图1是本发明的跨平台的社交网络用户身份识别方法系统流程图；

图2是本发明的用户行为数据对最终匹配结果影响的分析图；

图3是本发明的用户特征属性权值分配对最终匹配结果影响的分析图；

图4是本发明的VW-SMM和RCM算法对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

如图1所示，本发明为了解决现有身份识别技术在跨平台的社交网络中存在多对多的用户身份识别准确度低的问题，本实施例提供了一种跨平台的社交网络用户身份识别方法，该方法将用户档案数据和用户行为数据相结合，其中在用户行为数据的分析上，提出了一种基于频繁模式的文本相似度计算方法，实现了用户的文本的个性化相似度计算。在众多的维度数据权重分配上，提出了基于信息熵的后验概率权重分配方法，解决了多维数据权重失衡的问题。最后本发明采用了基于稳定婚姻匹配的方法实现了多对多的用户身份识别，具体包括以下步骤：

(2)构建用户相似度向量

用户相似度向量包括用户档案数据相似度向量和用户行为数据相似度向量，其具体过程如下：

(21)用户档案数据相似度向量

将用户档案数据按照不同特征属性划分成不同维度，在不同的维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度，并将不同的维度下的相似度与其相应的阈值进行比较，得到用户档案数据在不同维度下的比较结果，根据比较结果构建出用户档案数据相似度向量。

本实施例中将用户档案数据按照不同特征属性划分成17个维度，不同的维度下分别采用相应的相似度计算方法，将计算的相似度和其阈值相比较，如果大于阈值则返回“1”，小于阈值则返回“0”，从而构成用户档案数据相似度向量。用户档案数据和其相似度计算方法如表1所示。

表1

从上表可看出，相似度计算方法分为三种：Dice系数、余弦相似度和精确匹配，下面分别详细介绍其计算过程：

Dice系数：如下式(1)所示，其中a和b分别表示两个字符串集合，分子表示两个集合的相交操作后的长度，分母表示两个集合长度之和。例如：“run music basketball”和字符串“music reading riding”，交集信息为{“music”}，所以他们的Dice系数为2(1/(3+3))≈0.33。

余弦相似度：余弦相似度计算是把两个字符串量化成词向量，其中x_i和y_i表示词向量，i表示词向量的第i个维度，n表示词向量维度。套用如下公式(2)所示，计算两个字符串的相似度。

精确匹配：精确匹配是指两个属性必须是一模一样。

(22)用户行为数据相似度向量

将用户行为数据分别按照用户博文数据，博文特殊符号数据，博文状态时间数据划分成不同的维度，在不同的维度下分别构建频繁项集、特殊符号向量和时间戳向量，并根据构建的频繁项集、特殊符号向量和时间戳向量分别采用相应的相似度计算方法计算两个平台的博文数据相似度、特殊符号相似度和时间戳相似度；将博文数据相似度、特殊符号相似度和时间戳相似度分别与其相应的阈值进行比较返回“0”或者“1”，从而构成了用户行为数据相似度向量；

①博文数据相似度向量

本发明受频繁模式挖掘思想的启发，借鉴了部分频繁模式挖掘的思想提出了基于频繁模式挖掘的个性户用户博文数据相似度计算。具体到每一个用户，对用户的每条博文进行分词，在英文中每条博文分词之后就是一个个的单词。用户的每条博文经过分词之后就形成了一个事务，那么一个用户的所有博文就形成了一个事务集D。如下表2所示，I1，I2，I3等表示一个个的单词。

表2

扫描事务集D统计每个单词出现的次数，每个单词出现的次数也叫支持度，在本文中对于1项集设置最小支持度为2，所以将支持度小于2的频繁项过滤掉得到1项集L1。如下表3所示。

表3

连接1项集L1得到2项集L2，设置2项集的支持度为1。扫描一遍事务集D将不满足支持度的频繁项过滤掉得到L2，如下表4所示。

表4

类似的产生3项集L3，4项集L4，n项集Ln，直到产生的所有频繁项集都不满足最小支持度为止。

经过以上过程得到了很多个频繁项以及频繁项的支持度计数。接下来采用如下公式(3)所示，计算用户A和B的博文数据相似度。

公式中CA_Ei表示A用户的频繁项E_i的支持度计数，CB_Ei表示B用户的频繁项E_i的支持度计数，C_Ei表示E_i的项集数，加上的“1”是避免高频繁项，而支持度过低的情况下对相似度贡献过小。最后将计算得到的A和B的相似度和阈值相比较，如果大于阈值，则返回“1”，小于阈值则返回“0”。

②特殊符号相似度向量

特殊符号相似度计算是根据用户博文书写时候所用特殊符号的特征是否相似来计算用户在此维度的相似度。如下表5所示，列举了两个用户Ben和Emily的博文特殊符号用词特征。为了计算用户特殊符号之间的相似度，将每个用户的特殊符号使用情况量化成特殊符号向量，向量的每个维度P_i＝count_i/n。count为每个特殊符号的计数，n为博文总条数。从而可以得到用户的特殊符号向量。

表5

本发明采用余弦相似度来衡量用户特殊符号的相似度，余弦相似函数定义如下式(4)所示。其中x_i和y_i分别表示两个用户的特殊符号特征向量。i表示词向量的第i个维度，n代表特殊符号特征向量的维度，将最后的计算结果和阈值相比较，如果大于阈值返回“1”，小于阈值则返回“0”。

③时间戳相似度向量

时间戳相似度计算是根据用户在不同时间段所产生的动态数来衡量用户的行为特征。从而计算两个用户的相似程度。如下表6所示。

表6

表中展示了Emily和Ben两个用户的在不同的时间段所产生的动态数，以及平均动态数。那么两个人在此维度的相似度计算如下式(5)所示，其中u_ai和u_bi代表平均时间段动态数。i代表第i个时间段，n表示时间戳的维度，在本实施例中n＝24，同样将最后的计算结果Sim和阈值相比较，如果小于阈值则返回“1”大于阈值则返回“0”。

(23)经过①②③得到了用户行为数据3个维度的相似度，那么和用户档案数据的17个维度的相似度构成了一个20维度的用户相似度向量。

经过步骤(2)对用户的每个维度都进行了相似度计算，但是用户的每个维度所占有的权重又是不一样的，所以有必要为用户不同的维度赋予相应的权重。图3展示了为不同的维度赋予相应的权重的必要性。本发明受信息熵概念的启发，提出了基于信息熵的后验概率权值分配方法，其计算如式(6)所示。

p(y_s|s)是属性的后验概率，即是同一个用户属性y_s一致的概率。p(x)为在该属性下的可能取值概率，x表示某特征属性，X表示所有特征属性。后验概率可以通过统计算得出，比如可以经过统计得到，同一实体用户在社交网络平台A和社交网络平台B上填写性别一致的概率是0.92，那么性别这个维度的后验概率就是0.92。p(x)也可以通过统计得到，比如，可以通过统计得到男性出现的概率是0.5，女性出现的概率也是0.5。从而可以计算出性别这个维度的权重就是-0.92*(0.5*log(0.5)+0.5*log(0.5))＝0.92。如下表7所示，是经过计算得到的所有用户维度的权重。

表7

在步骤(2)中介绍了用户各个维度的相似度计算方法，在步骤(3)中对用户的各个维度经行了权值分配，这些工作为接下来的用户匹配打好了基础，本发明采用稳定婚姻匹配对用户进行匹配。匹配度的高低采用评分公式来衡量，评分公式如(7)所示

Score表示匹配的最终评分，W_i代表用户第i个属性的权重，代表用户A和B两个用户第i个属性的相似度。Score越高说明越可能是同一个用户，本实施例中n可以取20。

构建了评分公式，接下来所述以稳定婚姻匹配算法进行匹配评分，将匹配评分与预设评分阈值进行比较，从而得出最终识别结果，其步骤如下：

为了验证本发明所提出相关算法的有效性，选取了Facebook和Twitter两个国外的社交网络中所收集的用户档案数据和用户行为数据进行跨平台的社交网络用户身份识别。在文献YAN M，SANG J，XU C.Unified youtube video recommendation via cross-network collaboration[C]ICMR'15:Proceedings ofthe 5th ACM on InternationalConference on Multimedia Retrieval.New York:ACM，2015:19－26中提供了一份包涵了5个国外主流的社交网络的公开数据集。

本发明采用准确率(accuracy)、精确率(precision)、召回率(recall)和AUC(AreaUnder Curve)作为评价标准。

下面定义评价标准中用到的变量：

TP：表示真正例(标记为正，实际也为正的元组)；

TN：表示真负例(标记为负，实际也为负的元组)；

FP：表示假正例(标记为正，实际上为负的元组)；

FN：表示假负例(标记为负，实际为正的元组)；

P：表示正例，N：表示负例。

准确率：正确分类的元组所占的比例，见式(8)：

精确率：标记为正类的元组实际为正类所占的百分比,见式(9)：

召回率：正元组标记为正的百分比，见式(10)：

AUC：AUC是ROC曲线下的面积，其面积越大，分类的效果越好，由于本文的结果分为两类，即：是一个实体用户和不是一个实体用户，所以也可以用AUC来衡量最终的结果。

(1)用户行为数据分析对识别结果的影响

为了说明本文在用户行为数据分析方面所做的工作的有效性，图2展示了采用控制变量法从准确率、精确率和召回率和AUC四个衡量指标对用户行为数据维度做处理(BA)和不对用户行为数据做处理(non-BA)的结果，不对用户行为数据做处理即只采用户档案数据做跨平台的社交网络用户身份识别。

从图2中可以看出：

①准确率、精确率、召回率和AUC方面BA和non-BA都呈下降趋势，这是因为当用户个数不多的时候，用户彼此之间出现比较高的相似度的可能性就比较低，而当用户个数很多的时候，将会有比较高的可能性出现不是同一个用户，但是彼此之间有很高的相似度，一旦出现这样的用户会对最终的匹配结果产生负面影响。随着用户数量和评价指标呈负相关的这种现象也是现存的跨平台的社交身份识别算法中所存在的通病。

②虽然准确率、精确率、召回率和AUC方面BA和non-BA都呈下降趋势，但是从图中可以看出non-BA的下降趋势更大，而BA的下降趋势相对较小。综合来看，BA在应对大量用户匹配方面具有更大的优势。

③从图中可以看出BA的各项指标均在non-BA之上，这也直观的反映了BA的有效性，BA提高了跨平台的社交网络身份识别问题最终的准确率、精确率、召回率和AUC。

(2)用户权值分配对识别结果的影响分析

本文提出了基于后验概率的信息熵的用户属性权值分配算法，为了验证本算法的有效性依旧采用控制变量法分别对采用了后验概率信息熵权值分配算法(IW)和不采用权值分配算法(non-IW)对实验的结果进行分析。具体的结果如图3所示。

①准确率、精确率、召回率和AUC方面IW和non-IW都呈下降趋势，这是因为当用户个数不多的时候，用户彼此之间出现比较高的相似度的可能性就比较低，而当用户个数很多的时候，将会有比较高的可能性出现不是同一个用户，但是彼此之间有很高的相似度，一旦出现这样的用户会对最终的匹配结果产生负面影响。随着用户数量和评价指标呈负相关的这种现象也是现存的跨平台的社交玩过身份识别算法中所存在的通病。

②虽然准确率、精确率、召回率和AUC方面IW和non-IW都呈下降趋势，但是从图中可以看出non-IW的下降趋势更大，而IW的下降趋势相对较小。

③从图中可以看出IW的各项指标均在non-IW之上，这也直观的反映了IW的有效性，IW极大的提高了跨平台的社交网咯身份识别问题最终的准确率、精确率、召回率和AUC。

(3)本发明的方法和RCM对比分析

主要是对本发明提出的基于个性化权重向量的稳定婚姻匹配方法(VW-SMM算法)和基于排名的交叉匹配方法(RCM算法)做对比分析，由于RCM算法的准确率很大程度上受种子用户个数的影响，即已知的匹配对的用户个数。如果预先不知道两个社交网络平台上的哪些用户是一个人，即无标记身份匹配。那么RCM算法不具备较高的准确率。由于本文的算法对用户识别是无标记的，所以这里采用无标记的数据集对两种算法的实验测试结果进行分析。

如图4所示，从图中可以看出本文提出的VW-SMM算法在准确率、精确率、召回率和AUC方面均优于RCM算法。主要在于本文的算法相比与RCM算法做了用户行为数据处理，优化的用户属性权重分配。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种跨平台的社交网络用户身份识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的跨平台的社交网络用户身份识别方法，其特征在于，所述步骤(2)具体包括：

3.根据权利要求2所述的跨平台的社交网络用户身份识别方法，其特征在于，所述用户档案数据在不同维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度包括：

Dice系数计算，其计算公式为：

其中，a、b分别表示两个字符串集合；

精确匹配：指两个特征属性是一模一样；

其中，表示A用户的频繁项E_i的支持度计数，表示B用户的频繁项E_i的支持度计数，表示Ei的项集数；

特殊符号相似度计算，其计算公式为：

时间戳相似度计算，其计算公式为：

4.根据权利要求1所述的跨平台的社交网络用户身份识别方法，其特征在于，所述步骤(3)的基于信息熵的后验概率权值分配方法，其计算公式为：

5.根据权利要求1所述的跨平台的社交网络用户身份识别方法，其特征在于，所述步骤(4)的评分公式：