CN110598126A

CN110598126A - 基于行为习惯的跨社交网络用户身份识别方法

Info

Publication number: CN110598126A
Application number: CN201910836401.3A
Authority: CN
Inventors: 邢玲; 邓凯凯; 吴红海; 谢萍; 张琦; 高建平
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-20
Anticipated expiration: 2039-09-05
Also published as: CN110598126B

Abstract

本发明公开了一种基于行为习惯的跨社交网络用户身份识别方法，首先分别从两个社交网络中爬取各自用户的显示名称和历史发布内容，然后计算用户之间的显示名称相似度，并从各个用户的历史发布内容中提取出该用户的兴趣图谱，计算用户之间的兴趣图谱相似度，最后综合两种相似度进行用户匹配，得到用户身份识别结果。本发明将具有高访问性的显示名称和用户发布内容进行融合来实现跨社交网络用户身份识别，以提高用户身份识别性能。

Description

基于行为习惯的跨社交网络用户身份识别方法

技术领域

本发明属于数据挖掘技术领域，更为具体地讲，涉及一种基于行为习惯的跨社交网络用户身份识别方法。

背景技术

随着各大社交网络的兴起，社交网络已经成为我们日常通信交流不可获取的一部分。社交网络侧重于社交，满足了人们现有的各种社交需求，例如：发布动态、浏览新闻、通信交流等等。根据2019年最新统计数据显示，微信月活跃用户10.98亿，QQ月活跃用户8.07亿。由于单一的社交网络不能够满足用户现有的全部需求，因此，每个用户都具有多个社交网络账号，并且它们之间互不关联。如果可以把多个社交网络账号进行融合，将有利于用户与朋友之间的沟通，同时，也为在社交网络中搜索其他用户提供了一条途径。另外，社交网络的融合可以大大减少推荐系统的工作量。跨社交网络用户身份识别是融合多社交网络账号的一种方法，渐渐成为了当下研究的热点问题之一。

跨社交网络用户身份识别主要分析用户档案信息，网络拓扑结构以及用户行为数据将同一用户分布在不同社交网络上的虚拟账号进行用户身份识别，从而实现多社交网络信息融合的目的。跨社交网络用户身份识别通常利用一些爬虫软件从各大社交网络上爬取用户数据，这些数据主要是用户在注册虚拟账号时填写的个人信息、用户账号上显示的好友关系以及用户在各大社交网络上发布的内容。通过测量和分析这些用户数据来识别用户身份，一方面可以将多个社交网络上的虚拟账号信息进行融合来完善用户个人数据，另一方面，可以通过授权的方式实现多个社交网络的登录，提升用户的网络服务体验。

跨社交网络用户身份识别主要由三个部分组成：用户数据提取、数据的相似度计算和账号匹配过程。用户数据的提取主要采用比较高效的爬虫技术对数据进行爬取、清洗和存储。其次，利用提取的数据和相似函数来计算用户数据之间的相似度，相似度越大，说明不同的虚拟账号属于同一用户的概率就越大。最后，根据计算的相似度采用相关的匹配策略进行账号匹配。

现有的基于用户档案信息的跨社交网络用户身份识别方法存在用户数据伪造的可能性，并且现在人们越来越注重隐私保护。因此，该类方法的识别效果不是很理想。其次是基于网络拓扑结构的识别方法，虽然用户的好友关系容易获得，但好友关系的连接存在稀疏性。最后是基于用户行为数据的识别方法，该方法利用用户发布的内容进行用户身份识别，相比较于上述两类方法，该方法打破了它们的限制。另外，现有的研究还利用用户档案信息和网络结构结合进行识别，但该方法还是受限于上述的条件以至于不能够实现较好的识别效果。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于行为习惯的跨社交网络用户身份识别方法，将具有高访问性的显示名称和用户发布内容进行融合来实现跨社交网络用户身份识别，以提高用户身份识别性能。

为实现上述发明目的，本发明基于行为习惯的跨社交网络用户身份识别方法包括以下步骤：

S1：当需要对社交网络A中的用户识别其在社交网络B中的相同账号时，分别从社交网络A和社交网络B中爬取各自用户的显示名称和历史发布内容，记两个社交网络中用户数量分别为N_A和N_B；

S2：分别计算社交网络A中各个用户i和社交网络B中各个用户j的显示名称相似度i＝1,2,…,N_A，j＝1,2,…,N_B；

S3：从各个用户的历史发布内容中提取出该用户的兴趣图谱，分别计算得到社交网络A中各个用户i和社交网络B中各个用户j的兴趣图谱相似度

S4：综合社交网络A中各个用户i和社交网络B中各个用户j显示名称相似度和兴趣图谱相似度进行用户匹配，确定社交网络A中的用户在社交网络B中账号。

本发明基于行为习惯的跨社交网络用户身份识别方法，首先分别从两个社交网络中爬取各自用户的显示名称和历史发布内容，然后计算用户之间的显示名称相似度，并从各个用户的历史发布内容中提取出该用户的兴趣图谱，计算用户之间的兴趣图谱相似度，最后综合两种相似度进行用户匹配，得到用户身份识别结果。本发明充分考虑用户不同数据之间的融合，将具有高访问性的显示名称和用户发布的内容进行融合来实现跨社交网络用户身份识别，这两种类型的数据可以很直观的反映用户的行为习惯，并且含有丰富的冗余信息，从而可以提高用户身份识别的识别性能。

附图说明

图1是本发明基于行为习惯的跨社交网络用户身份识别方法的具体实施方式流程图；

图2是本发明中计算显示名称相似度的流程图；

图3是本实施例中计算兴趣图谱相似度的流程图；

图4是本实施例中本发明和对比方法的精确率对比图；

图5是本实施例中本发明和对比方法的召回率对比图；

图6是本实施例中本发明和对比方法的F1分数对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于行为习惯的跨社交网络用户身份识别方法的具体实施方式流程图。如图1所示，本发明基于行为习惯的跨社交网络用户身份识别方法的具体步骤包括：

S101：获取用户数据：

当需要对社交网络A中的用户识别其在社交网络B中的相同账号时，分别从社交网络A和社交网络B中爬取各自用户的显示名称和历史发布内容，记两个社交网络中用户数量分别为N_A和N_B。

S102：计算显示名称相似度：

分别计算社交网络A中各个用户i和社交网络B中各个用户j的显示名称相似度i＝1,2,…,N_A，j＝1,2,…,N_B。

用户的显示名称通常是由一串字符、字母和数字构成，其在很大程度上能够突出用户的身份信息。显示名称不同于用户名，其可以随着用户的喜好进行不断的变化更改。用户名在一些社交网络上是一串连续的数字，例如：QQ,Foursquare等等，对用户身份识别产生的作用较小。而用户在命名显示名称时，会极大程度上遵循自己的之前命名习惯来书写，这就形成了丰富的冗余信息。可以通过提取显示名称产生的冗余信息来达到识别用户身份的目的。

本发明主要通过测量和分析显示名称的长度特征、字符特征、字母特征来计算不同社交网络中用户的显示名称相似度，以识别用户身份。用户在注册社交网络账号时，大多数用户会采用这三个特征来组合显示名称。相关研究得出结论为超过45％的用户在不同的社交网络上具有相同的显示名称，这就为本发明的工作提供了有效的依据。本发明分别采用不同的相似度计算方法来测量和分析以上三个特征，并对相应的特征进行合理的权值分配，融合得到最终的显示名称特征。图2是本发明中计算显示名称相似度的流程图。如图2所示，本发明中计算显示名称相似度的具体步骤包括：

S201：计算显示名称的长度相似度：

用户在命名显示名称时，也会产生一些规律。相同的用户在命名显示名称时，显示名称的长度是极其相似的。两个社交网络中两个用户显示名称的长度相似度可采用以下公式计算：

其中，表示社交网络A中用户i的显示名称，表示社交网络B中用户j的显示名称，len( )表示求取长度，min( )表示求取最小值，max( )表示求取最大值。

可见，长度相似度的取值范围为[0,1]，值越大表示两个用户显示名称的长度越接近，当长度相似度为1时，表明这两个显示名称具有相同的长度。

S202：计算显示名称的字符相似度：

显示名称在社交网络中是由字符串组成的。因此，可以结合字符串的字符特征来计算显示名称之间的相似度。本发明中利用最长公共子串来获取两个社交网络中两个用户显示名称的字符相似度其计算公式如下：

其中，表示显示名称和的最长公共子串。

可见，字符相似度的取值范围为[0,1]，值越大表示两个用户显示名称的字符组成越接近，当字符相似度为1时，表明这两个显示名称相同。

S203：计算显示名称的字母相似度：

字母也是用户在命名显示名称过程中经常用到的一个特征。例如：显示名称“movie star”和显示名称“star movie”具有相同的字母分布。记可用于显示名称的字母数量为G，对于每个显示名称分别转换得到一个G维字母向量，该向量中第g个元素表示该显示名称中第g个字母的出现次数，记显示名称和的字母向量分别为和计算字母向量和的余弦相似度，作为显示名称和的字母相似度

为了更好的解释显示名称形成的字母向量，将显示名称“age”作为一个例子，假设显示名称中只可以出现英文字母，按照字母表顺序，其构成的显示名称向量就是[1,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]，即字母a、g、e各出现一次，对应元素为1。

S204：融合得到显示名称相似度：

对上述步骤所获取的两个用户显示名称三种特征相似度进行加权求和，融合得到社交网络A中用户i和社交网络B中用户j的显示名称相似度其计算公式如下：

其中，表示特征相似度对应的权重，根据实际需要设置。

为了使所融合到的显示名称相似度更加准确，本实施例采用一种基于变种赋权的权重分配方案确定权重在信息论中，熵值反映了信息的有序性以及包含的信息量大小。就本发明而言，在显示名称的三种特征相似度中，社交网络A中用户i和社交网络B中用户j的第q种特征相似度的熵值的计算公式为：

其中，采用以下公式计算：

由于熵值越小，对应特征含有的信息量就越大，该特征就越有价值。相反，熵值越大，特征含有的信息量就越少，利用价值就越低，对用户身份识别影响不大。因此，可以构建变种赋权参数

进而可以计算得到权重

S103：计算兴趣图谱相似度：

当用户注册社交网络账号时，用户会在社交网络上产生相应的行为数据。用户会在社交网络上发布内容，同时，用户还将评论，转发和点赞其他用户发布的内容。随着时间的推移，用户的兴趣会或多或少地改变。但是，用户的一些长期兴趣是不容易改变的，如果用户在某个社交网络中的长期兴趣发生改变，用户在其它社交网络上的数据也将相应地做出改变。由于用户的长期兴趣是用户长期形成的行为习惯，因此，本发明将长期兴趣定义为兴趣图谱。相对而言，临时兴趣可以定义为兴趣因子，其是一个变量，表明用户的兴趣在短时间内不断发生变化。因此，除了显示名称相似度外，本发明还将从各个用户的历史发布内容中提取出该用户的兴趣图谱，计算得到社交网络A中用户i和社交网络B中用户j的兴趣图谱相似度

图3是本实施例中计算兴趣图谱相似度的流程图。如图3所示，本实施例中计算兴趣图谱的具体步骤包括：

S301：提取主题发布向量：

将所提取的历史发布内容的时间段划分为K个子时间段Δt_k，k＝1,2,…,K，分别对于社交网络A中用户i和社交网络B中用户j，根据其历史发布内容提取各个子时间段Δt_k内的主题分布向量和表示社交网络A中用户i在子时间段Δt_k的历史发布内容在第d个主题对应的主题分布值，表示社交网络B中用户j在子时间段Δt_k的历史发布内容在第d个主题对应的主题分布值，d＝1,2,…,D，D表示主题数量，根据实际需要设置。

本实施例，采用LDA(Latent Dirichlet Allocation，潜在狄利克雷分布模型)模型求取用户的主题分布。LDA模型是一种常用的文档主题生成模型，其具体原理和过程在此不再赘述。就子时间段而言，其窗口大小对于所获取的用户兴趣图谱的准确存在影响，如果设置的值较小，则很难获得用户的兴趣图谱。如果将值设置的较大，那么用户的冗余信息将增加，这将给区别兴趣图谱和兴趣因子的工作带来困难。在实际应用中，可以采用实验获取较优值。

S302：筛选兴趣图谱：

对于社交网络A中用户i，对于每个子时间段Δt_k的主题分布向量与其前后两个相邻的主题分布向量之间和之间的相似度，如果相似度均小于预设阈值，则判定该主题分布向量所对应的主题分布为短期的兴趣因子，将此主题分布向量删除，否则认为该主题分布向量所对应的主题分布为长期的兴趣图谱，保留该主题分布向量即不作任何操作。采用相同方法对社交网络B中用户j的主题分布向量进行处理，得到社交网络B中用户j所保留的主题分布向量本实施例在计算两个主题分布向量的相似度时，基于KL散度计算，其具体方法为：

记两个主题分布向量分别为P₁＝[p₁(1),p₁(2),…,p₁(D)]和P₂＝[p₂(1),p₂(2),…,p₂(D)]，其KL散度H采用以下公式计算：

则两个主题分布向量的相似度sim采用以下公式计算：

sim＝[H+λ]^-1

其中，λ是避免分母为0所设置的一个极小值。

就主题分布向量相似度的判定阈值而言，通常在[0.1,1]范围内取值，在实际应用中可以采用实验确定较优值。

S303：计算兴趣图谱相似度：

在得到社交网络A中用户i和社交网络B中用户j各自兴趣图谱所包含的主题分布向量后，根据所保留的主题分布向量的子时间段筛选出两个用户共同的子时间段，记共同子时间段数量为K′。然后采用以下公式计算得到兴趣图谱相似度

其中，表示社交网络A中用户i在第k′个共同子时间段的主题分布向量，表示社交网络B中用户j在第k′个共同子时间段的主题分布向量，k′＝1,2,…,K′。

S104：用户识别：

综合社交网络A中各个用户i和社交网络B中各个用户j显示名称相似度和兴趣图谱相似度进行用户识别，确定社交网络A中的用户在社交网络B中账号。

在用户匹配时，可以计算名称相似度和兴趣图谱相似度的加权和作为综合相似度，对于社交网络A中各个用户i，选择社交网络B中与其综合相似度最高的用户作为其在社交网络B中的账号。

本实施例中，为了提高用户识别的准确度，采用分类模型来判断用户匹配，其具体方法为：首先在社交网络A和社交网络B中获取若干属于同一人的用户对，采用步骤S102和步骤S103中的方法计算得到每个用户对中两个用户名称相似度和兴趣图谱相似度，构成相似度向量，将其作为正样本，另外再获取若干不属于同一人的用户对，采用步骤S102和步骤S103中的方法计算得到每个用户对中两个用户的名称相似度和兴趣图谱相似度，构成相似度向量，将其作为负样本。采用正样本和负样本对预设设置的分类模型进行训练，得到用户匹配分类模型。在进行用户匹配时，将社交网络A中用户i和社交网络B中用户j的名称相似度和兴趣图谱相似度输入用户匹配模型中，得到是否匹配的结果。

如果对账号对的识别结果没有限制，用户匹配结果中可能会出现一对多或多对多情况。为了避免这个问题，需要对用户匹配结果进行限制，使匹配结果中只存在一对一的情况。因此本实施例中，在得到用户匹配模块的匹配结果后，采用Gale-Shapley算法对匹配结果进行进一步处理，得到最终的用户识别结果，以使用户识别结果达到最优，提高用户身份识别的效果。

为了说明本发明的技术效果，采用一个具体实例对本发明进行仿真验证。本次验证中所有实验均在具有8G内存和2.4GHz CPU的计算机上执行。使用编程软件Python从两个不同的社交网络(微博，头条)上抓取实验所需的数据，其中历史发布内容的时间段为最近6个月。本次验证中采用精确率(precision)、召回率(recall)和F1分数作为评价指标：

其中tp表示属于同一用户并且匹配正确的账号对，fp表示两个账号属于不同用户但被识别为匹配对，fn表示不匹配但是同一用户的账号对。

为了有效地分析和比较显示名称和兴趣图谱对识别结果的影响。将本发明与其它四种方案进行了对比分析，这五种方案分别是ANIUBH_nodis(识别过程中不使用显示名称)、ANIUBH_noint(识别过程中不使用兴趣图谱)、ANIUBH_noent(识别过程中不给显示名称分配权重)、ANIUBH_ent(给显示名称分配基于信息熵的权重)和ANIUBH(本发明方法)。为了更好地显示这五种方案的性能，分别用字母A、B、C、D和E表示。图4是本实施例中本发明和对比方法的精确率对比图。图5是本实施例中本发明和对比方法的召回率对比图。图6是本实施例中本发明和对比方法的F1分数对比图。

首先分析所用数据对用户数据对用户身份识别的影响。如图4至图6所示，分析方法A、B、C的识别性能可知，仅基于显示名称的识别性能优于其它两种方案。原因是在少量用户数据的情况下难以形成用户的兴趣图谱。随着用户数据量的增加，用户识别的评价指标也在增加。但是，可以清楚地看到B方案的曲线几乎没有变化，此现象说明用户的显示名称在一段时间内具有时间独立性。

接下来分析权重设置方式对用户身份识别的影响。如图4至图6所示，分析方法C、D、E的识别性能可知，本发明在计算显示名称相似度时所采用的变种赋权法的识别性能优于其他两种方法。

综合分析5种方法可知，随着用户数据的不断增加，与其它四种方法相比，本发明的评价指标有了很大提高。此外，从图6中可以看出，当用户数据超过四个月时，评估指标趋于稳定。这种现象表明，利用四个月的用户数据本发明基本上可以实现良好的识别性能，这种现象可以在一定程度上帮助减少用户数据的计算量。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于行为习惯的跨社交网络用户身份识别方法，其特征在于，包括以下步骤：

S2：分别计算社交网络A中各个用户i和社交网络B中各个用户j的显示名称相似度

S4：综合社交网络A中各个用户i和社交网络B中各个用户j显示名称相似度和兴趣图谱相似度进行用户识别，确定社交网络A中的用户在社交网络B中账号。

2.根据权利要求1所述的跨社交网络用户身份识别方法，其特征在于，所述步骤S2中显示名称相似度的计算方法包括以下步骤：

S2.1：采用以下公式计算两个用户显示名称的长度相似度

其中，表示社交网络A中用户i的显示名称，表示社交网络B中用户j的显示名称，len( )表示求取长度，min( )表示求取最小值，max( )表示求取最大值；

S2.2：采用以下公式计算两个用户显示名称的字符相似度

其中，表示显示名称和的最长公共子串；

S2.3：记可用于显示名称的字母数量为G，对于每个显示名称分别转换得到一个G维字母向量，该向量中第g个元素表示该显示名称中第g个字母的出现次数，记显示名称和的字母向量分别为和计算字母向量和的余弦相似度，作为显示名称和的字母相似度

S2.4：采用以下公式计算得到社交网络A中用户i和社交网络B中用户j的显示名称相似度

其中，表示特征相似度对应的权重。

3.根据权利要求1所述的跨社交网络用户身份识别方法，其特征在于，所述步骤S2.4中权重采用如下方法确定：

采用以下公式计算社交网络A中用户i和社交网络B中用户j的第q种特征相似度的熵值

其中，采用以下公式计算：

构建变种赋权参数

计算得到权重

4.根据权利要求1所述的跨社交网络用户身份识别方法，其特征在于，所述步骤S3中兴趣图谱相似度的计算方法包括以下步骤：

S3.1：将所提取的历史发布内容的时间段划分为K个子时间段Δt_k，k＝1,2,…,K，分别对于社交网络A中用户i和社交网络B中用户j，根据其历史发布内容提取各个子时间段Δt_k内的主题分布向量和表示社交网络A中用户i在子时间段Δt_k的历史发布内容在第d个主题对应的主题分布值，表示社交网络B中用户j在子时间段Δt_k的历史发布内容在第d个主题对应的主题分布值，d＝1,2,…,D，D表示主题数量，根据实际需要设置；

S3.2：对于社交网络A中用户i，对于每个子时间段Δt_k的主题分布向量与其前后两个相邻的主题分布向量之间和之间的相似度，如果相似度均小于预设阈值，则判定该主题分布向量所对应的主题分布为短期的兴趣因子，将此主题分布向量删除，否则认为该主题分布向量所对应的主题分布为长期的兴趣图谱，保留该主题分布向量即不作任何操作。采用相同方法对社交网络B中用户j的主题分布向量进行处理，得到社交网络B中用户j所保留的主题分布向量

S3.3：在得到社交网络A中用户i和社交网络B中用户j各自兴趣图谱所包含的主题分布向量后，根据所保留的主题分布向量的子时间段筛选出两个用户共同的子时间段，记共同子时间段数量为K′。然后采用以下公式计算得到兴趣图谱相似度

5.根据权利要求1所述的跨社交网络用户身份识别方法，其特征在于，所述步骤S3.2中两个主题分布向量的相似度采用以下方法计算：

则两个主题分布向量的相似度sim采用以下公式计算：

sim＝[H+λ]^-1

其中，λ是避免分母为0所设置的一个极小值。

6.根据权利要求1所述的跨社交网络用户身份识别方法，其特征在于，所述步骤S4中用户识别的方法为：计算名称相似度和兴趣图谱相似度的加权和作为综合相似度，对于社交网络A中各个用户i，选择社交网络B中与其综合相似度最高的用户作为其在社交网络B中的账号。

7.根据权利要求1所述的跨社交网络用户身份识别方法，其特征在于，所述步骤S4中用户识别的方法包括以下步骤：

首先在社交网络A和社交网络B中获取若干属于同一人的用户对，采用步骤S2和步骤S3中的方法计算得到每个用户对中两个用户名称相似度和兴趣图谱相似度，构成相似度向量，将其作为正样本，另外再获取若干不属于同一人的用户对，采用步骤S2和步骤S3中的方法计算得到每个用户对中两个用户的名称相似度和兴趣图谱相似度，构成相似度向量，将其作为负样本。采用正样本和负样本对预设设置的分类模型进行训练，得到用户匹配分类模型。在进行用户匹配时，将社交网络A中用户i和社交网络B中用户j的名称相似度和兴趣图谱相似度输入用户匹配模型中，得到是否匹配的结果；利用一对一限制和Gale-Shapley算法来优化匹配结果，得到最终的用户识别结果。