CN104574192A

CN104574192A - 在多个社交网络中识别同一用户的方法及装置

Info

Publication number: CN104574192A
Application number: CN201310513952.9A
Authority: CN
Inventors: 赫彩凤; 钱剑锋; 范伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-10-25
Filing date: 2013-10-25
Publication date: 2015-04-29
Anticipated expiration: 2033-10-25
Also published as: CN104574192B; EP2866421B1; EP2866421A1

Abstract

本发明公开了一种在多个社交网络中识别同一用户的方法及装置，该方法包括：输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，并将测试集的账号生成测试集账号组合；抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过上述方式，本发明能够全面准确地描述用户的信息，使最后的预测结果准确性更高。

Description

在多个社交网络中识别同一用户的方法及装置

技术领域

本发明涉及网络用户识别技术领域，特别是涉及一种在多个社交网络中识别同一用户的方法及装置。

背景技术

社交网络越来越流行，种类也越来越多（例如Facebook、Twitter、WeChat、Foursquare等），各种社交网络大部分都是相互独立的。每一个社交网络都有基于账号的大量异构数据集，包括时间、地点、人物、事件等多样化的数据类型。一个用户常常同时活跃于多个社交网络中，分别使用不同的账号，产生大量散布在各个社交网络的独立数据集。把同一用户的不同社交网络的数据集关联在一起，将大大扩展基于同一用户的数据信息，对许多数据挖掘分析意义重大。

现有技术中，把同一用户的不同社交网络的数据集关联在一起的方法主要是：首先，对社交网络中的账号进行建模，使用账号的注册信息以及该账号的用户在社交网络中发布的文本内容，生成描述账号特征的向量，该向量包括该账号的用户的名称、用户的生日、用户的学位，用户的爱好（如歌曲、颜色、食物等）等属性；其次，对向量中的不同属性赋予不同的权重，该权重体现该属性对区别不同用户的重要程度；最后，计算不同账号向量之间的相似度，用来识别是否属于同一个用户。

本申请的发明人在长期的研发中发现，上述方法描述账号特征的属性不全面，只使用账号的注册信息及部分的文本信息，不能全面准确地刻画一个账号的特点。

发明内容

本发明主要解决的技术问题是提供一种在多个社交网络中识别同一用户的方法及装置，能够全面准确地描述用户的信息，使最后的预测结果准确性更高。

第一方面，本发明提供一种在多个社交网络中识别同一用户的方法，定义所述同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，所述账号组合中每个账号分别来自不同的社交网络；所述方法包括：输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，并将所述测试集的账号生成测试集账号组合；抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

在第一方面的第一种可能的实现方式中，所述将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合的步骤之前，包括：输入从所述至少两个不同的社交网络中获取的训练集的账号，并将所述训练集的账号中属于同一用户的账号生成训练集账号组合；抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；通过监督分类算法，利用所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征对所述训练集进行训练，获得所述分类预测模型。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述至少两个不同的与所述账号的用户的行为数据相关的特征包括：所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数，所述相同朋友的账号在所述训练集中；所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例；所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。

结合第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述账号组合中账号发布信息的空间特征包括：所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。

结合第一方面的第二种可能的实现方式，在第一方面的第五种可能的实现方式中，所述账号组合中账号发布信息的时间特征包括：所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。

结合第一方面的第二种可能的实现方式，在第一方面的第六种可能的实现方式中，所述账号组合中账号发布信息的文本特征包括：所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述方法还包括：通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理；利用词频-逆向文件频率（TF-IDF）权重模型将所述经过处理的信息生成所述账号的词袋向量。

结合第一方面、第一方面的第一种至第七种中任一种可能的实现方式，在第一方面的第八种可能的实现方式中，所述通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果的步骤，包括：通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

结合第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，所述通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果的步骤，包括：在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表；若所述测试集账号组合存在闭合账号对，则所述闭合账号对所对应的账号属于同一用户，并输出所述属于同一用户的闭合账号对，其中，所述闭合账号对满足的条件是：所述账号ai预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

结合第一方面的第九种可能的实现方式，在第一方面的第十种可能的实现方式中，所述在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表的步骤之后，还包括：若所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k），则比较所述测试集账号组合（a_i，b_j）的预测值和所述测试集账号组合（b_j，a_k）的预测值的大小；若所述测试集账号组合（a_i，b_j）的预测值小于所述测试集账号组合（b_j，a_k）的预测值，则所述账号a_k和所述账号b_j属于同一用户，所述账号a_i和所述账号b_j不属于同一用户，并输出所述属于同一用户的测试集账号组合（b_j，a_k），若所述测试集账号组合（a_i，b_j）的预测值大于所述测试集账号组合（b_j，a_k）的预测值，则所述账号a_i和所述账号b_j属于同一用户，所述账号a_k和所述账号b_j不属于同一用户，并输出所述属于同一用户的测试集账号组合（a_i，b_j）。

第二方面，本发明提供一种在多个社交网络中识别同一用户的装置，定义所述同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，所述账号组合中每个账号分别来自不同的社交网络；所述装置包括：第一生成模块、第一抽取模块、第一获得模块以及输出模块；所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后，将所述测试集的账号生成测试集账号组合；所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后，抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后，将所述抽取的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合；所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后，通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

在第二方面的第一种可能的实现方式中，所述装置还包括：第二生成模块、第二抽取模块以及第二获得模块；所述第二生成模块用于在输入从所述至少两个不同的社交网络中获取的训练集的账号后，将所述训练集的账号中属于同一用户的账号生成训练集账号组合；所述第二抽取模块用于在所述第二生成模块生成训练集账号组合后，抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；所述第二获得模块用于在所述第二抽取模块抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后，通过监督分类算法，利用所述抽取的特征对所述训练集进行训练，获得所述分类预测模型。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述至少两个不同的与所述账号的用户的行为数据相关的特征包括：所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数，所述相同朋友的账号在所述训练集中；所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例；所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。

结合第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述账号组合中账号发布信息的空间特征包括：所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。

结合第二方面的第二种可能的实现方式，在第二方面的第五种可能的实现方式中，所述账号组合中账号发布信息的时间特征包括：所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。

结合第二方面的第二种可能的实现方式，在第二方面的第六种可能的实现方式中，所述账号组合中账号发布信息的文本特征包括：所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。

结合第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述装置还包括：处理模块和第三生成模块；所述处理模块用于通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理；所述第三生成模块用于在所述处理模块对所述测试集或训练集账号组合中账号发布的信息进行处理后，利用词频-逆向文件频率（TF-IDF）权重模型将所述经过处理的信息生成所述账号的词袋向量。

结合第二方面、第二方面的第一种至第七种中任一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述输出模块具体用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

结合第二方面的第八种可能的实现方式，在第二方面的第九种可能的实现方式中，所述输出模块包括：获得单元和第一输出单元；所述获得单元用于在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表；所述第一输出单元用于在所述获得单元获得所述账号的预测值列表后，在所述测试集账号组合存在闭合账号对时，所述闭合账号对所对应的账号属于同一用户，输出所述属于同一用户的闭合账号对，其中，所述闭合账号对满足的条件是：所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

结合第二方面的第九种可能的实现方式，在第二方面的第十种可能的实现方式中，所述输出模块还包括比较单元和第二输出单元；所述比较单元用于在所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k）时，比较所述测试集账号组合（a_i，b_j）的预测值和所述测试集账号组合（b_j，a_k）的预测值的大小；所述第二输出单元用于在所述比较单元的比较结果为所述测试集账号组合（a_i，b_j）的预测值小于所述测试集账号组合（b_j，a_k）的预测值时，所述账号a_k和所述账号b_j属于同一用户，所述账号a_i和所述账号b_j不属于同一用户，输出所述属于同一用户的测试集账号组合（b_j，a_k），在所述比较单元的比较结果为所述测试集账号组合（a_i，b_j）的预测值大于所述测试集账号组合（b_j，a_k）的预测值时，所述账号a_i和所述账号b_j属于同一用户，所述账号a_k和所述账号b_j不属于同一用户，输出所述属于同一用户的测试集账号组合（a_i，b_j）。

本发明的有益效果是：区别于现有技术的情况，本发明抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征，能够极大地丰富用户的信息，使最后的预测结果准确性更高。

附图说明

图1是本发明在多个社交网络中识别同一用户的方法一实施方式的流程图；

图2是本发明在多个社交网络中识别同一用户的方法另一实施方式的流程图；

图3是本发明在多个社交网络中识别同一用户的方法又一实施方式的流程图；

图4是本发明在多个社交网络中识别同一用户的装置一实施方式的结构示意图；

图5是本发明在多个社交网络中识别同一用户的装置另一实施方式的结构示意图；

图6是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图；

图7是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图；

图8是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

参阅图1，图1是本发明在多个社交网络中识别同一用户的方法一实施方式的流程图，包括：

定义同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，账号组合中每个账号分别来自不同的社交网络。

社交网络越来越流行，种类也越来越多，例如Facebook、Twitter、WeChat、Foursquare等，各种社交网络大部分都是相互独立的。很多用户在不同的社交网络上注册账号，现有技术中存在识别同一社交网络中不同账号属于同一用户的技术方案，因此，定义同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，账号组合中每个账号分别来自不同的社交网络，例如，社交网络A和社交网络B是不同的社交网络，社交网络A有三个用户的账号，分别是a₁、a₂以及a₃，社交网络B有四个用户的账号，分别是b₁、b₂、b₃以及b₄，账号组合中账号的个数是2，如账号组合（a₁，b₁）、（a₂，b₂）、（a₃，b₃）等是满足要求的，账号组合（a₁，a₂）、（b₂，b₃）等是不满足要求的，因为a₁与a₂以及b₂与b₃是同一社交网络的账号。

步骤S101：输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，并将测试集的账号生成测试集账号组合。

测试集中的账号来自至少两个不同的社交网络的注册账号，而且账号之间是否是同一用户在至少两个不同的社交网络上注册的账号，也是未知的。首先从至少两个不同的社交网络的注册账号中获取测试集的账号，输入测试集的账号后，将测试集的账号生成测试集账号组合，以便于预测测试集账号组合中的账号是否属于同一用户。

步骤S102：抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

与账号的用户的行为数据相关的特征是指与该账号的用户在社交网络上的行为习惯或行为特点方面的数据相关的特征，账号的用户的行为数据，例如：用户登录社交网站的时间段方面的数据、用户登录社交网站的地点方面的数据、用户在社交网站上发表言论的语言习惯方面的数据、用户关注的朋友方面的数据、用户的兴趣点方面的数据等等。一个用户的行为习惯或行为特点一般是非常固定的，也是非常具有个性化的，如果不同的社交网络上的账号所对应的用户的行为习惯或行为特点方面的数据所表现出来的特征非常近似，那么这几个不同的社交网络上的账号极有可能属于同一用户。

因此，抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征，可以用来预测测试集账号组合中的账号是否属于同一账号。

其中，至少两个不同的与账号的用户的行为数据相关的特征包括但不限于：账号组合中账号的社交特征、账号组合中账号发布信息的空间特征、账号组合中账号发布信息的时间特征以及账号组合中账号发布信息的文本特征。

账号组合中账号的社交特征主要说明该账号所对应用户的交友状况或交友特征。账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，公共相邻元素个数是指账号组合中账号具有相同朋友的个数，相同朋友的账号在训练集中；Jaccard相似系数是指账号组合中账号具有相同朋友的个数占账号组合中账号的所有朋友个数的比例；Adamic/Adar度量是指账号组合中账号的相同朋友在各自社交网络中的影响力。即Adamic/Adar度量等于其中（a_m，b_m）是属于a_i和b_i的公共相邻元素中的任意一个。

例如：社交网络A和社交网络B是不同的社交网络，社交网络A有三个用户的账号a_i，分别是a₁、a₂以及a₃，社交网络B有四个用户的账号b_i，分别是b₁、b₂、b₃以及b₄，账号a₁的朋友有a₂、a₃，账号b₁的朋友有b₂、b₃、b₄，通过训练集获知（a₂、b₂）和（a₃、b₃）分别属于同一用户，因此账号a₁和账号b₁的相同朋友的个数是2，即公共相邻元素个数为2，账号a₁和账号b₁所有的朋友的个数是5，则Jaccard相似系数是2/5=0.4。假如账号a₂和账号b₂所有的朋友的个数是6，账号a₃和账号b₃所有的朋友的个数是4，那么Adamic/Adar度量等于log^-13+log^-12。

账号组合中账号发布信息的空间特征主要是指该账号发布信息时所在地点方面的特征，如：该账号通常在哪里发布信息，在家里或在公司里或在公共场所网吧；该账号发布信息集中的地点在哪里等等。通常来说，同一用户在登录一个社交网站发布信息时，会同时更新其它社交网站的信息，假如有两个不同的社交网站上的两个账号，发现这两个账号经常在同一地点发布信息，那么这两个不同的社交网站上的两个账号极有可能属于同一用户。

账号组合中账号发布信息的空间特征包括但不限于：账号组合中所有账号发布信息的相同地点的个数、账号组合中所有账号发布信息的地点集合的余弦相似度以及账号组合中所有账号发布信息的地点集合的平均距离。余弦相似度是用来计算两个向量的相似程度，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫“余弦相似性”。例如：账号组合（a_i、b_i）中的一个账号组合（a₁、b₁），账号a₁发布信息的地点有：地点1（发布信息4次）、地点2（发布信息7次）、地点3（发布信息2次），账号b₁发布信息的地点有地点1（发布信息4次）、地点2（发布信息7次）、地点4（发布信息1次）、地点5（发布信息1次），那么账号a₁和账号b₁发布信息的相同地点的个数是2个；按照地点1、地点2、地点3、地点4、地点5的顺序，账号a₁的向量可以是（4，7，2，0，0），账号b₁的向量可以是（4，7，0，1，1），计算这两个向量的余弦值即可获得两个向量的余弦相似度；根据账号a₁的三个地点（即地点1、地点2、地点3）可以获得账号a₁地点集合的平均距离，根据账号b₁的四个地点（即地点1、地点2、地点4、地点5）可以获得账号b₁地点集合的平均距离。

账号组合中账号发布信息的时间特征主要是指该账号发布信息是所处时间段方面的特征。账号组合中账号发布信息的时间特征包括但不限于：账号组合中所有账号发布信息的相同时间段的个数和账号组合中所有账号发布信息的时间段集合的余弦相似度。例如，账号组合（a_i、b_i）中的一个账号组合（a₁、b₁），账号a₁发布信息的时间段有：时间段1（发布信息5次）、时间段2（发布信息8次）、时间段3（发布信息2次），账号b₁发布信息的时间段有时间段1（发布信息5次）、时间段2（发布信息8次）、时间段4（发布信息1次）、时间段5（发布信息1次），那么账号a₁和账号b₁发布信息的相同时间段的个数是2个；按照时间段1、时间段2、时间段3、时间段4、时间段5的顺序，账号a₁的向量可以是（5，8，2，0，0），账号b₁的向量可以是（5，8，0，1，1），计算这两个向量的余弦值即可获得两个向量的余弦相似度。

账号组合中账号发布信息的文本特征主要是指该账号发布信息的一些语言习惯。账号组合中账号发布信息的文本特征包括但不限于：账号组合中所有账号发布信息的词袋向量的内积和账号组合中所有账号发布信息的词袋向量的余弦相似度。

词袋（Bag of words），在信息检索中，词袋假定对于一个文本，忽略其词序、语法和句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。内积又称数量积或点积，假设有n维向量α、β，向量内积即为向量α与β的内积为α·β。举个简单的例子以说明词袋向量的获得方式之一：账号组合（a_i、b_i）中的一个账号组合（a₁、b₁），账号a₁发布信息的词袋有：词袋1（出现次数15次）、词袋2（出现次数21次）、词袋3（出现次数12次）、词袋4（出现次数5次），账号b₁发布信息的时间段有词袋1（出现次数15次）、词袋2（出现次数21次）、词袋4（出现次数12次）、词袋5（出现次数8次），按照词袋1、词袋2、词袋3、词袋4、词袋5的顺序，账号a₁的词袋向量可以是（15，21，12，5，0），账号b₁的词袋向量可以是（15，21，0，12，8），将账号a₁的词袋向量与账号b₁的词袋向量的内积为（15，21，12，5，0）·（15，21，0，12，8），计算这两个向量的余弦值即可获得两个向量的余弦相似度。

获得账号组合中所有账号发布信息的词袋向量的时候，本发明实施方式还可以提供另外的方式，具体包括：

A.通过自然语言处理技术对测试集或训练集账号组合中账号发布的信息进行处理。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

B.利用词频-逆向文件频率（TF-IDF）权重模型将经过处理的信息生成账号的词袋向量。

TF-IDF反映了在文档集合中一个单词对一个文档的重要性，经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里，词频(Term Frequency，TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数，最后的结果即为某一特定词语的IDF。

步骤S103：将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合。

分类预测模型是已经建立好的，建立分类预测模型时，使用的是训练集中的账号，训练集中的账号生成训练集账号组合，每个训练集账号组合中的账号属于同一用户，在对训练集进行训练时，抽取的特征也是训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。因此，将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中时，即可获得测试集账号组合的可能属于同一用户的预测值或预测值集合。当只有一组测试集账号组合时，可获得测试集账号组合的可能属于同一用户的预测值，当有多组测试集账号组合时，可获得测试集账号组合的可能属于同一用户的预测值集合。

步骤S104：通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

关联算法是指通过计算测试集账号组合的预测值之间的相关性，来获得测试集账号组合最后的预测结果，即该测试集账号组合属于同一用户或不属于同一用户。

本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征，能够极大地丰富用户的信息，使最后的预测结果准确性更高。另外，通过公关相邻元素个数、Jaccard相似系数、Adamic/Adar度量等指标，能够扩展现有技术中传统的定义方式。

参阅图2，图2是本发明在多个社交网络中识别同一用户的方法另一实施方式的流程图，本实施方式与图1的实施方式基本相同，相同的地方请参见图1以及相应的文字说明部分，不同之处请参见下面的内容，主要包括步骤S201、步骤S202以及步骤S203，具体内容包括：

步骤S201：输入从至少两个不同的社交网络中获取的训练集的账号，并将训练集的账号中属于同一用户的账号生成训练集账号组合。

训练集中的账号来自至少两个不同的社交网络的注册账号，即训练集中的账号的来源和测试集一样。首先从至少两个不同的社交网络的注册账号中获取训练集的账号，输入训练集的账号后，将训练集的账号生成训练集账号组合，训练集账号组合中的账号是属于同一用户的。

步骤S202：抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

因此，抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征，可以用来建立分类预测模型。

步骤S203：通过监督分类算法，利用训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征对训练集进行训练，获得分类预测模型。

监督分类算法属于一种机器学习分类算法，包括但不限于：支持向量机（Support Vector Machines，SVM）、逻辑回归（Logistic Regression，LR）。

步骤S204：输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，并将测试集的账号生成测试集账号组合。

步骤S205：抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

步骤S206：将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合。

步骤S207：通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

需要说明的是，步骤S201、步骤S202以及步骤S203只需要在步骤S206之前执行即可，例如，步骤S201、步骤S202以及步骤S203与步骤S204、步骤S205同时执行，不限于本实施方式所限定的执行顺序，在此不再一一赘叙。

本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征，能够极大地丰富用户的信息，使最后的关联结果准确性更高。

参阅图3，图3是本发明在多个社交网络中识别同一用户的方法又一实施方式的流程图，本实施方式与图1和图2的实施方式基本相同，相同的地方请参见图1和图2以及相应的文字说明部分，不同之处请参见下面的内容，主要包括子步骤S307a、步骤S307b、步骤S307c以及步骤S307d，具体内容包括：

步骤S301：输入从至少两个不同的社交网络中获取的训练集的账号，并将训练集的账号中属于同一用户的账号生成训练集账号组合。

步骤S302：抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

步骤S303：通过监督分类算法，利用训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征对训练集进行训练，获得分类预测模型。

步骤S304：输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，并将测试集的账号生成测试集账号组合。

步骤S305：抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

步骤S306：将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合。

步骤S307：通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

步骤S307具体包括：通过多网络定向MNA算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。具体来说包括如下子步骤：

子步骤S307a：在测试集账号组合中，对测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得账号的预测值列表。

子步骤S307b：判断测试集账号组合中是否存在闭合账号对。如果存在闭合账号对，进入步骤S307c，如果不存在闭合账号对，进入步骤S307d。

子步骤S307c：若测试集账号组合存在闭合账号对，则闭合账号对所对应的账号属于同一用户，并输出属于同一用户的闭合账号对，其中，闭合账号对满足的条件是：账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

子步骤S307d：若账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k），则比较测试集账号组合（a_i，b_j）的预测值和测试集账号组合（b_j，a_k）的预测值的大小。

子步骤S307e：若测试集账号组合（a_i，b_j）的预测值小于测试集账号组合（b_j，a_k）的预测值，则账号a_k和账号b_j属于同一用户，账号a_i和账号b_j不属于同一用户，并输出属于同一用户的测试集账号组合（b_j，a_k），若测试集账号组合（a_i，b_j）的预测值大于测试集账号组合（b_j，a_k）的预测值，则账号a_i和账号b_j属于同一用户，账号a_k和账号b_j不属于同一用户，并输出属于同一用户的测试集账号组合（a_i，b_j）。

下面以一个实例来说明上述子步骤S307a、子步骤S307b、子步骤S307c、子步骤S307d以及子步骤S307e在实际应用中具体的实现过程。假设有两个独立的社交网络A和B，测试集包括社交网络A中的账号a1、a2以及a3与社交网络B中的账号b1和b2。将训练得到的预测分类模型应用到上述测试集之后得到如下表一的信息：

表一：

其中，a1的“预测值列表”[b1(0.8)，b2(0.6)]表示（a1，b1）、（a1，b2）为同一用户的可能性分别为0.8、0.6，这两个值是分类模型的预测结果。每个账号的预测值列表是按各种账号组合预测结果降序进行排列。“匹配状态”描述账号是否已与另一网络的其它账号匹配，即是否出现在“推断结果集A’”中。“推断结果集A’”中包括所有推导为同一用户的账号组合并且记录每一账号组合的预测值。不难看出，上述测试集中存在一组闭合账号对（a1，b1）。下面对上述结果进行关联计算。

步骤1：获取社交网络A的某一账号，该账号满足“匹配状态”为“否”并且“预测值列表”不为空白。例如：获取账号a3，对账号a3取其预测值列表中社交网络B中的第一位账号b1；将b1从a3的预测值列表中删除，并且判断b1的匹配状态；b1的匹配状态为“否”，则推导（a3，b1）为同一用户，将（a3，b1）添加到“推断结果集A’”，同时将a3和b1的匹配状态修改为“是”。信息更新如下表二：

表二：

步骤2：获取社交网络A的某一账号，该账号满足“匹配状态”为“否”，并且“预测值列表”不为空白。例如：取账号a1，对账号a3取其预测值列表中社交网络B中的第一位账号b1；将b1从a1的预测值列表中删除，并且判断b1的匹配状态；b1的匹配状态为“是”，从“推断结果集A’”中查到b1与a3匹配且预测值为0.5，比较（a1，b1）和（a3，b1）的预测值大小；结果为（a1，b1）的预测值大于(a3，b1)的预测值，然后进行如下操作：

a)将（a3，b1）从“推断结果集A’”中删除；

b)将（a1，b1）添加到“推断结果集A’”中；

c)更新a3的“匹配状态”为“否”；

d)更新a1的“匹配状态”为“是”。

此时信息更新如下表三：

表三：

步骤3：获取社交网络A的某一账号，该账号满足“匹配状态”为“否”，并且“预测值列表”不为空白。例如：取账号a2，对账号a2取其预测值列表中社交网络B中的第一位账号b1；将b1从a2的预测值列表中删除，并且判断b1的匹配状态；b1的匹配状态为“是”，从“推断结果集A’”中查到b1与a1匹配且预测值为0.8；比较（a1，b1）和（a2，b1）的预测值大小；结果为（a1，b1）的预测值大于(a2，b1)的预测值，然后进行下一步操作，此时信息更新如下表四：

表四：

步骤4：获取社交网络A的某一账号，该账号满足“匹配状态”为“否”，并且“预测值列表”不为空白。例如：取账号a2，对账号a2取其预测值列表中社交网络B中的第一位账号b2；将b2从a2的预测值列表中删除，并且判断b2的匹配状态；b2的匹配状态为“否”，则推导（a2，b2）为同一用户，将（a2，b2）添加到“推断结果集A’”，同时将a2和b2的匹配状态修改为“是”。此时信息更新如下表五：

表五：

步骤5：获取社交网络A的某一账号，该账号满足“匹配状态”为“否”，并且“预测值列表”不为空白。此时只能取账号a3，对账号a3取其预测值列表中社交网络B中第一位的账号b2；将b2从a3的预测值列表中删除，并且判断b2的匹配状态；b2的匹配状态为“是”，从“推断结果集A’”中查到b2与a2匹配且预测值为0.4；比较（a2，b2）和（a3，b2）的预测值大小，结果为（a2，b2）的预测值大于(a3，b2)的预测值，然后进行下一步操作。此时信息更新如下表六：

表六：

步骤6：此时社交网络A中不存在账号同时满足“匹配状态”为“否”并且“预测值列表”不为空白这两项条件，操作结束。最终结果为：（a1，b1）和（a2，b2）分别是同一用户。此时可以看到闭合账号对（a1，b1）出现在集合A’中，集合A’是稳定的。

本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征，能够极大地丰富用户的信息，使最后的关联结果准确性更高。另外，通过MNA算法能够快速得到全局最优的匹配结果。

参阅图4和图5，图4和图5是本发明在多个社交网络中识别同一用户的装置两个实施方式的结构示意图，该装置包括：第一生成模块101、第一抽取模块102、第一获得模块103以及输出模块104。

需要说明的是，本实施方式的装置可以执行图1至图3中的步骤。

社交网络越来越流行，种类也越来越多，例如Facebook、Twitter、WeChat、Foursquare等，各种社交网络大部分都是相互独立的。很多用户在不同的社交网络上注册账号，现有技术中存在识别同一社交网络中不同账号属于同一用户的技术方案，因此，定义同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，账号组合中每个账号分别来自不同的社交网络。

第一生成模块101用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后，将测试集的账号生成测试集账号组合。

第一抽取模块102用于在第一生成模块101生成测试集账号组合后，抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

与账号的用户的行为数据相关的特征是指与该账号的用户在社交网络上的行为习惯或行为特点方面的数据相关的特征。一个用户的行为习惯或行为特点一般是非常固定的，也是非常具有个性化的，如果不同的社交网络上的账号所对应的用户的行为习惯或行为特点方面的数据所表现出来的特征非常近似，那么这几个不同的社交网络上的账号极有可能属于同一用户。

账号组合中账号的社交特征主要说明该账号所对应用户的交友状况或交友特征。账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，公共相邻元素个数是指账号组合中账号具有相同朋友的个数，相同朋友的账号在训练集中；Jaccard相似系数是指账号组合中账号具有相同朋友的个数占账号组合中账号的所有朋友个数的比例；Adamic/Adar度量是指账号组合中账号的相同朋友在各自社交网络中的影响力。即Adamic/Adar度量等于其中（am，bm）是属于a_i和b_i的公共相邻元素中的任意一个。

获得账号组合中所有账号发布信息的词袋向量的时候，本发明实施方式还可以提供另外的方式，即该装置还包括：处理模块105和第三生成模块106，如图5所示。

处理模块105用于通过自然语言处理技术对测试集或训练集账号组合中账号发布的信息进行处理。

第三生成模块106用于在处理模块105对测试集或训练集账号组合中账号发布的信息进行处理后，利用词频-逆向文件频率（TF-IDF）权重模型将经过处理的信息生成账号的词袋向量。

第一获得模块103用于在第一抽取模块102抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后，将抽取的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合。

输出模块104用于在第一获得模块103获得测试集账号组合的可能属于同一用户的预测值或预测值集合后，通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征，能够极大地丰富用户的信息，使最后的关联结果准确性更高。另外，通过公关相邻元素个数、Jaccard相似系数、Adamic/Adar度量等指标，能够扩展现有技术中传统的定义方式。

参阅图6，图6是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图，本实施方式的装置和图4、图5的装置基本相同，相同的地方请参见图4、图5以及相应的文字说明，不同之处在于该装置除了包括第一生成模块201、第一抽取模块202、第一获得模块203以及输出模块204外，还包括第二生成模块205、第二抽取模块206以及第二获得模块207。

需要说明的是，本实施方式的装置可以执行图2中的步骤。

第一生成模块201用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后，将测试集的账号生成测试集账号组合。

第一抽取模块202用于在第一生成模块201生成测试集账号组合后，抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

第一获得模块203用于在第一抽取模块202抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后，将抽取的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合。

输出模块204用于在第一获得模块203获得测试集账号组合的可能属于同一用户的预测值或预测值集合后，通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

第二生成模块205用于在输入从至少两个不同的社交网络中获取的训练集的账号后，将训练集的账号中属于同一用户的账号生成训练集账号组合。

第二抽取模块206用于在第二生成模块205生成训练集账号组合后，抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

第二获得模块207用于在第二抽取模块206抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后，通过监督分类算法，利用抽取的特征对训练集进行训练，获得分类预测模型。

监督分类算法属于一种机器学习分类算法，包括但不限于：支持向量机、逻辑回归。

参阅图7，图7是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图，本实施方式的装置和图4、图5、图6的装置基本相同，相同的地方请参见图4、图5、图6以及相应的文字说明，不同之处在于该装置除了包括第一生成模块301、第一抽取模块302、第一获得模块303以及输出模块304、第二生成模块305、第二抽取模块306以及第二获得模块307外，输出模块304还包括获得单元3041、判断单元3042、第一输出单元3043以及第二输出单元3044。

需要说明的是，本实施方式的装置可以执行图3中的步骤。

第一生成模块301用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后，将测试集的账号生成测试集账号组合。

第一抽取模块302用于在第一生成模块301生成测试集账号组合后，抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

第一获得模块303用于在第一抽取模块302抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后，将抽取的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合。

输出模块304用于在第一获得模块303获得测试集账号组合的可能属于同一用户的预测值或预测值集合后，通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

输出模块304具体用于通过多网络定向MNA算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。

其中，输出模块304包括：获得单元3041、判断单元3042、第一输出单元3043、比较单元3044以及第二输出单元3045。

获得单元3041用于在测试集账号组合中，对测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得账号的预测值列表。

判断单元3042用于判断测试集账号组合中是否存在闭合账号对。

第一输出单元3043用于在获得单元3041获得账号的预测值列表后，在测试集账号组合存在闭合账号对时，闭合账号对所对应的账号属于同一用户，输出属于同一用户的闭合账号对，其中，闭合账号对满足的条件是：账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

比较单元3044用于在账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k）时，比较测试集账号组合（a_i，b_j）的预测值和测试集账号组合（b_j，a_k）的预测值的大小。

第二输出单元3045用于在比较单元3044的比较结果为测试集账号组合（a_i，b_j）的预测值小于测试集账号组合（b_j，a_k）的预测值时，账号a_k和账号b_j属于同一用户，账号a_i和账号b_j不属于同一用户，输出属于同一用户的测试集账号组合（b_j，a_k），在比较单元3044的比较结果为测试集账号组合（a_i，b_j）的预测值大于测试集账号组合（b_j，a_k）的预测值时，账号a_i和账号b_j属于同一用户，账号a_k和账号b_j不属于同一用户，输出属于同一用户的测试集账号组合（a_i，b_j）。

第二生成模块305用于在输入从至少两个不同的社交网络中获取的训练集的账号后，将训练集的账号中属于同一用户的账号生成训练集账号组合。

第二抽取模块306用于在第二生成模块305生成训练集账号组合后，抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。

第二获得模块307用于在第二抽取模块306抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后，通过监督分类算法，利用抽取的特征对训练集进行训练，获得分类预测模型。

参阅图8，图8是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图，该装置包括处理器11、与处理器11耦合的存储器12、输入单元13、输出单元14以及抽取单元15。

输入单元13用于输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，处理器11用于将所述测试集的账号生成测试集账号组合，并将所述生成的测试集账号组合保存在存储器12中。

抽取单元15用于抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征，并将所述抽取的特征保存在存储器12中。

处理器11用于从存储器12中调取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征，控制输入单元13将所述调取的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合。

处理器11用于通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，控制输出单元14输出所述计算出的测试集账号组合的预测结果。

输入单元13还用于输入从所述至少两个不同的社交网络中获取的训练集的账号，处理器11用于将所述训练集的账号中属于同一用户的账号生成训练集账号组合，并将所述生成的训练集账号组合保存在存储器12中。

抽取单元15还用于抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征，并将所述抽取的特征保存在存储器12中。

处理器11用于调取存储器12中保存的所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征，通过监督分类算法，利用所述调取的特征对所述训练集进行训练，获得所述分类预测模型。

其中，所述至少两个不同的与所述账号的用户的行为数据相关的特征包括：所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。

其中，所述账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数，所述相同朋友的账号在所述训练集中；所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例；所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。

其中，所述账号组合中账号发布信息的空间特征包括：所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。

其中，所述账号组合中账号发布信息的时间特征包括：所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。

其中，所述账号组合中账号发布信息的文本特征包括：所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。

处理器11还用于通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理；利用词频-逆向文件频率（TF-IDF）权重模型将所述经过处理的信息生成所述账号的词袋向量。

处理器11还用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，控制输出单元14输出所述计算出的测试集账号组合的预测结果。

处理器11还用于在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表；若所述测试集账号组合存在闭合账号对，则所述闭合账号对所对应的账号属于同一用户，并控制输出单元14输出所述属于同一用户的闭合账号对，其中，所述闭合账号对满足的条件是：所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

处理器11还用于在所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k），则比较所述测试集账号组合（a_i，b_j）的预测值和所述测试集账号组合（b_j，a_k）的预测值的大小；若所述测试集账号组合（a_i，b_j）的预测值小于所述测试集账号组合（b_j，a_k）的预测值，则所述账号a_k和所述账号b_j属于同一用户，所述账号a_i和所述账号b_j不属于同一用户，并控制输出单元14输出所述属于同一用户的测试集账号组合（b_j，a_k），若所述测试集账号组合（a_i，b_j）的预测值大于所述测试集账号组合（b_j，a_k）的预测值，则所述账号a_i和所述账号b_j属于同一用户，所述账号a_k和所述账号b_j不属于同一用户，并控制输出单元14输出所述属于同一用户的测试集账号组合（a_i，b_j）。

本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征；将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得测试集账号组合的可能属于同一用户的预测值或预测值集合；通过关联算法对测试集账号组合的预测值或预测值集合进行计算，输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征，能够极大地丰富用户的信息，使最后的关联结果准确性更高。另外，通过公关相邻元素个数、Jaccard相似系数、Adamic/Adar度量等指标，能够扩展现有技术中传统的定义方式；通过MNA算法能够快速得到全局最优的匹配结果。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种在多个社交网络中识别同一用户的方法，其特征在于，定义所述同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，所述账号组合中每个账号分别来自不同的社交网络；所述方法包括：

输入从至少两个不同的社交网络的注册账号中获取的测试集的账号，并将所述测试集的账号生成测试集账号组合；

抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；

将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合；

通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合的步骤之前，包括：

输入从所述至少两个不同的社交网络中获取的训练集的账号，并将所述训练集的账号中属于同一用户的账号生成训练集账号组合；

抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；

通过监督分类算法，利用所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征对所述训练集进行训练，获得所述分类预测模型。

3.根据权利要求1或2所述的方法，其特征在于，所述至少两个不同的与所述账号的用户的行为数据相关的特征包括：所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。

4.根据权利要求3所述的方法，其特征在于，所述账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数，所述相同朋友的账号在所述训练集中；所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例；所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。

5.根据权利要求3所述的方法，其特征在于，所述账号组合中账号发布信息的空间特征包括：所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。

6.根据权利要求3所述的方法，其特征在于，所述账号组合中账号发布信息的时间特征包括：所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。

7.根据权利要求3所述的方法，其特征在于，所述账号组合中账号发布信息的文本特征包括：所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理；

利用词频-逆向文件频率（TF-IDF）权重模型将所述经过处理的信息生成所述账号的词袋向量。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果的步骤，包括：通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

10.根据权利要求9所述的方法，其特征在于，所述通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果的步骤，包括：

在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表；

若所述测试集账号组合存在闭合账号对，则所述闭合账号对所对应的账号属于同一用户，并输出所述属于同一用户的闭合账号对，其中，所述闭合账号对满足的条件是：所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

11.根据权利要求10所述的方法，其特征在于，所述在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表的步骤之后，还包括：

若所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k），则比较所述测试集账号组合（a_i，b_j）的预测值和所述测试集账号组合（b_j，a_k）的预测值的大小；

若所述测试集账号组合（a_i，b_j）的预测值小于所述测试集账号组合（b_j，a_k）的预测值，则所述账号a_k和所述账号b_j属于同一用户，所述账号a_i和所述账号b_j不属于同一用户，并输出所述属于同一用户的测试集账号组合（b_j，a_k），

若所述测试集账号组合（a_i，b_j）的预测值大于所述测试集账号组合（b_j，a_k）的预测值，则所述账号a_i和所述账号b_j属于同一用户，所述账号a_k和所述账号b_j不属于同一用户，并输出所述属于同一用户的测试集账号组合（a_i，b_j）。

12.一种在多个社交网络中识别同一用户的装置，其特征在于，定义所述同一用户在同一社交网络中只有一个账号，账号组合中账号的个数等于社交网络的个数，所述账号组合中每个账号分别来自不同的社交网络；所述装置包括：第一生成模块、第一抽取模块、第一获得模块以及输出模块；

所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后，将所述测试集的账号生成测试集账号组合；

所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后，抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；

所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后，将所述抽取的特征输入到已建立的分类预测模型中，获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合；

所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后，通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：第二生成模块、第二抽取模块以及第二获得模块；

所述第二生成模块用于在输入从所述至少两个不同的社交网络中获取的训练集的账号后，将所述训练集的账号中属于同一用户的账号生成训练集账号组合；

所述第二抽取模块用于在所述第二生成模块生成训练集账号组合后，抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征；

所述第二获得模块用于在所述第二抽取模块抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后，通过监督分类算法，利用所述抽取的特征对所述训练集进行训练，获得所述分类预测模型。

14.根据权利要求12或13所述的装置，其特征在于，所述至少两个不同的与所述账号的用户的行为数据相关的特征包括：所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。

15.根据权利要求14所述的装置，其特征在于，所述账号组合中账号的社交特征包括：公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量；其中，所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数，所述相同朋友的账号在所述训练集中；所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例；所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。

16.根据权利要求14所述的装置，其特征在于，所述账号组合中账号发布信息的空间特征包括：所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。

17.根据权利要求14所述的装置，其特征在于，所述账号组合中账号发布信息的时间特征包括：所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。

18.根据权利要求14所述的装置，其特征在于，所述账号组合中账号发布信息的文本特征包括：所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。

19.根据权利要求18所述的装置，其特征在于，所述装置还包括：处理模块和第三生成模块；

所述处理模块用于通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理；

所述第三生成模块用于在所述处理模块对所述测试集或训练集账号组合中账号发布的信息进行处理后，利用词频-逆向文件频率（TF-IDF）权重模型将所述经过处理的信息生成所述账号的词袋向量。

20.根据权利要求12至19任一项所述的装置，其特征在于，所述输出模块具体用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算，输出所述计算出的测试集账号组合的预测结果。

21.根据权利要求20所述的装置，其特征在于，所述输出模块包括：获得单元和第一输出单元；

所述获得单元用于在所述测试集账号组合中，对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序，获得所述账号的预测值列表；

所述第一输出单元用于在所述获得单元获得所述账号的预测值列表后，在所述测试集账号组合存在闭合账号对时，所述闭合账号对所对应的账号属于同一用户，输出所述属于同一用户的闭合账号对，其中，所述闭合账号对满足的条件是：所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_i）。

22.根据权利要求21所述的装置，其特征在于，所述输出模块还包括比较单元和第二输出单元；

所述比较单元用于在所述账号a_i预测值列表中最大的预测值对应的测试集账号组合为（a_i，b_j），且所述账号b_j预测值列表中最大的预测值对应的测试集账号组合为（b_j，a_k）时，比较所述测试集账号组合（a_i，b_j）的预测值和所述测试集账号组合（b_j，a_k）的预测值的大小；

所述第二输出单元用于在所述比较单元的比较结果为所述测试集账号组合（a_i，b_j）的预测值小于所述测试集账号组合（b_j，a_k）的预测值时，所述账号a_k和所述账号b_j属于同一用户，所述账号a_i和所述账号b_j不属于同一用户，输出所述属于同一用户的测试集账号组合（b_j，a_k），在所述比较单元的比较结果为所述测试集账号组合（a_i，b_j）的预测值大于所述测试集账号组合（b_j，a_k）的预测值时，所述账号a_i和所述账号b_j属于同一用户，所述账号a_k和所述账号b_j不属于同一用户，输出所述属于同一用户的测试集账号组合（a_i，b_j）。