CN104866558B

CN104866558B - 一种社交网络账号映射模型训练方法及映射方法和系统

Info

Publication number: CN104866558B
Application number: CN201510252840.1A
Authority: CN
Inventors: 许洪波; 樊茜; 梁英; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-05-18
Filing date: 2015-05-18
Publication date: 2018-08-10
Anticipated expiration: 2035-05-18
Also published as: CN104866558A

Abstract

本发明提供一种社交网络账号映射模型训练方法，包括：1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集；2)对每一个账号组合提取账号组合特征向量，包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；3)基于机器学习技术进行训练得到社交网络账号映射模型。本发明还提供了相应的社交网络账号映射方法及系统。本发明能够减少关系数据稀疏性对映射结果的不利影响，有效地提高社交网络账号映射的准确率。

Description

一种社交网络账号映射模型训练方法及映射方法和系统

技术领域

本发明涉及社会计算领域，具体地说，本发明涉及一种社交网络账号映射方法及系统。

背景技术

如今，全球使用社交网络的人越来越多，人们通常会通过多个社交网络展开发布信息、联系他人等社交行为。不同的社交网络中，属于同一用户的多个账号大多彼此隔离，它们之间一般没有任何的连接。而这些社交网络没有统一的组织或者连通数据的合作，因此导致难以获取属于同一用户的账号集合。如果能够获取不同社交网络中属于同一用户的账号集合，就可以在如链路推荐和基于多个社交网络数据的社区分析等方面提供更有价值的服务。

目前，对账号映射问题的相关研究中，数据特征主要包括账号属性、账号社交关系和账号的操作行为三个方面的特征。其中多数相关研究依赖的数据是账号的文本数据与属性。但仅以文本或属性作为研究的数据来源是不够的，会造成数据严重的稀疏性。而作为一种新的互动工具，微博上拥有大量的互粉关系数据，可以作为账号的相关数据进行研究，不仅可以改善数据的稀疏性，还引入账号的社交特点，更易发现账号区别他人的特征。然而，如果将现有的账号映射方案直接用于跨社交网络的账号对齐中，其准确率和映射概率均存在不足。

综上所述，当前迫切需要一种能够准确实现跨社交网络的账号映射(即找出属于同一个自然人的在不同社交网络中的不同账号的映射关系)的解决方案。

发明内容

因此，本发明的任务是克服上述现有技术的缺陷，提出一种社交网络账号映射解决方案。

根据本发明的一个方面，提供了一种社交网络账号映射模型训练方法，包括下列步骤：

1)将已知映射的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行组合，得到的h*h个账号组合构成训练集；

2)对于训练集中的每一个账号组合，提取账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；

3)基于机器学习技术构建分类模型，根据训练集中各个账号组合特征向量，以及训练集中各账号组合已知的映射关系正负例，对分类模型进行训练得到社交网络账号映射模型。

其中，所述两个账号的扩展共同邻居特征包括：两个账号的扩展共同邻居数量，反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征，以及反映扩展共同邻居的度的特征中的一项或多项。

其中，反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征为扩展共同邻居的Jaccard相似性系数。

其中，所述反映扩展共同邻居的度的特征为两个账号的Adamic/Adar Measure系数。

其中，所述账号组合特征向量中的文本特征包括：账号自身的发言中的高频词组特征。

其中，所述账号组合特征向量中的社交关系特征包括：以账号的互粉账号为等权值元素所构建的特征向量。

根据本发明的另一方面，提供了一种社交网络账号映射方法，包括下列步骤：

a)将两个不同微博中未映射的账号集合以及中的账号两两配对构成测试集；

b)对于测试集中的每个账号组合，提取其账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；

c)将所提取的账号组合特征向量输入预先训练的社交网络账号映射模型，得到分类结果，进而得出一个微博中的账号是否与另一微博中的账号映射，以及所映射的账号。

其中，所述步骤c)中，所述社交网络账号映射模型按照前述社交网络账号映射模型训练方法训练得到。

其中，所述步骤c)还包括：基于预先设定的阈值，根据账号组合的分类结果判断每个账号是否与另一微博中的账号映射以及所映射的账号。

根据本发明的又一方面，提供了一种社交网络账号映射系统，包括：

数据收集模块，用于将两个不同微博中未映射的账号集合以及中的账号两两配对构成测试集；

特征提取模块，用于提取测试集中的每一个账号组合的账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；

分类模块，用于将所提取的账号组合特征向量输入预先训练的社交网络账号映射模型，得到分类结果，进而得出一个微博中的账号是否与另一微博中的账号映射，以及所映射的账号。

根据本发明的又一方面，还提供了另一种社交网络账号映射系统，包括：

数据收集模块，用于将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集；以及将映射关系未知的微博s账号集合以及微博t账号集合中的账号两两配对构成测试集；

特征提取模块，用于提取训练集和测试集中的每一个账号组合的账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；

训练及分类模块，用于基于机器学习技术构建分类模型，根据训练集中各个账号组合特征向量，以及训练集中各账号组合已知的映射关系正负例，对分类模型进行训练得到社交网络账号映射模型；以及将所提取的账号组合特征向量输入预先训练的社交网络账号映射模型，得到分类结果，进而得出一个微博中的账号是否与另一微博中的账号映射，以及所映射的账号。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够有效提高账号映射的概率，即减少漏检率。

2、本发明能够减少关系数据稀疏性对映射结果的不利影响，有效地提高社交网络账号映射的准确率。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例的社交网络账号映射模型训练方法的流程图；

图2示出了本发明一个实施例的社交网络账号映射方法的流程图；

图3示出了本发明一个实施例的社交网络账号映射系统的结构示意图。

具体实施方式

本发明首次提出了一种对属于同一个自然人的跨微博(即跨社交网络)的不同账号映射关系的识别方案，针对跨多个异构的社交网络特征缺乏和关系特征稀疏的问题，发明人将链路预测技术引入，通过扩展已有关系特征，综合文本特征，结合机器学习算法，实现了一种跨微博的账号映射方法和系统。

下面结合附图和实施例对本发明做进一步地描述。

图1示出了本发明一个实施例的社交网络账号映射模型训练方法的流程图，该流程包括步骤100至300：

步骤100：将跨微博的账号映射关系已知的微博数据集合作为训练集，账号映射关系未知的微博数据集合作为测试集(即待映射的数据集合)。在训练集和测试集的每个账号的微博数据中，对表征该账号与其邻居的关联关系的关系数据(即反映账号在本社交网络的社交关系的数据，例如互粉关系数据及回复数据等)与该账号的发言的文本数据进行统计，然后将训练集内的账号分别两两组合生成账号组合。现以基于两个微博所构建的账号集合的输入为例，说明本发明的微博账号的映射方法。

假设接收到两个微博待映射账号集合，其中包括n个微博s的账号，ID集合为m个微博t的账号，ID集合为在两个微博中，已知映射的账号h对，ID集合为和通过步骤100，向微博服务器采集相关数据，并将数据按账号进行整理；训练集账号组合为已知映射的账号中的一个账号与中的一个账号进行组合所得到的h*h个账号组合。

在一个实施例中，所述步骤100包括下列子步骤：

步骤101：从微博服务器的微博数据中分离出每个账号的发言的文本数据和表征该账号与其邻居的关联关系的关系数据；

步骤102：对文本数据按照账号进行重组(即每个账号的文本分别整理到该账号下)，清除文本数据中干扰后续处理的噪声数据。噪声数据是指不是账号自身发言的数据，如转发的文本内容就属于噪声数据。

步骤103：从文本数据中提取有效的文本特征，并按一定规则筛选、得到文本特征向量。在一个实施例中，所提取的文本特征为文本的字的二元词条(bi-gram，即2-gram，可参考文献Brown P F,Desouza P V,Mercer R L,et al.Class-based n-gram models ofnatural language[J].Computational linguistics,1992,18(4):467-479.)，统计发言文本的字bi-gram的频数后，从中选择高频的词组作为特征，低频的词组删除。将所有特征的频数归一化，得到一组文本特征，构成账号的文本特征向量。

上述的将统计的词频归一化使用下面的公式计算：

其中，tf_t,d表示特征t在文本d中的词频归一化后的数值，同时也是在特征向量空间中，表征文本d的向量的维度t的数值；n_t表示特征t在文本d中出现的次数；N_d表示文档d中一共有的特征数量，包括特征选择筛除的特征。

步骤104：从关系数据中提取账号的社交关系特征，统计后得到关系特征向量。本文中，关系数据是指互粉关系数据。在一个实施例中，一个账号的社交关系特征是：对于该账号，将每个互粉账号分别作为一个特征，这些特征组合后得到账号的关系特征向量，其中各个互粉账号特征所对应的权值均为单位1。

步骤200：对于每对账号组合，基于社交关系数据计算账号组合内部的关联性，得出关联性特征，再结合步骤100所得的社交关系特征向量与文本特征向量，构造训练集和测试集特征向量空间。

其中，账号组合内部的具有两个来自不同微博的账号，本实施例中，这两个账号的关联性特征就是用于描述两个账号的扩展共同邻居的特征，扩展共同邻居是两个账号各自的邻居账号(即具有互粉关系的账号，下文中有时简称为邻居)中，那些已知的属于同一个自然人的邻居账号对。扩展共同邻居是根据链路预测技术所构建的概念，在账号组合内部，检测两个账号各自的互粉账号中的相同元素，即可反过来通过这些相同元素来帮助推测账号组合内部的两个原始账号之间的链接关系。因此发明人基于链路预测技术，通过从账号对已有的社交关系特征中提取跨社交网络的扩展共同邻居的特征(即关联性特征)，解决了跨多个异构的社交网络特征缺乏和关系特征稀疏的问题，从而提高跨社交网络的账号映射的准确性。

在一个实施例中，所述步骤200包括下列步骤：

步骤201：基于关系数据计算扩展共同邻居个数。

例如，微博s账号集合中的一账号和微博t账号集合中的一账号构成账号组合计算账号组合扩展共同邻居个数的计算公式为

其中，表示的邻居中存在已知映射的数量，即扩展共同邻居个数，表示在s网络中的邻居集合，表示在t网络中的邻居集合。

步骤202：基于关系数据计算扩展Jaccard相似性系数。

在一个实施例中，计算扩展Jaccard相似性系数的公式为

其中，表示的扩展Jaccard相似性系数，表示两个账号之间不同的邻居的数量，表示即的扩展共同邻居个数，也就是邻居中存在已知映射的数量。

步骤203：基于关系数据计算扩展Adamic/Adar Measure。

在一个实施例中，计算扩展Adamic/Adar Measure的公式为

其中，表示的扩展Adamic/Adar Measure，表示两个账号的各自邻居之间为已知映射的账号对，该特征即是统计账号组合的邻居中所有已知映射的邻居组合中的两个账号的度的特征。

步骤204：对于每个账号组合，基于两个账号各自的文本特征、社交关系特征，以及两个账号之间的账号关联性特征，综合得到该账号组合的特征向量。

在一个实施例中，生成账号组合的特征向量的公式为

其中，表示账号组合的特征向量，表示的文本特征向量，表示的社交关系特征向量，表示的文本特征向量，表示的社交关系特征向量，表示该账号组合的关联性特征。

步骤300：基于步骤200构造的训练集的特征向量空间，利用分类算法进行模型训练。在一个实施例中，可以选择svm算法，基于账号组合的特征向量，构建以该特征向量为输入的模型函数，对于正例，将模型函数赋值为1，对于负例，将模型函数赋值为0,按照上述方法基于训练集中的账号组合对模型进行训练，即可得到跨社交网络的账号映射模型。其中，账号组合中两个账号属于同一个人的，标记该组合为正例，反之则标记为负例。需注意的是，当负例组合的数量比正例组合的数量多很多时，可按分别从训练集的账号组合内的负例组合中随机抽取与正例组合数量相匹配的组合，保证正负例的数量平衡，避免分类模型对负例过拟合。

图2示出了本发明一个实施例的社交网络账号映射方法的流程图，该流程包括步骤100至400：

步骤100：本流程中的步骤100与社交网络账号映射模型训练方法中的步骤100基本一致，区别仅在于用测试集账号组合替换训练集账号组合。仍然假设接收到两个微博待映射账号集合，其中包括n个微博s的账号，ID集合为m个微博t的账号，ID集合为在两个微博中，用中的任一个账号与中的任一个账号进行组合，即可得到m*n个账号组合，这m*n个账号组合构成测试集。

步骤200：本流程中的步骤200与社交网络账号映射模型训练方法中的步骤200一致，此处不再赘述。

步骤300：基于训练好的分类模型(即社交网络账号映射模型)，对测试集的特征向量进行分类，得到测试集中每个账号组合的分类结果，分类结果表示每个账号组合被分为正例的概率。本实施例中，分类结果为跨社交网络的账号映射模型输出的分数。

步骤400：对分类结果进行聚合，推测账号映射关系。对于每个账号，根据与它相关的所有账号组合的分类结果得出它是否与另一微博中的账号映射，当它与另一微博中的账号存在映射关系时，进一步得出所映射的账号。

在一个实施例中，所述步骤400包括下列子步骤：

步骤401：将账号组合的分类结果转化为每个账号u_i相映射的另一个账号集合{u_k1,u_k2…u_kn}以及对应的映射概率{score_k1，score_k2，…，score_kn}。其中，score_k1为账号组合的分类得分，score_k2为账号组合的分类得分，……，score_kn为账号组合的分类得分。

步骤402：基于映射概率按照设定阈值进行筛选映射的账号集合，即映射概率超过阈值的账号组成的集合为该账号u_i的映射账号结果。其中，假设在账号集合{u_k1,u_k2…u_kn}中，有多个账号的映射概率都超过阈值，则映射结果为使映射概率最大的那个账号，如果账号集合{u_k1,u_k2…u_kn}中所有账号的映射概率均小于预设的阈值，则映射失败，即微博t中不存在与微博s中的账号u_i映射(属于同一自然人)的账号。

以上就介绍完了社交网络账号映射方法。

另一方面，本发明还提供了相应的社交网络账号映射系统，图3示出了根据本发明一个实施例所提供的社交网络账号映射系统的结构示意图，如图2所示，跨微博账号映射系统1包括：数据收集模块11、特征提取模块12、训练与分类模块13和结果分析模块14。以下分别对系统中的各个模块进行详细描述。

数据收集模块11用于从两个微博服务器2获得微博数据并收集所需数据，其功能包括关系数据和根据设定规则筛选、重组成新数据单元形式的文本数据。在一个实施例中，数据收集模块11包括数据分离重组子模块111和噪声过滤子模块112。数据分离重组子模块111用于分离出微博数据中账号发言的文本数据和社交关系数据，并对文本数据按照账号进行重组，噪声过滤子模块112用于清除文本数据中干扰后续处理的噪声数据。

特征提取模块12用于将文本数据进行一系列的预处理，同时从社交关系数据提取社交关系特征，并对得到的社交关系特征进行扩展，得到跨微博的账号之间的关联性特征，然后综合多种特征构建基于跨微博的账号组合的特征向量空间。在一个实施例中，特征提取模块12包括文本特征提取子模块121、关系特征提取与扩展子模块122和向量空间构建子模块123。文本特征提取子模块121用于分别统计每个账号发言文本的字的二元词条(bi-gram)的频数，从中选择高频的词组作为特征，低频的词组删除。将所有特征的频数归一化，得到一组账号的文本特征向量。关系特征提取与扩展子模块122负责从数据中提取社交关系特征，按照设定方式扩展得到账号组合的一组新的关联性特征，该关联性特征是指跨社交网络的账号之间的扩展共同邻居特征。向量空间构建子模块123用于将三组特征，即账号自身的文本特征、账号在本社交网络内的社交关系特征，以及跨社交网络的账号之间的扩展共同邻居特征组合起来，构建账号组合特征向量空间。

训练与分类模块13包括模型训练子模块131和分类子模块132。在一个实施例中，模型训练子模块131用于将训练集的特征向量构成的向量空间在设定的机器学习分类算法(例如svm算法)下训练得到分类模型，即账号映射模型；分类子模块132用于将测试数据在经过训练的分类模型下分类，输出分类结果。

结果分析模块14包括结果聚合子模块141和结果推测子模块142。在一个实施例中，结果聚合物子模块141用于对账号组合的分类结果按单个账号进行聚合；结果推测子模块142用于在单个账号聚合后的分类结果中按一定规则推测账号映射结果。例如可以设定一个分数阈值，如果一个账号对应的所有账号组合的分类得分均小于该分数阈值，则映射失败，如果该账号对应的账号组合分类得分中存在超过该分数阈值的，则取分类得分最大的账号组合中的另一账号作为映射结果。

与现有技术相比，本发明利用微博账号的文本特征、关系特征和关系扩展后的特征构建账号组合的特征向量，挖掘用户的社交特点与语言风格，较好的解决了跨多个异构的社交网络特征代表性不足的问题，有效的判别账号是否为同一自然人，且准确率和映射概率均显著提高。

为验证本发明的实际效果，发明人设计了如下实验：

从新浪微博和搜狐微博中选出合适的实验账号，一共有2991个两个微博都注册的加v账号，除掉数据量不合格的账号，使得保留的账号集合中，单个账号的互粉关系不少于10个，微博文本总长度不少于1000比特，余下一共2239个账号供后续实验，并收集各账号的所有文本和互粉关系。其中，选用加v账号作为实验对象的原因是此类账号是通过了实名认证，能够通过认证信息来确定是一个自然人注册的两个不同微博里的账号，确保标注数据的可靠性。

采取3折交叉验证方案，将2239对微博账号的三分之二作为训练集，三分之一作为测试集，训练集与测试集中的已知账号映射关系均为训练集中的账号映射关系，以供关系特征的扩展计算使用。训练集与测试集的账号组合均为该集合的一个新浪微博账号与一个搜狐微博账号进行组合，其中一个账号组合中两个账号属于同一个人的，则标记该组合为正例，反之则标记为负例。在此组合方法下，负例组合的数量会比正例组合的数量多很多，因此，分别从训练集和测试集的账号组合内的负例组合中随机抽取与正例组合数量相匹配的组合，保证正负例的数量平衡，避免分类模型对负例过拟合。

使用字的二元词条(bi-gram)作为账号的文本特征，使用回复关系特征作为账号的社交关系特征，使用前文所述的扩展特征向量中的特征组合作为账号组合的关联性特征，构建账号组合的特征向量，训练账号映射模型，并对测试集中的账号组合进行账号映射。为了避免数据采样的偶然性导致实验结果出现偏差，采用5次实验取平均值的方法，每次实验随机选择与正例组合数量一致的负例组合，得到五组实验结果如表1所示

表1

可以看出五次随机采样的实验结果相差不大，且均大于78％，能够充分验证本章节提出的方法的有效性。

进一步地，发明人还对特征有效性做了分析。

为了测试不同特征的有效性，发明人对字bigram、回复关系特征及其扩展特征组合进行了实验对比，跟前面相同，每组实验均对负例样本进行五次随机采样取结果平均值，对比结果如表2和3所示，表2中是单独使用三组特征(关系、文本、关联性特征)中的一种得到的实验结果，表3是使用三组特征的不同组合的特征得到的实验结果。其中r代表关系特征，doc代表文本特征，aa代表扩展Adamic/Adar Measure系数，cn代表扩展共同邻居个数，j代表扩展Jaccard相似性系数。

表2

表3

从表2和表3可以看出，单独使用一种特征效果远比综合使用三组特征的实验结果差。综合三组特征的实验结果比其它特征组合的实验结果提升显著。分析实验得到的实例特征向量具体数值可以得知，关系特征和关联性特征均十分稀疏，因为在账号的互粉关系中，存在已映射账号的数量决定了关联性特征的数值，而有一部分账号是与已映射账号关系很不密切，因而导致该部分的账号的关联性特征十分稀疏，而关系特征和文本特征可以对此进行弥补；同时有一部分账号的互粉账号很少导致了关系特征的稀疏，文本特征可以进行弥补，并且如果与已映射账号关联密切，关联性特征也可对此弥补，从而提升了整体的映射准确率。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种社交网络账号映射模型训练方法，包括下列步骤：

1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集；

2.根据权利要求1所述的社交网络账号映射模型训练方法，其特征在于，所述两个账号的扩展共同邻居特征包括：两个账号的扩展共同邻居数量，反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征，以及反映扩展共同邻居的度的特征中的一项或多项。

3.根据权利要求2所述的社交网络账号映射模型训练方法，其特征在于，反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征为扩展共同邻居的Jaccard相似性系数。

4.根据权利要求2所述的社交网络账号映射模型训练方法，其特征在于，所述反映扩展共同邻居的度的特征为两个账号的Adamic/Adar Measure系数。

5.根据权利要求1所述的社交网络账号映射模型训练方法，其特征在于，所述账号组合特征向量中的文本特征包括：账号自身的发言中的高频词组特征。

6.根据权利要求1所述的社交网络账号映射模型训练方法，其特征在于，所述账号组合特征向量中的社交关系特征包括：以账号的互粉账号为等权值元素所构建的特征向量。

7.一种社交网络账号映射方法，包括下列步骤：

a)将映射关系未知的微博s账号集合以及微博t账号集合中的账号两两配对构成测试集；

c)将所提取的账号组合特征向量输入社交网络账号映射模型，得到分类结果，进而得出一个微博中的账号是否与另一微博中的账号映射，以及所映射的账号，其中所述社交网络账号映射模型按照权利要求1～6中任意一项所述的社交网络账号映射模型训练方法训练得到。

8.根据权利要求7所述的社交网络账号映射方法，其特征在于，所述步骤c)还包括：基于预先设定的阈值，根据账号组合的分类结果判断每个账号是否与另一微博中的账号映射以及所映射的账号。

9.一种社交网络账号映射系统，包括：