CN104765729B

CN104765729B - 一种跨平台微博社区账户匹配方法

Info

Publication number: CN104765729B
Application number: CN201410000302.9A
Authority: CN
Inventors: 李晓菲; 梁循; 周小平; 施晓菁; 申华; 张海燕
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2018-08-31
Anticipated expiration: 2034-01-02
Also published as: CN104765729A

Abstract

本发明是涉及微博社区数据挖掘领域，是一种跨平台账户匹配方法，使多个社交平台账户建立联系成为可能。在本发明中，以新浪微博和腾讯微博作为账户匹配的两个社交平台，通过已知少量的匹配账户，从账户关注关系强度来挖掘疑似匹配账户；然后根据发布微博内容设定标签，并对其进行余弦相似度检验来进一步判定疑似匹配账户是否一致；最后将新确认的匹配账户加入已知匹配账户中；继续使用上述方法不断迭代，实现跨平台账户匹配。本发明可以为以后跨平台相关研究提供桥梁作用，亦可帮助舆情监督部门迅速识别相关账户，跟踪调研，进行科学决策提供信息支持。

Description

一种跨平台微博社区账户匹配方法

技术领域

本发明属于多社交平台账户匹配技术，具体涉及一种基于微博用户关系和用户发布信息的跨平台账户匹配方法。

背景技术

社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台。随着信息技术、网络的高速发展以及Web2.0技术的广泛应用，各式各样的社交媒体不断涌现。人们可以选择，且使用的社交媒体也越来越多样化现阶段，主要的社交媒体包括社交网站、微博、微信、博客、论坛、播客等等。另外，一些较为成功的社交软件，如腾讯QQ、飞信等，也丰富了我们的网上社交生活。实际上，几乎所有人都拥有不少于一个的社交平台。大多数人可能同时有QQ、微信、飞信、新浪微博、腾讯微博等多个账户(账号)。

作为社交媒体的新秀，微博网站的出现则是满足了人们即时交流分享资讯以及与他人沟通的需求。微博作为一个基于用户关注与微博转发的信息分享与传播平台，其用户可以使用计算机、手机等设备，通过MI软件和外部API接口等多种方式发布140个字符以内的微博信息。其信息发布基本不受时空的限制，信息更新更加便捷与迅速；因此，其具有高度的即时性和强大的交互性等特点。与传统博客相比，微博“短、灵、快”的特点迎合了现代人的快节奏生活。因此，微博以其快速便捷的特性迅速风靡全球。目前，我国微博用户数量已超过3亿。微博在新闻讯息传递速度方面的优越性，越来越受舆情监管部门的重视。

账户是自然人或者社会组织(以下都简称为“人”)在网络计算机中的映像，账户之间的匹配也就是将一个特定人的不同媒介之间建立连接。账户的关注(收听)体现人的特征可以作为账户匹配的参考。此外，在Web2.0时代，用户不仅是网站内容的浏览者，也成为了网站内容的创造者。微博关注(收听)体现了账户人的兴趣所在，微博内容反映了账户人的性格特点、行为特征。通过分析微博关注(收听)关系及微博内容的相似度来断定不同平台的账户是否为同一个人，本发明是对同一个人的跨平台微博账户之间建立匹配连接。

账户人的关注体现了其在微博中的社会网络单向或双向社交网络，我们认为同一个人更有可能关注同样的人，在不同的平台上体现在关注同一个领域的大V(身份获认证的微博意见领袖)。本发明将关注作为匹配的第一个筛选或前提条件。

除了部分喜爱潜水、基本不发言或是很少转发的账户人，其他账户人使用微博的最主要方式就是随时随地发布自己的状态、心情、事件等信息。从账户人发布的微博中可以看出他的习惯用语、兴趣点所在以及性格特点。对其发布内容进行分析，给该账户人打上个性化标签，为跨平台间的账户匹配提供支持。

账户匹配对是指同一用户在两个不同微博社区的账户对。本发明从已确定为同一个人的账户入手，通过一系列基于关注和微博内容的判断，从疑似匹配账户中找到为同一个人的账户添加到已确认的账户匹配对集合中；再以更新后的账户匹配对集合入手，采用相同的方法，寻找、匹配账户，如次往复，不断迭代，最终实现两个平台之间的帐户匹配。

本发明提出一种跨平台微博社区账户匹配的方法，可以为以后跨平台相关研究提供桥梁作用，亦可帮助舆情监督部门迅速识别相关账户，跟踪调研，进行科学决策提供信息支持。

发明内容

本发明的目的在于通过识别两个不同的社交网络之间同一用户的不同账户，进而为跨平台的相关研究、舆情监督部门对跨平台的舆情监督、跟踪调研、个性化推荐服务等提供必要的基础，下面以新浪微博和腾讯微博的账户匹配为例，进行介绍。

本发明的基本思路是利用已有的网络数据(包括账户、账户基本信息、账户关系和发布的内容等)，通过已知少量的匹配账户，从账户关系挖掘疑似匹配账户，进而根据发布内容进一步判定疑似匹配账户是否一致；最后将新确认的匹配账户加入已知匹配账户中，继续使用上述方法不断迭代，实现跨平台账户匹配。

本发明分为两个阶段。第一阶段为数据预处理阶段，其主要内容为结构化微博社区数据，以及少量已知匹配账户的标记。第二个阶段为循环迭代匹配账户阶段，其主要内容为通过已知账户匹配对，计算出具有较高连接关系融合度的账户匹配对(即疑似账户匹配对)，进而通过所发布内容信息进一步判定匹配账户；最后，将所得的账户匹配对并入已知的账户匹配对中，重复上述方法，迭代找出所有的账户匹配对。

本发明第一阶段预处理的内容包括以下几个部分：

1.微博社区账户关系结构化。将微博网络账户之间的关注关系、表示为矩阵，以便于后续操作处理。两个微博社区可以得到两个关注关系矩阵RC₁和RC₂。例如两社区平台中，腾讯微博的关注关系用RC₁(行分别为：A、B、C；列分别为S₁，S₂，S₃)表示，新浪微博的关注关系用RC₂(行分别为：A’、B’、C’；列分别为Q₁，Q₂，Q₃，Q₄)表示，若矩阵值如下所示：

其中，RC₁和RC₂的行数相同，每相同行表示匹配的账户对，j列表示相应平台的行账户的粉丝账户。若矩阵中的元素rc_ij＝1，表示i账户是j账户的关注节点，亦即j为i的粉丝；若矩阵中的元素rc_ij＝0，表示i账户不是j账户的关注节点。

2.标记已知匹配账户对。将两个微博社区中，已知的账户匹配对进行标记。

本发明第二阶段为本发明的核心内容，其包含两个步骤：

步骤1：疑似账户匹配对挖掘。构建两个网络已匹配账户同未匹配账户之间的关系矩阵RC₁和RC₂，则疑似账户匹配对矩阵RS的计算公式为

RS＝RC₁ ^T×RC₂

若两矩阵如上例(1)，则可得

其中，RC₁ ^T为矩阵RC₁的转置矩阵，RS中的元素rs_ij表示腾讯微博中未配对账户中的第i个账户同新浪微博中未配对账户中的第j个账户的关系强度，其值越大，则该两个账户为同一个用户的可能性越大。

遍历矩阵RS中的各元素，当其值大于设定的阈值T时，则认为该元素所对应的两个社区的账户为疑似账户匹配对，并归入疑似账户匹配对集合中。若疑似账户匹配对集合为空，则结束任务。若RS如上(2)所示，并选取T＝2，则可知S₁和Q₄、S₂和Q₁、S₂和Q₂相似，可以称为疑似账户匹配对。

步骤2：账户匹配对确认。遍历步骤1中的疑似账户匹配对。对每一对疑似账户匹配对，提取该匹配对对应的两个账户的原创微博内容信息。接着，对内容信息进行分词、去除停用词处理。对已去除停用词的内容信息数据，进行标签提取。本发明使用已有的TF-IDF方法提取标签。

TF-IDF方法用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。词频TF指的是某一个给定的词语在该文件中出现的次数；逆向文件频率IDF是一个词语普遍重要性的度量。

首先，通过计算内容信息中各分词的TF-IDF值，其计算公式为

TF-IDF＝TF×IDF

在此发明中，TF表示该词在该账户最近K个月发布的总微博内容中出现的频率，其计算公式为

TF＝N/Nt

在此发明中，N是该词出现的次数，Nt为总微博内容所包括的所有词的总数。IDF表示该词代表文档的权重，其计算公式为

IDF＝-log(D/Dt)

在此发明中，D是指该社区中发布信息包含该词的账户数，Dt则是该社区的账户数。

在此基础上，抽取TF-IDF值最高的L0个词作为该账户的标签集，建立空间向量模型。最后，采用余弦相似度计算公式计算该疑似账户匹配对的内容相似性。其中，余弦相似度在本发明中度量了两个代表账户人的标签向量的相似性大小，其计算公式如下

当其相似度大于设定的阈值α时，接受该疑似账户匹配对配对成功，并将其置入确认账户匹配对集合CS中；否则，拒绝该疑似账户匹配对的匹配。

最后，将确认账户匹配对CS并入已知的账户匹配对，重复步骤1，直至所产生的CS集合为空为止。此时，所得到的账户匹配对集合即为所挖掘出的所有的账户匹配对。

本发明充分利用微博社区的用户关系图和用户发布内容信息，通过采用矩阵计算获取两个微博社区中所有未配对账户对之间的公共关系强度，进而采用信息内容进一步确定公共关系较强的疑似账户匹配对，最后将所得的账户匹配对并入已知账户匹配对，不断迭代找寻所有的账户匹配对。它能在充分利用已知信息的情况下，尽可能的挖掘两个不同平台之间的匹配账户。

附图说明

图1是新浪微博示例图。

图2是腾讯微博示例图。

图3是账户节点表示方式图。

图4是微博抓取系统流程图。

图5.1是本发明的总系统流程图；图5.2是具体实施方案流程图。

图6.1是账户匹配对集合中白色结点列表的数据库表单示例；图6.2是节点的微博数据表单示例。

图7.1和图7.2是分词示例。图7.1为原语段，图7.2为分词结果。

图8.1、图8.2和图8.3是TF-IDF算法结果示例。图8.1为账户人部分词语TF的值，图8.2为账户人部分IDF的值，图8.3为TF-IDF的值。

具体实施方式

下面结合附图及实例对本发明方法作进一步的描述(步骤流程图见附图5.2)。

步骤1：首先将所有腾讯微博账户节点标为蓝色点点节点，将新浪账户节点标为红色斜纹节点(账户节点表示见附图3)。再将两个平台账户确定是一个人的账户节点合并标记为白色节点，用字段name1记录红色斜纹节点账号id，并用一个字段name2记录蓝色点点节点账号id；此时，(name1，name2)构成一个账户匹配对。初始时刻，所有的账户匹配对构成账户匹配对集合。初始账户匹配对集合的获取方法包括：根据粉丝量和认证等方法来确定某个行业领域的大V账户是否是一个人，或者朋友圈的准确了解确定两账户是否是一个人等简单有效的方法。示例见附图6。

步骤2：根据账户匹配对集合，分别计算腾讯微博和新浪微博中，账户匹配对集合中的账户同未匹配的账户之间的关注关系矩阵，分别表示为RC_tencent和RC_sina。

步骤3：计算腾讯微博和新浪微博未匹配账户之间的关系强度，其计算公式为

RS＝RC_tencent×RC_sina

RS中的元素RS_ij表示腾讯微博中未配对账户中的第i个账户同新浪微博中未配对账户中的第j个账户的关系强度，其值越大，则该两个账户为同一个用户的可能性越大。

步骤4：遍历RS中的所有元素，获取所有值大于L的元素，所有这些元素组成的集合为疑似账户匹配对集合。如果疑似账户匹配对集合为空，则停止匹配。否则，执行下一步骤。

步骤5：遍历疑似账户匹配对集合。若其集合中的元素为rs_ij，则获取腾讯微博未配对账户中的第i个账户的微博内容和新浪微博账户未配对账户中的第j个账户的微博内容，抓取流程见附图4。去除所有微博中转发的内容。由于微博内容中有些部分对我们的后续处理并无帮助，却出现较频繁，所以先进行预处理。预处理内容包括：

1)将微博中的符号，如表情符号，@标志及其后面的人的昵称、话题标志“##”等内容去除。

2)还需去除微博中的标点、空格、回车等内容。

步骤6：对账户人的微博进行分词处理及停用词去除。具体实现如下：

1)由于微博用语的特殊性，有些词语带有微博特色，导致有些节点账户的词语并不在分词词典中，因此先将其添加入账户词典以对其进行完善。

2)目前存在多种分词方式，我们这里选择使用中科院分词系统ICTLAS，根据导入的账户人的词典，对微博进行分词。分词结果示例见附图7.1和图7.2。

3)根据给定的停用词表，对经过分词的微博进行停用词的去除。我们按照停用词表去除停用词，去除微博中的代词、冠词、连词等。这些词出现频率很高，但对标签的提取没有帮助，且去除它们不会影响微博主题，即不影响代表账户节点的特征。另外，由于我们在标签的提取中选择账户节点的一些习惯用语为标签，所以必须注意不能将这些词加入停用词表。

4)将分完词、去除停用词后的内容按照不同平台放入两个文件夹，每个节点所有三个月的微博放入一个txt文档中，并用节点账户id命名。

步骤7：对已去除停用词的微博数据，按照前述方法编写java程序进行关键词提取。

使用前述TF-IDF方法进行关键词提取。即TF＝N/Nt，其中N是这个字词在本txt中出现的次数，Nt则是本txt中包括的所有字词的总数；IDF＝-log(D/Dt)，其中D是本文件夹中含有此字词的txt数；Dt则是本文件夹中包含总的txt数。最后将每个字词的TF*IDF的值记录并进行降序排序，每个txt文件中取前L0个(如果不足L0个认为该账户活跃性不够不足以用来做匹配，删除该节点)作为该账户节点的初始标签向量，向量的值是相应词的IF*IDF值。示例见附图8.1、图8.2、图8.3。

步骤8：将存放新浪和腾讯微博账户节点的两个文件夹中所有txt中的L0个字词放入到一个名叫“分量池”的txt中，进行词语的去重复，最后得到的元素个数另为N，并以去重之后的N的字词作为接下来节点更新标签向量的基础。

步骤9：将成对文件夹中的节点信息存入到java的数组变量中。具体存储规则如下：

1)用red[·]存储那些新浪微博文件夹中的账户节点，数组大小为其文件夹中txt的数目；同理，用blue[·]存储相应的腾讯微博文件夹中的账户节点。数组中的每个值包含一个代表微博内容的标签向量值和代表节点账户的(txt名字)的类。

2)标签向量值是一个N维向量，向量的分量值是按“分量池”txt中的字词顺序的TF-IDF值确定的。如果该词在原来的节点txt中存在，那么令N维标签向量的分量值等于相应原来相应分量的值；如果不存在，那么令此分量值为零。

步骤10：：设定阈值α，进行相似度检验，确定是否可以账户匹配成功。将red数组中的每个元素和blue数组中的每个元素的标签向量算出余弦公式值

当夹角余弦的值cos(θ)大于预先设定的阈值α时，可以判定为同一个人。此时我们在数据库的账户匹配对集合中加入一个记录，name1用此red元素的代表节点账户txt名字来赋值，name2用此blue元素的代表节点账户txt名字来赋值，标记为白色节点。并将这两个元素从red和blue数组中删除。

步骤11：如果所有疑似账户匹配对都不能确认，则停止匹配，并得到新的账户匹配对集合，并退出。否则，继续进行匹配，则转入步骤2。

Claims

1.一种跨平台微博社区账户匹配方法，其特征在于，该方法包括：

第一阶段：数据预处理，结构化微博社区数据并对已知匹配账户进行标记；

第二阶段：循环迭代匹配账户，通过已知的账户匹配对，利用关系矩阵寻找高关系融合度的疑似账户匹配对，再通过账户发布的微博内容的相似度在疑似账户匹配对集合中挑选出匹配账户，加入到账户匹配对集合中。

2.如权利要求1所述的方法，其特征在于，该方法第一阶段进一步包括：

对已知账户匹配对集合获取，选择已知的某个行业身份获认证的微博意见领袖账户或者准确了解的朋友圈账户构成初始的账户匹配对集合；对结构化微博社区数据，是将已知匹配账户进行跨平台标记，并将其和粉丝账户关系表示为粉丝的关注关系矩阵。

3.如权利要求1所述的方法，其特征在于，该方法第二阶段进一步包括：

对循环迭代匹配账户，是将每次挖掘到的账户匹配对加入到账户匹配对集合中，用循环迭代的思想，再次根据新得到的账户匹配对的粉丝关系得到更多的网络账户节点后，进行下一循环的账户匹配对的挖掘。

4.如权利要求1所述的方法，其特征在于，该方法第二阶段进一步包括：

对疑似账户匹配对的获得，是根据已结构化的关注关系矩阵，利用公式RS＝R_tencent×R_sina得到未匹配账户之间的关系强度，R_tencent和R_sina分别为腾讯微博和新浪微博中的账户匹配对集合中的账户同未匹配的账户之间的关注关系矩阵；再根据预设的关系强度阈值L，选择可以继续进行匹配的账户作为疑似账户匹配对集合中的元素。

5.如权利要求1所述的方法，其特征在于，该方法第二阶段进一步包括：

对账户匹配对的获得，将疑似账户匹配对集合中各元素的初始标签集合在一起形成“分量池”，进行标签去重后得到新的含N个标签有序序列，再将元素维数改为N维，按原有的TF-IDF方法赋值，最后进行两两的余弦相似度检验，将余弦值大于预设阈值α的两个账户合并成一个节点，加入到账户匹配对集合中。