CN111160130A

CN111160130A - 一种多平台虚拟身份账号的多维碰撞识别方法

Info

Publication number: CN111160130A
Application number: CN201911271999.2A
Authority: CN
Inventors: 徐舒霖; 胥小波; 聂小明; 王伟; 康英来; 范晓波; 敖佳
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15
Anticipated expiration: 2039-12-12
Also published as: CN111160130B

Abstract

本发明公开了一种多平台虚拟身份账号的多维碰撞识别方法，依次对不同社交平台虚拟身份账号的头像、属性和推文内容进行相似度匹配，若其中一个匹配成功，则认为这些虚拟身份账号属于一个用户，若无一匹配成功，则识别失败，认为它们不属于同一个用户。与现有技术相比，本发明的积极效果是：本发明提出的一种多平台虚拟身份账号的多维碰撞识别方法，针对不同平台的虚拟身份账号，提取头像、属性和推文等多个维度的特征，通过全方位多角度地碰撞比对，进而有效地对异源虚拟身份账号进行同一用户认定，其准确率能达到90％以上。

Description

一种多平台虚拟身份账号的多维碰撞识别方法

技术领域

本发明涉及一种多平台虚拟身份账号的多维碰撞识别方法。

背景技术

在社会关系中，人的身份不仅是作为社会成员在生产和实践活动中区别于他人的标志和象征，更是与社会其他成员关系的纽带。个体在真实社会中的身份往往呈现出一种稳定、恒久和被动的特质。而网络社会则恰恰相反，人们在虚拟网络上可以平等、无障碍的沟通，可以自由随意的改变姓名、性别、年龄职业等基本信息，隐藏部分甚至全部的真实社会的特质，构建不同于现实社会身份的虚拟身份。另一方面，随着各种社交网络的诞生和发展，也使得世界各地的人们可以利用各种不同的虚拟身份随时分享、评论或讨论任何话题。信息的发布者不再仅仅是权威的新闻媒体，而是网络已匿名身份发布信息的广大网民，这使得互联网文化百花齐放百家争鸣的同时，也带来了一系列敏感而又现实的问题。

多平台虚拟身份账号的多维碰撞识别技术即根据所获取的不同社交平台(例如微博，facebook和twitter)数据，识别出属于同一个用户的多个虚拟身份账号。该技术对于社交网络中社区圈子的识别(Community Detection)、基于好友关系为用户推荐商品或内容、社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及互联网金融行业中的反欺诈预测等领域都有着极强的研究价值和实际应用价值。

发明内容

为了克服现有技术的上述缺点，本发明提出了一种多平台虚拟身份账号的多维碰撞识别方法。

本发明解决其技术问题所采用的技术方案是：一种多平台虚拟身份账号的多维碰撞识别方法，包括如下步骤：

步骤一、对不同虚拟身份账号的头像进行相似度匹配：若匹配成功，则判断这些虚拟身份账号属于同一用户；若匹配不成功，则进入步骤二；

步骤二、对不同虚拟身份账号的属性进行相似度匹配：若匹配成功，则判断这些虚拟身份账号属于同一用户；若匹配不成功，则进入步骤三；

步骤三、对不同虚拟身份账号的推文进行相似度匹配：若匹配成功，则判断这些虚拟身份账号属于同一用户；若匹配不成功，则判断这些虚拟身份账号不属于同一个用户。

与现有技术相比，本发明的积极效果是：

本发明提出的一种多平台虚拟身份账号的多维碰撞识别方法，针对不同平台的虚拟身份账号，分别对头像、属性和推文开展多个维度的特征提取，通过全方位多角度地碰撞比对，进而有效地对异源虚拟身份账号进行同一用户识别，准确率能达到90％以上。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为基于虚拟身份账号头像的虚拟身份关联技术框架；

图2为预测训练模型的框架；

图3为共同好友重叠的计算方式；

图4为基于虚拟身份账号推文内容的虚拟身份账号关联技术框架；

图5为虚拟身份账号关联流程图；

图6为基于推文内容的虚拟身份账号关联技术实验结果。

具体实施方式

一种多平台虚拟身份账号的多维碰撞识别方法，包括如下内容：

一、基于头像的虚拟身份账号关联技术

基于头像的虚拟身份账号关联技术使用人脸识别技术对不同社交平台上的用户头像进行人脸验证进而判别是否是同一个用户，该技术框架如图1所示。主要分为人脸检测，人脸映射和基于距离进行身份关联三个步骤。

由于虚拟身份账号的用户头像呈现形式多样，包含多人脸图像以及卡通图案、风景等非人脸图像，因此为了减少后期计算量和提高准确率，需首先将虚拟身份账号中抽取的头像信息进行过滤操作，移除集合中的多人脸图像和非人脸图像，仅保留单人脸图像，为后续的人脸映射提供最佳输入。为了能快速且精准的检测出头像中的人脸，在这里，使用经典的MTCNN人脸检测技术，利用三层级联架构结合精心设计的卷神经网络算法，对头像中的人脸进行定位。对于检测出的人脸检测框个数n＝0和n>1的头像自动舍弃，对于n＝1的头像则输出人脸检测结果。

完成人脸检测操作后，针对不同虚拟身份社交账号的用户头像，该关联技术将检测出的人脸映射到公共的欧氏空间，并利用图像在欧几里得空间的距离实现不同头像的相似性检测。实现将检测出的人脸映射到欧氏空间主要基于一个预训练模型，模型的框架结构如图2所示。

其中，网络的输入batch是指人脸图像样本，这里的样本是已经经过人脸检测找到人脸并裁剪到固定尺寸(例如160x160)的图片样本。进行特征提取的深度网络Deeparchitecture可以看作一个黑盒子，一般采用比较成熟的网络框架，比如经典Zeiler&Fergus架构和Google的Inception v1等。从图中可以发现，和传统的深度网络在最后连接softmax层不同的是，模型的最后连接的是特征归一化层(L2):

即将原来的特征空间映射到新的特征空间，新的特征为原来特征的一种嵌入。最后的损失函数TriletLoss是针对三张图像构成的三元组，学习特征间的可分性：相同身份之间的特征距离要尽可能的小，而不同身份之间的特征距离要尽可能的大。

经过上述步骤，不同社交平台(Facebook,Twitter)过滤后的所有人脸图像将会形成一个特征向量集合。遍历不同集合中的向量并计算不同集合中两两向量之间的欧氏距离即可获得异源账号头像的相似程度。在实验中，设置距离阈值T，若计算出的距离小于T，则认为这些异源账号属于同一个用户，反之，则认为不属于同一个用户。此外，若同一平台匹配出的异源虚拟身份账号有多个，则判定头像可能是公众人物，并予以舍弃操作。

二、基于账号属性的虚拟身份账号关联技术

在基于账号属性的虚拟身份账号关联技术中，每一个用户的所有简介属性被表示成一个向量。类似于网络搜索引擎中将网站表示为由文档单词组成的向量的方法，一个属性向量表示用户不同属性域(例如，电话号码、出生日期等)的信息集合。因此，一个n维的属性向量代表一个用户n个不同的属性域。

定义1：一个属性向量P＝<f1,f2,...,fn>，其中fi表示第i个属性域

例如，一个包含三个域(n＝3)的属性向量表示为：P1＝<昵称、邮箱、出生日期>。算法对于两个向量P1和P2的比较包括两个阶段，第一阶段，算法利用字符串匹配函数来计算对应向量域之间的相似性得分，由此可获得一个相似性向量V。

定义2：一个相似性向量V(P1,P2)＝<v1,v2,...,vn>，其中vi＝compi(fi,P1,fi,P2)，0≤vi≤1，若|V|代表向量V的维数，则|V|＝|P1|＝|P2|

compi是来自P1的属性域fi,P1和来自P2的属性域fi,P2的比较函数，返回一个[0,1]的值。如果fi，P1和fi，P2是完全相同的，那么vi＝1；如果fi，P1和fi，P2没有相似性，那么vi＝0。由于每个属性域的格式可能不一样，所以针对不同的属性域，函数compi也可能不同。例如，对于性别的比较返回一个整数值0或1，对于地址的比较可能产生一个有理数。

在分析某些属性域时，可能需要比较复杂的逻辑来计算相似性得分。例如，当比较用户名时，我们需要处理首字母、缩写形式、特殊字符等。在这些情况下，简单的子字符串匹配可能不会产生期望的结果。

针对上述特殊情况，本发明设计了用于比较用户名相似程度的Match Name(MN)函数，来处理由一个或多个单词组成的用户名的完全匹配和部分匹配。MN函数分两个阶段操作：预处理和匹配阶段。

(1)预处理阶段：一些特殊符号将从输入字符串中删除，比如“*$#”。此外，在指定“黑名单”中的单词也将从输入字符串中删除，这些单词(包括“Facebook”和“Twitter”)主要出现在社交网站上的多个用户名中。

(2)匹配阶段：将会应用一个匹配函数，该函数具有以下特点：

1)名称中的每个单词分别匹配。这类函数支持交换姓名的情况(姓在前还是名在前)。例如，MN(“John Doe”,“Doe John”)＝1。

2)支持对匹配单词的数量“计数”的方法。如果用户名由2个单词或汉字组成，并且其中一个已经匹配上了，则得分为1/2＝0.5；

3)支持部分匹配。部分匹配可以从至少3个字母或汉字的最长公共子串(LCS)获得，或者从首字母匹配获得。最后，部分匹配分数将会添加到总分中。计算用户名之间的相似性的公式如下：

其中，w₁和w₂是来自用户名1和用户名2的单词数组，|w_i|表示w_i的单词数，w_i[k]表示矩阵数组w_i的第k个单词。下面使用支持函数Part来计算部分字符串匹配：

其中s₁、s₂是输入的字符串，l(s)是字符串s的长度，LCS函数返回最长公共子串。与现有的基于字符串距离、令牌距离等字符串匹配函数相比，MN函数在社交网络中对用户名的特殊设计在进行用户名匹配时对结果提供了更多的控制。

在得到了相似性向量V之后，第二阶段是确定属性向量对P1和P2的分类标签(“相同用户”或“不同用户”)。我们使用与向量V同维的权重向量W来控制每个属性域的影响力，并将V与W相乘所获得的相似性得分S与阈值T进行比较，从而确定分类标签。相似性得分S的计算如公式如下所示：

作为属性匹配方法的扩展，本技术还可以在用户识别过程中加入用户之间的关系。当用户的简介信息丢失、不完整或不可用时，结构相似性将变得十分有用。接下来，本技术将通过引入结构相似性得分对基于向量的属性匹配算法进行扩展。

本技术基于的递归公式设计了一个具有1级邻居(用户的直接好友)匹配的算法，即计算不同社交网络用户之间的共同好友重叠(MFO)。对于不同社交平台中的给定用户对，该算法匹配用户的朋友列表以计算相互朋友的总数。该算法主要通过使用MN函数来匹配朋友的姓名，并将高于0.75的所有相似性分数相加以获得总的朋友重叠分数来实现的。选择0.75作为最小姓名相似度是为了在计算MFO分数中只考虑高度相似的名称。MFO分数计算过程如图3所示，其中MN分数表示由MN函数计算出的相似度。

直观而言，一个高的共同好友重叠分数意味着用户X和Y共享很多朋友。也就是说X和Y在现实生活中很可能互相认识，或者说他们根本就是同一个人。在朋友圈匹配方法中，一个高的共同好友重叠分数意味着X和Y相同的概率会增加。

三、基于社交账号推文内容的虚拟身份关联技术

基于社交账号推文内容的虚拟身份关联技术框架如图4所示，该框架从多个维度对社交账号的信息进行相似度建模，分别为：推文关键词、推文主题、推文提到的命名实体、推文的发布时间分布、推文时间线内容相似性。

整个框架中各个模块的作用为：

(1)推文合并模块。该模块的主要作用在于对每一个用户发布的所有推文进行合并，形成该用户的长文本语料集，方便后续模块的处理。

(2)推文关键词相似度计算模块。该模块用于抽取出用户所有推文中提及到的关键词，并将关键词转换为语义向量，然后以空间距离为度量来计算不同虚拟身份账号的关键词相似度。

(3)推文主题相似度计算模块。该模块的主要作用是抽取出用户整体推文中谈及到的主题，并将主题转换为语义向量，然后以空间距离为度量来计算不同虚拟身份账号用户的主题相似度。

(4)推文提及的命名实体相似度计算模块。异源虚拟账号中，用户提及到的人名以及地名等命名实体通常包含了有效区别相同用户的有效信息，该模块针对用户的所有推文，提取出推文中提及到的所有命名实体，以每个实体的逆文档频率(IDF,InverseDocument Frequency)作为每个实体的权重，然后以不同虚拟身份账号提及到的命名实体相似度来判定账号的相似度。

(5)推文发布时间分布相似度计算模块。该模块从统计的角度，对每个虚拟账号的推文发布时间进行统计，提取出该账号一天的推文发布时间分布，然后在此基础上使用KL距离(Kullback-Leibler Divergence)来判定不同虚拟身份账号每日推文发布时间分布的差异程度。

(6)推文时间线内容相似度模块。该模块以用户发布的推文时间线进行梳理，计算用户发布某条推文的时间点周围(前后一天)是否在另一个账号中也提到了相似主题的内容，以此来判定不同虚拟身份账号的相关程度。

建立上述相似度模型后，为了解决多维相似度样本训练最佳匹配模型，本技术将相似度权重分配问题转换为信息检索领域的排序学习问题，并使用排序学习问题常见的Pointwise思想将排序问题转换为分类问题，最后利用传统的机器学习方式对各个相似度权重进行学习从而实现相似性检测。

四、基于头像、属性和推文内容的虚拟身份账号多维碰撞识别技术

为了全方位多角度地捕获用户在社交平台上展示的个人信息，实现对个人信息不完整的异源虚拟身份账号进行同一用户识别，本技术对上述三个关键技术按照数据获取的难易程度以串行的方式集成。如图5所示。依次对不同平台虚拟身份账号的头像、属性和推文分别进行匹配，若其中一个匹配成功，则认为这些虚拟身份账号同属于一个用户，若无一匹配成功，则识别失败，认为它们不属于同一个用户。

本技术从不同异源虚拟身份账号的头像、属性和推文内容三个方面着手，全方位地检测其相似度。

(1)在头像相似度匹配阶段，设置特征向量的距离阈值T＝0.85时，匹配出的异源虚拟身份账号同属于一个用户的准确率能达到90％以上。

(2)在属性相似度匹配阶段，本技术设计了用于比较用户名字的Match Name(MN)函数，来处理由一个或多个单词组成的用户名的完全匹配和部分匹配。表1是MN以及基于编辑距离的算法Jaro-Winkler(J-W)和Monge-Elkan(M-E)计算出的相似性分数示例。

表1 MN，J-W和M-E用户名匹配函数对比

从上面的比较可以看出，在交换姓名、部分匹配和首字母匹配的情况下，MN函数相比于其他字符串匹配函数计算出了更连贯和更具“常识”的分数。由于对输入的预处理操作，在用户名中包含特殊符号或其他单词的情况下，MN方法也能获得很好的结果。

(3)在推文内容相似度匹配阶段，本技术使用了MLP来进行训练，同时留意到使用Pointwise思想将样本集进行转换后，样本集产生了严重的偏斜(不匹配的样本远远多于匹配的样本)，因此采用ROC曲线对性能进行衡量。目前结果的ROC曲线如图6所示，其AUC值为0.9038左右，由此可证明本技术的有效性。

Claims

1.一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：步骤一所述对不同虚拟身份账号的头像进行相似度匹配的方法为：

第一步、人脸检测：将虚拟身份账号中抽取的头像信息进行过滤操作，移除集合中的多人脸图像和非人脸图像，仅保留单人脸图像；

第二步、人脸映射：将检测出的人脸映射到公共的欧氏空间，并利用图像在欧氏空间的距离实现不同头像的相似性检测；

第三步、基于距离进行身份关联：将不同社交平台过滤后的所有人脸图像形成一个特征向量集合，遍历不同集合中的向量并计算不同集合中两两向量之间的欧氏距离，然后判断计算出的距离是否小于设定的距离阈值，若是，则匹配成功，若否，则头像匹配不成功。

3.根据权利要求2所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：在进行人脸检测时，使用MTCNN人脸检测技术，利用三层级联架构结合卷神经网络算法，对头像中的人脸进行定位；对于定位出的人脸检测框个数n＝0和n>1的头像自动舍弃，对于n＝1的头像则输出人脸检测结果。

4.根据权利要求2所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：在进行人脸映射时，采用预训练模型将检测出的人脸映射到欧氏空间：模型的输入为经过人脸检测找出并裁剪到固定尺寸的人脸图像样本；特征提取的深度网络采用Zeiler&Fergus架构或Google的Inception v1，深度网络最后为特征归一化层:

即将原来的特征空间映射到新的特征空间，损失函数为Trilet Loss。

5.根据权利要求1所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：步骤二所述对不同虚拟身份账号的属性进行相似度匹配的方法为：

第一步、将每一个用户的所有简介属性表示成一个属性向量P＝<f1,f2,...,fn>，其中fi表示第i个属性域；

第二步、建立一个相似性向量V(P1,P2)＝<v1,v2,...,vn>，其中vi＝compi(fi,P1,fi,P2)，0≤vi≤1，若|V|代表向量V的维数，则|V|＝|P1|＝|P2|；

第三步、定义权重向量W来控制每个属性域的影响力，并将相似性向量V和与它同维的权重向量W相乘获得两个属性向量P1和P2的相似性得分，然后判断相似性得分是否大于设定的阈值：若是，则匹配成功，若否，则属性匹配不成功。

6.根据权利要求5所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：采用MN函数对用户名进行相似度计算，具体方法为：

(1)预处理阶段：删除用户名中的特殊符号及在指定“黑名单”中出现的单词；

(2)匹配阶段：

采用如下公式计算预处理后不同用户名之间的相似性：

其中，w₁和w₂是来自用户名1和用户名2的单词数组，|w_i|表示w_i的单词数，w_i[k]表示矩阵数组w_i的第k个单词；支持函数Part用来计算部分字符串匹配：

其中：s₁、s₂是待匹配的字符串，l(s)是字符串s的长度，LCS函数返回最长公共子串。

7.根据权利要求6所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：当用户的简介信息丢失、不完整或不可用时，采用结构相似性得分对不同虚拟身份账号的属性进行相似度匹配。

8.根据权利要求7所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：采用结构相似性得分对不同虚拟身份账号进行相似度匹配的方法是：采用MN函数来对不同虚拟身份账号的直接好友的姓名进行匹配，并将高于0.75的所有相似性分数相加以获得不同用户的总的朋友重叠分数，然后判断总的朋友重叠分数是否大于设定的阈值：若是，则匹配成功，若否，则属性匹配不成功。

9.根据权利要求1所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：步骤三所述对不同虚拟身份账号的推文进行相似度匹配的方法为：从多个维度对虚拟身份账号的推文信息进行相似度建模，然后将相似度权重分配问题转换为排序学习问题，再将排序学习问题转换为分类问题，最后利用机器学习方式对各个相似度权重进行学习从而实现相似性检测。

10.根据权利要求9所述的一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：从多个维度对社虚拟身份账号的推文信息进行相似度建模的方法为：

第一步、推文合并：

将每个虚拟身份账号发布的所有推文进行合并，形成长文本语料集；

第二步、推文关键词相似度计算：

抽取出每个虚拟身份账号所有推文中的关键词，并将关键词转换为语义向量，然后以空间距离为度量来计算不同虚拟身份账号的关键词相似度；

第三步、推文主题相似度计算：

抽取出每个虚拟身份账号所有推文中的主题，并将主题转换为语义向量，然后以空间距离为度量来计算不同虚拟身份账号的主题相似度；

第四步、推文提及的命名实体相似度计算：

提取出每个虚拟身份账号所有推文中提及到的所有命名实体，以每个实体的逆文档频率作为每个实体的权重，然后用不同虚拟身份账号提及到的命名实体相似度来判定账号的相似度；

第五步、推文发布时间分布相似度计算：

提取出每个虚拟身份账号一天的推文发布时间分布，然后在此基础上使用KL距离来判定不同虚拟身份账号每日推文发布时间分布的差异程度；

第六步、推文时间线内容相似度计算：

对每个虚拟身份账号发布的推文时间线进行梳理，计算虚拟身份账号发布某条推文的时间点前后一天是否在另一个虚拟身份账号中也提到了相似主题的内容，以此来判定不同虚拟身份账号的相关程度。