CN111160130A - 一种多平台虚拟身份账号的多维碰撞识别方法 - Google Patents

一种多平台虚拟身份账号的多维碰撞识别方法 Download PDF

Info

Publication number
CN111160130A
CN111160130A CN201911271999.2A CN201911271999A CN111160130A CN 111160130 A CN111160130 A CN 111160130A CN 201911271999 A CN201911271999 A CN 201911271999A CN 111160130 A CN111160130 A CN 111160130A
Authority
CN
China
Prior art keywords
virtual identity
similarity
matching
accounts
identity account
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911271999.2A
Other languages
English (en)
Other versions
CN111160130B (zh
Inventor
徐舒霖
胥小波
聂小明
王伟
康英来
范晓波
敖佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronic Technology Cyber Security Co Ltd
Original Assignee
China Electronic Technology Cyber Security Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronic Technology Cyber Security Co Ltd filed Critical China Electronic Technology Cyber Security Co Ltd
Priority to CN201911271999.2A priority Critical patent/CN111160130B/zh
Publication of CN111160130A publication Critical patent/CN111160130A/zh
Application granted granted Critical
Publication of CN111160130B publication Critical patent/CN111160130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多平台虚拟身份账号的多维碰撞识别方法,依次对不同社交平台虚拟身份账号的头像、属性和推文内容进行相似度匹配,若其中一个匹配成功,则认为这些虚拟身份账号属于一个用户,若无一匹配成功,则识别失败,认为它们不属于同一个用户。与现有技术相比,本发明的积极效果是:本发明提出的一种多平台虚拟身份账号的多维碰撞识别方法,针对不同平台的虚拟身份账号,提取头像、属性和推文等多个维度的特征,通过全方位多角度地碰撞比对,进而有效地对异源虚拟身份账号进行同一用户认定,其准确率能达到90%以上。

Description

一种多平台虚拟身份账号的多维碰撞识别方法
技术领域
本发明涉及一种多平台虚拟身份账号的多维碰撞识别方法。
背景技术
在社会关系中,人的身份不仅是作为社会成员在生产和实践活动中区别于他人的标志和象征,更是与社会其他成员关系的纽带。个体在真实社会中的身份往往呈现出一种稳定、恒久和被动的特质。而网络社会则恰恰相反,人们在虚拟网络上可以平等、无障碍的沟通,可以自由随意的改变姓名、性别、年龄职业等基本信息,隐藏部分甚至全部的真实社会的特质,构建不同于现实社会身份的虚拟身份。另一方面,随着各种社交网络的诞生和发展,也使得世界各地的人们可以利用各种不同的虚拟身份随时分享、评论或讨论任何话题。信息的发布者不再仅仅是权威的新闻媒体,而是网络已匿名身份发布信息的广大网民,这使得互联网文化百花齐放百家争鸣的同时,也带来了一系列敏感而又现实的问题。
多平台虚拟身份账号的多维碰撞识别技术即根据所获取的不同社交平台(例如微博,facebook和twitter)数据,识别出属于同一个用户的多个虚拟身份账号。该技术对于社交网络中社区圈子的识别(Community Detection)、基于好友关系为用户推荐商品或内容、社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及互联网金融行业中的反欺诈预测等领域都有着极强的研究价值和实际应用价值。
发明内容
为了克服现有技术的上述缺点,本发明提出了一种多平台虚拟身份账号的多维碰撞识别方法。
本发明解决其技术问题所采用的技术方案是:一种多平台虚拟身份账号的多维碰撞识别方法,包括如下步骤:
步骤一、对不同虚拟身份账号的头像进行相似度匹配:若匹配成功,则判断这些虚拟身份账号属于同一用户;若匹配不成功,则进入步骤二;
步骤二、对不同虚拟身份账号的属性进行相似度匹配:若匹配成功,则判断这些虚拟身份账号属于同一用户;若匹配不成功,则进入步骤三;
步骤三、对不同虚拟身份账号的推文进行相似度匹配:若匹配成功,则判断这些虚拟身份账号属于同一用户;若匹配不成功,则判断这些虚拟身份账号不属于同一个用户。
与现有技术相比,本发明的积极效果是:
本发明提出的一种多平台虚拟身份账号的多维碰撞识别方法,针对不同平台的虚拟身份账号,分别对头像、属性和推文开展多个维度的特征提取,通过全方位多角度地碰撞比对,进而有效地对异源虚拟身份账号进行同一用户识别,准确率能达到90%以上。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为基于虚拟身份账号头像的虚拟身份关联技术框架;
图2为预测训练模型的框架;
图3为共同好友重叠的计算方式;
图4为基于虚拟身份账号推文内容的虚拟身份账号关联技术框架;
图5为虚拟身份账号关联流程图;
图6为基于推文内容的虚拟身份账号关联技术实验结果。
具体实施方式
一种多平台虚拟身份账号的多维碰撞识别方法,包括如下内容:
一、基于头像的虚拟身份账号关联技术
基于头像的虚拟身份账号关联技术使用人脸识别技术对不同社交平台上的用户头像进行人脸验证进而判别是否是同一个用户,该技术框架如图1所示。主要分为人脸检测,人脸映射和基于距离进行身份关联三个步骤。
由于虚拟身份账号的用户头像呈现形式多样,包含多人脸图像以及卡通图案、风景等非人脸图像,因此为了减少后期计算量和提高准确率,需首先将虚拟身份账号中抽取的头像信息进行过滤操作,移除集合中的多人脸图像和非人脸图像,仅保留单人脸图像,为后续的人脸映射提供最佳输入。为了能快速且精准的检测出头像中的人脸,在这里,使用经典的MTCNN人脸检测技术,利用三层级联架构结合精心设计的卷神经网络算法,对头像中的人脸进行定位。对于检测出的人脸检测框个数n=0和n>1的头像自动舍弃,对于n=1的头像则输出人脸检测结果。
完成人脸检测操作后,针对不同虚拟身份社交账号的用户头像,该关联技术将检测出的人脸映射到公共的欧氏空间,并利用图像在欧几里得空间的距离实现不同头像的相似性检测。实现将检测出的人脸映射到欧氏空间主要基于一个预训练模型,模型的框架结构如图2所示。
其中,网络的输入batch是指人脸图像样本,这里的样本是已经经过人脸检测找到人脸并裁剪到固定尺寸(例如160x160)的图片样本。进行特征提取的深度网络Deeparchitecture可以看作一个黑盒子,一般采用比较成熟的网络框架,比如经典Zeiler&Fergus架构和Google的Inception v1等。从图中可以发现,和传统的深度网络在最后连接softmax层不同的是,模型的最后连接的是特征归一化层(L2):
Figure BDA0002314454940000041
即将原来的特征空间映射到新的特征空间,新的特征为原来特征的一种嵌入。最后的损失函数TriletLoss是针对三张图像构成的三元组,学习特征间的可分性:相同身份之间的特征距离要尽可能的小,而不同身份之间的特征距离要尽可能的大。
经过上述步骤,不同社交平台(Facebook,Twitter)过滤后的所有人脸图像将会形成一个特征向量集合。遍历不同集合中的向量并计算不同集合中两两向量之间的欧氏距离即可获得异源账号头像的相似程度。在实验中,设置距离阈值T,若计算出的距离小于T,则认为这些异源账号属于同一个用户,反之,则认为不属于同一个用户。此外,若同一平台匹配出的异源虚拟身份账号有多个,则判定头像可能是公众人物,并予以舍弃操作。
二、基于账号属性的虚拟身份账号关联技术
在基于账号属性的虚拟身份账号关联技术中,每一个用户的所有简介属性被表示成一个向量。类似于网络搜索引擎中将网站表示为由文档单词组成的向量的方法,一个属性向量表示用户不同属性域(例如,电话号码、出生日期等)的信息集合。因此,一个n维的属性向量代表一个用户n个不同的属性域。
定义1:一个属性向量P=<f1,f2,...,fn>,其中fi表示第i个属性域
例如,一个包含三个域(n=3)的属性向量表示为:P1=<昵称、邮箱、出生日期>。算法对于两个向量P1和P2的比较包括两个阶段,第一阶段,算法利用字符串匹配函数来计算对应向量域之间的相似性得分,由此可获得一个相似性向量V。
定义2:一个相似性向量V(P1,P2)=<v1,v2,...,vn>,其中vi=compi(fi,P1,fi,P2),0≤vi≤1,若|V|代表向量V的维数,则|V|=|P1|=|P2|
compi是来自P1的属性域fi,P1和来自P2的属性域fi,P2的比较函数,返回一个[0,1]的值。如果fi,P1和fi,P2是完全相同的,那么vi=1;如果fi,P1和fi,P2没有相似性,那么vi=0。由于每个属性域的格式可能不一样,所以针对不同的属性域,函数compi也可能不同。例如,对于性别的比较返回一个整数值0或1,对于地址的比较可能产生一个有理数。
在分析某些属性域时,可能需要比较复杂的逻辑来计算相似性得分。例如,当比较用户名时,我们需要处理首字母、缩写形式、特殊字符等。在这些情况下,简单的子字符串匹配可能不会产生期望的结果。
针对上述特殊情况,本发明设计了用于比较用户名相似程度的Match Name(MN)函数,来处理由一个或多个单词组成的用户名的完全匹配和部分匹配。MN函数分两个阶段操作:预处理和匹配阶段。
(1)预处理阶段:一些特殊符号将从输入字符串中删除,比如“*$#”。此外,在指定“黑名单”中的单词也将从输入字符串中删除,这些单词(包括“Facebook”和“Twitter”)主要出现在社交网站上的多个用户名中。
(2)匹配阶段:将会应用一个匹配函数,该函数具有以下特点:
1)名称中的每个单词分别匹配。这类函数支持交换姓名的情况(姓在前还是名在前)。例如,MN(“John Doe”,“Doe John”)=1。
2)支持对匹配单词的数量“计数”的方法。如果用户名由2个单词或汉字组成,并且其中一个已经匹配上了,则得分为1/2=0.5;
3)支持部分匹配。部分匹配可以从至少3个字母或汉字的最长公共子串(LCS)获得,或者从首字母匹配获得。最后,部分匹配分数将会添加到总分中。计算用户名之间的相似性的公式如下:
Figure BDA0002314454940000061
其中,w1和w2是来自用户名1和用户名2的单词数组,|wi|表示wi的单词数,wi[k]表示矩阵数组wi的第k个单词。下面使用支持函数Part来计算部分字符串匹配:
Figure BDA0002314454940000062
其中s1、s2是输入的字符串,l(s)是字符串s的长度,LCS函数返回最长公共子串。与现有的基于字符串距离、令牌距离等字符串匹配函数相比,MN函数在社交网络中对用户名的特殊设计在进行用户名匹配时对结果提供了更多的控制。
在得到了相似性向量V之后,第二阶段是确定属性向量对P1和P2的分类标签(“相同用户”或“不同用户”)。我们使用与向量V同维的权重向量W来控制每个属性域的影响力,并将V与W相乘所获得的相似性得分S与阈值T进行比较,从而确定分类标签。相似性得分S的计算如公式如下所示:
Figure BDA0002314454940000063
作为属性匹配方法的扩展,本技术还可以在用户识别过程中加入用户之间的关系。当用户的简介信息丢失、不完整或不可用时,结构相似性将变得十分有用。接下来,本技术将通过引入结构相似性得分对基于向量的属性匹配算法进行扩展。
本技术基于的递归公式设计了一个具有1级邻居(用户的直接好友)匹配的算法,即计算不同社交网络用户之间的共同好友重叠(MFO)。对于不同社交平台中的给定用户对,该算法匹配用户的朋友列表以计算相互朋友的总数。该算法主要通过使用MN函数来匹配朋友的姓名,并将高于0.75的所有相似性分数相加以获得总的朋友重叠分数来实现的。选择0.75作为最小姓名相似度是为了在计算MFO分数中只考虑高度相似的名称。MFO分数计算过程如图3所示,其中MN分数表示由MN函数计算出的相似度。
直观而言,一个高的共同好友重叠分数意味着用户X和Y共享很多朋友。也就是说X和Y在现实生活中很可能互相认识,或者说他们根本就是同一个人。在朋友圈匹配方法中,一个高的共同好友重叠分数意味着X和Y相同的概率会增加。
三、基于社交账号推文内容的虚拟身份关联技术
基于社交账号推文内容的虚拟身份关联技术框架如图4所示,该框架从多个维度对社交账号的信息进行相似度建模,分别为:推文关键词、推文主题、推文提到的命名实体、推文的发布时间分布、推文时间线内容相似性。
整个框架中各个模块的作用为:
(1)推文合并模块。该模块的主要作用在于对每一个用户发布的所有推文进行合并,形成该用户的长文本语料集,方便后续模块的处理。
(2)推文关键词相似度计算模块。该模块用于抽取出用户所有推文中提及到的关键词,并将关键词转换为语义向量,然后以空间距离为度量来计算不同虚拟身份账号的关键词相似度。
(3)推文主题相似度计算模块。该模块的主要作用是抽取出用户整体推文中谈及到的主题,并将主题转换为语义向量,然后以空间距离为度量来计算不同虚拟身份账号用户的主题相似度。
(4)推文提及的命名实体相似度计算模块。异源虚拟账号中,用户提及到的人名以及地名等命名实体通常包含了有效区别相同用户的有效信息,该模块针对用户的所有推文,提取出推文中提及到的所有命名实体,以每个实体的逆文档频率(IDF,InverseDocument Frequency)作为每个实体的权重,然后以不同虚拟身份账号提及到的命名实体相似度来判定账号的相似度。
(5)推文发布时间分布相似度计算模块。该模块从统计的角度,对每个虚拟账号的推文发布时间进行统计,提取出该账号一天的推文发布时间分布,然后在此基础上使用KL距离(Kullback-Leibler Divergence)来判定不同虚拟身份账号每日推文发布时间分布的差异程度。
(6)推文时间线内容相似度模块。该模块以用户发布的推文时间线进行梳理,计算用户发布某条推文的时间点周围(前后一天)是否在另一个账号中也提到了相似主题的内容,以此来判定不同虚拟身份账号的相关程度。
建立上述相似度模型后,为了解决多维相似度样本训练最佳匹配模型,本技术将相似度权重分配问题转换为信息检索领域的排序学习问题,并使用排序学习问题常见的Pointwise思想将排序问题转换为分类问题,最后利用传统的机器学习方式对各个相似度权重进行学习从而实现相似性检测。
四、基于头像、属性和推文内容的虚拟身份账号多维碰撞识别技术
为了全方位多角度地捕获用户在社交平台上展示的个人信息,实现对个人信息不完整的异源虚拟身份账号进行同一用户识别,本技术对上述三个关键技术按照数据获取的难易程度以串行的方式集成。如图5所示。依次对不同平台虚拟身份账号的头像、属性和推文分别进行匹配,若其中一个匹配成功,则认为这些虚拟身份账号同属于一个用户,若无一匹配成功,则识别失败,认为它们不属于同一个用户。
本技术从不同异源虚拟身份账号的头像、属性和推文内容三个方面着手,全方位地检测其相似度。
(1)在头像相似度匹配阶段,设置特征向量的距离阈值T=0.85时,匹配出的异源虚拟身份账号同属于一个用户的准确率能达到90%以上。
(2)在属性相似度匹配阶段,本技术设计了用于比较用户名字的Match Name(MN)函数,来处理由一个或多个单词组成的用户名的完全匹配和部分匹配。表1是MN以及基于编辑距离的算法Jaro-Winkler(J-W)和Monge-Elkan(M-E)计算出的相似性分数示例。
表1 MN,J-W和M-E用户名匹配函数对比
Figure BDA0002314454940000091
从上面的比较可以看出,在交换姓名、部分匹配和首字母匹配的情况下,MN函数相比于其他字符串匹配函数计算出了更连贯和更具“常识”的分数。由于对输入的预处理操作,在用户名中包含特殊符号或其他单词的情况下,MN方法也能获得很好的结果。
(3)在推文内容相似度匹配阶段,本技术使用了MLP来进行训练,同时留意到使用Pointwise思想将样本集进行转换后,样本集产生了严重的偏斜(不匹配的样本远远多于匹配的样本),因此采用ROC曲线对性能进行衡量。目前结果的ROC曲线如图6所示,其AUC值为0.9038左右,由此可证明本技术的有效性。

Claims (10)

1.一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:包括如下步骤:
步骤一、对不同虚拟身份账号的头像进行相似度匹配:若匹配成功,则判断这些虚拟身份账号属于同一用户;若匹配不成功,则进入步骤二;
步骤二、对不同虚拟身份账号的属性进行相似度匹配:若匹配成功,则判断这些虚拟身份账号属于同一用户;若匹配不成功,则进入步骤三;
步骤三、对不同虚拟身份账号的推文进行相似度匹配:若匹配成功,则判断这些虚拟身份账号属于同一用户;若匹配不成功,则判断这些虚拟身份账号不属于同一个用户。
2.根据权利要求1所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:步骤一所述对不同虚拟身份账号的头像进行相似度匹配的方法为:
第一步、人脸检测:将虚拟身份账号中抽取的头像信息进行过滤操作,移除集合中的多人脸图像和非人脸图像,仅保留单人脸图像;
第二步、人脸映射:将检测出的人脸映射到公共的欧氏空间,并利用图像在欧氏空间的距离实现不同头像的相似性检测;
第三步、基于距离进行身份关联:将不同社交平台过滤后的所有人脸图像形成一个特征向量集合,遍历不同集合中的向量并计算不同集合中两两向量之间的欧氏距离,然后判断计算出的距离是否小于设定的距离阈值,若是,则匹配成功,若否,则头像匹配不成功。
3.根据权利要求2所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:在进行人脸检测时,使用MTCNN人脸检测技术,利用三层级联架构结合卷神经网络算法,对头像中的人脸进行定位;对于定位出的人脸检测框个数n=0和n>1的头像自动舍弃,对于n=1的头像则输出人脸检测结果。
4.根据权利要求2所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:在进行人脸映射时,采用预训练模型将检测出的人脸映射到欧氏空间:模型的输入为经过人脸检测找出并裁剪到固定尺寸的人脸图像样本;特征提取的深度网络采用Zeiler&Fergus架构或Google的Inception v1,深度网络最后为特征归一化层:
Figure FDA0002314454930000021
即将原来的特征空间映射到新的特征空间,损失函数为Trilet Loss。
5.根据权利要求1所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:步骤二所述对不同虚拟身份账号的属性进行相似度匹配的方法为:
第一步、将每一个用户的所有简介属性表示成一个属性向量P=<f1,f2,...,fn>,其中fi表示第i个属性域;
第二步、建立一个相似性向量V(P1,P2)=<v1,v2,...,vn>,其中vi=compi(fi,P1,fi,P2),0≤vi≤1,若|V|代表向量V的维数,则|V|=|P1|=|P2|;
第三步、定义权重向量W来控制每个属性域的影响力,并将相似性向量V和与它同维的权重向量W相乘获得两个属性向量P1和P2的相似性得分,然后判断相似性得分是否大于设定的阈值:若是,则匹配成功,若否,则属性匹配不成功。
6.根据权利要求5所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:采用MN函数对用户名进行相似度计算,具体方法为:
(1)预处理阶段:删除用户名中的特殊符号及在指定“黑名单”中出现的单词;
(2)匹配阶段:
采用如下公式计算预处理后不同用户名之间的相似性:
Figure FDA0002314454930000031
其中,w1和w2是来自用户名1和用户名2的单词数组,|wi|表示wi的单词数,wi[k]表示矩阵数组wi的第k个单词;支持函数Part用来计算部分字符串匹配:
Figure FDA0002314454930000032
其中:s1、s2是待匹配的字符串,l(s)是字符串s的长度,LCS函数返回最长公共子串。
7.根据权利要求6所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:当用户的简介信息丢失、不完整或不可用时,采用结构相似性得分对不同虚拟身份账号的属性进行相似度匹配。
8.根据权利要求7所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:采用结构相似性得分对不同虚拟身份账号进行相似度匹配的方法是:采用MN函数来对不同虚拟身份账号的直接好友的姓名进行匹配,并将高于0.75的所有相似性分数相加以获得不同用户的总的朋友重叠分数,然后判断总的朋友重叠分数是否大于设定的阈值:若是,则匹配成功,若否,则属性匹配不成功。
9.根据权利要求1所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:步骤三所述对不同虚拟身份账号的推文进行相似度匹配的方法为:从多个维度对虚拟身份账号的推文信息进行相似度建模,然后将相似度权重分配问题转换为排序学习问题,再将排序学习问题转换为分类问题,最后利用机器学习方式对各个相似度权重进行学习从而实现相似性检测。
10.根据权利要求9所述的一种多平台虚拟身份账号的多维碰撞识别方法,其特征在于:从多个维度对社虚拟身份账号的推文信息进行相似度建模的方法为:
第一步、推文合并:
将每个虚拟身份账号发布的所有推文进行合并,形成长文本语料集;
第二步、推文关键词相似度计算:
抽取出每个虚拟身份账号所有推文中的关键词,并将关键词转换为语义向量,然后以空间距离为度量来计算不同虚拟身份账号的关键词相似度;
第三步、推文主题相似度计算:
抽取出每个虚拟身份账号所有推文中的主题,并将主题转换为语义向量,然后以空间距离为度量来计算不同虚拟身份账号的主题相似度;
第四步、推文提及的命名实体相似度计算:
提取出每个虚拟身份账号所有推文中提及到的所有命名实体,以每个实体的逆文档频率作为每个实体的权重,然后用不同虚拟身份账号提及到的命名实体相似度来判定账号的相似度;
第五步、推文发布时间分布相似度计算:
提取出每个虚拟身份账号一天的推文发布时间分布,然后在此基础上使用KL距离来判定不同虚拟身份账号每日推文发布时间分布的差异程度;
第六步、推文时间线内容相似度计算:
对每个虚拟身份账号发布的推文时间线进行梳理,计算虚拟身份账号发布某条推文的时间点前后一天是否在另一个虚拟身份账号中也提到了相似主题的内容,以此来判定不同虚拟身份账号的相关程度。
CN201911271999.2A 2019-12-12 2019-12-12 一种多平台虚拟身份账号的多维碰撞识别方法 Active CN111160130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911271999.2A CN111160130B (zh) 2019-12-12 2019-12-12 一种多平台虚拟身份账号的多维碰撞识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911271999.2A CN111160130B (zh) 2019-12-12 2019-12-12 一种多平台虚拟身份账号的多维碰撞识别方法

Publications (2)

Publication Number Publication Date
CN111160130A true CN111160130A (zh) 2020-05-15
CN111160130B CN111160130B (zh) 2022-04-01

Family

ID=70557093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911271999.2A Active CN111160130B (zh) 2019-12-12 2019-12-12 一种多平台虚拟身份账号的多维碰撞识别方法

Country Status (1)

Country Link
CN (1) CN111160130B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767438A (zh) * 2020-06-16 2020-10-13 上海同犀智能科技有限公司 一种基于Hash结合积分的身份识别方法
CN111881304A (zh) * 2020-07-21 2020-11-03 百度在线网络技术(北京)有限公司 一种作者识别方法、装置、设备和存储介质
US20210304452A1 (en) * 2020-03-27 2021-09-30 LINE Plus Corporation Method and system for providing avatar service
CN114896575A (zh) * 2022-04-28 2022-08-12 西安电子科技大学 一种基于虚假属性检测的可信身份辨识方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271790A1 (en) * 2011-04-19 2012-10-25 Yahoo! Inc. System and method for mining tags using social endorsement networks
CN106716475A (zh) * 2014-08-30 2017-05-24 阿列克谢·福曼 以购物者为中心的社交网络系统
CN107111651A (zh) * 2016-07-29 2017-08-29 深圳越界创新科技有限公司 一种匹配度计算方法、装置以及用户设备
CN107330798A (zh) * 2017-06-05 2017-11-07 大连理工大学 一种基于种子节点传播的社交网络间用户身份识别方法
US20180191695A1 (en) * 2016-12-31 2018-07-05 Nok Nok Labs, Inc. System and method for bootstrapping a user binding
CN108846422A (zh) * 2018-05-28 2018-11-20 中国人民公安大学 跨社交网络的账号关联方法及系统
CN108985038A (zh) * 2018-07-05 2018-12-11 余钱 一种应用程序的登录方法及系统、终端
CN208283996U (zh) * 2018-05-21 2018-12-25 新疆联海创智信息科技有限公司 一种基于非接触式身份证识别与动态人脸识别技术的安检设备
CN109117891A (zh) * 2018-08-28 2019-01-01 电子科技大学 融合社交关系和命名特征的跨社交媒体账户匹配方法
CN109635138A (zh) * 2018-10-30 2019-04-16 厦门市杜若科技有限公司 一种基于相似相貌的社交关系建立方法与系统
CN109978016A (zh) * 2019-03-06 2019-07-05 重庆邮电大学 一种网络用户身份识别方法
CN110413900A (zh) * 2019-08-01 2019-11-05 电子科技大学 基于维特比算法的多社交网络账号匹配方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271790A1 (en) * 2011-04-19 2012-10-25 Yahoo! Inc. System and method for mining tags using social endorsement networks
CN106716475A (zh) * 2014-08-30 2017-05-24 阿列克谢·福曼 以购物者为中心的社交网络系统
CN107111651A (zh) * 2016-07-29 2017-08-29 深圳越界创新科技有限公司 一种匹配度计算方法、装置以及用户设备
US20180191695A1 (en) * 2016-12-31 2018-07-05 Nok Nok Labs, Inc. System and method for bootstrapping a user binding
CN107330798A (zh) * 2017-06-05 2017-11-07 大连理工大学 一种基于种子节点传播的社交网络间用户身份识别方法
CN208283996U (zh) * 2018-05-21 2018-12-25 新疆联海创智信息科技有限公司 一种基于非接触式身份证识别与动态人脸识别技术的安检设备
CN108846422A (zh) * 2018-05-28 2018-11-20 中国人民公安大学 跨社交网络的账号关联方法及系统
CN108985038A (zh) * 2018-07-05 2018-12-11 余钱 一种应用程序的登录方法及系统、终端
CN109117891A (zh) * 2018-08-28 2019-01-01 电子科技大学 融合社交关系和命名特征的跨社交媒体账户匹配方法
CN109635138A (zh) * 2018-10-30 2019-04-16 厦门市杜若科技有限公司 一种基于相似相貌的社交关系建立方法与系统
CN109978016A (zh) * 2019-03-06 2019-07-05 重庆邮电大学 一种网络用户身份识别方法
CN110413900A (zh) * 2019-08-01 2019-11-05 电子科技大学 基于维特比算法的多社交网络账号匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JAN VOSECKY等: "《User Identification Across Multiple Social Networks》", 《2009 FIRST INTERNATIONAL CONFERENCE ON NETWORKED DIGITAL TECHNOLOGIES》 *
吴铮 等: "《基于信息熵的跨社交网络用户身份识别方法》", 《计算机应用》 *
胥小波 等: "《基于多层感知器神经网络的WebShell检测方法》", 《通信技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210304452A1 (en) * 2020-03-27 2021-09-30 LINE Plus Corporation Method and system for providing avatar service
CN111767438A (zh) * 2020-06-16 2020-10-13 上海同犀智能科技有限公司 一种基于Hash结合积分的身份识别方法
CN111881304A (zh) * 2020-07-21 2020-11-03 百度在线网络技术(北京)有限公司 一种作者识别方法、装置、设备和存储介质
CN111881304B (zh) * 2020-07-21 2024-04-26 百度在线网络技术(北京)有限公司 一种作者识别方法、装置、设备和存储介质
CN114896575A (zh) * 2022-04-28 2022-08-12 西安电子科技大学 一种基于虚假属性检测的可信身份辨识方法及装置
CN114896575B (zh) * 2022-04-28 2024-04-16 西安电子科技大学 一种基于虚假属性检测的可信身份辨识方法及装置

Also Published As

Publication number Publication date
CN111160130B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN111160130B (zh) 一种多平台虚拟身份账号的多维碰撞识别方法
Bavkar et al. Multimodal sarcasm detection via hybrid classifier with optimistic logic
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN111460247B (zh) 网络图片敏感文字自动检测方法
WO2020108430A1 (zh) 一种微博情感分析方法及系统
CN109271522A (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN110750656A (zh) 一种基于知识图谱的多媒体检测方法
KR20120086728A (ko) 시각 검색 애플리케이션용 유명인사의 인물 모델 자동 마이닝
CN109918556B (zh) 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111160264A (zh) 一种基于生成对抗网络的漫画人物身份识别方法
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN113849598B (zh) 基于深度学习的社交媒体虚假信息检测方法及检测系统
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN110413825B (zh) 面向时尚电商的街拍推荐系统
CN111241338B (zh) 一种基于注意力机制的深度特征融合视频拷贝检测方法
CN115017887A (zh) 基于图卷积的中文谣言检测方法
CN112036511B (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Wang et al. Deep multi-person kinship matching and recognition for family photos
CN112800225A (zh) 一种微博评论情绪分类方法和系统
Prasad et al. A multimodal classification of noisy hate speech using character level embedding and attention
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant