CN104574192A - 在多个社交网络中识别同一用户的方法及装置 - Google Patents

在多个社交网络中识别同一用户的方法及装置 Download PDF

Info

Publication number
CN104574192A
CN104574192A CN201310513952.9A CN201310513952A CN104574192A CN 104574192 A CN104574192 A CN 104574192A CN 201310513952 A CN201310513952 A CN 201310513952A CN 104574192 A CN104574192 A CN 104574192A
Authority
CN
China
Prior art keywords
account
combination
predicted value
test set
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310513952.9A
Other languages
English (en)
Other versions
CN104574192B (zh
Inventor
赫彩凤
钱剑锋
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310513952.9A priority Critical patent/CN104574192B/zh
Priority to EP14190351.8A priority patent/EP2866421B1/en
Publication of CN104574192A publication Critical patent/CN104574192A/zh
Application granted granted Critical
Publication of CN104574192B publication Critical patent/CN104574192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种在多个社交网络中识别同一用户的方法及装置,该方法包括:输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将测试集的账号生成测试集账号组合;抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过上述方式,本发明能够全面准确地描述用户的信息,使最后的预测结果准确性更高。

Description

在多个社交网络中识别同一用户的方法及装置
技术领域
本发明涉及网络用户识别技术领域,特别是涉及一种在多个社交网络中识别同一用户的方法及装置。
背景技术
社交网络越来越流行,种类也越来越多(例如Facebook、Twitter、WeChat、Foursquare等),各种社交网络大部分都是相互独立的。每一个社交网络都有基于账号的大量异构数据集,包括时间、地点、人物、事件等多样化的数据类型。一个用户常常同时活跃于多个社交网络中,分别使用不同的账号,产生大量散布在各个社交网络的独立数据集。把同一用户的不同社交网络的数据集关联在一起,将大大扩展基于同一用户的数据信息,对许多数据挖掘分析意义重大。
现有技术中,把同一用户的不同社交网络的数据集关联在一起的方法主要是:首先,对社交网络中的账号进行建模,使用账号的注册信息以及该账号的用户在社交网络中发布的文本内容,生成描述账号特征的向量,该向量包括该账号的用户的名称、用户的生日、用户的学位,用户的爱好(如歌曲、颜色、食物等)等属性;其次,对向量中的不同属性赋予不同的权重,该权重体现该属性对区别不同用户的重要程度;最后,计算不同账号向量之间的相似度,用来识别是否属于同一个用户。
本申请的发明人在长期的研发中发现,上述方法描述账号特征的属性不全面,只使用账号的注册信息及部分的文本信息,不能全面准确地刻画一个账号的特点。
发明内容
本发明主要解决的技术问题是提供一种在多个社交网络中识别同一用户的方法及装置,能够全面准确地描述用户的信息,使最后的预测结果准确性更高。
第一方面,本发明提供一种在多个社交网络中识别同一用户的方法,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述方法包括:输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将所述测试集的账号生成测试集账号组合;抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
在第一方面的第一种可能的实现方式中,所述将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合的步骤之前,包括:输入从所述至少两个不同的社交网络中获取的训练集的账号,并将所述训练集的账号中属于同一用户的账号生成训练集账号组合;抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;通过监督分类算法,利用所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征对所述训练集进行训练,获得所述分类预测模型。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
结合第一方面的第二种可能的实现方式,在第一方面的第四种可能的实现方式中,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
结合第一方面的第二种可能的实现方式,在第一方面的第五种可能的实现方式中,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
结合第一方面的第二种可能的实现方式,在第一方面的第六种可能的实现方式中,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述方法还包括:通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理;利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
结合第一方面、第一方面的第一种至第七种中任一种可能的实现方式,在第一方面的第八种可能的实现方式中,所述通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果的步骤,包括:通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,所述通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果的步骤,包括:在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;若所述测试集账号组合存在闭合账号对,则所述闭合账号对所对应的账号属于同一用户,并输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
结合第一方面的第九种可能的实现方式,在第一方面的第十种可能的实现方式中,所述在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表的步骤之后,还包括:若所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak),则比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;若所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值,则所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,并输出所述属于同一用户的测试集账号组合(bj,ak),若所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值,则所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,并输出所述属于同一用户的测试集账号组合(ai,bj)。
第二方面,本发明提供一种在多个社交网络中识别同一用户的装置,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述装置包括:第一生成模块、第一抽取模块、第一获得模块以及输出模块;所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将所述测试集的账号生成测试集账号组合;所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后,抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,将所述抽取的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
在第二方面的第一种可能的实现方式中,所述装置还包括:第二生成模块、第二抽取模块以及第二获得模块;所述第二生成模块用于在输入从所述至少两个不同的社交网络中获取的训练集的账号后,将所述训练集的账号中属于同一用户的账号生成训练集账号组合;所述第二抽取模块用于在所述第二生成模块生成训练集账号组合后,抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;所述第二获得模块用于在所述第二抽取模块抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,通过监督分类算法,利用所述抽取的特征对所述训练集进行训练,获得所述分类预测模型。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
结合第二方面的第二种可能的实现方式,在第二方面的第四种可能的实现方式中,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
结合第二方面的第二种可能的实现方式,在第二方面的第五种可能的实现方式中,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
结合第二方面的第二种可能的实现方式,在第二方面的第六种可能的实现方式中,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
结合第二方面的第六种可能的实现方式,在第二方面的第七种可能的实现方式中,所述装置还包括:处理模块和第三生成模块;所述处理模块用于通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理;所述第三生成模块用于在所述处理模块对所述测试集或训练集账号组合中账号发布的信息进行处理后,利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
结合第二方面、第二方面的第一种至第七种中任一种可能的实现方式,在第二方面的第八种可能的实现方式中,所述输出模块具体用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
结合第二方面的第八种可能的实现方式,在第二方面的第九种可能的实现方式中,所述输出模块包括:获得单元和第一输出单元;所述获得单元用于在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;所述第一输出单元用于在所述获得单元获得所述账号的预测值列表后,在所述测试集账号组合存在闭合账号对时,所述闭合账号对所对应的账号属于同一用户,输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
结合第二方面的第九种可能的实现方式,在第二方面的第十种可能的实现方式中,所述输出模块还包括比较单元和第二输出单元;所述比较单元用于在所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak)时,比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;所述第二输出单元用于在所述比较单元的比较结果为所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值时,所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,输出所述属于同一用户的测试集账号组合(bj,ak),在所述比较单元的比较结果为所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值时,所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,输出所述属于同一用户的测试集账号组合(ai,bj)。
本发明的有益效果是:区别于现有技术的情况,本发明抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的预测结果准确性更高。
附图说明
图1是本发明在多个社交网络中识别同一用户的方法一实施方式的流程图;
图2是本发明在多个社交网络中识别同一用户的方法另一实施方式的流程图;
图3是本发明在多个社交网络中识别同一用户的方法又一实施方式的流程图;
图4是本发明在多个社交网络中识别同一用户的装置一实施方式的结构示意图;
图5是本发明在多个社交网络中识别同一用户的装置另一实施方式的结构示意图;
图6是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图;
图7是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图;
图8是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图。
具体实施方式
下面结合附图和实施方式对本发明进行详细说明。
参阅图1,图1是本发明在多个社交网络中识别同一用户的方法一实施方式的流程图,包括:
定义同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,账号组合中每个账号分别来自不同的社交网络。
社交网络越来越流行,种类也越来越多,例如Facebook、Twitter、WeChat、Foursquare等,各种社交网络大部分都是相互独立的。很多用户在不同的社交网络上注册账号,现有技术中存在识别同一社交网络中不同账号属于同一用户的技术方案,因此,定义同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,账号组合中每个账号分别来自不同的社交网络,例如,社交网络A和社交网络B是不同的社交网络,社交网络A有三个用户的账号,分别是a1、a2以及a3,社交网络B有四个用户的账号,分别是b1、b2、b3以及b4,账号组合中账号的个数是2,如账号组合(a1,b1)、(a2,b2)、(a3,b3)等是满足要求的,账号组合(a1,a2)、(b2,b3)等是不满足要求的,因为a1与a2以及b2与b3是同一社交网络的账号。
步骤S101:输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将测试集的账号生成测试集账号组合。
测试集中的账号来自至少两个不同的社交网络的注册账号,而且账号之间是否是同一用户在至少两个不同的社交网络上注册的账号,也是未知的。首先从至少两个不同的社交网络的注册账号中获取测试集的账号,输入测试集的账号后,将测试集的账号生成测试集账号组合,以便于预测测试集账号组合中的账号是否属于同一用户。
步骤S102:抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
与账号的用户的行为数据相关的特征是指与该账号的用户在社交网络上的行为习惯或行为特点方面的数据相关的特征,账号的用户的行为数据,例如:用户登录社交网站的时间段方面的数据、用户登录社交网站的地点方面的数据、用户在社交网站上发表言论的语言习惯方面的数据、用户关注的朋友方面的数据、用户的兴趣点方面的数据等等。一个用户的行为习惯或行为特点一般是非常固定的,也是非常具有个性化的,如果不同的社交网络上的账号所对应的用户的行为习惯或行为特点方面的数据所表现出来的特征非常近似,那么这几个不同的社交网络上的账号极有可能属于同一用户。
因此,抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征,可以用来预测测试集账号组合中的账号是否属于同一账号。
其中,至少两个不同的与账号的用户的行为数据相关的特征包括但不限于:账号组合中账号的社交特征、账号组合中账号发布信息的空间特征、账号组合中账号发布信息的时间特征以及账号组合中账号发布信息的文本特征。
账号组合中账号的社交特征主要说明该账号所对应用户的交友状况或交友特征。账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,公共相邻元素个数是指账号组合中账号具有相同朋友的个数,相同朋友的账号在训练集中;Jaccard相似系数是指账号组合中账号具有相同朋友的个数占账号组合中账号的所有朋友个数的比例;Adamic/Adar度量是指账号组合中账号的相同朋友在各自社交网络中的影响力。即Adamic/Adar度量等于其中(am,bm)是属于ai和bi的公共相邻元素中的任意一个。
例如:社交网络A和社交网络B是不同的社交网络,社交网络A有三个用户的账号ai,分别是a1、a2以及a3,社交网络B有四个用户的账号bi,分别是b1、b2、b3以及b4,账号a1的朋友有a2、a3,账号b1的朋友有b2、b3、b4,通过训练集获知(a2、b2)和(a3、b3)分别属于同一用户,因此账号a1和账号b1的相同朋友的个数是2,即公共相邻元素个数为2,账号a1和账号b1所有的朋友的个数是5,则Jaccard相似系数是2/5=0.4。假如账号a2和账号b2所有的朋友的个数是6,账号a3和账号b3所有的朋友的个数是4,那么Adamic/Adar度量等于log-13+log-12。
账号组合中账号发布信息的空间特征主要是指该账号发布信息时所在地点方面的特征,如:该账号通常在哪里发布信息,在家里或在公司里或在公共场所网吧;该账号发布信息集中的地点在哪里等等。通常来说,同一用户在登录一个社交网站发布信息时,会同时更新其它社交网站的信息,假如有两个不同的社交网站上的两个账号,发现这两个账号经常在同一地点发布信息,那么这两个不同的社交网站上的两个账号极有可能属于同一用户。
账号组合中账号发布信息的空间特征包括但不限于:账号组合中所有账号发布信息的相同地点的个数、账号组合中所有账号发布信息的地点集合的余弦相似度以及账号组合中所有账号发布信息的地点集合的平均距离。余弦相似度是用来计算两个向量的相似程度,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”。例如:账号组合(ai、bi)中的一个账号组合(a1、b1),账号a1发布信息的地点有:地点1(发布信息4次)、地点2(发布信息7次)、地点3(发布信息2次),账号b1发布信息的地点有地点1(发布信息4次)、地点2(发布信息7次)、地点4(发布信息1次)、地点5(发布信息1次),那么账号a1和账号b1发布信息的相同地点的个数是2个;按照地点1、地点2、地点3、地点4、地点5的顺序,账号a1的向量可以是(4,7,2,0,0),账号b1的向量可以是(4,7,0,1,1),计算这两个向量的余弦值即可获得两个向量的余弦相似度;根据账号a1的三个地点(即地点1、地点2、地点3)可以获得账号a1地点集合的平均距离,根据账号b1的四个地点(即地点1、地点2、地点4、地点5)可以获得账号b1地点集合的平均距离。
账号组合中账号发布信息的时间特征主要是指该账号发布信息是所处时间段方面的特征。账号组合中账号发布信息的时间特征包括但不限于:账号组合中所有账号发布信息的相同时间段的个数和账号组合中所有账号发布信息的时间段集合的余弦相似度。例如,账号组合(ai、bi)中的一个账号组合(a1、b1),账号a1发布信息的时间段有:时间段1(发布信息5次)、时间段2(发布信息8次)、时间段3(发布信息2次),账号b1发布信息的时间段有时间段1(发布信息5次)、时间段2(发布信息8次)、时间段4(发布信息1次)、时间段5(发布信息1次),那么账号a1和账号b1发布信息的相同时间段的个数是2个;按照时间段1、时间段2、时间段3、时间段4、时间段5的顺序,账号a1的向量可以是(5,8,2,0,0),账号b1的向量可以是(5,8,0,1,1),计算这两个向量的余弦值即可获得两个向量的余弦相似度。
账号组合中账号发布信息的文本特征主要是指该账号发布信息的一些语言习惯。账号组合中账号发布信息的文本特征包括但不限于:账号组合中所有账号发布信息的词袋向量的内积和账号组合中所有账号发布信息的词袋向量的余弦相似度。
词袋(Bag of words),在信息检索中,词袋假定对于一个文本,忽略其词序、语法和句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。内积又称数量积或点积,假设有n维向量α、β,向量内积即为向量α与β的内积为α·β。举个简单的例子以说明词袋向量的获得方式之一:账号组合(ai、bi)中的一个账号组合(a1、b1),账号a1发布信息的词袋有:词袋1(出现次数15次)、词袋2(出现次数21次)、词袋3(出现次数12次)、词袋4(出现次数5次),账号b1发布信息的时间段有词袋1(出现次数15次)、词袋2(出现次数21次)、词袋4(出现次数12次)、词袋5(出现次数8次),按照词袋1、词袋2、词袋3、词袋4、词袋5的顺序,账号a1的词袋向量可以是(15,21,12,5,0),账号b1的词袋向量可以是(15,21,0,12,8),将账号a1的词袋向量与账号b1的词袋向量的内积为(15,21,12,5,0)·(15,21,0,12,8),计算这两个向量的余弦值即可获得两个向量的余弦相似度。
获得账号组合中所有账号发布信息的词袋向量的时候,本发明实施方式还可以提供另外的方式,具体包括:
A.通过自然语言处理技术对测试集或训练集账号组合中账号发布的信息进行处理。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
B.利用词频-逆向文件频率(TF-IDF)权重模型将经过处理的信息生成账号的词袋向量。
TF-IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数,最后的结果即为某一特定词语的IDF。
步骤S103:将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合。
分类预测模型是已经建立好的,建立分类预测模型时,使用的是训练集中的账号,训练集中的账号生成训练集账号组合,每个训练集账号组合中的账号属于同一用户,在对训练集进行训练时,抽取的特征也是训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。因此,将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中时,即可获得测试集账号组合的可能属于同一用户的预测值或预测值集合。当只有一组测试集账号组合时,可获得测试集账号组合的可能属于同一用户的预测值,当有多组测试集账号组合时,可获得测试集账号组合的可能属于同一用户的预测值集合。
步骤S104:通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
关联算法是指通过计算测试集账号组合的预测值之间的相关性,来获得测试集账号组合最后的预测结果,即该测试集账号组合属于同一用户或不属于同一用户。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的预测结果准确性更高。另外,通过公关相邻元素个数、Jaccard相似系数、Adamic/Adar度量等指标,能够扩展现有技术中传统的定义方式。
参阅图2,图2是本发明在多个社交网络中识别同一用户的方法另一实施方式的流程图,本实施方式与图1的实施方式基本相同,相同的地方请参见图1以及相应的文字说明部分,不同之处请参见下面的内容,主要包括步骤S201、步骤S202以及步骤S203,具体内容包括:
步骤S201:输入从至少两个不同的社交网络中获取的训练集的账号,并将训练集的账号中属于同一用户的账号生成训练集账号组合。
训练集中的账号来自至少两个不同的社交网络的注册账号,即训练集中的账号的来源和测试集一样。首先从至少两个不同的社交网络的注册账号中获取训练集的账号,输入训练集的账号后,将训练集的账号生成训练集账号组合,训练集账号组合中的账号是属于同一用户的。
步骤S202:抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
与账号的用户的行为数据相关的特征是指与该账号的用户在社交网络上的行为习惯或行为特点方面的数据相关的特征,账号的用户的行为数据,例如:用户登录社交网站的时间段方面的数据、用户登录社交网站的地点方面的数据、用户在社交网站上发表言论的语言习惯方面的数据、用户关注的朋友方面的数据、用户的兴趣点方面的数据等等。一个用户的行为习惯或行为特点一般是非常固定的,也是非常具有个性化的,如果不同的社交网络上的账号所对应的用户的行为习惯或行为特点方面的数据所表现出来的特征非常近似,那么这几个不同的社交网络上的账号极有可能属于同一用户。
因此,抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征,可以用来建立分类预测模型。
步骤S203:通过监督分类算法,利用训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征对训练集进行训练,获得分类预测模型。
监督分类算法属于一种机器学习分类算法,包括但不限于:支持向量机(Support Vector Machines,SVM)、逻辑回归(Logistic Regression,LR)。
步骤S204:输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将测试集的账号生成测试集账号组合。
步骤S205:抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
步骤S206:将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合。
步骤S207:通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
需要说明的是,步骤S201、步骤S202以及步骤S203只需要在步骤S206之前执行即可,例如,步骤S201、步骤S202以及步骤S203与步骤S204、步骤S205同时执行,不限于本实施方式所限定的执行顺序,在此不再一一赘叙。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的关联结果准确性更高。
参阅图3,图3是本发明在多个社交网络中识别同一用户的方法又一实施方式的流程图,本实施方式与图1和图2的实施方式基本相同,相同的地方请参见图1和图2以及相应的文字说明部分,不同之处请参见下面的内容,主要包括子步骤S307a、步骤S307b、步骤S307c以及步骤S307d,具体内容包括:
步骤S301:输入从至少两个不同的社交网络中获取的训练集的账号,并将训练集的账号中属于同一用户的账号生成训练集账号组合。
步骤S302:抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
步骤S303:通过监督分类算法,利用训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征对训练集进行训练,获得分类预测模型。
步骤S304:输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将测试集的账号生成测试集账号组合。
步骤S305:抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
步骤S306:将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合。
步骤S307:通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
步骤S307具体包括:通过多网络定向MNA算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。具体来说包括如下子步骤:
子步骤S307a:在测试集账号组合中,对测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得账号的预测值列表。
子步骤S307b:判断测试集账号组合中是否存在闭合账号对。如果存在闭合账号对,进入步骤S307c,如果不存在闭合账号对,进入步骤S307d。
子步骤S307c:若测试集账号组合存在闭合账号对,则闭合账号对所对应的账号属于同一用户,并输出属于同一用户的闭合账号对,其中,闭合账号对满足的条件是:账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
子步骤S307d:若账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak),则比较测试集账号组合(ai,bj)的预测值和测试集账号组合(bj,ak)的预测值的大小。
子步骤S307e:若测试集账号组合(ai,bj)的预测值小于测试集账号组合(bj,ak)的预测值,则账号ak和账号bj属于同一用户,账号ai和账号bj不属于同一用户,并输出属于同一用户的测试集账号组合(bj,ak),若测试集账号组合(ai,bj)的预测值大于测试集账号组合(bj,ak)的预测值,则账号ai和账号bj属于同一用户,账号ak和账号bj不属于同一用户,并输出属于同一用户的测试集账号组合(ai,bj)。
下面以一个实例来说明上述子步骤S307a、子步骤S307b、子步骤S307c、子步骤S307d以及子步骤S307e在实际应用中具体的实现过程。假设有两个独立的社交网络A和B,测试集包括社交网络A中的账号a1、a2以及a3与社交网络B中的账号b1和b2。将训练得到的预测分类模型应用到上述测试集之后得到如下表一的信息:
表一:
其中,a1的“预测值列表”[b1(0.8),b2(0.6)]表示(a1,b1)、(a1,b2)为同一用户的可能性分别为0.8、0.6,这两个值是分类模型的预测结果。每个账号的预测值列表是按各种账号组合预测结果降序进行排列。“匹配状态”描述账号是否已与另一网络的其它账号匹配,即是否出现在“推断结果集A’”中。“推断结果集A’”中包括所有推导为同一用户的账号组合并且记录每一账号组合的预测值。不难看出,上述测试集中存在一组闭合账号对(a1,b1)。下面对上述结果进行关联计算。
步骤1:获取社交网络A的某一账号,该账号满足“匹配状态”为“否”并且“预测值列表”不为空白。例如:获取账号a3,对账号a3取其预测值列表中社交网络B中的第一位账号b1;将b1从a3的预测值列表中删除,并且判断b1的匹配状态;b1的匹配状态为“否”,则推导(a3,b1)为同一用户,将(a3,b1)添加到“推断结果集A’”,同时将a3和b1的匹配状态修改为“是”。信息更新如下表二:
表二:
步骤2:获取社交网络A的某一账号,该账号满足“匹配状态”为“否”,并且“预测值列表”不为空白。例如:取账号a1,对账号a3取其预测值列表中社交网络B中的第一位账号b1;将b1从a1的预测值列表中删除,并且判断b1的匹配状态;b1的匹配状态为“是”,从“推断结果集A’”中查到b1与a3匹配且预测值为0.5,比较(a1,b1)和(a3,b1)的预测值大小;结果为(a1,b1)的预测值大于(a3,b1)的预测值,然后进行如下操作:
a)将(a3,b1)从“推断结果集A’”中删除;
b)将(a1,b1)添加到“推断结果集A’”中;
c)更新a3的“匹配状态”为“否”;
d)更新a1的“匹配状态”为“是”。
此时信息更新如下表三:
表三:
步骤3:获取社交网络A的某一账号,该账号满足“匹配状态”为“否”,并且“预测值列表”不为空白。例如:取账号a2,对账号a2取其预测值列表中社交网络B中的第一位账号b1;将b1从a2的预测值列表中删除,并且判断b1的匹配状态;b1的匹配状态为“是”,从“推断结果集A’”中查到b1与a1匹配且预测值为0.8;比较(a1,b1)和(a2,b1)的预测值大小;结果为(a1,b1)的预测值大于(a2,b1)的预测值,然后进行下一步操作,此时信息更新如下表四:
表四:
步骤4:获取社交网络A的某一账号,该账号满足“匹配状态”为“否”,并且“预测值列表”不为空白。例如:取账号a2,对账号a2取其预测值列表中社交网络B中的第一位账号b2;将b2从a2的预测值列表中删除,并且判断b2的匹配状态;b2的匹配状态为“否”,则推导(a2,b2)为同一用户,将(a2,b2)添加到“推断结果集A’”,同时将a2和b2的匹配状态修改为“是”。此时信息更新如下表五:
表五:
步骤5:获取社交网络A的某一账号,该账号满足“匹配状态”为“否”,并且“预测值列表”不为空白。此时只能取账号a3,对账号a3取其预测值列表中社交网络B中第一位的账号b2;将b2从a3的预测值列表中删除,并且判断b2的匹配状态;b2的匹配状态为“是”,从“推断结果集A’”中查到b2与a2匹配且预测值为0.4;比较(a2,b2)和(a3,b2)的预测值大小,结果为(a2,b2)的预测值大于(a3,b2)的预测值,然后进行下一步操作。此时信息更新如下表六:
表六:
步骤6:此时社交网络A中不存在账号同时满足“匹配状态”为“否”并且“预测值列表”不为空白这两项条件,操作结束。最终结果为:(a1,b1)和(a2,b2)分别是同一用户。此时可以看到闭合账号对(a1,b1)出现在集合A’中,集合A’是稳定的。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的关联结果准确性更高。另外,通过MNA算法能够快速得到全局最优的匹配结果。
参阅图4和图5,图4和图5是本发明在多个社交网络中识别同一用户的装置两个实施方式的结构示意图,该装置包括:第一生成模块101、第一抽取模块102、第一获得模块103以及输出模块104。
需要说明的是,本实施方式的装置可以执行图1至图3中的步骤。
定义同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,账号组合中每个账号分别来自不同的社交网络。
社交网络越来越流行,种类也越来越多,例如Facebook、Twitter、WeChat、Foursquare等,各种社交网络大部分都是相互独立的。很多用户在不同的社交网络上注册账号,现有技术中存在识别同一社交网络中不同账号属于同一用户的技术方案,因此,定义同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,账号组合中每个账号分别来自不同的社交网络。
第一生成模块101用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将测试集的账号生成测试集账号组合。
测试集中的账号来自至少两个不同的社交网络的注册账号,而且账号之间是否是同一用户在至少两个不同的社交网络上注册的账号,也是未知的。首先从至少两个不同的社交网络的注册账号中获取测试集的账号,输入测试集的账号后,将测试集的账号生成测试集账号组合,以便于预测测试集账号组合中的账号是否属于同一用户。
第一抽取模块102用于在第一生成模块101生成测试集账号组合后,抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
与账号的用户的行为数据相关的特征是指与该账号的用户在社交网络上的行为习惯或行为特点方面的数据相关的特征。一个用户的行为习惯或行为特点一般是非常固定的,也是非常具有个性化的,如果不同的社交网络上的账号所对应的用户的行为习惯或行为特点方面的数据所表现出来的特征非常近似,那么这几个不同的社交网络上的账号极有可能属于同一用户。
因此,抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征,可以用来预测测试集账号组合中的账号是否属于同一账号。
其中,至少两个不同的与账号的用户的行为数据相关的特征包括但不限于:账号组合中账号的社交特征、账号组合中账号发布信息的空间特征、账号组合中账号发布信息的时间特征以及账号组合中账号发布信息的文本特征。
账号组合中账号的社交特征主要说明该账号所对应用户的交友状况或交友特征。账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,公共相邻元素个数是指账号组合中账号具有相同朋友的个数,相同朋友的账号在训练集中;Jaccard相似系数是指账号组合中账号具有相同朋友的个数占账号组合中账号的所有朋友个数的比例;Adamic/Adar度量是指账号组合中账号的相同朋友在各自社交网络中的影响力。即Adamic/Adar度量等于其中(am,bm)是属于ai和bi的公共相邻元素中的任意一个。
例如:社交网络A和社交网络B是不同的社交网络,社交网络A有三个用户的账号ai,分别是a1、a2以及a3,社交网络B有四个用户的账号bi,分别是b1、b2、b3以及b4,账号a1的朋友有a2、a3,账号b1的朋友有b2、b3、b4,通过训练集获知(a2、b2)和(a3、b3)分别属于同一用户,因此账号a1和账号b1的相同朋友的个数是2,即公共相邻元素个数为2,账号a1和账号b1所有的朋友的个数是5,则Jaccard相似系数是2/5=0.4。假如账号a2和账号b2所有的朋友的个数是6,账号a3和账号b3所有的朋友的个数是4,那么Adamic/Adar度量等于log-13+log-12。
账号组合中账号发布信息的空间特征主要是指该账号发布信息时所在地点方面的特征,如:该账号通常在哪里发布信息,在家里或在公司里或在公共场所网吧;该账号发布信息集中的地点在哪里等等。通常来说,同一用户在登录一个社交网站发布信息时,会同时更新其它社交网站的信息,假如有两个不同的社交网站上的两个账号,发现这两个账号经常在同一地点发布信息,那么这两个不同的社交网站上的两个账号极有可能属于同一用户。
账号组合中账号发布信息的空间特征包括但不限于:账号组合中所有账号发布信息的相同地点的个数、账号组合中所有账号发布信息的地点集合的余弦相似度以及账号组合中所有账号发布信息的地点集合的平均距离。余弦相似度是用来计算两个向量的相似程度,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”。例如:账号组合(ai、bi)中的一个账号组合(a1、b1),账号a1发布信息的地点有:地点1(发布信息4次)、地点2(发布信息7次)、地点3(发布信息2次),账号b1发布信息的地点有地点1(发布信息4次)、地点2(发布信息7次)、地点4(发布信息1次)、地点5(发布信息1次),那么账号a1和账号b1发布信息的相同地点的个数是2个;按照地点1、地点2、地点3、地点4、地点5的顺序,账号a1的向量可以是(4,7,2,0,0),账号b1的向量可以是(4,7,0,1,1),计算这两个向量的余弦值即可获得两个向量的余弦相似度;根据账号a1的三个地点(即地点1、地点2、地点3)可以获得账号a1地点集合的平均距离,根据账号b1的四个地点(即地点1、地点2、地点4、地点5)可以获得账号b1地点集合的平均距离。
账号组合中账号发布信息的时间特征主要是指该账号发布信息是所处时间段方面的特征。账号组合中账号发布信息的时间特征包括但不限于:账号组合中所有账号发布信息的相同时间段的个数和账号组合中所有账号发布信息的时间段集合的余弦相似度。例如,账号组合(ai、bi)中的一个账号组合(a1、b1),账号a1发布信息的时间段有:时间段1(发布信息5次)、时间段2(发布信息8次)、时间段3(发布信息2次),账号b1发布信息的时间段有时间段1(发布信息5次)、时间段2(发布信息8次)、时间段4(发布信息1次)、时间段5(发布信息1次),那么账号a1和账号b1发布信息的相同时间段的个数是2个;按照时间段1、时间段2、时间段3、时间段4、时间段5的顺序,账号a1的向量可以是(5,8,2,0,0),账号b1的向量可以是(5,8,0,1,1),计算这两个向量的余弦值即可获得两个向量的余弦相似度。
账号组合中账号发布信息的文本特征主要是指该账号发布信息的一些语言习惯。账号组合中账号发布信息的文本特征包括但不限于:账号组合中所有账号发布信息的词袋向量的内积和账号组合中所有账号发布信息的词袋向量的余弦相似度。
词袋(Bag of words),在信息检索中,词袋假定对于一个文本,忽略其词序、语法和句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。内积又称数量积或点积,假设有n维向量α、β,向量内积即为向量α与β的内积为α·β。举个简单的例子以说明词袋向量的获得方式之一:账号组合(ai、bi)中的一个账号组合(a1、b1),账号a1发布信息的词袋有:词袋1(出现次数15次)、词袋2(出现次数21次)、词袋3(出现次数12次)、词袋4(出现次数5次),账号b1发布信息的时间段有词袋1(出现次数15次)、词袋2(出现次数21次)、词袋4(出现次数12次)、词袋5(出现次数8次),按照词袋1、词袋2、词袋3、词袋4、词袋5的顺序,账号a1的词袋向量可以是(15,21,12,5,0),账号b1的词袋向量可以是(15,21,0,12,8),将账号a1的词袋向量与账号b1的词袋向量的内积为(15,21,12,5,0)·(15,21,0,12,8),计算这两个向量的余弦值即可获得两个向量的余弦相似度。
获得账号组合中所有账号发布信息的词袋向量的时候,本发明实施方式还可以提供另外的方式,即该装置还包括:处理模块105和第三生成模块106,如图5所示。
处理模块105用于通过自然语言处理技术对测试集或训练集账号组合中账号发布的信息进行处理。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
第三生成模块106用于在处理模块105对测试集或训练集账号组合中账号发布的信息进行处理后,利用词频-逆向文件频率(TF-IDF)权重模型将经过处理的信息生成账号的词袋向量。
TF-IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数,最后的结果即为某一特定词语的IDF。
第一获得模块103用于在第一抽取模块102抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后,将抽取的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合。
分类预测模型是已经建立好的,建立分类预测模型时,使用的是训练集中的账号,训练集中的账号生成训练集账号组合,每个训练集账号组合中的账号属于同一用户,在对训练集进行训练时,抽取的特征也是训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。因此,将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中时,即可获得测试集账号组合的可能属于同一用户的预测值或预测值集合。当只有一组测试集账号组合时,可获得测试集账号组合的可能属于同一用户的预测值,当有多组测试集账号组合时,可获得测试集账号组合的可能属于同一用户的预测值集合。
输出模块104用于在第一获得模块103获得测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
关联算法是指通过计算测试集账号组合的预测值之间的相关性,来获得测试集账号组合最后的预测结果,即该测试集账号组合属于同一用户或不属于同一用户。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的关联结果准确性更高。另外,通过公关相邻元素个数、Jaccard相似系数、Adamic/Adar度量等指标,能够扩展现有技术中传统的定义方式。
参阅图6,图6是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图,本实施方式的装置和图4、图5的装置基本相同,相同的地方请参见图4、图5以及相应的文字说明,不同之处在于该装置除了包括第一生成模块201、第一抽取模块202、第一获得模块203以及输出模块204外,还包括第二生成模块205、第二抽取模块206以及第二获得模块207。
需要说明的是,本实施方式的装置可以执行图2中的步骤。
第一生成模块201用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将测试集的账号生成测试集账号组合。
第一抽取模块202用于在第一生成模块201生成测试集账号组合后,抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
第一获得模块203用于在第一抽取模块202抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后,将抽取的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合。
输出模块204用于在第一获得模块203获得测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
第二生成模块205用于在输入从至少两个不同的社交网络中获取的训练集的账号后,将训练集的账号中属于同一用户的账号生成训练集账号组合。
训练集中的账号来自至少两个不同的社交网络的注册账号,即训练集中的账号的来源和测试集一样。首先从至少两个不同的社交网络的注册账号中获取训练集的账号,输入训练集的账号后,将训练集的账号生成训练集账号组合,训练集账号组合中的账号是属于同一用户的。
第二抽取模块206用于在第二生成模块205生成训练集账号组合后,抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
与账号的用户的行为数据相关的特征是指与该账号的用户在社交网络上的行为习惯或行为特点方面的数据相关的特征,账号的用户的行为数据,例如:用户登录社交网站的时间段方面的数据、用户登录社交网站的地点方面的数据、用户在社交网站上发表言论的语言习惯方面的数据、用户关注的朋友方面的数据、用户的兴趣点方面的数据等等。一个用户的行为习惯或行为特点一般是非常固定的,也是非常具有个性化的,如果不同的社交网络上的账号所对应的用户的行为习惯或行为特点方面的数据所表现出来的特征非常近似,那么这几个不同的社交网络上的账号极有可能属于同一用户。
因此,抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征,可以用来建立分类预测模型。
第二获得模块207用于在第二抽取模块206抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后,通过监督分类算法,利用抽取的特征对训练集进行训练,获得分类预测模型。
监督分类算法属于一种机器学习分类算法,包括但不限于:支持向量机、逻辑回归。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的关联结果准确性更高。
参阅图7,图7是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图,本实施方式的装置和图4、图5、图6的装置基本相同,相同的地方请参见图4、图5、图6以及相应的文字说明,不同之处在于该装置除了包括第一生成模块301、第一抽取模块302、第一获得模块303以及输出模块304、第二生成模块305、第二抽取模块306以及第二获得模块307外,输出模块304还包括获得单元3041、判断单元3042、第一输出单元3043以及第二输出单元3044。
需要说明的是,本实施方式的装置可以执行图3中的步骤。
第一生成模块301用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将测试集的账号生成测试集账号组合。
第一抽取模块302用于在第一生成模块301生成测试集账号组合后,抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
第一获得模块303用于在第一抽取模块302抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后,将抽取的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合。
输出模块304用于在第一获得模块303获得测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
输出模块304具体用于通过多网络定向MNA算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。
其中,输出模块304包括:获得单元3041、判断单元3042、第一输出单元3043、比较单元3044以及第二输出单元3045。
获得单元3041用于在测试集账号组合中,对测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得账号的预测值列表。
判断单元3042用于判断测试集账号组合中是否存在闭合账号对。
第一输出单元3043用于在获得单元3041获得账号的预测值列表后,在测试集账号组合存在闭合账号对时,闭合账号对所对应的账号属于同一用户,输出属于同一用户的闭合账号对,其中,闭合账号对满足的条件是:账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
比较单元3044用于在账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak)时,比较测试集账号组合(ai,bj)的预测值和测试集账号组合(bj,ak)的预测值的大小。
第二输出单元3045用于在比较单元3044的比较结果为测试集账号组合(ai,bj)的预测值小于测试集账号组合(bj,ak)的预测值时,账号ak和账号bj属于同一用户,账号ai和账号bj不属于同一用户,输出属于同一用户的测试集账号组合(bj,ak),在比较单元3044的比较结果为测试集账号组合(ai,bj)的预测值大于测试集账号组合(bj,ak)的预测值时,账号ai和账号bj属于同一用户,账号ak和账号bj不属于同一用户,输出属于同一用户的测试集账号组合(ai,bj)。
第二生成模块305用于在输入从至少两个不同的社交网络中获取的训练集的账号后,将训练集的账号中属于同一用户的账号生成训练集账号组合。
第二抽取模块306用于在第二生成模块305生成训练集账号组合后,抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征。
第二获得模块307用于在第二抽取模块306抽取训练集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征后,通过监督分类算法,利用抽取的特征对训练集进行训练,获得分类预测模型。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的关联结果准确性更高。另外,通过MNA算法能够快速得到全局最优的匹配结果。
参阅图8,图8是本发明在多个社交网络中识别同一用户的装置又一实施方式的结构示意图,该装置包括处理器11、与处理器11耦合的存储器12、输入单元13、输出单元14以及抽取单元15。
输入单元13用于输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,处理器11用于将所述测试集的账号生成测试集账号组合,并将所述生成的测试集账号组合保存在存储器12中。
抽取单元15用于抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征,并将所述抽取的特征保存在存储器12中。
处理器11用于从存储器12中调取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征,控制输入单元13将所述调取的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合。
处理器11用于通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,控制输出单元14输出所述计算出的测试集账号组合的预测结果。
输入单元13还用于输入从所述至少两个不同的社交网络中获取的训练集的账号,处理器11用于将所述训练集的账号中属于同一用户的账号生成训练集账号组合,并将所述生成的训练集账号组合保存在存储器12中。
抽取单元15还用于抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征,并将所述抽取的特征保存在存储器12中。
处理器11用于调取存储器12中保存的所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征,通过监督分类算法,利用所述调取的特征对所述训练集进行训练,获得所述分类预测模型。
其中,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
其中,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
其中,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
其中,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
其中,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
处理器11还用于通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理;利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
处理器11还用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,控制输出单元14输出所述计算出的测试集账号组合的预测结果。
处理器11还用于在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;若所述测试集账号组合存在闭合账号对,则所述闭合账号对所对应的账号属于同一用户,并控制输出单元14输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
处理器11还用于在所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak),则比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;若所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值,则所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,并控制输出单元14输出所述属于同一用户的测试集账号组合(bj,ak),若所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值,则所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,并控制输出单元14输出所述属于同一用户的测试集账号组合(ai,bj)。
本发明实施方式抽取测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征;将测试集账号组合中每个账号的至少两个不同的与账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得测试集账号组合的可能属于同一用户的预测值或预测值集合;通过关联算法对测试集账号组合的预测值或预测值集合进行计算,输出计算出的测试集账号组合的预测结果。通过抽取的特征是至少两个不同的与账号的用户的行为数据相关的特征,能够极大地丰富用户的信息,使最后的关联结果准确性更高。另外,通过公关相邻元素个数、Jaccard相似系数、Adamic/Adar度量等指标,能够扩展现有技术中传统的定义方式;通过MNA算法能够快速得到全局最优的匹配结果。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (22)

1.一种在多个社交网络中识别同一用户的方法,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述方法包括:
输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将所述测试集的账号生成测试集账号组合;
抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合的步骤之前,包括:
输入从所述至少两个不同的社交网络中获取的训练集的账号,并将所述训练集的账号中属于同一用户的账号生成训练集账号组合;
抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
通过监督分类算法,利用所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征对所述训练集进行训练,获得所述分类预测模型。
3.根据权利要求1或2所述的方法,其特征在于,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
4.根据权利要求3所述的方法,其特征在于,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
5.根据权利要求3所述的方法,其特征在于,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
6.根据权利要求3所述的方法,其特征在于,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
7.根据权利要求3所述的方法,其特征在于,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理;
利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果的步骤,包括:通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
10.根据权利要求9所述的方法,其特征在于,所述通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果的步骤,包括:
在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;
若所述测试集账号组合存在闭合账号对,则所述闭合账号对所对应的账号属于同一用户,并输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
11.根据权利要求10所述的方法,其特征在于,所述在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表的步骤之后,还包括:
若所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak),则比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;
若所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值,则所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,并输出所述属于同一用户的测试集账号组合(bj,ak),
若所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值,则所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,并输出所述属于同一用户的测试集账号组合(ai,bj)。
12.一种在多个社交网络中识别同一用户的装置,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述装置包括:第一生成模块、第一抽取模块、第一获得模块以及输出模块;
所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将所述测试集的账号生成测试集账号组合;
所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后,抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,将所述抽取的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:第二生成模块、第二抽取模块以及第二获得模块;
所述第二生成模块用于在输入从所述至少两个不同的社交网络中获取的训练集的账号后,将所述训练集的账号中属于同一用户的账号生成训练集账号组合;
所述第二抽取模块用于在所述第二生成模块生成训练集账号组合后,抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
所述第二获得模块用于在所述第二抽取模块抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,通过监督分类算法,利用所述抽取的特征对所述训练集进行训练,获得所述分类预测模型。
14.根据权利要求12或13所述的装置,其特征在于,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
15.根据权利要求14所述的装置,其特征在于,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
16.根据权利要求14所述的装置,其特征在于,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
17.根据权利要求14所述的装置,其特征在于,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
18.根据权利要求14所述的装置,其特征在于,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:处理模块和第三生成模块;
所述处理模块用于通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理;
所述第三生成模块用于在所述处理模块对所述测试集或训练集账号组合中账号发布的信息进行处理后,利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
20.根据权利要求12至19任一项所述的装置,其特征在于,所述输出模块具体用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
21.根据权利要求20所述的装置,其特征在于,所述输出模块包括:获得单元和第一输出单元;
所述获得单元用于在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;
所述第一输出单元用于在所述获得单元获得所述账号的预测值列表后,在所述测试集账号组合存在闭合账号对时,所述闭合账号对所对应的账号属于同一用户,输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
22.根据权利要求21所述的装置,其特征在于,所述输出模块还包括比较单元和第二输出单元;
所述比较单元用于在所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak)时,比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;
所述第二输出单元用于在所述比较单元的比较结果为所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值时,所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,输出所述属于同一用户的测试集账号组合(bj,ak),在所述比较单元的比较结果为所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值时,所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,输出所述属于同一用户的测试集账号组合(ai,bj)。
CN201310513952.9A 2013-10-25 2013-10-25 在多个社交网络中识别同一用户的方法及装置 Active CN104574192B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310513952.9A CN104574192B (zh) 2013-10-25 2013-10-25 在多个社交网络中识别同一用户的方法及装置
EP14190351.8A EP2866421B1 (en) 2013-10-25 2014-10-24 Method and apparatus for identifying a same user in multiple social networks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310513952.9A CN104574192B (zh) 2013-10-25 2013-10-25 在多个社交网络中识别同一用户的方法及装置

Publications (2)

Publication Number Publication Date
CN104574192A true CN104574192A (zh) 2015-04-29
CN104574192B CN104574192B (zh) 2021-01-15

Family

ID=51862102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310513952.9A Active CN104574192B (zh) 2013-10-25 2013-10-25 在多个社交网络中识别同一用户的方法及装置

Country Status (2)

Country Link
EP (1) EP2866421B1 (zh)
CN (1) CN104574192B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778388A (zh) * 2015-05-04 2015-07-15 苏州大学 一种两个不同平台下同一用户识别方法及系统
CN105871585A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 终端关联方法及装置
CN105930501A (zh) * 2016-05-09 2016-09-07 深圳市永兴元科技有限公司 网络账号关联方法和装置
CN106408411A (zh) * 2016-08-31 2017-02-15 北京城市网邻信息技术有限公司 信用评估方法及装置
WO2017059717A1 (zh) * 2015-10-09 2017-04-13 腾讯科技(深圳)有限公司 一种社交网络中用户信息的识别方法和系统
CN107070702A (zh) * 2017-03-13 2017-08-18 中国人民解放军信息工程大学 基于合作博弈支持向量机的用户账号关联方法及其装置
CN107741932A (zh) * 2016-06-24 2018-02-27 上海壹账通金融科技有限公司 用户数据融合方法及系统
CN107872436A (zh) * 2016-09-27 2018-04-03 阿里巴巴集团控股有限公司 一种账号识别方法、装置及系统
CN109697454A (zh) * 2018-11-06 2019-04-30 邓皓文 一种基于隐私保护的跨设备个体识别方法及装置
WO2019080404A1 (zh) * 2017-10-25 2019-05-02 平安科技(深圳)有限公司 跨社交平台用户匹配方法、数据处理装置及可读存储介质
CN110162956A (zh) * 2018-03-12 2019-08-23 华东师范大学 确定关联账户的方法和装置
CN110598126A (zh) * 2019-09-05 2019-12-20 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN111192154A (zh) * 2019-12-25 2020-05-22 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224593B (zh) * 2015-08-25 2019-08-16 中国人民解放军信息工程大学 一种短暂上网事务中频繁共现账号挖掘方法
CN107577682B (zh) * 2016-07-05 2021-06-29 上海交通大学 基于社交图片的用户兴趣挖掘和用户推荐方法及系统
CN109561050B (zh) * 2017-09-26 2021-11-09 武汉斗鱼网络科技有限公司 一种识别批量账号的方法和装置
CN110097125B (zh) * 2019-05-07 2022-10-14 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN111784468B (zh) * 2020-07-01 2022-11-18 支付宝(杭州)信息技术有限公司 一种账户关联方法、装置及电子设备
CN113537272B (zh) * 2021-03-29 2024-03-19 之江实验室 基于深度学习的半监督社交网络异常账号检测方法
US20240135381A1 (en) * 2022-10-24 2024-04-25 Capital One Services, Llc Systems and methods for external account authentication

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355664A (zh) * 2011-08-09 2012-02-15 郑毅 一种基于用户的社交网络对用户身份进行识别与匹配的方法
US20130110605A1 (en) * 2011-10-30 2013-05-02 Bank Of America Corporation Product recognition promotional offer matching
CN103166828A (zh) * 2011-12-12 2013-06-19 中兴通讯股份有限公司 社交网络的互操作方法及系统
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355664A (zh) * 2011-08-09 2012-02-15 郑毅 一种基于用户的社交网络对用户身份进行识别与匹配的方法
US20130110605A1 (en) * 2011-10-30 2013-05-02 Bank Of America Corporation Product recognition promotional offer matching
CN103166828A (zh) * 2011-12-12 2013-06-19 中兴通讯股份有限公司 社交网络的互操作方法及系统
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANSHU MALHOTRA ET AL: ""Studying User Footprints in Different Online Social Networks"", 《ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM),2012 IEEE/ACM INTERNATIONAL CONFERENCE ON》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778388A (zh) * 2015-05-04 2015-07-15 苏州大学 一种两个不同平台下同一用户识别方法及系统
US10536456B2 (en) 2015-10-09 2020-01-14 Tencent Technology (Shenzhen) Company Limited Method and system for identifying user information in social network
CN106572048A (zh) * 2015-10-09 2017-04-19 腾讯科技(深圳)有限公司 一种社交网络中用户信息的识别方法和系统
WO2017059717A1 (zh) * 2015-10-09 2017-04-13 腾讯科技(深圳)有限公司 一种社交网络中用户信息的识别方法和系统
CN105871585A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 终端关联方法及装置
CN105930501B (zh) * 2016-05-09 2019-08-16 深圳市永兴元科技股份有限公司 网络账号关联方法和装置
CN105930501A (zh) * 2016-05-09 2016-09-07 深圳市永兴元科技有限公司 网络账号关联方法和装置
CN107741932A (zh) * 2016-06-24 2018-02-27 上海壹账通金融科技有限公司 用户数据融合方法及系统
CN106408411A (zh) * 2016-08-31 2017-02-15 北京城市网邻信息技术有限公司 信用评估方法及装置
CN107872436B (zh) * 2016-09-27 2020-11-24 阿里巴巴集团控股有限公司 一种账号识别方法、装置及系统
CN107872436A (zh) * 2016-09-27 2018-04-03 阿里巴巴集团控股有限公司 一种账号识别方法、装置及系统
CN107070702A (zh) * 2017-03-13 2017-08-18 中国人民解放军信息工程大学 基于合作博弈支持向量机的用户账号关联方法及其装置
CN107070702B (zh) * 2017-03-13 2019-12-10 中国人民解放军信息工程大学 基于合作博弈支持向量机的用户账号关联方法及其装置
WO2019080404A1 (zh) * 2017-10-25 2019-05-02 平安科技(深圳)有限公司 跨社交平台用户匹配方法、数据处理装置及可读存储介质
CN110162956B (zh) * 2018-03-12 2024-01-19 华东师范大学 确定关联账户的方法和装置
CN110162956A (zh) * 2018-03-12 2019-08-23 华东师范大学 确定关联账户的方法和装置
CN109697454A (zh) * 2018-11-06 2019-04-30 邓皓文 一种基于隐私保护的跨设备个体识别方法及装置
CN110598126B (zh) * 2019-09-05 2023-04-18 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN110598126A (zh) * 2019-09-05 2019-12-20 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN111192154A (zh) * 2019-12-25 2020-05-22 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN111192154B (zh) * 2019-12-25 2023-05-02 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法

Also Published As

Publication number Publication date
CN104574192B (zh) 2021-01-15
EP2866421B1 (en) 2019-07-03
EP2866421A1 (en) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104574192A (zh) 在多个社交网络中识别同一用户的方法及装置
US20190114668A1 (en) Application recommendation method and server
CN105022754B (zh) 基于社交网络的对象分类方法及装置
US20210271823A1 (en) Content generation using target content derived modeling and unsupervised language modeling
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN104615608A (zh) 一种数据挖掘处理系统及方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN107507028A (zh) 用户偏好确定方法、装置、设备及存储介质
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN106294618A (zh) 搜索方法及装置
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
KR20200096133A (ko) 데이터 모델을 구축하는 방법, 장치, 기기 및 매체
CN110516210A (zh) 文本相似度的计算方法和装置
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
KR102595384B1 (ko) 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템
CN112214602A (zh) 基于幽默度的文本分类方法、装置、电子设备及存储介质
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN111221881A (zh) 用户特征数据合成方法、装置及电子设备
CN102929401A (zh) 基于输入行为的输入法应用资源或功能的处理方法及装置
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
WO2022246162A1 (en) Content generation using target content derived modeling and unsupervised language modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant