CN107070702A - 基于合作博弈支持向量机的用户账号关联方法及其装置 - Google Patents
基于合作博弈支持向量机的用户账号关联方法及其装置 Download PDFInfo
- Publication number
- CN107070702A CN107070702A CN201710146243.XA CN201710146243A CN107070702A CN 107070702 A CN107070702 A CN 107070702A CN 201710146243 A CN201710146243 A CN 201710146243A CN 107070702 A CN107070702 A CN 107070702A
- Authority
- CN
- China
- Prior art keywords
- account
- user
- collection
- matching
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于合作博弈支持向量机的用户账号关联方法及其装置,该方法包含:采用Pairwise思想通过源网络中的账号和目标网络中的账号构建出账号对集合,划分出训练集和测试集,使用高斯核支持向量机进行训练;对测试集中的账号对通过模型分别计算后验概率,并进行排序构建偏好顺序集;根据每个账号的偏好顺序集进行稳定匹配,得到所有账号之间的关联结果;在账号的偏好顺序基础上增加已关联账号作为先验知识,通过先验知识提升稳定匹配算法中的关联优先级,最终得到加强的账号关联结果。本发明方法简单,易于实现,能准确高效地发现用户关联的账号,为全面了解认识用户、充分管控检测用户提供了技术基础,具有较强的实际应用价值。
Description
技术领域
本发明属于网络分析技术领域,特别涉及一种基于合作博弈支持向量机的用户账号关联方法及其装置。
背景技术
在过去的十年中,网络中的各种服务飞速增长。随之而产生的网络匿名用户的虚拟社交账号更是如雨后春笋一般呈指数增长。截至2016年第三季度,Facebook活跃用户达17.9亿,意味着全球30亿网民中一半以上的用户每月至少浏览Facebook一次。当中6成半,即约11.8亿用户,每日都会登录。然而一些传统的社交网站如今面临着很大的发展问题,据Twitter 2016年度第3季度业绩显示,其月活跃用户平均增长率仅为约3%。截止2016年第三季度月活跃用户为3.17亿,而同期基于图片社交的新型社交网络Instagram月活跃用户已经突破5亿。这样的变化说明,随着时代发展,用户对不同网络平台所提供的服务的兴趣产生了分化,因此,网络服务提供商们也针对用户兴趣发展了不同的社交服务。如今,每一种社交服务往往都有其独特的信息分享模式来维持其社交关系。这些独特的分享方式吸引了不同的用户群体,例如用户选择Twitter来分享一些公共信息,对于那些私人圈子则选择Facebook,而对于分享旅行中的风景和美食,Instagram则是最佳选择。在这些社交服务平台上,用户通常通过唯一标识的用户名以及其他一些属性标签,例如基本信息、兴趣爱好、好友关系以及历史活动等来唯一的标识自己。如果能够有效地将这些属于某一特定用户的账号关联起来,在全方位的认识用户的同时不仅能够大幅提高推荐系统的用户体验,还可以对用户的隐私泄露情况进行评估,给予用户更好的匿名保护策略。对于网络安全方面,当检测在多个平台上拥有大量账号的恶意攻击者时,通过这种手段可以将跨媒体的信息整合在一起,大大提升了对恶意用户的发现能力,对于提高政府舆论引导能力、维护社会和谐稳定具有重要的现实意义。
然而由于服务提供商对于用户隐私的匿名保护以及用户在不同社交平台中选择分享不同的属性信息,导致同一个匿名用户的多个账号往往看上去并没有很强的关联性。这种大量变化的无直接关联的账号对完整地描述这个匿名用户造成了很大的困难。现有的研究主要通过分析用户的命名习惯、个人简介、写作风格、用户行为轨迹以及社会关系等通过传统的统计学习方法和机器学习等手段对用户多个账号进行关联。这些方法通过对人工寻找的大量账号特征进行建模,最终在实验数据集上取得了一定的效果。然而,从现实中来看,稀疏的网络数据中往往并不能获得足够多的账号特征,而且这些账号背后所代表的人的行为往往在不断变化,很难用稳定的数学模型对其描述。而真实的人类行为既非随机、也非完全理性和对立。因此,考虑到人的行为因素以及稀疏的网络数据,需要对现有的用户账号关联技术进行改进与优化。
发明内容
针对现有技术中的不足,本发明提供一种基于合作博弈支持向量机的用户账号关联方法及其装置,有效解决稀疏数据中的用户账号关联问题,方法简单,易操作实现。
按照本发明所提供的设计方案,一种基于合作博弈支持向量机的用户账号关联方法,包含如下步骤:
步骤1、针对候选账号集中源网络账号集和目标网络账号集,采用pairwise算法构建源账号和目标账号之间的偏好顺序集;
步骤2、通过稳定匹配方法对每个账号的偏好顺序集在源网络账号集和目标网络账号集之间进行稳定匹配,得到所有账号之间的关联结果。
上述的,步骤1中的采用pairwise算法构建源账号和目标账号之间的偏好顺序集,包含如下内容:
步骤11、候选账号集中源网络用户账号和目标网络用户账号通过两两组合形成账号对,构建账号对集合,将账号对集合划分为训练集合和测试集合;
步骤12、针对训练集合中账号对,采用账号对相似度作为特征向量并通过高斯核支持向量机进行训练,获取训练模型;
步骤13、针对测试集合中账号对,通过训练模型计算测试集合中用户账号和测试集合目标网络中的任一账号所构成的账号对在其标识条件下的后验概率;
步骤14、对后验概率由大致小进行排序,得到用户账号的偏好顺序集。
优选的,步骤12中的采用账号对相似度作为特征向量,包含如下内容:
步骤121、通过主题模型特征提取方法,获取用户账号标签;
步骤122、计算账号对中源账号和目标账号的特征向量两特征向量之间的余弦相似度、交集数,作为账号对的特征向量。
上述的,步骤2包含如下内容:结合稳定匹配方法,通过账号的偏好顺序集,在源网络账号集和目标网络账号集之间进行账号匹配,完成所有用户账号之间的关联,得到最终关联结果集。
优选的,步骤2中的进行账号关联匹配,包含如下内容:
步骤21、通过添加虚拟账号,设定源网络账号集和目标网络账号集具有相同的长度,其中,添加的虚假账号的偏好顺序集为空;
步骤22、判断源网络账号集中是否存在未关联账号,若存在,且该未关联账号的偏好顺序集不为空,则从该未关联账号的偏好顺序集中获取最偏好目标账号,并将最偏好目标账号从该未关联账号的偏好顺序集中移除,执行步骤23;否则,跳转步骤24执行;
步骤23、根据该未关联账号的最偏好目标账号进行账号的匹配关联,并将相应的账号对添加至关联结果集中;
步骤24、返回步骤22进行循环迭代执行,直至源网络账号集中所有账号完成关联匹配,进行步骤25;
步骤25、剔除关联结果集中所有和虚假账号相关联的账号对,完成用户账号关联匹配,得到所有用户账号之间的关联结果集。
优选的,所述的步骤23包含如下内容:判断该未关联账号的最偏好目标账号是否未关联,若是,且该未关联账号在其最偏好目标账号的偏好顺序集中,若满足,则将两个账号匹配,将两者组成的账号对添加至关联结果集中,跳转步骤24执行;否则,判断该未关联账号的最偏好目标账号是否已关联,若是,则获取其关联对象,并判断其偏好顺序集中是否存在该未关联账号,若存在,则判断该未关联账号优先级是否大于关联对象优先级,若是,则解除关联对象与最偏好目标账号的匹配,将两者组成的账号对从关联结果集中移除,并将未关联账号与最偏好目标账号进行匹配关联,将两者组成的账号对添加至关联结果集中,执行步骤24;否则,直接跳转至步骤24执行。
上述的,所述的步骤2还包含:通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配。
上述的,通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配,具体包含如下内容:针对用户账号,已知其关联账号,则将该关联账号设定为该用户账号的先验候选账号;在关联匹配中,设定先验候选账号的优先级大于当前匹配的用户账号优先级。
优选的,在关联匹配中,设定先验候选账号的优先级大于当前匹配的用户账号优先级,还包含:若存在当前匹配的用户账号同样为先验候选账号,则按照偏好顺序集中的偏好顺序优先级进行关联匹配。
一种基于合作博弈支持向量机的用户账号关联装置,包含:
用户偏好训练集构建模块,用于针对源网络账号集和目标网络账号集中的账号通过两两 结合成账号对,并针对账号对通过模型训练获取每个账号对应的后验概率,根据后验概率构建对应账号的偏好训练集;
用户账号关联匹配模块,包含稳定匹配关联单元和先验知识关联单元,其中,稳定匹配关联单元,用于通过稳定匹配方法对每个用户账号的偏好顺序集在源网络账号集和目标网络账号集之间进行稳定匹配;先验知识关联单元,用于通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配。
本发明的有益效果:
本发明方法简单,易操作,采用Pairwise思想将源网络中的账号和目标网络中的账号两两组合成账号对,构建出账号对集合,根据账号对集合划分出训练集和测试集,采用以账号标签为基础的账号对相似度作为特征向量并使用高斯核支持向量机进行训练;对测试集中的账号对根据训练好的模型分别计算分类后验概率,对此后验概率进行排序构建源账号和目标账号之间的偏好顺序集;根据每个账号的偏好顺序集在候选账号集之间进行稳定匹配算法,最终得到所有账号之间的关联结果;在账号的偏好顺序基础上增加已关联账号作为先验知识,通过使用先验知识提升稳定匹配算法中的关联优先级,最终得到加强的账号关联结果。本发明基于后验概率支持向量机的用户偏好顺序集构建模块负责训练模型并构建测试集的偏好顺序集;基于稳定匹配的用户账号关联模块基于合作博弈方法对账号进行关联;基于先验知识的用户账号关联模块通过引入部分先验知识以提高关联效果,能准确高效地发现用户关联的账号,为全面了解认识用户、充分管控检测用户提供了技术基础,具有较强的实际应用价值。
附图说明:
图1为本发明的装置示意图;
图2为本发明的方法流程示意图;
图3为本发明的流程框图;
图4为实验选取的LifeSpec项目数据集。
图5为用户账号关联结果分析。
图6为先验知识占CGSVM未正确分类结果比重对算法效果的影响。
图7为用户账号关联结果。
图8为合作博弈支持向量机的用户账号关联算法。
图9为基于先验知识的增强算法。
具体实施方式:
下面结合附图和技术方案对本发明作进一步详细的说明,并通过优选的实施例详细说明本发明的实施方式,但本发明的实施方式并不限于此。
实施例一,参见图1所示,一种基于合作博弈支持向量机的用户账号关联装置,包含:
用户偏好训练集构建模块,用于针对源网络账号集和目标网络账号集中的账号通过两两结合成账号对,并针对账号对通过模型训练获取每个账号对应的后验概率,根据后验概率构建对应账号的偏好训练集;
用户账号关联匹配模块,包含稳定匹配关联单元和先验知识关联单元,其中,稳定匹配关联单元,用于通过稳定匹配方法对每个用户账号的偏好顺序集在源网络账号集和目标网络 账号集之间进行稳定匹配;先验知识关联单元,用于通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配。
基于后验概率支持向量机的用户偏好顺序集构建模块负责训练模型并构建测试集的偏好顺序集;基于稳定匹配的用户账号关联模块基于合作博弈方法对账号进行关联;基于先验知识的用户账号关联模块通过引入部分先验知识以提高关联效果,能准确高效地发现用户关联的账号,为全面了解认识用户、充分管控检测用户提供了技术基础,具有较强的实际应用价值。
实施例二,参见图1~2所示,一种基于合作博弈支持向量机的用户账号关联方法,包含如下步骤:
步骤1、针对候选账号集中源网络账号集和目标网络账号集,采用pairwise算法构建源账号和目标账号之间的偏好顺序集;
步骤2、通过稳定匹配方法对每个账号的偏好顺序集在源网络账号集和目标网络账号集之间进行稳定匹配,得到所有账号之间的关联结果。
采用Pairwise思想将源网络中的账号和目标网络中的账号两两组合成账号对,构建出账号对集合,根据账号对集合划分出训练集和测试集,采用以账号标签为基础的账号对相似度作为特征向量并使用高斯核支持向量机进行训练;对测试集中的账号对根据训练好的模型分别计算分类后验概率,对此后验概率进行排序构建源账号和目标账号之间的偏好顺序集;根据每个账号的偏好顺序集在候选账号集之间进行稳定匹配算法,最终得到所有账号之间的关联结果;方法简单,易于实现。
实施例三,参见图1~3所示,一种基于合作博弈支持向量机的用户账号关联方法,包含如下内容:
1)、针对候选账号集中源网络账号集和目标网络账号集,采用pairwise算法构建源账号和目标账号之间的偏好顺序集,候选账号集中源网络用户账号和目标网络用户账号通过两两组合形成账号对,构建账号对集合,将账号对集合划分为训练集合和测试集合;针对训练集合中账号对,采用账号对相似度作为特征向量并通过高斯核支持向量机进行训练,获取训练模型;针对测试集合中账号对,通过训练模型计算测试集合中用户账号和测试集合目标网络中的任一账号所构成的账号对在其标识条件下的后验概率;对后验概率由大致小进行排序,得到用户账号的偏好顺序集。
采用账号对相似度作为特征向量,具体为:通过主题模型特征提取方法,获取用户账号标签;计算账号对中源账号和目标账号的特征向量两特征向量之间的余弦相似度、交集数,作为账号对的特征向量。
2)、结合稳定匹配方法,通过账号的偏好顺序集,在源网络账号集和目标网络账号集之间进行账号匹配,包含如下内容:
步骤21、通过添加虚拟账号,设定源网络账号集和目标网络账号集具有相同的长度,其中,添加的虚假账号的偏好顺序集为空;
步骤22、判断源网络账号集中是否存在未关联账号,若存在,且该未关联账号的偏好顺序集不为空,则从该未关联账号的偏好顺序集中获取最偏好目标账号,并将最偏好目标账号从该未关联账号的偏好顺序集中移除,执行步骤23;否则,跳转步骤24执行;
步骤23、判断该未关联账号的最偏好目标账号是否未关联,若是,且该未关联账号在其最偏好目标账号的偏好顺序集中,若满足,则将两个账号匹配,将两者组成的账号对添加至关联结果集中,跳转步骤24执行;否则,判断该未关联账号的最偏好目标账号是否已关联,若是,则获取其关联对象,并判断其偏好顺序集中是否存在该未关联账号,若存在,则判断该未关联账号优先级是否大于关联对象优先级,若是,则解除关联对象与最偏好目标账号的匹配,将两者组成的账号对从关联结果集中移除,并将未关联账号与最偏好目标账号进行匹配关联,将两者组成的账号对添加至关联结果集中,执行步骤24;否则,直接跳转至步骤24 执行;
步骤24、返回步骤22进行循环迭代执行,直至源网络账号集中所有账号完成关联匹配,进行步骤25;
步骤25、剔除关联结果集中所有和虚假账号相关联的账号对,完成用户账号关联匹配,得到所有用户账号之间的关联结果集。
通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配,针对用户账号,已知其关联账号,则将该关联账号设定为该用户账号的先验候选账号;在关联匹配中,设定先验候选账号的优先级大于当前匹配的用户账号优先级。在关联匹配中,设定先验候选账号的优先级大于当前匹配的用户账号优先级,还包含:若存在当前匹配的用户账号同样为先验候选账号,则按照偏好顺序集中的偏好顺序优先级进行关联匹配。
实施例四:参见图1~7所示,为验证本发明的有效性,下面结合附图及具体实例对本发明做进一步解释说明:
1)基于后验概率支持向量机的用户偏好顺序集构建
根据Pairwise思想,用户账号关联可以首先转化为一个二分类问题,然后通过计算账号对的分类概率来为每个账号构建账号偏好顺序集,定义如下:
定义账号偏好顺序集:针对某一账号as,其关于目标账号集At的有序序列 称为账号as的偏好顺序集,该有序序列反映了账号as与目标账号集中的账号进行关联的偏好顺序。
近年来大量研究表明,支持向量机在解决二分类问题中具有很强的解决能力。由于支持向量机对特征向量十分敏感,因此选择合适的特征向量极为关键。传统方法对用户分析时都采用了大量的特征,例如命名习惯、个人简介、写作风格、用户行为轨迹以及社会关系等。然而,由于网络数据的不完整性和异质性导致能够获取的用户数据特征不仅十分有限,而且往往需要对构建的大量特征进行筛选补全。因此,本发明通过对用户账号进行标签化,从而避免对用户账号特征进行筛选以及补全这一困难的工作。
从现实中的网络来看,一部分网络平台提供了用户账号的标签标注,用以简洁明了地反应用户账号的某些特性,因此可以直接获取这部分特征。在另一部分没有提供已标注过的用户账号平台中,可以通过很多主题模型例如LDA等方法,对用户历史文本进行主题提取,从而将这些主题作为用户标签。通过主题模型提取特征的方法近年来研究已经颇为成熟,本发明在此不再赘述。
本发明将这些账号与其标签f看作词袋模型,分别计算账号的特征向量 之间的以下几种特征值作为账号对pair特征:
特征向量余弦相似度:
特征向量交集数:
根据上述特征向量通过支持向量机可以对训练数据进行训练从而对测试数据精确分类。然而在大规模的数据中,存在很多账号由于其自身特征标签的稀疏性以及不同用户账号之间可能存在的相似性,导致很多情况下无法对这些账号做出精确的分类。因此直接使用标准的支持向量机进行分类时这些噪音样本会对分类效果产生极大影响。事实上账号关联是一个非确定性分类问题:存在某些样本并不一定能够精确地归属到某一类别中,只能通过概率来反映其归属于某一类别的可能性。针对该不确定性分类问题,本发明根据Platt提出的sigmoid-fitting方法利用支持向量机计算账号对pair在其标识lpair=1的条件下的后验概率p:
其中f为支持向量机无阈值输出f(x)=wtx+b,A、B两参数可以通过对训练集的极大似然估计得到。这个后验概率实际上反映了对于某一账号而言,该账号与目标网络中的账号关联可能性的大小。根据这个后验概率进行对目标网络中账号排序,整体流程如下:
首先基于Pairwise的思想在候选账号集As,At之间构建账号对pair的训练集与测试集,通过上述两种特征构建计算任一账号对的特征向量,并利用支持向量机对训练集进行训练建模。针对某一测试集账号as,根据该模型计算其和测试集目标网络中任一账号at所构成的账号对pair=(as,at)在其标识lpair=1的条件下的后验概率p,并根据这个概率由大致小对 中账号排序,得到as关于的序列即as的偏好顺序集。
2)基于稳定匹配的用户账号关联
通过转化,用户账号关联问题实际上转变为如何从账号的偏好顺序集中选择出合适的目标账号进行关联使得对候选账号集整体而言关联结果最优。本发明结合稳定匹配理论尝试在源网络和目标网络之间进行账号匹配。稳定匹配理论是Shapley使用合作博弈的方法来解决双边市场主体中匹配问题而创建的理论,Shapley凭借该理论获得2012年诺贝尔经济学奖。该理论自提出以来在学生择校(学生和学校匹配)、婚姻选择(男方和女方匹配)、求职(员工和用人单位匹配)等多个实践场景中都得到了广泛的应用。该理论的核心在于实现“稳定”这一状态,在完成匹配时在双边市场中不存在一对主体,使得他们对对方的偏好程度高于对现在的匹配对象的偏好程度。实际上,如果将源网络s和目标网络t看作双边市场,将分别来自这两个网络的账号看作双边市场的主体,用户账号匹配问题可以转化成寻求在这两个网络中不同账号之间的稳定匹配关系这一问题。因此,本发明基于稳定匹配思想,通过账号偏好顺序集对用户账号进行关联。
定义破坏性账号对:假设完成匹配时账号匹配账号匹配如果存在某一账号对其中账号在其偏好顺序集中有其中账号在其偏好顺序集中有 那么称账号对为破坏性账号对。
定义稳定账号匹配:在完成匹配时不存在任一破坏性账号对,那么称整个账号匹配是稳定账号匹配。
采用[Gale-Shapley]提出的GS延迟算法即可在双边市场中做到对市场主体进行稳定匹配,然而,标准的GS算法要求在双边市场中主体数量必须都为N,其中每一个主体的偏好顺序集大小也必须为N,即必须满足“双边市场主体数量一致”以及“主体偏好顺序列表完全”两个限定条件。然而,双边市场中主体数量很难满足一致,而且由于属性缺失造成一部分特征向量无法计算,进而无法满足这样严格的要求,因此本发明对其条件限制进行了两点适应性调整:
1)虚假账号:针对账号数量较少的一方补充差额的虚假账号af,在匹配完成时将一切和虚假账号af组合成的账号对进行排除。
2)不完全偏好顺序集:在匹配的同时进行检测,如果目标匹配账号at不在当前账号as的偏好顺序列表中直接拒绝匹配。
据此,本发明所改进的合作博弈支持向量机的用户账号关联算法(CooperativeGameSVM,CGSVM)如图8所示,本发明将后验概率的支持向量机和合作博弈的稳定匹配思想结合在一起,最终达到用户账号关联的目的。
3)基于先验知识的用户账号关联
与传统关联分析方法本质上一致的是,上述方法仍然是基于用户某些方面特征的相似度来进行关联的。然而,事实上,由于随着网络平台趋于功能分化,用户在不同的平台上使用不同的账号来专一地表达自身某一兴趣,而这些不同兴趣之间的账号极有可能在特征上并不具有相似性。因此,用户账号关联不仅仅是“关联相似的用户账号”这一问题,它还包括如何识别以及关联“不相似但属于同一用户的账号”。而后者这一问题富有极大的挑战性,据资料显示迄今为止并没有非常有效的解决方案。本发明引入已知的特定用户的关联账号作为先验知识,来加强账号关联方法。
考虑到双边市场中的主体的偏好顺序集是一种基于特征相似度的单调顺序集,并不能充分反映出不同账号之间的关联信息,因此,本发明通过将引入的先验知识作为先验候选账号进行如下定义:
定义先验候选账号:针对某一账号as,已知其关联账号at,将at称为as的先验候选账号。在匹配过程中,假设账号as当前匹配at’,若目标账号at为先验候选账号,无论at与at’偏好序顺序集如何,优先选择at进行匹配;若at’也为先验候选账号,则再按照偏好顺序进行匹配。
基于上述定义,本发明进一步提出基于先验知识的增强算法(CooperativeGameSVMExtend,CGSVMEX)如图9所示,只展示改进的部分,通过引入已知的关联账号作为先验知识,进一步加强账号之间潜在的关联性,最终将所有得到的符合条件的账号对作为在网络s和网络t中用户账号关联的最终结果。
本发明方法简单,易操作,并经实际试用,表明方法稳定可靠,具有实际的应用价值,有关资料如下:
1)数据集
LifeSpec项目是由微软亚洲研究院进行的为了对城市市民生活方式进行探索发现并进行层次化分类的一个计算性框架,其项目数据来自大众点评、豆瓣、新浪微博和街旁,包含上千万条用户关于签到、电影评论、书籍评论、音乐评论以及活动的数据。本发明选取其中电影和书籍两个部分,将书籍评论作为源网络s,电影评论作为目标网络t,在此基础之上对用户进行账号关联。
如图4所示,本发明选取的数据集总计62,558个不同的用户:
书籍数据集:包含34942个不同账号对523,064部书籍共计2,118,400条评论信息,每部书籍都含有题目、作者、出版商、发行日、页数、价格、包装、网站标签、用户评分等信息;
电影数据集:包含41823个不同账号对82,868部电影共计8,397,846条评论信息,每部电影都含有名称、导演、编剧、主演、类别、国家、时长、上映日、网站标签、用户评分等信息;
整个数据集账号对合计1,461,379,266个。由于在这样一个规模较大账号对数据集中正例和负例的比例差距往往在1:10000以上,因此本发明通过对负例随机欠采样的方法将正负例比例控制在大约1:1附近,然后进行后续的实验。
2)关联准确度评估
本发明以书籍、电影的网站标签作为用户账号标签构成特征,并将每个账号的标签频率作为特征的值,分别计算得到所有账号对pair之间的特征向量余弦相似度cos以及特征向量交集数n,以此作为支持向量机的输入并计算后验概率p。由于输入特征维度较少,因此本发明采用高斯核的支持向量机,cost值为1,其余参数默认,作为基线方法的传统支持向量机采 用10折交叉验证。支持向量机及后验概率p计算由LibSVM工具提供。本发明对比的三种方法如下:
1)SVM_TAG:基线方法,即仅使用标签特征的支持向量机;
2)CGSVM:在支持向量机的后验概率基础上引入稳定匹配算法的合作博弈支持向量机;
3)CGSVMEX:引入先验知识的增强合作博弈支持向量机(引入占电影账号约5%的先验知识)。
由于用户账号关联问题只关注正确关联(正例),因此,本发明选取精确率p、召回率r以及F1值作为评价标准,本发明的两种方法在精确率p、召回率r以及F1值上都超过了SVM_TAG方法,其中CGSVM在准确率上有约21.6%的提升,在加入先验知识后的CGSVMEX上,进一步有约7.8%的提升。而相比迄今为止其他研究人员的研究都使用了大量的用户个人信息、文本、行为轨迹等特征,本发明在只使用了网站标签作为特征的情况下就已经达到比较理想的准确率。而且,对比其他的稳定匹配方法,本发明取消了原有的“双边市场主体数量一致”以及“主体偏好顺序列表完全”两个限定条件。因此,在复杂稀疏的真实数据集中,可以认为本发明所提出的方法具有更好的实践意义。
3)先验知识影响评估
从上述实验上可以得知,先验知识确实能够对本发明的方法有所提升。但是,显然先验知识所占未能正确分类的结果的比重会影响最终关联的结果。因此,本发明通过从CGSVM算法中所得到的未正确分类结果(总计2158个)中抽取一部分作为先验知识来进行CGSVMEX算法,并不断改变这个先验知识所占未正确分类结果的比重来分析先验知识对关联准确度的影响:
定义扩展率ExtendRate=(#当前CGSVMEX正确分类数-#CGSVM正确分类数)/当前先验知识占未能正确分类结果比重,表示CGSVMEX算法对关联结果的扩展能力。
实验结果如图6所示,a表示比重对精确率、召回率和F1值的影响,b表示比重对扩展率的影响。横轴Size ratio为先验知识比重:从结果中可以看出随着比重的逐渐增加,CGSVMEX算法的精确率、召回率和F1值都稳定增长,可以认为先验知识的规模与算法效果成正比。在精确率上的提升效果最大可达约7.8%。扩展率则反映了算法效果随着先验知识规模增大逐渐趋于稳定。上述实验充分证明了先验知识对于用户账号关联问题中账号之间的关联性的增强能力,说明了本发明方法的有效性。
4)关联结果分析
选取4个关联结果进行展示与分析如图7所示,受篇幅影响共同出现标签只显示出现频率较高的10个,其中1-3为正确关联结果,4为错误关联结果。从图中可以看出,受标签语义影响,当共现的标签内容足够具体时账号就能够被正确关联。这实际上进一步说明了根据每个用户具体独特的兴趣标签是可以解决账号关联问题的。然而,当这些标签所表示的内容多为抽象概括性的词语时,就无法对这些账号作出正确的关联。当本发明引入的作为先验知识的已关联账号的标签符合这样抽象概括性的词语时,可以有效的减轻分类器通过计算特征向量而造成的误分类问题。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于合作博弈支持向量机的用户账号关联方法,其特征在于,包含如下步骤:
步骤1、针对候选账号集中源网络账号集和目标网络账号集,采用pairwise算法构建源账号和目标账号之间的偏好顺序集;
步骤2、通过稳定匹配方法对每个账号的偏好顺序集在源网络账号集和目标网络账号集之间进行稳定匹配,得到所有账号之间的关联结果。
2.根据权利要求1所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,步骤1中的采用pairwise算法构建源账号和目标账号之间的偏好顺序集,包含如下内容:
步骤11、候选账号集中源网络用户账号和目标网络用户账号通过两两组合形成账号对,构建账号对集合,将账号对集合划分为训练集合和测试集合;
步骤12、针对训练集合中账号对,采用账号对相似度作为特征向量并通过高斯核支持向量机进行训练,获取训练模型;
步骤13、针对测试集合中账号对,通过训练模型计算测试集合中用户账号和测试集合目标网络中的任一账号所构成的账号对在其标识条件下的后验概率;
步骤14、对后验概率由大致小进行排序,得到用户账号的偏好顺序集。
3.根据权利要求2所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,步骤12中的采用账号对相似度作为特征向量,包含如下内容:
步骤121、通过主题模型特征提取方法,获取用户账号标签;
步骤122、计算账号对中源账号和目标账号的特征向量两特征向量之间的余弦相似度、交集数,作为账号对的特征向量。
4.根据权利要求1所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,步骤2包含如下内容:结合稳定匹配方法,通过账号的偏好顺序集,在源网络账号集和目标网络账号集之间进行账号匹配,完成所有用户账号之间的关联,得到最终关联结果集。
5.根据权利要求4所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,步骤2中的进行账号关联匹配,包含如下内容:
步骤21、通过添加虚拟账号,设定源网络账号集和目标网络账号集具有相同的长度,其中,添加的虚假账号的偏好顺序集为空;
步骤22、判断源网络账号集中是否存在未关联账号,若存在,且该未关联账号的偏好顺序集不为空,则从该未关联账号的偏好顺序集中获取最偏好目标账号,并将最偏好目标账号从该未关联账号的偏好顺序集中移除,执行步骤23;否则,跳转步骤24执行;
步骤23、根据该未关联账号的最偏好目标账号进行账号的匹配关联,并将相应的账号对添加至关联结果集中;
步骤24、返回步骤22进行循环迭代执行,直至源网络账号集中所有账号完成关联匹配,进行步骤25;
步骤25、剔除关联结果集中所有和虚假账号相关联的账号对,完成用户账号关联匹配,得到所有用户账号之间的关联结果集。
6.根据权利要求5所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,所述的步骤23包含如下内容:判断该未关联账号的最偏好目标账号是否未关联,若是,且该未关联账号在其最偏好目标账号的偏好顺序集中,若满足,则将两个账号匹配,将两者组成的账号对添加至关联结果集中,跳转步骤24执行;否则,判断该未关联账号的最偏好目标账号是否已关联,若是,则获取其关联对象,并判断其偏好顺序集中是否存在该未关联账号,若存在,则判断该未关联账号优先级是否大于关联对象优先级,若是,则解除关联对象与最偏好目标账号的匹配,将两者组成的账号对从关联结果集中移除,并将未关联账号与最偏好目标账号进行匹配关联,将两者组成的账号对添加至关联结果集中,执行步骤24;否则,直接跳转至步骤24执行。
7.根据权利要求4所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,所述的步骤2还包含:通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配。
8.根据权利要求7所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配,具体包含如下内容:针对用户账号,已知其关联账号,则将该关联账号设定为该用户账号的先验候选账号;在关联匹配中,设定先验候选账号的优先级大于当前匹配的用户账号优先级。
9.根据权利要求8所述的基于合作博弈支持向量机的用户账号关联方法,其特征在于,在关联匹配中,设定先验候选账号的优先级大于当前匹配的用户账号优先级,还包含:若存在当前匹配的用户账号同样为先验候选账号,则按照偏好顺序集中的偏好顺序优先级进行关联匹配。
10.一种基于合作博弈支持向量机的用户账号关联装置,其特征在于,包含:
用户偏好训练集构建模块,用于针对源网络账号集和目标网络账号集中的账号通过两两结合成账号对,并针对账号对通过模型训练获取每个账号对应的后验概率,根据后验概率构建对应账号的偏好训练集;
用户账号关联匹配模块,包含稳定匹配关联单元和先验知识关联单元,其中,稳定匹配关联单元,用于通过稳定匹配方法对每个用户账号的偏好顺序集在源网络账号集和目标网络账号集之间进行稳定匹配;先验知识关联单元,用于通过引入已知的关联账号作为先验知识,调整用户账号的关联优先级,按照偏好顺序进行用户账号的关联匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710146243.XA CN107070702B (zh) | 2017-03-13 | 2017-03-13 | 基于合作博弈支持向量机的用户账号关联方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710146243.XA CN107070702B (zh) | 2017-03-13 | 2017-03-13 | 基于合作博弈支持向量机的用户账号关联方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107070702A true CN107070702A (zh) | 2017-08-18 |
CN107070702B CN107070702B (zh) | 2019-12-10 |
Family
ID=59622470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710146243.XA Active CN107070702B (zh) | 2017-03-13 | 2017-03-13 | 基于合作博弈支持向量机的用户账号关联方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107070702B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536726A (zh) * | 2018-02-25 | 2018-09-14 | 心触动(武汉)科技有限公司 | 一种校内社交好友智能推荐方法及系统 |
CN113034296A (zh) * | 2019-12-24 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 用户账号的选择方法、装置、计算机设备及存储介质 |
WO2024083227A1 (zh) * | 2022-10-21 | 2024-04-25 | 珠海格力电器股份有限公司 | 信息安全评估方法、装置、安全评估平台及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729474A (zh) * | 2014-01-23 | 2014-04-16 | 中国科学院计算技术研究所 | 用于识别论坛用户马甲账号的方法和系统 |
CN104574192A (zh) * | 2013-10-25 | 2015-04-29 | 华为技术有限公司 | 在多个社交网络中识别同一用户的方法及装置 |
CN104866558A (zh) * | 2015-05-18 | 2015-08-26 | 中国科学院计算技术研究所 | 一种社交网络账号映射模型训练方法及映射方法和系统 |
CN106126654A (zh) * | 2016-06-27 | 2016-11-16 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
-
2017
- 2017-03-13 CN CN201710146243.XA patent/CN107070702B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574192A (zh) * | 2013-10-25 | 2015-04-29 | 华为技术有限公司 | 在多个社交网络中识别同一用户的方法及装置 |
CN103729474A (zh) * | 2014-01-23 | 2014-04-16 | 中国科学院计算技术研究所 | 用于识别论坛用户马甲账号的方法和系统 |
CN104866558A (zh) * | 2015-05-18 | 2015-08-26 | 中国科学院计算技术研究所 | 一种社交网络账号映射模型训练方法及映射方法和系统 |
CN106126654A (zh) * | 2016-06-27 | 2016-11-16 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536726A (zh) * | 2018-02-25 | 2018-09-14 | 心触动(武汉)科技有限公司 | 一种校内社交好友智能推荐方法及系统 |
CN113034296A (zh) * | 2019-12-24 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 用户账号的选择方法、装置、计算机设备及存储介质 |
CN113034296B (zh) * | 2019-12-24 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 用户账号的选择方法、装置、计算机设备及存储介质 |
WO2024083227A1 (zh) * | 2022-10-21 | 2024-04-25 | 珠海格力电器股份有限公司 | 信息安全评估方法、装置、安全评估平台及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107070702B (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | A framework for quantitative analysis and differentiated marketing of tourism destination image based on visual content of photos | |
US20220405480A1 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN108197330B (zh) | 基于社交平台的数据挖掘方法及装置 | |
CN110413707A (zh) | 互联网中欺诈团伙关系的挖掘与排查方法及其系统 | |
CN109684635A (zh) | 一种基于智能营销的用户评价观点挖掘系统 | |
CN109241440A (zh) | 一种基于深度学习的面向隐式反馈推荐方法 | |
CN107800801A (zh) | 一种基于用户学习偏好的学习资源推送方法及系统 | |
CN110110335A (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN108960499A (zh) | 一种融合视觉和非视觉特征的服装流行趋势预测系统 | |
CN106886518A (zh) | 一种微博账号分类的方法 | |
CN110532379A (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN102867016A (zh) | 一种基于标签的社交网络用户兴趣挖掘方法与装置 | |
CN108415913A (zh) | 基于不确定邻居的人群定向方法 | |
CN107070702A (zh) | 基于合作博弈支持向量机的用户账号关联方法及其装置 | |
CN106156287A (zh) | 基于旅游需求模板的景区评价数据分析舆情满意度方法 | |
CN113095948A (zh) | 一种基于图神经网络的多源异构网络用户对齐方法 | |
CN108021715A (zh) | 基于语义结构特征分析的异构标签融合系统 | |
Wang et al. | Discover micro-influencers for brands via better understanding | |
CN110119478A (zh) | 一种结合多种用户反馈数据的基于相似度的物品推荐方法 | |
CN108710672A (zh) | 一种基于增量贝叶斯算法的主题爬虫方法 | |
CN112784116A (zh) | 一种在区块链中识别用户行业身份的方法 | |
Basit et al. | The Effect of social media destination branding: the use of facebook and instagram | |
Rabasa et al. | Optimal clustering techniques for the segmentation of tourist spending. Analysis of tourist surveys in the Valencian community (Spain): a case study | |
Marchi et al. | Measuring destination image of an Italian island: An analysis of online content generated by local operators and tourists |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |