CN110046293B - 一种用户身份关联方法及装置 - Google Patents

一种用户身份关联方法及装置 Download PDF

Info

Publication number
CN110046293B
CN110046293B CN201910155928.XA CN201910155928A CN110046293B CN 110046293 B CN110046293 B CN 110046293B CN 201910155928 A CN201910155928 A CN 201910155928A CN 110046293 B CN110046293 B CN 110046293B
Authority
CN
China
Prior art keywords
user
platform
personal data
polling
preset number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910155928.XA
Other languages
English (en)
Other versions
CN110046293A (zh
Inventor
薛一波
项芳琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910155928.XA priority Critical patent/CN110046293B/zh
Publication of CN110046293A publication Critical patent/CN110046293A/zh
Application granted granted Critical
Publication of CN110046293B publication Critical patent/CN110046293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明实施例提供一种用户身份关联方法及装置,该方法包括:根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;启动第二平台爬虫操作,扫描轮询记录获取对应的URL,得到轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;提取关联ID和非关联ID的特征,得到第一特征向量用于训练二分类模型;获取第一平台用户ID和第二平台用户ID,特征提取后得到特征向量并输入到二分类模型中,得到身份关联结果。本发明实施例提供的用户身份关联方法及装置,从用户个人资料中提取有效特征,实现了多源社会网络中的用户身份关联,在保证较高准确率的情况下节省计算资源。

Description

一种用户身份关联方法及装置
技术领域
本发明涉及数据获取与社会网络技术领域,尤其涉及一种用户身份关联方法及装置。
背景技术
互联网技术日新月异,它所引起的重大变革,赋予了生产生活崭新且有意义的定义,同时又正向促进越来越多的人投身于互联网建设。社会网络作为互联网最具影响力的产物之一,更是逐渐成为人们学习工作、生活娱乐不可缺少的工具。不同社会网络的功能不尽相同:有的专注于社交圈建设,有的收集评论并按某种机制进行影视推荐,有的面向生活轨迹的分享。为了更好地享受各大社交网络所带来的服务,人们倾向于同时加入多个社会网络。一个人同时使用多个社会网络,已经成为普遍趋势;而成百上千亿个账号在社会网络中产生的数据无疑是爆炸式增长的,这既为用户推荐带来了无限商机,又给信息传播的管理带来了极大挑战。
单个社会网络的用户信息通常是片面的,因此针对用户的研究容易变得狭隘,结合多个社会网络的数据是弥补缺陷的有效方式之一。多源社会网络的用户身份关联,正是基于各大社会网站信息互补的想法,通过匹配同一用户在不同社会网络的账号,为后续挖掘用户兴趣、探究信息经由关键用户在不同社会网络上的传播模式等提供有效的技术手段。
多源社会网络的用户身份关联对一些现有的社会网络任务,比如用户推荐、信息传播、广告投放等,具有重要的意义。考虑这样一种场景,一个视频网站想给用户推荐视频,并希望推荐针对每名用户都是足够准确的,但是冷启动和数据稀疏问题是常态,这显然会让个性化推荐变得异常困难。一个有效的解决方案是借助用户在其他社会网络上的原创内容进行建模,由此视频网站能够进行精准的推荐。但事实上由于社会网络之间数据不共享、用户匿名等情况,要获取一名视频网站用户在其他平台的原创内容,必须首先关联他的两个平台账号,即用户身份关联。由此可见,多源社会网络的用户身份关联将会给现有任务带来不同的问题视角和解决手段。
然而,在多源社会网络的用户身份关联领域中,用户的真实数据获取是第一个难点,而现有的多源社会网络的用户身份关联方法往往采用较为丰富的用户数据,对数据收集和处理很不友好,因而难以投入实际使用。
发明内容
本发明实施例为克服上述技术缺陷,提供一种用户身份关联方法及装置。
第一方面,本发明实施例提供一种用户身份关联方法,包括:
根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;
根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;
提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;
获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果。
第二方面,本发明实施例提供一种用户身份关联装置,包括:
第一处理模块,用于根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;
第二处理模块,用于根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;
训练模块,用于提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;
关联模块,用于获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面所述的一种用户身份关联方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述一种用户身份关联方法。
本发明实施例提供的一种用户身份关联方法及装置,采用了一个有效且可靠的爬虫方式来获取不同平台上公开的真实用户信息,在真实数据基础上,从用户个人资料中提取有效特征,实现了多源社会网络中的用户身份关联,在保证较高准确率的情况下,对数据量的要求较低,节省存储和计算资源,具有很好的可用性和实时性。
附图说明
图1为本发明实施例提供的一种用户身份关联方法的流程示意图;
图2为本发明又一实施例提供的一种用户身份关联方法的流程示意图;
图3为本发明实施例提供的一种用户身份关联装置的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种用户身份关联方法的流程示意图,如图1所示,包括:
步骤11,根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;
步骤12,根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;
步骤13,提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;
步骤14,获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果。
本发明实施例公开一种多源社会网络用户身份关联方法,社会网络平台为第一平台和第二平台,在多源社会网络以及用户属性的观察和分析基础之上,发现用户个人资料是相对容易获取的信息,并且几个公共属性一般都能反映用户的真实特征。根据此特点,用多种相似度方法将文字信息转为数字特征,最终呈现为特征向量的形式,随后采用机器学习的方法训练用户身份关联模型。
具体的,获取第一预设数量个第一平台的种子ID,第一预设数量的大小可根据实际情况设定,此处不做具体限定。种子ID作为后续自动关联更多用户的种子。根据第一平台的种子ID,可获取到对应的用户信息,包括对应的个人资料和好友关系,并进行存储。同时,基于种子ID的用户信息,继续获取用户的个人资料和好友关系,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录。API-Application ProgrammingInterface,又叫应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
上一步的目的是为了基于种子ID获取更多的用户信息并存储,当获取到足够多的用户信息后,可以启动第二平台的爬虫操作。具体的,扫描轮询记录,根据轮询记录获取对应的URL,得到轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID,其中URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
得到关联ID和非关联ID的特征后,进一步就是根据关联ID和非关联ID的特征,得到第一特征向量,根据第一特征向量训练二分类模型。特征提取首先是根据不同平台用户ID来获取对应的个人资料,个人资料主要包括账号ID、用户登录名、用户昵称、性别、生日、联系方式和个人简介。然后,基于个人资料来将文字信息转为数字特征,得到第一特征向量,用于训练二分类模型。该二分类模型最终是用于判断不同平台的一对用户身份是否属于同一个人。二分类模型训练好后,获取第一平台用户ID和第二平台用户ID,对第一平台用户ID和第二平台用户ID进行特征提取,得到特征向量并输入到二分类模型中,输入特征向量后,二分类模型通过特征向量来获取两个平台用户的信息,然后得到身份关联结果。身份关联结果有两种可能,一种是这对用户身份属于同一个人,此时可以将两个用户身份进行关联,一种是这对用户身份不属于同一个人,此时不进行关联。
本发明实施例提供的一种用户身份关联方法,采用了一个有效且可靠的爬虫方式来获取不同平台上公开的真实用户信息,在真实数据基础上,从用户个人资料中提取有效特征,实现了多源社会网络中的用户身份关联,在保证较高准确率的情况下,对数据量的要求较低,节省存储和计算资源,具有很好的可用性和实时性。
在上述实施例的基础上,所述使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录,具体包括:
根据所述第一预设数量的第一平台的种子ID,获取对应的用户信息,所述用户信息包括个人资料和好友关系;
将所述个人资料和好友关系分别存储到个人资料表和好友关系表中,用游标记录当前好友关系表中访问的用户位置;
使用多个APP身份轮询第一平台的API,根据游标记录位置,读出所述好友关系表中的用户ID,根据所述好友关系表中的用户ID获取用户的个人资料和好友关系;
根据新获取的用户的个人资料和好友关系更新所述个人资料表和好友关系表,并更新游标值,直至新获取的用户ID数量达到所述第二预设数量。
在用户信息获取部分,获取第一平台用户ID和第二平台用户ID,以社交平台Facebook和Twitter为例,分别获取Facebook和Twitter用户ID,根据用户ID可以获取到用户的个人资料和好友关系。个人资料是指社会网络分配的账号ID、用户登录名(username)、用户昵称(screenname)、性别、生日、联系方式、个人简介(biography)等注册账号时随之产生或由用户后续补充的个人信息,其中账号ID、登录名一般要求唯一。好友关系是指社会网络平台用户之间的社交关系,一般指互为好友,但有时也存在单向关注的情况。对第一平台用户ID和第二平台用户ID进行特征提取,即通过Facebook用户ID获取到用户在Facebook平台上的账号ID、用户登录名、用户昵称、性别、生日、联系方式和个人简介等等信息,以及该用户在Facebook平台上的好友关系,同样的,通过Twitter用户ID也获取到对应的用户的信息,从而得到特征向量。
图2为本发明又一实施例提供的一种用户身份关联方法的流程示意图,如图2所示,包括:
步骤201,人工获取若干个Twitter用户的ID,作为后续自动关联更多用户的种子;
步骤202,根据种子ID,获取对应的个人资料和好友关系,分别存储到profile和relation两张MySQL表,其中所述个人资料包括账号ID、用户登录名、用户昵称、性别、生日、联系方式和个人简介,所述好友关系为社会网络平台用户之间的社交关系;
步骤203,用游标记录当前relation表中已经访问的用户位置,初始为0表示还未使用过该表中的用户ID;
步骤204,根据游标指定位置,读出relation表中的用户ID,据此获取用户的个人资料和好友关系信息,将新记录添加到profile和relation表,并更新游标值;
步骤205,使用多个APP身份轮流访问Twitter用户API,重复步骤204,直到人为终止或遇到网络断开、访问受限等特殊情况,其中所述APP身份具体指使用社会网络开放的RESTful API所需的验证信息;
步骤206,特别地,如果遇到非主动终止爬虫的情况,由于用游标指向了relation表中已经使用过的最后一个记录位置,排除故障后,重启程序可以做到增量爬取;
步骤207,当relation表中存储有足够多用户个人资料时,启动Facebook爬虫;
步骤208,扫描Twitter profile表的每一条记录,查看列属性中的URL项是否指向Facebook页面,若是则转到步骤209,否则继续扫描,Twitter用户个人资料中的URL属性是用户分享的一个网址,可能指向另一个个人主页,也可能指向与用户无关的网页,该URL由平台处理后呈现为一个可以跳向原网址的规整的HTTPS链接;
步骤209,通过上一步的Facebook页面过滤出用户的Facebook ID,认为此ID和对应Twitter记录的ID是同一人在两个平台上的账号,称之为关联ID身份;
步骤210,获取该Facebook ID的个人资料,存储到另一张profile表中,并记录相应的Twitter和Facebook关联ID,这就是用户关联所需的ground truth;ground truth是指不同社会网络平台上的账号或者表述为用户身份其实由同一个人使用,这些用户身份间相互关联,所有这种关联的用户身份记录以及在相应平台上收集的个人资料信息组成了本发明实施例的ground truth数据集;
步骤211,针对ground truth指向的两个平台用户个人资料中的username、screenname、biography三个属性,经过多语言统一翻译成英文、emoji表情去除等预处理;
步骤212,对关联的ID身份(正例)和不关联的ID身份(反例)提取特征并整合成第一特征向量;
步骤213,训练二分类器模型,输入为两类特征向量,标签为0或1,即该第一特征向量指向的两个平台用户身份是否关联。
本发明实施例提供的一种用户身份关联方法,采用了一个有效且可靠的爬虫方式来获取不同平台上公开的真实用户信息,在真实数据基础上,从用户个人资料中提取有效特征,实现了多源社会网络中的用户身份关联,在保证较高准确率的情况下,对数据量的要求较低,节省存储和计算资源,具有很好的可用性和实时性。
在上述实施例的基础上,所述对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量,具体包括:
获取所述第一平台用户ID对应的第一个人资料和所述第二平台用户ID对应的第二个人资料;
基于相似度度量方法,获取所述第一个人资料中的ID资料和所述第二个人资料中的ID资料的相似度,得到所述特征向量,其中,所述ID资料包括用户登录名、用户昵称和个人简介。
在进行用户身份关联时,先要对不同平台用户ID进行特征提取,得到特征向量,再输入二分类模型。特征提取首先是根据不同平台用户ID来获取对应的个人资料,个人资料主要包括账号ID、用户登录名、用户昵称、性别、生日、联系方式和个人简介。然后,基于相似度度量方法,来获取不同用户个人资料中ID资料的相似度,而ID资料包括用户登录名、用户昵称和个人简介,这几项资料最能反映用户的身份相关性。
所述相似度度量方法具体包括:
最长公共子序列方法、Jaccard方法、余弦距离方法、JaroWinkler方法和Jenson-Shannon散度方法。
其中,最长公共子序列方法是用两个字符串的最长公共子序列与最长字符串的长度的比值作为这两个字符串的相似度分数,分数越接近1,表示相似程度越高,越接近0则相似程度越低。
其中,Jaccard方法描述的是两个集合交集的大小与其并集大小的比值;本发明实施例中两个字符串的Jaccard相似度等于它们共同字符的数目与并集字符数目的比值,值越接近1则相似度越高,越接近0则相似度越低。
其中,余弦距离最初是用来描述空间中向量的距离,向量夹角越小,余弦值越大,夹角为0时,余弦值取最大1;夹角为180°时,余弦值取最小-1。用于衡量字符串相似性时,向量的元素由字符串中字符的出现频率组成,由于频率为非负数,因此余弦相似度取值从0到1,值越大则原字符串的相似度越高。
其中,JaroWinkler也是一种常见的文本相似度计算方法,它基于Jaro相似度方法,取值在0~1之间,结果越接近1则相似度越高,计算公式如下:
Figure BDA0001982897200000101
simJW=simJ+lp(1-simJ),
simJ是Jaro方法描述的相似度分值,s1、s2是待比较的两个字符串,m是两个字符串匹配的字符数,t是在一定距离内字符可通过换位匹配的换位字符数目,simJW是JaroWinkler方法描述的相似度分值,l是两个字符串匹配的前缀长度,p是一个范围因子常量,用于调整前缀匹配的权值,最大不超过0.25,默认使用p=0.1。
其中,Jensen-Shannon方法用于衡量两个概率分布的相似度,本方法中概率分布由字符串各个字母的频率表示,计算公式如下:
Figure BDA0001982897200000102
Figure BDA0001982897200000103
Figure BDA0001982897200000104
其中,simJS是用Jensen-Shannon方法计算的相似度分值,DKL表示用KL散度(Kullback-Leibler divergence)计算的值,Pi是第i个字符串中字符的概率分布,||Pi||表示概率分布向量Pi的元素个数。
本发明实施例提供的一种用户身份关联方法,采用了一个有效且可靠的爬虫方式来获取不同平台上公开的真实用户信息,在真实数据基础上,从用户个人资料中提取有效特征,实现了多源社会网络中的用户身份关联,在保证较高准确率的情况下,对数据量的要求较低,节省存储和计算资源,具有很好的可用性和实时性。
图3为本发明实施例提供的一种用户身份关联装置的结构示意图,如图3所示,包括第一处理模块31、第二处理模块32、训练模块33和关联模块34,其中:
第一处理模块31用于根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;
第二处理模块32用于根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;
训练模块33用于提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;
关联模块34用于获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果。
本发明实施例公开一种多源社会网络用户身份关联装置,社会网络平台为第一平台和第二平台,在多源社会网络以及用户属性的观察和分析基础之上,发现用户个人资料是相对容易获取的信息,并且几个公共属性一般都能反映用户的真实特征。根据此特点,用多种相似度方法将文字信息转为数字特征,最终呈现为特征向量的形式,随后采用机器学习的方法训练用户身份关联模型。
具体的,第一处理模块31获取第一预设数量个第一平台的种子ID,第一预设数量的大小可根据实际情况设定,此处不做具体限定。种子ID作为后续自动关联更多用户的种子。根据第一平台的种子ID,可获取到对应的用户信息,包括对应的个人资料和好友关系,并进行存储。同时,基于种子ID的用户信息,继续获取用户的个人资料和好友关系,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录。API-ApplicationProgramming Interface,又叫应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
上一步的目的是为了基于种子ID获取更多的用户信息并存储,当获取到足够多的用户信息后,第二处理模块32可以启动第二平台的爬虫操作。具体的,第二处理模块32扫描轮询记录,根据轮询记录获取对应的URL,得到轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID,其中URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
得到关联ID和非关联ID的特征后,进一步就是训练模块33根据关联ID和非关联ID的特征,得到第一特征向量,根据第一特征向量训练二分类模型。特征提取首先是根据不同平台用户ID来获取对应的个人资料,个人资料主要包括账号ID、用户登录名、用户昵称、性别、生日、联系方式和个人简介。然后,基于个人资料来将文字信息转为数字特征,得到第一特征向量,用于训练二分类模型。该二分类模型最终是用于判断不同平台的一对用户身份是否属于同一个人。二分类模型训练好后,关联模块34获取第一平台用户ID和第二平台用户ID,对第一平台用户ID和第二平台用户ID进行特征提取,得到特征向量并输入到二分类模型中,输入特征向量后,二分类模型通过特征向量来获取两个平台用户的信息,然后得到身份关联结果。身份关联结果有两种可能,一种是这对用户身份属于同一个人,此时可以将两个用户身份进行关联,一种是这对用户身份不属于同一个人,此时不进行关联。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体的流程和详细介绍请参见上述各方法实施例,此处不再赘述。
本发明实施例提供的一种用户身份关联装置,采用了一个有效且可靠的爬虫方式来获取不同平台上公开的真实用户信息,在真实数据基础上,从用户个人资料中提取有效特征,实现了多源社会网络中的用户身份关联,在保证较高准确率的情况下,对数据量的要求较低,节省存储和计算资源,具有很好的可用性和实时性。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和总线440,其中,处理器410,通信接口420,存储器430通过总线440完成相互间的通信。总线440可以用于电子设备与传感器之间的信息传输。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的一种用户身份关联方法,例如包括:根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果。
以上所述仅为本发明的优选实施例,并不用于限制本发明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充,但并不会偏离本发明的精神或者超越所附权利要求书定义的范围。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种用户身份关联方法,其特征在于,包括:
根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;
根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;
提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;
获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果;
所述使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录,具体包括:
根据所述第一预设数量的第一平台的种子ID,获取对应的用户信息,所述用户信息包括个人资料和好友关系;
将所述个人资料和好友关系分别存储到个人资料表和好友关系表中,用游标记录当前好友关系表中访问的用户位置;
使用多个APP身份轮询第一平台的API,根据游标记录位置,读出所述好友关系表中的用户ID,根据所述好友关系表中的用户ID获取用户的个人资料和好友关系;
根据新获取的用户的个人资料和好友关系更新所述个人资料表和好友关系表,并更新游标值,直至新获取的用户ID数量达到所述第二预设数量。
2.根据权利要求1所述的方法,其特征在于,所述个人资料包括:
账号ID、用户登录名、用户昵称、性别、生日、联系方式和个人简介。
3.根据权利要求1所述的方法,其特征在于,所述好友关系为社会网络平台用户之间的社交关系。
4.根据权利要求1所述的方法,其特征在于,所述APP身份具体指使用社会网络开放的RESTful API所需的验证信息。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量,具体包括:
获取所述第一平台用户ID对应的第一个人资料和所述第二平台用户ID对应的第二个人资料;
基于相似度度量方法,获取所述第一个人资料中的ID资料和所述第二个人资料中的ID资料的相似度,得到所述特征向量,其中,所述ID资料包括用户登录名、用户昵称和个人简介。
6.根据权利要求5所述的方法,其特征在于,所述相似度度量方法具体包括:
最长公共子序列方法、Jaccard方法、余弦距离方法、JaroWinkler方法和Jenson-Shannon散度方法。
7.一种用户身份关联装置,其特征在于,包括:
第一处理模块,用于根据第一预设数量的第一平台的种子ID,使用多个APP身份轮询第一平台的API,获取第二预设数量的用户ID和轮询记录;
第二处理模块,用于根据所述第一平台的种子ID和所述第二预设数量的用户ID启动第二平台爬虫操作,扫描所述轮询记录,根据所述轮询记录获取对应的URL,得到所述轮询记录中URL指向第二平台的关联ID和不指向第二平台的非关联ID;
训练模块,用于提取所述关联ID和所述非关联ID的特征,得到第一特征向量,根据所述第一特征向量训练二分类模型;
关联模块,用于获取第一平台用户ID和第二平台用户ID,对所述第一平台用户ID和所述第二平台用户ID进行特征提取,得到特征向量并输入到所述二分类模型中,得到身份关联结果;
所述第一处理模块,进一步用于:根据所述第一预设数量的第一平台的种子ID,获取对应的用户信息,所述用户信息包括个人资料和好友关系;将所述个人资料和好友关系分别存储到个人资料表和好友关系表中,用游标记录当前好友关系表中访问的用户位置;使用多个APP身份轮询第一平台的API,根据游标记录位置,读出所述好友关系表中的用户ID,根据所述好友关系表中的用户ID获取用户的个人资料和好友关系;根据新获取的用户的个人资料和好友关系更新所述个人资料表和好友关系表,并更新游标值,直至新获取的用户ID数量达到所述第二预设数量。
8.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的一种用户身份关联方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述一种用户身份关联方法。
CN201910155928.XA 2019-03-01 2019-03-01 一种用户身份关联方法及装置 Active CN110046293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910155928.XA CN110046293B (zh) 2019-03-01 2019-03-01 一种用户身份关联方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910155928.XA CN110046293B (zh) 2019-03-01 2019-03-01 一种用户身份关联方法及装置

Publications (2)

Publication Number Publication Date
CN110046293A CN110046293A (zh) 2019-07-23
CN110046293B true CN110046293B (zh) 2021-04-23

Family

ID=67274386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910155928.XA Active CN110046293B (zh) 2019-03-01 2019-03-01 一种用户身份关联方法及装置

Country Status (1)

Country Link
CN (1) CN110046293B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110545528B (zh) * 2019-09-19 2021-12-10 白浩 融合多身份的社交方法、装置以及存储介质
CN110752958A (zh) * 2019-10-29 2020-02-04 北京字节跳动网络技术有限公司 用户行为分析方法、装置、设备及存储介质
CN111915368B (zh) * 2020-07-30 2024-02-20 上海数策软件股份有限公司 汽车行业客户id识别系统、方法及介质
CN112990446B (zh) * 2021-05-19 2021-09-24 神威超算(北京)科技有限公司 一种异常团体识别方法、装置和智能芯片
CN113742576B (zh) * 2021-08-10 2024-04-26 深圳市东信时代信息技术有限公司 基于跨平台的内容推荐方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209116B (zh) * 2013-04-13 2016-01-27 新浪网技术(中国)有限公司 多平台信息发布方法和系统
CN103440139A (zh) * 2013-09-11 2013-12-11 北京邮电大学 一种面向主流微博网站微博id的采集方法及工具
CN105812460A (zh) * 2016-03-09 2016-07-27 青岛微智慧信息有限公司 一种面向企业客户的移动互联网消息推送技术
CN107241711A (zh) * 2017-05-26 2017-10-10 上海与德科技有限公司 一种信息载入方法及装置
US10706107B2 (en) * 2017-05-30 2020-07-07 Open Text Sa Ulc Search systems and methods utilizing search based user clustering

Also Published As

Publication number Publication date
CN110046293A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046293B (zh) 一种用户身份关联方法及装置
US20220067084A1 (en) Determining and utilizing contextual meaning of digital standardized image characters
US11620321B2 (en) Artificial intelligence based method and apparatus for processing information
CN107679211B (zh) 用于推送信息的方法和装置
CN109145280B (zh) 信息推送的方法和装置
US9678944B2 (en) Enhanced predictive input utilizing a typeahead process
US10026021B2 (en) Training image-recognition systems using a joint embedding model on online social networks
US9442903B2 (en) Generating preview data for online content
US10366171B1 (en) Optimizing machine translations for user engagement
US10628030B2 (en) Methods and systems for providing user feedback using an emotion scale
US9098584B1 (en) Image search privacy protection techniques
US9646096B2 (en) System and methods for analyzing and improving online engagement
US9122756B2 (en) On-line social search
US20150220500A1 (en) Generating preview data for online content
US10776885B2 (en) Mutually reinforcing ranking of social media accounts and contents
US10825110B2 (en) Entity page recommendation based on post content
US11195099B2 (en) Detecting content items in violation of an online system policy using semantic vectors
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US20130332451A1 (en) System and method for correlating personal identifiers with corresponding online presence
US10255277B2 (en) Crowd matching translators
CN107944032B (zh) 用于生成信息的方法和装置
US20170061016A1 (en) Discovery of network based data sources for ingestion and recommendations
KR101559719B1 (ko) 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
US10127322B2 (en) Efficient retrieval of fresh internet content
US20130132368A1 (en) Large scale analytical reporting from web content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant