CN104778388A - 一种两个不同平台下同一用户识别方法及系统 - Google Patents

一种两个不同平台下同一用户识别方法及系统 Download PDF

Info

Publication number
CN104778388A
CN104778388A CN201510221212.7A CN201510221212A CN104778388A CN 104778388 A CN104778388 A CN 104778388A CN 201510221212 A CN201510221212 A CN 201510221212A CN 104778388 A CN104778388 A CN 104778388A
Authority
CN
China
Prior art keywords
user
different platforms
under
information
personal information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510221212.7A
Other languages
English (en)
Inventor
李寿山
王晶晶
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201510221212.7A priority Critical patent/CN104778388A/zh
Publication of CN104778388A publication Critical patent/CN104778388A/zh
Pending legal-status Critical Current

Links

Abstract

本申请提供了一种两个不同平台下同一用户识别方法,该方法包括:采集两个不同平台下的个人资料信息;对所述采集的个人资料信息进行标注;对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。能够有效的识别两个不同平台下的同一用户,且在训练样本数量有限的情况下,达到较高的准确率。

Description

一种两个不同平台下同一用户识别方法及系统
技术领域
本申请涉及同一用户识别领域,特别涉及一种两个不同平台下同一用户识别方法及系统。
背景技术
随着技术的发展,人们对匹配不同微博网站之间同一个人的账号越来越关注。
经分析可知,同一用户的个人信息(用户名、昵称、性别、所在地和年龄)即使在不同的平台下仍然表现出明显的相似性,这样,可以充分利用用户的个人信息,来探索识别不同平台下的同一用户的方法。
因此,如何有效的识别两个不同平台下的同一用户是本领域技术人员目前需要解决的技术问题。
发明内容
本申请所要解决的技术问题是提供一种两个不同平台下同一用户识别方法及系统,能够有效的识别两个不同平台下的同一用户。
其具体方案如下:
一种两个不同平台下同一用户识别方法,该方法包括:
采集两个不同平台下的个人资料信息;
对所述采集的个人资料信息进行标注;
对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
上述的方法,优选的,所述两个不同平台分别为新浪微博和腾讯微博,所述采集两个不同平台下的个人资料信息,包括:
构建用户队列;
挑选一个微博用户作为种子用户,加入到所述用户队列中;
从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
上述的方法,优选的,所述对采集的个人资料信息进行标注,包括:
对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类,对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
上述的方法,优选的,所述对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本,包括:
对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
上述的方法,优选的,所述利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户,包括:
计算待测样本集与训练样本集之间的余弦相似度;
按照距离递增次序排序;
选取与当前待测样本距离最小的k个训练样本;
确定前k个训练样本所在类别的出现频率;
返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
一种两个不同平台下同一用户识别系统,该系统包括:
采集单元,用于采集两个不同平台下的个人资料信息;
标注单元,用于对所述采集的个人资料信息进行标注;
特征抽取单元,用于对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
类别识别单元,用于利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
上述的系统,优选的,所述两个不同平台分别为新浪微博和腾讯微博,所述采集单元包括:
构建单元,用于构建用户队列;
挑选单元,用于挑选一个微博用户作为种子用户,加入到所述用户队列中;
抓取单元,用于从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复单元,用于重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
上述的系统,优选的,所述标注单元包括:
第一标注子单元,用于对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类;
第二标注子单元,用于对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
上述的系统,优选的,所述特征抽取单元包括:
第一特征抽取子单元,用于对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
第二特征抽取子单元,用于对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
上述的系统,优选的,所述类别识别单元包括:
计算单元,用于计算待测样本集与训练样本集之间的余弦相似度;
排序单元,用于按照距离递增次序排序;
选取单元,用于选取与当前待测样本距离最小的k个训练样本;
确定单元,用于确定前k个训练样本所在类别的出现频率;
返回单元,用于返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
本申请提供的两个不同平台下同一用户识别方法中,首先,采集两个不同平台下的个人资料信息;然后,对所述采集的个人资料信息进行标注;并对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;最后,利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。能够有效的识别两个不同平台下的同一用户,且在训练样本数量有限的情况下,达到较高的准确率。这将有利于企业制定精准的广告投放,有助于研究同一用户使用不同社交网络的使用动机分析及其相关分析以此来帮助社交网络运营更好的开发社交网络产品。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一种两个不同平台下同一用户识别方法实施例的流程图;
图2是本申请的一种两个不同平台下同一用户识别方法另一实施例的流程图;
图3是本申请的一种两个不同平台下同一用户识别系统实施例的结构示意图;
图4是本申请的一种两个不同平台下同一用户识别系统另一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,示出了本申请两个不同平台下同一用户识别方法实施例的流程图,可以包括以下步骤:
步骤S101:采集两个不同平台下的个人资料信息。
步骤S102:对所述采集的个人资料信息进行标注。
步骤S103:对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本。
步骤S104:利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
本申请提供的两个不同平台下同一用户识别方法中,首先,采集两个不同平台下的个人资料信息;然后,对所述采集的个人资料信息进行标注;并对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;最后,利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。能够有效的识别两个不同平台下的同一用户,且在训练样本数量有限的情况下,达到较高的准确率。这将有利于企业制定精准的广告投放,有助于研究同一用户使用不同社交网络的使用动机分析及其相关分析以此来帮助社交网络运营更好的开发社交网络产品。
本申请中,所述两个不同平台分别为新浪微博和腾讯微博,所述采集两个不同平台下的个人资料信息,包括:
构建用户队列。
挑选一个微博用户作为种子用户,加入到所述用户队列中。
从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中。
重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
本申请中,所述对采集的个人资料信息进行标注,包括:
对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类,对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
本申请中,所述对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本,包括:
对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
表1个人信息特征表示及其说明
本申请中按照表1中的内容进行特征抽取,分别生成训练与测试样本。
参考图2,示出了本申请两个不同平台下同一用户识别方法另一实施例流程图,可以包括以下步骤:
步骤S201:计算待测样本集与训练样本集之间的余弦相似度。
步骤S202:按照距离递增次序排序。
步骤S203:选取与当前待测样本距离最小的k个训练样本。
步骤S204:确定前k个训练样本所在类别的出现频率。
步骤S205:返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
其中,k-近邻算法(k-nearest neighbor,简称kNN)是一种简洁而有效的非参数分类方法,是最简单的机器学习算法之一,用于解决文本的分类问题。
k-近邻算法是最近邻算法的一个推广。该规则将是一个测试数据点x分类为与它最接近的k个近邻中出现最多的那个类别。k-近邻算法从测试样本点x开始生长,不断的扩大区域,直到包含进k个训练样本点为止,并且把测试样本点x归为这最近的k个训练样本点中出现频率最大的类别。其中测试样本与训练样本的相似度一般使用欧式距离测量。
如果k值固定,并且允许训练样本个数趋向于无穷大,那么,所有的这k个近邻都将收敛于x。如同最近邻规则一样,k个近邻的标记都是随机变量,概率P(wi|x),i=1,2,…,k都是相互独立的。假设P(wm|x)是较大的那个后验概率,那么根据贝叶斯分类规则,则选取类别wm。而最近邻规则以概率P(wm|x)选取类别。而根据k近邻规则,只有当k个最近邻中的大多数的标记记为wm,才判定为类别wm。做出这样断定的概率为:
Σ i = ( k + 1 ) / 2 k k i p ( w i | x ) i [ 1 - p ( w i | x ) ] k - i
通常k值越大,选择类别wm概率也越大。具体算法步骤:
依公式计算Item与D1、D2……、Dj之相似度。得到Sim(Item,D1)、Sim(Item,D2)……、Sim(Item,Dj)。
将Sim(Item,D1)、Sim(Item,D2)……、Sim(Item,Dj)排序,若是超过相似度门槛t则放入邻居案例集合NN。
自邻居案例集合NN中取出前k名,依多数决,得到Item可能类别。
采用本发明提供的一种基于个人信息的新浪微博和腾讯微博中同一用户识别方法对交互式性别进行分类的召回率为0.78,其中训练样本包含同一用户(正类)、非同一用户(负类)各844,测试样本包含同一用户(正类)、非同一用户(负类)各100。
与上述本申请一种两个不同平台下同一用户识别方法实施例所提供的方法相对应,参见图3,本申请还提供了一种两个不同平台下同一用户识别系统实施例,在本实施例中,该系统包括:
采集单元301,用于采集两个不同平台下的个人资料信息。
标注单元302,用于对所述采集的个人资料信息进行标注。
特征抽取单元303,用于对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本。
类别识别单元304,用于利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
本申请中,所述两个不同平台分别为新浪微博和腾讯微博,所述采集单元包括:
构建单元,用于构建用户队列。
挑选单元,用于挑选一个微博用户作为种子用户,加入到所述用户队列中。
抓取单元,用于从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中。
重复单元,用于重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
本申请中,所述标注单元包括:
第一标注子单元,用于对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类。
第二标注子单元,用于对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
本申请中,所述特征抽取单元包括:
第一特征抽取子单元,用于对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本。
第二特征抽取子单元,用于对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
参见图4,本申请还提供了一种两个不同平台下同一用户识别系统另一实施例,所述类别识别单元包括:
计算单元401,用于计算待测样本集与训练样本集之间的余弦相似度。
排序单元402,用于按照距离递增次序排序。
选取单元403,用于选取与当前待测样本距离最小的k个训练样本。
确定单元404,用于确定前k个训练样本所在类别的出现频率。
返回单元405,用于返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种两个不同平台下同一用户识别方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种两个不同平台下同一用户识别方法,其特征在于,该方法包括:
采集两个不同平台下的个人资料信息;
对所述采集的个人资料信息进行标注;
对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
2.根据权利要求1所述的方法,其特征在于,所述两个不同平台分别为新浪微博和腾讯微博,所述采集两个不同平台下的个人资料信息,包括:
构建用户队列;
挑选一个微博用户作为种子用户,加入到所述用户队列中;
从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
3.根据权利要求1所述的方法,其特征在于,所述对采集的个人资料信息进行标注,包括:
对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类,对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
4.根据权利要求1所述的方法,其特征在于,所述对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本,包括:
对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
5.根据权利要求1所述的方法,其特征在于,所述利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户,包括:
计算待测样本集与训练样本集之间的余弦相似度;
按照距离递增次序排序;
选取与当前待测样本距离最小的k个训练样本;
确定前k个训练样本所在类别的出现频率;
返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
6.一种两个不同平台下同一用户识别系统,其特征在于,该系统包括:
采集单元,用于采集两个不同平台下的个人资料信息;
标注单元,用于对所述采集的个人资料信息进行标注;
特征抽取单元,用于对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
类别识别单元,用于利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
7.根据权利要求6所述的系统,其特征在于,所述两个不同平台分别为新浪微博和腾讯微博,所述采集单元包括:
构建单元,用于构建用户队列;
挑选单元,用于挑选一个微博用户作为种子用户,加入到所述用户队列中;
抓取单元,用于从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复单元,用于重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
8.根据权利要求6所述的系统,其特征在于,所述标注单元包括:
第一标注子单元,用于对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类;
第二标注子单元,用于对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
9.根据权利要求6所述的系统,其特征在于,所述特征抽取单元包括:
第一特征抽取子单元,用于对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
第二特征抽取子单元,用于对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
10.根据权利要求6所述的系统,其特征在于,所述类别识别单元包括:
计算单元,用于计算待测样本集与训练样本集之间的余弦相似度;
排序单元,用于按照距离递增次序排序;
选取单元,用于选取与当前待测样本距离最小的k个训练样本;
确定单元,用于确定前k个训练样本所在类别的出现频率;
返回单元,用于返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
CN201510221212.7A 2015-05-04 2015-05-04 一种两个不同平台下同一用户识别方法及系统 Pending CN104778388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510221212.7A CN104778388A (zh) 2015-05-04 2015-05-04 一种两个不同平台下同一用户识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510221212.7A CN104778388A (zh) 2015-05-04 2015-05-04 一种两个不同平台下同一用户识别方法及系统

Publications (1)

Publication Number Publication Date
CN104778388A true CN104778388A (zh) 2015-07-15

Family

ID=53619847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510221212.7A Pending CN104778388A (zh) 2015-05-04 2015-05-04 一种两个不同平台下同一用户识别方法及系统

Country Status (1)

Country Link
CN (1) CN104778388A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183806A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种不同平台间识别同一用户的方法与系统
WO2017041651A1 (zh) * 2015-09-09 2017-03-16 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
WO2019080404A1 (zh) * 2017-10-25 2019-05-02 平安科技(深圳)有限公司 跨社交平台用户匹配方法、数据处理装置及可读存储介质
CN110113664A (zh) * 2019-04-10 2019-08-09 华南理工大学 一种基于直播频道用户观看行为相似性的用户身份识别方法
CN111767438A (zh) * 2020-06-16 2020-10-13 上海同犀智能科技有限公司 一种基于Hash结合积分的身份识别方法
WO2020224302A1 (zh) * 2019-05-07 2020-11-12 北京字节跳动网络技术有限公司 用户信息处理方法、装置、电子设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140143012A1 (en) * 2012-11-21 2014-05-22 Insightera Ltd. Method and system for predictive marketing campigns based on users online behavior and profile
CN103914494A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户身份识别方法及系统
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104239351A (zh) * 2013-06-20 2014-12-24 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN104317784A (zh) * 2014-09-30 2015-01-28 苏州大学 一种跨平台用户识别方法和系统
CN104537118A (zh) * 2015-01-26 2015-04-22 苏州大学 一种微博数据处理方法、装置及系统
CN104574192A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 在多个社交网络中识别同一用户的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140143012A1 (en) * 2012-11-21 2014-05-22 Insightera Ltd. Method and system for predictive marketing campigns based on users online behavior and profile
CN103914494A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户身份识别方法及系统
CN104239351A (zh) * 2013-06-20 2014-12-24 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN104574192A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 在多个社交网络中识别同一用户的方法及装置
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104317784A (zh) * 2014-09-30 2015-01-28 苏州大学 一种跨平台用户识别方法和系统
CN104537118A (zh) * 2015-01-26 2015-04-22 苏州大学 一种微博数据处理方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊海涛: "《面向复杂数据的推荐分析研究》", 31 January 2015, 北京理工大学出版社 *
王晶晶等: ""中文微博用户性别分类方法研究"", 《中文信息学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183806A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种不同平台间识别同一用户的方法与系统
WO2017041651A1 (zh) * 2015-09-09 2017-03-16 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
CN106529110A (zh) * 2015-09-09 2017-03-22 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
WO2019080404A1 (zh) * 2017-10-25 2019-05-02 平安科技(深圳)有限公司 跨社交平台用户匹配方法、数据处理装置及可读存储介质
CN110113664A (zh) * 2019-04-10 2019-08-09 华南理工大学 一种基于直播频道用户观看行为相似性的用户身份识别方法
WO2020224302A1 (zh) * 2019-05-07 2020-11-12 北京字节跳动网络技术有限公司 用户信息处理方法、装置、电子设备及计算机存储介质
CN111767438A (zh) * 2020-06-16 2020-10-13 上海同犀智能科技有限公司 一种基于Hash结合积分的身份识别方法

Similar Documents

Publication Publication Date Title
CN104778388A (zh) 一种两个不同平台下同一用户识别方法及系统
CN104123332B (zh) 搜索结果的显示方法及装置
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN102982153B (zh) 一种信息检索方法及其装置
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN107491996B (zh) 一种网页广告投放方法与系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN106126582A (zh) 推荐方法及装置
CN103455545A (zh) 社交网络用户的位置估计的方法和系统
CN109636495A (zh) 一种基于大数据的科技信息在线推荐方法
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN110457481A (zh) 一种分类模型训练的方法、装置、设备以及存储介质
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN104537118A (zh) 一种微博数据处理方法、装置及系统
CN109255000A (zh) 一种标签数据的维度管理方法及装置
CN107862551A (zh) 网络应用推广效果的预测方法、装置和终端设备
CN107741958A (zh) 一种数据处理方法及系统
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
CN105786936A (zh) 用于对搜索数据进行处理的方法及设备
CN105183806A (zh) 一种不同平台间识别同一用户的方法与系统
CN105159898A (zh) 一种搜索的方法和装置
JPWO2019234827A1 (ja) 情報処理装置、判定方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150715

RJ01 Rejection of invention patent application after publication