CN110222790B - 用户身份识别方法、装置及服务器 - Google Patents
用户身份识别方法、装置及服务器 Download PDFInfo
- Publication number
- CN110222790B CN110222790B CN201910524888.1A CN201910524888A CN110222790B CN 110222790 B CN110222790 B CN 110222790B CN 201910524888 A CN201910524888 A CN 201910524888A CN 110222790 B CN110222790 B CN 110222790B
- Authority
- CN
- China
- Prior art keywords
- user
- unknown
- data
- users
- public data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000007621 cluster analysis Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 14
- 238000011524 similarity measure Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000009853 xinfeng Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用户身份识别方法、装置及服务器,该方法包括:从多个社交网络中获取待识别的未知用户的公开数据;对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。本发明可以有效提高用户身份识别的准确率。
Description
技术领域
本发明涉及社交网络技术领域,尤其是涉及一种用户身份识别方法、装置及服务器。
背景技术
随着互联网的发展,诸如腾讯微博、新浪微博和人人网等多种社交网络出现逐渐在用户的视野中,用户可以活跃于各种社交网络中以不同形象与他人进行交互,产生散布在各个社交网络的独立数据集,例如,用户X在社交网络1中通过账号A与他人交互,在社交网络2中通过账号B与他人交互,在社交网站3中通过账号C与他人交互,所用的不同账号下的信息可能相同或不同,诸如在社交网络1中的名称为“张三”,在社交网络2中的名称为“李四”等,但在社交网络1~3中的性别都设定为“男”,年龄均设定为“28”岁。因此社交网络1、社交网络2和社交网络3中均存在用户X的独立数据集,将用户X的散布于各个社交网络的独立数据集关联起来,对许多数据挖掘分析意义重大。
将用户散布于各个社交网络的独立数据关联起来的前提是在各个社交网络中识别出具有同一身份的用户,现有技术中,通常是通过获取用户在社交网站中公开的用户资料判断多个社交网站上的某个账号是否属于同一用户,该方式受公开资料的限制较大,若用户公开资料不准确或者公开资料不全,则将无法准确识别出各个社交网络中具有同一身份的用户,导致用户身份识别准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种用户身份识别方法、装置及服务器,可以有效提高用户身份识别的准确率。
第一方面,本发明实施例提供了一种用户身份识别方法,包括:从多个社交网络中获取待识别的未知用户的公开数据;对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群的步骤,包括:通过OPTICS(Ordering points to identify the clustering structure)算法或DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述公开数据包括可编辑数据和非编辑数据;所述通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量的步骤,包括:统计所述公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算所述公开数据中可编辑数据的数据相似值;根据所述数据相同数量和所述数据相似值计算所述未知用户的公开数据的相似性度量。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户的步骤,包括:根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值;根据所述相似值,从所述相似用户群中分别识别出具有同一身份的用户。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值的步骤,包括:按照以下公式计算所述相似用户群中每个未知用户针对各所述社交网络的相似值D:
其中,Pi表示所述未知用户与已知用户在所述社交网络中第i个时间的关联信息;m表示时间偏置;difference(Pi,P′i±m)表示所述未知用户针对各所述社交网络的关联差异值;L表示Pi的个数。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值的步骤,还包括:根据所述关联信息和通过Jaccard(Jaccardsimilarity coefficient,杰卡德相似系数)系数,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值。
第二方面,本发明实施例还提供一种用户身份识别装置,包括:数据获取模块,用于从多个社交网络中获取待识别的未知用户的公开数据;聚类模块,用于对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;关联信息获取模块,用于分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;识别模块,用于根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述聚类模块还用于:通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群。
第三方面,本发明实施例还提供一种服务器,所述服务器包括存储器以及处理器,所述存储器用于存储支持处理器执行第一方面至第一方面的第五种可能的实施方式任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
第四方面,本发明实施例还提供一种计算机存储介质,用于储存为第一方面至第一方面的第五种可能的实施方式任一项所述方法所用的计算机软件指令。
本发明实施例带来了以下有益效果:
本发明实施例提供的用户身份识别方法、装置及服务器,首先从多个社交网站中获取待识别的未知用户的公开数据,并通过对未知用户的公开数据进行聚类分析从而得到至少一个相似用户群,再获取每个未知用户与各社交网络中已知用户的关联信息,从而基于关联信息识别出具有同一身份的用户。本发明实施例首先对公开数据进行聚类处理,筛选出具有相似特性的用户群,可以在一定程度上提高用户身份识别的准确率;另外,获取预设时间间隔内未知用户与已知用户的关联信息,基于用户之间的关联信息识别用户身份,可以有效缓解用户公开数据对身份识别的限制,同时利用时间对用户身份识别的影响,可以进一步提高用户身份识别的准确率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户身份识别方法的流程示意图;
图2为本发明实施例提供的另一种用户身份识别方法的流程示意图;
图3为本发明实施例提供的一种社交指纹的示意图;
图4为本发明实施例提供的一种用户身份识别装置的结构示意图;
图5为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,通过获取用户在社交网站中公开的用户资料判断多个社交网站上的某个账号是否属于同一用户,该方式受公开资料的限制较大,若用户公开资料不准确或者公开资料不全,则将无法准确识别出各个社交网络中具有同一身份的用户,导致用户身份识别准确率较低;另外,以FRUI(Friend Relationship-Based User Identification,基于朋友关系的识别)方法为例,该方法仅是通过计算两个不同社交网络中节点之间的相似性来判断他们是否属于同一身份的用户,发明人经研究发现,由于此类方式没有考虑到时间对于用户关系的影响,同样导致用户身份识别的准确率较低。
基于此,本发明实施提供一种用户身份识别方法、装置及服务器,可以有效提高用户身份识别的准确率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种用户身份识别方法进行详细介绍,参见图1所示的一种用户身份识别方法的流程示意图,该方法可以包括以下步骤:
步骤S102,从多个社交网络中获取待识别的未知用户的公开数据。
社交网络可以为新浪微博、腾讯微博和人人网等多种为用户提供沟通交互服务的社交网络平台,在每个社交网络中存在有大量的用户,包括未知用户和已知用户,其中,对于用户X在社交网络1中的账号为A,但是无法得知该用户X在社交网络2和社交网络3中的账号,则该用户X即为未知用户;若用户Y在社交网络1、社交网络2和社交网络3中的账号均已确定,则用户Y为已知用户(也即,种子用户)。考虑到用户可能会对账号的昵称、个人签名、出生日期和性别等公开数据进行设置,因此可以在每个社交网络中获取全部待识别的未知用户的公开数据,以基于公开数据得到未知用户相似度较高的用户群。
步骤S104,对未知用户的公开数据进行聚类分析,得到至少一个相似用户群。
将多个对象分成由类似的对象组成的多个集合的过程被称为聚类,即通过对公开数据进行聚类分析将未知用户分为至少一个相似用户群,通过聚类可以有效缩减相似用户的范围,从而在一定程度上提高用户身份识别的准确率,还可以有效提高计算速度和降低时间复杂度。
步骤S106,分别获取预设时间间隔内相似用户群中的每个未知用户与各社交网络中已知用户的关联信息。
关联信息也即社交指纹,是用户之间进行交互时产生的信息,因为未知用户在各个社交网络中的账号信息是未知的,若想在各个社交网络中识别出具有同一身份的用户,则需要获取未知用户与已知用户之间的社交指纹。在一种实施方式中,可以将上述相似用户群划分为与社交网络对应的用户子群,若存在N个社交网络,则将相似用户群拆分为N各用户子群,每个用户子群仅包括对应的社交网络中的未知用户,再针对每个用户子群获取未知用户与已知用户之间的社交指纹。例如,存在社交网络1、社交网络2和社交网络3,且相似用户群中包括社交网络1、社交网络2和社交网络3中所有相似用户,此时便将相似用户群拆分为社交网络1对应的用户子群1、社交网络2对应的用户子群2和社交网络3对应的用户子群3,进而获取用户子群1中的未知用户在社交网络1中与已知用户的社交指纹,用户子群2中的未知用户在社交网络2中与已知用户的社交指纹,以及用户子群3中的未知用户在社交网络3中与已知用户的社交指纹。
在具体实施时,可以获取预设时间间隔内的关联信息,例如,当前时刻为i,此时可以获取时间区间(i-m,i+m)内的相似用户群中的每个未知用户与各社交网络中已知用户的关联信息,m表示时间偏置。
步骤S108,根据关联信息,从相似用户群中识别出具有同一身份的用户。
关联信息体现了未知用于与已知用户之间的社交关系,通过对未知用户的社交关系进行计算分析,即可以得到未知用户在各个社交网络的社交指纹相似度,基于该社交指纹相似度即可以在多个社交网络中识别出具有同一身份的用户。
本发明实施例提供的用户身份识别方法,首先从多个社交网站中获取待识别的未知用户的公开数据,并通过对未知用户的公开数据进行聚类分析从而得到至少一个相似用户群,再获取每个未知用户与各社交网络中已知用户的关联信息,从而基于关联信息识别出具有同一身份的用户。本发明实施例首先对公开数据进行聚类处理,筛选出具有相似特性的用户群,可以在一定程度上提高用户身份识别的准确率;另外,获取预设时间间隔内未知用户与已知用户的关联信息,基于用户之间的关联信息识别用户身份,可以有效缓解用户公开数据对身份识别的限制,同时利用时间对用户身份识别的影响,可以进一步提高用户身份识别的准确率。
为便于对上述实施例进行理解,本发明实施例还提供了另一种用户身份识别方法,参见图2所示的另一种用户身份识别方法的流程示意图,该方法可以包括以下步骤:
步骤S202,从多个社交网络中获取待识别的未知用户的公开数据。
步骤S204,通过OPTICS算法或DBSCAN算法计算未知用户的公开数据的相似性度量,基于相似性度量得到至少一个相似用户群。
其中,OPTICS算法或DBSCAN算法均属于聚类算法,用于计算相似用户群中每个未知用户之间的数据距离,也即计算未知用户的公开数据的相似性度量,公开数据包括可编辑数据和非编辑数据。其中,非编辑数据可以为性别和出生日期等数据,可编辑数据可以为昵称、个性签名和个人说明等数据。本发明实施例进一步提供了通过OPTICS算法或DBSCAN算法计算未知用户的公开数据的相似性度量的方法,参见如下步骤(1)至(2):
步骤(1),统计公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算公开数据中可编辑数据的数据相似值。
对于非编辑数据,可以直接统计非编辑数据相同的未知用户,例如,在社交网络1中生日设置为1975年的用户为100个,在社交网络2中生日设置为1975年的用户为200个,则在社交网络1中的100个1975年出生的用户和在社交网络2中的200个1975年出生的用户可形成一个对比,即这些未知用户可以认为是极为相似的。
对于可编辑数据,可以按照其编辑距离或特征提取来计算各可编辑数据的数据相似值,其中,编辑距离指莱温斯坦编辑距离,并且可编辑数据包括长文本和短文本,在一种实施方式中,可以针对长文本和短文本分别采用不同的算法计算对应的数据相似值。
步骤(2),根据数据相同数量和数据相似值计算未知用户的公开数据的相似性度量。
在一种实施方式中,可以预设一个阈值,通过调整阈值将满足该阈值的相似性度量对应的未知用户划分至同一相似用户群中,例如,在社交网络1中存在昵称ABC,社交网络2中存在昵称ABCD,若将预设阈值设置较小,则可以认为昵称ABC和昵称ABCD不相似;若将预设阈值设置较大,则可以认为昵称ABC和昵称ABCD相似。另外,通过聚类处理,可以有效减少获取的公开数据的时间复杂度。
步骤S206,分别获取预设时间间隔内相似用户群中的每个未知用户与各社交网络中已知用户的关联信息。
在一种实施方式中,将相似用户群按照社交网络的不同,拆分为多个用户子群,若存在N个社交网络,则将相似用户群拆分为N各用户子群,记为Ci,其中,0<i<N,对拆分后的每个用户子群中的每个未知用户计算社交指纹Pi,j表示用户子群Ci的用户数量。
为便于理解,参见图3所示的一种社交指纹的示意图,社交网络可以通过二部图表示,其中,V表示未知用户,X、Y、Z表示已知用户,在该社交网络中未知用户V与已知用户X、已知用户Y和已知用户Z之间存在交互关系,并且未知用户V同时与已知用户X和已知用户Z进行交互,未知用户V在另一时刻与已知用户Y进行交互,则得到社交指纹P1={(x,z)},社交指纹P2={y}。
步骤S206,根据关联信息,计算相似用户群中每个未知用户针对各社交网络的相似值。
进一步的,本发明实施例提供了一种计算相似用户群中每个未知用户针对各社交网络的相似值的方法,具体实施时,按照以下公式计算相似用户群中每个未知用户针对各社交网络的相似值D:
其中,Pi表示未知用户与已知用户在社交网络中第i个时间的关联信息;P′i表示未知用户与已知用户在另一社交网络中第i个时间的关联信息;m表示时间偏置;difference(Pi,P′i±m)表示未知用户针对各社交网络的关联差异值;L表示Pi的个数。
例如,在社交网络1中存在社交指纹Pi={(x,x,x...)},以及在社交网络2中存在社交指纹P′i={(x,y,(x,y),...)}。因为用户无法同时在两个及两个以上的社交网络上与他人进行交互,因此设置时间偏置m,从而将社交指纹归一至同一时间线上,即Pi和P′i处于同一时间线上,假设上述时间偏置m=1,如表1所示,以Pi为例,在i-1时刻,社交网络1中未知用户V1与已知用户X进行交互;在t时刻,社交网站1中未知用户V1与已知用户X进行交互;在t+1时刻,社交网站1中未知用户V1与已知用户X进行交互。通过difference(Pi,P′i±m)计算不同社交网络中不同未知用户的社交指纹的差异值,得到i-1,i,i+1三个时刻的第一位差异为{未知,0,0.5}(如表2所示的P′i-1),第二位差异为{0,1,0.5},第三位差异为{1,0.5,未知},其中,1表示Pi和P′i完全相同;0表示Pi和P′i完全不同;“未知”表示若Pi和P′i中任意一个是未知的,则difference(Pi,P′i±m)值未知。计算得到社交指纹的差异值后,可通过计算相似用户群中每个未知用户针对各社交网络的相似值D。
表1
表2
在另一种实施方式中,还可以根据关联信息和通过Jaccard系数,计算相似用户群中每个未知用户针对各社交网络的相似值,即利用Jaccard系数比较每个未知用户的社交指纹的相似度。
步骤S208,根据相似值,从相似用户群中分别识别出具有同一身份的用户。
步骤S210,根据关联信息,从相似用户群中识别出具有同一身份的用户。
综上所述,本发明实施例相较于传统的FRUI算法中仅基于未知用户节点与已知用户节点之间的好友关系,还利用了时间对未知用户节点与已知用户节点的影响,从而可以对用户活跃度对于用户身份识别的影响进行深入研究,另外,本发明实施例还可以有效提高用户身份识别的准确率。
对于前述实施例提供的用户身份识别方法,本发明实施例还提供了一种用户身份识别装置,参见图4所示一种用户身份识别装置的结构示意图,该装置可以包括以下部分:
数据获取模块402,用于从多个社交网络中获取待识别的未知用户的公开数据。
聚类模块404,用于对未知用户的公开数据进行聚类分析,得到至少一个相似用户群。
关联信息获取模块406,用于分别获取预设时间间隔内相似用户群中的每个未知用户与各社交网络中已知用户的关联信息。
识别模块408,用于根据关联信息,从相似用户群中识别出具有同一身份的用户。
本发明实施例提供的用户身份识别方法,首先数据获取模块从多个社交网站中获取待识别的未知用户的公开数据,并通过聚类模块对未知用户的公开数据进行聚类分析从而得到至少一个相似用户群,关联信息获取模块再获取每个未知用户与各社交网络中已知用户的关联信息,从而识别模块基于关联信息识别出具有同一身份的用户。本发明实施例首先对公开数据进行聚类处理,筛选出具有相似特性的用户群,可以在一定程度上提高用户身份识别的准确率;另外,获取预设时间间隔内未知用户与已知用户的关联信息,基于用户之间的关联信息识别用户身份,可以有效缓解用户公开数据对身份识别的限制,同时利用时间对用户身份识别的影响,可以进一步提高用户身份识别的准确率。
在一种实施方式中,上述聚类模块404还用于:通过OPTICS算法或DBSCAN算法计算未知用户的公开数据的相似性度量,基于相似性度量得到至少一个相似用户群。
进一步的,公开数据包括可编辑数据和非编辑数据,上述聚类模块404还用于:统计公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算公开数据中可编辑数据的数据相似值;根据数据相同数量和数据相似值计算未知用户的公开数据的相似性度量。
在一种实施方式中,上述识别模块408还用于:根据关联信息,计算相似用户群中每个未知用户针对各社交网络的相似值;根据相似值,从相似用户群中分别识别出具有同一身份的用户。
进一步的,上述识别模块408还用于:按照以下公式计算相似用户群中每个未知用户针对各社交网络的相似值D:Pi表示未知用户与已知用户在社交网络中第i个时间的关联信息;m表示时间偏置;difference(Pi,P′i±m)表示未知用户针对各社交网络的关联差异值;L表示Pi的个数。
进一步的,上述识别模块408还用于:根据关联信息和通过Jaccard系数,计算相似用户群中每个未知用户针对各社交网络的相似值。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
该设备为一种服务器,具体的,该服务器包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图5为本发明实施例提供的一种服务器的结构示意图,该服务器100包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。
其中,存储器51可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种用户身份识别方法,其特征在于,包括:
从多个社交网络中获取待识别的未知用户的公开数据;
对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;
分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;
根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户;
所述对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群的步骤,包括:
通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群;
所述公开数据包括可编辑数据和非编辑数据;
所述通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量的步骤,包括:
统计所述公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算所述公开数据中可编辑数据的数据相似值;
根据所述数据相同数量和所述数据相似值计算所述未知用户的公开数据的相似性度量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户的步骤,包括:
根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值;
根据所述相似值,从所述相似用户群中分别识别出具有同一身份的用户。
4.根据权利要求2所述的方法,其特征在于,所述根据所述关联信息,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值的步骤,还包括:
根据所述关联信息和通过Jaccard系数,计算所述相似用户群中每个未知用户针对各所述社交网络的相似值。
5.一种用户身份识别装置,其特征在于,包括:
数据获取模块,用于从多个社交网络中获取待识别的未知用户的公开数据;
聚类模块,用于对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群;所述对所述未知用户的公开数据进行聚类分析,得到至少一个相似用户群的步骤,包括:通过OPTICS算法或 DBSCAN 算法 计算所述未知用户的公开数据的相似性度量,基于所述相似性度量得到至少一个相似用户群;所述公开数据包括可编辑数据和非编辑数据;所述通过OPTICS算法或DBSCAN算法计算所述未知用户的公开数据的相似性度量的步骤,包括:统计所述公开数据中非编辑数据相同的未知用户,得到数据相同数量;并计算所述公开数据中可编辑数据的数据相似值;根据所述数据相同数量和所述数据相似值计算所述未知用户的公开数据的相似性度量;
关联信息获取模块,用于分别获取预设时间间隔内所述相似用户群中的每个未知用户与各所述社交网络中已知用户的关联信息;
识别模块,用于根据所述关联信息,从所述相似用户群中识别出具有同一身份的用户。
6.一种服务器,其特征在于,所述服务器包括存储器以及处理器,所述存储器用于存储支持处理器执行权利要求1至4任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
7.一种计算机存储介质,其特征在于,用于储存为权利要求1至4任一项所述方法所用的计算机软件指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524888.1A CN110222790B (zh) | 2019-06-17 | 2019-06-17 | 用户身份识别方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524888.1A CN110222790B (zh) | 2019-06-17 | 2019-06-17 | 用户身份识别方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222790A CN110222790A (zh) | 2019-09-10 |
CN110222790B true CN110222790B (zh) | 2021-05-25 |
Family
ID=67817462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524888.1A Active CN110222790B (zh) | 2019-06-17 | 2019-06-17 | 用户身份识别方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222790B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826605A (zh) * | 2019-10-24 | 2020-02-21 | 北京明略软件系统有限公司 | 一种跨平台识别用户的方法及装置 |
CN113094412B (zh) * | 2021-04-28 | 2022-12-23 | 杭州数澜科技有限公司 | 一种身份识别方法、装置、电子设备以及存储介质 |
CN113254726B (zh) * | 2021-06-07 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 账号分组方法、装置、电子设备及存储介质 |
CN117763170A (zh) * | 2024-01-16 | 2024-03-26 | 北京三维天地科技股份有限公司 | 一种基于知识图谱和相似度度量的OneID生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和系统 |
CN108197224A (zh) * | 2017-12-28 | 2018-06-22 | 广州虎牙信息科技有限公司 | 用户群分类方法、存储介质以及终端 |
CN108897789A (zh) * | 2018-06-11 | 2018-11-27 | 西南科技大学 | 一种跨平台的社交网络用户身份识别方法 |
CN109685094A (zh) * | 2018-09-21 | 2019-04-26 | 阿里巴巴集团控股有限公司 | 一种基于网络指纹的身份识别方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330020B (zh) * | 2017-06-20 | 2020-03-24 | 电子科技大学 | 一种基于结构和属性相似度的用户实体解析方法 |
CN109284589A (zh) * | 2018-09-05 | 2019-01-29 | 武汉大学 | 一种跨社交网络实体身份解析方法 |
CN109753602B (zh) * | 2018-12-04 | 2020-12-25 | 中国科学院计算技术研究所 | 一种基于机器学习的跨社交网络用户身份识别方法和系统 |
-
2019
- 2019-06-17 CN CN201910524888.1A patent/CN110222790B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和系统 |
CN108197224A (zh) * | 2017-12-28 | 2018-06-22 | 广州虎牙信息科技有限公司 | 用户群分类方法、存储介质以及终端 |
CN108897789A (zh) * | 2018-06-11 | 2018-11-27 | 西南科技大学 | 一种跨平台的社交网络用户身份识别方法 |
CN109685094A (zh) * | 2018-09-21 | 2019-04-26 | 阿里巴巴集团控股有限公司 | 一种基于网络指纹的身份识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
Cross-Platform Identification of Anonymous Identical Users in Multiple Social Media Networks;Xiaoping Zhou et al.;《IEEE Transactions on Knowledge and Data Engineering》;20160106;第28卷(第2期);第1节,第3节,第6节 * |
跨社交网络用户匹配方法的设计与实现;顾启航;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181115;正文第3.3.4节,第四章 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222790A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222790B (zh) | 用户身份识别方法、装置及服务器 | |
Bartunov et al. | Joint link-attribute user identity resolution in online social networks | |
CN108768883B (zh) | 一种网络流量识别方法及装置 | |
US10243967B2 (en) | Method, apparatus and system for detecting fraudulant software promotion | |
WO2016180268A1 (zh) | 一种文本聚合方法及装置 | |
WO2016074492A1 (zh) | 基于社交平台的数据挖掘方法及装置 | |
US9210189B2 (en) | Method, system and client terminal for detection of phishing websites | |
CN108650260B (zh) | 一种恶意网站的识别方法和装置 | |
US20140046959A1 (en) | Labeling Samples in a Similarity Graph | |
CN110033302B (zh) | 恶意账户识别方法及装置 | |
JP2018516404A (ja) | 情報推奨方法および装置、ならびにサーバ | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN106372202B (zh) | 文本相似度计算方法及装置 | |
CN107679626A (zh) | 机器学习方法、装置、系统、存储介质及设备 | |
CN109783805B (zh) | 一种网络社区用户识别方法、装置和可读存储介质 | |
CN111159413A (zh) | 日志聚类方法、装置、设备及存储介质 | |
CN110046251A (zh) | 社区内容风险评估方法及装置 | |
US20230410221A1 (en) | Information processing apparatus, control method, and program | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN110598115A (zh) | 一种基于人工智能多引擎的敏感网页识别方法及系统 | |
US11997116B2 (en) | Detection device and detection method for malicious HTTP request | |
CN105245380B (zh) | 一种消息的传播方式识别方法及装置 | |
TW201816659A (zh) | 一種條形碼的識別方法和裝置 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |