CN105099729B

CN105099729B - 一种识别用户身份标识的方法和装置

Info

Publication number: CN105099729B
Application number: CN201410161428.4A
Authority: CN
Inventors: 黄晓婧; 甘云锋; 朱洪波; 肖禹; 沈金; 郑浩华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba East China Co.,Ltd.
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2018-07-20
Anticipated expiration: 2034-04-22
Also published as: CN105099729A

Abstract

本申请涉及一种识别用户身份标识的方法和装置。该方法包括：基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重；以及根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。根据本申请，能够解决现有技术中无法将各类用户身份标识映射为同一对象的问题。

Description

一种识别用户身份标识的方法和装置

技术领域

本申请涉及互联网领域，更具体地涉及一种识别用户身份标识的方法和装置。

背景技术

用户身份标识是用于识别用户身份的名字。例如，每个网站有各自的用户体系的用户名、浏览器中有记录用户足迹的cookie（小型文本文件），无线终端设备上有手机imei（国际移动设备身份码），每个手机用户有各自的手机号码等。目前对人群的身份识别通常限于单系统内的识别，具体来说，通常只能对单系统内具有直接关系的用户身份标识进行识别。例如，通过解析A网站的网站访问记录和登录日志，识别浏览器中cookie和A网站用户身份标识之间的直接关系。

但是，目前的用户身份标识识别体系主要存在以下缺陷：首先，由于不同系统的用户身份标识的数据结构和数据格式都不同，所以只能进行单系统内的数据收集和分析，很难对不同系统的用户身份标识做数据集成和整合分析；其次，由于只能识别用户身份标识之间的直接关系，更深层的间接关系无法打通，所以只能对用户身份标识形成单边关系，无法形成网状关系图。以上缺陷导致现有技术无法识别不同系统的用户身份标识，并且同一系统的同一个自然人或同一类人群的用户标身份标识的识别程度不高。

因此，由于不同系统的用户身份标识在各系统中都自成体系，没有连通性，无法判断在不同系统中这些用户身份标识是否属于同一类人群或者同一个自然人。在本领域中，需要一种识别用户身份标识的方法，其能够识别不同系统的用户身份标识，从而解决无法将各类用户身份标识映射为同一类人群或者同一个自然人的问题。

发明内容

本申请的主要目的在于提供一种识别用户身份标识的技术，以解决现有技术中无法将各类用户身份标识映射为同一类人群或者同一个自然人的问题。

根据本申请的第一方面，提供了一种识别用户身份标识的方法，包括：基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重；以及根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。

根据本申请的第二方面，提供了一种用于识别用户身份标识的装置，包括：获取模块，用于基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重；以及确定模块，用于根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。

与现有技术相比，根据本申请的技术方案，能够基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重，并且根据获取的用户身份标识之间的关联关系权重，可以确定各用户身份标识的用户统一身份标识（也称，UniID），从而解决现有技术中无法将各类用户身份标识映射为同一对象（同一类人群或者同一个自然人）的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一个实施例的识别用户身份标识的方法的流程图；

图2是根据本申请的更详细实施例的识别用户身份标识的方法的流程图；

图3为根据本申请一个实施例的表示各用户身份标识和各用户身份标识之间的关联关系类型的图表；以及

图4是根据本申请一个实施例的用于识别用户身份标识的装置的框图。

具体实施方式

本申请的主要思想在于，基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重，并且根据获取的用户身份标识之间的关联关系权重，可以确定各用户身份标识的用户统一身份标识。该技术方案通过对每个用户身份标识都分配一个用户统一身份标识，可以对具有相同用户统一身份标识的用户身份标识进行聚类，从而可以将各类用户身份标识映射为同一对象（同一类人群或者同一个自然人）。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1是根据本申请一个实施例的识别用户身份标识的方法100的流程图。如图1所示，方法100开始于步骤101。

在步骤101，基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重。

具体而言，不同系统的用户身份标识可以包括：互联网中不同系统的用户体系的用户名、记录用户登陆的cookie（小型文本文件）、用户手机号码、手机imei（国际移动设备身份码）、用户的email（电子邮件地址）等。

由于用户身份标识具有各种类型，比如：imei、手机号码、网站用户名，等等，各类用户身份标识对其具体标识组成的数据结构要求不同，如中国大陆手机号的组成数据结构要求为：11位数字组成，等等。

而同一个自然人或同一类人群，可以有多个不同的用户身份标识，如用户A在B网站的用户名与其手机号码绑定，而每个手机对应唯一的手机imei，则用户A在B网站的用户名与其手机号码以及该手机对应的手机imei之间具有关联关系。从一些可以体现用户身份标识关联关系的数据中，可以获取不同用户身份标识之间的关联关系。例如，通过解析B网站的网络访问和登录日志，可以识别浏览器中cookie和B网站用户名之间的关联关系。

对所收集的各类用户身份标识及用户身份标识之间的关联关系进行分析和计算，例如，通过计算用户身份标识之间的共现概率，可以获取各类用户身份标识之间的关联关系权重。其中，关联关系权重，用于表示用户身份标识之间所存在的关联关系的程度。用户身份标识之间的关联关系权重越大，表示他们之间的关联关系程度越高，用户身份标识之间的关联关系权重越小，表示他们之间的关联关系程度越低。

在步骤102，根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。

具体而言，根据获取的用户身份标识之间的关联关系权重，可以先对一部分用户身份标识生成相应的用户统一身份标识，在已生成的用户统一身份标识的基础上，计算其他用户身份标识与各用户统一身份标识之间的关联关系，从而确定其他用户身份标识的用户统一身份标识。其中，所述用户统一身份标识比如：对属于同一个自然人的各类用户身份标识所提供的一个标识，和/或，对同一类人群的各类用户身份标识所提供的一个标识。

由于两个用户身份标识之间的关联关系权重越大，其代表两个用户身份标识属于同一对象（如同一自然人、同一类人群）的可能性越大。因此，可以先对所有用户身份标识中具有关联关系权重较大的用户身份标识生成相应的用户统一身份标识，在此基础上，计算其他关联关系权重较小的用户身份标识与已生成的各用户统一身份标识之间的关联关系，例如，计算与已生成的各用户统一身份标识之间的条件概率。然后，可以将计算的结果与预先设定的阈值进行比较，以确定该用户身份标识的用户统一身份标识。

至此，描述了根据本申请一个实施例的识别用户身份标识的方法100的流程图。根据本申请的技术方案，能够基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重，并且根据获取的用户身份标识之间的关联关系权重，可以确定各用户身份标识的用户统一身份标识，从而解决现有技术中无法将各类用户身份标识映射为同一对象（同一类人群或者同一个自然人）的问题。

图2是根据本申请的更详细实施例的识别用户身份标识的方法200的流程图；如图2所示，方法200开始于步骤201。

在步骤201，基于各类用户身份标识的数据结构，构建相应的数据合法性规则，以对所收集的用户身份标识进行过滤。

由于在收集的不同系统的用户身份标识中，有时会出现如缺损数据、重复数据、数据格式不一致等情况。为了保证数据的质量，可以根据各类用户身份标识的数据结构，构建相应的数据合法性规则，以对所收集的用户身份标识进行过滤。数据合法性规则是确定数据是否正常的标准。

例如，数据合法性规则可以包括以下规则：

（1）邮箱：tolower(trim(email))rlike'^\\w+[^@]*@\\w+(\\.[^@]+)*$'

（2）手机imei：15位长度为正常数据

通过上述合法性规则，可以过滤掉不符合上述规则的数据，从而保证数据的正确性。

在步骤202，基于各类用户身份标识的数据结构，构建相对应的数据规范化规则，以对过滤后的用户身份标识进行规范化处理。

由于在收集的不同系统的各类用户身份标识中，有时会出现不符合数据规范标准的数据异常的情况。为了保证数据的质量，可以在步骤201的基础上，对数据进行进一步处理。具体来说，可以根据各类用户身份标识的数据结构，构建相应的数据规范化规则，使数据规范化输出。

对数据进行规范化处理的规范化规则可以包括：

（1）邮箱规范输出：tolower(trim(email))as email

（2）cookie规范输出：length(cookieid)>=20and length(cookieid)<=30

通过上述规则，可以输出符合上述规范化规则的数据，从而保证数据的规范性。

需要说明的是，步骤201和步骤202为可选步骤，其目的是对数据进行清洗，以得到合法性和规范化的高质量数据，从而提高后续计算的效率和准确率。在实际应用中，如果不需要对收集的用户身份标识进行清洗，方法200也可以开始于步骤203。

在步骤203，根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间的关联关系的类型。

根据本申请的一个实施例，根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间关联关系类型，可以包括：

（1）如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一对象，则确定这两个用户身份标识之间的关联关系为绑定关系类型；

（2）如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一对象的概率满足预设值，则确定这两个用户身份标识之间的关联关系为可能关系类型；以及

（3）如果两个用户身份标识之间关联关系的数据来源既未表明两个用户身份标识代表同一对象、也未表明二者为同一对象的概率满足预设值，则确定这两个用户身份标识之间的关联关系为概率关系类型。

基于步骤203，可以得到表示各用户身份标识和各用户身份标识之间的关联关系类型的图表（Graph）。例如，图3为根据本申请一个实施例的表示各用户身份标识和各用户身份标识之间的关联关系类型的图表。在图3中，点A、B、C、D、E、F分别表示不同的用户身份标识，点与点之间的边表示他们之间的关联关系。不同形式的边表示不同的关联关系类型。其中，如图3所示，点A和点B之间以及点B和点C之间的关联关系为概率关系类型（虚线边）；点B和点E之间以及点C和点F之间的关联关系为可能关系类型（实线边）；点D和点E之间以及点E和点F之间的关联关系为概率关系类型（点划线边）。

在步骤204，根据确定的关联关系类型，获取所述用户身份标识之间的关联关系权重。

两个用户身份标识之间的关联关系权重体现了他们之间的关联关系程度，即，这两个用户身份标识代表同一对象的可能性（概率）。

根据本申请的一个实施例，对于存在绑定关系类型的两个用户身份标识，可以将这两个用户身份标识之间的关联关系权重设定为1，即，这两个用户身份标识代表同一对象的可能性为100%。

根据本申请的一个实施例，对于存在可能关系类型的两个用户身份标识，可以根据数据来源的具体情况，将这两个用户身份标识之间的关联关系权重设定为0～1之间的某一值。

根据本申请的一个实施例，对于存在概率关系类型的两个用户身份标识，可以通过统计分析，计算这两个用户身份标识的共现概率，从而获取他们之间的关联关系权重。

例如，在同一天，用户A使用用户名user_id=A在一台机器上登录C网站，用户B使用用户名user_id=B在同一台机器上登录C网站，用户A和用户B使用同样的cookie=X，其中，A访问了8次页面，B访问了2次页面，即X一共出现了8+2=10次。

则cookie=X与用户名user_id=A属于同一对象的概率P(user_id=A|cookie=X)=使用user_id=A登陆C网站的用户使用cookie=X访C网站的页面次数/使用各用户名登陆C网站的用户使用cookie=X访问的页面总次数=8/10=80%，即，cookie=X与用户名user_id=A之间的关联关系权重为0.8。

同理，cookie=X与用户名user_id=B属于同一对象的概率P(user_id=B|cookie=X)=20%，即，cookie=X与用户名user_id=B之间的关联关系权重为0.2。

上例中，计算cookie=X与user_id=A、user_id=B之间的属于同一对象的概率时，考虑的影响因素是访问页面的次数。如果不考虑访问页面的次数，也可以考虑不同用户名user_id=A、user_id=B与cookie=X共同出现的天数。此时，上例中，则有：cookie=X与用户名user_id=A之间的属于同一对象的概率==1/(1+1)=0.5；cookie=X与用户名user_id=B之间的属于同一对象的概率=1/(1+1)=0.5。

根据使用场景的不同，还可以考虑可能影响用户身份标识之间关联关系权重的其他因素，例如，可以考虑不同用户访问时间的先后。

在步骤205，基于具有绑定关系的用户身份标识，生成相应的用户统一身份标识。

由于用户身份标识之间的关联关系权重越大，其代表同一对象的可能性越大。因此，可以先对所有用户身份标识中具有关联关系权重较大的用户身份标识生成相应的用户统一身份标识。具体地，在本实施例中，可以基于具有绑定关系的用户身份标识，生成相应的用户统一身份标识。

在步骤206，计算可能关系类型和概率关系类型的用户身份标识与生成的各个用户统一身份标识之间的条件概率。

对于可能关系类型和概率关系类型的用户身份标识，可以通过例如如下计算方式计算各用户身份标识与生成的用户统一身份标识属于同一对象的概率P(UniID｜key_b)：

上式中，UniID表示用户统一身份标识，key_b表示某一可能关系类型或概率关系类型的用户身份标识；T表示UniID所对应的用户身份标识的个数；Key_i表示UniID所对应的各用户身份标识；w_{key_type}表示对不同类型用户身份标识的影响度因子，该影响度因子可以根据需要进行设定和调整；P(key_i｜key_b)表示key_b与key_i之间的关联关系权重。

需要说明的是，上式中key_b与key_i之间的关联关系权重P(key_i｜key_b)已在步骤204得到。

在步骤207，根据计算出的条件概率，确定可能关系类型和概率关系类型的用户身份标识的用户统一身份标识。

经过步骤206，可以计算出可能关系类型和概率关系类型的用户身份标识与各用户统一身份标识属于同一对象的概率。可以根据预先设定的阈值，将计算出的条件概率与该阈值进行比较，将概率大于或等于该阈值所对应的用户统一身份标识分配给该用户身份标识。当计算出的用户身份标识与各用户统一身份标识属于同一对象的概率均小于预先设定的阈值时，对该用户身份标识生成新的用户统一身份标识。

通过步骤207和步骤208，可以确定所有关联关系类型的用户身份标识的用户统一身份标识。

在步骤208，基于确定的用户统一身份标识和与用户统一身份标识相对应的用户身份标识，将各类用户身份标识进行聚类，并生成包含所述用户统一身份标识与相应的用户身份标识之间关联关系的索引表。

具体而言，可以将具有相同用户统一身份标识的用户身份标识聚为一类，这样，可以将所有用户身份标识聚为多个类，每一类具有相同的用户统一身份标识。

在本实施例中，可以基于聚类后的用户身份标识，生成包含用户统一身份标识与相应的用户身份标识之间关联关系的索引表。例如，生成正排索引表。在正排索引表中，可以以key-value的方式进行查询检索，例如，可以根据用户统一身份标识，检索出与其相对应的用户身份标识以及每个用户身份标识与该用户统一身份标识属于同一对象的概率。

在本实施例中，还可以基于生成的正排索引表生成包含所述用户统一身份标识与相应的用户身份标识之间关联关系的倒排索引表。在倒排索引表中，可以根据用户身份标识，检索出与其相对应的用户统一身份标识和相应概率（如需要）。

上述对正排索引表和倒排索引表的应用不限于此，在实际应用中，可以根据具体需要和要求，通过在线或离线方式，从索引表中获取需要的数据。

例如，可以通过相应的访问接口在线查询索引表中的数据，即，可以输入已知的用户身份标识，返回与该用户身份标识相对应的用户统一身份标识。并且，还可以基于输入的指定权重作为参数，返回与该用户身份标识相对应的特定个数的用户统一身份标识。

又如，可以在离线状态下，批量输入用户身份标识，获取与这些用户身份标识相对应的用户统一身份标识。

下面，以一具体实例描述根据本申请实施例的识别用户身份标识的方法200。

已知收集来自三个数据来源的数据，分别为T1、T2和T3。

表1是数据T1的内容，将其中的用户身份标识关联关系类型确定为概率关系类型。

表1：

用户名	手机号码	imei	登录次数
				1111	13878787878	134242133242413	30
2222		234523452345234	20
				1111	13978787878		10

表2是数据T2的内容，将其中的用户身份标识关联关系类型确定为绑定关系类型。

表2：

用户名	Email
		1111	e1@123.com
2222	E2@123.com

表3和表4是数据T3的内容，将其中的用户身份标识关联关系类型确定为可能关系类型，并且根据该数据来源，给出相应的用户身份标识之间的关联关系权重。

表3：

Email	手机号码	权重
			e1@123.com	15959595959	0.8
e2@123.com	15959595959	0.7

表4：

用户名	手机号码	权重
			1111	15959595959	0.6
2222	15959595959	0.5

首先，可以对上述数据进行合法性验证（邮箱：tolower(trim(email))rlike'^\\w+[^@]*@\\w+(\\.[^@]+)*$'；手机imei：15位长度为正常数据）和规范化处理（邮箱规范输出：tolower(trim(email))as email）。处理后，T1、T3内容不变，表5为T2中数据的处理结果。

表5：

用户名	Email
		1111	e1@123.com
2222	e2@123.com

然后，根据经过合法性验证和规范化处理的数据，可以生成包含各类用户身份标识和用户身份标识之间关联关系的表6，其中，通过计算条件概率可以得到概率关系类型的用户身份标识的关联关系权重。

表6：

在用户统一身份标识的生成阶段，首先，基于绑定关联关系类型的用户身份标识生成用户统一身份标识UniID；此例中，用户名和email之间的关联关系类型为绑定关联关系类型，生成的UniID如表7所示：

表7：

UniID	用户名	Email
			1	1111：1.0	e1@123.com：1.0
2	2222：1.0	e2@123.com：1.0

然后，融合可能关联关系和概率关联关系的用户身份标识，即，计算每个可能关联关系和概率关联关系的用户身份标识与生成的UniID（UniID=1,UniID=2）之间属于同一对象的概率。在此，以手机号码15959595959为例，计算其与UniID=1和UniID=2属于同一对象的概率分别为：

P(UniID=1|key=15959595959)=1/2x(P(用户名=1111|手机号码=15959595959)+P(email=e1@123.com|手机号码=15959595959))=1/2x(0.6+0.8)=70%

P(UniID=2|key=15959595959)=1/2x(P(用户名=2222|手机号码=15959595959)+P(email=e2@123.com|手机号码=15959595959))=1/2x(0.5+0.7)=60%

假设，预先设定阈值为0.5，则可以确定手机号码15959595959的UniID为1和2，概率分别为0.7和0.6。

接下来，通过上述方法可以确定所有用户身份标识的用户统一身份标识（UniID）及相应的概率。基于确定的用户统一身份标识和与用户统一身份标识相对应的用户身份标识，将各类用户身份标识进行聚类，并生成包含所述用户统一身份标识与相应的用户身份标识之间关联关系（概率）的正排索引表和倒排索引表：

正排索引表（表8）：

倒排索引表（表9）：

得到以上正排索引表（表8）和倒排索引表（表9）后，可以根据需要，通过相应的访问接口在线调用索引表的数据，也可以通过离线方式批量调用数据。

例如，当在线调用数据时，输入参数和返回值分别为：

输入参数：

KeyId:15959595959 keyTypeid:mobile

返回值：

又如，当进行离线数据转换服务时，输入用户身份标识及类型（表10）：

表10：

Key_type	Key_id
		Mobile	15959595959
Mobile	13978787878

通过离线数据转换服务后，得到输出结果为：

表11：

Key_type	Key_id	UniID
			Mobile	15959595959	1111
Mobile	13978787878	1111

图4是根据本申请一个实施例的用于识别用户身份标识的装置400的框图。

如图4所示，装置400包括：获取模块410，用于基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重；以及确定模块420，用于根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。

根据本申请的一个实施例，所述获取模块410进一步用于：基于各类用户身份标识的数据结构，构建相应的数据合法性规则，以对所收集的用户身份标识进行过滤。

根据本申请的一个实施例，所述获取模块410进一步用于：基于各类用户身份标识的数据结构，构建相对应的数据规范化规则，以对过滤后的用户身份标识进行规范化处理。

根据本申请的一个实施例，所述获取模块410进一步用于：邮箱规范化处理和/或cookie规范化处理。

根据本申请的一个实施例，所述获取模块410包括（未示出）：类型确定子模块，用于根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间的关联关系的类型；以及获取子模块，用于根据确定的关联关系类型，获取所述用户身份标识之间的关联关系权重。

根据本申请的一个实施例，所述类型确定子模块420进一步用于：如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一对象，则确定所述两个用户身份标识之间的关联关系为绑定关系类型。

根据本申请的一个实施例，所述类型确定子模块420进一步用于：如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一对象的概率满足预设值，则确定所述两个用户身份标识之间的关联关系为可能关系类型。

根据本申请的一个实施例，所述类型确定子模块420进一步用于：如果两个用户身份标识之间关联关系的数据来源既未表明两个用户身份标识代表同一对象、也未表明二者为同一对象的概率满足预设值，则确定所述两个用户身份标识之间的关联关系为概率关系类型。

根据本申请的一个实施例，所述确定子模块420进一步包括（未示出）：生成子模块，用于基于具有绑定关系的用户身份标识，生成相应的用户统一身份标识；计算子模块，用于计算可能关系类型和概率关系类型的用户身份标识与生成的各个所述用户统一身份标识之间的条件概率；以及确定子模块，用于根据计算出的所述条件概率，确定可能关系类型和概率关系类型的用户身份标识的用户统一身份标识。

根据本申请的一个实施例，所述用户统一身份标识包括：对属于同一个自然人的各类用户身份标识所提供的一个标识，和/或，对同一类人群的各类用户身份标识所提供的一个标识。

根据本申请的一个实施例，装置400还包括（未示出）：聚类模块，用于基于确定的用户统一身份标识和与用户统一身份标识相对应的用户身份标识，将各类用户身份标识进行聚类，并生成包含所述用户统一身份标识与相应的用户身份标识之间关联关系的索引表。

根据本申请的一个实施例，所述索引表包括正排索引表和倒排索引表中的至少一种。

由于本实施例的装置所实现的功能基本相应于前述图1至图2所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种识别用户身份标识的方法，其特征在于，包括：

基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重；以及

根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。

2.根据权利要求1所述的方法，其特征在于，基于收集的各类用户标识以及用户标识之间的关联关系，以获取各类用户身份标识之间的关联关系权重，包括：

基于各类用户身份标识的数据结构，构建相应的数据合法性规则，以对所收集的用户身份标识进行过滤。

3.根据权利要求2所述的方法，其特征在于，基于收集的各类用户标识以及用户标识之间的关联关系，以获取各类用户身份标识之间的关联关系权重，包括：

基于各类用户身份标识的数据结构，构建相对应的数据规范化规则，以对过滤后的用户身份标识进行规范化处理。

4.根据权利要求3所述的方法，其特征在于，所述规范化处理包括：

邮箱规范化处理和/或cookie规范化处理。

5.根据权利要求1或2所述的方法，其特征在于，基于收集的各类用户标识以及用户标识之间的关联关系，以获取各类用户身份标识之间的关联关系权重，包括：

根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间的关联关系的类型；以及

根据确定的关联关系类型，获取所述用户身份标识之间的关联关系权重。

6.根据权利要求5所述的方法，其特征在于，根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间关联关系类型，包括：

如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一对象，则确定所述两个用户身份标识之间的关联关系为绑定关系类型。

7.根据权利要求5所述的方法，其特征在于，根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间关联关系类型，包括：

如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一对象的概率满足预设值，则确定所述两个用户身份标识之间的关联关系为可能关系类型。

8.根据权利要求5所述的方法，其特征在于，根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间关联关系类型，包括：

如果两个用户身份标识之间关联关系的数据来源既未表明两个用户身份标识代表同一对象、也未表明二者为同一对象的概率满足预设值，则确定所述两个用户身份标识之间的关联关系为概率关系类型。

9.根据权利要求6所述的方法，其特征在于，根据用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识，包括：

基于具有绑定关系的用户身份标识，生成相应的用户统一身份标识；

计算可能关系类型和概率关系类型的用户身份标识与生成的各个所述用户统一身份标识之间的条件概率；以及

根据计算出的所述条件概率，确定可能关系类型和概率关系类型的用户身份标识的用户统一身份标识。

10.根据权利要求9所述的方法，其特征在于，所述用户统一身份标识包括：对属于同一个自然人的各类用户身份标识所提供的一个标识，和/或，对同一类人群的各类用户身份标识所提供的一个标识。

11.根据权利要求1所述的方法，其特征在于，还包括：

基于确定的用户统一身份标识和与用户统一身份标识相对应的用户身份标识，将各类用户身份标识进行聚类，并生成包含所述用户统一身份标识与相应的用户身份标识之间关联关系的索引表。

12.根据权利要求11所述的方法，其特征在于，所述索引表包括正排索引表和倒排索引表中的至少一种。

13.一种用于识别用户身份标识的装置，其特征在于，包括：

获取模块，用于基于收集的各类用户身份标识以及用户身份标识之间的关联关系，获取各类用户身份标识之间的关联关系权重；以及

确定模块，用于根据获取的用户身份标识之间的关联关系权重，确定各用户身份标识的用户统一身份标识。

14.根据权利要求13所述的装置，其特征在于，所述获取模块进一步用于：

15.根据权利要求14所述的装置，其特征在于，所述获取模块进一步用于：

16.根据权利要求15所述的装置，其特征在于，所述获取模块进一步用于：

邮箱规范化处理和/或cookie规范化处理。

17.根据权利要求13或14所述的装置，其特征在于，所述获取模块包括：

类型确定子模块，用于根据用户身份标识之间关联关系的数据来源，确定所述用户身份标识之间的关联关系的类型；以及

获取子模块，用于根据确定的关联关系类型，获取所述用户身份标识之间的关联关系权重。

18.根据权利要求17所述的装置，其特征在于，所述类型确定子模块进一步用于：

19.根据权利要求17所述的装置，其特征在于，所述类型确定子模块进一步用于：

20.根据权利要求17所述的装置，其特征在于，所述类型确定子模块进一步用于：

21.根据权利要求18所述的装置，其特征在于，所述确定子模块进一步包括：

生成子模块，用于基于具有绑定关系的用户身份标识，生成相应的用户统一身份标识；

计算子模块，用于计算可能关系类型和概率关系类型的用户身份标识与生成的各个所述用户统一身份标识之间的条件概率；以及

确定子模块，用于根据计算出的所述条件概率，确定可能关系类型和概率关系类型的用户身份标识的用户统一身份标识。

22.根据权利要求21所述的装置，其特征在于，所述用户统一身份标识包括：对属于同一个自然人的各类用户身份标识所提供的一个标识，和/或，对同一类人群的各类用户身份标识所提供的一个标识。

23.根据权利要求13所述的装置，其特征在于，还包括：

聚类模块，用于基于确定的用户统一身份标识和与用户统一身份标识相对应的用户身份标识，将各类用户身份标识进行聚类，并生成包含所述用户统一身份标识与相应的用户身份标识之间关联关系的索引表。

24.根据权利要求23所述的装置，其特征在于，所述索引表包括正排索引表和倒排索引表中的至少一种。