CN105608179B

CN105608179B - 确定用户标识的关联性的方法和装置

Info

Publication number: CN105608179B
Application number: CN201510971532.4A
Authority: CN
Inventors: 杜伟夫; 贺杨成; 黄跃峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2019-03-12
Anticipated expiration: 2035-12-22
Also published as: CN105608179A

Abstract

本申请公开了一种确定用户标识的关联性的方法和装置。所述方法的一具体实施方式包括：分别提取待确定关联性的多组用户标识的相似度向量；利用预先训练的关联度模型将所述相似度向量进行计算得到第一关联度；基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系；根据所述预确定关联关系，将所述待确定关联性的多组用户标识的相似度向量作为更新样本集对所述关联度模型更新得到预测模型；对待确定关联性的各组用户标识，分别利用所述预测模型对所述相似度向量进行计算得到第二关联度；对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。该实施方式可以提高确定用户标识的关联性的准确性。

Description

确定用户标识的关联性的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及信息匹配技术领域，尤其涉及一种确定用户标识的关联性的方法和装置。

背景技术

随着互联网技术的发展，各种网络平台，例如网络社交平台(如QQ社交平台)、搜索平台(如必应搜索平台)、网上交易平台(如京东商城)等等，逐渐成为人们生活的重要组成部分。用户可以通过相同或不同的账号或终端设备等访问各种网络平台。这些账号或终端设备的标识信息等可以用用户标识(identification，ID)来表示。对这些用户标识之间的关联性进行分析，具有应用于各种领域的重要意义，例如网页广告推送、网络社交平台中的好友推荐、犯罪分子追踪等等。

现有的确定用户标识的关联性的方法中，通常将用户标识两两之间的属性信息相匹配从而确定其是否相关联。然而，这种匹配方法，往往通过已确定关联性的用户标识预先训练的模型对待确定关联性的用户标识进行预测，建立在已确定关联性的用户标识之间的关联关系与待确定关联性的用户标识之间的关联关系具有相同的规律和分布的假设基础上。因此，这种匹配方法没有考虑待确定关联性的用户标识之间的关联关系对预测模型的影响，导致在上述假设不成立时，确定的用户标识的关联性准确度不高。

发明内容

本申请的目的在于提出一种改进的方法和装置，来解决以上背景技术部分提到的技术问题。

一方面，本申请提供了一种确定用户标识的关联性的方法，所述方法包括：分别提取待确定关联性的多组用户标识的相似度向量，其中，每组用户标识包括至少两个用户标识；利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度；基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系；根据所述预确定关联关系，将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更新得到预测模型；对待确定关联性的各组用户标识，分别利用所述预测模型对所述相似度向量进行计算得到第二关联度；对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

在一些实施例中，所述分别提取待确定关联性的多组用户标识的相似度向量包括：针对各组用户标识，执行如下步骤：获取每个用户标识的属性信息；对所述属性信息中的每一项，计算用户标识之间的属性相似度；由所述属性相似度生成所述相似度向量。

在一些实施例中，所述基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系包括：对所述第一关联度通过聚类算法进行分类，以将所述待确定关联性的多组用户标识分为两类；根据分类结果对所述多组用户标识生成预确定关联关系。

在一些实施例中，所述聚类算法的聚类中心通过迭代方法计算得到，具体方法包括：查找步骤：遍历待确定关联性的各组用户标识，查找使下列函数具有最小值的一组用户标识，加入集合c⁽ⁱ⁾：

其中，x⁽ⁱ⁾表示第i组用户标识的相似度向量；μ_j表示集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量；表示第i组用户标识的第一关联度；表示集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度；λ表示第一关联度的权重；计算步骤：对于集合c⁽ⁱ⁾中的至少一组用户标识，计算各组用户标识的相似度向量的平均值，具体计算公式为：

迭代步骤：用所述平均值作为集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量，重复以上查找步骤和计算步骤，直至集合c⁽ⁱ⁾稳定；确定步骤：将使集合c⁽ⁱ⁾稳定时的μ_j确定为集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度。

在一些实施例中，λ包括将作为验证样本集的多组用户标识分成两类时，使得生成的预确定关联关系与已知的关联关系的匹配度最高时的取值。

在一些实施例中，由所述关联度模型将μ_j进行计算得到。

在一些实施例中，所述根据分类结果对所述多组用户标识生成预确定关联关系包括：对两类中每一类待确定关联性的多组用户标识，将各个第一关联度与预设的关联度阈值相比较；如果大于预设的关联度阈值的第一关联度个数超过小于预设的关联度阈值的第一关联度个数，确定该类中待确定关联性的多组用户标识的预确定关联关系都为具有关联性。

第二方面，本申请提供了一种确定用户标识的关联性的装置，所述装置包括：提取模块，配置用于分别提取待确定关联性的多组用户标识的相似度向量，其中，每组用户标识包括至少两个用户标识；第一计算模块，配置用于利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度；生成模块，配置用于基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系；更新模块，配置用于根据预确定的关联关系，将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更新得到预测模型；第二计算模块，配置用于对待确定关联性的各组用户标识，分别利用所述预测模型对所述相似度向量进行计算得到第二关联度；确定模块，配置用于对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

在一些实施例中，所述提取模块包括针对各组用户标识进行处理的以下单元：获取单元，配置用于获取每个用户标识的属性信息；计算单元，配置用于对所述属性信息中的每一项，计算用户标识之间的属性相似度；生成单元，配置用于由所述属性相似度生成所述相似度向量。

在一些实施例中，生成模块包括：分类单元，配置用于对所述第一关联度通过聚类算法进行分类，以将所述待确定关联性的多组用户标识分为两类；生成单元，配置用于根据分类结果对所述多组用户标识生成预确定关联关系。

在一些实施例中，所述分类单元还包括：查找子单元：遍历待确定关联性的各组用户标识，查找使下列函数具有最小值的一组用户标识，加入集合c⁽ⁱ⁾：

其中，x⁽ⁱ⁾表示第i组用户标识的相似度向量；μ_j表示集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量；表示第i组用户标识的第一关联度；表示集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度；λ表示第一关联度的权重；计算子单元：对于集合c⁽ⁱ⁾中的至少一组用户标识，计算各组用户标识的相似度向量的平均值，具体计算公式为：

迭代子单元：用所述平均值作为集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量，重复以上查找步骤和计算步骤，直至集合c⁽ⁱ⁾稳定；确定子单元：将使集合c⁽ⁱ⁾稳定时的μ_j确定为集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度。

在一些实施例中，由所述关联度模型将μ_j进行计算得到。

在一些实施例中，所述生成单元还配置用于：对两类中每一类待确定关联性的多组用户标识，将各个第一关联度与预设的关联度阈值相比较；如果大于预设的关联度阈值的第一关联度个数超过小于预设的关联度阈值的第一关联度个数，确定该类中待确定关联性的多组用户标识的预确定关联关系都为具有关联性。

本申请提供的确定用户标识的关联性的方法和装置，通过分别提取待确定关联性的多组用户标识相似度向量，然后利用预先训练的关联度模型将上述相似度向量进行计算得到第一关联度，接着基于第一关联度对待确定关联性的多组用户标识分别生成预确定关联关系，然后根据预确定的关联关系，将待确定关联性的多组用户标识作为更新样本集对关联度模型更新得到预测模型，然后对待确定关联性的各组用户标识，分别利用预测模型对上述相似度向量进行计算得到第二关联度，并对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性，由于通过基于关联度模型对待确定关联性的多组用户标识生成的预确定关联关系对关联度模型进行更新，并通过更新得到的预测模型对待确定关联性的多组用户标识的关联性进行确定，从而充分考虑待确定关联性的多组用户标识对预先训练的关联度模型的影响，提高了确定用户标识的关联性的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了可以应用本申请实施例的示例性系统架构；

图2是根据本申请的确定用户标识的关联性的方法的一个实施例的流程图；

图3是根据本申请的确定用户标识的关联性的方法的一个应用场景的效果示意图；

图4是根据本申请的确定用户标识的关联性的方法的又一个实施例的流程图；

图5是根据本申请的确定用户标识的关联性的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103分别可以通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如社交平台应用、搜索类应用、邮箱客户端、即时通信工具等。服务器105可以通过网络104获取终端设备101、102、103上登录网络的用户标识，例如社交平台应用(如QQ应用)中的账号等。

终端设备101、102、103可以是支持社交平台应用、搜索类应用等安装于其上的各种电子设备，包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如对终端设备101、102、103上的社交平台应用、搜索类应用等提供支持的后台服务器等。服务器可以对接收到的数据进行存储、生成等处理，并将处理结果反馈给终端设备。

需要说明的是，本申请实施例所提供的确定用户标识的关联性的方法中的步骤一般可以由服务器105执行，但也可以由终端设备101、102、103执行，本申请对此不做限定。相应地，确定用户标识的关联性的装置可以设置在服务器105中，也可以设置在终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，其示出了确定用户标识的关联性的方法的一个实施例的流程200。该确定用户标识的关联性的方法，包括以下步骤：

步骤201，分别提取待确定关联性的多组用户标识的相似度向量。

在本实施例中，电子设备(例如图1所示的终端设备或服务器)可以对所获取的待确定关联性的多组用户标识分别提取其组内用户标识之间的相似度向量。其中，每组用户标识包括至少两个用户标识。

这里，用户标识，可以通过用户登录因特网时用于识别用户身份的符号，例如可以是用户使用的终端设备的设备号(如智能手机的移动设备国际身份码IMEI，InternationalMobile Equipment Identity)、用户电子邮件地址的第一部分(例如电子邮件地址xxxx@ 163.com中的xxxx)或用户登录社交平台使用的号码(例如QQ号码：951980921)等等，本申请对此不做限定。每组用户标识可以包括多个用户标识，例如电子设备可以将所获取的用户标识两两组合作为一组用户标识，如所获取的用户标识包括A、B、C，它们两两组合可以形成三组用户标识(A，B)、(B，C)、(A，C)。每组用户标识的关联性，可以用于表示一组用户标识内的用户标识之间的是否相关联的性质，或者相关程度，例如一组用户标识(A，B)中用户标识A和用户标识B是否相关联，或相关程度(如用0-1之间的任一数字表示的相关程度，其中1可以表示完全相关，0可以表示完全不相关)。

相似度向量可以是用于表征一组用户标识组内的用户标识之间的相似性的向量。向量中的每个元素可以表示用户标识之间某个特征或属性的相似程度。作为一个示例，相似度向量可以通过以下步骤获得：获取每个用户标识的属性信息；对属性信息中的每一项，计算用户标识之间的属性相似度；由所计算的属性相似度生成相似度向量。

其中，电子设备可以从本地或远程地获取用户标识对应的属性信息。具体而言，当上述电子设备就是用户标识登录网络经由的应用或页面加载于其上的终端设备时，其可以直接从本地获取上述属性信息；而当上述电子设备是对用户标识登录网络经由的应用或页面进行支持的后台服务器或者可以从这些后台服务器获取数据的其他服务器时，其可以通过有线连接方式或者无线连接方式从终端设备获取用户标识对应的属性信息。上述无线连接方式包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。属性是对象的性质与对象之间关系的统称。这里，用户标识的属性信息可以是包括用户标识的性质或者用户标识的性质与用户标识之间的关系的信息。例如，用户标识信息可以包括但不限于以下至少一项：用户标识接入网络的地理位置信息、用户标识所关联的终端设备访问的页面的网址、用户标识所关联的终端接入互联网的互联网协议(Internet Protocol，IP)地址、用户标识所关联的终端的搜索特征，等等。

电子设备可以通过Jaccard系数、皮尔逊相关系数(Pearson Product-momentCorrelation Coefficient，PPMCC)之类的公知的相似度计算方法来计算用户标识的属性信息中某一项的属性相似度。以Jaccard系数方法为例，假设用户标识A和用户标识B的属性信息中某一项为IP地址属性，它们在某一时间段内用过的IP地址集合分别为S₁:(ip₁,ip₂,...,ip_m)和S₂:(ip₁,ip₂,...,ip_n)，则电子设备可以采用如下的公式计算两个IP地址集合S₁和S₂之间的相似度：IP地址集合S₁与IP地址集合S₂之间的相似度＝IP地址集合S₁与IP地址集合S₂之间共有IP地址的数目/IP地址集合S₁与IP地址集合S₂一起包括的IP地址的数目。

进一步地，电子设备可以将用户标识的属性信息中每一项的属性相似度按照预设的组合方式进行排列生成相似度向量，例如(IP地址相似度，所访问的页面的网址相似度，……)。电子设备还可以选择用户标识的属性信息中的部分项的属性相似度按照预设的组合方式进行排列生成相似度向量，或者根据属性信息中的每一项的属性相似度和重要度系数(如属性相似度与重要度系数的乘积)生成相似度向量，等等，本申请对此不做限定。这里，重要度系数例如可以是：IP地址属性中与IP地址的接入地址正相关的系数、所访问的页面的网址属性中与对每个网址的访问次数和/或访问时长正相关的系数，等等。

步骤202，利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度。

在本实施例中，电子设备可以利用预先训练好的关联度模型对上述的各个相似度向量进行计算，分别生成各组用户标识的第一关联度。

其中，第一关联度可以用来表征各组用户标识的组内用户标识间的关联程度。用于计算第一关联度的关联度模型可以根据经验人为确定，也可以通过机器学习方法将已确定关联关系的多组用户标识作为训练样本集预先训练得到。举例而言，电子设备可以将同一个网络平台上使用同一个网络账号登陆过的终端设备的设备号(例如两个智能手机的IMEI)的关联关系确定为具有关联性。电子设备也可以通过多个网络平台采集在不同终端设备登陆的网络账号，当两个终端设备分别使用相同的网络账号登陆的网络平台数量超过预设个数(例如5个)时，确定两个终端设备的设备号为相关联的用户标识；电子设备还可以对两个终端设备上在同一网络平台登陆的相同账号的登陆次数分别进行统计，当该登陆次数分别超过预设次数(例如10次)时，确定这两个终端设备的设备号为相关联的用户标识；等等。人为确定的第一关联度的一种示例性计算方法例如可以是：假设上述个数为2，对网络平台A，上述登陆次数分别为4、8，对网络平台B，上述登陆次数分别为1、6，则样本关联度可以为2/5(5为上述预设个数)×[(4/10(10为上述预设次数)+8/10)×(1/10+6/10)]。该计算公式仅为示例性计算方法，本领域技术人员可以采用其他任意合理的计算方法计算样本关联度，本申请对此不作限定。

在本实施例的可选实现方式中，电子设备还可以根据两个用户标识的相似度向量和所确定的两个用户标识间的关联关系(例如具有关联性和不具有关联性两种关系)作为训练样本集，通过机器学习方法训练计算第一关联度的模型。这里的机器学习方法例如可以是逻辑回归(Logistic Regression，LR)方法、深度学习算法等等。其中，假设用1表示具有关联性，0表示不具有关联性，训练样本集可以形如表1所示，训练结果可以形如表2所示。

表1训练样本集

样本	用户标识组	相似度向量	分类
				1	(A，B)	(0.8，0.6，0.3……)	1
2	(A，C)	(0.7，0.9，0.4……)	1
				3	(A，D)	(0.5，0.3，0.1……)	0
4	(B，C)	(0.6，0.4，0.8……)	1
				5	(B，D)	(0.2，0.1，0.7……)	0
6	(C，D)	(0.2，0.4，0.1……)	0
				……	……	……	……

表2训练结果

用户标识组	相似度向量	样本关联度	分类结果
				(A，B)	(0.8，0.6，0.3……)	0.7	1
(A，C)	(0.7，0.9，0.4……)	0.8	1
				(A，D)	(0.5，0.3，0.1……)	0.4	0
(B，C)	(0.6，0.4，0.8……)	0.7	1
				(B，D)	(0.2，0.1，0.7……)	0.5	1
(C，D)	(0.2，0.4，0.1……)	0.2	0
				……	……	……	……

从表1、表2可以看出，训练结果中，由关联度模型得到的样本关联度给出的分类结果与训练样本集的原始分类结果有所不同，例如对于用户标识组(B，D)，已确定的关联关系为“0”，通过关联度模型计算得到的样本关联度的分类结果确定的关联关系为“1”。这里，通过上述机器学习方法反复训练，可以得到使样本分类尽可能准确的关联度模型。以LR方法为例，电子设备可以首先对于单个样本，根据其后验概率(与样本的相似度向量、分类、θ有关)取极大似然函数构建逻辑回归模型f(θ)，对f(θ)求对数得到l(θ)，然后遍历所有的θ，获得使l(θ)最小的θ值，这里，可以利用梯度下降法进行迭代至使l(θ)最小的θ值收敛，将θ值收敛于其上的值代入f(θ)，从而求解出逻辑回归模型f(θ)，即关联度模型。

值得说明的是，这里的预设的关联度模型可以是预先训练好并在执行本方法时使用的，也可以是每间隔一定时间段(例如3天)重新训练，并在下一间隔时间段内使用的，还可以是在每次进行更新得到的预测模型后，将预测模型作为下一次执行本方法的关联度模型，等等，本申请对此不做限定。

步骤203，基于上述第一关联度对待确定关联性的多组用户标识分别生成预确定关联关系。

在本实施例中，电子设备接着可以基于上述第一关联度与预设的关联度阈值的比较结果，对每组用户标识分别生成预确定关联关系。其中，预确定关联关系可以用来表示暂时确定的每组用户标识组内的用户标识间的关联关系，其可以是具有关联性的关系，也可以是不具有关联性的关系。电子设备可以将各组用户标识的第一关联度逐一与预设的关联度阈值(例如0.5)进行比较，并逐一生成预确定关联关系，也可以将多组用户标识进行分类，对每一类别的多组用户标识，根据统计结果生成该类别内的多组用户标识的预确定关联关系，本申请对此不作限定。

这里的关联度阈值可以由人工根据经验设定，也可以基于一定数量样本集的训练结果获得。其中基于一定数量样本集的训练结果获得相似度阈值具体可以按照如下步骤进行：首先选定一定数量组数的已确定关联性的用户标识，提取它们的相似度向量，然后，对这些相似度向量计算生成第一关联度，对这些分别代表的相关联的多组用户标识和不相关联的用户标识的第一关联度分别进行绘制分布密度或分布概率曲线，将与两条曲线的相交点距离最近的点所表示的第一关联度作为关联度阈值。

步骤204，根据预确定关联关系，将待确定关联性的多组用户标识作为更新样本集对关联度模型更新得到预测模型。

在本实施例中，电子设备可以将步骤203中对各组用户标识生成的预确定的关联关系作为已确定的关联关系，将各组用户标识作为已确定关联关系的更新样本集，对关联度模型更新得到进一步的预测模型。

电子设备可以将更新样本集与原训练样本集合并为新的训练样本集重新训练关联度模型作为预测模型，也可以利用更新样本集对原来的关联度模型进行纠正和更新，生成预测模型，本申请对此不作限定。其中，模型训练或更新所采用的机器学习方法与训练关联度模型一致，在此不再赘述。

步骤205，对待确定关联性的各组用户标识，分别利用上述预测模型对相似度向量进行计算得到第二关联度。

在本实施例中，电子设备可以利用更新得到的预测模型，将上述的各个相似度向量作为预测模型的输入值重新进行计算，分别生成各组用户标识的第二关联度。

步骤206，对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

在本实施例中，电子设备可以进一步将所得到的第二关联度与预设阈值进行比较，并对于第二关联度大于预设阈值的各组用户标识，确定其组内的用户标识间具有关联性。这里，与第二关联度进行比较的预设阈值与上述关联度阈值可以具有一致的获取方法，在此不再赘述。

通过本实施例的确定用户标识的关联性，电子设备可以将用户的账号或不同终端设备等进行关联。作为一个应用场景，电子设备确定用户标识的关联性后，可以对具有关联性的一组用户标识进行相似或相关信息的推送，例如，好友信息推送、广告信息推送等等。如图3所示，给出了本实施例的一个应用场景的效果示意图。在图3中，假设执行本实施例的方法的后台服务器获取的待确定关联性的多组用户标识包括终端设备301的设备号和终端设备302的设备号这组用户标识，则可以获取终端设备301和终端设备302使用过的IP地址、使用相同账号登录某一社交平台的次数等属性信息，并据此计算这组用户标识的相似度向量。然后，上述后台服务器可以利用预先训练的关联度模型将该相似度向量计算得到这组用户标识的第一关联度(假设是0.55)，接着，基于第一关联度生成终端设备301的设备号和终端设备302的设备号的预确定关联关系(可以为具有关联性或不具有关联性)。然后，上述后台服务器根据待确定关联性的多组用户标识的预确定关联关系，将这多组用户标识作为更新样本集对关联度模型更新得到预测模型，进而通过预测模型对终端设备301的设备号和终端设备302的设备号这组用户标识的相似度向量生成第二关联度(例如是0.7)，假设预设阈值为0.6，则后台服务器确定终端设备301的设备号和终端设备302的设备号具有关联性，即终端设备301和终端设备302具有关联性(例如为属于同一个用户的终端设备)。进一步地，浏览器服务器可以从上述后台服务器获取终端设备301和终端设备302具有关联性的信息，并在检测到终端设备301经常通过浏览器3011搜索与“小说”相关的内容后，当终端设备302打开浏览器3021时，推送例如展示信息3022的小说网站、小说名等超链接信息。

本申请的上述实施例，通过基于关联度模型对待确定关联性的多组用户标识生成的预确定关联关系对关联度模型进行更新，并通过更新得到的预测模型对待确定关联性的多组用户标识的关联性进行确定，从而充分考虑待确定关联性的各组用户标识对预先训练的关联度模型的影响，提高了确定用户标识的关联性的准确性。

进一步参考图4，其示出了本申请的确定用户标识的关联性的方法的又一个实施例的流程400。该确定用户标识的关联性的流程400，包括以下步骤：

步骤401，分别提取待确定关联性的多组用户标识的相似度向量。

在本实施例中，电子设备(例如图1所示的终端设备或服务器)可以对所获取的待确定关联性的多组用户标识分别提取其组内用户标识之间的相似度向量。其中，相似度向量可以是用于表征一组用户标识组内的用户标识之间的相似性的向量。向量中的每个元素可以表示用户标识之间某个特征或属性的相似程度。

步骤402，利用预先训练的关联度模型将上述相似度向量进行计算得到第一关联度。

在本实施例中，电子设备可以利用预先训练好的关联度模型对上述的各个相似度向量进行计算，分别生成各组用户标识的第一关联度。这里，第一关联度可以用来表征各组用户标识的组内用户标识间的关联程度。用于计算第一关联度的关联度模型可以根据经验人为确定，也可以通过机器学习方法将已确定关联关系的多组用户标识作为训练样本集预先训练得到。

步骤403，利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度。

在本实施例中，电子设备可以通过聚类算法对第一关联度进行聚类，从而将第一关联度所对应的待确定关联性的多组用户标识分为两类。

其中，上述聚类算法例如可以是K-Means算法、K-MEDOIDS算法等等。以K-Means算法为例，电子设备首先可以随机确定两个聚类中心，然后根据其他相似度向量与聚类中心的距离(相似性)分别将它们分配给与其最相似的聚类，接着计算每个聚类中所有相似度向量的均值作为新的聚类中心，并不断重复这一过程直到聚类中心收敛。具体包括：

查找步骤，遍历待确定关联性的各组用户标识，查找使下列函数具有最小值的一组用户标识，加入集合c⁽ⁱ⁾：

其中，x⁽ⁱ⁾表示第i组用户标识的相似度向量；μ_j表示集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量；表示第i组用户标识的第一关联度；表示集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度，例如，可以通过上述关联度模型将μ_j进行计算得到；λ表示第一关联度的权重；

计算步骤，对于集合c⁽ⁱ⁾中的至少一组用户标识，计算各组用户标识的相似度向量的平均值，具体计算公式为：

迭代步骤，用所计算得到的平均值作为集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量，重复以上查找步骤和计算步骤，直至集合c⁽ⁱ⁾稳定；

确定步骤：将集合c⁽ⁱ⁾确定为以μ_j为聚类中心的分类。

在上述的方法中，第一关联度的权重λ可以根据经验值人工确定，也可以基于一定数量的样本数据训练获得，还可以基于验证样本集获得实验值，本申请对此不做限定。其中，以基于验证样本集获得实验值为例，由于验证样本集中的样本具有已知的关联关系，电子设备可以将λ按大小顺序和预定的取值间隔(例如0.0001)依次取遍从0-1之间的值，对每个取值，按照上述聚类方法将作为验证样本集的多组用户标识分成两类，并将分类结果指向的关联关系与已知的关联关系进行匹配，将匹配度最高时的取值确定为第一关联度的权重λ。

在本实施例中，待确定关联性的多组用户标识被分为两个聚类。其中，第一关联度相近的多组用户标识被分到同一个聚类中。

步骤404，根据分类结果对多组用户标识生成预确定关联关系。

在本实施例中，电子设备可以根据通过聚类方法获得的多组用户标识的分类结果，对多组用户标识生成预确定关联关系。这里，预确定关联关系可以用来表示暂时确定的每组用户标识组内的用户标识间的关联关系，其可以是具有关联性的关系或者不具有关联性的关系。

在本实施例的一些可选实现方式中，电子设备可以对每一聚类中的各组用户标识的基于第一关联度所属分类的统计结果确定该聚类中各组用户标识具有一致的预确定关联关系。例如，一个聚类中，多数组用户标识的预确定关联关系为具有关联性，则电子设备可以确定该聚类中所有组用户标识的预确定关联关系为具有关联性。具体地，电子设备可以对两类中每一类待确定关联性的多组用户标识，将各个第一关联度与预设的关联度阈值相比较，如果大于预设的关联度阈值的第一关联度个数超过小于预设的关联度阈值的第一关联度个数，确定该类中待确定关联性的多组用户标识的预确定关联关系都为具有关联性，反之，确定该类中待确定关联性的多组用户标识的预确定关联关系都为不具有关联性。

步骤405，根据预确定关联关系，将待确定关联性的多组用户标识作为更新样本集对关联度模型更新得到预测模型。

在本实施例中，电子设备可以将步骤404中对各组用户标识生成的预确定的关联关系作为已确定的关联关系，将各组用户标识作为已确定关联关系的更新样本集，对关联度模型更新得到进一步的预测模型。电子设备可以将更新样本集与原训练样本集合并为新的训练样本集重新训练关联度模型作为预测模型，也可以利用更新样本集对原来的关联度模型进行纠正和更新，生成预测模型，本申请对此不作限定。

步骤406，对待确定关联性的各组用户标识，分别利用上述预测模型对相似度向量进行计算得到第二关联度。

步骤407，对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

在本实施例中，上述实现流程中的步骤401、步骤402、步骤405、步骤406和步骤407分别与前述实施例中的步骤201、步骤202、步骤204、步骤205和步骤206基本相同，在此不再赘述。

从图4中可以看出，与图2对应的实施例不同的是，本实施例中的确定用户标识的关联性的流程400的步骤403和步骤404中，通过聚类算法对待确定关联性的多组用户标识分类，并根据分类结果生成预确定关联关系。通过聚类算法对多组用户标识分类，基于每个分类中的统计结果生成预确定关联关系，有助于更多考虑待确定关联性的多组用户标识整体对关联度模型的影响，提高更新得到的预测模型更倾向于对待确定关联性的多组用户标识分类的准确度。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种确定用户标识的关联性的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于电子设备中。

如图5所示，本实施例所述的确定用户标识的关联性的装置500包括：提取模块501、第一计算模块502、生成模块503、更新模块504第二计算模块505和确定模块506。其中，提取模块501可以配置用于分别提取待确定关联性的多组用户标识的相似度向量，其中，每组用户标识包括至少两个用户标识；第一计算模块502可以配置用于利用预先训练的关联度模型将上述相似度向量进行计算得到第一关联度；生成模块503可以配置用于基于第一关联度对待确定关联性的多组用户标识分别生成预确定关联关系；更新模块504可以配置用于根据预确定关联关系，将待确定关联性的多组用户标识作为更新样本集对关联度模型更新得到预测模型；第二计算模块505可以配置用于对待确定关联性的各组用户标识，分别利用预测模型对相似度向量进行计算得到第二关联度；确定模块506可以配置用于对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

值得说明的是，确定用户标识的关联性的装置500中记载的诸模块或单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于确定用户标识的关联性的装置500及其中包含的模块或单元，在此不再赘述。

本领域技术人员可以理解，上述确定用户标识的关联性的装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括提取模块、第一计算模块、生成模块、更新模块第二计算模块和确定模块。这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，提取模块还可以被描述为“配置用于分别提取待确定关联性的多组用户标识的相似度向量的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器时，使得所述设备执行：分别提取待确定关联性的多组用户标识的相似度向量，其中，每组用户标识包括至少两个用户标识；利用预先训练的关联度模型将所述相似度向量进行计算得到第一关联度；基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系；根据所述预确定关联关系，将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更新得到预测模型；对待确定关联性的各组用户标识，分别利用所述预测模型对所述相似度向量进行计算得到第二关联度；对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种确定用户标识的关联性的方法，所述方法包括：

分别提取待确定关联性的多组用户标识的相似度向量，其中，每组用户标识包括至少两个用户标识，相似度向量是用于表征一组用户标识组内的用户标识之间的相似性的向量；

利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度，其中，第一关联度用来表征各组用户标识的组内用户标识间的关联程度；

基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系；

根据所述预确定关联关系，将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更新得到预测模型；

对待确定关联性的各组用户标识，分别利用所述预测模型对所述相似度向量进行计算得到第二关联度；

对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

2.根据权利要求1所述的方法，其特征在于，所述分别提取待确定关联性的多组用户标识的相似度向量包括：

针对各组用户标识，执行如下步骤：

获取每个用户标识的属性信息；

对所述属性信息中的每一项，计算用户标识之间的属性相似度；

由所述属性相似度生成所述相似度向量。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系包括：

对所述第一关联度通过聚类算法进行分类，以将所述待确定关联性的多组用户标识分为两类；

根据分类结果对所述多组用户标识生成预确定关联关系。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一关联度通过聚类算法进行分类包括：

查找步骤：遍历待确定关联性的各组用户标识，查找使下列函数具有最小值的一组用户标识，加入集合c⁽ⁱ⁾：

其中，x⁽ⁱ⁾表示第i组用户标识的相似度向量；μ_j表示集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量；表示第i组用户标识的第一关联度；表示集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度；λ表示第一关联度的权重；

计算步骤：对于集合c⁽ⁱ⁾中的至少一组用户标识，计算各组用户标识的相似度向量的平均值，

迭代步骤：用所述平均值作为集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量，重复以上查找步骤和计算步骤，直至集合c⁽ⁱ⁾稳定；

确定步骤：将集合c⁽ⁱ⁾确定为以μ_j为聚类中心的分类。

5.根据权利要求4所述的方法，其特征在于，λ为将作为验证样本集的多组用户标识分成两类时，使得生成的预确定关联关系与已知的关联关系的匹配度最高时的取值。

6.根据权利要求4所述的方法，其特征在于，由所述关联度模型将μ_j进行计算得到。

7.根据权利要求3所述的方法，其特征在于，所述根据分类结果对所述多组用户标识生成预确定关联关系包括：

对两类中每一类待确定关联性的多组用户标识，将各个第一关联度与预设的关联度阈值相比较；

如果大于预设的关联度阈值的第一关联度个数超过小于预设的关联度阈值的第一关联度个数，确定该类中待确定关联性的多组用户标识的预确定关联关系都为具有关联性。

8.一种确定用户标识的关联性的装置，所述装置包括：

提取模块，配置用于分别提取待确定关联性的多组用户标识的相似度向量，其中，每组用户标识包括至少两个用户标识，相似度向量是用于表征一组用户标识组内的用户标识之间的相似性的向量；

第一计算模块，配置用于利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度，其中，第一关联度用来表征各组用户标识的组内用户标识间的关联程度；

生成模块，配置用于基于所述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系；

更新模块，配置用于根据预确定的关联关系，将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更新得到预测模型；

第二计算模块，配置用于对待确定关联性的各组用户标识，分别利用所述预测模型对所述相似度向量进行计算得到第二关联度；

确定模块，配置用于对于第二关联度大于预设阈值的各组用户标识，确定组内的用户标识间具有关联性。

9.根据权利要求8所述的装置，其特征在于，所述提取模块包括针对各组用户标识进行处理的以下单元：

获取单元，配置用于获取每个用户标识的属性信息；

计算单元，配置用于对所述属性信息中的每一项，计算用户标识之间的属性相似度；

生成单元，配置用于由所述属性相似度生成所述相似度向量。

10.根据权利要求8所述的装置，其特征在于，生成模块包括：

分类单元，配置用于对所述第一关联度通过聚类算法进行分类，以将所述待确定关联性的多组用户标识分为两类；

生成单元，配置用于根据分类结果对所述多组用户标识生成预确定关联关系。

11.根据权利要求10所述的装置，其特征在于，所述分类单元还包括：

查找子单元：遍历待确定关联性的各组用户标识，查找使下列函数具有最小值的一组用户标识，加入集合c⁽ⁱ⁾：

计算子单元：对于集合c⁽ⁱ⁾中的至少一组用户标识，计算各组用户标识的相似度向量的平均值，

迭代子单元：用所述平均值作为集合c⁽ⁱ⁾所代表聚类的聚类中心的相似度向量，重复以上查找步骤和计算步骤，直至集合c⁽ⁱ⁾稳定；

确定子单元：将使集合c⁽ⁱ⁾稳定时的μ_j确定为集合c⁽ⁱ⁾所代表聚类的聚类中心的第一关联度。

12.根据权利要求11所述的装置，其特征在于，λ为将作为验证样本集的多组用户标识分成两类时，使得生成的预确定关联关系与已知的关联关系的匹配度最高时的取值。

13.根据权利要求11所述的装置，其特征在于，由所述关联度模型将μ_j进行计算得到。

14.根据权利要求10所述的装置，其特征在于，所述生成单元还配置用于：