CN112488140A

CN112488140A - 一种数据关联方法及装置

Info

Publication number: CN112488140A
Application number: CN201910864588.8A
Authority: CN
Inventors: 张孟旭; 王际彭; 蔡波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-12

Abstract

本发明提供了数据关联方法及装置，将两个不同RID对应的网络行为数据构造成一个待识别数据对。然后，从待识别数据对中提取能够表征这两组网络行为数据之间的相似程度的特征向量，并将该特征向量输入至预先训练得到的目标分类模型中进行分析得到这两组网络行为数据是否属于同一个用户的分类结果。如果分析得到这两组网络行为数据属于同一个用户则确定这两组网络行为数据对应的两个RID与同一个用户关联，即确定这两个RID属于同一个用户。通过上述方法能够从不同设备收集的来自不同数据源的RID中识别出属于同一个用户的多个RID，从而实现跨设备RID关联。

Description

一种数据关联方法及装置

技术领域

本发明属于数据处理技术领域，尤其涉及一种数据关联方法及装置。

背景技术

随着网络技术飞速发展，人们基于网络的行为越来越多，网络中的用户行为数据、属性数据也越来越多。基于用户在网络中的行为数据及属性数据能够得到用户在多个维度的信息，从而得到用户画像。

用户的行为数据、属性数据分散在很多不同的服务器中，因此，从单个服务器看，都只是这个用户一个片面的画像。可以通过设备ID将同一设备内属于不同服务器的同一个用户的数据关联起来，从而得到该用户相对完整的画像。而同一个用户可能在不同的设备上都产生了用户行为数据、属性数据，但是，目前尚未有一种能够将来自不同设备的不同来源的同一用户的数据进行关联的方法。

发明内容

有鉴于此，本发明的目的在于提供一种数据关联方法及装置，将来自不同设备的不同来源的同一个用户的数据进行关联。

一方面，本发明提供了一种数据关联方法，包括：

获取来自不同设备的待关联的RID集合，所述RID用于区分不同的用户；

从所述待关联的RID集合中筛选得到多个待关联RID对，每个待关联RID对包括两个不同的RID；

获取每个待关联RID对中的每个RID所对应的网络行为数据集得到与每个待关联RID对相对应的待识别数据对；

对于任意一个待识别数据对，提取所述待识别数据对对应的特征向量，所述特征向量能够表征所述待识别数据对中的两个网络行为数据集的近似程度；

基于预先训练得到的目标分类模型，分析所述特征向量得到所述待识别数据对中的两个网络行为数据集是否属于同一个用户的分类结果；

当所述待识别数据对中的两个网络行为数据集属于同一个用户时，确定所述两个网络行为数据集对应的两个RID与同一用户相关联。

另一方面，本发明还提供一种数据关联装置，包括：

第一获取模块，用于获取来自不同设备的待关联的RID集合，所述RID用于区分不同的用户；

筛选模块，用于从所述待关联的RID集合中筛选得到多个待关联RID对，每个待关联RID对包括两个不同的RID；

第二获取模块，用于获取每个待关联RID对中的每个RID所对应的网络行为数据集得到与每个待关联RID对相对应的待识别数据对；

特征提取模块，用于对于任意一个待识别数据对，提取所述待识别数据对对应的特征向量，所述特征向量能够表征所述待识别数据对中的两个网络行为数据集的近似程度；

识别模块，用于基于预先训练得到的目标分类模型，分析所述特征向量得到所述待识别数据对中的两个网络行为数据集是否属于同一个用户的分类结果；

关联模块，用于当所述待识别数据对中的两个网络行为数据集属于同一个用户时，确定所述两个网络行为数据集对应的两个RID与同一用户相关联。

又一方面，本发明还提供了一种设备，包括：至少一个处理器，以及与处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述任意一种数据关联方法。

再一方面，本发明还提供了一种存储介质，其上存储有程序，所述程序被处理器加载并执行时实现上述的任意一种数据关联方法。

本发明提供的数据关联方法，将两个不同RID对应的网络行为数据构造成一个待识别数据对。然后，从待识别数据对中提取能够表征这两组网络行为数据之间的相似程度的特征向量，并将该特征向量输入至预先训练得到的目标分类模型中进行分析得到这两组网络行为数据是否属于同一个用户的分类结果。如果分析得到这两组网络行为数据属于同一个用户则确定这两组网络行为数据对应的两个RID与同一个用户关联，即确定这两个RID属于同一个用户。通过上述方法能够从不同设备收集的来自不同数据源的RID中识别出属于同一个用户的多个RID，从而实现跨设备RID关联，以便进一步依据同一个用户所关联的各个RID所对应的网络行为数据得到用户的完整画像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据关联系统的结构示意图；

图2是本发明提供的一种数据关联方法的流程图；

图3是本发明提供的RID集合所包含的数据信息的示例；

图4是本发明提供的获得待关联RID对过程的流程图；

图5是本发明提供的训练分类模型过程的流程图；

图6是本发明提供的一种数据关联装置的结构示意图；

图7是本发明提供的一种设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，示出了本发明实施例提供的一种数据关联系统的结构示意图，该系统用于从来自不同设备的各个真实标识(Real ID，RID)中识别出与同一个用户相关联的所有RID。

如图1所示，该系统包括第一终端设备1、第二终端设备2和数据收集服务器3和数据关联服务器4。

其中，第一终端设备1和第二终端设备2的设备类型可以相同或者不同，例如，两个终端设备均是移动智能终端，如智能手机、平板电脑等，或者，两个终端设备均是PC机等终端，或者，其中一个终端设备为移动智能终端，另一个终端设备为PC机。

用户通过终端设备访问网站或应用程序，数据收集服务器3用于收集用户访问特定网站或特定应用程序时产生的网络行为数据，并发送至数据关联服务器4，由数据关联服务器4通过对众多不同的RID所对应的网络行为数据进行分析识别出与同一个用户相关联的RID。

需要说明的是，数据收集服务器3与数据关联服务器4可以是同一个服务器，当然，在其它实施例中，数据收集服务器3与数据关联服务器4也可以是分别独立的服务器。

另外，本文中的RID可以包括设备ID(如MAC地址、IDFA、IMEI等)、账户ID(如邮箱ID、手机号码、在网站或应用程序上注册的ID)、Cookie ID等。

其中，MAC(Media Access Control)地址是网卡的标识，能够唯一标识网络设备；IDFA(Identifier for Advertising)是使用IOS系统的设备的广告标识符，通常与设备唯一对应；IMEI(International Mobile Equipment Identity)是国际移动设备识别码，用于在移动电话网络中识别每一部独立的移动通信设备。Cookie ID是用户访问某个网站时该网站为该用户分配的编号，并存储到浏览器中，当用户下一次访问该网站时，浏览器将该Cookie ID上传给网站，Cookie ID对应一个用户设备。

下面将结合图2详细介绍数据关联服务器执行的数据关联过程：

请参见图2，示出了本发明提供的一种数据关联方法的流程图，该方法可以包括以下步骤：

S110，获取来自不同设备的待关联的RID集合。

在本实施例中，可以获取一定时间段内访问一个(或多个)目标服务器(如特定网站、特定应用程序或特定网络产品)产生的访问数据中的各访问用户对应的RID得到待关联的RID集合。

其中，RID用于区分不同的用户；且RID包括上述的设备ID、账户ID、Cookie ID等能够区分不同用户的ID。

从目标服务器获得各访问用户对应的RID后，删除来自同一终端设备的RID，同一终端设备仅保留一条RID的相关数据。

例如，参见图3，示出了RID集合所包含的数据信息的示例，如图3所示的表格中，UserID是用户在特定网站或特定应用程序中注册的账户ID，Session ID是服务器用于区分不同的访问用户而生成的标识。不同的用户对应的Session ID不同，如果两条数据中的Session ID相同表示这两条数据是同一个用户的同一次访问行为产生的。

S120，从待关联的RID集合中筛选得到多个待关联RID对，每个待关联RID对包括两个不同的RID。

本发明是通过分析两个不同RID构成的待关联RID对所对应的网络行为数据之间的相似度来确定这两个RID是否与同一个用户相关联。因此，在得到待关联的RID集合后，首先从RID集合中选取可能属于同一个人的至少两个RID中的任意两个RID组合得到一个待关联RID对；然后，获取该待关联RID对中每个RID对应的网络行为数据集组合得到待识别数据对。

在实际应用场景中，RID的数量级可能非常大，如可能达到千万级、数亿或数十亿级，为了提高识别效率，可以排除掉不可能属于同一个用户的RID对，只需判断可能属于同一个用户的RID对，减少了需要判定的RID对的总数量，因此，提高了RID对的识别速度。

在一种可能的实现方式中，可以通过IP地址关联规则排除属于同一个用户的概率极低的RID对，为了提高识别速度本实施例中不考虑这种RID对属于同一个用户的可能性，如图4所示，获得待关联RID对的过程如下：

S121，获取待关联的RID集合中每个RID对应的网络行为数据中的IP地址信息。

S122，当同一IP地址对应的RID的数量大于或等于两个时，确定该IP地址对应的全部RID均为所述候选RID。

S123，从同一IP地址对应的至少两个RID中的任意两个RID组合得到一个待关联RID对。

表1

	IP1	IP2	IP3	IP4	IP5
						RID1	√	√		√
RID2			√
						RID3		√
RID4				√
						RID5			√
RID6		√			√

例如，表1所示的示例中，RID1～RID6这六个RID共有5个相关的IP地址，分别为IP1～IP5。其中，如表1所示，与IP1相关联的RID只有RID1，与IP3相关联的RID只有RID2，而IP2、IP4和IP5相关联的RID包括至少两个。

对于使用同一IP地址访问目标网站或目标应用程序的RID可能与同一用户关联，因此，在构造待关联RID对时，对同一IP地址对应的多个RID两两组合，不同IP地址对应的RID不组合。

如果不对表1中的RID进行筛选，直接采用任意两个RID进行组合构造得到RID对，将会得到15个待关联RID对。而利用上述方式筛选后，待关联RID对减少至5个，分别是RID1和RID3，RID1和RID6，RID3和RID6，RID4和RID5，RID1和RID6。

S130，获取每个待关联RID对中的每个RID所对应的网络行为数据集得到与每个待关联RID对相对应的待识别数据对。

获得待关联RID对之后，从目标服务器中筛选得到待关联RID对中的每个RID对应的网络行为数据集，这两个网络行为数据集组合得到待识别数据对。

在一种可能的实现方式中，每个RID对应的网络行为数据集中包括目标服务器中与该RID对应的一定时间段内的网络行为数据。即，各个RID对应的网络行为数据集中包括与该RID对应的至少一条网络行为数据。

网络行为数据是用户访问目标服务器所产生的历史行为数据，例如，浏览某个网站产生的浏览行为数据，或者，使用某个应用程序时产生的历史行为数据。

对于任意一个待识别数据对，执行以下S140～S160：

S140，提取待识别数据对所对应的特征向量。

其中，该特征向量能够表征该待识别数据对的特征，通过该特征表示属于同一个用户的数据对与不属于同一个用户的数据之间的区别。

待识别数据对对应的特征向量根据两个网络行为数据集之间的近似程度构造得到。

获得待识别数据对之后，根据业务场景对数据进行分类，选取与要分析的业务场景相关联的字段(即，目标字段)的数据提取特征。

针对任意一个目标字段，将待识别数据对中两个网络行为数据集中与该目标字段对应的数据分别转换成向量，即第一向量和第二向量。然后，计算同一目标字段对应的第一向量和第二向量之间的相似度。依据两个网络行为数据集中全部目标字段对应的相似度构造得到待识别数据对的特征向量。

在一个实施例中，根据目标字段对应数据的数据类型将该数据转换成相应的向量，具体包括以下几种数据类型：

若目标字段对应的数据为类别型数据，则基于编码算法得到该数据对应的二值向量，例如，可以利用one-hot编码算法将类别型数据转换成二值向量；

若目标字段对应的数据为数值型数据，对该数据进行标准化处理得到该数据对应的向量。

标准化处理可以包括min-max标准化、log函数转换、atan函数转换、z-score标准化、小数定标标准化、模糊量化法、比例法等中的至少一种。

以min-max标准化为例，将同一字段内的数据按照公式1进行转换：

X_i＝(x_i-x_min)/(x_max-x_min) (式1)

公式1中，X_i为标准化处理之后的数据，x_i为标准化处理之前的数据，x_min-为当前字段内数值最小的数据，x_max为当前字段内数值最大的数据。

若目标字段对应的数据为字符型数据，采用数据字典存储同一个网络行为数据集中与该目标字段对应数据出现频次，得到该数据对应的向量。

其中，频次是单位时间内出现的次数，单位时间可以根据实际需求自行设定，例如，1s、1min、5min、10min甚至更长时间，此处不做限定。

例如，与RID1对应的一个网络行为数据集中与URL这一字段对应的数据中，URL1、URL4和URL5的出现频次均为0，URL2的出现频次为2，URL3的出现频次为1，即得到表2所示的数据：

表2

	URL1	URL2	URL3	URL4	URL5
						RID1	0	2	1	0	0
RID2	2	1	0	0	2

因此，RID1对应的网络行为数据集中URL这一字段的数据转换得到的向量为v1＝(0，2，1，0，0)。

同理，RID2对应的网络行为数据集中URL这一字段的数据转换得到的向量为v2＝(2，1，0，0，2)。

在一种可能的实现方式中，同一字段对应的两个向量之间的相似度可以包括余弦相似度、共现相似度和重叠相似度中的至少一种。

对于表2所示的向量数据，可以计算v1和v2之间的余弦相似度；其中，余弦相似度是通过计算两个向量的夹角余弦值来评估这两个向量之间的相似度。

在另一种可能的实现方式中，对于字符型数据还可以判断该字段是否出现过该数据，如果出现过，则标记为“1”，如果未出现过，则标记为“0”，因此，得到表3所示的数据：

表3

	URL1	URL2	URL3	URL4	URL5
						RID1	0	1	1	0	0
RID2	1	1	0	0	1

由表3可知，RID1对应的网络行为数据集中URL这一字段的数据转换得到的向量为v1＝(0，1，1，0，0)，同理，RID2对应的网络数据集中URL字段对应的向量是V2＝(1，1，0，0，1)。

对于表3所示的向量数据，可以计算这两个向量数据之间的共现相似度，其中，共现相似度＝(v1∩v2)/(v1∪v2)。

重叠相似度由余弦相似度和共现相似度相加得到。

如果每个字段对应的相似度由上述的三个相似度表示，即每个字段对应相似度为一个3维的向量。例如，如果一个网络数据集中的10个字段为目标字段，而且一个目标字段对应的相似度为一个3维向量，则该待识别数据对的特征向量是一个30维的向量。

S150，基于预先训练得到的目标分类模型，分析特征向量得到待识别数据对中的两个网络行为数据集是否属于同一个用户的分类结果。

预先利用标注有是否属于同一用户的类别标注结果的训练样本数据训练分类模型得到目标分类模型。

将待识别数据对所对应的特征向量输入至目标分类模型中，由目标分类模型分析该特征向量得到该待识别数据对中的两个网络行为数据集是否属于同一个用户分类结果。

该目标分类模型是一个二分类的分类模型，两个类别分别是两个网络行为数据集属于同一个用户及两个网络行为数据集不属于同一个用户。

该目标分类模型的输入是一个待识别数据对的特征向量，输出该待识别数据对属于上述两个类别的置信度。

在一种可能的实现方式中，可以设定一个置信度阈值，如果分类模型计算出待识别数据对中的两个网络行为数据集属于同一个用户的置信度大于或等于该置信度阈值，则确定该待识别数据对所对应的待关联RID对与同一个用户相关联，即该待关联RID对属于同一个用户。如果两个网络行为数据集属于同一个用户的置信度低于该置信度阈值，则确定待关联RID对中的两个RID不属于同一个用户。

在另一种可能的实现方式中，确定置信度高的类别为最终的类别，例如，如果属于同一个用户这一类别的置信度高于不属于同一个用户这一类别的置信度，则确定待识别数据对属于同一个用户。

S160，当待识别数据对中的两个网络行为数据集属于同一个用户时，确定两个网络行为数据集对应的两个RID与同一用户相关联。

如果同一待识别数据对中的两个网络行为数据集属于同一个用户，则进一步确定与该待识别数据对对应的两个RID属于同一个用户。

本实施例提供的数据关联方法，将两个不同RID对应的网络行为数据构造成一个待识别数据对。然后，从待识别数据对中提取能够表征这两组网络行为数据之间的相似程度的特征向量，并将该特征向量输入至预先训练得到的目标分类模型中进行分析得到这两组网络行为数据是否属于同一个用户的分类结果。如果分析得到这两组网络行为数据属于同一个用户则确定这两组网络行为数据对应的两个RID与同一个用户关联，即确定这两个RID属于同一个用户。通过上述方法能够从不同设备收集的来自不同数据源的RID中识别出属于同一个用户的多个RID，从而实现跨设备RID关联，以便进一步依据同一个用户所关联的各个RID所对应的网络行为数据得到用户的完整画像。

下面将结合图5分类模型的优化过程，其中，模型的优化过程包括模型训练过程和模拟测试过程：

如图5所示，分类模型的优化过程可以包括以下步骤：

S210，依据样本数据集中的数据构造样本数据对。

所述样本数据对中包含该数据对中的两个网络行为数据集是否属于同一个用户的类别标注结果。

获取目标服务器中用户对应的用户ID的相关信息，该相关信息中至少包括用户访问目标服务器时服务器创建的session ID；同时，获取所有用户访问目标服务器的网络行为数据中的RID信息，且该RID信息中也包括用户对应的session ID。

如表4所示，示出了用户ID相关信息及网络行为数据中的ID相关信息的示例：

表4

首先将用户ID信息与RID信息通过session ID字段进行关联，根据表4中的左侧两列数据可知，session1～session3对应同一个用户，即User1；而表4中右侧两列数据中与session1～session3对应的RID1～RID3也与同一个用户对应，因此，将RID1～RID5中任意两个RID组合得到的10个RID对包括4个正样本RID对和6个负样本RID对。

其中，4个正样本RID对分别为：(RID1，RID2)，(RID1，RID3)，(RID2，RID3)，(RID4，RID5)；6个负样本RID对分别为：(RID1，RID4)，(RID1，RID5)，(RID2，RID4)，(RID2，RID5)，(RID3，RID4)，(RID3，RID5)。

然后，分别获取每个RID对中每个RID所对应的网络行为数据集得到该RID对所对应的样本数据对。

对于任意一个样本数据对，执行以下S220～S240：

S220，提取该样本数据对所对应的特征向量。

提取样本数据对所对应的特征向量的过程与上述实施例中的S140相同，此处不再赘述。

S230，利用当前分类模型分析样本数据对所对应的特征向量，得到该样本数据对是否属于同一个用户的分类结果。

在模型训练过程中，当前分类模型中的模型参数并非最优参数，因此需要利用样本数据对训练该分类模型，以调整其内部的模型参数。

具体的，将样本数据对所对应的特征向量输入至当前分类模型中，由该当前分类模型分析该样本数据对所对应的特征向量，并得到该样本数据对是否属于同一个用户的分类结果。

在一种可能的实现方式中，分类模型可以采用XGBoost分类算法实现的分类模型。

S240，依据同一样本数据对的分类结果及类别标注结果，调整当前分类模型的模型参数，直到利用调整后的当前分类模型分析样本数据对得到的分类结果满足预设收敛条件，得到目标分类模型。

在模型训练过程中，当前分类模型输出某个样本数据对的分类结果后，将该分类结果与该样本数据对所对应的类别标注结果进行比较，如果两个结果不一致，则根据分类结果的误差调整该分类模型中的模型参数，重复上述过程，直到调整后的分类模型得到的分类结果满足预设收敛条件，其中预设收敛条件可以是分类结果的准确率大于预设准确率。满足预设收敛条件的模型参数为最优模型参数，利用该最优模型参数配置得到的分类模型即目标分类模型。

可选的，将样本数据对中的正样本数据对和负样本数据对分别按一定比例拆分成训练样本数据对和验证样本数据对，训练样本数据对用于训练模型，验证样本数据对用于模拟测试以评估模型效果。

在使用训练样本数据对训练得到目标分类模型之后，再利用验证样本数据对验证该目标分类模型的效果，即利用训练好的目标分类模型对验证样本数据对进行分类处理，得到验证样本数据对的分类结果，并将该分类结果与该验证样本数据对的真实标注结果进行对比，计算得到该目标分类模型的准确率、召回率和F1值等指标来评估该目标分类模型的效果。可以通过模型评估指标，迭代调整提取的特征及模型参数，从而进一步优化目标分类模型。

另一方面，本发明还提供了数据关联装置实施例.

请参见图6，示出了本发明提供的一种数据关联装置的结构示意图，该装置应用于服务器中，如图6所示，该装置包括：第一获取模块110、筛选模块120、第二获取模块130、特征提取模块140、识别模块150和关联模块160。

第一获取模块110，用于获取来自不同设备的待关联的RID集合。其中，该RID用于区分不同的用户。

筛选模块120，用于从待关联的RID集合中筛选得到多个待关联RID对；其中，每个待关联RID对包括两个不同的RID。

在一种可能的实现方式中，筛选模块120具体用于：从待关联的RID集合中确定出至少两个候选RID，并将该至少两个候选RID中的任意两个RID组合得到一个待关联RID对。

其中，确定候选RID的过程可以包括：获取待关联的RID集合中每个RID对应的网络行为数据中的IP地址。当同一IP地址对应的RID的数量大于或等于两个时，确定该IP地址所对应的全部RID均为所述候选RID。

第二获取模块130，用于获取每个待关联RID对中的每个RID所对应的网络行为数据集得到与每个待关联RID对相对应的待识别数据对。

特征提取模块140，用于对于任意一个待识别数据对，提取该待识别数据对对应的特征向量。

其中，述特征向量能够表征待识别数据对中的两个网络行为数据集的近似程度。

在一种可能的实现方式中，特征提取模块140具体用于：

确定任意一个待识别数据对内的两个网络行为数据集中能够表征两组网络行为数据近似程度的字段为目标字段；

针对任意一个目标字段，将所述两个网络行为数据集中与该目标字段对应的数据分别转换成向量，得到该目标字段对应的第一向量和第二向量；

计算同一目标字段对应的所述第一向量与所述第二向量之间的相似度；

依据所述两个网络行为数据集中全部目标字段对应的相似度构造得到所述待识别数据对的特征向量。

在一种可能的实现方式中，获得目标字段对应的向量的过程可以包括：

确定目标字段对应数据的数据类型；

当目标字段对应数据为类别型数据时，基于编码算法得到二值向量；

当目标字段对应数据为数值型数据时，对数值型数据进行标准化处理得到对应的向量；

当目标字段对应数据为字符型数据，采用数据字典存储同一个网络行为数据集中与该目标字段对应数据出现频次，得到对应的向量。

在一种可能的实现方式中，计算同一目标字段对应的所述第一向量与所述第二向量之间的相似度的过程可以包括：

计算同一目标字段对应的第一向量与第二向量之间的余弦相似度和共现相似度；

依据余弦相似度和共现相似度，计算得到该目标字段对应的第一向量与第二向量之间的重叠相似度；

确定该目标字段对应的余弦相似度、共现相似度和重叠相似度为该目标字段对应的第一向量与第二向量之间的相似度。

识别模块150，用于基于预先训练得到的目标分类模型，分析特征向量得到待识别数据对中的两个网络行为数据集是否属于同一个用户的分类结果。

在一种可能的实现方式中，识别模块150具体用于：

基于目标分类模型，分析待识别数据对的特征向量得到待识别数据对中的两个网络行为数据集是否属于同一个用户的置信度；

如果两个网络行为数据集属于同一个用户的置信度大于或等于置信度阈值，则确定该两个网络行为数据集属于同一个用户；

如果该两个行为数据集属于同一个用户的置信度小于置信度阈值，则确定该两个网络行为数据集不属于同一个用户。

关联模块160，用于当待识别数据对中的两个网络行为数据集属于同一个用户时，确定所述两个网络行为数据集对应的两个RID与同一用户相关联。

在本发明的一个实现方式中，分类模型的优化过程如下：

依据样本数据集中的数据构造样本数据对，所述样本数据对中包含该数据对中的两个网络行为数据集是否属于同一个用户的类别标注结果；

对于任意一个样本数据对，提取该样本数据对所对应的特征向量；

利用当前分类模型分析任意一个样本数据对所对应的特征向量，得到该样本数据对是否属于同一个用户的分类结果；

依据同一样本数据对的分类结果及类别标注结果，调整所述当前分类模型的模型参数，直到利用调整后的分类模型分析样本数据对得到的分类结果满足预设收敛条件，得到所述目标分类模型。

本实施例提供的数据关联装置，将两个不同RID对应的网络行为数据构造成一个待识别数据对。然后，从待识别数据对中提取能够表征这两组网络行为数据之间的相似程度的特征向量，并将该特征向量输入至预先训练得到的目标分类模型中进行分析得到这两组网络行为数据是否属于同一个用户的分类结果。如果分析得到这两组网络行为数据属于同一个用户则确定这两组网络行为数据对应的两个RID与同一个用户关联，即确定这两个RID属于同一个用户。通过上述方法能够从不同设备收集的来自不同数据源的RID中识别出属于同一个用户的多个RID，从而实现跨设备RID关联，以便进一步依据同一个用户所关联的各个RID所对应的网络行为数据得到用户的完整画像。

所述数据关联装置包括处理器和存储器，上述第一获取模块110、筛选模块120、第二获取模块130、特征提取模块140、识别模块150和关联模块160等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数实现从不同设备收集的来自不同数据源的RID中识别出属于同一个用户的多个RID，从而实现跨设备RID关联。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述数据关联方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述数据关联方法。

请参见图7，本发明实施例提供了一种设备，设备包括至少一个处理器210、以及与处理器210连接的至少一个存储器220、总线230；其中，处理器210、存储器220通过总线230完成相互间的通信；处理器210用于调用存储器220中的程序指令，以执行上述的数据关联方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

在一种可能的实现方式中，所述从所述待关联的RID集合中筛选得到多个待关联RID对，包括：

从所述待关联的RID集合中确定出至少两个候选RID；

将所述至少两个候选RID中的任意两个RID组合得到一个待关联RID对。

在一种可能的实现方式中，所述从所述待关联的RID集合中确定出至少两个候选RID，包括：

获取所述待关联的RID集合中每个RID对应的网络行为数据中的IP地址；

当同一IP地址对应的RID的数量大于或等于两个时，确定该IP地址所对应的全部RID均为所述候选RID。

在一种可能的实现方式中，所述对于任意一个待识别数据对，提取所述待识别数据对对应的特征向量，包括：

在一种可能的实现方式中，所述针对任意一个目标字段，将所述两个网络行为数据集中与该目标字段对应的数据分别转换成向量，得到该目标字段对应的第一向量和第二向量，包括：

确定所述目标字段对应数据的数据类型；

当所述目标字段对应数据为类别型数据时，基于编码算法得到二值向量；

当所述目标字段对应数据为数值型数据时，对所述数值型数据进行标准化处理得到对应的向量；

当所述目标字段对应数据为字符型数据，采用数据字典存储同一个网络行为数据集中与该目标字段对应数据出现频次，得到对应的向量。

在一种可能的实现方式中，所述计算同一目标字段对应的所述第一向量与所述第二向量之间的相似度，包括：

计算同一目标字段对应的所述第一向量与所述第二向量之间的余弦相似度和共现相似度；

依据所述余弦相似度和所述共现相似度，计算得到该目标字段对应的第一向量与第二向量之间的重叠相似度；

在一种可能的实现方式中，所述基于预先训练得到的目标分类模型，分析所述特征向量得到所述待识别数据对中的两个网络行为数据是否属于同一个用户的分类结果，包括：

基于目标分类模型，分析所述待识别数据对的特征向量得到所述待识别数据对中的两个网络行为数据集是否属于同一个用户的置信度；

如果所述两个网络行为数据集属于同一个用户的置信度大于或等于置信度阈值，则确定所述两个网络行为数据集属于同一个用户；

如果所述两个行为数据集属于同一个用户的置信度小于所述置信度阈值，则确定所述两个网络行为数据集不属于同一个用户。

在一种可能的实现方式中，所述方法还包括：

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据关联方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述待关联的RID集合中筛选得到多个待关联RID对，包括：

从所述待关联的RID集合中确定出至少两个候选RID；

3.根据权利要求2所述的方法，其特征在于，所述从所述待关联的RID集合中确定出至少两个候选RID，包括：

4.根据权利要求1所述的方法，其特征在于，所述对于任意一个待识别数据对，提取所述待识别数据对对应的特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述针对任意一个目标字段，将所述两个网络行为数据集中与该目标字段对应的数据分别转换成向量，得到该目标字段对应的第一向量和第二向量，包括：

确定所述目标字段对应数据的数据类型；

6.根据权利要求4或5所述的方法，其特征在于，所述计算同一目标字段对应的所述第一向量与所述第二向量之间的相似度，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于预先训练得到的目标分类模型，分析所述特征向量得到所述待识别数据对中的两个网络行为数据是否属于同一个用户的分类结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种数据关联装置，其特征在于，包括：

10.一种设备，其特征在于，包括：至少一个处理器，以及与处理器连接的至少一个存储器、总线；

其中，所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-8任一项所述的数据关联方法。

11.一种存储介质，其上存储有程序，其特征在于，所述程序被处理器加载并执行时实现权利要求1-8任一项所述的数据关联方法。