CN113556368A

CN113556368A - 用户识别方法、装置、服务器及存储介质

Info

Publication number: CN113556368A
Application number: CN202010329242.0A
Authority: CN
Inventors: 王利; 佳明
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2021-10-26

Abstract

本公开关于一种用户识别方法、装置、服务器及存储介质，属于数据处理技术领域。本公开提供的方案，根据来自至少两个数据源的日志数据中至少一个第一用户标识和至少一个第二用户标识的行为信息，分别从至少一个第二用户标识中确定与第一用户标识的行为相似度满足目标条件的至少一个目标用户标识，基于至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识，由于各个用户的行为不尽相同，因此可以将用户的行为信息作为用户识别的基础，即使同一个用户在不同数据源中对应的用户标识不同，也可以根据行为相似度确定属于同一个用户的用户标识，从而获取到同一个用户对应的所有用户数据，提高用户识别效率和准确性。

Description

用户识别方法、装置、服务器及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种用户识别方法、装置、服务器及存储介质。

背景技术

随着互联网技术的发展，互联网平台的功能越来越多样化，为了能给用户提供个性化的服务，互联网平台可以收集来自不同数据源的用户数据来对用户的兴趣等进行分析。但是，同一个用户在不同互联网平台上注册时使用的用户标识可能存在不同，因此，亟需一种用户识别方法，来将同一个用户在不同的互联网平台中的用户数据关联起来，以便获得用户的完整数据。

目前，在进行用户识别时，主要是对各个用户在不同互联网平台中注册时使用的是否为同一设备来进行识别，例如，利用设备号进行识别，设备号相同，服务器就可以将这些设备号对应的用户数据关联起来。

上述过程中，只能在设备粒度对用户进行识别，一旦用户在不同互联网平台使用了不同设备注册，就会无法将其用户数据关联，也就导致对于同一个用户，所能获取到的用户数据十分有限，用户识别不准确、效率较低。

发明内容

本公开提供一种用户识别方法、装置、服务器及存储介质，以至少解决相关技术中用户识别不准确、效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种用户识别方法，该方法包括：

获取来自至少两个数据源的日志数据，该日志数据包括用户标识和用户标识对应的行为信息；

根据该日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从该至少一个第二用户标识中确定与该第一用户标识对应的至少一个目标用户标识，该第一用户标识与对应的目标用户标识之间的行为相似度满足目标条件；

基于该至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识。

在一种可能的实现方式中，该根据该日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从该至少一个第二用户标识中确定与该第一用户标识对应的至少一个目标用户标识包括：

分别对该日志数据中该第一用户标识的行为信息和该第二用户标识的行为信息进行统计，得到该第一用户标识的行为特征统计值和对应的该第二用户标识的行为特征统计值；

根据该第一用户标识的行为特征统计值和该第二用户标识的行为特征统计值，确定该第一用户标识与对应的第二用户标识之间的行为相似度；

将与该第一用户标识的行为相似度满足目标条件的第二用户标识，确定为该第一用户标识对应的目标用户标识。

在一种可能的实现方式中，该行为特征统计值包括刷新次数、刷新频次以及登录次数中至少一项。

在一种可能的实现方式中，该根据该日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从该至少一个第二用户标识中确定与该第一用户标识对应的至少一个目标用户标识之前，该方法还包括：

对该日志数据的用户标识进行类型识别，将属于目标类型的用户标识确定为该第一用户标识，将其余的用户标识确定为该第一用户标识对应的第二用户标识。

在一种可能的实现方式中，该目标类型包括国际移动设备识别码和广告标识符中至少一项。

在一种可能的实现方式中，该基于该至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识包括：

以该至少一个第一用户标识和对应的至少一个目标用户标识作为图节点，在所表示用户标识之间具有对应关系的图节点之间添加边，得到用户关系图；

确定该用户关系图中的联通子图；

将该联通子图中图节点所表示的用户标识，确定为属于同一个用户的用户标识。

在一种可能的实现方式中，该基于该至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识之后，该方法还包括：

基于属于同一个用户的用户标识，生成唯一用户标识；

构建该属于同一个用户的用户标识与该唯一用户标识的对应关系，得到用户标识索引。

响应于获取到新的日志数据，根据该用户标识索引和该新的日志数据，确定该唯一用户标识对应的用户活跃度；

从该用户关系图中删除用户活跃度不满足活跃度条件的唯一用户标识对应的联通子图。

在一种可能的实现方式中，该根据该用户标识索引和该新的日志数据，确定该唯一用户标识对应的用户活跃度包括：

根据该用户标识索引，确定该唯一用户标识对应的至少一个用户标识；

根据该新的日志数据中该至少一个用户标识的行为信息，确定该唯一用户标识对应的用户活跃度。

在一种可能的实现方式中，该获取来自至少两个数据源的日志数据之后，该方法还包括下述至少一项：

对该日志数据进行数据清洗；

对该日志数据进行数据预处理。

在一种可能的实现方式中，该对该日志数据进行数据清洗包括：

将该日志数据中的脏数据删除；

对该日志数据中用户标识进行识别，将该日志数据中被识别为虚拟设备标识的用户标识及对应的行为信息删除。

在一种可能的实现方式中，该对该日志数据进行数据预处理包括：

对该日志数据中各个用户标识之间的对应关系进行检测；

若检测到任一个用户标识与数量大于预设阈值的多个用户标识之间具有对应关系，则对该任一个用户标识进行标记。

根据本公开实施例的第二方面，提供一种用户识别装置，该装置包括：

获取单元，被配置为执行获取来自至少两个数据源的日志数据，该日志数据包括用户标识和用户标识对应的行为信息；

用户标识确定单元，被配置为执行根据该日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从该至少一个第二用户标识中确定与该第一用户标识对应的至少一个目标用户标识，该第一用户标识与对应的目标用户标识之间的行为相似度满足目标条件；

该用户标识确定单元，还被配置为执行基于该至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识。

在一种可能的实现方式中，该装置还包括：

统计单元，被配置为执行分别对该日志数据中该第一用户标识的行为信息和该第二用户标识的行为信息进行统计，得到该第一用户标识的行为特征统计值和对应的该第二用户标识的行为特征统计值；

相似度确定单元，被配置为执行根据该第一用户标识的行为特征统计值和该第二用户标识的行为特征统计值，确定该第一用户标识与对应的第二用户标识之间的行为相似度；

该用户标识确定单元，还被配置为执行将与该第一用户标识的行为相似度满足目标条件的第二用户标识，确定为该第一用户标识对应的目标用户标识。

在一种可能的实现方式中，该用户标识确定单元，还被配置为执行对该日志数据的用户标识进行类型识别，将属于目标类型的用户标识确定为该第一用户标识，将其余的用户标识确定为该第一用户标识对应的第二用户标识。

在一种可能的实现方式中，该装置还包括：

添加单元，被配置为执行以该至少一个第一用户标识和对应的至少一个目标用户标识作为图节点，在所表示用户标识之间具有对应关系的图节点之间添加边，得到用户关系图；

联通子图确定单元，被配置为执行确定该用户关系图中的联通子图；

该用户标识确定单元，被配置为执行将该联通子图中图节点所表示的用户标识，确定为属于同一个用户的用户标识。

在一种可能的实现方式中，该装置还包括：

生成单元，被配置为执行基于属于同一个用户的用户标识，生成唯一用户标识；

构建单元，被配置为执行构建该属于同一个用户的用户标识与该唯一用户标识的对应关系，得到用户标识索引。

在一种可能的实现方式中，该装置还包括：

活跃度确定单元，被配置为执行响应于获取到新的日志数据，根据该用户标识索引和该新的日志数据，确定该唯一用户标识对应的用户活跃度；

联通子图删除单元，被配置为执行从该用户关系图中删除用户活跃度不满足活跃度条件的唯一用户标识对应的联通子图。

在一种可能的实现方式中，该用户标识确定单元，还被配置为执行根据该用户标识索引，确定该唯一用户标识对应的至少一个用户标识；

该活跃度确定单元，还被配置为执行根据该新的日志数据中该至少一个用户标识的行为信息，确定该唯一用户标识对应的用户活跃度。

在一种可能的实现方式中，该装置还包括：

数据清洗单元，被配置为执行对该日志数据进行数据清洗；

数据预处理单元，被配置为执行对该日志数据进行数据预处理。

在一种可能的实现方式中，该装置还包括：

数据删除单元，被配置为执行将该日志数据中的脏数据删除；

识别单元，被配置为执行对该日志数据中用户标识进行识别；

该数据删除单元，还被配置为执行将该日志数据中被识别为虚拟设备标识的用户标识及对应的行为信息删除。

在一种可能的实现方式中，该装置还包括：

检查单元，被配置为执行对该日志数据中各个用户标识之间的对应关系进行检测；

标记单元，被配置为执行若检测到任一个用户标识与数量大于预设阈值的多个用户标识之间具有对应关系，则对该任一个用户标识进行标记。

根据本公开实施例的第三方面，提供一种服务器，该服务器包括：

一个或多个处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行该指令，以实现上述用户识别方法。

根据本公开实施例的第四方面，提供一种存储介质，当该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述用户识别方法。

根据本公开实施例的第五方面，提供一种应用程序产品，该应用程序产品存储有一条或多条指令，该一条或多条指令可以由服务器的处理器执行，以完成上述用户识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取来自至少两个数据源的日志数据，根据日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从至少一个第二用户标识中确定与第一用户标识的行为相似度满足目标条件的至少一个目标用户标识，基于至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识，由于各个用户的行为不尽相同，因此可以将用户的行为信息作为用户识别的基础，即使同一个用户在不同数据源中对应的是不同的用户标识，也可以根据行为相似度确定出属于同一个用户的第一用户标识和第二用户标识，从而可以将同一个用户对应的所有用户数据关联起来，扩展获取到的用户数据，提高用户识别效率和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种用户识别方法的实施环境示意图；

图2是根据一示例性实施例示出的一种用户识别方法的流程图；

图3是根据一示例性实施例示出的一种用户识别方法的流程图；

图4是根据一示例性实施例示出的一种构建与求解联通子图的过程图；

图5是根据一示例性实施例示出的一种确定联通子图及生成唯一用户标识的流程图；

图6是根据一示例性实施例示出的用户识别方法的整体流程图；

图7是根据一示例性实施例示出的一种用户识别装置的框图；

图8是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

下面先对本公开涉及的相关技术名词进行解释：

深度报文检测(Deep Packet Inspection，DPI)是一种基于数据包的深度检测技术，针对不同的网络应用层载荷进行深度检测，通过对报文的有效载荷检测决定其合法性。

图1是根据一示例性实施例示出的一种用户识别方法的实施环境示意图，参见图1，该实施环境具体包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、游戏主机、手提电脑、MP3(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等设备中的至少一种。终端101可以通过有线网络或无线网络与服务器102相连，以便用户可以通过终端101来使用各个互联网平台对应的服务器提供的后台服务，进而实现在相应的互联网平台上进行注册、登录、浏览、购物等功能。终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。

服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102可以对不同的用户标识进行识别，确定出属于同一个用户的所有用户标识，进而可以根据属于同一个用户的所有用户标识对应的用户数据，来为用户提供个性化的服务。服务器102还可以根据终端101发送的请求，根据请求中所携带的用户标识，获取到该用户标识在不同数据源中的用户数据，进而根据获取到的所有用户数据，来为终端101提供个性化的后台服务。可选地，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种用户识别方法的流程图。参见图2，具体步骤包括：

在步骤S201中，服务器获取来自至少两个数据源的日志数据，该日志数据包括用户标识和用户标识对应的行为信息。

在步骤S202中，服务器根据该日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从该至少一个第二用户标识中确定与该第一用户标识对应的至少一个目标用户标识，该第一用户标识与对应的目标用户标识之间的行为相似度满足目标条件。

在步骤S203中，服务器基于该至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识。

本公开实施例提供的方案，通过获取来自至少两个数据源的日志数据，根据日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从至少一个第二用户标识中确定与第一用户标识的行为相似度满足目标条件的至少一个目标用户标识，基于至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识，由于各个用户的行为不尽相同，因此可以将用户的行为信息作为用户识别的基础，即使同一个用户在不同数据源中对应的是不同的用户标识，也可以根据行为相似度确定出属于同一个用户的第一用户标识和第二用户标识，从而可以将同一个用户对应的所有用户数据关联起来，扩展获取到的用户数据，提高用户识别效率和准确性。

确定该用户关系图中的联通子图；

基于属于同一个用户的用户标识，生成唯一用户标识；

对该日志数据进行数据清洗；

对该日志数据进行数据预处理。

将该日志数据中的脏数据删除；

对该日志数据中各个用户标识之间的对应关系进行检测；

图3是根据一示例性实施例示出的一种用户识别方法的流程图。参见图3，该方法包括：

在步骤S301中，服务器获取来自至少两个数据源的日志数据，该日志数据包括用户标识和用户标识对应的行为信息。

需要说明的是，数据源(Data Source)是提供某种所需要数据的原始媒体，具体可以为各个应用客户端对应的后台服务。该日志数据中的用户标识可以包括许多类型的用户标识，例如，该日志数据中的用户标识可以包括国际移动设备识别码(InternationalMobile Equipment Identity，IMEI)和广告标识符(Identifier For Advertising，IDFA)等设备粒度的用户标识，该日志数据中的用户标识可以包括用户名(USER_ID)、设备名(DEVICE_ID)、电话号码(TELEPHONE)、媒体访问控制地址(Media Access ControlAddress，MAC)等其他粒度的用户标识，可选地，该日志数据中的用户标识还可以包括其他类型的用户标识，本公开实施例对此不加以限定。用户标识对应的行为信息可以用于表示用户标识对应的用户在某时刻进行的登录、刷新等操作，可选地，行为信息还可以包括其他内容，本公开实施例对此不加以限定。

在一种可能的实现方式中，该服务器可以向至少两个数据源对应的数据库发送日志数据获取请求，该日志数据获取请求中携带要获取的日志数据的时间信息，用来获取一段时间内的日志数据，数据库在接收到该日志数据获取请求后，可以将对应时间内的日志数据发送给该服务器，该服务器接收日志数据，实现日志数据的获取。

在步骤S302中，服务器对该日志数据进行数据清洗和数据预处理。

需要说明的是，由于现在网络环境越来越复杂，在各种复杂的网络环境，产生的日志数据有可能存在具有不可解释性的脏数据，有可能存在非正常的用户设备产生的日志数据，还有可能存在许多不符合规范的数据，上述这几种数据对于实际业务都毫无意义，而且可能会导致整体结果不可信，因此，服务器需要对获取到的日志数据进行数据清洗和数据预处理。

在对日志数据进行清洗时，可以包括下述任一种实现方式：

在一种可能的实现方式中，服务器可以将该日志数据中的脏数据删除。

具体地，服务器可以对日志数据的数据格式进行检查，将数据格式不符合预设格式的数据删除，以实现脏数据的删除。可选地，服务器还可以对日志数据的其他格式，如业务逻辑进行检查，以实现脏数据的删除，本公开实施例对此不加以限定。

在另一种可能的实现方式中，服务器可以对该日志数据中用户标识进行识别，将不符合用户标识格式规范的用户标识确定为虚拟设备标识，进而可以将该日志数据中被识别为虚拟设备标识的用户标识及对应的行为信息删除。

通过数据清洗，可以删除脏数据和虚拟设备标识及虚拟设备标识对应的行为信息，降低服务器处理压力，提高用户识别的速度，而且还可以避免这些数据对后续用户识别过程造成影响，提高用户识别准确性。

在对日志数据进行预处理时，服务器可以通过该日志数据中各个用户标识已有的对应关系，来对该日志数据中的用户标识进行全联通图检查。具体地，服务器可以对日志数据中各个用户标识之间的对应关系进行检测，若检测到任一个用户标识与数量大于预设阈值的多个用户标识之间具有对应关系，则对任一个用户标识进行标记，则服务器在后续对这些带有标记的用户标识进行处理时，会根据这些带有标记的用户标识的具体情况进行进一步判断，以确定是否需要将这些带有标记的用户标识作为用户关系图的节点。

通过数据预处理，可以统计与一个用户标识具有对应关系的用户标识的数量，若数量大于预设阈值，则可以将这个用户标识及对应的行为信息标记出来，以便后续对用户标识的行为信息进行统计或计算用户标识之间的行为相似度时，根据带有标记的用户标识的具体情况进行进一步判断。若确定带有标记的用户标识已有的对应关系存在问题，例如，原本行为信息存在较大区别的用户标识之间具有对应关系，但经过步骤305，确定出该带有标记的用户标识与具有对应关系的用户标识的行为相似度不满足目标条件，该带有标记的用户标识仅可以作为与某个或某几个第一用户标识对应的目标用户标识，则服务器可以将带有标记的用户标识作为用户关系图的节点；若确定带有标记的用户标识确实与大于预设阈值的多个用户标识均存在对应关系，则无需对带有标记的用户标识进行处理，避免在预处理时即将某些本身并不存在问题但带有标记的用户标识及对应的行为信息直接删除，导致用户数据不完整，提高用户识别准确性。

通过数据清洗和数据预处理，可以将日志数据中用户标识或行为信息存在问题的日志数据删除或进行标记，避免后续用户识别过程处理到这些用户标识或行为信息存在问题的日志数据造成错误，减少不必要的运算，降低服务器处理压力，提高用户识别的速度和准确性，以便为用户提供更加符合用户特征的个性化服务。

在步骤S303中，服务器对该日志数据的用户标识进行类型识别，将属于目标类型的用户标识确定为该第一用户标识，将其余的用户标识确定为该第一用户标识对应的第二用户标识。

需要说明的是，不同类型的用户标识具有不同的格式或者标识组成规则，因而，服务器可以根据用户标识的格式或者标识组成规则，确定用户标识的类型。

在一种可能的实现方式中，服务器可以对经过数据清洗和数据预处理后得到的用户数据中用户标识的格式进行识别，以实现用户标识的类型识别，将格式符合设备粒度的用户标识格式的用户标识确定为第一用户标识，将其余的用户标识确定为该第一用户标识对应的第二用户标识。例如，服务器可以将格式符合IMEI或IDFA格式的用户标识确定为第一用户标识，将其余的用户标识，如USER_ID、DEVICE_ID、TELEPHONE、MAC，确定为该第一用户标识对应的第二用户标识。

IMEI或IDFA这种设备粒度的用户标识可以唯一标识直接参与业务场景中数据生产与消费的物理主体，通过将IMEI或IDFA这种设备粒度的用户标识确定为第一用户标识，可以方便基于该用户所使用的设备的设备标识，来展开对应的其他类型的用户标识，用户识别准确性较高。

在步骤S304中，服务器分别对该日志数据中该第一用户标识的行为信息和该第二用户标识的行为信息进行统计，得到该第一用户标识的行为特征统计值和对应的该第二用户标识的行为特征统计值。

在一种可能的实现方式中，服务器可以根据该日志数据中第一用户标识的行为信息和第二用户标识的行为信息，分别对第一用户标识的行为信息和第二用户标识的行为信息对应的操作及各个操作的次数进行统计，得到该第一用户标识的行为特征统计值和对应的该第二用户标识的行为特征统计值。

需要说明的是，该行为特征统计值可以包括刷新次数、刷新频次以及登录次数中至少一项，可选地，该行为特征统计值还可以包括其他事实类属性内容，如使用时长等，本公开实施例对此不加以限定。

在步骤S305中，服务器根据该第一用户标识的行为特征统计值和该第二用户标识的行为特征统计值，确定该第一用户标识与对应的第二用户标识之间的行为相似度。

在一种可能的实现方式中，服务器可以根据第一用户标识的行为特征统计值和第二用户标识的行为特征统计值，通过公式(1)，计算第一用户标识和第二用户标识互相关联度的置信度，作为第一用户标识和第二用户标识的行为相似度，公式(1)如下所示：

其中，key_a可以为第一用户标识，key_b可以为第二用户标识，α可以为归一化因子，α可以为大于等于0小于等于1的任意取值，本公开实施例对此不加以限定，ω可以为行为特征统计值，也可以称为置信度计算因子，ω的计算公式可以如公式(2)所示：

其中，pυ、freq、weight均为来自日志数据的行为特征统计值，pv可以为刷新次数，freq可以为刷新频次，weight可以为权重，β可以为预设参数，β的取值可以为任意取值，例如，β的取值可以为1。

通过该步骤305，引入了第一用户标识和第一用户标识的置信度计算模型，可以计算其他粒度的各种类型的第二用户标识与设备粒度的第一用户标识的行为相似度，进而可以确定出其他粒度的各种类型的第二用户标识对应的第一用户标识，使得本公开实施例提供的方案更具用户标识类型的扩展性。

需要说明的是，在其他可能的实现方式中，除可以根据行为相似度来构建置信度模型外，还可以通过马尔科夫随机场，来构建用户标识节点之间置信度模型，从而实现第一用户标识与对应的第二用户标识之间的行为相似度的确定和联通子图的求解，来确定出属于同一个用户的用户标识。

在步骤S306中，服务器将与该第一用户标识的行为相似度满足目标条件的第二用户标识，确定为该第一用户标识对应的目标用户标识。

在一种可能的实现方式中，服务器可以将与该第一用户标识的行为相似度大于预设阈值的第二用户标识，确定为该第一用户标识对应的目标用户标识，该预设阈值可以为任意取值，本公开实施例对此不加以限定。

在步骤S307中，服务器以该至少一个第一用户标识和对应的至少一个目标用户标识作为图节点，在所表示用户标识之间具有对应关系的图节点之间添加边，得到用户关系图。

基于上述步骤所生成的用户关系图，可以将用户和用户之间的关系通过直观的方式提供给用户，而且，基于用户关系图这种简化的表达形式，还可以简化后续用户识别的过程，将数据的处理简化为对图形的处理。此外，对于日志数据中新出现的用户标识，也可以通过上述步骤305至步骤307，来将该新出现的用户标识对应的节点及对应的边添加到用户关系图中，以便不断对该用户关系图进行更新，使得本公开实施例提供的方案具有进行迭代优化的空间。

在步骤S308中，服务器确定该用户关系图中的联通子图。

需要说明的是，对于用户关系图中的各个节点，任意两个节点之间均通过边相连的节点及节点之间的边即可以构成一个联通子图。该用户关系图中可以包括多个联通子图，本公开实施例对该用户关系图中包括的联通子图的数量不加以限定。

在一种可能的实现方式中，服务器可以对各个节点之间的边进行检测，将任意两个节点之间均有边相连的节点及对应的边，确定为一个联通子图。

需要说明的是，上述步骤307至步骤308参见图4，图4是根据一示例性实施例示出的一种构建与求解联通子图的过程图，服务器可以将第一用户标识和对应的至少一个目标用户标识以数据表的形式进行存储，进而可以根据该数据表，来构建联通子图，进而可以通过后续步骤来进行唯一用户标识的生成，具体生成过程可以参见下述步骤309，此处不再赘述。

在步骤S309中，服务器将该联通子图中图节点所表示的用户标识，确定为属于同一个用户的用户标识。

需要说明的是，一个联通子图中包括至少一个第一用户标识以及对应的至少一个目标用户标识，对于属于同一个联通子图的用户标识，各个用户标识之间的行为相似度均大于预设阈值，因而，服务器可以将同一个联通子图中的节点所表示各个用户标识，也即是，至少一个第一用户标识以及对应的至少一个目标用户标识，确定为属于同一个用户的用户标识。

需要说明的是，服务器在确定出属于用一个用户的用户标识后，可以基于属于同一个用户的用户标识，生成唯一用户标识。具体地，服务器可以通过消息摘要算法(MessageDigest Algorithm，MD5)加密方法，对每个联通子图生成唯一用户标识，也即是，通用唯一识别码(Universally Unique Identifier，UUID)。

需要说明的是，上述步骤307至步骤309均可以通过斯巴克(Spark)开源计算平台实现。Spark开源计算平台本身具备分布式存储和计算特性，因此，利用Spark开源计算平台来进行图的求解可以支持大规模节点和关系计算，并且通过扩展单台机器和存储可支持千亿规模图计算，从而可以在作为海量全局大图的用户关系图中，求解联通子图。图5是根据一示例性实施例示出的一种确定联通子图及生成唯一用户标识的流程图，参见图5，服务器可以将步骤306确定出的至少一个第一用户标识和对应的至少一个目标用户标识作为集合输入Spark开源计算平台，例如，可以将该集合记为id_set，通过Spark开源计算平台中的flatMap算子，将该集合打平成多行数据，执行reduceByKey算子进行数据聚合，再执行flatMap算子聚合key_set集合，进而flatMap操作中是否有聚合用户标识进行判断，若flatMap操作中有聚合用户标识，则直接将用户标识添加进key_set集合，若flatMap操作中没有聚合用户标识，则无需将用户标识添加进key_set集合，直接输出现有的key_set集合，再执行reduceByKey算子聚合id_set和key_set，比较key_set和id_set进行中间结果去重过滤，以便最终对每个联通子图生成UUID。

需要说明的是，服务器在基于属于同一个用户的用户标识，生成唯一用户标识后，可以构建属于同一个用户的用户标识(Identity)与唯一用户标识的对应关系，得到用户标识索引<ID，UUID>。该用户标识索引可以包括正向索引和反向索引，其中，正向索引可以为ID到UUID的索引，反向索引可以为UUID到ID的索引，服务器通过正向索引和反向索引，来确定各个用户标识对应的唯一用户标识，或者该唯一用户标识可以指代的各个用户标识，进而可以提供离线和在线情况下获取一个用户在不同数据源上的所有用户数据的服务，以便结合具体业务场景需求来输出相应服务。

在一种可能实现方式中，服务器还可以定期对用户标识的活跃度进行计算，以便对用户关系图中包括的各个联通子图进行更新。具体地，服务器可以响应于获取到新的日志数据，根据用户标识索引，确定唯一用户标识对应的至少一个用户标识，根据新的日志数据中至少一个用户标识的行为信息，确定唯一用户标识对应的用户活跃度，从用户关系图中删除用户活跃度不满足活跃度条件的唯一用户标识对应的联通子图。通过从用户关系图中删除用户活跃度不满足活跃度条件的唯一用户标识对应的联通子图，可以防止用户关系图中的联通子图不断膨胀，占用较大存储空间，影响其他数据的存储，提高服务器的计算性能和处理速度。参见图6，图6是根据一示例性实施例示出的用户识别方法的整体流程图，该用户识别方法主要包括数据清洗和预处理、与第一用户标识置信度计算、分布式联通分量计算、正向和反向索引构建以及用户标识活跃度计算与更新五部分，该图可以直观展示出上述步骤301至步骤309及后续构建用户标识索引和对用户标识的活跃度进行计算的所有过程，其中，上述步骤301和步骤302属于数据清洗和预处理的过程，上述步骤303至步骤305属于与第一用户标识置信度计算的过程，上述步骤306至步骤309属于分布式联通分量计算的过程，在步骤309中，还对正向和反向索引构建以及用户标识活跃度计算与更新这两部分的内容进行了说明，此处不再赘述。

本公开实施例提供的方案，可以通过根据用户标识之间的行为相似度，来构建用户关系图，由于各个用户的行为不尽相同，因此可以将用户的行为信息作为用户识别的基础，即使同一个用户在不同数据源中对应的是不同的用户标识，也可以根据行为相似度确定出属于同一个用户的第一用户标识和第二用户标识，从而可以将第一用户标识和第二用户标识对应的所有用户数据关联起来，扩展获取到的用户数据，提高用户识别效率和准确性。在第一用户标识更新后，还可以同步对用户标识关系图进行更新，从而可以保持稳定识别属于同一个用户的用户标识。此外，用Spark开源计算平台的分布式存储和计算特性，可以通过分布式计算的方式构建和求解联通图分量，从而可以适应千亿映射关系的大规模应用场景，得到了分散数据源背后的唯一用户，解决了数据孤岛问题，实现了数据互通和业务协同。本公开实施例提供的方案，可以打通用户画像属性，帮助新开发的应用程序(Application，APP)在推荐场景下进行快速冷启动，还可以基于行为相似度识别出唯一用户，来降低用户拉新的营销成本，还可以根据用户的行为信息，对行为相似的用户标识进行聚合，来帮助快速发现作弊用户，提升风控效率，综上，本公开实施例提供的方案可以实现用户识别的场景的扩展，提高业务收益。

图7是根据一示例性实施例示出的一种用户识别装置的框图，参见图7，该装置包括：

获取单元701，被配置为执行获取来自至少两个数据源的日志数据，该日志数据包括用户标识和用户标识对应的行为信息；

用户标识确定单元702，被配置为执行根据该日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从该至少一个第二用户标识中确定与该第一用户标识对应的至少一个目标用户标识，该第一用户标识与对应的目标用户标识之间的行为相似度满足目标条件；

该用户标识确定单元702，还被配置为执行基于该至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识。

本公开实施例提供的装置，通过获取来自至少两个数据源的日志数据，根据日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从至少一个第二用户标识中确定与第一用户标识的行为相似度满足目标条件的至少一个目标用户标识，基于至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识，由于各个用户的行为不尽相同，因此可以将用户的行为信息作为用户识别的基础，即使同一个用户在不同数据源中对应的是不同的用户标识，也可以根据行为相似度确定出属于同一个用户的第一用户标识和第二用户标识，从而可以将同一个用户对应的所有用户数据关联起来，扩展获取到的用户数据，提高用户识别效率和准确性。

在一种可能的实现方式中，该装置还包括：

该用户标识确定单元702，还被配置为执行将与该第一用户标识的行为相似度满足目标条件的第二用户标识，确定为该第一用户标识对应的目标用户标识。

在一种可能的实现方式中，该用户标识确定单元702，还被配置为执行对该日志数据的用户标识进行类型识别，将属于目标类型的用户标识确定为该第一用户标识，将其余的用户标识确定为该第一用户标识对应的第二用户标识。

在一种可能的实现方式中，该装置还包括：

该用户标识确定单元702，被配置为执行将该联通子图中图节点所表示的用户标识，确定为属于同一个用户的用户标识。

在一种可能的实现方式中，该装置还包括：

在一种可能的实现方式中，该用户标识确定单元702，还被配置为执行根据该用户标识索引，确定该唯一用户标识对应的至少一个用户标识；

在一种可能的实现方式中，该装置还包括：

数据清洗单元，被配置为执行对该日志数据进行数据清洗；

在一种可能的实现方式中，该装置还包括：

标记单元，被配置为执行若检测到任一个用户标识与数量大于预设阈值的多个用户标识之间具有对应关系，则对该任一个用户标识和与该任一个用户标识具有对应关系的用户标识进行标记。

图8是根据一示例性实施例示出的一种服务器的框图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)801和一个或多个的存储器802，其中，该一个或多个存储器802中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器802，上述指令可由服务器800的处理器801执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由服务器800的处理器801执行，以完成上述实施例中提供的用户识别方法的方法步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用户识别方法，其特征在于，所述方法包括：

获取来自至少两个数据源的日志数据，所述日志数据包括用户标识和用户标识对应的行为信息；

根据所述日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从所述至少一个第二用户标识中确定与所述第一用户标识对应的至少一个目标用户标识，所述第一用户标识与对应的目标用户标识之间的行为相似度满足目标条件；

基于所述至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识。

2.根据权利要求1所述的方法，其特征在于，所述根据所述日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从所述至少一个第二用户标识中确定与所述第一用户标识对应的至少一个目标用户标识包括：

分别对所述日志数据中所述第一用户标识的行为信息和所述第二用户标识的行为信息进行统计，得到所述第一用户标识的行为特征统计值和对应的所述第二用户标识的行为特征统计值；

根据所述第一用户标识的行为特征统计值和所述第二用户标识的行为特征统计值，确定所述第一用户标识与对应的第二用户标识之间的行为相似度；

将与所述第一用户标识的行为相似度满足目标条件的第二用户标识，确定为所述第一用户标识对应的目标用户标识。

3.根据权利要求2所述的方法，其特征在于，所述根据所述日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从所述至少一个第二用户标识中确定与所述第一用户标识对应的至少一个目标用户标识之前，所述方法还包括：

对所述日志数据的用户标识进行类型识别，将属于目标类型的用户标识确定为所述第一用户标识，将其余的用户标识确定为所述第一用户标识对应的第二用户标识。

4.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识包括：

以所述至少一个第一用户标识和对应的至少一个目标用户标识作为图节点，在所表示用户标识之间具有对应关系的图节点之间添加边，得到用户关系图；

确定所述用户关系图中的联通子图；

将所述联通子图中图节点所表示的用户标识，确定为属于同一个用户的用户标识。

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识之后，所述方法还包括：

基于属于同一个用户的用户标识，生成唯一用户标识；

构建所述属于同一个用户的用户标识与所述唯一用户标识的对应关系，得到用户标识索引。

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识之后，所述方法还包括：

响应于获取到新的日志数据，根据所述用户标识索引和所述新的日志数据，确定所述唯一用户标识对应的用户活跃度；

从所述用户关系图中删除用户活跃度不满足活跃度条件的唯一用户标识对应的联通子图。

7.根据权利要求1所述的方法，其特征在于，所述获取来自至少两个数据源的日志数据之后，所述方法还包括下述至少一项：

对所述日志数据进行数据清洗；

对所述日志数据进行数据预处理。

8.一种用户识别装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取来自至少两个数据源的日志数据，所述日志数据包括用户标识和用户标识对应的行为信息；

用户标识确定单元，被配置为执行根据所述日志数据中至少一个第一用户标识的行为信息和至少一个第二用户标识的行为信息，分别从所述至少一个第二用户标识中确定与所述第一用户标识对应的至少一个目标用户标识，所述第一用户标识与对应的目标用户标识之间的行为相似度满足目标条件；

所述用户标识确定单元，还被配置为执行基于所述至少一个第一用户标识以及对应的至少一个目标用户标识，确定属于同一个用户的用户标识。

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的用户识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的用户识别方法。