CN108830052A

CN108830052A - 一种基于ai的跨设备上网用户识别方法

Info

Publication number: CN108830052A
Application number: CN201810515929.6A
Authority: CN
Inventors: 唐枭; 唐一枭; 崔渊博; 阿曼太; 王宇; 金红; 杨满智; 刘长永
Original assignee: Heng Jia Jia (beijing) Technology Co Ltd
Current assignee: Heng Jia Jia (beijing) Technology Co Ltd; Eversec Beijing Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-16

Abstract

本发明公开了一种基于AI的跨设备上网用户识别方法，所述方法包括：提取不同屏下的每个用户上网的URL数据和时间戳数据，并针对每条数据添加该用户的身份id；分别统计该用户的上网意向特征、强识别URL特征及上网时间特征；根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型，并通过梯度增强回归树算法对上述每个特征进行权重训练，得到该用户最终的上网行为模型；通过形成的所述上网行为模型，识别出跨屏用户身份。本发明所述的基于AI的跨设备上网用户识别方法，统计与分析了上网意向、强识别url和上网时间等特征，通过使用多种构造特征对样本检测和学习，使用在线学习对识别错的样本加入训练集更新模型，保证了识别率和准确率。

Description

一种基于AI的跨设备上网用户识别方法

技术领域

本发明属于网络安全及互联网大数据领域，更具体来说，涉及一种基于AI的跨设备上网用户识别方法。

背景技术

目前已经有基于用户账号pin检测跨屏用户身份的方法，当前研究的热点是能够在不使用用户账号pin的情况下识别出跨屏用户身份的基于数据挖掘和机器学习的检测技术。

现有技术方案中，常采用“基于用户账号pin检测跨屏用户身份的方法”来进行检测；但是，在上述方法，存在如下缺点：

1、漏检率较高；2、在缺乏用户账号pin的情况下很难识别出用户身份；3、识别效率较低。

基于对用户上网行为的机器学习算法检测跨屏用户身份的方法，是目前一种新型的检测方法，并且该方法在识别的准确率方面有较大提升。

发明内容

本发明所要解决的问题就是在缺乏用户账号pin的情况下如何准确并高效识别出跨屏用户的身份。

为解决上述技术问题，本发明所采用的技术方案如下：

一种基于AI的跨设备上网用户识别方法，所述方法包括：

步骤S1、提取不同屏下的每个用户上网的URL数据和时间戳数据，并针对每条数据添加该用户的身份id；

步骤S2、分别统计该用户的上网意向特征、强识别URL特征及上网时间特征；

步骤S3、根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型，并通过梯度增强回归树算法对上述每个特征进行权重训练，得到该用户最终的上网行为模型；

步骤S4、通过形成的所述上网行为模型，识别出跨屏用户身份。

进一步地，在所述步骤S2中，所述上网意向特征的获取方法包括：

通过相似度计算，对用户上网的URL进行归并，将子级URL网址同归到其上一级URL网址，并作为一个上网意向特征。

进一步地，在所述步骤S2中，所述强识别URL特征的获取方法包括：

检测用户不同屏下是否出现相同的URL，如果是，且该URL均指向同一用户，则从该URL提取数据集作为强识别URL特征。

进一步地，在所述步骤S2中，所述上网时间特征的获取方法包括：

检测用户在不同的设备上的上网时间分布规律。

进一步地，所述方法还包括：

根据每次的识别结果，对模型的权重进行相应的更新。

进一步地，所述上网意向特征的获取方法还包括：

统计用户在不同设备下的访问意愿是否存在相似点；

根据不同的用户不同的访问意愿，对用户的上网行为进行切分；

通过对每次上网行为所访问的上网意向进行一次权重匹配，计算出每一个用户的每一个上网意向的权重；

将计算的权重作为用户基础模型的一个特征。

进一步地，所述对用户的上网行为进行切分的方法包括：

每间隔一段时间就对用户的上网行为进行一次记录。

进一步地，所述权重匹配通过TF-IDF进行。

进一步地，所述梯度增强回归树算法为GBRT梯度增强回归树算法，通过权重训练得到每个权重的最佳值。

进一步地，所述基础模型由所述用户的上网意向特征、强识别URL特征及上网时间特征三种特征综合判断并建立。

与现有技术相比，本发明所述的基于AI的跨设备上网用户识别方法，统计与分析了上网意向、强识别url和上网时间等特征，通过使用多种构造特征对样本检测和学习，使用在线学习对识别错的样本加入训练集更新模型，保证了识别率和准确率。

附图说明

图1为本发明实施例所述的基于AI的跨设备上网用户识别方法的原理示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

本发明所要解决的问题就是在缺乏用户账号pin的情况下如何识别出跨屏用户的身份。

参照图1所示，一种基于AI的跨设备上网用户识别方法，所述方法包括：

首先对跨屏用户在不同屏幕上网产生的URL和时间戳进行提取，并且每条数据都标注上用户身份id。然后通过URL和时间戳样本提取出用户上网过程中的各项特征，例如常用上网时间、浏览数据集群等。然后使用梯度增强回归树算法进行特征的权重训练，训练出每一个特征的权重，然后形成每个用户的上网行为模型。最终达到通过互联网数据识别出跨屏用户身份的目的。最后根据每次的识别结果，对模型的权重进行相应的更新。

其中，URL(Uniform Resource Locator，统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

下面来对本发明的流程作如下详细说明。

1、提取出用户上网的URL和时间戳，并且标注出每条数据的用户身份id。

2、通过对相似度计算，对URL进行归并，统计出用户的上网意愿。由于URL存在多级现象，就像文件目录一样，一个上级URL下可以有多个子级URL。例如某URL为aaa/bbb/ccc/ddd，则其上级URL可以是aaa、aaa/bbb、aaa/bbb/ccc这三种，将这一系列网址都归为1个网站或者一个上网意向。此外，由于用户在不同设备下的访问意愿多数情况下都有相似点，例如在手机上登录QQ的同时在电脑上也登录QQ，这样每个用户都有不同的上网意向。最后将用户的上网行为切分，例如每30分钟就记录为一次上网行为。然后通过对每次上网行为所访问的上网意向通过TF-IDF进行一次权重匹配，计算出每个用户的每一个上网意向的权重，然后将这个数据集作为用户模型的一个特征。

3、检测用户不同屏下是否出现相同的URL，如果是，且该URL均指向同一用户，则从该URL提取数据集作为强识别URL特征。某些URL对比普通的URL具有更强烈的用户身份特征，暂时称其为强势别URL。如果不同屏下的都出现了强识别URL，并且都指向同一用户，那么对识别用户身份就会有很高的参考价值。例如手机上出现aaaaa/mail/123456@11.com、电脑上也出现aaaaa/mail/123456@11.com。那么这个aaaaa/mail/就是一个强识别URL，则提取出该数据集作为用户模型的另一个特征。

4、检测用户在不同的设备上的上网时间分布规律。部分用户在不同的设备上的上网时间是有固定时间段的。举个例子，某互联网职员，周一到周五的工作日从上网9点到下午6点利用公司的电脑进行上网行为，然后下午6点到下午7点这段时间在回家路上利用手机产生上网行为，最后晚上8点到晚上10点这段时间利用平板电脑产生上网行为。每个用户的上网模式都会有细微的区别，通过这些区别能够了解不同的用户产生上网行为的时间段分布规律，这部分数据集也可以作为用户模型的一个特征。

5、综合上述三个特征参数，建立出一个基础的用户模型，然后通过梯度增强回归树算法对每个特征进行权重训练。通常来说，三个特征中，强识别url的特征占比权重是较高的，因为用户通常不会轻易的去改变自己的账号id或者昵称，其次用户的上网意向和上网时间特征的权重相对权重相对较低，需要通过训练来得出权重。例如对于喜欢猎奇或者生活圈较大的用户而言，其上网意向可能会有时间段的变化，例如新出了一款App——A，某用户1非常喜欢，但是可能使用了1个月就失去了兴趣，转而投向了另一款有相似点的App——B，但是对于生活圈较小的用户而言，其上网意向就会相对稳定，就算出现了一些上网意向的变化，也不会对总体的上网意向产生影响。对于时间特征而言，某些上班时间不太固定的用户，其上网时间就不会很固定，例如白班晚班。而学生类的用户相对而言时间特征就会更加精确。但是最终每个模型权重的最佳值还是需要经过训练数据得出。得出模型后，基于整个地区所有用户的移动流量和固网流量，匹配出来自同一用户的流量，从而实现跨屏用户的识别。其中，本发明实施例中的算法采用GBRT(Gradient Boost RegressionTree)来实现，它是一种迭代的实现回归的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终结果。

在形成了用户的最终模型时，还使用在线学习对识别错的样本加入训练集更新模型，使得模型检测更准确。

本发明在用户上网行为的时候，统计与分析了上网意向、强识别url和上网时间等特征，使用多种构造特征对样本检测和学习。对每个用户都构建了用户模型，使用在线学习对识别错的样本加入训练集更新模型，该方法与现有的其它方法选取维度更全面，可提高识别的准确率。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于AI的跨设备上网用户识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的跨设备上网用户识别方法，其特征在于，在所述步骤S2中，所述上网意向特征的获取方法包括：

3.如权利要求1所述的跨设备上网用户识别方法，其特征在于，在所述步骤S2中，所述强识别URL特征的获取方法包括：

4.如权利要求1所述的跨设备上网用户识别方法，其特征在于，在所述步骤S2中，所述上网时间特征的获取方法包括：

检测用户在不同的设备上的上网时间分布规律。

5.如权利要求1所述的跨设备上网用户识别方法，其特征在于，所述方法还包括：

根据每次的识别结果，对模型的权重进行相应的更新。

6.如权利要求2所述的跨设备上网用户识别方法，其特征在于，所述上网意向特征的获取方法还包括：

统计用户在不同设备下的访问意愿是否存在相似点；

将计算的权重作为用户基础模型的一个特征。

7.如权利要求6所述的跨设备上网用户识别方法，其特征在于，所述对用户的上网行为进行切分的方法包括：

每间隔一段时间就对用户的上网行为进行一次记录。

8.如权利要求6所述的跨设备上网用户识别方法，其特征在于，所述权重匹配通过TF-IDF进行。

9.如权利要求1所述的跨设备上网用户识别方法，其特征在于，所述梯度增强回归树算法为GBRT梯度增强回归树算法，通过权重训练得到每个权重的最佳值。

10.如权利要求1所述的跨设备上网用户识别方法，其特征在于，所述基础模型由所述用户的上网意向特征、强识别URL特征及上网时间特征三种特征综合判断并建立。