CN108924246B

CN108924246B - 一种支持用户私有ip发现的跨屏追踪方法

Info

Publication number: CN108924246B
Application number: CN201810826981.3A
Authority: CN
Inventors: 申德荣; 亓建顺; 聂铁铮; 寇月; 于戈
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2021-01-01
Anticipated expiration: 2038-07-25
Also published as: CN108924246A

Abstract

本发明提供一种支持用户私有IP发现的跨屏追踪方法，涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率；并基于用户私有IP概率生成候选集；计算候选集中候选对上的各属性的TF‑IDF相似度和关联相似度以及IP属性上的PIPSim相似度，得到候选对的属性相似度向量；利用GBRT模型预测候选对的相似度；最后基于得到的相似度生成相似度图，使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法，综合考虑了设备、Cookie和已知用户之间的用户识别，相比于其他的跨屏追踪方法，在准确率、召回率以及F‑0.5值上都有较大幅度的提升。

Description

一种支持用户私有IP发现的跨屏追踪方法

技术领域

本发明涉及数据质量和数据集成技术领域，尤其涉及一种支持用户私有IP发现的跨屏追踪方法。

背景技术

随着智能设备的兴起，互联网用户可能会使用多台设备同时浏览网页，这对广告商和网站主的个性化服务造成了很大的困扰。对于同时使用电脑和手机的用户，广告商不能依据电脑端的浏览记录在用户的手机端推送广告，造成广告推送的割裂，这对广告商会造成巨大的利润损失；而网站主会由于不能推送用户的兴趣点而造成用户粘度下降，损失用户。

跨屏追踪是根据网络日志识别同一互联网用户的多台设备。对于用户的手机、Pad等移动端设备可以使用设备号(如安卓设备的IMEI号和苹果设备的IDFA号)来唯一标识一台设备，设备号和移动设备之间是一一对应的关系；对于用户PC，可以使用用户浏览网页的Cookie来唯一标识PC，但是同一PC可能会对应多个Cookie，PC和Cookie之间是一对多的关系。跨屏追踪就是识别哪些设备和哪些Cookie属于同一个用户。

现有的跨屏追踪方法主要分为四个过程：候选集生成、特征工程、模型训练和后期处理。

对于候选集生成过程，由于服务器日志数量巨大，候选集生成过程直接影响了跨屏追踪的效率。现有方法主要使用IP来生成候选集，将使用过同一IP的Cookie和设备作为候选对。然而并不是所有的IP都能用于候选集生成，对于有大量设备和Cookie接入的IP不能用于候选集生成。使用这种IP生成候选集将导致候选集的准确率大大降低。且这种基于设备和Cookie数量的生成方法具有数据敏感性，需要针对不同的数据集设计不同的生成规则，不具有通用性；而且现有的候选集生成方法只能保证较高的召回率，具有准确率比较低的局限性。

同时，现有跨屏追踪方法中主要将跨屏追踪问题看作是一个二分图问题，只对移动设备和Cookie进行用户识别，没有考虑Cookie和Cookie的用户识别，也没有充分利用已知用户的信息，导致预测结果的召回率偏低。如图1所示，已知Cookie₁、Cookie₂属于同一用户u₁，p_ij表示设备dev_i和cookie_j属于同一用户的概率，

表示设备dev_i与用户u₁属于同一用户的概率。由于现有的用户识别过程没有对Cookie₁和Cookie₂的信息进行聚合，可能会认为dev₁、Cookie₁以及Cookie₂不属于同一用户，造成召回率降低；假设dev₁、Cookie₃和Cookie₄也属于同一用户，通过图1，可能会认为dev₁和Cookie₄属于同一用户，而dev₁和Cookie₃不属于同一用户，造成召回率降低。

发明内容

针对现有技术的缺陷，本发明提供一种支持用户私有IP发现的跨屏追踪方法，实现对服务器日志的用户识别。

一种支持用户私有IP发现的跨屏追踪方法，包括以下步骤：

步骤1、构建训练数据集和测试数据集；选取服务器日志中已知用户的记录集合作为训练数据集，其余记录集合作为测试数据集；

步骤2、采用半监督学习的方式，计算训练数据集和测试数据集中所有IP为用户私有IP的概率，具体方法为：

步骤2.1、预测结果集合初始化；将服务器日志中的记录及该记录的所属用户称为预测结果集P，并将训练数据集作为预测结果集合P的初始；

步骤2.2、构建倒排索引；对预测结果集合P中的记录构建倒排索引，记作

其中

表示用户u_j使用了

次IP_i；

步骤2.3、计算用户私有IP概率；对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0，对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率；

其中，sum_max(IP_i，m)为IP_i对应的前m个最大的

的和；

步骤2.4、生成预测结果集合；

对测试数据集中每一个Cookie_i，分别计算Cookie_i和训练数据集中所有用户的PIPSim相似度以及Cookie_i和测试数据集中所有设备的PIPSim相似度；

选择与Cookie_i相似度最高的用户或者设备，记作id′_i，相似度为s_i，如果相似度s_i大于阈值θ，则认为该Cookie_i和id＇_i属于同一用户u′_i，将所有包含Cookie_i的记录的所属用户标记为u′_i；否则Cookie_i属于新用户u″_i，将所有包含Cookie_i的记录的所属用户标记为u″_i；对于测试数据集中每一个设备dev_j，使用公式2计算dev_j与训练数据集中所有用户的PIPSim相似度，选择与dev_j相似度最高的用户，记作id′_j，相似度为s′_j，如果相似度s′_j大于阈值θ，则认为dev_i和id′_j属于同一用户u′_j，将所有包含dev_j的记录的所属用户标记为u′_j；否则认为dev_i属于新用户u″_j，将所有包含dev_j的记录的所属用户标记为u″_j；

步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变，返回步骤2.3计算的用户私有IP概率；

步骤3、生成候选集，提高跨屏追踪的处理效率；

步骤3.1、信息聚合；将训练数据集中的用户信息以及测试数据集中设备信息和Cookie信息进行聚合，记作

其中id_i表示用户、设备或者Cookie，

表示id_j使用了

次IP_i；

步骤3.2、生成可用IP集合IP_usable；对于每一个IP_i，如果IP_i的用户私有IP概率pro(IP_i)大于阈值δ，则IP_i可用于候选集生成，将其加入到可用IP集合IP_usable；

步骤3.3、生成候选集can；对于测试数据集中的每一个Cookie_i，训练数据集中的用户u_j与Cookie_i的共同IP集合，记作

若

非空且与IP_usable的交集非空，则将(Cookie_i，u_j)作为候选对加入到候选集can，否则不加入到候选集；测试数据集中的设备dev_j与Cookie_i的共同IP集合，记作

若

非空且与IP_usable的交集非空，则将(Cookie_i，dev_j)作为候选对加入到候选集can，否则不加入到候选集；对于测试数据集中每一个dev_i，训练数据集的用户u_j与dev_i的共同IP集合，记作

若

非空且与IP_usable的交集非空，则将候选对(dev_i，u_j)加入到候选集can，否则不加入到候选集；

步骤4、计算候选集的属性相似度；针对每个候选对的属性，计算属性相似度，得到候选对的属性相似度向量；对于候选对，分别对日志中的各个属性计算词频-逆文本词频(term frequency-inverse document frequency，即TF-IDF)的相似度以及关联度相似度，同时计算IP属性的PIPSim相似度，构成多维的相似度向量；

步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度；

对用户、设备和Cookie信息进行聚合，得到

将

按如下所示公式进行归一化处理：

则聚合信息进一步表示为

那么id_i和id_j的PIPSim相似度即为向量的余弦相似度；

步骤4.2、计算候选集中候选对的TF-IDF相似度；

将设备或者Cookie转换为TF-IDF向量表示，对于候选对的TF-IDF相似度使用向量的余弦相似度表示；所述词频和逆文本词频的计算公式分别如公式3和公式4所示：

其中，d表示同一设备或Cookie的日志记录集合，f_t，d表示关键词t在d的所有记录中出现的频率，max{f_t′，d，t′∈d}表示词频中的最大数；N表示设备和Cookie的总数，|{d∈D：t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数；

步骤4.3、计算候选集中候选对的关联相似度；对于候选对(id_i，id_j)的关联相似度用公式5进行计算：

其中，

cooccur(id_i，id_j)为id_i和id_j所有日志记录中有相同属性值的日志数；total(id_i)为id_i的日志数；total(D)为候选集中总的日志数；

步骤5、对步骤4得到的属性相似度向量进行聚合，得到候选对的相似度；

步骤5.1、训练模型；使用训练数据集中数据训练渐进梯度会归树(GradientBoost Regression Tree，即GBRT)模型；

步骤5.2、相似度计算；对于步骤4得到候选对的相似度向量，通过GBRT模型得到候选对以及候选对的相似度。

步骤6、使用图聚类算法对设备和Cookie进行聚类，每一个类簇中的设备和Cookie属于同一用户；

步骤6.1、通过步骤5得到的候选对的相似度，构建相似度图，图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie；

步骤6.2、在相似度图上使用图聚类算法，将不同的节点进行聚类，则一个类簇中节点属于同一用户，完成用户的跨屏追踪。

由上述技术方案可知，本发明的有益效果在于：本发明提供的一种支持用户私有IP发现的跨屏追踪方法，提出了用户私有IP的概念，并用半监督学习的方式预测所有IP的用户私有IP概率；其次，利用用户私有IP来生成候选集，结合多种相似度计算方法和GBRT模型预测用户的相似度，并利用图聚类算法对用户聚类；综合考虑了设备、Cookie和已知用户之间的用户识别，相比于其他的跨屏追踪方法，在准确率、召回率以及F-0.5值上都有较大幅度的提升。

附图说明

图1为本发明实施例提供的背景技术示例图；

图2为本发明实施例提供的一种支持用户私有IP发现的跨屏追踪方法的流程图；

图3为本发明实施例提供的通过GBRT模型得到的候选对以及候选对的相似度图；

图4为本发明实施例提供的聚类结果图；

图5为本发明实施例提供的本发明支持用户私有IP发现的跨屏追踪方法与现有方法的准确率、召回率和F-0.5值的对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种支持用户私有IP发现的跨屏追踪方法，如图2所示，包括以下步骤：

本实施例中，选取服务器日志中的如表1所示的设备日志数据集和表2所示的Cookie日志数据集(所有数据都经过加密)作为数据集，分别包含handle、deviceid/cookieid、ip、pro、cat属性，其中handle属性表示用户的唯一标识，有相同handle的记录属于同一用户，对于handle为-1的记录表示不知道该记录所属的用户；deviceid/cookieid表示设备或Cookie的id，相同的deviceid/cookieid表示同一设备/Cookie；pro可以理解为网站名称或者App名称；ip表示该用户使用该IP登录过该网站或者App；cat表示该网站的类别。跨屏追踪就是识别哪些Cookie和哪些设备属于同一个用户。

表1设备日志数据集

handle	deviceid	ip	pro	cat
					154553	2265724	4875881	356618	8，7，335，18，137
154553	2265724	4875881	481015	8，7，335，343，110
					154553	2265724	4875881	481015	8，7，335，343，110
154553	2265724	4875881	481015	8，7，335，343，110
					154553	2265724	11319489	35131	255，427，106，59
-1	673602	361705	112526	8，7，18，335，137
					-1	673602	361705	112526	8，7，18，335，137
-1	1005020	361705	309956	8，7，18，335，343
					-1	673602	3562929	112526	8，7，18，335，137

表2 Cookie日志数据集

本实施例中，预测结果为(2265724，3085142)为同一用户。

其中

表示用户u_j使用了

次IP_i；

本实施例中，构建的倒排索引为4875881→[(154553，7)]；11319489→[(154553，1)]；361705→[(154553，1)]。

其中，sum_max(IP_i，m)为IP_i对应的前m个最大的

的和；

本实施例中，参数m设置为1，所有IP的用户私有IP概率为：pro(4875881)＝1；pro(11319489)＝1；pro(361705)＝1；pro(3562929)＝1。

步骤2.4、生成预测结果集合；

选择与Cookie_i相似度最高的用户或者设备，记作id′_i，相似度为s_i，如果相似度s_i大于阈值θ，则认为该Cookie_i和id′_i属于同一用户u′_i，将所有包含Cookie_i的记录的所属用户标记为u′_i；否则Cookie_i属于新用户u″_i，将所有包含Cookie_i的记录的所属用户标记为u″_i；对于测试数据集中每一个设备dev_j，使用公式2计算dev_j与训练数据集中所有用户的PIPSim相似度，选择与dev_j相似度最高的用户，记作id′_j，相似度为s′_j，如果相似度s′_j大于阈值θ，则认为dev_i和id′_j属于同一用户u′_j，将所有包含dev_j的记录的所属用户标记为u′_j；否则认为dev_i属于新用户u″_j，将所有包含dev_j的记录的所属用户标记为u″_i；

本实施例中，参数θ设置为0.9，首先计算1857265(cookieid)与用户154553(handle)、设备673602(deviceid)、1005020(deviceid)的PIPSim相似度，分别为PIPSim(1857265，154553)＝0.97973，PIPSim(1857265，673602)＝0.4，PIPSim(1857265，1005020)＝0.4472，由于PIPSim(1857265，154553)＝0.97973＞θ，所以认为1857465(cookieid)属于用户154553(handle)。同理预测其他cookieid和deviceid。

本实施例中，最终计算得到的用户私有IP概率分别为：pro(4875881)＝1；pro(11319489)＝1；pro(361705)＝0.375；pro(3562929)＝1。

步骤3、生成候选集，提高跨屏追踪的处理效率；

其中id_i表示用户、设备或者Cookie，

表示id_j使用了

次IP_i；

本实施例中，设置δ＝0.9，取pro(IP_i)＞0.9的IP，所以可以得到可用IP集合为IP_usable＝{4875881，11319489，3562929}。

若

若

若

本实施例得到的候选集can＝{(1857265，154553)}。

步骤4、计算候选集的属性相似度；针对每个候选对的属性，计算属性相似度，得到候选对的属性相似度向量；对于候选对，分别对日志中的各个属性计算词频-逆文本词频(TF-IDF，term frequency-inverse document frequency)的相似度以及关联度相似度，同时计算IP属性的PIPSim相似度，构成多维的相似度向量；

对用户、设备和Cookie信息进行聚合，得到

将

按如下所示公式进行归一化处理：

则聚合信息进一步表示为

那么id_i和id_j的PIPSim相似度即为向量的余弦相似度；

本实施例中，计算得到IP属性的PIPSim相似度为PIPSim(1857265，154553)＝0.987。

步骤4.2、计算候选集中候选对的TF-IDF相似度；

本实施例中，计算的选集中候选对的TF-IDF相似度分别为：IP属性的TF-IDF相似度，TF-IDF_IP(1857265，154553)＝0.8369；pro属性的TF-IDF相似度，TF-IDF_pro(1857265，154553)＝0.3061；cat属性的TF-IDF相似度，TF-IDF_cat(1857265，154553)＝0.540。

其中，

本实施例中，计算的候选集中候选对的关联相似度分别为：IP属性的关联相似度，Sim_assoc-IP(1857265，154553)＝2.0；pro属性的关联相似度，Sim_assoc-pro(1857265，154553)＝1.3333；cat属性的关联相似度，Sim_assoc-cat(1857265，154553)＝0.3409。

最终得到的候选对(1857265，154553)的属相相似度向量为＜0.987，0.8369，0.3061，0.540，2.0，1.3333，0.3409＞。

步骤5.2、相似度计算；对于步骤4得到候选对的相似度向量，通过GBRT模型得到如图3所示的候选对以及候选对的相似度。

本实施例中，构建的相似度图如图3所示，进行聚类的结果如图4所示，得到跨屏追踪结果为：[2265724(deviceid)，3085142(cookieid)，1857265(cookieid)]、[673602(deviceid)]、[1005020(deviceid)]、[1171398(cookieid)]。

本实施例还提供了如图5所示的采用本发明方法和其他两种方法进行跨屏追踪在准确率、召回率和F-0.5值的对比情况，从图中可以看出，本发明的方法相比于其他的跨屏追踪方法，在准确率、召回率以及F-0.5值上都有较大幅度的提升。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种支持用户私有IP发现的跨屏追踪方法，其特征在于：包括以下步骤：

步骤1、构建训练数据集和测试数据集；选取服务器日志中己知用户的记录集合作为训练数据集，其余记录集合作为测试数据集；

步骤2、采用半监督学习的方式，计算训练数据集和测试数据集中所有IP为用户私有IP的概率；

步骤3、生成候选集，提高跨屏追踪的处理效率；

其中id_i表示用户、设备或者Cookie，

表示id_j使用了

次IP_i；

步骤3.2、生成可用IP集合IP_usable对于每一个IP_i，如果IP_i的用户私有IP概率pro(IP_i)大于阈值δ，则IP_i可用于候选集生成，将其加入到可用IP集合IP_usable

若

若

若

步骤4、计算候选集的属性相似度；针对每个候选对的属性，计算属性相似度，得到候选对的属性相似度向量；对于候选对，分别对日志中的各个属性计算词频-逆文本词频(termfrequency-inverse document frequency，即TF-IDF)的相似度以及关联度相似度，同时计算IP属性的PIPSim相似度，构成多维的相似度向量；

对用户、设备和Cookie信息进行聚合，得到

将

按如下所示公式进行归一化处理：

则聚合信息进一步表示为

那么id_i和id_j的PIPSim相似度即为向量的余弦相似度；

步骤4.2、计算候选集中候选对的TF-IDF相似度；

其中，

步骤6、使用图聚类算法对设备和Cookie进行聚类，每一个类簇中的设备和Cookie属于同一用户。

2.根据权利要求1所述的一种支持用户私有IP发现的跨屏追踪方法，其特征在于：所述步骤2的具体方法为：

其中

表示用户u_j使用了

次IP_i；

其中，sum_max(IP_i，m)为IP_i对应的前m个最大的

的和；

步骤2.4、生成预测结果集合；

选择与Cookie_i相似度最高的用户或者设备，记作id′_i，相似度为s_i，如果相似度s_i大于阈值θ，则认为该Cookie_i和id′_i属于同一用户u′_i，将所有包含Cookie_i的记录的所属用户标记为u′_i；否则Cookie_i属于新用户u″_i，将所有包含Cookie_i的记录的所属用户标记为u″_i；对于测试数据集中每一个设备dev_j，使用公式2计算dev_j与训练数据集中所有用户的PIPSim相似度，选择与dev_j相似度最高的用户，记作id′_j，相似度为s′_j，如果相似度s′_j大于阈值θ，则认为dev_i和id′_j属于同一用户u′_j，将所有包含dev_j的记录的所属用户标记为u′_j；否则认为dev_i属于新用户u″_j，将所有包含dev_j的记录的所属用户标记为u″_j；

步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变，返回步骤2.3计算的用户私有IP概率。

3.根据权利要求2所述的一种支持用户私有IP发现的跨屏追踪方法，其特征在于：所述步骤5的具体方法为：

步骤5.1、训练模型；使用训练数据集中数据训练渐进梯度会归树(Gradient BoostRegression Tree，即GBRT)模型；

4.根据权利要求3所述的一种支持用户私有IP发现的跨屏追踪方法，其特征在于：所述步骤6的具体方法为：