CN108924246A - 一种支持用户私有ip发现的跨屏追踪方法 - Google Patents

一种支持用户私有ip发现的跨屏追踪方法 Download PDF

Info

Publication number
CN108924246A
CN108924246A CN201810826981.3A CN201810826981A CN108924246A CN 108924246 A CN108924246 A CN 108924246A CN 201810826981 A CN201810826981 A CN 201810826981A CN 108924246 A CN108924246 A CN 108924246A
Authority
CN
China
Prior art keywords
similarity
user
cookie
candidate
private
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810826981.3A
Other languages
English (en)
Other versions
CN108924246B (zh
Inventor
申德荣
亓建顺
聂铁铮
寇月
于戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810826981.3A priority Critical patent/CN108924246B/zh
Publication of CN108924246A publication Critical patent/CN108924246A/zh
Application granted granted Critical
Publication of CN108924246B publication Critical patent/CN108924246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF‑IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F‑0.5值上都有较大幅度的提升。

Description

一种支持用户私有IP发现的跨屏追踪方法
技术领域
本发明涉及数据质量和数据集成技术领域,尤其涉及一种支持用户私有IP发现的跨屏追踪方法。
背景技术
随着智能设备的兴起,互联网用户可能会使用多台设备同时浏览网页,这对广告商和网站主的个性化服务造成了很大的困扰。对于同时使用电脑和手机的用户,广告商不能依据电脑端的浏览记录在用户的手机端推送广告,造成广告推送的割裂,这对广告商会造成巨大的利润损失;而网站主会由于不能推送用户的兴趣点而造成用户粘度下降,损失用户。
跨屏追踪是根据网络日志识别同一互联网用户的多台设备。对于用户的手机、Pad等移动端设备可以使用设备号(如安卓设备的IMEI号和苹果设备的IDFA号)来唯一标识一台设备,设备号和移动设备之间是一一对应的关系;对于用户PC,可以使用用户浏览网页的Cookie来唯一标识PC,但是同一PC可能会对应多个Cookie,PC和Cookie之间是一对多的关系。跨屏追踪就是识别哪些设备和哪些Cookie属于同一个用户。
现有的跨屏追踪方法主要分为四个过程:候选集生成、特征工程、模型训练和后期处理。
对于候选集生成过程,由于服务器日志数量巨大,候选集生成过程直接影响了跨屏追踪的效率。现有方法主要使用IP来生成候选集,将使用过同一IP的Cookie和设备作为候选对。然而并不是所有的IP都能用于候选集生成,对于有大量设备和Cookie接入的IP不能用于候选集生成。使用这种IP生成候选集将导致候选集的准确率大大降低。且这种基于设备和Cookie数量的生成方法具有数据敏感性,需要针对不同的数据集设计不同的生成规则,不具有通用性;而且现有的候选集生成方法只能保证较高的召回率,具有准确率比较低的局限性。
同时,现有跨屏追踪方法中主要将跨屏追踪问题看作是一个二分图问题,只对移动设备和Cookie进行用户识别,没有考虑Cookie和Cookie的用户识别,也没有充分利用已知用户的信息,导致预测结果的召回率偏低。如图1所示,已知Cookie1、Cookie2属于同一用户u1,pij表示设备devi和cookiej属于同一用户的概率,表示设备devi与用户u1属于同一用户的概率。由于现有的用户识别过程没有对Cookie1和Cookie2的信息进行聚合,可能会认为dev1、Cookie1以及Cookie2不属于同一用户,造成召回率降低;假设dev1、Cookie3和Cookie4也属于同一用户,通过图1,可能会认为dev1和Cookie4属于同一用户,而dev1和Cookie3不属于同一用户,造成召回率降低。
发明内容
针对现有技术的缺陷,本发明提供一种支持用户私有IP发现的跨屏追踪方法,实现对服务器日志的用户识别。
一种支持用户私有IP发现的跨屏追踪方法,包括以下步骤:
步骤1、构建训练数据集和测试数据集;选取服务器日志中已知用户的记录集合作为训练数据集,其余记录集合作为测试数据集;
步骤2、采用半监督学习的方式,计算训练数据集和测试数据集中所有IP为用户私有IP的概率,具体方法为:
步骤2.1、预测结果集合初始化;将服务器日志中的记录及该记录的所属用户称为预测结果集P,并将训练数据集作为预测结果集合P的初始;
步骤2.2、构建倒排索引;对预测结果集合P中的记录构建倒排索引,记作 其中表示用户uj使用了次IPi
步骤2.3、计算用户私有IP概率;对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0,对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率;
其中,sum_max(IPi,m)为IPi对应的前m个最大的的和;
步骤2.4、生成预测结果集合;
对测试数据集中每一个Cookiei,分别计算Cookiei和训练数据集中所有用户的PIPSim相似度以及Cookiei和测试数据集中所有设备的PIPSim相似度;
选择与Cookiei相似度最高的用户或者设备,记作id′i,相似度为si,如果相似度si大于阈值θ,则认为该Cookiei和id'i属于同一用户u′i,将所有包含Cookiei的记录的所属用户标记为u′i;否则Cookiei属于新用户u″i,将所有包含Cookiei的记录的所属用户标记为u″i;对于测试数据集中每一个设备devj,使用公式2计算devj与训练数据集中所有用户的PIPSim相似度,选择与devj相似度最高的用户,记作id′j,相似度为s′j,如果相似度s′j大于阈值θ,则认为devi和id′j属于同一用户u′j,将所有包含devj的记录的所属用户标记为u′j;否则认为devi属于新用户u″j,将所有包含devj的记录的所属用户标记为u″j
步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变,返回步骤2.3计算的用户私有IP概率;
步骤3、生成候选集,提高跨屏追踪的处理效率;
步骤3.1、信息聚合;将训练数据集中的用户信息以及测试数据集中设备信息和Cookie信息进行聚合,记作其中idi表示用户、设备或者Cookie,表示idj使用了次IPi
步骤3.2、生成可用IP集合IPusable;对于每一个IPi,如果IPi的用户私有IP概率pro(IPi)大于阈值δ,则IPi可用于候选集生成,将其加入到可用IP集合IPusable
步骤3.3、生成候选集can;对于测试数据集中的每一个Cookiei,训练数据集中的用户uj与Cookiei的共同IP集合,记作非空且与IPusable的交集非空,则将(Cookiei,uj)作为候选对加入到候选集can,否则不加入到候选集;测试数据集中的设备devj与Cookiei的共同IP集合,记作非空且与IPusable的交集非空,则将(Cookiei,devj)作为候选对加入到候选集can,否则不加入到候选集;对于测试数据集中每一个devi,训练数据集的用户uj与devi的共同IP集合,记作非空且与IPusable的交集非空,则将候选对(devi,uj)加入到候选集can,否则不加入到候选集;
步骤4、计算候选集的属性相似度;针对每个候选对的属性,计算属性相似度,得到候选对的属性相似度向量;对于候选对,分别对日志中的各个属性计算词频-逆文本词频(term frequency-inverse document frequency,即TF-IDF)的相似度以及关联度相似度,同时计算IP属性的PIPSim相似度,构成多维的相似度向量;
步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度;
对用户、设备和Cookie信息进行聚合,得到按如下所示公式进行归一化处理:
则聚合信息进一步表示为那么idi和idj的PIPSim相似度即为向量的余弦相似度;
步骤4.2、计算候选集中候选对的TF-IDF相似度;
将设备或者Cookie转换为TF-IDF向量表示,对于候选对的TF-IDF相似度使用向量的余弦相似度表示;所述词频和逆文本词频的计算公式分别如公式3和公式4所示:
其中,d表示同一设备或Cookie的日志记录集合,ft,d表示关键词t在d的所有记录中出现的频率,max{ft′,d,t′∈d}表示词频中的最大数;N表示设备和Cookie的总数,|{d∈D:t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数;
步骤4.3、计算候选集中候选对的关联相似度;对于候选对(idi,idj)的关联相似度用公式5进行计算:
其中,cooccur(idi,idj)为idi和idj所有日志记录中有相同属性值的日志数;total(idi)为idi的日志数;total(D)为候选集中总的日志数;
步骤5、对步骤4得到的属性相似度向量进行聚合,得到候选对的相似度;
步骤5.1、训练模型;使用训练数据集中数据训练渐进梯度会归树(GradientBoost Regression Tree,即GBRT)模型;
步骤5.2、相似度计算;对于步骤4得到候选对的相似度向量,通过GBRT模型得到候选对以及候选对的相似度。
步骤6、使用图聚类算法对设备和Cookie进行聚类,每一个类簇中的设备和Cookie属于同一用户;
步骤6.1、通过步骤5得到的候选对的相似度,构建相似度图,图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie;
步骤6.2、在相似度图上使用图聚类算法,将不同的节点进行聚类,则一个类簇中节点属于同一用户,完成用户的跨屏追踪。
由上述技术方案可知,本发明的有益效果在于:本发明提供的一种支持用户私有IP发现的跨屏追踪方法,提出了用户私有IP的概念,并用半监督学习的方式预测所有IP的用户私有IP概率;其次,利用用户私有IP来生成候选集,结合多种相似度计算方法和GBRT模型预测用户的相似度,并利用图聚类算法对用户聚类;综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。
附图说明
图1为本发明实施例提供的背景技术示例图;
图2为本发明实施例提供的一种支持用户私有IP发现的跨屏追踪方法的流程图;
图3为本发明实施例提供的通过GBRT模型得到的候选对以及候选对的相似度图;
图4为本发明实施例提供的聚类结果图;
图5为本发明实施例提供的本发明支持用户私有IP发现的跨屏追踪方法与现有方法的准确率、召回率和F-0.5值的对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种支持用户私有IP发现的跨屏追踪方法,如图2所示,包括以下步骤:
步骤1、构建训练数据集和测试数据集;选取服务器日志中已知用户的记录集合作为训练数据集,其余记录集合作为测试数据集;
本实施例中,选取服务器日志中的如表1所示的设备日志数据集和表2所示的Cookie日志数据集(所有数据都经过加密)作为数据集,分别包含handle、deviceid/cookieid、ip、pro、cat属性,其中handle属性表示用户的唯一标识,有相同handle的记录属于同一用户,对于handle为-1的记录表示不知道该记录所属的用户;deviceid/cookieid表示设备或Cookie的id,相同的deviceid/cookieid表示同一设备/Cookie;pro可以理解为网站名称或者App名称;ip表示该用户使用该IP登录过该网站或者App;cat表示该网站的类别。跨屏追踪就是识别哪些Cookie和哪些设备属于同一个用户。
表1设备日志数据集
handle deviceid ip pro cat
154553 2265724 4875881 356618 8,7,335,18,137
154553 2265724 4875881 481015 8,7,335,343,110
154553 2265724 4875881 481015 8,7,335,343,110
154553 2265724 4875881 481015 8,7,335,343,110
154553 2265724 11319489 35131 255,427,106,59
-1 673602 361705 112526 8,7,18,335,137
-1 673602 361705 112526 8,7,18,335,137
-1 1005020 361705 309956 8,7,18,335,343
-1 673602 3562929 112526 8,7,18,335,137
表2 Cookie日志数据集
步骤2、采用半监督学习的方式,计算训练数据集和测试数据集中所有IP为用户私有IP的概率,具体方法为:
步骤2.1、预测结果集合初始化;将服务器日志中的记录及该记录的所属用户称为预测结果集P,并将训练数据集作为预测结果集合P的初始;
本实施例中,预测结果为(2265724,3085142)为同一用户。
步骤2.2、构建倒排索引;对预测结果集合P中的记录构建倒排索引,记作 其中表示用户uj使用了次IPi
本实施例中,构建的倒排索引为4875881→[(154553,7)];11319489→[(154553,1)];361705→[(154553,1)]。
步骤2.3、计算用户私有IP概率;对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0,对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率;
其中,sum_max(IPi,m)为IPi对应的前m个最大的的和;
本实施例中,参数m设置为1,所有IP的用户私有IP概率为:pro(4875881)=1;pro(11319489)=1;pro(361705)=1;pro(3562929)=1。
步骤2.4、生成预测结果集合;
对测试数据集中每一个Cookiei,分别计算Cookiei和训练数据集中所有用户的PIPSim相似度以及Cookiei和测试数据集中所有设备的PIPSim相似度;
选择与Cookiei相似度最高的用户或者设备,记作id′i,相似度为si,如果相似度si大于阈值θ,则认为该Cookiei和id′i属于同一用户u′i,将所有包含Cookiei的记录的所属用户标记为u′i;否则Cookiei属于新用户u″i,将所有包含Cookiei的记录的所属用户标记为u″i;对于测试数据集中每一个设备devj,使用公式2计算devj与训练数据集中所有用户的PIPSim相似度,选择与devj相似度最高的用户,记作id′j,相似度为s′j,如果相似度s′j大于阈值θ,则认为devi和id′j属于同一用户u′j,将所有包含devj的记录的所属用户标记为u′j;否则认为devi属于新用户u″j,将所有包含devj的记录的所属用户标记为u″i
本实施例中,参数θ设置为0.9,首先计算1857265(cookieid)与用户154553(handle)、设备673602(deviceid)、1005020(deviceid)的PIPSim相似度,分别为PIPSim(1857265,154553)=0.97973,PIPSim(1857265,673602)=0.4,PIPSim(1857265,1005020)=0.4472,由于PIPSim(1857265,154553)=0.97973>θ,所以认为1857465(cookieid)属于用户154553(handle)。同理预测其他cookieid和deviceid。
步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变,返回步骤2.3计算的用户私有IP概率;
本实施例中,最终计算得到的用户私有IP概率分别为:pro(4875881)=1;pro(11319489)=1;pro(361705)=0.375;pro(3562929)=1。
步骤3、生成候选集,提高跨屏追踪的处理效率;
步骤3.1、信息聚合;将训练数据集中的用户信息以及测试数据集中设备信息和Cookie信息进行聚合,记作其中idi表示用户、设备或者Cookie,表示idj使用了次IPi
步骤3.2、生成可用IP集合IPusable;对于每一个IPi,如果IPi的用户私有IP概率pro(IPi)大于阈值δ,则IPi可用于候选集生成,将其加入到可用IP集合IPusable
本实施例中,设置δ=0.9,取pro(IPi)>0.9的IP,所以可以得到可用IP集合为IPusable={4875881,11319489,3562929}。
步骤3.3、生成候选集can;对于测试数据集中的每一个Cookiei,训练数据集中的用户uj与Cookiei的共同IP集合,记作非空且与IPusable的交集非空,则将(Cookiei,uj)作为候选对加入到候选集can,否则不加入到候选集;测试数据集中的设备devj与Cookiei的共同IP集合,记作非空且与IPusable的交集非空,则将(Cookiei,devj)作为候选对加入到候选集can,否则不加入到候选集;对于测试数据集中每一个devi,训练数据集的用户uj与devi的共同IP集合,记作非空且与IPusable的交集非空,则将候选对(devi,uj)加入到候选集can,否则不加入到候选集;
本实施例得到的候选集can={(1857265,154553)}。
步骤4、计算候选集的属性相似度;针对每个候选对的属性,计算属性相似度,得到候选对的属性相似度向量;对于候选对,分别对日志中的各个属性计算词频-逆文本词频(TF-IDF,term frequency-inverse document frequency)的相似度以及关联度相似度,同时计算IP属性的PIPSim相似度,构成多维的相似度向量;
步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度;
对用户、设备和Cookie信息进行聚合,得到按如下所示公式进行归一化处理:
则聚合信息进一步表示为那么idi和idj的PIPSim相似度即为向量的余弦相似度;
本实施例中,计算得到IP属性的PIPSim相似度为PIPSim(1857265,154553)=0.987。
步骤4.2、计算候选集中候选对的TF-IDF相似度;
将设备或者Cookie转换为TF-IDF向量表示,对于候选对的TF-IDF相似度使用向量的余弦相似度表示;所述词频和逆文本词频的计算公式分别如公式3和公式4所示:
其中,d表示同一设备或Cookie的日志记录集合,ft,d表示关键词t在d的所有记录中出现的频率,max{ft′,d,t′∈d}表示词频中的最大数;N表示设备和Cookie的总数,|{d∈D:t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数;
本实施例中,计算的选集中候选对的TF-IDF相似度分别为:IP属性的TF-IDF相似度,TF-IDFIP(1857265,154553)=0.8369;pro属性的TF-IDF相似度,TF-IDFpro(1857265,154553)=0.3061;cat属性的TF-IDF相似度,TF-IDFcat(1857265,154553)=0.540。
步骤4.3、计算候选集中候选对的关联相似度;对于候选对(idi,idj)的关联相似度用公式5进行计算:
其中,cooccur(idi,idj)为idi和idj所有日志记录中有相同属性值的日志数;total(idi)为idi的日志数;total(D)为候选集中总的日志数;
本实施例中,计算的候选集中候选对的关联相似度分别为:IP属性的关联相似度,Simassoc-IP(1857265,154553)=2.0;pro属性的关联相似度,Simassoc-pro(1857265,154553)=1.3333;cat属性的关联相似度,Simassoc-cat(1857265,154553)=0.3409。
最终得到的候选对(1857265,154553)的属相相似度向量为<0.987,0.8369,0.3061,0.540,2.0,1.3333,0.3409>。
步骤5、对步骤4得到的属性相似度向量进行聚合,得到候选对的相似度;
步骤5.1、训练模型;使用训练数据集中数据训练渐进梯度会归树(GradientBoost Regression Tree,即GBRT)模型;
步骤5.2、相似度计算;对于步骤4得到候选对的相似度向量,通过GBRT模型得到如图3所示的候选对以及候选对的相似度。
步骤6、使用图聚类算法对设备和Cookie进行聚类,每一个类簇中的设备和Cookie属于同一用户;
步骤6.1、通过步骤5得到的候选对的相似度,构建相似度图,图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie;
步骤6.2、在相似度图上使用图聚类算法,将不同的节点进行聚类,则一个类簇中节点属于同一用户,完成用户的跨屏追踪。
本实施例中,构建的相似度图如图3所示,进行聚类的结果如图4所示,得到跨屏追踪结果为:[2265724(deviceid),3085142(cookieid),1857265(cookieid)]、[673602(deviceid)]、[1005020(deviceid)]、[1171398(cookieid)]。
本实施例还提供了如图5所示的采用本发明方法和其他两种方法进行跨屏追踪在准确率、召回率和F-0.5值的对比情况,从图中可以看出,本发明的方法相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种支持用户私有IP发现的跨屏追踪方法,其特征在于:包括以下步骤:
步骤1、构建训练数据集和测试数据集;选取服务器日志中已知用户的记录集合作为训练数据集,其余记录集合作为测试数据集;
步骤2、采用半监督学习的方式,计算训练数据集和测试数据集中所有IP为用户私有IP的概率;
步骤3、生成候选集,提高跨屏追踪的处理效率;
步骤4、计算候选集的属性相似度;针对每个候选对的属性,计算属性相似度,得到候选对的属性相似度向量;对于候选对,分别对日志中的各个属性计算词频-逆文本词频(termfrequency-inverse document frequency,即TF-IDF)的相似度以及关联度相似度,同时计算IP属性的PIPSim相似度,构成多维的相似度向量;
步骤5、对步骤4得到的属性相似度向量进行聚合,得到候选对的相似度;
步骤6、使用图聚类算法对设备和Cookie进行聚类,每一个类簇中的设备和Cookie属于同一用户。
2.根据权利要求1所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤2的具体方法为:
步骤2.1、预测结果集合初始化;将服务器日志中的记录及该记录的所属用户称为预测结果集P,并将训练数据集作为预测结果集合P的初始;
步骤2.2、构建倒排索引;对预测结果集合P中的记录构建倒排索引,记作IPi其中表示用户uj使用了次IPi
步骤2.3、计算用户私有IP概率;对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0,对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率;
其中,sum_max(IPi,m)为IPi对应的前m个最大的的和;
步骤2.4、生成预测结果集合;
对测试数据集中每一个Cookiei,分别计算Cookiei和训练数据集中所有用户的PIPSim相似度以及Cookiei和测试数据集中所有设备的PIPSim相似度;
选择与Cookiei相似度最高的用户或者设备,记作id′i,相似度为si,如果相似度si大于阈值θ,则认为该Cookiei和id′i属于同一用户u′i,将所有包含Cookiei的记录的所属用户标记为u′i;否则Cookiei属于新用户u″i,将所有包含Cookiei的记录的所属用户标记为u″i;对于测试数据集中每一个设备devj,使用公式2计算devj与训练数据集中所有用户的PIPSim相似度,选择与devj相似度最高的用户,记作id′j,相似度为s′j,如果相似度s′j大于阈值θ,则认为devi和id′j属于同一用户u′j,将所有包含devj的记录的所属用户标记为u′j;否则认为devi属于新用户u″j,将所有包含devj的记录的所属用户标记为u″j
步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变,返回步骤2.3计算的用户私有IP概率。
3.根据权利要求2所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤3的具体方法为:
步骤3.1、信息聚合;将训练数据集中的用户信息以及测试数据集中设备信息和Cookie信息进行聚合,记作其中idi表示用户、设备或者Cookie,表示idj使用了次IPi
步骤3.2、生成可用IP集合IPusable;对于每一个IPi,如果IPi的用户私有IP概率pro(IPi)大于阈值δ,则IPi可用于候选集生成,将其加入到可用IP集合IPusable
步骤3.3、生成候选集can;对于测试数据集中的每一个Cookiei,训练数据集中的用户uj与Cookiei的共同IP集合,记作非空且与IPusable的交集非空,则将(Cookiei,uj)作为候选对加入到候选集can,否则不加入到候选集;测试数据集中的设备devj与Cookiei的共同IP集合,记作非空且与IPusable的交集非空,则将(Cookiei,devj)作为候选对加入到候选集can,否则不加入到候选集;对于测试数据集中每一个devi,训练数据集的用户uj与devi的共同IP集合,记作非空且与IPusable的交集非空,则将候选对(devi,uj)加入到候选集can,否则不加入到候选集。
4.根据权利要求3所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤4的具体方法为:
步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度;
对用户、设备和Cookie信息进行聚合,得到按如下所示公式进行归一化处理:
则聚合信息进一步表示为那么idi和idj的PIPSim相似度即为向量的余弦相似度;
步骤4.2、计算候选集中候选对的TF-IDF相似度;
将设备或者Cookie转换为TF-IDF向量表示,对于候选对的TF-IDF相似度使用向量的余弦相似度表示;所述词频和逆文本词频的计算公式分别如公式3和公式4所示:
其中,d表示同一设备或Cookie的日志记录集合,ft,d表示关键词t在d的所有记录中出现的频率,max{ft′,d,t′∈d}表示词频中的最大数;N表示设备和Cookie的总数,|{d∈D:t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数;
步骤4.3、计算候选集中候选对的关联相似度;对于候选对(idi,idj)的关联相似度用公式5进行计算:
其中,cooccur(idi,idj)为idi和idj所有日志记录中有相同属性值的日志数;total(idi)为idi的日志数;total(D)为候选集中总的日志数。
5.根据权利要求4所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤5的具体方法为:
步骤5.1、训练模型;使用训练数据集中数据训练渐进梯度会归树(Gradient BoostRegression Tree,即GBRT)模型;
步骤5.2、相似度计算;对于步骤4得到候选对的相似度向量,通过GBRT模型得到候选对以及候选对的相似度。
6.根据权利要求5所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤6的具体方法为:
步骤6.1、通过步骤5得到的候选对的相似度,构建相似度图,图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie;
步骤6.2、在相似度图上使用图聚类算法,将不同的节点进行聚类,则一个类簇中节点属于同一用户,完成用户的跨屏追踪。
CN201810826981.3A 2018-07-25 2018-07-25 一种支持用户私有ip发现的跨屏追踪方法 Active CN108924246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810826981.3A CN108924246B (zh) 2018-07-25 2018-07-25 一种支持用户私有ip发现的跨屏追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810826981.3A CN108924246B (zh) 2018-07-25 2018-07-25 一种支持用户私有ip发现的跨屏追踪方法

Publications (2)

Publication Number Publication Date
CN108924246A true CN108924246A (zh) 2018-11-30
CN108924246B CN108924246B (zh) 2021-01-01

Family

ID=64418185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810826981.3A Active CN108924246B (zh) 2018-07-25 2018-07-25 一种支持用户私有ip发现的跨屏追踪方法

Country Status (1)

Country Link
CN (1) CN108924246B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559872A (zh) * 2020-12-21 2021-03-26 上海明略人工智能(集团)有限公司 设备间用户识别方法、系统、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649731A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于大规模属性网络的节点相似性搜索方法
CN107729915A (zh) * 2017-09-08 2018-02-23 第四范式(北京)技术有限公司 用于确定机器学习样本的重要特征的方法及系统
US20180191748A1 (en) * 2017-01-05 2018-07-05 Cisco Technology, Inc. Associating a user identifier detected from web traffic with a client address

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649731A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于大规模属性网络的节点相似性搜索方法
US20180191748A1 (en) * 2017-01-05 2018-07-05 Cisco Technology, Inc. Associating a user identifier detected from web traffic with a client address
CN107729915A (zh) * 2017-09-08 2018-02-23 第四范式(北京)技术有限公司 用于确定机器学习样本的重要特征的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUO FENG,QIAN WANG,DERONG SHEN,YUE KOU,TIEZHENG NIE,GE YU: "User Identification across Social Networks Based on Global View Features", 《IEEE》 *
孙琛琛,申德容,寇乐,聂铁珍,于戈: "面向关联数据的联合式实体识别方法", 《计算机学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559872A (zh) * 2020-12-21 2021-03-26 上海明略人工智能(集团)有限公司 设备间用户识别方法、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108924246B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN111782965B (zh) 意图推荐方法、装置、设备及存储介质
US10572565B2 (en) User behavior models based on source domain
JinHuaXu et al. Web user clustering analysis based on KMeans algorithm
US8543532B2 (en) Method and apparatus for providing a co-creation platform
US10909552B2 (en) Mobile application analytics framework
US9665648B2 (en) Method and apparatus for a user interest topology based on seeded user interest modeling
WO2016161976A1 (zh) 选择数据内容向终端推送的方法和装置
US20160180402A1 (en) Method for recommending products based on a user profile derived from metadata of multimedia content
CN107291792B (zh) 用于确定相关实体的方法和系统
US20090259606A1 (en) Diversified, self-organizing map system and method
CN104394118A (zh) 一种用户身份识别方法及系统
CN111259263A (zh) 一种物品推荐方法、装置、计算机设备及存储介质
CN112311612B (zh) 一种信息构建方法、装置及存储介质
US20200175555A1 (en) Systems and methods for automatically generating remarketing lists
CN104199836B (zh) 一种基于子兴趣划分的标注用户模型建构方法
WO2016045567A1 (zh) 网页数据分析方法及装置
CN112765373A (zh) 资源推荐方法、装置、电子设备和存储介质
Aliannejadi et al. Personalized keyword boosting for venue suggestion based on multiple LBSNs
CN115049076A (zh) 基于原型网络的迭代聚类式联邦学习方法
CN110855487A (zh) 网络用户相似度管理方法、装置及存储介质
CN108427730A (zh) 一种基于随机游走和条件随机场的社会标签推荐方法
CN108924246A (zh) 一种支持用户私有ip发现的跨屏追踪方法
JP2012168582A (ja) 潜在クラス分析装置、潜在クラス分析方法及びプログラム
JP2015082318A (ja) 広告を特定のユーザグループと関連づけるためのプログラム、システム及びコンピュータ読取可能な記録媒体
US10510095B2 (en) Searching based on a local density of entities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant