CN108924246B - 一种支持用户私有ip发现的跨屏追踪方法 - Google Patents
一种支持用户私有ip发现的跨屏追踪方法 Download PDFInfo
- Publication number
- CN108924246B CN108924246B CN201810826981.3A CN201810826981A CN108924246B CN 108924246 B CN108924246 B CN 108924246B CN 201810826981 A CN201810826981 A CN 201810826981A CN 108924246 B CN108924246 B CN 108924246B
- Authority
- CN
- China
- Prior art keywords
- similarity
- user
- candidate
- cookie
- private
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF‑IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F‑0.5值上都有较大幅度的提升。
Description
技术领域
本发明涉及数据质量和数据集成技术领域,尤其涉及一种支持用户私有IP发现的跨屏追踪方法。
背景技术
随着智能设备的兴起,互联网用户可能会使用多台设备同时浏览网页,这对广告商和网站主的个性化服务造成了很大的困扰。对于同时使用电脑和手机的用户,广告商不能依据电脑端的浏览记录在用户的手机端推送广告,造成广告推送的割裂,这对广告商会造成巨大的利润损失;而网站主会由于不能推送用户的兴趣点而造成用户粘度下降,损失用户。
跨屏追踪是根据网络日志识别同一互联网用户的多台设备。对于用户的手机、Pad等移动端设备可以使用设备号(如安卓设备的IMEI号和苹果设备的IDFA号)来唯一标识一台设备,设备号和移动设备之间是一一对应的关系;对于用户PC,可以使用用户浏览网页的Cookie来唯一标识PC,但是同一PC可能会对应多个Cookie,PC和Cookie之间是一对多的关系。跨屏追踪就是识别哪些设备和哪些Cookie属于同一个用户。
现有的跨屏追踪方法主要分为四个过程:候选集生成、特征工程、模型训练和后期处理。
对于候选集生成过程,由于服务器日志数量巨大,候选集生成过程直接影响了跨屏追踪的效率。现有方法主要使用IP来生成候选集,将使用过同一IP的Cookie和设备作为候选对。然而并不是所有的IP都能用于候选集生成,对于有大量设备和Cookie接入的IP不能用于候选集生成。使用这种IP生成候选集将导致候选集的准确率大大降低。且这种基于设备和Cookie数量的生成方法具有数据敏感性,需要针对不同的数据集设计不同的生成规则,不具有通用性;而且现有的候选集生成方法只能保证较高的召回率,具有准确率比较低的局限性。
同时,现有跨屏追踪方法中主要将跨屏追踪问题看作是一个二分图问题,只对移动设备和Cookie进行用户识别,没有考虑Cookie和Cookie的用户识别,也没有充分利用已知用户的信息,导致预测结果的召回率偏低。如图1所示,已知Cookie1、Cookie2属于同一用户u1,pij表示设备devi和cookiej属于同一用户的概率,表示设备devi与用户u1属于同一用户的概率。由于现有的用户识别过程没有对Cookie1和Cookie2的信息进行聚合,可能会认为dev1、Cookie1以及Cookie2不属于同一用户,造成召回率降低;假设dev1、Cookie3和Cookie4也属于同一用户,通过图1,可能会认为dev1和Cookie4属于同一用户,而dev1和Cookie3不属于同一用户,造成召回率降低。
发明内容
针对现有技术的缺陷,本发明提供一种支持用户私有IP发现的跨屏追踪方法,实现对服务器日志的用户识别。
一种支持用户私有IP发现的跨屏追踪方法,包括以下步骤:
步骤1、构建训练数据集和测试数据集;选取服务器日志中已知用户的记录集合作为训练数据集,其余记录集合作为测试数据集;
步骤2、采用半监督学习的方式,计算训练数据集和测试数据集中所有IP为用户私有IP的概率,具体方法为:
步骤2.1、预测结果集合初始化;将服务器日志中的记录及该记录的所属用户称为预测结果集P,并将训练数据集作为预测结果集合P的初始;
步骤2.3、计算用户私有IP概率;对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0,对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率;
步骤2.4、生成预测结果集合;
对测试数据集中每一个Cookiei,分别计算Cookiei和训练数据集中所有用户的PIPSim相似度以及Cookiei和测试数据集中所有设备的PIPSim相似度;
选择与Cookiei相似度最高的用户或者设备,记作id′i,相似度为si,如果相似度si大于阈值θ,则认为该Cookiei和id'i属于同一用户u′i,将所有包含Cookiei的记录的所属用户标记为u′i;否则Cookiei属于新用户u″i,将所有包含Cookiei的记录的所属用户标记为u″i;对于测试数据集中每一个设备devj,使用公式2计算devj与训练数据集中所有用户的PIPSim相似度,选择与devj相似度最高的用户,记作id′j,相似度为s′j,如果相似度s′j大于阈值θ,则认为devi和id′j属于同一用户u′j,将所有包含devj的记录的所属用户标记为u′j;否则认为devi属于新用户u″j,将所有包含devj的记录的所属用户标记为u″j;
步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变,返回步骤2.3计算的用户私有IP概率;
步骤3、生成候选集,提高跨屏追踪的处理效率;
步骤3.2、生成可用IP集合IPusable;对于每一个IPi,如果IPi的用户私有IP概率pro(IPi)大于阈值δ,则IPi可用于候选集生成,将其加入到可用IP集合IPusable;
步骤3.3、生成候选集can;对于测试数据集中的每一个Cookiei,训练数据集中的用户uj与Cookiei的共同IP集合,记作若非空且与IPusable的交集非空,则将(Cookiei,uj)作为候选对加入到候选集can,否则不加入到候选集;测试数据集中的设备devj与Cookiei的共同IP集合,记作若非空且与IPusable的交集非空,则将(Cookiei,devj)作为候选对加入到候选集can,否则不加入到候选集;对于测试数据集中每一个devi,训练数据集的用户uj与devi的共同IP集合,记作若非空且与IPusable的交集非空,则将候选对(devi,uj)加入到候选集can,否则不加入到候选集;
步骤4、计算候选集的属性相似度;针对每个候选对的属性,计算属性相似度,得到候选对的属性相似度向量;对于候选对,分别对日志中的各个属性计算词频-逆文本词频(term frequency-inverse document frequency,即TF-IDF)的相似度以及关联度相似度,同时计算IP属性的PIPSim相似度,构成多维的相似度向量;
步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度;
步骤4.2、计算候选集中候选对的TF-IDF相似度;
将设备或者Cookie转换为TF-IDF向量表示,对于候选对的TF-IDF相似度使用向量的余弦相似度表示;所述词频和逆文本词频的计算公式分别如公式3和公式4所示:
其中,d表示同一设备或Cookie的日志记录集合,ft,d表示关键词t在d的所有记录中出现的频率,max{ft′,d,t′∈d}表示词频中的最大数;N表示设备和Cookie的总数,|{d∈D:t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数;
步骤4.3、计算候选集中候选对的关联相似度;对于候选对(idi,idj)的关联相似度用公式5进行计算:
步骤5、对步骤4得到的属性相似度向量进行聚合,得到候选对的相似度;
步骤5.1、训练模型;使用训练数据集中数据训练渐进梯度会归树(GradientBoost Regression Tree,即GBRT)模型;
步骤5.2、相似度计算;对于步骤4得到候选对的相似度向量,通过GBRT模型得到候选对以及候选对的相似度。
步骤6、使用图聚类算法对设备和Cookie进行聚类,每一个类簇中的设备和Cookie属于同一用户;
步骤6.1、通过步骤5得到的候选对的相似度,构建相似度图,图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie;
步骤6.2、在相似度图上使用图聚类算法,将不同的节点进行聚类,则一个类簇中节点属于同一用户,完成用户的跨屏追踪。
由上述技术方案可知,本发明的有益效果在于:本发明提供的一种支持用户私有IP发现的跨屏追踪方法,提出了用户私有IP的概念,并用半监督学习的方式预测所有IP的用户私有IP概率;其次,利用用户私有IP来生成候选集,结合多种相似度计算方法和GBRT模型预测用户的相似度,并利用图聚类算法对用户聚类;综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。
附图说明
图1为本发明实施例提供的背景技术示例图;
图2为本发明实施例提供的一种支持用户私有IP发现的跨屏追踪方法的流程图;
图3为本发明实施例提供的通过GBRT模型得到的候选对以及候选对的相似度图;
图4为本发明实施例提供的聚类结果图;
图5为本发明实施例提供的本发明支持用户私有IP发现的跨屏追踪方法与现有方法的准确率、召回率和F-0.5值的对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种支持用户私有IP发现的跨屏追踪方法,如图2所示,包括以下步骤:
步骤1、构建训练数据集和测试数据集;选取服务器日志中已知用户的记录集合作为训练数据集,其余记录集合作为测试数据集;
本实施例中,选取服务器日志中的如表1所示的设备日志数据集和表2所示的Cookie日志数据集(所有数据都经过加密)作为数据集,分别包含handle、deviceid/cookieid、ip、pro、cat属性,其中handle属性表示用户的唯一标识,有相同handle的记录属于同一用户,对于handle为-1的记录表示不知道该记录所属的用户;deviceid/cookieid表示设备或Cookie的id,相同的deviceid/cookieid表示同一设备/Cookie;pro可以理解为网站名称或者App名称;ip表示该用户使用该IP登录过该网站或者App;cat表示该网站的类别。跨屏追踪就是识别哪些Cookie和哪些设备属于同一个用户。
表1设备日志数据集
handle | deviceid | ip | pro | cat |
154553 | 2265724 | 4875881 | 356618 | 8,7,335,18,137 |
154553 | 2265724 | 4875881 | 481015 | 8,7,335,343,110 |
154553 | 2265724 | 4875881 | 481015 | 8,7,335,343,110 |
154553 | 2265724 | 4875881 | 481015 | 8,7,335,343,110 |
154553 | 2265724 | 11319489 | 35131 | 255,427,106,59 |
-1 | 673602 | 361705 | 112526 | 8,7,18,335,137 |
-1 | 673602 | 361705 | 112526 | 8,7,18,335,137 |
-1 | 1005020 | 361705 | 309956 | 8,7,18,335,343 |
-1 | 673602 | 3562929 | 112526 | 8,7,18,335,137 |
表2 Cookie日志数据集
步骤2、采用半监督学习的方式,计算训练数据集和测试数据集中所有IP为用户私有IP的概率,具体方法为:
步骤2.1、预测结果集合初始化;将服务器日志中的记录及该记录的所属用户称为预测结果集P,并将训练数据集作为预测结果集合P的初始;
本实施例中,预测结果为(2265724,3085142)为同一用户。
本实施例中,构建的倒排索引为4875881→[(154553,7)];11319489→[(154553,1)];361705→[(154553,1)]。
步骤2.3、计算用户私有IP概率;对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0,对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率;
本实施例中,参数m设置为1,所有IP的用户私有IP概率为:pro(4875881)=1;pro(11319489)=1;pro(361705)=1;pro(3562929)=1。
步骤2.4、生成预测结果集合;
对测试数据集中每一个Cookiei,分别计算Cookiei和训练数据集中所有用户的PIPSim相似度以及Cookiei和测试数据集中所有设备的PIPSim相似度;
选择与Cookiei相似度最高的用户或者设备,记作id′i,相似度为si,如果相似度si大于阈值θ,则认为该Cookiei和id′i属于同一用户u′i,将所有包含Cookiei的记录的所属用户标记为u′i;否则Cookiei属于新用户u″i,将所有包含Cookiei的记录的所属用户标记为u″i;对于测试数据集中每一个设备devj,使用公式2计算devj与训练数据集中所有用户的PIPSim相似度,选择与devj相似度最高的用户,记作id′j,相似度为s′j,如果相似度s′j大于阈值θ,则认为devi和id′j属于同一用户u′j,将所有包含devj的记录的所属用户标记为u′j;否则认为devi属于新用户u″j,将所有包含devj的记录的所属用户标记为u″i;
本实施例中,参数θ设置为0.9,首先计算1857265(cookieid)与用户154553(handle)、设备673602(deviceid)、1005020(deviceid)的PIPSim相似度,分别为PIPSim(1857265,154553)=0.97973,PIPSim(1857265,673602)=0.4,PIPSim(1857265,1005020)=0.4472,由于PIPSim(1857265,154553)=0.97973>θ,所以认为1857465(cookieid)属于用户154553(handle)。同理预测其他cookieid和deviceid。
步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变,返回步骤2.3计算的用户私有IP概率;
本实施例中,最终计算得到的用户私有IP概率分别为:pro(4875881)=1;pro(11319489)=1;pro(361705)=0.375;pro(3562929)=1。
步骤3、生成候选集,提高跨屏追踪的处理效率;
步骤3.2、生成可用IP集合IPusable;对于每一个IPi,如果IPi的用户私有IP概率pro(IPi)大于阈值δ,则IPi可用于候选集生成,将其加入到可用IP集合IPusable;
本实施例中,设置δ=0.9,取pro(IPi)>0.9的IP,所以可以得到可用IP集合为IPusable={4875881,11319489,3562929}。
步骤3.3、生成候选集can;对于测试数据集中的每一个Cookiei,训练数据集中的用户uj与Cookiei的共同IP集合,记作若非空且与IPusable的交集非空,则将(Cookiei,uj)作为候选对加入到候选集can,否则不加入到候选集;测试数据集中的设备devj与Cookiei的共同IP集合,记作若非空且与IPusable的交集非空,则将(Cookiei,devj)作为候选对加入到候选集can,否则不加入到候选集;对于测试数据集中每一个devi,训练数据集的用户uj与devi的共同IP集合,记作若非空且与IPusable的交集非空,则将候选对(devi,uj)加入到候选集can,否则不加入到候选集;
本实施例得到的候选集can={(1857265,154553)}。
步骤4、计算候选集的属性相似度;针对每个候选对的属性,计算属性相似度,得到候选对的属性相似度向量;对于候选对,分别对日志中的各个属性计算词频-逆文本词频(TF-IDF,term frequency-inverse document frequency)的相似度以及关联度相似度,同时计算IP属性的PIPSim相似度,构成多维的相似度向量;
步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度;
本实施例中,计算得到IP属性的PIPSim相似度为PIPSim(1857265,154553)=0.987。
步骤4.2、计算候选集中候选对的TF-IDF相似度;
将设备或者Cookie转换为TF-IDF向量表示,对于候选对的TF-IDF相似度使用向量的余弦相似度表示;所述词频和逆文本词频的计算公式分别如公式3和公式4所示:
其中,d表示同一设备或Cookie的日志记录集合,ft,d表示关键词t在d的所有记录中出现的频率,max{ft′,d,t′∈d}表示词频中的最大数;N表示设备和Cookie的总数,|{d∈D:t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数;
本实施例中,计算的选集中候选对的TF-IDF相似度分别为:IP属性的TF-IDF相似度,TF-IDFIP(1857265,154553)=0.8369;pro属性的TF-IDF相似度,TF-IDFpro(1857265,154553)=0.3061;cat属性的TF-IDF相似度,TF-IDFcat(1857265,154553)=0.540。
步骤4.3、计算候选集中候选对的关联相似度;对于候选对(idi,idj)的关联相似度用公式5进行计算:
本实施例中,计算的候选集中候选对的关联相似度分别为:IP属性的关联相似度,Simassoc-IP(1857265,154553)=2.0;pro属性的关联相似度,Simassoc-pro(1857265,154553)=1.3333;cat属性的关联相似度,Simassoc-cat(1857265,154553)=0.3409。
最终得到的候选对(1857265,154553)的属相相似度向量为<0.987,0.8369,0.3061,0.540,2.0,1.3333,0.3409>。
步骤5、对步骤4得到的属性相似度向量进行聚合,得到候选对的相似度;
步骤5.1、训练模型;使用训练数据集中数据训练渐进梯度会归树(GradientBoost Regression Tree,即GBRT)模型;
步骤5.2、相似度计算;对于步骤4得到候选对的相似度向量,通过GBRT模型得到如图3所示的候选对以及候选对的相似度。
步骤6、使用图聚类算法对设备和Cookie进行聚类,每一个类簇中的设备和Cookie属于同一用户;
步骤6.1、通过步骤5得到的候选对的相似度,构建相似度图,图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie;
步骤6.2、在相似度图上使用图聚类算法,将不同的节点进行聚类,则一个类簇中节点属于同一用户,完成用户的跨屏追踪。
本实施例中,构建的相似度图如图3所示,进行聚类的结果如图4所示,得到跨屏追踪结果为:[2265724(deviceid),3085142(cookieid),1857265(cookieid)]、[673602(deviceid)]、[1005020(deviceid)]、[1171398(cookieid)]。
本实施例还提供了如图5所示的采用本发明方法和其他两种方法进行跨屏追踪在准确率、召回率和F-0.5值的对比情况,从图中可以看出,本发明的方法相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (4)
1.一种支持用户私有IP发现的跨屏追踪方法,其特征在于:包括以下步骤:
步骤1、构建训练数据集和测试数据集;选取服务器日志中己知用户的记录集合作为训练数据集,其余记录集合作为测试数据集;
步骤2、采用半监督学习的方式,计算训练数据集和测试数据集中所有IP为用户私有IP的概率;
步骤3、生成候选集,提高跨屏追踪的处理效率;
步骤3.2、生成可用IP集合IPusable对于每一个IPi,如果IPi的用户私有IP概率pro(IPi)大于阈值δ,则IPi可用于候选集生成,将其加入到可用IP集合IPusable
步骤3.3、生成候选集can;对于测试数据集中的每一个Cookiei,训练数据集中的用户uj与Cookiei的共同IP集合,记作若非空且与IPusable的交集非空,则将(Cookiei,uj)作为候选对加入到候选集can,否则不加入到候选集;测试数据集中的设备devj与Cookiei的共同IP集合,记作若非空且与IPusable的交集非空,则将(Cookiei,devj)作为候选对加入到候选集can,否则不加入到候选集;对于测试数据集中每一个devi,训练数据集的用户uj与devi的共同IP集合,记作若非空且与IPusable的交集非空,则将候选对(devi,uj)加入到候选集can,否则不加入到候选集;
步骤4、计算候选集的属性相似度;针对每个候选对的属性,计算属性相似度,得到候选对的属性相似度向量;对于候选对,分别对日志中的各个属性计算词频-逆文本词频(termfrequency-inverse document frequency,即TF-IDF)的相似度以及关联度相似度,同时计算IP属性的PIPSim相似度,构成多维的相似度向量;
步骤4.1、计算候选集中候选对的IP属性的PIPSim(Similarity based on User’sPrivate IP)相似度;
步骤4.2、计算候选集中候选对的TF-IDF相似度;
将设备或者Cookie转换为TF-IDF向量表示,对于候选对的TF-IDF相似度使用向量的余弦相似度表示;所述词频和逆文本词频的计算公式分别如公式3和公式4所示:
其中,d表示同一设备或Cookie的日志记录集合,ft,d表示关键词t在d的所有记录中出现的频率,max{ft′,d,t′∈d}表示词频中的最大数;N表示设备和Cookie的总数,|{d∈D:t∈d}|表示设备和Cookie的记录中出现关键词t的设备和Cookie的总数;
步骤4.3、计算候选集中候选对的关联相似度;对于候选对(idi,idj)的关联相似度用公式5进行计算:
步骤5、对步骤4得到的属性相似度向量进行聚合,得到候选对的相似度;
步骤6、使用图聚类算法对设备和Cookie进行聚类,每一个类簇中的设备和Cookie属于同一用户。
2.根据权利要求1所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤2的具体方法为:
步骤2.1、预测结果集合初始化;将服务器日志中的记录及该记录的所属用户称为预测结果集P,并将训练数据集作为预测结果集合P的初始;
步骤2.3、计算用户私有IP概率;对于预测结果集合P中没有出现的IP的用户私有IP概率初始化为0,对预测结果集合P中出现的IP使用如下所示公式计算该IP为用户私有IP的概率;
步骤2.4、生成预测结果集合;
对测试数据集中每一个Cookiei,分别计算Cookiei和训练数据集中所有用户的PIPSim相似度以及Cookiei和测试数据集中所有设备的PIPSim相似度;
选择与Cookiei相似度最高的用户或者设备,记作id′i,相似度为si,如果相似度si大于阈值θ,则认为该Cookiei和id′i属于同一用户u′i,将所有包含Cookiei的记录的所属用户标记为u′i;否则Cookiei属于新用户u″i,将所有包含Cookiei的记录的所属用户标记为u″i;对于测试数据集中每一个设备devj,使用公式2计算devj与训练数据集中所有用户的PIPSim相似度,选择与devj相似度最高的用户,记作id′j,相似度为s′j,如果相似度s′j大于阈值θ,则认为devi和id′j属于同一用户u′j,将所有包含devj的记录的所属用户标记为u′j;否则认为devi属于新用户u″j,将所有包含devj的记录的所属用户标记为u″j;
步骤2.5、重复步骤2.2-步骤2.4直至步骤2.3中计算的用户私有IP概率不再改变,返回步骤2.3计算的用户私有IP概率。
3.根据权利要求2所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤5的具体方法为:
步骤5.1、训练模型;使用训练数据集中数据训练渐进梯度会归树(Gradient BoostRegression Tree,即GBRT)模型;
步骤5.2、相似度计算;对于步骤4得到候选对的相似度向量,通过GBRT模型得到候选对以及候选对的相似度。
4.根据权利要求3所述的一种支持用户私有IP发现的跨屏追踪方法,其特征在于:所述步骤6的具体方法为:
步骤6.1、通过步骤5得到的候选对的相似度,构建相似度图,图中每个节点表示训练数据集中的用户、测试数据集的设备或Cookie;
步骤6.2、在相似度图上使用图聚类算法,将不同的节点进行聚类,则一个类簇中节点属于同一用户,完成用户的跨屏追踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810826981.3A CN108924246B (zh) | 2018-07-25 | 2018-07-25 | 一种支持用户私有ip发现的跨屏追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810826981.3A CN108924246B (zh) | 2018-07-25 | 2018-07-25 | 一种支持用户私有ip发现的跨屏追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108924246A CN108924246A (zh) | 2018-11-30 |
CN108924246B true CN108924246B (zh) | 2021-01-01 |
Family
ID=64418185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810826981.3A Active CN108924246B (zh) | 2018-07-25 | 2018-07-25 | 一种支持用户私有ip发现的跨屏追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108924246B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559872A (zh) * | 2020-12-21 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 设备间用户识别方法、系统、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649731A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种基于大规模属性网络的节点相似性搜索方法 |
CN107729915A (zh) * | 2017-09-08 | 2018-02-23 | 第四范式(北京)技术有限公司 | 用于确定机器学习样本的重要特征的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10348745B2 (en) * | 2017-01-05 | 2019-07-09 | Cisco Technology, Inc. | Associating a user identifier detected from web traffic with a client address |
-
2018
- 2018-07-25 CN CN201810826981.3A patent/CN108924246B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649731A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种基于大规模属性网络的节点相似性搜索方法 |
CN107729915A (zh) * | 2017-09-08 | 2018-02-23 | 第四范式(北京)技术有限公司 | 用于确定机器学习样本的重要特征的方法及系统 |
Non-Patent Citations (2)
Title |
---|
User Identification across Social Networks Based on Global View Features;Shuo Feng,Qian Wang,Derong Shen,Yue Kou,Tiezheng Nie,Ge Yu;《IEEE》;20180409;全文 * |
面向关联数据的联合式实体识别方法;孙琛琛,申德容,寇乐,聂铁珍,于戈;《计算机学报》;20160915;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108924246A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593894B2 (en) | Interest recommendation method, computer device, and storage medium | |
WO2022041979A1 (zh) | 一种信息推荐模型的训练方法和相关装置 | |
Alam et al. | Processing social media images by combining human and machine computing during crises | |
Wu et al. | Contextual bandits in a collaborative environment | |
Chen et al. | Location-aware personalized news recommendation with deep semantic analysis | |
US9336281B2 (en) | Systems and methods for identifying and analyzing internet users | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
WO2017181612A1 (zh) | 个性化视频推荐方法及装置 | |
US9536003B2 (en) | Method and system for hybrid information query | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
US20120158791A1 (en) | Feature vector construction | |
US20180336202A1 (en) | System and method to represent documents for search in a graph | |
US20120239650A1 (en) | Unsupervised message clustering | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN111259263A (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
WO2019034087A1 (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
US9846746B2 (en) | Querying groups of users based on user attributes for social analytics | |
US8572239B2 (en) | Node clustering | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
Wang et al. | Group-based personalized location recommendation on social networks | |
CN112949914A (zh) | 一种产业集群的识别方法、装置、存储介质及电子设备 | |
CN111339435A (zh) | 一种基于潜在因子的矩阵分解补全混合推荐方法 | |
CN108924246B (zh) | 一种支持用户私有ip发现的跨屏追踪方法 | |
Li et al. | Modeling and analysis of group user portrait through WeChat mini program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |