CN105447148B - 一种Cookie标识关联方法及装置 - Google Patents
一种Cookie标识关联方法及装置 Download PDFInfo
- Publication number
- CN105447148B CN105447148B CN201510843841.3A CN201510843841A CN105447148B CN 105447148 B CN105447148 B CN 105447148B CN 201510843841 A CN201510843841 A CN 201510843841A CN 105447148 B CN105447148 B CN 105447148B
- Authority
- CN
- China
- Prior art keywords
- cookie
- mark group
- cookie mark
- information
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种Cookie标识关联方法及装置,所述方法包括:基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:Cookie标识、网络行为信息以及时间戳;生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度;参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息;记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。所述方法及装置可以在对应同一用户的Cookie之间建立准确度较高的关联关系。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种Cookie标识关联方法及装置。
背景技术
在互联网上用户行为定向应用中,最核心的技术就是对访客进行标记。目前常用的标记方法是用Js Cookie。当用户再次访问网站时,网站可以通过Cookie中存储的信息对用户进行标定和识别。
但是,有时对应于同一用户的Cookie会以几个文件的形式保存,导致基于Cookie的用户行为分析不够准确,故需要在对应同一用户的Cookie之间建立准确度较高关联关系。
发明内容
本发明解决的技术问题是在对应同一用户的Cookie之间建立准确度较高的关联关系。
为解决上述技术问题,本发明实施例提供一种Cookie标识关联方法,包括:
基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:Cookie标识、网络行为信息以及时间戳;
生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度;
参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息;
记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。
可选的,所述的Cookie标识关联方法还包括:对所述上网行为数据进行标准化处理,以统一所述上网行为数据的格式。
可选的,所述网络行为信息包括网络识别标识,所述确定候选Cookie标识组包括:在对应于同一网络识别标识的Cookie标识中选取候选Cookie标识组。
可选的,所述确定候选Cookie标识组还包括:确定所述对应于同一网络识别标识的Cookie标识的数目小于阈值。
可选的,所述生成所述候选Cookie标识组的特征信息包括生成以下至少一种:用户识别标识信息、相同网站浏览信息、网站相似度信息、网络行为时间信息;其中:
生成所述用户识别标识信息包括:获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识;判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户识别标识;基于所述判断结果确定所述用户识别标识信息的特征数值;
生成所述相同网站浏览信息包括:计算所述Cookie标识组中的各Cookie标识与相同网站间具有对应关系的概率;生成所述相同网站浏览信息的特征数值;
生成所述浏览网站相似度信息包括:对与所述Cookie标识组中的各Cookie标识建立过对应关系的网站进行类型相似度计算;生成所述浏览网站相似度信息的特征数值;
生成所述网络行为时间信息包括:计算所述Cookie标识组中Cookie标识对应的网络行为出现在同一时间段内的次数和频率;生成所述网络行为事件信息的特征数值。
可选的,所述正确关联的Cookie标识组样本通过如下方式生成:
选取对应于同一用户的第一Cookie标识;
改变所述第一Cookie标识为第二Cookie标识;
所述第一Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确关联的Cookie标识组;
参照所述第一Cookie标识对应的上网行为数据和所述第二Cookie标识对应的上网行为数据,生成所述正确关联的Cookie标识组的特征信息;
所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信息和所述正确关联的标识值。
可选的,所述错误关联的Cookie标识组样本通过如下方式生成:
选取对应于不同用户的第三Cookie标识和第四Cookie标识;
所述第三Cookie标识和所述第四Cookie标识组成的Cookie标识组作为错误关联的Cookie标识组;
参照所述第三Cookie标识对应的上网行为数据和所述第四Cookie标识对应的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息;
所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信息和所述错误关联的标识值。
可选的,所述参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组包括:
参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的各个特征信息的权重值;
参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造预测函数;
参照所述预测函数的函数值,在所述候选Cookie标识组中选取目标Cookie标识组。
本发明实施例还提供一种Cookie标识关联装置,包括:候选Cookie标识组选取单元、特征信息生成单元、目标Cookie标识组确定单元以及关联单元;
所述候选Cookie标识组选取单元,适于基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:Cookie标识、网络行为信息以及时间戳;
所述特征信息生成单元,适于生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度;
所述目标Cookie标识组确定单元,适于参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息;
所述关联单元,适于记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。
可选的,所述的Cookie标识关联装置还包括:标准化处理单元,适于对所述上网行为数据进行标准化处理,以统一所述上网行为数据的格式。
可选的,所述网络行为信息包括网络识别标识,所述确定候选Cookie标识组包括:在对应于同一网络识别标识的Cookie标识中选取候选Cookie标识组。
可选的,所述的Cookie标识关联装置还包括:数目判断单元,适于确定所述对应于同一网络识别标识的Cookie标识的数目小于阈值。
可选的,所述特征信息生成单元,适于生成以下至少一种Cookie标识组的特征信息:用户识别标识信息、相同网站浏览信息、网站相似度信息、网络行为时间信息;其中:
生成所述用户识别标识信息包括:获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识;判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户识别标识;基于所述判断结果确定所述用户识别标识信息的特征数值;
生成所述相同网站浏览信息包括:计算所述Cookie标识组中的各Cookie标识与相同网站间具有对应关系的概率;生成所述相同网站浏览信息的特征数值;
生成所述浏览网站相似度信息包括:对与所述Cookie标识组中的各Cookie标识建立过对应关系的网站进行类型相似度计算;生成所述浏览网站相似度信息的特征数值;
生成所述网络行为时间信息包括:计算所述Cookie标识组中的各Cookie标识对应的网络行为出现在同一时间段内的次数和频率;生成所述网络行为事件信息的特征数值。
可选的,所述正确关联的Cookie标识组样本通过如下方式生成:
选取对应于同一用户的第一Cookie标识;
改变所述第一Cookie标识为第二Cookie标识;
所述第一Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确关联的Cookie标识组;
参照所述第一Cookie标识对应的上网行为数据和所述第二Cookie标识对应的上网行为数据,生成所述正确关联的Cookie标识组的特征信息;
所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信息和所述正确关联的标识值。
可选的,所述错误关联的Cookie标识组样本通过如下方式生成:
选取对应于不同用户的第三Cookie标识和第四Cookie标识;
所述第三Cookie标识和所述第四Cookie标识组成的Cookie标识组作为错误关联的Cookie标识组;
参照所述第三Cookie标识对应的上网行为数据和所述第四Cookie标识对应的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息;
所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信息和所述错误关联的标识值。
可选的,所述目标Cookie标识组确定单元适于参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组包括:
参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的各个特征信息的权重值;
参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造预测函数;
参照所述预测函数的函数值,在所述候选Cookie标识组中选取目标Cookie标识组。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
通过确定候选Cookie标识组,生成候选Cookie标识组的特征信息,分类模型中包含的特征信息,可以确定目标Cookie标识组,进而可以关联同一用户对应的Cookie。通过正确关联的Cookie标识组样本和错误关联的Cookie标识组样本训练分类模型,可以为候选Cookie标识组提供正反两面参照,使得可以更为准确的选取目标Cookie标识组,从而可以提升关联同一用户对应的Cookie的准确率。
附图说明
图1是本发明中一种Cookie标识系统的结构示意图;
图2是本发明实施例中一种Cookie标识关联方法的流程图;
图3是本发明实施例中一种生成用户识别标识信息的流程图;
图4是本发明实施例中一种生成相同网站浏览信息的流程图;
图5是本发明实施例中一种生成用户浏览网站相似度信息的流程图;
图6是本发明实施例中一种生成网络行为时间信息的流程图;
图7是本发明实施例中一种生成正确关联的Cookie标识组样本的流程图;
图8是本发明实施例中一种生成错误关联的Cookie标识组样本的流程图;
图9是本发明实施例中一种选取目标Cookie标识组的流程图;
图10是Sigmoid函数的形状示意图;
图11是本发明实施例中一种数据处理装置的结构示意图。
具体实施方式
经发明人研究发现,当用户进行某些操作时,用户的Cookie-ID也就是Cookie标识会发生变化,导致在需要基于Cookie进行对用户行为的分析时,得出的分析结果不够准确。也就是说,若对每个Cookie进行单独分析,相当于所有对此用户的历史行为的分析结果都全部或部分丢失,这对用户行为定向应用是一种很大的损失。
用户的以下两种操作会导致Cookie标识会发生变化,导致同一用户对应不同的Cookie记录:
第一种情形是用户删除了Cookie,或者对计算机硬盘重新格式化后,用户计算机上的Cookie信息就会丢失,那么当用户再次访问网站时,即使用户使用同一浏览器上网,Web行为定向系统也无法对用户进行辨识,只能将该用户作为新的用户,那么该用户的历史行为记录以及对该用户的特征、兴趣等分析结果就无法与该用户对应起来,也就是说该用户的历史数据就失效了。
另一种情形是用户同时使用了多个不同的浏览器上网。由于浏览器不能共享cookie,导致同一个用户在同以时间内拥有了多个Cookie。在对用户的特征、兴趣分析时,只能使用一部分的有效数据。
为了使后续利用Cookie进行分析得到的用户特征更加准确,需要关联同一用户对应的Cookie。
现有的Cookie-ID找回方案是利用计算机上的某些独一无二的硬件信息(如字体库列表,屏幕分辨率,html5canvas特征信息等)来识别用户。但是,这种方案会被认为是侵犯了用户的隐私。
本发明实施例通过确定候选Cookie标识组,生成候选Cookie标识组的特征信息,参照正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的特征信息,可以确定目标Cookie标识组,进而可以关联同一用户对应的Cookie。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中一种Cookie标识关联系统的结构示意图。
Cookie标识关联系统包括内容服务器11、用户端12、Cookie标识服务器13和数据处理服务器14。
用户端12可以是网络设备,例如台式计算机、笔记本电脑、平板电脑、手机等,Cookie标识关联系统可以包括一个或者多个用户端12。网络用户可以通过用户端12访问内容服务器11提供的网站。
内容服务器11可以向Cookie标识服务器13提供用户上网行为数据的服务器。内容服务器11可以在其提供的页面被网络用户访问时,向Cookie标识服务器13发送用户的上网行为数据。具体的,可以通过在其提供的页面上部署对应的代码实现。上网行为数据可以是日志数据。
内容服务器11可以生成对应不同Cookie的标识,该标识可以成为第一方标识。由于不同的页面对应不同的内容服务器11,故对应相同的用户,不同的内容服务器11会生成不同的第一方标识。
在内容服务器11将用户的上网行为数据发送至Cookie标识服务器13后,Cookie标识服务器13可以按照既定的规则,生成新的Cookie标识,该Cookie标识可以被称为第三方标识。
可以看出,Cookie标识可以是内容服务器11生成的第一方标识,也可以是Cookie标识服务器13生成的第三方标识。
数据处理服务器14可以从Cookie标识服务器13获取携带有第一方标识和第三方标识的上网行为数据,对该上网行为数据进行处理,以发现对应同一用户的Cookie标识,关联对应同一用户的Cookie标识。
数据处理服务器14可以是分布式服务器或者服务器集群,例如可以是Hadoop架构的分布式服务器。由于数据量较大,数据处理服务器14可以对上网行为数据进行离线处理。
由于在现有技术中,默认不同的Cookie标识对应不同的用户,而对Cookie进行标识的规则是对不同的Cookie添加不同的标识。故在前述用户删除Cookie或时使用多个浏览器上网的情况下,对应同一用户的Cookie却会拥有不同的Cookie标识,对后续的利用Cookie进行数据分析的过程带来极大的不便。通过数据处理服务器11对带有第一方标识和/或第三方标识的上网行为数据进行数据处理,以建立对应同一用户的不同Cookie-ID之间的关联关系。从而可以在后续对用户行为进行分析时,得到更加准确的分析结果。
图2是本发明实施例中一种Cookie标识关联方法的流程图。
S21,基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:Cookie标识、网络行为信息以及时间戳。
上网行为数据可以通过日志文件获取,其中Cookie标识可以是由内容服务器11(参照图1)生成的,也可以是由Cookie标识服务器13(参见图1)生成的。
网络行为信息可以包括:用户上网的IP地址、访问网站的url、user-agent、cookie等信息,或者也可以是用户登录过的第三方网站的用户ID。
利用时间戳可以排除过旧的数据,也可以将将用户行为划分到不同的上网的会话期内,便于统计Cookie-ID出现在同一时段的频率来进行后续处理。
在具体实施中,确定候选Cookie标识组可以包括:在对应于同一网络识别标识的Cookie标识中选取候选Cookie标识组。网络识别标识是对网络接入进行识别和区分的标识信息,对应于同一网络识别标识的Cookie标识很可能对应同一用户。网络识别标识可以是IP地址。
在本发明一实施例中,确定候选Cookie标识组还包括:确定所述对应于同一网络识别标识的Cookie标识的数目小于阈值。由于可能出现多个用户端对应同一个网络识别标识的情况,例如,网络识别标识是企业IP时。故通过确定述对应于同一网络识别标识的Cookie标识的数目小于阈值,可以将明显不具备对应关系的Cookie标识组排除掉。例如可以通过排除那些企业IP和网吧IP,剩余家庭IP,此时对应同一IP的Cookie有很大可能是对应同一用户的,故可以提高Cookie-ID配对的正确性。
在具体实施中,在确定候选Cookie标识组之前,还可以对所述上网行为数据进行标准化处理,以统一所述上网行为数据的格式。由于上网行为数据来源的多样性,上网行为数据可能并不具备一致的数据格式,可以将上网行为的数据格式进行统一,例如可以同一为“Cookie标识、行为信息、时间戳”的数据顺序,以便后续数据处理。
S22,生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度。
候选Cookie标识组是指很可能是来源于同一个用户的Cookie标识组。首先挑选出这样的标识组可以减少后期计算标识组对应同一个用户的概率的规模。
特征信息可以表征所述候选Cookie标识组中Cookie标识的关联程度,在具体实施中,所述生成所述候选Cookie标识组的特征信息包括生成以下至少一种:用户识别标识信息、相同网站浏览信息、网站相似度信息、网络行为时间信息。
参照图3,生成所述用户识别标识信息可以包括:
S31,获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识。
用户访问某些网站时,对应的url上会带有关于这个用户的独一无二的信息。如果两个Cookie-ID对应的url上存在相同的用户识别标识,这两个Cookie-ID就极为可能对应于同一用户,故可以利用Cookie标识对应的url上是否存在相同的用户识别标识来判断是否。
可以通过url获得用户识别标识,也可以直接通过第三方网站直接获取对应同一个用户识别标识的Cookie标识。
S32,判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户识别标识。
S33,基于所述判断结果确定所述用户识别标识信息的特征数值。
在具体实施中,若所述候选Cookie标识组对应于同一用户标识,则可以将用户识别标识信息的特征数值Score1设置为1,否则,则为0。
参照图4,生成所述相同网站浏览信息可以包括:
S41,计算所述Cookie标识组中的Cookie标识与相同网站间具有对应关系的概率。
可以计算每个url的用户访问量(UV)。接着,统计潜在Cookie-ID对访问过的url是否有完全相同的情形以及次数。最后,通过以下公式计算Cookie-ID对匹配度。
记某个Cookie-ID对上出现相同的url有n个。这n个url的用户访问量(UV)分别为(u1,u2,u3,…un-2,un-1,un)。Score2的值越大,说明这个Cookie-ID对是一个人的概率越大。
Pi=2/ui
S42,生成所述相同网站浏览信息的特征数值:
参照图5,生成所述浏览网站相似度信息包括:
S51,对与所述Cookie标识组中的各Cookie标识建立过对应关系的网站进行类型相似度计算。
统计每个Cookie-ID访问的网站的类型分布。计算候选Cookie标识组的两个访问网站类型分布的相似度。可以将cooki-Idi访问的网站的类型j的次数计为aij。Cookie-Idi访问的网站类型分布可以用向量表示如下:Xi=(ai1,ai2,ai3,…ain-2,ain-1,ain)。
S52,生成所述浏览网站相似度信息的特征数值。
浏览网站相似度信息的特征数值可以利用如下公式进行计算:
参照图6,生成所述网络行为时间信息可以包括:
S61,计算所述Cookie标识组中Cookie标识对应的网络行为出现在同一时间段内的次数和概率。
可以将一段时间分为多个时间段,可以是多个会话器,统计候选Cookie标识组在同一段时间段内同时出现的次数和概率。
S62,生成所述网络行为事件信息的特征数值。
网络行为事件信息的特征数值可以包括Score4和Score5,其中:
Score4的值为候选Cookie标识组中的两个不同Cookie标识Cookie-Id1和Cookie-Id2同时出现的次数;
S23,参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息。
分类模型可以通过正确关联的Cookie标识组样本和错误关联的Cookie标识组样本来训练。如前所述,内容服务器11(参见图1)或Cookie标识服务器13(参见图1)可以为上网行为数据中的Cookie进行添加标识,故可以模拟用户清除Cookie的情况或用户利用多个浏览器上网的情况建立正确关联的Cookie标识组样本,随机指定两个不对应同一用户的Cookie进行关联,以建立错误关联的Cookie标识组样本。
S24,记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。
参见图7,在具体实施中,正确关联的Cookie标识组样本可以通过如下方式生成:
S71,选取对应于同一用户的第一Cookie标识。
选取对应于同一用户的第一Cookie标识可以是任选一长期稳定存在,并具有较高活跃度的Cookie标识。长期稳定存在并具有较高活跃度的Cookie标识的Cookie标识可以提供更丰富的数据,以便后续生成正确关联的Cookie标识组的特征信息。
S72,改变所述第一Cookie标识为第二Cookie标识。
可以通过内容服务器11(参见图1)或Cookie标识服务器13(参见图1)。
S73,所述第一Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确关联的Cookie标识组,并将其记录下来。
S74,参照所述第一Cookie标识对应的上网行为数据和所述第二Cookie标识对应的上网行为数据,生成作所述正确关联的Cookie标识组的特征信息。
所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信息和所述正确关联的标识值。
在本发明一实施例中,正确关联的Cookie标识组样本为如下格式:(Cookie-Idpair,Score1,Score2,Score3,Score4,Score5,is_pair),其中Cookie-Id pair为正确关联的Cookie标识组的标识,Score1至Score5参见前文描述,is_pair为正确关联的标识值,可以是“true”。
参见图8,在具体实施中,所述错误关联的Cookie标识组样本可以通过如下方式生成:
S81,选取对应于不同用户的第三Cookie标识和第四Cookie标识。
可以通过分析上网行为数据,选取接入网络的地点位于不同城市的Cookie标识。为获取更多的数据以计算错误关联的Cookie标识组的特征信息,可以选取长期稳定存在,并具有较高活跃度的Cookie标识作为第三Cookie标识和第四Cookie标识。
S82,所述第三Cookie标识和所述第四Cookie标识组成的Cookie标识组作为错误关联的Cookie标识组。
S83,参照所述第三Cookie标识对应的上网行为数据和所述第四Cookie标识对应的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息。
所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信息和所述错误关联的标识值。
在本发明一实施例中,类似于正确关联的Cookie标识组样本,错误关联的Cookie标识组样本为如下格式:(Cookie-Id pair,Score1,Score2,Score3,Score4,Score5,is_pair),其中Cookie-Id pair为错误关联的Cookie标识组的标识,Score1至Score5参见前文描述,is_pair为错误关联的标识值,可以是“false”。
参照图9,在具体实施中,所述参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组可以包括:
S91,参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的各个特征信息的权重值。
求得各个特征信息的权重值可以参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,结合预测函数,利用最大值估计算法,计算出权重值。
S92,参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造判断函数。
S93,参照所述预测函数的函数值,在所述候选Cookie标识组中选取目标Cookie标识组。
可以利用判断函数的函数值,设定函数值的区间,在某个区间内判定为目标Cookie标识组。
在本发明一实施例中,利用Logistic函数(或称为Sigmoid函数)作为预测函数,自变量取值范围为(-INF,INF),自变量的取值范围为(0,1),函数形式为:
由于sigmoid函数的定义域是(-INF,+INF),而值域为(0,1)。因此最基本的LR分类器(Logistic Regression Classifier)适合于对两分类(类0,类1)目标进行分类,两类可以分别对应确定为目标Cookie标识组和确定为非目标Cookie标识组。Sigmoid函数是个很漂亮的“S”形,如图10所示。其中z可以是由候选Cookie标识组的特征信息和对应权重值的组合形成的向量。
LR分类器的一组权重值可以利用极大似然估计MLE和优化算法进行计算。数学中最优化算法常用的就是梯度上升(下降)算法。
它的迭代计算的公式如下:
其中,i表示第i个统计样本,也就是本发明实施例中的正确关联的Cookie标识组样本或错误关联的Cookie标识组样本,j表样本第j个属性;a表示步长。
该公式将一直被迭代执行,直至达到某个停止条件为止。这个停止条件可以是迭代次数达到某个指定值或算法达到某个可以允许的误差范围。
LR分类器(Logistic Regression Classifier)目的就是从训练数据特征学习出一个0/1分类模型--这个模型以样本特征的线性组合作为自变量,使用logistic函数将自变量映射到(0,1)上。因此LR分类器的求解就是求解一组各个特征信息的权重值θ0,θ1,θ2,...,θn(θn是名义变量,为常数,实际工程中常令x0=1.0。不管常数项有没有意义,最好保留),并代入Logistic函数构造出一个预测函数:
函数的值表示结果为1的概率,就是特征属于y=1的概率。因此对于输入x分类结果为类别1和类别0的概率分别为:
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1-hθ(x)
当我们要判别一个新来的特征属于哪个类时,按照下式求出一个z值:
其中,x1,x2,...,xn是某样本数据的各个特征,维度为n。例如纬度可以是5,分别对应前述Score1至Score1。
进而求出hθ(x)---若z值大于0.5就是y=1的类,反之属于y=0类。
本发明实施例通过确定候选Cookie标识组,生成候选Cookie标识组的特征信息,分类模型中包含的特征信息,可以确定目标Cookie标识组,进而可以关联同一用户对应的Cookie。通过正确关联的Cookie标识组样本和错误关联的Cookie标识组样本训练分类模型,可以为候选Cookie标识组提供正反两面参照,使得可以更为准确的选取目标Cookie标识组,从而可以提升关联同一用户对应的Cookie的准确率。
本发明实施例还提供一种Cookie标识关联装置,其结构示意图如图11所示。
Cookie标识关联装置可以包括:候选Cookie标识组选取单元101、特征信息生成单元102、目标Cookie标识组确定单元103以及关联单元104;
所述候选Cookie标识组选取单元101,适于基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:Cookie标识、网络行为信息以及时间戳;
所述特征信息生成单元102,适于生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度;
所述目标Cookie标识组确定单元103,适于参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息;
所述关联单元104,适于记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。
在具体实施中,Cookie标识关联装置还可以包括:标准化处理单元105,适于对所述上网行为数据进行标准化处理,以统一所述上网行为数据的格式。
在具体实施中,所述网络行为信息包括网络识别标识,所述确定候选Cookie标识组包括:在对应于同一网络识别标识的Cookie标识中选取候选Cookie标识组。
在具体实施中,Cookie标识关联装置还可以包括:数目判断单元106,适于确定所述对应于同一网络识别标识的Cookie标识的数目小于阈值。
在具体实施中,所述特征信息生成单元102,适于生成以下至少一种Cookie标识组的特征信息:用户识别标识信息、相同网站浏览信息、网站相似度信息、网络行为时间信息;其中:
生成所述用户识别标识信息包括:获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识;判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户识别标识;基于所述判断结果确定所述用户识别标识信息的特征数值;
生成所述相同网站浏览信息包括:计算所述Cookie标识组中Cookie标识与相同网站间具有对应关系的概率;生成所述相同网站浏览信息的特征数值;
生成所述浏览网站相似度信息包括:对与所述Cookie标识组中Cookie标识建立过对应关系的网站进行类型相似度计算;生成所述浏览网站相似度信息的特征数值;
生成所述网络行为时间信息包括:计算所述Cookie标识组中Cookie标识对应的网络行为出现在同一时间段内的次数和频率;生成所述网络行为事件信息的特征数值。
在具体实施中,所述正确关联的Cookie标识组样本通过如下方式生成:
选取对应于同一用户的第一Cookie标识;
改变所述第一Cookie标识为第二Cookie标识;
所述第一Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确关联的Cookie标识组;
参照所述第一Cookie标识对应的上网行为数据和所述第二Cookie标识对应的上网行为数据,生成所述正确关联的Cookie标识组的特征信息;
所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信息和所述正确关联的标识值。
在具体实施中,所述错误关联的Cookie标识组样本通过如下方式生成:
选取对应于不同用户的第三Cookie标识和第四Cookie标识;
所述第三Cookie标识和所述第四Cookie标识组成的Cookie标识组作为错误关联的Cookie标识组;
参照所述第三Cookie标识对应的上网行为数据和所述第四Cookie标识对应的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息;
所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信息和所述错误关联的标识值。
在具体实施中,所述目标Cookie标识组确定单元适于参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组包括:
参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的各个特征信息的权重值;
参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造预测函数;
参照所述预测函数的函数值,在所述候选Cookie标识组中选取目标Cookie标识组。
本发明实施例中的Cookie标识关联装置可以位于数据处理服务器14(参见图1)。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种Cookie标识关联方法,其特征在于,包括:
基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:
Cookie标识、网络行为信息以及时间戳;
生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度;
参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息;
记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。
2.根据权利要求1所述的Cookie标识关联方法,其特征在于,还包括:对所述上网行为数据进行标准化处理,以统一所述上网行为数据的格式。
3.根据权利要求1所述的Cookie标识关联方法,其特征在于,所述网络行为信息包括网络识别标识,所述确定候选Cookie标识组包括:在对应于同一网络识别标识的Cookie标识中选取候选Cookie标识组。
4.根据权利要求3所述的Cookie标识关联方法,其特征在于,所述确定候选Cookie标识组还包括:确定所述对应于同一网络识别标识的Cookie标识的数目小于阈值。
5.根据权利要求1所述的Cookie标识关联方法,其特征在于,所述生成所述候选Cookie标识组的特征信息包括生成以下至少一种:用户识别标识信息、相同网站浏览信息、网站相似度信息、网络行为时间信息;其中:
生成所述用户识别标识信息包括:获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识;判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户识别标识;基于所述判断结果确定所述用户识别标识信息的特征数值;
生成所述相同网站浏览信息包括:计算所述Cookie标识组中的各Cookie标识与相同网站间具有对应关系的概率;生成所述相同网站浏览信息的特征数值;
生成所述浏览网站相似度信息包括:对与所述Cookie标识组中的各Cookie标识建立过对应关系的网站进行类型相似度计算;生成所述浏览网站相似度信息的特征数值;
生成所述网络行为时间信息包括:计算所述Cookie标识组中Cookie标识对应的网络行为出现在同一时间段内的次数和频率;生成所述网络行为事件信息的特征数值。
6.根据权利要求1所述的Cookie标识关联方法,其特征在于,所述正确关联的Cookie标识组样本通过如下方式生成:
选取对应于同一用户的第一Cookie标识;
改变所述第一Cookie标识为第二Cookie标识;
所述第一Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确关联的Cookie标识组;
参照所述第一Cookie标识对应的上网行为数据和所述第二Cookie标识对应的上网行为数据,生成所述正确关联的Cookie标识组的特征信息;
所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信息和所述正确关联的标识值。
7.根据权利要求1所述的Cookie标识关联方法,其特征在于,所述错误关联的Cookie标识组样本通过如下方式生成:
选取对应于不同用户的第三Cookie标识和第四Cookie标识;
所述第三Cookie标识和所述第四Cookie标识组成的Cookie标识组作为错误关联的Cookie标识组;
参照所述第三Cookie标识对应的上网行为数据和所述第四Cookie标识对应的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息;
所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信息和所述错误关联的标识值。
8.根据权利要求1所述的Cookie标识关联方法,其特征在于,所述参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组包括:
参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的各个特征信息的权重值;
参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造预测函数;
参照所述预测函数的函数值,在所述候选Cookie标识组中选取目标Cookie标识组。
9.一种Cookie标识关联装置,其特征在于,包括:候选Cookie标识组选取单元、特征信息生成单元、目标Cookie标识组确定单元以及关联单元;
所述候选Cookie标识组选取单元,适于基于上网行为数据确定候选Cookie标识组;所述上网行为数据包括:Cookie标识、网络行为信息以及时间戳;
所述特征信息生成单元,适于生成所述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie标识组中Cookie标识的关联程度;
所述目标Cookie标识组确定单元,适于参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息;
所述关联单元,适于记录所述目标Cookie标识组的关联关系,以关联对应的Cookie。
10.根据权利要求9所述的Cookie标识关联装置,其特征在于,还包括:标准化处理单元,适于对所述上网行为数据进行标准化处理,以统一所述上网行为数据的格式。
11.根据权利要求9所述的Cookie标识关联装置,其特征在于,所述网络行为信息包括网络识别标识,所述确定候选Cookie标识组包括:在对应于同一网络识别标识的Cookie标识中选取候选Cookie标识组。
12.根据权利要求11所述的Cookie标识关联装置,其特征在于,还包括:数目判断单元,适于确定所述对应于同一网络识别标识的Cookie标识的数目小于阈值。
13.根据权利要求9所述的Cookie标识关联装置,其特征在于,所述特征信息生成单元,适于生成以下至少一种Cookie标识组的特征信息:用户识别标识信息、相同网站浏览信息、网站相似度信息、网络行为时间信息;其中:
生成所述用户识别标识信息包括:获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识;判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户识别标识;基于所述判断结果确定所述用户识别标识信息的特征数值;
生成所述相同网站浏览信息包括:计算所述Cookie标识组中的各Cookie标识与相同网站间具有对应关系的概率;生成所述相同网站浏览信息的特征数值;
生成所述浏览网站相似度信息包括:对与所述Cookie标识组中的各Cookie标识建立过对应关系的网站进行类型相似度计算;生成所述浏览网站相似度信息的特征数值;
生成所述网络行为时间信息包括:计算所述Cookie标识组中的各Cookie标识对应的网络行为出现在同一时间段内的次数和频率;生成所述网络行为事件信息的特征数值。
14.根据权利要求9所述的Cookie标识关联装置,其特征在于,所述正确关联的Cookie标识组样本通过如下方式生成:
选取对应于同一用户的第一Cookie标识;
改变所述第一Cookie标识为第二Cookie标识;
所述第一Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确关联的Cookie标识组;
参照所述第一Cookie标识对应的上网行为数据和所述第二Cookie标识对应的上网行为数据,生成所述正确关联的Cookie标识组的特征信息;
所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信息和所述正确关联的标识值。
15.根据权利要求9所述的Cookie标识关联装置,其特征在于,所述错误关联的Cookie标识组样本通过如下方式生成:
选取对应于不同用户的第三Cookie标识和第四Cookie标识;
所述第三Cookie标识和所述第四Cookie标识组成的Cookie标识组作为错误关联的Cookie标识组;
参照所述第三Cookie标识对应的上网行为数据和所述第四Cookie标识对应的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息;
所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信息和所述错误关联的标识值。
16.根据权利要求9所述的Cookie标识关联装置,其特征在于,所述目标Cookie标识组确定单元适于参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组包括:
参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的各个特征信息的权重值;
参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造预测函数;
参照所述预测函数的函数值,在所述候选Cookie标识组中选取目标Cookie标识组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510843841.3A CN105447148B (zh) | 2015-11-26 | 2015-11-26 | 一种Cookie标识关联方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510843841.3A CN105447148B (zh) | 2015-11-26 | 2015-11-26 | 一种Cookie标识关联方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105447148A CN105447148A (zh) | 2016-03-30 |
CN105447148B true CN105447148B (zh) | 2018-12-21 |
Family
ID=55557324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510843841.3A Active CN105447148B (zh) | 2015-11-26 | 2015-11-26 | 一种Cookie标识关联方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105447148B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046307B (zh) * | 2018-10-15 | 2023-05-30 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN112488140A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 一种数据关联方法及装置 |
CN111080349B (zh) * | 2019-12-04 | 2023-04-21 | 北京悠易网际科技发展有限公司 | 识别同一用户的多个设备的方法、装置、服务器及介质 |
CN114626104A (zh) * | 2022-03-11 | 2022-06-14 | 北京奇艺世纪科技有限公司 | 一种设备标识选择方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103051637A (zh) * | 2012-12-31 | 2013-04-17 | 北京亿赞普网络技术有限公司 | 用户识别方法与装置 |
CN103067198A (zh) * | 2012-12-14 | 2013-04-24 | 北京集奥聚合科技有限公司 | 一种关联用户CookieID的方法及系统 |
CN103166998A (zh) * | 2011-12-15 | 2013-06-19 | 中国电信股份有限公司 | 用户信息关联方法、系统及服务器 |
CN103870671A (zh) * | 2012-12-18 | 2014-06-18 | 北京思博途信息技术有限公司 | 一种从Cookie中提取用户样本的方法及装置 |
US8892647B1 (en) * | 2011-06-13 | 2014-11-18 | Google Inc. | System and method for associating a cookie with a device identifier |
CN105099729A (zh) * | 2014-04-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种识别用户身份标识的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8392837B2 (en) * | 2007-02-28 | 2013-03-05 | Red Hat, Inc. | Browser supporting multiple users |
-
2015
- 2015-11-26 CN CN201510843841.3A patent/CN105447148B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892647B1 (en) * | 2011-06-13 | 2014-11-18 | Google Inc. | System and method for associating a cookie with a device identifier |
CN103166998A (zh) * | 2011-12-15 | 2013-06-19 | 中国电信股份有限公司 | 用户信息关联方法、系统及服务器 |
CN103067198A (zh) * | 2012-12-14 | 2013-04-24 | 北京集奥聚合科技有限公司 | 一种关联用户CookieID的方法及系统 |
CN103870671A (zh) * | 2012-12-18 | 2014-06-18 | 北京思博途信息技术有限公司 | 一种从Cookie中提取用户样本的方法及装置 |
CN103051637A (zh) * | 2012-12-31 | 2013-04-17 | 北京亿赞普网络技术有限公司 | 用户识别方法与装置 |
CN105099729A (zh) * | 2014-04-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种识别用户身份标识的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105447148A (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11538064B2 (en) | System and method of providing a platform for managing data content campaign on social networks | |
CN105224623B (zh) | 数据模型的训练方法及装置 | |
US11190562B2 (en) | Generic event stream processing for machine learning | |
CN105608179B (zh) | 确定用户标识的关联性的方法和装置 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN109905288B (zh) | 一种应用服务分类方法及装置 | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
US10606910B2 (en) | Ranking search results using machine learning based models | |
CN105447148B (zh) | 一种Cookie标识关联方法及装置 | |
TW201737072A (zh) | 一種對應用程序進行項目評估的方法及系統 | |
CN104199848B (zh) | 一种不同域下用户数据的关联方法和装置 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
Bellogín et al. | The magic barrier of recommender systems–no magic, just ratings | |
CN102222098A (zh) | 一种网页预取方法和系统 | |
Richier et al. | Bio-inspired models for characterizing YouTube viewcout | |
CN107766234A (zh) | 一种基于移动设备的网页健康度的测评方法、装置及系统 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN112036659A (zh) | 基于组合策略的社交网络媒体信息流行度预测方法 | |
Chen et al. | The best answers? think twice: online detection of commercial campaigns in the CQA forums | |
Nasraoui et al. | Performance of recommendation systems in dynamic streaming environments | |
CN105159898B (zh) | 一种搜索的方法和装置 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN115204436A (zh) | 检测业务指标异常原因的方法、装置、设备及介质 | |
CN110633410A (zh) | 信息处理方法及装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |