CN103530312A - 使用多方面足迹的用户标识的方法和系统 - Google Patents

使用多方面足迹的用户标识的方法和系统 Download PDF

Info

Publication number
CN103530312A
CN103530312A CN201310279132.8A CN201310279132A CN103530312A CN 103530312 A CN103530312 A CN 103530312A CN 201310279132 A CN201310279132 A CN 201310279132A CN 103530312 A CN103530312 A CN 103530312A
Authority
CN
China
Prior art keywords
user
footprint
network
unknown subscriber
trace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310279132.8A
Other languages
English (en)
Other versions
CN103530312B (zh
Inventor
M·克里斯托多雷斯库
R·赛勒
D·L·沙勒斯
M·斯多克林
王挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103530312A publication Critical patent/CN103530312A/zh
Application granted granted Critical
Publication of CN103530312B publication Critical patent/CN103530312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2117User registration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5058Service discovery by the service manager
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种使用多方面足迹的用户标识的方法和系统。提供了一种用于根据多个上下文中的用户活动的多个方面来标识未知用户的方法,包括:接收关于所述上下文的所述方面的多个先验;接收已知用户的多个足迹;聚合所述用户的所述足迹以确定总体先验;接收与计算机环境中的未知用户相关的多个网络踪迹;对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配;根据所述方面和所述上下文而使用所述总体先验来聚合所述匹配;以及输出所述未知用户的可能用户身份。

Description

使用多方面足迹的用户标识的方法和系统
技术领域
本公开一般地涉及用户标识,更具体地说,涉及标识系统用户的真实身份。 
背景技术
标识系统用户的真实身份如同网络安全本身一样历史长久。在其最简单的形式中,使用基于凭证(例如,口令)的检验作为实际解决方案;因此,暴露用户的凭证(多个)被视为严重的安全漏洞。多个行业已被建议通过使用用户凭证之外的信息重新标识用户,尝试改善该问题。 
发明内容
根据本公开的一个实施例,一种用于根据多个上下文中的用户活动的多个方面(facet)来标识用户的方法包括:接收关于所述上下文的所述方面的多个先验;接收已知用户的多个足迹;聚合所述用户的所述足迹以确定总体先验(ensemble prior);接收与计算机环境中的未知用户相关的多个网络踪迹;对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配;根据所述方面和所述上下文而使用所述总体先验来聚合所述匹配;以及输出所述未知用户的可能用户身份。 
根据本公开的一个实施例,一种用于标识用户的方法包括:提供用户活动的多个历史网络踪迹;从所述历史网络踪迹提取多个用户中的每个用户的足迹;聚合所述用户的所述足迹以确定总体先验;接收与计算机环境中的未知用户相关的多个网络踪迹;对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配;根据多个上下文和多个方面而使用所述总体 先验来聚合所述匹配;以及输出所述未知用户的可能用户身份。 
提供了一种用于根据多个上下文中的用户活动的多个方面来标识未知用户的系统,所述系统包括:存储器,其存储关于所述上下文的所述方面的多个先验以及基于已知用户的多个足迹的总体先验;以及处理器,其被配置为接收与计算机环境中的未知用户相关的多个网络踪迹,对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配,根据所述方面和所述上下文而使用所述总体先验来聚合所述匹配,以及输出所述未知用户的可能用户身份。 
附图说明
下面将参考附图,更详细地描述本公开的优选实施例: 
图1是根据本公开的一个实施例的基于网络踪迹的用户重新标识系统的架构; 
图2是根据本公开的一个实施例的上下文感知的判别模型的平面图; 
图3是根据本公开的一个实施例的示例性上下文网络; 
图4是根据本公开的一个实施例的用户网络乘以上下文网络的用户-上下文乘积网络的一个实例; 
图5示出了根据本公开的一个实施例的用于足迹提取的示例性方法; 
图6示出了根据本公开的一个实施例的用于足迹匹配的示例性方法;以及 
图7是根据本公开的一个实施例的用于实现基于网络踪迹的用户重新标识的计算机系统的示意图。 
具体实施方式
根据本公开的一个实施例,一种标识解决方案可以获得从网络踪迹中提取的用户行为模式。行为模式是用户的“足迹”。在此,提取的可标识特性可以称为“指纹”。 
指纹可以基于高级用户信息,可以在网络接口上从用户活动的影响来 观察该信息。对用户的网络踪迹的监视通常是可行的,这是由于其低侵入性和广泛部署的网络监视基础架构所致。此外,监视的部署相当灵活;客户机、网关或服务器都可具备监视能力。此外,可以在网络堆栈的不同层处部署监视,以便可以以各种形式(例如,DNS查询、HTTP请求和网络流量(Netflow)测量)获得网络踪迹,这些网络踪迹从不同“方面”(例如,被访问IP地址/端口、流量大小和流量经过时间)反映用户的网络行为。 
虽然可能难以将单个网络事件归因于特定个人(没有工具性支持),但可以将一组网络事件归因于给定池中的个体用户(例如,企业中的用户)。该结果对于网络取证(network forensics)尤其有用,其中通常不可获得用户身份,因此传统的异常检测工具不适用。 
根据本公开的一个实施例,公开了一种示例性的基于网络踪迹的用户重新标识方法,所述方法用于利用网络监视数据而同时解决其约束。示例性方法包括基于网络踪迹的用户标识框架。在框架的第一层上,所述方法可以应用判别模型以便对每个方面中的用户和上下文敏感的足迹进行编码。在框架的第二层上,所述方法可以自适应地组合来自多个方面的足迹,并获得可证明的标识准确性,即使面对模仿攻击时也是如此。 
所述方法的实施例可以使用一种新类型的判别模型,以便捕获用户和上下文敏感的足迹。所述方法的实施例可以包括一种学习方法,以便从杂乱的历史踪迹中提取足迹。所述方法的实施例包括在线足迹匹配。针对自适应总体(ensemble)方案描述了所述方法的示例性实施方式,其组合来自多个方面的匹配结果,这将克服每个个体方面的较弱鉴别能力。 
现在参考图1,示出了用于基于网络踪迹的用户重新标识的用户重新检验框架。图1示出了总体架构,其包括(离线)足迹提取101和(在线)用户标识102。 
在足迹提取组件101中,对于每个网络方面,监管式学习方法自动从历史网络踪迹103(例如,训练数据)提取用户的统计简档。可以使用判别模型将用户的统计简档编码为用户的“方面足迹”104。通过在训练数据 中标识特定用户时学习这些方面足迹的统计性能,可以学习聚合这些方面足迹的参数化(例如,最大似然)(105),这称为“总体先验”。 
用户标识组件102包括足迹匹配和排序聚合。从多个方面中获得的一组网络踪迹106可以被作为查询提交。网络踪迹可以由未知用户生成。对于每个方面,可以将网络踪迹与池中的用户的对应方面足迹相匹配。可以根据其负责生成踪迹的后验概率,输出候选用户身份的分类列表(方面排序)107。使用模型总体方案,可以使用来自足迹提取组件101的总体先验作为先验,将这些方面匹配结果聚合成总体匹配108(在最大似然的意义上)。总体匹配108可以对最可能的用户身份进行排序。 
如果排序列表中的该组最可能的用户身份与高概率关联,则真实用户身份可以被视为在这些顶级候选者之中;否则,身份可以被视为不可标识,这是由于可疑的用户行为或不足的标识信息所致。不可标识的身份可以提示进一步的调查机制。 
根据本公开的一个实施例,基于网络踪迹的用户重新标识使用足迹,这直观地捕获用户的行为模式,如可从网络踪迹中观察到的那样。足迹模型可以考虑各种形式的网络踪迹,包括HTTP标头、网络流量测量和DNS查询。对于HTTP标头(它们是超文本传输协议中的请求或响应的消息标头),当捕获用户行为时可以使用请求标头。网络流量是收集IP业务信息(包括入站/出站流量大小和经过时间)的网络协议。域名系统(DNS)将域名映射到IP地址。DNS查询将查找IP地址以获得域名。所述方面统一这些数据形式的处理。 
定义1(方面)。方面是用户网络行为的特定维度的测量,如在收集的网络踪迹中反映的那样。 
例如,表1中列出了一组示例性方面(源IP地址/端口的信息由“…”取代)。 
表1:HTTP请求、网络流量记录和DNS查询的相关方面 
Figure BDA00003462803200041
Figure BDA00003462803200051
除了其中观察用户网络行为的方面之外,还可以考虑其中生成用户网络行为的上下文。在一个示例性实施方式中,上下文信息被视为包括时间段(例如,下午2:00-4:00)和客户机操作系统(OS),同时表明可以很容易地包括其它上下文信息。 
对于训练数据(历史网络踪迹),可访问两个映射。第一映射是将给定时间点的IP地址(源)映射到对应设备(其MAC地址)的DHCP日志。第二映射是将给定时间点的设备(其MAC地址)映射到操作用户的凭证的用户验证日志。使用这些映射,可以将网络踪迹归因于对应的用户和设备。 
组合上面的信息,可以考虑下面的数据模型。 
定义2(数据模型)。假设有限已知用户池U和有限上下文集合C。对于网络踪迹的给定方面,提取每个记录作为元组<u,c,t>,其中u∈U和c∈C分别表示用户和上下文,t是特定于该方面的有限标记集合T中的标记。要指出的是,在该模型中,网络流量测量的四个方面(目的地IP、端口、业务大小和经过时间)被单独处理并分成四个元组。 
为使表示简单,可以假设对于每个方面,将具有相同用户u和上下文c的所有元组分组成汇总元组<u,c,t>,其中t表示这些元组中的多集合标记(multi-set of tokens)。 
现在转到对用户网络足迹进行编码的模型,足迹模型可以(i)区分用户群体中的用户的个体特征行为模式;(ii)反映用户网络行为的上下文敏感的性质;(iii)支持数据集的学习和评估。 
足迹模型是上下文感知且有判别力的。出于表示目的,使用HTTP请求标头的数据作为具体实例以示出该模型。应该理解,可以将模型推广到其它数据集。 
假设用户的网络踪迹反映一组潜在活动(例如,浏览新闻、读取电子邮件、社交网络)。更正式地说,假设对于网络踪迹集合Τ中的给定方面,用户u和上下文c的每个组合(u,c)对应于在有限潜在活动集合A上的多项分布,指示用户u在上下文c下执行每个活动的趋势;每个活动a∈A对应于在标记集合T上的多项分布,指示其生成每个标记的趋势;每个标记与潜在活动关联,并且被独立地生成。 
定义3(足迹)。用户u在上下文c下的足迹包括条件概率p(u|c)(指示u在c下执行的趋势)和在活动集合上的多项分布{p(a|u,c)}a∈A(指示u在c下执行每个活动的趋势)。 
从训练数据计算条件概率{p(u|c)}(在最大似然的意义上)可由下式给出: 
p ( u | c ) = &Sigma; t n ( u , c , t ) &Sigma; t &Sigma; u &prime; n ( u &prime; , c , t )
其中n(u,c,t)是在历史网络踪迹中,用户u在上下文c下生成标记t(例如,在HTTP踪迹的情况下,u访问域名t)的次数。 
对于{p(a|u,c)}a,模型按如下方式定义生成过程:给定用户u和上下文c,选择概率为p(a|u,c)的活动a,并生成概率为p(t|a)的标记t。如图2中所示,给定用户u202和上下文c203,可以通过计算潜在活动204的总和而确定观察到的标记t201的条件概率: 
p ( t | u , c ) = &Sigma; a &Element; A p ( t | a ) p ( a | u , c )
对于多集合标记t,给定标记生成的无关性,p(t|u,c)=Πt∈tp(t|u,c)。图2中示出了生成模型的图形表示。如图2中所示,模型对上下文信息203进行显式表示。 
遵循最大似然(ML)原理,可以通过最大化踪迹集合Τ的以下对数似然(log-likelihood),确定p(a|u,c)和p(t|a): 
L ( T ) = &Sigma; u &Sigma; c &Sigma; t n ( u , c , t ) log &Sigma; a p ( t | a ) p ( a | u , c ) - - - ( 1 )
对于用户辨别和上下文感知,一种示例性的基于网络踪迹的用户重新标识方法尝试最大化用户辨别并结合上下文信息。 
在上面给出的足迹模型中,可以以用户-上下文不可知的方式学习用户的潜在活动,例如,用户和上下文变量被视为“哑”指标。 
可以将正则化矩阵组件添加到对数似然模型。在该组件中,可以最大化不同用户之间的区别,并可以结合上下文相关性。更具体地说,不同用户的概率分布的分离最大化可以形式化为: 
max &Sigma; u &NotEqual; u &prime; &Sigma; c &Sigma; a ( p ( a | u , c ) - p ( a | u &prime; , c ) ) 2 - - - ( 2 )
同时,可以利用不同上下文的语义相关性对模型进行正则化。在此,可以假设“相似”上下文中的相同用户应该具有相似行为,即,如果上下文c和c'相似,则{p(a|u,c)}a和{p(a|u,c′)}a应该近似。可以通过数据点的最近邻图粗略估计数据点分散的局部几何结构,并且根据本公开的一个实施例,可以使用上下文网络模型对上下文的邻近性进行建模。 
定义4(上下文网络)。上下文网络GC是一种图,其中每个上下文被表示为一个节点,并且如果上下文c(c')在上下文c'(c)的d个最近邻集合中出现,则两个节点c(c'∈C)通过无向边c-c'相邻。可以指定权重w(c,c′)(0<w(c,c′)≤1)以指示它们的邻近性,其中“0”表示不相关,“1”表示相同。 
图3中示出了上下文网络的一个实例,其在一组操作系统平台之间捕获语义接近度。 
替代直接最小化用户u在近似上下文c和c'下的分布{p(a|u,c)}和{p(a|u,c′)}的分离,可以考虑备选形式化: 
max &Sigma; c - c &prime; &Sigma; u &Sigma; a ( 1 - w ( c - c &prime; ) ) ( p ( a | u , c ) - p ( a | u , c &prime; ) ) 2 - - - ( 3 )
为了将等式(2)和等式(3)的目标合并成统一的表示,可以使用笛卡尔乘积网络的概念。 
定义5(笛卡尔乘积网络)。对于两个网络GU=(VU,EU)和GC=(VC,EC),它们的笛卡尔乘积网络被定义为图G=(V,E),使得如果u∈VU并且c∈VC,则节点v=(u,c)∈V,同时如果(u=u'并且c-c'∈EC)或(u=u'∈EC并且c=c'),则存在边v-v'。 
在我们的情况中,指定用户网络GU作为完整图,即,每对用户都相邻。通过将用户网络GU与上下文网络GC“相乘”,获得用户-上下文乘积G。图4中示出了三个用户(u1、u2和u3)401和三个上下文(c1、c2和c3)402的一个实例。 
在G中,可以按如下方式指定边vv'的权重。使v=(u,c)和v=(u',c')是G中的两个节点。如果c=c',则w(e,e')=1;否则,w(v,v′)=α(1-w(c,c′))。在此,α是平衡等式(2)和等式(3)的参数。如果v和v'不相邻,则设置w(v,v′)=0。 
通过将等式(2)和等式(3)结合到基本对数似然等式(1)中,可以将足迹提取问题重新用公式表示为最大化下面的目标函数(在此,使用v代替组合(u,c)): 
O ( T , G ) = L ( T ) + &lambda;R ( T , G )
= &Sigma; v &Sigma; t n ( v , t ) log &Sigma; a p ( t | a ) p ( a | v )
+ &lambda; &Sigma; v &NotEqual; v &prime; &Sigma; a w ( v , v &prime; ) ( p ( a | v ) - p ( a | v &prime; ) ) 2
其中λ是正则化参数。可以验证正则化矩阵R(T,G)需要等式(2)和等式(3)两者。 
在λ=0的特殊情况下,目标函数退化为形成pLSA而没有正则化。一种用于pLSA参数估计的方法是期望最大化(EM)方法,其确定对数似然L(T)的(局部)最大值。它在E步骤和M步骤之间迭代:在E步骤,它确定完整似然的期望Q(Ψ;Ψn),其中Ψ表示所有参数,Ψn表示第n次迭代中的估计参数;在M步骤,它通过将Q(Ψ;Ψn)最大化为Ψn+1=argmaxΨQ(Ψ;Ψn),更新第(n+1)次迭代的参数估计Ψn+1。 
可以扩展用于pLSA的已知期望最大化(EM)方法,以便评估上下文感知的判别模型的参数。更正式地说,给定踪迹集合和上一次迭代中的估计参数(在此,pn(·)表示第n次迭代的估计概率),期望或E步骤确定潜在活动的条件分布,这类似于pLSA中的情况: 
p ( a | v , t ) = p n ( t | a ) p n ( a | v ) &Sigma; a &prime; &Element; A p n ( t | a &prime; ) p n ( a &prime; | v ) - - - ( 4 )
在最大化或M步骤,可以考虑下面的预期对数似然下界(在此,对应于参数约束的拉格朗日乘数的各部分被省略): 
ap(a|v)=1并且∑ap(t|a)=1: 
Q ( &Psi; ; &Psi; n ) = &Sigma; v &Sigma; t n ( v , t ) &Sigma; a p ( a | v , t ) log ( p ( t | a ) p ( a | v ) )
+ &lambda; &Sigma; v &NotEqual; v &prime; &Sigma; a w ( v , v &prime; ) ( p ( a | v ) - p ( a | v &prime; ) ) 2
可以观察到,{p(t|a)}并不依赖于正则化项;因此,p(t|a)的重新估计具有与pLSA中相同的封闭形式: 
p n + 1 ( t | a ) = &Sigma; v n ( v , t ) p ( a | v , t ) &Sigma; v &Sigma; t &prime; &Element; T n ( v , t &prime; ) p ( a | v , t &prime; ) - - - ( 5 )
对于pn+1(a|v)不存在重新估计的封闭形式。可以使用广义EM方法(GEM),其不是在每个M步骤搜索Q(Ψ;Ψn)的局部最大值,而是查找导致Q(Ψn+1n)≥Q(Ψnn)的Ψn+1。更具体地说,从Ψn+1n开始,可以针对R(T,G)应用一次GEM方法以更新Ψn+1,然后使用下面的示例性规则更新Ψn+1: 
p n + 1 new ( a | v ) = ( 1 - &gamma; ) p n + 1 old ( a | v ) + &gamma; &Sigma; v - v &prime; w ( v , v &prime; ) p n + 1 old ( a | v ) &Sigma; v - v &prime; w ( v , v &prime; )
在此,
Figure BDA00003462803200096
并且
Figure BDA00003462803200097
然后可以生成并测试一系列Ψn+1,直到Q(Ψn+1n)减小。 
图5中示出了参数估计的一种示例性方法。在图5中,给定网络踪迹集合T和用户-上下文乘积网络G(501)。在方框502,所述方法初始化{pn(t|a)}和{pn(a|v)}。对于每个踪迹505,给定网络踪迹和每个用户的足迹模型的估计参数,所述方法确定活动的条件分布(503),并更新估计参数(504)。对于每个v∈G,所述方法输出一组提取的足迹{p(a|v)}和{p(t|a)}(506)。 
学习用户行为(即,足迹)的统计特性之后,(i)可以将未知用户的 行为与足迹相匹配,以及(ii)可以使用来自多个方面的匹配结果提高标识未知用户的准确性。 
对于单个方面、单个上下文,从简单情况开始,其中在单个上下文下从单个网络方面生成网格踪迹。即,给定与未知用户u*相关的观察到的网络踪迹<u*,c,t>,例如通过将踪迹折叠到潜在活动的空间中,在已知用户池U中查找行为最类似于u*的用户。更具体地说: 
E步骤: 
p ( a | u * , c , t ) = p ( t | a ) p ( a | u * , c ) &Sigma; a &prime; &Element; A p ( t | a &prime; ) p ( a &prime; | u * , c ) - - - ( 6 )
M步骤: 
p ( a | u * , c ) = &Sigma; t &Element; t n ( t , u * , c ) p ( a | u * , c , t ) &Sigma; a &prime; &Element; A &Sigma; t &prime; &Element; t n ( u * , c , t &prime; ) p ( a &prime; | u * , c , t &prime; ) - - - ( 7 )
其中{p(t|a)}保持固定。 
使用Kullback-Leibler发散度来测量u*和池U中的每个用户u的足迹距离,所有已知用户的发散度的确定可以被变换为一个矩阵-向量乘法,并且复杂度为O(|U||A|)。此外,如果仅查找最可能的用户,则可以使用索引结构,例如标签嵌入树,这将复杂度减少到O(|A|log|U|)。随后使
Figure BDA00003462803200103
表示按照发散度升序的u排序。 
根据本公开的一个实施例,可以在多个上下文下针对多个方面中的网络踪迹解决一般情况。为简单起见,假设所有方面f共享相同的上下文集合c。参考图6,输入数据可以被汇总为
Figure BDA00003462803200104
其中
Figure BDA00003462803200105
表示对应于上下文c601中的方面f的测量。 
使用加权投票方法,针对不同上下文(602)和不同方面(603)聚合匹配结果。针对所有方面和上下文执行聚合(604)。更具体地说,u相对于u*的整体排序得分被定义为: 
K ( u , u * ) = &Sigma; f &Element; f &Sigma; c &Element; c &pi; ( f , c ) K c f ( u , u * ) &Sigma; f &prime; &Element; f &Sigma; c &prime; &Element; c &pi; ( f &prime; , c &prime; ) - - - ( 8 )
其中π(f,c)表示方面f针对上下文c(总体先验)的权重,满足π(f,c)≥0并且 ΣfΣcπ(f,c)=1(605)。在训练阶段中确定负责用户的属性时,可以将π(f,c)设置为与足迹模型的性能成正比: 
&pi; ( f , c ) &Proportional; 1 | T c f | &Sigma; < u , f , c , t c f > &Element; T c f | U | - K c f ( u , u ) - 1 | U |
其中表示与f和c相关的
Figure BDA00003462803200113
中的元组数(在交叉验证中)。先验参数集合π(f,c)在图1中被称为总体先验。 
然后可以按照所有用户的排序得分,以降序对所有用户进行排序,指示他们是负责用户的可能性(606)。可以按如下方式给出足迹匹配的一种示例性方法: 
Input:priorsπ(f,c),footprints{p(a|u,c)},and query traces 
< u * , f , c , { t c f } c &Element; c , f &Element; f >
Output:ranked list of candidate users 
for each facet f∈f and each context c∈c do 
while not converged do 
determine
Figure BDA00003462803200115
as in Eq.(6) 
re-estimate{p(a|u*,c)}a∈A as in Eq.(7) 
end while 
determine
Figure BDA00003462803200116
end for 
determine as{K(u,u*)}u∈U in Eq.(8) 
sort and output u∈U in ascending order of K(u,u*) 
本公开的实施例的方法可以特别适合用于电子设备或备选系统。因此,本公开的实施例可以具体实现为以下形式,即:完全的硬件实施方式或硬件和软件方面结合的实施方式,这里可以统称为“处理器”、“电路”、“模块”或“系统”。此外,本公开的实施例还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中具有存储在其上的计算机可读的程序代码。 
可以采用一个或多个计算机可用或计算机可读介质的任意组合。计算 机可用或计算机可读介质可以是计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。 
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。 
上面参照方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的实施例。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。 
可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机或其它可编程数据处理装置以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令装置的制造品(article of manufacture)。 
可以把计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储 在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。 
例如,图7是示出用于执行基于网络踪迹的用户重新标识方法的示例性计算机系统的框图。计算机系统701可以包括处理器702、(例如,经由总线704或备选连接方式)耦合到处理器的存储器703,以及输入/输出(I/O)电路705-706,其可操作以便与处理器702连接。处理器702可以被配置为执行本公开中描述的一种或多种方法,本公开的示例性实施例在上面图中示出并在此描述。本公开的实施例可以被实现为例程707,其存储在存储器703中并由处理器702执行以便处理来自信号源708的信号。因此,计算机系统701是通用计算机系统,当执行本公开的例程707时,变成专用计算机系统。 
应当理解,术语“处理器”如在此所使用的,旨在包括任何处理设备,例如包括中央处理单元(CPU)和/或其它处理电路(例如,数字信号处理器(DSP)、微处理器等)的处理设备。此外,应当理解,术语“处理器”可以指在一个处理器中包含多个处理核心的多核处理器或者多个处理设备,并且与处理设备关联的各种元件可以由其它处理设备共享。 
术语“存储器”如在此所使用的,旨在包括与处理器或CPU关联的存储器和其它计算机可读介质,例如随机存取存储器(RAM)、只读存储器(ROM)、固定存储介质(例如,硬盘驱动器)、可移动存储介质(例如,软盘)、闪存等。此外,术语“I/O电路”如在此所使用的,旨在包括例如用于将数据输入到处理器中的一个或多个输入设备(例如,键盘、鼠标等),以及/或者用于呈现与处理器关联的结果的一个或多个输出设备(例如,打印机、显示器等)。 
附图中的流程图和框图显示了根据本公开的不同实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功 能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 
尽管参考附图在此描述了本公开的示例性实施例,但是应当理解,本公开并不限于这些精确的实施例,并且在不偏离所附权利要求的范围的情况下,本领域的技术人员可以做出各种其它更改和修改。 

Claims (14)

1.一种用于具有至少一个处理器的计算机的方法,所述方法用于根据多个上下文中的用户活动的多个方面来标识未知用户,所述方法包括:
接收关于所述上下文的所述方面的多个先验;
接收已知用户的多个足迹;
聚合所述用户的所述足迹以确定总体先验;
接收与计算机环境中的未知用户相关的多个网络踪迹;
对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配;
根据所述方面和所述上下文而使用所述总体先验来聚合所述匹配;以及
输出所述未知用户的可能用户身份。
2.根据权利要求1的方法,其中作为输入流接收所述网络踪迹,并且所述方法还包括使用索引结构执行针对网络踪迹流的匹配。
3.根据权利要求1的方法,还包括输出按概率排序的多个用户身份。
4.根据权利要求1的方法,其中所述输出进一步包括根据是所述未知用户的概率来输出用户身份的分类列表。
5.根据权利要求1的方法,其中每个上下文指示用户活动的时间和位置中的至少一个。
6.根据权利要求1的方法,其中每个方面是用户活动的测量维度。
7.一种用于标识未知用户的方法,所述方法包括:
接收用户活动的多个历史网络踪迹;
从所述历史网络踪迹提取多个用户中的每个用户的足迹;
聚合所述用户的所述足迹以确定总体先验;
接收与计算机环境中的未知用户相关的多个网络踪迹;
对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配;
根据多个上下文和多个方面而使用所述总体先验来聚合所述匹配;以及
输出所述未知用户的可能用户身份。
8.根据权利要求7的方法,其中作为输入流接收所述网络踪迹,并且所述方法还包括使用索引结构执行针对网络踪迹流的匹配。
9.根据权利要求7的方法,还包括输出按概率排序的多个用户身份。
10.根据权利要求7的方法,其中所述输出进一步包括根据是所述未知用户的概率来输出用户身份的分类列表。
11.根据权利要求7的方法,其中每个上下文指示用户活动的时间和位置中的至少一个。
12.根据权利要求7的方法,其中每个方面是用户活动的测量维度。
13.一种用于标识未知用户的系统,所述系统包括被配置为执行权利要求1至12中的任一权利要求的方法步骤的装置。
14.一种用于根据多个上下文中的用户活动的多个方面来标识未知用户的系统,所述系统包括:
存储器,其存储关于所述上下文的所述方面的多个先验以及基于已知用户的多个足迹的总体先验;以及
处理器,其被配置为接收与计算机环境中的未知用户相关的多个网络踪迹,对照所述足迹中的每个足迹来匹配所述网络踪迹以确定多个匹配,根据所述方面和所述上下文而使用所述总体先验来聚合所述匹配,以及输出所述未知用户的可能用户身份。
CN201310279132.8A 2012-07-05 2013-07-04 使用多方面足迹的用户标识的方法和系统 Active CN103530312B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US13/542,422 2012-07-05
US13/542,422 US9003025B2 (en) 2012-07-05 2012-07-05 User identification using multifaceted footprints
US13/553,415 2012-07-19
US13/553,415 US9251328B2 (en) 2012-07-05 2012-07-19 User identification using multifaceted footprints

Publications (2)

Publication Number Publication Date
CN103530312A true CN103530312A (zh) 2014-01-22
CN103530312B CN103530312B (zh) 2016-12-28

Family

ID=49879369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310279132.8A Active CN103530312B (zh) 2012-07-05 2013-07-04 使用多方面足迹的用户标识的方法和系统

Country Status (2)

Country Link
US (2) US9003025B2 (zh)
CN (1) CN103530312B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9003025B2 (en) * 2012-07-05 2015-04-07 International Business Machines Corporation User identification using multifaceted footprints
CN103914494B (zh) * 2013-01-09 2017-05-17 北大方正集团有限公司 一种微博用户身份识别方法及系统
WO2015196377A1 (zh) * 2014-06-25 2015-12-30 华为技术有限公司 一种用户身份类别确定方法以及装置
US20170004434A1 (en) * 2015-06-30 2017-01-05 International Business Machines Corporation Determining Individual Performance Dynamics Using Federated Interaction Graph Analytics
DK3729255T3 (da) * 2017-12-22 2024-01-02 6Sense Insights Inc Mapning af entiteter til konti
CN112166420B (zh) * 2018-04-23 2024-04-05 美光科技公司 用于刷新逻辑到物理信息的系统和方法
US11993270B2 (en) * 2021-12-03 2024-05-28 Bendix Commercial Vehicle Systems, Llc System and method for driving style driver identity determination and control of vehicle functions

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020112035A1 (en) * 2000-10-30 2002-08-15 Carey Brian M. System and method for performing content experience management
EP1308870A2 (en) * 2001-11-02 2003-05-07 Xerox Corporation User profile classification by web usage analysis
US20040259536A1 (en) * 2003-06-20 2004-12-23 Keskar Dhananjay V. Method, apparatus and system for enabling context aware notification in mobile devices
WO2005088498A1 (en) * 2004-03-10 2005-09-22 Weborama System and method for determining a profile of a user of a communication network
US20060020633A1 (en) * 2004-07-26 2006-01-26 Samsung Electronics Co., Ltd. Apparatus and method for providing context-aware service
CN101082927A (zh) * 2007-07-02 2007-12-05 浙江大学 一种基于ContextFS上下文文件系统的文件服务方法
CN101685521A (zh) * 2008-09-23 2010-03-31 北京搜狗科技发展有限公司 在网页中展现广告的方法及系统
CN102075851A (zh) * 2009-11-20 2011-05-25 北京邮电大学 一种移动网络中用户偏好的获取方法及系统
CN102184199A (zh) * 2011-04-22 2011-09-14 北京志腾新诺科技有限公司 网络信息推荐方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983379B1 (en) 2000-06-30 2006-01-03 Hitwise Pty. Ltd. Method and system for monitoring online behavior at a remote site and creating online behavior profiles
US8789171B2 (en) 2008-03-26 2014-07-22 Microsoft Corporation Mining user behavior data for IP address space intelligence
US8417561B2 (en) 2008-09-24 2013-04-09 Bank Of America Corporation Market dynamics
CN101753341A (zh) 2008-12-16 2010-06-23 上海冰峰计算机网络技术有限公司 电脑网络的监控方法
US20110087647A1 (en) 2009-10-13 2011-04-14 Alessio Signorini System and method for providing web search results to a particular computer user based on the popularity of the search results with other computer users
US8924419B2 (en) 2010-03-31 2014-12-30 Salesforce.Com, Inc. Method and system for performing an authority analysis
US9112918B2 (en) * 2012-04-30 2015-08-18 Verizon Patent And Licensing Inc. Multi-mode user device and network-based control and monitoring
US9003025B2 (en) * 2012-07-05 2015-04-07 International Business Machines Corporation User identification using multifaceted footprints

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020112035A1 (en) * 2000-10-30 2002-08-15 Carey Brian M. System and method for performing content experience management
EP1308870A2 (en) * 2001-11-02 2003-05-07 Xerox Corporation User profile classification by web usage analysis
US20040259536A1 (en) * 2003-06-20 2004-12-23 Keskar Dhananjay V. Method, apparatus and system for enabling context aware notification in mobile devices
WO2005088498A1 (en) * 2004-03-10 2005-09-22 Weborama System and method for determining a profile of a user of a communication network
CN1954336A (zh) * 2004-03-10 2007-04-25 韦伯拉玛公司 用于确定通信网络用户概况的系统和方法
US20060020633A1 (en) * 2004-07-26 2006-01-26 Samsung Electronics Co., Ltd. Apparatus and method for providing context-aware service
CN101082927A (zh) * 2007-07-02 2007-12-05 浙江大学 一种基于ContextFS上下文文件系统的文件服务方法
CN101685521A (zh) * 2008-09-23 2010-03-31 北京搜狗科技发展有限公司 在网页中展现广告的方法及系统
CN102075851A (zh) * 2009-11-20 2011-05-25 北京邮电大学 一种移动网络中用户偏好的获取方法及系统
CN102184199A (zh) * 2011-04-22 2011-09-14 北京志腾新诺科技有限公司 网络信息推荐方法及系统

Also Published As

Publication number Publication date
US20140012976A1 (en) 2014-01-09
CN103530312B (zh) 2016-12-28
US20140012973A1 (en) 2014-01-09
US9251328B2 (en) 2016-02-02
US9003025B2 (en) 2015-04-07

Similar Documents

Publication Publication Date Title
US11475143B2 (en) Sensitive data classification
CN103530312A (zh) 使用多方面足迹的用户标识的方法和系统
Hu et al. Adaboost-based algorithm for network intrusion detection
Wang et al. Processing of massive audit data streams for real-time anomaly intrusion detection
Tang et al. Dynamic API call sequence visualisation for malware classification
Olmezogullari et al. Pattern2Vec: Representation of clickstream data sequences for learning user navigational behavior
Wang et al. Representing fine-grained co-occurrences for behavior-based fraud detection in online payment services
CN107392022A (zh) 爬虫识别、处理方法及相关装置
CN104090835A (zh) 基于eID和谱理论的跨平台虚拟资产交易审计方法
Kohyarnejadfard et al. A framework for detecting system performance anomalies using tracing data analysis
CN115186012A (zh) 一种用电量数据检测方法、装置、设备及存储介质
CN112583847B (zh) 一种面向中小企业网络安全事件复杂分析的方法
CN111797942A (zh) 用户信息的分类方法及装置、计算机设备、存储介质
Mustafa et al. Feature selection for phishing website by using naive bayes classifier
Liu et al. Network vulnerability analysis using text mining
Francois et al. Machine learning techniques for passive network inventory
Li et al. Can we speculate running application with server power consumption trace?
Wang et al. Research on opinion spam detection by time series anomaly detection
Nandakumar et al. A Novel Approach to User Agent String Parsing for Vulnerability Analysis Using Multi-Headed Attention
US20230099325A1 (en) Incident management system for enterprise operations and a method to operate the same
Xuan et al. Identification of unknown operating system type of Internet of Things terminal device based on RIPPER
Demir et al. Authorship Authentication of Short Messages from Social Networks Machines
Jinghua et al. Research on Accurate Identification of Web Components Fingerprint Based on Integrated Learning
BHAGYASHREE Jnana Sangama, Belagavi-590 014
Xu et al. DCEL: Classifier Fusion Model for Android Malware Detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant