CN109359263B - 一种用户行为特征提取方法及系统 - Google Patents

一种用户行为特征提取方法及系统 Download PDF

Info

Publication number
CN109359263B
CN109359263B CN201811205634.5A CN201811205634A CN109359263B CN 109359263 B CN109359263 B CN 109359263B CN 201811205634 A CN201811205634 A CN 201811205634A CN 109359263 B CN109359263 B CN 109359263B
Authority
CN
China
Prior art keywords
log
access
user behavior
operator
identity information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811205634.5A
Other languages
English (en)
Other versions
CN109359263A (zh
Inventor
刘博�
范渊
杨锦峰
聂桂兵
龙文洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201811205634.5A priority Critical patent/CN109359263B/zh
Publication of CN109359263A publication Critical patent/CN109359263A/zh
Application granted granted Critical
Publication of CN109359263B publication Critical patent/CN109359263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种用户行为特征提取方法,该方法包括:获取目标应用的访问日志、应用日志和代理日志;参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息;将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志;参照应用日志,对目标访问日志进行会话识别,获得会话日志;对会话日志进行分析,获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。该用户行为特征可应用于个性化服务,以及解决网络安全问题。本发明还公开了一种用户行为特征提取系统、设备及可读存储介质,具有相应的技术效果。

Description

一种用户行为特征提取方法及系统
技术领域
本发明涉及网络安全技术领域,特别是涉及一种用户行为特征提取方法、系统、设备及可读存储介质。
背景技术
随着互联网的发展、网络应用的普及,也产生了各种各样的安全问题,网络安全技术成为计算机网络的一个关键技术。若能对用户建立完善的画像,便可感知用户的访问目的,精确分析用户的访问行为,可及时发现异常事件。
目前提取用户行为特征的时,往往只能统计出一个应用系统总体的用户行为特征。例如,通过统计URL的访问次数,得到用户访问量较大的热点数据,而无法统计得到单个用户的用户行为特征(如用户访问各个网页的习惯跳转顺序,操作流程)。也就无法基于提取到的用户行为特征为每一个用户提供个性化服务。
综上所述,如何有效地提取用户行为特征等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种用户行为特征提取方法、系统、设备及可读存储介质,以提取用户行为特征,以便用于建立用户画像,进一步解决网络安全问题。
为解决上述技术问题,本发明提供如下技术方案:
一种用户行为特征提取方法,包括:
获取目标应用的访问日志、应用日志和代理日志;
参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;
将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;
参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;
对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
优选地,所述将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征,包括:
将所述操作人员信息的字段与对应的所述操作信息的字段以及特征权值字段进行逐条组合,获得用户行为特征。
优选地,在所述获得用户行为特征之后,还包括:
逐条读取所述用户行为特征,以及每条所述用户行为特征的特征权值;
利用加权移动平台法计算每条所述用户行为特征的特征权重,并将所述特征权重小于特征权重阈值的用户行为特征删除。
优选地,参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息,包括:
读取所述访问日志的每条访问记录,以及每条所述访问记录对应的目标IP地址;
从所述代理日志中,读取与所述目标IP地址对应的代理记录,并分析所述代理记录,确定所述访问记录对应的所述操作人员身份信息。
优选地,参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志,包括:
利用所述应用日志确定会话时间分区;
利用所述会话时间分区,对所述目标访问日志中的访问记录进行合并,获得每个所述操作人员身份信息对应的会话日志。
优选地,对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,包括:
将每个所述操作人员身份信息对应的所述会话日志内的会话按照访问时间顺序进行排序,获得会话序列;
对所述会话序列进行分析,获得最大向前路径;
利用所述最大向前路径和所述会话序列提取所述操作信息;其中所述操作信息包括操作时间、操作类别、访问方式、操作对象、操作流程。
优选地,在所述获取目标应用的访问日志、应用日志和代理日志之后,在所述参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息之前,还包括:
清洗所述应用日志中网络信息发现系统留下的记录;
清洗所述访问日志中所记录的用户访问帧页时,对应子页面的日志数据;
清洗所述代理日志中所记录的自动加载的文件信息;其中,所述文件信息包括图像、声音特性元素。
一种用户行为特征提取系统,包括:
日志获取模块,用于获取目标应用的访问日志、应用日志和代理日志;
操作人员身份信息提取模块,用于参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;
目标访问日志获取模块,用于将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;
会话识别模块,用于参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;
用户行为信息获得模块,用于对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
一种用户行为特征提取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述用户行为特征提取方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述用户行为特征提取方法的步骤。
应用本发明实施例所提供的方法,获取到目标应用的访问日志、应用日志和代理日志;其中,应用日志为目标应用生成的日志,通常每个应用系统都会生成并记录;访问日志为用户访问目标应用的日志,可从全流量数据中提取而得;代理日志,即各代理服务器(如VPN等日志)。应用日志中的访问记录无法准确的确定出访问日志对应的操作人员是否相同,而在代理日志中记录了相应操作人员信息,因此可参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息,基于该操作人员身份信息可明确得到每一条访问记录的操作者。得到操作人员身份信息之后,可将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志。然后,参照应用日志,对目标访问日志进行会话识别,获得会话日志。其中,会话识别即将归属于同一个操作人员的访问记录按照整合规则整合为单个会话。对会话日志进行分析,可获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
由于操作信息是与操作人员身份信息相对应的,而一个操作人员身份信息对应一个用户,即提取到的用户行为特征即为单个用户的行为特征。该用户行为特征便可应用于个性化服务,或进一步为每一个用户建立用户画像解决网络安全问题。
相应地,本发明实施例还提供了与上述用户行为特征提取方法相对应的用户行为特征提取系统、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种用户行为特征提取方法的实施流程图;
图2为本发明实施例中一种用户行为特征更新方法的实施流程图;
图3为本发明实施例中一种用户行为特征提取系统的结构示意图;
图4为本发明实施例中一种用户行为特征提取设备的结构示意图;
图5为本发明实施例中一种用户行为特征提取设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种用户行为特征提取方法的流程图,该方法包括以下步骤:
S101、获取目标应用对应的访问日志、应用日志和代理日志。
其中,应用日志为目标应用生成的日志,通常每个应用系统都会生成并记录;访问日志为用户访问目标应用的日志,可从全流量数据中提取而得;代理日志,即各代理服务器(VPN等日志)。可直接从预先存储的存储设备中读取应用日志、访问日志和代理日志。当然,也可通过第三方的网络信息发现系统来获取日志,如利用爬虫系统或扫描系统获取应用日志。
S102、参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息。
为了提取出更为准确的用户行为特征,因此需要将一些干扰因素去除。例如,由于用户的IP地址并非固定不变,因此访问日志中相同IP地址的访问记录可能属于不同用户的操作行为。因此,在确定每条访问记录对应的操作人员身份信息时,参照代理日志中记录的信息,便可准确提取出每条访问记录对应的操作人员身份信息。
其中提取操作人员身份信息,具体包括:
步骤一、读取访问日志的每条访问记录,以及每条访问记录对应的目标IP地址;
步骤二、从代理日志中,读取与目标IP地址对应的代理记录,并分析代理记录,确定访问记录对应的操作人员身份信息。
为便于描述,下面将上述步骤一和步骤二结合起来进行说明。
若仅以IP地址作为判断依据,则可能会将源自不同用户的请求而产生的访问记录归为同一个用户所为。为了避免出现这种情况。可读取出访问日志中每条访问记录对应的目标IP地址,然后从代理日志中读取出对应的代理记录,该代理记录可包括操作系统、浏览器类型、mac地址。分析代理记录,从而起到访问记录对应的操作人员身份信息。该操作人员身份信息至少包括IP地址、操作系统信息、浏览器信息、MAC地址和账户。
在具体实现过程中,分析代理记录,从而起到访问记录对应的操作人员身份信息,可参见下表1,即确定用户识别场景具体可为:
读取访问日志中的访问记录,并判断是否存在两条及两条以上的IP地址相同的目标访问记录;
如果是,从代理日志中读取到的目标访问记录对应的目标用户所使用的操作系统、浏览器类型、mac地址之间存在差异,则确定用户识别场景为预设第一场景;
或,若目标访问记录中所记录的目标用户当前请求页面与已浏览页面之间无直接链接关系,则确定用户识别场景为预设第二场景;
如果否,若目标访问记录中所记录的目标用户当前请求页面与已浏览页面之间有直接链接关系,则确定用户识别场景为预设第三识别场景。
Figure GDA0002637891750000061
表1
即,如果访问日志中多条记录的IP地址相同,代理日志表明用户所使用的操作系统、浏览器类型和mac地址任意一个不同,可认为这两条记录是来源于不同用户发出的请求。
如果访问日志中两条记录的IP地址相同,但是用户当前请求的页面同用户已浏览的页面之间没有直接链接关系,则认为这两条日志记录是由不同的用户发出的请求。
如果访问日志中两条记录的IP地址不同,但是用户当前请求的页面同用户已浏览的页面之间有直接链接关系,直接判断为多个用户。
若非上述情况,则可确定访问记录分别对应不同用户。例如,当IP地址不同时,用户当前请求的页面同用户已浏览的页面之间无直接链接关系,则认为两条访问记录为不同用户发出的请求。
确定出用户识别场景之后,可在用户识别场景下从访问日志中提取操作人员信息。例如,若处于第一场景时,则将每条记录中的IP、操作系统信息、浏览器信息、mac地址和账户读取出。
S103、将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志。
即目标访问日志中的每条访问记录均记载了对应的操作人员身份信息。由于同一个用户在目标应用中进行操作时,往往会多次访问,因此,在目标访问日志中至少会存在两条访问记录的操作人员身份信息相同。
S104、参照应用日志,对目标访问日志进行会话识别,获得会话日志。
为了提取出用户的如操作流程、操作时间等操作信息。即,此时可将目标访问日志中相同操作人员身份信息的访问记录进行合并。在对访问记录进行合并,即可参照用于日志,对目标访问日志进行会话识别,获得会话日志。会话日志与操作人员身份信息相对应。
在具体实施过程中,可通过执行以下步骤获得会话日志:
步骤一、利用应用日志确定会话时间分区;
步骤二、利用会话时间分区,对目标访问日志中的访问记录进行合并,获得每个操作人员身份信息对应的会话日志。
为便于描述,下面将上述两个步骤结合起来进行说明。
其中,会话识别,即在跨越时间区段较大的应用服务器日志中,用户有可能多次访问了该站点。会话识别是将用户的访问记录分为单个的会话(Session),表示用户对站点的一次连续浏览行为。例如,可利用超时机制进行会话识别,如果用户对两页面的请求时刻的差超过一定界限T(T为可配置项,即超时界限)可认为用户又开始了一个新的会话。有研究表明,通常用户浏览同一个页面时间不会超过30分钟,因此可取30分钟作为超时界限。当然,T还可取其他数值。所获得的会话日志可参考表2:
来源页面 当前页面
A B
B C
C D
B E
A F
表2
S105、对会话日志进行分析,获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
得到会话日志之后,可对会话日志进行分析,进而获得每个操作人员身份信息对应的操作信息。该操作信息至少包括操作时间、操作类别、访问信息、操作对象和操作流程。
具体的,可执行以下步骤获得操作信息:
步骤一、将每个操作人员身份信息对应的会话日志内的会话按照访问时间顺序进行排序,获得会话序列;
步骤二、对会话序列进行分析,获得最大向前路径;
步骤三、利用最大向前路径和会话序列提取操作信息;其中操作信息包括操作时间、操作类别、访问方式、操作对象、操作流程。
为便于描述,下面将上述三个步骤结合起来进行说明。
例如,同一个Sessionid(即同一个操作人员身份信息)产生的日志如表2(表2为Session日志表)所示。那么所产生的Session为<(A,B,C,D)(A,B,E)(A,F)>,其中包括三个MFP(A,B,C,D)、(A,B,E)、(A,F)。
首先,进行路径完善,即获取Session序列:会话日志中的Session(会话)按照该Session的开始时间排序,构成一个Session序列<sessionl,session2….sessionN>的形式,这样整个Session序列将构成一个序列集,即会话序列。获取最大向前路径,可通过对Session日志分析,获取用户的最大向前路径。日志信息可以链表形式存放,每个链表节点包含源节点和目的节点。特别说明,针对root页面即没有父页面的页面,只存放rooturl。
通过对Session日志分析,获取用户的最大向前路径。具体过程如下:
Figure GDA0002637891750000091
Figure GDA0002637891750000101
得到最大向前路径和会话序列之后,便可利用最大向前路径和会话序列提取操作信息;其中操作信息包括操作时间、操作类别、访问方式、操作对象、操作流程。
得到操作人员身份信息对应的操作信息之后,可将操作人员身份信息与其对应的操作信息进行组合,得到用户行为特征。
优选地,将操作人员身份信息和对应的操作信息确定为目标应用的一条用户行为特征。由于同一用户在同一时段或不同时段的访问过程中,可能会产生一条或一条以上的访问记录,而在后期提取过程中对用户进行了身份识别,因此,所得到的用户行为特征的条数可小于或等于访问日志中所记录的访问记录条数。优选地,为便于利用提取出的用户行为特征,可单独为目标应用专门设置一个行为特征库,该行为特征库可专门用于保存用户行为特征。
应用本发明实施例所提供的方法,获取到目标应用的访问日志、应用日志和代理日志;其中,应用日志为目标应用生成的日志,通常每个应用系统都会生成并记录;访问日志为用户访问目标应用的日志,可从全流量数据中提取而得;代理日志,即各代理服务器(如VPN等日志)。应用日志中的访问记录无法准确的确定出访问日志对应的操作人员是否相同,而在代理日志中记录了相应操作人员信息,因此可参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息,基于该操作人员身份信息可明确得到每一条访问记录的操作者。得到操作人员身份信息之后,可将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志。然后,参照应用日志,对目标访问日志进行会话识别,获得会话日志。其中,会话识别即将归属于同一个操作人员的访问记录按照整合规则整合为单个会话。对会话日志进行分析,可获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
由于操作信息是与操作人员身份信息相对应的,而一个操作人员身份信息对应一个用户,即提取到的用户行为特征为单个用户的用户行为特征。该用户行为特征便可应用于个性化服务,或进一步为每一个用户建立用户画像解决网络安全问题。
优选地,在执行步骤S101之后,在执行步骤S102之前,还可对数据进行清洗,以便提前出更为准确的用户行为特征。即,在本发明实施例中针对不同类型的日志,可分别设置不同的数据清洗规则,然后在获取到目标应用对应的访问日志、应用日志和代理日志之后,可按照预先设置的数据清洗规则,分别进行日志清洗。
具体的,可执行如下清洗操作:
步骤一、清洗应用日志中网络信息发现系统留下的记录;
步骤二、清洗访问日志中所记录的用户访问帧页时,对应子页面的日志数据;
步骤三、清洗代理日志中所记录的自动加载的文件信息;其中,文件信息包括图像、声音特性元素。
为便于描述,下面将上述三个步骤结合起来进行说明。
其中,步骤一为对应用日志进行清洗,由于通过网络信息发现系统而获取用于日志时,网络信息发现系统会在用于日志中留下记录,而网络信息发现系统留下的记录对提取用户行为特征无关,为便于提取行为特征,因此可将用于日志中网络信息发现系统留下的记录进行清洗,即删除。步骤二为对访问日志进行清洗。需要说明的是,用户访问一个帧页时,子页面(如首页中包含的多个子页面)往往会在访问日志中留下的日志数据,而这些日志数据通常只是起到统计访问次数的作用。对提取用户行为特征无关,因此,可将其删除。步骤三为对代理日志进行清洗,即可将代理日志中记录的图像、声音特性元素删除。具体的,可通过检查请求文件(Request-URL)URL后缀,删除后缀为gif(GIF)、jpg(JGP)、jpeg(JPEG)、bmp等文件的方式对代理日志进行数据清洗。
需要说明的是,在执行步骤一、步骤二和步骤三时,并无先后顺序的限定需求。即,对访问日志、应用日志和代理日志进行数据清洗可按照任意顺序先后执行,也可并行执行。
实施例二:
考虑到随着时间、用于频率等隐性,数据标签会出现衰减和消亡。例如,时间较远的用户行为特征不再具有参考价值。为了解决这一问题,本发明实施例在实施例一的基础上,还提供了对用户行为特征的更新方法,可与实施例一相互参照。
请参考图2,在对会话日志进行分析,获得每个操作人员身份信息对应的操作信息之后,可执行如图2所示的操作。
S201、将操作人员信息的字段与对应的操作信息的字段以及特征权值字段进行逐条组合,获得用户行为特征。
其中,特征权值=权重/权数,特征权值可反映该条用户行为特征的活跃度,其中初始权值、初始权值可根据特征的个数进行赋权,权数可为已记录的同一个用户的用户行为特征条数。
S202、逐条读取用户行为特征,以及每条用户行为特征的特征权值。
S203、利用加权移动平台法计算每条用户行为特征的特征权重,并将特征权重小于特征权重阈值的用户行为特征删除。
使用加权移动平台法计算随着时间的推移每条行为特征的权重,采用这种计算方法的优势在于,可根据越是近期数据对预测值影响越大这一特点,不同地对待移动期内的各个数据。对近期数据给予较大的权数,对较远的数据给予较小的权数,这样来解决随着时间的推移,部分特征不在明显的问题。
权重更新采用如下计算公式:
Figure GDA0002637891750000121
其中,Weight(n)为本期需要计算的权重;Weight(i)为第i期的已知的权重;xi第i期的权数(权数的和等于1);n为本期数,n>2。例如:本期某个用户有10个特征行为,则每个特征行为的权值为1,每个行为特征的权数为1/10。每个行为特征的权重则为权值*权数=1*1/10=1/10。
第二期这个用户有9个特征行为,假设其中有8个行为特征和第一期是重叠的,则认为行为特征库的权重为1/(10+1)=1/11≈0.090909。
第三期这个用户仍有9个特征行为,假设其中有这8个行为特征和第二期是重叠的,则认为不重叠的那一个行为特征的权重为1/(11+1)=1/12。
重叠的8个行为特征权重:(1/10×1/10+1/11×1/11)/(1/10+1/11)≈0.09567。
由此可知,重叠的8个行为特征权重是变大的。当期数越多,行为特征权重变化越显著。
然后,判断特征权重是否小于特征权重阈值。该特征权重阈值可以预先设置,可预先设置一个特征阈值S,该阈值用于判断对用户行为特征的管理措施如是否删除某条用户行为特征。即可根据判断结果确定是否删除某条用户行为特征。具体的,当计算出的特征权重小于特征权重阈值,则可将用户行为特征删除。当计算出的特征权重大于或等于特征权重阈值时,则可无操作。
如此,便可通过用户行为特征中的特征权值字段,对用户行为特征进行更新和管理,提高用户行为特征的时效性。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种用户行为特征提取系统,下文描述的用户行为特征提取系统与上文描述的用户行为特征提取方法可相互对应参照。
参见图3所示,该系统包括以下模块:
日志获取模块101,用于获取目标应用的访问日志、应用日志和代理日志;
操作人员身份信息提取模块102,用于参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息;
目标访问日志获取模块103,用于将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志;
会话识别模块104,用于参照应用日志,对目标访问日志进行会话识别,获得会话日志;
用户行为信息获得模块105,用于对会话日志进行分析,获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
应用本发明实施例所提供的系统,获取到目标应用的访问日志、应用日志和代理日志;其中,应用日志为目标应用生成的日志,通常每个应用系统都会生成并记录;访问日志为用户访问目标应用的日志,可从全流量数据中提取而得;代理日志,即各代理服务器(如VPN等日志)。应用日志中的访问记录无法准确的确定出访问日志对应的操作人员是否相同,而在代理日志中记录了相应操作人员信息,因此可参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息,基于该操作人员身份信息可明确得到每一条访问记录的操作者。得到操作人员身份信息之后,可将每条访问记录对应的操作人员身份信息存入访问日志中,获得目标访问日志。然后,参照应用日志,对目标访问日志进行会话识别,获得会话日志。其中,会话识别即将归属于同一个操作人员的访问记录按照整合规则整合为单个会话。对会话日志进行分析,可获得每个操作人员身份信息对应的操作信息,并将操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
由于操作信息是与操作人员身份信息相对应的,而一个操作人员身份信息对应一个用户,即提取到的用户行为特征为单个用户的用户行为特征。该用户行为特征便可应用于个性化服务,或进一步为每一个用户建立用户画像解决网络安全问题。
在本发明的一种具体实施方式中,用户行为信息获得模块105,具体用于将操作人员信息的字段与对应的操作信息的字段以及特征权值字段进行逐条组合,获得用户行为特征。
在本发明的一种具体实施方式中,还包括:
用户行为特征管理模块,用于在获得用户行为特征之后,逐条读取用户行为特征,以及每条用户行为特征的特征权值;利用加权移动平台法计算每条用户行为特征的特征权重,并将特征权重小于特征权重阈值的用户行为特征删除。
在本发明的一种具体实施方式中,操作人员身份信息提取模块102,具体用于读取访问日志的每条访问记录,以及每条访问记录对应的目标IP地址;从代理日志中,读取与目标IP地址对应的代理记录,并分析代理记录,确定访问记录对应的操作人员身份信息。
在本发明的一种具体实施方式中,会话识别模块104,具体用于利用应用日志确定会话时间分区;利用会话时间分区,对目标访问日志中的访问记录进行合并,获得每个操作人员身份信息对应的会话日志。
在本发明的一种具体实施方式中,用户行为信息获得模块105,具体用于将每个操作人员身份信息对应的会话日志内的会话按照访问时间顺序进行排序,获得会话序列;对会话序列进行分析,获得最大向前路径;利用最大向前路径和会话序列提取操作信息;其中操作信息包括操作时间、操作类别、访问方式、操作对象、操作流程。
在本发明的一种具体实施方式中,还包括:
日志清洗模块,用于在获取目标应用的访问日志、应用日志和代理日志之后,在参照代理日志,提取访问日志中每条访问记录对应的操作人员身份信息之前,清洗应用日志中网络信息发现系统留下的记录;清洗访问日志中所记录的用户访问帧页时,对应子页面的日志数据;清洗代理日志中所记录的自动加载的文件信息;其中,文件信息包括图像、声音特性元素。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种用户行为特征提取设备,下文描述的一种用户行为特征提取设备与上文描述的一种用户行为特征提取方法可相互对应参照。
参见图4所示,该用户行为特征提取设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的用户行为特征提取方法的步骤。
具体的,请参考图5,为本实施例提供的一种用户行为特征提取设备的具体结构示意图,该用户行为特征提取设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在用户行为特征提取设备301上执行存储介质330中的一系列指令操作。
用户行为特征提取设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的用户行为特征提取方法中的步骤可以由用户行为特征提取设备的结构实现。
实施例五:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种用户行为特征提取方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的用户行为特征提取方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (10)

1.一种用户行为特征提取方法,其特征在于,包括:
获取目标应用的访问日志、应用日志和代理日志;其中,所述应用日志为所述目标应用生成的日志;所述访问日志为用户访问所述目标应用的日志;所述代理日志为代理服务器日志;
参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;其中,所述操作人员身份信息包括IP地址、操作系统信息、浏览器信息、MAC地址和账户;
将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;
参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;
对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
2.根据权利要求1所述的用户行为特征提取方法,其特征在于,所述将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征,包括:
将所述操作人员信息的字段与对应的所述操作信息的字段以及特征权值字段进行逐条组合,获得用户行为特征。
3.根据权利要求2所述的用户行为特征提取方法,其特征在于,在所述获得用户行为特征之后,还包括:
逐条读取所述用户行为特征,以及每条所述用户行为特征的特征权值;
利用加权移动平台法计算每条所述用户行为特征的特征权重,并将所述特征权重小于特征权重阈值的用户行为特征删除。
4.根据权利要求1所述的用户行为特征提取方法,其特征在于,参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息,包括:
读取所述访问日志的每条访问记录,以及每条所述访问记录对应的目标IP地址;
从所述代理日志中,读取与所述目标IP地址对应的代理记录,并分析所述代理记录,确定所述访问记录对应的所述操作人员身份信息。
5.根据权利要求1所述的用户行为特征提取方法,其特征在于,参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志,包括:
利用所述应用日志确定会话时间分区;
利用所述会话时间分区,对所述目标访问日志中的访问记录进行合并,获得每个所述操作人员身份信息对应的会话日志。
6.根据权利要求5所述的用户行为特征提取方法,其特征在于,对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,包括:
将每个所述操作人员身份信息对应的所述会话日志内的会话按照访问时间顺序进行排序,获得会话序列;
对所述会话序列进行分析,获得最大向前路径;
利用所述最大向前路径和所述会话序列提取所述操作信息;其中所述操作信息包括操作时间、操作类别、访问方式、操作对象、操作流程。
7.根据权利要求1所述的用户行为特征提取方法,其特征在于,在所述获取目标应用的访问日志、应用日志和代理日志之后,在所述参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息之前,还包括:
清洗所述应用日志中网络信息发现系统留下的记录;
清洗所述访问日志中所记录的用户访问帧页时,对应子页面的日志数据;
清洗所述代理日志中所记录的自动加载的文件信息;其中,所述文件信息包括图像、声音特性元素。
8.一种用户行为特征提取系统,其特征在于,包括:
日志获取模块,用于获取目标应用的访问日志、应用日志和代理日志;其中,所述应用日志为所述目标应用生成的日志;所述访问日志为用户访问所述目标应用的日志;所述代理日志为代理服务器日志;
操作人员身份信息提取模块,用于参照所述代理日志,提取所述访问日志中每条访问记录对应的操作人员身份信息;其中,所述操作人员身份信息包括IP地址、操作系统信息、浏览器信息、MAC地址和账户;
目标访问日志获取模块,用于将所述每条访问记录对应的操作人员身份信息存入所述访问日志中,获得目标访问日志;
会话识别模块,用于参照所述应用日志,对所述目标访问日志进行会话识别,获得会话日志;
用户行为信息获得模块,用于对所述会话日志进行分析,获得每个所述操作人员身份信息对应的操作信息,并将所述操作人员身份信息与对应的操作信息进行组合,得到用户行为特征。
9.一种用户行为特征提取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述用户行为特征提取方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用户行为特征提取方法的步骤。
CN201811205634.5A 2018-10-16 2018-10-16 一种用户行为特征提取方法及系统 Active CN109359263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811205634.5A CN109359263B (zh) 2018-10-16 2018-10-16 一种用户行为特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811205634.5A CN109359263B (zh) 2018-10-16 2018-10-16 一种用户行为特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN109359263A CN109359263A (zh) 2019-02-19
CN109359263B true CN109359263B (zh) 2020-09-29

Family

ID=65349335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811205634.5A Active CN109359263B (zh) 2018-10-16 2018-10-16 一种用户行为特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN109359263B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486935B (zh) * 2019-09-12 2024-01-30 阿里巴巴集团控股有限公司 日志记录处理方法、装置、设备及机器可读存储介质
CN110995655B (zh) * 2019-11-06 2022-08-23 国网浙江武义县供电有限公司 人员与设备行为对应关系监测方法及装置
CN111866016B (zh) * 2020-07-29 2023-04-18 中国平安财产保险股份有限公司 日志的分析方法及系统
CN112152873B (zh) * 2020-09-02 2022-10-21 杭州安恒信息技术股份有限公司 用户识别方法、装置、计算机设备和存储介质
CN112364347A (zh) * 2020-11-19 2021-02-12 全知科技(杭州)有限责任公司 一种识别高频数据访问和操作的高性能计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN103178982A (zh) * 2011-12-23 2013-06-26 阿里巴巴集团控股有限公司 日志分析方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136360B (zh) * 2013-03-07 2016-09-07 北京宽连十方数字技术有限公司 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN103605738B (zh) * 2013-11-19 2017-03-15 北京国双科技有限公司 网页访问数据统计方法及装置
CN105589905B (zh) * 2014-12-26 2019-06-18 中国银联股份有限公司 用户兴趣数据分析和收集系统及其方法
CN105701237A (zh) * 2016-02-23 2016-06-22 无锡中科富农物联科技有限公司 Web访问日志处理方法
CN107888602A (zh) * 2017-11-23 2018-04-06 北京白山耘科技有限公司 一种检测异常用户的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN103178982A (zh) * 2011-12-23 2013-06-26 阿里巴巴集团控股有限公司 日志分析方法和装置

Also Published As

Publication number Publication date
CN109359263A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109359263B (zh) 一种用户行为特征提取方法及系统
US11196839B1 (en) System and method for classifying API requests in API processing systems using a tree configuration
US10326789B1 (en) Web Bot detection and human differentiation
CN101582887B (zh) 安全防护方法、网关设备及安全防护系统
CN107241296B (zh) 一种Webshell的检测方法及装置
US10229160B2 (en) Search results based on a search history
CN107257390B (zh) 一种url地址的解析方法和系统
CN110609937A (zh) 一种爬虫识别方法及装置
CN104933056A (zh) 统一资源定位符去重方法及装置
US20170091303A1 (en) Client-Side Web Usage Data Collection
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN106302595A (zh) 一种对服务器进行健康检查的方法及设备
JP2015508543A (ja) 店舗訪問データを処理すること
CN110519263B (zh) 防刷量方法、装置、设备及计算机可读存储介质
US20100106681A1 (en) Identifying Files Associated With A Workflow
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN107526748B (zh) 一种识别用户点击行为的方法和设备
CN107391714A (zh) 一种截图方法、截图服务器、截图服务系统及介质
US10594809B2 (en) Aggregation of web interactions for personalized usage
CN103986616B (zh) 识别代理上网的机器数的方法及装置
CN103312785B (zh) 一种访问关系的确定方法及装置
CN110147473B (zh) 一种爬虫的爬取方法及装置
KR101717063B1 (ko) 웹 크롤링 장치 및 이에 의한 웹 크롤링 방법
CN108124014B (zh) 一种浏览器智能预防第三方Cookie跟踪的方法
CN113014601A (zh) 一种通信检测方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant