CN113157542B - 基于应用日志的趋同行为用户识别方法及系统 - Google Patents

基于应用日志的趋同行为用户识别方法及系统 Download PDF

Info

Publication number
CN113157542B
CN113157542B CN202110466178.5A CN202110466178A CN113157542B CN 113157542 B CN113157542 B CN 113157542B CN 202110466178 A CN202110466178 A CN 202110466178A CN 113157542 B CN113157542 B CN 113157542B
Authority
CN
China
Prior art keywords
users
aggregation
user
access
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110466178.5A
Other languages
English (en)
Other versions
CN113157542A (zh
Inventor
刘浩杰
李岩
张强
皇甫道一
张昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Suning Software Technology Co ltd
Original Assignee
Nanjing Suning Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Suning Software Technology Co ltd filed Critical Nanjing Suning Software Technology Co ltd
Priority to CN202110466178.5A priority Critical patent/CN113157542B/zh
Publication of CN113157542A publication Critical patent/CN113157542A/zh
Application granted granted Critical
Publication of CN113157542B publication Critical patent/CN113157542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开基于应用日志的趋同行为用户识别方法及系统,其中该方法包括:在实时计算引擎上获取应用日志;通过对所述应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出所述相似性指标未达到预设阈值的用户并标记为趋同行为用户;将所述趋同行为用户输送到系统缓存,并根据系统配置对所述趋同行为用户采取相应的限制措施。该系统实现上述于应用日志的趋同行为用户识别方法,针对现有的趋同行为处理方法存在的技术短板,不仅实现了趋同行为团伙的自动化挖掘,而且对中低频率趋同行为用户同样有效,增加了趋同行为团伙的恶意对抗本系统的难度和成本。

Description

基于应用日志的趋同行为用户识别方法及系统
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于应用日志的趋同行为用户识别方法及系统。
背景技术
恶意网络团伙往往掌握大量的IP资源,并利用这些IP以并发的方式向目标服务器发起请求,以获取有价值信息或达成其他恶意目的。针对上述问题,目前常用的处理方法包括流量控制、威胁情报、单个用户的行为分析等。其中,流量控制方法的实时性高且可自定义设置,但只能识别高频的趋同行为请求,假设系统管理员设定某接口访问频率不得大于10TPS,超过该频率的用户将会被拦截,这导致恶意网络团伙很容易能试探到临界值,并将访问频率降低到10TPS以下从而绕过防护,如果阈值设置过低,则有可能导致正常用户被拦截,因此合理的阈值设置比较困难,使用起来学习成本较高无法自适应动态调整阈值,该处理方法不适合处理中低频率的趋同行为用户;威胁情报方法对外部情报威胁来源的准确性及实时性要求较高,可作为辅助手段,更多是用来进行事后的溯源分析;针对单个用户的行为分析能检测到访问行为比较单一或者访问频率波动较小的趋同行为用户,进一步增加了恶意网络团伙的访问成本,但对高度拟人或者随机化访问频率的趋同行为无法有效识别,导致漏过,仅从单用户维度我们没有把握说明其为趋同行为用户,而且,当恶意网络团伙采用大量IP来发起请求时,请求内容被分散导致识别失效,请求将被绕过,处理效果不好。目前基于多个用户的趋同行为检测技术都高度依赖人工分析,无法实现高效的自动化检测。
发明内容
本发明的目的在于提供基于应用日志的趋同行为用户识别方法及系统,用于解决现有技术中基于多个用户的趋同行为检测技术高度依赖人工分析,无法对用户趋同行为进行高效地自动化检测的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于应用日志的趋同行为用户识别方法,包括:
在实时计算引擎上获取应用日志;
通过对所述应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出所述相似性指标未达到预设阈值的用户并标记为趋同行为用户;
将所述趋同行为用户输送到系统缓存,并根据系统配置对所述趋同行为用户采取相应的限制措施。
优选地,以IP地址、用户账号、设备指纹中的任一一种作为所述用户的唯一标识,对所述应用日志中的用户进行多次聚合。
具体的,通过对所述应用日志中的用户进行多次聚合,以获取用户的相似性指标,筛选出所述相似性指标超过未达到预设阈值的用户并标记为趋同行为用户的方法包括:
对所述应用日志中的用户进行初次聚合,得到多个初次聚合后的子集,并对所述初次聚合后的子集进行数据预处理,得到多个第一子集;
对每个所述第一子集中的用户进行第二次聚合,得到多个二次聚合后的子集,根据所述二次聚合后的子集内用户携带的请求内容建立访问内容索引映射,同时对用户访问行为的轮廓描述进行量化处理,得到多个第二子集;
对每个所述第二子集中的用户进行第三次聚合,得到多个三次聚合后的子集,计算每个三次聚合后的子集中用户的相似性指标,筛选出所有的相似性指标未达到预设阈值的三次聚合后的子集,存储为第三子集,并将所述第三子集中用户并标记为趋同行为用户;其中,所述相似度指标用于描述三次聚合后的子集中用户访问行为的变异程度。
进一步地,所述初次聚合的方法包括:
按照固定时间窗口策略,对每固定时间间隔内所述应用日志中具有相同的用于描述用户唯一标识的关键特征的用户进行聚合。
具体地,所述对初次聚合后的子集进行数据预处理的方法包括:
分别统计每个初次聚合后的子集中的用户访问信息,所述用户访问信息包括用户个数及每个用户的访问次数;
筛选出所述用户个数在预设用户个数阈值区间内,且所述访问次数大于预设访问次数阈值的初次聚合后的子集。
较佳地,所述预设用户个数阈值区间为[2:1000];
所述预设访问次数阈值为:每个用户访问次数的平均值减3倍标准差。
进一步地,通过计算访问统计特征及访问内容向量特征对用户访问行为的轮廓描述进行量化处理,其中,
所述访问内容向量特征用于描述二次聚合后的子集中的用户在域名维度、URL维度、用户代理维度上的访问行为轮廓;
所述访问统计特征包括所述访问内容向量中的均值、标准差和变异系数,用于描述二次聚合后的子集中的用户访问行为的时序特征。
具体地,基于二次聚合后的子集得到第二子集的方法还包括:
用箱型图法来判断异常用户并去除异常用户;
当异常用户数量达到当前二次聚合后的子集中用户总数的30%时,则将当前二次聚合后的子集删除。
进一步地,计算每个三次聚合后的子集中用户的相似性指标的方法包括:
计算所述三次聚合后的子集中用户对不同域名的访问行为的变异系数;
计算所述三次聚合后的子集中用户访问的不同域名的权重;
将每个所述变异系数与所述权重的乘积进行求和,得到所述相似性指标。
一种基于应用日志的趋同行为用户识别系统,包括应用日志获取模块、聚合模块及输出模块,其中:
所述应用日志获取模块用于在实时计算引擎上获取应用日志;
所述聚合模块用于通过对所述应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出所述相似性指标未达到预设阈值的用户并标记为趋同行为用户;
所述输出模块用于将所述趋同行为用户输送到系统缓存,并根据系统配置对所述趋同行为用户采取相应的限制措施
与现有技术相比,本发明提供的用于移动端的视频解码方法和系统具有以下有益效果:
本发明提供的基于应用日志的趋同行为用户识别方法,针对现有的趋同行为处理方法存在的技术短板,将单个用户访问行为进行自动化抽象和量化,有效反映出单个用户的访问行为特征轮廓,通过对特征维度的变异系数进行加权平均,充分了考虑了每列特征的权重信息,对用户访问行为特征集合的同步趋势进行抽象和量化,从而实现了自动化趋同行为团伙挖掘。
本发明提供的基于应用日志的趋同行为用户识别系统,不仅实现了趋同行为团伙的自动化挖掘,而且对中低频率趋同行为用户同样有效,加强了企业对趋同行为用户的识别能力建设,增加了趋同行为团伙的恶意对抗本系统的难度和成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中趋同行为用户识别方法的示意图;
图2为本发明实施例中趋同行为用户识别方法的具体流程图;
图3为本发明实施例中IP地址相同ab段示意图;
图4为本发明实施例中30min时间窗口下子集中用户个数分布;
图5为本发明实施例中30min时间窗口下子集中趋同用户个数分布;
图6为本发明实施例中两个趋同用户对不同域名访问次数向量图;
图7为本发明实施例中URL的泛化流程图;
图8为本发明实施例中表3数据分布箱形图;
图9为本发明实施例中表4数据分布箱形图;
图10为本发明实施例中表4数据的访问向量折线图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,一种基于应用日志的趋同行为用户识别方法,包括:
在实时计算引擎上获取应用日志;
通过对应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出相似性指标未达到预设阈值的用户并标记为趋同行为用户;
将趋同行为用户输送到系统缓存,并根据系统配置对趋同行为用户采取相应的限制措施。
本发明提供的基于应用日志的趋同行为用户识别方法,针对现有的趋同行为处理方法存在的技术短板,将单个用户访问行为进行自动化抽象和量化,有效反映出单个用户的访问行为特征轮廓,通过对特征维度的变异系数进行加权平均,充分了考虑了每列特征的权重信息,对用户访问行为特征集合的同步趋势进行抽象和量化,从而实现了自动化趋同行为团伙挖掘。
其中,对应用日志中的用户进行多次聚合时,可以将IP地址、用户账号、设备指纹中的任一一种作为用户的唯一标识,本实施例中以采用IP地址作为用户的唯一标识为例进行方案的详细描述。
首先,对应用日志中的用户进行初次聚合,得到多个初次聚合后的子集,并对初次聚合后的子集进行数据预处理,得到多个第一子集。其中,初次聚合的方法包括:按照固定时间窗口策略,对每固定时间间隔内应用日志中AB段都相同的IP地址的用户进行聚合。
请参阅图2左边第一栏的数据输入栏,对于应用日志的获取窗口时间的选择,若窗口时间较短,用户访问行为轮廓就无法详实描述,反之若时间窗口过长则会导致响应延迟,同时也会给内存资源带来负担。因此在时间窗口长度的设置需要按照专家经验及实际业务流量情况,反复测试来确定。在分别验证了10~60分钟的时间窗口长度后,最终验证当时间窗口为30分钟时,检测系统取得了最佳表现。
同时,可供选择的窗口类型有固定时间窗口、滑动时间窗口和会话窗口。其中,会话窗口适合单用户行为分析,当对多用户进行聚合运算时,开始和结束的时间难以界定;滑动时间窗口可选择窗口滑动时间单位为10分钟,对最近30分钟的用户访问行为数据进行聚合运算,既能看到更多的访问行为信息,又能有效缩短响应时间,但运算的资源消耗更多,而且若对上一批次检测到趋同行为用户采取限制后,会对之后的访问行为造成干预,进一步影响集合内相似度计量的准确性;因此,本实施例中,经过以上验证后选择固定时间窗口策略,窗口时间长度为30分钟。
请参阅图3,IPV4协议中一个完整的IP地址被三个点分为了4个部分A、B、C、D,一般各段由数字0-255组成。IP地址的AB段都相同则表示其对应用户的物理距离最为接近,如云机房等,团伙作案时往往用大量AB段都相同的IP地址用来发起趋同行为请求。
对初次聚合后的子集进行数据预处理的方法包括:分别统计每个初次聚合后的子集中的用户访问信息,用户访问信息包括用户个数及访问次数;筛选出用户个数在预设用户个数阈值区间内,且访问次数大于预设访问次数阈值的初次聚合后的子集。其中,预设用户个数阈值区间为[2:1000];预设访问次数阈值为每个用户访问次数的平均值减3倍标准差。
请参阅图4和图5,统计了生产环境中30分钟内的应用访问日志,并根据IP地址的AB段进行聚合,绘出了每个子集内用户个数的分布图。当时间窗口取值为30min时大多数子集个数集中在3000以内,用户个数在[0,3000]区间时占比为0.9993;趋同行为子集中的用户个数在[2,1000]区间时占比为0.9991。考虑到召回率和计算复杂度的平衡,预设用户个数阈值区间为[2,1000]。
在设置预设访问次数阈值时,用到了切比雪夫不等式的原理。其中切比雪夫不等式指出,任意一个数据集中,位于其平均数m个标准差范围内的比例总是至少为
Figure BDA0003043425400000071
m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:
1.所有数据中,至少有75%的数据位于平均数2个标准差范围内,
2.所有数据中,至少有88.9%的数据位于平均数3个标准差范围内,
3.所有数据中,至少有或96%的数据位于平均数5个标准差范围内。
在根据固定时间窗口进行切割时,若某个用户的访问记录刚开始就被切割,则该用户的统计访问次数将远低于平均水准,导致在进行相似性指标(similarity)计算时造成干扰,因此预设访问次数阈值为每个用户访问次数的平均值减3倍标准差,即,将访问次数小于平均值减3倍标准差的用户作为异常值剔除;其中,所述相似度指标用于描述三次聚合后的子集中用户访问行为的变异程度,计算得到的相似度指标越大,意味着三次聚合后的子集中用户访问行为的变异程度越大,反之则意味着三次聚合后的子集中用户访问行为的相似程度越大。
其次,对每个第一子集中的用户进行第二次聚合,得到多个二次聚合后的子集,根据二次聚合后的子集内用户携带的请求内容建立访问内容索引映射,同时对用户访问行为的轮廓描述进行量化处理,得到多个第二子集。
用户访问的域名(Host)和请求内容(Request_uri)确定了请求的目标,有三种方式对访问内容进行定义,分别是域名级、域名加接口级、接口级。采用域名级的定义方式,维度向量空间较小计算更快,但粒度略粗,有极低的概率造成误判;采用域名加接口级的定义方式,粒度更加细腻,但有些恶意用户团伙在发起服务器扫描时会频繁更换域名,但请求内容保持不变。因此,本实施例中采取接口级对访问内容进行定义。
对所有的访问接口建立索引,并对子集内每个用户的访问接口向量进行统一度量。通过对每个子集中用户访问过的接口进行汇总,针对每个子集,为其中存在的接口创建一个固定的索引如下:
interfaceIndexk={io:0,i1:1,i2:2,…,in:n}
其中,k表示当前固定时间窗口中包含的IP地址个数,即当前固定时间窗口所包含的用户个数,i表示接口,每个不同的IP地址有n个不同的接口信息,即每个用户访问过的接口。
通过计算访问统计特征及访问内容向量特征对用户访问行为的轮廓描述进行量化处理,其中,访问内容向量特征用于描述二次聚合后的子集中的用户在域名维度、URL维度、用户代理维度上的访问行为轮廓;访问统计特征包括所述访问内容向量中的均值、标准差和变异系数,用于描述二次聚合后的子集中的用户访问行为的时序特征。
应用日志中记录着用户访问网站的时间(Time)、域名(Host)、URL(UniformResource Locator,统一资源定位系统)、UA(User Agent,用户代理)和Referer(网站来路)等信息。如下表1所示,这些日志信息可用来描述用户的访问行为轮廓,从中可提取出描述用户访问行为的量化特征。
表1-应用访问日志示例
Figure BDA0003043425400000081
用户在浏览网站时,会触发对多个域名的访问,浏览不同的网页时,其域名访问分布情况也会发生变化,访问一个网页产生的请求往往是固定的,因此可以通过统计不同域名的访问次数描述一个用户的访问行为轮廓。如果用户对每个域名的访问次数相近,并且用户浏览网页的种类和次数也是相似的,那么该用户的访问行为也可以被认为是相似的。
假设域名总个数为m,用户访问域名i(i≤m)的次数为Hi,该用户在域名维度上的访问内容向量可表示为[H1,H2,H3,…,Hm]∈Nm。如下表2所示,该用户在域名维度上的访问内容向量可表示为[23,43,45,…,4]
表2-单用户在域名维度上的访问内容向量
域名(Host i) Host 1 Host 2 Host 3 Host m
计数(Hi) 23 43 45 4
请参阅图6,绘制了同一时间段内AB段都相同的两个IP的对应的用户在域名维度上的访问内容向量特征,其中横轴表示域名,纵轴表示访问次数。从图中可以看出这两个用户访问域名分布情况非常相近,通过人工核查具体的访问日志,发现这两个用户具有相似的访问行为,是两个趋同行为用户。
然而,仅统计用户在域名维度上的访问次数不能精确地描述用户的访问行为轮廓,因为用户在同一域名下访问的URL不相同。进一步统计用户在URL维度上的访问分布情况有利于精确描述用户的访问行为轮廓。但是由于URL种类太多,包含各种参数的变化,导致URL维度上的访问内容向量维度较高,本实施例中对URL进行泛化处理以减少URL种类,请参阅图7,具体方法可以包括:
只保留URL的路径信息,并对路径中的数字进行泛化处理,进一步减少了URL种类。假设通过泛化处理后的URL种类为K,用户访问第i类URL数量为UK,与域名维度上的访问内容向量类似,该用户在URL维度上的访问内容向量可表示为[U1,U2,U3,…,UK]∈NK
在本实施例中,由于域名和URL维度上的访问内容向量维度较高且计算复杂,可以根据域名和URL维度上的访问内容向量的统计特征来进行访问行为轮廓描述,即访问统计特征,例如域名和URL维度上的访问内容向量的访问均值、标准差和变异系数,以粗略了解域名和URL维度上的访问内容的分布情况。
在本实施例中,统计用户在某一时间区间[T1,T2]内的访问频率序列,频率统计周期为Δt,最终得到一个长度为
Figure BDA0003043425400000091
的频率序列[f1,f2,f3,…,fn]。在该频率序列的基础上,可以根据用户的访问统计特征来描述用户访问行为的时序特征。例如,该频率序列的变异系数(Coefficient of Variation,Cv)可通过频率序列的统计量标准差std和均值mean的比值计算,计算公式如下:
Figure BDA0003043425400000101
正常用户的访问频率序列变化通常较大,即,变异系数较大,而趋同行为用户通常使用固定的访问频率进行访问,并且访问次数较多。
从频率序列中还可以提取出一些具有现实意义的特征,比如用户的活跃度A,用于描述用户在时间区间内的活跃长度,可通过频率序列中非零数字的占比进行计算。用户的时序特征可表示为向量[M,Cv,A],其中M∈R,Cov,A∈[0,1]。
另外,用户携带的UA相关的特征也有助于描述用户的访问行为轮廓,其中,相关UA特征可以包括携带UA数量、UA泛化后数量,以及UA种类的混乱程度。UA种类的混乱程度可以使用基尼指数G来表示,假设泛化后的UA种类为K,第k类UA的占比为pk,则基尼指数G可由下式计算:
Figure BDA0003043425400000102
正常用户携带的UA个数和种类较少,但趋同行为行为用户为了防止UA限制,通常会使用伪造UA进行访问。
基于二次聚合后的子集得到第二子集的方法还包括用箱型图法来判断异常用户并去除异常用户,当异常用户数量达到当前二次聚合后的子集中用户总数的30%时,则将当前二次聚合后的子集删除。
其中,箱型图法是指将数值大于上限或小于下限的数据判定为异常值,不需要数据服从正态分布,在识别异常值方面具有一定的优越性。
箱型图法中的上限和下限的传统计算方法为:
上限=QU+1.5ΔQ
下限=QL-1.5ΔQ
其中,QL和QU分别是指下四分位数(Lower Quartile,QL)和上四分位数(UpperQuartile,QU),ΔQ指四分位距(Inter Quartile Range,IQR)。假设样本总量为n,则
Figure BDA0003043425400000111
Figure BDA0003043425400000112
ΔQ=QU-QL
但是在趋同行为用户的识别场景中,箱型图法中的上限和下限的传统计算方法可能会导致异常值的错误判定。在本实施例中,对上限和下限的计算方法做出如下修改:
上限=QU+kΔQ
下限=QL-kΔQ
其中,k为超参数,可以根据实际需要动态调整该值,默认k值为1.5。
例如,截取如表3所示的10个AB段都相同的IP地址对应的用户分别在在5个域名上的访问次数,判断这10个用户是否具有相似的访问行为。
表3-AB段都相同的10个IP,对5个Host的访问次数
Figure BDA0003043425400000113
请参阅图8,对于表3中Host1所在的列,使用默认的k值,即k=1.5计算其上限为QU=2.5,其下限为QL=1,而IP10访问Host1的次数为80次,超过上限,因此判断为异常值,将IP10从当前集合中删除。同理,IP5访问Host4的次数也是异常的,也将其判断为异常值,将IP5从当前集合中删除。最终得到表4,其对应的箱型图请参阅图9,可以看出,表4中的数据不存在异常值。
表4-从表3中去除异常值
Figure BDA0003043425400000121
当AB段都相同的IP地址对应的用户对某一域名的访问次数异常时,则该用户被判断为异常用户。为了不影响统计特征对该子集内的所有用户的访问行为相似性的判断,需要将异常用户从当前子集中删除。当异常用户的数量达到当前子集中用户总数的30%时,说明该子集内用户的访问行为相似性不高,可直接判断该子集中的用户不是趋同行为用户。
最后,对每个第二子集中的用户进行第三次聚合,得到多个三次聚合后的子集,计算每个三次聚合后的子集中用户的相似性指标,筛选出所有的相似性指标未达到预设阈值的三次聚合后的子集,存储为第三子集,并将所述第三子集中用户并标记为趋同行为用户。
其中,计算每个三次聚合后的子集中用户的相似性指标的方法包括:计算三次聚合后的子集中用户对不同域名的访问行为的变异系数;计算三次聚合后的子集中用户访问的不同域名的权重;将每个变异系数与所述权重的乘积进行求和,得到所述相似性指标。
为了衡量一组数据的离散程度,通常使用标准差来作为评估指标,但是标准差很难用于衡量量纲不同的数据。变异系数(Coefficient of Variation,Cv),可以消除测量尺度和量纲的影响,变异系数值越大,表示子集内数据越离散,反之表明子集内数据越趋于聚合。变异系数的求解方法为标准差与平均值的比值,计算公式如下:
Figure BDA0003043425400000131
从下表5可知,Host1和Host4的标准差相同,但是观察表4可以发现,Host4中数据的波动性更小,因此,标准差并没有很好的反映Host1和Host4聚合程度的差异。而从变异系数可以看出,Host4对应的变异系数更小,可以反映出Host4中的数据更聚集。
表5-表4中数据的访问统计特征
Figure BDA0003043425400000132
为了衡量整个子集内用户访问行为的相似度,本实施例中采用了如下相似度指标(similarity):
Figure BDA0003043425400000133
其中,N为该子集内Host的总数,CVi表示第i个Host的变异系数,即
Figure BDA0003043425400000134
其中,Host_stdi和Host_neani分别为第i个Host的方差和均值。
ωi为第i个Host的权重,
Figure BDA0003043425400000135
其中,M为该子集内用户的总数,S为该子集内所有用户访问频率之和。因此,
Figure BDA0003043425400000141
Figure BDA0003043425400000142
Figure BDA0003043425400000143
例如,表5中所示的包含10个用户的整个子集的相似度可计算为similarity=(0.004+0.004+0.007+0.004+0.006)=0.025。
请参阅图10,可以看出表4中的趋同行为用户具有相似的访问向量。
在使用的过程中,可以根据实际需要设置一个最大相似度阈值(Maximumsimilarity threshold,maxSimi)。如果子集的相似度值不大于该阈值,即similarity≤maxSimi,则认为该子集内的用户具有相似访问行为。根据在真实生产数据上的验证评估,当相似度指标similarity<0.5时,大多数情况下同一子集内的用户表现出相似访问行为。因此,在没有任何先验知识的情况下可以设置maxSimi=0.5,然后再根据实际需要进行动态的调整。
本发明提供的基于应用日志的趋同行为用户识别方法,针对现有的趋同行为处理方法存在的技术短板,提出访问行为统计方法,将单个用户访问行为进行自动化抽象和量化,有效反映出单个用户的访问行为特征轮廓;通过对特征维度的变异系数进行加权平均,提出集合的相似性轮廓系数计算法则,充分了考虑了每列特征的权重信息,对用户访问行为特征集合的同步趋势进行抽象和量化,从而实现自动化趋同行为团伙挖掘,对中低频率趋同行为用户同样有效,加强了企业趋同行为识别能力建设,增加了趋同行为团伙的对抗难度和成本。
本实施例中采用的基于应用日志的趋同行为用户识别方法能检测到单用户访问频率极低(每小时60次),IP数量数千的恶意网络团伙发起的趋同行为。通过对单用户访问行为轮廓进行描述,采用相似性度指标对每个子集内用户的访问行为特征进行统一的衡量,从而识别出趋同行为用户。同时,该方法还可以进一步延伸至会员账号或其他用户维度,对薅羊毛、养号等恶意网络团伙的挖掘同样有效。在具体实施中,不仅检测到大批量的爬虫账号,同时还有服务器扫描、敏感内容扫描、薅云钻等恶意网络团伙的行为。
除此之外,该方法会在在极端条件下有极低的概率检测到正常的业务访问。如同一局域网下,即IP地址AB段都相同,大量正常用户采用完全一致的方式和先后顺序发起数量、内容均高度相似的请求信息,针对该情况可以结合实际业务场景添加更精细化的识别方案;另外也有可能检测到服务器之间正常的业务调用,本身表现出单用户或集合用户的趋同行为特征,这类应用系统非该功能用户应避免使用此类功能。
实施例二
一种基于应用日志的趋同行为用户识别系统,包括应用日志获取模块、聚合模块及输出模块,其中:应用日志获取模块用于在实时计算引擎上获取应用日志;聚合模块用于通过对应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出相似性指标未达到预设阈值的用户并标记为趋同行为用户;输出模块用于将趋同行为用户输送到系统缓存,并根据系统配置对所述趋同行为用户采取相应的限制措施。
本发明提供的基于应用日志的趋同行为用户识别系统,采用上述实施例一中的基于应用日志的趋同行为用户识别方法,实现了自动化趋同行为团伙挖掘,对中低频率趋同行为用户同样有效,加强了企业趋同行为识别能力建设,增加了趋同行为团伙的恶意对抗本系统的难度和成本。与现有技术相比,本发明实施例提供的基于应用日志的趋同行为用户识别系统的有益效果与上述实施例一提供的基于应用日志的趋同行为用户识别方法的有益效果相同,且基于应用日志的趋同行为用户识别系统的其他技术特征与上一实施例基于应用日志的趋同行为用户识别方法公开的特征相同,在此不做赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于应用日志的趋同行为用户识别方法,其特征在于,包括:
在实时计算引擎上获取应用日志;
通过对所述应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出所述相似性指标未达到预设阈值的用户并标记为趋同行为用户;
将所述趋同行为用户输送到系统缓存,并根据系统配置对所述趋同行为用户采取相应的限制措施;
其中,所述通过对应用日志中的用户进行多次聚合,以获取用户的相似性指标,筛选出所述相似性指标超过未达到预设阈值的用户并标记为趋同行为用户,包括:
对所述应用日志中的用户进行初次聚合,得到多个初次聚合后的子集,并对所述初次聚合后的子集进行数据预处理,得到多个第一子集;
对每个所述第一子集中的用户进行第二次聚合,得到多个二次聚合后的子集,根据所述二次聚合后的子集内用户携带的请求内容建立访问内容索引映射,同时对用户访问行为的轮廓描述进行量化处理,得到多个第二子集;
对每个所述第二子集中的用户进行第三次聚合,得到多个三次聚合后的子集,计算每个三次聚合后的子集中用户的相似性指标,筛选出所有的相似性指标未达到预设阈值的三次聚合后的子集,存储为第三子集,并将所述第三子集中用户并标记为趋同行为用户;其中,所述相似性指标用于描述三次聚合后的子集中用户访问行为的变异程度。
2.根据权利要求1所述的基于应用日志的趋同行为用户识别方法,其特征在于,以IP地址、用户账号、设备指纹中的任意一种作为所述用户的唯一标识,对所述应用日志中的用户进行多次聚合。
3.根据权利要求1所述的基于应用日志的趋同行为用户识别方法,其特征在于,所述初次聚合的方法包括:
按照固定时间窗口策略,对每固定时间间隔内所述应用日志中具有相同的用于描述用户唯一标识的关键特征的用户进行聚合。
4.根据权利要求2所述的基于应用日志的趋同行为用户识别方法,其特征在于,所述对所述初次聚合后的子集进行数据预处理的方法包括:
分别统计每个初次聚合后的子集中的用户访问信息,所述用户访问信息包括用户个数及每个用户的访问次数;
筛选出所述用户个数在预设用户个数阈值区间内,且所述访问次数大于预设访问次数阈值的初次聚合后的子集。
5.根据权利要求4所述的基于应用日志的趋同行为用户识别方法,其特征在于,所述预设用户个数阈值区间为[2:1000];
所述预设访问次数阈值为:每个用户访问次数的平均值减3倍标准差。
6.根据权利要求1所述的基于应用日志的趋同行为用户识别方法,其特征在于,通过计算访问统计特征及访问内容向量特征对用户访问行为的轮廓描述进行量化处理,其中,
所述访问内容向量特征用于描述二次聚合后的子集中的用户在域名维度、URL维度和用户代理维度上的访问行为轮廓;
所述访问统计特征包括所述访问内容向量中的均值、标准差和变异系数,用于描述二次聚合后的子集中的用户访问行为的时序特征。
7.根据权利要求1所述的基于应用日志的趋同行为用户识别方法,其特征在于,基于二次聚合后的子集得到第二子集的方法还包括:
用箱型图法来判断异常用户并去除异常用户;
当异常用户数量达到当前二次聚合后的子集中用户总数的30%时,则将当前二次聚合后的子集删除。
8.根据权利要求1所述的基于应用日志的趋同行为用户识别方法,其特征在于,计算每个三次聚合后的子集中用户的相似性指标的方法包括:
计算所述三次聚合后的子集中用户对不同域名的访问行为的变异系数;
计算所述三次聚合后的子集中用户访问的不同域名的权重;
将每个所述变异系数与所述权重的乘积进行求和,得到所述相似性指标。
9.一种基于应用日志的趋同行为用户识别系统,其特征在于,包括应用日志获取模块、聚合模块及输出模块,其中:
所述应用日志获取模块用于在实时计算引擎上获取应用日志;
所述聚合模块用于通过对所述应用日志中的用户进行多次聚合,获取用户的相似性指标,筛选出所述相似性指标未达到预设阈值的用户并标记为趋同行为用户;
所述输出模块用于将所述趋同行为用户输送到系统缓存,并根据系统配置对所述趋同行为用户采取相应的限制措施;
其中,所述通过对应用日志中的用户进行多次聚合,以获取用户的相似性指标,筛选出所述相似性指标超过未达到预设阈值的用户并标记为趋同行为用户,包括:
对所述应用日志中的用户进行初次聚合,得到多个初次聚合后的子集,并对所述初次聚合后的子集进行数据预处理,得到多个第一子集;
对每个所述第一子集中的用户进行第二次聚合,得到多个二次聚合后的子集,根据所述二次聚合后的子集内用户携带的请求内容建立访问内容索引映射,同时对用户访问行为的轮廓描述进行量化处理,得到多个第二子集;
对每个所述第二子集中的用户进行第三次聚合,得到多个三次聚合后的子集,计算每个三次聚合后的子集中用户的相似性指标,筛选出所有的相似性指标未达到预设阈值的三次聚合后的子集,存储为第三子集,并将所述第三子集中用户并标记为趋同行为用户;其中,所述相似性指标用于描述三次聚合后的子集中用户访问行为的变异程度。
CN202110466178.5A 2021-04-28 2021-04-28 基于应用日志的趋同行为用户识别方法及系统 Active CN113157542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110466178.5A CN113157542B (zh) 2021-04-28 2021-04-28 基于应用日志的趋同行为用户识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110466178.5A CN113157542B (zh) 2021-04-28 2021-04-28 基于应用日志的趋同行为用户识别方法及系统

Publications (2)

Publication Number Publication Date
CN113157542A CN113157542A (zh) 2021-07-23
CN113157542B true CN113157542B (zh) 2022-11-15

Family

ID=76871812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110466178.5A Active CN113157542B (zh) 2021-04-28 2021-04-28 基于应用日志的趋同行为用户识别方法及系统

Country Status (1)

Country Link
CN (1) CN113157542B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116781984B (zh) * 2023-08-21 2023-11-07 深圳市华星数字有限公司 一种机顶盒数据优化存储方法
CN117435449B (zh) * 2023-11-06 2024-06-18 广州丰石科技有限公司 一种用户画像分析方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111800430A (zh) * 2020-07-10 2020-10-20 南方电网科学研究院有限责任公司 一种攻击团伙识别方法、装置、设备及介质
CN111970272A (zh) * 2020-08-14 2020-11-20 上海境领信息科技有限公司 一种apt攻击操作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111800430A (zh) * 2020-07-10 2020-10-20 南方电网科学研究院有限责任公司 一种攻击团伙识别方法、装置、设备及介质
CN111970272A (zh) * 2020-08-14 2020-11-20 上海境领信息科技有限公司 一种apt攻击操作识别方法

Also Published As

Publication number Publication date
CN113157542A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113157542B (zh) 基于应用日志的趋同行为用户识别方法及系统
CN110830445B (zh) 一种异常访问对象的识别方法及设备
CN107579956B (zh) 一种用户行为的检测方法和装置
WO2021012509A1 (zh) 一种异常账号检测方法、装置及计算机存储介质
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN112839014B (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN107122669A (zh) 一种评估数据泄露风险的方法和装置
US9621576B1 (en) Detecting malicious websites
CN114915479A (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
CN111787002B (zh) 一种业务数据网络安全分析的方法及系统
CN117176482B (zh) 一种大数据网络安全防护方法及系统
CN111865899B (zh) 威胁驱动的协同采集方法及装置
US20220400133A1 (en) Information leakage detection method and device using the same
CN113726783A (zh) 异常ip地址识别方法、装置、电子设备及可读存储介质
CN111371757A (zh) 恶意通信检测方法、装置、计算机设备和存储介质
CN114124484A (zh) 网络攻击识别方法、系统、装置、终端设备以及存储介质
CN113901441A (zh) 一种用户异常请求检测方法、装置、设备及存储介质
CN111885011B (zh) 一种业务数据网络安全分析挖掘的方法及系统
CN112929369A (zh) 一种分布式实时DDoS攻击检测方法
US11263104B2 (en) Mapping between raw anomaly scores and transformed anomaly scores
WO2020258509A1 (zh) 终端设备异常访问的隔离方法和装置
CN115879819A (zh) 企业信用评估方法及装置
CN110401639B (zh) 网络访问的异常判定方法、装置、服务器及其存储介质
CN117391214A (zh) 模型训练方法、装置及相关设备
CN109218461A (zh) 一种检测隧道域名的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant