CN110516170B - 一种检查异常web访问的方法及装置 - Google Patents

一种检查异常web访问的方法及装置 Download PDF

Info

Publication number
CN110516170B
CN110516170B CN201810737625.4A CN201810737625A CN110516170B CN 110516170 B CN110516170 B CN 110516170B CN 201810737625 A CN201810737625 A CN 201810737625A CN 110516170 B CN110516170 B CN 110516170B
Authority
CN
China
Prior art keywords
access
specified
uri
user
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810737625.4A
Other languages
English (en)
Other versions
CN110516170A (zh
Inventor
陈哲
丛磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baishanyun Technology Co ltd
Original Assignee
Beijing Baishanyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baishanyun Technology Co ltd filed Critical Beijing Baishanyun Technology Co ltd
Priority to CN201810737625.4A priority Critical patent/CN110516170B/zh
Priority to PCT/CN2019/094921 priority patent/WO2020007367A1/zh
Publication of CN110516170A publication Critical patent/CN110516170A/zh
Application granted granted Critical
Publication of CN110516170B publication Critical patent/CN110516170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Abstract

本发明公开了一种检查异常web访问的方法及装置。所公开的检查异常web访问的方法包括:对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与选定web地址集合关联的关联web地址集合进行预处理,得到与选定web地址集合和关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;基于选定uri集合和关联uri集合、以及正常访问特征数据,确定用户访问指定访问接口的访问模式;确定指定时间段内用户访问指定访问接口的相同访问模式的总访问次数;基于总访问次数和正常访问特征数据,确定用户是否对指定web站点进行异常访问。所公开的技术方案能够基于正常访问特征数据进行行为分析,从而检测出异常访问行为。

Description

一种检查异常web访问的方法及装置
技术领域
本发明涉及计算机网络技术和用户网络行为检测领域,尤其涉及一种检查异常web访问的方法及装置。
背景技术
随着计算机网络技术的不断发展,越来越多的用户使用网络来进行办公、消费、娱乐、学习等各种活动。同时,也有许多非法用户通过网络进行非法活动,妨害了社会和他人的利益。例如,非法用户可以不通过官方网站页面、客户端等合法方式访问http接口(比如,利用特殊目的的脚本、非官方的客户端)并进行盗链、非法获取其他用户信息等非法的异常活动。
为了正确区分正常用户访问网络的正常行为和非法用户访问网络的异常行为,人们已经进行了许多研究。
例如,现有技术可以通过人工预设参数检测userAgent、referer字段是否正常,进而区分正常访问行为和异常访问行为。然而,userAgent、referer字段信息容易伪造,相对应的检测规则也容易被绕过,因此容易出现漏判的情况。
另外,现有技术还可以采用在业务代码中加入调用顺序检测逻辑的方法来区分正常访问行为和异常访问行为。然而,这种方法涉及增加额外的开发成本、且会使系统可维护性降低、容易导致系统出现各种问题。
为了解决上述问题,需要提出新的技术方案。
发明内容
根据本发明的检查异常web访问的方法,包括:
对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与选定web地址集合关联的关联web地址集合进行预处理,得到与选定web地址集合和关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;
基于选定uri集合和关联uri集合、以及正常访问特征数据,确定用户访问指定访问接口的访问模式;
确定指定时间段内用户访问指定访问接口的相同访问模式的总访问次数;
基于总访问次数和正常访问特征数据,确定用户是否对指定web站点进行异常访问,
其中,正常访问特征数据包括访问模式标识、与访问模式标识对应的选定uri集合和关联uri集合、与访问模式标识对应的选定uri集合与关联uri集合同时出现的概率。
根据本发明的检查异常web访问的方法,还包括:
基于正常访问指定访问接口的大量不同用户在不同时间的相同访问模式的累积计数,分别计算与指定访问接口的不同访问模式所对应的选定uri集合同时出现在一小段时间窗口内的关联uri集合、及选定uri集合与关联uri集合同时出现的概率,预先确定正常访问特征数据。
根据本发明的检查异常web访问的方法,通过以下步骤进行预处理:
去掉web地址中的queryString,并把web地址中的path中经常变化的参数替换为*号。
根据本发明的检查异常web访问的方法,其对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与选定web地址集合关联的关联web地址集合进行预处理,得到与选定web地址集合和关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合的步骤包括:
在用户的访问日志序列中,寻找指定访问接口的第一访问日志;
获取在指定访问接口的第一访问日志前后一小段时间内的第二访问日志,并将第二访问日志内的uri分类、去重,得到用户访问指定访问接口时同时访问的关联uri集合并进行预处理,
基于选定uri集合和关联uri集合、以及正常访问特征数据,确定用户访问指定访问接口的访问模式的步骤包括:
基于选定uri集合和关联uri集合在正常访问特征数据进行查找,得到对应的访问模式。
根据本发明的检查异常web访问的方法,其确定指定时间段内用户访问指定访问接口的相同访问模式的总访问次数的步骤包括:
针对每一种访问模式单独统计用户在指定时间内进行访问的总访问次数。
根据本发明的检查异常web访问的方法,基于总访问次数和正常访问特征数据,确定用户是否对指定web站点进行异常访问的步骤包括:
通过以下步骤确定指定访问接口的访问模式相对于正常访问特征数据有缺失:
基于正常访问特征数据,确定选定uri集合与第i个关联uri集合单次同时出现的概率值pi
确定pi大于概率阈值,确定第i个关联uri集合在指定时间段内没有出现在指定访问模式中的次数r;
确定指定访问接口与第i个关联uri集合连续r次不同时出现为正常的概率值np=(1-pi)r
当np足够小,且r不小于总访问次数时,确定指定访问接口的访问模式相对于正常访问特征数据缺失了第i个关联uri集合;
当确定指定访问接口的访问模式相对于正常访问特征数据有缺失的百分比大于预定百分比值时,确定用户对指定web站点进行了异常访问;当确定百分比不大于预定百分比值时,确定用户对指定web站点进行了正常访问。
根据本发明的检查异常web访问的装置,包括:
预处理模块,用于对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与选定web地址集合关联的关联web地址集合进行预处理,得到与选定web地址集合和关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;
访问模式确定模块,用于基于选定uri集合和关联uri集合、以及正常访问特征数据,确定用户访问指定访问接口的访问模式;
总访问次数确定模块,用于确定指定时间段内用户访问指定访问接口的相同访问模式的总访问次数;
异常访问确定模块,用于基于总访问次数和正常访问特征数据,确定用户是否对指定web站点进行异常访问,
其中,正常访问特征数据包括访问模式标识、与访问模式标识对应的选定uri集合和关联uri集合、与访问模式标识对应的选定uri集合与关联uri集合同时出现的概率。
根据本发明的检查异常web访问的装置,还包括:
正常访问特征数据确定模块,用于基于正常访问指定访问接口的大量不同用户在不同时间的相同访问模式的累积计数,分别计算与指定访问接口的不同访问模式所对应的选定uri集合同时出现在一小段时间窗口内的关联uri集合、及选定uri集合与关联uri集合同时出现的概率,预先确定正常访问特征数据。
根据本发明的检查异常web访问的装置,其预处理模块通过以下步骤进行预处理:
去掉web地址中的queryString,并把web地址中的path中经常变化的参数替换为*号。
根据本发明的检查异常web访问的装置,其预处理模块还用于:
在用户的访问日志序列中,寻找指定访问接口的第一访问日志;
获取在指定访问接口的第一访问日志前后一小段时间内的第二访问日志,并将第二访问日志内的uri分类、去重,得到用户访问指定访问接口时同时访问的关联uri集合并进行预处理,
其访问模式确定模块还用于:
基于选定uri集合和关联uri集合在正常访问特征数据进行查找,得到对应的访问模式。
根据本发明的上述技术方案,能够基于正常访问特征数据进行行为分析,从而检测出异常访问行为。
附图说明
并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与相关的文字描述一起用于解释本发明的原理。在这些附图中,类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1示例性地示出了根据本发明的检查异常web访问的方法的示意流程图。
图2示例性地示出了根据本发明的检查异常web访问的装置的示意框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1示例性地示出了根据本发明的检查异常web访问的方法的示意流程图。
如图1的实线框所示,根据本发明的检查异常web访问的方法,包括:
步骤S102:对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与选定web地址集合关联的关联web地址集合进行预处理,得到与选定web地址集合和关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;
步骤S104:基于选定uri集合和关联uri集合、以及正常访问特征数据,确定用户访问指定访问接口的访问模式;
步骤S106:确定指定时间段内用户访问指定访问接口的相同访问模式的总访问次数;
步骤S108:基于总访问次数和正常访问特征数据,确定用户是否对指定web站点进行异常访问,
其中,正常访问特征数据包括访问模式标识、与访问模式标识对应的选定uri集合和关联uri集合、与访问模式标识对应的选定uri集合与关联uri集合同时出现的概率。
可选地,如图1的虚线框所示,根据本发明的检查异常web访问的方法,还包括:
步骤S110:基于正常访问指定访问接口的大量不同用户在不同时间的相同访问模式的累积计数,分别计算与指定访问接口的不同访问模式所对应的选定uri集合同时出现在一小段时间窗口内的关联uri集合、及选定uri集合与关联uri集合同时出现的概率,预先确定正常访问特征数据。
可选地,通过以下步骤在步骤S102中进行预处理:
去掉web地址中的queryString,并把web地址中的path中经常变化的参数替换为*号。
为了简单起见,下面以每个web地址集合和每个uri集合各自包含一个元素为例进行说明,然而,根据本发明的检查异常web访问的方法,同样适用于每个集合包含多个元素的情况。
例如,在上述步骤S102中,对应于访问模式1,与被检测用户所访问的接口(即,上述指定访问接口)“百度地图查找服务”所对应的选定web地址集合A包含一个元素“http://map.baidu.com/?newmap=1&ie=utf-8&s=s%26wd%3Dagent”,与其关联的2个关联web地址集合——关联web地址集合B和C也各自包含一个元素“http://www.bjbus.com/home/index.php”和“http://www.wanshishengda.com/?e_creative=16271832189&e_keywordid=383369796&audience=154239”。
经过上述的预处理步骤,得到与选定web地址集合A和关联web地址集合B和C分别对应的经预处理的选定uri集合A(例如,包含1个集合元素uri_a——“map.baidu.com/*”)和经处理的关联uri集合B(例如,包含1个集合元素uri_b——“www.bjbus.com/home/*”)和C(例如,包含1个集合元素uri_c——“www.wanshishengda.com/*”)。
例如,在步骤S110中,基于正常访问指定访问接口的大量不同用户(例如,4个用户,正常访问的用户数量越多,统计结果越准确)在不同时间(或时间段)的相同访问模式的以下累积计数:
第一个用户依次访问:/uri_a,/uri_b,/uri_c
第二个用户依次访问:/uri_c,/uri_b,/uri_a
第三个用户依次访问:/uri_a,/uri_c,/uri_b
第四个用户依次访问:/uri_a,/uri_b,/uri_d
计数结果:4次访问uri_a、4次访问uri_b、3次访问uri_c、1次访问uri_d。
因此,对应于访问模式1,预先确定的正常访问特征数据可以是以下形式,对于选定uri集合A(即,uri_a)而言,对其进行访问同时也访问(第一)关联uri集合B(即,uri_b)的概率是100%,对其进行访问同时也访问(第二)关联uri集合C(即,uri_c)的概率是75%,对其进行访问同时也访问(上文未示出)关联uri集合D(即,uri_d)的概率是25%。
可选地,步骤S102包括:
在用户的访问日志序列中,寻找指定访问接口的第一访问日志;
获取在指定访问接口的第一访问日志前后一小段时间内的第二访问日志,并将第二访问日志内的uri分类、去重,得到用户访问指定访问接口时同时访问的关联uri集合并进行预处理,
步骤S104包括:
基于选定uri集合和关联uri集合在正常访问特征数据进行查找,得到对应的访问模式。
例如,上述第一访问日志前后一小段时间内是上述第一访问日志前后各30秒的一段时间内。
可选地,步骤S106包括:
针对每一种访问模式单独统计用户在指定时间内进行访问的总访问次数。
可选地,步骤S108包括:
通过以下步骤确定指定访问接口的访问模式相对于正常访问特征数据有缺失:
基于正常访问特征数据,确定选定uri集合与第i个关联uri集合单次同时出现的概率值pi
确定pi大于概率阈值,确定第i个关联uri集合在指定时间段内没有出现在指定访问模式中的次数r;
确定指定访问接口与第i个关联uri集合连续r次不同时出现为正常的概率值np=(1-pi)r
当np足够小,且r不小于总访问次数时,确定指定访问接口的访问模式相对于正常访问特征数据缺失了第i个关联uri集合;
当确定指定访问接口的访问模式相对于正常访问特征数据有缺失的百分比大于预定百分比值时,确定用户对指定web站点进行了异常访问;当确定百分比不大于预定百分比值时,确定用户对指定web站点进行了正常访问。
例如,根据上文确定的正常用户使用访问模式1对选定uri集合A(即,uri_a)进行访问的同时也访问关联uri集合C(即,uri_c)的概率是75%(假定上述概率阈值为50%,即,此时满足选定uri集合与第二个关联uri集合单次同时出现的概率值p2>50%的条件)。
如果检测到被检测用户对选定uri集合A(即,uri_a)进行了5次访问,然而,这5次访问都没有访问关联uri集合C(即,uri_c),这种情况下对应的概率为(1-0.25)5=0.0009765625,假定这时的预定百分比值为0.001,那么此时用户对选定uri集合A(即,uri_a)的访问就是异常的。
图2示例性地示出了根据本发明的检查异常web访问的装置200的示意框图。
如图2的实线框所示,根据本发明的检查异常web访问的装置200包括:
预处理模块201,用于对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与选定web地址集合关联的关联web地址集合进行预处理,得到与选定web地址集合和关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;
访问模式确定模块203,用于基于选定uri集合和关联uri集合、以及正常访问特征数据,确定用户访问指定访问接口的访问模式;
总访问次数确定模块205,用于确定指定时间段内用户访问指定访问接口的相同访问模式的总访问次数;
异常访问确定模块207,用于基于总访问次数和正常访问特征数据,确定用户是否对指定web站点进行异常访问,
其中,正常访问特征数据包括访问模式标识、与访问模式标识对应的选定uri集合和关联uri集合、与访问模式标识对应的选定uri集合与关联uri集合同时出现的概率。
可选地,如图2的虚线框所示,检查异常web访问的装置200还包括:
正常访问特征数据确定模块209,用于基于正常访问指定访问接口的大量不同用户在不同时间的相同访问模式的累积计数,分别计算与指定访问接口的不同访问模式所对应的选定uri集合同时出现在一小段时间窗口内的关联uri集合、及选定uri集合与关联uri集合同时出现的概率,预先确定正常访问特征数据。
可选地,预处理模块201通过以下步骤进行预处理:
去掉web地址中的queryString,并把web地址中的path中经常变化的参数替换为*号。
可选地,预处理模块201还用于:
在用户的访问日志序列中,寻找指定访问接口的第一访问日志;
获取在指定访问接口的第一访问日志前后一小段时间内的第二访问日志,并将第二访问日志内的uri分类、去重,得到用户访问指定访问接口时同时访问的关联uri集合并进行预处理,
访问模式确定模块203还用于:
基于选定uri集合和关联uri集合在正常访问特征数据进行查找,得到对应的访问模式。
可选地,总访问次数确定模块205还用于:
针对每一种访问模式单独统计用户在指定时间内进行访问的总访问次数。
可选地,异常访问确定模块207还用于:
通过以下步骤确定指定访问接口的访问模式相对于正常访问特征数据有缺失:
基于正常访问特征数据,确定选定uri集合与第i个关联uri集合单次同时出现的概率值pi
确定pi大于概率阈值,确定第i个关联uri集合在指定时间段内没有出现在指定访问模式中的次数r;
确定指定访问接口与第i个关联uri集合连续r次不同时出现为正常的概率值np=(1-pi)r
当np足够小,且r不小于总访问次数时,确定指定访问接口的访问模式相对于正常访问特征数据缺失了第i个关联uri集合;
当确定指定访问接口的访问模式相对于正常访问特征数据有缺失的百分比大于预定百分比值时,确定用户对指定web站点进行了异常访问;当确定百分比不大于预定百分比值时,确定用户对指定web站点进行了正常访问。
根据本发明的上述技术方案,结合脚本、非法客户端等都具有明确的目的,基于成本问题,很难完全模拟出官方访问渠道的完整行为的特点,能够自动提取用户访问行为中的正常访问特征数据,基于正常访问特征数据进行行为分析,从而检测出异常访问行为。
根据本发明的上述技术方案,可以通过挖掘日志序列上的频繁模式规律(即,正常访问特征数据),得到用户访问各接口的频繁项集合。最终判断用户调用目标接口时是否绕过了正常访问中的必要步骤,识别出通过非官方渠道调用接口的用户的异常访问行为。
根据本发明的上述技术方案,无需预先了解具体业务的接口调用顺序和规则,自动学习用户访问模式。能够自动发现隐含的规律,不会被多人共享的出口ip影响,误判率低。具有通用性,不用修改业务代码,不用针对业务定制开发。不要求分布式系统日志的顺序性。减少了漏判率。无需增加额外的开发成本、且会使系统可维护性提高、不容易导致系统出现各种问题。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的精神和范围。

Claims (10)

1.一种检查异常web访问的方法,其特征在于,包括:
对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与所述选定web地址集合关联的关联web地址集合进行预处理,得到与所述选定web地址集合和所述关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;
基于所述选定uri集合和所述关联uri集合、以及正常访问特征数据,确定用户访问所述指定访问接口的访问模式;
确定指定时间段内用户访问所述指定访问接口的相同访问模式的总访问次数;
基于所述总访问次数和所述正常访问特征数据,确定用户是否对所述指定web站点进行异常访问,
其中,所述正常访问特征数据包括访问模式标识、与所述访问模式标识对应的选定uri集合和关联uri集合、与所述访问模式标识对应的选定uri集合与关联uri集合同时出现的概率;
其中,所述web地址集合及所述uri集合包含至少一个元素。
2.如权利要求1所述的检查异常web访问的方法,其特征在于,还包括:
基于正常访问所述指定访问接口的大量不同用户在不同时间的相同访问模式的累积计数,分别计算与所述指定访问接口的不同访问模式所对应的选定uri集合同时出现在一小段时间窗口内的关联uri集合、及选定uri集合与关联uri集合同时出现的概率,预先确定所述正常访问特征数据。
3.如权利要求1所述的检查异常web访问的方法,其特征在于,通过以下步骤进行所述预处理:
去掉web地址中的queryString,并把web地址中的path中经常变化的参数替换为*号。
4.如权利要求1所述的检查异常web访问的方法,其特征在于,所述对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与所述选定web地址集合关联的关联web地址集合进行预处理,得到与所述选定web地址集合和所述关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合的步骤包括:
在所述用户的访问日志序列中,寻找所述指定访问接口的第一访问日志;
获取在所述指定访问接口的所述第一访问日志前后一小段时间内的第二访问日志,并将所述第二访问日志内的uri分类、去重,得到所述用户访问所述指定访问接口时同时访问的关联uri集合并进行预处理,
所述基于所述选定uri集合和所述关联uri集合、以及正常访问特征数据,确定用户访问所述指定访问接口的访问模式的步骤包括:
基于所述选定uri集合和所述关联uri集合在所述正常访问特征数据进行查找,得到对应的访问模式。
5.如权利要求1所述的检查异常web访问的方法,其特征在于,所述确定指定时间段内用户访问所述指定访问接口的相同访问模式的总访问次数的步骤包括:
针对每一种访问模式单独统计用户在所述指定时间内进行访问的总访问次数。
6.如权利要求1所述的检查异常web访问的方法,其特征在于,所述基于所述总访问次数和所述正常访问特征数据,确定用户是否对所述指定web站点进行异常访问的步骤包括:
通过以下步骤确定所述指定访问接口的访问模式相对于所述正常访问特征数据有缺失:
基于所述正常访问特征数据,确定所述选定uri集合与第i个关联uri集合单次同时出现的概率值pi
确定pi大于概率阈值,确定所述第i个关联uri集合在所述指定时间段内没有出现在所述指定访问模式中的次数r;
确定所述指定访问接口与所述第i个关联uri集合连续r次不同时出现为正常的概率值np=(1-pi)r
当np足够小,且r不小于所述总访问次数时,确定所述指定访问接口的访问模式相对于所述正常访问特征数据缺失了所述第i个关联uri集合;
当确定所述指定访问接口的访问模式相对于所述正常访问特征数据有缺失的百分比大于预定百分比值时,确定用户对所述指定web站点进行了异常访问;当确定所述百分比不大于所述预定百分比值时,确定用户对所述指定web站点进行了正常访问。
7.一种检查异常web访问的装置,其特征在于,包括:
预处理模块,用于对用户访问待检查的指定web站点的指定访问接口所对应的选定web地址集合、以及与所述选定web地址集合关联的关联web地址集合进行预处理,得到与所述选定web地址集合和所述关联web地址集合分别对应的经预处理的选定uri集合和关联uri集合;
访问模式确定模块,用于基于所述选定uri集合和所述关联uri集合、以及正常访问特征数据,确定用户访问所述指定访问接口的访问模式;
总访问次数确定模块,用于确定指定时间段内用户访问所述指定访问接口的相同访问模式的总访问次数;
异常访问确定模块,用于基于所述总访问次数和所述正常访问特征数据,确定用户是否对所述指定web站点进行异常访问,
其中,所述正常访问特征数据包括访问模式标识、与所述访问模式标识对应的选定uri集合和关联uri集合、与所述访问模式标识对应的选定uri集合与关联uri集合同时出现的概率。
8.如权利要求7所述的检查异常web访问的装置,其特征在于,还包括:
正常访问特征数据确定模块,用于基于正常访问所述指定访问接口的大量不同用户在不同时间的相同访问模式的累积计数,分别计算与所述指定访问接口的不同访问模式所对应的选定uri集合同时出现在一小段时间窗口内的关联uri集合、及选定uri集合与关联uri集合同时出现的概率,预先确定所述正常访问特征数据。
9.如权利要求7所述的检查异常web访问的装置,其特征在于,所述预处理模块通过以下步骤进行所述预处理:
去掉web地址中的queryString,并把web地址中的path中经常变化的参数替换为*号。
10.如权利要求7所述的检查异常web访问的装置,其特征在于,所述预处理模块还用于:
在所述用户的访问日志序列中,寻找所述指定访问接口的第一访问日志;
获取在所述指定访问接口的所述第一访问日志前后一小段时间内的第二访问日志,并将所述第二访问日志内的uri分类、去重,得到所述用户访问所述指定访问接口时同时访问的关联uri集合并进行预处理,
所述访问模式确定模块还用于:
基于所述选定uri集合和所述关联uri集合在所述正常访问特征数据进行查找,得到对应的访问模式。
CN201810737625.4A 2018-07-06 2018-07-06 一种检查异常web访问的方法及装置 Active CN110516170B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810737625.4A CN110516170B (zh) 2018-07-06 2018-07-06 一种检查异常web访问的方法及装置
PCT/CN2019/094921 WO2020007367A1 (zh) 2018-07-06 2019-07-05 一种检查异常web访问的方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810737625.4A CN110516170B (zh) 2018-07-06 2018-07-06 一种检查异常web访问的方法及装置

Publications (2)

Publication Number Publication Date
CN110516170A CN110516170A (zh) 2019-11-29
CN110516170B true CN110516170B (zh) 2020-04-28

Family

ID=68621928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810737625.4A Active CN110516170B (zh) 2018-07-06 2018-07-06 一种检查异常web访问的方法及装置

Country Status (2)

Country Link
CN (1) CN110516170B (zh)
WO (1) WO2020007367A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210356B (zh) * 2020-01-14 2023-03-21 平安医疗健康管理股份有限公司 医保数据分析方法、装置、计算机设备和存储介质
CN112465073B (zh) * 2020-12-23 2023-08-08 上海观安信息技术股份有限公司 一种基于距离的数值分布异常检测方法及检测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765689A (zh) * 2015-04-20 2015-07-08 广州华多网络科技有限公司 一种接口性能数据实时监制方法和装置
CN106131069A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN106961410A (zh) * 2016-01-08 2017-07-18 阿里巴巴集团控股有限公司 一种异常访问检测方法及装置
CN108153870A (zh) * 2017-12-25 2018-06-12 四川长虹电器股份有限公司 一种用户访问路径预测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388768B (zh) * 2008-10-21 2011-03-23 北京启明星辰信息技术股份有限公司 检测恶意http请求的方法及装置
CN103001954B (zh) * 2012-11-22 2016-03-09 深圳市共进电子股份有限公司 一种web服务器文件保护方法及系统
CN103138986B (zh) * 2013-01-09 2016-08-03 天津大学 一种基于可视分析的网站异常访问行为的检测方法
JP6343986B2 (ja) * 2014-03-17 2018-06-20 富士通株式会社 情報処理装置,プログラム,情報処理方法
CN105554007B (zh) * 2015-12-25 2019-01-04 北京奇虎科技有限公司 一种web异常检测方法和装置
CN106982196B (zh) * 2016-01-19 2020-07-31 阿里巴巴集团控股有限公司 一种异常访问检测方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765689A (zh) * 2015-04-20 2015-07-08 广州华多网络科技有限公司 一种接口性能数据实时监制方法和装置
CN106961410A (zh) * 2016-01-08 2017-07-18 阿里巴巴集团控股有限公司 一种异常访问检测方法及装置
CN106131069A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN108153870A (zh) * 2017-12-25 2018-06-12 四川长虹电器股份有限公司 一种用户访问路径预测方法

Also Published As

Publication number Publication date
WO2020007367A1 (zh) 2020-01-09
CN110516170A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN107480483B (zh) 一种账号检测的方法及装置
CN104391979A (zh) 网络恶意爬虫识别方法及装置
CN107483381B (zh) 关联账户的监控方法及装置
CN110602135B (zh) 网络攻击处理方法、装置以及电子设备
CN110417747B (zh) 一种暴力破解行为的检测方法及装置
CN112087744B (zh) 一种识别终端型号的方法、系统、装置及存储介质
CN110516170B (zh) 一种检查异常web访问的方法及装置
CN107911397B (zh) 一种威胁评估方法及装置
CN110933115A (zh) 基于动态session的分析对象行为异常检测方法及装置
CN110912861B (zh) 一种深度追踪团伙攻击行为的ai检测方法和装置
CN115190108B (zh) 一种检测被监控设备的方法、装置、介质及电子设备
CN110111062B (zh) 一种基于大数据的伪装考勤场景识别方法及装置
CN111404937B (zh) 一种服务器漏洞的检测方法和装置
CN110796053B (zh) 视频检测方法、装置、电子设备及计算机可读存储介质
CN111611519A (zh) 一种个人异常行为检测方法及装置
CN111726359A (zh) 一种账户信息的检测方法和装置
CN111625700B (zh) 防抓取的方法、装置、设备及计算机存储介质
CN114301800A (zh) 一种网络设备质差分析方法及装置
CN111526109A (zh) 自动检测web威胁识别防御系统的运行状态的方法及装置
CN111988278B (zh) 一种基于用户地理位置日志的异常用户确定方法及装置
CN111539206B (zh) 一种确定敏感信息的方法、装置、设备及存储介质
CN113360752A (zh) 一种消息推送的方法、装置、设备及可读介质
CN113807697A (zh) 基于告警关联的派单方法及装置
CN110098983B (zh) 一种异常流量的检测方法及装置
CN113923190A (zh) 设备标识跳变的识别方法及装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant