CN106612216B - 网站访问异常的检测方法及装置 - Google Patents

网站访问异常的检测方法及装置 Download PDF

Info

Publication number
CN106612216B
CN106612216B CN201510708785.2A CN201510708785A CN106612216B CN 106612216 B CN106612216 B CN 106612216B CN 201510708785 A CN201510708785 A CN 201510708785A CN 106612216 B CN106612216 B CN 106612216B
Authority
CN
China
Prior art keywords
information
characteristic information
client
preset
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510708785.2A
Other languages
English (en)
Other versions
CN106612216A (zh
Inventor
祁国晟
裴松年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510708785.2A priority Critical patent/CN106612216B/zh
Publication of CN106612216A publication Critical patent/CN106612216A/zh
Application granted granted Critical
Publication of CN106612216B publication Critical patent/CN106612216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种网站访问异常的检测方法及装置。其中,该方法包括:获取记录的访问网站的客户端的一个或多个特征信息,其中,一个或多个特征信息用于描述客户端的属性;获取每个客户端的每个特征信息在预设时间段的信息增益率;比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果;根据比较结果确定网站是否发生访问异常。本发明解决了现有技术中网站访问异常检测不准确的技术问题,实现了准确、简便的检测网站是否发生访问异常的技术效果。

Description

网站访问异常的检测方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网站访问异常的检测方法及装置。
背景技术
一般在访问网站时,网站会记录访问者的客户端信息。其中,客户端信息包括:浏览器类型、屏幕分辨率、地理信息等。在网站运行或维护的过程中,通过全部或部分有价值的客户端信息,能够判断网站是否发生访问异常。
目前,通过客户端信息判断网站是否发生访问异常的方法主要有统计学分析法和机器学习法。其中,统计学分析法因受单个客户端异常信息的影响较大,存在检测结果准确率较低的问题;机器学习法需要解决凸二次规划问题,并因时间复杂度较高、数据量较大及耗时较长,存在获取检测结果难度较高的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站访问异常的检测方法及装置,以至少解决现有技术中网站访问异常检测不准确的技术问题。
根据本发明实施例的一个方面,提供了一种网站访问异常的检测方法,该检测方法包括:获取记录的访问网站的客户端的一个或多个特征信息,其中,上述一个或多个特征信息用于描述客户端的属性;获取每个客户端的每个特征信息在预设时间段的信息增益率;比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果;根据比较结果确定上述网站是否发生访问异常。
进一步地,比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果包括:若上述特征信息在预设时间段的信息增益率大于对应的上述预设信息增益率阈值,则得到第一比较参数,其中,上述第一比较参数用于指示上述特征信息异常;以及若上述特征信息在预设时间段的信息增益率不大于对应的上述预设信息增益率阈值,则得到第二比较参数,其中,上述第二比较参数用于指示上述特征信息正常。
进一步地,根据比较结果确定上述网站是否发生访问异常包括:对访问上述网站的全部上述客户端的各个特征信息的信息增益率的比较结果进行汇总;统计汇总得到的上述一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果;判断上述统计结果是否大于预设数值;若上述统计结果大于上述预设数值,则确定上述网站发生访问异常,若上述统计结果不大于上述预设数值,则确定上述网站未发生访问异常。
进一步地,统计汇总得到的上述一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果包括:对上述预设的一个或多个特征信息的信息增益率的比较结果对应的参数值进行求和计算,得到计算结果;获取上述预设的一个或多个特征信息的特征个数;计算上述计算结果与上述特征个数的比值,得到上述统计结果。
进一步地,获取每个客户端的每个特征信息在预设时间段的信息增益率包括:获取每个客户端的每个特征信息在上述预设时间段的熵值和每个客户端的每个特征信息在历史时间段的熵值;通过
Figure BDA0000831712380000021
得到每个客户端的每个特征信息在上述预设时间段的信息增益率,其中,上述G为每个客户端的每个特征信息在上述预设时间段的信息增益率,上述S1为每个客户端的每个特征信息在上述预设时间段的熵值,上述S2为每个客户端的每个特征信息在上述历史时间段的熵值。
根据本发明实施例的另一方面,还提供了一种网站访问异常的检测装置,该检测装置包括:第一获取模块,用于获取记录的访问网站的客户端的一个或多个特征信息,其中,上述一个或多个特征信息用于描述客户端的属性;第二获取模块,用于获取每个客户端的每个特征信息在预设时间段的信息增益率;比较模块,用于比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果;确定模块,用于根据上述比较结果确定上述网站是否发生访问异常。
进一步地,上述比较模块包括:第一获取子模块,用于若上述特征信息在预设时间段的信息增益率大于对应的上述预设信息增益率阈值,则得到第一比较参数,其中,上述第一比较参数用于指示上述特征信息异常;以及第二获取子模块,用于若上述特征信息在预设时间段的信息增益率不大于对应的上述预设信息增益率阈值,则得到第二比较参数,其中,上述第二比较参数用于指示上述特征信息正常。
进一步地,上述确定模块包括:汇总子模块,用于对访问上述网站的全部上述客户端的各个上述特征信息的信息增益率的比较结果进行汇总;统计子模块,用于统计汇总得到的上述一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果;判断子模块,用于判断上述统计结果是否大于预设数值;确定子模块,用于若上述统计结果大于上述预设数值,则确定上述网站发生访问异常,若上述统计结果不大于上述预设数值,则确定上述网站未发生访问异常。
进一步地,上述统计子模块包括:第一计算子模块,用于对上述预设的一个或多个特征信息的信息增益率的比较结果对应的参数值进行求和计算,得到计算结果;第三获取子模块,用于获取上述预设的一个或多个特征信息的特征个数;第二计算子模块,用于计算上述计算结果与上述特征个数的比值,得到上述统计结果。
进一步地,上述第二获取模块包括:第四获取子模块,用于获取每个客户端的每个特征信息在上述预设时间段的熵值和每个客户端的每个特征信息在历史时间段的熵值;第五获取子模块,用于通过
Figure BDA0000831712380000031
得到每个客户端的每个特征信息在上述预设时间段的信息增益率,其中,上述G为每个客户端的每个特征信息在上述预设时间段的信息增益率,上述S1为每个客户端的每个特征信息在上述预设时间段的熵值,上述S2为每个客户端的每个特征信息在上述历史时间段的熵值。
在本发明实施例中,采用获取记录的访问网站的客户端的一个或多个特征信息以及获取每个客户端的每个特征信息在预设时间段的信息增益率的方式,通过比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,达到了根据各个特征信息的比较结果确定网站是否发生访问异常的目的,从而实现了准确、简便的检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选地网站访问异常的检测方法的流程图;
图2是根据本发明实施例的一种可选的网站访问异常的检测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网站访问异常的检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例1
图1是根据本发明实施例的一种网站访问异常的检测方法的流程图,如图1所示,该方法可以包括如下步骤:
步骤S102,获取记录的访问网站的客户端的一个或多个特征信息,其中,一个或多个特征信息用于描述客户端的属性;
步骤S104,获取每个客户端的每个特征信息在预设时间段的信息增益率;
步骤S106,比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果;
步骤S108,根据比较结果确定网站是否发生访问异常。
在本发明实施例中,采用获取记录的访问网站的客户端的一个或多个特征信息以及获取每个客户端的每个特征信息在预设时间段的信息增益率的方式,通过比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,达到了根据各个特征信息的比较结果确定网站是否发生访问异常的目的,从而实现了准确、简便的检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。
其中,预设时间段可以为人为选取的某一时间范围或预先设置好的时间范围。信息增益率为概率学名词,反映了两种概率分布之间的差异度。在本实施例中,信息增益率反映了某特征信息在当前时间段所指示的某事件的概率分布相对于该特征信息在历史时间段所指示的该事件的概率分布之间的差异度。区别于信息增益以相对数值来反映该差异度,信息增益率以绝对数值反映该差异度,因此,信息增益率所反映的差异度结果更为客观,且作为一种补偿措施解决了信息增益所存在的过拟合的缺陷。
可选地,如表1所示,某网站的客户端的特征信息可以为网络运营商信息、地理位置信息、设备类型信息、浏览器类型信息和屏幕分辨率信息,通常,在访问者启用客户端访问网站时,网站服务器会实时记录并分类存储每个客户端的特征信息,以便于网站运维管理人员或技术支持人员在需要时调取。
表1
网络运营商 地理位置 设备类型 浏览器类型 屏幕分辨率
客户端A 山西移动 山西太原 手机 猎豹浏览器 640*1136
客户端B 四川电信 四川成都 平板电脑 火狐浏览器 2048*1536
客户端C 湖北联通 湖北武汉 笔记本电脑 360浏览器 1366*768
客户端D 中国网通 陕西西安 台式电脑 IE浏览器 1600*900
在表1中,共列举了网站记录的访问网站的4个客户端的5个特征信息,其中,4个客户端包括客户端A、客户端B、客户端C和客户端D。5个特征信息包括网络运营商信息、地理位置信息、设备类型信息、浏览器类型信息和屏幕分辨率信息。以设备类型信息为例,在某日对网站进行检测,发现网站记录了如下具体信息:
网站记录了当日以上4个客户端的设备类型信息,该信息包括:客户端A在当日使用手机访问网站、客户端B在当日使用手机访问网站、客户端C在当日使用手机访问网站以及客户端D在当日使用手机访问网站。
网站记录了当日之前的历史时间段以上4个客户端的设备类型信息,该信息包括:客户端A在历史时间段中访问网站时常用的设备类型为手机、客户端B在历史时间段中访问网站时常用的设备类型为平板电脑、客户端C在历史时间段中访问网站时常用的设备类型为笔记本电脑以及客户端D在历史时间段中访问网站时常用的设备类型为台式电脑,且以上4个客户端在历史时间段未出现同日使用同种类型的设备访问网站的事件。
在上述实施例中,由于当日出现了与“4个客户端在当日使用同种类型的设备访问网站”的事件,此事件与“4个客户端在历史时间段未出现同日使用同种类型的设备访问网站”的事件为对立事件,因此,当日出现的事件可能为访问网站时发生的异常事件,即网站发生访问异常。
需要说明的是,表1中的各个客户端的各个特征信息仅为示例性说明,不构成对本实施例所记载方案的具体限制。此外,因表1中除“设备类型信息”之外的其余4个特征信息与“设备类型信息”类同,故不做赘述。
可选地,比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果包括:若特征信息在预设时间段的信息增益率大于对应的预设信息增益率阈值,则得到第一比较参数,其中,第一比较参数用于指示特征信息异常;以及若特征信息在预设时间段的信息增益率不大于对应的预设信息增益率阈值,则得到第二比较参数,其中,第二比较参数用于指示特征信息正常。
其中,预设信息增益率阈值可以根据网站的正常运行要求由网站运维管理人员或技术支持人员主观性设定。预设信息增益率阈值可视具体需要设置为一个或多个。例如,某网站预设信息增益率阈值为唯一设定的数值α,通过将每个客户端的每个特征信息在预设时间段的信息增益率与数值α进行比较,得到不同的比较结果,该比较结果可以以参数的形式体现,例如,若特征信息在预设时间段的信息增益率大于数值α,则得到第一比较参数“1”,该第一比较参数“1”用于指示特征信息异常;若特征信息在预设时间段的信息增益率不大于数值α,则得到第二比较参数“0”,该第二比较参数“0”用于指示特征信息正常。
可选地,根据各个特征信息的比较结果确定网站是否发生访问异常包括:对访问网站的全部客户端的各个特征信息的信息增益率的比较结果进行汇总;统计汇总得到的一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果;判断统计结果是否大于预设数值;若统计结果大于预设数值,则确定网站发生访问异常,若统计结果不大于预设数值,则确定网站未发生访问异常。
其中,汇总得到的全部客户端的各个特征信息的信息增益率的比较结果可以用集合的形式来表示,每个比较结果与集合中的元素具有一一对应关系,集合中的元素可以为参数值为“0”或“1”的不同参数。例如,在某一时刻共有2个客户端访问某网站,且该网站的当前策略为实时记录每个客户端的5个特征信息,在可取参数值为“0”或“1”时,该网站记录的一个客户端的各个特征信息的信息增益率的比较结果为{0,1,0,1,1},该网站记录的另一个客户端的各个特征信息的信息增益率的比较结果为{1,0,0,1,1},则可以得到汇总后的参数集合A为{0,1,0,1,1,1,0,0,1,1},通过该集合A可知,本次检测共计检测了该网站的10个特征信息的信息增益率的比较结果,该10个比较结果由两个客户端各自的比较结果汇总而成,若预设待统计的特征信息的个数是5个,则预设的一个或多个特征信息在集合A中的对应的参数值为集合A中的全部元素,其中,6个参数值为“1”的参数用于指示特征信息异常,4个参数值为“0”的参数用于指示特征信息正常。再例如,通过集合A得到的统计结果β可以为一个取值范围在[0,1]之间的数值,进而通过判断该统计结果β是否大于预设数值γ,确定网站是否发生访问异常。具体的,若该统计结果β大于预设数值γ,则确定网站发生访问异常;若该统计结果β不大于预设数值γ,则确定网站未发生访问异常。
可选地,统计汇总得到的一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果包括:对预设的一个或多个特征信息的信息增益率的比较结果对应的参数值进行求和计算,得到计算结果;获取预设的一个或多个特征信息的特征个数;计算计算结果与特征个数的比值,得到统计结果。
例如,在可取参数值为“0”或“1”时,反映某网站的多个特征信息是否异常的集合A为{0,1,0,1,1,1,0,0,1,1},对集合A中的全部参数值进行求和计算,得到计算结果为数值“6”,其次,通过该集合可获取到多个特征信息的特征个数为“10”,则统计结果β=6/10=0.6。
可选地,获取每个客户端的每个特征信息在预设时间段的信息增益率包括:获取每个客户端的每个特征信息在预设时间段的熵值和每个客户端的每个特征信息在历史时间段的熵值;通过
Figure BDA0000831712380000071
得到每个客户端的每个特征信息在预设时间段的信息增益率,其中,G为每个客户端的每个特征信息在预设时间段的信息增益率,S1为每个客户端的每个特征信息在预设时间段的熵值,S2为每个客户端的每个特征信息在历史时间段的熵值。
其中,S1为信息熵,S2为条件熵。S1-S2为信息增益,表示特征信息消除随机不确定性的程度。但由于单纯的信息增益仅是个相对数值,并依赖于条件熵的大小。因此,本实施例采用信息增益率,作为较信息增益更为客观的度量值。
在本发明实施例中,采用获取记录的访问网站的客户端的一个或多个特征信息以及获取每个客户端的每个特征信息在预设时间段的信息增益率的方式,通过比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,达到了根据各个特征信息的比较结果确定网站是否发生访问异常的目的,从而实现了准确、简便的检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。
实施例2
根据本申请实施例,还提供了一种网站访问异常的检测装置,如图2所示,该检测装置可以包括:第一获取模块22、第二获取模块24、比较模块26以及确定模块28。
其中,第一获取模块22,用于获取记录的访问网站的客户端的一个或多个特征信息,其中,一个或多个特征信息用于描述客户端的属性;
第二获取模块24,用于获取每个客户端的每个特征信息在预设时间段的信息增益率;
比较模块26,用于比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果;
确定模块28,用于根据比较结果确定网站是否发生访问异常。
其中,预设时间段可以为人为选取的某一时间范围或预先设置好的时间范围。信息增益率为概率学名词,反映了两种概率分布之间的差异度。在本实施例中,信息增益率反映了某特征信息在当前时间段所指示的某事件的概率分布相对于该特征信息在历史时间段所指示的该事件的概率分布之间的差异度。
可选地,如表1所示,第一获取模块22获取到的某网站的客户端的特征信息可以为网络运营商信息、地理位置信息、设备类型信息、浏览器类型信息和屏幕分辨率信息,通常,在访问者启用客户端访问网站时,网站服务器会实时记录并分类存储每个客户端的特征信息,以便于网站运维管理人员或技术支持人员在需要时调取。
可选地,比较模块26包括:第一获取子模块,用于若特征信息在预设时间段的信息增益率大于对应的预设信息增益率阈值,则得到第一比较参数,其中,第一比较参数用于指示特征信息异常;以及第二获取子模块,用于若特征信息在预设时间段的信息增益率不大于对应的预设信息增益率阈值,则得到第二比较参数,其中,第二比较参数用于指示特征信息正常。
其中,预设信息增益率阈值可以根据网站的正常运行要求由网站运维管理人员或技术支持人员主观性设定。预设信息增益率阈值可视具体需要设置为一个或多个。例如,某网站预设信息增益率阈值为唯一设定的数值α,通过将每个客户端的每个特征信息在预设时间段的信息增益率与数值α进行比较,得到不同的比较结果,该比较结果可以以参数的形式体现,例如,若特征信息在预设时间段的信息增益率大于数值α,则得到第一比较参数“1”,该第一比较参数“1”用于指示特征信息异常;若特征信息在预设时间段的信息增益率不大于数值α,则得到第二比较参数“0”,该第二比较参数“0”用于指示特征信息正常。
可选地,确定模块28包括:汇总子模块,用于对访问网站的全部客户端的各个特征信息的信息增益率的比较结果进行汇总;统计子模块,用于统计汇总得到的一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果;判断子模块,用于判断统计结果是否大于预设数值;确定子模块,用于若统计结果大于预设数值,则确定网站发生访问异常,若统计结果不大于预设数值,则确定网站未发生访问异常。
其中,汇总得到的全部客户端的各个特征信息的信息增益率的比较结果可以用集合的形式来表示,每个比较结果与集合中的元素具有一一对应关系,集合中的元素可以为参数值为“0”或“1”的不同参数。例如,在某一时刻共有2个客户端访问某网站,且该网站的当前策略为实时记录每个客户端的5个特征信息,在可取参数值为“0”或“1”时,该网站记录的一个客户端的各个特征信息的信息增益率的比较结果为{0,1,0,1,1},该网站记录的另一个客户端的各个特征信息的信息增益率的比较结果为{1,0,0,1,1},则可以得到汇总后的参数集合A为{0,1,0,1,1,1,0,0,1,1},通过该集合A可知,本次检测共计检测了该网站的10个特征信息的信息增益率的比较结果,该10个比较结果由两个客户端各自的比较结果汇总而成,若预设特征信息的个数也是5个,则预设的一个或多个特征信息在集合A中的对应的参数值为集合A中的全部元素,其中,6个参数值为“1”的参数用于指示特征信息异常,4个参数值为“0”的参数用于指示特征信息正常。再例如,通过集合A得到的统计结果β可以为一个取值范围在[0,1]之间的数值,进而通过判断该统计结果β是否大于预设数值γ,确定网站是否发生访问异常。具体的,若该统计结果β大于预设数值γ,则确定网站发生访问异常;若该统计结果β不大于预设数值γ,则确定网站未发生访问异常。
可选地,统计子模块包括:第一计算子模块,用于对预设的一个或多个特征信息的信息增益率的比较结果对应的参数值进行求和计算,得到计算结果;第三获取子模块,用于获取预设的一个或多个特征信息的特征个数;第二计算子模块,用于计算计算结果与特征个数的比值,得到统计结果。
例如,在可取参数值为“0”或“1”时,反映某网站的多个特征信息是否异常的集合A为{0,1,0,1,1,1,0,0,1,1},对集合A中的全部参数值进行求和计算,得到计算结果为数值“6”,其次,通过该集合可获取到多个特征信息的特征个数为“10”,则统计结果β=6/10=0.6。
可选地,第二获取模块包括:第四获取子模块,用于获取每个客户端的每个特征信息在预设时间段的熵值和每个客户端的每个特征信息在历史时间段的熵值;第五获取子模块,用于通过
Figure BDA0000831712380000101
得到每个客户端的每个特征信息在预设时间段的信息增益率,其中,G为每个客户端的每个特征信息在预设时间段的信息增益率,S1为每个客户端的每个特征信息在预设时间段的熵值,S2为每个客户端的每个特征信息在历史时间段的熵值。
其中,S1为信息熵,S2为条件熵,S1-S2为信息增益,表示特征信息消除随机不确定性的程度。但由于单纯的信息增益仅是个相对数值,并依赖于条件熵的大小。因此,本实施例采用信息增益率,作为较信息增益更为客观的度量值。
在本发明实施例中,采用获取记录的访问网站的客户端的一个或多个特征信息以及获取每个客户端的每个特征信息在预设时间段的信息增益率的方式,通过比较每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,达到了根据各个特征信息的比较结果确定网站是否发生访问异常的目的,从而实现了准确、简便的检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种网站访问异常的检测方法,其特征在于,包括:
获取记录的访问网站的客户端的一个或多个特征信息,其中,所述一个或多个特征信息用于描述客户端的属性;
获取每个客户端的每个特征信息在预设时间段的信息增益率;
比较所述每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到所述每个客户端的每个特征信息的比较结果;
根据所述比较结果确定所述网站是否发生访问异常;
其中,根据所述比较结果确定所述网站是否发生访问异常包括:对访问所述网站的全部所述客户端的各个特征信息的信息增益率的比较结果进行汇总;统计汇总得到的所述一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果;判断所述统计结果是否大于预设数值;若所述统计结果大于所述预设数值,则确定所述网站发生访问异常,若所述统计结果不大于所述预设数值,则确定所述网站未发生访问异常;
比较所述每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到所述每个客户端的每个特征信息的比较结果包括:若所述特征信息在预设时间段的信息增益率大于对应的所述预设信息增益率阈值,则得到第一比较参数,其中,所述第一比较参数用于指示所述特征信息异常;以及若所述特征信息在预设时间段的信息增益率不大于对应的所述预设信息增益率阈值,则得到第二比较参数,其中,所述第二比较参数用于指示所述特征信息正常。
2.根据权利要求1所述的检测方法,其特征在于,统计汇总得到的所述一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果包括:
对所述预设的一个或多个特征信息的信息增益率的比较结果对应的参数值进行求和计算,得到计算结果;
获取所述预设的一个或多个特征信息的特征个数;
计算所述计算结果与所述特征个数的比值,得到所述统计结果。
3.根据权利要求1所述的检测方法,其特征在于,获取每个客户端的每个特征信息在预设时间段的信息增益率包括:
获取所述每个客户端的每个特征信息在所述预设时间段的熵值和所述每个客户端的每个特征信息在历史时间段的熵值;
通过得到所述每个客户端的每个特征信息在所述预设时间段的信息增益率,其中,所述G为所述每个客户端的每个特征信息在所述预设时间段的信息增益率,所述S1为所述每个客户端的每个特征信息在所述预设时间段的熵值,所述S2为所述每个客户端的每个特征信息在所述历史时间段的熵值。
4.一种网站访问异常的检测装置,其特征在于,包括:
第一获取模块,用于获取记录的访问网站的客户端的一个或多个特征信息,其中,所述一个或多个特征信息用于描述客户端的属性;
第二获取模块,用于获取每个客户端的每个特征信息在预设时间段的信息增益率;
比较模块,用于比较所述每个客户端的每个特征信息在预设时间段的信息增益率与对应的预设信息增益率阈值,得到每个客户端的每个特征信息的比较结果;
确定模块,用于根据所述比较结果确定所述网站是否发生访问异常;
其中,所述确定模块包括:汇总子模块,用于对访问所述网站的全部所述客户端的各个所述特征信息的信息增益率的比较结果进行汇总;统计子模块,用于统计汇总得到的所述一个或多个特征信息中预设的一个或多个特征信息的信息增益率的比较结果,得到统计结果;判断子模块,用于判断所述统计结果是否大于预设数值;确定子模块,用于若所述统计结果大于所述预设数值,则确定所述网站发生访问异常,若所述统计结果不大于所述预设数值,则确定所述网站未发生访问异常;
所述比较模块包括:第一获取子模块,用于若所述特征信息在预设时间段的信息增益率大于对应的所述预设信息增益率阈值,则得到第一比较参数,其中,所述第一比较参数用于指示所述特征信息异常;以及第二获取子模块,用于若所述特征信息在预设时间段的信息增益率不大于对应的所述预设信息增益率阈值,则得到第二比较参数,其中,所述第二比较参数用于指示所述特征信息正常。
5.根据权利要求4所述的检测装置,其特征在于,所述统计子模块包括:
第一计算子模块,用于对所述预设的一个或多个特征信息的信息增益率的比较结果对应的参数值进行求和计算,得到计算结果;
第三获取子模块,用于获取所述预设的一个或多个特征信息的特征个数;
第二计算子模块,用于计算所述计算结果与所述特征个数的比值,得到所述统计结果。
6.根据权利要求4所述的检测装置,其特征在于,所述第二获取模块包括:
第四获取子模块,用于获取所述每个客户端的每个特征信息在所述预设时间段的熵值和所述每个客户端的每个特征信息在历史时间段的熵值;
第五获取子模块,用于通过
Figure FDA0002262571820000031
得到所述每个客户端的每个特征信息在所述预设时间段的信息增益率,其中,所述G为所述每个客户端的每个特征信息在所述预设时间段的信息增益率,所述S1为所述每个客户端的每个特征信息在所述预设时间段的熵值,所述S2为所述每个客户端的每个特征信息在所述历史时间段的熵值。
CN201510708785.2A 2015-10-27 2015-10-27 网站访问异常的检测方法及装置 Active CN106612216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510708785.2A CN106612216B (zh) 2015-10-27 2015-10-27 网站访问异常的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510708785.2A CN106612216B (zh) 2015-10-27 2015-10-27 网站访问异常的检测方法及装置

Publications (2)

Publication Number Publication Date
CN106612216A CN106612216A (zh) 2017-05-03
CN106612216B true CN106612216B (zh) 2020-02-07

Family

ID=58614489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510708785.2A Active CN106612216B (zh) 2015-10-27 2015-10-27 网站访问异常的检测方法及装置

Country Status (1)

Country Link
CN (1) CN106612216B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107281755B (zh) * 2017-07-14 2020-05-05 网易(杭州)网络有限公司 检测模型的构建方法、装置、储存介质和终端
CN107438079B (zh) * 2017-08-18 2020-05-01 杭州安恒信息技术股份有限公司 一种网站未知异常行为的检测方法
CN108959493A (zh) * 2018-06-25 2018-12-07 阿里巴巴集团控股有限公司 指标异常波动的检测方法、装置及设备
CN109040295B (zh) * 2018-08-30 2021-07-20 上海九山电子科技有限公司 异常断线的确定方法及装置、终端及存储介质
CN109146574A (zh) * 2018-09-06 2019-01-04 深圳市木瓜移动科技有限公司 广告点击作弊监测方法及装置
CN110401636A (zh) * 2019-06-28 2019-11-01 苏州浪潮智能科技有限公司 一种监管异常访问的大数据风控方法和装置
CN111510340B (zh) * 2020-03-10 2021-12-28 北京三快在线科技有限公司 访问请求检测方法、装置、电子设备及可读存储介质
CN112188291B (zh) * 2020-09-24 2022-11-29 北京明略昭辉科技有限公司 广告位异常的识别方法和装置
CN113840157B (zh) * 2021-09-23 2023-07-18 上海哔哩哔哩科技有限公司 访问检测方法、系统及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法
CN103117893A (zh) * 2013-01-22 2013-05-22 北京奇虎科技有限公司 一种网络访问行为的监控方法、装置和一种客户端设备
CN103684885A (zh) * 2013-12-31 2014-03-26 新浪网技术(中国)有限公司 一种网站服务器访问异常确定方法及装置
CN103944757A (zh) * 2014-04-11 2014-07-23 珠海市君天电子科技有限公司 网络异常检测的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法
CN103117893A (zh) * 2013-01-22 2013-05-22 北京奇虎科技有限公司 一种网络访问行为的监控方法、装置和一种客户端设备
CN103684885A (zh) * 2013-12-31 2014-03-26 新浪网技术(中国)有限公司 一种网站服务器访问异常确定方法及装置
CN103944757A (zh) * 2014-04-11 2014-07-23 珠海市君天电子科技有限公司 网络异常检测的方法和装置

Also Published As

Publication number Publication date
CN106612216A (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN106612216B (zh) 网站访问异常的检测方法及装置
CN108833184B (zh) 服务故障定位方法、装置、计算机设备及存储介质
CN111064614B (zh) 一种故障根因定位方法、装置、设备及存储介质
CN107360188B (zh) 基于云防护和云监测系统的网站风险值评估方法及装置
CN108038500B (zh) 聚类方法、装置、计算机设备、存储介质和程序产品
WO2017113677A1 (zh) 处理用户行为数据的方法和系统
KR20160111443A (ko) Ip 어드레스에 대응하는 위치를 결정하기 위한 방법, 장치, 및 시스템
CN106936778B (zh) 网站流量异常的检测方法和装置
US11223668B2 (en) Anomaly detection of media event sequences
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN104427519B (zh) Ip地址归属地管理方法及装置
CN106611023B (zh) 网站访问异常的检测方法及装置
CN107820209B (zh) 兴趣推荐方法、装置及服务器
WO2016145993A1 (zh) 一种用户设备识别方法及系统
US20180027084A1 (en) Network-Based Probabilistic Device Linking
CN111476596A (zh) 基于同源设备的家庭人口数据处理方法、系统及存储介质
CN107682345A (zh) Ip地址的检测方法、检测装置及电子设备
EP3494525B1 (en) Realtime busyness for places
CN108366274B (zh) 一种刷播放量的检测方法和装置
CN113726783A (zh) 异常ip地址识别方法、装置、电子设备及可读存储介质
CN111612085B (zh) 一种对等组中异常点的检测方法及装置
CN110516752A (zh) 聚类簇质量评估方法、装置、设备及存储介质
CN112749035B (zh) 异常检测方法、装置及计算机可读介质
CN110851758B (zh) 一种网页访客数量统计方法及装置
CN104484389A (zh) 一种互联网用户最大似然地理位置发现方法及发现系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant