CN107809331A - 识别异常流量的方法和装置 - Google Patents

识别异常流量的方法和装置 Download PDF

Info

Publication number
CN107809331A
CN107809331A CN201711013634.0A CN201711013634A CN107809331A CN 107809331 A CN107809331 A CN 107809331A CN 201711013634 A CN201711013634 A CN 201711013634A CN 107809331 A CN107809331 A CN 107809331A
Authority
CN
China
Prior art keywords
daily record
reported data
decision tree
record reported
current monitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711013634.0A
Other languages
English (en)
Other versions
CN107809331B (zh
Inventor
丛金鑫
王海旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711013634.0A priority Critical patent/CN107809331B/zh
Publication of CN107809331A publication Critical patent/CN107809331A/zh
Application granted granted Critical
Publication of CN107809331B publication Critical patent/CN107809331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种识别异常流量的方法和装置,涉及计算机技术领域。其中,该方法包括:统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件;在确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。通过以上步骤,能够实时、高效地识别出异常流量,减少异常流量对服务端存储资源与计算资源的占用。

Description

识别异常流量的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种识别异常流量的方法和装置。
背景技术
在服务端统计日志数据时,异常流量的存在往往会导致页面统计量虚高、分析效果不准确。比如,存在如下类型的异常流量:非用户主动点击产生的异常流量。这种异常流量往往是由恶意程序篡改页面信息引起的,其具有如下特点:页面的加载是在用户未知的情况下进行的;页面只进行了加载却没有曝光,即对用户不可见。
在现有技术中,主要通过以下方案识别异常流量:将服务端一天内接收的全部数据汇总、同步至数据加工应用层;通过数据加工应用层计算统计指标,然后,通过数据业务展示层对得到的统计指标进行展示;如果统计指标存在异常,再通过人工方式详细查找、定位、剔除异常流量;然后,对剔除异常流量后的数据重新进行数据加工和数据展示。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:第一、在现有异常识别方案中,需要人工逐一查询、定位、剔除异常,时效性较差;第二、在确定存在异常流量之后,还需要重新对剔除异常流量的数据进行加工和展示,消耗服务端的存储与计算资源。
发明内容
有鉴于此,本发明提供了一种识别异常流量的方法和装置,以能够实时、高效地识别异常流量,同时减少异常流量对服务端存储资源与计算资源的占用。
为实现上述目的,根据本发明的一个方面,提供了一种识别异常流量的方法。
本发明的识别异常流量的方法包括:统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件;在确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
在一个实施例中,所述方法还包括:在所述将当前监控周期的日志上报数据输入预先构建的决策树的步骤之前,对当前监控周期的日志上报数据进行预处理,以得到所述决策树所需的流量特征数据。
在一个实施例中,所述决策树能够识别的异常流量包括:非用户主动点击产生的异常流量;所述决策树所需的流量特征数据包括:访问页面的可视化区域特征、访问页面的访问量特征、访问页面的来源方特征、访问页面的访问序号特征。
在一个实施例中,所述方法还包括:基于决策树学习算法构建决策树。
在一个实施例中,所述预设的异常判断条件包括:当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。
为实现上述目的,根据本发明的另一方面,提供了一种识别异常流量的装置。
本发明的识别异常流量的装置包括:统计模块,用于统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件;识别模块,用于在所述统计模块确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
在一个实施例中,所述装置还包括:预处理模块,用于在所述识别模块将当前监控周期的日志上报数据输入预先构建的决策树之前,对当前监控周期的日志上报数据进行预处理,以得到所述决策树所需的流量特征数据。
在一个实施例中,所述决策树能够识别的异常流量包括:非用户主动点击产生的异常流量;所述决策树所需的流量特征数据包括:访问页面的可视化区域特征、访问页面的访问量特征、访问页面的来源方特征、访问页面的访问序号特征。
在一个实施例中,所述装置还包括:构建模块,用于基于决策树学习算法构建决策树。
在一个实施例中,所述预设的异常判断条件包括:当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。
为实现上述目的,根据本发明的再一个方面,提供了一种服务器。
本发明的服务器,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的识别异常流量的方法。
为实现上述目的,根据本发明的又一个方面,提供了一种计算机可读介质。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的识别异常流量的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件,能够从“日志上报数据量”层面初步识别、定位异常流量;通过在确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,能够从“日志上报数据特征”层面精确地识别、定位异常流量。进而,通过以上步骤,能够从多个层面实时、高效地识别出异常流量,减少异常流量对服务端存储资源与计算资源的占用。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明一个实施例的识别异常流量的方法的主要步骤的示意图;
图2是根据本发明另一实施例的识别异常流量的方法的主要步骤的示意图;
图3是根据本发明实施例的一种决策树的结构示意图;
图4是根据本发明一个实施例的识别异常流量的装置的主要模块的示意图;
图5是根据本发明另一实施例的识别异常流量的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以相互组合。
图1是根据本发明一个实施例的识别异常流量的方法的主要步骤的示意图。本发明实施例的识别异常流量的方法可由服务端执行。如图1所示,本发明实施例的识别异常流量的方法包括:
步骤S101、统计当前监控周期的日志上报数据量。
其中,监控周期的时长可以为1小时。可理解的是,在不影响本发明实施的情况下,本领域技术人员可灵活设置监控周期的时长。比如,将监控周期的时长设为2小时。
步骤S102、判断当前监控周期的日志上报数据量是否符合预设的异常判断条件。如果当前监控周期的日志上报数据量符合预设的异常判断条件,执行步骤S103;否则,执行步骤S104。
在该步骤中,所述预设的异常判断条件为:当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。具体实施时,可根据历史日志上报数据量的统计情况灵活设置第一流量阈值、第二流量阈值。例如,监控周期的时长为1小时,当前时刻为上午9点,则可将过去7天中同期(每天上午9点)日志上报数据量的最大值15000作为该时刻的第一流量阈值;假设当前时刻为下午3点,可将过去7天同期(每天下午3点)日志上报数据量的最大值20000作为该时刻的第一流量阈值。基于历史数据灵活设置不同时刻的第一流量阈值与第二流量阈值,能够提高异常流量识别的准确性。
应理解的是,在不影响本发明实施的情况下,本领域技术人员还可以调整异常判断条件。例如,在另一实施例中,预设的异常判断条件为:当前监控周期的日志上报数据量大于第一流量阈值、且当前监控周期的日志上报数据量的环比波动超出预设的波动范围。
步骤S103、将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
具体实施时,考虑到异常流量和正常流量的特征不同,故而可先基于历史异常流量样本训练决策树模型,再基于训练得到的决策树对新的日志上报数据进行预测,以精准识别异常流量和正常流量。
步骤S104、确认当前监控周期的日志上报数据正常。
在本发明实施例中,通过统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件,能够从“日志上报数据量”层面初步识别、定位异常流量;通过在确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,能够从“日志上报数据特征”层面精确地识别、定位异常流量。进而,通过以上步骤,能够从多个层面实时、高效地识别出异常流量,减少异常流量对服务端存储资源与计算资源的占用。
图2是根据本发明另一实施例的识别异常流量的方法的主要步骤的示意图。本发明实施例的识别异常流量的方法可由服务端执行。如图2所示,本发明实施例的识别异常流量的方法包括:
步骤201、基于决策树学习算法构建用于识别异常流量的决策树。
其中,所述决策树学习算法可以是ID3算法。具体地,根据ID3算法构建决策树包括:先根据FCBF(Fast Correlation Based Filter Solution,是一种快速过滤的特征选择算法)算法从历史异常日志上报数据中选取信息增益大的特征;然后利用选取的特征构建决策树的节点,并根据特征的不同取值建立分支;接下来,对各个分支的子集递归调用该方法建立节点的分支,直到所有子集仅包括同一类别的数据为止。
步骤S202、统计当前监控周期的日志上报数据量。
示例性的,监控周期的时长为1小时。具体实施时,服务端可以将1小时内接收的日志上报数据存储在同一个数据分片上,以便后续进行日志上报数据量的统计。
步骤S203、判断当前监控周期的日志上报数据量是否符合预设的异常判断条件。如果当前监控周期的日志上报数据量符合预设的异常判断条件,执行步骤S204和步骤S205;否则,执行步骤S206。
在该步骤中,所述预设的异常判断条件为:当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。具体实施时,可根据历史日志上报数据量的统计情况灵活设置第一流量阈值、第二流量阈值。例如,监控周期的时长为1小时,当前时刻为上午9点,则可将过去7天中同期(每天上午9点)日志上报数据量的最大值15000作为该时刻的第一流量阈值;假设当前时刻为下午3点,可将过去7天同期(每天下午3点)日志上报数据量的最大值20000作为该时刻的第一流量阈值。基于历史数据灵活设置不同时刻的第一流量阈值与第二流量阈值,能够提高异常流量识别的准确性。
步骤S204、对当前监控周期的日志上报数据进行预处理,以得到决策树所需的流量特征数据。
具体地,对日志上报数据进行预处理包括:对当前监控周期的日志上报数据进行数据融合处理,然后从融合处理后的数据中提取决策树所需的流量特征数据。示例性的,当所述决策树能够识别的异常流量类型为“非用户主动点击产生的异常流量”时,所述决策树所需的流量特征数据包括:访问页面的可视化区域特征、访问页面的访问量特征、访问页面的来源方特征、访问页面的访问序号特征。
在以上示例中,访问页面的可视化区域特征可具体为:iframe标签的高度、iframe标签的宽度。若访问页面的可视化区域为0,则表示该访问页面对用户不可见;若访问页面的可视化区域不为0,则表示该访问页面对用户可见。访问页面的访问量特征可具体为:同一访问页面的UV(独立访客数)值或同一访问页面的PV(页面浏览量)值。访问页面的来源方特征可具体为:用于表示流量来源的utm参数,比如,utm_source(来源渠道)参数、utm_medium(来源媒介)参数等。另外,访问页面的访问序号特征用于表示访问该页面的用户是否有后续点击行为。若访问页面的访问序号为最后一页,则表示用户无后续点击行为;若访问页面的访问序号不是最后一页,则表示用户有后续点击行为。
步骤S205、将所述流量特征数据输入决策树,并根据所述决策树进行异常识别。
步骤S206、确认当前监控周期的日志上报数据正常。
图3是根据本发明实施例的一种决策树的结构示意图。如图3所示,该决策树用于识别“非用户主动点击产生的异常流量”,根据决策树进行异常识别包括以下步骤:
步骤一、判断访问页面的可视化区域是否为0。若访问页面的可视化区域为0,则进入步骤二;若访问页面的可视化区域不为0,则判定所述访问页面对应的流量为正常流量。
步骤二、判断访问页面的访问量是否激增。若访问页面的访问量激增,则进入步骤三;若访问页面的访问量未激增,则判定所述访问页面对应的流量为正常流量。
在具体实施时,判断访问页面的访问量是否激增可采取以下方式:统计该访问页面在每个监控周期内的PV(页面浏览量)值,若当前监控周期的PV值是上一监控周期的PV值的两倍或以上,则访问页面的访问量激增;否则,访问页面的访问量未激增。
步骤三、判断访问页面的来源参数是否位于白名单上。若访问页面的来源参数位于白名单上,则判定所述访问页面对应的流量为正常流量;若访问页面的来源参数不位于白名单上,则进入步骤四。
步骤四、判断访问页面的访问序号是否为最后一页。若访问页面的序号为最后一页,判定所述访问页面对应的流量为正常流量;若访问页面的序号不是最后一页,判定所述访问页面对应的流量为异常流量。
通过步骤一至步骤四,能够实时、精准地识别非用户主动点击产生的异常流量。另外,通过实时识别出异常流量,无需后续追溯异常流量,减少了对服务端存储与计算资源的占用。
在本发明实施例中,通过以上步骤能够实时、高效、精准地识别异常流量,同时减少异常流量对服务端存储资源与计算资源的占用。进一步,在通过步骤S203判断日志上报数据存在异常之后,再对日志上报数据进行预处理,而在通过步骤S203判断日志上报数据正常之后,不对数据进行预处理,能够大大减少预处理的数据量,提高异常流量的识别效率。
图4是根据本发明一个实施例的识别异常流量的装置的主要模块的示意图。本发明实施例的识别异常流量的装置可设置于服务端。如图4所示,本发明实施例的识别异常流量的装置400包括:统计模块401、识别模块402。
统计模块401,用于统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件。若所述日志上报数据量符合预设的异常判断条件,则由识别模块402对当前监控周期的日志上报数据进行识别;若所述日志上报数据量不符合预设的异常判断条件,则确认当前监控周期的日志上报数据正常。
其中,统计模块401所依据的异常判断条件为:当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。具体实施时,可根据历史日志上报数据量的统计情况灵活设置第一流量阈值、第二流量阈值。例如,监控周期的时长为1小时,当前时刻为上午9点,则可将过去7天中同期(每天上午9点)日志上报数据量的最大值15000作为该时刻的第一流量阈值;假设当前时刻为下午3点,可将过去7天同期(每天下午3点)日志上报数据量的最大值20000作为该时刻的第一流量阈值。基于历史数据灵活设置不同时刻的第一流量阈值与第二流量阈值,能够提高异常流量识别的准确性。
应理解的是,在不影响本发明实施的情况下,本领域技术人员还可以调整统计模块所依据的异常判断条件。例如,在另一实施例中,预设的异常判断条件为:当前监控周期的日志上报数据量大于第一流量阈值、且当前监控周期的日志上报数据量的环比波动超出预设的波动范围。
识别模块402,用于在统计模块401确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
在本发明实施例中,通过统计模块统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件,能够从“日志上报数据量”层面初步识别、定位异常流量;通过识别模块将初步判断为异常的日志上报数据输入决策树,能够从“日志上报数据特征”层面精确地识别、定位异常流量。进而,本发明实施例的装置,能够从多个层面实时、高效地识别出异常流量,减少异常流量对服务端存储资源与计算资源的占用。
图5是根据本发明另一实施例的识别异常流量的装置的主要模块的示意图。本发明实施例的识别异常流量的装置可设置于服务端。如图5所示,本发明实施例的识别异常流量的装置500包括:构建模块501、统计模块502、预处理模块503、识别模块504。
构建模块501,用于基于决策树学习算法构建决策树。
其中,所述决策树学习算法可以是ID3算法。具体地,构建模块501根据ID3算法构建决策树包括:先根据FCBF(Fast Correlation Based Filter Solution,是一种快速过滤的特征选择算法)算法从历史异常日志上报数据中选取信息增益大的特征;然后利用选取的特征构建决策树的节点,并根据特征的不同取值建立分支;接下来,对各个分支的子集递归调用该方法建立节点的分支,直到所有子集仅包括同一类别的数据为止。
统计模块502,用于统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件。若所述日志上报数据量符合预设的异常判断条件,则由预处理模块503对当前监控周期的日志上报数据进行预处理;若所述日志上报数据量不符合预设的异常判断条件,则确认当前监控周期的日志上报数据正常。
其中,统计模块502所依据的异常判断条件可参考图4所示实施例中的相关说明。
预处理模块503,用于在统计模块502确认所述日志上报数据量符合预设的异常判断条件之后,对当前监控周期的日志上报数据进行预处理,以得到决策树所需的流量特征数据。
具体地,预处理模块503对日志上报数据进行预处理包括:对当前监控周期的日志上报数据进行数据融合处理,然后从融合处理后的数据中提取决策树所需的流量特征数据。示例性的,当所述决策树能够识别的异常流量类型为“非用户主动点击产生的异常流量”时,预处理模块503得到的决策树所需的流量特征数据包括:访问页面的可视化区域特征、访问页面的访问量特征、访问页面的来源方特征、访问页面的访问序号特征。
在以上示例中,访问页面的可视化区域特征可具体为:iframe标签的高度、iframe标签的宽度。若访问页面的可视化区域为0,则表示该访问页面对用户不可见;若访问页面的可视化区域不为0,则表示该访问页面对用户可见。访问页面的访问量特征可具体为:同一访问页面的UV(独立访客数)值或同一访问页面的PV(页面浏览量)值。访问页面的来源方特征可具体为:用于表示流量来源的utm参数,比如,utm_source(来源渠道)参数、utm_medium(来源媒介)参数等。另外,访问页面的访问序号特征用于表示访问该页面的用户是否有后续点击行为。若访问页面的访问序号为最后一页,则表示用户无后续点击行为;若访问页面的访问序号不是最后一页,则表示用户有后续点击行为。
识别模块504,用于将预处理模块503获取的流量特征数据输入决策树,并根据所述决策树进行异常识别。
示例性的,当所述决策树能够识别的异常流量类型为“非用户主动点击产生的异常流量”时,关于识别模块504如何根据决策树进行异常流量识别的具体流程,可参考与图3相关的步骤说明。
本发明实施例的装置能够实时、高效、精准地识别异常流量,同时减少异常流量对服务端存储资源与计算资源的占用。进一步,在通过统计模块判断日志上报数据存在异常之后,再通过预处理模块对日志上报数据进行预处理,而在通过统计模块判断日志上报数据正常之后,不对数据进行预处理,能够大大减少预处理的数据量,提高异常流量的识别效率。
图6示出了可以应用本发明实施例的识别异常流量的方法或识别异常流量的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的日志上报请求进行统计、识别等处理。
需要说明的是,本发明实施例所提供的识别异常流量的方法一般由服务器605执行,相应地,识别异常流量的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图7示出了适于用来实现本发明实施例的服务器的计算机系统700的结构示意图。图7示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括统计模块、识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,统计模块还可以被描述为“统计当前监控周期的日志上报数据量的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下流程:统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件;在确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种识别异常流量的方法,其特征在于,所述方法包括:
统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件;
在确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述将当前监控周期的日志上报数据输入预先构建的决策树的步骤之前,对当前监控周期的日志上报数据进行预处理,以得到所述决策树所需的流量特征数据。
3.根据权利要求2所述的方法,其特征在于,所述决策树能够识别的异常流量包括:非用户主动点击产生的异常流量;
所述决策树所需的流量特征数据包括:访问页面的可视化区域特征、访问页面的访问量特征、访问页面的来源方特征、访问页面的访问序号特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于决策树学习算法构建决策树。
5.根据权利要求1所述的方法,其特征在于,所述预设的异常判断条件包括:
当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。
6.一种识别异常流量的装置,其特征在于,所述装置包括:
统计模块,用于统计当前监控周期的日志上报数据量,并判断所述日志上报数据量是否符合预设的异常判断条件;
识别模块,用于在所述统计模块确认所述日志上报数据量符合预设的异常判断条件之后,将当前监控周期的日志上报数据输入预先构建的决策树,并根据所述决策树对当前监控周期的日志上报数据进行异常识别。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
预处理模块,用于在所述识别模块将当前监控周期的日志上报数据输入预先构建的决策树之前,对当前监控周期的日志上报数据进行预处理,以得到所述决策树所需的流量特征数据。
8.根据权利要求7所述的装置,其特征在于,所述决策树能够识别的异常流量包括:非用户主动点击产生的异常流量;
所述决策树所需的流量特征数据包括:访问页面的可视化区域特征、访问页面的访问量特征、访问页面的来源方特征、访问页面的访问序号特征。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
构建模块,用于基于决策树学习算法构建决策树。
10.根据权利要求6所述的装置,其特征在于,所述预设的异常判断条件包括:
当前监控周期的日志上报数据量大于第一流量阈值或小于第二流量阈值;其中,第一流量阈值大于第二流量阈值。
11.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至5中任一所述的方法。
CN201711013634.0A 2017-10-25 2017-10-25 识别异常流量的方法和装置 Active CN107809331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711013634.0A CN107809331B (zh) 2017-10-25 2017-10-25 识别异常流量的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711013634.0A CN107809331B (zh) 2017-10-25 2017-10-25 识别异常流量的方法和装置

Publications (2)

Publication Number Publication Date
CN107809331A true CN107809331A (zh) 2018-03-16
CN107809331B CN107809331B (zh) 2020-11-24

Family

ID=61593045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711013634.0A Active CN107809331B (zh) 2017-10-25 2017-10-25 识别异常流量的方法和装置

Country Status (1)

Country Link
CN (1) CN107809331B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109379228A (zh) * 2018-11-02 2019-02-22 平安科技(深圳)有限公司 误告警信息识别方法及装置、存储介质、电子终端
CN109581122A (zh) * 2018-12-24 2019-04-05 北京新能源汽车股份有限公司 一种车辆异常唤醒的检测方法、装置及系统
CN109635993A (zh) * 2018-10-23 2019-04-16 平安科技(深圳)有限公司 基于预测模型的操作行为监控方法及装置
CN109784370A (zh) * 2018-12-14 2019-05-21 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN109858548A (zh) * 2019-01-29 2019-06-07 Oppo广东移动通信有限公司 异常耗电的判断方法及装置、存储介质、通信终端
CN109918279A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 电子装置、基于日志数据识别用户异常操作的方法及存储介质
CN109978038A (zh) * 2019-03-19 2019-07-05 中国银联股份有限公司 一种集群异常判定方法及装置
CN110012005A (zh) * 2019-03-29 2019-07-12 新华三大数据技术有限公司 识别异常数据的方法、装置、电子设备及存储介质
CN110022248A (zh) * 2019-04-19 2019-07-16 山东浪潮云信息技术有限公司 链路流量统计方法及系统、流量统计主机以及统计请求端
CN110166302A (zh) * 2019-05-29 2019-08-23 哈尔滨安天科技集团股份有限公司 一种基于决策树的日志分析方法、装置及存储设备
CN110852337A (zh) * 2018-08-21 2020-02-28 天津京东深拓机器人科技有限公司 异常设备识别方法和装置
CN110912936A (zh) * 2019-12-20 2020-03-24 东软集团股份有限公司 媒体文件安全态势感知方法和防火墙
CN111290927A (zh) * 2018-12-06 2020-06-16 北京京东尚科信息技术有限公司 一种数据监控方法和装置
CN111353714A (zh) * 2020-03-03 2020-06-30 中国建设银行股份有限公司 数据监控方法、服务端、客户端和系统
CN112000806A (zh) * 2020-08-25 2020-11-27 携程旅游信息技术(上海)有限公司 异常日志监控分析方法、系统、设备及存储介质
CN112491655A (zh) * 2020-11-20 2021-03-12 中国建设银行股份有限公司 一种tcp传输异常类型的确定方法、装置、电子设备及存储介质
CN113758608A (zh) * 2020-07-30 2021-12-07 北京京东振世信息技术有限公司 一种报警处理方法和装置
CN113965445A (zh) * 2020-07-02 2022-01-21 中国移动通信集团山东有限公司 一种质差根因的定位方法、装置、计算机设备和存储介质
CN114138620A (zh) * 2021-11-16 2022-03-04 苏州浪潮智能科技有限公司 一种云平台日志暴增的检测方法、装置、设备、存储介质
CN114531374A (zh) * 2022-02-25 2022-05-24 平安国际智慧城市科技股份有限公司 网络监控方法、装置、设备及存储介质
CN114584346A (zh) * 2022-01-28 2022-06-03 深圳融安网络科技有限公司 日志流的处理方法、系统、终端设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法
US20110213869A1 (en) * 2000-09-25 2011-09-01 Yevgeny Korsunsky Processing data flows with a data flow processor
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN105205134A (zh) * 2015-09-15 2015-12-30 深信服网络科技(深圳)有限公司 识别用户点击访问网站行为的方法及装置
CN105281966A (zh) * 2014-06-13 2016-01-27 腾讯科技(深圳)有限公司 网络设备的异常流量识别方法及相关装置
CN105610616A (zh) * 2015-12-29 2016-05-25 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及系统
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN107124320A (zh) * 2017-06-30 2017-09-01 北京金山安全软件有限公司 流量数据的监控方法、装置及服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213869A1 (en) * 2000-09-25 2011-09-01 Yevgeny Korsunsky Processing data flows with a data flow processor
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN105281966A (zh) * 2014-06-13 2016-01-27 腾讯科技(深圳)有限公司 网络设备的异常流量识别方法及相关装置
CN105205134A (zh) * 2015-09-15 2015-12-30 深信服网络科技(深圳)有限公司 识别用户点击访问网站行为的方法及装置
CN105610616A (zh) * 2015-12-29 2016-05-25 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及系统
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN107124320A (zh) * 2017-06-30 2017-09-01 北京金山安全软件有限公司 流量数据的监控方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨清 等: "基于决策树的学习算法", 《湘潭师范学院学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852337A (zh) * 2018-08-21 2020-02-28 天津京东深拓机器人科技有限公司 异常设备识别方法和装置
CN110852337B (zh) * 2018-08-21 2024-08-20 北京京东乾石科技有限公司 异常设备识别方法和装置
CN109635993A (zh) * 2018-10-23 2019-04-16 平安科技(深圳)有限公司 基于预测模型的操作行为监控方法及装置
CN109379228A (zh) * 2018-11-02 2019-02-22 平安科技(深圳)有限公司 误告警信息识别方法及装置、存储介质、电子终端
CN111290927A (zh) * 2018-12-06 2020-06-16 北京京东尚科信息技术有限公司 一种数据监控方法和装置
CN109784370A (zh) * 2018-12-14 2019-05-21 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN109784370B (zh) * 2018-12-14 2024-05-10 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN109581122A (zh) * 2018-12-24 2019-04-05 北京新能源汽车股份有限公司 一种车辆异常唤醒的检测方法、装置及系统
CN109581122B (zh) * 2018-12-24 2021-06-25 北京新能源汽车股份有限公司 一种车辆异常唤醒的检测方法、装置及系统
CN109918279B (zh) * 2019-01-24 2022-09-27 平安科技(深圳)有限公司 电子装置、基于日志数据识别用户异常操作的方法及存储介质
CN109918279A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 电子装置、基于日志数据识别用户异常操作的方法及存储介质
CN109858548A (zh) * 2019-01-29 2019-06-07 Oppo广东移动通信有限公司 异常耗电的判断方法及装置、存储介质、通信终端
CN109858548B (zh) * 2019-01-29 2023-04-18 Oppo广东移动通信有限公司 异常耗电的判断方法及装置、存储介质、通信终端
CN109978038B (zh) * 2019-03-19 2023-04-18 中国银联股份有限公司 一种集群异常判定方法及装置
CN109978038A (zh) * 2019-03-19 2019-07-05 中国银联股份有限公司 一种集群异常判定方法及装置
CN110012005B (zh) * 2019-03-29 2022-05-06 新华三大数据技术有限公司 识别异常数据的方法、装置、电子设备及存储介质
CN110012005A (zh) * 2019-03-29 2019-07-12 新华三大数据技术有限公司 识别异常数据的方法、装置、电子设备及存储介质
CN110022248A (zh) * 2019-04-19 2019-07-16 山东浪潮云信息技术有限公司 链路流量统计方法及系统、流量统计主机以及统计请求端
CN110166302A (zh) * 2019-05-29 2019-08-23 哈尔滨安天科技集团股份有限公司 一种基于决策树的日志分析方法、装置及存储设备
CN110912936A (zh) * 2019-12-20 2020-03-24 东软集团股份有限公司 媒体文件安全态势感知方法和防火墙
CN111353714A (zh) * 2020-03-03 2020-06-30 中国建设银行股份有限公司 数据监控方法、服务端、客户端和系统
CN113965445A (zh) * 2020-07-02 2022-01-21 中国移动通信集团山东有限公司 一种质差根因的定位方法、装置、计算机设备和存储介质
CN113965445B (zh) * 2020-07-02 2023-10-27 中国移动通信集团山东有限公司 一种质差根因的定位方法、装置、计算机设备和存储介质
CN113758608A (zh) * 2020-07-30 2021-12-07 北京京东振世信息技术有限公司 一种报警处理方法和装置
CN113758608B (zh) * 2020-07-30 2023-11-07 北京京东振世信息技术有限公司 一种报警处理方法和装置
CN112000806A (zh) * 2020-08-25 2020-11-27 携程旅游信息技术(上海)有限公司 异常日志监控分析方法、系统、设备及存储介质
CN112000806B (zh) * 2020-08-25 2023-06-16 携程旅游信息技术(上海)有限公司 异常日志监控分析方法、系统、设备及存储介质
CN112491655A (zh) * 2020-11-20 2021-03-12 中国建设银行股份有限公司 一种tcp传输异常类型的确定方法、装置、电子设备及存储介质
CN112491655B (zh) * 2020-11-20 2022-07-12 中国建设银行股份有限公司 一种tcp传输异常类型的确定方法、装置、电子设备及存储介质
CN114138620B (zh) * 2021-11-16 2024-01-16 苏州浪潮智能科技有限公司 一种云平台日志暴增的检测方法、装置、设备、存储介质
CN114138620A (zh) * 2021-11-16 2022-03-04 苏州浪潮智能科技有限公司 一种云平台日志暴增的检测方法、装置、设备、存储介质
CN114584346A (zh) * 2022-01-28 2022-06-03 深圳融安网络科技有限公司 日志流的处理方法、系统、终端设备及存储介质
CN114584346B (zh) * 2022-01-28 2024-01-12 深圳融安网络科技有限公司 日志流的处理方法、系统、终端设备及存储介质
CN114531374B (zh) * 2022-02-25 2023-08-25 深圳平安智慧医健科技有限公司 网络监控方法、装置、设备及存储介质
CN114531374A (zh) * 2022-02-25 2022-05-24 平安国际智慧城市科技股份有限公司 网络监控方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107809331B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN107809331A (zh) 识别异常流量的方法和装置
CN109344170B (zh) 流数据处理方法、系统、电子设备及可读存储介质
CN108984370A (zh) 一种确定监控阈值的方法和装置
CN109684047A (zh) 事件处理方法、装置、设备和计算机存储介质
CN113627566B (zh) 一种网络诈骗的预警方法、装置和计算机设备
JP2017174375A (ja) リスク早期警報方法、および装置
CN110287316A (zh) 一种告警分类方法、装置、电子设备及存储介质
CN109685089A (zh) 评估模型性能的系统及方法
CN110308946A (zh) 基于人工智能的跑批处理方法、设备、存储介质及装置
CN111368980A (zh) 状态检测方法、装置、设备及存储介质
CN106408325A (zh) 基于用户支付信息的用户消费行为预测分析方法及系统
CN107819745A (zh) 异常流量的防御方法和装置
CN107295067A (zh) 跨屏识别用户的方法和装置
CN107346344A (zh) 文本匹配的方法和装置
CN107094086A (zh) 一种信息获取方法和装置
CN113780329A (zh) 用于识别数据异常的方法、装置、服务器和介质
CN112734352A (zh) 一种基于数据维度的单据审核方法和装置
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN107122464A (zh) 一种辅助决策系统及方法
CN116955445A (zh) 基于信息抽取的投诉事件数据挖掘分析方法及系统
CN114841815A (zh) 交易分析方法及装置、电子设备和计算机可读存储介质
CN113869717A (zh) 一种告警日志的分析研判方法、装置、设备及存储介质
CN113450208A (zh) 贷款风险变动预警、模型训练方法和装置
CN113626570A (zh) 一种会话的路由方法和装置
CN113783828A (zh) 一种业务系统监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant