CN106998317A - 异常访问请求识别方法及装置 - Google Patents

异常访问请求识别方法及装置 Download PDF

Info

Publication number
CN106998317A
CN106998317A CN201610045718.1A CN201610045718A CN106998317A CN 106998317 A CN106998317 A CN 106998317A CN 201610045718 A CN201610045718 A CN 201610045718A CN 106998317 A CN106998317 A CN 106998317A
Authority
CN
China
Prior art keywords
address
threshold value
access request
access
frequency threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610045718.1A
Other languages
English (en)
Other versions
CN106998317B (zh
Inventor
王星
童遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Information Technology Co Ltd filed Critical Autonavi Information Technology Co Ltd
Priority to CN201610045718.1A priority Critical patent/CN106998317B/zh
Publication of CN106998317A publication Critical patent/CN106998317A/zh
Application granted granted Critical
Publication of CN106998317B publication Critical patent/CN106998317B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供了一种异常访问请求识别方法及装置,所述方法包括:接收携带IP地址及访问时间的访问请求;识别所述IP地址所属的IP地址段;所述IP地址段包含至少一个IP地址;将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值;其中,所述频次阈值确定模型采用机器学习的方法训练获得;获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次;判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值;若超过所述访问频次阈值,则识别出携带所述IP地址的访问请求为异常访问请求。本申请实现了准确、有效的识别及防止数据抓取操作。

Description

异常访问请求识别方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种异常访问请求识别方法及装置。
背景技术
异常访问请求识别是各个互联网数据服务保护数据、防止恶意抓取的必要操作。现有的异常访问请求识别方法一般是通过访问频次限制来实现。通过为所有IP地址设置统一的访问频次阈值,在携带同一IP地址的访问请求的访问频次超过该访问频次阈值时,则认为携带该IP地址的访问请求为异常访问请求,将该IP地址封禁,拒绝携带该IP地址的所有访问请求,以达到数据防抓取的目的。
并且,考虑到异常访问请求的访问频次相对较高,因此,现有技术设置的访问频次阈值是一个相对较高的值,但在实际应用中,发明人发现现实情况也存在部分异常访问请求为低频访问,在这种情况下,通过现有的访问频次阈值并不能识别出低频的异常访问请求。若为解决该问题而将访问频次阈值降低,会产生将真实用户的正常数据访问请求误认为是异常访问请求的问题,从而影响真实用户的正常数据访问操作。因此,现有的异常访问请求识别方法无法识别出所有可能的异常访问请求,从而出现无法全面有效地阻止来自异常访问请求的数据抓取操作。
发明内容
本申请解决的技术问题之一是,提供一种异常访问请求识别方法及装置,实现了准确、有效的识别异常访问请求。
根据本申请一方面的一个实施例,提供了一种异常访问请求识别方法,包括:
接收携带IP地址及访问时间的访问请求;
识别所述IP地址所属的IP地址段;所述IP地址段包含至少一个IP地址;
将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值;其中,所述频次阈值确定模型采用机器学习的方法训练获得;
获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次;
判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值;
若超过所述访问频次阈值,则识别出携带所述IP地址的访问请求为异常访问请求。
根据本申请另一方面的一个实施例,提供了一种异常访问请求识别装置,包括:
接收单元,用于接收携带IP地址及访问时间的访问请求;
地址段识别单元,用于识别所述IP地址所属的IP地址段;所述IP地址段包含至少一个IP地址;
确定单元,用于将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值;其中,所述频次阈值确定模型采用机器学习的方法训练获得;
获取单元,用于获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次;
判断单元,用于判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值;
异常访问请求单元,用于在所述判断单元判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次超过所述访问频次阈值情况下,识别出携带所述IP地址的访问请求为异常访问请求。。
本申请实施例通过采用机器学习的方法训练频次阈值确定模型,从而可以为不同IP地址确定不同时间段的访问频次阈值,实现了准确、有效的识别异常访问请求。其中,不但实现了低频的异常访问请求的识别,而且使得基于该访问频次阈值可以更加准确的识别出数据防抓取操作,有效提高了数据防抓取效果。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本申请并不仅限于这些实施例。而是,本申请的范围是广泛的,且意在仅通过后附的权利要求限定本申请的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请一个实施例的在异常访问请求识别过程中采用机器学习方法训练频次阈值确定模型的示意图。
图2是根据本申请一个实施例的单一IP访问频次示意图。
图3是根据本申请一个实施例的同一网段IP访问频次示意图。
图4是根据本申请一个实施例的异常访问请求识别方法的流程图。
图5是根据本申请一个实施例的异常访问请求识别装置的结构示意图。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本申请并不仅限于这些实施例。而是,本申请的范围是广泛的,且意在仅通过后附的权利要求限定本申请的范围。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本申请的技术方案作进一步详细描述。
现有的异常访问请求识别方法由于针对所有IP地址设置统一的访问频次阈值,导致无法识别出低于所述访问频次阈值的低频的异常访问请求,也就是无法实现防止低频数据抓取操作。针对该问题,本申请实施例可以针对每一IP地址确定与该IP地址对应的访问频次阈值,且考虑到同一IP地址在不同时间段的访问频次不同,本申请实施例可进一步为每一IP地址确定不同时间段对应的访问频次阈值。因此,本申请实施例针对不同用户的不同属性(不同时间段访问频次不同)确定个性化的访问频次阈值,避免了所有IP地址对应统一访问频次阈值存在的无法实现低频数据防抓取操作的问题。
本申请实施例提供的为每一IP地址确定不同时间段对应的访问频次阈值的方法可以为:
采用机器学习的方法训练获得频次阈值确定模型,该频次阈值确定模型在输入IP地址及访问时间的情况下,输出与该IP地址及访问时间对应的访问频次阈值。也就是该频次阈值确定模型可以为每一IP地址确定在预设不同时间段的访问频次阈值。所述时间段为预先划分的时间段,例如可将一天的时间划分为连续的多个时间段,每个时间段可以为:1分钟、2分钟或5分钟等等。
本申请实施例所述的频次阈值确定模型可以在异常访问请求识别过程中不断进行机器学习。在异常访问请求识别过程中采用机器学习方法训练所述频次阈值确定模型的示意图如图1中所示,在接收到携带IP地址及访问时间的访问请求后,通过频次阈值确定模型确定与该IP地址及访问时间对应的访问频次阈值,依据该访问频次阈值检查该访问请求在预设时长内的访问频次是否超过该访问频次阈值,得到访问频次检查结果。收集该访问请求的相关信息,包括访问请求的IP地址、访问时间、访问频次检查结果。同时,可对访问频次检查结果为超过访问频次阈值的访问请求进行验证码验证,得到验证码验证结果,收集该验证码验证结果相关信息,包括验证码验证成功次数。将收集的数据作为频次阈值确定模型的训练数据输入频次确定模型进行机器学习。
其中,初始采用机器学习的方法训练该频次阈值确定模型是利用历史数据进行训练,具体实施例如下:
首先,获取携带IP地址及访问时间的历史访问请求作为训练频次阈值确定模型的采样数据。
其中,所述历史访问请求例如可以为15天、一个月或三个月等等范围内的访问请求。获取的所述历史访问请求包括但不限于:IP地址、访问时间、验证码成功验证次数。
验证码成功验证次数是指携带IP地址的访问请求的访问频次超过预设的访问频次阈值时,采用验证码验证该IP地址是人为操作的次数。具体的验证码验证方法将在下面实施例中介绍。
之后,将采样数据的IP地址进行聚合,并为聚合后的IP地址设置所属的IP地址段。其中,将采样数据的IP地址聚合包括如下操作:
第一步,按IP地址的相似性聚合,即,将所述采样数据的所有IP地址中同网段的IP地址聚合。一种实施方式是判断IP地址的前三个点分十进制数字是否相同,例如A.B.C.10和A.B.C.20可以认为在同一个网段的IP地址。
第二步,将访问时间与访问频次对应关系曲线相近度小于规定相近度阈值的一组同网段IP地址进行聚合。
一般同网段多个IP地址轮流访问实现数据抓取,这些IP地址的访问时间的分布明显不同,因此针对单独一个IP地址其访问曲线在时间上是断续的如图2中所示,而同网段的多个IP地址的曲线可以实现连续如图3中所示。本步骤是将多机器协同完成数据抓取的多个同网段的IP地址聚合。
所述访问时间与访问频次对应关系曲线的相近度可采用余弦相似度算法实现。也就是,聚合后的一组IP地址包含访问时间与访问频次对应关系曲线相近度低于规定相近度阈值的一组IP地址。以24小时对应的访问频次曲线为例,假设多个携带不同IP地址(均在同一个网段),且在24小时内的访问频次曲线两两之间的相近度阈值均低于规定相近度阈值,则将该多个IP地址聚合为一组IP地址。并为该聚合后的一组IP地址设置所属的IP地址段,例如,聚合后的一组IP地址为一个子网内的一组IP地址,包括A.B.C.1,A.B.C.2,A.B.C.3三个IP地址,则为该聚合后的一组IP地址设置所属的IP地址段为A.B.C.X。A.B.C.1,A.B.C.2,A.B.C.3三个IP地址对应的采样数据即为聚合后的IP地址段A.B.C.X对应的采样数据。
可以理解的是,聚合后的一个IP地址段包含至少一个IP地址。
然后,以聚合后的IP地址段对应的采样数据训练所述频次阈值确定模型。
由于需要为每一IP地址确定不同时间段对应的访问频次阈值,因此,需要将聚合后的IP地址段对应的采样数据按时间段进行划分,如前文中所述,所述时间段为预先划分的时间段,例如可将一天的时间划分为连续的多个时间段,每个时间段可以为:1分钟、2分钟或5分钟等等。则可将聚合后的IP地址段对应的采样数据划分为不同的时间段的采样数据。针对不同时间段的采样数据进行频次阈值确定模型的训练。
具体的,针对某一时间段内的采样数据,提取该时间段的采样数据的IP地址段及访问时间作为待训练模型的输入,将访问频次阈值作为该模型的输出。另外,还可将验证码成功验证次数作为输入,从而根据该验证码成功验证次数调整各IP地址段在各时间段的访问频次阈值。最终得到的频次阈值确定模型可在输入聚合后的IP地址段及访问时间情况下,输出对应的访问频次阈值。这样,在不同的时间段针对不同的IP地址段可确定不同的访问频次阈值,实现了为用户确定个性化的访问频次阈值,从而可以在不损害正常用户体验的情况下有效提高数据防抓取效果。
图4是根据本申请一个实施例的异常访问请求识别方法的流程图,该方法是基于频次阈值确定模型来确定IP地址在当前访问时间对应的访问频次阈值,从而基于该确定的访问频次阈值进行异常访问请求的识别。所述频次阈值确定模型为上面所述的采用机器学习的方法训练获得,该方法主要包括如下步骤S410~S470:
S410、接收携带IP地址及访问时间的访问请求。
S420、识别所述IP地址所属的IP地址段。
如前文中所述,在训练频次阈值确定模型时,将IP地址进行聚类,并为聚类后的IP设置有所属的IP地址段,每一IP地址段包含至少一个IP地址,则根据该设置可识别所述IP地址所属的IP地址段。例如,所述IP地址为A.B.C.1,所属的IP地址段为A.B.C.X。
S430、将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值。也就是得到所述IP地址段在所述访问时间的访问频次阈值。假设所述IP地址段为A.B.C.X,访问时间为2:03:04,在输入频次阈值确定模型后,输出的访问频次阈值为250次。
S440、获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次。
所述预设时长可与训练所述频次阈值确定模型时划分的时间段的时长相同。假如,训练频次阈值确定模型时所划分的时间段为1分钟,则获取访问请求的访问频次需记录1分钟内携带所述IP地址段包含的IP地址的访问请求的访问频次;若训练频次阈值确定模型时所划分的时间段为2分钟,则获取访问请求的访问频次需记录2分钟内携带所述IP地址段包含的IP地址的访问请求的访问频次。
所述访问时间对应的预设时长可采用如下任一方式确定:
第一种方式,将一天24小时划分为所述预设时长的时间段,例如,从00:00:00开始每2分钟为一个时间段,则可判断所述访问时间对应的时间段,假设所述访问时间为2:03:04,则可确定所属的时间段为2:02:00~2:04:00。此种情况,只有在所述访问时间为每一时间段的结束时间点时才执行该获取访问频次的操作。也就是此种情况下,在获取访问频次前,还包括判断所述访问时间是否为任一时间段的结束时间点的步骤,且在所述访问时间是任一时间段的结束时间点的情况下,再执行获取访问频次的操作。
第二种方式,从所述访问时间往前预设时长所确定的时间段,例如,所述访问时间为2:03:04,预设时长为2分钟,则获取从2:03:04开始往前2分钟内的携带所述IP地址段包含的IP地址的访问请求的访问频次,也就是2:01:04~2:03:04这段时间内携带所述IP地址段包含的IP地址的访问请求的访问频次。
另外,由于同一IP地址段的多个IP地址轮流访问协作实现数据抓取,因此本申请实施例获取所述IP地址所属的IP地址段包含的所有IP地址的访问请求的访问频次。例如,所述IP地址所属的IP地址段为A.B.C.X,该IP地址段包括如下IP地址:A.B.C.1,A.B.C.2,A.B.C.3。假设在2:03:04接收到携带A.B.C.1的访问请求的访问频次为60次,预设时长为2分钟,则获取2:01:04~2:03:04这段时间内A.B.C.1、A.B.C.2及A.B.C.3的访问频次之和,如果在该时间段内接收到携带A.B.C.2的访问请求的访问频次为80次,携带A.B.C.3的访问请求的访问频次为120次,则获取2:01:04~2:03:04这段时间内IP地址段A.B.C.X包含的所有IP地址的访问请求的访问频次为260=60+80+120次。
S450、判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值。
即,判断步骤S440中获取的携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过步骤S430中频次阈值确定模型输出的访问频次阈值,如上面实施例中所述,假如频次阈值确定模型输出的访问频次阈值为250,而步骤S440中获取的访问频次阈值为260,则可判断出所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次超过所确定的访问频次阈值。
若超过所述访问频次阈值,则执行步骤S460;若未超过所述访问频次阈值,则执行步骤S470。
S460、识别出携带所述IP地址的访问请求为异常访问请求。
对于识别出的异常访问请求可采取如下方式实现防止该异常访问请求的数据抓取操作:对携带所述IP地址的访问请求采用验证码进行验证,同理,对携带所述IP地址所属的IP地址段包含的所有IP地址的访问请求采用验证码进行验证直到验证成功。也就是对该IP地址所属的IP地址段包含的所有IP地址的访问请求采用验证码进行验证,直到验证成功。具体的针对一个IP采用验证码进行验证的方法包括:
提供验证码给发送携带所述IP地址的访问请求的每一用户;
接收每一用户输入的验证码;
比较每一用户输入的验证码与提供给所述用户的验证码是否一致;
若用户输入的验证码与提供给所述用户的验证码一致,则验证码验证成功,进入步骤S470,否则重复执行步骤S460。
需要说明的是,由于使用同一IP地址的用户很多,若其中一个用户验证码验证成功,则即可认为该IP地址验证成功,则携带该IP地址的所有访问请求即被认为非异常访问请求。在同一IP地址段的所有IP地址中任一IP地址验证成功,则可认为该IP地址段包含的所有IP地址的访问请求亦非异常访问请求。
S470、允许所述访问请求的访问操作。
在所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次未超过所确定的访问频次阈值情况下,认为该访问请求为非异常访问请求,则允许该访问请求的访问操作。
同时,在验证成功情况下,说明该携带IP地址的访问请求为人的操作,执行数据抓取的可能性较小,则允许该访问请求的访问操作。
本申请实施例通过采用机器学习的方法训练频次阈值确定模型,从而可以为不同IP地址确定不同时间段的访问频次阈值,实现了准确、有效的识别异常访问请求。其中,不但实现了低频的异常访问请求的识别,而且使得基于该访问频次阈值可以更加准确的识别出数据防抓取操作,有效提高了数据防抓取效果。
另外,由于利用频次阈值确定模型可以针对不同IP地址确定与该IP地址匹配的访问频次阈值,有效减少了由于访问频次阈值设置不准确带来的验证码验证操作的次数过多而影响用户正常操作的问题。
本申请实施例还提供一种与上述异常访问请求识别方法对应的异常访问请求识别装置,如图5中所示为所述装置结构示意图,该装置是基于频次阈值确定模型来确定IP在当前访问时间对应的访问频次阈值,从而基于该确定的访问频次阈值进行异常访问请求识别。所述频次阈值确定模型为上面所述的采用机器学习的方法训练获得,所述异常访问请求的识别装置包括:
接收单元510,用于接收携带IP地址及访问时间的访问请求;
地址段识别单元520,用于识别所述IP地址所属的IP地址段;所述IP地址段包含至少一个IP地址;
确定单元530,用于将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值;其中,所述频次阈值确定模型采用机器学习的方法训练获得;
获取单元540,用于获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次;
判断单元550,用于判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值;
异常访问请求单元560,用于在所述判断单元判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次超过所述访问频次阈值情况下,识别出携带所述IP地址的访问请求为异常访问请求。
所述装置还包括如下单元用于采用机器学习的方法训练获得所述频次阈值确定模型包括:
采用数据获取单元570,用于获取预设时长范围内历史接收的携带IP地址的访问请求信息作为训练频次阈值确定模型的采样数据;
聚合单元580,用于将采样数据按IP地址聚合,得到聚合后的IP地址段对应的采样数据;
训练单元590,用于以聚合后的IP地址段对应的采样数据按照预设时间段进行划分来训练所述频次阈值确定模型。
所述聚合单元580被配置为:
将所述采样数据的所有IP地址中同网段的IP地址聚合;
将访问时间与访问频次对应关系曲线相近度小于规定相近度阈值的一组同网段IP地址进行聚合。
所述获取单元540被配置为:
获取从所述访问时间往前预设时长内携带所述IP地址段包含的所有IP地址的访问请求的访问频次。
所述装置还包括:
验证单元5010,用于在识别出携带所述IP地址的访问请求为异常访问请求情况下,对携带所述IP地址所属的IP地址段包含的所有IP地址的访问请求采用验证码进行验证直到验证成功。
综上所述,本申请实施例通过采用机器学习的方法训练频次阈值确定模型,从而可以为不同IP地址确定不同时间段的访问频次阈值,实现了准确、有效的识别异常访问请求。其中,不但实现了低频的异常访问请求的识别,而且使得基于该访问频次阈值可以更加准确的识别出数据防抓取操作,有效提高了数据防抓取效果。
另外,由于利用频次阈值确定模型可以针对不同IP地址确定与该IP地址匹配的访问频次阈值,有效减少了由于访问频次阈值设置不准确带来的验证码验证操作的次数过多而影响用户正常操作的问题。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种异常访问请求识别方法,其特征在于,包括:
接收携带IP地址及访问时间的访问请求;
识别所述IP地址所属的IP地址段;所述IP地址段包含至少一个IP地址;
将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值;其中,所述频次阈值确定模型采用机器学习的方法训练获得;
获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次;
判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值;
若超过所述访问频次阈值,则识别出携带所述IP地址的访问请求为异常访问请求。
2.如权利要求1所述的方法,其特征在于,采用机器学习的方法训练获得所述频次阈值确定模型包括:
获取携带IP地址及访问时间的历史访问请求作为训练频次阈值确定模型的采样数据;
将所述采样数据的IP地址进行聚合,并为聚合后的IP地址设置所属的IP地址段;
以聚合后的IP地址段对应的采样数据训练所述频次阈值确定模型。
3.如权利要求2所述的方法,其特征在于,所述将所述采样数据的IP地址进行聚合的步骤包括:
将所述采样数据的所有IP地址中同网段的IP地址聚合;
将访问时间与访问频次对应关系曲线相近度小于规定相近度阈值的一组同网段IP地址进行聚合。
4.如权利要求1所述的方法,其特征在于,所述获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次的步骤包括:
获取从所述访问时间往前预设时长内携带所述IP地址段包含的所有IP地址的访问请求的访问频次。
5.如权利要求1所述的方法,其特征在于,若识别出携带所述IP地址的访问请求为异常访问请求,所述方法还包括:
对携带所述IP地址所属的IP地址段包含的所有IP地址的访问请求采用验证码进行验证直到验证成功。
6.一种异常访问请求识别装置,其特征在于,包括:
接收单元,用于接收携带IP地址及访问时间的访问请求;
地址段识别单元,用于识别所述IP地址所属的IP地址段;所述IP地址段包含至少一个IP地址;
确定单元,用于将所述IP地址段及访问时间输入频次阈值确定模型,得到所述模型输出的访问频次阈值;其中,所述频次阈值确定模型采用机器学习的方法训练获得;
获取单元,用于获取所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次;
判断单元,用于判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次是否超过所确定的访问频次阈值;
异常访问请求单元,用于在所述判断单元判断所述访问时间对应的预设时长内携带所述IP地址段包含的IP地址的访问请求的访问频次超过所述访问频次阈值情况下,识别出携带所述IP地址的访问请求为异常访问请求。
7.如权利要求6所述的装置,其特征在于,所述装置还包括如下单元用于采用机器学习的方法训练获得所述频次阈值确定模型包括:
采用数据获取单元,用于获取预设时长范围内历史接收的携带IP地址的访问请求信息作为训练频次阈值确定模型的采样数据;
聚合单元,用于将采样数据按IP地址聚合,得到聚合后的IP地址段对应的采样数据;
训练单元,用于以聚合后的IP地址段对应的采样数据按照预设时间段进行划分来训练所述频次阈值确定模型。
8.如权利要求7所述的装置,其特征在于,所述聚合单元被配置为:
将所述采样数据的所有IP地址中同网段的IP地址聚合;
将访问时间与访问频次对应关系曲线相近度小于规定相近度阈值的一组同网段IP地址进行聚合。
9.如权利要求6所述的装置,其特征在于,所述获取单元被配置为:
获取从所述访问时间往前预设时长内携带所述IP地址段包含的所有IP地址的访问请求的访问频次。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:
验证单元,用于在识别出携带所述IP地址的访问请求为异常访问请求情况下,对携带所述IP地址所属的IP地址段包含的所有IP地址的访问请求采用验证码进行验证直到验证成功。
CN201610045718.1A 2016-01-22 2016-01-22 异常访问请求识别方法及装置 Expired - Fee Related CN106998317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610045718.1A CN106998317B (zh) 2016-01-22 2016-01-22 异常访问请求识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610045718.1A CN106998317B (zh) 2016-01-22 2016-01-22 异常访问请求识别方法及装置

Publications (2)

Publication Number Publication Date
CN106998317A true CN106998317A (zh) 2017-08-01
CN106998317B CN106998317B (zh) 2019-08-20

Family

ID=59428337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610045718.1A Expired - Fee Related CN106998317B (zh) 2016-01-22 2016-01-22 异常访问请求识别方法及装置

Country Status (1)

Country Link
CN (1) CN106998317B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107634944A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种信息异常的判断方法、判断系统及计算机装置
CN107659566A (zh) * 2017-09-20 2018-02-02 深圳市创梦天地科技股份有限公司 对服务器异常访问的识别频率确定方法、装置及服务器
CN107911395A (zh) * 2017-12-30 2018-04-13 世纪龙信息网络有限责任公司 登录验证方法和系统、计算机存储介质和设备
CN108121912A (zh) * 2017-12-13 2018-06-05 中国科学院软件研究所 一种基于神经网络的恶意云租户识别方法和装置
CN108156166A (zh) * 2017-12-29 2018-06-12 百度在线网络技术(北京)有限公司 异常访问识别和接入控制方法及装置
CN109274639A (zh) * 2018-07-03 2019-01-25 阿里巴巴集团控股有限公司 开放平台异常数据访问的识别方法和装置
CN109561045A (zh) * 2017-09-25 2019-04-02 北京京东尚科信息技术有限公司 数据拦截方法及装置、存储介质和电子设备
CN109743295A (zh) * 2018-12-13 2019-05-10 平安科技(深圳)有限公司 访问阈值调整方法、装置、计算机设备及存储介质
CN109992960A (zh) * 2018-12-06 2019-07-09 北京奇艺世纪科技有限公司 一种伪造参数检测方法、装置、电子设备及存储介质
CN110198305A (zh) * 2019-05-05 2019-09-03 平安科技(深圳)有限公司 坐席ip的异常检测方法、系统、计算机设备及存储介质
CN110427971A (zh) * 2019-07-05 2019-11-08 五八有限公司 用户及ip的识别方法、装置、服务器和存储介质
CN111092845A (zh) * 2018-10-24 2020-05-01 珠海格力电器股份有限公司 一种访问涉密文件的预警评估方法及系统
CN111181901A (zh) * 2018-11-09 2020-05-19 财团法人资讯工业策进会 异常流量检测装置及其异常流量检测方法
WO2020124867A1 (zh) * 2018-12-16 2020-06-25 华为技术有限公司 一种数据处理的方法、控制器、存储设备及存储系统
CN111447228A (zh) * 2020-03-27 2020-07-24 四川虹美智能科技有限公司 智能家电访问请求处理方法及系统、云服务器及智能空调
CN112333168A (zh) * 2020-10-27 2021-02-05 杭州安恒信息技术股份有限公司 一种攻击识别方法、装置、设备及计算机可读存储介质
CN112541181A (zh) * 2020-12-22 2021-03-23 建信金融科技有限责任公司 一种检测服务器安全性的方法和装置
CN114338205A (zh) * 2021-12-31 2022-04-12 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN114338168A (zh) * 2021-12-29 2022-04-12 赛尔网络有限公司 Ip地址动态阻断方法、装置、设备及介质
US11418525B2 (en) 2018-09-21 2022-08-16 Alibaba Group Holding Limited Data processing method, device and storage medium
CN115022011A (zh) * 2022-05-30 2022-09-06 北京天融信网络安全技术有限公司 漏扫软件访问请求识别方法、装置、设备和介质
US11954332B2 (en) 2018-12-16 2024-04-09 Huawei Technologies Co., Ltd. Data processing method, controller, storage device, and storage system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694696A (zh) * 2012-05-14 2012-09-26 中国科学院计算机网络信息中心 Dns服务器异常检测的方法及装置
US8601064B1 (en) * 2006-04-28 2013-12-03 Trend Micro Incorporated Techniques for defending an email system against malicious sources
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8601064B1 (en) * 2006-04-28 2013-12-03 Trend Micro Incorporated Techniques for defending an email system against malicious sources
CN102694696A (zh) * 2012-05-14 2012-09-26 中国科学院计算机网络信息中心 Dns服务器异常检测的方法及装置
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107634944A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种信息异常的判断方法、判断系统及计算机装置
CN107634944B (zh) * 2017-09-11 2022-02-25 畅捷通信息技术股份有限公司 一种信息异常的判断方法、判断系统及计算机装置
CN107659566A (zh) * 2017-09-20 2018-02-02 深圳市创梦天地科技股份有限公司 对服务器异常访问的识别频率确定方法、装置及服务器
CN107659566B (zh) * 2017-09-20 2021-01-19 深圳市创梦天地科技股份有限公司 对服务器异常访问的识别频率确定方法、装置及服务器
CN109561045B (zh) * 2017-09-25 2021-12-14 北京京东尚科信息技术有限公司 数据拦截方法及装置、存储介质和电子设备
CN109561045A (zh) * 2017-09-25 2019-04-02 北京京东尚科信息技术有限公司 数据拦截方法及装置、存储介质和电子设备
CN108121912A (zh) * 2017-12-13 2018-06-05 中国科学院软件研究所 一种基于神经网络的恶意云租户识别方法和装置
CN108121912B (zh) * 2017-12-13 2021-11-09 中国科学院软件研究所 一种基于神经网络的恶意云租户识别方法和装置
CN108156166A (zh) * 2017-12-29 2018-06-12 百度在线网络技术(北京)有限公司 异常访问识别和接入控制方法及装置
CN107911395B (zh) * 2017-12-30 2020-06-16 世纪龙信息网络有限责任公司 登录验证方法和系统、计算机存储介质和设备
CN107911395A (zh) * 2017-12-30 2018-04-13 世纪龙信息网络有限责任公司 登录验证方法和系统、计算机存储介质和设备
CN109274639A (zh) * 2018-07-03 2019-01-25 阿里巴巴集团控股有限公司 开放平台异常数据访问的识别方法和装置
US11418525B2 (en) 2018-09-21 2022-08-16 Alibaba Group Holding Limited Data processing method, device and storage medium
CN111092845A (zh) * 2018-10-24 2020-05-01 珠海格力电器股份有限公司 一种访问涉密文件的预警评估方法及系统
CN111092845B (zh) * 2018-10-24 2021-02-26 珠海格力电器股份有限公司 一种访问涉密文件的预警评估方法及系统
CN111181901B (zh) * 2018-11-09 2022-05-10 财团法人资讯工业策进会 异常流量检测装置及其异常流量检测方法
CN111181901A (zh) * 2018-11-09 2020-05-19 财团法人资讯工业策进会 异常流量检测装置及其异常流量检测方法
CN109992960A (zh) * 2018-12-06 2019-07-09 北京奇艺世纪科技有限公司 一种伪造参数检测方法、装置、电子设备及存储介质
CN109992960B (zh) * 2018-12-06 2021-09-10 北京奇艺世纪科技有限公司 一种伪造参数检测方法、装置、电子设备及存储介质
CN109743295B (zh) * 2018-12-13 2022-04-12 平安科技(深圳)有限公司 访问阈值调整方法、装置、计算机设备及存储介质
CN109743295A (zh) * 2018-12-13 2019-05-10 平安科技(深圳)有限公司 访问阈值调整方法、装置、计算机设备及存储介质
US11954332B2 (en) 2018-12-16 2024-04-09 Huawei Technologies Co., Ltd. Data processing method, controller, storage device, and storage system
WO2020124867A1 (zh) * 2018-12-16 2020-06-25 华为技术有限公司 一种数据处理的方法、控制器、存储设备及存储系统
CN110198305A (zh) * 2019-05-05 2019-09-03 平安科技(深圳)有限公司 坐席ip的异常检测方法、系统、计算机设备及存储介质
CN110427971A (zh) * 2019-07-05 2019-11-08 五八有限公司 用户及ip的识别方法、装置、服务器和存储介质
CN111447228A (zh) * 2020-03-27 2020-07-24 四川虹美智能科技有限公司 智能家电访问请求处理方法及系统、云服务器及智能空调
CN112333168A (zh) * 2020-10-27 2021-02-05 杭州安恒信息技术股份有限公司 一种攻击识别方法、装置、设备及计算机可读存储介质
CN112541181A (zh) * 2020-12-22 2021-03-23 建信金融科技有限责任公司 一种检测服务器安全性的方法和装置
CN114338168A (zh) * 2021-12-29 2022-04-12 赛尔网络有限公司 Ip地址动态阻断方法、装置、设备及介质
CN114338205A (zh) * 2021-12-31 2022-04-12 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN114338205B (zh) * 2021-12-31 2024-03-01 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN115022011A (zh) * 2022-05-30 2022-09-06 北京天融信网络安全技术有限公司 漏扫软件访问请求识别方法、装置、设备和介质
CN115022011B (zh) * 2022-05-30 2024-02-02 北京天融信网络安全技术有限公司 漏扫软件访问请求识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN106998317B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN106998317A (zh) 异常访问请求识别方法及装置
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
CN107665353A (zh) 基于卷积神经网络的车型识别方法、装置、设备及计算机可读存储介质
CN107978189A (zh) 一种习题的智能推送方法、系统及终端设备
US20090125290A1 (en) Automatic verification of device models
CN103927356A (zh) 广告拦截方法及装置
CN105100376A (zh) 一种身份认证方法及装置
CN106407920A (zh) 指纹图像的条纹噪声消除方法
CN108287786A (zh) 一种基于地图的自动化测试方法和装置、及混合导航系统
CN107577944A (zh) 基于代码语法分析器的网站恶意代码检测方法及装置
CN107003828A (zh) 图形指令的仪器化
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN106408106A (zh) 用于实现高危维权预警的方法及装置
CN110781084B (zh) 卡顿识别参数确定方法和装置、存储介质及电子装置
CN105630680B (zh) 一种随机测试程序生成方法
CN106303153B (zh) 一种图像处理方法及装置
CN112883385A (zh) 侧信道泄露位置定位方法及装置、存储介质、终端
CN110795993A (zh) 一种构建模型的方法、装置、终端设备及介质
CN103984685A (zh) 一种用于对待分类词条进行分类的方法、装置与设备
CN115361206A (zh) 加密程序的分析方法、装置及电子设备
CN105912433B (zh) 一种自适应的密码设备检测方法和系统
CN103678117B (zh) 数据转换跟踪设备以及数据转换跟踪方法
CN111314161B (zh) 一种流量识别方法和装置
CN107783904A (zh) 单元测试桩去重方法、装置、计算机可读存储介质及设备
CN110414845B (zh) 针对目标交易的风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200514

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: Daheng Technology Building No. three Beijing 100080 Haidian District Suzhou Street 16 layer 2.

Patentee before: AUTONAVI INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190820

Termination date: 20200122

CF01 Termination of patent right due to non-payment of annual fee