CN109561052B - 网站异常流量的检测方法及装置 - Google Patents
网站异常流量的检测方法及装置 Download PDFInfo
- Publication number
- CN109561052B CN109561052B CN201710882594.7A CN201710882594A CN109561052B CN 109561052 B CN109561052 B CN 109561052B CN 201710882594 A CN201710882594 A CN 201710882594A CN 109561052 B CN109561052 B CN 109561052B
- Authority
- CN
- China
- Prior art keywords
- channel
- dimension
- abnormal
- website
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种网站异常流量的检测方法及装置。方法包括:统计各个渠道的网站流量在不同维度上的属性取值;依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据;将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。本发明从渠道下不同维度的流量角度出发,对各个渠道在相同维度上的流量占比数据进行分析来确定异常渠道,从而确定出网站异常流量,为用户提供真实的网站流量运营状况。
Description
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种网站异常流量的检测方法及装置。
背景技术
网站异常流量是指网站在运营期间非正常访客带来的流量。网站异常流量的主要来源包括搜索引擎的爬虫、第三方爬虫等数据爬取方,以及网站SEM(Search EngineMarketing,搜索引擎营销)、SEO(Search Engine Optimization,搜索引擎优化)、广告代理等营销方以提升网站流量进行的作弊行为等。
因为网站异常流量类型的多样性,以及网站异常流量类型会随着反异常规则进行不断升级,因此很难通过制定某种特定规则来确定出网站异常流量。
因此,如何确定网站异常流量,为用户提供真实的网站流量运营状况成为当前亟需解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网站异常流量的检测方法及装置,方案如下:
一种网站异常流量的检测方法,所述方法包括:
统计各个渠道的网站流量在不同维度上的属性取值;
依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据;
将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。
可选的,所述利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道包括:
所述维度模型采用isolationforest算法计算各个渠道被切分完成所需的切分次数,并依据所述各个渠道的切分次数和所述各个渠道的平均切分次数,确定切分次数小于预设阈值的渠道为异常渠道;其中预设阈值根据各个渠道的平均切分次数得到。
可选的,所述不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
可选的,所述方法还包括:
将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
一种网站异常流量的检测装置,所述装置包括:
统计模块,用于统计各个渠道的网站流量在不同维度上的属性取值;
第一计算模块,用于依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据;
第一确定模块,用于将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。
可选的,所述第一确定模块具体用于,利用所述维度模型采用isolationforest算法计算各个渠道被切分完成所需的切分次数,并依据所述各个渠道的切分次数和所述各个渠道的平均切分次数,确定切分次数小于预设阈值的渠道为异常渠道;其中预设阈值根据渠道的平均切分次数得到。
可选的,所述不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
可选的,所述装置还包括:
第二计算模块,用于将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
第二确定模块,用于将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如前文所述的网站异常流量的检测方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如前文所述的网站异常流量的检测方法。
借由上述技术方案,本发明提供的网站异常流量的检测方法、装置、存储介质和处理器中,通过统计各个渠道的网站流量在不同维度上的属性取值,依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据,将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。本发明从渠道下不同维度的流量角度出发,对各个渠道在相同维度上的流量占比数据进行分析来确定异常渠道,从而确定出网站异常流量,为用户提供真实的网站流量运营状况。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例涉及的一种网站异常流量的检测方法的流程图;
图2示出了本发明实施例中百度SEM渠道和百度网盟渠道分别在24小时分布维度上的流量分布示意图;
图3示出了本发明实施例中渠道1和渠道2分别在24小时分布维度上的流量分布示意图;
图4示出了本发明实施例提供的一种网站异常流量的检测装置的结构示意图;
图5示出了本发明实施例提供的另一种网站异常流量的检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
网站流量的来源附带很多属性,如访问时间、设备类型、浏览器类型、IP地址等,来自不同渠道的流量附带的属性分布是不一样的。本发明创新提出,通过对各个渠道流量的属性分布规律进行分析,确定出属性分布规律差异较大的渠道为异常渠道。
渠道流量的属性体现在不同维度上,不同维度例如包括:时间分布维度、设备分布维度、地区分布维度、IP(Internet Protocol,互联网协议)分布维度等,本发明中各个渠道的网站流量的属性分布规律为从不同维度出发考虑各个渠道的流量分布规律。如图1所示,本发明实施例提供的一种网站异常流量的检测方法,方法可以包括:
步骤101,统计各个渠道的网站流量在不同维度上的属性取值。
以渠道个数为10个,不同维度包括时间分布维度和设备分布维度举例来说,本发明实施例则分别统计该10个渠道的网站流量分别在时间分布维度和设备分布维度上的属性取值。其中时间分布维度可以具体为24小时分布维度,那么该10个渠道在时间分布维度上的属性取值可以为该10个渠道在每个预设时间段内的总访问量。为了便于说明,结合图2所示,其示出了百度SEM渠道和百度网盟渠道分别在24小时分布维度上的流量分布示意图。
设备分布维度可以具体为设备类型分布维度,那么该10个渠道的网站流量在设备分布维度上的属性取值可以为该10个渠道对应每种类型设备的总数量。例如渠道1(渠道1为该10个渠道中的任意一个渠道)对应有A类型设备10台、B类型设备15台、C类型设备12台、D类型设备8台,那么渠道1在设备分布维度上的属性取值为10台A类型设备、15台B类型设备、12台C类型设备和8台D类型设备。
步骤102,依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据。
本发明实施例在得到各个渠道的网站流量在不同维度上的属性取值后,分别计算各个渠道在不同维度上的流量占比数据。仍以前述24小时分布维度为例继续说明,计算渠道在24小时分布维度的流量占比数据为,计算渠道中每个预设时间段内的总访问量与该渠道24小时内的总访问量的比值,该比值即为渠道在24小时分布维度上的流量占比数据。如果预设时间段的个数为24个,那么就会计算得到渠道在24小时分布维度上的一组流量占比数据,该一组流量占比数据具体包括24个流量占比数据。针对每一个渠道,在24小时分布维度上都会计算得到一组流量占比数据。
步骤103,将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。
本发明实施例中的维度模型针对不同维度预先训练得到。其中针对时间分布维度,本发明实施例预先训练得到一时间维度模型,针对设备分布维度,本发明实施例预先训练得到一设备维度模型,针对地区分布维度,本发明实施例预先训练得到一地区维度模型,针对IP分布维度,本发明实施例预先训练得到一IP维度模型。
本发明实施例中的维度模型采用isolationforest算法对输入的参数进行计算。具体地,维度模型采用isolationforest算法计算各个渠道被切分完成所需的切分次数,进而依据各个渠道的切分次数和各个渠道的平均切分次数,确定切分次数小于预设阈值的渠道为异常渠道;其中预设阈值根据各个渠道的平均切分次数得到。
举例来说,假设当前一共统计有5个渠道的流量占比数据,将其作为预先训练的维度模型的输入。维度模型采用isolationforest算法计算各个渠道的切分次数,假设分别为:渠道1的切分次数35,渠道2的切分次数120,渠道3的切分次数105,渠道4的切分次数99,渠道5的切分次数107。同时还可以计算地到,该5个渠道的平均切分次数为93.2,由此可进一步预设一个阈值,该预设阈值根据渠道的平均切分次数得到,如预设阈值等于平均切分次数-20,即预设阈值=93.2-30=63.2,该预设阈值能够准确地将切分次数明显不同于其他渠道的切分次数的渠道确定出来。
通过数据的比对可知,大多数渠道的切分次数维持在平均切分次数之上,而渠道1的切分次数不仅明显小于其他渠道的切分次数,且还远小于预设阈值,因此,维度模型确定渠道1为异常渠道,确定渠道2-5为正常渠道,输出渠道1为异常渠道、渠道2-5为正常渠道的输出结果。本发明得到该输出结果后,便可确定渠道1为异常渠道、渠道2-5为正常渠道。
需要说明的是,对于isolationforest算法的实现原理为本领域公知技术,发明人只是对其做了简单陈述,对于其具体的实现原理和方法,发明人在此不再详细阐述。
具体在本发明实施例中,以渠道为单位,将在时间分布维度上计算得到的所有渠道的流量占比数据输入至预先训练的时间维度模型中,利用时间维度模型计算各渠道的流量占比数据是否异常,如果异常,则确定该异常的流量占比数据对应的渠道为异常渠道;以渠道为单位,将在设备分布维度上计算得到的所有渠道的流量占比数据输入至预先训练的设备维度模型中,利用设备维度模型计算各渠道的流量占比数据是否异常,如果异常,则确定该异常的流量占比数据对应的渠道为异常渠道;以渠道为单位,将在地区分布维度上计算得到的所有渠道的流量占比数据输入至预先训练的地区维度模型中,利用地区维度模型计算各渠道的流量占比数据是否异常,如果异常,则确定该异常的流量占比数据对应的渠道为异常渠道;以渠道为单位,将在IP分布维度上计算得到的所有渠道的流量占比数据输入至预先训练的IP维度模型中,利用IP维度模型计算各渠道的流量占比数据是否异常,如果异常,则确定该异常的流量占比数据对应的渠道为异常渠道。
本发明实施例通过统计各个渠道的网站流量在不同维度上的属性取值,依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据,将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。本发明从渠道下的不同维度的流量角度出发,对各个渠道在相同维度上的流量占比数据进行分析来确定异常渠道,从而确定出网站异常流量,为用户提供了真实的网站流量运营状况。
在上述实施例的基础上,本发明在确定出各个渠道在不同维度上为异常渠道或正常渠道后,方法还可以进一步包括:
步骤104,将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据。
步骤105,将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
以图3所示24小时分布维度为例,渠道1在24小时分布维度上的流量占比数据波动较小,渠道2在24小时分布维度上在5、6、7三个时间段内的流量占比数据明显增多,采用前述步骤101至步骤103的实现方法可以确定出渠道1是正常渠道,渠道2是异常渠道。
然而不难看出,渠道2虽然是异常渠道,但其只是在5、6、7三个时间段内产生异常流量,而其他时间段内的流量情况正常,因此本发明实施例进一步提出,将相同维度上确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据,进而将异常渠道的流量占比数据与与平均流量占比数据对比做差,将差值确定为异常渠道的异常流量占比数据,从而能够更精确地确定出异常渠道中的异常流量,这对于后续异常流量的分析提供了有力的技术支持。
与上述方法实施例相对应,本发明还提供了一种网站异常流量的检测装置。
如图4所示,本发明实施例提供的一种网站异常流量检测装置,可以包括:统计模块10、第一计算模块20和第一确定模块30。
统计模块10,用于统计各个渠道的网站流量在不同维度上的属性取值;
第一计算模块20,用于依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据;
第一确定模块30,用于将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。
其中,第一确定模块30具体用于,利用所述维度模型采用isolationforest算法计算各个渠道被切分完成所需的切分次数,并依据所述各个渠道的切分次数和所述各个渠道的平均切分次数,确定切分次数小于预设阈值的渠道为异常渠道;其中预设阈值根据各个渠道的平均切分次数得到。
本发明实施例中不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
本发明实施例提供的网站异常流量的检测装置,通过统计模块10统计各个渠道的网站流量在不同维度上的属性取值,第一计算模块20依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据,第一确定模块30将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型确定所述各个渠道是否为异常渠道。本发明从渠道下的不同维度的流量角度出发,对各个渠道在相同维度上的流量占比数据进行分析来确定异常渠道,从而确定出网站异常流量,为用户提供真实的网站流量运营状况。
如图5所示,本发明实施例提供的另一种网站异常流量的检测装置,在图4所示实施例基础上还可以包括:
第二计算模块40,用于将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
第二确定模块50,用于将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
所述网站异常流量的检测装置包括处理器和存储器,上述统计模块、第一计算模块和第一确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数对各个渠道在相同维度上的流量占比数据进行分析来确定异常渠道。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网站异常流量的检测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述网站异常流量的检测方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
统计各个渠道的网站流量在不同维度上的属性取值;
依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据;
将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。
其中,所述利用所述维度模型确定所述各个渠道是否为异常渠道包括:
所述维度模型采用isolationforest算法计算各个渠道被切分完成所需的切分次数,并依据所述各个渠道的切分次数和所述各个渠道的平均切分次数,确定切分次数小于预设阈值的渠道为异常渠道;其中预设阈值根据各个渠道的平均切分次数得到。
其中,所述不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
其中,所述方法还包括:
将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
统计各个渠道的网站流量在不同维度上的属性取值;
依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据;
将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道。
其中,所述利用所述维度模型确定所述各个渠道是否为异常渠道包括:
所述维度模型采用isolationforest算法计算各个渠道被切分完成所需的切分次数,并依据所述各个渠道的切分次数和所述各个渠道的平均切分次数,确定切分次数小于预设阈值的渠道为异常渠道;其中预设阈值根据各个渠道的平均切分次数得到。
其中,所述不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
其中,所述方法还包括:
将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种网站异常流量的检测方法,其特征在于,所述方法包括:
统计各个渠道的网站流量在不同维度上的属性取值;
依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据,当所述维度为时间分布维度时,所述流量占比为渠道中每个预设时间段内的总访问量与所述渠道24小时内的总访问量的比值;
将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道,以确定出网站异常流量,为用户提供真实的网站流量运营状况,其中,所述维度模型为针对不同的维度分别训练得到的不同的维度模型;
所述利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道包括:利用所述维度模型依据各个渠道被切分完成所需的切分次数以及预设阈值进行比较得到的输出结果,确定切分次数小于预设阈值的渠道为异常渠道,其中,所述各个渠道被切分完成所需的切分次数由所述维度模型采用isolationforest算法计算得到,所述预设阈值根据各个渠道的平均切分次数得到,所述输出结果表征各个渠道是否为异常渠道。
2.根据权利要求1所述的方法,其特征在于,所述不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
4.一种网站异常流量的检测装置,其特征在于,所述装置包括:
统计模块,用于统计各个渠道的网站流量在不同维度上的属性取值;
第一计算模块,用于依据所述属性取值,分别计算各个渠道在不同维度上的流量占比数据,当所述维度为时间分布维度时,所述流量占比为渠道中每个预设时间段内的总访问量与所述渠道24小时内的总访问量的比值;
第一确定模块,用于将相同维度上各个渠道的流量占比数据作为预先训练的维度模型的输入,利用所述维度模型的输出结果,确定所述各个渠道是否为异常渠道,以确定出网站异常流量,为用户提供真实的网站流量运营状况,其中,所述维度模型为针对不同的维度分别训练得到的不同的维度模型;
所述第一确定模块具体用于,利用所述维度模型依据各个渠道被切分完成所需的切分次数以及预设阈值进行比较得到的输出结果,确定切分次数小于预设阈值的渠道为异常渠道,其中,所述各个渠道被切分完成所需的切分次数由所述维度模型采用isolationforest算法计算得到,所述预设阈值根据各个渠道的平均切分次数得到,所述输出结果表征各个渠道是否为异常渠道。
5.根据权利要求4所述的装置,其特征在于,所述不同维度包括:时间分布维度、设备分布维度、地区分布维度、IP分布维度中的至少一种。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
第二计算模块,用于将相同维度上,确定的正常渠道的流量占比数据进行汇总,计算得到平均流量占比数据;
第二确定模块,用于将确定的异常渠道的流量占比数据与所述平均流量占比数据做差,将差值确定为所述异常渠道的异常流量占比数据。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-3中任一项所述的网站异常流量的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710882594.7A CN109561052B (zh) | 2017-09-26 | 2017-09-26 | 网站异常流量的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710882594.7A CN109561052B (zh) | 2017-09-26 | 2017-09-26 | 网站异常流量的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109561052A CN109561052A (zh) | 2019-04-02 |
CN109561052B true CN109561052B (zh) | 2022-01-28 |
Family
ID=65862478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710882594.7A Active CN109561052B (zh) | 2017-09-26 | 2017-09-26 | 网站异常流量的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109561052B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348715B (zh) * | 2019-06-28 | 2024-01-23 | 北京淇瑀信息科技有限公司 | 基于流量指标监测的渠道异常检测方法、装置和电子设备 |
CN110601874B (zh) * | 2019-08-14 | 2022-06-17 | 深圳壹账通智能科技有限公司 | 区块链部署方法、装置、计算机设备和存储介质 |
CN112637104B (zh) * | 2019-09-24 | 2022-07-05 | 中国电信股份有限公司 | 异常流量检测方法和系统 |
CN111090685B (zh) * | 2019-12-19 | 2023-08-22 | 第四范式(北京)技术有限公司 | 一种数据异常特征的检测方法及装置 |
CN111565171B (zh) * | 2020-03-31 | 2022-09-20 | 北京三快在线科技有限公司 | 异常数据的检测方法、装置、电子设备及存储介质 |
CN111797141B (zh) * | 2020-07-06 | 2023-09-22 | 深圳市活力天汇科技股份有限公司 | 一种机票搜索流量异常的检测方法 |
CN112465549A (zh) * | 2020-11-30 | 2021-03-09 | 上海酷量信息技术有限公司 | 一种识别渠道作弊的系统和方法 |
CN113343064B (zh) * | 2021-06-18 | 2023-07-28 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备、存储介质以及计算机程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105554016A (zh) * | 2015-12-31 | 2016-05-04 | 山石网科通信技术有限公司 | 网络攻击的处理方法和装置 |
US9412024B2 (en) * | 2013-09-13 | 2016-08-09 | Interra Systems, Inc. | Visual descriptors based video quality assessment using outlier model |
CN106846806A (zh) * | 2017-03-07 | 2017-06-13 | 北京工业大学 | 基于Isolation Forest的城市道路交通异常检测方法 |
CN107168854A (zh) * | 2017-06-01 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 互联网广告异常点击检测方法、装置、设备及可读存储介质 |
CN107196953A (zh) * | 2017-06-14 | 2017-09-22 | 上海丁牛信息科技有限公司 | 一种基于用户行为分析的异常行为检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2951722B1 (en) * | 2013-01-31 | 2018-05-16 | Universite De Montpellier | Process for identifying rare events |
-
2017
- 2017-09-26 CN CN201710882594.7A patent/CN109561052B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9412024B2 (en) * | 2013-09-13 | 2016-08-09 | Interra Systems, Inc. | Visual descriptors based video quality assessment using outlier model |
CN105554016A (zh) * | 2015-12-31 | 2016-05-04 | 山石网科通信技术有限公司 | 网络攻击的处理方法和装置 |
CN106846806A (zh) * | 2017-03-07 | 2017-06-13 | 北京工业大学 | 基于Isolation Forest的城市道路交通异常检测方法 |
CN107168854A (zh) * | 2017-06-01 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 互联网广告异常点击检测方法、装置、设备及可读存储介质 |
CN107196953A (zh) * | 2017-06-14 | 2017-09-22 | 上海丁牛信息科技有限公司 | 一种基于用户行为分析的异常行为检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109561052A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109561052B (zh) | 网站异常流量的检测方法及装置 | |
CN105550184B (zh) | 一种信息获取方法及装置 | |
CN111309614B (zh) | A/b测试方法、装置及电子设备 | |
US9462313B1 (en) | Prediction of media selection consumption using analysis of user behavior | |
KR101524971B1 (ko) | 개인 성향 예측 방법 및 그 장치 | |
CN107578263A (zh) | 一种广告异常访问的检测方法、装置和电子设备 | |
US11132584B2 (en) | Model reselection for accommodating unsatisfactory training data | |
CN108255886B (zh) | 推荐系统的评估方法及装置 | |
US11954692B2 (en) | Mitigating user dissatisfaction related to a product | |
CN105590240A (zh) | 一种品牌广告效果优化的离散计算方法 | |
CN105608604A (zh) | 一种品牌广告效果优化的连续计算方法 | |
US20210201208A1 (en) | System and methods for machine learning training data selection | |
EP3971811A1 (en) | Privacy supporting messaging systems and methods | |
CN110599004A (zh) | 一种风险控制方法、设备、介质以及装置 | |
US11704560B2 (en) | Pattern-based classification | |
CN111882349B (zh) | 一种数据处理方法、装置及存储介质 | |
US20170155613A1 (en) | Detection of Manipulation of Social Media Content | |
CN106658183B (zh) | 弹出视频登陆对话框的方法及装置 | |
CN109039695B (zh) | 业务故障处理方法、装置及设备 | |
CN108984572B (zh) | 网站信息推送方法及装置 | |
CN106776623B (zh) | 一种用户行为分析方法和设备 | |
CN108243037B (zh) | 网站流量异常确定方法及装置 | |
CN112801156B (zh) | 用于人工智能机器学习的业务大数据采集方法及服务器 | |
CN111723202B (zh) | 一种舆情数据的处理装置、方法和系统 | |
CN108519909A (zh) | 一种流数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |