CN103117903B - 上网流量异常检测方法及装置 - Google Patents

上网流量异常检测方法及装置 Download PDF

Info

Publication number
CN103117903B
CN103117903B CN201310049123.XA CN201310049123A CN103117903B CN 103117903 B CN103117903 B CN 103117903B CN 201310049123 A CN201310049123 A CN 201310049123A CN 103117903 B CN103117903 B CN 103117903B
Authority
CN
China
Prior art keywords
surfing flow
kinds
flow
information
surfing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310049123.XA
Other languages
English (en)
Other versions
CN103117903A (zh
Inventor
肖吉
王志军
王蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201310049123.XA priority Critical patent/CN103117903B/zh
Publication of CN103117903A publication Critical patent/CN103117903A/zh
Application granted granted Critical
Publication of CN103117903B publication Critical patent/CN103117903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种上网流量异常检测方法及装置,方法包括:获取多条上网流量记录的至少两种特征信息;对所述至少两种特征信息进行聚类运算,以对所述多条上网流量记录进行分类;根据所述上网流量记录的分类结果所确定的类别以及所述类别对应的异常特征,确定所述上网流量记录是否为异常流量。本发明实施例有效解决了通过人工方式进行检测带来的检测时间长,效率低的问题。

Description

上网流量异常检测方法及装置
技术领域
本发明涉及移动通信技术领域,尤其涉及一种上网流量异常检测方法及装置。
背景技术
随着智能终端、互联网应用的快速发展,第三代移动通信技术(3rd-Generation,3G)业务流量增长十分迅速,随之而来的是上网流量越来越成为用户投诉的焦点。
现有技术中主要采取人工方式从成千上万的上网记录中对用户上网流量记录进行异常检测。然而,这种方法检测时间长,效率低。
发明内容
本发明提供一种上网流量异常检测方法及装置,用以解决通过人工方式进行检测带来的检测时间长,效率低的问题。
一方面,本发明实施例提供一种上网流量异常检测方法,包括:
获取多条上网流量记录的至少两种特征信息;
对所述至少两种特征信息进行聚类运算,以对所述多条上网流量记录进行分类;
根据所述上网流量记录的分类结果所确定的类别以及所述类别对应的异常特征,确定所述上网流量记录是否为异常流量。
另一方面,本发明实施例提供一种上网流量异常检测装置,包括:获取模块、分类模块和处理模块;
所述获取模块,用于获取多条上网流量记录的至少两种特征信息;
所述分类模块,用于对所述至少两种特征信息进行聚类运算,以对所述多条上网流量记录进行分类;
所述处理模块,用于根据所述上网流量记录的分类结果所确定的类别以及所述类别对应的异常特征,确定所述上网流量记录是否为异常流量。
本发明提供的上网流量异常检测方法及装置,通过对多条上网流量记录的至少两种特征信息进行聚类运算实现对上网流量记录进行分类,并判断分类后的各类别是否存在异常类别特征来确定该类别下的上网流量记录为异常流量,缩短了检测时间,提高了检测效率。
附图说明
图1为本发明提供的上网流量异常检测方法一个实施例的流程图;
图2为本发明提供的上网流量异常检测方法另一个实施例的流程图;
图3为本发明提供的上网流量异常检测装置一个实施例的结构示意图;
图4为本发明提供的上网流量异常检测装置另一个实施例的结构示意图。
具体实施方式
图1为本发明提供的上网流量异常检测方法一个实施例的流程图,该方法可应用于对移动用户终端上网流量异常的检测。如图1所示,以下步骤的执行主体可以为设置在网络中的服务器,或是集成在该服务器上的模块或芯片,该上网流量异常检测方法具体包括:
S101,获取多条上网流量记录的至少两种特征信息;
本发明实施例中,可以采用现有的各种方法获取上网流量记录。例如:可以采用现有的上网流量查询系统来获取上网流量记录。获取的上网流量记录中通常可以包括如下字段:该条流量记录的流量类型(可以是指业务类型,例如,可以是彩信、网页浏览、即时通信、流媒体、文件传输、网络电话(VoiceoverInternetProtocol,VoIP)、点对点通信(PeertoPeer,P2P)、邮件),该条流量记录产生的时间,时长、流量大小、访问的目标IP和URL等。可以从这些字段中提取用于聚类分析的特征信息。
S102,对上述至少两种特征信息进行聚类运算,以对该多条上网流量记录进行分类;
具体地,对上述如:上网时间,所使用的业务类型、流量大小、流量时长、访问的IP地址、访问的URL等提取出的至少两种特征信息进行聚类运算,该聚类运算可以是现有的各种聚类算法,例如:均值聚类算法,系统聚类算法等。经过聚类运算后得到的上网流量记录的类别可以为业务类型、也可以为某一时间段内高频率的访问同一IP地址或URL等,这些类别有些可以是上网操作,即时通信、视频等正常操作产生的,还有些可以是某个应用程序频繁的后台流量产生的,还有些孤立点,可能是异常的大流量。
而对于进行聚类运算预先输入的类别个数的选取,可以根据经验选取,比如可以根据经验值将流量类型分为:彩信、网页浏览、即时通信、流媒体、文件传输、VoIP、P2P、邮件,此外还可以增加多个未知类别,得到聚类个数K,然后进行聚类运算。举例来说:假如流量特征有2个:(时长,流量大小),有这样3条流量记录A:(1,1);B(2,2);C(4,2),那么A,B间的欧氏距为1.41,A,C间的欧式距为3.16,B,C间欧氏距为2,假如聚成两类,那么A,B是一类,C是另一类。
S103,根据上网流量记录的分类结果所确定的类别以及该类别对应的异常特征,确定该上网流量记录是否为异常流量。
上述上网流量记录的分类结果可以为流量记录的具体类型,例如:可以包括彩信、网页浏览、即时通信、流媒体、文件传输、VoIP、P2P、邮件,此外还可以包括多个未知类别,通过进一步对聚类运算得到的各个类别的具体特征进行分析,判断各类别中是否存在异常特征。对于流量类别特征的判断,通常可以通过前期的训练学习获得,即:选取大量已知的上述类型的正常流量和异常流量(可以是用户进行投诉的流量记录)进行上述聚类运算,聚类个数K的选取可以是上述流量类型个数(8个)再加上多个未知流量(异常流量)个数(如2个)的和(10个);通过分析聚类后的结果(即聚类结果在坐标系中的空间分布情况),判定各类别最终是正常流量类还是异常流量类,通常将包含上述正常流量的类别定义为正常流量类,而包含上述异常流量的类别定义为异常流量类。通过将当前聚类的结果和前期的训练学习获得的类别的特征进行比较(当前聚类结果和训练学习获得的聚类结果在坐标系中空间位置上的分布做比较,即吻合度作比较),判定当前各聚类后的类别所属的流量类型是正常流量还是异常流量。若当前的聚类结果中包含既不属于训练学习获得的正常流量类别,也不属于训练学习获得的异常流量类别,则把该类别也视为异常流量类别(通常对于聚类后无法判断其类别的,为安全考虑,都可视为异常流量)。
其中,正常流量类特征对应的可以是上述流量类型中的正常流量在坐标系中的空间分布位置。而异常流量类特征对应的可以是上述流量类型中的异常流量在坐标系中的空间分布位置,在实际场景下,可以表现为:某些客户端在特定时间段内频繁产生大流量或频繁的产生流量数据;或某些孤立的异常大流量点(在聚类结果的空间分布上远离正常流量类别的异常大流量的孤立点),如:某用户使用某影音在线看视频,刚开启视频意识到需要走很多流量,随即按退出键退出,但是该影音软件未必真的退出,它可能在后台不断地缓冲视频,产生大流量;或是某个下载软件,虽然没有下载,但是它在后台分享你下载的文件也可能产生大流量。
通过对聚类运算后得到的各个类别的具体类别特征进行分析,综合考虑这些流量类别中是否包含上述异常流量类特征,来判定所判断的类别包含的上网流量记录是否为异常流量。
本发明提供的上网流量异常检测方法,通过对多条上网流量记录的至少两种特征信息进行聚类运算实现对上网流量记录进行分类,并判断分类后的各类别是否存在异常流量特征来确定该类别下的上网流量记录为异常流量,缩短了检测时间,提高了检测效率。
图2为本发明提供的上网流量异常检测方法另一个实施例的流程图,本实施例提供了如图1所示的上网流量异常检测方法的一种具体的实施方式,如图2所示,所述方法具体包括:
S201,获取多条上网流量记录的至少两种特征信息;该步骤具体可参见步骤101的相应内容。
S202,对上述至少两种特征信息进行标准化处理,以使该至少两种特征信息具有相同的取值范围;
在上述特征信息中,不同的特征信息的格式和取值范围通常不同,为使它们具有相同的格式和取值范围,以便进行聚类运算,可以将上述特征信息进行标准化处理,具体可分为格式处理和取值范围处理。其中格式处理可以包括:
流量类型处理:对不同的流量类型如彩信、网页浏览、即时通信等分别编号为100、200、300等;
时间格式处理:如10点15分,格式化处理后为10.25;10点30,则格式化处理后为10.5。
表1列举了40条实际上网流量记录经格式处理后的特征信息。
表1经格式处理后的特征信息
取值范围处理:表1中各特征信息的度量单位不同,有时间,次数,频次等,所对应的具体数值的区间范围也因此不同,通常产生时间的范围为0~24,而时长的范围为0~60。为了避免对度量单位选择的依赖,避免取值范围大的特征信息对距离的影响高于取值范围小的特征信息,可以将各个特征信息的取值按比例映射到相同的取值区间,例如:可以将各个特征信息的取值映射到[0,1]区间,这样能平衡各个属性对距离的影响,映射公式可以为:
a i ′ = a i - min ( a i ) max ( a i ) - min ( a i )
其中,ai′为ai映射后的值、αi为第i类特征信息中的值,max(αi)和min(αi)分别表示第i类特征信息中的最大值和最小值。
S203,若特征信息包括流量大小信息,则根据设定的影响因子对该流量大小信息进行调整,该影响因子用于增加该流量大小信息的影响权重。
事实上,在绝大多数用户的投诉中,以不能接受的大流量的上网流量居多,因此为了更好地区分大流量记录,在流量大小信息中可以根据设定的流量大小影响因子x进行调整,具体的调整方式可以通过流量大小与影响因子x进行各种运算,例如:可以将流量大小乘以影响因子x,从而更好的对多条上网流量记录进行分类。
以表1中的数据为例,经标准化处理和流量大小信息调整后的特征信息如表2所示。
表2经标准化处理和流量大小信息调整后的特征信息
S204,对上述如表2中的各上网流量记录中至少两种特征信息进行聚类运算,以对上述多条上网流量记录进行分类,该聚类运算可以为K-means聚类运算。
其中,K-means聚类算法的基本原理:是基于质心技术,以K为输入参数,把N个对象分为K个类别,以使类内具有较高的相似度,而类间的相似度较低,类的相似度根据类中的平均值度量,该均值可以看作类的质心。
K-means算法的处理过程如下:首先,随机的选择K个对象,每个对象代表一个类的初始值,对剩余的每个对象,根据其与各个类均值的距离,将它分配到最相似的类中。然后计算每个类的新的均值,不断地重复,直到准则函数收敛,通常采用的准则函数是均方误差准则:
J c ( m ) = Σ j = 1 k Σ x i ∈ c j | x i - z j | 2
其中,Jc(m)是所有对象的均方误差的总和,xi是空间中的点,即每个对象,zj是类cj平均值。
对象间的相似度和相异性是通过两个对象间的距离来计算的,每个对象与类中心的距离采用欧几里得距离,其定义如下:
d ( i , j ) = | x i 1 - x j 1 | 2 + | x i 2 - x j 2 | 2 + · · · + | x ip - x jp | 2
其中i=(xi1,xi2,…xip)和j=(xj1,xj2,…xjp)是两个P维的数据对象。
本步骤就是通过对移动用户上网流量记录中的至少两个特征信息,相当于上述公式中P至少为二维的数据对象进行聚类划分,从而将上网流量记录进行分类。而对于进行聚类运算预先输入的类别个数的选取,可以根据经验选取,比如可以根据如表1或2中的8种流量类型分为正常的:彩信、网页浏览、即时通信、流媒体、文件传输、VoIP、P2P、邮件,此外还可以增加多个未知类别,例如:可以增加1个未知类别,未知类别加上上述列举的8种经验值类别,则得到聚类个数K=9,然后
进行聚类运算。当然,如果在分类完成后,发现一些类的相似度很大(空间分布较近),也可以将这些类合并为一类,可以将聚类个数K减一;或是一些类间相似度较低的类可以拆分成不同的类,每单独分成一个类,可以将聚类个数K加一。
S205,根据上网流量记录的分类结果所确定的类别以及类别对应的异常特征,确定该上网流量记录是否为异常流量;该步骤具体可参看步骤103的相应内容。一种可行的实现方式为,可以通过当前聚类后得到的各类别与前期的训练学习获得的各类别,在坐标系中空间位置分布对应的质心进行匹配,从而确定当前聚类后得到的各类别所属的流量类别。如经前期的训练学习获得的8个正常流量类的质心分别为S1~S8,一个异常流量类的质心为S9;而当前生成的9个类别的质心分别为A1~A9。对于当前生成的类的质心A1,假设S1~S9中,离A1距离最近的为S2,且该距离小于一设定距离,那么将当前生成的质心为A1的那一类归为前期确定的质心为S2的那一类,该设定距离可以为经验值。具体地,以表2中的所有流量记录中的所有特征信息为例进行K-means聚类运算,得到的聚类结果与前期的训练学习获得的类别进行上述质心的匹配,最终确定各类别所属的流量类型可以为:
第1类:1,11,15(正常彩信类流量);
第2类:2,3,12,18,40(正常网页浏览类流量);
第3类:4,5,20,21,23,31,33,34,37,39(正常即时通信类流量);
第4类:13,19,27(正常流媒体类流量);
第5类:24,25,26(正常文件传输类流量);
第6类:6,7,14(正常VOIP类流量);
第7类:8,16,17(正常P2P类流量);
第8类:9,10,22,28,29,30,35,38(正常邮件类流量);
第9类:32,36(异常流量);
其中,属于异常流量类的流量记录为32和36,从表1中可以获知,虽然邮件流量类32和36的流量不大,但是在固定时间内频繁产生这样的流量,其总流量是很大的,这在现实中可能是由于用户在邮件客户端设置错了,然后邮件客户端不断地向邮件服务器发送请求导致。而网页浏览类的频率也很高,但这是正常网页浏览类的固有特征,所以不作为异常流量。换言之,不同类型的流量记录间其特征信息存在较大差别,需要从实际情况进行分析。
本实施例的上述步骤给出了通过对上网流量记录进行聚类运算来判断异常流量的方法。作为该方法的拓展,本实施例还提供了一种知识库匹配的方法,如S206,该方法可以作为判断异常流量的辅助方法。
S206,将上网流量记录与本地知识库中存储的异常流量信息进行匹配,以确定该上网流量记录是否为异常流量。其中,本地知识库中存储的异常流量信息可以是客服部门在解决用户投诉的过程中确定的一些异常流量的相关信息,比如一条异常流量记录的IP(例如,访问166.111.11.11的流量记录都认为异常流量)或url(例如,访问www.Virus0001.com的流量记录都认为是异常流量),可以将这些异常流量信息放入知识库。将上网流量记录在本地知识库中存储的异常流量信息中进行查找,如果找到相同的目标IP或URL等信息,就确定该上网流量记录为异常流量。在本实施例中,将上网流量记录进行聚类分析,和进行知识库匹配两种方法可以结合使用,且其先后顺序不作限定。
本发明提供的上网流量异常检测方法,一方面,对多条上网流量记录的至少两种特征信息进行聚类运算,并判断分类后的各类别是否存在异常类别特征来确定该类别下的上网流量记录为异常流量,另一方面,将上网流量记录与知识库中的异常流量信息进行匹配来确定该上网流量记录是否为异常流量,缩短了检测时间,提高了检测效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图3为本发明提供的上网流量异常检测装置一个实施例的结构示意图,该装置可执行如图1所示的方法步骤,如图3所示,该上网流量异常检测装置包括:获取模块31、分类模块32和处理模块33,其中:
获取模块31,用于获取多条上网流量记录的至少两种特征信息;
分类模块32,用于对获取模块31获取的至少两种特征信息进行聚类运算,以对多条上网流量记录进行分类;
处理模块33,用于根据分类模块32对上网流量记录进行分类后的分类结果所确定的类别以及类别对应的异常特征,确定该上网流量记录是否为异常流量。
具体地,本发明实施例中,可以采用现有的各种方法获取上网流浪记录。例如:可以采用现有的上网流量查询系统来获取上网流浪记录。获取的上网流量记录中通常可以包括如下字段:该条流量记录的流量类型(可以是指业务类型,例如,可以是彩信、网页浏览、即时通信、流媒体、文件传输、网络电话(VoiceoverInternetProtocol,VoIP)、点对点通信(PeertoPeer,P2P)、邮件),该条流量记录产生的时间,时长、流量大小、访问的目标IP和URL等。可以从这些字段中提取用于聚类分析的特征信息。获取模块31,可以从这些字段中提取用于聚类分析的特征信息。
在获取模块31从上述这些字段中获取到用于聚类分析的特征信息后,分类模块32对上述特征信息进行聚类运算,以对该多条上网流量记录进行分类,该过程可参见步骤102。
在分类模块32对上述上网流量进行分类后,处理模块33则根据上网流量记录的分类结果所确定的类别以及该类别对应的异常特征,确定该上网流量记录是否为异常流量。该过程可参见步骤103的相应内容。
本发明提供的上网流量异常检测装置,通过对多条上网流量记录的至少两种特征信息进行聚类运算实现对上网流量记录进行分类,并判断分类后的各类别是否存在异常类别特征来确定该类别下的上网流量记录为异常流量,缩短了检测时间,提高了检测效率。
图4为本发明提供的上网流量异常检测装置另一个实施例的结构示意图,本实施例提供了上网流量异常检测装置的一种具体的实现方式,该装置可以执行如图2所示的方法步骤。如图4所示,该检测装置包括:获取模块41、处理模块42、调整模块43、分类模块44和匹配模块45,其中:
获取模块41,用于获取多条上网流量记录的至少两种特征信息;
处理模块42,用于对获取模块41获取的上述至少两种特征信息进行标准化处理,以使该至少两种特征信息具有相同的取值范围;
调整模块43,用于标准化处理模块42对所述至少两种特征信息进行标准化处理后,若该特征信息包括流量大小信息,则根据设定的影响因子对流量大小信息进行调整,该影响因子用于增加所述流量大小信息的影响权重;
分类模块44,用于对上述至少两种特征信息进行K-means聚类运算,以对上述多条上网流量记录进行分类;在本实施例中具体用于对上述经标准化处理和流量大小信息调整后的特征信息进行K-means聚类运算;
处理模块42还用于,根据分类模块44对上网流量记录进行分类后的分类结果所确定的类别以及该类别对应的异常特征,确定该上网流量记录是否为异常流量
匹配模块45,用于将上网流量记录与本地知识库中存储的异常流量信息进行匹配,以确定该上网流量记录是否为异常流量。
具体地,本发明实施例中,可以采用现有的各种方法获取上网流浪记录。例如:可以采用现有的上网流量查询系统来获取上网流浪记录。获取的上网流量记录中通常可以包括如下字段:该条流量记录的流量类型(可以是指业务类型,例如,可以是彩信、网页浏览、即时通信、流媒体、文件传输、网络电话(VoiceoverInternetProtocol,VoIP)、点对点通信(PeertoPeer,P2P)、邮件),该条流量记录产生的时间,时长、流量大小、访问的目标IP和URL等。可以从这些字段中提取用于聚类分析的特征信息。获取模块41,可以从这些字段中提取用于聚类分析的特征信息。
在获取模块41获取的特征信息中,不同的特征信息的格式和取值范围通常不同,为使它们具有相同的格式和取值范围,以便进行聚类运算,可以通过处理模块42对上述特征信息进行标准化处理,具体可分为格式处理和取值范围处理。对上述特征信息进行标准化处理的处理内容和步骤可参见步骤202的相应内容。
事实上,在绝大多数用户的投诉中,以不能接受的大流量的上网流量居多,因此为了更好地区分大流量记录,在处理模块42对上述特征信息进行标准化处理后,可以通过调整模块43根据设定的流量大小影响因子x对流量大小信息进行调整,具体的调整方式可以通过流量大小与影响因子x进行各种运算,例如:可以将流量大小乘以影响因子x,从而更好的对多条上网流量记录进行分类。具体的处理内容和步骤可参见步骤203的相应内容。
对经过调整模块43处理后的至少两种特征信息,通过分类模块44进行K-means聚类运算。其中,关于K-means聚类算法的基本原理、处理过程,以及运用K-means聚类算法对移动用户上网流量记录中的至少两个特征信息进行聚类划分的具体步骤,可参见步骤204的相应内容。
在分类模块44对上述经过调整模块43处理后的至少两种特征信息完成聚类预算后的分类结果中,可以通过处理模块42对各个类别的具体特征进行分析,判断各类别中是否存在异常特征,将存在异常特征的类别所对应的的上网流量记录确定为异常流量。具体地,上述内容可参见步骤205的相应内容。
在本实施例提供的上网流量异常检测装置中还包括匹配模块45。该匹配模块45可以将上网流量记录与本地知识库中存储的异常流量信息进行匹配,以确定上网流量记录是否为异常流量。
其中,本地知识库中存储的异常流量信息可以是客服部门在解决用户投诉的过程中确定的一些异常流量的相关信息,比如一条异常流量记录的IP(例如,访问166.111.11.11的流量记录都认为异常流量)或url(例如,访问www.Virus0001.com的流量记录都认为是异常流量),可以将这些异常流量信息放入知识库。将上网流量记录在本地知识库中存储的异常流量信息中进行查找,如果找到相同目标IP或URL等信息,就确定该上网流量记录为异常流量。在本实施例中,将上网流量记录进行聚类分析,和进行知识库匹配两种方法可以结合使用,且其先后顺序不作限定。
本发明提供的上网流量异常检测装置,一方面,对多条上网流量记录的至少两种特征信息进行聚类运算,并判断分类后的各类别是否存在异常类别特征来确定该类别下的上网流量记录为异常流量,另一方面,将上网流量记录与知识库中的异常流量信息进行匹配来确定该上网流量记录是否为异常流量,缩短了检测时间,提高了检测效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种上网流量异常检测方法,其特征在于,包括:
获取多条上网流量记录的至少两种特征信息,所述特征信息包括流量类型、所述流量记录产生的时间、时长、流量大小、访问的目标IP和URL;
对所述至少两种特征信息进行聚类运算,以对所述多条上网流量记录进行分类;
根据所述上网流量记录的分类结果所确定的类别以及所述类别对应的异常特征,确定所述上网流量记录是否为异常流量;
所述对所述至少两种特征信息进行聚类运算之前,还包括:
对所述至少两种特征信息进行标准化处理,以使所述至少两种特征信息具有相同的取值范围,其中,所述标准化处理包括格式处理和取值范围处理,所述格式处理包括流量类型处理和时间格式处理,所述取值范围处理是将各个所述特征信息的取值按比例映射到相同的取值区间,映射公式为:
a i ′ = a i - m i n ( a i ) max ( a i ) - m i n ( a i )
其中,a′i为ai映射后的值、ai为第i类特征信息中的值,max(ai)和min(ai)分别表示第i类特征信息中的最大值和最小值。
2.根据权利要求1所述的上网流量异常检测方法,其特征在于,若所述特征信息包括流量大小信息,则所述对所述至少两种特征信息进行聚类运算之前,还包括:
根据设定的影响因子对所述流量大小信息进行调整,所述影响因子用于增加所述流量大小信息的影响权重。
3.根据权利要求1或2所述的上网流量异常检测方法,其特征在于,所述对所述至少两种特征信息进行聚类运算,包括:
采用K-means聚类运算对所述至少两种特征信息进行聚类运算。
4.根据权利要求1或2所述的上网流量异常检测方法,其特征在于,还包括:
将所述上网流量记录与本地知识库中存储的异常流量信息进行匹配,以确定所述上网流量记录是否为异常流量。
5.一种上网流量异常检测装置,其特征在于,包括:获取模块、分类模块和处理模块;
所述获取模块,用于获取多条上网流量记录的至少两种特征信息,所述特征信息包括流量类型、所述流量记录产生的时间、时长、流量大小、访问的目标IP和URL;
所述分类模块,用于对所述至少两种特征信息进行聚类运算,以对所述多条上网流量记录进行分类;
所述处理模块,用于根据所述上网流量记录的分类结果所确定的类别以及所述类别对应的异常特征,确定所述上网流量记录是否为异常流量;
所述处理模块还用于:
在所述对所述至少两种特征信息进行聚类运算之前,对所述至少两种特征信息进行标准化处理,以使所述至少两种特征信息具有相同的取值范围,其中,所述标准化处理包括格式处理和取值范围处理,所述格式处理包括流量类型处理和时间格式处理,所述取值范围处理是将各个所述特征信息的取值按比例映射到相同的取值区间,映射公式为:
a i ′ = a i - m i n ( a i ) max ( a i ) - m i n ( a i )
其中,a′i为ai映射后的值、ai为第i类特征信息中的值,max(ai)和min(ai)分别表示第i类特征信息中的最大值和最小值。
6.根据权利要求5所述的上网流量异常检测装置,其特征在于,所述装置还包括:
调整模块,用于所述分类模块对所述至少两种特征信息进行聚类运算之前,若所述特征信息包括流量大小信息,则根据设定的影响因子对所述流量大小信息进行调整,所述影响因子用于增加所述流量大小信息的影响权重。
7.根据权利要求5或6所述的上网流量异常检测装置,其特征在于,所述分类模块对所述至少两种特征信息进行聚类运算,包括:
采用K-means聚类运算对所述至少两种特征信息进行聚类运算。
8.根据权利要求5或6所述的上网流量异常检测装置,其特征在于,所述装置还包括:
匹配模块,用于将所述上网流量记录与本地知识库中存储的异常流量信息进行匹配,以确定所述上网流量记录是否为异常流量。
CN201310049123.XA 2013-02-07 2013-02-07 上网流量异常检测方法及装置 Active CN103117903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310049123.XA CN103117903B (zh) 2013-02-07 2013-02-07 上网流量异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310049123.XA CN103117903B (zh) 2013-02-07 2013-02-07 上网流量异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN103117903A CN103117903A (zh) 2013-05-22
CN103117903B true CN103117903B (zh) 2016-01-06

Family

ID=48416181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310049123.XA Active CN103117903B (zh) 2013-02-07 2013-02-07 上网流量异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN103117903B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268286B (zh) * 2013-06-04 2017-08-18 百度在线网络技术(北京)有限公司 移动终端中应用程序的流量测试方法、系统和测试机
CN103607391B (zh) * 2013-11-19 2017-02-01 北京航空航天大学 一种基于K‑means的SQL注入攻击检测方法
CN103581951B (zh) * 2013-11-22 2017-02-01 中国联合网络通信集团有限公司 一种基站检测方法及装置
CN103701814A (zh) * 2013-12-27 2014-04-02 北京启明星辰信息技术股份有限公司 一种基于行为检测实现网络流量识别的方法及装置
CN104751198B (zh) * 2013-12-27 2018-04-27 华为技术有限公司 图像中的目标物的识别方法及装置
CN104539471B (zh) * 2014-12-01 2018-02-23 北京百度网讯科技有限公司 带宽计量方法、装置和计算机设备
CN106934627B (zh) * 2015-12-28 2021-03-30 中国移动通信集团公司 一种电商行业作弊行为的检测方法及装置
CN106936778B (zh) * 2015-12-29 2020-05-05 北京国双科技有限公司 网站流量异常的检测方法和装置
CN105656728B (zh) * 2016-02-24 2019-03-22 中国联合网络通信集团有限公司 一种网络体验质量评价方法和系统
CN108156131B (zh) * 2017-10-27 2020-08-04 上海观安信息技术股份有限公司 Webshell检测方法、电子设备和计算机存储介质
CN107819698A (zh) * 2017-11-10 2018-03-20 北京邮电大学 一种基于半监督学习的网络流量分类方法、计算机设备
CN107995007B (zh) * 2017-12-01 2019-05-14 中国联合网络通信集团有限公司 用户费用配置方法和用户费用配置系统
CN107967429A (zh) * 2017-12-07 2018-04-27 国云科技股份有限公司 一种适于多时间格式的云平台漏洞抓取方法
CN108712433A (zh) * 2018-05-25 2018-10-26 南京森林警察学院 一种网络安全检测方法和系统
CN109257354B (zh) * 2018-09-25 2021-11-12 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备
CN109587248B (zh) * 2018-12-06 2023-08-29 腾讯科技(深圳)有限公司 用户识别方法、装置、服务器及存储介质
CN110225007A (zh) * 2019-05-27 2019-09-10 国家计算机网络与信息安全管理中心 webshell流量数据聚类分析方法以及控制器和介质
CN110381151B (zh) * 2019-07-24 2021-12-28 秒针信息技术有限公司 一种异常设备检测方法及装置
CN111107102A (zh) * 2019-12-31 2020-05-05 上海海事大学 基于大数据实时网络流量异常检测方法
CN111738746B (zh) * 2020-06-24 2023-07-18 中国联合网络通信集团有限公司 流量投诉处理方法、前端显示设备、后台处理设备及系统
CN112491660A (zh) * 2020-12-07 2021-03-12 北京明略昭辉科技有限公司 异常流量的识别方法、装置、电子设备及可读存储介质
CN115589310A (zh) * 2022-09-23 2023-01-10 中国电信股份有限公司 攻击检测方法、装置及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841435A (zh) * 2010-01-18 2010-09-22 中国科学院计算机网络信息中心 Dns查询流量异常的检测方法、装置和系统
CN101848160A (zh) * 2010-05-26 2010-09-29 钱叶魁 在线检测和分类全网络流量异常的方法
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法
CN102821002A (zh) * 2011-06-09 2012-12-12 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841435A (zh) * 2010-01-18 2010-09-22 中国科学院计算机网络信息中心 Dns查询流量异常的检测方法、装置和系统
CN101848160A (zh) * 2010-05-26 2010-09-29 钱叶魁 在线检测和分类全网络流量异常的方法
CN102821002A (zh) * 2011-06-09 2012-12-12 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于信息熵的大规模网络流量异常分类;杨岳湘等;《计算机工程与科学》;20071231;第29卷(第2期);第40-43页 *

Also Published As

Publication number Publication date
CN103117903A (zh) 2013-05-22

Similar Documents

Publication Publication Date Title
CN103117903B (zh) 上网流量异常检测方法及装置
CN108021929B (zh) 基于大数据的移动端电商用户画像建立与分析方法及系统
Liu et al. Effective and real-time in-app activity analysis in encrypted internet traffic streams
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN112311612B (zh) 一种信息构建方法、装置及存储介质
CN105210064A (zh) 使用深度网络将资源分类
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN103473036B (zh) 一种输入法皮肤推送方法及系统
CN109189876B (zh) 一种数据处理方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN110008977B (zh) 聚类模型构建方法以及装置
CN102402594A (zh) 一种富媒体个性化推荐方法
US11556595B2 (en) Attribute diversity for frequent pattern analysis
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN110321492A (zh) 一种基于社区信息的项目推荐方法及系统
CN105408894B (zh) 一种用户身份类别确定方法以及装置
US9020863B2 (en) Information processing device, information processing method, and program
CN113468404A (zh) 基于大数据挖掘的推送资源确定方法及云计算ai服务系统
CN117216362A (zh) 内容推荐方法、装置、设备、介质和程序产品
Smrithy et al. Online anomaly detection using non-parametric technique for big data streams in cloud collaborative environment
CN117546160A (zh) 使用机器学习模型的自动化数据层次结构提取和预测
CN107944946B (zh) 商品标签生成方法及装置
CN114003803A (zh) 一种社交平台上特定地域的媒体账号发现方法及系统
Sun et al. A bisecting K-Medoids clustering algorithm based on cloud model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant