CN103414600A - 近似匹配方法和相关设备及通信系统 - Google Patents
近似匹配方法和相关设备及通信系统 Download PDFInfo
- Publication number
- CN103414600A CN103414600A CN2013103068872A CN201310306887A CN103414600A CN 103414600 A CN103414600 A CN 103414600A CN 2013103068872 A CN2013103068872 A CN 2013103068872A CN 201310306887 A CN201310306887 A CN 201310306887A CN 103414600 A CN103414600 A CN 103414600A
- Authority
- CN
- China
- Prior art keywords
- flow rate
- similarity
- unknown
- unknown flow
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0882—Utilisation of link capacity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/36—Flow control; Congestion control by determining packet size, e.g. maximum transfer unit [MTU]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例公开了近似匹配方法和相关设备及通信系统。其中,一种近似匹配方法可包括:获取未知流量;按照N个维度分别计算未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数,其中,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,n1、n2、n3为正整数。本发明技术方案由于。本发明实施例的技术方案有利于提高流量分析的效率和准确性。
Description
技术领域
本发明涉及通信技术领域,具体涉及近似匹配方法和相关设备及通信系统。
背景技术
当前,宽带业务给运营商带来机遇的同时也带来了挑战,运营商需要面对例如带宽管理、内容计费、信息安全等一系列新的课题。其中,面对日益增长的业务流,深层包检测(DPI,Deep Packet Inspection)技术被认为是应对网络多业务所带来的管理和控制挑战的有效方法。区域流量覆盖是衡量DPI能力的重要指标。
而随着智能手机等智能终端的普及,应用数量出现井喷式增长。并且越来越多的应用(如Skype、Vbuzzer等应用)经常通过自动改变自身的流量特征来逃避DPI厂商的检测,包括行为特征变种、二进制变化、混合流量、随机长度添加等流量特征改变方式。面对新应用产生的未知流量的挑战,业界目前普遍采取捕获现网流量+人工分析的方式进行分析。
在对现有技术的研究和实践过程中,本发明的发明人发现现有技术通常存在如下一些缺点:现有人工分析方式效率较低、响应速度较慢,难以及时满足运营商对现网覆盖率的要求,难以支撑新应用流量的分析和识别;精准度也难以满足精细化业务需求。
发明内容
本发明实施例提供近似匹配方法和相关设备及通信系统,以期待提高流量分析的效率和准确性。
本发明第一方面提供一种近似匹配方法,可包括:
获取未知流量;
按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
结合第一方面,在第一种可能的实施方式中,所述按照N个维度分别计算所述未知流量与样本流量的相似度包括:当基于深层包检测技术未能识别出所述未知流量时,按照所述N个维度分别计算所述未知流量与样本流量的相似度。
结合第一方面或第一方面的第一种可能的实施方式,在第二种可能的实施方式中,所述按照N个维度分别计算所述未知流量与样本流量的相似度,包括:执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度。
结合第一方面的第二种可能的实施方式,在第三种可能的实施方式中,所述计算所述未知流量与样本流量的报文负载内容的相似度,包括:
计算所述未知流量与样本流量的报文负载内容的字符相似度;
计算所述未知流量与样本流量的报文负载内容的匹配度;
计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数。
结合第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式,在第四种可能的实施方式中,所述计算所述未知流量与样本流量的报文长度的相似度,包括:将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或者,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
本发明第二方面提供一种近似匹配装置,包括:
获取单元,用于获取未知流量;
相似度计算单元,用于按照N个维度,分别计算样本流量与所述获取单元获取的所述未知流量与的相似度;对计算得到的各维度对应的相似度进行加权调,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
结合第二方面,在第一种可能的实施方式中,
所述相似度计算单元,具体用于当基于深层包检测技术未能识别出所述未知流量时,按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
结合第二方面或第二方面的第一种可能的实施方式,在第二种可能的实施方式中,在所述按照所述N个维度分别计算所述未知流量与样本流量的相似度的方面,所述相似度计算单元具体用于,执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度,
对计算得到的至少两种的相似度进行加权调,以得到所述未知流量与样本流量的匹配相似度。
结合第二方面的第二种可能的实施方式,在第三种可能的实施方式中,在所述计算所述未知流量与样本流量的报文负载内容的相似度的方面,所述相似度计算单元具体用于,
计算所述未知流量与样本流量的报文负载内容的字符相似度;
计算所述未知流量与样本流量的报文负载内容的匹配度;
计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数。
结合第二方面的第二种可能的实施方式,在第四种可能的实施方式中,在所述计算所述未知流量与样本流量的报文长度的相似度的方面,所述相似度计算单元具体用于,将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或者,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
本发明第三方面提供一种流量分析服务器,可包括:
深层包检测识别系统,用于获取未知流量,基于深层包检测技术对所述未知流量进行识别;
近似匹配系统,用于当所述深层包检测识别系统基于深层包检测技术未能识别出所述未知流量时,按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
结合第三方面,在第一种可能的实施方式中,在所述按照N个维度分别计算所述未知流量与样本流量的相似度的方面,所述近似匹配系统具体用于,执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度。
结合第三方面的第二种可能的实施方式,在第三种可能的实施方式中,
在所述计算所述未知流量与样本流量的报文负载内容的相似度的方面,所述近似匹配系统具体用于:计算所述未知流量与样本流量的报文负载内容的字符相似度;计算所述未知流量与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,在所述计算所述未知流量与样本流量的报文长度的相似度的方面,所述近似匹配系统具体用于:将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或者,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中所述第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
本发明第四方面提供一种通信系统,可包括:
通信网元和流量分析服务器,
其中,所述通信网元用于接收未知流量;
所述流量分析服务器用于,获取所述通信网元接收的未知流量或者获取所述通信网元接收的未知流量的镜像,基于深层包检测技术对所述未知流量或者所述未知流量的镜像进行识别;当基于深层包检测技术未能识别出所述未知流量或未知流量的镜像时,按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
结合第四方面,在第一种可能的实施方式中,在所述按照N个维度分别计算所述未知流量或所述未知流量的镜像与样本流量的相似度的方面,所述流量分析服务器具体用于:执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
结合第四方面的第一种可能的实施方式,在第二种可能的实施方式中,
在所述计算所述未知流量或所述未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述流量分析服务器具体用于:计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或所述未知流量的镜像与样本流量的报文长度的相似度的方面,所述流量分析服务器具体用于:将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
本发明第五方面提供一种通信系统,包括:
通信网元和近似匹配服务器,
其中,所述通信网元用于接收未知流量,基于深层包检测技术对所述未知流量进行识别,若未能识别出所述未知流量,向所述近似匹配服务器发送未能识别出的所述未知流量或者所述未能识别出的所述未知流量的镜像;
所述近似匹配服务器用于,接收来自所述通信网元的所述未能识别出的所述未知流量或所述未知流量的镜像,按照N个维度分别计算所述未知流量或所述未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或所述未知流量的镜像与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
结合第五方面,在第一种可能的实施方式中,在所述按照N个维度分别计算所述未知流量或所述未知流量的镜像与样本流量的相似度的方面,所述近似匹配服务器具体用于,执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
结合第五方面的第一种可能的实施方式,在第二种可能的实施方式中,在所述计算所述未知流量或所述未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述近似匹配服务器具体用于,计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,所述近似匹配服务器具体用于,将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
本发明第六方面提供一种通信系统,可包括:
通信网元和深层包检测识别服务器,
其中,所述通信网元,用于接收未知流量;
所述深层包检测识别服务器,用于获取所述通信网元接收的未知流量或者获取所述通信网元接收的未知流量的镜像;基于深层包检测技术对来自所述通信网元的所述未知流量或未知流量的镜像进行识别,若未能识别出所述未知流量或未知流量的镜像,向所述通信网元发送未能识别出的所述未知流量或所述未能识别出的所述未知流量的镜像;
所述通信网元还用于,接收来自所述深层包检测识别服务器的所述未能识别出的所述未知流量或所述未能识别出的所述未知流量的镜像,按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
结合第六方面,在第一种可能的实施方式中,在所述按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度的方面,所述通信网元具体用于:执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
结合第六方面的第一种可能的实施方式,在第二种可能的实施方式中,在所述计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述通信网元具体用于:计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,所述通信网元具体用于:将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
本发明第七方面提供一种通信系统,可包括:
通信网元、深层包检测识别服务器和近似匹配服务器,
其中,所述通信网元,用于接收未知流量;
所述深层包检测识别服务器,用于获取所述通信网元接收的未知流量或者获取所述通信网元接收的未知流量的镜像;基于深层包检测技术对所述通信网元接收的所述未知流量或未知流量的镜像进行识别,若未能识别出所述未知流量或未知流量的镜像,向所述近似匹配服务器发送所述未能识别出的所述未知流量或所述未能识别出的所述未知流量的镜像;
所述近似匹配服务器用于,接收来自所述深层包检测识别服务器的所述未能识别出的所述未知流量或者所述未能识别出的所述未知流量的镜像,按照N个维度分别计算所述未知流量或者未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述N为大于或等于2的整数,所述n1、n2、n3为正整数。
结合第七方面,在第一种可能的实施方式中,在所述按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度的方面,所述近似匹配服务器具体用于:执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
结合第七方面的第一种可能的实施方式,在第二种可能的实施方式中,在所述计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述近似匹配服务器具体用于,计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,所述近似匹配服务器具体用于:将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
本发明第八方面提供一种流量分析服务器,所述流量分析服务器包括:
用于接收未知流量或未知流量的镜像的接收器,与所述接收器耦合的近似识别引擎,以及用于发送所述未知流量或未知流量的镜像或所述近似识别引擎输出的所述未知流量或未知流量的镜像与样本流量的匹配相似度的发送器,其中,所述近似识别引擎为如上述实施例所述的近似匹配装置。
本发明第九方面提供一种通信网元,包括收发信机和与所述收发信机耦合的用于进行网络通信的处理器,其特征在于,所述通信设备还包括:与所述收发信机耦合的近似识别引擎,其中,所述近似识别引擎为如上述实施例所述的近似匹配装置。
由上可见,本发明一个实施例的方案中,在获取未知流量后按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于本发明一个实施例提供了一种可利用流量分析设备来进行近似流量分析的机制,有利于提高流量分析的效率;由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种近似匹配方法的流程示意图;
图2-a是本发明实施例提供的一种流量分析设备所处的网络架构示意图;
图2-b是本发明实施例提供的一种近似匹配系统和DPI识别系统的部署示意图;
图2-c是本发明实施例提供的另一种近似匹配系统和DPI识别系统的部署示意图;
图2-d是本发明实施例提供的另一种近似匹配系统和DPI识别系统的部署示意图;
图3是本发明实施例提供的另一种流量分析方法的流程示意图;
图4-a是本发明实施例提供的一种样本流量的端口号分布的示意图;
图4-b是本发明实施例提供的一种样本流量的报文长度的分布示意图;
图4-c是本发明实施例提供的另一种样本流量的报文长度的分布示意图;
图4-d是本发明实施例提供的一种样本流量的发包速率的分布示意图;
图4-e是本发明实施例提供的另一种样本流量的发包速率的分布示意图;
图5是本发明实施例提供的一种近似匹配服务器的示意图;
图6是本发明实施例提供的另一种近似匹配服务器的示意图;
图7是本发明实施例提供的一种通信系统的示意图;
图8是本发明实施例提供的一种流量分析服务器的示意图;
图9是本发明实施例提供的另一种通信系统的示意图;
图10是本发明实施例提供的另一种通信系统的示意图;
图11是本发明实施例提供的另一种通信系统的示意图;
图12是本发明实施例提供的另一种通信系统的示意图;
图13是本发明实施例提供的另一种近似匹配服务器的示意图;
图14-a是本发明实施例提供的一种通信网元的示意图;
图14-b是本发明实施例提供的另一种通信网元的示意图;
图15-a是本发明实施例提供的一种流量识别服务器的示意图;
图15-b是本发明实施例提供的另一种流量识别服务器的示意图。
具体实施方式
本发明实施例提供近似匹配方法和相关设备及通信系统,以期待提高流量分析的效率和准确性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明近似匹配方法的一个实施例,一种近似匹配方法可包括:获取未知流量;按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
参见图1,图1是本发明的一个实施例提供的一种近似匹配方法的流程示意图,如图1所示,本发明的一个实施例提供的一种近似匹配方法可包括以下内容:
101、获取未知流量。
其中,用于实现近似匹配的设备或系统可从DPI服务器或网元(网元例如可为基站、基站控制器、网关、服务器等)获取未知流量。
102、按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
可以理解,上述未知流量与样本流量的匹配相似度,等于对计算得到的各维度对应的相似度进行加权调和而得到的值,也就是说,匹配相似度是综合N个维度对应的相似度的结果,匹配相似度有利于更客观准确的反映未知流量与样本流量的相似度。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量与样本流量的相似度之前,可先基于DPI技术对获取的未知流量进行识别,若基于DPI技术识别出了上述未知流量,则可输出DPI技术的识别结果;在基于上述DPI技术未能识别出上述未知流量之后,才执行上述按照N个维度分别计算上述未知流量与样本流量的相似度的步骤。
在本发明的一些实施例中,若得到的样本流量与上述未知流量的匹配相似度大于设定的相似度阈值,则流量分析设备可输出未知流量与样本流量的匹配成功的流量识别结果(其中,该流量识别结果例如可指示出上述未知流量与样本流量的业务类型相同等,此时可按照样本流量的业务类型所对应的套餐计费方式对上述未知流量进行计费。例如存在Fk1套餐业务,针对用户所有访问Fk1的流量免费,Fk1的外挂视频流量和广告流量单独计费,其它业务场景以此类推),此外,若得到的样本流量与上述未知流量的匹配相似度小于设定的相似度阈值,则流量分析设备可输出未知流量与样本流量的匹配失败的流量识别结果。
其中,可根据实际需要来选着用于识别的维度,针对不同的应用场景不同的精度要求,选择的维度可能不尽相同。举例来说,可以从下面举例的几个维度中选择至少两个维度来计算上述未知流量与样本流量的相似度:报文负载内容、报文长度、报文端口号、发包速率、上行包数量、下行包数量、上下行包数量比值、上行流量值、下行流量值、上下行流量值的比值、前M个包的流量值等。当然,本发明实施例并不限于上述举例的相似度比较维度,其它维度亦可引入。
在本发明的一些实施例中,上述按照N个维度分别计算上述未知流量与样本流量的相似度,包括:执行如下相似度计算操作中的至少两种:
计算上述未知流量与样本流量的报文长度的相似度、
计算上述未知流量与样本流量的报文负载内容的相似度、
计算上述未知流量与样本流量的报文端口号的相似度、
计算上述未知流量与样本流量的发包速率的相似度、
计算上述未知流量与样本流量的上行包数量的相似度、
计算上述未知流量与样本流量的下行包数量的相似度、
计算上述未知流量与样本流量的上下行包数量比值的相似度、
计算上述未知流量与样本流量的上行流量值的相似度、
计算上述未知流量与样本流量的下行流量值的相似度、
计算上述未知流量与样本流量的上下行流量值的比值的相似度、
计算上述未知流量与样本流量的前M个包的流量值的相似度。
在实际应用中,可采用符合本领域计算逻辑的多种方式,按照相应维度计算上述未知流量与样本流量的相似度。例如,计算上述未知流量与样本流量的报文负载内容的相似度可包括:计算上述未知流量与样本流量的报文负载内容的字符相似度;计算上述未知流量与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,计算得到的上述乘积为上述未知流量与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的一些实施例中,上述计算上述未知流量与样本流量的报文长度的相似度,例如可以包括:将上述未知流量的报文长度除以上述样本流量的报文长度以得到商,其中,上述商为上述未知流量与样本流量的报文长度的相似度;或者,确定上述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出第一长度区域对应的相似度值,其中,第一长度区域对应的相似度值为上述未知流量与样本流量的报文长度的相似度。
其中,其它维度的相似度计算方式可类推,此处不再一一举例。
如图2-a所示,其中,通过部署,DIP识别系统可获取网络中的多种设备的流量。例如DIP识别系统可以是板卡或软模块,可将DIP识别系统嵌入到基站控制器、数据网关等网元中。或者DIP识别系统可作为独立设备,可采用外挂或串联等方式接入网络。例如图2-a举例所示,DIP识别系统可以以外挂或串联等方式部署于网络系统的多种位置(如基站、基站控制器、网关、服务器等位置)以便对需要分析的设备流量进行分析。
参见图2-b、图2-c和图2-d,图2-b、图2-c和图2-d举例示出了DPI识别系统和近似匹配系统之间的部署位置关系。参见图2-b和图2-c,近似匹配系统和DPI识别系统可作为1个整体,当然近似匹配系统和DPI识别系统亦可是两个独立设备,其中,近似匹配系统和DPI识别系统可和称之为流量分析系统。其中,图2-b示出一种近似匹配系统可与DPI识别系统跨接(旁路)的场景,近似匹配系统可将流量识别报告反馈给DPI识别系统,由DPI识别系统统一向相关设备(例如计费服务器等)上报流量识别报告,当然近似匹配系统和DPI识别系统亦可独自向相关设备(例如计费服务器等)上报各自的流量识别报告(图2-c所示)。其中,图2-d示出一种近似匹配系统可与DPI识别系统集成在一起的场景,图2-d中举例示出近似匹配系统可与DPI识别系统集成在流量分析服务器之中。可以理解,近似匹配系统和DPI识别系统中的至少一个可以集成在通信网元之中,当然近似匹配系统和DPI识别系统亦可以是独立于通信网元的设备。其中,流量识别报告可携带未知流量与样本流量的匹配相似度,或者可携带未知流量与样本流量是否匹配的指示信息(例如当匹配相似度大于某设定阈值时表示未知流量与样本流量匹配,当匹配相似度小雨某设定阈值时表示未知流量与样本流量不匹配),其中,接收到流量识别报告的相关设备(例如计费服务器等)可基于流量识别报告来进行相应处理(例如流量计费处理等)。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和各样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本发明一个实施例的方案中,在获取未知流量后按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于提供了一种可利用流量分析设备来进行近似流量分析的机制,有利于提高流量分析的效率;由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
为便于更好的理解和实施本发明实施例的上述方案,下面举例一些应用场景进行说明。
参见图3,图3是本发明的另一个实施例提供的另一种流量分析方法的流程示意图,如图3所示,本发明的另一个实施例提供的另一种流量分析方法可包括以下内容:
301、对网络流量A(即:未知流量)进行DPI识别。
其中,DPI识别中以基于特征字的识别技术最为基础、应用最为广泛。不同的应用通常会采用不同的协议,而各种协议都有其特殊的指纹,这些指纹可能是特定的端口、特定的字符串或者特定的比特(Bit)序列。其中,基于特征字的识别技术,正是通过识别网络流量A的数据报文中的指纹信息来确定业务流所承载的应用。根据具体检测方式的不同,基于特征字的识别技术又可细分为固定位置特征字匹配、变动位置特征字匹配和状态特征字匹配三种分支技术。DPI识别的相关机制此处不再赘述。
其中,若DPI识别成功,则执行步骤306;
若DPI识别失败,则执行步骤302。
假设,网络流量A的特征如下:
源端口1433、
目的端口2457、
源IP地址为192.168.1.2、
目的IP地址为IP192.168.1.1、
负载内容为abefgabc785551……、
负载长度为97字节、
发包速率为13ms、
网络流量A的协议为传输控制协议。
302、获取网络流量A的端口号、报文长度和负载内容。
303、分别按照端口号、报文长度和负载内容等三个维度计算出网络流量A和样本流量的相似度。
假设,样本流量的负载内容为aabcabce、偏移量为0、样本流量由传输控制协议来承载,协议名为VoIPA。假设,样本流量的端口号分布情况例如图4-a所示,图4-a中横坐标表示端口号,纵坐标表示概率。样本流量的报文长度分布情况例如图4-b和图4-c所示,其中,图4-b中横坐标表示流编号,纵坐标表示包长度,图4-c中横坐标表示上行包长分段(图中分为三段),纵坐标左表示分段出现的频率纵坐标右表示分段所占百分比。样本流量的发包速率分布情况例如图4-d和图4-e所示,其中,图4-d中横坐标表示流编号,纵坐标表示发包速率,图4-e中横坐标表示发包速率分段(图中分为5段),纵坐标左表示分段出现的频率纵坐标右表示分段所占百分比。
在本发明的一些实施例中,可基于余弦定理计算网络流量A和样本流量的负载内容的相似度。假设,网络流量A的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,网络流量A和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,网络流量A和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,也可基于最长公共子串来计算网络流量A和样本流量负载内容相似度。假设,网络流量A的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即,网络流量A和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,网络流量A和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,也还可以基于如下方式来计算网络流量A和样本流量的负载内容的相似度:计算网络流量A与样本流量的报文负载内容的字符相似度;计算网络流量A与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,将计算得到的上述乘积作为网络流量A和样本流量的报文负载内容的相似度,其中,上述字符相似度等于网络流量A与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去网络流量A与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与网络流量A不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
当然,计算网络流量A和样本流量负载内容相似度的方式并限于上述举例的方式。
在本发明一些实施例中,可基于如下举例的分段函数来计算网络流量A和样本流量的报文长度的相似度:
其中,基于上述分段函数可得到网络流量A和样本流量报文长度的相似度为0.881,因为网络流量A的报文长度x落入了第一长度区域[0,100],而第一长度区域[0,100]对应的相似度值等于0.881。其中,上述分段函数中用到分段可参考wireshark软件中所使用的分类方法。当然,计算网络流量A和样本流量的报文长度的相似度的方式并限于上述举例的方式。
在本发明一些实施例中,可基于正态分布机制来计算网络流量A和样本流量的端口的相似度。
其中,正态分布公式如下:
其中,正态分布公式具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2)。服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
假设,通过计算得出样本流量的端口号的标准差为310.2418(σ),算术平均值为2500(μ),概率密度可如下表所示:
公式 | 下限 | 上限 | 概率密度 |
μ±σ | 2189.758 | 2810.242 | 68.3% |
μ±2σ | 1879.516 | 3120.484 | 95.4% |
μ±3σ | 1569.274 | 3430.726 | 99.7% |
由于网络流量A的端口号为2457,落在[2189.758,2810.242]之间,故可得到网络流量A和样本流量的端口相似度68.3%。
当然,计算网络流量A和样本流量的端口相似度的方式并限于上述举例的方式。
304、对计算得到的各维度对应的相似度进行加权调和,以得到网络流量A与样本流量的匹配相似度。
举例来说,假设设定的负载内容相似度、报文长度相似度、端口相似度的权值分别为6、3和1,则加权调和计算出的匹配相似度如下:
匹配相似度=(PayloadSR6*LengthSR^3*PortSR^1)0.1
=(0.420466*0.881^3*0.683^1)0.1
=0.550976
当然,设定的负载内容相似度、报文长度相似度、端口相似度的权值亦可分别为3、3和1或其它值,加权调和计算出的匹配相似度的方式类似。
305、判断计算得到的匹配相似度是否大于相似度阈值。
若是,则执行步骤306;若否,则执行步骤307。
306、输出成功识别的识别结果;
假设,识别出网络流量A属于某套餐内的流量,则可通知相关设备不单独计费。
307、输出识别失败的识别结果。
其中,上述场景中,主要以按照端口号、报文长度和负载内容等三个维度计算出网络流量A和样本流量的相似度。对于按照其它维度计算出网络流量A和样本流量的相似度的场景,可以此类推。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本实施例的方案中,先将未知流量进行DPI识别,若DPI识别失败,则按照端口号、报文长度和负载内容等维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度。由于提供了一种可利用流量分析设备来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率。由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
参见图5,本发明实施例还提供一种近似匹配服务器500,可包括:
获取单元510和相似度计算单元520。
其中,获取单元510,用于获取未知流量。
相似度计算单元520,用于按照N个维度,分别计算样本流量与上述获取单元获取的上述未知流量与的相似度;对计算得到的各维度对应的相似度进行加权调,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
在本发明的一些实施例中,相似度计算单元520可具体用于,当基于深层包检测技术未能识别出上述未知流量时,按照N个维度分别计算上述未知流量与样本流量的相似度,对计算得到的各维度对应的相似度进行加权调,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
其中,相似度计算单元520可根据实际需要来选着用于识别的维度,针对不同的应用场景不同的精度要求,选择的维度可能不尽相同。举例来说,相似度计算单元520可以从下面举例的几个维度中选择至少两个维度来计算上述未知流量与样本流量的相似度:报文负载内容、报文长度、报文端口号、发包速率、上行包数量、下行包数量、上下行包数量比值、上行流量值、下行流量值、上下行流量值的比值、前M个包的流量值等。当然,本发明实施例并不限于上述举例的相似度比较维度,其它维度亦可引入。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量与样本流量的相似度的方面,相似度计算单元520可具体用于,执行如下相似度计算操作中的至少两种:
计算上述未知流量与样本流量的报文长度的相似度、
计算上述未知流量与样本流量的报文负载内容的相似度、
计算上述未知流量与样本流量的报文端口号的相似度、
计算上述未知流量与样本流量的发包速率的相似度、
计算上述未知流量与样本流量的上行包数量的相似度、
计算上述未知流量与样本流量的下行包数量的相似度、
计算上述未知流量与样本流量的上下行包数量比值的相似度、
计算上述未知流量与样本流量的上行流量值的相似度、
计算上述未知流量与样本流量的下行流量值的相似度、
计算上述未知流量与样本流量的上下行流量值的比值的相似度、
计算上述未知流量与样本流量的前M个包的流量值的相似度,
并对计算得到的至少两种的相似度进行加权调,以得到上述未知流量与样本流量的匹配相似度。
在本发明的一些实施例中,在计算上述未知流量与样本流量的报文负载内容的相似度的方面,相似度计算单元520可具体用于:
计算上述未知流量与样本流量的报文负载内容的字符相似度;
计算上述未知流量与样本流量的报文负载内容的匹配度;
计算上述匹配度的平方根与上述字符相似度的乘积,其中,该乘积为上述未知流量与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在计算上述未知流量与样本流量的报文负载内容的相似度的方面,相似度计算单元520也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在计算上述未知流量与样本流量的报文负载内容的相似度的方面,相似度计算单元520也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在计算上述未知流量与样本流量的报文长度的相似度的方面,相似度计算单元520可具体用于:将上述未知流量的报文长度除以上述样本流量的报文长度以得到商,其中,该商为上述未知流量与样本流量的报文长度的相似度;或者,确定上述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出第一长度区域对应的相似度值,其中,第一长度区域对应的相似度值为未知流量与样本流量的报文长度的相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
可以理解的是,本实施例近似匹配装置500可以用于实现上述方法实施例中的部分或全部技术方案,其各个功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,本实施例的方案中,近似匹配装置500在获取未知流量后按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中N为大于或等于2的整数。由于提供了一种可利用近似匹配装置500来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
图6为本发明提供的近似匹配服务器600的结构示意图,如图6所示,本实施例的近似匹配服务器600包括至少一个总线601、与总线601相连的至少一个处理器602以及与总线601相连的至少一个存储器603。
其中,处理器602通过总线601,调用存储器603中存储的代码以用于获取未知流量;按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
其中,通过部署,处理器602可获取网络中的多种设备的流量。例如近似匹配服务器600可为板卡或软模块,可将近似匹配服务器600嵌入到基站控制器、数据网关等网元中。或者近似匹配服务器600可作为独立设备,可采用外挂或串联等方式接入网络。
在本发明的一些实施例中,处理器602可以在当基于深层包检测技术未能识别出上述未知流量时,按照N个维度分别计算上述未知流量与样本流量的相似度,对计算得到的各维度对应的相似度进行加权调,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
在本发明的一些实施例中,若得到的样本流量与上述未知流量的匹配相似度大于设定的相似度阈值,则处理器602可输出未知流量与样本流量的匹配成功的流量识别结果(其中,该流量识别结果例如可指示出上述未知流量与样本流量的业务类型相同等,此时可按照样本流量的业务类型所对应的套餐计费方式对上述未知流量进行计费。例如存在Fk1套餐业务,针对用户所有访问Fk1的流量免费,Fk1的外挂视频流量和广告流量单独计费,其它业务场景以此类推),此外,若得到的样本流量与上述未知流量的匹配相似度小于设定的相似度阈值,则处理器602可输出未知流量与样本流量的匹配失败的流量识别结果。
其中,处理器602可根据实际需要来选着用于识别的维度,针对不同的应用场景不同的精度要求,选择的维度可能不尽相同。举例来说,处理器602可以从下面举例的几个维度中选择至少两个维度来计算上述未知流量与样本流量的相似度:报文负载内容、报文长度、报文端口号、发包速率、上行包数量、下行包数量、上下行包数量比值、上行流量值、下行流量值、上下行流量值的比值、前M个包的流量值等。当然,本发明实施例并不限于上述举例的相似度比较维度,其它维度亦可引入。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量与样本流量的相似度的方面,处理器602可具体用于:执行如下相似度计算操作中的至少两种:
计算上述未知流量与样本流量的报文长度的相似度、
计算上述未知流量与样本流量的报文负载内容的相似度、
计算上述未知流量与样本流量的报文端口号的相似度、
计算上述未知流量与样本流量的发包速率的相似度、
计算上述未知流量与样本流量的上行包数量的相似度、
计算上述未知流量与样本流量的下行包数量的相似度、
计算上述未知流量与样本流量的上下行包数量比值的相似度、
计算上述未知流量与样本流量的上行流量值的相似度、
计算上述未知流量与样本流量的下行流量值的相似度、
计算上述未知流量与样本流量的上下行流量值的比值的相似度、
计算上述未知流量与样本流量的前M个包的流量值的相似度。
在实际应用中,可采用符合本领域计算逻辑的多种方式,按照相应维度计算上述未知流量与样本流量的相似度。例如,在计算上述未知流量与样本流量的报文负载内容的相似度的方面,处理器602可具体用于:计算上述未知流量与样本流量的报文负载内容的字符相似度;计算上述未知流量与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,上述乘积为上述未知流量与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,处理器602也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,处理器602也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在计算上述未知流量与样本流量的报文长度的相似度的方面。处理器602可具体用于:将上述未知流量的报文长度除以上述样本流量的报文长度以得到商,该商为上述未知流量与样本流量的报文长度的相似度;或者确定上述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出第一长度区域对应的相似度值,其中,第一长度区域对应的相似度值为未知流量与样本流量的报文长度的相似度。
其中,其它维度的相似度计算方式可类推,此处不再一一举例。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
可以理解的是,本实施例近似匹配服务器600可以用于实现上述方法实施例中的部分或全部技术方案,其各个功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,本发明实施例的方案中,处理器602在获取未知流量后按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于提供了利用近似匹配服务器600来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图7,本发明实施例还提供一种通信系统,包括:
通信网元710和与该通信网元连接的流量分析服务器720。
其中,通信网元710用于接收未知流量;
其中,流量分析服务器720,用于获取通信网元710接收的未知流量或者获取通信网元710接收的未知流量的镜像;按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量或未知流量的镜像与样本流量的匹配相似度,上述N为大于或等于2的整数。
流量分析服务器720可嵌入到通信网元710(例如基站控制器、数据网关等网元)中。或者流量分析服务器720可作为独立设备,可采用外挂或串联等方式接入网络中,以与通信网元710连接。
其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
可以理解,本实施例的通信网元例如可为基站、基站控制器、网关、各种数据服务器等网络中可用于传输业务流量的网元。
在本发明一些实施例中,流量分析服务器720可以具体用于,在当基于深层包检测技术未能识别出上述未知流量或未知流量的镜像时,按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度,对计算得到的各维度对应的相似度进行加权调,以得到上述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
在本发明一些实施例中,若得到的样本流量与上述未知流量或未知流量的镜像的匹配相似度大于设定的相似度阈值,则流量分析服务器720可向通信网元710或其它通信网元输出未知流量或未知流量的镜像与样本流量的匹配成功的流量识别结果(其中,该流量识别结果例如可指示出上述未知流量或未知流量的镜像与样本流量的业务类型相同等,此时可按照样本流量的业务类型所对应的套餐计费方式对上述未知流量或未知流量的镜像进行计费。如存在Fk1套餐业务,针对用户所有访问Fk1的流量免费,Fk1的外挂视频流量和广告流量单独计费,其它业务场景以此类推),此外,若得到的样本流量与上述未知流量或未知流量的镜像的匹配相似度小于设定的相似度阈值,则流量分析服务器720可向通信网元710或其它通信网元输出未知流量或未知流量的镜像与样本流量的匹配失败的流量识别结果。
其中,可根据实际需要来选着用于识别的维度,针对不同的应用场景不同的精度要求,选择的维度可能不尽相同。举例来说,可以从下面举例的几个维度中选择至少两个维度来计算上述未知流量或未知流量的镜像与样本流量的相似度:报文负载内容、报文长度、报文端口号、发包速率、上行包数量、下行包数量、上下行包数量比值、上行流量值、下行流量值、上下行流量值的比值、前M个包的流量值等。当然,本发明实施例并不限于上述举例的相似度比较维度,其它维度亦可引入。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度的方面,流量分析服务器720可具体用于执行如下相似度计算操作中的至少两种:
计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算上述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
在实际应用中,可采用符合本领域计算逻辑的多种方式,按照相应维度计算上述未知流量或未知流量的镜像与样本流量的相似度。例如,在计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,流量分析服务器720可具体用于:计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,该乘积为上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量或未知流量的镜像不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,流量分析服务器720也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,流量分析服务器720也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在上述计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,流量分析服务器720可具体用于:将上述未知流量或未知流量的镜像的报文长度除以上述样本流量的报文长度以得到商,其中,上述商为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定上述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出第一长度区域对应的相似度值,其中,第一长度区域对应的相似度值为未知流量或未知流量的镜像与样本流量的报文长度的相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
其中,其它维度的相似度计算方式可类推,此处不再一一举例。
由上可见,本实施例方案中,流量分析服务器720从通信网元710获取未知流量后,按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于可利用流量分析服务器来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图8,本发明实施例还提供一种流量分析服务器800,可包括:深层包检测识别系统810和近似匹配系统820。
深层包检测识别系统810,用于获取未知流量,基于深层包检测技术对所述未知流量进行识别;
近似匹配系统820,用于当深层包检测识别系统810基于深层包检测技术未能识别出所述未知流量时,按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
在本发明的一些实施例中,近似匹配系统820按照N个维度分别计算所述未知流量与样本流量的相似度可包括:执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度。
在本发明的一些实施例中,在计算所述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配系统820可具体用于:计算所述未知流量与样本流量的报文负载内容的字符相似度;计算所述未知流量与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配系统820也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配系统820也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,计算所述未知流量与样本流量的报文长度的相似度的方面,近似匹配系统820可具体用于:将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出第一长度区域对应的相似度值,其中,第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本发明实施例方案中,深层包检测识别系统810获取未知流量后,基于深层包检测技术对所述未知流量进行识别,当深层包检测识别系统810基于深层包检测技术未能识别出未知流量时,近似匹配系统820按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于提供了一种可利用设备来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图9,本发明实施例还提供一种通信系统,可包括:
通信网元910和流量分析服务器920。
其中,通信网元910用于接收未知流量;
流量分析服务器920用于,获取通信网元910接收的获取未知流量或者获取通信网元910接收的未知流量的镜像,基于深层包检测技术对上述未知流量或未知流量的镜像进行识别;当上述深层包检测识别系统基于深层包检测技术未能识别出上述未知流量或未知流量的镜像时,按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,上述N为大于或等于2的整数,其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,上述n1、n2和n3为正整数。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
可以理解,本实施例的通信网元例如可为基站、基站控制器、网关、各种数据服务器等网络中可用于传输业务流量的网元。
在本发明的一些实施例中,流量分析服务器920按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度包括:执行如下相似度计算操作中的至少两种:
计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算上述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,流量分析服务器920可具体用于:计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,计算得到的上述乘积为上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量或未知流量的镜像不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,流量分析服务器920也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,流量分析服务器920也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,流量分析服务器920可具体用于:将上述未知流量或未知流量的镜像的报文长度除以上述样本流量的报文长度以得到商,其中,上述商为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定上述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,上述第一长度区域对应的相似度值为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
可以理解的是,上述未知流量和未知流量的镜像的内容基本相同,上述未知流量与样本流量的匹配相似度,等于上述未知流量的镜像与样本流量的匹配相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本发明实施例方案中,流量分析服务器920从通信网元910获取未知流量后,基于深层包检测技术对上述未知流量进行识别,当基于深层包检测技术未能识别出未知流量时,流量分析服务器920按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于可利用设备来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图10、本发明实施例还提供一种通信系统,可包括:
通信网元1010和近似匹配服务器1020,
其中,通信网元1010用于接收未知流量,基于深层包检测技术对上述未知流量进行识别,若未能识别出上述未知流量,向近似匹配服务器1020发送未能识别出的上述未知流量或者上述未能识别出的上述未知流量的镜像;
近似匹配服务器1020用于,接收来自通信网元1010的未能识别出的上述未知流量或所述未知流量的镜像,按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,上述N为大于或等于2的整数,其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,上述n1、n2、n3为正整数。
可以理解的是,上述未知流量和未知流量的镜像的内容基本相同,上述未知流量与样本流量的匹配相似度,等于上述未知流量的镜像与样本流量的匹配相似度。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
可以理解,本实施例的通信网元例如可为基站、基站控制器、网关、各种数据服务器等网络中可用于传输业务流量的网元。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度的方面,近似匹配服务器1020可具体用于:执行如下相似度计算操作中的至少两种:
计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算上述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,近似匹配服务器1020可具体用于:计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,计算得到的上述乘积为上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量或未知流量的镜像不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配服务器1020也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配服务器1020也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,近似匹配服务器1020可具体用于,将上述未知流量或未知流量的镜像的报文长度除以上述样本流量的报文长度以得到商,其中,上述商为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定上述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,上述第一长度区域对应的相似度值为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本发明实施例的方案中,通信网元1010接到未知流量后,基于深层包检测技术对上述未知流量进行识别,当基于深层包检测技术未能识别出未知流量时,近似匹配服务器1020按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于可利用设备来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图11,本发明实施例还提供一种通信系统,可包括:
通信网元1110和深层包检测识别服务器1120,
其中,通信网元1110用于接收未知流量;
上述深层包检测识别服务器1120,用于获取通信网元1110接收的未知流量或者获取通信网元1110接收的未知流量的镜像;基于深层包检测技术对来自通信网元1110的上述未知流量进行识别,若未能识别出上述未知流量,向通信网元1110发送未能识别出的上述未知流量或未能识别出的上述未知流量的镜像;
通信网元1110还用于,接收来自深层包检测识别服务器1120的上述未能识别出的上述未知流量或未知流量的镜像,按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,上述N为大于或等于2的整数,其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,上述n1、n2、n3为正整数。
可以理解的是,上述未知流量和未知流量的镜像的内容基本相同,上述未知流量与样本流量的匹配相似度,等于上述未知流量的镜像与样本流量的匹配相似度。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
可以理解,本实施例通信网元1110例如可为基站、基站控制器、网关或各种数据服务器等网络中可用于传输业务流量的网元。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度的方面,通信网元1110可具体用于:执行如下相似度计算操作中的至少两种:
计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算上述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,通信网元1110可具体用于,计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,计算得到的上述乘积为上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量或未知流量的镜像不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,通信网元1110也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,通信网元1110也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,通信网元1110可具体用于:将上述未知流量或未知流量的镜像的报文长度除以上述样本流量的报文长度以得到商,其中,上述商为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定上述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,上述第一长度区域对应的相似度值为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本发明实施例的方案中,深层包检测识别服务器1120,用于从通信网元1110获取未知流量;基于深层包检测技术对来自通信网元1110的上述未知流量进行识别,若未能识别出上述未知流量,向通信网元1110发送未能识别出的上述未知流量,通信网元1110接到未知流量后按N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于可利用设备来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图12,本发明实施例提供还一种通信系统,可包括:
通信网元1210、深层包检测识别服务器1220和近似匹配服务器1230,
其中,通信网元1210,用于接收未知流量;
深层包检测识别服务器1220,用于获取通信网元1210接收的未知流量或者获取通信网元1210接收的未知流量的镜像;基于深层包检测技术对通信网元1210的上述未知流量或未知流量的镜像进行识别,若未能识别出上述未知流量或未知流量的镜像,向近似匹配服务器1230发送未能识别出的上述未知流量或未能识别出的上述未知流量的镜像;
近似匹配服务器1230,用于接收来自深层包检测识别服务器1220的上述未能识别出的上述未知流量或未知流量的镜像,按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,上述n1、n2、n3为正整数。
可以理解的是,上述未知流量和未知流量的镜像的内容基本相同,上述未知流量与样本流量的匹配相似度,等于上述未知流量的镜像与样本流量的匹配相似度。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
可以理解,本实施例的通信网元例如可为基站、基站控制器、网关、各种数据服务器等网络中可用于传输业务流量的网元。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量或未知流量的镜像与样本流量的相似度的方面,近似匹配服务器1230可具体用于:执行如下相似度计算操作中的至少两种:
计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算上述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算上述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算上述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
在本发明的一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,近似匹配服务器1230可具体用于:计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算上述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,计算得到的上述乘积为上述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量或未知流量的镜像不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配服务器1230也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,近似匹配服务器1230也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明一些实施例中,在计算上述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,近似匹配服务器1230可具体用于:将上述未知流量或未知流量的镜像的报文长度除以上述样本流量的报文长度以得到商,其中,上述商为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定上述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,上述第一长度区域对应的相似度值为上述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
由上可见,本发明实施例的方案中,深层包检测识别服务器1220,用于从通信网元1210获取未知流量;基于深层包检测技术对来自通信网元1010的上述未知流量进行识别,若未能识别出上述未知流量,向近似匹配服务器1230发送未能识别出的上述未知流量,近似匹配服务器1230接到未知流量后按N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于可利用设备来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
图13描述了本发明实施例提供的一种近似匹配服务器1300的结构,近似匹配服务器1300包括:至少1个处理器1301,例如CPU,至少一个网络接口1304或者其他用户接口1303,存储器1305,至少一个通信总线1302。通信总线1302用于实现这些组件之间的连接通信。该近似匹配服务器1300可选的包含用户接口1303,包括显示器,键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触感显示屏)。存储器1305可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1305可选的可以包含至少一个位于远离前述处理器1301的存储装置。
在一些实施方式中,存储器1305存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统13051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序模块13052,包含各种应用程序,用于实现各种应用业务。
应用程序模块13052中包括但不限于获取单元510和相似度计算单元520。
应用程序模块13052中各模块的具体实现参见图5所示实施例中的相应模块,在此不赘述。
在本发明一些实施例中,通过调用存储器1305存储的程序或指令,处理器1301可用于获取未知流量;按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
在本发明的一些实施例中,处理器1301可以在当基于深层包检测技术未能识别出上述未知流量时,按照N个维度分别计算上述未知流量与样本流量的相似度,对计算得到的各维度对应的相似度进行加权调,以得到上述未知流量与样本流量的匹配相似度,其中,上述N为大于或等于2的整数。
其中,上述N个维度可包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,上述n1、n2、n3为正整数。
其中,与流量的报文相关的n1个维度是将流量中报文(例如报文头和/或报文负载)作为分析角度的n1个维度,与流量的报文相关的n1个维度例如可包括:以流量中报文的长度为维度、以流量中报文的负载内容为维度、以流量中报文的端口号为维度等。
其中,与流量所对应的会话相关的n2个维度是将流量所对应的会话作为分析角度的n2个维度,与流量所对应的会话相关的n2个维度例如可包括:以流量所对应会话的上行包数量为维度、以流量所对应会话的下行包数量为维度、以流量所对应会话的上下行包数量比值为维度、以流量所对应会话的上行流量值为维度、以流量所对应会话的下行流量值为维度、以流量所对应会话的上下行流量值比值为维度等。
与流量自身相关的n3个维度是将流量本身作为分析角度的n3个维度,这n3个维度与流量中各报文的负载无关、也与流量所对应的会话无关,与流量自身相关的n3个维度例如可包括以流量前M个包的流量值为维度、以流量的发包速率为维度等,以此类推。
在本发明的一些实施例中,若得到的样本流量与上述未知流量的匹配相似度大于设定的相似度阈值,则处理器1301可输出未知流量与样本流量的匹配成功的流量识别结果(其中,该流量识别结果例如可指示出上述未知流量与样本流量的业务类型相同等,此时可按照样本流量的业务类型所对应的套餐计费方式对上述未知流量进行计费。例如存在Fk1套餐业务,针对用户所有访问Fk1的流量免费,Fk1的外挂视频流量和广告流量单独计费,其它业务场景以此类推),此外,若得到的样本流量与上述未知流量的匹配相似度小于设定的相似度阈值,则处理器1301可输出未知流量与样本流量的匹配失败的流量识别结果。
其中,处理器1301可根据实际需要来选着用于识别的维度,针对不同的应用场景不同的精度要求,选择的维度可能不尽相同。举例来说,处理器1301可以从下面举例的几个维度中选择至少两个维度来计算上述未知流量与样本流量的相似度:报文负载内容、报文长度、报文端口号、发包速率、上行包数量、下行包数量、上下行包数量比值、上行流量值、下行流量值、上下行流量值的比值、前M个包的流量值等。当然,本发明实施例并不限于上述举例的相似度比较维度,其它维度亦可引入。
在本发明的一些实施例中,在按照N个维度分别计算上述未知流量与样本流量的相似度的方面,处理器1301可具体用于:执行如下相似度计算操作中的至少两种:
计算上述未知流量与样本流量的报文长度的相似度、
计算上述未知流量与样本流量的报文负载内容的相似度、
计算上述未知流量与样本流量的报文端口号的相似度、
计算上述未知流量与样本流量的发包速率的相似度、
计算上述未知流量与样本流量的上行包数量的相似度、
计算上述未知流量与样本流量的下行包数量的相似度、
计算上述未知流量与样本流量的上下行包数量比值的相似度、
计算上述未知流量与样本流量的上行流量值的相似度、
计算上述未知流量与样本流量的下行流量值的相似度、
计算上述未知流量与样本流量的上下行流量值的比值的相似度、
计算上述未知流量与样本流量的前M个包的流量值的相似度。
在实际应用中,可采用符合本领域计算逻辑的多种方式,按照相应维度计算上述未知流量与样本流量的相似度。例如,在计算上述未知流量与样本流量的报文负载内容的相似度的方面,处理器1301可具体用于:计算上述未知流量与样本流量的报文负载内容的字符相似度;计算上述未知流量与样本流量的报文负载内容的匹配度;计算上述匹配度的平方根与上述字符相似度的乘积,其中,上述乘积为上述未知流量与样本流量的报文负载内容的相似度,其中,上述字符相似度等于上述未知流量与样本流量的报文负载内容的相同字符数,除以上述样本流量的报文负载内容的总字符数;上述匹配度等于1减去上述未知流量与样本流量的报文负载内容的区别度,其中,上述区别度等于上述样本流量的报文负载内容中与上述未知流量不相同的字符数,除以上述样本流量的报文负载内容的总字符数。
在本发明的另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,处理器1301也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,比较两个字符串的相似度sim(s1,s2),假设字符串s1和字符串s2中含有n个不同的字符,其分别为c1,c2,...cn,判断字符串的相似度可转换为对两个字符串对应的向量v1和v2之间夹角大小的判断,余弦值越大,则表示其向量v1和v2之间的夹角越小,字符串s1与字符串s2的相似度越大,即,未知流量和样本流量的负载内容相似度越大;相反,余弦值越小,则表示其向量v1和v2之间的夹角越大,字符串s1与字符串s2的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明另一些实施例中,在上述计算上述未知流量与样本流量的报文负载内容的相似度的方面,处理器1301也可具体用于:假设未知流量的负载内容为字符串s1,样本流量的负载内容为字符串s2,可用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若匹配(相同)则为1,否则为0,然后,求出矩阵中对角线最长的1个序列,其对应的位置就是最长匹配子串的位置,例如最长公共子串越长,则表示两个字符串的相似度越大,即未知流量和样本流量的负载内容的相似度越大,相反,最长公共子串越短,则可认为两个字符串的相似度越小,即,未知流量和样本流量的负载内容的相似度越小。
在本发明的一些实施例中,在计算上述未知流量与样本流量的报文长度的相似度的方面,处理器1301可具体用于:将上述未知流量的报文长度除以上述样本流量的报文长度以得到商,该商为上述未知流量与样本流量的报文长度的相似度;或者确定上述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,与第一长度区域对应的相似度值,为上述未知流量与样本流量的报文长度的相似度。
其中,其它维度的相似度计算方式可类推,此处不再一一举例。
可以理解的是,本实施例近似匹配服务器1300可以用于实现上述方法实施例中的部分或全部技术方案,其各个功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
可以理解的是,上述举例主要是针对某条未知流量和样本流量来进行匹配相似度计算的,对于存着多个样本流量的场景,可按类似方式,分别计算未知流量和各个样本流量的匹配相似度。同理,对应存着多条未知流量的场景,亦可按类似方式,分别计算各未知流量和样本流量的匹配相似度,具体过程此处不再赘述。
可见,采用上述方案后,处理器1301在获取未知流量后按照N个维度分别计算上述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到未知流量与样本流量的匹配相似度,其中,N为大于或等于2的整数。由于提供了利用近似匹配服务器1300来进行近似流量分析的机制,可提供在线分析能力,有利于提升自动化率,减少分析时间,有利于提高流量分析的效率,由于是按照N个维度分别计算上述未知流量与样本流量的相似度,并对N个维度得到的相似度进行综合,N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度,相对于常规单维度匹配机制,本发明实施例提出的技术方案从与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度和与流量自身相关的n3个维度等极具代表性的维度中选择N个维度来进行组合分析,这样就有利于极大的提高流量分析的准确性,进而有利于为相关业务计费提供有效支撑。
参见图14-a,本发明实施例还提供一种通信网元1400,包括收发信机1401和与收发信机耦合的用于进行网络通信的处理器1403,通信网元1400还可包括:与收发信机1401耦合的近似识别引擎1402,其中,近似识别引擎1402例如可为近似匹配装置500。
在本发明的一些实施例中,如图14-b所示,通信网元1400还可包括与收发信机1401耦合的DPI识别引擎1404,其中,DPI识别引擎1404可用于获取未知流量,基于深层包检测技术对该未知流量进行识别。
参见图15-a,本发明实施例还提供一种流量分析服务器1500,流量分析服务器1500可包括:用于接收未知流量或未知流量的镜像的接收器1501,与接收器1501耦合的近似识别引擎1502,以及用于发送所述未知流量或未知流量的镜像或所述近似识别引擎1502输出的未知流量或未知流量的镜像与样本流量的匹配相似度的发送器1503,其中,近似识别引擎1502例如可为近似匹配装置500。
在本发明的一些实施例中,如图15-b所示,流量分析服务器1500还可包括与接收器1501耦合的DPI识别引擎1504,其中,DPI识别引擎1504可用于获取未知流量或未知流量的镜像,基于深层包检测技术对该未知流量或未知流量的镜像进行识别。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的近似匹配方法或流量分析方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (27)
1.一种近似匹配方法,其特征在于,包括:
获取未知流量;
按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
2.根据权利要求1所述的方法,其特征在于,所述按照N个维度分别计算所述未知流量与样本流量的相似度包括:当基于深层包检测技术未能识别出所述未知流量时,按照所述N个维度分别计算所述未知流量与样本流量的相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述按照N个维度分别计算所述未知流量与样本流量的相似度,包括:执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度。
4.根据权利要求3所述的方法,其特征在于,所述计算所述未知流量与样本流量的报文负载内容的相似度,包括:
计算所述未知流量与样本流量的报文负载内容的字符相似度;
计算所述未知流量与样本流量的报文负载内容的匹配度;
计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数。
5.根据权利要求3或4所述的方法,其特征在于,所述计算所述未知流量与样本流量的报文长度的相似度,包括:将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或者,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
6.一种近似匹配装置,其特征在于,包括:
获取单元,用于获取未知流量;
相似度计算单元,用于按照N个维度,分别计算样本流量与所述获取单元获取的所述未知流量与的相似度;对计算得到的各维度对应的相似度进行加权调,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
7.根据权利要求6所述的近似匹配装置,其特征在于,
所述相似度计算单元,具体用于当基于深层包检测技术未能识别出所述未知流量时,按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
8.根据权利要求6或7所述的近似匹配装置,其特征在于,在所述按照所述N个维度分别计算所述未知流量与样本流量的相似度的方面,所述相似度计算单元具体用于,执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度,
对计算得到的至少两种的相似度进行加权调,以得到所述未知流量与样本流量的匹配相似度。
9.根据权利要求8所述的近似匹配装置,其特征在于,其中,在所述计算所述未知流量与样本流量的报文负载内容的相似度的方面,所述相似度计算单元具体用于,
计算所述未知流量与样本流量的报文负载内容的字符相似度;
计算所述未知流量与样本流量的报文负载内容的匹配度;
计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数。
10.根据权利要求8所述的近似匹配装置,其特征在于,其中,在所述计算所述未知流量与样本流量的报文长度的相似度的方面,所述相似度计算单元具体用于,将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或者,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
11.一种流量分析服务器,其特征在于,包括:
深层包检测识别系统,用于获取未知流量,基于深层包检测技术对所述未知流量进行识别;
近似匹配系统,用于当所述深层包检测识别系统基于深层包检测技术未能识别出所述未知流量时,按照N个维度分别计算所述未知流量与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
12.根据权利要求11所述的流量分析服务器,其特征在于,在所述按照N个维度分别计算所述未知流量与样本流量的相似度的方面,所述近似匹配系统具体用于,执行如下相似度计算操作中的至少两种:
计算所述未知流量与样本流量的报文长度的相似度、
计算所述未知流量与样本流量的报文负载内容的相似度、
计算所述未知流量与样本流量的报文端口号的相似度、
计算所述未知流量与样本流量的发包速率的相似度、
计算所述未知流量与样本流量的上行包数量的相似度、
计算所述未知流量与样本流量的下行包数量的相似度、
计算所述未知流量与样本流量的上下行包数量比值的相似度、
计算所述未知流量与样本流量的上行流量值的相似度、
计算所述未知流量与样本流量的下行流量值的相似度、
计算所述未知流量与样本流量的上下行流量值的比值的相似度、
计算所述未知流量与样本流量的前M个包的流量值的相似度。
13.根据权利要求12所述的流量分析服务器,其特征在于,
在所述计算所述未知流量与样本流量的报文负载内容的相似度的方面,所述近似匹配系统具体用于:计算所述未知流量与样本流量的报文负载内容的字符相似度;计算所述未知流量与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,在所述计算所述未知流量与样本流量的报文长度的相似度的方面,所述近似匹配系统具体用于:将所述未知流量的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量与样本流量的报文长度的相似度;或者,确定所述未知流量的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中所述第一长度区域对应的相似度值为所述未知流量与样本流量的报文长度的相似度。
14.一种通信系统,其特征在于,包括:
通信网元和流量分析服务器,
其中,所述通信网元用于接收未知流量;
所述流量分析服务器用于,获取所述通信网元接收的未知流量或者获取所述通信网元接收的未知流量的镜像,基于深层包检测技术对所述未知流量或者所述未知流量的镜像进行识别;当基于深层包检测技术未能识别出所述未知流量或未知流量的镜像时,按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
15.根据权利要求14所述的通信系统,其特征在于,在所述按照N个维度分别计算所述未知流量或所述未知流量的镜像与样本流量的相似度的方面,所述流量分析服务器具体用于:执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
16.根据权利要求15所述的通信系统,其特征在于,
在所述计算所述未知流量或所述未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述流量分析服务器具体用于:计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或所述未知流量的镜像与样本流量的报文长度的相似度的方面,所述流量分析服务器具体用于:将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
17.一种通信系统,其特征在于,包括:
通信网元和近似匹配服务器,
其中,所述通信网元用于接收未知流量,基于深层包检测技术对所述未知流量进行识别,若未能识别出所述未知流量,向所述近似匹配服务器发送未能识别出的所述未知流量或者所述未能识别出的所述未知流量的镜像;
所述近似匹配服务器用于,接收来自所述通信网元的所述未能识别出的所述未知流量或所述未知流量的镜像,按照N个维度分别计算所述未知流量或所述未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或所述未知流量的镜像与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,所述n1、n2、n3为正整数。
18.根据权利要求17所述的通信系统,其特征在于,在所述按照N个维度分别计算所述未知流量或所述未知流量的镜像与样本流量的相似度的方面,所述近似匹配服务器具体用于,执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
19.根据权利要求18所述的通信系统,其特征在于,在所述计算所述未知流量或所述未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述近似匹配服务器具体用于,计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,所述近似匹配服务器具体用于,将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
20.一种通信系统,其特征在于,包括:
通信网元和深层包检测识别服务器,
其中,所述通信网元,用于接收未知流量;
所述深层包检测识别服务器,用于获取所述通信网元接收的未知流量或者获取所述通信网元接收的未知流量的镜像;基于深层包检测技术对来自所述通信网元的所述未知流量或未知流量的镜像进行识别,若未能识别出所述未知流量或未知流量的镜像,向所述通信网元发送未能识别出的所述未知流量或所述未能识别出的所述未知流量的镜像;
所述通信网元还用于,接收来自所述深层包检测识别服务器的所述未能识别出的所述未知流量或所述未能识别出的所述未知流量的镜像,按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,所述N为大于或等于2的整数,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述n1、n2、n3为正整数。
21.根据权利要求20所述的通信系统,其特征在于,在所述按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度的方面,所述通信网元具体用于:执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
22.根据权利要求21所述的通信系统,其特征在于,在所述计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述通信网元具体用于:计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,所述通信网元具体用于:将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
23.一种通信系统,其特征在于,包括:
通信网元、深层包检测识别服务器和近似匹配服务器,
其中,所述通信网元,用于接收未知流量;
所述深层包检测识别服务器,用于获取所述通信网元接收的未知流量或者获取所述通信网元接收的未知流量的镜像;基于深层包检测技术对所述通信网元接收的所述未知流量或未知流量的镜像进行识别,若未能识别出所述未知流量或未知流量的镜像,向所述近似匹配服务器发送所述未能识别出的所述未知流量或所述未能识别出的所述未知流量的镜像;
所述近似匹配服务器用于,接收来自所述深层包检测识别服务器的所述未能识别出的所述未知流量或者所述未能识别出的所述未知流量的镜像,按照N个维度分别计算所述未知流量或者未知流量的镜像与样本流量的相似度;对计算得到的各维度对应的相似度进行加权调和,以得到所述未知流量或未知流量的镜像与样本流量的匹配相似度,其中,所述N个维度包括如下维度中的N个维度:与流量的报文相关的n1个维度、与流量所对应的会话相关的n2个维度、与流量自身相关的n3个维度,其中,所述N为大于或等于2的整数,所述n1、n2、n3为正整数。
24.根据权利要求23所述的通信系统,其特征在于,在所述按照N个维度分别计算所述未知流量或未知流量的镜像与样本流量的相似度的方面,所述近似匹配服务器具体用于:执行如下相似度计算操作中的至少两种:
计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度、
计算所述未知流量或未知流量的镜像与样本流量的报文端口号的相似度、
计算所述未知流量或未知流量的镜像与样本流量的发包速率的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行包数量的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行包数量比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的下行流量值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的上下行流量值的比值的相似度、
计算所述未知流量或未知流量的镜像与样本流量的前M个包的流量值的相似度。
25.根据权利要求24所述的通信系统,其特征在于,在所述计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度的方面,所述近似匹配服务器具体用于,计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的字符相似度;计算所述未知流量或未知流量的镜像与样本流量的报文负载内容的匹配度;计算所述匹配度的平方根与所述字符相似度的乘积,其中,计算得到的所述乘积为所述未知流量或未知流量的镜像与样本流量的报文负载内容的相似度,其中,所述字符相似度等于所述未知流量或未知流量的镜像与样本流量的报文负载内容的相同字符数,除以所述样本流量的报文负载内容的总字符数;所述匹配度等于1减去所述未知流量或未知流量的镜像与样本流量的报文负载内容的区别度,其中,所述区别度等于所述样本流量的报文负载内容中与所述未知流量或未知流量的镜像不相同的字符数,除以所述样本流量的报文负载内容的总字符数;
和/或,
在所述计算所述未知流量或未知流量的镜像与样本流量的报文长度的相似度的方面,所述近似匹配服务器具体用于:将所述未知流量或未知流量的镜像的报文长度除以所述样本流量的报文长度以得到商,其中,所述商为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度;或者,确定所述未知流量或未知流量的镜像的报文长度所落入的第一长度区域,根据长度区域与相似度值的对应关系,确定出所述第一长度区域对应的相似度值,其中,所述第一长度区域对应的相似度值为所述未知流量或未知流量的镜像与样本流量的报文长度的相似度。
26.一种流量分析服务器,其特征在于,所述流量分析服务器包括:
用于接收未知流量或未知流量的镜像的接收器,与所述接收器耦合的近似识别引擎,以及用于发送所述未知流量或未知流量的镜像或所述近似识别引擎输出的所述未知流量或未知流量的镜像与样本流量的匹配相似度的发送器,其中,所述近似识别引擎为如权利要求6至10任一项所述的近似匹配装置。
27.一种通信网元,包括收发信机和与所述收发信机耦合的用于进行网络通信的处理器,其特征在于,所述通信设备还包括:与所述收发信机耦合的近似识别引擎,其中,所述近似识别引擎为如权利要求6至10任一项所述的近似匹配装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310306887.2A CN103414600B (zh) | 2013-07-19 | 2013-07-19 | 近似匹配方法和相关设备及通信系统 |
PCT/CN2014/072536 WO2015007095A1 (zh) | 2013-07-19 | 2014-02-26 | 近似匹配方法和相关设备及通信系统 |
EP14787086.9A EP2849384B1 (en) | 2013-07-19 | 2014-02-26 | Approximate matching method and related device, and communication system |
US14/534,433 US20150131445A1 (en) | 2013-07-19 | 2014-11-06 | Similarity matching method and related device and communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310306887.2A CN103414600B (zh) | 2013-07-19 | 2013-07-19 | 近似匹配方法和相关设备及通信系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103414600A true CN103414600A (zh) | 2013-11-27 |
CN103414600B CN103414600B (zh) | 2017-03-08 |
Family
ID=49607586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310306887.2A Active CN103414600B (zh) | 2013-07-19 | 2013-07-19 | 近似匹配方法和相关设备及通信系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150131445A1 (zh) |
EP (1) | EP2849384B1 (zh) |
CN (1) | CN103414600B (zh) |
WO (1) | WO2015007095A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103701669A (zh) * | 2013-12-30 | 2014-04-02 | 北京邮电大学 | 一种检测业务类型的方法及装置 |
WO2015007095A1 (zh) * | 2013-07-19 | 2015-01-22 | 华为技术有限公司 | 近似匹配方法和相关设备及通信系统 |
CN104954365A (zh) * | 2015-05-27 | 2015-09-30 | 北京亿赛通网络安全技术有限公司 | 一种快速自动识别加密网络行为的方法 |
CN106937268A (zh) * | 2017-05-16 | 2017-07-07 | 青岛宇硕云联信息科技有限公司 | 一种流量控制系统及方法 |
CN108958648A (zh) * | 2018-05-08 | 2018-12-07 | 广东睿江云计算股份有限公司 | 一种云磁盘存放优化的方法 |
CN109492655A (zh) * | 2017-09-11 | 2019-03-19 | 中国移动通信有限公司研究院 | 一种特征提取方法、装置及终端 |
CN109756512A (zh) * | 2019-02-14 | 2019-05-14 | 深信服科技股份有限公司 | 一种流量应用识别方法、装置、设备及存储介质 |
CN110008385A (zh) * | 2018-04-20 | 2019-07-12 | 武汉绿色网络信息服务有限责任公司 | 一种基于字符串的快速匹配识别方法和装置 |
CN112468410A (zh) * | 2020-11-05 | 2021-03-09 | 武汉绿色网络信息服务有限责任公司 | 一种增强网络流量特征准确率的方法和装置 |
CN115866582A (zh) * | 2022-11-29 | 2023-03-28 | 中国联合网络通信集团有限公司 | 设备识别方法、装置、设备及存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10116493B2 (en) | 2014-11-21 | 2018-10-30 | Cisco Technology, Inc. | Recovering from virtual port channel peer failure |
US10333828B2 (en) | 2016-05-31 | 2019-06-25 | Cisco Technology, Inc. | Bidirectional multicasting over virtual port channel |
US11509501B2 (en) * | 2016-07-20 | 2022-11-22 | Cisco Technology, Inc. | Automatic port verification and policy application for rogue devices |
US10193750B2 (en) | 2016-09-07 | 2019-01-29 | Cisco Technology, Inc. | Managing virtual port channel switch peers from software-defined network controller |
US10547509B2 (en) | 2017-06-19 | 2020-01-28 | Cisco Technology, Inc. | Validation of a virtual port channel (VPC) endpoint in the network fabric |
CN109684899A (zh) * | 2017-10-18 | 2019-04-26 | 大猩猩科技股份有限公司 | 一种基于在线学习的人脸辨识方法与系统 |
CN112348421A (zh) * | 2019-08-08 | 2021-02-09 | 北京国双科技有限公司 | 一种数据处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030097439A1 (en) * | 2000-10-23 | 2003-05-22 | Strayer William Timothy | Systems and methods for identifying anomalies in network data streams |
US20060050704A1 (en) * | 2004-07-14 | 2006-03-09 | Malloy Patrick J | Correlating packets |
CN101741686A (zh) * | 2008-11-13 | 2010-06-16 | 天津比蒙新帆信息技术有限公司 | 一种基于数学建模技术应用于p2p网络的流量识别与控制的方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002071227A1 (en) * | 2001-03-01 | 2002-09-12 | Cyber Operations, Llc | System and method for anti-network terrorism |
US7917299B2 (en) * | 2005-03-03 | 2011-03-29 | Washington University | Method and apparatus for performing similarity searching on a data stream with respect to a query string |
CN1741526A (zh) * | 2005-09-05 | 2006-03-01 | 北京启明星辰信息技术有限公司 | 网络异常流量的检测方法及系统 |
US7580974B2 (en) * | 2006-02-16 | 2009-08-25 | Fortinet, Inc. | Systems and methods for content type classification |
US7644080B2 (en) * | 2006-09-19 | 2010-01-05 | Netlogic Microsystems, Inc. | Method and apparatus for managing multiple data flows in a content search system |
US7873054B2 (en) * | 2007-07-26 | 2011-01-18 | Hewlett-Packard Development Company, L.P. | Pattern matching in a network flow across multiple packets |
JP5536280B2 (ja) * | 2010-05-19 | 2014-07-02 | アルカテル−ルーセント | アプリケーションプロトコルを識別するための方法および装置 |
US20140334304A1 (en) * | 2013-05-13 | 2014-11-13 | Hui Zang | Content classification of internet traffic |
CN103414600B (zh) * | 2013-07-19 | 2017-03-08 | 华为技术有限公司 | 近似匹配方法和相关设备及通信系统 |
-
2013
- 2013-07-19 CN CN201310306887.2A patent/CN103414600B/zh active Active
-
2014
- 2014-02-26 EP EP14787086.9A patent/EP2849384B1/en active Active
- 2014-02-26 WO PCT/CN2014/072536 patent/WO2015007095A1/zh active Application Filing
- 2014-11-06 US US14/534,433 patent/US20150131445A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030097439A1 (en) * | 2000-10-23 | 2003-05-22 | Strayer William Timothy | Systems and methods for identifying anomalies in network data streams |
US20060050704A1 (en) * | 2004-07-14 | 2006-03-09 | Malloy Patrick J | Correlating packets |
CN101741686A (zh) * | 2008-11-13 | 2010-06-16 | 天津比蒙新帆信息技术有限公司 | 一种基于数学建模技术应用于p2p网络的流量识别与控制的方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015007095A1 (zh) * | 2013-07-19 | 2015-01-22 | 华为技术有限公司 | 近似匹配方法和相关设备及通信系统 |
CN103701669B (zh) * | 2013-12-30 | 2017-06-20 | 北京邮电大学 | 一种检测业务类型的方法及装置 |
CN103701669A (zh) * | 2013-12-30 | 2014-04-02 | 北京邮电大学 | 一种检测业务类型的方法及装置 |
CN104954365A (zh) * | 2015-05-27 | 2015-09-30 | 北京亿赛通网络安全技术有限公司 | 一种快速自动识别加密网络行为的方法 |
CN104954365B (zh) * | 2015-05-27 | 2018-10-16 | 北京亿赛通网络安全技术有限公司 | 一种快速自动识别加密网络行为的方法 |
CN106937268B (zh) * | 2017-05-16 | 2020-05-22 | 青岛宇硕云联信息科技有限公司 | 一种流量控制系统及方法 |
CN106937268A (zh) * | 2017-05-16 | 2017-07-07 | 青岛宇硕云联信息科技有限公司 | 一种流量控制系统及方法 |
CN109492655A (zh) * | 2017-09-11 | 2019-03-19 | 中国移动通信有限公司研究院 | 一种特征提取方法、装置及终端 |
CN110008385B (zh) * | 2018-04-20 | 2020-12-22 | 武汉绿色网络信息服务有限责任公司 | 一种基于字符串的快速匹配识别方法和装置 |
CN110008385A (zh) * | 2018-04-20 | 2019-07-12 | 武汉绿色网络信息服务有限责任公司 | 一种基于字符串的快速匹配识别方法和装置 |
CN110083746A (zh) * | 2018-04-20 | 2019-08-02 | 武汉绿色网络信息服务有限责任公司 | 一种基于字符串的快速匹配识别方法和装置 |
CN110083746B (zh) * | 2018-04-20 | 2021-01-22 | 武汉绿色网络信息服务有限责任公司 | 一种基于字符串的快速匹配识别方法和装置 |
CN108958648A (zh) * | 2018-05-08 | 2018-12-07 | 广东睿江云计算股份有限公司 | 一种云磁盘存放优化的方法 |
CN109756512A (zh) * | 2019-02-14 | 2019-05-14 | 深信服科技股份有限公司 | 一种流量应用识别方法、装置、设备及存储介质 |
CN109756512B (zh) * | 2019-02-14 | 2021-08-13 | 深信服科技股份有限公司 | 一种流量应用识别方法、装置、设备及存储介质 |
CN112468410A (zh) * | 2020-11-05 | 2021-03-09 | 武汉绿色网络信息服务有限责任公司 | 一种增强网络流量特征准确率的方法和装置 |
CN112468410B (zh) * | 2020-11-05 | 2021-10-22 | 武汉绿色网络信息服务有限责任公司 | 一种增强网络流量特征准确率的方法和装置 |
CN115866582A (zh) * | 2022-11-29 | 2023-03-28 | 中国联合网络通信集团有限公司 | 设备识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP2849384A4 (en) | 2015-08-12 |
US20150131445A1 (en) | 2015-05-14 |
EP2849384A1 (en) | 2015-03-18 |
CN103414600B (zh) | 2017-03-08 |
WO2015007095A1 (zh) | 2015-01-22 |
EP2849384B1 (en) | 2017-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103414600A (zh) | 近似匹配方法和相关设备及通信系统 | |
CN102694861B (zh) | 一种基于云技术的终端应用软件分类方法、装置及系统 | |
CN105553769A (zh) | 一种数据采集分析系统和方法 | |
CN110096318A (zh) | 一种基于移动边缘计算的任务卸载方法及装置 | |
CN105023165A (zh) | 社交网络平台中投放任务的控制方法、装置及系统 | |
CN110390584A (zh) | 一种异常用户的识别方法、识别装置及可读存储介质 | |
CN101142739A (zh) | 无线通信系统中进行信道评估的方法和装置 | |
CN109388674A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
US11334758B2 (en) | Method and apparatus of data processing using multiple types of non-linear combination processing | |
CN110750658B (zh) | 一种媒体资源的推荐方法、服务器及计算机可读存储介质 | |
CN110197402B (zh) | 基于用户群的用户标签分析方法、装置、设备和存储介质 | |
CN108255602A (zh) | 任务组合方法及终端设备 | |
CN104881734A (zh) | 一种基于灰度发布引导产品改进的方法、装置及系统 | |
CN109934194A (zh) | 图片分类方法、边缘设备、系统及存储介质 | |
CN107966678B (zh) | 基于信号数据筛选的定位方法、电子装置及存储介质 | |
CN109408309A (zh) | 多终端的测试方法及装置 | |
CN109086289A (zh) | 一种媒体数据处理方法、客户端、介质和设备 | |
CN105404529A (zh) | 刷机用操作系统弹窗的弹出方法、装置及系统 | |
CN104731788B (zh) | 推广信息的处理方法及设备 | |
CN104378329B (zh) | 安全验证的方法、装置及系统 | |
CN106302011A (zh) | 基于多端的测试方法及终端 | |
CN106681803A (zh) | 一种任务调度方法及服务器 | |
CN107102860A (zh) | 数据采集方法、移动终端以及服务器 | |
CN109194703A (zh) | 云平台主机间通信负载的处理方法、电子装置及介质 | |
CN109151797A (zh) | 移动终端蓝牙设备搜索处理方法、移动终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |