CN108028807A - 用于在线自动识别网络流量模型的方法和系统 - Google Patents

用于在线自动识别网络流量模型的方法和系统 Download PDF

Info

Publication number
CN108028807A
CN108028807A CN201580083403.XA CN201580083403A CN108028807A CN 108028807 A CN108028807 A CN 108028807A CN 201580083403 A CN201580083403 A CN 201580083403A CN 108028807 A CN108028807 A CN 108028807A
Authority
CN
China
Prior art keywords
model
classification
stream
incoming traffic
traffic stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580083403.XA
Other languages
English (en)
Other versions
CN108028807B (zh
Inventor
亚历山大·阿列克谢耶维奇·谢罗夫
瓦莱丽·尼古拉耶维奇·格鲁科夫
张洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN108028807A publication Critical patent/CN108028807A/zh
Application granted granted Critical
Publication of CN108028807B publication Critical patent/CN108028807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种用于在线自动识别网络流量模型的方法(100)包括:从通信网络接收(101)输入业务流(102);通过对所述输入业务流(102)应用基于自学习的分类和即时分类来处理(103)所述输入业务流(Pac),其中,基于自学习的分类通过基于一组预定义特征来计算所述输入业务流(102)的统计模型并通过将所述统计模型存储在用于存储多个基于自学习的分类的结果的数据库中来在在线模式下执行;即时分类基于使用包括用于识别所述输入业务流(102)的一组预定规则的知识库和基于应用存储在所述数据库中的统计模型的至少一个子集来处理所述输入业务流(102);基于即时分类和/或基于自学习的分类的结果识别(105)所述输入业务流(102)中的网络流量模型(104)。

Description

用于在线自动识别网络流量模型的方法和系统
技术领域
本发明涉及用于在线自动识别网络流量模型的方法和系统。特别地,本发明涉及基于统计自学习原理在线自动识别网络流量的方法和系统。
背景技术
网络流量识别是将网络流量与产生该流量的应用或一组应用相关联的问题。这个问题是网络管理领域最重要的问题之一。网络运营商必须提供明确的服务质量(Quality-of-Service,简称QoS)等级。该等级由服务等级协议描述。QoS指标值的下降可能是导致网络提供商出现财务损失的原因。网络流量的分类对QoS值有很大的影响。
过去几年里使用互联网和IP网络的应用的数量和种类急剧增加。这些应用的类型集合包括以下内容:实时应用,例如语音和视频流;企业应用,例如Lotus Notes,数据库事务;批量数据传输,例如FTP和P2P文件下载;交互式网络应用,例如telnet,即时消息和网络游戏。识别网络流量对网络资源的高效和最优分配起着重要作用。
网络管理的另一个问题是与使用电信网络资源相关的欺诈或犯罪行为的数量和种类增加了。当今,网络管理涉及技能娴熟专业人员的长期工作,他们熟悉计算机网络受控部分中软件和硬件使用的特征。用于流量分析的现代技术基于这些高素质分析师手动处理数据的结果。
电信网络基础设施的发展伴随着数据传输速度的增长,大大提高了网络状态的动态性。这两种类型的增长加上使用网络资源的应用数量越来越多,使得在网络监控期间手动处理数据的使用效率越来越低。当今电信网络的管理高度依赖于用于自动分析网络事件的工具的有效性。分析的自动化程度目前是电信领域的关键技术问题之一。
各种类别/类型的网络流量可以被区分,例如,音频(例如,VoIP流量)、视频(例如,视频会议流量)和文件传输流量等等。
网络流量自动分析领域的大多数难题如下:在实时模式下对网络业务流进行分类;自动分类网络流量以识别出生成待分析的包流的应用;自动识别新的应用和数据传输协议以及自动构建这些应用和协议的模型;开发能够解决开放系统互连(Open SystemsInterconnection,简称OSI)模型不同等级的业务流识别问题的通用工具;开发能够同时作为QoS方案和网络安全方案的组成部分的通用网络管理工具。
电信网络管理领域研发(研究和开发)活动最重要的方向之一是建立一个应用人工智能原理的平台。
用于分析网络流量的现有方法的典型技术问题和缺点如下:数据处理存在按时间分开的几个不同阶段:机器学习阶段和数据流分类阶段。这一特征使得专家有必要使用手动数据处理。手动数据处理提高了结果的准确性,但会降低分析工具使用的整体效率。用于处理数据流的方法缺乏适应性:流量分类系统缺乏适应性导致无法识别未知类型的应用和协议,以及无法检测到新类型的网络攻击。最后,这一特征导致无法完全自动化数据流分析过程并且数据流处理的自动化程度不足。
网络状态不断生成的动态需要新类型的分析工具。这些工具必须能够在在线模式下识别新类型的网络流量,收集有关此流量的信息,并且将来使用这些信息。缺乏普遍性,即用于流量分析的数值方法可能通常只适用于某个明确的OSI模型等级。这一特征导致这种方法的应用领域非常狭窄。
发明内容
本发明的目的是提供一种用于网络流量分析,特别是用于无线和有线网络中数据流分析处理的自动化的高效技术。
该目的是通过独立权利要求的特征来实现的。根据从属权利要求、说明书以及附图,进一步的实现形式是显而易见的。
本发明提供了解决无线和有线网络中数据流分析处理自动化问题的技术。本发明在可扩展和通用工具的开发上有一定作用,这些工具可用于主机级分析和网络级分析。重新配置的能力使得使用类似的网络分析工具解决非常不同的实际问题成为可能。同样的工具,例如,既可用于检测网络资源的欺诈使用,也可用于识别刻画某些特定软件使用网络资源的行为模式。实施本发明将提高负责网络管理人员所使用工具的自动化程度。
本发明提供了基于自适应数据处理技术来实现网络流量的自动分析的技术。此分析的主要目的是为客户提供可能的最高服务质量等级。本发明的基本思想是在流量分析中使用流自适应数据处理和知识自适应数据处理。知识自适应数据处理是通过应用一种新的机器自学习技术来实现的,该技术旨在基于一组预定义特征来计算所分析的业务流的统计模型。这组预定义特征是业务流的统计特性,例如包长度、包到达时间间隔等,其中,基于统计特性计算统计模型,并且可以由专家初步定义。在在线模式下进行自学习过程。
本发明提供的流量识别技术包括使用数据流处理的单个工作流内的网络流量的基于签名的分类和基于统计的分类。
所提供的数值方法的计算架构基于使用两种不同的流量分类技术:即时分类和基于自学习结果的分类。这两种技术可以依次应用于分析包流。即时分类可以包括快速处理所分析的包流的两个阶段。第一阶段是基于知识库的使用,其中包括用于识别所分析的流的一组规则。第二阶段是基于应用自学习结果数据库的一些子集。该数据库包括由在线学习过程产生的一组统计模型。
本发明中提供的方法和系统提高了网络分析工具的效率。效率的提高可以在实施自学习技术的基础上通过在线自动识别网络流量模型来定义。
为详细描述本发明,将使用以下术语、缩写和符号:
QoS:服务质量
OSI:开放系统互连
第一方面,本发明涉及一种用于在线自动识别网络流量模型的方法,包括:从通信网络接收输入业务流;通过对所述输入业务流应用基于自学习的分类和即时分类来处理所述输入业务流,其中,基于自学习的分类通过基于一组预定义特征来计算所述输入业务流的统计模型并通过将所述统计模型存储在用于存储多个基于自学习的分类的结果的数据库中来在在线模式下执行;即时分类基于使用包括用于识别所述输入业务流(Pac)的一组预定规则的知识库和基于应用存储在所述数据库中的统计模型的至少一个子集来处理所述输入业务流;基于即时分类和/或基于自学习的分类的结果来识别所述输入业务流中的网络流量模型。
通过对所述输入业务流应用基于自学习的分类和即时分类,该方法为网络流量分析,特别是为无线和有线网络中数据流分析处理的自动化,提供了一种高效的技术。
该方法的实施显著提高了网络流量分析应用中的自动化程度。一组网络监控工具能够自动提取网络资源使用模型。这个提取过程可以在所分析的电信网络的不同层次上实现。数据流的自动多参数分析可以作为实时并行处理模式下执行的过程来实现。用于电信网络的自动控制和管理的自适应方法可以通过应用这种方法来实现。
该方法的实施进一步允许创建可扩展的网络监控工具。同一套工具可同时用于主机级分析和网络级分析。
该方法的实施实现了大体上是新的一组软件和硬件工具,特别是用于监控有线和无线网络的流量的大体上是新的工具类别。该方法可以应用于自组织网络。
根据第一方面,在所述方法的第一种可能的实现形式中,所述数据库用于存储以下数据:计算出的所述输入业务流的统计模型、未识别的统计模型的统计参数以及未识别的输入业务流。优选地,所述数据库存储用于基于自学习的分类的数据。
这提供了如下优点,即这些结果可以在该方法的后续处理步骤中重复使用。
识别输入流量时,首先应用所述知识库中的一组规则。如果基于这些规则无法识别所述输入流量,则计算该流量的统计模型,并且尝试基于存储在所述数据库中的流量模型来识别所获得的模型。如果尝试失败,则无法识别流量,并且用于定义此未识别的输入流量的模型的统计参数会存储在所述数据库中。换句话说,未能识别的输入流量与对应的统计模型一起记录,并且后续例如由人类专家处理。
根据第一方面或第一方面的第一种实现形式,在所述方法的第二种可能的实现形式中,识别网络流量模型为所述输入业务流提供了对信息策略的类别的识别。
互联网提供商公司经常制定服务等级协议(Service Level Agreement,简称SLA),该协议定义了与该公司提供的服务质量相关的要求。例如,对于各种应用(即流量整形)可能存在关于数据传输速度的承诺。例如,某些数据包在传输过程中可能会延迟(例如,互联网浏览器造成的),而其它数据包可能会加速(例如,流式视频)。根据信息策略建立流量整形规则:为特定的流量类型指定特定的信息策略。为了应用特定的信息策略,有必要了解什么类型的流量(即流式视频,聊天服务,浏览器等)正在通过网络传播。因此,识别网络流量模型对于确定哪种类型的信息策略必须应用于即将到来的流量是必要的。
这提供了如下优点,即通过识别网络流量模型,网络提供商可获得用于基于特定类别的输入业务流准确设计其网络的信息。
根据第一方面的第二种实现形式,在所述方法的第三种可能的实现形式中,信息策略的类别基于网络流量模型识别来识别,并且至少包括:第一策略类别,如果通过所述知识库识别流量统计模型;第二策略类别,如果通过多个基于自学习的分类的结果来识别流量统计模型;第三策略类别,如果流量统计模型未被识别。
有两种可能的情景:识别了流量模型或流量模型未被识别。如果流量模型未被识别,则有必要应用与未知流量模型相关的信息策略,即来自第三类别的信息策略。如果识别出流量模型,那么也有两种可能的情景,从而导致应用两种不同类别的信息策略。在通过所述知识库(即,基于规则的识别)识别流量模型的情况下,即可以直接识别和分类流量,应用第一类别的信息策略。如果流量本身不能被识别,但基础统计模型可以基于所述数据库中的流量模型来识别,则应用第二类别的信息策略。这种信息策略由人类专家预定义,并包括例如“任何未知流量类型必须停止”(信息安全要求)或“任何未知流量类型必须以当前使用的数据传输速度传输”等规则。
这提供了如下优点,即该方法具有足够的灵活性来分析网络流量:流量统计模型可以通过知识库和/或自学习的结果来识别。
根据第一方面或第一方面的前述任一实现形式,在所述方法的第四种可能的实现形式中,所述基于自学习的分类和即时分类依次应用于所述输入业务流的即时分类。
这提供了如下优点,即通过依次应用基于自学习的分类和即时分类可以改善网络分析,因为有更多的信息可用。
根据第一方面或第一方面的前述任一实现形式,在所述方法的第五种可能的实现形式中,所述输入业务流包括数据包流,尤其是IP包。
这提供了如下优点,即所述方法可以应用于数据网络,尤其是IP网络。
根据第一方面的第五种实现形式,在所述方法的第六种可能的实现形式中,所述方法包括:在处理所述输入业务流之前对所述输入业务流进行过滤,其中,过滤基于以下过滤标准中的至少一个:预定的IP源地址、预定的IP目的地址、预定的IP源端口号、预定的IP目的端口号和/或预定的数据传输协议。
这提供了如下优点,即可以高效分析预定义的网络流量,以及可以高效分析源头和目的地之间的数据流量。
根据第一方面的第五种或第六种实现形式,在所述方法的第七种可能的实现形式中,基于接收预定数量的数据包来处理所述即时分类。
这提供了如下优点,即该方法提供了灵活和可调节的数据包分析。
根据第一方面的第五至第七种实现形式中的任一种,在所述方法的第八种可能的实现形式中,所述基于自学习的分类是在接收到的数量比所述预定数量的数据包更多的数据包上进行的。
这提供了如下优点,即如果大量数据包被用作输入,则可以提高自学习的效率。
根据第一方面的第五至第八种实现形式中的任一种,在所述方法的第九种可能的实现形式中,所述统计模型包括预定长度的元组,其中,所述元组的每个元素描述用于刻画所述输入业务流的唯一量的统计分布。
这提供了如下优点,即所述统计模型可以在处理器上高效地表示。
根据第一方面的第九种实现形式,在所述方法的第十种可能的实现形式中,用于刻画所述输入业务流的唯一量被分成以下两类:第一类,包括用于刻画数据包流中的单个数据包的量;第二类,包括将数据包流作为整体刻画的量。
这提供了如下优点,即通过使用这两类唯一量,能够准确分析所述输入业务流。
根据第一方面的第十种实现形式,在所述方法的第十一种可能的实现形式中,第一类的量包括以下之一:包平均长度和包到达时间间隔;第二类的量包括以下之一:流持续时间和传输的包的数量。
这提供了如下优点,即通过检查数据包可以容易地提供这些量。
根据第一方面的第十种或第十一种实现形式,在所述方法的第十二种可能的实现形式中,所述第一类和所述第二类在元组内排序,使得在所述元组中所述第一类的量排列在所述第二类的量之前。
这提供了如下优点,即通过使用这样的排序方案,可以高效地访问第一类和第二类。
根据第一方面或第一方面的前述任一实现形式,在所述方法的第十三种可能的实现形式中,所述知识库包括通过使用离线模式下的专家系统对业务流进行分析处理的结果。
这提供了如下优点,即当离线模式下的专家系统可用时,可以改善对网络流量的分析。
根据第一方面或第一方面的前述任一实现形式,在所述方法的第十四种可能的实现形式中,所述知识库包括离线模式下人类专家对业务流进行分析处理的结果。
这提供了如下优点,即在离线模式下使用人类专家的知识时,可以改善对网络流量的分析。
根据第一方面或第一方面的前述任一实现形式,在所述方法的第十五种可能的实现形式中,所述数据库用于存储用于基于规则的分类的一组决策规则。
这提供了如下优点,即这些数据可以在该方法的后续处理步骤中重复使用。
第二方面,本发明涉及一种用于在线自动识别网络流量模型的系统,包括:数据缓冲器,用于从通信网络接收输入业务流;数据库,用于存储一组统计模型;知识库,包括用于识别所述输入业务流的一组预定规则;处理器,用于通过对所述输入业务流应用基于自学习的分类和即时分类来处理所述输入业务流,并用于基于即时分类和基于自学习的分类的结果来识别所述输入业务流中的网络流量模型,其中,基于自学习的分类通过基于一组预定义特征来计算所述输入业务流(Pac)的统计模型并通过将所述统计模型存储在所述数据库中来在在线模式下执行;即时分类基于使用所述知识库和基于应用存储在所述数据库中的所述一组统计模型的至少一个子集来处理所述输入业务流(Pac)。
通过对所述输入业务流应用基于自学习的分类和即时分类,该系统为网络流量分析,特别是为无线和有线网络中数据流分析处理的自动化,提供了一种高效的技术。该系统能够自动提取网络资源使用模型。该系统还允许创建可扩展的网络监控工具,其中,同一套工具可同时用于主机级分析和网络级分析。该系统可以高效地应用于监控有线和无线网络的流量,也可以应用于自组织网络。
第三方面,本发明涉及基于先前计算出的处理后的业务流的统计模型的机器自学习方法,包括:通过自学习的结果的数据库的元素初始化一组候选模型;对于所述一组候选模型中的每个元素,迭代地形成和验证统计假设,其中,所提及的统计假设表示所述一组候选模型的特定元素和待识别的统计模型属于同一随机过程;基于统计假设验证的结果计算识别结果;如果通过上述提及的数据库未能识别模型且允许机器自学习过程,基于输入统计模型初始化自学习的结果的数据库的新元素。
第四方面,本发明涉及一种用于在线自动识别网络流量模型的计算机实现的方法,包括以下步骤:计算流量统计模型;即时识别统计模型;基于先前计算出的统计模型通过自学习或机器自学习的结果的数据库识别流量统计模型;基于统计模型识别的结果计算信息策略的类别。
根据第四方面,在所述计算机实现的方法的第一种可能的实现形式中,计算流量统计模型包括:基于一组规则初始化表示新的统计模型的数据结构,其中,每个规则定义基于处理后的网络包的特定字段以及在业务流处理的先前步骤中计算出的统计模型的字段的值计算单个统计特性的方式;基于用于即时识别模型的一组规则的特定规则更新统计模型的每个统计特性;基于用于计算表示自学习的结果的数据库的元素的一组规则的特定规则更新统计模型的每个统计特性。
根据第四方面,在所述计算机实现的方法的第二种可能的实现形式中,即时识别统计模型包括:基于知识库识别统计模型的方法以及使用自学习的结果的数据库识别统计模型的方法。
根据第四方面的第二种实现形式,在所述计算机实现的方法的第三种可能的实现形式中,基于知识库识别统计模型包括:通过所述知识库的所有元素初始化一组候选模型;基于存储在所述知识库中的识别规则对所述一组候选模型进行迭代更新;基于最终在候选集合中表示的模型的数量计算识别结果。
根据第四方面的第二种实现形式,在所述计算机实现的方法的第四种可能的实现形式中,使用自学习的结果的数据库识别统计模型包括:通过自学习结果的数据库的元素初始化一组候选模型;对于所述一组候选模型中的每个元素,迭代地形成和验证统计假设,其中,所提及的假设表示所述一组候选模型的特定元素和待识别的统计模型属于同一随机过程;基于统计假设验证的结果计算识别结果。
根据本发明的方法和系统可以显示如下所述的三种效果。第一种效果是为控制电信网络创建新的手段,这些手段还有一些尚未实现的特征。当前发明的实际实施显著提高了网络流量分析应用的自动化程度。根据本发明的方法和系统的实施使得一组网络监控工具能够自动提取网络资源使用模型。这个提取过程可以在所分析的电信网络的不同层次上实现。数据流的自动多参数分析可以作为实时并行处理模式下执行的过程来实现。所提出的技术的重新配置的能力使实现用于电信网络的自动控制和管理的自适应方法成为可能。
第二种效果是创建可扩展的网络监控工具。根据本发明的方法和系统的实施创建可扩展的网络监控工具。同一套工具可同时用于主机级分析和网络级分析。
第三种效果是实现大体上是新的一组软件和硬件工具。根据本发明的方法和系统的实施的主要远景效果是创建旨在用于监控有线和无线网络的流量的大体上是新的工具类别。根据本发明的对网络流量的自适应控制的使用可以应用于自组织网络。
所提出的发明可用于非常广泛的网络分析应用中,例如:自动识别用于刻画用户的网络行为的模式并自动绘制这些模式;自动检测刻画网络攻击高风险的情况;自动检测网络中未授权的入侵者;自动检测刻画欺诈性使用硬件或软件工具的案例;以及在受监控网段中自动检测描述故障高风险的情况。
附图说明
本发明的更多实施例将结合以下附图进行描述,其中:
图1示出了根据一实现形式用于在线自动识别网络流量模型的方法100的示意图;
图2示出了根据一实现形式用于在线自动识别网络流量模型的系统200的示意图;
图3示出了根据一实现形式的输入业务流处理的示例性主循环300的时序图;
图4示出了根据一实现形式的网络流量模型识别的示例性主算法400的时序图;
图5示出了根据一实现形式的流量统计模型计算的示例性算法500的时序图;
图6示出了根据一实现形式使用知识库的流量统计模型的即时识别的算法的示例性部分600的时序图;
图7示出了根据一实现形式使用自学习的结果的数据库的流量统计模型的即时识别的算法的示例性部分700的时序图;
图8示出了根据一实现形式通过自学习的结果的数据库的流量统计模型识别的示例性算法800的时序图。
具体实施方式
以下结合附图进行详细描述,所述附图是描述的一部分,并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是,在不脱离本发明范围的情况下,可以利用其它方面,并可以做出结构上或逻辑上的改变。因此,以下详细的描述并不当作限定,本发明的范围由所附权利要求书界定。
应理解,与所描述的方法有关的注解还适用于执行该方法的对应设备或系统,反之亦然。例如,如果描述了特定方法步骤,则对应设备可以包括用于执行所描述的方法步骤的单元,即使此类单元没有在图中明确描述或图示。此外,应理解,本文所描述的各种示例性方面的特性可以相互组合,除非另外明确说明。
图1示出了根据一实现形式用于在线自动识别网络流量模型的方法100的示意图。
所述方法包括从通信网络接收101输入业务流102。
所述方法包括通过对所述输入业务流102应用基于自学习的分类和即时分类来处理103所述输入业务流102。基于自学习的分类通过基于一组预定义特征来计算所述输入业务流102的统计模型并通过将所述统计模型存储在用于存储多个基于自学习的分类的结果的数据库中来在在线模式下执行。即时分类基于使用包括用于识别所述输入业务流102的一组预定规则的知识库和基于应用存储在所述数据库中的统计模型的至少一个子集来处理所述输入业务流102。
所述方法还包括基于即时分类和/或基于自学习的分类的结果识别105所述输入业务流102中的网络流量模型104。
所述数据库可以用于存储以下基于自学习的分类的结果:计算出的所述输入业务流102的统计模型、未识别的统计模型的统计参数以及未识别的输入业务流102。
识别105所述网络流量模型104可以为所述输入业务流102提供对信息策略的类别的识别。
信息策略的类别可至少包括以下三种类别:通过所述知识库识别流量统计模型、通过多个基于自学习的分类的结果识别流量统计模型以及流量统计模型未被识别。
所述基于自学习的分类和即时分类可以共同应用于所述输入业务流102。所述基于自学习的分类和即时分类可以依次应用于所述输入业务流102。
所述输入业务流102可以包括数据包流,尤其是互联网协议IP包。
所述方法100可以包括在处理所述输入业务流102之前对所述输入业务流102进行过滤。过滤可以基于以下过滤标准中的至少一个:预定的IP源地址、预定的IP目的地址、预定的IP源端口号、预定的IP目的端口号以及预定的数据传输协议。
可以基于接收预定数量Nid的数据包来处理所述即时分类。
所述基于自学习的分类可以是接收到的数量比所述预定数量Nid的数据包更多的数据包上执行的。
所述统计模型可以包括预定长度的元组。所述元组的每个元素可以描述用于刻画所述输入业务流102的唯一量的统计分布。
用于刻画所述输入业务流102的唯一量可以被分成以下两类:第一类,包括用于刻画数据包流中的单个数据包的量;第二类,包括将数据包流作为整体刻画的量。
第一类的量可以包括包平均长度和包到达时间间隔。第二类的量可以包括流持续时间和/或传输的包的数量。
所述第一类和所述第二类可以在所述元组内排序,使得在所述元组中所述第一类的量排列在所述第二类的量之前。
所述知识库可以包括通过使用离线模式下的专家系统对业务流进行分析处理的结果。
所述方法100可以在下面结合图2描述的系统200上实现,并且可以实现下面结合图3至图8描述的算法300、400、500、600、700和800。
图2示出了根据一实现形式用于在线自动识别网络流量模型的系统200的示意图。所述用于在线自动识别网络流量模型的系统200包括:数据缓冲器201,用于从通信网络接收输入业务流202;数据库207,用于存储一组统计模型;知识库205,包括用于识别所述输入业务流202的一组预定规则;处理器203。
所述处理器203通过对所述输入业务流202应用基于自学习的分类211和即时分类209来处理所述输入业务流202,并基于即时分类209和基于自学习的分类211的结果来识别所述输入业务流202中的网络流量模型204。
基于自学习的分类211通过基于一组预定义特征来计算所述输入业务流202的统计模型并通过将所述统计模型存储在所述数据库207中来在在线模式下执行。
即时分类209基于使用所述知识库205和基于应用存储在所述数据库207中的所述一组统计模型的至少一个子集来处理所述输入业务流202。
所述系统200可以应用上述结合图1描述的方法100和下述结合图3至图8描述的算法300、400、500、600、700和800。
图3示出了根据一实现形式的输入业务流处理的示例性主循环300的时序图。图3示出了实现流量处理的主循环的算法300的实施例。在开始301运行算法之后立即执行初始化步骤302。在该循环中,检查是否存在必须分析的包。在该算法的这个实施例中,假设从电信网络运行的输入包流已经被过滤。这意味着输入流只包括根据某些外部逻辑的实施组合在一起的数据包。在一实施例中,可以基于以下元组的某个固定值来完成流的过滤:(IPSrc、IPDst、SrcPort、DstPort和Protocol)。其中,IPSrc是包的源IP地址,IPDst是包的目的IP地址,SrcPort是源端口号,DstPort是目的端口号,Protocol是数据传输协议。在本文档范围内,要由该算法处理并且用于计算合适的统计模型(SModel)的多个包将被称为流。
如果图3中表示的算法300接收到包,传输该包以用于主算法400(参见图4)处理网络流量模型识别。指标值N=0表示未执行流的处理。在初始化指标值303之后,算法300运行到新数据包的处理的主循环中。如果存在要处理的新包304,则将该包传输至网络流量模型识别的主算法400。数据处理结束之后,该算法检查统计模型计算的完成情况308。如果计算出模型,那么为所处理的包流定义信息策略的类别。在这种情况下,分析结果被传输到负责业务流管理的工具组309。在该算法中,逻辑变量ExitFlag 305用于完成输入数据流的处理过程。该变量由算法来管理,该算法是关于所描述的数值方法的外部逻辑。
图4示出了根据一实现形式的网络流量模型识别的示例性主算法400的时序图。该算法的输入数据如下:用于分析的接收到的数据包(Pac);用于计算所分析的包流的统计模型(SModel)的一组规则(SRule);用于即时识别流的包的数量(Nid)。在处理数据期间,该算法可以访问以下数据库:知识库;未识别的模型的统计参数的数据库;未识别的业务流的数据库;自学习的结果的数据库。
该算法使用逻辑变量LFlag的值,该变量设置在所提出的数值方法的逻辑之外。通过算法进行数据处理的结果是为所分析的业务流计算的信息策略的类别。
在数据处理开始401之后,主算法400立即初始化数据结构以开始处理新的业务流。指标值N=0 402表示未执行流的处理。在这种情况下,执行一组准备流程403。这组流程尤其可包括检查用于保存流量识别规则的知识库的状态。在执行准备流程时如果知识库不包括任何元素,默认可以初始化自学习逻辑。在所提出的数值方法中管理学习过程是通过布尔变量LFlag进行的。如果知识库不包括可用于识别流的结构(知识库为空),则准备操作的逻辑可为变量LFlag分配一个值true。在这种方法的范围内,这将意味着业务流中的学习。此外,在一实施例中,准备操作的逻辑可以初始化缓冲器,其中属于已处理数据流的一组包被复制。
在准备流程403结束之后,如果当前业务流的识别已完成,则算法400执行检查404。整数常数Nid由关于该数值方法的外部逻辑定义。这个常数的值等于即时模式中必须用于识别流量的流的包的数量。在包N的指标值404小于Nid的值的情况下,该算法运行计算被分析的流的统计模型的流程405。之后,包的指标值递增408,并且在即时模式下完成数据流处理时执行接下来的验证409。如果N=Nid,则算法400启动统计模型的即时识别流程410。之后,该算法验证SModel被识别的事实411。
算法400的所提出的实施例中,实现了机器自学习过程。该自学习过程通过满足LFlag=true 405这个条件的算法分支来实现。当包的指标值404大于Nid时,所提及的分支被算法400使用。学习过程406在所分析的流的全部数量的包上执行。检查“流是否关闭?”415表示验证所分析的包流结束的事实。在学习模式下完成流的统计模型(SModel)的计算406仅在接收到所分析的流的所有包的条件下才是可能的。这是由于在一般情况下,只有在包流完全接收后才能计算出一部分模型参数。在一实施例中,这些参数包括流中的包的总数和将流作为整体刻画的其它参数。
与问题“流是否关闭?”415的肯定答案相关的算法的分支描述了在整个包流的计算出的统计模型上进行的动作。在该分支的第一阶段,该算法进行统计参数数据库的更新416。表示的数值方法包括通过使用自学习的结果的数据库识别417流量。
基于在识别统计模型SModel 410期间获得的结果来计算412信息策略的类别的标识符。信息策略的类别定义了处理网络流量的规则。这些规则是为每个识别的业务流的类别定义的。在表示的数值方法中,假设这些规则是由一些外部逻辑定义的。特别地,类别组可以包括未被识别的流量的类别。在方法400的一实现形式中,信息策略的计算过程考虑了可以是统计模型识别的结果的三种不同情况:通过知识库识别流量统计模型;通过自学习的结果的数据库识别流量统计模型;流量统计模型未被识别。这三种情况中的每一种都有独立的信息策略的类别。
图4所示算法的数据处理的最后阶段包括完成操作413。在算法400的一实施例中,这些完成操作413可以包括由主算法使用的数据占用的内存的清理过程。算法模块还可以包括处理用于存储所分析的数据流的缓冲器的过程。如果流量已被识别,则释放该缓冲器414,否则将其存储在数据库中以供后续分析。如果数据流的处理仍未结束419,则算法增加指标值418并返回到上述结合图3描述的流处理循环302的开始处。
图5示出了根据一实现形式的流量统计模型计算的示例性算法500的时序图。该算法的输入数据如下:数据包Pac;数据包在处理的包流的序列中的索引号N;在处理该流的前一阶段计算的统计模型Smodel和一组用于计算统计模型的字段的规则:SRule。该算法的结果是所分析的流的统计模型,根据Pac处理的结果进行更新。
在一般情况下,SModel可以在数学上表示为长度为(Nd+Ne)的元组。这个元组的每个元素Smodel(i)描述用于刻画业务流的某个唯一量的统计分布。根据元素的计算和使用的性质,统计模型的元素可以分为以下两类:在流关闭之前可以刻画流的第一类的量,其中,在一实施例中,这些可以包括例如包平均长度或包到达时间间隔;仅将流作为整体刻画的第二类的量。这些值只能在流关闭后计算。在一实施例中,这些值可以包括流持续时间或传输的包的数量。
在所表示的时序图500中,假设所提及的量的类别在元组SModel内排序:第一Nd元素可以在数据处理的即时模式下刻画流。接下来的Ne元素只能在数据流关闭后计算。在一实施例中,元组SModel的每个元素可以在数学上表示为元组。每个元组Smodel(i)刻画某些特定的统计分布。其可包括唯一数量的元素。在一实施例中,Smodel(i)可包括平均值和方差。在一实施例中,所述一组规则SRule可以被表示为元组。在所示的框图中,假设SRule包括两个连续部分:DFea和EFea。DFea是一个元组,其包括用于计算SModel的前Nd个元素的规则的标识符,这些标识符可用于流的即时识别。元组DFea的长度等于Nd。EFea是一个元组,其包括用于计算统计模型Smodel的后Ne个元素的规则的标识符。元组EFea的长度等于Ne。
在运行开始501之后,算法500立即检查是否开始新流的处理。如果算法开始计算新的统计模型(N=0)502,则它初始化模型SModel的数据结构503。在初始化统计模型的元组(i)的字段的指标值之后,算法运行到元组SModel的字段的更新506的循环。
这个更新过程506是基于包Pac的字段进行的。这些字段的处理由规则Dfea(i)和在处理流的前一包之后获得的数据Smodel(i)定义。统计模型SModel的计算方法的实施可以包括计算给定一组值的分布的一组统计特性。这组特性的组成可以包括多个例如包长度以及包到达之间的时间间隔(包到达时间间隔)。在一实施例中,这些变量中的每一个的这组统计特性可包括统计分布的中心矩的平均值、方差值和值。
在所描述的算法中,假设元组DFea和EFea的元素的编号从零开始执行。循环完成后,算法检查被分析的流的结束条件508。如果流关闭并且这是流中的最后一个数据包509,则可以使用数据元组EFea规则来计算统计模型SModel的最后部分。该算法的结果是元组SModel 511。该字段的每个字段都是一个统计特性,其形成由元组SRule指定。
图6示出了根据一实现形式使用知识库的流量统计模型的即时识别的算法的示例性部分600的时序图。图7示出了根据一实现形式使用自学习的结果的数据库的流量统计模型的即时识别的算法的示例性部分700的时序图。
图6包括该算法的部分600,其使用知识库的数据来识别流量。图7包括该算法的部分700,其使用自学习的结果的数据库来快速识别。该算法的输入数据如下:在运行流量统计模型计算的算法期间计算的元组SModel。在该算法中,假设识别过程仅涉及统计模型SModel的前Nd个数据字段。在其工作过程中,该算法使用存储在知识库中的数据和存储在自学习的结果的数据库中的数据。该算法的结果是有关流量统计模型识别的信息。
在初始化602统计模型SModel的字段的指标值(i)之后,算法600立即初始化集合{KBSet}603。在一实施例中,该集合的每个元素由元组表示,并且该元组表示知识库的一些特定元素。任何元组KBSet(j)的每个元素都是一个规则的标识符,基于这个规则,可以针对一组对应的对象,检查一些对象的身份。在用于识别的算法的一些实现形式中,例如,可以对整数值Smodel(i)位于特定值范围内的事实进行验证。
在算法的下一步骤中,计算604集合{KBSet}中的元素(Lkb)的数量。然后,该算法运行到外循环606,其对应于SModel的字段的顺序扫描。在初始化607集合{KBSet}的元素的指标值j之后,算法进入数据处理的内循环608。在循环中,针对变量j,存在对值Smodel(i)与条件616的对应关系的验证,该条件被表述为元组KBSet(j)的第i个元素。在存在差异的情况下,元组从集合{KBSet}中移除617。
通过识别算法完成数据处理的特征在于分析中可能出现的以下两种基本情况。第一种情况下,如果在某个点清楚地知道集合{KBSet}是空的:Lkb=0,则算法终止。这种情况对应于未识别出模型SModel的情况614:处理的包流在知识库中没有相似物。第二种情况下,在处理SModel的所有Nd字段之后,即时识别算法停止。在这种情况下,可能存在三种不同结果中的一种,这三种结果在框图中显示为模块‘switch’的输出。如果在处理统计模型数据的某个点发现知识库中没有关于所分析的流量的信息614(Lkb=0),则分析过程移到算法的分支615,其中通过自学习的结果的数据库执行识别700(参见图7)。
图7中表示的算法700是即时统计模型识别算法600的延续。该算法700在使用知识库没有成功识别SModel的情况下614开始工作。在算法700的开始处615,执行初始化过程。该过程包括初始化701来自自学习的结果的数据库的统计模型的索引(i)和该数据库的子集Cs中的统计模型(Ksm)的总数。该算法在其工作中使用统计模型703的集合Cs。
在计算数据库(Ksm)中这些模型的数量704之后,开始进行以下数据处理的循环。对于来自自学习的结果的数据库中的每个模型,进行零假设H0的制定706。其包括这样的事实:建立在两组不同统计样本上的统计模型KBSet(i)和SModel属于同一随机过程。零假设H0验证707的算法可以基于使用众所周知的非参数统计检验。在一实施例中,可以通过以下统计检验之一来验证零假设:Rosenbaum的Q准则、Mann-Whitney的U检验、Kruskal-Wallis检验、Pearson卡方检验、Kolmogorov-Smirnov检验、Anderson-Darling检验、F检验(Fisher准则)。特定统计准则的应用由特定任务的特征和一组使用的统计参数来定义。
当在子集Cs中表示的所有统计模型已经被分析,图7中表示的算法700的实施例完成数据的处理。通过识别算法完成数据处理的特征在于分析中可能出现的以下三种基本情况。第一种情况是,由于在自学习的结果的数据库中没有类似的统计模型704:Lkb=0,因此未识别出被调查的统计模型。第二种情况是,SModel被识别出713:Lkb=1。第三种情况是,由于自学习的结果的数据库中有几个类似的统计模型,所以被调查的统计模型未被识别出712:Lkb>1。图8示出了根据一实现形式通过自学习的结果的数据库的流量统计模型识别的示例性算法800的时序图。
该算法800的输入数据如下:在运行流量统计模型计算的算法期间计算出的元组Smodel;布尔变量FOff。该变量的值用于设置自学习的结果的数据库中统计模型SModel搜索的模式。尤其值FOff=true使得可以在离线模式下进行搜索。在数值方法的一些实施例中,附加参数可以被包括在输入数据的列表中。例如,在统计模型搜索优化的情况下,时间戳可以被用作附加的输入参数。在其工作期间,该算法800使用存储在自学习的结果的数据库中的数据。该算法的数据处理结果如下:有关流量统计模型识别的信息、对自学习的结果的数据库的修改(如果允许学习过程)。
在数据处理开始801之后,该算法立即初始化802变量Lkb,其被用作数据库中的类似SModel的统计模型的数量的指标值。在这一步骤以及布尔变量FCrt被初始化以用于控制访问数据库中的两组模型{Crt}和{Coff}步骤中,该算法使用集合KBSet作为从数据库中提取的模型的临时存储。在该算法的下一步骤中,通过来自数据库的Crt子集的模型对{KBSet}进行初始化803。
在计算数据库(Ksm)中这些模型的数量之后,开始进行以下数据处理的循环。对于自学习的结果的数据库中的每个模型,进行零假设H0的制定807。其包括这样的事实:建立在两组不同统计样本集上的统计模型KBSet(i)和SModel属于同一随机过程。零假设H0验证的算法可以基于使用已知的非参数统计检验。在一实施例中,可以通过以下统计检验之一来验证零假设808:Rosenbaum的Q准则、Mann-Whitney的U检验、Kruskal-Wallis检验、Pearson卡方检验、Kolmogorov-Smirnov检验、Anderson-Darling检验、F检验(Fisher准则)。特定统计准则的应用由特定任务的特征和一组使用的统计参数来定义。
通过到达KBSet的边界或直接在确认零假设之后,可以从统计假设验证808的循环中退出。如果在此阶段确认了零假设(Lkb=1),则基于SModel的数据更新数据库的统计模型811,并且算法完成其工作。如果对于集合Crt(Lkb<1)中的任何一个元素没有确认零假设,则该算法检查在离线模式下继续搜索的可能性。如果该方法的使用特征是可以在离线模式下进行搜索(FOff=true)816,则对来自自学习的结果的数据库的统计模型的子集{Coff}重复上述算法。如果在所描述的算法(具有两个子集Crt和Coff)的动作期间尚未识别统计模型,则基于SModel数据初始化817在自学习的结果的数据库中的新元素。
本发明描述的数值方法(图3至图8)在其工作期间使用四个数据存储库。其中两个用作主存储器。另外两个是辅存储器。在流量模型识别过程中使用主存储器。辅存储器用于存储可供人类专家在其新流量模型的探索工作期间后续使用的数据。
下面描述知识库。在所公开的方法中使用该主储存库(知识库)以存储支撑网络流量的统计模型的识别的数据结构。在所描述的方法中,假设知识库包括在专家工作期间或在特殊数值工具工作期间获得的业务流的分析处理结果。网络分析师的这项工作尤其可包括在离线模式下使用某些专门的自动化数据处理手段。使用知识库旨在基于一组分类规则对包流进行分类。在这方面,知识库的实施可以基于现代分类方法之一。特定方法的选择可旨在优化本发明描述的方法的使用。例如,知识库中的搜索速度可以用作优化参数之一。知识库的架构取决于应用此流量分析方法的具体目的。但是,所使用的数据结构应提供统计模型SModel与某个分类规则的符合性的自动验证。在此方法中,假设知识库仅在读模式下可用。
下文描述未识别模型的统计参数的数据库。在所公开的方法中使用该辅存储库以存储通过知识库未识别的一组流量统计模型。存储在该数据库中的每个模型都与存储在业务流数据库中的特定数据流相关联。该数据库的存在允许在离线模式下处理未识别的模型。例如,在一实现形式中,其可以通过使用无监督学习类(聚类,自组织映射,奇异值分解等)的方法来完成。应该选择用于存储统计参数的数据库的元素的数据结构,以确保存储具有预定长度的元组。所提及的数据库的元素的特定实施例由所公开的方法的应用的要求和该方法中使用的一组统计量来确定。特别是如果每个未识别的模型具有时间标签,则有可能使用传统上用于分析时间序列(相关分析,协方差分析等)的多种方法。在目前的数值方法中,假设统计参数的数据库可以在写模式下访问。
下面描述未识别业务流的数据库。在所公开的方法中使用该辅存储库以存储当前数值方法中未识别的业务流。存储在该数据库中的每个元素与未识别的模型的参数的数据库的特定元素相关联。应该选择用于存储未识别业务流的数据库的元素的数据结构,以确保存储未识别的业务流的网络包的整体聚合。这个数据库对于提供关于检测用于构建知识库的一套识别规则的分析工作过程是必要的。在所公开的数值方法中,假设未定义的业务流的数据库可以在写模式下访问。
下面描述自学习的结果的数据库。在所公开的方法中使用该主储存库以存储通过自学习的算法的业务流处理的结果。如果通过知识库识别的过程未能成功,则应用此算法。该算法基于初步定义的一组统计参数实现自学习过程。在数值方法的当前描述中,所述算法的实施是基于统计自学习的原理来表示的。在本发明中,假设自学习的结果的数据库分为三部分:Cs、Crt和Coff。这种划分旨在优化数值方法实施的准确性和时间特性。
在在线模式下处理子集Cs和Crt的模型(参见图7和图8)。这些存储模型的方法旨在最小化访问时间。需要分离在两组上在线访问的统计模型与以下情况相关联。首先,在技术上可以实现这两种模型的存储过程,以使针对其的访问速度相当高但是不同。其次,Cs和Crt的模型处理的分别实现提供了额外的灵活性:应用于每个子集的统计数据处理方法可能不同。这种情况可以直接与子集Cs和Crt的下列组成条件有关:这些集合可以具有非零交集。在离线模式下处理来自子集Coff的模型。假设子集Crt和Coff的组成之间的相互关系是动态的。超出当前公开的范围的单独算法负责决定哪些集合应该是每个特定的统计模型。特别是,Cs、Crt和Coff中元素数量之间的比率应该由适当识别问题速度的要求来定义。所提到的算法可以根据由解决的识别问题定义的优化标准来对这些子集中的每一个中的元素进行排序。与自学习的结果的数据库的架构实施例相关的问题超出了本发明的范围。在本发明中,假设可以在读和写模式下访问自学习的数据库。
本发明还支持包括计算机可执行代码或计算机可执行指令的计算机程序产品,所述计算机可执行代码或计算机可执行指令在被执行时使得至少一个计算机执行本文描述的执行和计算步骤,特别是上述结合图1所述的方法100或者上述结合图3至图8描述的算法300、400、500、600、700和800。这种计算机程序产品可包括存储程序代码的可读存储介质,以供计算机使用。程序代码可以执行上述结合图1所描述的方法100或者上述结合图3至图8所描述的算法300、400、500、600、700和800。
尽管本发明的特定特征或方面可能已经仅结合几种实现形式中的一种进行公开,但此类特征或方面可以和其它实现形式中的一个或多个特征或方面相结合,只要对于任何给定或特定的应用是有需要或有利。而且,在一定程度上,术语“包括”、“有”、“具有”或这些词的其它变形在详细的说明书或权利要求书中使用,这类术语和所述术语“包括”是类似的,都是表示包括的含义。同样,术语“示例性地”,“例如”仅表示为示例,而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于指示两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。
尽管本文中已说明和描述特定方面,但所属领域的技术人员应了解,多种替代和/或等效实现形式可在不脱离本发明的范围的情况下替代所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。
尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的,除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序,否则这些元件不必限于以所述特定顺序来实施。
通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,本领域普通技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明,但本领域普通技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实施本发明。

Claims (15)

1.一种用于在线自动识别网络流量模型的方法(100),其特征在于,包括:
从通信网络接收(101)输入业务流(102);
通过对所述输入业务流(102)应用基于自学习的分类和即时分类来处理(103)所述输入业务流(102),其中
基于自学习的分类通过基于一组预定义特征来计算所述输入业务流(102)的统计模型并通过将所述统计模型存储在用于存储多个基于自学习的分类的结果的数据库中来在在线模式下执行;
即时分类基于使用包括用于识别所述输入业务流(102)的一组预定规则的知识库和基于应用存储在所述数据库中的统计模型的至少一个子集来处理所述输入业务流(102);
基于即时分类和/或基于自学习的分类的结果来识别(105)所述输入业务流(102)中的网络流量模型(104)。
2.根据权利要求1所述的方法(100),其特征在于,
所述数据库用于存储以下数据:计算出的所述输入业务流(102)的统计模型;
未识别的统计模型的统计参数;
未识别的输入业务流(102)。
3.根据权利要求1或2所述的方法(100),其特征在于,
识别(105)所述网络流量模型(104)为所述输入业务流(102)提供信息策略的类别的识别。
4.根据权利要求3所述的方法(100),其特征在于,
信息策略的类别基于网络流量模型识别来识别,并且至少包括:
第一策略类别,如果通过所述知识库识别流量统计模型;
第二策略类别,如果通过多个基于自学习的分类的结果来识别流量统计模型;
第三策略类别,如果流量统计模型未被识别。
5.根据前述权利要求中任一项所述的方法(100),其特征在于,
所述基于自学习的分类和即时分类依次应用于所述输入业务流(102)的即时分类。
6.根据前述权利要求中任一项所述的方法(100),其特征在于,
所述输入业务流(102)包括数据包流,尤其是IP包。
7.根据权利要求6所述的方法(100),其特征在于,包括:
在处理所述输入业务流(102)之前对所述输入业务流(102)进行过滤,其中,过滤基于以下过滤标准中的至少一个:
预定的IP源地址;
预定的IP目的地址;
预定的IP源端口号;
预定的IP目的端口号;和/或
预定的数据传输协议。
8.根据权利要求6或7所述的方法(100),其特征在于,
基于接收预定数量(Nid)的数据包来处理所述即时分类。
9.根据权利要求6至8任一项所述的方法(100),其特征在于,
所述基于自学习的分类是在接收到的数量比所述预定数量(Nid)的数据包更多的数据包上进行的。
10.根据权利要求6至9任一项所述的方法(100),其特征在于,
所述统计模型包括预定长度的元组,其中,所述元组的每个元素描述用于刻画所述输入业务流(102)的唯一量的统计分布。
11.根据权利要求10所述的方法(100),其特征在于,
用于刻画所述输入业务流(102)的唯一量被分成以下两类:
第一类,包括用于刻画数据包流中的单个数据包的量;
第二类,包括将数据包流作为整体刻画的量。
12.根据权利要求11所述的方法(100),其特征在于,
第一类的量包括以下之一:包平均长度和包到达时间间隔;
第二类的量包括以下之一:流持续时间和传输的包的数量。
13.根据权利要求11或12所述的方法(100),其特征在于,
所述第一类和所述第二类在统计模型元组内排序,使得在所述统计模型元组中所述第一类的量排列在所述第二类的量之前。
14.根据前述权利要求中任一项所述的方法(100),其特征在于,
所述知识库包括通过使用离线模式下的专家系统对业务流进行分析处理的结果。
15.一种用于在线自动识别网络流量模型的系统(200),其特征在于,包括:
数据缓冲器(201),用于从通信网络接收输入业务流(202);
数据库(207),用于存储一组统计模型;
知识库(205),包括用于识别所述输入业务流(202)的一组预定规则;
处理器(203),用于通过对所述输入业务流(202)应用基于自学习的分类(211)和即时分类(209)来处理所述输入业务流(202)并用于基于即时分类(209)和基于自学习的分类(211)的结果来识别所述输入业务流(202)中的网络流量模型(204),其中
即时分类(209)基于使用所述知识库(205)和基于应用存储在所述数据库(207)中的所述一组统计模型的至少一个子集来处理所述输入业务流(202);
基于自学习的分类(211)通过基于一组预定义特征来计算所述输入业务流(202)的统计模型并通过将所述统计模型存储在所述数据库(207)中来在在线模式下执行。
CN201580083403.XA 2015-10-09 2015-10-09 用于在线自动识别网络流量模型的方法和系统 Active CN108028807B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2015/000659 WO2017061895A1 (en) 2015-10-09 2015-10-09 Method and system for automatic online identification of network traffic patterns

Publications (2)

Publication Number Publication Date
CN108028807A true CN108028807A (zh) 2018-05-11
CN108028807B CN108028807B (zh) 2021-03-05

Family

ID=55971173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580083403.XA Active CN108028807B (zh) 2015-10-09 2015-10-09 用于在线自动识别网络流量模型的方法和系统

Country Status (2)

Country Link
CN (1) CN108028807B (zh)
WO (1) WO2017061895A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111355703A (zh) * 2018-12-21 2020-06-30 盖瑞特交通一公司 整合型设备故障和网络攻击检测布置
CN111835541A (zh) * 2019-04-18 2020-10-27 华为技术有限公司 一种模型老化检测方法、装置、设备及系统
WO2024183062A1 (en) * 2023-03-09 2024-09-12 Huawei Technologies Co., Ltd. Device and method for network traffic classification

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019275633B2 (en) 2018-12-06 2022-08-04 Infosys Limited System and method of automated fault correction in a network environment
CN110460488B (zh) * 2019-07-01 2022-10-18 华为技术有限公司 业务流识别方法和装置、模型生成方法和装置
CN110868360B (zh) * 2019-11-19 2023-04-28 深圳市网心科技有限公司 流量统计方法、电子设备、系统及介质
CN112866267B (zh) * 2021-01-29 2022-12-30 哈尔滨工业大学(威海) 一种网络业务动态识别与划分的系统、方法、设备及存储介质
CN116032851B (zh) * 2022-12-30 2024-05-14 上海天旦网络科技发展有限公司 基于间隔时序轨迹特征的tcp短连接的nat识别方法及系统
CN116192765B (zh) * 2023-03-14 2024-07-12 东南大学 一种基于注意力机制的物联网设备流量早期识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101009595A (zh) * 2005-09-15 2007-08-01 阿尔卡特公司 基于统计跟踪的用于实时业务量分类的方法
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应系统
US7660248B1 (en) * 2004-01-23 2010-02-09 Duffield Nicholas G Statistical, signature-based approach to IP traffic classification
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN102571946A (zh) * 2011-12-28 2012-07-11 南京邮电大学 一种基于对等网络的协议识别与控制系统的实现方法
CN103312565A (zh) * 2013-06-28 2013-09-18 南京邮电大学 一种基于自主学习的对等网络流量识别方法
US20140334321A1 (en) * 2013-05-13 2014-11-13 Marvell World Trade Ltd. Heuristic network traffic classification using byte-distributions
CN104270392A (zh) * 2014-10-24 2015-01-07 中国科学院信息工程研究所 一种基于三分类器协同训练学习的网络协议识别方法及系统
CN104320358A (zh) * 2014-09-28 2015-01-28 国家电网公司 一种电力通信网中的QoS业务控制方法
US9094288B1 (en) * 2011-10-26 2015-07-28 Narus, Inc. Automated discovery, attribution, analysis, and risk assessment of security threats

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660248B1 (en) * 2004-01-23 2010-02-09 Duffield Nicholas G Statistical, signature-based approach to IP traffic classification
CN101009595A (zh) * 2005-09-15 2007-08-01 阿尔卡特公司 基于统计跟踪的用于实时业务量分类的方法
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应系统
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
US9094288B1 (en) * 2011-10-26 2015-07-28 Narus, Inc. Automated discovery, attribution, analysis, and risk assessment of security threats
CN102571946A (zh) * 2011-12-28 2012-07-11 南京邮电大学 一种基于对等网络的协议识别与控制系统的实现方法
US20140334321A1 (en) * 2013-05-13 2014-11-13 Marvell World Trade Ltd. Heuristic network traffic classification using byte-distributions
CN103312565A (zh) * 2013-06-28 2013-09-18 南京邮电大学 一种基于自主学习的对等网络流量识别方法
CN104320358A (zh) * 2014-09-28 2015-01-28 国家电网公司 一种电力通信网中的QoS业务控制方法
CN104270392A (zh) * 2014-10-24 2015-01-07 中国科学院信息工程研究所 一种基于三分类器协同训练学习的网络协议识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姜伟: "基于流特征的P2P流量检测方法研究", 《中国硕士学位论文全文数据库》 *
戴强,张宏莉,叶麟: "基于行为特征的P2P流量快速识别", 《微计算机信息》 *
邬书跃,余 杰,樊晓平: "基于流量与行为特征的P2P 流量识别模型", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111355703A (zh) * 2018-12-21 2020-06-30 盖瑞特交通一公司 整合型设备故障和网络攻击检测布置
CN111835541A (zh) * 2019-04-18 2020-10-27 华为技术有限公司 一种模型老化检测方法、装置、设备及系统
WO2024183062A1 (en) * 2023-03-09 2024-09-12 Huawei Technologies Co., Ltd. Device and method for network traffic classification

Also Published As

Publication number Publication date
CN108028807B (zh) 2021-03-05
WO2017061895A1 (en) 2017-04-13

Similar Documents

Publication Publication Date Title
CN108028807A (zh) 用于在线自动识别网络流量模型的方法和系统
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
Ducange et al. A novel approach for internet traffic classification based on multi-objective evolutionary fuzzy classifiers
CN105871832B (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN1881950B (zh) 使用频谱分析的分组分类加速
CN106357622B (zh) 基于软件定义网络的网络异常流量检测防御系统
Da Silva et al. Identification and selection of flow features for accurate traffic classification in SDN
CN101252541B (zh) 一种网络流量分类模型的建立方法及相应系统
CN101414939B (zh) 一种基于动态深度包检测的互联网应用识别方法
CN108667747A (zh) 网络流应用类型识别的方法、装置及计算机可读存储介质
CN108632269A (zh) 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN108366045A (zh) 一种风控评分卡的设置方法和装置
CN102394827A (zh) 互联网流量分级分类方法
US11558769B2 (en) Estimating apparatus, system, method, and computer-readable medium, and learning apparatus, method, and computer-readable medium
CN105871619A (zh) 一种基于n-gram多特征的流量载荷类型检测方法
CN110442842A (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN109299742A (zh) 自动发现未知网络流的方法、装置、设备及存储介质
CN110034966A (zh) 一种基于机器学习的数据流分类方法及系统
CN112769623A (zh) 边缘环境下的物联网设备识别方法
CN105592487A (zh) 一种lte网络业务流量评估方法及装置
CN109088862B (zh) 一种基于分布式系统的节点性质识别方法
CN109063433A (zh) 虚假用户的识别方法、装置及可读存储介质
CN110096013A (zh) 一种工业控制系统的入侵检测方法及装置
CN111597411A (zh) 一种电力规约数据帧的区分识别方法及系统
CN115118447A (zh) 工控网络流量的安全判别方法、装置、电子装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant