CN116582452B - 流量分类方法、装置、设备及介质 - Google Patents

流量分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN116582452B
CN116582452B CN202310850816.2A CN202310850816A CN116582452B CN 116582452 B CN116582452 B CN 116582452B CN 202310850816 A CN202310850816 A CN 202310850816A CN 116582452 B CN116582452 B CN 116582452B
Authority
CN
China
Prior art keywords
flow
sample
value
service
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310850816.2A
Other languages
English (en)
Other versions
CN116582452A (zh
Inventor
王晓婷
范程
耿竞一
罗慧芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310850816.2A priority Critical patent/CN116582452B/zh
Publication of CN116582452A publication Critical patent/CN116582452A/zh
Application granted granted Critical
Publication of CN116582452B publication Critical patent/CN116582452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种流量分类方法、装置、设备及介质,属于流量治理领域。该方法包括:获取单个业务流量组中的源业务、目标业务和流量数值序列,流量数值序列包括源业务与目标业务之间进行多次数据传输所对应的多个流量数值,多个流量数值与多个时刻一一对应;对流量数值序列进行特征提取,得到序列特征;将序列特征输入流量分类模型,得到源业务与目标业务之间的流量的分类结果。上述方法利用了流量数值序列进行特征提取,根据序列特征再执行流量分类,相比于相关技术,本申请无需使用数据流内部的数据,流量数值的获取较为容易,提高了分类方法的普适性。

Description

流量分类方法、装置、设备及介质
技术领域
本申请涉及流量治理领域,特别涉及一种流量分类方法、装置、设备及介质。
背景技术
为实现网络差异化服务,需要对网络中的流量进行分类。
相关技术中,提供了如下几种分类方式:第一、通过识别数据流的端口号进行流量分类;第二、基于数据流中的有效荷载进行流量分类;第三、基于数据流中数据包的到达时间、数据包长度和流量空闲时间进行流量分类。然而,在一些场景下数据流的相关数据较难获取。
如何提供更普遍的流量分类方法成为亟需解决的技术问题。
发明内容
本申请提供了一种流量分类方法、装置、设备及介质,提供了一种普适性更强的流量分类方法。所述技术方案包括如下内容。
根据本申请的一个方面,提供了一种流量分类方法,方法包括:
获取单个业务流量组中的源业务、目标业务和流量数值序列,流量数值序列包括源业务与目标业务之间进行多次数据传输所对应的多个流量数值,多个流量数值与多个时刻一一对应;
对流量数值序列进行特征提取,得到序列特征;
将序列特征输入流量分类模型,得到源业务与目标业务之间的流量的分类结果。
根据本申请的一个方面,提供了一种流量分类模型的训练方法,方法包括:
获取多个样本业务流量组,多个样本业务流量组中的每个样本业务流量组包括样本源业务、样本目标业务和样本流量数值序列,样本流量数值序列包括样本源业务与样本目标业务之间进行多次数据传输所对应的多个样本流量数值,多个样本流量数值与多个时刻一一对应;
对于多个样本业务流量组中的任意一个样本业务流量组,对样本业务流量组中的样本流量数值序列进行特征提取,得到样本序列特征;
将多个样本业务流量组的多个样本序列特征进行聚类;将聚类后所属的类别作为标签,得到多个样本序列特征分别对应的多个标签;
将多个样本序列特征输入流量分类模型;根据流量分类模型输出的分类结果与多个标签之间的误差训练流量分类模型。
根据本申请的另一方面,提供了一种流量分类装置,装置包括:
获取模块,用于获取单个业务流量组中的源业务、目标业务和流量数值序列,流量数值序列包括源业务与目标业务之间进行多次数据传输所对应的多个流量数值,多个流量数值与多个时刻一一对应;
特征提取模块,用于对流量数值序列进行特征提取,得到序列特征;
预测模块,用于将序列特征输入流量分类模型,得到源业务与目标业务之间的流量的分类结果。
根据本申请的另一方面,提供了一种流量分类模型的训练装置,装置包括:
获取模块,用于获取多个样本业务流量组,多个样本业务流量组中的每个样本业务流量组包括样本源业务、样本目标业务和样本流量数值序列,样本流量数值序列包括样本源业务与样本目标业务之间进行多次数据传输所对应的多个样本流量数值,多个样本流量数值与多个时刻一一对应;
特征提取模块,用于对于多个样本业务流量组中的任意一个样本业务流量组,对样本业务流量组中的样本流量数值序列进行特征提取,得到样本序列特征;
标签生成模块,用于将多个样本业务流量组的多个样本序列特征进行聚类;将聚类后所属的类别作为标签,得到多个样本序列特征分别对应的多个标签;
训练模块,用于将多个样本序列特征输入流量分类模型;根据流量分类模型输出的分类结果与多个标签之间的误差训练流量分类模型。
根据本申请的一个方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上的流量分类方法或流量分类模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序由处理器加载并执行以实现如上的流量分类方法或流量分类模型的训练方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过源业务与目标业务之间的流量数值序列构建序列特征,进而通过序列特征执行流量分类,上述方法通过流量数值序列执行流量分类,流量数值是数据流的流量大小,流量数值较容易获取。相比于相关技术需使用数据流内部的数据执行流量分类,而在一些场景下数据流内部的数据难以获取,本申请提供的流量分类方法具有更强的普适性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的原理示意图;
图2是本申请一个实施例提供的流量分类方法的流程图;
图3是本申请一个示例性实施例提供的静态分布特征的生成方法的流程图;
图4是本申请另一个实施例提供的流量分类方法的流程图;
图5是本申请一个示例性实施例提供的两类业务的示意图;
图6是本申请一个实施例提供的流量分类模型的训练方法的流程图;
图7是本申请一个示例性实施例提供的标签生成方法的流程图;
图8是本申请一个示例性实施例提供的第一数值的确定方法的流程图;
图9是本申请一个示例性实施例提供的综合轮廓系数与候选第一数值的对应关系的示意图;
图10是本申请一个示例性实施例提供的轮廓系数的计算方法的流程图;
图11是本申请一个示例性实施例提供的流量分类装置的结构框图;
图12是本申请一个实施例提供的流量分类模型的训练装置的结构框图;
图13是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
骨干网(Backbone Network):用来连接多个区域或地区的高速网络。每个骨干网中至少有一个和其他骨干网进行互联互通的连接点。不同的网络供应商都拥有自己的骨干网,用以连接其位于不同区域的网络。通俗而言,将几台计算机连接起来,互相可以看到其他人的文件,形成了局域网。将整个城市的计算机都连接起来,形成了城域网。将多个城市之间的计算机连接起来,形成了骨干网。骨干网通常主要包括大型网络的拓扑结构。
图1示出了本申请一个示例性实施例提供的计算机系统的示意图。计算机系统包括模型训练设备101和模型使用设备102。模型训练设备101用于训练流量分类模型103,以及将流量分类模型103发送至模型使用设备102,模型使用设备102用于通过流量分类模型103执行流量分类。模型训练设备101和模型使用设备102之间通过有线或无线方式进行传输。
图1还示出了模型的训练过程。图1示出了多个样本业务流量组104,每个样本业务流量组包括源业务、目标业务和流量数值序列。源业务是在数据传输过程中作为发送方的业务,目标业务是在数据传输过程中作为接收方的业务,流量数值序列包括源业务和目标业务在多次数据传输过程中的多个流量数值,流量数值指示传输的数据流量大小,多个流量数值与多个时刻一一对应。图1示出了样本业务流量组1、样本业务流量组2、…样本业务流量组n。
图1还示出了多个样本业务流量组104对应的多个样本流量数值序列105。对样本流量数值序列执行特征提取操作得到样本序列特征,共得到多个样本序列特征106。图1示出了样本序列特征1、样本序列特征2、…样本序列特征n。对多个样本序列特征106执行聚类操作,将聚类后的所属类簇作为标签,得到多个标签107,多个标签107与多个样本序列特征106一一对应。将多个样本序列特征106输入流量分类模型103,根据流量分类模型103的输出结果与多个标签107之间的误差训练流量分类模型103。
图1还示出了模型的使用过程。图1示出了单个业务流量组108,业务流量组108包括源业务、目标业务和流量数值序列。获取业务流量组108中的流量数值序列109,将流量数值序列109执行特征提取操作得到序列特征110。将序列特征110输入流量分类模型103,预测得到分类结果。
可以理解的是,上述执行流量分类时,利用了源业务与目标业务之间的流量数值序列,流量数值仅需知悉数据流的流量大小,流量数值较容易获取。相比于相关技术需使用数据流内部的数据执行流量分类,而在一些场景下数据流内部的数据难以获取,本申请提供的流量分类方法具有更强的普适性。
在一个实施例中,模型训练设备101和模型使用设备102可以包括一个或多个计算机设备(图1仅示出了一个计算机设备的情况)。当仅包括一个计算机设备时,该设备可以是终端,也可以是服务器。当包括多个计算机设备时,模型训练设备101包括多个终端,或多个服务器,或包括至少一个终端和至少一个服务器。模型使用设备102包括多个终端,或多个服务器,或包括至少一个终端和至少一个服务器。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的源IP(Internet Protocol,互联网协议)、目标IP、源业务、目标业务、流量数值、流量数值序列都是在充分授权的情况下获取的。
并且,涉及到相关信息的,相关信息处理者会遵循合法、正当、必要的原则,明确相关信息处理的目的、方式和范围,获得相关信息主体的同意,并采取必要的技术和组织措施,保障相关信息的安全。
图2示出了本申请一个示例性实施例提供的流量分类方法的流程图,以该方法由图1所示的模型使用设备102执行进行举例说明,该方法包括如下步骤。
步骤220,获取单个业务流量组中的源业务、目标业务和流量数值序列,流量数值序列包括源业务与目标业务之间进行多次数据传输所对应的多个流量数值,多个流量数值与多个时刻一一对应;
业务流量组,包括源业务、目标业务和流量数值序列。源业务指作为数据传输发送方的业务,目标业务指作为数据传输接收方的业务。源业务和目标业务是不同的业务。在一个实施例中,源业务是数据存储平台,目标业务是AI计算平台,数据存储平台将数据发送至AI计算平台,供AI计算平台使用。
流量数值序列,包括多个流量数值,多个流量数值与多个时刻一一对应。流量数值序列包括源业务与目标业务之间进行多次数据传输所对应的多个流量数值。流量数值指数据传输消耗的流量。在一个实施例中,流量数值序列包括源业务与目标业务在预设时间范围(如一天)内的多个流量数值。在一个实施例中,流量数值序列中的多个流量数值按时间顺序从早到晚进行排序。
在一个实施例中,多个业务流量组是通过流量采集设备采集到的多个IP流量三元组进行聚合得到的。具体的,将获取多个IP流量三元组,多个IP流量三元组中的每个IP流量三元组包括源IP、目标IP以及源IP与目标IP在单一时刻下的流量数值。其中,源IP表示发送方的IP,目标IP表示接收方的IP。IP流量三元组可表示为[SIP,DIP,Traffic],SIP表示源IP,DIP表示目标IP,Traffic表示流量数值。可选的,多个IP流量三元组是预设时间范围内的IP流量三元组,如一天时间范围内的IP流量三元组。可选的,按照预设的时间间隔采集源IP和目标IP之间的流量数值,如每五分钟采集一次。可选的,按照预设的包数量间隔采集源IP和目标IP之间的流量数值,如每200个数据包采集一次。可选的,流量采集设备位于源业务对应的企业的数据中心的输出链路上。
将多个IP流量三元组,结合IP与业务之间的对应关系,得到多个业务流量组。示意性的,IP地址101.101.101.001、IP地址101.101.101.002、IP地址101.101.101.003对应业务A,IP地址202.202.202.001、IP地址202.202.202.002、IP地址202.202.202.003对应业务B。示意性的,源IP 1和源IP 2均属于业务A,目标IP 1和目标IP 2均属于业务B,将(源IP 1,目标IP 1,流量数值1)、(源IP 1,目标IP 2,流量数值2)聚合成(业务A,业务B,流量数值1,流量数值2)。示意性的,业务流量组可表示为[Srcbusi,Dstbusi,Traffic_1,…Traffic_n]。Srcbusi表示源业务,Dstbusi表示目标业务,Traffic_1,…Traffic_n表示t1时刻至tn时刻的流量数值。
从多个业务流量组中确定单个业务流量组。可选的,对多个业务流量组中的全部业务流量组均执行流量分类。可选的,对多个业务流量组进行数据清洗后,从干净的业务流量组中获取执行流量分类的业务流量组。数据清洗指删除源业务或目标业务为空的业务流量组。
步骤240,对流量数值序列进行特征提取,得到序列特征;
在一个实施例中,对流量数值序列进行特征提取,得到流量数值序列的静态分布特征和动态趋势特征中的至少一种;将静态分布特征和动态趋势特征中的至少一种确定为序列特征。
序列特征,包括静态分布特征和动态趋势特征中的至少一种。静态分布特征表征序列中的多个流量数值的分布状态,可选的,静态分布特征是统计类特征。动态趋势特征表征序列中的多个流量数值随时间发生变化的趋势。
步骤260,将序列特征输入流量分类模型,得到源业务与目标业务之间的流量的分类结果。
可选的,流量分类模型所采用的分类算法包括支持向量机算法、神经网络算法、逻辑回归算法、朴素贝叶斯算法中的任意一种。在执行流量分类之前,流量分类模型已预先完成训练。
将单个业务流量组的序列特征输入流量分类模型,流量分类模型将输出单个业务流量组中源业务与目标业务之间的流量的分类结果。例如,源业务与目标业务之间的流量属于“存在使用高峰和低谷的流量”,或者,源业务与目标业务之间的流量属于“不存在使用高峰和低谷的流量”。
在一个实施例中,判断完业务流量组的类别后,还对分类结果进行可视化。针对多个业务流量组,可基于单个业务流量组的流量分类结果,进一步执行分类的可视化聚合操作。
在一个实施例中,共对多个业务流量组执行流量分类,可选的,多个业务流量组是在一天时间内采集到的业务流量组。在一个实施例中,还自动执行流量分类,例如,周期性(例如按天)输出流量分类结果。可选的,还通过对比前后周期的分类数据及各业务的表现,输出可视化的结果,用于辅助执行流量治理并量化流量治理的效果。
综上所述,通过源业务与目标业务之间的流量数值序列构建序列特征,进而通过序列特征执行流量分类,上述方法通过流量数值序列执行流量分类,流量数值是数据流的流量大小,流量数值较容易获取。相比于相关技术需使用数据流内部的数据执行流量分类,而在一些场景下数据流内部的数据难以获取,本申请提供的流量分类方法具有更强的普适性。
基于图2所示的方法实施例,步骤240中的序列特征包括静态分布特征和动态趋势特征中的至少一种。步骤240可由如下步骤S1至步骤S4中的任意一个步骤替换或拆分或组合得到。
步骤S1,获取流量数值序列中的多个流量数值;将多个流量数值的最大值、最小值、平均数、方差和分位数中的至少一种,确定为静态分布特征。
流量数值序列包括n个流量数值,将n个流量数值中的最大值、最小值、平均数、方差和分位数中的至少一种,确定为静态分布特征。
综上所述,将流量数值序列的统计特征作为静态分布特征,基于静态分布特征可实现对静态流量的分类,静态流量是指存在静态的分布形态的流量。例如,类别A为“存在使用高峰和低谷的流量”,类别B为“不存在使用高峰和低谷的流量”。并且,统计特征的特征生成方式较为简单,进而降低了模型预测的难度。
图3示出了本申请一个示例性实施例提供的序列特征的生成方法的流程图。该方法即步骤S2。步骤S2,包括如下步骤S2-1至步骤S2-4。
步骤S2-1,获取流量数值序列中的多个流量数值;
步骤S2-2,按照预设分位点,将多个流量数值划分为多组流量数值,多组流量数值中每组流量数值均覆盖p个流量数值;
示意性的,多个流量数值为1、1、5、4、2、3、6、7。预设分位为0.25分位,即分位得到多组流量数值(1,1)、(5,4)、(2,3)、(6,7)。
步骤S2-3,将多组流量数值进行两两配对,对于配对后的每两组流量数值,将前一组中的第i个流量数值与后一组中的第i个流量数值进行平均操作,得到第i第一阶数值,确定得到每两组流量数值的p个第一阶数值;将p个第一阶数值中的最大值,确定为第二阶数值;
示意性的,将(1,1)、(5,4)进行配对,将(2,3)、(6,7)进行配对。将取出(1,1)中的第一个流量数值“1”与(5,4)中的第一个流量数值“5”求平均数,得到3,作为第1第一阶数值;取出(1,1)中的第二个流量数值“1”与(5,4)中的第二个流量数值“4”求平均数,得到2.5,作为第2第一阶数值。将第1第一阶数值“3”和第2第一阶数值“2.5”中的最大值“3”,确定为第二阶数值。
步骤S2-4,将多组流量数值对应的多个第二阶数值中的最大值确定为流量数值序列的静态分布特征。
示意性的,确定出(1,1)、(5,4)对应的第二阶数值“3”,确定出(2,3)、(6,7)对应的第二阶数值“5”,将其中的最大值“5”作为静态分布特征。
综上所述,可以理解的是,步骤S2-1至步骤S2-4对多个流量数值先执行平均操作,后执行最大值操作,此时得到的静态分布特征是融合了“平均操作”和“最大值操作”得到的特征,仅采用一种特征即可具有两种统计特征,有利于将稀疏的特征序列进行稠密表达,减少序列特征的维度,更好地表达多个流量数值之间的关系。
步骤S3,获取流量数值序列中的多个流量数值;计算多个流量数值中相邻流量数值的残差,得到多个残差数值;将多个残差数值确定为动态趋势特征。
流量数值序列中的多个流量数值按照时间由近到远的顺序进行排列。生成流量数值序列中的多个流量数值的残差直方图,残差直方图中的直方表示当前时刻的流量数值与前一时刻的流量数值的残差。将残差直方图中的多个直方确定为多个残差数值。将多个残差数值按照时间顺序排列,得到动态趋势特征。可选的,还将残差直方图的拟合曲线的斜率作为动态趋势特征,以表征流量数值变化的速度快慢。
综上所述,将流量数值序列的残差数值作为动态趋势特征,基于动态趋势特征可实现对动态流量进行分类,动态流量是指存在变化趋势的流量。例如,类别A为“变化平稳的流量”,类别B为“存在突刺的流量”。并且,残差数值的计算较为简单,进而降低了模型预测的难度。
步骤S4,获取流量数值序列中的多个流量数值;在多个流量数值中取出多组流量数值;计算多组流量数值中的每组流量数值的目标统计值;将多组流量数值分别对应的目标统计值确定为动态趋势特征。目标统计值包括平均值和方差中的至少一种。
示意性的,多个流量数值按照时间由近到远的顺序进行排列,分组后的多组流量数值不重叠且多组流量数值完全覆盖流量数值序列,任意两组流量数值所包含的流量数值的数量相同。计算每组流量数值的目标统计值,将多组流量数值分别对应的目标统计值确定为动态趋势特征。
具体的,将多组流量数值对应的多个目标统计值按照时间顺序进行排序。
综上所述,将流量数值序列中多组流量数值的目标统计值作为动态趋势特征,目标统计值包括均值和方差中的至少一种,基于动态趋势特征可实现对动态流量的分类,动态流量是指存在变化趋势的流量。例如,类别A为“变化平稳的流量”,类别B为“存在突刺的流量”。并且,多组流量数值对应的多个平均值的计算较为简单,进而降低了模型预测的难度。
基于图2所示的可选实施例中,执行步骤260之后,还针对多个业务流量组,基于单个业务流量组的流量分类结果,进一步执行分类的可视化聚合操作。图4示出了本申请一个示例性实施例提供的多种可视化聚合操作,步骤260之后还包括如下步骤270至步骤290中的至少一种。
步骤270,获取多个业务流量组的流量分类结果;在多个业务流量组的流量分类结果中,将业务流量组中的源业务相同的分类结果进行聚合,得到各个源业务在各个类别的分布情况。
示意性的,共得到三个业务流量组的分类结果,分别为:
(源业务1,目标业务1,流量数值1)属于类别A;
(源业务2,目标业务2,流量数值2)属于类别B;
(源业务1,目标业务2,流量数值3)属于类别A;
聚合后,得到:
(源业务1,X,流量数值1+ 3)属于类别A;
(源业务2,X,流量数值2)属于类别B。
X表示不关注目标业务的具体指示对象。
步骤280,获取多个业务流量组的流量分类结果;在多个业务流量组的流量分类结果中,将业务流量组中的目标业务相同的分类结果进行聚合,得到各个目标业务在各个类别的分布情况。
示意性的,共得到三个业务流量组的分类结果,分别为:
(源业务1,目标业务1,流量数值1)属于类别A;
(源业务2,目标业务2,流量数值2)属于类别B;
(源业务1,目标业务2,流量数值3)属于类别A;
聚合后,得到:
(X,目标业务1,流量数值1)属于类别A;
(X,目标业务2,流量数值2)属于类别B;
(X,目标业务2,流量数值3)属于类别A;
X表示不关注源业务的具体指示对象。
步骤290,获取多个业务流量组的流量分类结果;在多个业务流量组的流量分类结果中,将业务流量组中的源业务所属地域相同的分类结果进行聚合,以及,将业务流量组中的目标业务所属地域相同的分类结果进行聚合,得到各个地域在各个类别的分布情况。
示意性的,共得到五个业务流量组的分类结果,分别为:
(源业务1,目标业务1,流量数值1)属于类别A;
(源业务2,目标业务2,流量数值2)属于类别B;
(源业务1,目标业务2,流量数值3)属于类别A;
(源业务3,目标业务3,流量数值4)属于类别C;
(源业务3,目标业务1,流量数值5)属于类别A;
其中,源业务1位于甲地,源业务2位于乙地,源业务3位于丙地;
目标业务1位于甲地,目标业务2位于乙地,目标业务3位于丙地。
中间聚合后,得到:
(甲地,X,流量数值1+3)属于类别A;
(乙地,X,流量数值2)属于类别B;
(丙地,X,流量数值4)属于类别C;
(丙地,X,流量数值5)属于类别A;
(X,甲地,流量数值1+5)属于类别A;
(X,乙地,流量数值2)属于类别B;
(X,乙地,流量数值3)属于类别A;
(X,丙地,流量数值4)属于类别C;
再次聚合得到:
(甲地,流量数值1+1+3+5)属于类别A;
(乙地,流量数值2+2)属于类别B;
(乙地,流量数值3)属于类别A;
(丙地,流量数值4+4+5)属于类别C。
X表示不关注业务的具体指示对象。
综上所述,基于多个业务流量组的分类结果进行可视化聚合,可进一步分析得到某个业务的流量在各个类别的分布情况,进而实现对多类业务的差异化服务。基于多个业务流量组的分类结果进行可视化聚合,可进一步分析得到某个地域在各个类别的分布情况,有助于大型骨干网的流量治理,具体的,有助于进行业务的地域分布整合。
可以理解的是,通过本申请提供的流量分类方法,进而可以实现业务分类。例如,流量分类模型输出“类别A的流量”、“类别B的流量”。基于流量的分类结果,进而可划分出“类别A的业务”、“类别B的业务”。
示意性的,图5的(A)部分示出了“类别A的业务”在一天时间范围内的流量传输情况,可以看出“类别A的业务”存在用户使用互联网的高峰时段,高峰时流量带宽大,流量平稳。可选的,“类别A的业务”包括在线类业务。
示意性的,图5的(B)部分示出了“类别B的业务”在一天时间范围内的流量传输情况,可以看出“类别B的业务”的流量没有明显的用户交互行为,没有明显的晚高峰,该类业务的流量突刺较多。可选的,“类别B的业务”包括离线数据传输类业务。
当上述两类业务流量在同一个网络中传输时,势必造成链路上的流量有突刺型特性,使链路总带宽利用率不高,而这两类流量通常对网络诉求不同(在线类流量需要时延低、质量高的网络,离线类流量需要大带宽、低成本、对实时性要求低的网络)。本申请提供的流量分类方法,即可实现对上述两类流量进行区分,进而对两类业务分别设计网络,对两类业务进行差异化服务,例如,设计不同质量、基于不同底层设备的网络来服务不同类别的业务,以实现网络精细化服务的目标。
上述介绍了流量分类模型的使用侧内容,接下来将介绍流量分类模型的训练侧内容。
图6示出了本申请一个示例性实施例提供的流量分类模型的训练方法的流程图,以该方法由图1所示的模型训练设备101执行进行举例说明,该方法包括如下步骤。
步骤610,获取多个样本业务流量组,多个样本业务流量组中的每个样本业务流量组包括样本源业务、样本目标业务和样本流量数值序列,样本流量数值序列包括样本源业务与样本目标业务之间进行多次数据传输所对应的多个样本流量数值,多个样本流量数值与多个时刻一一对应;
样本业务流量组,包括样本源业务、样本目标业务和样本流量数值序列。样本源业务指作为数据传输发送方的样本业务,样本目标业务指作为数据传输接收方的样本业务。样本源业务和样本目标业务是不同的业务。在一个实施例中,样本源业务是数据存储平台,样本目标业务是AI计算平台,数据存储平台将数据发送至AI计算平台,供AI计算平台使用。
样本流量数值序列,包括多个样本流量数值,多个样本流量数值与多个时刻一一对应。样本流量数值序列包括样本源业务与样本目标业务之间进行多次数据传输所对应的多个样本流量数值。样本流量数值指数据传输消耗的流量。在一个实施例中,样本流量数值序列包括样本源业务与样本目标业务在预设时间范围(如一天)内的多个样本流量数值。在一个实施例中,流量数值序列中的多个流量数值按时间顺序从早到晚进行排序。
在一个实施例中,多个样本业务流量组是通过流量采集设备采集到的多个样本IP流量三元组进行聚合得到的。具体的,将获取多个样本IP流量三元组,多个样本IP流量三元组中的每个样本IP流量三元组包括样本源IP、样本目标IP以及源IP与目标IP在单一时刻下的样本流量数值。其中,样本源IP表示发送方的样本IP,样本目标IP表示接收方的样本IP。样本IP流量三元组可表示为[SIP,DIP,Traffic],SIP表示样本源IP,DIP表示样本目标IP,Traffic表示样本流量数值。可选的,多个样本IP流量三元组是预设时间范围内的样本IP流量三元组,如一天时间范围内的样本IP流量三元组。可选的,按照预设的时间间隔采集样本源IP和样本目标IP之间的样本流量数值,如每五分钟采集一次。可选的,按照预设的包数量间隔采集样本源IP和样本目标IP之间的样本流量数值,如每200个数据包采集一次。可选的,流量采集设备位于样本源业务对应的企业的数据中心的输出链路上。
将多个样本IP流量三元组,结合IP与业务之间的对应关系,得到多个业务流量组。示意性的,样本业务流量组可表示为[Srcbusi,Dstbusi,Traffic_1,…Traffic_n]。Srcbusi表示样本源业务,Dstbusi表示样本目标业务,Traffic_1,…Traffic_n表示t1时刻至tn时刻的样本流量数值。
可选的,对多个样本业务流量组中的全部样本业务流量组均执行流量分类。可选的,对多个样本业务流量组进行数据清洗后,从干净的样本业务流量组中获取执行流量分类的样本业务流量组。数据清洗指删除样本源业务或样本目标业务为空的样本业务流量组。
步骤620,对于多个样本业务流量组中的任意一个样本业务流量组,对样本业务流量组中的样本流量数值序列进行特征提取,得到样本序列特征;
可选的,还将多个样本业务流量组进行数据标准化,如L2标准化,示意性的,通过公式表示为:
其中,表示标准化后的样本流量数值序列中的第i个样本流量数值,表示标准化前的样本流量数值序列中的第i个样本流量数值,traffict1至 traffictn表示标准化前的样本流量数值序列中的第1个样本流量数值至第n个样本流量数 值。
执行特征提取得到样本序列特征的步骤与上述步骤S1-S4相类似,请参考上述步骤S1-S4。
步骤630,将多个样本业务流量组的多个样本序列特征进行聚类;将聚类后所属的类别作为标签,得到多个样本序列特征分别对应的多个标签;
在一个实施例中,通过聚类操作,将多个样本序列特征聚类至m个类簇,将每个样本序列特征对应的m个类簇中的类簇作为该样本序列特征的标签,得到与多个样本序列特征分别对应的多个标签。
步骤640,将多个样本序列特征输入流量分类模型;根据流量分类模型输出的分类结果与多个标签之间的误差训练流量分类模型。
可选的,流量分类模型所采用的分类算法包括支持向量机算法、神经网络算法、逻辑回归算法、朴素贝叶斯算法中的任意一种。
将单个样本业务流量组的序列特征输入流量分类模型,流量分类模型将输出单个样本业务流量组中样本源业务与样本目标业务之间的流量的分类结果。例如,源业务与目标业务之间的流量属于类别1~m中的任意一种,流量分类模型输出的类别结果域包括m个类别。根据流量分类模型的输出结果和标签的误差,训练流量分类模型。
可选的,通过grid-search(网格搜索)搜寻最优的模型超参数。可选的,通过k-fold交叉验证提高模型泛化能力和避免模型过拟合,提高模型的分类性能。
综上所述,通过样本源业务与样本目标业务之间的样本流量数值序列构建样本序列特征,进而通过样本序列特征训练流量分类模型,上述方法通过样本流量数值序列训练流量分类模型,流量数值是数据流的流量大小,流量数值较容易获取,流量分类模型的训练难度较低。
基于图6所示的可选实施例中,步骤630中的“将多个样本业务流量组的多个样本序列特征进行聚类”包括如图7所示的步骤710至步骤770。
步骤710,确定第一数值,第一数值是聚类完成后的类簇数量;
第一数值是预先确定得到的。可选的,第一数值是根据轮廓系数计算得到。可选的,第一数值是由技术人员确认得到的。第一数值为m,将经由网络架构师及业务方共同确认分为m类的可行性,以及每个类别的意义。可选的,第一数值是先根据轮廓系数计算再由技术人员确认得到的。
步骤720,获取第一数值的样本序列特征;
从多个样本序列特征中获取m个样本序列特征。可选的,从多个样本序列特征中随机获取m个样本序列特征。可选的,从多个样本序列特征中人工挑选出最具有代表性类别特征的m个样本序列特征。
步骤730,将第一数值的样本序列特征中的每个样本序列特征均作为聚类中心;
将获取的m个样本序列特征中的每个样本序列特征分别作为初始聚类中心,公式 表示为a表示聚类中心。
步骤740,在多轮迭代过程中的一轮迭代过程,对于多个样本序列特征中的一个样本序列特征,分别计算样本序列特征与第一数值的聚类中心的距离;
对于一轮迭代过程,将分别计算多个样本序列特征与m个聚类中心的距离。在第一轮迭代过程中,将分别计算多个样本序列特征与m个初始聚类中心的距离。在之后的迭代过程中,将分别计算多个样本序列特征与m个更新后的聚类中心的距离。
示意性的,多个样本序列特征包括特征1至特征5,第一数值的聚类中心包括聚类中心a、聚类中心b和聚类中心c。在一轮迭代过程中,对于特征1,将分别计算特征1与聚类中心a、聚类中心b和聚类中心c的距离,特征1至特征5均执行上述距离计算。
步骤750,将样本序列特征划分至距离最近的聚类中心所对应的类簇;
对于一个样本序列特征,将该样本序列特征划分至距离最近的聚类中心所对应的类簇。
示意性的,对于特征1,特征1与聚类中心a的距离小于特征1与聚类中心b的距离,特征1与聚类中心a的距离小于特征1与聚类中心c的距离,即聚类中心a是确定出的与特征1距离最近的聚类中心,将特征1划分至聚类中心a对应的类簇。特征1至特征5,均执行上述类簇的确定方式。
步骤760,对于一个类簇,计算类簇包含的样本序列特征的质心,将质心确定为类簇更新后的聚类中心;更新第一数值的类簇的聚类中心;
对于一个类簇,重新计算该类簇的聚类中心。可选的,将该类簇的质心确定为该类簇更新后的聚类中心。公式表示为:
其中,表示更新后的聚类中心,表示类簇内的样本序列特征集合,表示类簇 内的任意一个样本序列特征,表示类簇内的样本序列特征的数量。
步骤770,当满足迭代结束条件时结束多轮迭代过程。
重复执行上述步骤740至步骤760,直至满足迭代结束条件则停止迭代。迭代结束条件包括迭代次数达到次数阈值或者更新后的聚类中心与更新前的聚类中心的误差小于误差阈值。
综上所述,上述实施例提供了通过聚类生成样本序列特征的标签的具体方式,聚类过程较为简便,降低了流量分类模型整体的训练过程难度。
基于图7所示的可选实施例中,结合参考图8,步骤710可包括如图8所示的步骤810至步骤830。
步骤810,获取多个候选第一数值;
例如,候选第一数值包括2-9。步骤720中m可以是2-9中的任意一个数。
步骤820,对于多个候选第一数值中的一个候选第一数值,获取多个样本序列特征中的一个样本序列特征,计算样本序列特征在候选第一数值下对应的轮廓系数;计算多个样本序列特征对应的多个轮廓系数的平均值;
示意性的,候选第一数值为2,计算多个样本序列特征中的一个样本序列特征在候选第一数值为2的情况下对应的轮廓系数,计算多个样本序列特征对应的多个轮廓系数的平均值。同理,可以得到候选第一数值为3、4、...9的情况下多个轮廓系数的平均值。轮廓系数是用于同时表征类簇内部的聚合度和类簇之间的分离度的系数。
步骤830,将多个候选第一数值中对应的多个轮廓系数的平均值取得最大值的候选第一数值,确定为第一数值。
示意性的,多个候选第一数值为2、4、...9,将多个候选第一数值2、4、...9中综合轮廓系数取得最大值的候选第一数值确定为第一数值,例如,候选数值3对应的综合轮廓系数取得最大值,综合轮廓系数是多个轮廓系数的平均值。
结合参考图9,图9示出了针对不同的候选第一数值所取得的综合轮廓系数的数值,可看出,当候选第一数值为3时,综合轮廓系数取得最大值,此时,综合轮廓系数为0.68。因此,确定第一数值为3。
综上所述,上述实施例提供了一种从多个候选第一数值中确定第一数值的方法,提供了流量分类模型输出的类簇的数量的确定方式。
基于图8所示的可选实施例,对于图8所示的步骤820中“计算样本序列特征在候选第一数值下对应的轮廓系数”可由图10所示的方法执行,图10示出了对于一个候选第一数值计算轮廓系数的方法流程图。该方法包括如下步骤。
步骤1010,将多个样本序列特征划分至候选第一数值的类簇;
可选的,通过随机方式将多个样本序列特征划分至候选第一数值的类簇。
步骤1020,计算样本序列特征与第一类簇中的其他样本序列特征的距离的平均值,得到第一中间数值,第一类簇是样本序列特征的所属类簇;
示意性的,第一中间数值为a(i),a(i)= average(到所有它属于的簇中的其它 点的距离),表示第i个样本序列特征。
步骤1030,对于一个第二类簇,计算样本序列特征与第二类簇中的样本序列特征的距离的平均值,得到第二中间数值,第二类簇是候选第一数值的类簇中除第一类簇之外的类簇;将至少一个第二类簇对应的至少一个第二中间数值中的最小值,确定为第三中间数值;
示意性的,第三中间数值为b(i),b(i)= min(到某一不包含它的簇内的所有点 的平均距离),表示第i个样本序列特征。
步骤1040,将第三中间数值减去第一中间数值,得到第四中间数值;
示意性的,第四中间数值表示为b(i)-a(i)。
步骤1050,将第三中间数值与第一中间数值中的最大值确定为第五中间数值;
示意性的,第五中间数值表示为max{ a(i),b(i)}。
步骤1060,将第四中间数值除以第五中间数值,得到候选第一数值下对应的轮廓系数。
示意性的,轮廓系数表示为。轮廓系数的值处于[-1,1],越 趋近于1代表内聚度和分离度都相对较优。
综上所述,上述实施例提供了一种轮廓系数的生成方法,轮廓系数是用于同时表征类簇内部的聚合度和类簇之间的分离度的系数,轮廓系数越大,表明类簇的内聚度和分离度都相对较优,此时类簇的分布情况越好,对应的候选第一数值越适合作为类簇数量。
图11示出了本申请一个示例性实施例提供的流量分类装置的结构示意图,该装置包括如下模块。
获取模块1101,用于获取单个业务流量组中的源业务、目标业务和流量数值序列,流量数值序列包括源业务与目标业务之间进行多次数据传输所对应的多个流量数值,多个流量数值与多个时刻一一对应;
特征提取模块1112,用于对流量数值序列进行特征提取,得到序列特征;
预测模块1113,用于将序列特征输入流量分类模型,得到源业务与目标业务之间的流量的分类结果。
在一个可选的实施例中,特征提取模块1102,还用于对流量数值序列进行特征提取,得到流量数值序列的静态分布特征和动态趋势特征中的至少一种;将静态分布特征和动态趋势特征中的至少一种确定为序列特征。
在一个可选的实施例中,特征提取模块1102,还用于获取流量数值序列中的多个流量数值;将多个流量数值的最大值、最小值、平均数、方差和分位数中的至少一种,确定为静态分布特征。
在一个可选的实施例中,特征提取模块1102,还用于获取流量数值序列中的多个流量数值;计算多个流量数值中相邻流量数值的残差,得到多个残差数值;将多个残差数值确定为动态趋势特征。
在一个可选的实施例中,特征提取模块1102,还用于获取流量数值序列中的多个流量数值;在多个流量数值中取出多组流量数值;计算多组流量数值中的每组流量数值的目标统计值,目标统计值包括平均值和方差中的至少一种;将多组流量数值分别对应的目标统计值确定为动态趋势特征。
在一个可选的实施例中,获取模块1101,还用于获取多个互联网协议IP流量三元组,多个IP流量三元组中的每个IP流量三元组包括源IP、目标IP以及源IP与目标IP在单一时刻下的流量数值;根据多个IP流量三元组,结合IP与业务之间的对应关系,得到多个业务流量组;从多个业务流量组中确定单个业务流量组。
在一个可选的实施例中,装置还包括可视化聚合模块1104。可视化聚合模块1104,用于获取多个业务流量组的流量分类结果;在多个业务流量组的流量分类结果中,将业务流量组中的源业务相同的分类结果进行聚合,得到各个源业务在各个类别的分布情况。
在一个可选的实施例中,可视化聚合模块1104,还用于获取多个业务流量组的流量分类结果;在多个业务流量组的流量分类结果中,将业务流量组中的目标业务相同的分类结果进行聚合,得到各个目标业务在各个类别的分布情况。
在一个可选的实施例中,可视化聚合模块1104,还用于获取多个业务流量组的流量分类结果;在多个业务流量组的流量分类结果中,将业务流量组中的源业务所属地域相同的分类结果进行聚合,以及,将业务流量组中的目标业务所属地域相同的分类结果进行聚合,得到各个地域在各个类别的分布情况。
综上所述,通过源业务与目标业务之间的流量数值序列构建序列特征,进而通过序列特征执行流量分类,上述装置通过流量数值序列执行流量分类,流量数值是数据流的流量大小,流量数值较容易获取。相比于相关技术需使用数据流内部的数据执行流量分类,而在一些场景下数据流内部的数据难以获取,本申请提供的流量分类方法具有更强的普适性。
图12示出了本申请一个示例性实施例提供的流量分类模型的训练装置的结构示意图,该装置包括如下模块。
获取模块1201,用于获取多个样本业务流量组,多个样本业务流量组中的每个样本业务流量组包括样本源业务、样本目标业务和样本流量数值序列,样本流量数值序列包括样本源业务与样本目标业务之间进行多次数据传输所对应的多个样本流量数值,多个样本流量数值与多个时刻一一对应;
特征提取模块1202,用于对于多个样本业务流量组中的任意一个样本业务流量组,对样本业务流量组中的样本流量数值序列进行特征提取,得到样本序列特征;
标签生成模块1203,用于将多个样本业务流量组的多个样本序列特征进行聚类;将聚类后所属的类别作为标签,得到多个样本序列特征分别对应的多个标签;
训练模块1204,用于将多个样本序列特征输入流量分类模型;根据流量分类模型输出的分类结果与多个标签之间的误差训练流量分类模型。
在一个可选的实施例中,标签生成模块1203,还用于确定第一数值,第一数值是聚类完成后的类簇数量;获取第一数值的样本序列特征;将第一数值的样本序列特征中的每个样本序列特征均作为聚类中心;在多轮迭代过程中的一轮迭代过程,对于多个样本序列特征中的一个样本序列特征,分别计算样本序列特征与第一数值的聚类中心的距离;将样本序列特征划分至距离最近的聚类中心所对应的类簇;对于一个类簇,计算类簇包含的样本序列特征的质心,将质心确定为类簇更新后的聚类中心;更新第一数值的类簇的聚类中心;当满足迭代结束条件时结束多轮迭代过程。
在一个可选的实施例中,标签生成模块1203,还用于获取多个候选第一数值;对于多个候选第一数值中的一个候选第一数值,获取多个样本序列特征中的一个样本序列特征,计算样本序列特征在候选第一数值下对应的轮廓系数;计算多个样本序列特征对应的多个轮廓系数的平均值;将多个候选第一数值中对应的多个轮廓系数的平均值取得最大值的候选第一数值,确定为第一数值。
在一个可选的实施例中,标签生成模块1203,还用于将多个样本序列特征划分至候选第一数值的类簇;计算样本序列特征与第一类簇中的其他样本序列特征的距离的平均值,得到第一中间数值,第一类簇是样本序列特征的所属类簇;对于一个第二类簇,计算样本序列特征与第二类簇中的样本序列特征的距离的平均值,得到第二中间数值,第二类簇是候选第一数值的类簇中除第一类簇之外的类簇;将至少一个第二类簇对应的至少一个第二中间数值中的最小值,确定为第三中间数值;将第三中间数值减去第一中间数值,得到第四中间数值;将第三中间数值与第一中间数值中的最大值确定为第五中间数值;将第四中间数值除以第五中间数值,得到候选第一数值下对应的轮廓系数。
在一个可选的实施例中,获取模块1201,还用于获取多个样本IP流量三元组,多个样本IP流量三元组中的任意一个样本IP流量三元组包括样本源IP、样本目标IP以及样本源IP与样本目标IP在单一时刻下的流量数值;
根据多个样本IP流量三元组,结合IP与业务之间的对应关系,得到多个样本业务流量组。
综上所述,通过样本源业务与样本目标业务之间的样本流量数值序列构建样本序列特征,进而通过样本序列特征训练流量分类模型,上述方法通过样本流量数值序列训练流量分类模型,流量数值是数据流的流量大小,流量数值较容易获取,流量分类模型的训练难度较低。
图13是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(Random Access Memory,RAM)1302和只读存储器(Read-Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机设备可读介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1312连接到网络1311,或者说,也可以使用网络接口单元1312来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1301通过执行该一个或一个以上程序来实现上述流量分类方法或流量分类模型的训练方法的全部或者部分步骤。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的流量分类方法或流量分类模型的训练方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的流量分类方法或流量分类模型的训练方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种流量分类方法,其特征在于,所述方法包括:
获取单个业务流量组中的源业务、目标业务和流量数值序列,所述流量数值序列包括所述源业务与所述目标业务之间进行多次数据传输所对应的多个流量数值,所述多个流量数值与多个时刻一一对应;
对所述流量数值序列进行特征提取,得到序列特征;
将所述序列特征输入流量分类模型,得到所述源业务与所述目标业务之间的流量的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述流量数值序列进行特征提取,得到序列特征,包括:
对所述流量数值序列进行特征提取,得到所述流量数值序列的静态分布特征和动态趋势特征中的至少一种;
将所述静态分布特征和所述动态趋势特征中的至少一种确定为所述序列特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述流量数值序列进行特征提取,得到所述流量数值序列的静态分布特征,包括:
获取所述流量数值序列中的所述多个流量数值;
将所述多个流量数值的最大值、最小值、平均数、方差和分位数中的至少一种,确定为所述静态分布特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述流量数值序列进行特征提取,得到所述流量数值序列的静态分布特征,包括:
获取所述流量数值序列中的多个流量数值;
按照预设分位点,将所述多个流量数值划分为多组流量数值,所述多组流量数值中每组流量数值均覆盖p个流量数值;
将所述多组流量数值进行两两配对,对于配对后的每两组流量数值,将前一组中的第i个流量数值与后一组中的第i个流量数值进行平均操作,得到第i第一阶数值,确定得到所述每两组流量数值的p个第一阶数值;将所述p个第一阶数值中的最大值,确定为第二阶数值;
将所述多组流量数值对应的多个第二阶数值中的最大值确定为所述流量数值序列的静态分布特征。
5.根据权利要求2所述的方法,其特征在于,所述对所述流量数值序列进行特征提取,得到所述流量数值序列的动态趋势特征,包括:
获取所述流量数值序列中的所述多个流量数值;
计算所述多个流量数值中相邻流量数值的残差,得到多个残差数值;
将所述多个残差数值确定为所述动态趋势特征。
6.根据权利要求2所述的方法,其特征在于,所述对所述流量数值序列进行特征提取,得到所述流量数值序列的动态趋势特征,包括:
获取所述流量数值序列中的所述多个流量数值;
在所述多个流量数值中取出多组流量数值;
计算所述多组流量数值中的每组流量数值的目标统计值,所述目标统计值包括平均值和方差中的至少一种;
将所述多组流量数值分别对应的所述目标统计值确定为所述动态趋势特征。
7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:
获取多个IP流量三元组,所述多个IP流量三元组中的每个IP流量三元组包括源IP、目标IP以及所述源IP与所述目标IP在单一时刻下的流量数值;
根据所述多个IP流量三元组,结合IP与业务之间的对应关系,得到多个业务流量组;
从所述多个业务流量组中确定所述单个业务流量组。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括以下中的至少一个步骤:
获取所述多个业务流量组的流量分类结果;在所述多个业务流量组的流量分类结果中,将业务流量组中的源业务相同的分类结果进行聚合,得到各个源业务在各个类别的分布情况;
获取所述多个业务流量组的流量分类结果;在所述多个业务流量组的流量分类结果中,将业务流量组中的目标业务相同的分类结果进行聚合,得到各个目标业务在各个类别的分布情况;
获取所述多个业务流量组的流量分类结果;在所述多个业务流量组的流量分类结果中,将业务流量组中的源业务所属地域相同的分类结果进行聚合,以及,将业务流量组中的目标业务所属地域相同的分类结果进行聚合,得到各个地域在各个类别的分布情况。
9.一种流量分类模型的训练方法,其特征在于,所述方法包括:
获取多个样本业务流量组,所述多个样本业务流量组中的每个样本业务流量组包括样本源业务、样本目标业务和样本流量数值序列,所述样本流量数值序列包括所述样本源业务与所述样本目标业务之间进行多次数据传输所对应的多个样本流量数值,所述多个样本流量数值与多个时刻一一对应;
对于所述多个样本业务流量组中的任意一个样本业务流量组,对所述样本业务流量组中的所述样本流量数值序列进行特征提取,得到样本序列特征;
将所述多个样本业务流量组的多个样本序列特征进行聚类;将聚类后所属的类别作为标签,得到所述多个样本序列特征分别对应的多个标签;
将所述多个样本序列特征输入所述流量分类模型;根据所述流量分类模型输出的分类结果与所述多个标签之间的误差训练所述流量分类模型。
10.根据权利要求9所述的方法,其特征在于,所述将所述多个样本业务流量组的多个样本序列特征进行聚类,包括:
确定第一数值,所述第一数值是聚类完成后的类簇数量;
获取所述第一数值的样本序列特征;
将所述第一数值的样本序列特征中的每个样本序列特征均作为聚类中心;
在多轮迭代过程中的一轮迭代过程,对于所述多个样本序列特征中的一个样本序列特征,分别计算所述样本序列特征与所述第一数值的聚类中心的距离;
将所述样本序列特征划分至距离最近的聚类中心所对应的类簇;
对于一个类簇,计算所述类簇包含的样本序列特征的质心,将所述质心确定为所述类簇更新后的聚类中心;更新所述第一数值的类簇的聚类中心;
当满足迭代结束条件时结束所述多轮迭代过程。
11.根据权利要求10所述的方法,其特征在于,所述确定第一数值,包括:
获取多个候选第一数值;
对于所述多个候选第一数值中的一个候选第一数值,获取所述多个样本序列特征中的一个样本序列特征,计算所述样本序列特征在所述候选第一数值下对应的轮廓系数;计算所述多个样本序列特征对应的多个轮廓系数的平均值;
将所述多个候选第一数值中对应的所述多个轮廓系数的平均值取得最大值的候选第一数值,确定为所述第一数值。
12.根据权利要求11所述的方法,其特征在于,所述计算所述样本序列特征在所述候选第一数值下对应的轮廓系数,包括:
将所述多个样本序列特征划分至所述候选第一数值的类簇;
计算所述样本序列特征与第一类簇中的其他样本序列特征的距离的平均值,得到第一中间数值,所述第一类簇是所述样本序列特征的所属类簇;
对于一个第二类簇,计算所述样本序列特征与所述第二类簇中的样本序列特征的距离的平均值,得到第二中间数值,所述第二类簇是所述候选第一数值的类簇中除所述第一类簇之外的类簇;将至少一个第二类簇对应的至少一个第二中间数值中的最小值,确定为第三中间数值;
将所述第三中间数值减去所述第一中间数值,得到第四中间数值;
将所述第三中间数值与所述第一中间数值中的最大值确定为第五中间数值;
将所述第四中间数值除以所述第五中间数值,得到所述候选第一数值下对应的轮廓系数。
13.根据权利要求9至12任一所述的方法,其特征在于,所述方法还包括:
获取多个样本IP流量三元组,所述多个样本IP流量三元组中的任意一个样本IP流量三元组包括样本源IP、样本目标IP以及所述样本源IP与所述样本目标IP在单一时刻下的流量数值;
根据所述多个样本IP流量三元组,结合IP与业务之间的对应关系,得到所述多个样本业务流量组。
14.一种流量分类装置,其特征在于,所述装置包括:
获取模块,用于获取单个业务流量组中的源业务、目标业务和流量数值序列,所述流量数值序列包括所述源业务与所述目标业务之间进行多次数据传输所对应的多个流量数值,所述多个流量数值与多个时刻一一对应;
特征提取模块,用于对所述流量数值序列进行特征提取,得到序列特征;
预测模块,用于将所述序列特征输入流量分类模型,得到所述源业务与所述目标业务之间的流量的分类结果。
15.一种流量分类模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取多个样本业务流量组,所述多个样本业务流量组中的每个样本业务流量组包括样本源业务、样本目标业务和样本流量数值序列,所述样本流量数值序列包括所述样本源业务与所述样本目标业务之间进行多次数据传输所对应的多个样本流量数值,所述多个样本流量数值与多个时刻一一对应;
特征提取模块,用于对于所述多个样本业务流量组中的任意一个样本业务流量组,对所述样本业务流量组中的所述样本流量数值序列进行特征提取,得到样本序列特征;
标签生成模块,用于将所述多个样本业务流量组的多个样本序列特征进行聚类;将聚类后所属的类别作为标签,得到所述多个样本序列特征分别对应的多个标签;
训练模块,用于将所述多个样本序列特征输入所述流量分类模型;根据所述流量分类模型输出的分类结果与所述多个标签之间的误差训练所述流量分类模型。
16.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一所述的流量分类方法,或者,如权利要求9至13任一所述的流量分类模型的训练方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至8任一所述的流量分类方法,或者,如权利要求9至13任一所述的流量分类模型的训练方法。
CN202310850816.2A 2023-07-12 2023-07-12 流量分类方法、装置、设备及介质 Active CN116582452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310850816.2A CN116582452B (zh) 2023-07-12 2023-07-12 流量分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310850816.2A CN116582452B (zh) 2023-07-12 2023-07-12 流量分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116582452A CN116582452A (zh) 2023-08-11
CN116582452B true CN116582452B (zh) 2023-09-08

Family

ID=87539969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310850816.2A Active CN116582452B (zh) 2023-07-12 2023-07-12 流量分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116582452B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012105043A (ja) * 2010-11-10 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> フロー分類方法、システム、およびプログラム
CN112036518A (zh) * 2020-11-05 2020-12-04 中国人民解放军国防科技大学 基于数据包字节分布的应用程序流量分类方法和存储介质
CN112714079A (zh) * 2020-12-14 2021-04-27 成都安思科技有限公司 一种vpn环境下的目标服务识别方法
CN113378961A (zh) * 2021-06-23 2021-09-10 中移(杭州)信息技术有限公司 网络流量识别方法、装置、设备以及计算机程序产品
CN115118653A (zh) * 2022-08-26 2022-09-27 南京可信区块链与算法经济研究院有限公司 一种基于多任务学习的实时业务流量分类方法及系统
CN115242724A (zh) * 2022-07-21 2022-10-25 东南大学 一种基于两阶段聚类的高速网络流量服务分类方法
WO2023087069A1 (en) * 2021-11-18 2023-05-25 Canopus Networks Pty Ltd Network traffic classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012105043A (ja) * 2010-11-10 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> フロー分類方法、システム、およびプログラム
CN112036518A (zh) * 2020-11-05 2020-12-04 中国人民解放军国防科技大学 基于数据包字节分布的应用程序流量分类方法和存储介质
CN112714079A (zh) * 2020-12-14 2021-04-27 成都安思科技有限公司 一种vpn环境下的目标服务识别方法
CN113378961A (zh) * 2021-06-23 2021-09-10 中移(杭州)信息技术有限公司 网络流量识别方法、装置、设备以及计算机程序产品
WO2023087069A1 (en) * 2021-11-18 2023-05-25 Canopus Networks Pty Ltd Network traffic classification
CN115242724A (zh) * 2022-07-21 2022-10-25 东南大学 一种基于两阶段聚类的高速网络流量服务分类方法
CN115118653A (zh) * 2022-08-26 2022-09-27 南京可信区块链与算法经济研究院有限公司 一种基于多任务学习的实时业务流量分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马尔科夫模型在网络流量分类中的应用与研究;赵英;韩春昊;;计算机工程(05);全文 *

Also Published As

Publication number Publication date
CN116582452A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
US9679074B2 (en) Social genome
CN110442790A (zh) 推荐多媒体数据的方法、装置、服务器和存储介质
CN110674979B (zh) 风险预测模型的训练方法、预测方法及装置、介质和设备
CN108108743B (zh) 异常用户识别方法和用于识别异常用户的装置
CN111966904B (zh) 基于多用户画像模型的信息推荐方法和相关装置
CN102930023A (zh) 基于知识的数据质量解决方案
CN112711705B (zh) 舆情数据处理方法、设备及存储介质
CN102982097A (zh) 用于基于知识的数据质量解决方案的域
CN114418035A (zh) 决策树模型生成方法、基于决策树模型的数据推荐方法
CN112231584A (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
CN117216362A (zh) 内容推荐方法、装置、设备、介质和程序产品
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN117875501A (zh) 一种基于大数据的社交媒体用户行为预测系统及方法
CN114330482A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111368060B (zh) 对话机器人的自学习方法、装置、系统、电子设备及介质
CN117235371A (zh) 视频推荐方法、模型训练方法及装置
US20230409422A1 (en) Systems and Methods for Anomaly Detection in Multi-Modal Data Streams
CN116582452B (zh) 流量分类方法、装置、设备及介质
CN115883392B (zh) 算力网络的数据感知方法、装置、电子设备及存储介质
Wang et al. Correcting biases in online social media data based on target distributions in the physical world
CN112365092A (zh) 城市轨道交通路网大客流风险自适应预警系统
WO2023087933A1 (zh) 内容推荐方法、装置、设备、存储介质及程序产品
CN115471036B (zh) 一种热点事件的群体情绪分析方法、存储介质及设备
CN114357242A (zh) 基于召回模型的训练评估方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40091107

Country of ref document: HK