CN112291122B - 网络流量检测方法、装置、电子设备及可读存储介质 - Google Patents

网络流量检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112291122B
CN112291122B CN202011618574.7A CN202011618574A CN112291122B CN 112291122 B CN112291122 B CN 112291122B CN 202011618574 A CN202011618574 A CN 202011618574A CN 112291122 B CN112291122 B CN 112291122B
Authority
CN
China
Prior art keywords
data
neural network
network model
traffic
network traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011618574.7A
Other languages
English (en)
Other versions
CN112291122A (zh
Inventor
徐海兵
郭久明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maipu Communication Technology Co Ltd
Original Assignee
Maipu Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maipu Communication Technology Co Ltd filed Critical Maipu Communication Technology Co Ltd
Priority to CN202011618574.7A priority Critical patent/CN112291122B/zh
Publication of CN112291122A publication Critical patent/CN112291122A/zh
Application granted granted Critical
Publication of CN112291122B publication Critical patent/CN112291122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请提供一种网络流量检测方法、装置、电子设备及可读存储介质。方法包括:获取训练数据集,训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,多组样本数据中的部分组样本数据的网络流量数据包括数据特征及基于白噪声得到的数据标签;利用训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据。由于训练数据集的样本数据中,包括基于白噪声得到的数据标签,如此,可以丰富样本数据的多样性,从而有利于提高训练后的神经网络模型所预测的网络流量峰值的准确性和可靠性,改善因样本数据分布单一而使得神经网络模型预测的准确性和可靠性低的问题。

Description

网络流量检测方法、装置、电子设备及可读存储介质
技术领域
本申请涉及数据通信技术领域,具体而言,涉及一种网络流量检测方法、装置、电子设备及可读存储介质。
背景技术
随着网络的普及,网络流量的规模不断被刷新,存在对网络带宽资源分配的需求。网络带宽资源配置时,虽然在前期能够合理分配网络资源,但网络流量具有突发性,这容易使得原本充足的网络资源可能会出现资源短缺的情况。现有的流量预测模型训练方法具有样本倾向性,即训练的参数权重偏向于分布较多的样本;另一方面,网络流量的样本不平衡,大部分样本的标签数值分布在低值范围,而对应于网络流量峰值的样本分布较少,从而导致预测的网络流量峰值的可靠性及准确性低。
发明内容
本申请实施例的目的在于提供一种网络流量检测方法、装置、电子设备及可读存储介质,能够改善预测的网络流量峰值的可靠性及准确性低的问题。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种网络流量检测方法,所述方法包括:
获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,所述多组样本数据中的部分组样本数据的所述网络流量数据包括数据特征及基于白噪声得到的数据标签;
利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据。
在上述的实施方式中,训练数据集的样本数据中,包括基于白噪声得到的数据标签,如此,可以丰富样本数据的多样性,从而有利于提高训练后的神经网络模型所预测的网络流量峰值的准确性和可靠性,改善因样本数据分布单一而使得神经网络模型预测的准确性和可靠性低的问题。
结合第一方面,在一些可选的实施方式中,获取训练数据集,包括:
从以指定采集频率采集得到的网络流量数据集中,通过滑动窗口获取多组网络流量数据,每组网络流量数据包括采集的时间序列连续的多个流量值;
针对每组所述网络流量数据,当存在流量值大于预设阈值的目标组时,对所述目标组中的网络流量数据重采样,得到与所述目标组相同的至少两组网络流量数据;
在所述至少两组网络流量数据中,选择一组流量数据作为原样本数据,其中,所述原样本数据中指定数量的最晚时间序列的流量值为所述数据标签,所述原样本数据中除去所述数据标签之外的流量值为所述数据特征;
在所述至少两组网络流量数据中除去一组所述原样本数据之外的剩余每组网络流量数据中,基于白噪声对所述数据标签的流量值进行放大,并将放大后的流量值作为新的数据标签,将每组网络流量数据中除去所述数据标签之外的流量值作为数据特征,得到新样本数据。
在上述的实施方式中,当样本数据中的数据标签大于预设阈值时,可以通过重采样,新增略大于原数据标签的流量值作为新样本中的数据标签,如此,可以让流量值较大的样本数量增加,避免流量值较大的样本数量少而使得预测的流量峰值过小。
结合第一方面,在一些可选的实施方式中,利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,包括:
利用所述每组样本数据中的多个所述数据特征及所述数据标签,训练所述神经网络模型,使得所述神经网络模型学习多个所述数据特征与所述数据标签的特征关系,得到所述经过训练的神经网络模型。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
根据测试样本对所述经过训练的神经网络模型进行测试,得到测试结果,所述测试样本包括多个时间序列连续的测试数据特征及测试数据标签,所述测试结果包括与所述测试数据标签的时间序列对应的流量值;
根据所述测试结果中的流量值与所述测试数据标签的流量值的差值,通过所述神经网络模型中的预设损失函数,对所述神经网络模型优化,得到用于预测流量数据的所述神经网络模型。
在上述的实施方式中,通过对经过训练的神经网络模型进行测试优化,有利于提高神经网络模型对流量预测的准确性和可靠性。
结合第一方面,在一些可选的实施方式中,所述预设损失函数包括:
Figure 917830DEST_PATH_IMAGE001
在所述预设损失函数中,
Figure 159455DEST_PATH_IMAGE002
为所述预设损失函数的参数,y为所述测试数据标签所表征的实际流量值,f(x)为与所述实际流量值y对应的预测流量值,λ为调节重采样的样本比例,
Figure DEST_PATH_IMAGE003
为网络流量数据的平均值。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
获取所述当前时刻之前的预设时段内的网络流量数据,所述网络流量数据包括与多个时间序列对应的流量值;
将所述网络流量数据输入至经过训练的所述神经网络模型,由所述神经网络模型根据所述多个时间序列对应的流量值预测得到所述当前时刻之后的所述目标时刻的流量数据。
在上述的实施方式中,通过利用上述的经过训练的神经网络模型对网络流量进行预测,有利于提高所预测的网络流量峰值的准确性及可靠性,改善预测的流量峰值较低的问题。
结合第一方面,在一些可选的实施方式中,所述目标时刻的流量数据包括在所述当前时刻之后的至少一个时刻时的流量峰值、平均流量值中的至少一种。
第二方面,本申请实施例还提供一种网络流量检测装置,所述装置包括:
获取单元,用于获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,所述多组样本数据中的部分组样本数据的所述网络流量数据包括数据特征及基于白噪声得到的数据标签;
训练单元,用于利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图。
图2为本申请实施例提供的网络流量检测方法的示意图之一。
图3为本申请实施例提供的网络流量检测方法的示意图之二。
图4为本申请实施例提供的网络流量检测装置的框图。
图标:10-电子设备;11-处理模块;12-存储模块;100-网络流量检测装置;110-获取单元;120-训练单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
申请人发现,现有的流量预测模型训练方法具有样本倾向性,即训练的参数权重偏向于分布较多的样本,而忽略分布较小的样本;另一方面,网络流量的样本不平衡,大部分样本的标签数值分布在低值范围,而对应于网络流量峰值的样本分布较少,这就导致了网络流量峰值预测的准确性难以有效提高。
鉴于上述问题,本申请申请人提出以下实施例以解决上述问题。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,本申请实施例提供一种电子设备10,可以获取网络在当前时刻之前的历史流量数据,然后对当前时刻之后的网络的流量数据进行预测,能够提高流量数据预测的准确性及可靠性。
其中,电子设备10可以包括处理模块11及存储模块12。存储模块12内存储计算机程序,当计算机程序被所述处理模块11执行时,使得电子设备10能够执行下述方法中的各步骤。
处理模块11和存储模块12各个元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
当然,在其他实施方式中,电子设备10还可以包括其他硬件模块、软件模块等。例如,电子设备10还可以包括通信模块,用于与其他设备建立通信连接以进行数据交互。另外,电子设备10还可以包括固化在存储模块12中的网络流量检测装置100。其中,电子设备10可以是但不限于服务器、个人电脑等设备,这里不作具体限定。
请参照图2,本申请实施例提供一种网络流量检测方法,可以应用于上述的电子设备10中,由电子设备10执行或实现方法的各步骤。方法可以包括以下步骤:
步骤S210,获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,所述多组样本数据中的部分组样本数据的所述网络流量数据包括数据特征及基于白噪声得到的数据标签;
步骤S220,利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据。
在上述的实施方式中,训练数据集的样本数据中,包括基于白噪声得到的数据标签,如此,可以丰富样本数据的多样性,从而有利于提高训练后的神经网络模型所预测的网络流量峰值的准确性和可靠性,改善因样本数据分布单一而使得神经网络模型预测的准确性和可靠性低的问题。
下面将对方法的各步骤进行详细阐述,如下:
在步骤S210中,训练数据集为在对神经网络模型进行训练前准备的数据集。训练数据集可以存储在电子设备10中,或者,训练数据集存储在其他设备中,可以供电子设备10从其他设备获取。训练数据集所包括的样本组数的数量通常较大,例如,样本组数可以超过千组、万组、十万组等数量,可以根据实际情况进行设置。另外,每组样本数据所包括的网络流量数据的数量可以根据实际情况进行设置,这里不作具体限定。
其中,在每组样本数据的网络流量数据中,数据特征为采集网络在不同时间序列得到的流量值。数据标签可以为在不同于数据特征的时间点所采集的网络的原始流量值,或者,数据标签可以为基于原始流量值通过白噪声进行放大所得到的流量值。其中,白噪声可理解为放大比例。通常为大于1且小于2的数值。例如,该放大比例可以为1.1倍。
在本实施例中,步骤S210可以包括子步骤S211至子步骤S214,如下:
子步骤S211,从以指定采集频率采集得到的网络流量数据集中,通过滑动窗口获取多组网络流量数据,每组网络流量数据包括采集的时间序列连续的多个流量值;
子步骤S212,针对每组所述网络流量数据,当存在流量值大于预设阈值的目标组时,对所述目标组中的网络流量数据重采样,得到与所述目标组相同的至少两组网络流量数据;
子步骤S213,在所述至少两组网络流量数据中,选择一组流量数据作为原样本数据,其中,所述原样本数据中指定数量的最晚时间序列的流量值为所述数据标签,所述原样本数据中除去所述数据标签之外的流量值为所述数据特征;
子步骤S214,在所述至少两组网络流量数据中除去一组所述原样本数据之外的剩余每组网络流量数据中,基于白噪声对所述数据标签的流量值进行放大,并将放大后的流量值作为新的数据标签,将每组网络流量数据中除去所述数据标签之外的流量值作为数据特征,得到新样本数据。
在本实施例中,电子设备10可以以指定采集频率,采集网络的流量值,形成网络流量数据集。其中,被采集的网络可以根据实际情况进行确定,可以为一个或多个网络。例如,被采集的网络可以为电商平台的订单服务器的网络。指定采集频率可以根据实际情况进行确定,例如,指定采集频率可以为5秒采集一次,10秒采集一次、20秒采集一次等采集频率。
在网络流量数据集中,流量值与相应的时间序列对应,该时间序列可理解为采集到网络的流量值时的时间戳。如此,网络流量数据集中的每个流量值可以基于时间序列的顺序,以序列的方式呈现。然后,通过滑动窗口从网络流量数据集获取每组网络流量数据。
例如,网络流量数据集包括流量值x1,x2,x3,x4,x5,x6,x7,…,x(7+i)。i为大于0的整数,假设滑动窗口的长度为5,滑动间距为2,则每次采集5个数据,每次采集间隔2个数据,可以得到每组样本[x(2j-1),x(2j),x(2j+1),x(2j+2),x(2j+3)],其中,i为大于或等于1的整数,表示样本组数。基于此,可以采集得到第一组样本[x1,x2,x3,x4,x5],第二组样本[x3,x4,x5,x6,x7]。原样本数据中指定数量的最晚时间序列的流量值,可理解为时间序列中最末尾的指定数量的流量值。指定数量可以为一个或多个。比如,若指定数量为一个,在任一组流量数据中,最晚时序的流量值可以作为数据标签,除去数据标签的流量值作为数据特征。比如,在第一组样本[x1,x2,x3,x4,x5]中,x5可以作为数据标签,x1,x2,x3,x4,可以作为数据特征。若指定数量为两个,在第一组样本[x1,x2,x3,x4,x5]中,x4,x5作为时间序列中最末尾的两个流量值,即为数据标签,x1,x2,x3为数据特征。
当然,在其他实时方式中,滑动窗口的长度及滑动间距可以根据实际情况进行设置,这里不作具体限定。
在任一组流量数据中,若该组存在流量值大于预设阈值,或者该组存在数据标签的流量值大于预设阈值,则将该组作为目标组,然后,对目标组进行重采样,重采样可理解为对目标组中的所有流量值进行复制,最终得到与目标组相同的至少两组网络流量数据。其中,预设阈值可以根据实际情况进行确定。例如,预设阈值可以为
Figure 169000DEST_PATH_IMAGE004
,其中,λ调节重采样的样本比例,λ为大于0的数值,可以根据实际情况进行确定。另外,
Figure DEST_PATH_IMAGE005
为该组网络流量数据的平均流量值。
在重采样得到的至少两组网络流量数据中,可以选择其中一组作为原样本数据,在除去一组原样本数据之后的其他每组网络流量数据中,可以对数据标签以不同比例进行放大,然后得到新的数据标签,新的数据标签和数据特征形成新样本数据。其中,与目标组相同的至少两组网络流量数据的具体数量可以为2、3、4等,可以根据实际情况进行确定,用于丰富较大流量值的样本。另外,对原始的数据标签进行放大比例可以根据实际情况进行确定,比如,放大比例可以为大于1且小于或等于1.1倍中的任意值。
示例性地,例如,目标组为[x1,x2,x3,x4,x5],若重采样后,共三组同样的[x1,x2,x3,x4,x5]。此时,可以选择一组[x1,x2,x3,x4,x5]作为原样本数据,其中,x5为原始数据标签。在剩余两组中,可以分别对x5进行不同比例的放大处理,得到新的流量值。例如,可以分别对x5进行1.05倍放大得到x’5,进行1.1倍放大得到x’’5,其中,对x5进行放大处理的过程即为基于白噪声对所述数据标签的流量值进行放大的处理过程;最后,可以将得到的[x1,x2,x3,x4,x’5]、[x1,x2,x3,x4,x’’5]分别作为新样本数据,添加在训练数据集中。
又例如,当每个目标组中的数据标签的数量为多个时,比如为3个,目标组为[x1,x2,x3,x4,x5,x6,x7],若重采样后,共三组同样的[x1,x2,x3,x4,x5,x6,x7]。此时,可以选择一组[x1,x2,x3,x4,x5,x6,x7]作为原样本数据,其中,x5,x6,x7均为原始数据标签。在剩余两组中,可以分别对x5进行不同比例的放大处理,得到新的流量值。例如,可以分别对x5,x6,x7进行不同比例的放大,可以得到[x’5,x’6,x’7]以及[x’’5,x’’6,x’’7],分别作用放大后的数据标签。在同组中,各流量值的放大比例可以相同或不同,这里不作具体限定。另外,对x5,x6,x7进行放大处理的过程即为基于白噪声对所述数据标签的流量值进行放大的处理过程;最后,可以将得到的[x1,x2,x3,x4,x’5,x’6,x’7]、[x1,x2,x3,x4,x’’5,x’’6,x’’7]分别作为新样本数据,添加在训练数据集中。
基于上述设计,通过基于白噪声对原数据标签进行放大,得到新的样本数据,如此,可以使得样本数据中的流量值的大小分布范围更广,有利于增加较大流量值的样本,改善因较大流量值样本较少,而使得训练后的模型预测的对流量峰值的准确性及可靠性低的问题。
在步骤S220中,在获取到训练数据集后,可以直接利用训练数据集中的每组样本数据,对神经网络模型进行训练。其中,神经网络模型可以是但不限于深度神经网络模型、人工神经网络模型。神经网络模型可以包括输入层、循环层及全连接层,用于对每组样本数据进行学习训练,从而可以得到经过训练的神经网络模型。
在本实施例中,步骤S220可以包括:利用所述每组样本数据中的多个所述数据特征及所述数据标签,训练所述神经网络模型,使得所述神经网络模型学习多个所述数据特征与所述数据标签的特征关系,得到所述经过训练的神经网络模型。
可理解地,在训练神经网络模型时,在将每组样本数据中的多个数据特征及数据标签输入至神经网络模型后,神经网络模型中的输入层、循环层及全连接层便可以对多个数据特征及数据标签进行学习训练,从而得到每组中的多个数据特征与数据标签的特征关系,使得神经网络模型具有根据多个数据特征预测下一时间序列或其他时间点的流量值的能力,如此,可以便得到经过训练的神经网络模型。
作为一种可选的实施方式,在步骤S210之后,方法还可以包括对神经网络模型进行测试优化的步骤,例如,在步骤S210之后,方法还可以包括:
根据测试样本对所述经过训练的神经网络模型进行测试,得到测试结果,所述测试样本包括多个时间序列连续的测试数据特征及测试数据标签,所述测试结果包括与所述测试数据标签的时间序列对应的流量值;
根据所述测试结果中的流量值与所述测试数据标签的流量值的差值,通过所述神经网络模型中的预设损失函数,对所述神经网络模型优化,得到用于预测流量数据的所述神经网络模型。
在本实施例中,所述预设损失函数包括:
Figure 812471DEST_PATH_IMAGE006
在所述预设损失函数中,
Figure 960686DEST_PATH_IMAGE002
为所述预设损失函数的参数,y为所述测试数据标签所表征的实际流量值,f(x)为与所述实际流量值y对应的预测流量值,λ为调节重采样的样本比例,
Figure DEST_PATH_IMAGE007
为网络流量数据的平均值。
在模型测试过程中,得到的测试结果的流量值即为预测的流量值,测试数据标签即为测试样本中指定数量的最晚时间序列的实际流量值。当预测的流量峰值小于实际流量值时,则调低λ的大小,重复测试过程;当预测的流量峰值超过实际流量值一定范围时,则调高λ的大小,同样重复测试过程;当预测的流量峰值超过实际流量值且在一定的范围(例如在超出实际流量值的10%的范围内)时,结束神经网络模型的测试优化。此后,便可以采用优化后的神经网络模型对流量峰值进行预测。其中,调高或调低λ的方式可以根据实际情况进行确定,例如,可以折半增加或减少λ。
在该预设损失函数中,当实际流量值处于高位时,即,
Figure 689608DEST_PATH_IMAGE008
,使用均方误差函数MSE,即
Figure 909368DEST_PATH_IMAGE009
,对局部极值敏感,有利于评估模型的峰值。
当实际流量值处于低位时,即,
Figure 407345DEST_PATH_IMAGE010
,此时,无需对局部极值敏感,使用平均绝对值误差函数MAE,即
Figure 178992DEST_PATH_IMAGE011
在上述的实施方式中,通过对经过训练的神经网络模型进行测试优化,有利于提高神经网络模型对流量预测的准确性和可靠性。
请参照图3,在得到经过训练的深度神经网络模型后,可以方法还可以包括利用该神经网络模型对网络的流量数据进行预测的步骤。例如,在步骤S220之后,方法还可以包括步骤S230及步骤S240,如下:
步骤S230,获取所述当前时刻之前的预设时段内的网络流量数据,所述网络流量数据包括与多个时间序列对应的流量值;
步骤S240,将所述网络流量数据输入至经过训练的所述神经网络模型,由所述神经网络模型根据所述多个时间序列对应的流量值预测得到所述当前时刻之后的所述目标时刻的流量数据。
在本实施例中,当前时刻可理解为需要对未来的目标时刻进行流量峰值预测的时刻。目标时刻为当前时刻之后的一个时刻或多个不同的时刻,可以根据实际情况进行设置。预设时段可以根据实际情况进行确定,可以为1分钟、10分钟、1小时、10小时等时长,这里对预设时段不作具体限定。目标时刻可以为当前时刻之后的下一时间序列,或为当前时刻之后的指定时长对应的时刻,可以根据实际情况进行确定。指定时长可以根据实际情况进行设置,这里不作具体限定。如此,有利于用户根据实际情况灵活设定目标时刻,以便于对目标时刻的流量峰值进行预测。
其中,预设时段内的网络流量数据通常包括:网络在当前时刻之前的时间序列连续的多个流量值,时间序列之间的间隔时长可以根据实际情况进行确定,这里不作具体限定。当需要对网络在当前时刻之后的目标时刻进行网络流量预测时,电子设备10可以将获取的预设时段内多个流量值输入至训练后的神经网络模型,然后,由神经网络模型对多个流量值进行分析处理,得到目标时刻的流量数据。目标时刻的流量数据可以包括流量峰值及平均流量值。平均流量值可理解为在目标时刻前后一段时间(比如为10秒、1分钟)内的平均流量值。由于上述的经过训练的神经网络模型在训练过程中,增加了训练样本的多样性,在对网络流量进行预测时,有利于提高所预测的网络流量峰值的准确性及可靠性,改善预测的流量峰值较低的问题。
基于上述设计,通过重采样可以增加流量峰值样本的权重,改善模型的倾向性问题。然后,通过自定义的预设损失函数有利于流量峰值评估的准确性。
管理人员在得到目标时刻的流量峰值后,可以与当前网络的实际带宽资源进行比对,若流量峰值超过当前带宽的承载能力,便需要对增大网络带宽,以避免网络因无法承载流量峰值的业务而导致网络出现堵塞或其他故障。
请参照图4,本申请实施例还提供一种网络流量检测装置100,可以应用于上述的电子设备10中,用于执行方法中的各步骤。网络流量检测装置100包括至少一个可以软件或固件(Firmware)的形式存储于存储模块12中或固化在电子设备10操作系统(OperatingSystem,OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块,例如网络流量检测装置100所包括的软件功能模块及计算机程序等。
网络流量检测装置100可以包括获取单元110及训练单元120,执行的操作内容可以如下:
获取单元110,用于获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,所述多组样本数据中的部分组样本数据的所述网络流量数据包括数据特征及基于白噪声得到的数据标签;
训练单元120,用于利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据。
可选地,获取单元110还可以用于:
从以指定采集频率采集得到的网络流量数据集中,通过滑动窗口获取多组网络流量数据,每组网络流量数据包括采集的时间序列连续的多个流量值;
针对每组所述网络流量数据,当存在流量值大于预设阈值的目标组时,对所述目标组中的网络流量数据重采样,得到与所述目标组相同的至少两组网络流量数据;
在所述至少两组网络流量数据中,选择一组流量数据作为原样本数据,其中,所述原样本数据中指定数量的最晚时间序列的流量值为所述数据标签,所述原样本数据中除去所述数据标签之外的流量值为所述数据特征;
在所述至少两组网络流量数据中除去一组所述原样本数据之外的剩余每组网络流量数据中,基于白噪声对所述数据标签的流量值进行放大,并将放大后的流量值作为新的数据标签,将每组网络流量数据中除去所述数据标签之外的流量值作为数据特征,得到新样本数据。
可选地,训练单元120还可以用于:利用所述每组样本数据中的多个所述数据特征及所述数据标签,训练所述神经网络模型,使得所述神经网络模型学习多个所述数据特征与所述数据标签的特征关系,得到所述经过训练的神经网络模型。
可选地,网络流量检测装置100还可以包括测试单元及优化单元。测试单元用于根据测试样本对所述经过训练的神经网络模型进行测试,得到测试结果,所述测试样本包括多个时间序列连续的测试数据特征及测试数据标签,所述测试结果包括与所述测试数据标签的时间序列对应的流量值。优化单元用于:根据所述测试结果中的流量值与所述测试数据标签的流量值的差值,通过所述神经网络模型中的预设损失函数,对所述神经网络模型优化,得到用于预测流量数据的所述神经网络模型。
可选地,网络流量检测装置100还可以包括预测单元。获取单元110还可以用于获取所述当前时刻之前的预设时段内的网络流量数据,所述网络流量数据包括与多个时间序列对应的流量值。预测单元,用于将所述网络流量数据输入至经过训练的所述神经网络模型,由所述神经网络模型根据所述多个时间序列对应的流量值预测得到所述当前时刻之后的所述目标时刻的流量数据。
在本实施例中,处理模块11可以是一种集成电路芯片,具有信号的处理能力。上述处理模块11可以是通用处理器。例如,该处理器可以是中央处理器(Central ProcessingUnit,CPU)、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块12可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块12可以用于存储神经网络模型、网络流量数据等。当然,存储模块12还可以用于存储程序,处理模块11在接收到执行指令后,执行该程序。
可以理解的是,图1所示的结构仅为电子设备10的一种结构示意图,电子设备10还可以包括比图1所示更多的组件。图1中所示的各组件可以采用硬件、软件或其组合实现。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备10、网络流量检测装置100的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的网络流量检测方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,本申请实施例提供一种网络流量检测方法、装置、电子设备及可读存储介质。方法包括:获取训练数据集,训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,多组样本数据中的部分组样本数据的网络流量数据包括数据特征及基于白噪声得到的数据标签;利用训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据。在本方案中,训练数据集的样本数据中,包括基于白噪声得到的数据标签,如此,可以丰富样本数据的多样性,从而有利于提高训练后的神经网络模型所预测的网络流量峰值的准确性和可靠性,改善因样本数据分布单一而使得神经网络模型预测的准确性和可靠性低的问题。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种网络流量检测方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,所述多组样本数据中的部分组样本数据的所述网络流量数据包括数据特征及基于白噪声得到的数据标签;
利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据;其中,获取训练数据集,包括:
从以指定采集频率采集得到的网络流量数据集中,通过滑动窗口获取多组网络流量数据,每组网络流量数据包括采集的时间序列连续的多个流量值;
针对每组所述网络流量数据,当存在流量值大于预设阈值的目标组时,对所述目标组中的网络流量数据重采样,得到与所述目标组相同的至少两组网络流量数据;
在所述至少两组网络流量数据中,选择一组流量数据作为原样本数据,其中,所述原样本数据中指定数量的最晚时间序列的流量值为所述数据标签,所述原样本数据中除去所述数据标签之外的流量值为所述数据特征;
在所述至少两组网络流量数据中除去一组所述原样本数据之外的剩余每组网络流量数据中,基于白噪声对所述数据标签的流量值进行放大,并将放大后的流量值作为新的数据标签,将每组网络流量数据中除去所述数据标签之外的流量值作为数据特征,得到新样本数据。
2.根据权利要求1所述的方法,其特征在于,利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,包括:
利用所述每组样本数据中的多个所述数据特征及所述数据标签,训练所述神经网络模型,使得所述神经网络模型学习多个所述数据特征与所述数据标签的特征关系,得到所述经过训练的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,在利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型之后,所述方法还包括:
根据测试样本对所述经过训练的神经网络模型进行测试,得到测试结果,所述测试样本包括多个时间序列连续的测试数据特征及测试数据标签,所述测试结果包括与所述测试数据标签的时间序列对应的流量值;
根据所述测试结果中的流量值与所述测试数据标签的流量值的差值,通过所述神经网络模型中的预设损失函数,对所述神经网络模型优化,得到用于预测流量数据的所述神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述预设损失函数包括:
Figure 554377DEST_PATH_IMAGE001
在所述预设损失函数中,
Figure 222119DEST_PATH_IMAGE002
为所述预设损失函数的参数,y为所述测试数据标签所表征的实际流量值,f(x)为与所述实际流量值y对应的预测流量值,λ为调节重采样的样本比例,
Figure 359839DEST_PATH_IMAGE003
为网络流量数据的平均值。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型之后,所述方法还包括:
获取所述当前时刻之前的预设时段内的网络流量数据,所述网络流量数据包括与多个时间序列对应的流量值;
将所述网络流量数据输入至经过训练的所述神经网络模型,由所述神经网络模型根据所述多个时间序列对应的流量值预测得到所述当前时刻之后的所述目标时刻的流量数据。
6.根据权利要求5所述的方法,其特征在于,所述目标时刻的流量数据包括在所述当前时刻之后的至少一个时刻时的流量峰值、平均流量值中的至少一种。
7.一种网络流量检测装置,其特征在于,所述装置包括:
获取单元,用于获取训练数据集,所述训练数据集包括多组样本数据,每组样本数据包括与多个时间序列对应的网络流量数据,所述多组样本数据中的部分组样本数据的所述网络流量数据包括数据特征及基于白噪声得到的数据标签;
训练单元,用于利用所述训练数据集训练神经网络模型,得到经过训练的神经网络模型,用于预测当前时刻之后的目标时刻的流量数据;其中,所述获取单元还用于:
从以指定采集频率采集得到的网络流量数据集中,通过滑动窗口获取多组网络流量数据,每组网络流量数据包括采集的时间序列连续的多个流量值;
针对每组所述网络流量数据,当存在最晚时间序列的流量值大于预设阈值的目标组时,对所述目标组中的网络流量数据重采样,得到与所述目标组相同的至少两组网络流量数据;
在所述至少两组网络流量数据中,选择一组流量数据作为原样本数据,其中,所述原样本数据中最晚时间序列的流量值为所述数据标签,所述原样本数据中除去所述数据标签之外的流量值为所述数据特征;
在所述至少两组网络流量数据中除去一组所述原样本数据之外的剩余每组网络流量数据中,基于白噪声对所述数据标签的流量值进行放大,并将放大后的流量值作为新的数据标签,将每组网络流量数据中除去所述数据标签之外的流量值作为数据特征,得到新样本数据。
8.根据权利要求7所述的装置,其特征在于,所述训练单元还用于:
利用所述每组样本数据中的多个所述数据特征及所述数据标签,训练所述神经网络模型,使得所述神经网络模型学习多个所述数据特征与所述数据标签的特征关系,得到所述经过训练的神经网络模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
测试单元,用于根据测试样本对所述经过训练的神经网络模型进行测试,得到测试结果,所述测试样本包括多个时间序列连续的测试数据特征及测试数据标签,所述测试结果包括与所述测试数据标签的时间序列对应的流量值;
优化单元,用于根据所述测试结果中的流量值与所述测试数据标签的流量值的差值,通过所述神经网络模型中的预设损失函数,对所述神经网络模型优化,得到用于预测流量数据的所述神经网络模型。
10.根据权利要求9所述的装置,其特征在于,所述预设损失函数包括:
Figure 618782DEST_PATH_IMAGE001
在所述预设损失函数中,
Figure 576374DEST_PATH_IMAGE002
为所述预设损失函数的参数,y为所述测试数据标签所表征的实际流量值,f(x)为与所述实际流量值y对应的预测流量值,λ为调节重采样的样本比例,
Figure 31495DEST_PATH_IMAGE003
为网络流量数据的平均值。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括预测单元,其中:
所述获取单元,还用于获取所述当前时刻之前的预设时段内的网络流量数据,所述网络流量数据包括与多个时间序列对应的流量值;
所述预测单元,用于将所述网络流量数据输入至经过训练的所述神经网络模型,由所述神经网络模型根据所述多个时间序列对应的流量值预测得到所述当前时刻之后的所述目标时刻的流量数据。
12.一种电子设备,其特征在于,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-6中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-6中任一项所述的方法。
CN202011618574.7A 2020-12-31 2020-12-31 网络流量检测方法、装置、电子设备及可读存储介质 Active CN112291122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011618574.7A CN112291122B (zh) 2020-12-31 2020-12-31 网络流量检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011618574.7A CN112291122B (zh) 2020-12-31 2020-12-31 网络流量检测方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112291122A CN112291122A (zh) 2021-01-29
CN112291122B true CN112291122B (zh) 2021-03-16

Family

ID=74426328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011618574.7A Active CN112291122B (zh) 2020-12-31 2020-12-31 网络流量检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112291122B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514686A (zh) * 2021-06-23 2022-12-23 深信服科技股份有限公司 一种流量采集方法、装置及电子设备和存储介质
CN113783717B (zh) * 2021-08-12 2023-03-24 北京邮电大学 智慧城市网络流量预测方法及系统
CN114221876B (zh) * 2021-11-16 2024-03-12 山东师范大学 基于模糊控制与多特征融合的承载网流量预测方法及系统
CN115396346B (zh) * 2022-08-30 2023-11-28 北京知道创宇信息技术股份有限公司 仿真压力测试方法、装置、系统和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552797A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 名称预测模型的训练方法、装置、电子设备及存储介质
CN112149825A (zh) * 2020-09-24 2020-12-29 创新奇智(上海)科技有限公司 神经网络模型的训练方法及装置、电子设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10274620B2 (en) * 2017-03-22 2019-04-30 Stellar Solutions, Inc. System and method for providing short-term earthquake forecasts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552797A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 名称预测模型的训练方法、装置、电子设备及存储介质
CN112149825A (zh) * 2020-09-24 2020-12-29 创新奇智(上海)科技有限公司 神经网络模型的训练方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN112291122A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112291122B (zh) 网络流量检测方法、装置、电子设备及可读存储介质
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN110990159A (zh) 一种基于历史数据分析的容器云平台资源配额预测方法
CN106933650A (zh) 云应用系统的负载管理方法及系统
CN112118143B (zh) 流量预测模型训练方法、流量预测方法、装置、设备及介质
CN110572297B (zh) 网络性能的评估方法、服务器及存储介质
CN110333991B (zh) 云平台任务最大资源使用率预测方法
CN109558952A (zh) 数据处理方法、系统、设备及存储介质
CN115470936B (zh) 一种基于nwdaf的机器学习模型更新方法及装置
Ahrabian et al. Data analysis as a web service: A case study using IoT sensor data
CN116306806A (zh) 故障诊断模型确定方法、装置及非易失性存储介质
CN116128690B (zh) 一种碳排放量成本值计算方法、装置、设备及介质
CN108521435B (zh) 一种用户网络行为画像的方法及系统
CN115184674A (zh) 一种绝缘测试方法、装置、电子终端及存储介质
CN112924743B (zh) 一种基于电流数据的仪器状态检测方法
CN114938339A (zh) 一种数据处理方法和相关装置
AU2021269196A1 (en) Performance event troubleshooting system
CA3101842A1 (en) A method of digital signal feature extraction comprising multiscale analysis
CN116436098B (zh) 一种电力设备的多设备联运控制方法及系统
CN115051955B (zh) 一种基于三重特征选择和增量学习的在线流分类方法
CN116051155B (zh) 用户识别方法、装置、设备、存储介质和程序产品
CN107218964B (zh) 一种试验子样容量性状的判定方法
CN117495144A (zh) 一种基于融合模型的动态数据预测方法及系统
CN112801709A (zh) 一种用户流失预测方法、装置、设备及存储介质
CN117421229A (zh) 一种hdfs吞吐性能的评估装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant