CN116055413A - 一种基于云边协同的隧道网络异常识别方法 - Google Patents

一种基于云边协同的隧道网络异常识别方法 Download PDF

Info

Publication number
CN116055413A
CN116055413A CN202310206868.6A CN202310206868A CN116055413A CN 116055413 A CN116055413 A CN 116055413A CN 202310206868 A CN202310206868 A CN 202310206868A CN 116055413 A CN116055413 A CN 116055413A
Authority
CN
China
Prior art keywords
network
tunnel
data
network traffic
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310206868.6A
Other languages
English (en)
Other versions
CN116055413B (zh
Inventor
李�浩
陈志涛
陆艳铭
李朋
杨路
赵倩
彭维圆
吴晓南
孙建华
陈俊武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BROADVISION ENGINEERING CONSULTANTS
Original Assignee
BROADVISION ENGINEERING CONSULTANTS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BROADVISION ENGINEERING CONSULTANTS filed Critical BROADVISION ENGINEERING CONSULTANTS
Priority to CN202310206868.6A priority Critical patent/CN116055413B/zh
Publication of CN116055413A publication Critical patent/CN116055413A/zh
Application granted granted Critical
Publication of CN116055413B publication Critical patent/CN116055413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于云边协同的隧道网络异常识别方法,该方法针对现有技术下隧道内网络异常识别困难,隧道内以太网设备复杂、网络传输流量采样率较高,传输和服务器压力大。为实现隧道网络异常识别、提高系统响应速度,该方法由边缘计算节点采集并获取不同业务对应的网络流量特征,通过深度自编码器对高维流量特征进行特征提取。在边缘侧进行初步的数据处理及在降维的基础上保证流量数据的特征信息,以减轻传输数据的压力和分担云端网络异常识别的任务。此外,根据隧道网络特点,对传统密度峰值聚类算法在相似性度量和参数自适应选取两个关键技术方面进行改进,实现合理有效的隧道网络异常识别。

Description

一种基于云边协同的隧道网络异常识别方法
技术领域
本发明涉及网络数据处理技术领域,特别涉及一种基于云边协同的隧道网络异常识别方法。
背景技术
随着我国隧道智慧化的发展,隧道内机电系统(如隧道内传感设备和各类控制系统)不断增加。隧道内通讯主系统和隧道监控系统网络目前使用工业以太网交换机组成的冗余环网,并通过光纤连接到监控中心。交换机不仅需要处理视频监控系统的高带宽数据,同样也需要配置成冗余光纤环网连接区域控制器等周边现场设备。随着工业以太网设备越来越多,网络结构越来越复杂,隧道内网络异常识别不仅可以及时发现网络故障、攻击等问题,还可以保障隧道内各业务设备的安全运行以保障隧道网络服务质量。
在目前的隧道监控系统中,区域控制器主要执行数字量、模拟量的输入输出和串口通信等,无法采集交换机等网络设备的信息。虽然网络实际存在,但出现故障时无法自主识别异常情况。目前常用的网络信息获取方式主要通过监控软件实现,即电脑向交换机轮流发送读取指令并统一处理,之后进行数据筛选和处理后显示在监控大屏上。在使用过程中经常面临网络拓扑无法感知、误操作引起网络风暴、感染病毒造成网络宕机等问题。
此外,若将隧道内各业务网络流量上传云端进行集中计算,由于网络流量特征维度过高、处理较为复杂、隧道系统庞大,在进行网络流量异常识别时会占用大量的计算资源和网络带宽,并且无法保证实时性。因此亟需一种兼顾准确性和计算效率的隧道网络流量异常识别方法。
发明内容
针对现有技术下隧道内网络异常识别困难,隧道内以太网设备复杂、网络传输流量采样率较高,若集中至云端进行数据处理会给传输和服务器造成巨大压力。为实现隧道网络异常识别、提高系统响应速度及考虑隧道网络环境的特殊情况,在隧道网络内引入边缘计算节点,直接在设备端对网络流量进行处理,但边缘计算节点的计算资源有限,无法有效完成需要大量计算的数据处理任务。因此,提出一种由边缘端对隧道网络流量特征提取,并根据改进自适应峰值密度聚类算法进行隧道网络异常识别的云边协同方法。
本发明采用的技术方案为:
一种基于云边协同的隧道网络异常识别方法,该隧道网络异常识别云边协同方法由边缘端对隧道网络流量特征提取,并根据改进自适应峰值密度聚类算法进行,包括以下步骤:
步骤1,利用历史隧道网络流量数据离线训练深度自编码器DAE特征提取模型,并部署在隧道内的边缘计算节点;
步骤2,边缘计算节点采集隧道不同业务的终端设备传输的实时网络流量原始特征数据样本;
步骤3,将实时网络流量特征输入到训练好的DAE特征提取模型,由前向传播获得特征提取后的编码特征,记为降维后的数据;
步骤4,在隧道内部署的边缘节点完成网络流量采集、预处理及流量特征提取任务后,将降维后的数据经数据链路传输至云平台进行后续的异常识别任务,异常识别任务利用改进的密度峰值聚类算法DPC对隧道内部署的边缘节点传输的降维数据进行异常识别,异常识别采用SKL距离作为聚类算法中的相似性度量,包括由隧道内边缘节点特征提取后网络流量样本数据进行特征概率处理,计算网络流量样本数据间的SKL距离;
步骤5,云端在接受到经隧道内部署的边缘节点特征提取后的网络流量数据,采用改进自适应密度峰值聚类算法进行网络流量样本聚类,改进自适应密度峰值聚类算法包括将传统度量方式改进为适合描述隧道内网络流量序列分布状况的SKL距离、利用SKL计算相似度阈值以活动窗口AW的形式自适应确定DPC算法所需的截断距离参数、确定DPC截断距离计算网络流量样本局部密度、计算样本的相对距离、在二维坐标轴上以局部密度和相对距离画出决策图、基于决策图完成改进的自适应DPC聚类阶段;
步骤6:根据步骤5的聚类方法将隧道网络流量数据进行聚类后,边缘计算节点采集到的网络流量数据大多聚集在类簇中心附近,局部密度相对较低而相对距离相对较高的点则对应网络流量异常情况,根据异常样本所属的边缘计算节点传输内容快速检索到隧道终端设备的异常情况。
进一步,步骤1中,离线训练特征提取模型,包括以下流程:
步骤1.1,捕获隧道不同业务的终端设备传输的历史网络数据流,获取网络流量原始特征数据样本,利用现有常规方式解析获取对应的网络原始数据流,得到网络数据流样本;
步骤1.2,去除无意义特征,并将隧道网络的各种特征数据转换为可处理的数据后对原始特征进行归一化处理,假设归一化后的原始历史数据集表示为:
式中,表示历史数据集,表示第个原始网络流量样本,其中每个样本有维流量原始特征;
步骤1.3,令对应的隧道终端设备网络流量历史数据集作为训练集,以梯度下降算法训练DAE特征提取模型,获得模型的参数,即神经网络各层的权重和偏置。
进一步,归一化处理过程中利用归一化函数,归一化函数为:
式中,表示在任一向量内的最小值,表示在向量内的最大值。
进一步,DAE的训练方式如下:
步骤1.3.1,编码器将隧道终端设备网络流量历史数据集内的数据逐一经过激活函数映射得到隐含层数据:
式中,隐含层数据即为特征提取后的数据,表示第个经特征提取后的网络流量样本;
编码过程如下式所示:
式中,分别表示编码器的神经网络权重和偏置向量,激活函数为Sigmoid,隐含层数据即为特征提取后的数据;
步骤1.3.2,解码器又通过激活函数将隐含层数据转化得到输出数据:
式中,表示经解码器重构的历史网络流量数据集,表示第个经解码器重构的历史网络流量样本;
即输出为隐含层重构输入的变量,解码过程如下式所示:
式中,分别表示解码器的神经网络权重和偏置向量,为激活函数Sigmoid;
步骤1.3.3,利用梯度下降算法对DAE进行训练,DAE的训练为最小化重构输入数据与原始输入数据的损失,以得到最佳网络参数集,用表示,训练的目标函数如下式所示:
式中,网络参数集合表示编码器和解码器的网络权重和偏置向量,分别表示任意流量样本的输入值和重构值;
步骤1.3.4,保存训练好的模型参数,将DAE部署在隧道边缘计算节点,当输入隧道终端设备网络流量历史数据集至DAE可以由前向传播快速得到特征提取后的数据
进一步,步骤4中异常识别任务利用密度峰值聚类算法DPC对隧道内部署的边缘节点传输的降维数据进行异常识别,DPC根据数据间的相似度划分高密度区间,正常的网络流量通常是相似度较高的类簇,而离群点一般为流量异常情况。
进一步,采用对称KL距离作为聚类算法中的相似性度量,计算出的SKL距离越小,表明它们之间具有较高的相似性;在网络异常识别中,SKL计算的两个网络流量序列在统计量、数据分布状况具有较高的相似性,反之流量序列之间的数据结构出现了较大的偏差;
两两流量样本间的SKL距离计算步骤如下:
步骤4.1:假设经过隧道内边缘节点特征提取后的两个网络流量样本数据为,进行如下式所示的特征概率处理便于后续相似度计算,
式中,分别表示两流量样本在第维的特征值,分别为概率处理后的值;
步骤4.2:之间的SKL距离计算方式如下:
式中,分别为两流量样本经步骤4.1概率处理后的值,求得的即为两流量样本之间的SKL距离。
进一步,步骤5中改进自适应DPC算法步骤如下:
步骤5.1,经特征提取后传输到云端进行异常识别任务的网络流量样本记为,特征维度为,依据之间的SKL距离计算内任意两个网络流量样本之间的SKL距离,记为
步骤5.2,利用SKL相似度阈值以活动窗口AW的形式自适应确定DPC算法所需的截断距离参数;由于DPC算法需要预先确定截断距离参数,参数的取值对DPC的聚类性能影响较大,若取值过小,大多数的隧道网络流量样本将无法聚集,出现很多离群值;反之,若取值过大,很多网络流量样本类簇将会合并,离群值的数量会比实际少,使得无法有效识别隧道内终端设备的网络流量异常情况;
步骤5.3,根据所述步骤5.2自适应确定的DPC截断距离,依据下式计算任意网络流量样本的局部密度,其中
式中,为网络流量样本之间的SKL距离,为步骤5.2计算出的截断距离,
步骤5.4,对于任意网络流量样本,依据下式计算样本的相对距离
其中,表示在所有局部密度向量内的最大值,为步骤5.3计算出的任意网络流量样本的局部密度,为步骤5.3计算出的任意网络流量样本的局部密度。也就是说,若该网络流量样本的密度为全局最大,令该样本的距离值为最大的SKL距离;
步骤5.5,根据所述步骤5.3和步骤5.4,在二维坐标轴上以局部密度为横轴,以相对距离为纵轴画出决策图;
步骤5.6,根据所述步骤5.5的决策图,将相对较高的点作为聚类簇的中心,将相对较低而相对较高的点为噪声,被标记为异常点;
步骤5.7:对决策图中的剩余点依据局部密度按照从大到小的顺序分配到最近邻的类簇内,完成改进的自适应DPC聚类阶段。
进一步,步骤5.2中自适应确定DPC的截断距离参数步骤如下:
步骤5.2.1,假设云端接受隧道边缘节点传输的当前 t时刻数据流量样本,引入滑动窗口的概念,以为基准点向前序流量样本扩张,找到合适的时序临近网络流量样本归属到活动窗口内,自适应活动窗口数据集内的数据按照时序排列可以表示为:
式中, t为当前时刻, T为前序扩张的窗口边界时刻,即以当前时刻 t开始向前序扩张 T个网络流量样本,则自适应活动窗口AW包含时刻到 t时刻内的网络流量样本;
步骤5.2.2,当AW向前序扩张时,依据所述步骤4.2中的SKL距离公式计算新加入样本与当前AW内部所有样本的SKL相似性平均值,假设AW已向前序扩张到时刻,待扩张的新加入样本与AW内部样本的相似性评价函数计算方式如下:
式中,m表示当前AW已扩张的网络流量样本个数,为当前AW已扩张到的时刻,为新加入需要评价是否扩张的前序网络流量样本,它的时刻可以表示为为当前AW内从时刻到 t时刻内的任意网络流量样本;
步骤5.2.3,由所述的步骤5.2.2计算的公式,设定相似度阈值,按照如下阈值评估:若,AW的边界将向该前序网络流量样本扩张,该样本将加入到数据集中,反之则停止扩张;此时即为窗口的边界时刻,AW内的隧道网络流量样本具有较高的相似性和时序性,依据它们的统计特征可以作为DPC的截断距离选择依据;
步骤5.2.4,根据所述的步骤5.2.3得到的自适应活动窗口数据集,依据下式计算该数据集的标准方差,作为DPC的截断距离
式中, T为活动窗口数据集AW内的样本个数,表示AW内样本的均值,根据步骤5.2.3已将AW扩张到边界时刻,此时的表示AW内从时刻到 t时刻内的任意网络流量样本。
本发明的有益效果是:
(1)通过本发明提出的一种基于云边协同的隧道网络异常识别方法,可以在保证边缘端和云端的数据传输、计算资源合理分配协作任务,并对隧道内网络流量异常实现有效及时识别。
(2)本发明提供的边缘计算节点特征提取方法既在数据压缩的基础上保留了隧道网络流量的原始特征信息,又保证了云边传输数据的效率和减轻了云端分析数据的计算资源。
(3)本发明提供的改进自适应密度峰值聚类算法对于隧道网络流量异常识别,利用SKL距离作为相似性度量以衡量隧道网络流量样本的分布状态。改算法具有自适应确定聚类参数、快速识别异常信息的特点。
附图说明
图1是本发明隧道网络流量异常识别的云边协同计算架构;
图2是本发明基于改进自适应峰值密度聚类算法的基于云边协同的隧道网络异常识别方法的流程图。
具体实施方式
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚,完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,利用聚类算法对隧道网络流量异常识别的关键在于有效的相似性度量准则,正常的网络流量通常是相似度较高的类簇,而离群点一般为流量异常情况。由于隧道,隧道内网络流量异常识别困难、定位不准确,本发明提出一种云边协同的分布式隧道网络流量异常识别方法。在云边协同计算架构中分为终端设备层、数据融合层、网络层及云平台层。其中终端设备层主要为隧道感知设备和控制设备,如广播电话系统、隧道消防系统、隧道监控系统、信息发布系统、隧道区域控制系统及微机电力保护系统等,终端设备通过交换机在隧道内组成环网拓扑。集中至云端进行数据处理通常相应较慢且短时间收集大量终端设备的高维数据会占用大量带宽,因此在隧道内部署边缘计算节点,管理周边大量前端设备并进行数据采集、处理及控制等功能,采用云边协同可以极大提升隧道控制系统性能。为实现隧道网络流量异常识别,考虑到边缘节点的算力较弱,边缘端负责数据采集、预处理及特征提取。经提取后的网络流量上传至云端,基于本发明方法进行流量异常识别。
如图2所示,本实例涉及的一种在隧道机电系统网络中采集网络流量的异常识别云边协同方法,具体包括以下步骤:
步骤1:利用历史隧道网络流量数据离线训练深度自编码器(Deep Autoencoder,DAE)特征提取模型,并部署在隧道内的边缘计算节点。
所述的离线训练特征提取模型流程具体为:
步骤1.1:捕获隧道不同业务的终端设备传输的历史网络数据流,获取网络流量原始特征数据样本,如隧道监控业务网络流量、区域控制业务网络流量、信息发布业务网络流量等。利用现有常规方式解析获取对应的网络原始数据流,包括数据流的基本特征、协议连接的内容特征、基于时间的流量统计特征、连接特征等,得到网络数据流样本。
步骤1.2:去除无意义特征,如IP地址、端口号、时间戳等,并将隧道网络的各种特征数据转换为可处理的数据后对原始特征进行归一化处理,归一化函数为:
式中,表示在任意向量内的最小值,表示在任意向量内的最大值。
假设归一化后的原始历史数据集表示为:
式中,表示历史数据集,表示第个原始网络流量样本,其中每个样本有维流量原始特征;
步骤1.3:令对应的隧道终端设备网络流量历史数据集作为训练集,以梯度下降算法训练DAE特征提取模型,训练完成后可以获得模型的参数,即神经网络各层的权重和偏置。其中,深度自动编码器是一种包括编码器和解码器的无监督特征提取神经网络,与传统主成分分析等线性降维算法相比,DAE这一深度学习模型能够尽可能的拟合隧道内网络流量高维数据的原始结构特点,通过训练使得最终提取的特征能够最大程度保留原始特征的数据结构。
DAE的具体训练方式如下:
步骤1.3.1:编码器将输入隧道终端设备网络流量历史数据集内的数据逐一经过激活函数映射得到隐含层数据:
式中,隐含层数据即为特征提取后的数据,表示第个经特征提取后的网络流量样本;
编码过程如式(1)所示。隐含层的维度即为数据压缩后的维度,记为
 (1)
式中,分别表示编码器的神经网络权重和偏置向量,由于本实例应用场景为隧道网络流量,激活函数一般为Sigmoid。隐含层数据即为特征提取后的数据。
步骤1.3.2:解码器又通过激活函数将隐含层数据转化得到输出数据:
式中,表示经解码器重构的历史网络流量数据集,表示第个经解码器重构的历史网络流量样本。
即输出为隐含层重构输入的变量,解码过程如式(2)所示。
  (2)
式中,分别表示解码器的神经网络权重和偏置向量,为激活函数Sigmoid。
步骤1.3.3:利用梯度下降算法对DAE进行训练,DAE的训练为最小化重构输入数据与原始输入数据的损失,以得到最佳网络参数集,用表示。训练的目标函数如式(3)所示:
 (3)
式中,网络参数集合表示编码器和解码器的网络权重和偏置向量,分别表示任意流量样本的输入值和重构值。
步骤1.3.4:保存训练好的模型参数,将DAE部署在隧道边缘计算节点。当输入隧道终端设备网络流量历史数据集至DAE可以由前向传播快速得到特征提取后的数据
步骤2:边缘计算节点采集隧道不同业务的终端设备传输的实时网络流量原始特征数据样本。与步骤1.1相同,利用现有常规方式解析获取对应的终端设备网络原始数据流,得到对应的原始网络数据流样本。
步骤3:经与步骤1.2相同的数据预处理后,记为:
式中,表示实时原始网络流量数据集,表示第个实时原始网络流量样本。
将该实时网络流量数据输入到训练好的DAE特征提取模型,由前向传播获得特征提取后的编码特征,记为降维后的数据,如式(4)所示:
 (4)
其中,分别为训练好的DAE中的网络参数,即编码器的神经网络权重和偏置向量。
步骤4:在隧道内部署的边缘节点完成网络流量采集、预处理及流量特征提取任务后,将降维后的数据经数据链路传输至云平台进行后续的异常识别任务。
本实例利用密度峰值聚类算法(Density Peaks Clustering, DPC)对隧道内部署的边缘节点传输的降维数据进行异常识别,DPC可以根据数据间的相似度划分高密度区间,正常的网络流量通常是相似度较高的类簇,而离群点一般为流量异常情况。传统的DPC算法是基于样本间的欧式距离进行相似性计算进而划分类别,欧式距离仅对平面或球形分布的点集度量有效,对4维及其以上的样本距离度量逐渐失效。
为了使云端可以有效度量特征提取后的隧道网络流量数据之间的相似度以实现准确聚类,本发明采用对称KL(Symmetric Kullback-Leibler,SKL)距离作为聚类算法中的相似性度量。
SKL距离是一种用于描述两个概率分布差异的度量方法,计算出的SKL距离越小,表明它们之间具有较高的相似性。也就是说,在网络异常识别中,SKL计算的两个网络流量序列在统计量、数据分布状况具有较高的相似性,反之流量序列之间的数据结构出现了较大的偏差。
两两流量样本间的SKL距离具体计算步骤如下:
步骤4.1:假设经过隧道内边缘节点特征提取后的两个网络流量样本数据为,进行如式(5)所示的特征概率处理便于后续相似度计算。
   (5)
式中,分别表示两流量样本在第维的特征值,分别为概率处理后的值;
步骤4.2:之间的SKL距离计算方式如下:
  (6)
式中,分别为两流量样本经步骤4.1概率处理后的值,求得的即为两流量样本之间的SKL距离。
步骤5:云端在接受到经隧道内部署的边缘节点特征提取后的网络流量数据,采用本发明提出的改进自适应密度峰值聚类算法进行网络流量样本聚类。其中,改进的自适应DPC算法包括两个关键技术,分别为:将传统基于欧式距离的距离度量修改为适合描述隧道内网络流量序列分布状况的对称KL距离和利用SKL相似度阈值以活动窗口的形式自适应确定DPC算法所需的截断距离参数,改进后的DPC算法对隧道网络流量异常识别具有较好的鲁棒性和准确性。
所述的改进自适应DPC算法具体步骤如下:
步骤5.1:经特征提取后传输到云端进行异常识别任务的网络流量样本记为,特征维度为,依据之间的SKL距离计算内任意两个网络流量样本之间的SKL距离,记为
步骤5.2:利用SKL相似度阈值以活动窗口(Active window, AW)的形式自适应确定DPC算法所需的截断距离参数。由于DPC算法需要预先确定截断距离参数,参数的取值对DPC的聚类性能影响较大,若取值过小,大多数的隧道网络流量样本将无法聚集,出现很多离群值。反之,若取值过大,很多网络流量样本类簇将会合并,离群值的数量会比实际少,使得无法有效识别隧道内终端设备的网络流量异常情况。
本发明对DPC应用在隧道网络异常识别场景下对DPC算法的截断距离参数以活动窗口的形式自适应确定,由于隧道网络流量具有很强的时序相关性,且大部分情况网络流量皆为正常情况,对于该时刻的数据流样本,若与时间前序数据流样本的SKL距离变化区域稳定,在一定程度上表明终端设备的网络流量无明显异常。因此,可以基于时间临近数据流样本以SKL距离确定活动窗口的边界,以该窗口内的样本统计特征作为DPC的截断距离。
所述的自适应确定DPC的截断距离参数具体步骤如下:
步骤5.2.1:假设云端接受隧道边缘节点传输当前 t时刻的数据流样本记为,引入滑动窗口的概念,以为基准点向前序流量样本扩张,找到合适的时序临近网络流量样本归属到活动窗口内,自适应活动窗口数据集内的数据按照时序排列可以表示为:
式中, t为当前时刻, T为前序扩张的窗口边界时刻,即以当前时刻 t开始向前序扩张 T个网络流量样本,则自适应活动窗口AW包含时刻到 t时刻内的网络流量样本。
步骤5.2.2:当AW向前序扩张时,依据式(6)的SKL距离计算新加入样本与当前AW内部所有样本的SKL相似性平均值,假设AW已向前序扩张到时刻,待扩张的新加入样本与AW内部样本的相似性评价函数计算方式如下:
  (7)
式中,m表示当前AW已扩张的网络流量样本个数,为当前AW已扩张到的时刻,为新加入需要评价是否扩张的前序网络流量样本,它的时刻可以表示为为当前AW内从时刻到 t时刻内的任意网络流量样本。
步骤5.2.3:由所述的步骤5.2.2计算的公式,设定相似度阈值,按照如下阈值评估:若,AW的边界将向该前序网络流量样本扩张,该样本将加入到数据集中,反之则停止扩张,此时即为窗口的边界时刻。通过以上方式,AW内的隧道网络流量样本具有较高的相似性和时序性,依据它们的统计特征可以作为DPC的截断距离选择依据。
步骤5.2.4:根据所述的步骤5.2.3得到的自适应活动窗口数据集,依据式(8)计算该数据集的标准方差,作为DPC的截断距离
  (8)
 ;
式中,为活动窗口数据集AW内的样本个数,表示AW内样本的均值,根据步骤5.2.3已将AW扩张到边界时刻,此时的表示AW内从时刻到 t时刻内的任意网络流量样本。
步骤5.3:根据所述步骤5.2自适应确定的DPC截断距离,依据式(9)计算任意网络流量样本的局部密度,其中
  (9)
式中,为网络流量样本之间的SKL距离,为步骤5.2计算出的截断距离,
步骤5.4:对于任意网络流量样本,依据式(10)计算样本的相对距离
  (10)
其中,表示在所有局部密度向量内的最大值,为步骤5.3计算出的任意网络流量样本的局部密度,为步骤5.3计算出的任意网络流量样本的局部密度。也就是说,若该网络流量样本的密度为全局最大,令该样本的距离值为最大的SKL距离。
步骤5.5:根据所述步骤5.3和步骤5.4,在二维坐标轴上以局部密度为横轴,以相对距离为纵轴画出决策图。
步骤5.6:根据所述步骤5.5的决策图,将相对较高的点作为聚类簇的中心,将相对较低而相对较高的点噪声,被标记为异常点。
步骤5.7:对决策图中的剩余点依据局部密度按照从大到小的顺序分配到最近邻的类簇内,完成改进的自适应DPC聚类阶段。
步骤6:根据所述步骤5的聚类方法将隧道网络流量数据进行聚类后,由于隧道内终端设备的网络流量绝大多数情况为正常运行,因此,边缘计算节点采集到的网络流量数据大多聚集在类簇中心附近,而步骤5.6所标记局部密度相对较低而相对距离相对较高的点则对应网络流量异常情况。根据异常样本所属的边缘计算节点传输内容可以很快检索到隧道终端设备的异常情况。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种基于云边协同的隧道网络异常识别方法,其特征在于:该隧道网络异常识别云边协同方法由边缘端对隧道网络流量特征提取,并根据改进自适应峰值密度聚类算法进行,包括以下步骤:
步骤1,利用历史隧道网络流量数据离线训练深度自编码器DAE特征提取模型,并部署在隧道内的边缘计算节点;
步骤2,边缘计算节点采集隧道不同业务的终端设备传输的实时网络流量原始特征数据样本;
步骤3,将实时网络流量特征输入到训练好的DAE特征提取模型,由前向传播获得特征提取后的编码特征,记为降维后的数据;
步骤4,在隧道内部署的边缘节点完成网络流量采集、预处理及流量特征提取任务后,将降维后的数据经数据链路传输至云平台进行后续的异常识别任务,异常识别任务利用改进的密度峰值聚类算法DPC对隧道内部署的边缘节点传输的降维数据进行异常识别,异常识别采用SKL距离作为聚类算法中的相似性度量,包括由隧道内边缘节点特征提取后网络流量样本数据进行特征概率处理,计算网络流量样本数据间的SKL距离;
步骤5,云端在接受到经隧道内部署的边缘节点特征提取后的网络流量数据,采用改进自适应密度峰值聚类算法进行网络流量样本聚类,改进自适应密度峰值聚类算法包括将传统度量方式改进为适合描述隧道内网络流量序列分布状况的SKL距离、利用SKL计算相似度阈值以活动窗口AW的形式自适应确定DPC算法所需的截断距离参数、确定DPC截断距离计算网络流量样本局部密度、计算样本的相对距离、在二维坐标轴上以局部密度和相对距离画出决策图、基于决策图完成改进的自适应DPC聚类阶段;
步骤6:根据步骤5的聚类方法将隧道网络流量数据进行聚类后,边缘计算节点采集到的网络流量数据大多聚集在类簇中心附近,局部密度相对较低而相对距离相对较高的点则对应网络流量异常情况,根据异常样本所属的边缘计算节点传输内容快速检索到隧道终端设备的异常情况。
2.根据权利要求1所述的基于云边协同的隧道网络异常识别方法,其特征在于:步骤1中,离线训练特征提取模型,包括以下流程:
步骤1.1,捕获隧道不同业务的终端设备传输的历史网络数据流,获取网络流量原始特征数据样本,利用现有常规方式解析获取对应的网络原始数据流,得到网络数据流样本;
步骤1.2,去除无意义特征,并将隧道网络的各种特征数据转换为可处理的数据后对原始特征进行归一化处理,假设归一化后的原始历史数据集表示为:
式中,表示历史数据集,表示第个原始网络流量样本,其中每个样本有维流量原始特征;
步骤1.3,令对应的隧道终端设备网络流量历史数据集作为训练集,以梯度下降算法训练DAE特征提取模型,获得模型的参数,即神经网络各层的权重和偏置。
3.根据权利要求2所述的基于云边协同的隧道网络异常识别方法,其特征在于:归一化处理过程中利用归一化函数,归一化函数为:
 ;
式中,表示在任意向量内的最小值,表示在任意向量内的最大值。
4.根据权利要求2所述的基于云边协同的隧道网络异常识别方法,其特征在于:DAE的训练方式如下:
步骤1.3.1,编码器将隧道终端设备网络流量历史数据集内的数据逐一经过激活函数映射得到隐含层数据:
 ;
式中,隐含层数据即为特征提取后的数据,表示第个经特征提取后的网络流量样本;
编码过程如下式所示:
 ;
式中,分别表示编码器的神经网络权重和偏置向量,激活函数为Sigmoid,隐含层数据即为特征提取后的数据;
步骤1.3.2,解码器又通过激活函数将隐含层数据转化得到输出数据:
 ;
式中,表示经解码器重构的历史网络流量数据集,表示第个经解码器重构的历史网络流量样本;
即输出为隐含层重构输入的变量,解码过程如下式所示:
 ;
式中,分别表示解码器的神经网络权重和偏置向量,为激活函数Sigmoid;
步骤1.3.3,利用梯度下降算法对DAE进行训练,DAE的训练为最小化重构输入数据与原始输入数据的损失,以得到最佳网络参数集,用表示,训练的目标函数如下式所示:
 ;
式中,网络参数集合表示编码器和解码器的网络权重和偏置向量,分别表示任意流量样本的输入值和重构值;
步骤1.3.4,保存训练好的模型参数,将DAE部署在隧道边缘计算节点,当输入隧道终端设备网络流量历史数据集至DAE可以由前向传播快速得到特征提取后的数据
5.根据权利要求1所述的基于云边协同的隧道网络异常识别方法,其特征在于:步骤4中异常识别任务利用改进的密度峰值聚类算法DPC对隧道内部署的边缘节点传输的降维数据进行异常识别,DPC根据数据间的相似度划分高密度区间,正常的网络流量通常是相似度较高的类簇,而离群点一般为流量异常情况。
6.根据权利要求5所述的基于云边协同的隧道网络异常识别方法,其特征在于:采用对称KL距离作为聚类算法中的相似性度量,计算出的SKL距离越小,表明它们之间具有较高的相似性;在网络异常识别中,SKL计算的两个网络流量序列在统计量、数据分布状况具有较高的相似性,反之流量序列之间的数据结构出现了较大的偏差;
两两流量样本间的SKL距离计算步骤如下:
步骤4.1:假设经过隧道内边缘节点特征提取后的两个网络流量样本数据为,进行如下式所示的特征概率处理便于后续相似度计算,
 ;
式中,分别表示两流量样本在第维的特征值,分别为概率处理后的值;
步骤4.2:之间的SKL距离计算方式如下:
 ;
式中,分别为两流量样本经步骤4.1概率处理后的值,求得的即为两流量样本之间的SKL距离。
7.根据权利要求6所述的基于云边协同的隧道网络异常识别方法,其特征在于:步骤5中改进自适应DPC算法步骤如下:
步骤5.1,经特征提取后传输到云端进行异常识别任务的网络流量样本记为,特征维度为,依据之间的SKL距离计算内任意两个网络流量样本之间的SKL距离,记为
步骤5.2,利用SKL相似度阈值以活动窗口AW的形式自适应确定DPC算法所需的截断距离参数;由于DPC算法需要预先确定截断距离参数,参数的取值对DPC的聚类性能影响较大,若取值过小,大多数的隧道网络流量样本将无法聚集,出现很多离群值;反之,若取值过大,很多网络流量样本类簇将会合并,离群值的数量会比实际少,使得无法有效识别隧道内终端设备的网络流量异常情况;
步骤5.3,根据所述步骤5.2自适应确定的DPC截断距离,依据下式计算任意网络流量样本的局部密度,其中
 ;
式中,为网络流量样本之间的SKL距离,为步骤5.2计算出的截断距离,
步骤5.4,对于任意网络流量样本,依据下式计算样本的相对距离
 ;
其中,表示在所有局部密度向量内的最大值,为步骤5.3计算出的任意网络流量样本的局部密度,为步骤5.3计算出的任意网络流量样本的局部密度;也就是说,若该网络流量样本的密度为全局最大,令该样本的距离值为最大的SKL距离;
步骤5.5,根据所述步骤5.3和步骤5.4,在二维坐标轴上以局部密度为横轴,以相对距离为纵轴画出决策图;
步骤5.6,根据所述步骤5.5的决策图,将相对较高的点作为聚类簇的中心,将相对较低而相对较高的点为噪声,被标记为异常点;
步骤5.7:对决策图中的剩余点依据局部密度按照从大到小的顺序分配到最近邻的类簇内,完成改进的自适应DPC聚类阶段。
8.根据权利要求7所述的基于云边协同的隧道网络异常识别方法,其特征在于:步骤5.2中自适应确定DPC的截断距离参数步骤如下:
步骤5.2.1,假设云端接受隧道边缘节点传输的当前时刻数据流样本,引入滑动窗口的概念,以为基准点向前序流量样本扩张,找到合适的时序临近网络流量样本归属到活动窗口内,自适应活动窗口数据集内的数据按照时序排列可以表示为:
式中,t为当前时刻,T为前序扩张的窗口边界时刻,即以当前时刻t开始向前序扩张T个网络流量样本,则自适应活动窗口AW包含时刻到t时刻的网络流量样本;
步骤5.2.2,依据所述步骤4.2中的SKL距离公式计算新加入样本与当前AW内部所有样本的SKL相似性平均值,假设AW已向前序扩张到时刻,待扩张的新加入样本与AW内部样本的相似性评价函数计算方法如下:
式中,m表示当前AW已扩张的网络流量样本个数,为当前AW已扩张到的时刻,为新加入需要评价是否扩张的前序网络流量样本,它的时刻可以表示为为当前AW内从时刻到t时刻内的任意网络流量样本;
步骤5.2.3,由所述的步骤5.2.2计算的公式,设定相似度阈值,按照如下阈值评估:若,AW的边界将向该前序网络流量样本扩张,该样本将加入到数据集中,反之则停止扩张;通过以上方式,AW内的隧道网络流量样本具有较高的相似性和时序性,依据它们的统计特征可以作为DPC的截断距离选择依据;
步骤5.2.4,根据所述的步骤5.2.3得到的自适应活动窗口数据集,依据下式计算该数据集的标准方差,作为DPC的截断距离
 ;
式中,为活动窗口数据集AW内的样本个数,表示AW内样本的均值,根据步骤5.2.3已将AW扩张到边界时刻,此时的表示AW内从时刻到t时刻内的任意网络流量样本。
CN202310206868.6A 2023-03-07 2023-03-07 一种基于云边协同的隧道网络异常识别方法 Active CN116055413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310206868.6A CN116055413B (zh) 2023-03-07 2023-03-07 一种基于云边协同的隧道网络异常识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310206868.6A CN116055413B (zh) 2023-03-07 2023-03-07 一种基于云边协同的隧道网络异常识别方法

Publications (2)

Publication Number Publication Date
CN116055413A true CN116055413A (zh) 2023-05-02
CN116055413B CN116055413B (zh) 2023-08-15

Family

ID=86129740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310206868.6A Active CN116055413B (zh) 2023-03-07 2023-03-07 一种基于云边协同的隧道网络异常识别方法

Country Status (1)

Country Link
CN (1) CN116055413B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743646A (zh) * 2023-08-15 2023-09-12 云南省交通规划设计研究院有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法
CN116963136A (zh) * 2023-09-21 2023-10-27 安普德(天津)科技股份有限公司 一种wlan协议数据过滤方法及系统
CN117478434A (zh) * 2023-12-27 2024-01-30 中国联合网络通信集团有限公司 边缘节点网络流量数据处理方法、装置、设备及介质
CN117708513A (zh) * 2024-02-05 2024-03-15 贵州省畜牧兽医研究所 一种用于缬草特征研究的种植数据管理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200219007A1 (en) * 2019-01-09 2020-07-09 Cisco Technology, Inc. Dynamic orchestration of machine learning functions on a distributed network
CN112769796A (zh) * 2020-12-30 2021-05-07 华北电力大学 一种基于端侧边缘计算的云网端协同防御方法及系统
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN113242207A (zh) * 2021-04-02 2021-08-10 河海大学 一种迭代聚类的网络流量异常检测方法
CN113364752A (zh) * 2021-05-27 2021-09-07 鹏城实验室 一种流量异常检测方法、检测设备及计算机可读存储介质
CN113935426A (zh) * 2021-10-22 2022-01-14 国网信息通信产业集团有限公司 一种电力物联网异常数据流量的检测方法及装置
EP3968675A1 (en) * 2020-08-21 2022-03-16 INTEL Corporation Edge computing local breakout
CN114666075A (zh) * 2020-12-08 2022-06-24 上海交通大学 基于深度特征粗糙编码的分布式网络异常检测方法及系统
WO2022151579A1 (zh) * 2021-01-13 2022-07-21 清华大学 边缘计算场景下后门攻击主动防御方法及装置
CN115348074A (zh) * 2022-08-12 2022-11-15 北京航空航天大学 深度时空混合的云数据中心网络流量实时检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200219007A1 (en) * 2019-01-09 2020-07-09 Cisco Technology, Inc. Dynamic orchestration of machine learning functions on a distributed network
EP3968675A1 (en) * 2020-08-21 2022-03-16 INTEL Corporation Edge computing local breakout
CN114666075A (zh) * 2020-12-08 2022-06-24 上海交通大学 基于深度特征粗糙编码的分布式网络异常检测方法及系统
CN112769796A (zh) * 2020-12-30 2021-05-07 华北电力大学 一种基于端侧边缘计算的云网端协同防御方法及系统
WO2022151579A1 (zh) * 2021-01-13 2022-07-21 清华大学 边缘计算场景下后门攻击主动防御方法及装置
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN113242207A (zh) * 2021-04-02 2021-08-10 河海大学 一种迭代聚类的网络流量异常检测方法
CN113364752A (zh) * 2021-05-27 2021-09-07 鹏城实验室 一种流量异常检测方法、检测设备及计算机可读存储介质
CN113935426A (zh) * 2021-10-22 2022-01-14 国网信息通信产业集团有限公司 一种电力物联网异常数据流量的检测方法及装置
CN115348074A (zh) * 2022-08-12 2022-11-15 北京航空航天大学 深度时空混合的云数据中心网络流量实时检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明春;王威;倪西冰;: "边缘计算在铁路行业的应用和价值", 信息通信技术, no. 04, pages 39 - 46 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743646A (zh) * 2023-08-15 2023-09-12 云南省交通规划设计研究院有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法
CN116743646B (zh) * 2023-08-15 2023-12-19 云南省交通规划设计研究院股份有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法
CN116963136A (zh) * 2023-09-21 2023-10-27 安普德(天津)科技股份有限公司 一种wlan协议数据过滤方法及系统
CN116963136B (zh) * 2023-09-21 2023-11-28 安普德(天津)科技股份有限公司 一种wlan协议数据过滤方法及系统
CN117478434A (zh) * 2023-12-27 2024-01-30 中国联合网络通信集团有限公司 边缘节点网络流量数据处理方法、装置、设备及介质
CN117478434B (zh) * 2023-12-27 2024-03-26 中国联合网络通信集团有限公司 边缘节点网络流量数据处理方法、装置、设备及介质
CN117708513A (zh) * 2024-02-05 2024-03-15 贵州省畜牧兽医研究所 一种用于缬草特征研究的种植数据管理方法
CN117708513B (zh) * 2024-02-05 2024-04-19 贵州省畜牧兽医研究所 一种用于缬草特征研究的种植数据管理方法

Also Published As

Publication number Publication date
CN116055413B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN116055413B (zh) 一种基于云边协同的隧道网络异常识别方法
CN107968840B (zh) 一种大规模电力设备监测报警数据实时处理方法及系统
CN110895526A (zh) 一种大气监测系统中数据异常的修正方法
CN112906812A (zh) 基于带离群点去除的车辆轨迹聚类方法
CN116599857B (zh) 一种适用于物联网多场景的数字孪生应用系统
KR20210115991A (ko) 시계열 데이터 분석을 이용한 네트워크 이상징후 탐지 방법 및 장치
CN113132399A (zh) 一种基于时间卷积网络和迁移学习的工业控制系统入侵检测方法
CN116170208A (zh) 一种基于半监督isodata算法的网络入侵实时检测方法
CN111031006A (zh) 一种基于网络流的智能电网通信异常检测方法
CN111191720A (zh) 一种业务场景的识别方法、装置及电子设备
CN114186617B (zh) 一种基于分布式深度学习的机械故障诊断方法
CN117556377B (zh) 用于站所自动化终端的多源数据融合处理方法
CN110879802A (zh) 一种日志模式提取及匹配方法
CN117194171A (zh) 一种异构云资源全景式异常检测系统
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN113221674A (zh) 基于粗糙集约简和sift的视频流关键帧提取系统及方法
CN113765891A (zh) 一种设备指纹识别方法以及装置
CN113328986A (zh) 基于卷积神经网络与lstm结合的网络流量异常检测方法
CN114205855A (zh) 一种面向5g切片的馈线自动化业务网络异常检测方法
CN116743646B (zh) 一种基于域自适应深度自编码器隧道网络异常检测方法
CN113822337A (zh) 一种基于多维间序列的工控异常检测方法
CN111586052A (zh) 一种基于多层级的群智合约异常交易识别方法及识别系统
CN111614611A (zh) 一种用于电网嵌入式终端的网络安全审计方法及装置
CN111563543A (zh) 一种风电机组的风速-发电功率数据的清洗方法及装置
CN113762374B (zh) 一种基于改进密度峰值聚类的异常轨迹检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant