CN114500325B

CN114500325B - 一种基于无监督迁移学习的sdn控制器故障自适应智能检测方法

Info

Publication number: CN114500325B
Application number: CN202210102260.4A
Authority: CN
Inventors: 尚凤军; 孙凤印
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2023-07-18
Anticipated expiration: 2042-01-27
Also published as: CN114500325A

Abstract

本发明属于故障检测领域，特别涉及一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，包括构建GRU‑VAE模型，并将源领域数据作为训练数据对GRU‑VAE模型进行训练，将训练获取的领域知识进行知识迁移形成检测器；将待检测的数据作为目标领域数据，并将源领域数据和目标领域数据中的特征变换到Grassmann流形空间中并基于多核MMD的动态分布对该空间中特征进行对齐，计算对齐后源领域数据和目标领域数据的边缘分布差异；根据边缘分布差异更新检测器平衡因子；检测器对数据进行检测，并判断检测结果是否收敛，若收敛则输出检测结果，否则返回重新计算边缘分布差异；本发明减少故障检测中域之间的数据漂移问题。

Description

一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法

技术领域

本发明属于故障检测领域，特别涉及一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法。

背景技术

在SDN网络中，传统的网络结构被分为可编程的数据平面和逻辑集中的控制平面，而不是将两者集成在同一个可配置的黑盒子中。SDN将大部分网络控制逻辑(由软件编程指定)放到控制平面，并简化了数据平面，它仅执行由控制平面所安装的转发策略。因此，SDN中控制器变得越发的重要，它是整个网络正常运行的核心组件。SDN控制器的检测的速度和精度直接影响着网络的可靠性，而传统网络中的故障检测方法并未考虑到SDN中的新特性，没有很好的适用性。网络故障具有一定的传播性质，一个故障可能是因另一个故障的发生而引起的。同时，又可能引起其它故障的形成。因此，针对SDN中的控制器故障检测技术的研究是十分有必要的。

随着故障检测技术成为一大研究热点，很多研究人员开始使用机器学习来攻克故障检测领域的难题，取得了很多实验成果。传统机器学习算法根据训练样本集是否有标签可分为三类：有监督学习(Supervised Learning)、半监督学习(Semi-SupervisedLearning)和无监督学习(Unsupervised Learning)。有监督学习的训练样本集都有标签，半监督学习的训练样本集则是部分有标签，而无监督学习的训练样本集则都没有标签。与半监督学习和无监督学习相比，有监督学习虽然学习性能最佳，但却需要足够多的标记样本数据导致成本较高。而半监督学习仅需要小部分标记样本数据，便可结合大量未标记训练样本数据进行学习。另外有监督学习通过分别训练，在不同的数据集都可以获得较好的效果，但并不具有良好的泛化性。

针对故障检测中对无标签数据的泛化能力，传统的机器学习方法明显存在不足，即普遍依赖一条基本假设，那就是数据的生成机制不随环境而改变。因为场景发生变化时，采集到的数据统计特征也会随之改变，原来场景中学习到的模型去解决新场景中的同一问题将影响学习效果。而迁移学习打破了训练数据与测试数据同分布的假设，因此测试数据(目标领域)可以借助不同概率分布的训练数据(源领域)进行知识迁移，从而提高测试数据的学习性能。

发明内容

为了使得属于相同类的实例距对应类中心更近，增强类的可分性，本发明提出一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，具体包括以下步骤：

构建GRU-VAE模型，并将源领域数据作为训练数据对GRU-VAE模型进行训练，将训练获取的领域知识进行知识迁移形成检测器；

将待检测的数据作为目标领域数据，并将源领域数据和目标领域数据中的特征变换到Grassmann流形空间中；

将变换到Grassmann流形空间中特征基于多核MMD的动态分布进行对齐，计算对齐后源领域数据和目标领域数据的边缘分布差异；

若边缘分布差异大于设定阈值，则更新平衡因子后输入检测器，否则平衡因子置为1后输入检测器；

检测器对数据进行检测，并判断检测结构是否收敛，若收敛则输出检测结果；否则返回重新计算源领域数据和目标领域数据的边缘分布差异。

进一步的，GRU-VAE模型包括优化的GRU编码器以及优化的GRU解码器，GRU-VAE模型的训练过程包括：

从生成的多个潜在变量z中选择i个数据输入优化的GRU解码器进行重构，获取重构数据；

根据目标函数计算重构数据的值是否大于等于1，若大于则计算源领域数据的重构概率，否则重新选择潜在数据通过优化的GRU解码器进行重构；

判断i是否小于等于潜在变量的分布N，若小于则返回根据损失函数进行反向传播优化的GRU编码器，否则结束训练。

进一步的，目标函数表示为：

其中，表示高斯混合模型之间的KL散度，即目标函数；为后验概率；p_θ(z^T)为先验概率；K是高斯混合模型的个数；π_i是高斯混合模型的系数，z是潜在变量，/>和/>是高斯密度函数的均值向量和协方差矩阵；N()表示求高斯密度，N′()表示求标准高斯分布；I表示单位矩阵。

进一步的，根据损失函数进行反向传播优化的GRU编码器，即使用反向传播算法对GRU编码器以及优化的GRU解码器的网络参数进行迭代更新，包括：

其中，s_t为损失函数梯度的一阶矩阵，r_t为损失函数梯度的二阶矩阵；θ为迭代参数，ε为学习率，/>表示损失函数梯度的一阶距估计的偏置矫正，/>表示损失函数梯度的二阶距估计的偏置矫正，σ为平滑项；α₁和α₂为衰减系数；f(θ_t-1)为网络的损失函数，本发明中该损失函数为关于噪声的函数，即关于参数的θ的随机标量函数。

进一步的，将特征变换到Grassmann流形空间中包括：

其中，z表示变换到Grassmann流形空间中的特征；G为半正定矩阵，通过变换到Grassmann流形空间中的任意两个特征之间的内积定义一个半正定的测地线流式核，即通过矩阵奇异值分解求取半正定矩阵G，z_i,z_j表示将源领域数据或目标领域数据中的特征中两个不同的特征x_i，x_j分别变换到Grassmann流形空间中得到的特征；x为源领域数据或目标领域数据中的某一个特征。

进一步的，基于多核MMD的动态分布进行对齐过程中的优化目标表示为：

其中，Z为变换矩阵；X为源领域和目标领域所有的样本矩阵；当时，M_c则表示为/> 为源领域属于类别c的样本集合，n_c为源领域属于类别c的样本数；当时，M_c则表示为/> 为目标领域属于类别c的样本集合，m_c为目标领域属于类别c的样本数；当/>且/>或者/>且/>时，m_c则表示为λ为正则化参数；/>为求二范数；当c＝0表示边缘分布，当c＝1…C时表示条件分布，C表示类别个数。

进一步的，源领域与目标领域特征分布之间的差异D(D_s,D_t)表示为：

其中，u的取值区间为(0，1)，当u趋近于0，表示边缘分布D(P(x_s),P(x_t))的影响比较大，当u趋近于1时表示条件分布(P(y_s|x_s),P(y_t|x_t))的影响比较大；W为目标领域中样本的权重；n为源领域的样本个数；为源领域第i个样本；m为目标领域的样本个数；/>为目标领域第j个样本；/>为源领域来自c类的样本个数；/>表示类别c；/>为源领域来自第c类的样本；/>为目标领域来自第c类的样本个数；/>为希伯尔空间H的二范数。

进一步的，针对目标函数引入方差不变的限制条件，即A^TXHX^TA＝I，使用拉格朗日法，则优化目标转化为：

其中，A为映射矩阵；H为中心矩阵；I为单位矩阵；Φ＝diag(Φ₁…Φ_k)∈R^k×k为拉格朗日乘数。

进一步的，对目标函数进行迭代求解过程中，当t＝0时，则W_t，即权重的初始值为0.5；当t≥1时，则第t轮时样本标签的权重W_t，表示为其中，T为最大迭代次数。

本发明利用将使用多核-MMD来计算距离，使得EMDA(Manifold EmbeddedDistribution Alignment)方法可以应用在故障检测中，减少域之间的数据漂移问题；同时，考虑到源域与目标域的差异，本发明将引入源域类内散度约束核目标域类内散度约束，使得属于相同类的实例距对应类中心更近，增强类的可分性，以此提高迁移的性能。

附图说明

图1为本发明一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法流程图；

图2为本发明采用的GRU结构示意图；

图3为本发明基于基于标准化流的高斯混合VAE-GRU模型示意图；

图4为本发明实施例中离线建模阶段工作流程图；

图5为本发明实施例中在线监测阶段工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，具体包括以下步骤：

在本实施例中，将本发明方案分为两阶段：第一阶段为离线建模阶段，该阶段为基于标准化流的高斯混合VAE-GRU模型，第二阶段为在线监测阶段，此阶段是利用离线阶段的训练结果进行检测，即将源领域学习到的知识进行迁移，实现实时地监测SDN网络的控制器是否故障。

源领域数据集训练的算法模型是VAE融合GRU。GRU通过引入内部状态和门机制，避免了梯度消失现象，并且GRU已经被证明能够发现序列数据之间的长期依赖性。因此，在VAE的编码器和解码器中都引入了改进的门控循环单元GRU，以此挖掘时间和不同指标之间的数据依赖关系。当源领域数据集训练完成后，将采集目标领域的数据集，首先计算机源领域与目标领域的边缘分布差异的大小，然后进行知识的迁移。迁移后再适配边缘分布差异和条件分布差异。之后再设置平衡分布因子，通过迭代训练直至收敛，最后输出结果。

整个无监督迁移学习的系统的流程图如图1所示，具体包括以下步骤

1.数据的采集和处理

首先需要对源领域的数据进行采集。数据处理主要是对采集的数据集进行标准化的处理。数值的特征虽然可以直接进行计算和统计，但遇到数值特征数量级差别较大时，则在进行模型训练时，小数通常会被忽略，这种现象则称为“以大吃小”。然而，现实中小数也是重要的特征维度，在模型训练时不应该将其简单的忽略。而是让其发挥应有的作用。

为了消除从SDN控制器中采集的原始性能数据样本中的数量级差异化，数据取值范围不一样，数据趋势不明显等问题对模型训练的影响，同时也为了提高模型精度和网络的训练速度，需要使所有数据之间处于同一数量级，从而具有可比性。在对数据预处理阶段需要对数据数值特征进行归一化处理。本专利采用的归一化预处理方法是线性的最大最小值方法(Min-Max)。Min-Max公式如下：

其中，x代表归一化前的样本值，x^*代表归一化后的值，则x_min、x_max代表样本中的最小值、最大值。

2.优化的GRU编码器和解码器

由于变分自动编码器中的编码器和解码器并未考虑到时间的特性，故本专利将在变分自动编码器VAE中融入门控循环单元GRU。

时间本身是一个连续变量，但观测是在特定的时间点进行的。因此时间序列一般显示为离散的观测结果。时间序列的数据本质上反映了该变量随时间不断变化的某种趋势。在一个时间序列中，通常相邻的观测值是相关的，分析相关性的技术称为时间序列分析。循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络，基于这种环路结构，RNN很适合处理上下文信息丰富、并且具有较强的关联性数据。所以RNN很适合处理时间序列数据。但RNN网络缺点也很明显，RNN网络中存在梯度消失的问题，以及RNN网络不适合处理时间间隔较长的序列。同时在SDN网络中，下一时刻SDN控制器工作状态是受到上一时刻之前SDN控制器的持续工作状态和当前时刻突发故障状态的共同影响。假设当前SDN网络中有突发性故障的发生，那么下一时刻的网络状态必然也是故障的。反之亦然。因此，本专利采用GRU网络来发现时间序列数据之间的相关性。

一个门控循环单元中包含两个门结构，更新门和重置门。同时GRU以一个线性依赖的关系表示内部的状态。GRU中的重复模块的内部结构展开图如图2所示。

由图中结构得出，t时刻的网络状态h_t的表达式如下：

其中h^～为t时刻的网络的候选状态，其表达式如下：

图中的r_t、z_t分别代表GRU的重置门和更新门。其表达式如下：

r_t＝u(W_rx_t+K_rh_t-1+b_r)；

z_t＝u(W_zx_t+K_zh_t-1+b_z)；

其中，u表示sigmoid函数，W_h为上一时刻网络状态h的输入权重；x_t表示t时刻输入的样本；K_h为上一时刻网络状态h的循环权重；b_h为网络状态h的偏置参数；W_r为重置门的权重项；K_r为上一时刻重置门r的循环权重；b_r表示重置门的偏置参数；W_z为更新门的权重项；K_z为上一时刻更新门z的循环权重；b_z为更新门的偏置参数。

在基础GRU网络上，为了减少输出结果与真实网络之间的误差，本发明将使用反向传播算法对GRU网络参数进行迭代更新。为了使目标损失函数的值最小，则使用梯度下降的方式对网络中权重进行逐层优化。Adam算法相比其他参数优化算法在计算效率和收敛速度等方面具有优势，所以，本专利将采用自适应学习率的Adam算法来加快GRU网络模型的收敛速度。Adam算法通过梯度的距来估计模型中每个参数的学习率。则更新式为：

其中，s_t和r_t为梯度的一阶矩阵和二阶矩阵，θ为迭代参数， ε为学习率，/>和/>为梯度的一阶距估计的偏置矫正和二阶距估计的偏置矫正，σ是一个平滑项，通常取值为10^-8，α₁和α₂都是衰减系数，通常取值为0.9和0.99，f(θ_t-1)为网络的损失函数，/>为关于θ的梯度表示。

3.基于标准化流的高斯混合VAE-GRU模型

上一节主要是针对VAE模型中的编码器和解码器的优化，而VAE模型中还有一个问题是使用单一的高斯分布作为潜在空间分布。当现实中收集到复杂数据时，则单一的潜在分布不能很好的表示。因此，本专利将采用高斯混合分布来表征时间序列数据中的内在多模型。则优化后结构示意图如图3所示。

高斯混合模型使得后验分布能够近似任何多峰分布，高斯混合模型可以匹配任何复杂的隐空间。高斯混合模型通用的函数近似器，不仅减小了模型的正则化项，还减小了重构误差项。但是目前的VAE中隐变量z的后验分布p_θ(z|x)仅仅满足单个高斯分布，这就造成低维表示太过简单，不能很好的拟合隐变量z的隐空间。为此本专利将改进近似后验q_θ(z|x),使它满足高斯混合分布。标准化流是通过一系列可逆和可微映射将简单概率分布转化为更复杂的分布。

本发明采用标准流中的掩码自回归流(masked autoregressive flow,MAF)模型。标准化流作用是把简单的概率密度转化成复杂的分布。目的是将原始的分布通过MAF进行可逆变换，使后验分布是任意的非对角高斯混合分布。其中MAF是属于标准化流中一个模型，该模型借鉴了仿射变换的思路实现了一个条件高斯自回归模型。MAF模型不需要计算和的逆，由于变换仅有尺度变换和平移变换，我们只需要逆运算这两个变换。MAF训练较快，因为计算D个似然概率可以利用GPU的并行技术，一次性地用D个线程计算。但MAF也存在一个问题，在并行的反传计算时，需要同时计算和μ_i。一般解决方案是使用单一的一个网络，但这种解决方法又增加了实现MAF的复杂度。由于MAF每个输出取决于当前和以前的输入，而GRU网络正好满足条件，故本专利利用GRU网络的特点可以把/>和μ_i同时计算出来。

可以看出h_i需要z_i:i-1,使用z_i＝τ^-1(z′_i；h_i)，通过GRU网络计算，(h₁,h₂,…,h_D)被一次性计算完成。再用牛顿下山法等值方式对不动点方程进行求解，公式如下：

其中，表示雅可比矩阵；/>表示关于z_t-1的可逆函数；/>表示关于z的可逆函数。

MAF提高了近似后验分布的灵活性，同时也能将简单的、单一的概率密布转化成混合的高斯分布。故在此基础上融入高斯混合模型。接下来就是求解高斯混合模型之间的KL散度，即采用变分方法求出高斯混合模型KL散度的公式如下：

其中，表示高斯混合模型之间的KL散度，即目标函数；为后验概率；p_θ(z^T)为先验概率；K是高斯混合模型的个数；π_i是高斯混合模型的系数，z是潜在变量，/>和/>是高斯密度函数的均值向量和协方差矩阵；N()表示求高斯密度，N′()表示求标准高斯分布；I表示单位矩阵；z⁰为初始随机潜在变量；x为输入数据。

VAE的训练通过使用反向传播算法来执行。重构概率采用蒙特卡罗梯度技术和重参数化方法计算的。即其中，p(xⁱ|z^(i,l))为似然函数，xⁱ为第i个数据，z^(i,l)表示从i个中采样l个潜在变量，L为随机采样的最大次数。

基于以上过程，离线建模阶段工作原理流程如图4所示，包括：

进行数据采集和预处理；

4.特征分布差异自适应

迁移学习通过学习跨领域之间相同的知识进行知识的迁移。由于源领域(离线阶段)训练样本和目标领域样本(在线监测阶段)的数据分布可能存在差异，导致已有检测器在目标领域下的检测性能下降，为了实现已有检测器在目标领域下的迁移和自适应，首先需要获取目标领域的数据。同时需要训练源领域的检测器，该部分已经在第一阶段完成。

该阶段主要解决两个问题，在预处理部分主要解决特征分布差异自适应问题。最后是动态分布对齐问题。

针对特征差异分布自适应问题，使用EMDA(Manifold Embedded DistributionAlignment)的方法，流形特征学习可以很好应对特征变换的消退问题。因为流形空间中的特征一般都有很好的几何性质，可以避免特征扭曲。在众多的流形中，选择使用Grassmann流形G(d)可以通过将原始的d维子空间(特征向量)看作它基础的元素。另外，在流形中特征变换和分布对齐通常具有有效的数值形式，因此在迁移学习问题中可以被高效地表示和求解。

在学习流形特征变换时，用D维子空间对域进行建模，然后将其嵌入到G中。用s_s和s_t分别表示源域和目标域经过主成分分析(PCA)之后的子空间，则G可以看作所有的d维子空间的集合。每一个d维的原始子空间都可以看作G上的一个点。因此，在两点之间的测地线可以在两个子空间之间构成一条路径。

如果让和/>那么就可以发现从/>到/>的测地线流等于将原始特征转化为无限维特征空间，这最终减小域之间的漂移现象，其中/>表示映射函数。这种方法可以被看作是一种从/>到/>的增量式“行走”方法。因此，在流形空间中的特征可以被表示为/>变换后的特征z_i和z_j的内积定义了一个半正定的测地线流式核(GFK)，表示为：

因此，通过在原始空间中的特征就可以被变换到Grassmann流形空间中。核G可以通过矩阵奇异值分解来有效地计算。

5.基于多核MMD的动态分布对齐

源领域和目标领域在新空间中存在分布差异问题即边缘分布差异和条件分布差异问题。迁移成分分析TCA中假设源领域和目标领域的边缘分布不同，即P(x_s)≠p(x_t)。但是存在一个映射然后可将源领域和目标领域进行映射得到/>和/>则映射后的数据分布/>常用的方法是通过使用最大均值MMD来找到一个变换函数将两个域的数据一起映射到一个高纬的希尔伯特空间中。也就说，给定不同核函数，就可以计算出不同的MMD距离。但是哪个核函数是本发明需要的核函数。该如何从众多地核函数中进行恰当且合适的选择，为了解决这一问题，本发明采取的是多核MMD方法，也就是说把现在的核K看作一组不同的核函数的组合，同时对多核进行加权，权重为β_i。在解决实际问题中，通过权重自适应选择更符合当前的核函数。则多核MMD表示为：

其中，表示多核MMD，/>那么这个k的表示为：

其中，K表示所有核k构成、的集合。

因此总的优化目标：

相应的M_c可以通过下面的方式进行构造，当时，则表示为/>当时，则表示为/>当/>或/>时，则表示为/>还有其他情况时，则表示为0。

通过c＝0…C将两者结合到了一起，当c＝0的时候就是边缘分布的情况，当c＝1…C的时候就是考虑了各个类的时候条件分布的情况。这样就将边缘分布和条件分布同时考虑到了，但是这里存在一个问题，就是将两个分布的重要性是相同调节因子来解决。最后根据奥卡姆剃刀原则通过加入正则项来进行模型选择。

引入方差不变的限制条件A^TXHX^TA＝I，使用拉格朗日法，则优化目标转化为：其中的Φ＝diag(Φ₁…Φ_k)∈R^k×k为拉格朗日乘数。这样就可以同时来适配两个分布，并且将其规划到了一个优化目标中。

为了解决边缘分布与条件分布不同的问题，在动态和定量适应边际分布和条件分布的基础上添加了定量初始预估策略，增加动态分布适应的适用性。根据每个特定的任务自适应地调节边缘分布和条件分布之间的重要性，公式化表示为：

D(D_s,D_t)＝(1-μ)D(P(x_s),P(x_t))+μWD(P(y_s|x_s),P(y_t|x_t))；

其中μ的取值区间为从0到1，如果μ趋近于0，表示边缘分布D(P(x_s),P(x_t))的影响比较大，条件分布(P(y_s|x_s),P(y_t|x_t))的影响比较小，相应的μ趋近于1时，表示边缘分布D(P(x_s),P(x_t))的影响比较小，条件分布(P(y_s|x_s),P(y_t|x_t))的影响比较大。因为目标领域中样本的标签是伪标签，所以通过迭代伪标签细化策略加权重更新策略，来减少伪标签带来的影响同时提高伪标签的准确率，W表示目标领域中样本的权重。所以边缘分布与条件分布之间重要性的差异就可以使用动态参数μ结合迭代分配的权重进行动态调节。

使用上一步的预测模型得到目标领域的样本伪标签不是十分可靠，但是可以通过迭代逐步进行完善，随着迭代次数的增加以及迭代模型准确率的提升，根据迭代次数的加深以及准确率的提升，使用W逐步增加条件分布中目标领域样本标签的权重，来实现迭代伪标签细化策略。

样本标签权重W更新迭代可以分两种情况进行表示，当t＝0时，即初始时，W_t表示为0.5。当t≥1时，则W_t表示为其中W_t表示第t轮时样本标签的权重，T表示总共要迭代的次数，W_t-1表示上一轮中样本标签的权重值。

将权重影响带入上面的公式就可以得到：

第一部分表示边缘分布距离，第二部分是加权以后的条件分布距离。随着迭代次数的增加，训练模型对于转换后的目标领域样本的预测准确率的上升，其重要性逐步提升。

利用上面提到的从最大均值差异到矩阵的迹trace转换，可以将上面的公式转换为：

在这里W的变化会影响到μ，同时μ的变化也会影响到W，这样就形成了一个双向正反馈机制。对于平衡因子μ，可以将其看作一个参数，通过交叉验证来获取最优解。BDA中是通过从0到1设置步长为0.1，迭代搜索最优的解。迭代更新公式为μ+α×γ。其中α表示更新步长，γ表示不相似系数，γ表示为其中c＝1,…,C。

上述公式可以看作一个带此参数约束的最优化问题，因此可以进行转化为拉格朗日函数，则公式表示为：

其中，M_c为适配各类别c∈{0,1,…,C}的多核MMD矩阵，M_w为多核MMD矩阵，Φ＝diag(Φ₁…Φ_k)∈R^k×k为拉格朗日乘数；S_w表示类内散度矩阵，具体表示为：

其中分别表示源领域和目标领域类别为c的中心，/>分别表示源领域和目标领域来自第c类的样本。等式右边第一项表示源领域类内散度矩阵，第二项表示目标领域类内散度矩阵。

求解类内散度矩阵获得最小的d个特征值对应的特征向量即为映射矩阵A。然后映射矩阵A将源领域和目标领域数据映射到子空间，通过离线阶段训练源领域数据获得检测器f对目标领域数据进行预测。整个在线监测阶段的工作流程图5，包括以下步骤：

将源领域数据和目标领域数据基于多核MMD的动态分布进行对齐，并计算边缘分布差异；

判断边缘分布差异是否大于设定阈值，若大于则将更新平衡因子，否则将平衡因子置为1；

通过平衡因子对检测器进行更新，利用更新后的检测器对数据进行检测并判断检测结果是否收敛，若收敛则输出检测结果，否则返回重新计算边缘分布差异，并根据边缘分布差异更新平衡因子。

为了方便计算，本发明中设定一个边缘分布差异阈值，若边缘分布差异小于等于这个阈值，则令平衡因子为1，即源领域与目标领域特征分布之间的差异以条件分布进行计算，若边缘分布差异大于这个阈值，则对平衡因子进行更新，并判断检测器的检测结果是否收敛，若检测器检测结果未收敛，则更新平衡因子后检测器重新计算检测结果，直到检测器的检测结果收敛。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，其特征在于，包括以下步骤：

构建GRU-VAE模型，并将源领域数据作为训练数据对GRU-VAE模型进行训练，将训练获取的领域知识进行知识迁移形成检测器；GRU-VAE模型包括优化的GRU编码器以及优化的GRU解码器，GRU-VAE模型的训练过程包括：

将源领域数据输入优化的GRU编码器获取输入数据的低维表示，生成多个潜在变量z；

根据目标函数计算重构数据的值是否大于等于1，若大于则计算源领域数据的重构概率，否则重新选择潜在数据通过优化的GRU解码器进行重构；目标函数表示为：

其中，表示高斯混合模型之间的KL散度，即目标函数；为后验概率；p_θ(z^T)为先验概率；K是高斯混合模型中高斯模型的个数；π_i是高斯混合模型的系数，z是潜在变量，/>和/>是高斯密度函数的均值向量和协方差矩阵；N()表示求高斯密度，N^′()表示求标准高斯分布；I表示单位矩阵；

判断i是否小于等于潜在变量的分布N，若小于则返回根据损失函数进行反向传播优化的GRU编码器，否则结束训练；

将变换到Grassmann流形空间中特征基于多核MMD的动态分布进行对齐，计算对齐后源领域数据和目标领域数据的边缘分布差异；基于多核MMD的动态分布进行对齐过程中的优化目标表示为：

其中，Z为变换矩阵；X为源领域和目标领域所有的样本矩阵；当时，M_c则表示为/> 为源领域属于类别c的样本集合，n_c为源领域属于类别c的样本数；当时，M_c则表示为/> 为目标领域属于类别c的样本集合，m_c为目标领域属于类别c的样本数；当/>且/>或者/>且/>时，m_c则表示为λ为正则化参数；/>为求二范数；当c＝0表示边缘分布，当c＝1…C时表示条件分布，C表示类别个数；

源领域与目标领域特征分布之间的差异D(D_s,D_t)表示为：

其中，u为平衡因子，其取值区间为(0，1]，当u趋近于0，表示边缘分布D(P(x_s),P(x_t))的影响比较大，当u趋近于1时表示条件分布(P(y_s|x_s),P(y_t|x_t))的影响比较大；W为目标领域中样本的权重；n为源领域的样本个数；为源领域第i个样本；m为目标领域的样本个数；为目标领域第j个样本；/>为源领域来自c类的样本个数；/>表示类别c；/>为源领域来自第c类的样本；/>为目标领域来自第c类的样本个数；/>为希伯尔空间H的二范数；

检测器对数据进行检测，并判断检测结果是否收敛，若收敛则输出检测结果；否则返回重新计算源领域数据和目标领域数据的边缘分布差异。

2.根据权利要求1所述的一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，其特征在于，根据损失函数进行反向传播优化的GRU编码器，即使用反向传播算法对GRU编码器以及优化的GRU解码器的网络参数进行迭代更新，使用反向传播算法时利用损失函数的梯度的一阶矩阵和二阶矩阵进行方向传播，损失函数的梯度的一阶矩阵和二阶矩阵表示为：

其中，s_t为损失函数梯度的一阶矩阵，r_t为损失函数梯度的二阶矩阵；θ为迭代参数，ε为学习率，/>表示损失函数梯度的一阶距估计的偏置矫正，/>表示损失函数梯度的二阶距估计的偏置矫正，σ为平滑项；α₁和α₂为衰减系数；f(θ_t-1)为网络的损失函数。

3.根据权利要求1所述的一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，其特征在于，将特征变换到Grassmann流形空间中包括：

4.根据权利要求1所述的一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，其特征在于，根据从最大均值差异到矩阵的迹trace转换，将源领域与目标领域特征分布之间的差异D(D_s,D_t)转换为：

其中，M₀为多核MMD的矩阵；为适配各类别c∈{0,1,…,C}的多核MMD矩阵。

5.根据权利要求1所述的一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，其特征在于，针对目标函数引入方差不变的限制条件，即A^TXHX^TA＝I，使用拉格朗日法，则优化目标转化为：

其中，A为映射矩阵；H为中心矩阵；I为单位矩阵；Φ＝diag(Φ₁Φ_k)∈R^k×k为拉格朗日乘数。

6.根据权利要求1所述的一种基于无监督迁移学习的SDN控制器故障自适应智能检测方法，其特征在于，对目标函数进行迭代求解过程中，当t＝0时，则W_t，即权重的初始值为0.5；当t≥1时，则第t轮时样本标签的权重W_t，表示为其中，T为最大迭代次数。