CN113676371A

CN113676371A - 一种基于深度q学习的网络故障检测与诊断方法

Info

Publication number: CN113676371A
Application number: CN202110849587.3A
Authority: CN
Inventors: 朱洪波; 曹家明; 朱晓荣; 张佩佩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-19

Abstract

本申请涉及一种基于深度Q学习的网络故障检测与诊断方法。该方法包括：上述基于深度Q学习的网络故障检测与诊断方法，通过训练好的故障检测模型进行网络故障检测与诊断，获得网络故障检测与诊断结果，故障检测模型训练方式为：从异构无线网络环境中采集带有标签的网络状态数据集，所述网络状态数据集中包括网络状态类别、干扰类型和故障类型；利用深度强化学习将网络故障识别问题建模为马尔科夫决策过程；根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息，进行多次迭代，获得具有正确检测与诊断网络故障的故障检测模型，解决了面对复杂网络环境用较少的特征对一些明显的网络状态进行分类的问题而且提高了故障诊断模型的精度，进一步提高了针对异构无线网络的网络故障诊断的准确度。

Description

一种基于深度Q学习的网络故障检测与诊断方法

技术领域

本申请涉及通信网络技术领域，特别是涉及一种基于深度Q学习的网络故障检测与诊断方法。

背景技术

随着大数据和深度学习等技术的快速发展，人们可以在强大算力的支持下，利用复杂的神经网络模型挖掘和提取海量数据中的关键信息。尤其在复杂的异构网络环境中，成千上万的网络节点每天会产生大量的网络运行信息在这种网络融合和异构化的发展趋势下，故障诊断是一个关键的研究方向。

随着5G、6G的提出，我们可以预见为满足用户需求，未来网络环境必定是十分复杂的，而在这种网络异构化、密集化的发展趋势下，如何对网络故障进行高效的诊断和预测成为一个巨大挑战，从各位专家对网络故障诊断方法的研究来看，传统的网络故障诊断方法依赖于大量的数据集，而且仅考虑了几类故障以及故障识别过程仅依赖少量KPI指标，但在复杂的异构无线网络环境下，网络故障会变得更加多样化，网络故障的识别也会依赖更多的KPI指标。

因此，目前的网络故障诊断方法在异构无线网络环境下准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在异构无线网络环境下，提高网络故障诊断准确度的基于深度Q学习的网络故障检测与诊断方法。

一种基于深度Q学习的网络故障检测与诊断方法，所述方法包括：

采用训练好的故障检测模型进行网络故障检测与诊断，获得网络故障检测与诊断结果；

所述故障检测模型的训练方式，包括：

从异构无线网络环境中采集带有标签的网络状态数据集，所述网络状态数据集中包括网络状态类别、干扰类型和故障类型；

利用深度强化学习将网络故障识别问题建模为马尔科夫决策过程；

根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息，进行多次迭代，获得具有正确检测与诊断网络故障的故障检测模型。

在其中一个实施例中，所述马尔科夫决策过程用一个元组(S，A，P，R，γ)来表示，其中，S为决策过程中的状态集，A为决策过程中的动作集，P为状态之间的转移概率，R为采取某一动作到达下一状态后的回报值，γ为一个折扣因子，γ∈[0，1)为过去奖励与现在奖励之间的比例关系。

在其中一个实施例中，所述根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息的步骤，包括：

根据所述网络状态数据集和所述马尔科夫决策过程，定义(x，y)是网络状态数据集里的一个样本，x是网络状态数据集k∈K的值，y∈Y是目标标签，c为代价函数，当采用一个新的网络状态特征k_i时，代价为c(k_i)，获得的环境反馈信息为

在其中一个实施例中，所述故障检测模型的奖励函数为：

式中，a为采取的动作，y是目标标签，

为奖励函数，-μc(k_i)为代价，影响所选特征的数量，A_K为采用一个之前未选择的新特征，A_C为使用一个分类动作来预测样本所属的类别。

在其中一个实施例中，所述故障检测模型的环境变换函数为：

式中，t(x，y，k)为环境变换函数，T为终止状态，(x′，y，k′)为当前选择新特征的下一状态。

在其中一个实施例中，所述故障检测模型的价值函数为：

式中，R_t为Reward反馈，γ是折扣因子，是一个小于1的值，t′为实时状态，t为初始状态，T为最终终止状态，r_t′为实时的奖赏；

在策略π(a|s)下的状态值函数为：

v_π(s)＝E_π[R_t|S_t＝s]

式中，E_π为策略π(a|s)下的概率分布，v_π(s)为状态值函数，S_t为t时刻的状态。

在其中一个实施例中，所述故障检测模型的状态-动作值函数为：

Q_π(s，a)＝E_π[R_t|S_t＝s，A_t＝a]

式中，Q_π(s，a)为状态-动作值函数，A_t为t时刻采取的动作；

最优的状态-动作值函数服从贝尔曼方程，对于所有动作a′，s′的下一时间步的最优价值是已知的，则最优策略为选择动作a′最大化期望值，表示为：

式中，t(s，a)为环境转换函数，s′为，Q^*(s′，a′)为，r为当前的状态采取某动作时的奖赏值。

在其中一个实施例中，所述根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息，进行多次迭代，获得具有正确检测与诊断网络故障的故障检测模型的步骤，包括：

利用深度强化学习把Q表的更新问题转变为函数拟合问题，更新参数θ使Q函数逼近最优Q值：

Q(s，a；θ)≈Q^*(s，a)

Q(s，a；θ)表示当智能体在状态s时遵循策略π(a|s)采取行动a的状态-动作值函数，策略π(a|s)定义了智能体在特定的时间特定的环境下的行为方式，策略π(a|s)决定了在当前状态下故障识别任务识别正确的故障类别或选择合适的特征子集，Q^*(s，a)为最优的状态-动作值函数，服从贝尔曼方程，最优策略就是选择动作a′最大化期望值：

深度强化学习的逼近器选择权重为θ的神经网络函数，通过最小化决策序列的损失函数进行迭代训练：

Loss(θ)＝E[(Q_target-Q(s，a；θ))²]

式中，

θ′为固定目标网络的选择权重，Loss(θ)为损失函数。

上述基于深度Q学习的网络故障检测与诊断方法，通过训练好的故障检测模型进行网络故障检测与诊断，获得网络故障检测与诊断结果，故障检测模型训练方式为：从异构无线网络环境中采集带有标签的网络状态数据集，所述网络状态数据集中包括网络状态类别、干扰类型和故障类型；利用深度强化学习将网络故障识别问题建模为马尔科夫决策过程；根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息，进行多次迭代，获得具有正确检测与诊断网络故障的故障检测模型，解决了面对复杂网络环境用较少的特征对一些明显的网络状态进行分类的问题而且提高了故障诊断模型的精度，进一步提高了网络故障诊断方法的准确度。

附图说明

图1为一个实施例中一种基于深度Q学习的网络故障检测与诊断方法的应用场景图；

图2为一个实施例中强化学习过程图；

图3是一个实施例中故障检测模型模型的训练流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的一种基于深度Q学习的网络故障检测与诊断方法，可以应用于如图1所示的应用环境中，图1所示的由宏小区、微小区和毫微微小区交叉重叠覆盖的异构无线网络场景，在该场景下，由于网络的多样性，系统变得更加复杂，网络管理也会变得更加困难。本申请考虑此该场景下的网络故障检测与诊断，首先针对具体的网络场景分析可能导致故障发生的原因，筛选出有用的网络参数，然后从异构无线网络历史数据库获取历史数据，包括故障类别变量集以及故障变量集及其关键性能指标KPI，训练出用于网络故障检测与诊断的故障检测模型，对图1所示的由宏小区、微小区和毫微微小区交叉重叠覆盖的异构无线网络场景进行网络故障检测与诊断。

在一个实施例中，提供了一种基于深度Q学习的网络故障检测与诊断方法，包括以下步骤：

采用训练好的故障检测模型进行网络故障检测与诊断，获得网络故障检测与诊断结果。

其中，通过训练好的故障检测模型检测当前网络是否出现故障，当出现故障时，进一步诊断出现故障的具体原因。网络故障检测与诊断结果包括是否出现网络故障，和出现网络故障时故障的具体原因。

在一个实施例中，所述故障检测模型的训练方式，包括：

其中，网络状态数据集中包括网络状态类别、干扰类型和故障类型，网络状态类别包括正常网络状态，表示为{FC₁}，干扰类型包括上行干扰和下行干扰两种，分别表示为{FC₂，FC₃}，故障类型包括：覆盖故障、硬件故障和传输故障，覆盖故障表示为{FC₄}，硬件故障包括4个不同基站故障，表示为{FC₅，FC₆，FC₇，FC₈}，传输故障包括3个不同链路故障，表示为{FC₉，FC₁₀，FC₁₁}，网络状态数据集C＝{FC₁，FC₂，FC₃…FC₁₁}。

在一个实施例中，所述马尔科夫决策过程用一个元组(S，A，P，R，γ)来表示，其中，S为决策过程中的状态集，A为决策过程中的动作集，P为状态之间的转移概率，R为采取某一动作到达下一状态后的回报值，γ为一个折扣因子，γ∈[0，1)为过去奖励与现在奖励之间的比例关系。

其中，马尔可夫性质意味着在随机过程中，下一次的状态只与目前的状态有关，与之前的无关。如果随机过程在任意两个状态之间满足马尔可夫性质，则它是马尔可夫随机过程。

在一个实施例中，所述根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息的步骤，包括：

其中，如图2所示，深度强化学习的智能体不断的从网络状态数据集中选取新特征并得到环境的不断反馈，定义(x，y)是网络状态数据集里的一个样本，x是网络状态数据集k∈K的值，y∈Y是目标标签，c为代价函数，当采用一个新的网络状态特征k_i时，代价为c(k_i)，获得的环境反馈信息为

这是一组没有类标签的当前选定的特性对，

智能体依次从环境中选择，定义动作A＝{A_C，A_K}，A_K代表采取一个之前没有选择的新特征，A_C代表使用一个分类动作来预测样本属于哪个类别，如果A＝A_C，则事件停止。

智能体首先会选择一个动作，环境根据选择的动作做出相应的反应并给予智能体一个反馈值，具体体现为正向的奖赏或者负向的惩罚；然后智能体会参考此时的环境状态选择一个新的动作，但需要确保此动作能够增加正向的奖赏值。经多次迭代，智能体将学习到如何正确进行故障诊断。

智能体学习到如何正确进行故障诊断的策略，建立故障检测模型，具体的故障检测模型包括奖励函数、环境变换函数、价值函数和状态-动作值函数。

奖励函数是对每个状态下执行的量化评估，由于算法的目的是要实现正确分类以及最优特征子集的选择，因此，奖励函数应该被设计为实现正确分类并在此基础上寻求最优子集特征，即奖励函数应该惩罚错误分类的动作。此外，奖励函数还要考虑寻求最优子集特征的问题，因此，奖励函数可以定义为：

式中，a为采取的动作，y是目标标签，

当智能体的动作选择为分类动作，且选择的动作为最终正确的分类，定义奖赏为1；当智能体的动作选择为分类动作，但选择的动作为错误的分类，定义奖赏为-1；第三种情况下，其中μ是一个常数，当动作选择为进行特征选择时，-μc(k_i)作为代价，它影响所选特征的数量；

定义环境变换函数为：

式中，t(x，y，k)为环境变换函数，T为终止状态，(x′，y，k′)为当前选择新特征的下一状态。在一次循环里，最多状态转换为|k|+1。当a∈A_C时，环境变换为终止状态，当a∈A_K，选择新特征的下一状态。

价值函数：定义在故障检测与诊断时从当前状态到状态结束时所获得的奖赏之和为：

式中，R_t为Reward反馈，γ是折扣因子，是一个小于1的值，这意味着一般来说，当前的反馈更重要，时间越长，影响越小，t′为实时状态，t为初始状态，T为最终终止状态，r_t′为实时的奖赏。

策略决定了在当前状态下故障识别任务应该如何识别正确的故障类别或选择合适的特征子集，定义v_π是在策略π(a|s)下的状态值函数，即：

v_π(s)＝E_π[R_t|S_t＝s]

定义状态-动作值函数：

Q_π(s，a)＝E_π[R_t|S_t＝s，A_t＝a]

式中，Q_π(s，a)为状态-动作值函数，A_t为t时刻采取的动作；

其中，最优的状态-动作值函数服从贝尔曼方程，如果对所有行动a′来说，s′的下一时间步的最优价值都是已知的，那么最优策略就是选择动作a′最大化期望值：

如图3所示，在一个实施例中，所述根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息，进行多次迭代，获得具有正确检测与诊断网络故障的故障检测模型的步骤，包括：

利用深度强化学习把Q表的更新问题转变为函数拟合问题，更新参数θ以使Q函数逼近最优Q值：

Q(s，a；θ)≈Q^*(s，a)

定义Q(s，a；θ)，表示当智能体在状态s时遵循策略π(a|s)采取行动a的状态-动作值函数，策略π(a|s)是指给定状态下动作的概率分布，定义了智能体在特定的时间特定的环境下的行为方式。策略决定了在当前状态下故障识别任务应该如何识别正确的故障类别或选择合适的特征子集。Q^*(s，a)表示最优的状态-动作值函数，服从贝尔曼方程，最优策略就是选择动作a′最大化期望值：

式中，γ为折扣因子(discount factor)，r代表当前的状态采取某动作时的奖赏值。

深度强化学习的逼近器选择权重为θ的神经网络函数，然后通过最小化决策序列的损失函数进行迭代训练：

Loss(θ)＝E[(Q_target-Q(s，a；θ))²]

式中，

θ′为固定目标网络的选择权重，Loss(θ)为损失函数。

在一个实施例中，利用深度强化学习算法不断的更新策略中的状态-动作值函数，找到最优的网络故障诊断方法并进行网络故障类型的分类，具体训练方法为：

用到了两个关键技术，一是经验池，其功能主要是解决相关性及非静态分布问题。具体来说，将每个时间步智能体与环境交互得到的转移样本存放到记忆单元，并随机抽取一部分进行训练，这种处理方式打破了样本间的相关性，使它们相互独立。另一个是固定目标值网络：使用现有的Q值来计算网络目标值，深度强化学习框架中选择使用一个更新较慢的网络专门提供此Q值。这提高了训练的稳定性和收敛性。为了是算法稳定，建立的两个神经网络结构相同，一个是不断更新神经网络阐述的网络，另一个是不断更新Q值得网络。

为了说明上述基于深度Q学习的网络故障检测与诊断方法是有效的，采用OPNET18.6模仿真实网络进行环境的搭建，其网络仿真参数设置如表1所示。仿真中主要设置了网络状态类别、干扰类型和故障类型，网络状态类别包括正常网络状态，表示为{FC₁}，干扰类型包括上行干扰和下行干扰两种，分别表示为{FC₂，FC₃}，故障类型包括：覆盖故障、硬件故障和传输故障，覆盖故障表示为{FC₄}，硬件故障包括4个不同基站故障，表示为{FC₅，FC₆，FC₇，FC₈}，传输故障包括3个不同链路故障，表示为{FC₉，FC₁₀，FC₁₁}，网络状态数据集C＝{FC₁，FC₂，FC₃…FC₁₁}。网络状态类别组成的集合C＝{FC₁,FC₂,FC₃,…,FC₁₁}。然后预先设置这些网络状态的发生时间以便人工产生数据标签，每次仿真时间设置为2h，每种网络状态发生的时间为20min。

表1 OPNET异构无线网络仿真参数表

实例利用OPNET收集的数据进行基于深度Q学习的网络故障检测与诊断方法，包括以下步骤：

步骤1：从异构无线网络环境中采集带有标签的网络状态数据集，包括网络状态类别、干扰类型和故障类型，具体为：

步骤2：将网络故障识别问题建模为马尔可夫决策过程。马尔可夫决策过程用一个元组(S,A,P,R,γ)表示，具体如下：

(1)S表示目前含有某些特征值或者属于某个故障类别下的状态。

(2)A动作分为正确识别故障原因或选择特征子集。

(3)P是状态之间的转移概率。

(4)R是由状态s执行动作a，然后转换成新的状态s′情况下所获得的奖励。

(5)γ是折扣因子，γ∈[0,1)，表示过去的奖励和现在的奖励之间的比重关系。

步骤3：通过强化学习中的智能体与环境的交互过程：智能体首先会选择一个动作，环境根据选择的动作做出相应的反应并给予智能体一个反馈值，即环境反馈信息，具体体现为正向的奖赏或者负向惩罚；然后智能体会参考此时的环境状态选择一个新的动作，但需要确保此动作能够增加正向的奖赏值。经多次迭代，智能体将学习到如何正确进行故障诊断。

步骤4：将每个时间步智能体与环境交互得到的转移样本存放到记忆单元，并随机抽取一部分进行训练，这种处理方式打破了样本间的相关性，使它们相互独立。另一个是固定目标值网络：使用现有的Q值来计算网络目标值，深度强化学习框架中选择使用一个更新较慢的网络专门提供此Q值。这提高了训练的稳定性和收敛性。为了是算法稳定，建立的两个神经网络结构相同，一个是不断更新神经网络阐述的网络，另一个是不断更新Q值得网络。

步骤5：将预处理后的数据集分为训练集和测试集，输入到深度强化学习的故障检测模型进行训练，得到诊断结果。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度Q学习的网络故障检测与诊断方法，其特征在于，所述方法包括：

所述故障检测模型的训练方式，包括：

2.根据权利要求1所述的方法，其特征在于，所述马尔科夫决策过程用一个元组(S，A，P，R，γ)来表示，其中，S为决策过程中的状态集，A为决策过程中的动作集，P为状态之间的转移概率，R为采取某一动作到达下一状态后的回报值，γ为一个折扣因子，γ∈[0，1)为过去奖励与现在奖励之间的比例关系。

3.根据权利要求2所述的方法，其特征在于，所述根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述故障检测模型的奖励函数为：

式中，a为采取的动作，y是目标标签，

5.根据权利要求4所述的方法，其特征在于，所述故障检测模型的环境变换函数为：

6.根据权利要求5所述的方法，其特征在于，所述故障检测模型的价值函数为：

在策略π(a|s)下的状态值函数为：

v_π(s)＝E_π[R_t|S_t＝s]

7.根据权利要求6所述的方法，其特征在于，所述故障检测模型的状态-动作值函数为：

Q_π(s，a)＝E_π[R_t|S_t＝s，A_t＝a]

式中，Q_π(s，a)为状态-动作值函数，A_t为t时刻采取的动作；

8.根据权利要求7所述的方法，其特征在于，所述根据所述网络状态数据集和所述马尔科夫决策过程，不断从所述网络状态数据集中选取网络状态特征并获得对应的环境反馈信息，进行多次迭代，获得具有正确检测与诊断网络故障的故障检测模型的步骤，包括：

Q(s，a；θ)≈Q^*(s，a)

Loss(θ)＝E[(Q_target-Q(s，a；θ))²]

式中，

θ′为固定目标网络的选择权重，Loss(θ)为损失函数。