CN114595750A

CN114595750A - 基于深度强化学习参数自动调整的铝电解故障识别方法

Info

Publication number: CN114595750A
Application number: CN202210186157.2A
Authority: CN
Inventors: 吴亚丽; 王君虎; 杨延西; 郑帅龙
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-07

Abstract

本发明公开的基于深度强化学习参数自动调整的铝电解故障识别方法，包括以下步骤：步骤1、对收集到的铝电解数据进行处理；步骤2、选择一维卷积神经网络作为网络模型，确定分类器为softmax；步骤3、对卷积神经网络模型的网络结构进行优化及确定；步骤4、对分类模型进行训练；步骤5、判断终止条件；步骤6、待识别样本输入分类；步骤7、计算识别率。本发明基于深度强化学习参数自动调整的铝电解故障识别方法，解决了现有技术中铝电解故障数据识别的准确性不高，故障识别模型结构难以确定的问题。

Description

基于深度强化学习参数自动调整的铝电解故障识别方法

技术领域

本发明属于铝电解技术领域，具体涉及一种基于深度强化学习参数自动调整的铝电解故障识别方法。

背景技术

铝电解工业是我国具有战略意义的基础产业之一，随着现代自动化工业的不断发展，铝的生产过程与工艺越来越复杂，发生故障的可能性也随之增加，小的故障往往会引发连锁反应，对国民经济及国民安全带来严重影响。

在铝电解生产过程中，铝电解槽内伴随着复杂的物化反应，业内常利用监测系统对电解槽状况进行监测，对电解槽及其他相关设备的数据进行采集、建模分析，进而对是否发生电解故障作出评判。面对海量数据，采用传统的人工特征提取的方法对电解故障进行识别非常困难，且识别效果不理想，因此研究和利用先进的理论与方法，对数据样本进行准确识别成为铝电解故障识别面临的新问题。针对这一问题，利用一种基于强化学习参数自动调整的铝电解故障识别方法，对采集到的数据进行特征提取及分类，用以有效解决铝电解故障识别问题。

卷积神经网络是1998年Yann Lecun提出的，其主要功能是通过设置卷积核，对输入数据进行卷积操作，再通过增加卷积核层数，来提取更加抽象且全面的数据特征，在数据特征提取问题上具有广泛应用。

深度强化学习是2015年Mnih V.等人提出的，其原理是将深度神经网络引入到强化学习过程，用以代替传统强化学习的策略函数进行动作选择，智能体通过与环境不断进行交互逐步优化策略，最终获得一个最优策略使得完成决策过程获得的收益最大，对于动态决策问题具有很好的解决能力。

由于电解设备繁多、工艺复杂，数据特征维度不断增加。而对故障样本的识别，主要是对目标特征的提取，较优的特征提取才会得到较优的识别效果，而现有的识别方法未能充分利用铝电解数据这一特点，此外，目前的大多识别方法相关参数的设定仅仅是根据经验值，没有发挥算法的最优性能。因此，对铝电解数据识别的准确性不高。

发明内容

本发明的目的是提供一种基于深度强化学习参数自动调整的铝电解故障识别方法，解决了现有技术中铝电解故障数据识别的准确性不高，故障识别模型结构难以确定的问题。

本发明所采用的技术方案是，基于深度强化学习参数自动调整的铝电解故障识别方法，包括以下步骤：

步骤1、对收集到的铝电解数据进行处理；

步骤2、选择一维卷积神经网络作为网络模型，确定分类器为softmax；

步骤3、对卷积神经网络模型的网络结构进行优化及确定；

步骤4、对分类模型进行训练

对分类模型进行训练分为网络初始化、数据特征提取、建立目标函数、以及梯度下降法优化参数；

步骤5、判断终止条件

设定最优性能连续出现的次数为N_best，判断识别网络的最优性能连续出现的次数是否达到最大次数为I，若未达到，返回步骤3重新优化结构参数；若满足，则进入步骤6；

步骤6、待识别样本输入分类

将铝电解数据测试样本输入到已经训练好的网络模型，利用训练好的网络对待识别样本进行分类；

步骤7、计算识别率

利用式(4)计算网络对铝电解数据最优识别准确率：

其中，n为测试样本总数，b为分类正确的待识别样本。

本发明的特征还在于，

步骤1的具体实施方式为：

将收集到的铝电解数据处理成网络能够识别的输入信号，确定待识别样本的类别个数以及样本维度，同时按照一定比例铝电解数据划分为训练样本和测试样本，处理后的训练样本集合为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，其中，m为训练样本个数，x⁽ⁱ⁾为第i个训练样本，y⁽ⁱ⁾∈{1,2,...,k}为第i个训练样本的标签，k为铝电解数据中待识别样本的类的个数；处理后的测试样本集合为{x⁽¹⁾,x⁽²⁾,...,x⁽ⁿ⁾}，其中，n为训练样本个数，x⁽ⁱ⁾为第i个测试样本。

步骤2的具体实施方式为：

步骤2.1)确定网络模型为一维卷积神经网络

步骤2.2)确定分类器为softmax

本步骤的分类器采用softmax分类器，当训练样本集合为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}时，利用softmax分类器按下式对提取到的待识别数据的特征进行分类：

其中，假设向量h_θ(x⁽ⁱ⁾)的每一个元素p(y⁽ⁱ⁾＝j|x⁽ⁱ⁾；θ)代表样本待识别物体特征x⁽ⁱ⁾属于第j类的概率，j∈{1,2,…,k}，概率越大，待识别的样本x⁽ⁱ⁾属于第j类的概率就越大，其中，θ₁,θ₂,...,θ_k为卷积神经网络的参数向量。

步骤3的具体实施方式为：

3.1)确定输入层节点数，

卷积神经网络输入层节点数的个数与待识别物体数据维度d有关，是待识别物体特征数的输入；

3.2)确定输出层节点数，

对于整个卷积神经网络模型，输出层节点数为铝电解数据中待识别样本的类的个数k；

3.3)确定及优化隐层网络结构。

步骤3.3的具体实施方式为：

3.3.1)网络初始化，

使用一组超参数对卷积神经网络进行初始化，在该组超参数的基础上定义合理的状态空间，并对状态空间进行离散化操作；

3.3.2)建立深度强化学习模型，

定义智能体agent为一个具有三层全连接结构的深度神经网络，用于在不同的状态下根据策略选择动作，策略定义为该神经网络的权值参数，状态s定义为卷积神经网络超参数组合的元组形式，如(2)所示，

s＝{e,f,o,h} (2)

其中，e表示卷积核大小、f表示卷积核个数、o表示全连接层数、h表示全连接层的节点数，定义最优超参数组合，即使得卷积神经网络的分类性能达到最优超参数组合为s*，动作a定义为对当前卷积神经网络超参数进行的调整，即在步骤3.3.1定义好的状态空间范围内，根据策略函数的引导，选择其中的一个超参数，并选定一个调整方向对该参数作一个单位的调整，用P_best表示分类器的最佳性能，N_best表示最佳性能连续出现的次数，设定最优性能连续出现的最大次数阈值为I；

3.3.3)智能体动态决策，

智能体处于状态s时，采用ε-greedy算法选择动作a对超参数组合中的某一参数向某个方向调整一个单位，完成动作a后，得到一组新的超参数组合s’，即智能体由状态s转移到状态s’，在状态s’下重新训练故障识别网络；

3.3.4)性能评价，

环境的回报r定义为当前参数配置下卷积神经网络对于不同类别样本识别精度的加权和，用r评价故障识别网络在状态s下的性能；

3.3.5)更新N_p，

在迭代过程中，记录分类模型的最佳性能为P_best，如果r>P_best，则N_best＝0，如果r<P_best，则令N_best＝N_best+1，用以统计最佳性能出现的次数，进而判断模型是否收敛到最佳性能，即N_best是否达到阈值I；

3.3.6)更新智能体策略，

将卷积神经网络的分类结果r作为环境的反馈值，智能体根据该反馈值不断优化策略；

3.3.7)判断是否达到终止条件，

判断最优性能连续出现的次数N_best是否达到预先设定的最大次数I，若未达到，则返回3.3.3)，令N_best＝N_best+1，并利用智能体对网络结构参数重新进行决策，若已达到，进入步骤3.3.8)；

3.3.8)输出最优超参数组合，

输出针对该故障识别网络模型的最优超参数组合s^*，并将最优超参数组合s^*作为卷积神经网络的最优结构，代入后续训练。

步骤4的具体实施方式如下：

4.1)网络初始化，

使用状态s^*定义一维卷积神经网络；

4.2)数据特征提取，

特征提取由网络中的卷积操作完成，对于所有的卷积层，将填充方式均设置为全零填充，卷积核的移动动步长均设置为1，激活函数均设置为relu函数，在每个卷积层前面设置批标准化层；

4.3)建立目标函数，

目标函数即损失函数Loss，将其定义为分类器的均方误差：

其中，y_i表示第i个样本的真实类别标签，

表示故障识别网络对第i个样本的预测类别标签；

4.4)梯度下降法优化参数，

利用反向传播计算梯度变量，对卷积神经网络中的权值参数进行优化，使目标函数达到最小。

本发明的有益效果是：通过对铝电解数据进行处理分析，由于处理后的数据具有的高维度特性，故利用卷积神经网络进行特征提取及分类，识别结果优于传统的神经网络(BP)及传统分类方法(SVM等)；同时考虑到卷积神经网络的结构及参数配置对识别精度影响较大，故引入深度强化学习算法，实现自动调整的卷积神经网络对铝电解数据样本的识别，使得识别精度达到最优。

附图说明

图1是本发明方法的总体实现流程简图；

图2是本发明方法中的卷积神经网络结构简图；

图3是本发明方法中深度强化学习算法应用流程简图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供基于深度强化学习参数自动调整的铝电解故障识别方法，如图1-3，包括以下步骤：

步骤1、对收集到的铝电解数据进行处理；

步骤1的具体实施方式为：

将收集到的铝电解数据处理成网络能够识别的输入信号，确定待识别样本的类别个数以及样本维度，同时按照一定比例(7:3或者8:2)将铝电解数据划分为训练样本和测试样本，处理后的训练样本集合为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，其中，m为训练样本个数，x⁽ⁱ⁾为第i个训练样本，y⁽ⁱ⁾∈{1,2,...,k}为第i个训练样本的标签，k为铝电解数据中待识别样本的类的个数；处理后的测试样本集合为{x⁽¹⁾,x⁽²⁾,...,x⁽ⁿ⁾}，其中，n为训练样本个数，x⁽ⁱ⁾为第i个测试样本。

步骤2的具体实施方式为：

步骤2.1)确定网络模型为一维卷积神经网络(1D_CNN)

由于神经网络具有强大的自学习能力和容错能力，相比于传统机器学习算法，在解决模式识别问题时有明显的优势；在分类问题中，对于数据代表性特征的准确提取至关重要，由于一维卷积神经网络在对序列化数据进行特征提取时具有独到的优势，且具有权值共享的特性，能加快模型收敛速度，因此，采用一维卷积神经网络作为网络模型；

步骤2.2)确定分类器为softmax

其中，假设向量h_θ(x⁽ⁱ⁾)的每一个元素p(y⁽ⁱ⁾＝j|x⁽ⁱ⁾；θ)代表样本待识别物体特征x⁽ⁱ⁾属于第j类的概率(向量h_θ(x⁽ⁱ⁾)各个元素的和为1)，j∈{1,2,…,k}，概率越大，待识别的样本x⁽ⁱ⁾属于第j类的概率就越大，其中，θ₁,θ₂,...,θ_k为卷积神经网络的参数向量。

步骤3、对卷积神经网络模型的网络结构进行优化及确定；

卷积神经网络模型主要由卷积层和全连接层两部分组成，其中，输入层个数为待分类数据特征个数d，输出层个数为铝电解数据中待识别样本类的个数k，

对于网络结构的优化主要是对卷积层和全连接层的优化，一般地，可将网络模型划分为输入层、隐藏层和输出层，因此，对网络结构的确定分为输入层节点数、输出层节点数、隐藏层结构优化三个方面；

步骤3的具体实施方式为：

如图2所示，卷积神经网络模型包含卷积层和全连接层，其中，输入层个数为待分类数据特征个数d，输出层个数为铝电解数据中待识别样本类的个数k，

对于网络结构的优化主要是对卷积层和全连接层超参数配置的优化，一般地，可将网络模型划分为三大模块：输入层、隐藏层(即卷积层和全连接层)和输出层，相应的，对网络结构的优化也可以分为输入层节点数、输出层节点数、隐藏层结构优化三个方面，具体如下：

3.1)确定输入层节点数，

3.2)确定输出层节点数，

3.3)确定及优化隐层网络结构。

对于传统卷积神经网络，隐藏层结构的各个超参数需根据多次试验依靠经验人为设定，耗时费力，浪费计算资源，但隐藏层结构设置的好坏直接影响着网络模型性能的好坏，因此，需要对网络的隐藏层结构进行确定及优化。

本步骤基于深度强化学习基本原理，创新出一种基于深度强化学习参数自动调整的卷积神经网络算法，实现对卷积网络的隐藏层结构的确定，省去了繁杂的手动调节步骤，节约了时间，节省了宝贵的计算资源；同时，可有效提高铝电解故障样本的识别精度，且实现过程简单，在故障识别问题上效果显著。

参照图3，使用深度强化学习算法优化卷积神经网络隐藏层结构的具体过程是：

步骤3.3的具体实施方式为：

3.3.1)网络初始化，

使用一组超参数对卷积神经网络进行初始化，为减小算法的计算量，在该组超参数的基础上定义合理的状态空间，同时，为了保证算法收敛，需要将状态空间限制在合理范围内，并对状态空间进行离散化操作。例如，卷积神经网络学习率合理的取值范围是[0,1]，因此，不能将其调整为负值或大于1的值，且该超参数的取值类型为浮点型，因此，在算法执行的过程中需要对该超参数进行离散化操作，避免状态空间过大导致算法难以收敛的情况；

3.3.2)建立深度强化学习模型，

定义智能体agent为一个具有三层全连接结构的深度神经网络，用于在不同的状态下根据策略选择动作，策略定义为该神经网络的权值参数，

状态s定义为卷积神经网络超参数组合的元组形式，如(2)所示，

s＝{e,f,o,h} (2)

其中，e表示卷积核大小、f表示卷积核个数、o表示全连接层数、h表示全连接层的节点数，定义最优超参数组合为s^*，即使得卷积神经网络的分类性能达到最优超参数组合为s*，动作a定义为对当前卷积神经网络超参数进行的调整，即在步骤3.3.1定义好的状态空间范围内，根据策略函数的引导，选择其中的一个超参数，并选定一个调整方向对该参数作一个单位的调整，用P_best表示分类器的最佳性能，N_best表示最佳性能连续出现的次数，设定最优性能连续出现的最大次数阈值为I；

3.3.3)智能体动态决策，

3.3.4)性能评价，

3.3.5)更新N_p，

3.3.6)更新智能体策略，

智能体训练的最终目标是获得使分类器达到最佳性能所对应的决策方式。将卷积神经网络的分类结果r作为环境的反馈值，智能体根据该反馈值不断优化策略；

经过一段时间的探索和试错，智能体逐渐形成一个最优策略，当智能体处于某个新的状态时，可以根据学习到的策略自主选择一个能够带来最大收益的动作来调整超参数组合，进而得到具有最佳识别性能的网络结构。

3.3.7)判断是否达到终止条件，

3.3.8)输出最优超参数组合，

步骤4、对分类模型进行训练

步骤4的具体实施方式如下：

4.1)网络初始化，

使用状态s^*定义一维卷积神经网络；

4.2)数据特征提取，

特征提取由网络中的卷积操作完成，为减少模型参数，加快模型收敛，对于所有的卷积层，将填充方式(padding)均设置为全零填充，卷积核的移动动步长(stride)均设置为1，激活函数(activation)均设置为relu函数，为减小计算量，在每个卷积层前面设置批标准化(BN)层。

4.3)建立目标函数，

目标函数即损失函数Loss，将其定义为分类器的均方误差：

其中，y_i表示第i个样本的真实类别标签，

表示故障识别网络对第i个样本的预测类别标签；Loss越小，故障识别网络的性能越好。

4.4)梯度下降法优化参数，

步骤5、判断终止条件

步骤6、待识别样本输入分类

步骤7、计算识别率

为了更直观的表示网络对待识别样本的分类效果，利用式(4)计算网络对铝电解数据最优识别准确率：

其中，n为测试样本总数，b为分类正确的待识别样本。

发明方法优点具体优点包括以下方面：

1)具有较强的智能性，自动调整网络结构，免去了人工手动调整网络参数这一耗时过程，同时节省了计算资源，并使得分类精度达到最优。

2)实用性强，针对铝电解过程中的故障识别问题具有较优的识别精度，且实现过程简单。

3)具有较强的普适应，不仅在铝电解故障识别方面，还可适用于其他模式识别问题，依然能够取得较为理想的识别性能。

Claims

1.基于深度强化学习参数自动调整的铝电解故障识别方法，其特征在于，包括以下步骤：

步骤1、对收集到的铝电解数据进行处理；

步骤3、对卷积神经网络模型的网络结构进行优化及确定；

步骤4、对分类模型进行训练

步骤5、判断终止条件

步骤6、待识别样本输入分类

步骤7、计算识别率

利用式(4)计算网络对铝电解数据最优识别准确率：

其中，n为测试样本总数，b为分类正确的待识别样本。

2.根据权利要求1所述的基于深度强化学习参数自动调整的铝电解故障识别方法，其特征在于，步骤1的具体实施方式为：

3.根据权利要求1所述的基于深度强化学习参数自动调整的铝电解故障识别方法，其特征在于，步骤2的具体实施方式为：

步骤2.1)确定网络模型为一维卷积神经网络

步骤2.2)确定分类器为softmax

4.根据权利要求1所述的基于深度强化学习参数自动调整的铝电解故障识别方法，其特征在于，步骤3的具体实施方式为：

3.1)确定输入层节点数，

3.2)确定输出层节点数，

3.3)确定及优化隐层网络结构。

5.根据权利要求4所述的基于深度强化学习参数自动调整的铝电解故障识别方法，其特征在于，步骤3.3的具体实施方式为：

3.3.1)网络初始化，

3.3.2)建立深度强化学习模型，

s＝{e,f,o,h} (2)

3.3.3)智能体动态决策，

3.3.4)性能评价，

3.3.5)更新N_p，

3.3.6)更新智能体策略，

3.3.7)判断是否达到终止条件，

3.3.8)输出最优超参数组合，

6.根据权利要求1所述的基于深度强化学习参数自动调整的铝电解故障识别方法，其特征在于，步骤4的具体实施方式如下：

4.1)网络初始化，

使用状态s^*定义一维卷积神经网络；

4.2)数据特征提取，

4.3)建立目标函数，

目标函数即损失函数Loss，将其定义为分类器的均方误差：

其中，y_i表示第i个样本的真实类别标签，

表示故障识别网络对第i个样本的预测类别标签；

4.4)梯度下降法优化参数，