CN115673596B

CN115673596B - 一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法

Info

Publication number: CN115673596B
Application number: CN202211692538.4A
Authority: CN
Inventors: 姚志豪; 李波
Original assignee: Suxin Iot Solutions Nanjing Co ltd
Current assignee: Suxin Iot Solutions Nanjing Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-03-17
Anticipated expiration: 2042-12-28
Also published as: CN115673596A

Abstract

本发明公开了一种基于Actor‑Critic强化学习模型的焊接异常实时诊断方法，首先采集实际焊接过程中的多维传感数据，构建入模数据集；接着搭建基于DQN网络结构的Actor‑Critic强化学习模型；基于TD算法对Actor‑Critic强化学习模型进行训练，并通过测试集数据对模型进行测试，通过输入的时序数据特征，实时识别所属焊接情况；最终部署训练完毕的Actor‑Critic强化学习模型，实时识别当前焊接状态；本发明同时实例化2个结构相同的DQN网络，大幅减少模型训练时间，同时引入优化经验回放策略及分层采样方法进行模型训练，可以提升模型识别精度，做到焊接异常状态的实时准确检测。

Description

一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法

技术领域

本发明属于焊接异常诊断技术领域，特别涉及一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法。

背景技术

焊接作为一种重要的制造技术，被广泛应用于工业生产中。焊接过程属于典型的不确定性、非线性系统过程，在焊接过程会发生复杂的物理化学反应同时焊接工艺的复杂性导致不可避免的会出现焊接质量缺陷；现阶段主要的缺陷检测手段主要为人眼观测或使用一些无损探伤的设备进行检测；

随着焊接异常诊断技术的不断发展，目前已经涌现出一批通过采集电流、电压等时序数据，并对此进行数据分析，最终实现焊接质量实时检测的效果。但现有技术均是将焊接异常诊断作为传统的分类问题，核心思想在于通过机器学习等方法进行精准分类，从强化学习角度对焊接异常情况进行实时检测则尚无相关研究。

发明内容

发明目的：针对上述背景技术中提出的研究方向，本发明提供了一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，将传统焊接异常检测问题由分类问题转化为焊接异常标签识别问题，可以实现同步准确识别多种焊接异常状态的效果。

技术方案：一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，包括以下步骤：

步骤S1、采集焊接过程中的多维传感数据，并进行预处理；对采集到的传感数据按照实际焊接情况进行标注，并构造特征，最终划分训练集和测试集，构建入模数据集；

步骤S2、搭建基于DQN网络结构的Actor-Critic强化学习模型；

步骤S3、基于训练集数据，采用TD算法对步骤S2所述Actor-Critic强化学习模型进行训练，输入特征数据，识别特征数据所属焊接标注情况；

步骤S4、基于训练好的Actor-Critic强化学习模型，基于测试集特征数据进行测试；通过输入的时序数据特征，实时识别所属焊接情况；最终部署测试完毕的Actor-Critic强化学习模型，实时接收传感器采集的数据，并识别当前焊接状态。

进一步地，所述步骤S1中对多维传感数据进行预处理步骤包括：

所述步骤S1中对多维传感数据进行预处理步骤包括：

步骤S1.1、通过部署在焊机终端的各类传感器实时采集焊接过程中的高频时序数据，本实施例中采集的数据包括电流、电压、送丝速度和保护气流速；

步骤S1.2、对采集到的时序数据根据实际焊接情况进行标注，将正常焊接标注为0，对不同焊接异常问题分别标注不同代号；

步骤S1.3、针对采集的时序数据进行特征构造；构造特征包括时域特征、频域特征和时频域特征；

步骤S1.4、基于步骤S1.3中提取的特征及对应的标签构建入模数据集，包括训练集和测试集。

进一步地，所述步骤S2中Actor-Critic强化学习模型搭建步骤包括：

步骤S2.1、创建强化学习环境；

所述强化学习环境包括状态和执行的动作action；其中状态代表所有训练集样本数据，动作则代表对当前输入的样本数据进行标签预测；强化学习环境基于智能体产生的动作action，利用step函数产生下一时刻状态和下一时刻回报，然后再反馈至智能体，进入下一轮循环；

其中，强化学习环境对于智能体执行动作获得的回报reward规则如下：当标签预测结果与真实标签相符时，reward=1分，不符则reward=-1分；对于初始化及重置动作，则reward=0分；

步骤S2.2、基于DQN网络设置智能体结构；

DQN网络结构包括1层输入层、不少于2层线性层和1层线性输出层，激活函数采用Relu；智能体的输入包括当前初始化状态s_t，以及初始化回报r_t，强化学习环境通过动作action产生下一时刻状态s_t+1和回报r_t+1，当前初始化状态代表环境自身随机产生的训练集样本数据，初始化回报代表环境初始化的回报，即为0，回报r_t+1代表智能体进行预测后获取的回报分数，下一刻状态代表下一刻输入的训练集样本数据；在当前状态下，选择不同动作，智能体会返回不同Q值，选择最大的Q值对应的动作，即为智能体采取的动作，将该动作下预测的标签与真实标签对比，计算其回报分数；

采用Actor-Critic架构强化学习模型作为智能体结构，其中Actor模型和Critic模型采用相同结构的DQN网络模型，在Actor输出层添加处理逻辑，使Actor模型输出为Q值最大时对应的动作。

进一步地，所述步骤S3中采用TD算法对Actor-Critic强化学习模型进行训练，具体步骤包括：

所述步骤S3中采用TD算法对Actor-Critic强化学习模型进行训练，具体步骤包括：

步骤S3.1、获取当前状态序列的第一个状态S，及对应的特征向量ϕ(S)及初始化回报r；

步骤S3.2、将ϕ(S)和r输入至Actor网络中，输出动作为A，基于该动作，获取下一时刻状态S′和回报R；

步骤S3.3、在Critic模型中将下一时刻状态S′对应的特征向量ϕ(S′)，分别得到对应的Q值输出V(S)，V(S′)；

步骤S3.4、计算TD误差δ如下：

δ=R+γV(S′)−V(S)

其中γ为折扣因子；

步骤S3.5、使用均方差损失函数∑(R+γV(S′)−V(S))²对Critic网络参数进行梯度更新；

步骤S3.6、将传统经验回放池存储的数据

加入当前状态s_t下对应的真实数据标签，扩充为

；设置经验回放池的大小Pool_Size以及每次从经验回放池采样的数据个数M、采样次数N，经过Actor网络不断向经验回放池中存入数据组，当回放池大小满足要求后，对回放池内数据进行采样，将每次采样的数据个数M传入Critic模型以步骤S3.2-步骤S3.5的过程进行参数更新，达到采样次数N时停止采样，清空经验回放池，并且前面使用过的数据后续将不再重复使用；

步骤S3.7、继续利用Actor模型对训练集剩余特征数据进行计算，得到当前状态对应的动作，并重复步骤S3.6，直至训练完整个训练集；

步骤S3.8，设定时间步，每间隔若干步后Critic模型将自身的参数赋值给Actor模型，用于更新Actor模型。

进一步地，步骤S3.6中采用分层采样方法对回放池内数据进行采样；按照训练集中不同标注样本的比例进行随机采样。

进一步地，步骤S4中基于训练集数据训练若干轮后，利用训练好的强化学习模型对测试集样本数据进行预测。

本发明采用的技术方案与现有技术方案相比，具有以下有益效果：

（1）本发明搭建了一种基于Actor-Critic的强化学习模型，同时实例2个DQN模型，可以大幅减少模型训练时间，同时通过TD算法对模型进行训练，引入优化经验回放策略，保证焊接异常标签识别的准确性和实时性。

（2）本发明采用两个结构相同的DQN网络分别作为Actor和Critic模型，可以大幅缩短模型训练时间。其中对Actor模型输出进行逻辑处理，使其输出相应动作，对Critic模型进行延时参数更新，每隔一段时间步将Critic模型参数赋值给Actor模型，避免了相同网络参数的模型既当Actor，又当Critic的问题。

（3）本发明采用将传统的焊接异常分类问题转化为包含多种异常状态标签的识别问题，通过强化学习的方法不断训练模型，最终实现接收实时焊接传感数据后可以准确识别该模型对应的异常标签。

（4）本发明在训练模型时采用了分层采样的方法，兼顾了不同小样本标签数据量不大的问题，将标签为0，1、2等每种焊接异常状态下的样本分别进行随机采样，并进行训练，保证小样本事件的覆盖率。

附图说明

图1为本发明提供的基于Actor-Critic强化学习模型结构图；

图2为本发明提供的强化学习环境示意图；

图3为本发明实施例中模型检测精度效果图；

图4为本发明实施例中对测试集样本数据的预测结果图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

本发明提供了一种基于优化经验回放策略的焊接异常实时诊断方法，将传统的焊接异常情况的实时检测从特征数据的分类问题转变为识别异常标签，首先设置了强化学习环境，接着搭建DQN网络作为强化学习环境中的智能体，基于Actor-Critic架构建立双强化学习模型，同时实例2个DQN模型，进而大幅减少模型训练时间。训练模型时，通过TD算法对DQN网络模型进行训练，并引入优化经验回放策略，对经验回放池进行优化，加入当前状态对应的真实标签label。最终将训练若干轮的强化学习模型对测试集数据进行预测，实验证明，本发明提供的基于优化经验回放策略的焊接缺陷实时诊断方法对各种焊接异常状态的检测方法均具备较高的准确率。下面提供一份具体实施例：

步骤S1、采集焊接过程中的多维传感数据，并进行预处理。

步骤S1.1、通过部署在焊机终端的各类传感器实时采集焊接过程中的高频时序数据，本实施例中采集的数据包括电流、电压、送丝速度和保护气流速。

步骤S1.2、对采集到的时序数据根据实际焊接情况进行标注，焊接正常标注为0，焊偏标注为1，漏焊标注为2等等。这里根据实际情况可以分为多种焊接异常种类，本实施例中确定的标签为0-2三种。

步骤S1.3、针对采集的时序数据进行特征构造；构造特征包括时域特征、频域特征和时频域特征。时域特征包括若干常规时域特征，如均值、峰谷值等。频域特征则包括频谱统计值等。通过VMD进行时频分析，提取时序数据的时频域特征。

步骤S2、将分类问题转化为识别异常情况标签的问题，主体思路在于对不断产生的时序特征，强化学习模型需要学习到一种最适合的策略进行准确识别，当识别结果与真实标签相符，则给予其回报（reward），否则进行惩罚。具体地，

步骤S2.1、创建强化学习环境。

其中，强化学习环境对于智能体执行动作获得的回报reward规则如下：当标签预测结果与真实标签相符时，reward=1分，不符则reward=-1分；对于初始化及重置动作，则reward=0分。

步骤S2.2、基于DQN网络设置智能体结构。

本实施例中智能体主体采用DQN网络进行搭建，DQN网络主要结构包括1层输入层、不少于2层线性层和1层线性输出层，激活函数采用Relu。如图2所示。智能体的输入包括当前初始化状态s_t，以及初始化回报r_t，强化学习环境通过动作action产生下一时刻状态s_t+1和回报r_t+1，当前初始化状态代表环境自身随机产生的训练集样本数据，初始化回报代表环境初始化的回报，即为0，回报r_t+1代表智能体进行预测后获取的回报分数，下一刻状态代表下一刻输入的训练集样本数据；在当前状态下，选择不同动作，智能体会返回不同Q值，选择最大的Q值对应的动作，即为智能体采取的动作，将该动作下预测的标签与真实标签对比，计算其回报分数；

在本实施例中，为了提升训练速度，采用了一种Actor-Critic架构强化学习模型作为智能体的DQN网络结构。同时实例化2个DQN网络模型。一般情况下需要同时训练这2个不同结构的DQN网络模型，本实施例中Actor模型和Critic模型结构完全相同，但在Actor模型的输出层添加逻辑处理，使其输出的是Q值最大时对应的动作。

下面对Actor-Critic架构强化学习模型的一般工作原理进行解释：

传统Actor-Critic架构强化学习模型中，Actor模型使用策略函数，负责生成动作并与环境交互，Critic模型则使用价值函数，评估Actor模型的表现，并指导Actor模型下一步的动作。具体而言，Critic模型采用Q网络计算当前状态下的最优价值，Actor模型基于计算的最优价值更新策略函数的参数，并依据策略函数选择动作，最终获得回报reward和新的状态。Critic模型基于获得的回报reward和新的状态，更新Q网络参数，并用新的Q网络进一步帮助Actor模型进行最优价值的计算。

本发明中由于采用了两个完全相同的网络结构分别作为Actor和Critic模型，因此为了防止相同网络参数的模型既当Actor，又当Critic，将Actor模型参数进行延迟更新，实际训练过程中，每隔若干步，Critic模型将自身的参数赋值给Actor模型，具体架构如图1所示。

步骤S3、采用TD算法进行训练步骤S2中搭建的Actor-Critic架构强化学习模型。具体地，

步骤S3.1、获取当前状态序列的第一个状态S，及对应的特征向量ϕ(S)；

步骤S3.2、将ϕ(S)输入至Actor网络中，输出动作为A，基于该动作，获取下一时刻状态S′和回报R；

步骤S3.4、计算TD误差δ如下：

δ=R+γV(S′)−V(S)

其中γ为折扣因子；

步骤S3.5、使用均方差损失函数∑(R+γV(S′)−V(S))²对Critic网络参数进行梯度更新。

步骤S3.6、为了并提升准确率，引入优化经验回放策略。在传统经验回放池存储的数据

基础上加入当前状态s_t下对应的真实数据标签，扩充为

。设置经验回放池的大小Pool_Size以及每次从经验回放池采样的数据个数M、采样次数N，经过Actor网络不断向经验回放池中存入数据组，当回放池大小满足要求后，对回放池内数据进行采样，将每次采样的数据个数M传入Critic模型以步骤S3.2-步骤S3.5的过程进行参数更新，达到采样次数N时停止采样，清空经验回放池，并且前面使用过的数据后续将不再重复使用。

由于通常焊接时序数据的采集过程中，大部分数据均为正常焊接数据，对应标签为0，采用传统随机采样方法进行训练则会导致训练结果对异常样本的识别效果较差。因此本发明采用分层采样方法进行TD算法训练，将标签为0，1、2等每种焊接异常状态下的样本分别进行随机采样，并进行训练，保证小样本事件的覆盖率。

步骤S3.7、继续利用Actor模型对训练集剩余特征数据进行计算得到当前状态对应的动作，重复步骤3.6，直至训练完整个训练集。

步骤S3.8，设定时间步，每间隔若干步后Critic模型将自身的参数赋值给Actor模型，更新Actor模型。

步骤S4、训练2000轮后，发现强化模型的每一轮的总回报呈现线性增加，说明强化系统在训练过程中学到了如何区分正常和异常的相关经验，具体如图3所示，可以看出，随着训练次数增加，模型会更加精准。

利用训练好的强化学习模型对测试集样本数据进行预测。预测结果混淆矩阵如图4所示，可以看出，采用本发明方法训练的强化学习模型对各种焊接异常情况的预测准确率可达94%，满足焊接异常实时检测的需求。

最后，部署训练好的强化学习模型，接收多维传感数据，由强化学习模型进行焊接状态实时检测，当发生焊接异常时，输出准确的焊接异常种类所属标签，判断具体发生何种焊接。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，其特征在于，包括以下步骤：

步骤S2、搭建基于DQN网络结构的Actor-Critic强化学习模型，具体方法包括：

步骤S2.1、创建强化学习环境；

步骤S2.2、基于DQN网络设置智能体结构；

DQN网络结构包括1层输入层、不少于2层线性层和1层线性输出层，激活函数采用Relu激活函数；智能体的输入包括当前初始化状态s_t，以及初始化回报r_t，强化学习环境通过动作action产生下一时刻状态s_t+1和回报r_t+1，当前初始化状态代表环境自身随机产生的训练集样本数据，初始化回报代表环境初始化的回报，即为0，回报r_t+1代表智能体进行预测后获取的回报分数，下一刻状态代表下一刻输入的训练集样本数据；在当前状态下，选择不同动作，智能体会返回不同Q值，选择最大的Q值对应的动作，即为智能体采取的动作，将该动作下预测的标签与真实标签对比，计算其回报分数；

采用Actor-Critic强化学习模型作为智能体结构，其中Actor模型和Critic模型采用相同结构的DQN网络模型，在Actor输出层添加处理逻辑，使Actor模型输出为Q值最大时对应的动作；

2.根据权利要求1所述的一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，其特征在于，所述步骤S1中对多维传感数据进行预处理步骤包括：

步骤S1.1、通过部署在焊机终端的各类传感器实时采集焊接过程中的高频时序数据，所述高频时序数据包括电流、电压、送丝速度和保护气流速；

步骤S1.2、对采集到的高频时序数据根据实际焊接情况进行标注，将正常焊接标注为0，对不同焊接异常问题分别标注不同代号；

步骤S1.3、针对采集的高频时序数据进行特征构造；构造特征包括时域特征、频域特征和时频域特征；

3.根据权利要求1所述的一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，其特征在于，所述步骤S3中采用TD算法对Actor-Critic强化学习模型进行训练，具体步骤包括：

步骤S3.3、在Critic模型中，下一时刻状态S′对应特征向量ϕ(S′)，并分别得出第一个状态S下的Q值输出V(S)和下一时刻状态S′下的Q值输出V(S′)；

步骤S3.4、计算TD误差δ如下：

δ=R+γV(S′)−V(S)

其中γ为折扣因子；

步骤S3.6、将传统经验回放池存储的数据

加入当前状态s_t下对应的真实数据标签，扩充为

；设置经验回放池的大小Pool_Size以及每次从经验回放池采样的数据个数M、采样次数N，经过Actor网络不断向经验回放池中存入数据组，当经验回放池大小满足要求后，对经验回放池内数据进行采样，将每次采样的数据个数M传入Critic模型以步骤S3.2-步骤S3.5的过程进行参数更新，达到采样次数N时停止采样，清空经验回放池，并且前面使用过的数据后续将不再重复使用；

4.根据权利要求3所述的一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，其特征在于，步骤S3.6中采用分层采样方法对经验回放池内数据进行采样；按照训练集中不同标注样本的比例进行随机采样。

5.根据权利要求1所述的一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法，其特征在于，步骤S4中基于训练集数据训练若干轮后，利用训练好的强化学习模型对测试集样本数据进行预测。