CN114742800B

CN114742800B - 基于改进Transformer的强化学习电熔镁炉工况识别方法

Info

Publication number: CN114742800B
Application number: CN202210404706.9A
Authority: CN
Inventors: 李帷韬; 管树志; 侯建平; 胡平路; 张雪松; 杨盛世; 孙伟; 李奇越
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2024-02-20
Anticipated expiration: 2042-04-18
Also published as: CN114742800A

Abstract

本发明公开了一种基于改进Transformer的强化学习电熔镁炉工况识别方法，其步骤包括：1、获取目标图像进行预处理；2、建立双分支异构网络和强化学习网络；3、输入训练集到双分支异构网络中得到特征和分类概率；4、输入特征训练强化学模型得到强化学习最优训练模型；4、输入测试集到最优训练模型得到识别结果。本发明通过强化学习的方法，自适应调整矩形框以选取最优特征向量，从而能提高不同状态下电熔镁炉欠烧工况的识别检测准确度和识别速度，满足快速化准确化的实际需求。

Description

基于改进Transformer的强化学习电熔镁炉工况识别方法

技术领域

本发明涉及一种基于改进Transformer的强化学习电熔镁炉工况识别方法，属于人工智能技术领域。

背景技术

电熔镁砂(又称电熔镁)是最轻的金属结构材料，具有耐压强度高、抗氧化耐腐蚀性强、绝缘性强、耐高温(可承受两千多度的高温而不产生性能变化)等一系列优点，主要应用领域包括航空航天、核子熔炉、电子电器等。由于在电熔镁炉烧制电熔镁砂的过程中，原料杂质多易导致异常工况，需要现场对电熔镁炉进行观测以便及时调节，以降低产品能耗，减少资源浪费，如何准确把握电熔镁炉的运行状态信息是完成对整个电熔镁生产的优化与决策的基础环节与关键步骤。

目前电熔镁炉欠烧工况的识别手段主要依靠操作人员亲临生产现场对电熔镁炉进行观测，并凭借其经验知识进行判断。然而，受制于人的经验、责任心和劳动强度等主观因素，以及欠烧工况初期烧红区域目标小识别方法鲁棒性不强的客观因素，难以满足智能巡检的运维需求。

发明内容

本发明是为了解决上述背景技术中的存在的问题，提出一种基于改进Transformer的强化学习电熔镁炉工况识别方法，以期能获取深层图像特征，提高不同状态下电熔镁炉欠烧工况的检测准确度，从而满足电熔镁炉工况识别快速化准确化的实际需求。

本发明为解决技术问题采用如下技术方案：

本发明一种基于改进Transformer的强化学习电熔镁炉工况识别方法的特点在于，是按以下步骤进行：

步骤1：获取带类别的原始目标图像集并输入基于生成对抗网络的图像增强模型中进行数据增强，得到增强后的目标图像集，为增强后的目标图像集中的图像添加类别后，与原始目标图像集合并为训练集B；

步骤2：建立基于改进Transformer的强化学习网络，包括：用于特征提取的CNN-Transformer双分支异构网络、用于生成动作策略的强化学习网络；

所述CNN-Transformer双分支异构网络包括：CNN卷积神经网络分支、Transformer网络分支、双向特征交互模块和SCN分类器组成；

所述CNN卷积神经网络分支是基于Resnet18网络构建的分支，并包含X个卷积块，分别为ConvBlock₁,...,ConvBlock_x,...,ConvBlock_X；其中，ConvBlock_x表示第x级卷积块；

所述第x级卷积块ConvBlock_x依次由通道数为M的点卷积、通道数为M的二维卷积层和通道数为4M的点卷积组成，其中，每一个卷积后连接有一个批量归一化层，所述第x级卷积块ConvBlock_x的输入直接与通道数为4M的点卷积的输出进行跳跃连接后再连接有Relu激活函数；

所述Transformer网络分支是基于ViT网络构建的分支，并包含Y个Transformer块，分别为Transformer₁,...,Transformer_y,...,Transformer_Y；其中，Transformer_y表示第y级Transformer块；

所述第y级Transformer块Transformer_y依次由第一个层归一化层、多头注意力机制层、第二个层归一化层以及多层感知机组成，其中，第一个层归一化层的输入与所述多头注意力机制层的输出进行跳跃连接，第二个层归一化层的输入与所述多层感知机的输出进行跳跃连接；

所述双向特征交互模块是由点卷积层和归一化层组成；

所述第x个卷积块ConvBlock_x的输出与所述双向特征交互模块的输入相连；所述双向特征交互模块的输出与所述第y个卷积块ConvBlock_y的输入相连；

所述第y个卷积块ConvBlock_y的输出与所述双向特征交互模块的输入相连，所述双向特征交互模块的输出与所述第x个卷积块ConvBlock_x的输入相连；

所述强化学习网络由全连接层组成；

步骤3、将所述训练集B输入到CNN-Transformer双分支异构网络中得到特征feature和分类概率pred；

步骤3.1、在所述训练集B中的任意一幅图像上随机初始化一个矩形框box；

步骤3.2、将矩形框box中的图像上采样到原始图像的尺寸，从而得到处理后的图像image；

步骤3.3、将处理后的图像image作为CNN-Transformer双分支异构网络的输入，并同时输入到CNN卷积神经网络分支和Transformer网络分支中，并在所述双向特征交互模块进行双向信息交互，得到特征feature，并输入到所述SCN分类器中，从而得到分类概率pred；

步骤4、将所述CNN-Transformer双分支异构网络输出的特征feature输入到强化学习网络进行训练；

步骤4.1、定义动作空间的动作类型包括有M种动作：每种动作是以矩形框的中心点为基准点进行移动，且动作移动的幅度为当前的矩形框box的α倍，α<1；

步骤4.2、从动作空间的中选择一种动作a改变矩形框大小并输入所述CNN-Transformer双分支异构网络中，输出预测概率pred_a；

根据训练集B的所有类别c、所选一种动作a和预测概率pred_a按式(1)设定奖励reward：

reward＝sign(pred_a(c)-pred(c)) (1)

式(1)中，pred_a(c)表示所有类别c在选定做动作a下的预测概率，pred(c)表示所有类别c在未选定动作下的预测概率；

步骤4.3、将所述特征feature作为当前状态s，输入到所述强化学习模型中，并根据式(2)得到动作空间中动作a下的Q值Q(s,a)；

式(2)中，γ^t为t时刻的学习率，reward(s_t,a_t)为t时刻在状态s_t下采取动作a_t获得的奖励，T为预设的时间值；

步骤4.4、利用贪婪策略选取所述动作空间中所有动作的最大Q值，并按照最大Q值的一个动作对所述矩形框的位置改变，得到新的矩形框box’；

步骤4.5、将新的矩形框box’带入步骤3.2、步骤3.3的过程得到新的特征Feature’和预测概率pred’；从而根据式(1)计算得采取所述Q值最大的一个动作所产生的奖励值reward′；

步骤4.6、通过式(3)定义选定动作a后的目标Q值Q_target；

Q_target＝reward′+γ*max(Q(s,a)) (3)

式(3)中，Q(s,a)表示当前状态s下采取动作a后产生的Q值，γ*为学习率；

步骤4.7、将所述新的特征Feature’和目标Q值Q_target作为样本存储到样本池中；

步骤4.8、按照步骤3.1到步骤4.7的过程，并将所述新的特征Feature’带入步骤4.3中进行处理，直到样本池中样本达到预设数量为止；

步骤4.9、从样本池中随机选取特征和目标Q值，并将特征输入到强化学习网络中得到Q值Q_eval，利用式(4)所示的损失函数loss对强化学习网络进行反向传播，并更新网络参数，直到达到最大迭代次数为止，从而得到最优模型用于实现对电熔镁炉工况的识别；

loss＝(Q_target-Q_eval)² (4)。

与已有技术相比，本发明的有益效果体现在：

1、本发明采用对抗生成网络以扩展样本数据，改善数据集样本不平衡问题，从而提高了模型检测的鲁棒性和检测精度。

2、本发明通过采用CNN卷积神经网络和Transformer网络以及双向特征交互模块相结合的CNN-Transformer双分支异构网络，能够将CNN卷积神经网络的局部特征和Transformer网络的全局特征相融合，并连接双向特征交互模块作为桥接，以连续交互的方式消除它们之间的差异，从而大大提高了识别模型的准确度。

3、本发明采用基于强化学习的方法，寻找图像最优特征区域，以减小图像质量不一带来的干扰，增强了对不同特征图的表达能力，同时提高了电熔镁炉的工况识别速度。

附图说明

图1为本发明方法框架示意图；

图2为本发明CNN-Transformer的双分支异构网络结构图；

图3为本发明ConvBlock块结构图；

图4为本发明Transformer块结构图。

具体实施方式

本实施例中，参照图1，一种基于改进Transforner的强化学习电熔镁炉工况识别方法是按如下步骤进行：

CNN-Transformer双分支异构网络包括：CNN卷积神经网络分支、Transformer网络分支、双向特征交互模块和SCN分类器组成，CNN-Transformer的双分支异构网络结构图如图2所示；

CNN卷积神经网络分支是基于Resnet18网络构建的分支，并包含X个卷积块，分别为ConvBlock₁,...,ConvBlock_x,...,ConvBlock_X；其中，ConvBlock_x表示第x级卷积块；本实施例中，取卷积块个数X＝12；

第x级卷积块ConvBlock_x依次由通道数为M的点卷积、通道数为M的二维卷积层和通道数为4M的点卷积组成，其中，每一个卷积后连接有一个批量归一化层，第x级卷积块ConvBlock_x的输入直接与通道数为4M的点卷积的输出进行跳跃连接后再连接有Relu激活函数；本实施例中，第x级卷积块ConvBlock_x中，M＝64，点卷积的卷积核大小为1×1，二维卷积层的卷积核大小为3×3，ConvBlock结构如图3所示；

Transformer网络分支是基于ViT网络构建的分支，并包含Y个Transformer块，分别为Transformer₁,...,Transformer_y,...,Transformer_Y；其中，Transformer_y表示第y级Transformer块；本实施例中，取Transformer块个数Y＝12；

第y级Transformer块Transformer_y依次由第一个层归一化层、多头注意力机制层、第二个层归一化层以及多层感知机组成，其中，第一个层归一化层的输入与多头注意力机制层的输出进行跳跃连接，第二个层归一化层的输入与多层感知机的输出进行跳跃连接；本实施例中，Transformer块结构如图4所示；

双向特征交互模块是由点卷积层和归一化层组成；本实施例中，点卷积大小为1×1；

第x个卷积块ConvBlock_x的输出与双向特征交互模块的输入相连；双向特征交互模块的输出与第y个卷积块ConvBlock_y的输入相连；

第y个卷积块ConvBlock_y的输出与双向特征交互模块的输入相连，双向特征交互模块的输出与第x个卷积块ConvBlock_x的输入相连；

强化学习网络由全连接层组成；

步骤3、将训练集B输入到CNN-Transformer双分支异构网络中得到特征feature和分类概率pred；

步骤3.1、在训练集B中的任意一幅图像上随机初始化一个矩形框box；

步骤3.3、将处理后的图像image作为CNN-Transformer双分支异构网络的输入，并同时输入到CNN卷积神经网络分支和Transformer网络分支中，并在双向特征交互模块进行双向信息交互，得到特征feature，并输入到SCN分类器中，从而得到分类概率pred；

步骤4、将CNN-Transformer双分支异构网络输出的特征feature输入到强化学习网络进行训练；

步骤4.1、定义动作空间的动作类型包括有M种动作：每种动作是以矩形框的中心点为基准点进行移动，且动作移动的幅度为当前的矩形框box的α倍，α<1；本实施例中，α＝1/3，m＝5,有5种动作包括：上移、下移、左移、右移、终止；

步骤4.2、从动作空间的中选择一种动作a改变矩形框大小并输入CNN-Transformer双分支异构网络中，输出预测概率pred_a；

reward＝sign(pred_a(c)-pred(c)) (1)

步骤4.3、将特征feature作为当前状态s，输入到强化学习模型中，并根据式(2)得到动作空间中动作a下的Q值Q(s,a)；本实施例中，动作的Q值表示矩形框在采取此动作后位置发生改变，从而对预测概率产生影响，动作Q值越大预测效果越好，反之动作Q值越小预测效果越差；

步骤4.4、利用贪婪策略选取动作空间中所有动作的最大Q值，并按照最大Q值的一个动作对矩形框的位置改变，得到新的矩形框box’；

步骤4.5、将新的矩形框box’带入步骤3.2、步骤3.3的过程得到新的特征Feature’和预测概率pred’；从而根据式(1)计算得采取Q值最大的一个动作所产生的奖励值reward′；

步骤4.6、通过式(3)定义选定动作a后的目标Q值Q_target；

Q_target＝reward′+γ*max(Q(s,a)) (3)

步骤4.7、将新的特征Feature’和目标Q值Q_target作为样本存储到样本池中；

步骤4.8、按照步骤3.1到步骤4.7的过程，并将新的特征Feature’带入步骤4.3中进行处理，直到样本池中样本达到预设数量为止；

loss＝(Q_target-Q_eval)² (4)。

Claims

1.一种基于改进Transformer的强化学习电熔镁炉工况识别方法，其特征在于，是按以下步骤进行：

所述双向特征交互模块是由点卷积层和归一化层组成；

所述第x级卷积块ConvBlock_x的输出与所述双向特征交互模块的输入相连；所述双向特征交互模块的输出与所述第y个卷积块ConvBlock_y的输入相连；

所述第y级卷积块ConvBlock_y的输出与所述双向特征交互模块的输入相连，所述双向特征交互模块的输出与所述第x个卷积块ConvBlock_x的输入相连；

所述强化学习网络由全连接层组成；

reward＝sign(pred_a(c)-pred(c)) (1)

步骤4.6、通过式(3)定义选定动作a后的目标Q值Q_target；

Q_target＝reward′+γ*max(Q(s,a)) (3)

loss＝(Q_target-Q_eval)² (4)。