CN114742800B - 基于改进Transformer的强化学习电熔镁炉工况识别方法 - Google Patents
基于改进Transformer的强化学习电熔镁炉工况识别方法 Download PDFInfo
- Publication number
- CN114742800B CN114742800B CN202210404706.9A CN202210404706A CN114742800B CN 114742800 B CN114742800 B CN 114742800B CN 202210404706 A CN202210404706 A CN 202210404706A CN 114742800 B CN114742800 B CN 114742800B
- Authority
- CN
- China
- Prior art keywords
- action
- network
- branch
- layer
- convblock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003723 Smelting Methods 0.000 title claims abstract description 19
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 title claims abstract description 18
- 229910052749 magnesium Inorganic materials 0.000 title claims abstract description 18
- 239000011777 magnesium Substances 0.000 title claims abstract description 18
- 230000002787 reinforcement Effects 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims description 65
- 230000003993 interaction Effects 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 230000002457 bidirectional effect Effects 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000007781 pre-processing Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- CPLXHLVBOLITMK-UHFFFAOYSA-N Magnesium oxide Chemical compound [Mg]=O CPLXHLVBOLITMK-UHFFFAOYSA-N 0.000 description 14
- 239000000395 magnesium oxide Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P10/00—Technologies related to metal processing
- Y02P10/25—Process efficiency
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进Transformer的强化学习电熔镁炉工况识别方法,其步骤包括:1、获取目标图像进行预处理;2、建立双分支异构网络和强化学习网络;3、输入训练集到双分支异构网络中得到特征和分类概率;4、输入特征训练强化学模型得到强化学习最优训练模型;4、输入测试集到最优训练模型得到识别结果。本发明通过强化学习的方法,自适应调整矩形框以选取最优特征向量,从而能提高不同状态下电熔镁炉欠烧工况的识别检测准确度和识别速度,满足快速化准确化的实际需求。
Description
技术领域
本发明涉及一种基于改进Transformer的强化学习电熔镁炉工况识别方法,属于人工智能技术领域。
背景技术
电熔镁砂(又称电熔镁)是最轻的金属结构材料,具有耐压强度高、抗氧化耐腐蚀性强、绝缘性强、耐高温(可承受两千多度的高温而不产生性能变化)等一系列优点,主要应用领域包括航空航天、核子熔炉、电子电器等。由于在电熔镁炉烧制电熔镁砂的过程中,原料杂质多易导致异常工况,需要现场对电熔镁炉进行观测以便及时调节,以降低产品能耗,减少资源浪费,如何准确把握电熔镁炉的运行状态信息是完成对整个电熔镁生产的优化与决策的基础环节与关键步骤。
目前电熔镁炉欠烧工况的识别手段主要依靠操作人员亲临生产现场对电熔镁炉进行观测,并凭借其经验知识进行判断。然而,受制于人的经验、责任心和劳动强度等主观因素,以及欠烧工况初期烧红区域目标小识别方法鲁棒性不强的客观因素,难以满足智能巡检的运维需求。
发明内容
本发明是为了解决上述背景技术中的存在的问题,提出一种基于改进Transformer的强化学习电熔镁炉工况识别方法,以期能获取深层图像特征,提高不同状态下电熔镁炉欠烧工况的检测准确度,从而满足电熔镁炉工况识别快速化准确化的实际需求。
本发明为解决技术问题采用如下技术方案:
本发明一种基于改进Transformer的强化学习电熔镁炉工况识别方法的特点在于,是按以下步骤进行:
步骤1:获取带类别的原始目标图像集并输入基于生成对抗网络的图像增强模型中进行数据增强,得到增强后的目标图像集,为增强后的目标图像集中的图像添加类别后,与原始目标图像集合并为训练集B;
步骤2:建立基于改进Transformer的强化学习网络,包括:用于特征提取的CNN-Transformer双分支异构网络、用于生成动作策略的强化学习网络;
所述CNN-Transformer双分支异构网络包括:CNN卷积神经网络分支、Transformer网络分支、双向特征交互模块和SCN分类器组成;
所述CNN卷积神经网络分支是基于Resnet18网络构建的分支,并包含X个卷积块,分别为ConvBlock1,...,ConvBlockx,...,ConvBlockX;其中,ConvBlockx表示第x级卷积块;
所述第x级卷积块ConvBlockx依次由通道数为M的点卷积、通道数为M的二维卷积层和通道数为4M的点卷积组成,其中,每一个卷积后连接有一个批量归一化层,所述第x级卷积块ConvBlockx的输入直接与通道数为4M的点卷积的输出进行跳跃连接后再连接有Relu激活函数;
所述Transformer网络分支是基于ViT网络构建的分支,并包含Y个Transformer块,分别为Transformer1,...,Transformery,...,TransformerY;其中,Transformery表示第y级Transformer块;
所述第y级Transformer块Transformery依次由第一个层归一化层、多头注意力机制层、第二个层归一化层以及多层感知机组成,其中,第一个层归一化层的输入与所述多头注意力机制层的输出进行跳跃连接,第二个层归一化层的输入与所述多层感知机的输出进行跳跃连接;
所述双向特征交互模块是由点卷积层和归一化层组成;
所述第x个卷积块ConvBlockx的输出与所述双向特征交互模块的输入相连;所述双向特征交互模块的输出与所述第y个卷积块ConvBlocky的输入相连;
所述第y个卷积块ConvBlocky的输出与所述双向特征交互模块的输入相连,所述双向特征交互模块的输出与所述第x个卷积块ConvBlockx的输入相连;
所述强化学习网络由全连接层组成;
步骤3、将所述训练集B输入到CNN-Transformer双分支异构网络中得到特征feature和分类概率pred;
步骤3.1、在所述训练集B中的任意一幅图像上随机初始化一个矩形框box;
步骤3.2、将矩形框box中的图像上采样到原始图像的尺寸,从而得到处理后的图像image;
步骤3.3、将处理后的图像image作为CNN-Transformer双分支异构网络的输入,并同时输入到CNN卷积神经网络分支和Transformer网络分支中,并在所述双向特征交互模块进行双向信息交互,得到特征feature,并输入到所述SCN分类器中,从而得到分类概率pred;
步骤4、将所述CNN-Transformer双分支异构网络输出的特征feature输入到强化学习网络进行训练;
步骤4.1、定义动作空间的动作类型包括有M种动作:每种动作是以矩形框的中心点为基准点进行移动,且动作移动的幅度为当前的矩形框box的α倍,α<1;
步骤4.2、从动作空间的中选择一种动作a改变矩形框大小并输入所述CNN-Transformer双分支异构网络中,输出预测概率preda;
根据训练集B的所有类别c、所选一种动作a和预测概率preda按式(1)设定奖励reward:
reward=sign(preda(c)-pred(c)) (1)
式(1)中,preda(c)表示所有类别c在选定做动作a下的预测概率,pred(c)表示所有类别c在未选定动作下的预测概率;
步骤4.3、将所述特征feature作为当前状态s,输入到所述强化学习模型中,并根据式(2)得到动作空间中动作a下的Q值Q(s,a);
式(2)中,γt为t时刻的学习率,reward(st,at)为t时刻在状态st下采取动作at获得的奖励,T为预设的时间值;
步骤4.4、利用贪婪策略选取所述动作空间中所有动作的最大Q值,并按照最大Q值的一个动作对所述矩形框的位置改变,得到新的矩形框box’;
步骤4.5、将新的矩形框box’带入步骤3.2、步骤3.3的过程得到新的特征Feature’和预测概率pred’;从而根据式(1)计算得采取所述Q值最大的一个动作所产生的奖励值reward′;
步骤4.6、通过式(3)定义选定动作a后的目标Q值Qtarget;
Qtarget=reward′+γ*max(Q(s,a)) (3)
式(3)中,Q(s,a)表示当前状态s下采取动作a后产生的Q值,γ*为学习率;
步骤4.7、将所述新的特征Feature’和目标Q值Qtarget作为样本存储到样本池中;
步骤4.8、按照步骤3.1到步骤4.7的过程,并将所述新的特征Feature’带入步骤4.3中进行处理,直到样本池中样本达到预设数量为止;
步骤4.9、从样本池中随机选取特征和目标Q值,并将特征输入到强化学习网络中得到Q值Qeval,利用式(4)所示的损失函数loss对强化学习网络进行反向传播,并更新网络参数,直到达到最大迭代次数为止,从而得到最优模型用于实现对电熔镁炉工况的识别;
loss=(Qtarget-Qeval)2 (4)。
与已有技术相比,本发明的有益效果体现在:
1、本发明采用对抗生成网络以扩展样本数据,改善数据集样本不平衡问题,从而提高了模型检测的鲁棒性和检测精度。
2、本发明通过采用CNN卷积神经网络和Transformer网络以及双向特征交互模块相结合的CNN-Transformer双分支异构网络,能够将CNN卷积神经网络的局部特征和Transformer网络的全局特征相融合,并连接双向特征交互模块作为桥接,以连续交互的方式消除它们之间的差异,从而大大提高了识别模型的准确度。
3、本发明采用基于强化学习的方法,寻找图像最优特征区域,以减小图像质量不一带来的干扰,增强了对不同特征图的表达能力,同时提高了电熔镁炉的工况识别速度。
附图说明
图1为本发明方法框架示意图;
图2为本发明CNN-Transformer的双分支异构网络结构图;
图3为本发明ConvBlock块结构图;
图4为本发明Transformer块结构图。
具体实施方式
本实施例中,参照图1,一种基于改进Transforner的强化学习电熔镁炉工况识别方法是按如下步骤进行:
步骤1:获取带类别的原始目标图像集并输入基于生成对抗网络的图像增强模型中进行数据增强,得到增强后的目标图像集,为增强后的目标图像集中的图像添加类别后,与原始目标图像集合并为训练集B;
步骤2:建立基于改进Transformer的强化学习网络,包括:用于特征提取的CNN-Transformer双分支异构网络、用于生成动作策略的强化学习网络;
CNN-Transformer双分支异构网络包括:CNN卷积神经网络分支、Transformer网络分支、双向特征交互模块和SCN分类器组成,CNN-Transformer的双分支异构网络结构图如图2所示;
CNN卷积神经网络分支是基于Resnet18网络构建的分支,并包含X个卷积块,分别为ConvBlock1,...,ConvBlockx,...,ConvBlockX;其中,ConvBlockx表示第x级卷积块;本实施例中,取卷积块个数X=12;
第x级卷积块ConvBlockx依次由通道数为M的点卷积、通道数为M的二维卷积层和通道数为4M的点卷积组成,其中,每一个卷积后连接有一个批量归一化层,第x级卷积块ConvBlockx的输入直接与通道数为4M的点卷积的输出进行跳跃连接后再连接有Relu激活函数;本实施例中,第x级卷积块ConvBlockx中,M=64,点卷积的卷积核大小为1×1,二维卷积层的卷积核大小为3×3,ConvBlock结构如图3所示;
Transformer网络分支是基于ViT网络构建的分支,并包含Y个Transformer块,分别为Transformer1,...,Transformery,...,TransformerY;其中,Transformery表示第y级Transformer块;本实施例中,取Transformer块个数Y=12;
第y级Transformer块Transformery依次由第一个层归一化层、多头注意力机制层、第二个层归一化层以及多层感知机组成,其中,第一个层归一化层的输入与多头注意力机制层的输出进行跳跃连接,第二个层归一化层的输入与多层感知机的输出进行跳跃连接;本实施例中,Transformer块结构如图4所示;
双向特征交互模块是由点卷积层和归一化层组成;本实施例中,点卷积大小为1×1;
第x个卷积块ConvBlockx的输出与双向特征交互模块的输入相连;双向特征交互模块的输出与第y个卷积块ConvBlocky的输入相连;
第y个卷积块ConvBlocky的输出与双向特征交互模块的输入相连,双向特征交互模块的输出与第x个卷积块ConvBlockx的输入相连;
强化学习网络由全连接层组成;
步骤3、将训练集B输入到CNN-Transformer双分支异构网络中得到特征feature和分类概率pred;
步骤3.1、在训练集B中的任意一幅图像上随机初始化一个矩形框box;
步骤3.2、将矩形框box中的图像上采样到原始图像的尺寸,从而得到处理后的图像image;
步骤3.3、将处理后的图像image作为CNN-Transformer双分支异构网络的输入,并同时输入到CNN卷积神经网络分支和Transformer网络分支中,并在双向特征交互模块进行双向信息交互,得到特征feature,并输入到SCN分类器中,从而得到分类概率pred;
步骤4、将CNN-Transformer双分支异构网络输出的特征feature输入到强化学习网络进行训练;
步骤4.1、定义动作空间的动作类型包括有M种动作:每种动作是以矩形框的中心点为基准点进行移动,且动作移动的幅度为当前的矩形框box的α倍,α<1;本实施例中,α=1/3,m=5,有5种动作包括:上移、下移、左移、右移、终止;
步骤4.2、从动作空间的中选择一种动作a改变矩形框大小并输入CNN-Transformer双分支异构网络中,输出预测概率preda;
根据训练集B的所有类别c、所选一种动作a和预测概率preda按式(1)设定奖励reward:
reward=sign(preda(c)-pred(c)) (1)
式(1)中,preda(c)表示所有类别c在选定做动作a下的预测概率,pred(c)表示所有类别c在未选定动作下的预测概率;
步骤4.3、将特征feature作为当前状态s,输入到强化学习模型中,并根据式(2)得到动作空间中动作a下的Q值Q(s,a);本实施例中,动作的Q值表示矩形框在采取此动作后位置发生改变,从而对预测概率产生影响,动作Q值越大预测效果越好,反之动作Q值越小预测效果越差;
式(2)中,γt为t时刻的学习率,reward(st,at)为t时刻在状态st下采取动作at获得的奖励,T为预设的时间值;
步骤4.4、利用贪婪策略选取动作空间中所有动作的最大Q值,并按照最大Q值的一个动作对矩形框的位置改变,得到新的矩形框box’;
步骤4.5、将新的矩形框box’带入步骤3.2、步骤3.3的过程得到新的特征Feature’和预测概率pred’;从而根据式(1)计算得采取Q值最大的一个动作所产生的奖励值reward′;
步骤4.6、通过式(3)定义选定动作a后的目标Q值Qtarget;
Qtarget=reward′+γ*max(Q(s,a)) (3)
式(3)中,Q(s,a)表示当前状态s下采取动作a后产生的Q值,γ*为学习率;
步骤4.7、将新的特征Feature’和目标Q值Qtarget作为样本存储到样本池中;
步骤4.8、按照步骤3.1到步骤4.7的过程,并将新的特征Feature’带入步骤4.3中进行处理,直到样本池中样本达到预设数量为止;
步骤4.9、从样本池中随机选取特征和目标Q值,并将特征输入到强化学习网络中得到Q值Qeval,利用式(4)所示的损失函数loss对强化学习网络进行反向传播,并更新网络参数,直到达到最大迭代次数为止,从而得到最优模型用于实现对电熔镁炉工况的识别;
loss=(Qtarget-Qeval)2 (4)。
Claims (1)
1.一种基于改进Transformer的强化学习电熔镁炉工况识别方法,其特征在于,是按以下步骤进行:
步骤1:获取带类别的原始目标图像集并输入基于生成对抗网络的图像增强模型中进行数据增强,得到增强后的目标图像集,为增强后的目标图像集中的图像添加类别后,与原始目标图像集合并为训练集B;
步骤2:建立基于改进Transformer的强化学习网络,包括:用于特征提取的CNN-Transformer双分支异构网络、用于生成动作策略的强化学习网络;
所述CNN-Transformer双分支异构网络包括:CNN卷积神经网络分支、Transformer网络分支、双向特征交互模块和SCN分类器组成;
所述CNN卷积神经网络分支是基于Resnet18网络构建的分支,并包含X个卷积块,分别为ConvBlock1,...,ConvBlockx,...,ConvBlockX;其中,ConvBlockx表示第x级卷积块;
所述第x级卷积块ConvBlockx依次由通道数为M的点卷积、通道数为M的二维卷积层和通道数为4M的点卷积组成,其中,每一个卷积后连接有一个批量归一化层,所述第x级卷积块ConvBlockx的输入直接与通道数为4M的点卷积的输出进行跳跃连接后再连接有Relu激活函数;
所述Transformer网络分支是基于ViT网络构建的分支,并包含Y个Transformer块,分别为Transformer1,...,Transformery,...,TransformerY;其中,Transformery表示第y级Transformer块;
所述第y级Transformer块Transformery依次由第一个层归一化层、多头注意力机制层、第二个层归一化层以及多层感知机组成,其中,第一个层归一化层的输入与所述多头注意力机制层的输出进行跳跃连接,第二个层归一化层的输入与所述多层感知机的输出进行跳跃连接;
所述双向特征交互模块是由点卷积层和归一化层组成;
所述第x级卷积块ConvBlockx的输出与所述双向特征交互模块的输入相连;所述双向特征交互模块的输出与所述第y个卷积块ConvBlocky的输入相连;
所述第y级卷积块ConvBlocky的输出与所述双向特征交互模块的输入相连,所述双向特征交互模块的输出与所述第x个卷积块ConvBlockx的输入相连;
所述强化学习网络由全连接层组成;
步骤3、将所述训练集B输入到CNN-Transformer双分支异构网络中得到特征feature和分类概率pred;
步骤3.1、在所述训练集B中的任意一幅图像上随机初始化一个矩形框box;
步骤3.2、将矩形框box中的图像上采样到原始图像的尺寸,从而得到处理后的图像image;
步骤3.3、将处理后的图像image作为CNN-Transformer双分支异构网络的输入,并同时输入到CNN卷积神经网络分支和Transformer网络分支中,并在所述双向特征交互模块进行双向信息交互,得到特征feature,并输入到所述SCN分类器中,从而得到分类概率pred;
步骤4、将所述CNN-Transformer双分支异构网络输出的特征feature输入到强化学习网络进行训练;
步骤4.1、定义动作空间的动作类型包括有M种动作:每种动作是以矩形框的中心点为基准点进行移动,且动作移动的幅度为当前的矩形框box的α倍,α<1;
步骤4.2、从动作空间的中选择一种动作a改变矩形框大小并输入所述CNN-Transformer双分支异构网络中,输出预测概率preda;
根据训练集B的所有类别c、所选一种动作a和预测概率preda按式(1)设定奖励reward:
reward=sign(preda(c)-pred(c)) (1)
式(1)中,preda(c)表示所有类别c在选定做动作a下的预测概率,pred(c)表示所有类别c在未选定动作下的预测概率;
步骤4.3、将所述特征feature作为当前状态s,输入到所述强化学习模型中,并根据式(2)得到动作空间中动作a下的Q值Q(s,a);
式(2)中,γt为t时刻的学习率,reward(st,at)为t时刻在状态st下采取动作at获得的奖励,T为预设的时间值;
步骤4.4、利用贪婪策略选取所述动作空间中所有动作的最大Q值,并按照最大Q值的一个动作对所述矩形框的位置改变,得到新的矩形框box’;
步骤4.5、将新的矩形框box’带入步骤3.2、步骤3.3的过程得到新的特征Feature’和预测概率pred’;从而根据式(1)计算得采取所述Q值最大的一个动作所产生的奖励值reward′;
步骤4.6、通过式(3)定义选定动作a后的目标Q值Qtarget;
Qtarget=reward′+γ*max(Q(s,a)) (3)
式(3)中,Q(s,a)表示当前状态s下采取动作a后产生的Q值,γ*为学习率;
步骤4.7、将所述新的特征Feature’和目标Q值Qtarget作为样本存储到样本池中;
步骤4.8、按照步骤3.1到步骤4.7的过程,并将所述新的特征Feature’带入步骤4.3中进行处理,直到样本池中样本达到预设数量为止;
步骤4.9、从样本池中随机选取特征和目标Q值,并将特征输入到强化学习网络中得到Q值Qeval,利用式(4)所示的损失函数loss对强化学习网络进行反向传播,并更新网络参数,直到达到最大迭代次数为止,从而得到最优模型用于实现对电熔镁炉工况的识别;
loss=(Qtarget-Qeval)2 (4)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404706.9A CN114742800B (zh) | 2022-04-18 | 2022-04-18 | 基于改进Transformer的强化学习电熔镁炉工况识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404706.9A CN114742800B (zh) | 2022-04-18 | 2022-04-18 | 基于改进Transformer的强化学习电熔镁炉工况识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114742800A CN114742800A (zh) | 2022-07-12 |
CN114742800B true CN114742800B (zh) | 2024-02-20 |
Family
ID=82281509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404706.9A Active CN114742800B (zh) | 2022-04-18 | 2022-04-18 | 基于改进Transformer的强化学习电熔镁炉工况识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742800B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844770A (zh) * | 2017-11-03 | 2018-03-27 | 东北大学 | 一种基于视频的电熔镁炉异常工况自动识别系统 |
CN110826609A (zh) * | 2019-10-29 | 2020-02-21 | 华中科技大学 | 一种基于强化学习的双流特征融合图像识别方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN114241522A (zh) * | 2021-12-13 | 2022-03-25 | 北京国网信通埃森哲信息技术有限公司 | 现场作业安全穿戴识别方法、系统、设备及存储介质 |
-
2022
- 2022-04-18 CN CN202210404706.9A patent/CN114742800B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844770A (zh) * | 2017-11-03 | 2018-03-27 | 东北大学 | 一种基于视频的电熔镁炉异常工况自动识别系统 |
CN110826609A (zh) * | 2019-10-29 | 2020-02-21 | 华中科技大学 | 一种基于强化学习的双流特征融合图像识别方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN114241522A (zh) * | 2021-12-13 | 2022-03-25 | 北京国网信通埃森哲信息技术有限公司 | 现场作业安全穿戴识别方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于深度特征学习的图像自适应目标识别算法;张骞予;管姝;谢红薇;强彦;刘爱媛;;太原理工大学学报;20180831(第04期);第592-598页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114742800A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110739031B (zh) | 一种冶金烧结过程的有监督预测方法、装置及存储介质 | |
CN112329275A (zh) | 一种激光金属增材沉积融合状态实时预测方法及系统 | |
CN112508104A (zh) | 一种基于快速网络架构搜索的跨任务图像分类方法 | |
CN110633738B (zh) | 一种用于工业零件图像的快速分类方法 | |
CN112418538A (zh) | 一种基于随机森林分类的连铸坯夹杂预测方法 | |
CN114782967B (zh) | 一种基于代码可视化学习的软件缺陷预测方法 | |
CN114742800B (zh) | 基于改进Transformer的强化学习电熔镁炉工况识别方法 | |
Noraas et al. | Structural material property tailoring using deep neural networks | |
CN116110507B (zh) | 镁碳砖智能化生产方法及系统 | |
CN116700003A (zh) | 使用流程工业历史数据构建强化学习环境的方法及系统 | |
Zeiser et al. | Requirements towards optimizing analytics in industrial processes | |
CN116452895A (zh) | 基于多模态对称增强的小样本图像分类方法、装置及介质 | |
Yang et al. | Multi-source information fusion for autoformer: Soft sensor modeling of FeO content in iron ore sintering process | |
CN112215351B (zh) | 增强的多尺度卷积神经网络软测量方法 | |
CN113052255B (zh) | 一种电抗器智能检测和定位的方法 | |
CN115446276A (zh) | 基于卷积神经网络识别结晶器铜板v型黏结特征的连铸漏钢预警方法 | |
CN113835964A (zh) | 基于小样本学习的云数据中心服务器能耗预测方法 | |
Han et al. | Employing deep learning in non‐parametric inverse visualization of elastic–plastic mechanisms in dual‐phase steels | |
CN116824297B (zh) | Ki67影像预测模型的伪标签自蒸馏优化方法 | |
Wang et al. | Grade Monitoring using Semantic Features of Flotation Froth Image | |
CN113807016B (zh) | 一种数据驱动的工程材料超高周疲劳寿命预测方法 | |
Ghorbani et al. | Revolutionising inverse design of magnesium alloys through generative adversarial networks | |
CN116486404B (zh) | 基于卷积神经网络的针状焦显微图检测的方法和装置 | |
CN115879569B (zh) | 一种IoT观测数据的在线学习方法及系统 | |
TWI840303B (zh) | 用於預測工件特性之模型的訓練方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |