CN110930379A

CN110930379A - 基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法

Info

Publication number: CN110930379A
Application number: CN201911129224.1A
Authority: CN
Inventors: 柯丰恺; 刘欢平; 周唯倜; 赵大兴; 孙国栋; 冯维
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-27
Anticipated expiration: 2039-11-18
Also published as: CN110930379B

Abstract

本发明公开了一种基于DDPG‑RAM算法的复杂光照条件下织物缺陷检测方法，采集织物缺陷图像作为训练样本‑对织物缺陷图像进行图像增强‑利用图像增强后的训练样本对DDPG‑RAM模型进行训练，确定训练后的网络参数‑利用训练后的DDPG‑RAM模型对织物缺陷图像进行缺陷检测。实现了织物缺陷的自动检测，且运行速度快，具有更高的准确性，效果更好。

Description

基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法

技术领域

本发明涉及织物缺陷检测技术领域，具体涉及一种基于 DDPG-RAM算法的复杂光照条件下织物缺陷检测方法。

背景技术

强化学习自从上世纪提出以来就广受关注，作为机器学习的一大分支，相较于监督学习和非监督学习，强化学习是在不断与环境的交互中学习状态和行为之间的映射关系从而使得数值回报达到最大化，在缺陷检测方面，强化学习针对不同缺陷种类和不同缺陷的表现形式都有着都有着学习能力，目前应用最为广泛的模型是基于 Q-learning、DPG和DDPG模型算法，DDPG算法是利用DQN扩展 Q-learning学习算法对DPG改造后得到的，针对前两种模型只能离散输出的问题，DDPG应用一种基于Actor-Critic框架的算法，解决了连续空间上的深度强化学习问题，相较于之前的深度学习算法在环境适应力上都有着显著的优势，另一方面，对图像的特征识别，循环注意力模型(RAM)通过模仿人眼的注意力机制充分的结合CNN 和RNN在缺陷识别上的优势，通常处理大规模图像特征识别。

针对织物缺陷检测的问题，传统方法是基于CNN模型构建多层网络针对织物特定的缺陷进行识别和分类的，此类模型较为复杂且当输入图像数据量较大时就有着明显的劣势了，而且当缺陷种类较多时传统模型不能自动识别。

发明内容

本发明的目的就是针对上述技术的不足，提供一种能自动检测基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法。

为实现上述目的，本发明所设计的基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法如下：

1)采集织物缺陷图像作为训练样本；

2)对步骤1)中织物缺陷图像进行预处理，选用图像增强算法对复杂光照条件下的织物图像进行图像增强；

3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练，确定训练后的网络参数

3.1)构建DDPG-RAM模型，并随机初始化网络参数；

构建DDPG-RAM模型，结合了深度确定性策略梯度(DDPG) 算法和循环注意力模型(RAM)，该DDPG-RAM模型包括Glimpse 网络，Core网络，Action网络，Actor网络和Critic网络五个部分， Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络，从而形成Actor eval网络、Actor target 网络、Critic eval网络和Critic target网络共四个网络，其中，Actor 网络为行为网络、Critic网络为评价网络、eval网络为估计网络和 target网络为目标网络，Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target 网络为为评价目标网络；然后对该RAM模型进行随机初始化，即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、 Critic eval网络的参数

μ(h|θ^μ)、 Q(h,l|θ^Q)，以及将Actor eval网络和Critic eval网络的值赋予与之对应的target网络，即θ^μ→θ^μ'，θ^Q→θ^Q'；

3.2)经验池初始化为0，大小为max_size×(2×h_t_dim+2+1)；

设经验池为i行、j列的二维矩阵，二维矩阵中每个元素的值初始化为0，其中i为样本容量，j为每个样本储存的信息数量，经验池大小为j＝max_size×(2×h_t_dim+2+1)，其中h_t_dim为状态的维度；公式中的数字2为动作的维度，公式中的数字1为用于在经验池中存储奖励信息的预留空间；

3.3)构造一个随机正态分布N对注意力位置施加干扰

3.4)对DDPG-RAM模型进行训练

4)利用训练后的DDPG-RAM模型对织物缺陷图像进行缺陷检测

进一步地，所述步骤3.3)中，初始化一个方差为var²的随机正态分布N，对注意力位置施加干扰，用于探索环境；

将当前隐藏状态h_t作为Actor eval网络的输入，输出得到一个估计注意力位置l_t'，可以初始化一个方差为var²，均值为l_t'的随机正态分布N，随机正态分布N对这个估计注意力位置l_t'_-1施加了干扰，用于探索环境，从中随机输出一个实际注意力位置l_t-1，用于探索环境，其中t为当前输入隐藏状态的时刻，Actor eval网络的参数为θ_t ^Q。

进一步地，所述步骤3.4)具体过程如下：

3.4.1)随机初始化第一个注意力位置l₀；

3.4.2)根据第一个注意力位置l₀获得Glimpse特征；

Glimpse网络包含着Glimpse感知器，Glimpse感知器对步骤 2)中图像增强后待处理的五大类织物缺陷图像x进行采样，围绕着第一个注意力位置l₀，获得以第一个注意力位置l₀为图像凝视区域中心的4个长度不同的正方形图像，然后使用最近邻插值法将它们统一变换为尺寸为32×32的一组图像，图像第一个注意力位置l₀的中间区域是较高分辨率的图像，从中间区域向外的更大区域是逐渐降低的低分辨率图像；

然后Glimpse感知器根据所获得的该组图像以及第一个注意力位置l₀进行特征提取，通过全连接层连接，得到Glimpse网络输出的特征g₀；

3.4.3)将时间序列Core网络的第一个隐藏状态h₀初始化为0；

3.4.4)将Core网络的隐藏状态h₀和Glimpse网络的特征g₀作为 Core网络输入，输出得到新隐藏状态h₁；

Core网络实际上就是一个RNN网络，时序地将上一个时间序列 Core网络输出的隐藏状态h₀和当前通过Glimpse网络输出的特征g₀这两个特征结合起来，作为Core网络的输入，输出得到RNN网络中一个新的隐藏状态h₁；

3.4.5)将Core网络输出的新隐藏状态h₁作为Action网络的输入，输出得到预测分类结果a₁，再进一步根据预测的分类结果a₁和图像的实际标签label得到奖励函数r₁，其中若分类结果a的正确，则奖励函数为r＝1，否则奖励函数为r＝0；

3.4.6)将Core网络输出的新隐藏状态h₁作为Actor eval网络的输入，输出得到下一个注意力位置l₁，l_t～N(μ(h_t,f_t ^g|θ^μ)，var)；

3.4.7)在经验池中储存该组状态转移信息：h_t-1、l_t-1、r_t、h_t；

将上一个时间序列Core网络的隐藏状态h_t-1，上一个时间序列注意力位置l_t-1，当前的奖励函数r_t以及当前的隐藏状态h_t存储在经验池中，并将一个时间序列Core网络的隐藏状态h_t-1，上一个时间序列注意力位置l_t-1，当前的奖励函数r_t以及当前的隐藏状态h_t统称为状态转移信息；

3.4.8)循环步骤3.4.2)至步骤3.4.7)，重复进行T次；

3.4.9)在运行过程中，当经验池储存满时，最新的状态转移信息会替代老的状态转移信息；

后续新的隐藏状态h_t+1会替代老的隐藏状态h_t，重复步骤3.4.7)，将得到的状态转移信息存储在经验池中，直至经验池被存满，存满后每执行一次步骤3.4.7)便跳转执行一次步骤3.4.10)；

3.4.10)对Actor网络和Critic网络进行训练

3.4.11)根据最后的分类结果a_T和图像的label对Action网络、 Core网络、Glimpse网络的参数进行更新；

3.4.12)对步骤3.4)重复训练M次，得到最终的网络参数。

进一步地，所述步骤3.4.10)具体过程如下：

3.4.10.1)随机从经验池取batch组状态转移信息对Actor eval 网络和Criticeval网络进行训练，实现参数的更新；

3.4.10.2)分为I个回合，Agent目标网络对随机取的batch组状态转移信息每学习一次，输出的干扰var值更新为如公式：

var＝max{var×0.99995,0.1}；

3.4.10.3)每间隔J回合，Actor eval网络和Critic eval的网络参数赋值给Actortarget和Critic target网络进行更新，赋值方式如下式：θ^μ'＝tau×θ^μ+(1-tau)×θ^μ'，θ^Q'＝tau×θ^Q+(1-tau)×θ^Q'也就是说步骤5.3)中的此时输入的隐藏状态时刻为t'，即经验池被存满后每执行一次步骤 3.4.7)的时刻。

与现有技术相比，本发明具有以下优点：本发明基于DDPG-RAM 算法的复杂光照条件下织物缺陷检测方法，实现了织物缺陷的自动检测，且运行速度快，具有更高的准确性，效果更好。

附图说明

图1是本发明DDPG-RAM算法的模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法，具体方法如下：

1)采集破洞、纱疵、褶皱、异物和油渍五大类织物缺陷图像作为训练样本；

2)对步骤1)中五大类织物缺陷图像进行预处理，选用图像增强(Retinex)算法对复杂光照条件下的织物图像进行图像增强；

图像增强是对训练样本图片局部或者整体进行处理，削弱或去除图像中无用的信息，突出有用的信息，以满足要求。多尺度Retinex 算法具有较好的鲁棒性，采用多尺度Retinex算法对复杂光照条件下步骤1)中的五大类织物缺陷图像进行预处理，可以获得合适的局部细节，也能够在一定程度上抑制光照变化对处理图像造成影响，对织物缺陷图像进行了图像增强；

3.1)构建DDPG-RAM模型，并随机初始化网络参数；

构建DDPG-RAM模型，如图1所示，该DDPG-RAM模型包括Glimpse网络，Core网络，Action网络，Actor网络和Critic网络五个部分，Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络，从而形成Actor eval网络、Actortarget网络、Critic eval网络和Critic target网络共四个网络，其中， Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络，Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target网络为为评价目标网络；然后对该RAM模型进行随机初始化，即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、Critic eval网络的参数

3.2)经验池初始化为0，大小为max_size×(2×h_t_dim+2+1)；

3.3)构造一个随机正态分布N对注意力位置施加干扰

初始化一个方差为var²(取var＝0.22)的随机正态分布N，对注意力位置施加干扰，用于探索环境；

将当前隐藏状态h_t作为Actor eval网络的输入，输出得到一个估计注意力位置l_t'，可以初始化一个方差为var²，均值为l′_t的随机正态分布N，随机正态分布N对这个估计注意力位置l′_t-1施加了干扰，用于探索环境，从中随机输出一个实际注意力位置l_t-1，用于探索环境，其中t为当前输入隐藏状态的时刻，Actor eval网络的参数为

3.4)对DDPG-RAM模型进行训练

3.4.1)随机初始化第一个注意力位置l₀；

3.4.2)根据第一个注意力位置l₀获得Glimpse特征；

进一步地，Glimpse感知器根据所获得的该组图像以及第一个注意力位置l₀进行特征提取，通过全连接层连接，得到Glimpse网络输出的特征g₀；

3.4.3)将时间序列Core网络的第一个隐藏状态h₀初始化为0；

3.4.8)循环步骤3.4.2)至步骤3.4.7)，重复进行T次；

3.4.10)对Actor网络和Critic网络进行训练

var＝max{var×0.99995,0.1}；

3.4.10.3)每间隔J回合，Actor eval网络和Critic eval的网络参数赋值给Actortarget和Critic target网络进行更新，赋值方式如下式：θ^μ'＝tau×θ^μ+(1-tau)×θ^μ'，θ^Q'＝tau×θ^Q+(1-tau)×θ^Q'也就是说步骤5.3)中的此时输入的隐藏状态时刻为t'，即经验池被存满后每执行一次步骤 3.4.7)的时刻；

3.4.12)对步骤3.4)重复训练M次，得到最终的网络参数；

4)可利用训练后的DDPG-RAM算法对复杂光照条件下织物缺陷图像进行缺陷检测。

实验数据：

实验数据是从TILDA数据库中图像按照排除缺陷在边缘图像—旋转、翻转操作—改变图像尺寸—数据扩张的顺序筛选，最终选取了破洞、纱疵、褶皱、异物和油渍五类，数量尺寸12万张左右，尺寸大小从768×512变换为128×128的复杂光照下缺陷织物图像作为训练样本；实验中参数：DDPG-RAM模型训练次数M为60000次， T为7次，batch为256组，经验池大小j为3500，方差var为0.22，每隔回合J为10，实验结果如下表：

根据表1中几个不同模型进行训练对比实验，通过将本文提出的DDPG-RAM算法同卷积神经网络(CNN)以及RAM模型相比，实验结果表明CNN网络在光照变化情况下对织物缺陷图像分类检测能力较差,而RAM对光照变化的干扰有一定的鲁棒性,实验效果比较好，DDPG-RAM算法在复杂光照条件下的织物缺陷检测运行速度快，具有更高的准确性，效果会更好。

Claims

1.一种基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法，其特征在于：所述检测方法如下：

1)采集织物缺陷图像作为训练样本；

3.1)构建DDPG-RAM模型，并随机初始化网络参数；

构建DDPG-RAM模型，结合了深度确定性策略梯度(DDPG)算法和循环注意力模型(RAM)，该DDPG-RAM模型包括Glimpse网络，Core网络，Action网络，Actor网络和Critic网络五个部分，Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络，从而形成Actor eval网络、Actor target网络、Critic eval网络和Critictarget网络共四个网络，其中，Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络，Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target网络为为评价目标网络；然后对该RAM模型进行随机初始化，即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、Critic eval网络的参数

μ(h|θ^μ)、Q(h,l|θ^Q)，以及将Actor eval网络和Critic eval网络的值赋予与之对应的target网络，即θ^μ→θ^μ'，θ^Q→θ^Q'；

3.2)经验池初始化为0，大小为max_size×(2×h_t_dim+2+1)；

3.3)构造一个随机正态分布N对注意力位置施加干扰

3.4)对DDPG-RAM模型进行训练

4)利用训练后的DDPG-RAM算法对复杂光照条件下织物缺陷图像进行缺陷检测。

2.根据权利要求1所述基于DDPG-RAM算法的复杂光照条件下的织物缺陷检测方法，其特征在于：所述步骤3.3)中，初始化一个方差为var²的随机正态分布N，对注意力位置施加干扰，用于探索环境；

将当前隐藏状态h_t作为Actor eval网络的输入，输出得到一个估计注意力位置l′_t，可以初始化一个方差为var²，均值为l′_t的随机正态分布N，随机正态分布N对这个估计注意力位置l′_t-1施加了干扰，用于探索环境，从中随机输出一个实际注意力位置l_t-1，用于探索环境，其中t为当前输入隐藏状态的时刻，Actor eval网络的参数为

3.根据权利要求1所述基于DDPG-RAM的复杂光照条件下的织物缺陷检测方法，其特征在于：所述步骤3.4)具体过程如下：

3.4.1)随机初始化第一个注意力位置l₀；

3.4.2)根据第一个注意力位置l₀获得Glimpse特征；

Glimpse网络包含着Glimpse感知器，Glimpse感知器对步骤2)中图像增强后待处理的五大类织物缺陷图像x进行采样，围绕着第一个注意力位置l₀，获得以第一个注意力位置l₀为图像凝视区域中心的4个长度不同的正方形图像，然后使用最近邻插值法将它们统一变换为尺寸为32×32的一组图像，图像第一个注意力位置l₀的中间区域是较高分辨率的图像，从中间区域向外的更大区域是逐渐降低的低分辨率图像；

3.4.3)将时间序列Core网络的第一个隐藏状态h₀初始化为0；

3.4.4)将Core网络的隐藏状态h₀和Glimpse网络的特征g₀作为Core网络输入，输出得到新隐藏状态h₁；

Core网络实际上就是一个RNN网络，时序地将上一个时间序列Core网络输出的隐藏状态h₀和当前通过Glimpse网络输出的特征g₀这两个特征结合起来，作为Core网络的输入，输出得到RNN网络中一个新的隐藏状态h₁；

3.4.8)循环步骤3.4.2)至步骤3.4.7)，重复进行T次；

3.4.10)对Actor网络和Critic网络进行训练

3.4.11)根据最后的分类结果a_T和图像的label对Action网络、Core网络、Glimpse网络的参数进行更新；

3.4.12)对步骤3.4)重复训练M次，得到最终的网络参数。

4.根据权利要求3所述基于DDPG-RAM算法的复杂光照条件下的织物缺陷检测方法，其特征在于：所述步骤3.4.10)具体过程如下：

3.4.10.1)随机从经验池取batch组状态转移信息对Actor eval网络和Critic eval网络进行训练，实现参数的更新；

var＝max{var×0.99995,0.1}；

3.4.10.3)每间隔J回合，Actor eval网络和Critic eval的网络参数赋值给Actortarget和Critic target网络进行更新，赋值方式如下式：θ^μ'＝tau×θ^μ+(1-tau)×θ^μ'，θ^Q'＝tau×θ^Q+(1-tau)×θ^Q'也就是说步骤5.3)中的此时输入的隐藏状态时刻为t'，即经验池被存满后每执行一次步骤3.4.7)的时刻。