CN110930379A - 基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法 - Google Patents
基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法 Download PDFInfo
- Publication number
- CN110930379A CN110930379A CN201911129224.1A CN201911129224A CN110930379A CN 110930379 A CN110930379 A CN 110930379A CN 201911129224 A CN201911129224 A CN 201911129224A CN 110930379 A CN110930379 A CN 110930379A
- Authority
- CN
- China
- Prior art keywords
- network
- actor
- ddpg
- eval
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30124—Fabrics; Textile; Paper
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于DDPG‑RAM算法的复杂光照条件下织物缺陷检测方法,采集织物缺陷图像作为训练样本‑对织物缺陷图像进行图像增强‑利用图像增强后的训练样本对DDPG‑RAM模型进行训练,确定训练后的网络参数‑利用训练后的DDPG‑RAM模型对织物缺陷图像进行缺陷检测。实现了织物缺陷的自动检测,且运行速度快,具有更高的准确性,效果更好。
Description
技术领域
本发明涉及织物缺陷检测技术领域,具体涉及一种基于 DDPG-RAM算法的复杂光照条件下织物缺陷检测方法。
背景技术
强化学习自从上世纪提出以来就广受关注,作为机器学习的一大分支,相较于监督学习和非监督学习,强化学习是在不断与环境的交互中学习状态和行为之间的映射关系从而使得数值回报达到最大化,在缺陷检测方面,强化学习针对不同缺陷种类和不同缺陷的表现形式都有着都有着学习能力,目前应用最为广泛的模型是基于 Q-learning、DPG和DDPG模型算法,DDPG算法是利用DQN扩展 Q-learning学习算法对DPG改造后得到的,针对前两种模型只能离散输出的问题,DDPG应用一种基于Actor-Critic框架的算法,解决了连续空间上的深度强化学习问题,相较于之前的深度学习算法在环境适应力上都有着显著的优势,另一方面,对图像的特征识别,循环注意力模型(RAM)通过模仿人眼的注意力机制充分的结合CNN 和RNN在缺陷识别上的优势,通常处理大规模图像特征识别。
针对织物缺陷检测的问题,传统方法是基于CNN模型构建多层网络针对织物特定的缺陷进行识别和分类的,此类模型较为复杂且当输入图像数据量较大时就有着明显的劣势了,而且当缺陷种类较多时传统模型不能自动识别。
发明内容
本发明的目的就是针对上述技术的不足,提供一种能自动检测基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法。
为实现上述目的,本发明所设计的基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法如下:
1)采集织物缺陷图像作为训练样本;
2)对步骤1)中织物缺陷图像进行预处理,选用图像增强算法对复杂光照条件下的织物图像进行图像增强;
3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练,确定训练后的网络参数
3.1)构建DDPG-RAM模型,并随机初始化网络参数;
构建DDPG-RAM模型,结合了深度确定性策略梯度(DDPG) 算法和循环注意力模型(RAM),该DDPG-RAM模型包括Glimpse 网络,Core网络,Action网络,Actor网络和Critic网络五个部分, Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络,从而形成Actor eval网络、Actor target 网络、Critic eval网络和Critic target网络共四个网络,其中,Actor 网络为行为网络、Critic网络为评价网络、eval网络为估计网络和 target网络为目标网络,Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target 网络为为评价目标网络;然后对该RAM模型进行随机初始化,即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、 Critic eval网络的参数μ(h|θμ)、 Q(h,l|θQ),以及将Actor eval网络和Critic eval网络的值赋予与之对应的target网络,即θμ→θμ',θQ→θQ';
3.2)经验池初始化为0,大小为max_size×(2×ht_dim+2+1);
设经验池为i行、j列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中i为样本容量,j为每个样本储存的信息数量,经验池大小为j=max_size×(2×ht_dim+2+1),其中ht_dim为状态的维度;公式中的数字2为动作的维度,公式中的数字1为用于在经验池中存储奖励信息的预留空间;
3.3)构造一个随机正态分布N对注意力位置施加干扰
3.4)对DDPG-RAM模型进行训练
4)利用训练后的DDPG-RAM模型对织物缺陷图像进行缺陷检测
进一步地,所述步骤3.3)中,初始化一个方差为var2的随机正态分布N,对注意力位置施加干扰,用于探索环境;
将当前隐藏状态ht作为Actor eval网络的输入,输出得到一个估计注意力位置lt',可以初始化一个方差为var2,均值为lt'的随机正态分布N,随机正态分布N对这个估计注意力位置lt'-1施加了干扰,用于探索环境,从中随机输出一个实际注意力位置lt-1,用于探索环境,其中t为当前输入隐藏状态的时刻,Actor eval网络的参数为θt Q。
进一步地,所述步骤3.4)具体过程如下:
3.4.1)随机初始化第一个注意力位置l0;
3.4.2)根据第一个注意力位置l0获得Glimpse特征;
Glimpse网络包含着Glimpse感知器,Glimpse感知器对步骤 2)中图像增强后待处理的五大类织物缺陷图像x进行采样,围绕着第一个注意力位置l0,获得以第一个注意力位置l0为图像凝视区域中心的4个长度不同的正方形图像,然后使用最近邻插值法将它们统一变换为尺寸为32×32的一组图像,图像第一个注意力位置l0的中间区域是较高分辨率的图像,从中间区域向外的更大区域是逐渐降低的低分辨率图像;
然后Glimpse感知器根据所获得的该组图像以及第一个注意力位置l0进行特征提取,通过全连接层连接,得到Glimpse网络输出的特征g0;
3.4.3)将时间序列Core网络的第一个隐藏状态h0初始化为0;
3.4.4)将Core网络的隐藏状态h0和Glimpse网络的特征g0作为 Core网络输入,输出得到新隐藏状态h1;
Core网络实际上就是一个RNN网络,时序地将上一个时间序列 Core网络输出的隐藏状态h0和当前通过Glimpse网络输出的特征g0这两个特征结合起来,作为Core网络的输入,输出得到RNN网络中一个新的隐藏状态h1;
3.4.5)将Core网络输出的新隐藏状态h1作为Action网络的输入,输出得到预测分类结果a1,再进一步根据预测的分类结果a1和图像的实际标签label得到奖励函数r1,其中若分类结果a的正确,则奖励函数为r=1,否则奖励函数为r=0;
3.4.6)将Core网络输出的新隐藏状态h1作为Actor eval网络的输入,输出得到下一个注意力位置l1,lt~N(μ(ht,ft g|θμ),var);
3.4.7)在经验池中储存该组状态转移信息:ht-1、lt-1、rt、ht;
将上一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht存储在经验池中,并将一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht统称为状态转移信息;
3.4.8)循环步骤3.4.2)至步骤3.4.7),重复进行T次;
3.4.9)在运行过程中,当经验池储存满时,最新的状态转移信息会替代老的状态转移信息;
后续新的隐藏状态ht+1会替代老的隐藏状态ht,重复步骤3.4.7),将得到的状态转移信息存储在经验池中,直至经验池被存满,存满后每执行一次步骤3.4.7)便跳转执行一次步骤3.4.10);
3.4.10)对Actor网络和Critic网络进行训练
3.4.11)根据最后的分类结果aT和图像的label对Action网络、 Core网络、Glimpse网络的参数进行更新;
3.4.12)对步骤3.4)重复训练M次,得到最终的网络参数。
进一步地,所述步骤3.4.10)具体过程如下:
3.4.10.1)随机从经验池取batch组状态转移信息对Actor eval 网络和Criticeval网络进行训练,实现参数的更新;
3.4.10.2)分为I个回合,Agent目标网络对随机取的batch组状态转移信息每学习一次,输出的干扰var值更新为如公式:
var=max{var×0.99995,0.1};
3.4.10.3)每间隔J回合,Actor eval网络和Critic eval的网络参数赋值给Actortarget和Critic target网络进行更新,赋值方式如下式:θμ'=tau×θμ+(1-tau)×θμ',θQ'=tau×θQ+(1-tau)×θQ'也就是说步骤5.3)中的此时输入的隐藏状态时刻为t',即经验池被存满后每执行一次步骤 3.4.7)的时刻。
与现有技术相比,本发明具有以下优点:本发明基于DDPG-RAM 算法的复杂光照条件下织物缺陷检测方法,实现了织物缺陷的自动检测,且运行速度快,具有更高的准确性,效果更好。
附图说明
图1是本发明DDPG-RAM算法的模型示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法,具体方法如下:
1)采集破洞、纱疵、褶皱、异物和油渍五大类织物缺陷图像作为训练样本;
2)对步骤1)中五大类织物缺陷图像进行预处理,选用图像增强(Retinex)算法对复杂光照条件下的织物图像进行图像增强;
图像增强是对训练样本图片局部或者整体进行处理,削弱或去除图像中无用的信息,突出有用的信息,以满足要求。多尺度Retinex 算法具有较好的鲁棒性,采用多尺度Retinex算法对复杂光照条件下步骤1)中的五大类织物缺陷图像进行预处理,可以获得合适的局部细节,也能够在一定程度上抑制光照变化对处理图像造成影响,对织物缺陷图像进行了图像增强;
3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练,确定训练后的网络参数
3.1)构建DDPG-RAM模型,并随机初始化网络参数;
构建DDPG-RAM模型,如图1所示,该DDPG-RAM模型包括Glimpse网络,Core网络,Action网络,Actor网络和Critic网络五个部分,Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络,从而形成Actor eval网络、Actortarget网络、Critic eval网络和Critic target网络共四个网络,其中, Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络,Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target网络为为评价目标网络;然后对该RAM模型进行随机初始化,即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、Critic eval网络的参数μ(h|θμ)、 Q(h,l|θQ),以及将Actor eval网络和Critic eval网络的值赋予与之对应的target网络,即θμ→θμ',θQ→θQ';
3.2)经验池初始化为0,大小为max_size×(2×ht_dim+2+1);
设经验池为i行、j列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中i为样本容量,j为每个样本储存的信息数量,经验池大小为j=max_size×(2×ht_dim+2+1),其中ht_dim为状态的维度;公式中的数字2为动作的维度,公式中的数字1为用于在经验池中存储奖励信息的预留空间;
3.3)构造一个随机正态分布N对注意力位置施加干扰
初始化一个方差为var2(取var=0.22)的随机正态分布N,对注意力位置施加干扰,用于探索环境;
将当前隐藏状态ht作为Actor eval网络的输入,输出得到一个估计注意力位置lt',可以初始化一个方差为var2,均值为l′t的随机正态分布N,随机正态分布N对这个估计注意力位置l′t-1施加了干扰,用于探索环境,从中随机输出一个实际注意力位置lt-1,用于探索环境,其中t为当前输入隐藏状态的时刻,Actor eval网络的参数为
3.4)对DDPG-RAM模型进行训练
3.4.1)随机初始化第一个注意力位置l0;
3.4.2)根据第一个注意力位置l0获得Glimpse特征;
Glimpse网络包含着Glimpse感知器,Glimpse感知器对步骤 2)中图像增强后待处理的五大类织物缺陷图像x进行采样,围绕着第一个注意力位置l0,获得以第一个注意力位置l0为图像凝视区域中心的4个长度不同的正方形图像,然后使用最近邻插值法将它们统一变换为尺寸为32×32的一组图像,图像第一个注意力位置l0的中间区域是较高分辨率的图像,从中间区域向外的更大区域是逐渐降低的低分辨率图像;
进一步地,Glimpse感知器根据所获得的该组图像以及第一个注意力位置l0进行特征提取,通过全连接层连接,得到Glimpse网络输出的特征g0;
3.4.3)将时间序列Core网络的第一个隐藏状态h0初始化为0;
3.4.4)将Core网络的隐藏状态h0和Glimpse网络的特征g0作为 Core网络输入,输出得到新隐藏状态h1;
Core网络实际上就是一个RNN网络,时序地将上一个时间序列 Core网络输出的隐藏状态h0和当前通过Glimpse网络输出的特征g0这两个特征结合起来,作为Core网络的输入,输出得到RNN网络中一个新的隐藏状态h1;
3.4.5)将Core网络输出的新隐藏状态h1作为Action网络的输入,输出得到预测分类结果a1,再进一步根据预测的分类结果a1和图像的实际标签label得到奖励函数r1,其中若分类结果a的正确,则奖励函数为r=1,否则奖励函数为r=0;
3.4.6)将Core网络输出的新隐藏状态h1作为Actor eval网络的输入,输出得到下一个注意力位置l1,lt~N(μ(ht,ft g|θμ),var);
3.4.7)在经验池中储存该组状态转移信息:ht-1、lt-1、rt、ht;
将上一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht存储在经验池中,并将一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht统称为状态转移信息;
3.4.8)循环步骤3.4.2)至步骤3.4.7),重复进行T次;
3.4.9)在运行过程中,当经验池储存满时,最新的状态转移信息会替代老的状态转移信息;
后续新的隐藏状态ht+1会替代老的隐藏状态ht,重复步骤3.4.7),将得到的状态转移信息存储在经验池中,直至经验池被存满,存满后每执行一次步骤3.4.7)便跳转执行一次步骤3.4.10);
3.4.10)对Actor网络和Critic网络进行训练
3.4.10.1)随机从经验池取batch组状态转移信息对Actor eval 网络和Criticeval网络进行训练,实现参数的更新;
3.4.10.2)分为I个回合,Agent目标网络对随机取的batch组状态转移信息每学习一次,输出的干扰var值更新为如公式:
var=max{var×0.99995,0.1};
3.4.10.3)每间隔J回合,Actor eval网络和Critic eval的网络参数赋值给Actortarget和Critic target网络进行更新,赋值方式如下式:θμ'=tau×θμ+(1-tau)×θμ',θQ'=tau×θQ+(1-tau)×θQ'也就是说步骤5.3)中的此时输入的隐藏状态时刻为t',即经验池被存满后每执行一次步骤 3.4.7)的时刻;
3.4.11)根据最后的分类结果aT和图像的label对Action网络、 Core网络、Glimpse网络的参数进行更新;
3.4.12)对步骤3.4)重复训练M次,得到最终的网络参数;
4)可利用训练后的DDPG-RAM算法对复杂光照条件下织物缺陷图像进行缺陷检测。
实验数据:
实验数据是从TILDA数据库中图像按照排除缺陷在边缘图像—旋转、翻转操作—改变图像尺寸—数据扩张的顺序筛选,最终选取了破洞、纱疵、褶皱、异物和油渍五类,数量尺寸12万张左右,尺寸大小从768×512变换为128×128的复杂光照下缺陷织物图像作为训练样本;实验中参数:DDPG-RAM模型训练次数M为60000次, T为7次,batch为256组,经验池大小j为3500,方差var为0.22,每隔回合J为10,实验结果如下表:
根据表1中几个不同模型进行训练对比实验,通过将本文提出的DDPG-RAM算法同卷积神经网络(CNN)以及RAM模型相比,实验结果表明CNN网络在光照变化情况下对织物缺陷图像分类检测能力较差,而RAM对光照变化的干扰有一定的鲁棒性,实验效果比较好,DDPG-RAM算法在复杂光照条件下的织物缺陷检测运行速度快,具有更高的准确性,效果会更好。
Claims (4)
1.一种基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法,其特征在于:所述检测方法如下:
1)采集织物缺陷图像作为训练样本;
2)对步骤1)中织物缺陷图像进行预处理,选用图像增强算法对复杂光照条件下的织物图像进行图像增强;
3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练,确定训练后的网络参数
3.1)构建DDPG-RAM模型,并随机初始化网络参数;
构建DDPG-RAM模型,结合了深度确定性策略梯度(DDPG)算法和循环注意力模型(RAM),该DDPG-RAM模型包括Glimpse网络,Core网络,Action网络,Actor网络和Critic网络五个部分,Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络,从而形成Actor eval网络、Actor target网络、Critic eval网络和Critictarget网络共四个网络,其中,Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络,Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target网络为为评价目标网络;然后对该RAM模型进行随机初始化,即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、Critic eval网络的参数μ(h|θμ)、Q(h,l|θQ),以及将Actor eval网络和Critic eval网络的值赋予与之对应的target网络,即θμ→θμ',θQ→θQ';
3.2)经验池初始化为0,大小为max_size×(2×ht_dim+2+1);
设经验池为i行、j列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中i为样本容量,j为每个样本储存的信息数量,经验池大小为j=max_size×(2×ht_dim+2+1),其中ht_dim为状态的维度;公式中的数字2为动作的维度,公式中的数字1为用于在经验池中存储奖励信息的预留空间;
3.3)构造一个随机正态分布N对注意力位置施加干扰
3.4)对DDPG-RAM模型进行训练
4)利用训练后的DDPG-RAM算法对复杂光照条件下织物缺陷图像进行缺陷检测。
3.根据权利要求1所述基于DDPG-RAM的复杂光照条件下的织物缺陷检测方法,其特征在于:所述步骤3.4)具体过程如下:
3.4.1)随机初始化第一个注意力位置l0;
3.4.2)根据第一个注意力位置l0获得Glimpse特征;
Glimpse网络包含着Glimpse感知器,Glimpse感知器对步骤2)中图像增强后待处理的五大类织物缺陷图像x进行采样,围绕着第一个注意力位置l0,获得以第一个注意力位置l0为图像凝视区域中心的4个长度不同的正方形图像,然后使用最近邻插值法将它们统一变换为尺寸为32×32的一组图像,图像第一个注意力位置l0的中间区域是较高分辨率的图像,从中间区域向外的更大区域是逐渐降低的低分辨率图像;
然后Glimpse感知器根据所获得的该组图像以及第一个注意力位置l0进行特征提取,通过全连接层连接,得到Glimpse网络输出的特征g0;
3.4.3)将时间序列Core网络的第一个隐藏状态h0初始化为0;
3.4.4)将Core网络的隐藏状态h0和Glimpse网络的特征g0作为Core网络输入,输出得到新隐藏状态h1;
Core网络实际上就是一个RNN网络,时序地将上一个时间序列Core网络输出的隐藏状态h0和当前通过Glimpse网络输出的特征g0这两个特征结合起来,作为Core网络的输入,输出得到RNN网络中一个新的隐藏状态h1;
3.4.5)将Core网络输出的新隐藏状态h1作为Action网络的输入,输出得到预测分类结果a1,再进一步根据预测的分类结果a1和图像的实际标签label得到奖励函数r1,其中若分类结果a的正确,则奖励函数为r=1,否则奖励函数为r=0;
3.4.6)将Core网络输出的新隐藏状态h1作为Actor eval网络的输入,输出得到下一个注意力位置l1,lt~N(μ(ht,ft g|θμ),var);
3.4.7)在经验池中储存该组状态转移信息:ht-1、lt-1、rt、ht;
将上一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht存储在经验池中,并将一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht统称为状态转移信息;
3.4.8)循环步骤3.4.2)至步骤3.4.7),重复进行T次;
3.4.9)在运行过程中,当经验池储存满时,最新的状态转移信息会替代老的状态转移信息;
后续新的隐藏状态ht+1会替代老的隐藏状态ht,重复步骤3.4.7),将得到的状态转移信息存储在经验池中,直至经验池被存满,存满后每执行一次步骤3.4.7)便跳转执行一次步骤3.4.10);
3.4.10)对Actor网络和Critic网络进行训练
3.4.11)根据最后的分类结果aT和图像的label对Action网络、Core网络、Glimpse网络的参数进行更新;
3.4.12)对步骤3.4)重复训练M次,得到最终的网络参数。
4.根据权利要求3所述基于DDPG-RAM算法的复杂光照条件下的织物缺陷检测方法,其特征在于:所述步骤3.4.10)具体过程如下:
3.4.10.1)随机从经验池取batch组状态转移信息对Actor eval网络和Critic eval网络进行训练,实现参数的更新;
3.4.10.2)分为I个回合,Agent目标网络对随机取的batch组状态转移信息每学习一次,输出的干扰var值更新为如公式:
var=max{var×0.99995,0.1};
3.4.10.3)每间隔J回合,Actor eval网络和Critic eval的网络参数赋值给Actortarget和Critic target网络进行更新,赋值方式如下式:θμ'=tau×θμ+(1-tau)×θμ',θQ'=tau×θQ+(1-tau)×θQ'也就是说步骤5.3)中的此时输入的隐藏状态时刻为t',即经验池被存满后每执行一次步骤3.4.7)的时刻。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911129224.1A CN110930379B (zh) | 2019-11-18 | 2019-11-18 | 基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911129224.1A CN110930379B (zh) | 2019-11-18 | 2019-11-18 | 基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110930379A true CN110930379A (zh) | 2020-03-27 |
CN110930379B CN110930379B (zh) | 2023-04-07 |
Family
ID=69854259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911129224.1A Active CN110930379B (zh) | 2019-11-18 | 2019-11-18 | 基于ddpg-ram算法的复杂光照条件下织物缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930379B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866427A (zh) * | 2010-07-06 | 2010-10-20 | 西安电子科技大学 | 织物瑕疵检测与分类方法 |
CN102879401A (zh) * | 2012-09-07 | 2013-01-16 | 西安工程大学 | 基于模式识别和图像处理的纺织品瑕疵自动检测及分类方法 |
CN107123107A (zh) * | 2017-03-24 | 2017-09-01 | 广东工业大学 | 基于神经网络深度学习的布匹缺陷检测方法 |
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN108898594A (zh) * | 2018-06-27 | 2018-11-27 | 湖北工业大学 | 一种均质面板缺陷的检测方法 |
CN109906132A (zh) * | 2016-09-15 | 2019-06-18 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
US20190275671A1 (en) * | 2019-05-28 | 2019-09-12 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
-
2019
- 2019-11-18 CN CN201911129224.1A patent/CN110930379B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866427A (zh) * | 2010-07-06 | 2010-10-20 | 西安电子科技大学 | 织物瑕疵检测与分类方法 |
CN102879401A (zh) * | 2012-09-07 | 2013-01-16 | 西安工程大学 | 基于模式识别和图像处理的纺织品瑕疵自动检测及分类方法 |
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN109906132A (zh) * | 2016-09-15 | 2019-06-18 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
CN107123107A (zh) * | 2017-03-24 | 2017-09-01 | 广东工业大学 | 基于神经网络深度学习的布匹缺陷检测方法 |
CN108898594A (zh) * | 2018-06-27 | 2018-11-27 | 湖北工业大学 | 一种均质面板缺陷的检测方法 |
US20190275671A1 (en) * | 2019-05-28 | 2019-09-12 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
Non-Patent Citations (3)
Title |
---|
SEJUNE CHEON等: "《Convolutional Neural Network for Wafer Surface Defect Classification and the Detection of Unknown Defect Class》", 《IEEE TRANSACTIONS ON SEMICONDUCTOR MANUFACTURING》 * |
刘建伟等: "《基于值函数和策略梯度的深度强化学习综述》", 《计算机学报》 * |
柯丰恺等: "《优化深度确定性策略梯度算法》", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110930379B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334936B (zh) | 基于迁移卷积神经网络的故障预测方法 | |
CN111368896B (zh) | 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法 | |
CN106940816B (zh) | 基于3d全卷积神经网络的ct图像肺结节检测系统 | |
CN105184312B (zh) | 一种基于深度学习的文字检测方法及装置 | |
KR102641116B1 (ko) | 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN105095862B (zh) | 一种基于深度卷积条件随机场的人体动作识别方法 | |
CN104281853B (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN108021947B (zh) | 一种基于视觉的分层极限学习机目标识别方法 | |
US20150325046A1 (en) | Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN111582397B (zh) | 一种基于注意力机制的cnn-rnn图像情感分析方法 | |
CN108921879A (zh) | 基于区域选择的CNN和Kalman滤波的运动目标跟踪方法及系统 | |
CN113272827A (zh) | 卷积神经网络中分类决策的验证 | |
CN109063719A (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN112950561B (zh) | 光纤端面缺陷检测方法、设备及存储介质 | |
CN113673482B (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
CN113537277A (zh) | 确定分类的解释 | |
CN116740384B (zh) | 洗地机的智能控制方法及系统 | |
CN114359631A (zh) | 基于编码-译码弱监督网络模型的目标分类与定位方法 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN115994900A (zh) | 基于迁移学习的无监督缺陷检测方法和系统、存储介质 | |
CN108416795A (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
CN111914949B (zh) | 基于强化学习的零样本学习模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |