CN111553952A

CN111553952A - 基于生存对抗的工业机器人视觉图像识别方法及系统

Info

Publication number: CN111553952A
Application number: CN202010381171.9A
Authority: CN
Inventors: 李玉苹; 蒋应元; 聂祥丽; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-18

Abstract

本发明属于机器人视觉图像处理领域，具体涉及了一种基于生存对抗的工业机器人视觉图像识别方法、系统、装置，旨在解决现有技术无法针对不同类型的干扰以及对于无干扰图像进行处理导致效率低的问题。本发明包括：对获取的工业机器人视觉图像以及各工件对应的模板图像进行模板匹配，能够匹配的直接输出匹配后的识别结果，不能匹配的通过分类网络依据干扰类型进行分类；调用干扰类型对应的图像还原子网络进行生成还原图像；将还原图像与各目标图像进行模板匹配，输出匹配后的识别结果。本发明针对不同类型的干扰训练对应的图像还原子网络，可生成更加清晰的无干扰图像，对于清晰的图像则直接进行图像匹配，图像识别精度高、效率高、占用系统资源少。

Description

基于生存对抗的工业机器人视觉图像识别方法及系统

技术领域

本发明属于机器人视觉图像处理领域，具体涉及了一种基于生存对抗的工业机器人视觉图像识别方法、系统、装置。

背景技术

机器人飞速发展的今天，工业机器人在制造业中的应用也越来越广泛。如汽车及汽车零部件制造、机械加工、电子电气生产、橡胶及塑料制造、食品加工、木材与家具制造等领域的自动化生产过程中，机器人作业发挥着重要作用。机器人对工业零件的抓取是制造业的自动化生产中一项常见的任务。目前，视觉引导与定位技术成为工业机器人获得作业周围环境信息的主要手段。

工业环境中环境光的变化以及各种噪声，例如高斯噪声、模糊等，大大降低了工件识别的精度，因此，需要对各种复杂的环境下获得的机器人视觉图像进行预处理。

现有的工业机器人视觉图像预处理方法不能处理各种不同类型干扰的图像，并且对于清晰无干扰的图像也需要进行预处理，这大大降低了图像识别和定位的效率，占用系统资源多。

发明内容

为了解决现有技术中的上述问题，即现有技术无法针对不同类型的干扰以及对于无干扰图像进行处理导致效率低的问题，本发明提供了一种基于生存对抗的工业机器人视觉图像识别方法，该视觉图像识别方法包括：

步骤S10，获取工业机器人视觉图像作为输入图像，获取各工件对应的清晰图像作为各模板图像；

步骤S20，通过模板匹配方法进行所述输入图像与各模板图像的匹配，若能够匹配，则与所述输入图像匹配的模板图像对应的工件类型为所述输入图像对应的识别结果；否则，跳转步骤S30；

步骤S30，获取所述输入图像对应的干扰类型，并通过图像还原网络获取所述输入图像对应的还原图像；

步骤S40，将所述还原图像替换其对应的输入图像并跳转步骤S20；

其中，所述图像还原网络包括各类型干扰对应的图像还原子网络；所述图像还原子网络基于生成对抗网络构建，并分别以不同类型的干扰图像及其对应的清晰图像作为训练样本对集进行训练。

在一些优选的实施例中，步骤S20中“通过模板匹配方法进行所述输入图像与各模板图像的匹配”，其方法为：

步骤S21，通过模板匹配方法分别计算所述输入图像与各模板图像中每一个模板图像的归一化互相关值；

步骤S22，若所述归一化互相关值中的最大值大于设定第一阈值，则所述最大值对应的模板图像与所述输入图像匹配。

在一些优选的实施例中，步骤S21中“计算所述输入图像与各模板图像中每一个模板图像的归一化互相关值”，其方法为：

其中，

N＝xy，

分别代表输入图像、模板图像窗口的平均灰度值，Image1、Image2分别代表输入图像、模板图像中当前像素点(x，y)的灰度值。

在一些优选的实施例中，步骤S20之前还设置有输入图像匹配效率提升的步骤，其方法为：

将所述输入图像构建为高斯金字塔；所述高斯金字塔中分辨率较低的图像用于搜索目标对象，实现快速匹配；所述高斯金字塔中分辨率较高的图像用于搜索深度细节，实现精细匹配。

在一些优选的实施例中，所述图像还原网络中任意一个干扰类型对应的图像还原子网络，其训练方法为：

步骤B10，获取当前干扰类型对应的带干扰图像及对应的清晰图像作为训练样本对集；基于生成对抗网络构建图像还原子网络；

步骤B20，随机选取所述训练样本对集中一个训练样本对，并将该训练样本对中的带干扰图像生成样本还原图像；

步骤B30，计算所述样本还原图像与对应的清晰图像之间的总损失函数值；

步骤B40，若所述总损失函数值大于设定第二阈值，则更新所述图像还原子网络的参数，跳转步骤B20；

步骤B50，重复执行步骤B20-步骤B40直至达到预设的训练次数，获得当前干扰类型对应的图像还原子网络。

在一些优选的实施例中，所述总损失函数为：

L_all(G，D_z，F，D_x)＝L_GAN(G，D_z)+L_GAN(F，D_x)+αL_cyc(G，F)+βL_identity(G，D)

其中，L_all代表总损失函数，L_GAN代表对抗损失函数，L_cyc代表周期一致性损失函数，L_identity代表同一性损失函数，G、F分别代表网络正向生成器、反向生成器，D_z、D_x分别代表正向判别器、反向鉴别器，α、β分别为平衡周期一致性损失、同一性损失的权重值。

在一些优选的实施例中，所述对抗损失函数为：

其中，z～P_z表示z是训练样本对集里面的真实样本，x～P_x表示x是来自于图像还原子网络中生成器生成的样本；

代表样本z被判别器判定为真实样本的概率的数学期望、

分别代表样本x被判别器判定为真实样本的概率的数学期望；D_z用来区分生成器生成的图像G(x)和来自于训练样本对集Z中的真实图像，D_z(z)代表判定的图像是真实样本，D_z(G(x))代表判定的图像是生成器G生成的样本。

在一些优选的实施例中，所述周期一致性损失函数为：

其中，F(z)代表将B域的图像转换到A域的反向生成器，F(G(x))代表将A域的图像转换到B域后再从B域转换回A域，G(F(z))代表将图像从B域转换到A域后再从A域转换回B域，‖*‖₁代表L1损失，A域、B域分别为网络对抗训练过程中两个真实数据集域。

在一些优选的实施例中，所述同一性损失函数为：

其中，F(z)代表将B域的图像转换到A域的反向生成器，‖*‖₁代表L1损失，A域、B域分别为网络对抗训练过程中两个真实数据集域。

本发明的另一方面，提出了一种基于生存对抗的工业机器人视觉图像识别系统，该视觉图像识别系统包括输入模块、匹配模块、分类模块、图像还原模块、输出模块；

所述输入模块，配置为获取工业机器人视觉图像作为输入图像，获取各工件对应的清晰图像作为各模板图像，并将获取的图像输入至所述匹配模块；

所述匹配模块，配置为通过模板匹配方法进行所述输入图像与各模板图像的匹配，若能够匹配，则与所述输入图像匹配的模板图像对应的工件类型为所述输入图像对应的识别结果，将所述识别结果发送至所述输出模块；否则，跳转所述分类模块；

所述分类模块，配置为获取所述输入图像的干扰类型，并跳转至所述图像还原模块；

所述图像还原模块，配置为依据所述分类模块获取的所述输入图像的干扰类型调用对应的图像还原子网络，生成还原图像，以所述还原图像替代输入图像并跳转所述匹配模块；

所述输出模块，配置为输出获取的输入图像对应的识别结果。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于生存对抗的工业机器人视觉图像识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于生存对抗的工业机器人视觉图像识别方法。

本发明的有益效果：

(1)本发明基于生存对抗的工业机器人视觉图像识别方法，提出了一种新的基于生成对抗网络的工业机器人视觉图像预处理的方法，可对图像存在多种干扰时进行图像复原，首先对图像的干扰类型进行了分类，根据不同的干扰类型的图像运用不同的模型进行复原，可生成更加清晰的无干扰图像，图像识别精度高、效率高。

(2)本发明提出的基于生成对抗的图像复原方法，在训练时不需要一一对应的图像数据，克服了训练样本难获取，标注费时费力的问题。

(3)本发明对于无干扰的清晰图像，直接进行模板匹配获取识别结果，避免了对于清晰图像也进行处理，提高了识别效率，减少了系统资源的占用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于生存对抗的工业机器人视觉图像识别方法的流程示意图；

图2是本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的图像干扰类型分类示意图；

图3是本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的图像还原网络结构示意图；

图4是本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的干扰图像及其对应的还原图像；

图5是本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的系统框架图；

图6是本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的系统实物图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于生存对抗的工业机器人视觉图像识别方法，本方法首先基于深度卷积神经网络对图像干扰类型进行了分类，随后调用训练好的生成对抗网络模型对这些干扰进行了去除，本发明方法所采用的分类网络和干扰去除网络均为深层的卷积网络架构，其中干扰去除网络借鉴了生成对抗学习的思想，通过引入一个鉴别网络作为生成器网络结果的评价器来引导干扰去除网络的训练。与现有的方法相比，本发明提出的方法能应对各种干扰并有较强的鲁棒性，取得了较好的图像预处理效果。同时对于清晰的没有干扰的图像(即图片能够准确识别)采用特征匹配的快速通路进行匹配，提高图像识别与定位的效率，减少系统资源占用。

本发明的一种基于生存对抗的工业机器人视觉图像识别方法，该视觉图像识别方法包括：

为了更清晰地对本发明基于生存对抗的工业机器人视觉图像识别方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于生存对抗的工业机器人视觉图像识别方法，包括步骤S10-步骤S40，各步骤详细描述如下：

步骤S10，获取工业机器人视觉图像作为输入图像，获取各工件对应的清晰图像作为各模板图像。

步骤S20，通过模板匹配方法进行所述输入图像与各模板图像的匹配，若能够匹配，则与所述输入图像匹配的模板图像对应的工件类型为所述输入图像对应的识别结果；否则，跳转步骤S30。

本发明以不同的工件的清晰图像作为模板图像，分别根据不同模板在输入图像中寻找相应的对象。模板匹配就是按照一定的相似性规则，计算模板与输入图像的相似性程度的过程，这个过程称为归一化互相关(NCC，Normalized Cross Correlation)。NCC是一种基于统计学的知识来计算两组样本数据相关性的方法，其取值范围为[-1,1]之间，而对图像来说，每个像素点都可以视为一个RGB数值，整幅图像可以看成是一个像素样本数据的集合，如果它有一个子集与另外一个样本数据相互匹配的值越接近1，表示其相关性越高，如果匹配值是-1则表示完全不相关。要实现图像基于模板匹配识别算法，其中第一步就是要归一化数据。

步骤S21，通过模板匹配方法分别计算所述输入图像与各模板图像中每一个模板图像的归一化互相关值，如式(1)所示：

其中，σ₁、σ₂、N的计算方法分别如式(2)、式(3)、式(4)所示：

N＝xy 式(4)

其中，

在进行输入图像与模板图像的归一化互相关计算之前，还可以通过图像金字塔的方法来提高图像匹配及检测效率。图像金字塔是一种以多个分辨率来解释图像的信息但概念简单的结构。图像的金字塔是来源于同一张原始图的一系列以金字塔形状排列的分辨率逐步降低的图像集合。这些图片是通过向下采样获得，通过设置中值条件来停止采样。金字塔的层级越高，图像越小，分辨率越低。利用这些分辨率较低的图像可以首先搜索目标对象，产生搜索的可能起始位置，实现快速匹配。分辨率较大的图像可以搜索更深的细节，实现精细匹配。高斯滤波器是图像金字塔中常用的滤波方法之一。

高斯金字塔构建过程为：先将原图像扩大一倍之后作为高斯金字塔的第1组第1层，将第1组第1层图像经高斯卷积(即高斯平滑或称高斯滤波)之后作为第1组金字塔的第2层。

高斯卷积函数如式(5)所示：

其中，x、y分别为图像x、y方向的像素坐标，t为x的方差。

将第1组第1层图像经高斯卷积(即高斯平滑或称高斯滤波)之后作为第1组金字塔的第2层，由高斯卷积函数和原图像进行卷积获得，如式(6)所示：

L(x，y；t)＝g(x，y；t)*f(x，y) 式(6)

其中，g(x，y；t)代表高斯卷积函数，f(x，y)代表原图像。

步骤S30，获取所述输入图像对应的干扰类型，并通过图像还原网络获取所述输入图像对应的还原图像。

图像还原网络包括各类型干扰对应的图像还原子网络；所述图像还原子网络基于生成对抗网络构建，并分别以不同类型的干扰图像及其对应的清晰图像作为训练样本对集进行训练。

在实际运行阶段，首先运用卷积神经网络对拍摄的不同类型的干扰图片进行分类，这里采用的卷积神经网络是一个七层的结构，包括：3层卷积层、3层全连接层和一个分类层。如图2所示，为本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的图像干扰类型分类示意图，卷积层通过卷积+激活RELU+池化层实现卷积，全连接层通过dropout层减少过拟合和欠拟合的程度，右侧的图像从上到下依次为模糊干扰图像、高斯干扰图像、低光干扰图像、高光干扰图像。

对于任意一种干扰类型的图像，通过对应的图像还原子网络生成还原图像。如图3所示，为本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的图像还原网络结构示意图，网络训练过程为：

步骤B10，获取当前干扰类型对应的带干扰图像及对应的清晰图像作为训练样本对集；基于生成对抗网络构建图像还原子网络。

步骤B20，随机选取所述训练样本对集中一个训练样本对，并将该训练样本对中的带干扰图像生成样本还原图像。

步骤B30，计算所述样本还原图像与对应的清晰图像之间的总损失函数值。

步骤B40，若所述总损失函数值大于设定第二阈值，则更新所述图像还原子网络的参数，跳转步骤B20。

本发明采用的生成对抗网络借鉴了cyclegan网络，cyclegan网络的目标是在域X和域Z之间学习映射函数，训练样本

以及

其数据分布分别为x～p_data(x)、z～p_data(z)。网络学习到的映射函数应该是循环一致的:对于域X中的每一张图像x,图像的循环转换都能将x还原成原始图像，例如：x→G(x)→F(G(x))≈x(其中G(x)对应正向生成器的输出，F(x)对应相反方向生成器的输出)；同样，对于域Z中的每一张图像z，图像的循环转换都能将y还原成原始图像，例如：z→F(y)→G(F(z))≈z。

网络的总损失函数由3部分组成：对抗损失、周期一致性损失、同一性损失，总损失函数如式(7)所示：

L_all(G，D_z，F，D_x)＝L_GAN(G，D_z)+L_GAN(F，D_x)+αL_cyc(G，F)+βL_identity(G，F) 式(7)

因为生成对抗网络包括两部分，一个是生成网络G(Generator)，另外一个是判别网络D(Discriminator)。它们的功能分别是：生成网络G负责生成图片，并将生成的图片记为G(x)；判别网络D负责判别一张图片是真实的图片还是由G生成的图片，其输入是一张图片x，输出是0，1值，0代表图片是由G生成的，1代表是真实图片。在训练过程中，生成网路G的目标是尽量生成真实的图片去欺骗判别网络D。而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样G和D就构成了一个动态的博弈过程，其对抗损失函数如式(8)所示：

代表样本z被判别器判定为真实样本的概率的数学期望、

周期一致性损失能够使生成的图像复原到原始图像，从而保证生成的图像具有源域的一些基本特征。x→G(x)→F(G(x))～x，z→F(z)→G(F(z))～z，周期一致性损失函数如式(9)所示：

对于工件的干扰，如果其位置和方向相同，那么它们特征模型的中间层必须是相同的向量。利用Taigman等人的无监督跨域图像生成技术，当目标域的真实样本作为输入提供给生成器时，将生成器正则化为接近于一个恒等映射，即输入输出不发生改变。同一性损失函数如式(10)所示：

在生成器网络cyclegan中，特征模型包含9个残差模块，如式(11)所示：

X_l＝H_l(X_l-1)+X_l-1 式(11)

其中，X_l-1和X_l分别对应1个网络层的输入和输出的信息，H_l对应l层残差网络层的激活函数。该网络内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

本发明一个实施例中，实验数据集包含503幅各种类型干扰图像和185幅干净的图像，尺寸均为256×256。α和β分别设置为10和5。使用batch大小为1的Adam solver来进行优化，Adam solver是一种深度学习算法，是可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。在前850个从零开始的网络训练循环中，学习率设置为0.0002；在接下来的750个循环中对学习率进行线性衰减直到为零。

步骤S40，将所述还原图像替换其对应的输入图像并跳转步骤S20。

本发明一个实施例中，采用基于Halcon的工件的形状进行模板匹配，在模型创建过程中，需要应用工件模板的模型，其参数如表1所示：

表1

如图4所示，为本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的干扰图像及其对应的还原图像，第一行为低光干扰图像、高光干扰图像、高斯干扰图像、模糊干扰图像，第二行为第一行图像一一对应的还原图像，可以看出，本发明生成的还原图像清晰度高、还原效果好。

如图5和图6所示，分别为本发明基于生存对抗的工业机器人视觉图像识别方法一种实施例的系统框架图以及系统实物图，包括零件放置台1、机械臂2、摄像机3、机械臂抓取零件部位4、状况显示屏5、工业零件6。

本发明第二实施例的基于生存对抗的工业机器人视觉图像识别系统，该视觉图像识别系统包括输入模块、匹配模块、分类模块、图像还原模块、输出模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于生存对抗的工业机器人视觉图像识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于生存对抗的工业机器人视觉图像识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于生存对抗的工业机器人视觉图像识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。