CN116703895B

CN116703895B - 基于生成对抗网络的小样本3d视觉检测方法及其系统

Info

Publication number: CN116703895B
Application number: CN202310962574.6A
Authority: CN
Inventors: 丁丁; 王灿; 游小超; 付明磊; 张文安
Original assignee: Hangzhou Lingxi Robot Intelligent Technology Co ltd; Zhejiang University of Technology ZJUT
Current assignee: Hangzhou Lingxi Robot Intelligent Technology Co ltd; Zhejiang University of Technology ZJUT
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-21
Anticipated expiration: 2043-08-02
Also published as: CN116703895A

Abstract

本发明公开了一种基于生成对抗网络的小样本3D视觉检测方法及其系统，该方法为：通过张正友标定法进行相机标定；对相机采集的图像进行预处理；结合短时傅里叶变换与改进的辅助分类生成对抗网络对预处理后的图像进行外表检测；获得被检测工件的点云数据；根据所述被检测工件的点云数据估计工件的位姿。本发明相对于传统视觉检测算法，能够更平稳的处理信号，克服训练样本需求较大的缺陷，且具备更强的泛化性及稳定性。

Description

基于生成对抗网络的小样本3D视觉检测方法及其系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于生成对抗网络的小样本3D视觉检测方法及其系统。

背景技术

机器视觉是与工业应用结合最为紧密的人工智能技术，通过对图像的智能分析，使工业装备具备了基本的识别和分析能力。随着工业数字化、智能化转型逐渐加深入，智能制造的稳步推动，工业机器视觉逐渐形成规模化的产业，并伴随人工智能技术在工业领域落地逐渐深入到工业生成的各种场景中去，尤其是在工业分拣中，机器视觉扮演着重要的角色。

工业相机是机器视觉系统中的一个关键组件，全球工业正在快速向着智能制造转型，机器视觉应用的深度和广度不断提高，使得工业相机的需求量以及品质要求也在稳步提高。我国制造业尚处在机器换人的转换期的起步阶段，工业相机的需求量相对较小，但未来发展潜力巨大。

3D工业相机为工业分拣提供视觉信息，机械臂通过对应的视觉信息进行分拣。然而在实际工业检测应用中，工业相机虽然能采集到大量信息，但是所采集的数据大多是良品工件的信息，废品工件的信息较少，但却是最关键的信息，而传统视觉检测算法需要大量标注的有效信息，显然无法满足工业分拣中视觉检测的需求。

综上所述，为了克服现有3D视觉检测算法难以有效在工业分拣中应用的问题，发明一种具备强大生成能力、强大分辨能力的小样本3D视觉检测算法成为了本研究领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于生成对抗网络的小样本3D视觉检测方法及其系统。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供一种基于生成对抗网络的小样本3D视觉检测方法，该方法为：

通过张正友标定法进行相机标定；

对相机采集的图像进行预处理；

结合短时傅里叶变换与改进的辅助分类生成对抗网络对预处理后的图像进行外表检测；

获得被检测工件的点云数据；

根据所述被检测工件的点云数据估计工件的位姿。

上述方案中，所述通过张正友标定法进行相机标定，具体为：

获得相机坐标系下的点与相机成像平面之间的映射关系；

获得相机坐标系下的点与相机像素平面坐标系之间的转换关系；

获得相机坐标系下的点与世界坐标系之间的映射关系；

获得相机坐标系和机械臂基坐标系之间的映射关系。

上述方案中，所述对相机采集的图像进行预处理，具体为：

对相机采集的图像进行图像灰度处理，获得灰度图；

对所述灰度图进行图像二值化处理，获得黑白二值化图像；

确定黑白二值化图像中被测工件的轮廓。

上述方案中，所述结合短时傅里叶变换与改进的辅助分类生成对抗网络对预处理后的图像进行外表检测，具体为：

采集各种工件损伤的信号，通过短时傅里叶变换获得时频图像；

对所述时频图像进行归一化处理；

将来自先验分布的随机噪声输入辅助分类生成对抗网络的生成器，生成假样本；

将所述假样本和真实样本/>分别作为判别器的输入，获得判别分值；

通过所述辅助分类生成对抗网络的损失函数对判别分值进行判别样本真假；

当输入为真实样本时，判别器最大化判别概率得分/>；当输入来自生成样本时，判别器最小化概率得分/>，即最大化/>，两者相加组成判别器的目标函数，GAN通过反向传播优化判别器的参数/>；

通过优化生成器的参数，最终/>生成的样本的概率分布/>能收敛到真实样本的概率分布/> (即/>)，达到纳什平衡。

上述方案中，所述获得被检测工件的点云数据，具体为：

通过被检测工件在彩色图像上的像素点位置将其对应到深度图像的同样位置上，并进行深度图像的裁剪，获取到被检测工件的深度图像信息；

对所述被检测工件的深度图像信息按照X、Y、Z划分点云数据获得每个子集的点数量接近设定的阈值t的八个点集；

对所述八个点集进行预处理，获得最大程度简化后的八个点集。

上述方案中，所述根据所述被检测工件的点云数据估计工件的位姿，具体为：

通过计算投影方差确定点云数据在主轴方向上的方差；

构建目标函数；

根据所述目标函数和拉格朗日函数确定点云数据在主轴投影上最大的投影方差；

求解所述点云数据在主轴投影上最大的投影方差获得最大的2个特征值分别为点的局部邻域点云中的表面法向量和主轴向量。

本发明实施例还提供一种基于生成对抗网络的小样本3D视觉检测系统，包括相机、机械臂、传送带、检测装置、上位机以及控制器；

所述相机，用于为系统提供视觉图像信息。

与现有技术相比，本发明相对于传统视觉检测算法，能够更平稳的处理信号，克服训练样本需求较大的缺陷，且具备更强的泛化性及稳定性。

附图说明

此处所说明的附图用来公开对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的基于生成对抗网络的小样本3D视觉检测方法的流程图；

图2为本发明实施例提供的基于生成对抗网络的小样本3D视觉检测方法中相机标定流程图；

图3为本发明实施例提供的基于生成对抗网络的小样本3D视觉检测方法中图像预处理流程图；

图4为本发明实施例提供的基于生成对抗网络的小样本3D视觉检测方法中辅助分类生成对抗网络的结构图；

图5为本发明实施例提供的基于生成对抗网络的小样本3D视觉检测方法中点云处理结构图；

图6为本发明实施例提供的基于生成对抗网络的小样本3D视觉检测方法中位姿估计流程图；

图7为本发明实施例提供的所述的基于生成对抗网络的小样本3D视觉检测系统的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、物品或者装置中还存在另外的相同要素。

本发明实施例提供一种基于生成对抗网络的小样本3D视觉检测方法，如图1所示，该方法通过以下步骤实现：

S1：通过张正友标定法进行相机标定；

S2：对相机采集的图像进行预处理；

S3：结合短时傅里叶变换与改进的辅助分类生成对抗网络对预处理后的图像进行外表检测；

S4：获得被检测工件的点云数据；

S5：根据所述被检测工件的点云数据估计工件的位姿。

其中，S1通过张正友标定法进行相机标定，如图2所示，具体为：

S11：获得相机坐标系下的点与相机成像平面之间的映射关系；

具体地，在相机获取二维图像时，真实世界的物体反射的光线透过相机映射到相机的成像平面，可通过针孔相机模型获得相机坐标系下的点与相机成像平面的映射关系。

S12：获得相机坐标系下的点与相机像素平面坐标系之间的转换关系；

具体地，相机的成像平面与像素平面并不一致，因此要将像素平面的点进行缩放和平移，获得相机坐标系下的点与相机像素平面坐标系之间的转换关系。

S13：获得相机坐标系下的点与世界坐标系之间的映射关系；

具体地，由S11、S12获得的映射关系，确定相机坐标系下的点与世界坐标系之间的映射关系。

S14：获得相机坐标系和机械臂基坐标系之间的映射关系。

具体的，由相机位置及机械臂基座标的平移矩阵，获得相机坐标系和机械臂基座标系的映射关系，完成相机标定。

其中，S2所述对相机采集的图像进行预处理，如图3所示，具体为：

S21:对相机采集的图像进行图像灰度处理，获得灰度图；

具体地，所述图像灰度处理是图像预处理的第一个过程，由相机得到彩色图片，因其数据信息过大，导致后期图像处理耗时较长，为了保证时效性，需要对图像进行灰度化处理，以获得灰度图。

S22:对所述灰度图进行图像二值化处理，获得黑白二值化图像；

具体地，所述图像二值化是通过将图像中所有的像素点的灰度值全部用0或255代替，以生成黑白二值化图像，二值化后地图像仍然保持原图像的特征。

S23:确定黑白二值化图像中被测工件的轮廓。

具体地，图像边缘检测主要用于获取清晰的图像边缘信息，本发明采用计算微分以及梯度的方式，对图像中灰度数值的阶跃信号进行分析。

S231：高斯平滑；

具体地，所述的高斯平滑，通过将二维高斯滤波转换为2个一维高斯滤波、/>,并沿着原坐标系进行卷积，得到平滑的图像/>。

S232：获得梯度和方向信息；

具体地，所述获得梯度和方向信息，通过使用2*2偏导的有限差分来处理平滑的图像，得到梯度幅值/>和方向/>。

S233：排除非边缘点；

具体地，所述排除非边缘点，将每个方向的都大于周围的点认为是极大值，通过使用非极大值抑制获得图像中所有局部极大值像素点的方法来完成，

S234：提取轮廓。

具体地，所述提取轮廓，通过将大于高阈值的像素认为是边缘像素，去除掉低阈值像素的方法来完成。

其中，S3：结合短时傅里叶变换与改进的辅助分类生成对抗网络对预处理后的图像进行外表检测,用于弥补传统视觉检测算法需要大量有效标注而难以应用于工业检测的不足，如图4所示，具体为：

S31：归一化图像信息；

具体地，所述的S31采集各种工件损伤的信号，通过短时傅里叶变换，归一化为区间[−1，1]来完成。

定义短时傅里叶变换公式；

其中，表示短时傅里叶变换，/>表示时域信号，/>表示时间，/>表示频率，表示中心在时间/>的窗口函数。

计算时间和频率分辨率。短时傅里叶变换获得的频谱的时间和频率分辨率取决于窗口函数的长度，窗口长度越长，时间分辨率越低，频率分辨率越高。因此，应根据待处理的信号合理选择窗口长度，以便更好地分析。时间和频率分辨率的计算方法如下：其中，/>表示需要处理的信号长度，/>表示窗口函数的长度，/>表示窗口函数平移过程中的重叠长度，/>表示向下舍入的操作。

归一化。根据方程上述计算，短时傅里叶变换之后的时频图像是F×T维的二维矩阵。设表示获得的矩阵，为了加快训练过程的收敛，矩阵/>的每个元素归一化为区间：/>

其中，表示矩阵/>中的元素，/>、/>分别表示其最小值、最大值，表示/>归一化后的值。

S32：生成样本；

S33：进行判别；

S34：计算损耗；

S35：固定生成器的权重参数并优化判别器的权重参数；

S36：固定判别器的权重参数，优化生成器的权重参数；

S37：重复S32-S36，直到满足迭代次数；

S38：保存模型；

S39：进行检测。

进一步地，所述S32-S36涉及一种改进的辅助分类生成对抗网络，首先将来自先验分布的随机噪声输入生成器，生成假样本；将假样本/>和真实样本/>分别作为判别器的输入，进行判别打分。

如图5所示，生成对抗由两个神经网络组成：判别器网络(discriminator，D)和生成器网络(generator, G)。GAN的总体目标函数为：

其中，表示生成器的网络参数，/>表示判别器的网络参数，/>为对应的数学期望，/>表示真实数据/>的分布，/>是随机从先验分布/>中采样的随机噪声向量，/>通常取以2、自然对数e以及10为底，/>是判别器对输入/>预测的概率，/>来源于真实样本/>生成样本/>。

其中，生成器的目的是生成可以欺骗判别器的假样本，具体目标函数为：

其中，在生成器网络中添加标签约束，与输入噪声/>共同约束生成器生成特定类别的样本。

其中，生成器的输入是一个200维高斯随机噪声向量，带有标签向量/>。标签向量首先通过嵌入层嵌入噪声向量中，然后是反卷积层以生成大小为64×64的假样本。生成器包含五个反卷积层，前四层的激活函数为ReLU，这有助于生成器实现非线性表示，使网络更容易训练。最后一层的激活函数是Tanh，将输出限制为/>，每层后执行BN，以加快训练收敛速度，避免过拟合。

其中，判别器的输入是实样本和生成的样本，输出是带有分类向量的判别向量。鉴别器包含三个卷积层，每个层都有一个泄漏的ReLU激活函数，这使得网络能够更快地学习并防止梯度消失。每次卷积后，首先执行BN，然后执行Dropout，它将神经元随机丢弃在网络中，以降低过度拟合的风险，从而增加鉴别器的泛化。最后一层包含两个完全连接的层，使用Sigmoid函数和Softmax函数作为输出，用于区分和分类输入样本。

本发明所述改进的辅助分类生成对抗网络的损失函数由两部分组成，判别损失函数用来具体判别样本真假，提高生成样本质量。分类损失函数用来衡量输出样本的真实性，具体公式为：其中，/>表示生成器的损失函数，/>表示判别器的损失函数，/>表示判别器的监督损失，/>表示判别器的无监督损失，/>及/>代表比率因子，/>及/>分别代表标注实样本和未标注实样本的先验分布，/>及/>分别代表标注实样本和生成样本的类标签的条件概分布。

所述S3-5、S3-6，当输入为真实样本时，判别器最大化判别概率得分/>；当输入来自生成样本/>时，判别器最小化概率得分/>，即最大化/>，两者相加组成判别器/>的目标函数，GAN通过反向传播优化判别器的参数/>，不断提高其判别能力。

所述S3-7，通过优化生成器的参数，/>的具体目标就是使得生成样本/>的得分/>最大化，即/>最小化。因此，两个网络组成了一个最大最小化博弈模型。训练时，固定一方更新另一方网络的参数，两者交替迭代，相互对抗不断提高模型自身能力。最终，/>生成的样本的概率分布/>能收敛到真实样本的概率分布/> (即/>)，达到纳什平衡。

其中，S4：获得被检测工件的点云数据，用于获得被检测工件的点云数据，以便对被检测工件的位姿进行估计，如图6所示，具体为：

S41：建立相机图像信息与点云之间的转换关系；

具体地，通过得到被检测工件在灰度图像上的像素点位置将其对应到深度图像的同样位置上，并进行深度图像的裁剪，可以获取到被检测工件的深度图像信息；所述深度图像是一种二维图像，其中的每个像素都包含了对应点距离相机坐标系的深度信息，而点云数据则是大量三维点构成的集合，每个点都包含了位置以及法向量等信息，因此从深度图像到点云的变换即为相机像素坐标系与相机坐标系之间的转换。

S42：建立k-d树；

具体地，点云数据量比较庞大，为了快速找到算法中需要的关键点，本发明使用k-d树搜索算法，所述k-d树搜索算法通过找到到两个距离上最近的点生成一种数据结构的方式实现点云数据空间上点的快速搜索。

对于有n个点的点云，通过各点的X坐标找到其中间值X_m，对于整个点云数据，X坐标值小于X_m的点数量就和X坐标值大于X_m的点数量完全一致或者只相差一个。依此标准，可以将点云数据分成两个点集。

对所述被检测工件的深度图像信息将按照X坐标值划分的两个点集再按照各自的Y坐标值以同样的方式划分，这样就划分成四个点集；以同样的方式按照各自的Z坐标值再次划分，如果点云密度基本均匀，就可以得到点数量基本一致的八个点集；重复上述步骤，同时将划分二叉树结构的结果记录，直到每个子集的点数量接近设定的阈值t。

S43：点云预处理；

具体地，所述点云预处理是为了简化庞大的点云数据，如图7所示，可以通过以下步骤实现：

S43-1：点云下采样；

具体地，所述点云下采样可以在不影响点云采集精度的情况下最大程度保留有效点云数据最大程度简化点云数据。本发明点云下采样具体步骤如下：

划分每个立方体网格的边长大小;

将点云数据中的点分配到个立方体方格中。根据立方体网格边长可以将点云数据划分为/>个网格：/>

其中，是取整函数，表示不小于/>的整数，对点云数据的每个/>编码处理，定义包含/>的网络号如下：/>

其中，分别表示点云中各坐标轴最小的网络坐标，/>分别表示对应网络的坐标。

对于每个立方体网络，它的重心都可以表示为：其中，表示重心坐标，/>表示单位立方体的点云数量。

S43-2：点云平面提取；

具体地，所述点云平面提取可以将被采集物体点云数据和平面点云数据分离。

在原始点云数据中随机选取3个不共线的点，计算其构成的平面：

计算出点云中每个点到此平面的距离：

设置阈值，当/>时则判断该点为局外点，反之则为局内点，统计所有局内点；

重复上述步骤，将包含局内点最多的平面作为最佳模型。

S43-3：点云去噪。

具体地，所述点云去噪可以处理点云噪声，提高点云匹配的精确度。具体步骤如下：

统计每个邻域点与与点的欧氏距离：其中，/>。

计算点的邻域点与点/>的平均欧氏距离，得出点/>邻域点与点/>的距离的标准差，若点/>的邻域点与点/>之间的距离/>满足：/>

则将该点删除。

其中，S5：根据所述被检测工件的点云数据估计工件的位姿，用于求解被检测工件表面法向量，以便机械臂进行抓取，具体为：

S5-1：通过计算投影方差确定点云数据在主轴方向上的方差；

具体公式如下：其中，/>为投影均值，将点云数据在主轴方向上的投影均值定义为0。在此基础上，投影方差/>计算公式如下：

S5-2：构建目标函数；

具体地，所述构建目标函数具体如下：其中，/>为点云数据协方差矩阵，因此点云数据在主轴投影上的方差最大化计算即可转换为求解协方差矩阵的特征值与特征向量，其最大特征值代表最大的方差。

S5-3：根据所述目标函数和拉格朗日函数确定点云数据在主轴投影上最大的投影方差；

具体地，所述引入拉格朗日算子，将上述问题转化为无约束优化问题，对拉格朗日函数关于/>求偏导并令其等于0：/>

带入中，有：/>

由此，求解出点云数据在主轴投影上最大的投影方差即为协方差矩阵最大的特征值，主轴向量则为该特征值所对应的特征向量；点云数据在主轴投影上最小的投影方差即为协方差矩阵/>最小的特征值，其对应的特征向量表示点云数据分布最为集中，其方差最小，即点云数据的法线向量。

S5-4：求解所述点云数据在主轴投影上最大的投影方差获得最大的2个特征值分别为点的局部邻域点云中的表面法向量和主轴向量。

具体地，具体公式如下：其中，/>为点的局部邻域点云中的一点，/>为点云的质心，/>为协方差矩阵，其最大的2个特征值分别为点/>的局部邻域点云中的表面法向量和主轴向量。

S5-5：根据每个点的主轴即法向量确定物体的位姿。

本发明实施例还提供一种基于生成对抗网络的小样本3D视觉检测系统，如图7所示，包括相机、机械臂、传送带、检测装置、上位机以及控制器；

所述相机，用于为系统提供视觉图像信息。

所述机械臂，用于分拣抓取工件。

所述传送带，用于配合指令将工件移动至指定区域。

所述检测装置，用于检测工件内部是否有损伤。

所述上位机以及控制器，分别用于对系统各装置收发命令。

所述机械臂包括机械臂A及机械臂B，根据控制器指令用于分拣抓取工件，将废品工件分拣至废料传送带，将良品工件分拣至出料传送带。

所述传送带包括入料传送带、检测传送带、出料传送带及废料传送带，用于配合指令将工件移动至指定区域。

所述检测装置包括检测装置A及检测装置B，用于检测工件内部是否有损伤，并将信息发送至控制器。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于生成对抗网络的小样本3D视觉检测方法，其特征在于，该方法为：

通过张正友标定法进行相机标定；

对相机采集的图像进行预处理；

获得被检测工件的点云数据；

根据所述被检测工件的点云数据估计工件的位姿；

其中，所述结合短时傅里叶变换与改进的辅助分类生成对抗网络对预处理后的图像进行外表检测，具体为：

对所述时频图像进行归一化处理；

将来自先验分布的随机噪声输入辅助分类生成对抗网络的生成器，生成假样本/>；

当输入为真实样本时，判别器最大化判别概率得分/>；当输入来自生成样本/>时，判别器最小化概率得分/>，即最大化/>，两者相加组成判别器/>的目标函数，GAN通过反向传播优化判别器的参数/>；

通过优化生成器的参数，最终/>生成的样本的概率分布/>能收敛到真实样本的概率分布/>，/>，达到纳什平衡。

2.根据权利要求1所述的基于生成对抗网络的小样本3D视觉检测方法，其特征在于，所述通过张正友标定法进行相机标定，具体为：

获得相机坐标系下的点与相机成像平面之间的映射关系；

获得相机坐标系下的点与世界坐标系之间的映射关系；

获得相机坐标系和机械臂基坐标系之间的映射关系。

3.根据权利要求1或2所述的基于生成对抗网络的小样本3D视觉检测方法，其特征在于，所述对相机采集的图像进行预处理，具体为：

对相机采集的图像进行图像灰度处理，获得灰度图；

对所述灰度图进行图像二值化处理，获得黑白二值化图像；

确定黑白二值化图像中被测工件的轮廓。

4.根据权利要求1所述的基于生成对抗网络的小样本3D视觉检测方法，其特征在于，所述获得被检测工件的点云数据，具体为：

5.根据权利要求4所述的基于生成对抗网络的小样本3D视觉检测方法，其特征在于，所述根据所述被检测工件的点云数据估计工件的位姿，具体为：

通过计算投影方差确定点云数据在主轴方向上的方差；

构建目标函数；

6.一种基于生成对抗网络的小样本3D视觉检测系统，其特征在于，该系统用于实现如权利要求1-5中任一项所述的方法，包括相机、机械臂、传送带、检测装置、上位机以及控制器；

所述相机，用于为系统提供视觉图像信息；

所述机械臂，用于分拣抓取工件；

所述传送带，用于配合指令将工件移动至指定区域；

所述检测装置，用于检测工件内部是否有损伤；

所述上位机以及控制器，分别用于对系统各装置收发命令。