CN112991281B

CN112991281B - 视觉检测方法、系统、电子设备及介质

Info

Publication number: CN112991281B
Application number: CN202110235693.2A
Authority: CN
Inventors: 刁梁; 朱樊; 顾海松
Original assignee: Wangzhi Technology Shenzhen Co ltd
Current assignee: Wangzhi Technology Shenzhen Co ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-12-12
Anticipated expiration: 2041-03-03
Also published as: CN112991281A

Abstract

本说明书一个或多个实施例公开了一种视觉检测方法、系统、电子设备及介质。该视觉检测方法，适用于视觉检测系统进行视觉检测的采样图像为视频，所述视频中存在目标检测物的场景，所述方法，包括：选取所述视频中的n+1帧图片；分别提取所述n+1帧图片的语义信息；对所述语义信息进行差分运算；将差分运算后的所述语义信息送入前向神经网络进行处理，得到所述目标检测物的相关信息，可以提高视觉检测系统的精度和鲁棒性。

Description

视觉检测方法、系统、电子设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视觉检测方法、系统、电子设备及介质。

背景技术

基于图像处理的产品质量检测技术已经被广泛使用，目前的检测技术主要采用传统的模式识别方式和深度学习模型来实现，随着深度学习模型的不断演化，视觉检测的准确率得到提高，深度学习模型在实际生产中的优势逐渐凸显出来。深度学习模型是基于目标函数的高度抽象，故需要大量的目标样本数据来训练模型，使得深度学习模型具有良好的特征提取和编码能力。

而实际的工业场景却存在目标样本难采集，目标样本数量少，目标样本数据分布不均匀等数据不充足的情况，影响深度学习模型的性能，导致视觉检测系统的精度较低，鲁棒性较差。因此如何提高视觉检测系统的精度和鲁棒性成为亟需解决的技术问题。

发明内容

本说明书一个或多个实施例的目的是提供一种视觉检测方法、系统、电子设备及介质，可以提高视觉检测系统的精度和鲁棒性。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

第一方面，提出了一种视觉检测方法，适用于视觉检测系统进行视觉检测的采样图像为视频，所述视频中存在目标检测物的场景，所述方法，还包括：选取所述视频中的n+1帧图片；分别提取所述n+1帧图片的语义信息；对所述语义信息进行差分运算；将差分运算后的所述语义信息送入前向神经网络进行处理，得到所述目标检测物的相关信息。

第二方面，提出了一种视觉检测系统，适用于视觉检测的采样图像为视频，所述视频中存在目标检测物，所述系统，包括：选取模块，用于选取所述视频中的n+1帧图片；语义提取模块，用于分别提取所述n+1帧图片的语义信息；差分运算模块，用于对所述语义信息进行差分运算；前向神经网络模块，用于将差分运算后的所述语义信息送入前向神经网络进行处理，得到所述目标检测物的相关信息。

第三方面，提出了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上文所述的视觉检测方法。

第四方面，提出了一种存储介质，存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行如上文所述的视觉检测方法。

由以上本说明书一个或多个实施例提供的技术方案可见，本申请提供的视觉检测方法，适用于视觉检测系统进行视觉检测的采样图像为视频，视频中存在目标检测物的场景。该视觉检测方法选取视频中的n+1帧图片后分别提取n+1帧图片的语义信息；然后对语义信息进行差分运算；将差分运算后的语义信息送入前向神经网络进行处理，得到目标检测物的相关信息。本申请提供的视觉检测方法可以使用很少的目标样本和较少的计算资源开销检出视频中出现的移动的细小瑕疵，检出精度高，对噪音具有较强的抗干扰能力，可以提高视觉检测系统的精度和鲁棒性。这里的目标检测物的相关信息包括目标检测物的种类、目标检测物的位置。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对一个或多个实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例所涉及的一种视觉检测方法的步骤示意图。

图2是本说明书实施例提供的另一种视觉检测方法的步骤示意图。

图3是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图4是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图5是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图6是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图7是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图8是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图9是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图10是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图11是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图12是本说明书实施例提供的又一种视觉检测方法的步骤示意图。

图13是本说明书实施例提供的一种视觉检测系统的结构示意图。

图14是本说明书实施例提供的另一种视觉检测系统的结构示意图。

图15是本说明书实施例提供的又一种视觉检测系统的结构示意图。

图16是本说明书实施例提供的又一种视觉检测系统的结构示意图。

图17是本说明书的一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的一个或多个实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

本申请提供的视觉检测方法适用于视觉检测的对象为视频的场景，通过对视频中多帧图片的联合处理得到视频中存在的目标检测物的相关信息。下面将详细的描述本申请提供的视觉检测方法及其各个步骤。

实施例一

参照图1所示，为本说明书实施例提供的视觉检测方法的步骤示意图。该视觉检测方法可以适用于视觉检测系统进行视觉检测的采样图像为视频，视频中存在目标检测物的场景。该视觉检测方法，包括：

步骤80：选取视频中的n+1帧图片；

本申请提供的视觉检测方法可以使用很少的目标样本和较少的计算资源开销检出视频中发生移动的细小瑕疵，且具有较高的检出精度，并且对噪音具有极强的抗干扰能力。

选取视频中的多帧图片，这里的图片可以是某个时刻的帧图像，该多帧图片中存在目标检测物，不一定每一帧图片中都存在目标检测物，其中一帧图片作为关键帧，n张索引帧Re1，Re2......Ren，这里作为检测对象的帧作为关键帧，其它起到辅助作用的帧为索引帧。

步骤81：分别提取n+1帧图片的语义信息；

提取n+1帧图片的语义信息，比如可以使用权重共享编码网络提取n+1帧图片的语义信息：Xk为关键帧的语义信息，X1，Xi......Xn为索引帧的语义信息。可以根据计算资源确定索引帧数目，由于权重共享，无需重新训练网络，模型参数量少。

步骤82：对语义信息进行差分运算；

采用语义空间差分模块对n个语义信息进行差分运算，X_D为差分运算的结

果，可以是特征图或者特征向量，具体计算公式如下：

采用语义空间差分模块可以避免有效信息的丢失，避免引入过多的噪音，同时步长卷积下采样可以避免语义信息丢失但起到平滑位移的作用，等同于柔性配准。另外，受语义空间差分模块特性的影响，关键帧额前景信息强度不受索引帧的数量影响，但索引帧的无关信息会随着索引帧数量的增加而衰减。

步骤83：将差分运算后的语义信息送入前向神经网络进行处理，得到目标检测物的相关信息。

将差分运算后的语义信息送入前向神经网络进行处理，得到目标检测物的相关信息。当然本发明实施例提供的视觉检测方法可以采用视觉检测模型来实现，目标检测物的相关信息作为视觉检测模型的输出检测结果，可以提高视觉检测系统的精度和鲁棒性。

参照图2所示，在一些实施例中，步骤80：选取视频中的n+1帧图片之前，本发明实施例提供的视觉检测方法，还包括：

步骤84：采用3D卷积的双流网络模型对采样图像进行视频分类。

本发明实施例提供的视觉检测方法采用端到端的3D卷积作为双流网络模型的组件，对于采样图像进行视频分类。视频分类可以是基于目标检测物的种类，也可以是基于其它分类原则，在此不做限定。

参照图3所示，在一些实施例中，本发明实施例提供的视觉检测方法适用于视觉检测系统采用视觉检测模型进行视觉检测，视觉检测模型包括前向神经网络的场景，步骤80：选取视频中的n+1帧图片之前，本发明实施例提供的视觉检测方法，还包括：

步骤85：将采样图像输入至视觉检测模型。

本发明实施例提供的视觉检测方法采用作为深度学习模型的视觉检测模型来完成，该视觉检测模型包括前向神经网络，可以在视觉检测之前对该视觉检测模型进行训练，自行学习相似语义特征的聚类。

参照图4所示，在一些实施例中，视觉检测模型包括前向神经网络，步骤85：将采样图像输入至视觉检测模型之后，本发明实施例提供的视觉检测方法，还包括：

步骤10：对采样图像进行初始处理，得到初始语义向量；

对采样图像进行初始处理得到初始语义向量，比如可以采用主干网络对采样图像进行初始处理，比如采样图像是采用残差网络Resnet、Alexnet等卷积网络，或者使用传统算法比如颜色直方图，HOG算子等进行初始处理得到的初始语义向量，初始语义向量是对采样图像的语义向量描述，可以是特征图或者特征向量。

初始处理是对采样图像中需要采集的图像特征提取为对应的语义特征，并对语义特征进行分类。

步骤11：将初始语义向量分别输入多个第一前向神经网络，得到多个中间语义向量；

目前的工业场景中可以识别的目标样本难采集，目标样本数量少，数据种类分布不均匀，导致目标检测系统的精度较低，鲁棒性较差。本发明实施例提供的视觉检测方法将初始语义向量输入多个第一前向神经网络后得到多个中间语义向量[v1,v2,...vn]，这里的初级语义向量与多个中间语义向量的之间的关系可以是初始语义向量经过第一前向神经网络进行进一步的特征提取得到中间语义向量。

步骤12：将初始语义向量输入至第二前向神经网络，得到对应中间语义向量的激活向量；

将初始语义向量输入至第二前向神经网络后得到对应中间语义向量的激活向量，这里由初始语义向量与激活向量的关系是初始语义向量经过第二前向神经网络进行进一步的特征激活得到激活向量。

激活向量可以是特征向量，对应中间语义向量的数量n，激活向量可以是n维特征向量。第二前向神经网络对初始语义向量做softmax或者SIGMOD等回归得到激活向量W[w1,w2,...wn]。

步骤13：将激活向量作为中间语义向量的权重，得到最终语义向量；

后续以上述激活向量作为多个中间语义向量的权重，得到最终的语义向量vlast，最后经另一个前向神经网络输出识别结果，这里的前向神经网络是将vlast进行编码后再输出。最终语义向量vlast的计算公式如下：

本发明实施例提供的视觉检测方法，可以自动归纳语义特征，分类聚类。例如v1可以对应颜色的语义特征，v2对应形状的语义特征，而激活向量W体现的是目标检测物的全局语义空间中是否需要对应的描述算子，通过激活向量W以及中间语义向量[v1,v2,...vn]对语义特征的响应情况，可实现对小样本和少样本的语义特征的自动分析以及语义自动聚类。

步骤14：将最终语义向量作为视觉检测模型的输出。

将中间语义向量v1至vn存在实际的语义，以药袋内药液瑕疵检测为例，当对药液袋内的黑点以及毛发做视觉检测时，中间语义向量v1至vn中将存在vi，黑点以及毛发将同时在vi上产生响应，且wi给以了较高的权重，则该中间语义向量大概率代表对黑色的响应。中间语义向量vi提供对目标检测物的细节性的描述，比如该黑色是什么样的黑色、深浅、亮度等，语义的表达更加丰富。

参照图5所示，在一些实施例中，步骤85：将采样图像输入至视觉检测模型之后，本发明实施例提供的视觉检测方法，还包括：

步骤30：基于共性特征对采样图像进行特征分解，得到特征序列；

特征分解后，得到对应该采样图像的特征序列，不同的采样图像可以得到不同的特征序列，但是特征序列中语义特征的排序是一致的。需要说明的是，这里的特征序列是语义特征的序列。

针对目前工业场景下可以识别的目标样本难采集，目标样本数量少，样本数据分布不均衡的问题，本发明实施例提供的视觉检测方法可以提高视觉检测系统的精度和鲁棒性。

本发明实施例提供的视觉检测方法对采样图像进行特征分解是指对目标检测物的图像特征进行语义特征的细化分解后，将语义特征转化为作为多标注序列的特征序列，有别于目前业内使用的单热值标注。特征序列中的每一个语义特征代表某一种共性特征，也可以是个性特征，在模型训练时可以将每一个采样图像得到的语义特征比如共性特征按照一定的顺序依次排序，形成特征序列，因此本发明实施例提供的视觉检测方法实现了语义特征标注的回归。

步骤31：对特征序列进行编码，得到编码序列；

在得到特征序列后，对特征序列中的每一个语义特征进行编码，得到该特征序列对应的编码序列。

对目标检测物进行语义特征的编码，例如药液袋中出现的目标检测物如下：

毛发具有如下语义特征：黑色，细长，柔性；

毛线具有如下语义特征：白色，细长，柔性；

气泡具有如下语义特征：白色，圆形；

设上述每一个目标检测物的编码序列的长度为5，每一维度对应语义特征如下表，即表中第二行的文字所示为特征序列。

表1

1	2	3	4	5
					是否为黑色	是否为白色	形状是否细长	是否为柔性	形状是否为圆形

对上述三种检测目标的语义特征进行编码，可以得到毛发的编码序列为[1,0,1,1,0]，毛线的编码序列为[0,1,1,1,0]，气泡的编码序列为[0,1,0,0,1]。在对视觉检测模型进行深度学习阶段可以使用该多标注的编码序列对视觉检测模型进行训练。因此，当出现新的目标检测物例如黑点，其具有的语义特征为：黑色，圆形，对应的编码序列为[1,0,0,0,1]，此时所训练的视觉检测模型已具备多元语义特征的抽象能力，故可以直接用于对采样图像的视觉检测，或在仅提供少量作为目标检测物的瑕疵数据的情况下，视觉检测模型也可以达到所需精度，并且无需修改任何视觉检测模型的网络结构以及参数。

步骤32：将编码序列加入视觉检测模型的输出。

编码序列可以作为视觉检测模型的一个输出，编码序列可以为定长的向量。为了增强视觉检测模型的灵活度和迁移性，网络头可以共享视觉检测模型中间输出的特征图或者特征语义向量，并通过级联多任务全连接层，输出多个二分类结果。此时如若需要增加新的编码序列，只需要级联新的初始化全连接层，并只需微调该初始化全连接层的参数，视觉检测模型的网络的迁移性以及灵活性，更适用于可能出现的新的小样本视觉检测。

参照图6所示，在一些实施例中，步骤81：分别提取所述n+1帧图片的语义信息之前，本发明实施例提供的视觉检测方法，还包括：

步骤40：采用梯度下降优化超参数；

本发明实施例提供的视觉检测方法将锐化处理融入视觉检测模型的网络框架中，k作为可导变量，将上述锐化核的形状扩展为三通道的锐化核(3,3,3)，这里的锐化核是常数矩阵，通过k调整该常数矩阵。由于超参数k在神经网络中且为变量，故可使用梯度下降的方式进行优化：

最终通过视觉检测模型的自行深度学习，得到超参数k的最优取值。

步骤41：采用锐化核心对采样图像进行锐化处理，锐化核心包括超参数与锐化核的乘积。

由于目前工业场景下的目标样本数据量少，且目标检测物在图像梯度上属于低频，并存在高频背景的干扰，视觉检测模型在进行深度学习时在图像梯度上所寻找到的最优路径将极大可能学习冗余信息，并最终过拟合，导致视觉检测模型泛化能力变差。

本发明实施例提供的视觉检测方法将原始的采样图像中的低频信息变为高频信息，再送入视觉检测模型进行深度学习，从而减轻视觉检测模型的学习负担，提升视觉检测模型的泛化能力。而由于传统算法以人为设计为主，涉及到很多先验知识，转换到视觉检测模型上进行深度学习时以超参数表示。这个称之为先验前处理会引入超参数，本专利提出通过在深度学习阶段对超参数进行调参。具体示例如下：

针对药液袋中的目标检测物黑点，本发明实施例提供的视觉检测方法所采用的锐化核心如下针对黑点使用锐化核心的一个示例：

我们在使用视觉检测模型进行检测之前，使用锐化核心对采样图像进行锐化处理，锐化核心具体参数由具体的作为目标检测物的瑕疵种类和形状确定，超参数k用于控制锐化的强弱，视觉检测模型将采样图像作为原有的三通道图片输入后分别使用通道分离卷积锐化采样图像后输出处理后的三通道图片，包括特征图和特征向量。后续是对锐化后的特征图和特征向量再进行后续的视觉检测。

参照图7所示，在一些实施例中，采样图像中存在目标检测物，步骤81：分别提取所述n+1帧图片的语义信息之前，本发明实施例提供的视觉检测方法，还包括：

步骤60：采用梯度下降优化超参数；

对于作为目标检测物的部分瑕疵比如该瑕疵的像素特征与背景高度相似，可使用区域像素增强模块作为视觉检测的前处理，区域像素增强模块中包含4个超参数(x1,x2,y1,y2)，具体公式如下：

超参数(x1,x2,y1,y2)在0-255可微，故可嵌入到视觉检测模型的深度学习网络框架中，使用梯度下降自行优化，采用梯度下降自行优化可以参照上一个实施例中超参数k的优化方法。f(u,v)是采样图像的像素值

步骤61：基于超参数对目标检测物所在的区域像素进行增强。

本发明实施例提供的视觉检测方法通过带有可微超参数的区域像素增强模块可实现目标检测物由低频转高频，并通过梯度下降对超参数自行进行优化。该区域像素增强模块可以是一种插件，可以用于对视觉检测输入的采样图像进行处理，该区域像素增强模块的输出是特征图，也可以在深度学习过程中，对超参数自行进行优化。

参照图8所示，在一些实施例中，步骤85：将采样图像输入至视觉检测模型之前，本发明实施例提供的视觉检测方法，还包括：

步骤62：按照随机样本模型训练视觉检测模型。

目前工业场景中存在作为目标检测物的瑕疵的定性标准边界不清晰，故在视觉检测模型进行深度学习之前对于存在有目标检测物的训练数据标注容易产生错标漏标的问题，导致数据噪声将严重地影响所训练的视觉检测模型的精度。针对数据标注错标漏标以及导致的噪声问题，本发明实施例提供的视觉检测方法可以按照随机样本模型训练视觉检测模型。

下面以基于随机一致性采样RANSAC(英文名称：Random Sample Consensus)的随机样本模型训练视觉检测模型进行说明。

设具有数据噪音的原始数据为Dr，数据总量为N，验证集为Dt，并设置迭代次数D1，D2，取样概率[p1,p2]，具体实施步骤如下：

1.设置初始抛弃比例系数D；

2.随机于Dr中抛弃比例为D的数据，Dr剩下的数据生成新的数据集合，训练视觉检测模型；

3.使用训练的视觉检测模型分别采用Dr与Dt进行测试，得到Dr的测试精度，并将Dr的测试结果中误差小于阈值的样本放入Dri，Dr的测试结果中剩余样本为Dro，这里的阈值可以根据具体实际情况选定，这里的Dri表示类内点队列，Dro表示类外点队列；

4.随机从Dri与Dro中抛弃比例为D的数据，抛弃数据的选择概率服从[p1,p2]，利用Dri与Dro中未抛弃的数据训练视觉检测模型，如若验证得到当前视觉检测模型在验证集Dt的精度大于之前视觉检测模型的精度，则保留当前视觉检测模型，并将Dr的测试结果中误差小于阈值的样本替换Dri，Dr的测试结果中剩余样本替换Dro；

5.重复(4)直到迭代次数为D1；

6.D＝D+step_size(这里是逐渐增大抛弃比例)，重复(4)，直到迭代次数达到D2；

7.输出最优的视觉检测模型。

参照图9所示，在一些实施例中，步骤85：将采样图像输入至视觉检测模型之前，本发明实施例提供的视觉检测方法，还包括：

步骤71：使用原始脏数据集进行迭代训练视觉检测模型，其中原始脏数据集中的训练数据已完成标注；

目前工业场景中存在作为目标检测物的瑕疵的定性标准边界不清晰，故在视觉检测模型进行深度学习之前对于存在目标检测物的训练数据标注容易产生错标漏标的问题，导致数据噪声将严重地影响所训练的视觉检测模型的精度。针对数据标注错标漏标以及导致的噪声问题，本发明实施例提供的视觉检测方法可以采用半监督的标注降噪方法训练视觉检测模型，可以实现视觉检测模型具有自我纠错能力，降低噪声。

步骤72：在迭代设定次数后，利用视觉检测模型对训练数据输出预测结果；

初始状态下有原始脏数据集Data_t0，使用该数据集训练视觉检测模型，迭代一定次数后，利用该视觉检测模型预测训练集并得到输出结果。

步骤73：若预测结果与训练数据的标注不一致，则确定训练数据中出现错标数据；

此时预测结果与训练数据集产生不一致，下面以fasterrcnn为例说明本发明实施例提供的视觉检测方法是如何查找错标数据。

步骤74：将预测结果与真值进行比较，确定所述目标检测物的种类，并且为对应的所述训练数据设置置信度标注；

对于真值与预测结果，假设已经通过解码生成如下格式[xmin,ymin,xmax,ymax,c,c_index]，前四维为坐标，c为置信度向量，c_index为预测类别，其中包含背景类，其中：

c_index＝argmax(c)

可见，由于检测网络引入坐标参数，故首先需要对训练数据设置人工标注，这里的人工标注包括目标检测物的种类标注和位置标注，在本发明实施例中，设置人工标注与预测结果的交并比IOU(英文全称：Intersection over Union)>t时，t为设定阈值，则认为该预测结果与人工标注匹配，且每个人工标注仅匹配IOU最大且置信度最高的预测框，当预测结果与人工标注的IOU<t且c_index！＝0(不是背景类)时，此时则认为该预测框的人工标注的数字索引为0。为了后续得到目标检测物的位置，假设某训练图片中存在目标检测物n个，则抽取fasterrcnn一阶段检测为背景类的n个区域池化ROI(英文全称：region ofinterest)，具体抽取方式如下：对一阶段有无目标置信度排序，取背景类置信度最高的n个，同时n个ROI满足与人工标注IOU<t。

步骤75：基于置信度计算置信度的距离队列；

对某类目标检测物的数字索引(index)为c_i，c_t为置信度，数字索引可以是对应目标检测物的种类的编码，比如破损索引为1，碎裂索引为2，计算置信度阈值，设标记为c_i的训练数据共c_n组，其中任一组为t，预测的置信度向量为c：

计算训练数据的置信度的距离队列，其中每一个人工标注的距离队列的计算公式如下：

m arg in_{c_i}＝C_{c_i}-c_t[c_i]；

步骤76：基于距离队列对置信度进行排序；

基于距离队列对训练数据的置信度进行排序。

步骤77：基于距离队列的排序结果，至少选取距离最大的置信度对应的训练数据作为错标数据。

从距离队列的排序结果中选取距离较大的前几位置信度，选取带有对应这些置信度标注的训练数据作为错标数据。

参见图10所示，在一些实施例中，视觉检测系统包括产品抓取装置，步骤80：选取视频中的n+1帧图片之前，本发明实施例提供的视觉检测方法，还包括：

步骤70：采用网络抓取模型修正抓取装置的抓取参数。

目前的工业检测场景中，视觉检测系统包括产品抓取装置和图像采集装置，产品抓取装置是将产品抓取起来，图像采集装置对该产品拍摄图像获取采样图像，其中图像采集装置采用深度摄像头可以获取到目标检测物的空间三维坐标。

需要提到的是，抓取装置的抓取参数调整需要大量人工实验，并且鲁棒性差。本发明实施例提供的视觉检测方法采用网络抓取装置修正抓取装置的抓取参数。这里的抓取参数比如可以包括机械手臂多自由度的抓取坐标或者旋转角度。网络抓取模型与视觉检测模型同样属于深度学习模型，可以进行精准的目标识别和分类。

参照图11所示，在一些实施例中，本发明实施例提供的视觉检测方法，视觉检测系统还包括图像采集装置，步骤70：采用网络抓取模型修正抓取装置的抓取参数，具体包括：

步骤700：基于图像采集装置输出的奖励信息训练网络抓取模型。

本发明实施例提供的视觉检测方法可以利用图像采集装置提供的奖励信息训练网络抓取模型。这里的奖励信息是影响视觉检测的干扰因素，奖励信息越多，干扰因素越小，奖励信息越少，干扰因素越大。下面以抓取药液袋作为示例进行说明。

在药液袋的杂质检测中，抓取装置的电机旋转后抓取药液袋，那么药液袋中可能的杂质就会运动起来，但是需要禁止气泡的产生，故该示例中的气泡越少，奖励信息越多，故本示例中气泡越多越不利。故抓取装置的抓取目标是最小化气泡数量B_num的同时，最大化的电机转速R，当前状态量s包括上阶段所使用的电机转速v_t以及所产生的气泡数量B_num_t，抓取装置的网络抓取模型将输出的是下一阶段的电机转速v_t+1，设置电机转速边界为V_b，则可以设置奖励函数如下：

Reward＝-B_num+α*R

α为放缩因子，该奖励函数为网络抓取模型提供优化方向，奖励越大提供的优化动力越大，从奖励函数的表达式可以看出该奖励函数是气泡以及电机转速所提供的奖励的加权。

下面是优化抓取网络模型的半离线参数更新算法的目标函数，可以用来优化抓取网络模型的模型参数：

Obejective＝-output*Reward；

以状态量s([v_t，B_num_t])作为网络抓取模型的半离线参数更新算法的输入，经过网络抓取模型中的前向神经网络处理后的输出结果vp，由于电机转速为连续的动作空间，故需要进行转换，具体公式如下：

V＝tanh(Vp)*V_b

其中，tanh为激活函数，将正负无穷映射到-1到1之间，本函数可以使结果映射在最大转速内，对半离线参数更新算法的目标函数使用梯度下降进行求解，具体如下：

抓取网络模型输出电机转速后，网络抓取模型利用视觉算法检测气泡的数量，并将当前状态量添加入记忆库，每次更新抓取装置的抓取参数时，除了使用上阶段产生的梯度，还从记忆库中选出若干样本作为训练样本，梯度通过人为设置的样本权重[w1,w2,w3...wn]进行加强，以权衡上阶段以及过往经验产生梯度对智能体修正的幅度。

参照图12所示，在一些实施例中，视觉检测系统包括工控机和云服务器，步骤80：选取视频中的n+1帧图片之前，本发明实施例提供的视觉检测方法，还包括：

步骤90：工控机采集采样图像后将采样图像发送至云服务器；

工控机通过USB接口将摄像头采集到的采样图像进行收集，工控机对采样图像的样本进行存储、模型训练以及目标检测物的识别，用户可在本地完成全部操作，特别是工控机采用嵌入式系统可以高效地完成这些操作。

对应地，步骤83：得到目标检测物的相关信息作为视觉检测模型的输出之后，本发明实施例提供的视觉检测方法，还包括：

步骤91：至少将采样图像的样本和目标检测物的相关信息存储至云服务器。

还可以将样本存储和模型训练部分追加在云端完成，结合云端特点，提高效率，并且降低硬件所需成本。前端工控机仅保留采集采样图像所需的摄像头，5G无线模块，存储模型所需的基础存储以及基础运算能力。

可以是实时地将工控机采集的采样图像发送至云服务器上进行采样图像样本存储、模型训练和目标检测物的识别，以及最终语义向量的样本存储之云服务器上。

通过上述技术方案，本申请提供的视觉检测方法，适用于视觉检测系统进行视觉检测的采样图像为视频，视频中存在目标检测物的场景。该视觉检测方法选取视频中的n+1帧图片后分别提取n+1帧图片的语义信息；然后对语义信息进行差分运算；将差分运算后的语义信息送入前向神经网络进行处理，得到目标检测物的相关信息作为视觉检测模型的输出。本申请提供的视觉检测方法可以使用很少的目标样本和较少的计算资源开销检出视频中出现的移动的细小瑕疵，检出精度高，对噪音具有较强的抗干扰能力，可以提高视觉检测系统的精度和鲁棒性。这里的目标检测物的相关信息包括目标检测物的种类、目标检测物的位置。

实施例二

参照图13所示，本说明书实施例提供的视觉检测系统，适用于视觉检测的采样图像为视频，视频中存在目标检测物。该视觉检测系统，包括：

选取模块10，用于选取视频中的n+1帧图片；

语义提取模块20，用于分别提取n+1帧图片的语义信息；

差分运算模块30，用于对语义信息进行差分运算；

果，可以是特征图或者特征向量，具体计算公式如下：

前向神经网络模块40，用于将差分运算后的语义信息送入前向神经网络进行处理，得到目标检测物的相关信息。

参照图14所示，在一些实施例中，本发明实施例提供的视觉检测系统，还包括视频分类模块50，在选取视频中的n+1帧图片之前，视频分类模块50，用于：

采用3D卷积的双流网络模型对采样图像进行视频分类。

参照图15所示，在一些实施例中，本发明实施例提供的视觉检测系统，还包括视觉检测模型60和输入模块70，输入模块70用于：

将采样图像输入至视觉检测模型。

参见图16所示，在一些实施例中，本发明实施例提供的视觉检测系统，视觉检测模型60包括前向神经网络模块，视觉检测系统包括语义聚类模块80，将采样图像输入至视觉检测模型之后，语义聚类模块80，用于：

步骤10：对采样图像进行初始处理，得到初始语义向量；

步骤14：将最终语义向量作为视觉检测模型的输出。

实施例三

图17是本说明书实施例提供的一个实施例的电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成区块链共识装置。处理器，执行存储器所存放的程序，并具体用于执行本说明书实施例中各执行主体所对应的方法步骤。

上述如本说明书图1至图12所示实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1至图12所示实施例的方法，并实现相应装置在图13至图16所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

实施例四

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1至图12所示实施例的方法。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述一个或多个实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种视觉检测方法，适用于视觉检测系统进行视觉检测的采样图像为视频，所述视频中存在目标检测物的场景，所述方法，包括：

将采样图像输入至视觉检测模型；

选取所述视频中的n+1帧图片；

分别选择所述n+1帧图片的语义信息；

对所述语义信息进行差分运算，具体计算公式如下

；

将差分运算后的所述语义信息送入前向神经网络进行处理，得到所述目标检测物的相关信息；

其中，将所述采样图像输入至所述视觉检测模型后，还包括：

对采样图像进行初始处理，得到初始语义向量；

将所述初始语义向量分别输入多个第一前向神经网络，得到多个中间语义向量；

将所述初始语义向量输入至第二前向神经网络，得到对应所述中间语义向量的激活向量；

将所述激活向量作为所述中间语义向量的权重，得到最终语义向量；

将所述最终语义向量作为所述视觉检测模型的输出；

将所述采样图像输入至所述视觉检测模型后，还包括：

基于共性特征对所述采样图像进行特征分解，得到特征序列；

对所述特征序列进行编码，得到编码序列；

将所述编码序列加入所述视觉检测模型的输出。

2.如权利要求1所述的视觉检测方法，分别提取所述n+1帧图片的语义信息之前，所述方法，还包括：

采用梯度下降优化超参数，所述超参数用于控制锐化的强弱；

在使用所述视觉检测模型进行检测之前，采用锐化核心对所述采样图像进行锐化处理，所述锐化核心包括所述超参数与锐化核的乘积；或者，基于所述超参数对所述目标检测物所在区域的像素进行增强。

3.如权利要求1所述的视觉检测方法，将采样图像输入至所述视觉检测模型之前，所述方法，还包括：

使用原始脏数据集进行迭代训练所述视觉检测模型，其中所述原始脏数据集中的训练数据已完成标注；

在迭代设定次数后，利用所述视觉检测模型对所述训练数据输出预测结果；

若所述预测结果与所述训练数据的标注不一致，则确定所述训练数据中出现错标数据；

将所述训练数据与真值进行比较，确定所述目标检测物的种类，并且为对应的所述训练数据设置置信度；

基于所述置信度计算所述置信度的距离队列；

基于所述距离队列对所述置信度进行排序；

基于所述距离队列的排序结果，至少选取距离较大的置信度对应的所述训练数据作为错标数据。

4.如权利要求1所述的视觉检测方法，所述视觉检测系统包括产品抓取装置，选取所述视频中的n+1帧图片之前，所述方法，还包括：

采用网络抓取模型修正所述抓取装置的抓取参数；

采用网络抓取模型修正所述抓取装置的抓取参数，具体包括：

基于图像采集装置输出的奖励信息训练所述网络抓取模型。

5.一种视觉检测系统，用于实现如权利要求1-4任一项所述的视觉检测方法，所述系统适用于视觉检测的采样图像为视频，所述视频中存在目标检测物，所述系统，包括：

选取模块，用于选取所述视频中的n+1帧图片；

语义提取模块，用于分别提取所述n+1帧图片的语义信息；

差分运算模块，用于对所述语义信息进行差分运算；

前向神经网络模块，用于将差分运算后的所述语义信息送入前向神经网络进行处理，得到所述目标检测物的相关信息。

6. 一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至4中任一项所述的视觉检测方法。

7.一种存储介质，存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行如权利要求1至4中任一项所述的视觉检测方法。