CN113689411B

CN113689411B - 一种基于视觉识别的计件方法、装置及存储介质

Info

Publication number: CN113689411B
Application number: CN202110989280.3A
Authority: CN
Inventors: 翟懿奎; 江子义; 周文略; 廖锦锐; 王天雷; 梁艳阳; 梁雅淇; 姚家耀
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-11-28
Anticipated expiration: 2041-08-26
Also published as: CN113689411A

Abstract

本发明公开了一种基于视觉识别的计件方法、装置及存储介质，其中方法包括获取工件图像；提取得到图像特征；根据自注意力机制转化图像特征得到查询数据、键值数据和价值数据；对图像特征进行空间位置编码和解码；对解码输出进行分类预测得到预测框数据；对预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量；针对工件表面轮廓不规则、类别不确定、摆放形态具备较强的随机性、背景繁杂凌乱导致视觉识别计件难度大的问题，实现了快速、精准、稳定的计件工作。

Description

一种基于视觉识别的计件方法、装置及存储介质

技术领域

本发明涉及视觉识别领域，特别是一种基于视觉识别的计件方法、装置及存储介质。

背景技术

工件数量统计是工件生产和销售过程中的重要环节。通过人工统计会浪费大量的时间和精力，计件效率低且容易出现误差。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供一种基于视觉识别的计件方法、装置及存储介质。

本发明解决其问题所采用的技术方案是：

本发明的第一方面，一种基于视觉识别的计件方法，包括：

获取工件图像；

对所述工件图像进行特征提取得到图像特征；

根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据，所述自注意力机制为对不同细粒度程度下的工件图像进行信息聚合处理，以对工件周围的所述图像特征进行细粒度关注和对远离工件的所述图像特征进行粗粒度关注；

对所述图像特征进行空间位置编码，并将位置编码添加至所述查询数据和所述键值数据中，保持所述价值数据不变，对预设的目标查询数据和经编码的所述查询数据、所述键值数据和所述价值数据进行解码；

对解码输出进行分类预测得到预测框数据；

对所述预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量。

根据本发明的第一方面，在所述根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据的步骤之前，还包括：将所述图像特征进行压缩处理。

根据本发明的第一方面，所述压缩处理为将所述图像特征的通道数降低。

根据本发明的第一方面，所述根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据，包括：

将所述图像特征均匀分块，得到包含多个子块的分块特征；

将所述分块特征进行不同的细粒度程度关注，得到多个与所述细粒度程度一一对应的第一关注特征；

对每个所述第一关注特征，将所述子块划分成多个方形窗口，通过第一线性层进行池化，将多个所述子块的信息聚合，得到第二关注特征；

将所述第二关注特征分别经过三个不同的第二线性层进行注意力计算，得到所述查询数据、所述键值数据和所述价值数据。

根据本发明的第一方面，所述方形窗口的长度与所述细粒度程度成正比。

根据本发明的第一方面，所述对所述图像特征进行空间位置编码，并将位置编码添加至所述查询数据和所述键值数据中，保持所述价值数据不变，包括：

对所述图像特征在x方向和y方向上进行空间位置编码；

在编码器的每个编码层中，将所述位置编码分别与所述查询数据和所述键值数据相加，保持所述价值数据不变。

根据本发明的第一方面，所述预测框数据包括预测目标类别得分、预测目标类别、预测框的中心坐标、预测框的宽和高。

根据本发明的第一方面，所述对所述预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量，包括；

提取预测框的四条边的中点，依次连接四个所述中点得到第一轮廓；

基于目标框的边界极值点提取目标边界特征；

根据所述第一轮廓和所述目标边界特征得到第二轮廓；

对所述第二轮廓的每条边进行等间隔采样，形成轮廓点；

将所述轮廓点输入至循环卷积网络，得到轮廓点与目标点之间的偏移量；

根据所述轮廓点与目标点之间的偏移量对所述轮廓点变形，得到目标轮廓；

统计所述目标轮廓的数量，作为所述工件的数量。

本发明的第二方面，一种基于视觉识别的计件装置，包括：

图像获取模块，用于获取工件图像；

特征提取模块，用于对所述工件图像进行特征提取得到图像特征；

自注意力模块，用于根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据，所述自注意力机制为对不同细粒度程度下的工件图像进行信息聚合处理，以对工件周围的所述图像特征进行细粒度关注和对远离工件的所述图像特征进行粗粒度关注；

编解码模块，用于对所述图像特征进行空间位置编码，并将位置编码添加至所述查询数据和所述键值数据中，保持所述价值数据不变，对预设的目标查询数据和经编码的所述查询数据、所述键值数据和所述价值数据进行解码；

预测模块，用于对解码输出进行分类预测得到预测框数据；

统计模块，用于对所述预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量。

本发明的第三方面，一种存储介质，所述存储介质中存储有可执行指令，所述可执行指令被处理器执行时实现如本发明的第一方面所述的计件方法。

上述方案至少具有以下的有益效果：实现了自动化和智能化的计件工作，节约了人力成本，提高了生产效率；针对工件表面轮廓不规则、类别不确定、摆放形态具备较强的随机性、背景繁杂凌乱导致视觉识别计件难度大的问题，实现了快速、精准、稳定的计件工作。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明实施例一种基于视觉识别的计件方法的流程图；

图2是自注意力机制的处理示意图；

图3是本发明实施例一种基于视觉识别的计件装置的结构图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1，本发明的第一方面的实施例，提供了一种基于视觉识别的计件方法。

基于视觉识别的计件方法包括以下步骤。

步骤S100、获取工件图像。

对于步骤S100，通过摄影设备拍摄工件图像。工件图像内包含多个工件。对工件图像进行预处理。对工件图像进行数据清洗，形成图像集，然后采用标注工具对图像集进行人工标注，采用人工标注的图像集对模型进行训练。

步骤S110、将图像特征进行压缩处理。压缩处理为利用1x1卷积核的卷积层将图像特征的通道数从C降低至d，得到新的图像特征z₀∈R^B×d×H×W。

步骤S200、对工件图像进行特征提取得到图像特征。

对于步骤S200，将工件图像处理为Bx3xHxW维图像，然后通过卷积神经网络转换为特征图f∈R^B×C×H×W，H、W和C分别是特征图的高、宽和通道数；B为预测框的数量，B可以设置为100。R为欧式空间。

参照图2，步骤S300、根据自注意力机制转化图像特征得到查询数据、键值数据和价值数据，自注意力机制为对不同细粒度程度下的工件图像进行信息聚合处理，以对工件周围的图像特征进行细粒度关注和对远离工件的图像特征进行粗粒度关注。

对于步骤S300，根据自注意力机制转化图像特征得到查询数据、键值数据和价值数据，包括以下步骤：

将图像特征均匀分块，得到包含多个子块的分块特征；例如将图像特征分成25个子块，每个子块包含4x4个像素点，其中的一个子块包含目标工件。

将分块特征进行不同的细粒度程度关注，得到多个与细粒度程度一一对应的第一关注特征。

对每个第一关注特征，将子块划分成多个方形窗口，通过第一线性层10进行池化，将多个子块的信息聚合，得到第二关注特征xl，其中l为细粒化程度。

例如，细粒度程度为1，则一个方形窗口包括一个特征点，方形窗口数量为8x8＝64个，以目标工件为中心取样得到细粒化程度为1的第一关注特征。细粒化程度为2，则一个方形窗口包括2*2＝4个特征点，方形窗口数量为6*6＝36个，以目标工件为中心取样得到细粒化程度为2的第一关注特征。细粒化程度为3，则一个方形窗口包括4*4＝16个特征点，方形窗口数量为5*5＝25个，以目标工件为中心取样得到细粒化程度为2的第一关注特征。细粒度程度越小，对特征关注越精细。

通过第一线性层10进行池化，将多个子块的信息聚合，使得细粒度程度为1的特征图聚合成64个特征点，细粒度程度为2的特征图聚合成36个特征点，细粒度程度为3的特征图聚合成25个特征点。

这样每个目标工件对应的子块聚焦周围的特征信息，对远离该子块的多个其他子块信息聚合，聚合信息越多，关注越粗粒度，则感受野越大。针对每个子块，以细粒度的方式关注离自身近的子块，以粗粒度的方式关注离自己远的子块，以此来更有效的捕获短程和长程的关系。这与人眼的视觉效应相同，当关注一个目标事物的时候，离该目标事物越远的其他事物越模糊。通过聚合减少具有较大的类内散度的背景类特征对工件特征的影响。

将第二关注特征分别经过三个不同的第二线性层20fq、fk和fv，行注意力计算，得到当前细粒度程度的查询数据Q和所有细粒度程度的键值数据K和价值数据V。

在注意力计算中采用和自注意力机制相同的方法，并引入可学习相对位置编码参数B，实现对全局特征和局部特征的注意力计算，注意力计算方式为Q_i为查询数据Q的第i个元素，K_i为键值数据K的第i个元素，V_i为价值数据V的第i个元素。

步骤S400、通过编码器对图像特征进行空间位置编码，并将位置编码添加至查询数据和键值数据中，保持价值数据不变，通过解码器对预设的目标查询数据和经编码的查询数据、键值数据和价值数据进行解码。

对于步骤S400，对图像特征z₀∈R^B×d×H×W在x方向和y方向上进行空间位置编码，每个方向各编码维向量。

经编码后有这表示对于特征图的pos+k位置的位置向量某一维2i或2i+1而言，可以表示为pos位置与k位置的位置向量的2i与2i+1维的线性组合，其中i,k＝1,2,3,...。也就意味着向量中绝对位置蕴含了相对位置信息，这使得多头注意力机制更加关注来自不同位置的不同表征的子空间信息，使模型更关注目标的短程和长程的关系。在编码器的每个编码层中，将位置编码分别与查询数据和键值数据相加，保持价值数据不变。编码器输出(H*W,b,C)维的编码矩阵。

将(H*W,b,C)维的编码矩阵输入至解码器，且还有一个预设的目标查询数据输入至解码器，目标查询数据用于在训练过程中确定目标框的位置。目标查询数据为一个(classnum,b,C)维的向量。其中classnum为任务类别数量。通过解码学习语义类别与复杂背景之间的全局关系，在学习过程中使模型具备更细粒度的注意力，更好地定位工件的位置。解码器输出(1,b,classnum,C)维的向量。

步骤S500、通过两个前馈神经网络对解码器输出的(1,b,classnum,C)维的向量进行分类预测得到预测框数据。预测框数据包括预测目标类别得分、预测目标类别、预测框的中心坐标、预测框的宽和高。在训练过程中，通过二部图匹配损失优化的方法优化损失函数。

步骤S600、对预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量。

对于步骤S600，对预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量，包括；

提取预测框的四条边的中点，依次连接四个中点得到第一轮廓；

采用BorderAlign特征提取算子基于目标框的边界极值点提取目标边界特征；BorderAlign特征提取算子采用基于通道的最大池化方式增强点特征；

根据第一轮廓和目标边界特征得到第二轮廓；

对第二轮廓的每条边进行等间隔采样，形成轮廓点；

将轮廓点输入至循环卷积网络训练，并通过特征融合得到轮廓点与目标点之间的偏移量；

根据轮廓点与目标点之间的偏移量对轮廓点变形，得到目标轮廓；

统计目标轮廓的数量，作为工件的数量。

由于繁杂背景类别存在过多的干扰，且工件语义类别类内存在较大的散度，导致语义类别难以准确建模，进而影响着不同类别工件间的边界判定。通过步骤S500解决了类内散度过大导致的边界特征模糊的问题，能提取更精准的工件位置和形态信息。

另外，上述计数任务执行完毕后，可能存在漏检或虚检，可通过校正模块600手动添加或删除存在的目标框，以校正工件数目。具体来说，服务器返回计数结果信息时，同时也会回传每个轮廓分割框的具体坐标信息，方便用户进行校正工件统计数目。用户可以在终端上选择一个或多个分割框进行删除，也可以手动添加矩形框以校正数目。再者，用户可通过工件累和求差模块及历史查看模块对历史计件区域统计。进一步提高计件准确率。

通过上述计件方法，实现了自动化和智能化的计件工作，节约了人力成本，提高了生产效率；针对工件表面轮廓不规则、类别不确定、摆放形态具备较强的随机性、背景繁杂凌乱导致视觉识别计件难度大的问题，实现了快速、精准、稳定的计件工作。

参照图3，本发明的第二方面的实施例，提供了一种基于视觉识别的计件装置。

基于视觉识别的计件装置包括图像获取模块100、特征提取模块200、自注意力模块300、编解码模块400、预测模块500和统计模块700。其中图像获取模块100为摄影设备或者终端的摄像头。特征提取模块200、自注意力模块300、编解码模块400、预测模块500、校正模块600和统计模块700位于远程服务器，数据在远程服务器进行处理。统计模块700输出的结果通过用户的终端显示。

图像获取模块100用于获取工件图像；特征提取模块200用于对工件图像进行特征提取得到图像特征；自注意力模块300用于根据自注意力机制转化图像特征得到查询数据、键值数据和价值数据，自注意力机制为对不同细粒度程度下的工件图像进行信息聚合处理，以对工件周围的图像特征进行细粒度关注和对远离工件的图像特征进行粗粒度关注；编解码模块400用于对图像特征进行空间位置编码，并将位置编码添加至查询数据和键值数据中，保持价值数据不变，对预设的目标查询数据和经编码的查询数据、键值数据和价值数据进行解码；预测模块500用于对解码输出进行分类预测得到预测框数据；校正模块600用于手动添加或删除存在的目标框，以校正工件数目；统计模块700用于对预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量。

需要说明的是，本发明的第二方面的实施例提供的计件装置采用本发明的第一方面的实施例提供的计件方法。计件装置和计件方法具有相同的技术方案，解决了相同的技术问题，具有相同的有益效果，在此不再详述。

本发明的第三方面的实施例，提供了一种存储介质。所述存储介质中存储有可执行指令，所述可执行指令被处理器执行时实现如本发明的第一方面的实施例所述的计件方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

1.一种基于视觉识别的计件方法，其特征在于，包括：

获取工件图像；

对所述工件图像进行特征提取得到图像特征；

对所述图像特征进行空间位置编码，并将位置编码添加至所述查询数据和所述键值数据中，保持所述价值数据不变，对预设的目标查询数据以及经编码的所述查询数据、所述键值数据和所述价值数据进行解码；

对解码输出进行分类预测得到预测框数据；

对所述预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量；

所述根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据，包括：

将所述图像特征均匀分块，得到包含多个子块的分块特征；

将所述第二关注特征分别经过三个不同的第二线性层进行注意力计算，得到所述查询数据、所述键值数据和所述价值数据；

所述对所述预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量，包括：

基于目标框的边界极值点提取目标边界特征；

根据所述第一轮廓和所述目标边界特征得到第二轮廓；

对所述第二轮廓的每条边进行等间隔采样，形成轮廓点；

统计所述目标轮廓的数量，作为所述工件的数量。

2.根据权利要求1所述的一种基于视觉识别的计件方法，其特征在于，在所述根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据的步骤之前，还包括：将所述图像特征进行压缩处理。

3.根据权利要求2所述的一种基于视觉识别的计件方法，其特征在于，所述压缩处理为将所述图像特征的通道数降低。

4.根据权利要求1所述的一种基于视觉识别的计件方法，其特征在于，所述方形窗口的长度与所述细粒度程度成正比。

5.根据权利要求1所述的一种基于视觉识别的计件方法，其特征在于，所述对所述图像特征进行空间位置编码，并将位置编码添加至所述查询数据和所述键值数据中，保持所述价值数据不变，包括：

对所述图像特征在x方向和y方向上进行空间位置编码；

6.根据权利要求1所述的一种基于视觉识别的计件方法，其特征在于，所述预测框数据包括预测目标类别得分、预测目标类别、预测框的中心坐标、预测框的宽和高。

7.一种基于视觉识别的计件装置，其特征在于，包括：

图像获取模块，用于获取工件图像；

特征提取模块，用于对所述工件图像进行特征提取得到图像特征；自注意力模块，用于根据自注意力机制转化所述图像特征得到查询数据、键值数据和价值数据，所述自注意力机制为对不同细粒度程度下的工件图像进行信息聚合处理，以对工件周围的所述图像特征进行细粒度关注和对远离工件的所述图像特征进行粗粒度关注；

预测模块，用于对解码输出进行分类预测得到预测框数据；

统计模块，用于对所述预测框数据进行基于目标轮廓偏移量学习的定位处理，得到工件的数量；

将所述图像特征均匀分块，得到包含多个子块的分块特征；

基于目标框的边界极值点提取目标边界特征；

根据所述第一轮廓和所述目标边界特征得到第二轮廓；

对所述第二轮廓的每条边进行等间隔采样，形成轮廓点；

统计所述目标轮廓的数量，作为所述工件的数量。

8.一种存储介质，其特征在于，所述存储介质中存储有可执行指令，所述可执行指令被处理器执行时实现如权利要求1至6任一项所述的计件方法。