CN116310390A

CN116310390A - 一种空心目标的视觉检测方法及系统、库位管理系统

Info

Publication number: CN116310390A
Application number: CN202310555439.XA
Authority: CN
Inventors: 石岩
Original assignee: Shanghai Xiangong Intelligent Technology Co ltd
Current assignee: Shanghai Xiangong Intelligent Technology Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-06-23
Anticipated expiration: 2043-05-17
Also published as: CN116310390B

Abstract

本发明提供了一种空心目标的视觉检测方法及系统、库位管理系统，其中方法步骤包括：将空心目标的各个角点设为识别目标，并分别标注包括类型及位置信息，以建立数据集；修改识别网络的检测头以支持递进检测更小目标，并对应尺寸设定目标anchor；将数据集输入至修改好的识别网络，训练出识别模型后，开始识别图像中的角点；将步骤S300中识别的角点，根据其类型信息，将类型一致的角点归集建立集合，并根据其位置信息，分别进行纵、横排序，以建立位置矩阵来识别出对应空心目标的各个角点，籍此重新定义识别目标以提高对空心目标的视觉识别精度。

Description

一种空心目标的视觉检测方法及系统、库位管理系统

技术领域

本发明涉及计算机视觉检测技术，尤其涉及一种针对大范围空心目标的视觉检测方法及系统、库位管理系统。

背景技术

目前现有的常用的目标检测方法，是在目标物体周围画最小矩形框进行标注（如标注类别和位置信息），如本申请附图3所示，然后将数据集送入常用的开源视觉检测框架中（如Yolov5），经过训练学习后输出一个模型文件，此时，再次输入一张原始的（未标注的）图像，模型就会识别输出目标物体的类别信息和位置信息。

但是在实践中，发明人发现对于如：窄边的框型目标（例如本申请附图2所示的库位标记框）这种大面积的空心目标，由于其空心处的面积较大，只有四周的实线是固定特征，而中间的空心区域随着场地的变换或不同，变化非常大（如本申请附图4所示）。由此可见此类空心目标有效的固定特征占比小，无效的非固定特征占比大。

因此若仍然沿用现有技术方案来进行视觉检测训练，经过实验发现，其得到的模型文件的精度会很差，鲁棒性很低，当场地产生变化后，无法有效准确地识别出库位的类别信息和位置信息（如本申请附图4所示，无法全部识别出），这样无疑对检测空心目标带来了非常大的难度和挑战。

发明内容

为此，本发明的主要目的在于提供一种空心目标的视觉检测方法及系统、库位管理系统，以提高对空心目标的视觉识别精度。

为了实现上述目的，根据本发明的一个方面，提供了一种空心目标的视觉检测方法，步骤包括：

步骤S100，将空心目标的各个角点设为识别目标，并分别标注包括类型及位置信息，以建立数据集；

步骤S200，修改识别网络的检测头以支持递进检测更小目标，并对应尺寸设定目标anchor；

步骤S300，将数据集输入至修改好的识别网络，训练出识别模型后，开始识别图像中的角点；

步骤S400，将步骤S300中识别的角点，根据其类型信息，将类型一致的角点归集建立集合，并根据其位置信息，分别进行纵、横排序，以建立位置矩阵来识别出对应空心目标的各个角点。

其中步骤S200中所述修改识别网络的检测头以支持递进检测更小目标的步骤包括：

步骤S210，从第二个检测头开始，接着对网络进行上采样，将特征图增大一倍，并和网络结构第二层进行拼接，以和现有特征图尺寸匹配，并且融合更多的浅层特征，之后进入卷积模块，提取特征；

步骤S220，从第三个检测头开始，接着对网络进行上采样，相对步骤S210将特征图再增大一倍，并和网络结构第一层进行拼接，之后进入卷积模块，进一步提取特征。

在可能的优选实施方式中，其中所述角点的类型包括：

左上角点、/>

右上角点、

右下角点、/>

左下角点中的至少任意三个；位置信息包括：各角点的对角两点坐标

。

在可能的优选实施方式中，其中步骤S200中，目标anchor的尺寸为：

；

；

其中

为anchor的宽，/>

为anchor的高，/>

表示第i张图像的宽，/>

表示第i张图像的高，/>

表示第i张图像第j个空心目标角点的宽，/>

表示第i张图像第j个空心目标角点的高，其中i=1,2,...,N，/>

为第i张图像中被标注的空心目标角点的个数，/>

表示网络模型输入层的图像的宽，/>

表示网络模型输入层的图像的高。

在可能的优选实施方式中，其中步骤S400中所述位置矩阵的建立步骤包括：

步骤S410将检测到的角点，记作集合Q，

，i = 1，2，3，...，n，n为该图像中空心目标的个数；

步骤S420计算各角点中心坐标

，/>

；

步骤S430将集合Q中类型一致的角点归集，建立分集合

；

步骤S440分别将各分集合中的角点根据位置信息进行排序，获取排序后的分集合：

；

；

；

步骤S450 建立位置矩阵：

，

取

中每一列的3个角点为一组角点q代表一个空心目标，即表示n组角点/空心目标。

步骤S410’将检测到的角点，记作集合Q，

，i = 1，2，3，...，n，n为该图像中空心目标的个数；

步骤S420’计算各角点中心坐标

，/>

；

步骤S430’将集合Q中类型一致的角点归集，建立分集合

；

步骤S440’分别将各分集合中的角点根据位置信息进行排序，获取排序后的分集合：

；

；

；

；

步骤S450’建立位置矩阵：

，

取

中每一列的四个角点为一组角点q代表一个空心目标，/>

即表示n组角点/空心目标。

在可能的优选实施方式中，其中步骤S440或S440’中将各分集合中的角点根据位置信息进行排序的步骤包括：

步骤S441分别将各分集合中的角点的y值进行大小排列，判断前后排序角点间的y值差的绝对值e满足间距阈值E时记为一组，不满足则新建一组；

步骤S442对经步骤S441处理后的各组中的角点按x值进行大小排列，获取排序后的分集合；

其中间距阈值

，W和H为图像的宽和高，N为图像中空心目标个数。

在可能的优选实施方式中，其中步骤还包括:

步骤S500将步骤S400中获取的各组角点内的各个角点依次连接，绘制出空心目标的包围框。

为了实现上述目的，对应上述方法，本发明的第二个方面，还提供了一种空心目标的视觉检测系统，其包括：

存储单元，用于存储包括如上任一所述空心目标的视觉检测方法步骤的程序，以供识别单元，处理单元适时调取执行；

识别单元，用于控制摄像机获取目标场景图像，并输入训练后的识别网络，以获取目标场景中的角点及其类型信息；

处理单元，用于将识别的角点，根据其类型信息，将类型一致的角点归集建立集合，并根据其位置信息，分别进行纵、横排序，以建立位置矩阵来判断出对应空心目标的各个角点。

为了实现上述目的，对应上述方法，本发明的第三个方面，还提供了一种库位管理系统，其包括：

存储单元，用于存储包括如上任一所述空心目标的视觉检测方法步骤的程序，以供识别单元，处理单元，调度单元适时调取执行；

识别单元，用于控制摄像机获取目标场景图像，并输入训练后的识别网络，以获取目标场景中的角点及其类型信息，及货物目标框；

处理单元，用于将识别的角点目标，根据其类型信息，将类型一致的角点归集建立集合，并根据其位置信息，分别进行纵、横排序，以建立位置矩阵来判断出对应库位的各个角点；

处理单元，进一步将代表各库位的各个角点依次连接，绘制出库位的包围框，以与货物目标框进行IOU计算，判断库位的占用情况；

调度单元，用于根据库位的占用情况向货运机器人下达调度指令。

通过本发明提供的该空心目标的视觉检测方法及系统、库位管理系统，巧妙的将空心目标识别问题转换为了目标角点的识别问题，即，把空心目标的数个顶点（也可以叫做角点或拐角）当作目标物体，这样就可以规避空心目标中间空心处大面积的非固定特征对四周实线特征空间的挤压，使得训练后的识别网络的识别精度有飞跃性的提升，并且鲁棒性较高，从而根本上解决了现有空心目标检测精度低的问题。此外部分实施例中，本案还巧妙的利用了上述空心目标的检测方案，来实现库位区域框的绘制，并可进一步用于库位占用情况的检测，籍此实现通过视觉检测来进行库位管理的功效。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的空心目标的视觉检测方法步骤示意图；

图2为示例窄边的框型目标（空心目标，即示例的库位）所处环境图像中的状态示意图；

图3为示例现有技术的目标检测方法在图2的基础上对空心目标进行检测时，所标注出的矩形框示意图；

图4为在图3基础上变换环境后（空心目标空心区域的场景变换）无法有效准确识别出空心目标的示意图；

图5为在图2的基础上标注出各个空心目标（库位）角点的示意图；

图6为示例根据角点类型、位置信息，进行归集建立集合，并分别进行纵、横排序，以建立位置矩阵来识别出对应空心目标的各个角点的构思示意图；

图7为使用本发明的空心目标的视觉检测方法后，在图4环境变换的基础上准确识别出各个空心目标所代表的角点的示意图；

图8为本发明的空心目标的视觉检测方法中，识别网络的检测头修改后的结构示意图；

图9为本发明的空心目标的视觉检测系统结构示意图；

图10为本发明的库位管理系统结构示意图。

具体实施方式

为了使本领域的技术人员能够更好的理解本发明的技术方案，下面将结合实施例来对本发明的具体技术方案进行清楚、完整地描述，以助于本领域的技术人员进一步理解本发明。显然，本案所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思及相互不冲突的前提下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的揭露及保护范围。

此外本发明的说明书和权利要求书及附图中的术语“第一”、“第二”、“S100”、“S200”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里描述的那些以外的顺序实施。同时本发明中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。除非另有明确的规定和限定，术语“设置”、“布设”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况，结合现有技术来理解上述术语在本案中的具体含义。

下述示例中，该空心目标如图2、图4所示，以仓库环境下的地面库位标记为例进行说明。

由于此类空心目标有效的固定特征占比小（库位标记），无效的非固定特征占比大。因此本发明的构思在于将库位的四个顶点（也可以叫做角点或拐角）当作目标物体，而不是把整个矩形库位当作目标物体。如此一来，便可规避中间空心处大面积的非固定特征，从而在理论上能够得到更好的识别结果。

但这种做法也会引入了新的问题，例如一个摄像机视角下有X个库位，那么就会检测到4X个角点，这些角点如何组合成对应的库位是一个问题，其中有太多种组合方式，没有什么有效的规则可以约束。

为了解决这个问题，发明人考虑将四个角点当作4个不同的目标物体。而不是当作同一个目标物体（例如柴犬、柯基、哈士奇、阿拉斯加原本都是以犬类这一个目标物体来做目标检测，而现在要将它们区分开来，识别出各自具体的品种，当作四种不同的犬类做目标检测）。这样就可以根据四个角点的类别信息和位置信息来制作约束规则，使其组合成与真实库位对应的虚拟库位。

具体的，请参阅图1至图8所示，本发明提供的该空心目标的视觉检测方法，其步骤包括：

步骤S100 将空心目标的各个角点设为识别目标，并分别标注包括类型及位置信息，以建立数据集。

其中所述角点的类型例如包括：

左上角点、/>

右上角点、/>

右下角点、/>

左下角点中的至少任意三个，这样由3个角点理论上也可以定义出一个完整的矩形，而本示例中推荐采用4个角点，其中位置信息包括：各角点的对角两点坐标/>

。

步骤S200 修改识别网络的检测头以支持递进检测更小目标，并对应尺寸设定目标anchor。

具体的，通过步骤S100在解决上述约束规则问题的基础上，又将同时引来另一个新的问题，虽然在理论上规避了大面积的空心区域这样的非固定特征区域，同时角点们有了各自的细粒度种类信息和位置信息，也便于制定规则进行约束以及整合，但如何准确地检测出这些细粒度的小目标成了关键。

为此本示例中，发明人试图通过修改识别网络的检测头以支持递进检测更小的目标，其步骤包括：

步骤S210 从第二个检测头开始，接着对网络进行上采样，将特征图增大一倍，并和网络结构第二层进行拼接，以和现有特征图尺寸匹配，并且融合更多的浅层特征，之后进入卷积模块，提取特征；

步骤S220 从第三个检测头开始，接着对网络进行上采样，相对步骤S210将特征图再增大一倍，并和网络结构第一层进行拼接，之后进入卷积模块，进一步提取特征。

举例来说，以YOLO V5识别网络为例，其原始的检测头如下：

# YOLOv5 head

head:

[[-1, 1, Conv, [512, 1, 1]],

[-1, 1, nn.Upsample, [None, 2, 'nearest']],

[[-1, 6],1, Concat, [1]], # cat backbone P4

[-1, 3, C3, [512, False]], # 13

[-1, 1, Conv, [256, 1, 1]],

[-1, 1, nn.Upsample, [None, 2, 'nearest']],

[[-1, 4],1, Concat, [1]], # cat backbone P3

[-1, 3, C3, [256, False]], # 17

[-1, 1, Conv, [256, 3, 2]],

[[-1, 14],1, Concat, [1]], # cat head P4

[-1, 3, C3, [512, False]], # 20

[-1, 1, Conv, [512, 3, 2]],

[[-1, 10],1, Concat, [1]], # cat head P5

[-1, 3, C3, [1024, False]], # 23

[[17, 20, 23], 1, Detect, [nc, anchors]], #Detect(P3, P4, P5)

]

其中#17，#20，#23是3个检测头，每层对应的特征图大小分别是分别80*80，40*40，20*20，分别负责检测小，中，大目标。然而由于现有的检测头无法很好的检测到库位的角点，所以要增大检测头的特征图大小。

通过本发明方案修改后的检测头如下：

# YOLOv5 head

head:

[[-1, 1, Conv, [512, 1, 1]], #20*20

[-1, 1, nn.Upsample, [None, 2, 'nearest']], #40*40

[[-1, 6],1, Concat, [1]], # cat backbone #6 40*40

[-1, 3, C3, [512, False]], # 13 40*40

[-1, 1, Conv, [256, 1, 1]], #40*40

[-1, 1, nn.Upsample, [None, 2, 'nearest']],

[[-1, 4],1, Concat, [1]], # cat backbone #4 80*80

[-1, 3, C3, [256, False]], # 17 80*80

[-1, 1, Conv, [512, 1, 1]], #18 80*80

[-1, 1, nn.Upsample, [None, 2, 'nearest']], #19 160*160

[[-1, 2],1, Concat, [1]], #20 cat backbone #2 160*160

[-1, 3, C3, [512, False]], #21 160*160

[-1, 1, Conv, [1024, 1, 1]], #22 160*160

[-1, 1, nn.Upsample, [None, 2, 'nearest']], #23 320*320

[[-1, 0],1, Concat, [1]], #24 cat backbone #0 320*320

[-1, 3, C3, [1024, False]], #25 320*320

[[17, 21, 25], 1, Detect, [nc, anchors]], # Detect

]

如图8所示，上述改动包括：从第二个检测头（#18）开始，接着对网络进行上采样（#19），使其特征图增大一倍，为了和现有特征图尺寸匹配，并且融合更多的浅层特征，和#2进行拼接（#20），之后进行卷积模块（#21），以便更好地提取特征。第三个检测头与第二个检测头思路相似，仍然是上采样（#23），和#0拼接（#24），进一步特征提取（#25）。

经过如此修改过后，3个检测头的输出层输出的特征图大小分别是80*80，160*160，320*320，这样便可分别负责检测小目标，更小目标，更更小目标。

进一步的，为了在训练过程中的优化阶段能够更好的寻找最优解，需要给出更符合小目标的anchor，也是为了配合改动后的三个检测头。

对于已经标注好的数据集，因为标注时记录了每个库位角点的左上角顶点和右下角顶点在该图像坐标系下的坐标，因此可以很轻松的得到库位角点的宽和高，例如：用

表示第i张图像的宽，用/>

表示第i张图像的高，用/>

表示第i张图像第j个库位角点的宽，用/>

表示第i张图像第j个库位角点的高，其中i=1,2,...,N,记/>

为第i张图像中被标注的库位角点的个数，用/>

表示网络模型输入层的图像的宽，用/>

表示网络模型输入层的图像的高；

则记

为anchor的宽，/>

为anchor的高，可得：

，

，

如此，三个检测头对应3组anchor，每组有3个anchor例如：

Anchor：

；

；

，

其中，由于三个检测头处理出来的特征图大小有些差距，所以需要上下延伸，以1/2和2倍为倍数进行缩放后，再以这三个值为基准进行左右延伸，示例以0.8和1.2为倍数进行缩放，目的是为了在训练前给出一个可能更符合模型优化基础的值，便于训练的快速收敛。然而本示例中，该些倍数的选择仅为示例，而非特定数值的约束，本领域技术人员可依据实际情况进行调整。

此外，本示例的目标检测环节是以YOLO V5为示例进行说明，但本领域技术人员也可根据上述示例的构思，以YOLO V3 、YOLO V4为基础进行修改实施，因此任何在本发明示例构思下的同等替换实施方案，皆在本发明的揭露范围中。

步骤S300 基于修改后的网络结构模型，标注数据集。以每个库位的四个角点为目标物体，对左上角点，右上角点，右下角点，左下角点分别命名为

，将标注好的数据集送入网络模型进行训练，得到训练好的模型，以开始识别图像中的角点。

步骤S400 将步骤S300中识别的角点，根据其类型信息，将类型一致的角点归集建立集合，并根据其位置信息，分别进行纵、横排序，以建立位置矩阵来识别出对应空心目标的各个角点。

具体的，其中步骤S400中所述位置矩阵的建立步骤包括：

步骤S410’将检测到的角点，记作集合Q，

，i = 1，2，3，...，n，n为该图像中空心目标的个数；

每个角点还有一组检测到的信息

，

步骤S420’计算各角点中心坐标

，/>

；用点（x，y）表示该角点的中心点坐标，也指代该角点的坐标。

接下来，以一个左上角点为例，用

表示该图像内第i个库位的左上角点的x坐标，/>

表示该图像内第i个库位的左上角点的y坐标，接下来组合这些角点，使其与地面真实库位相匹配。

步骤S430’将集合Q中所有

取出来，放进集合/>

，表示该图像左上角点的集合，以此类推将集合Q中类型一致的角点归集，建立分集合/>

。

步骤S440’分别将各分集合中的角点根据位置信息进行排序，获取排序后的分集合。

其中在优选实施方式中，将各分集合中的角点根据位置信息进行排序的步骤包括：

步骤S441分别将各分集合中的角点的y值进行大小排列，判断前后排序角点间的y值差的绝对值e满足间距阈值E时记为一组，不满足则新建一组。

例如，按

中的角点的y值从小到大进行排序，然后计算前后两个角点的y值的差的绝对值e，若e<E，则这两个数据记为一组，若e>E，则新建一个组，其中E为间距阈值：

，W和H为图像的宽和高，N为该图像库位个数，如此将可把所有角点分成若干个组，每一组就是每一行库位的左上角点的集合。

步骤S442 对经步骤S441处理后的各组中的角点按x值进行大小排列，获取排序后的分集合。

例如，在步骤S441的基础上，对之后每个组的角点按x的大小进行组内从小到大排序，也就是对每行库位按列排好序，到此，便可把所有库位的左上角点按真实库位的顺序从左到右，从上到下排好了；以此类推，对

做同样的处理，便可得到排序后的分集合：

；

；

；

。

步骤S450’将步骤S440’获得的分集合

，组成一个矩阵建立位置矩阵：

，

取

中每一列的四个角点为一组角点q代表一个空心目标，/>

即表示n组角点/空心目标。

此外，在另一优选实施方式中，也可以3个角点来定义出一个空心目标，其中该空心目标可以是矩形，也可以是类似L型或其变体，由于L形目标也有大量的空置区域，因此通过识别出类L型的3个角点也可以代表出其所指的空心目标，此外可以理解的是，该示例下的角点也可以指代类L型目标的3个角点方向上的小块特征区域。

例如步骤S400中所述位置矩阵的建立步骤可包括：

步骤S410将检测到的角点，记作集合Q，

，i = 1，2，3，...，n，n为该图像中空心目标的个数；

步骤S420计算各角点中心坐标

，/>

；

步骤S430将集合Q中类型一致的角点归集，建立分集合

；

；

；

；

步骤S450 建立位置矩阵：

，

取

中每一列的3个角点为一组角点q代表一个空心目标，/>

即表示n组角点/空心目标。

进一步的，为了能够根据识别的角点来建立空心目标的识别框，本方法步骤还包括：

步骤S500 将步骤S400中获取的各组角点内的各个角点依次连接，绘制出空心目标的包围框。

具体的，由于每组角点内的四个角点已经按左上角角点，右上角角点，右下角角点，左下角角点这样的顺序排好，所以可按顺序进行连线，就得到了这个完整的库位识别包围框。如果后续进行库位管理，就可以此为依据做进一步的处理。

另一方面，对应上述方法，如图9所示，本发明还提供了一种空心目标的视觉检测系统，其包括：

对应上述方法，在上述系统的基础上，如图10所示，本发明还提供了一种库位管理系统，其包括：

综上所述，通过本发明提供的该空心目标的视觉检测方法及系统、库位管理系统，巧妙的将空心目标识别问题转换为了目标角点的识别问题，即，把空心目标的数个顶点（也可以叫做角点或拐角）当作目标物体，这样就可以规避空心目标中间空心处大面积的非固定特征对四周实线特征空间的挤压，使得训练后的识别网络的识别精度有飞跃性的提升，并且鲁棒性较高，从而根本上解决了现有空心目标检测精度低的问题。此外部分实施例中，本案还巧妙的利用了上述空心目标的检测方案，来实现库位区域框的绘制，并可进一步用于库位占用情况的检测，籍此实现通过视觉检测来进行库位管理的功效。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

此外实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。