CN116758136B

CN116758136B - 一种货物体积实时在线识别方法、系统、设备以及介质

Info

Publication number: CN116758136B
Application number: CN202311047066.1A
Authority: CN
Inventors: 马佩服; 徐永奎; 王继锴; 郑灵杰; 杨洋
Original assignee: Hangzhou Lanxin Technology Co ltd
Current assignee: Hangzhou Lanxin Technology Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-10
Anticipated expiration: 2043-08-21
Also published as: CN116758136A

Abstract

本发明涉及一种货物体积实时在线识别方法、系统、设备以及介质其中，方法包括：通过相机采集包含货物的设定区域的深度图像和彩色图像；引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图；根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码；利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及背景分离，进而实现对货物体积的确定。由此，本发明具有较高的稳定性和鲁棒性，无论货物放置位置如何，摆放方向如何，都能得到可靠的数据，同时有助于提高工作效率。

Description

一种货物体积实时在线识别方法、系统、设备以及介质

技术领域

本发明涉及货物识别技术领域，尤其涉及一种货物体积实时在线识别方法、系统、设备以及介质。

背景技术

目前分拨中心的分拣作业已由传统的人工分拣逐步向自动分拣转换，而体积计算仍然是行业一大难题。传统的线扫结构光方案成本高昂，在小规模物流中心很难推进商用。

由此，货物分拣大部分是根据快递员直观视觉进行的，包裹异常密集、拥挤已成为常见现象。然而人类直观地检测物体大小，很容易出现错误。随着快递业务量的增加，有必要提出一种有效的货物体积测量方案，对货物体积的精确测量可以帮助快递员更好地进行货物的分拣操作，提高分拣工作的效率。

有一些现有技术针对上述问题作出一定的贡献，如：

“基于深度学习的双目内窥镜三维测量方法（英文）”，余浩等，

《Frontiers of Information Technology & Electronic Engineering》 2022年04期，该文献提出了一种基于深度学习的双目三维（3D）测量方法，该方法使用3D扫描仪获取目标的3D数据，通过3D渲染软件模拟双目摄像机，并创建模拟双目图像数据集来训练3D测量的视差估计模型，从而提供准确可靠的尺寸。

“基于RGB-D相机的单株玉米株高测量方法”，仇瑞承等，《农业机械学报》 2017年S1期，该文献描述了一种使用RGB-D相机测量玉米植株高度的方法，该方法首先使用基于EPI的光场渲染算法处理彩色图像，定位其中心位置，然后对点云数据进行聚类提取植株，并使用骨架检测算法提取植株中心叶片的最高点，最后计算离地面最高点和中心叶片之间的高度差来测量植株高度。石帅等提出了一种基于多视角RGB-D相机的三维表面重建和身体尺寸测量系统。该系统使用Kinect深度相机从三个不同视角（即上视图、左视图和右视图）获取自由行走的点云。使用矩形长方体获取注册参数，重建三个局部点云，然后利用不同方向的点云投影分布来确定测量位置，进而精确测量身体长度、身高、身宽和腹围等关键参数。该系统还开发了极坐标变换来提高腹围测量的精度。

“Assessment and Calibration of a RGB-D Camera (Kinect v2 Sensor)Towards a Potential Use for Close-Range 3D Modeling”，Elise Lachat et al.，《Remote Sensing》，该文献考虑了RGB-D相机在近距离3D建模方面的适用性和准确性等问题。其中研究了最近的Kinect v2传感器在三维重建小物体方面的应用，并讨论了Kinectv2与第一版传感器以及摄影测量术相比的优缺点。

综上，上述方法无论是系统复杂度还是测量速度都很难满足实际实际所需的快速、简便、简单的实现货物体积测量，很难应用到货物分拣的流水线上。

发明内容

（一）要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种货物体积实时在线识别方法、系统、设备以及介质，其解决了现有技术中难以快速、简便以及精确地识别货物体积的技术问题。

（二）技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种货物体积实时在线识别方法，包括：

通过相机采集包含货物的设定区域的深度图像和彩色图像；

引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图；

根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码；

利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及与背景分离，进而实现对货物体积的确定。

可选地，引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图包括：

通过引入中值滤波器去除深度图像中的噪声像素，得到经滤除的深度图像；

采用RGB-D相机在多个位置拍摄预先设置的标定板，得到标定用彩色图像和标定用红外图像；

针对标定用彩色图像和红外图像进行内外参的标定，在排除未满足RGB相对于D的相对位置范围之内的图像以及标定结果误差相差一定阈值的图像之后，得到RGB-D相机的内外参矩阵；

根据张正友标定原理，依据得到的内外参矩阵将彩色图像的像素点与经滤除的深度图像的相对位置对齐，得到经对齐的彩色图。

可选地，根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码之前，还包括：

获取通过相机预先拍摄的数据集；

使用Labelme工具对数据集中的部分图像进行目标货物的标注形成coco格式数据集，以作为预先设置的YOLACT模型的训练集；

将数据集除作为训练集之外的剩余图像经过对齐操作后，以作为预先设置的YOLACT模型的测试集；

其中，数据集包括分辨率为640×480的深度图像和分辨率为1080×1920的四通道RGBA的彩色图像；训练集和测试集中的深度图像和彩色图像的数量均是1:1。

可选地，根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码包括：

基于训练集对YOLACT模型进行训练，生成相应的权重参数；

利用生成的权重参数对经对齐的彩色图进行货物识别和实例分割，得到货物和货物掩码；

使用矩形框标识检测到的货物，并在矩形框上标注相应的置信度；

使用生成的货物掩码对检测到的货物进行标记。

可选地，利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及与背景分离，进而实现对货物体积的确定包括：

利用经对齐的彩色图和经滤除的深度图像提取出货物的边界线；

基于拟合的边线将货物在经对齐的彩色图中与背景分离，

利用得到的货物掩码实现表面提取；

基于提取出的掩码的深度值对货物掩码进行优化，得到新的掩码；

根据新的掩码、经滤除的深度图像、RGB-D相机的内参矩阵以及新的掩码中的像素信息确定货物体积。

可选地，基于提取出的掩码的深度值对货物掩码进行优化，得到新的掩码包括：

初始化一个与深度图分辨率相同的numpy数组用于存放新的掩码；

提取深度图中掩码部分的所有深度值，求取所有深度值中的中位数作为货物掩码的上表面深度值；

依据numpy数组和货物掩码的上表面深度值得到新的掩码。

可选地，根据新的掩码、经滤除的深度图像、RGB-D相机的内参矩阵以及新的掩码中的像素信息确定货物体积包括：

根据新的掩码、经滤除的深度图像和RGB-D相机的内参矩阵，求取经滤除的深度图像中任意两个像素点之间的实际距离；

从新的掩码中选取处于掩码中最长的连续行中的两个坐标点，计算两个坐标点在世界坐标系下的位置，计算两个坐标点之间的距离；

将两个坐标点之间的距离除以所间隔的非零像素点的数量得到每个像素的长度；

根据每个像素的长度得到每个像素的面积；

基于经滤除的深度图像、深度相机的内参，结合新的掩码中非零像素点的数量、非零像素点的高度和每个像素的面积来计算货物的体积。

第二方面，本发明实施例提供一种货物体积实时在线识别系统，包括：

图像采集模块，用于通过深度相机采集包含货物的设定区域的深度图像和彩色图像；

噪声滤除与图像对齐模块，用于引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图；

模型调用与掩码生成模块，用于根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码；

货物体积求取模块，用于利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及与背景分离，进而实现对货物体积的确定。

第三方面，本发明实施例提供一种货物体积实时在线识别设备，包括：至少一个数据库；RGB-D深度相机，用于采集包含货物的设定区域的深度图像和彩色图像并传输至数据库中；以及，与所述至少一个数据库通信连接的存储器；其中，所述存储器存储有可被所述至少一个数据库执行的指令，所述指令被所述至少一个数据库执行，以使所述至少一个数据库能够执行如上所述的货物体积实时在线识别方法。

第四方面，本发明实施例提供一种计算机可读介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上所述的货物体积实时在线识别方法。

（三）有益效果

本发明的有益效果是：本发明实现了基于RGB-D相机的深度图可视化及深度数据到RGB数据的对齐、基于Yolact模型的RGB图货物识别和实例级分割以及根据深度图像和掩码信息拟合物品边缘和上表面，最终在不对流水线本身做较大修改的前提下，实施货物体积的快速、简便以及准确地测量。由此，本发明具有较高的稳定性和鲁棒性，无论货物放置位置如何，摆放方向如何，都能得到可靠的数据，同时有助于提高工作效率。

附图说明

图1为本发明实施例提供的一种货物体积实时在线识别方法的流程示意图；

图2为本发明实施例提供的一种货物体积实时在线识别方法的深度图像与彩色图像标定流程示意图；

图3为本发明实施例提供的一种货物体积实时在线识别方法的步骤S2的具体流程示意图；

图4中的（a）为本发明实施例提供的一种货物体积实时在线识别方法的未中值滤波的深度图像；

图4中的（b）为图4中（a）的实施例提供的中值滤波后的深度图像；

图5中的（a）为本发明实施例提供的一种货物体积实时在线识别方法的未对齐的彩色图像；

图5中的（b）为图5中（a）的实施例提供的经对齐的彩色图像；

图6为本发明实施例提供的一种货物体积实时在线识别方法的对齐后生成的彩色点云文件；

图7为本发明实施例提供的一种货物体积实时在线识别方法的步骤S3之前的具体流程示意图；

图8为本发明实施例提供的一种货物体积实时在线识别方法的货物标注示意图；

图9为本发明实施例提供的一种货物体积实时在线识别方法的步骤S3的具体流程示意图；

图10为本发明实施例提供的一种货物体积实时在线识别方法的基于YOLACT模型的彩色图像货物识别流程图；

图11为本发明实施例提供的一种货物体积实时在线识别方法的货物识别结果示意图；

图12为本发明实施例提供的一种货物体积实时在线识别方法的基于对齐图像与掩码的货物体积计算流程图；

图13为本发明实施例提供的一种货物体积实时在线识别方法的步骤S4的具体流程示意图；

图14的（a）为本发明实施例提供的一种货物体积实时在线识别方法的优化前的掩码示意图；

图14的（b）为图14的（a）提供的实施例中优化后的掩码示意图。

具体实施方式

为了更好地解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在此之前，为了便于理解本发明提供的技术方案，下面先介绍一些概念。

边线拟合（Edge Fitting）：边线拟合是指从图像或点云数据中提取出物体或区域的边界线。这可以通过各种边缘检测算法来实现，如Canny边缘检测、Sobel算子等。这些算法可以识别出图像中灰度值或点云中深度变化较大的位置，从而生成边缘线或边缘点集合。

表面提取（Surface Extraction）：表面提取是指从点云数据或体素网格数据中提取出物体或场景的表面信息。这可以使用各种算法来实现，如点云配准、点云聚类、三角化等。通过这些算法，可以将离散的点云数据转换为连续的三维表面表示，从而实现对物体的建模和分析。

背景分离（Background Separation）：背景分离是指将图像或点云数据中的前景物体与背景进行分离。这可以通过背景建模、图像分割、阈值分割等方法来实现。这些方法根据像素的颜色、纹理、深度或其他特征将前景物体从背景中分离出来，用于进一步的分析和处理。

如图1所示，本发明实施例提出的一种货物体积实时在线识别方法，包括：首先，通过相机采集包含货物的设定区域的深度图像和彩色图像；其次，引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图；再者，根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码；最后，利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及与背景分离，进而实现对货物体积的确定。

本发明实现了基于RGB-D相机的深度图可视化及深度数据到RGB数据的对齐、基于Yolact模型的RGB图货物识别和实例级分割以及根据深度图像和掩码信息拟合物品边缘和上表面，最终在不对流水线本身做较大修改的前提下，实施货物体积的快速、简便以及准确地测量。由此，本发明具有较高的稳定性和鲁棒性，无论货物放置位置如何，摆放方向如何，都能得到可靠的数据，同时有助于提高工作效率。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

具体地，本发明提供一种货物体积实时在线识别方法，其包括：

S1、通过相机采集包含货物的设定区域的深度图像和彩色图像。

本发明采用型号为Kinect V2的RGB-D相机进行拍摄，得到的深度图和红外图的分辨率为640*480，有效距离约为0.3米到5米。拍摄到的RGB图片为四通道图片，分辨率为1920*1080。该RGB-D相机的具体参数如表1所示：

表1 Kinect v2参数表

参数表	典型值
		彩色相机分辨率	1920×1080
彩色相机fps	30fps
		深度相机分辨率	640×480
彩色相机fps	30fps
		水平检测角度	90度
垂直检测角度	70度

S2、引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图。参考图2，步骤S2主要实现深度图的中值滤波，对深度相机和彩色相机的内部和外部参数标定；并将处理好的深度图图像和彩色图像对齐。同时，还可以生成彩色点云文件，具体通过如下步骤得到：基于经滤除的深度图像生成点云文件，并采用对齐后的彩色图像对点云进行着色得到彩色点云文件。

进一步地，如图3所示，步骤S2包括：

S21、通过引入中值滤波器来去除深度图像中的噪声像素，得到经滤除的深度图像。

由于原始深度图存在边缘噪声，且深度图中心位置有可能无法采集到深度信息，因此需要有效的滤波方法来使深度图更加平滑，并消除其中的噪声。

中值滤波的基本原理是把一个像素点的值替换为周围像素点的中值，从而使得图像能够更加地平滑。中值的具体定义如下：

若为一组序列，将它们按大小排列为：/>。

则该序列的中值y为：

（1）

当数列或像素为一维时，中值滤波的实现方法是使用一维滑动窗口，窗口大小为奇数。在窗口移动的过程中，将窗口中的值进行排序并得到其中值，然后用中值去替换滑动窗口中间像素的值，以此实现中值滤波。设输入序列为，I为自然数集合或子集，窗口长度为n且令/>，则滤波器的输出为：

（2）

其中，x _i点的中值仅与滑动窗口前后像素的中值有关，y _i为序列x _i的中值。

再将中值滤波的概念从一维推广到二维，在一维中使用的简单滑动窗口也将变成二维图形，如圆形、正方形、矩形等，由此，定义二维中值滤波器如下：

设表示数字图像各点的灰度值，A表示滤波窗口，y _ij表示A窗口在x _ij点的中值，则：

（3）

式（3）表示滤波窗口是A在x _ij点处的中值表达式。

在具体实施中，本发明使用Python的OpenCV库进行了滤波处理。图4的（a）和（b）展示了中值滤波前后的效果。滤波前，图片边缘位置存在噪声，货物表面也有许多因环境和相机原因未能采集到深度值的像素点。经过滤波核大小为5的中值滤波，周围孤立的噪声点被消除了，图像也变得更加平滑。

S22、采用RGB-D相机在多个位置拍摄预先设置的标定板，得到标定用彩色图像和标定用红外图像。

在图片中能够获得一些像素值，但无法确定它们与实际世界长度的具体对应关系。而相机标定可帮助将这些像素值转换为实际长度，以准确计算物体之间的距离，并将深度图和RGB图的坐标统一到同一个坐标系下。

在相机成像系统中，通常涉及以下四种坐标系：世界坐标系、相机坐标系、图像坐标系和像素坐标系。生成点云和图像对齐操作中，涉及到将世界坐标系和像素坐标系进行转换的问题。世界坐标系可通过刚体变换转换为相机坐标系，而相机坐标系可通过投影透视变换转换为图像坐标系。图像坐标系可通过仿射变换转换为像素坐标系。世界坐标系与像素坐标系之间的转换关系如下：

（4）

其中，为在世界坐标系下一点的物理坐标，/>为该点对应在像素坐标系下的像素坐标，Z为尺度因子。

S23、针对标定用彩色图像和红外图像进行内外参的标定，在排除未满足RGB相对于D的相对位置范围之内的图像以及标定结果误差相差一定阈值的图像之后，得到RGB-D相机的内外参矩阵。

继而，将如下矩阵称为相机的内参矩阵，内参矩阵取决于相机的内部参数：

（5）

其中，f为像距，dX，dY分别表示X，Y方向上的一个像素在相机感光板上的物理长度，u ₀，v ₀分别表示相机感光板中心在像素坐标系下的坐标，θ表示感光板的横边和纵边之间的角度（90°表示无误差）。

矩阵为相机的外参矩阵，外参矩阵由相机坐标系与世界坐标系之间的相对位置决定，R表示旋转矩阵，T表示平移矢量。即单点无畸变的相机成像模型如下：

（6）

在不同位置同时拍摄标定板，计算内外参矩阵主要分为一下三个步骤：求解内参矩阵与外参矩阵的积，求解内参矩阵，求解外参矩阵，可以使用Matlab R2022b中的CameraCalibrator工具对相机对彩色图与红外图进行内外参的标定，排除轴和轴方向出错以及标定结果误差过大的图片，由此得到彩色相机与深度相机的内外参值，并且计算深度相机到彩色相机的旋转矩阵和平移向量。标定结束后，可以得到相机的内参和外参。对于同一幅棋盘格的外参，两个相机存在如下的刚体变换关系：

（7）

（8）

S24、根据张正友标定原理，依据得到的内外参矩阵将彩色图像的像素点与经滤除的深度图像的相对位置对齐，得到经对齐的彩色图。

张正友相机标定法是张正友教授在1998年提出的基于单平面棋盘格的相机标定方法。该方法仅需要准备一张棋盘格，然后使用不同的角度拍摄该棋盘格的彩色图和红外图即可计算出彩色相机和深度相机的内外参数值。该方法避免了传统标定方法中需要高精度三维标定对象的缺陷，同时提高了标定结果的精度并简化了标定过程。

张正友标定法将世界坐标系固定于棋盘格上，因此，对于棋盘格上的任意位置，其物理坐标的高度为0即W=0，在打印标定板时，可以自行设定棋盘格的大小，并固定下X轴和Y轴的方向。接着，就可以计算出每一个角点在世界坐标系下的物理坐标为。通过利用这些信息，相机的内外参矩阵可以被标定出来。

获取相机的内外参矩阵后，就可以利用这些参数将彩色图像的像素点对齐到深度图像中，进而根据深度图像生成点云文件，并采用对齐后的彩色图像对点云进行着色。像素坐标系到世界坐标系的坐标转换公式如下：

（9）

根据张正友标定原理，利用彩色相机和深度相机的内外参，可以将彩色图的像素坐标先转换到世界坐标系，再转换到深度图的像素坐标系中。本发明使用Python中的NumPy库和OpenCV库实现了图片对齐和彩色点云生成。

原本的彩色图与对齐后的彩色图如下图5中的（a）和（b），对齐后的彩色点云文件如图6所示。

S3、根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码。

进一步地，步骤S3之前，如图7和图10所示，还包括：

F31、获取通过相机预先拍摄的数据集；其中，数据集包括分辨率为640×480的深度图像和分辨率为1080×1920的四通道RGBA的彩色图像。

F32、使用Labelme工具对数据集中的部分图像进行目标货物的标注形成coco格式数据集，以作为预先设置的YOLACT模型的训练集。

F33、将数据集除作为训练集之外的剩余图像经过对齐操作后，以作为预先设置的YOLACT模型的测试集。其中，训练集和测试集中的深度图像和彩色图像的数量均是1:1。

本发明使用RGB-D深度相机进行数据采集，得到数据集。深度图采集分辨率为640×480的PGM文件，彩色图分辨率为1080×1920的四通道RGBA文件并保存为PNG格式。拍摄环境模拟工业应用环境，将货物平放在地面上并从上方使用相机拍摄。YOLACT模型支持小样本训练，因此，采集了约1500张照片，如图8所示使用Labelme对其中大约1200张照片进行了标注，以此作为用于训练YOLACT模型的数据集。其余300张经过对齐后被用于测试。

Labelme是一个常用的图像标注软件，能够将标注结构转换为COCO格式，该软件使用Python语言编写。标注之前需要将采集到的RGBA照片转换为RGB格式。对于每一张需要标注的照片，可点击左侧的"Create Polygons"按钮标记目标货物，并添加“goods”标签。标注完成后，还需编写label.txt文件，其中包含背景和使用的标签。最终，将数据集转换为YOLACT支持的COCO格式，可使用labelme2coco.py在Labelme中实现。

进一步地，如图9和图10所示，步骤S3包括：

S31、基于训练集对YOLACT模型进行训练，生成相应的权重参数。

S32、利用生成的权重参数对经对齐的彩色图进行货物识别和实例分割，得到货物和货物掩码。

S33、使用矩形框标识检测到的货物，并在矩形框上标注相应的置信度。

S34、使用生成的货物掩码对检测到的货物进行标记。

因为流水线对实时性数据分析的要求，因此采用yolact进行实例分割。YOLACT(You Only Look At CoefficienTs) 是第一个真正意义上的实时（大于或等于30fps）实例分割模型。YOLACT模型采用了两个分支网络来确保速度。其中之一是Prediction Head分支，用于生成各个候选框类别的置信度、anchor的位置和prototype mask的系数。另一个网络分支是Protonet，由FPN的最底层作为输入，生成多个prototype mask。将这两个网络的结果进行分割并进行二值化，即可得到最终的实例分割结果。

1、预处理：YOLACT模型需要对输入图像进行预处理，包括将其调整为固定的大小，并进行归一化处理，使其尺度范围在一定范围内。

2.、特征提取器：YOLACT模型中采用了名为ResNet-101的卷积神经网络来提取输入图像的特征。该网络包含五层卷积，每一层的大小不同。这一设计使得它可以检测到不同大小的物体。

3、特征金字塔：在完成特征提取后，YOLACT采用特征金字塔机制对图像特征进行处理。该机制使得YOLACT能够在不同尺度下检测目标，以更好地适应不同大小的目标。FPN网络的P3、P4、P5层分别对应于卷积层的C3、C4、C5。P3作为Protonet网络的输入数据，P6通过从P5执行卷积操作而生成，P7从P6卷积得到。这些层的大小和感受野都不同，从而可以检测到不同大小的物体。同时，P3~P7也被送入Prediction Head。

4、原型网络：YOLACT中的预测掩码方面采用ProtoNet模型，其输入为P3，输出为掩码，其维度为：138×138×k，即k个大小为138×138的prototype mask。

5、预测头：Prediction Head 的输入来自于FPN中的不同尺寸特征图。对于每个特征图，会进行卷积和上采样操作，以将其分辨率提升至原始输入图像的尺寸并生成maskcoefficient和bounding box。

6、非极大值抑制：经过Prediction Head分支网络后，会产生许多anchor。其中可能存在一些重叠或置信度较低的anchor。为了保证质量，YOLACT模型使用非极大值抑制（NMS）对候选框进行筛选。

7、合并掩码：NMS 操作过后，存活下来的候选框将进行掩码合并操作。将两个分支网络的结果进行线性组合后，可获得图像中每个目标物体的掩码。

8、后处理：Crop 操作是指将掩码边界以外的部分清零，Crop 操作是指将掩码边界以外的部分清零。Threshold操作是指对生成的mask进行二值化处理，其阈值为 0.5。

值得一提的是，本发明的实验环境基于Windows 10操作系统，Python版本选用3.7，CUDA版本为11.7，而CUDNN则选用8.7.0版本。硬件环境方面为处理器为Intel i79750H，内存选用8GB DDR4 2666MHz*2，显卡为NVIDIA GeForce GTX 1660 Ti（6GB）。

在网络训练阶段，使用ResNet101作为主干网络 (Backbone)。YOLACT训练参数值如下：批处理参数设置为2，在执行命令时明确表示；学习率参数设置为(6000, 10000)；最大迭代次数参数设置为12000。

在网络训练完成后，将生成相应的权重参数。

利用生成的权重参数，对对齐后的RGB图片进行检测。检测结果如图11所示，使用矩形框标识检测的物体，并在矩形框上标注相应的置信度，其中图11中的g：1.00 表示识别结果，1.00表示可信，0代表不可信，数值越大可信度越高。此外，还利用生成的掩码对检测得到的物体进行了红色透明标记。YOLACT模型在实例分割方面表现优秀，其识别结果与实际货物的边缘基本吻合。但在部分被检测到的图像的边缘处，可能会存在缺失或出现误差的情况。

S4、利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及背景分离，进而实现对货物体积的确定。本发明主要在YOLACT识别出的货物掩码的基础上，优化货物上表面掩码，根据深度图信息计算出相机到货物上表面和地面的距离。接着，根据相机内参计算对齐后的图片中单个像素点所占面积，最终计算出货物的体积，具体步骤如图12所示。

进一步地，如图13所示，步骤S4包括：

S41、利用经对齐的彩色图和经滤除的深度图像提取出货物的边界线；基于拟合的边线将货物在经对齐的彩色图中与背景分离，利用得到的货物掩码实现表面提取。

S42、基于提取出的掩码的深度值对货物掩码进行优化，得到新的掩码。

更进一步地，步骤S42包括：

S421、初始化一个与深度图分辨率相同的numpy数组用于存放新的掩码。

S422、提取深度图中掩码部分的所有深度值，求取所有深度值中的中位数作为货物掩码的上表面深度值。

S423、依据numpy数组和货物掩码的上表面深度值得到新的掩码。

在YOLACT进行实例分割过程中，会生成货物表面的掩码。然而，由于对齐后的彩色图、生成的掩码、以及深度图之间存在一定误差，并且深度图本身存在噪声，而且相机中心处的深度无法被捕捉。因此，需要对生成的掩码进行优化。具体操作步骤为：首先，初始化一个与深度图分辨率相同的numpy数组用于存放新的掩码；然后，提取深度图中掩码部分的深度值，取这些数值中的中位数作为货物上表面的深度值；最后，根据上表面的深度值确定新的掩码。通过对比优化前和优化后的掩码如图14的（a）和图14的（b）所示，其中，图14中的g：1.00与图11中的含义一致。

S43、根据新的掩码、经滤除的深度图像、RGB-D相机的内参矩阵以及新的掩码中的像素信息确定货物体积。

更进一步地，步骤S43包括：

S431、根据新的掩码、经滤除的深度图像和RGB-D相机的内参矩阵，求取经滤除的深度图像中任意两个像素点之间的实际距离。

S432、从新的掩码中选取处于掩码中最长的连续行中的两个坐标点，计算两个坐标点在世界坐标系下的位置，计算两个坐标点之间的距离。

S433、将两个坐标点之间的距离除以所间隔的非零像素点的数量得到每个像素的长度。

S434、根据每个像素的长度得到每个像素的面积。

S435、基于经滤除的深度图像、深度相机的内参，结合新的掩码中非零像素点的数量、非零像素点的高度和每个像素的面积来计算货物的体积。

根据优化后的掩码、深度图和RGB-D相机的内参矩阵，可以计算深度图中任意两个像素点之间的实际距离。首先，从掩码中选择两个坐标点。这两个点在掩码中应该位于一行中，这一行长度为掩码中最长的连续行。然后，计算这两个点在世界坐标系下的位置，并根据勾股定理计算它们之间的距离。由于这两个点在同一平面上，因此将距离除以像素数可以得到每个像素的长度。这可以帮助计算每个像素的面积。最后，可以根据掩码中非零像素点的数量、高度和每个像素的面积来计算货物的体积。

在一具体实施例中，通过将同一个货物以不同方式摆放于地面进行拍摄并计算体积，并将其与实际体积进行对比。该货物的长宽高分别为0.19m、0.155m和0.325m，体积约为0.00957m³。通过计算得到16组数据的平均误差为0.65％。结果表明，使用的体积测量算法具有较高的稳定性，无论货物放置位置如何，都能得到可靠的数据。此外，该方法易于工人操作，无需将货物摆放出特定方向，有助于提高工作效率。

此外，本发明实施例提供一种货物体积实时在线识别系统，包括：

图像采集模块，用于通过深度相机采集包含货物的设定区域的深度图像和彩色图像。

噪声滤除与图像对齐模块，用于引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图和彩色点云文件。

模型调用与掩码生成模块，用于根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码。

货物体积求取模块，用于利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及背景分离，进而实现对货物体积的确定。

以及，本发明实施例提供一种货物体积实时在线识别设备，包括：至少一个数据库；RGB-D深度相机，用于采集包含货物的设定区域的深度图像和彩色图像并传输至数据库中；以及，与所述至少一个数据库通信连接的存储器；其中，所述存储器存储有可被所述至少一个数据库执行的指令，所述指令被所述至少一个数据库执行，以使所述至少一个数据库能够执行如上所述的货物体积实时在线识别方法。

同时，本发明实施例提供一种计算机可读介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上所述的货物体积实时在线识别方法。

综上所述，本发明公开一种货物体积实时在线识别方法、系统、设备以及介质，本发明使用自研RGBD深度相机作为数据采集工具，拍摄货物的深度图和彩色图像。随后，采用滤波技术过滤深度图中的噪点，并将滤波后的深度图像与彩色图像对齐，生成彩色点云文件。接着，使用YOLACT模型来识别彩色图像中的物品，并根据深度图像和掩码信息拟合物品边缘和上表面，最终实现流水线上货物体积的实施快速测量。

基于上述实施方案，其主要实现了以下几点：

1、使用Labelme 工具对K级RGB 货物数据进行标注实现resnet少量数据的实例级分割。

2、在得到的货物识别 RGB 图的基础上，引入中值滤波器来去除深度图中的噪声像素，根据相机内外参将经过处理后的 RGB 图和深度图进行 RGB-D 对齐。

3、使用 YOLACT 分析，获得掩码文件。然后根据深度信息对生成的掩码文件进行优化，以拟合货物表面。最后，通过计算单个像素点的大小、非零像素点数量和货物高度等信息计算得到货物的体积。

4、该方法实测速度可达60fps，检测准度高于1%，满足常规物流货物体积测量需求。

由于本发明上述实施例所描述的系统/装置，为实施本发明上述实施例的方法所采用的系统/装置，故而基于本发明上述实施例所描述的方法，本领域所属技术人员能够了解该系统/装置的具体结构及变形，因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统/装置都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。

应当注意的是，位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，技术方案应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种货物体积实时在线识别方法，其特征在于，包括：

通过相机采集包含货物的设定区域的深度图像和彩色图像；

利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及背景分离，进而实现对货物体积的确定；

其中，

相机的内外参通过如下步骤得到：

利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及背景分离，进而实现对货物体积的确定包括：

基于拟合的边线将货物在经对齐的彩色图中与背景分离；

利用得到的货物掩码实现表面提取；

2.如权利要求1所述的货物体积实时在线识别方法，其特征在于，引入中值滤波器来去除深度图像中的噪声像素，结合相机的内外参将彩色图像和经滤除的深度图像对齐，得到经对齐的彩色图包括：

3.如权利要求1所述的货物体积实时在线识别方法，其特征在于，根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码之前，还包括：

获取通过相机预先拍摄的数据集；

其中，数据集包括分辨率为640×480的深度图像和分辨率为1080×1920的四通道RGBA的彩色图像，训练集和测试集中的深度图像和彩色图像的数量均是1:1。

4.如权利要求3所述的货物体积实时在线识别方法，其特征在于，根据货物与非货物的颜色光照灰度等差，使用预先训练的YOLACT模型对经对齐的彩色图进行实例分割，并生成货物掩码包括：

基于训练集对YOLACT模型进行训练，生成相应的权重参数；

使用生成的货物掩码对检测到的货物进行标记。

5.如权利要求1所述的货物体积实时在线识别方法，其特征在于，基于提取出的掩码的深度值对货物掩码进行优化，得到新的掩码包括：

依据numpy数组和货物掩码的上表面深度值得到新的掩码。

6.如权利要求1所述的货物体积实时在线识别方法，其特征在于，根据新的掩码、经滤除的深度图像、RGB-D相机的内参矩阵以及新的掩码中的像素信息确定货物体积包括：

根据每个像素的长度得到每个像素的面积；

7.一种货物体积实时在线识别系统，其特征在于，包括：

货物体积求取模块，用于利用经对齐的彩色图、经滤除的深度图像以及货物掩码进行货物的边线拟合、表面提取以及背景分离，进而实现对货物体积的确定；

其中，

相机的内外参通过如下步骤得到：

基于拟合的边线将货物在经对齐的彩色图中与背景分离；

利用得到的货物掩码实现表面提取；

8.一种货物体积实时在线识别设备，其特征在于，包括：

至少一个数据库；

RGB-D深度相机，用于采集包含货物的设定区域的深度图像和彩色图像并传输至数据库中；以及，

与所述至少一个数据库通信连接的存储器；

其中，所述存储器存储有可被所述至少一个数据库执行的指令，所述指令被所述至少一个数据库执行，以使所述至少一个数据库能够执行如权利要求1-6任一项所述的货物体积实时在线识别方法。

9.一种计算机可读介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-6任一项所述的货物体积实时在线识别方法。