CN116978008A

CN116978008A - 一种融合rgbd的半监督目标检测方法和系统

Info

Publication number: CN116978008A
Application number: CN202310852413.1A
Authority: CN
Inventors: 吴波; 郑随兵
Original assignee: Realman Intelligent Technology Beijing Co ltd
Current assignee: Realman Intelligent Technology Beijing Co ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-31
Anticipated expiration: 2043-07-12
Also published as: CN116978008B

Abstract

本发明涉及图片处理技术领域，具体涉及一种融合RGBD的半监督目标检测方法和系统，包括：利用第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络；根据第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络；采用所述第二目标检测网络对待检测的深度图像进行目标检测。本发明两次提高原始目标检测网络检测精度，融合深度信息，相比基于纯RGB图像的目标检测网络鲁棒性更好，本发明的目标检测网络检测精度更高；应用范围更广，受环境影响小，对光线变化不敏感，可以在光线较弱的环境使用；本发明仅标注少量RGB图像，不需要标注深度图像，大大减少标注数据的人力成本和时间成本。

Description

一种融合RGBD的半监督目标检测方法和系统

技术领域

本发明涉及图片处理技术领域，具体涉及一种融合RGBD的半监督目标检测方法和系统。

背景技术

在计算机视觉领域，基于深度学习的目标检测已经成为一个重要的研究方向。传统目标检测网络严重依赖于标注好的大规模数据集，完成图像标注需要耗费大量时间和人力成本，而实际生产生活中存在大量未标注图像，且易于获取。RGBD数据融合了RGB图像和深度图像的信息，可以使网络达到更高的物体检测精度。深度图像可以提供物体的距离和几何信息，有助于更准确地定位和分割物体。然而，在RGBD图像中，需要对物体的边界、形状和深度信息进行标注，因此市面上标注好的大规模RGBD多模态数据集较少。目前，目标检测网络普遍仅使用RGB图像训练，且普遍基于全监督学习，严重依赖于标注好的大规模数据集，传统目标检测网络严重依赖于标注好的大规模数据集，而标注大规模数据集需要耗费大量时间和人力成本传统目标检测网络仅使用RGB图像训练，检测精度弱于使用RGBD数据训练传统目标检测网络由于使用RGB图像训练，受环境影响大，对光线变化敏感，在光线较弱的环境中检测效果较差深度图像标注困难，市面上标注好的大规模RGBD多模态数据集较少，制约了RGBD目标检测网络的发展。

发明内容

（一）发明目的

本发明的目的是提供一种降低图像标注成本同时提高深度图像检测精度的融合RGBD的半监督目标检测方法和系统。

（二）技术方案

为解决上述问题，本发明提供了一种融合RGBD的半监督目标检测方法，包括：

获取第一样本RGB图像，并对所述第一样本RGB图像的待标注物体进行标注，获得第一标注结果；

利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络；

获取第二样本RGB图像和样本深度图像，将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图，并通过所述第一目标检测网络对所述灰度图进行标注，获得第二标注结果；

根据所述第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络；

采用所述第二目标检测网络对待检测的深度图像进行目标检测。

本发明的另一个方面，优选地，利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络，包括：

将所述第一样本RGB图像输入原始目标检测网络，以通过原始目标检测网络得到图像中待标注物品的类别预测结果；

根据所述类别预测结果和第一标注结果按照预设的第一损失函数计算第一损失；

根据所述第一损失计算第一参数修正梯度；

根据所述第一参数修正梯度对所述原始目标检测网络进行修正，获得第一目标检测网络。

本发明的另一个方面，优选地，所述原始目标检测网络通过如下步骤得到类别预测结果：

接收输入的图像数据；

将输入的图像数据生成第一区域集，所述第一区域集包括若干个第一子区域；

依次计算第一区域集里每个相邻第一子区域的相似度，获得若干个第一相似度数值；

选定第一相似度数值最高的两个相邻第一子区域，将其合并为第二子区域，计算第二子区域与若干个第一子区域的相似度，获得若干个第二相似度数值；

获得与第二子区域最高的第一子区域合并；

生成区域候选框；其中，所述相似度计算包括纹理、颜色、尺寸和形状；

对生成的区域候选框进行非极大值抑制；

根据非极大值抑制的结果生成区域候选框中物品类别预测结果。

本发明的另一个方面，优选地，所述预设的第一损失函数包括：

其中：表示分类损失函数，/>表示边界框损失函数，/>是分类器预测的softmax概率分布/>对应目标真实类别标签，/>对应边界框回归器预测的对应类别/>的回归参数，/>对应真实目标框的回归参数，λ为权重系数，[u≥1]表示边界框的种类。

本发明的另一个方面，优选地，所述预设的颜色转换算法包括：

其中，Gray表示灰度值，R表示第二样本RGB图像的红通道的颜色，G表示第二样本RGB图像的绿通道的颜色，B表示第二样本RGB图像的蓝三个通道的颜色。

本发明的另一个方面，优选地，通过所述第一目标检测网络对所述灰度图进行标注，获得第二标注结果，包括：

将所述灰度图输入所述第一目标检测网络，生成灰度图中待标注物品的类别预测结果，所述类别预测结果为第二标注结果；

将所述第二标注结果设置为类别伪标签。

本发明的另一个方面，优选地，根据所述第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络，包括：

将所述样本深度图像输入所述第一目标检测网络，以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果；

根据所述预测结果和类别伪标签按照预设的第二损失函数计算第二损失；

根据所述第二损失计算第二参数修正梯度；

根据所述第二参数修正梯度对所述第一目标检测网络进行修正，获得第二目标检测网络。

本发明的另一个方面，优选地，所述预设的第二损失函数包括：

其中,λ_u表示未标记损失的相对权重，表示保留伪标签的阈值；/>，表示模型在/>上的预测类分布，α表示颜色转换算法，/>表示样本的伪标签，H表示交叉熵损失；/>是未标记样本的批次大小。

本发明的另一个方面，优选地，所述方法还包括：

对所述第二目标检测网络根据预设的判断标准判断是否收敛；

若收敛则结束，若未收敛则重复构建第一目标检测网络和第二目标检测网络直至收敛，获得收敛的目标检测网络；

其中，所述预设的判断标准包括设置若干个性能指标曲线；

分别设置若干个性能指标曲线相应的收敛判断条件；

根据若干个收敛判断条件分别判断目标检测网络是否收敛；

若不符合若干个性能指标曲线中任何一个性能指标曲线的收敛判断条件，则判定目标检测网络未收敛；

若符合若干个性能指标曲线中所有性能指标曲线的收敛判断条件；则判定目标检测网络收敛。

本发明的另一个方面，优选地，一种融合RGBD的半监督目标检测系统，包括：

第一获取模块：获取第一样本RGB图像，并对所述第一样本RGB图像的待标注物体进行标注，获得第一标注结果；

第一构建模块：利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络；

第二获取模块：获取第二样本RGB图像和样本深度图像，将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图，并通过所述第一目标检测网络对所述灰度图进行标注，获得第二标注结果；

第二构建模块：根据所述第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络；

目标检测模块：采用所述第二目标检测网络对待检测的深度图像进行目标检测。

（三）有益效果

本发明的上述技术方案具有如下有益的技术效果：

本发明的原始目标检测网络先经过第一样本RBG图像得到第一目标检测网络，第一次提高了原始目标检测网络检测精度，再将第二样本RBG图像根据灰度图的预测结果作为第二标注结果，和样本深度图像的标注进行参数修正，第二次提高了原始目标检测网络检测精度，融合深度信息，相比基于纯RGB图像的目标检测网络鲁棒性更好，本发明的目标检测网络检测精度更高；应用范围更广，受环境影响小，对光线变化不敏感，可以在光线较弱的环境使用；本发明仅标注少量RGB图像，不需要标注深度图像，大大减少标注数据的人力成本和时间成本。

附图说明

图1是本发明一个实施例的整体流程示意图；

图2是本发明一个实施例的构建第一目标检测网络流程示意图；

图3是本发明一个实施例的构建第二目标检测网络示意图；

图4是本发明一个实施例的目标检测网络训练性能曲线示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的，其中为了清楚的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

实施例一

一种融合RGBD的半监督目标检测方法，图1是本发明一个实施例的整体流程示意图；如图1所示，包括：

获取第一样本RGB图像，并对所述第一样本RGB图像的待标注物体进行标注，获得第一标注结果；此处不限制获取第一样本RGB图像的方式，可选的本实施例中，获取方式为双目结构光红外相机，进一步的，使用双目结构光红外相机在正面光照、侧面光照和背面光照等不同光线环境下，采用俯视、平视、仰视等不同视角，分别在20cm、25cm、30cm、35cm和40cm距离下采集第一样本RGB图像；进一步的，选取的双目结构光红外相机具体型号为RealSense D435i；进一步，采集的RGB图像保存格式为png；此处不限制对所述第一样本RGB图像的待标注物体进行标注的方式，可选的，本实施例中，使用labme软件对第一样本RGB图像进行标注；

利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络；此处不限制构建第一目标检测网络的具体内容，可选的，为经过训练得到第一目标检测网络；可选的，本实施例中，根据第一样本RGB图像和第一标注结果，构建有监督目标检测网络训练用的第一训练集；利用所述第一训练集对原始目标检测网络进行第一训练，图2示出了本发明一个实施例的构建第一目标检测网络流程示意图；如图2所示，将所述第一样本RGB图像输入原始目标检测网络，以通过原始目标检测网络得到图像中待标注物品的类别预测结果；根据所述预测结果和第一标注结果按照预设的第一损失函数计算第一损失；根据所述第一损失计算第一参数修正梯度；根据所述第一参数修正梯度对所述原始目标检测网络进行修正，获得第一目标检测网络。

此处不限制第一损失函数的具体内容，可选的，本实施例中，计算分类损失和边界框回归损失两部分，包括：

其中是分类器预测的softmax概率分布/>对应目标真实类别标签，对应边界框回归器预测的对应类别/>的回归参数，/>对应真实目标框的回归参数；[u≥1]表示边界框的种类，其中只有不属于背景类的边界框（u=0），才参与损失计算，公式表述为：

进一步，分类损失函数为Negative Log Likelyhood Loss，具体内容如下：

进一步的，边界框回归损失函数可以为如下：

其中：

进一步的，可选的，本实施例中，边界框回归损失函数，具体内容如下：

本实施例中的边界框回归损失函数，避免了梯度爆炸。

进一步，本实施例中，使用开源深度学习推理框架pytorch内置的backward()方法，计算第一参数修正梯度并将其传播回目标检测网络的参数，使用step()方法，根据计算得到的第一参数修正梯度自动更新目标检测网络的参数，方法简单，计算量较小，响应速度快。

其中，所述原始目标检测网络通过如下步骤得到类别预测结果：

图像数据输入；将输入的图像数据生成第一区域集，所述第一区域集包括若干个第一子区域；依次计算第一区域集里每个相邻第一子区域的相似度，获得若干个第一相似度数值；选定第一相似度数值最高的两个相邻第一子区域，将其合并为第二子区域，计算第二子区域与若干个第一子区域的相似度，获得若干个第二相似度数值；获得与第二子区域最高的第一子区域合并；生成区域候选框；其中，所述相似度计算包括纹理、颜色、尺寸和形状；对生成的区域候选框进行非极大值抑制；生成区域候选框中物品类别预测结果。

其中，所述相似度计算包括纹理、颜色、尺寸和形状；对生成的区域候选框进行非极大值抑制；生成区域候选框中物品类别预测结果；相似度计算衡量纹理，颜色，尺寸，形状四个特征，对应计算公式如下：

其中，n表示特征的数量，和/>分别表示第i个和第j个区域在第k个纹理特征上的值；/>和/>分别表示第i个和第j个区域在第k个颜色特征上的值；/>和/>分别表示第i个和第j个区域的大小，/>表示整个图像的大小；/>表示包围两个区域/>和的边界框的大小。

总相似度计算公式如下，其中,/>为权重系数；

此处不限制,/>为权重系数的具体内容，可选的，本实施例中，权重系数/>,均设置为1。

获取第二样本RGB图像和样本深度图像，将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图，并通过所述第一目标检测网络对所述灰度图进行标注，获得第二标注结果；此处不限制预设的颜色转换算法的具体内容，可以是使用开源图像处理库OpenCV库中的cv2.cvtColor函数将RGB图像转换为灰度图像。在转换过程中，使用cv2.COLOR_BGR2GRAY参数指定颜色转换的方式，可选的，灰度计算公式可以为：

可选的，本实施例中，预设的颜色转换算法包括：

其中，R表示第二样本RGB图像的红通道的颜色，G表示第二样本RGB图像的绿通道的颜色，B表示第二样本RGB图像的蓝三个通道的颜色；

将所述第二标注结果设置为类别伪标签；此处不限制类别伪标签的制作方法，可选的，本实施例中，类别伪标签的制作方法包括将灰度图区域候选框物品类别预测结果使用Softmax操作进行阈值判断，如果对某类别输出的argmax概率大于预先设定的阈值，则认为是该类别的正样本，遍历所有类别，即可得到类别伪标签，此处不限制阈值的具体内容；

根据所述第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络；图3示出了本发明一个实施例的构建第二目标检测网络流程示意图，如图3所示，此处不限制构建第二目标检测网络的具体体内容，可选的，本实施例中，将所述样本深度图像输入所述第一目标检测网络，以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果；

根据所述预测结果和类别伪标签按照预设的第二损失函数计算第二损失；此处不限定第二损失函数的具体内容，可选的，本实施例中，预设的第二损失函数包括：

其中,λu表示未标记损失的相对权重，表示保留伪标签的阈值。/>，表示模型在/>上的预测类分布，α表示颜色转换算法，/>表示样本的伪标签，H表示交叉熵损失,/>是未标记样本的批次大小，本实施例中，/>为64。

根据所述第二损失计算第二参数修正梯度；

根据所述第二参数修正梯度对所述第一目标检测网络进行修正，获得第二目标检测网络；

本发明的一个实施例中，进一步，所述方法还包括：对所述第二目标检测网络根据预设的判断标准进行收敛判断，若收敛则结束，若未收敛则重复构建第一目标检测网络和第二目标检测网络直至收敛，获得收敛的目标检测网络；

所述预设的判断标准包括设置若干个性能指标曲线；分别设置若干个性能指标曲线相应的收敛判断条件；根据若干个收敛判断条件分别判断目标检测网络是否收敛；若不符合其中任何一个性能指标曲线的收敛判断条件，则判定目标检测网络未收敛；若符合若干个性能指标曲线的收敛判断条件；则判定目标检测网络收敛。图4示出了本发明一个实施例的目标检测网络训练性能曲线示意图，如图4所示，所述性能指标曲线包括：训练损失曲线(Train Loss曲线),验证损失曲线(Val Loss曲线),精度曲线(Precision曲线)、召回率曲线(Recall曲线)和平均精度曲线(map曲线)；进一步的，所述训练损失曲线(Train Loss曲线)的收敛判断条件为直至训练结束呈下降趋势；验证损失曲线(Val Loss曲线)的收敛判断条件为直至训练结束呈下降趋势；精度曲线(Precision曲线)的收敛判断条件为高于第一阈值，此处不限制第一阈值的具体内容，可选的，所述第一阈值可选的为0.6；召回率曲线(Recall曲线)的收敛判断条件为高于第二阈值，此处不限制第二阈值的具体内容，可选的，所述第二阈值可选的为0.8；平均精度曲线(map曲线)包括map50曲线和map95曲线，所述map50曲线的收敛判断条件为高于第三阈值，此处不限制第三阈值的具体内容，可选的，所述第三阈值可选的为0.8，所述map95曲线的收敛判断条件为高于第四阈值，此处不限制第四阈值的具体内容，可选的，所述第四阈值可选的为0.6。

在本发明的一个实施例中，进一步，本发明的测试平台和实验环境为： Windows10 专业版操作系统， NVIDIA GeForce RTX 3060 Ti显卡，显存大小为8GB，CPU配置为英特尔®酷睿™i5-12400 处理器，CUDA版本为11 .3 .1，Pytorch版本为1 .12 .0，Python语言环境为3 .8 .1，labme版本为5.1.1。

本实施例中原始目标检测网络先经过RBG图像第一训练得到第一目标检测网络，第一次提高了原始目标检测网络检测精度，第二训练时再根据灰度图的预测结果作为第二标注结果，和样本深度图像的标注进行参数修正，第二次提高了原始目标检测网络检测精度，融合深度信息，相比基于纯RGB图像的目标检测网络鲁棒性更好，检测精度更高；应用范围更广，受环境影响小，对光线变化不敏感，可以在光线较弱的环境使用；本发明仅标注少量RGB图像，不需要标注深度图像，大大减少标注数据的人力成本和时间成本。在训练过程中，适应性的设计了能减少计算量的第一损失函数、第二损失函数和灰度转换算法，提高了训练速度；采用多维度的收敛判断曲线，综合考虑目标检测网络的收敛程度，提高了判断结果的可信度。

实施例二

一种融合RGBD的半监督目标检测系统，包括：

第一构建模块：利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络；此处不限制构建第一目标检测网络的具体内容，可选的，为经过训练得到第一目标检测网络；可选的，本实施例中，根据第一样本RGB图像和第一标注结果，构建有监督目标检测网络训练用的第一训练集；利用所述第一训练集对原始目标检测网络进行第一训练，图2示出了本发明一个实施例的第一训练流程示意图；如图2所示，将所述第一样本RGB图像输入原始目标检测网络，以通过原始目标检测网络得到图像中待标注物品的类别预测结果；根据所述预测结果和第一标注结果按照预设的第一损失函数计算第一损失；根据所述第一损失计算第一参数修正梯度；根据所述第一参数修正梯度对所述原始目标检测网络进行修正，获得第一目标检测网络。

进一步的，边界框回归损失函数可以为如下：

其中：

本实施例中的边界框回归损失函数，避免了梯度爆炸。

第二获取模块：获取第二样本RGB图像和样本深度图像，将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图，并通过所述第一目标检测网络对所述灰度图进行标注，获得第二标注结果；此处不限制预设的颜色转换算法的具体内容，可以是使用开源图像处理库OpenCV库中的cv2.cvtColor函数将RGB图像转换为灰度图像。在转换过程中，使用cv2.COLOR_BGR2GRAY参数指定颜色转换的方式，可选的，灰度计算公式可以为：

可选的，本实施例中，预设的颜色转换算法包括：

第二构建模块：根据所述第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络；此处不限制构建第二目标检测网络的具体体内容，可选的，本实施例中，将所述样本深度图像输入所述第一目标检测网络，以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果；

根据所述第二损失计算第二参数修正梯度；

监测模块：采用所述第二目标检测网络对待检测的深度图像进行目标检测。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种融合RGBD的半监督目标检测方法，其特征在于，包括：

2.根据权利要求1所述的融合RGBD的半监督目标检测方法，其特征在于，利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络，包括：

根据所述第一损失计算第一参数修正梯度；

3.根据权利要求2所述的融合RGBD的半监督目标检测方法，其特征在于，所述原始目标检测网络通过如下步骤得到类别预测结果：

接收输入的图像数据；

获得与第二子区域最高的第一子区域合并；

对生成的区域候选框进行非极大值抑制；

4.根据权利要求2所述的融合RGBD的半监督目标检测网络的训练方法，其特征在于：所述预设的第一损失函数包括：

5.根据权利要求1所述的融合RGBD的半监督目标检测方法，其特征在于：所述预设的颜色转换算法包括：

6.根据权利要求1所述的融合RGBD的半监督目标检测方法，其特征在于，通过所述第一目标检测网络对所述灰度图进行标注，获得第二标注结果，包括：

将所述第二标注结果设置为类别伪标签。

7.根据权利要求6所述的融合RGBD的半监督目标检测方法，其特征在于，根据所述第二标注结果、样本深度图像和所述第一目标检测网络，构建第二目标检测网络，包括：

根据所述第二损失计算第二参数修正梯度；

8.根据权利要求1所述的融合RGBD的半监督目标检测方法，其特征在于，所述预设的第二损失函数包括：

9.根据权利要求1所述的融合RGBD的半监督目标检测方法，其特征在于，所述方法还包括：

其中，所述预设的判断标准包括设置若干个性能指标曲线；

分别设置若干个性能指标曲线相应的收敛判断条件；

根据若干个收敛判断条件分别判断目标检测网络是否收敛；

10.一种融合RGBD的半监督目标检测系统，其特征在于，包括：