CN116978008A - 一种融合rgbd的半监督目标检测方法和系统 - Google Patents

一种融合rgbd的半监督目标检测方法和系统 Download PDF

Info

Publication number
CN116978008A
CN116978008A CN202310852413.1A CN202310852413A CN116978008A CN 116978008 A CN116978008 A CN 116978008A CN 202310852413 A CN202310852413 A CN 202310852413A CN 116978008 A CN116978008 A CN 116978008A
Authority
CN
China
Prior art keywords
target detection
detection network
sample
image
rgb image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310852413.1A
Other languages
English (en)
Other versions
CN116978008B (zh
Inventor
吴波
郑随兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Realman Intelligent Technology Beijing Co ltd
Original Assignee
Realman Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Realman Intelligent Technology Beijing Co ltd filed Critical Realman Intelligent Technology Beijing Co ltd
Priority to CN202310852413.1A priority Critical patent/CN116978008B/zh
Publication of CN116978008A publication Critical patent/CN116978008A/zh
Application granted granted Critical
Publication of CN116978008B publication Critical patent/CN116978008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明涉及图片处理技术领域,具体涉及一种融合RGBD的半监督目标检测方法和系统,包括:利用第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;根据第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;采用所述第二目标检测网络对待检测的深度图像进行目标检测。本发明两次提高原始目标检测网络检测精度,融合深度信息,相比基于纯RGB图像的目标检测网络鲁棒性更好,本发明的目标检测网络检测精度更高;应用范围更广,受环境影响小,对光线变化不敏感,可以在光线较弱的环境使用;本发明仅标注少量RGB图像,不需要标注深度图像,大大减少标注数据的人力成本和时间成本。

Description

一种融合RGBD的半监督目标检测方法和系统
技术领域
本发明涉及图片处理技术领域,具体涉及一种融合RGBD的半监督目标检测方法和系统。
背景技术
在计算机视觉领域,基于深度学习的目标检测已经成为一个重要的研究方向。传统目标检测网络严重依赖于标注好的大规模数据集,完成图像标注需要耗费大量时间和人力成本,而实际生产生活中存在大量未标注图像,且易于获取。RGBD数据融合了RGB图像和深度图像的信息,可以使网络达到更高的物体检测精度。深度图像可以提供物体的距离和几何信息,有助于更准确地定位和分割物体。然而,在RGBD图像中,需要对物体的边界、形状和深度信息进行标注,因此市面上标注好的大规模RGBD多模态数据集较少。目前,目标检测网络普遍仅使用RGB图像训练,且普遍基于全监督学习,严重依赖于标注好的大规模数据集,传统目标检测网络严重依赖于标注好的大规模数据集,而标注大规模数据集需要耗费大量时间和人力成本传统目标检测网络仅使用RGB图像训练,检测精度弱于使用RGBD数据训练传统目标检测网络由于使用RGB图像训练,受环境影响大,对光线变化敏感,在光线较弱的环境中检测效果较差深度图像标注困难,市面上标注好的大规模RGBD多模态数据集较少,制约了RGBD目标检测网络的发展。
发明内容
(一)发明目的
本发明的目的是提供一种降低图像标注成本同时提高深度图像检测精度的融合RGBD的半监督目标检测方法和系统。
(二)技术方案
为解决上述问题,本发明提供了一种融合RGBD的半监督目标检测方法,包括:
获取第一样本RGB图像,并对所述第一样本RGB图像的待标注物体进行标注,获得第一标注结果;
利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;
获取第二样本RGB图像和样本深度图像,将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图,并通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果;
根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;
采用所述第二目标检测网络对待检测的深度图像进行目标检测。
本发明的另一个方面,优选地,利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络,包括:
将所述第一样本RGB图像输入原始目标检测网络,以通过原始目标检测网络得到图像中待标注物品的类别预测结果;
根据所述类别预测结果和第一标注结果按照预设的第一损失函数计算第一损失;
根据所述第一损失计算第一参数修正梯度;
根据所述第一参数修正梯度对所述原始目标检测网络进行修正,获得第一目标检测网络。
本发明的另一个方面,优选地,所述原始目标检测网络通过如下步骤得到类别预测结果:
接收输入的图像数据;
将输入的图像数据生成第一区域集,所述第一区域集包括若干个第一子区域;
依次计算第一区域集里每个相邻第一子区域的相似度,获得若干个第一相似度数值;
选定第一相似度数值最高的两个相邻第一子区域,将其合并为第二子区域,计算第二子区域与若干个第一子区域的相似度,获得若干个第二相似度数值;
获得与第二子区域最高的第一子区域合并;
生成区域候选框;其中,所述相似度计算包括纹理、颜色、尺寸和形状;
对生成的区域候选框进行非极大值抑制;
根据非极大值抑制的结果生成区域候选框中物品类别预测结果。
本发明的另一个方面,优选地,所述预设的第一损失函数包括:
其中:表示分类损失函数,/>表示边界框损失函数,/>是分类器预测的softmax概率分布/>对应目标真实类别标签,/>对应边界框回归器预测的对应类别/>的回归参数,/>对应真实目标框的回归参数,λ为权重系数,[u≥1]表示边界框的种类。
本发明的另一个方面,优选地,所述预设的颜色转换算法包括:
其中,Gray表示灰度值,R表示第二样本RGB图像的红通道的颜色,G表示第二样本RGB图像的绿通道的颜色,B表示第二样本RGB图像的蓝三个通道的颜色。
本发明的另一个方面,优选地,通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果,包括:
将所述灰度图输入所述第一目标检测网络,生成灰度图中待标注物品的类别预测结果,所述类别预测结果为第二标注结果;
将所述第二标注结果设置为类别伪标签。
本发明的另一个方面,优选地,根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络,包括:
将所述样本深度图像输入所述第一目标检测网络,以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果;
根据所述预测结果和类别伪标签按照预设的第二损失函数计算第二损失;
根据所述第二损失计算第二参数修正梯度;
根据所述第二参数修正梯度对所述第一目标检测网络进行修正,获得第二目标检测网络。
本发明的另一个方面,优选地,所述预设的第二损失函数包括:
其中,λu表示未标记损失的相对权重,表示保留伪标签的阈值;/>,表示模型在/>上的预测类分布,α表示颜色转换算法,/>表示样本的伪标签,H表示交叉熵损失;/>是未标记样本的批次大小。
本发明的另一个方面,优选地,所述方法还包括:
对所述第二目标检测网络根据预设的判断标准判断是否收敛;
若收敛则结束,若未收敛则重复构建第一目标检测网络和第二目标检测网络直至收敛,获得收敛的目标检测网络;
其中,所述预设的判断标准包括设置若干个性能指标曲线;
分别设置若干个性能指标曲线相应的收敛判断条件;
根据若干个收敛判断条件分别判断目标检测网络是否收敛;
若不符合若干个性能指标曲线中任何一个性能指标曲线的收敛判断条件,则判定目标检测网络未收敛;
若符合若干个性能指标曲线中所有性能指标曲线的收敛判断条件;则判定目标检测网络收敛。
本发明的另一个方面,优选地,一种融合RGBD的半监督目标检测系统,包括:
第一获取模块:获取第一样本RGB图像,并对所述第一样本RGB图像的待标注物体进行标注,获得第一标注结果;
第一构建模块:利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;
第二获取模块:获取第二样本RGB图像和样本深度图像,将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图,并通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果;
第二构建模块:根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;
目标检测模块:采用所述第二目标检测网络对待检测的深度图像进行目标检测。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
本发明的原始目标检测网络先经过第一样本RBG图像得到第一目标检测网络,第一次提高了原始目标检测网络检测精度,再将第二样本RBG图像根据灰度图的预测结果作为第二标注结果,和样本深度图像的标注进行参数修正,第二次提高了原始目标检测网络检测精度,融合深度信息,相比基于纯RGB图像的目标检测网络鲁棒性更好,本发明的目标检测网络检测精度更高;应用范围更广,受环境影响小,对光线变化不敏感,可以在光线较弱的环境使用;本发明仅标注少量RGB图像,不需要标注深度图像,大大减少标注数据的人力成本和时间成本。
附图说明
图1是本发明一个实施例的整体流程示意图;
图2是本发明一个实施例的构建第一目标检测网络流程示意图;
图3是本发明一个实施例的构建第二目标检测网络示意图;
图4是本发明一个实施例的目标检测网络训练性能曲线示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的,其中为了清楚的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
实施例一
一种融合RGBD的半监督目标检测方法,图1是本发明一个实施例的整体流程示意图;如图1所示,包括:
获取第一样本RGB图像,并对所述第一样本RGB图像的待标注物体进行标注,获得第一标注结果;此处不限制获取第一样本RGB图像的方式,可选的本实施例中,获取方式为双目结构光红外相机,进一步的,使用双目结构光红外相机在正面光照、侧面光照和背面光照等不同光线环境下,采用俯视、平视、仰视等不同视角,分别在20cm、25cm、30cm、35cm和40cm距离下采集第一样本RGB图像;进一步的,选取的双目结构光红外相机具体型号为RealSense D435i;进一步,采集的RGB图像保存格式为png;此处不限制对所述第一样本RGB图像的待标注物体进行标注的方式,可选的,本实施例中,使用labme软件对第一样本RGB图像进行标注;
利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;此处不限制构建第一目标检测网络的具体内容,可选的,为经过训练得到第一目标检测网络;可选的,本实施例中,根据第一样本RGB图像和第一标注结果,构建有监督目标检测网络训练用的第一训练集;利用所述第一训练集对原始目标检测网络进行第一训练,图2示出了本发明一个实施例的构建第一目标检测网络流程示意图;如图2所示,将所述第一样本RGB图像输入原始目标检测网络,以通过原始目标检测网络得到图像中待标注物品的类别预测结果;根据所述预测结果和第一标注结果按照预设的第一损失函数计算第一损失;根据所述第一损失计算第一参数修正梯度;根据所述第一参数修正梯度对所述原始目标检测网络进行修正,获得第一目标检测网络。
此处不限制第一损失函数的具体内容,可选的,本实施例中,计算分类损失和边界框回归损失两部分,包括:
其中是分类器预测的softmax概率分布/>对应目标真实类别标签,对应边界框回归器 预测的对应类别/>的回归参数,/>对应真实目标框的回归参数;[u≥1]表示边界框的种类,其中只有不属于背景类的边界框(u=0),才参与损失计算,公式表述为:
进一步,分类损失函数为Negative Log Likelyhood Loss,具体内容如下:
进一步的,边界框回归损失函数可以为如下:
其中:
进一步的,可选的,本实施例中,边界框回归损失函数,具体内容如下:
本实施例中的边界框回归损失函数,避免了梯度爆炸。
进一步,本实施例中,使用开源深度学习推理框架pytorch内置的backward()方法,计算第一参数修正梯度并将其传播回目标检测网络的参数,使用step()方法,根据计算得到的第一参数修正梯度自动更新目标检测网络的参数,方法简单,计算量较小,响应速度快。
其中,所述原始目标检测网络通过如下步骤得到类别预测结果:
图像数据输入;将输入的图像数据生成第一区域集,所述第一区域集包括若干个第一子区域;依次计算第一区域集里每个相邻第一子区域的相似度,获得若干个第一相似度数值;选定第一相似度数值最高的两个相邻第一子区域,将其合并为第二子区域,计算第二子区域与若干个第一子区域的相似度,获得若干个第二相似度数值;获得与第二子区域最高的第一子区域合并;生成区域候选框;其中,所述相似度计算包括纹理、颜色、尺寸和形状;对生成的区域候选框进行非极大值抑制;生成区域候选框中物品类别预测结果。
其中,所述相似度计算包括纹理、颜色、尺寸和形状;对生成的区域候选框进行非极大值抑制;生成区域候选框中物品类别预测结果;相似度计算衡量纹理,颜色,尺寸,形状四个特征,对应计算公式如下:
其中,n表示特征的数量,和/>分别表示第i个和第j个区域在第k个纹理特征上的值;/>和/>分别表示第i个和第j个区域在第k个颜色特征上的值;/>和/>分别表示第i个和第j个区域的大小,/>表示整个图像的大小;/>表示包围两个区域/>的边界框的大小。
总相似度计算公式如下,其中,/>为权重系数;
此处不限制,/>为权重系数的具体内容,可选的,本实施例中,权重系数/>,均设置为1。
获取第二样本RGB图像和样本深度图像,将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图,并通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果;此处不限制预设的颜色转换算法的具体内容,可以是使用开源图像处理库OpenCV库中的cv2.cvtColor函数将RGB图像转换为灰度图像。在转换过程中,使用cv2.COLOR_BGR2GRAY参数指定颜色转换的方式,可选的,灰度计算公式可以为:
可选的,本实施例中,预设的颜色转换算法包括:
其中,R表示第二样本RGB图像的红通道的颜色,G表示第二样本RGB图像的绿通道的颜色,B表示第二样本RGB图像的蓝三个通道的颜色;
将所述灰度图输入所述第一目标检测网络,生成灰度图中待标注物品的类别预测结果,所述类别预测结果为第二标注结果;
将所述第二标注结果设置为类别伪标签;此处不限制类别伪标签的制作方法,可选的,本实施例中,类别伪标签的制作方法包括将灰度图区域候选框物品类别预测结果使用Softmax操作进行阈值判断,如果对某类别输出的argmax概率大于预先设定的阈值,则认为是该类别的正样本,遍历所有类别,即可得到类别伪标签,此处不限制阈值的具体内容;
根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;图3示出了本发明一个实施例的构建第二目标检测网络流程示意图,如图3所示,此处不限制构建第二目标检测网络的具体体内容,可选的,本实施例中,将所述样本深度图像输入所述第一目标检测网络,以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果;
根据所述预测结果和类别伪标签按照预设的第二损失函数计算第二损失;此处不限定第二损失函数的具体内容,可选的,本实施例中,预设的第二损失函数包括:
其中,λu表示未标记损失的相对权重,表示保留伪标签的阈值。/>,表示模型在/>上的预测类分布,α表示颜色转换算法,/>表示样本的伪标签,H表示交叉熵损失,/>是未标记样本的批次大小,本实施例中,/>为64。
根据所述第二损失计算第二参数修正梯度;
根据所述第二参数修正梯度对所述第一目标检测网络进行修正,获得第二目标检测网络;
采用所述第二目标检测网络对待检测的深度图像进行目标检测。
本发明的一个实施例中,进一步,所述方法还包括:对所述第二目标检测网络根据预设的判断标准进行收敛判断,若收敛则结束,若未收敛则重复构建第一目标检测网络和第二目标检测网络直至收敛,获得收敛的目标检测网络;
所述预设的判断标准包括设置若干个性能指标曲线;分别设置若干个性能指标曲线相应的收敛判断条件;根据若干个收敛判断条件分别判断目标检测网络是否收敛;若不符合其中任何一个性能指标曲线的收敛判断条件,则判定目标检测网络未收敛;若符合若干个性能指标曲线的收敛判断条件;则判定目标检测网络收敛。图4示出了本发明一个实施例的目标检测网络训练性能曲线示意图,如图4所示,所述性能指标曲线包括:训练损失曲线(Train Loss曲线),验证损失曲线(Val Loss曲线),精度曲线(Precision曲线)、召回率曲线(Recall曲线)和平均精度曲线(map曲线);进一步的,所述训练损失曲线(Train Loss曲线)的收敛判断条件为直至训练结束呈下降趋势;验证损失曲线(Val Loss曲线)的收敛判断条件为直至训练结束呈下降趋势;精度曲线(Precision曲线)的收敛判断条件为高于第一阈值,此处不限制第一阈值的具体内容,可选的,所述第一阈值可选的为0.6;召回率曲线(Recall曲线)的收敛判断条件为高于第二阈值,此处不限制第二阈值的具体内容,可选的,所述第二阈值可选的为0.8;平均精度曲线(map曲线)包括map50曲线和map95曲线,所述map50曲线的收敛判断条件为高于第三阈值,此处不限制第三阈值的具体内容,可选的,所述第三阈值可选的为0.8,所述map95曲线的收敛判断条件为高于第四阈值,此处不限制第四阈值的具体内容,可选的,所述第四阈值可选的为0.6。
在本发明的一个实施例中,进一步,本发明的测试平台和实验环境为: Windows10 专业版操作系统, NVIDIA GeForce RTX 3060 Ti显卡,显存大小为8GB,CPU配置为英特尔®酷睿™i5-12400 处理器,CUDA版本为11 .3 .1,Pytorch版本为1 .12 .0,Python语言环境为3 .8 .1,labme版本为5.1.1。
本实施例中原始目标检测网络先经过RBG图像第一训练得到第一目标检测网络,第一次提高了原始目标检测网络检测精度,第二训练时再根据灰度图的预测结果作为第二标注结果,和样本深度图像的标注进行参数修正,第二次提高了原始目标检测网络检测精度,融合深度信息,相比基于纯RGB图像的目标检测网络鲁棒性更好,检测精度更高;应用范围更广,受环境影响小,对光线变化不敏感,可以在光线较弱的环境使用;本发明仅标注少量RGB图像,不需要标注深度图像,大大减少标注数据的人力成本和时间成本。在训练过程中,适应性的设计了能减少计算量的第一损失函数、第二损失函数和灰度转换算法,提高了训练速度;采用多维度的收敛判断曲线,综合考虑目标检测网络的收敛程度,提高了判断结果的可信度。
实施例二
一种融合RGBD的半监督目标检测系统,包括:
第一获取模块:获取第一样本RGB图像,并对所述第一样本RGB图像的待标注物体进行标注,获得第一标注结果;
第一构建模块:利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;此处不限制构建第一目标检测网络的具体内容,可选的,为经过训练得到第一目标检测网络;可选的,本实施例中,根据第一样本RGB图像和第一标注结果,构建有监督目标检测网络训练用的第一训练集;利用所述第一训练集对原始目标检测网络进行第一训练,图2示出了本发明一个实施例的第一训练流程示意图;如图2所示,将所述第一样本RGB图像输入原始目标检测网络,以通过原始目标检测网络得到图像中待标注物品的类别预测结果;根据所述预测结果和第一标注结果按照预设的第一损失函数计算第一损失;根据所述第一损失计算第一参数修正梯度;根据所述第一参数修正梯度对所述原始目标检测网络进行修正,获得第一目标检测网络。
此处不限制第一损失函数的具体内容,可选的,本实施例中,计算分类损失和边界框回归损失两部分,包括:
其中是分类器预测的softmax概率分布/>对应目标真实类别标签,对应边界框回归器 预测的对应类别/>的回归参数,/>对应真实目标框的回归参数;[u≥1]表示边界框的种类,其中只有不属于背景类的边界框(u=0),才参与损失计算,公式表述为:
进一步,分类损失函数为Negative Log Likelyhood Loss,具体内容如下:
进一步的,边界框回归损失函数可以为如下:
其中:
进一步的,可选的,本实施例中,边界框回归损失函数,具体内容如下:
本实施例中的边界框回归损失函数,避免了梯度爆炸。
进一步,本实施例中,使用开源深度学习推理框架pytorch内置的backward()方法,计算第一参数修正梯度并将其传播回目标检测网络的参数,使用step()方法,根据计算得到的第一参数修正梯度自动更新目标检测网络的参数,方法简单,计算量较小,响应速度快。
第二获取模块:获取第二样本RGB图像和样本深度图像,将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图,并通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果;此处不限制预设的颜色转换算法的具体内容,可以是使用开源图像处理库OpenCV库中的cv2.cvtColor函数将RGB图像转换为灰度图像。在转换过程中,使用cv2.COLOR_BGR2GRAY参数指定颜色转换的方式,可选的,灰度计算公式可以为:
可选的,本实施例中,预设的颜色转换算法包括:
其中,R表示第二样本RGB图像的红通道的颜色,G表示第二样本RGB图像的绿通道的颜色,B表示第二样本RGB图像的蓝三个通道的颜色;
将所述灰度图输入所述第一目标检测网络,生成灰度图中待标注物品的类别预测结果,所述类别预测结果为第二标注结果;
将所述第二标注结果设置为类别伪标签;此处不限制类别伪标签的制作方法,可选的,本实施例中,类别伪标签的制作方法包括将灰度图区域候选框物品类别预测结果使用Softmax操作进行阈值判断,如果对某类别输出的argmax概率大于预先设定的阈值,则认为是该类别的正样本,遍历所有类别,即可得到类别伪标签,此处不限制阈值的具体内容;
第二构建模块:根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;此处不限制构建第二目标检测网络的具体体内容,可选的,本实施例中,将所述样本深度图像输入所述第一目标检测网络,以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果;
根据所述预测结果和类别伪标签按照预设的第二损失函数计算第二损失;此处不限定第二损失函数的具体内容,可选的,本实施例中,预设的第二损失函数包括:
其中,λu表示未标记损失的相对权重,表示保留伪标签的阈值;/>,表示模型在/>上的预测类分布,α表示颜色转换算法,/>表示样本的伪标签,H表示交叉熵损失;/>是未标记样本的批次大小。
根据所述第二损失计算第二参数修正梯度;
根据所述第二参数修正梯度对所述第一目标检测网络进行修正,获得第二目标检测网络;
监测模块:采用所述第二目标检测网络对待检测的深度图像进行目标检测。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种融合RGBD的半监督目标检测方法,其特征在于,包括:
获取第一样本RGB图像,并对所述第一样本RGB图像的待标注物体进行标注,获得第一标注结果;
利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;
获取第二样本RGB图像和样本深度图像,将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图,并通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果;
根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;
采用所述第二目标检测网络对待检测的深度图像进行目标检测。
2.根据权利要求1所述的融合RGBD的半监督目标检测方法,其特征在于,利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络,包括:
将所述第一样本RGB图像输入原始目标检测网络,以通过原始目标检测网络得到图像中待标注物品的类别预测结果;
根据所述类别预测结果和第一标注结果按照预设的第一损失函数计算第一损失;
根据所述第一损失计算第一参数修正梯度;
根据所述第一参数修正梯度对所述原始目标检测网络进行修正,获得第一目标检测网络。
3.根据权利要求2所述的融合RGBD的半监督目标检测方法,其特征在于,所述原始目标检测网络通过如下步骤得到类别预测结果:
接收输入的图像数据;
将输入的图像数据生成第一区域集,所述第一区域集包括若干个第一子区域;
依次计算第一区域集里每个相邻第一子区域的相似度,获得若干个第一相似度数值;
选定第一相似度数值最高的两个相邻第一子区域,将其合并为第二子区域,计算第二子区域与若干个第一子区域的相似度,获得若干个第二相似度数值;
获得与第二子区域最高的第一子区域合并;
生成区域候选框;其中,所述相似度计算包括纹理、颜色、尺寸和形状;
对生成的区域候选框进行非极大值抑制;
根据非极大值抑制的结果生成区域候选框中物品类别预测结果。
4.根据权利要求2所述的融合RGBD的半监督目标检测网络的训练方法,其特征在于:所述预设的第一损失函数包括:
其中:表示分类损失函数,/>表示边界框损失函数,/>是分类器预测的softmax概率分布/>对应目标真实类别标签,/>对应边界框回归器预测的对应类别/>的回归参数,/>对应真实目标框的回归参数,λ为权重系数,[u≥1]表示边界框的种类。
5.根据权利要求1所述的融合RGBD的半监督目标检测方法,其特征在于:所述预设的颜色转换算法包括:
其中,Gray表示灰度值,R表示第二样本RGB图像的红通道的颜色,G表示第二样本RGB图像的绿通道的颜色,B表示第二样本RGB图像的蓝三个通道的颜色。
6.根据权利要求1所述的融合RGBD的半监督目标检测方法,其特征在于,通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果,包括:
将所述灰度图输入所述第一目标检测网络,生成灰度图中待标注物品的类别预测结果,所述类别预测结果为第二标注结果;
将所述第二标注结果设置为类别伪标签。
7.根据权利要求6所述的融合RGBD的半监督目标检测方法,其特征在于,根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络,包括:
将所述样本深度图像输入所述第一目标检测网络,以通过第一目标检测网络生成样本深度图像中待标注物品的类别预测结果;
根据所述预测结果和类别伪标签按照预设的第二损失函数计算第二损失;
根据所述第二损失计算第二参数修正梯度;
根据所述第二参数修正梯度对所述第一目标检测网络进行修正,获得第二目标检测网络。
8.根据权利要求1所述的融合RGBD的半监督目标检测方法,其特征在于,所述预设的第二损失函数包括:
其中,λu表示未标记损失的相对权重,表示保留伪标签的阈值;/>,表示模型在/>上的预测类分布,α表示颜色转换算法,/>表示样本的伪标签,H表示交叉熵损失;/>是未标记样本的批次大小。
9.根据权利要求1所述的融合RGBD的半监督目标检测方法,其特征在于,所述方法还包括:
对所述第二目标检测网络根据预设的判断标准判断是否收敛;
若收敛则结束,若未收敛则重复构建第一目标检测网络和第二目标检测网络直至收敛,获得收敛的目标检测网络;
其中,所述预设的判断标准包括设置若干个性能指标曲线;
分别设置若干个性能指标曲线相应的收敛判断条件;
根据若干个收敛判断条件分别判断目标检测网络是否收敛;
若不符合若干个性能指标曲线中任何一个性能指标曲线的收敛判断条件,则判定目标检测网络未收敛;
若符合若干个性能指标曲线中所有性能指标曲线的收敛判断条件;则判定目标检测网络收敛。
10.一种融合RGBD的半监督目标检测系统,其特征在于,包括:
第一获取模块:获取第一样本RGB图像,并对所述第一样本RGB图像的待标注物体进行标注,获得第一标注结果;
第一构建模块:利用所述第一样本RGB图像、第一标注结果和原始目标检测网络构建第一目标检测网络;
第二获取模块:获取第二样本RGB图像和样本深度图像,将所述第二样本RGB图像按预设的颜色转换算法转换成灰度图,并通过所述第一目标检测网络对所述灰度图进行标注,获得第二标注结果;
第二构建模块:根据所述第二标注结果、样本深度图像和所述第一目标检测网络,构建第二目标检测网络;
目标检测模块:采用所述第二目标检测网络对待检测的深度图像进行目标检测。
CN202310852413.1A 2023-07-12 2023-07-12 一种融合rgbd的半监督目标检测方法和系统 Active CN116978008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310852413.1A CN116978008B (zh) 2023-07-12 2023-07-12 一种融合rgbd的半监督目标检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310852413.1A CN116978008B (zh) 2023-07-12 2023-07-12 一种融合rgbd的半监督目标检测方法和系统

Publications (2)

Publication Number Publication Date
CN116978008A true CN116978008A (zh) 2023-10-31
CN116978008B CN116978008B (zh) 2024-04-26

Family

ID=88472251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310852413.1A Active CN116978008B (zh) 2023-07-12 2023-07-12 一种融合rgbd的半监督目标检测方法和系统

Country Status (1)

Country Link
CN (1) CN116978008B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898696A (zh) * 2020-08-10 2020-11-06 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112861880A (zh) * 2021-03-05 2021-05-28 江苏实达迪美数据处理有限公司 基于图像分类的弱监督rgbd图像显著性检测方法及系统
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN114119695A (zh) * 2021-11-24 2022-03-01 奥比中光科技集团股份有限公司 一种图像标注方法、装置及电子设备
CN114708437A (zh) * 2022-06-02 2022-07-05 深圳比特微电子科技有限公司 目标检测模型的训练方法、目标检测方法、装置和介质
CN114882340A (zh) * 2022-04-15 2022-08-09 西安电子科技大学 基于边界框回归的弱监督目标检测方法
CN115719436A (zh) * 2022-10-17 2023-02-28 北京百度网讯科技有限公司 模型训练方法、目标检测方法、装置、设备以及存储介质
CN115984537A (zh) * 2021-10-14 2023-04-18 腾讯科技(深圳)有限公司 图像处理方法、装置及相关设备
CN116061187A (zh) * 2023-03-07 2023-05-05 睿尔曼智能科技(江苏)有限公司 一种复合机器人对货架商品识别、定位和抓取方法
US20230196117A1 (en) * 2020-08-31 2023-06-22 Huawei Technologies Co., Ltd. Training method for semi-supervised learning model, image processing method, and device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898696A (zh) * 2020-08-10 2020-11-06 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
US20230196117A1 (en) * 2020-08-31 2023-06-22 Huawei Technologies Co., Ltd. Training method for semi-supervised learning model, image processing method, and device
CN112861880A (zh) * 2021-03-05 2021-05-28 江苏实达迪美数据处理有限公司 基于图像分类的弱监督rgbd图像显著性检测方法及系统
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN115984537A (zh) * 2021-10-14 2023-04-18 腾讯科技(深圳)有限公司 图像处理方法、装置及相关设备
CN114119695A (zh) * 2021-11-24 2022-03-01 奥比中光科技集团股份有限公司 一种图像标注方法、装置及电子设备
CN114882340A (zh) * 2022-04-15 2022-08-09 西安电子科技大学 基于边界框回归的弱监督目标检测方法
CN114708437A (zh) * 2022-06-02 2022-07-05 深圳比特微电子科技有限公司 目标检测模型的训练方法、目标检测方法、装置和介质
CN115719436A (zh) * 2022-10-17 2023-02-28 北京百度网讯科技有限公司 模型训练方法、目标检测方法、装置、设备以及存储介质
CN116061187A (zh) * 2023-03-07 2023-05-05 睿尔曼智能科技(江苏)有限公司 一种复合机器人对货架商品识别、定位和抓取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOQIANG WANG ET AL.: "Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, pages 1107 - 1119 *
YEW SIANG TANG ET AL.: "Transferable Semi-Supervised 3D Object Detection From RGB-D Data", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, pages 1931 - 1940 *
刘迪: "RGB-D 图像显著性检测方法研究", 《中国博士学位论文全文数据库》, pages 1 - 107 *
张晨: "跨模态交互引导的RGB-D显著性目标检测研究", 《万方学位论文》, pages 1 - 77 *

Also Published As

Publication number Publication date
CN116978008B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
US10885352B2 (en) Method, apparatus, and device for determining lane line on road
WO2022213879A1 (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN108985334B (zh) 基于自监督过程改进主动学习的通用物体检测系统及方法
CN111612763A (zh) 手机屏幕缺陷检测方法、装置及系统、计算机设备及介质
US11508173B2 (en) Machine learning prediction and document rendering improvement based on content order
CN110648310A (zh) 基于注意力机制的弱监督铸件缺陷识别方法
CN113688889A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN112287839A (zh) 一种基于迁移学习的ssd红外图像行人检测方法
EP3848472A2 (en) Methods and systems for automated counting and classifying microorganisms
CN110766042B (zh) 一种基于最大相关最小冗余的多标记特征选择方法及装置
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN111239684A (zh) 一种基于YoloV3深度学习的双目快速距离测量方法
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
CN116740758A (zh) 一种防止误判的鸟类图像识别方法及系统
CN116978008B (zh) 一种融合rgbd的半监督目标检测方法和系统
CN116310293B (zh) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116071389A (zh) 一种基于前背景匹配的边界框弱监督图像分割方法
CN113139540B (zh) 背板检测方法及设备
CN113643312B (zh) 基于真彩色卫星云图与图像处理的云层分割方法
CN113469984B (zh) 一种基于yolo结构的显示面板外观检测方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN113673534A (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法
CN110956130A (zh) 一种四级人脸检测和关键点回归的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant