一种基于RGBD图像的目标检测方法、装置及计算机设备
技术领域
本发明涉及深度学习和目标检测技术领域,特别涉及一种基于RGBD图像的目标检测方法、装置及计算机设备。
背景技术
为顺应智能零售的时代潮流,无人店项目将线下零售和人工智能相结合,提供一种和线上购物一样流畅的全新购物方式。系统通过全覆盖式拍摄进店的每一个顾客的行为轨迹,实时提供商品推荐和结算等服务,真正意义上做到即拿即走的无感知购物体验。
目前的目标检测算法及其使用的数据增强方法都仅使用RGB图像数据,尽管通过利用传统数据增强方法数据获取方便,设备成本较低,但存在信息量不足的问题,容易造成误检与漏检,进而影响到目标检测算法的准确度,甚至导致整体系统无法正常运行从而影响出店结算。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于RGBD图像的目标检测方法、装置及计算机设备,通过对RGBD图像设置相应数据增强方法扩充训练数据,以及针对RGBD图像的自适应归一化方法和过滤处理等操作,减少了误检、漏检现象,能够准确高效地获取目标检测结果。所述技术方案如下:
一方面,提供了一种基于RGBD图像的目标检测方法,所述方法包括:
获取RGB图像与对应深度图像;
对所述RGB图像、所述深度图像分别进行数据预处理,所述数据预处理至少包括自适应归一化操作;
将数据预处理后的RGB图像与深度图像对齐合并成RGBD图像;
将所述RGBD图像输入预设深度学习模型,获得至少包括待测目标和待测目标组件的初步候选框;
对所述初步候选框进行阈值过滤、NMS过滤和深度信息过滤,获得输出框;
根据所述输出框确定所述待测目标组件与所述待测目标的目标关联关系,根据所述目标关联关系获得目标检测结果。
优选地,所述方法还包括:
获取无目标场景下的深度图像,计算所述自适应归一化操作所需参数和所述深度信息过滤所需参数。
优选地,获取无目标场景下的深度图像,计算所述自适应归一化操作所需参数和所述深度信息过滤所需参数,包括:
采集N张深度图像,取其非零中位数合并为一张深度图并去噪,然后在所述深度图中指定一部分地面区域,由区域生长法获得地面蒙版并去噪,再由去噪后的地面蒙版与去噪后的深度图计算得到不同地面区域深度图,计算所述不同地面区域深度图中非零区域的均值。
优选地,对所述RGB图像、所述深度图像分别进行数据预处理,包括:
将所述RGB图像、所述深度图像分别补零到预设图片比例;
再分别缩放到预设输入尺寸;
最后分别进行所述自适应归一化操作。
优选地,在将所述RGBD图像输入预设深度学习模型,获得至少包括待测目标和待测目标组件的初步候选框之前,所述方法还包括:
对采集的RGBD图像训练数据进行数据增强操作,并训练得到所述预设深度学习模型,其中所述数据增强操作至少包括以下方式的一种:
对RGBD图像进行随机旋转、缩放、翻转、平移中的至少一种操作;
对深度图像,进行高斯噪声处理和/或随机像素置零;
对RGB图像,进行高斯噪声处理。
优选地,所述随机像素置零包括:
对于一张值为1、尺寸与深度图一致的单通道图片,将其中的随机n个像素置零,作为用于数据增强的掩模,其中n为不小于1的整数。
优选地,对所述初步候选框进行阈值过滤、NMS过滤和深度信息过滤,获得输出框,包括:
先对所述初步候选框进行阈值过滤,过滤掉置信度小于预设置信度阈值的框;
然后通过NMS算法过滤掉多余重叠的框;
再利用深度信息进一步过滤,剩余的框即为所述输出框。
优选地,根据所述输出框确定所述待测目标组件与所述待测目标的目标关联关系,根据所述目标关联关系获得目标检测结果,包括:
基于所述输出框,根据所述待测目标与所述待测目标组件的交并比,将所述待测目标初步候选框与所述待测目标组件的初步候选框进行目标关联关系的绑定操作,若判定所述交并比大于预设阈值,则确定所述待测目标组件与所述待测目标属于同一人,并作为目标检测结果输出。
另一方面,提供了一种基于RGBD图像的目标检测装置,所述装置包括:
图像获取模块,用于:获取RGB图像与对应深度图像;
数据预处理模块,用于:对所述RGB图像、所述深度图像分别进行数据预处理,所述数据预处理至少包括自适应归一化操作;
RGBD图像合并模块,用于:将数据预处理后的RGB图像与深度图像对齐合并成RGBD图像;
模型计算模块,用于:将所述RGBD图像输入预设深度学习模型,获得至少包括待测目标和待测目标组件的初步候选框;
过滤模块,用于:对所述初步候选框进行阈值过滤、NMS过滤和深度信息过滤,获得输出框;
检测结果获取模块,用于:根据所述输出框确定所述待测目标组件与所述待测目标的目标关联关系,根据所述目标关联关系获得目标检测结果。
优选地,所述装置还包括参数计算模块,用于:
获取无目标场景下的深度图像,计算所述自适应归一化操作所需参数和所述深度信息过滤所需参数。
优选地,获取无目标场景下的深度图像,计算所述自适应归一化操作所需参数和所述深度信息过滤所需参数,包括:
采集N张深度图像,取其非零中位数合并为一张深度图并去噪,然后在所述深度图中指定一部分地面区域,由区域生长法获得地面蒙版并去噪,再由去噪后的地面蒙版与去噪后的深度图计算得到不同地面区域深度图,计算所述不同地面区域深度图中非零区域的均值。
优选地,所述数据预处理模块,用于:
将所述RGB图像、所述深度图像分别补零到预设图片比例;
再分别缩放到预设输入尺寸;
最后分别进行所述自适应归一化操作。
优选地,所述装置还包括模型训练模块,用于:
对采集的RGBD图像训练数据进行数据增强操作,并训练得到所述预设深度学习模型,其中所述数据增强操作至少包括以下方式的一种:
对RGBD图像进行随机旋转、缩放、翻转、平移中的至少一种操作;
对深度图像,进行高斯噪声处理和/或随机像素置零;
对RGB图像,进行高斯噪声处理。
优选地,所述随机像素置零包括:
对于一张值为1、尺寸与深度图一致的单通道图片,将其中的随机n个像素置零,作为用于数据增强的掩模,其中n为不小于1的整数。
优选地,所述过滤模块,用于:
先对所述初步候选框进行阈值过滤,过滤掉置信度小于预设置信度阈值的框;
然后通过NMS算法过滤掉多余重叠的框;
再利用深度信息进一步过滤,剩余的框即为所述输出框。
优选地,所述检测结果获取模块,用于:
基于所述输出框,根据所述待测目标与所述待测目标组件的交并比,将所述待测目标初步候选框与所述待测目标组件的初步候选框进行目标关联关系的绑定操作,若判定所述交并比大于预设阈值,则确定所述待测目标组件与所述待测目标属于同一人,并作为目标检测结果输出。
又一方面,提供了一种基于RGBD图像的目标检测计算机设备,包括:处理器;
存储器,用于存储有所述处理器的可执行指令;其中,所述处理器配置为经由所述可执行指令来执行上述方案任一项所述的基于RGBD图像的目标检测方法的步骤。
本发明实施例提供的技术方案带来的有益效果是:
1、通过采集RGBD图像增加了信息量;
2、通过对RGBD图像设置相应数据增强方法扩充训练数据,提高模型训练的精度;
3、通过对RGBD图像进行相应自适应归一化操作,避免了RGBD采集时因摄像头高度改变引起的算法性能下降;
4、通过阈值过滤、NMS过滤和深度信息过滤,提高目标检测准确率,能够准确高效地获取目标检测结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的基于RGBD图像的目标检测方法流程图;
图2是图1中102步骤的子步骤流程图;
图3是图1中105步骤的子步骤流程图;
图4是本发明实施例2提供的基于RGBD图像的目标检测装置结构示意图;
图5是本发明实施例3提供的基于RGBD图像的目标检测计算机设备硬件结构示意图;
图6是本发明实施例4提供的基于RGBD图像的目标检测方法,装置及计算机设备的业务流程图;
图7是图6中深度信息过滤过程流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
本发明实施例提供的基于RGBD图像的目标检测方法、装置及计算机设备,通过采集RGBD图像增加了信息量;通过对RGBD图像设置相应数据增强方法扩充训练数据,提高模型训练的精度;通过对RGBD图像进行相应自适应归一化操作,避免了RGBD采集时因摄像头高度改变引起的算法性能下降;通过阈值过滤、NMS过滤和深度信息过滤,提高目标检测准确率,能够准确高效地获取目标检测结果,因此适用于涉及目标检测或目标识别的多种应用场景,尤其适用于针对复杂俯拍监控场景的行人检测方法,能够准确高效地检测行人的人体、人手、人头等目标,在缓解算法在新场景中性能下降问题的同时过滤掉部分误检,为行人跟踪、实例分割、行人ReID、人货交互、动态商品识别等任务提供目标的准确位置信息与类别信息,可为无人店的监控提供有效的目标检测能力。
下面结合具体实施例及附图,对本发明实施例提供的基于RGBD图像的目标检测方法、装置及计算机设备作详细说明。需要说明的是,这里的待测目标可以是包含人体、动物等的活动目标以及静态目标等。
实施例1
图1是本发明实施例1提供的基于RGBD图像的目标检测方法流程图。图2是图1中102步骤的子步骤流程图。图3是图1中105步骤的子步骤流程图。
如图1所示,本发明实施例提供的基于RGBD图像的目标检测方法,包括以下步骤:
101、获取RGB图像与对应深度图像。
优选地,利用RGBD摄像机获取包含多个待测目标的RGB图像数据与其对应的深度图像数据。
值得注意的是,上述步骤101的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
另外优选地,在上述101步骤之前,实施以下步骤:
(特别地在监控场景内)获取无目标场景下的深度图像,并由深度图像数据计算自适应归一化操作所需参数和深度信息过滤所需参数。进一步优选地,上述参数计算过程可以采用以下方式:采集N张深度图像,取其非零中位数合并为一张深度图并去噪,然后在深度图中指定一部分地面区域,由区域生长法获得地面蒙版并去噪,再由去噪后的地面蒙版与去噪后的深度图计算得到不同地面区域深度图,计算不同地面区域深度图中非零区域的均值。优选地,这里获取无目标场景下的深度图像可与上述101步骤同时完成。
102、对RGB图像、深度图像分别进行数据预处理,数据预处理至少包括自适应归一化操作。
优选地,上述102步骤进一步包括以下子步骤:
1021、将RGB图像、深度图像分别补零到预设图片比例;
1022、再分别将RGB图像、深度图像缩放到预设输入尺寸;
1023、最后分别对RGB图像、深度图像进行自适应归一化操作。
值得注意的是,上述步骤102的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
103、将数据预处理后的RGB图像与深度图像对齐合并成RGBD图像。
104、将RGBD图像输入预设深度学习模型,获得至少包括待测目标和待测目标组件的初步候选框。
优选地,这里的预设深度学习模型可以采用ssd、yolov3、centernet等现有技术中任何可能的深度学习模型。示例性地,当需要对人体的待测目标进行检测时,这里的待测目标组件可以是包含人头、人手等人体的局部。
另外优选地,在上述104步骤之前,实施以下步骤:
对采集的RGBD图像训练数据进行数据增强操作,并训练得到预设深度学习模型,其中数据增强操作至少包括以下方式的一种:
对RGBD图像进行随机旋转、缩放、翻转、平移中的至少一种操作;
对深度图像,进行高斯噪声处理和/或随机像素置零;
对RGB图像,进行高斯噪声处理。
进一步优选地,随机像素置零采用以下方式:对于一张值为1、尺寸与深度图一致的单通道图片,将其中的随机n个像素置零,作为用于数据增强的掩模,其中n为不小于1的整数。
105、对初步候选框进行阈值过滤、NMS过滤和深度信息过滤,获得输出框。
优选地,上述105步骤包括以下子步骤:
1051、先对初步候选框进行阈值过滤,过滤掉置信度小于预设置信度阈值的框;
1052、然后通过NMS算法过滤掉多余重叠的框;
1053、再利用深度信息进一步过滤,剩余的框即为输出框。
值得注意的是,上述步骤105的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
106、根据输出框确定待测目标组件与待测目标的目标关联关系,根据目标关联关系获得目标检测结果。
优选地,基于输出框,根据待测目标与待测目标组件的交并比,将待测目标初步候选框与待测目标组件的初步候选框进行目标关联关系的绑定操作,若判定交并比大于预设阈值,则确定待测目标组件与待测目标属于同一人,并作为目标检测结果输出。
示例性地,将人体的初步候选框与人体组件的初步候选框进行绑定,若判定两者绑定关系大于预设阈值,则确定人体组件与人体属于同一人,并作为目标检测结果输出。
值得注意的是,上述步骤106的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
实施例2
图4是本发明实施例2提供的基于RGBD图像的目标检测装置结构示意图。如图4所示,本发明实施例2提供的基于RGBD图像的目标检测装置,包括图像获取模块21、数据预处理模块22、RGBD图像合并模块23、模型计算模块24、过滤模块25和检测结果获取模块26。
具体地,图像获取模块21,用于:获取RGB图像与对应深度图像;数据预处理模块22,用于:对RGB图像、深度图像分别进行数据预处理,数据预处理至少包括自适应归一化操作,优选地将RGB图像、深度图像分别补零到预设图片比例;再分别缩放到预设输入尺寸;最后分别进行自适应归一化操作;RGBD图像合并模块23,用于:将数据预处理后的RGB图像与深度图像对齐合并成RGBD图像;模型计算模块24,用于:将RGBD图像输入预设深度学习模型,获得至少包括待测目标和待测目标组件的初步候选框;过滤模块25,用于:对初步候选框进行阈值过滤、NMS过滤和深度信息过滤,获得输出框,优选地先对初步候选框进行阈值过滤,过滤掉置信度小于预设置信度阈值的框;然后通过NMS算法过滤掉多余重叠的框;再利用深度信息进一步过滤,剩余的框即为输出框;检测结果获取模块26,用于:根据输出框确定待测目标组件与待测目标的目标关联关系,根据目标关联关系获得目标检测结果,优选地,基于输出框,根据待测目标与待测目标组件的交并比,将待测目标初步候选框与待测目标组件的初步候选框进行目标关联关系的绑定操作,若判定交并比大于预设阈值,则确定待测目标组件与待测目标属于同一人,并作为目标检测结果输出。示例性地,将人体的初步候选框与人体组件的初步候选框进行绑定,若判定两者绑定关系大于预设阈值,则确定人体组件与所述人体属于同一人,并作为目标检测结果输出。
优选地,上述基于RGBD图像的目标检测装置还包括:
参数计算模块27,用于:获取无目标场景下的深度图像,计算自适应归一化操作所需参数和深度信息过滤所需参数。优选地,上述参数计算过程采用以下方式:采集N张深度图像,取其非零中位数合并为一张深度图并去噪,然后在深度图中指定一部分地面区域,由区域生长法获得地面蒙版并去噪,再由去噪后的地面蒙版与去噪后的深度图计算得到不同地面区域深度图,计算不同地面区域深度图中非零区域的均值。
另外优选地,上述基于RGBD图像的目标检测装置还包括:
模型训练模块28,用于:对采集的RGBD图像训练数据进行数据增强操作,并训练得到预设深度学习模型,其中所述数据增强操作至少包括以下方式的一种:对RGBD图像进行随机旋转、缩放、翻转、平移中的至少一种操作;对深度图像,进行高斯噪声处理和/或随机像素置零;对RGB图像,进行高斯噪声处理。上述随机像素置零包括:对于一张值为1、尺寸与深度图一致的单通道图片,将其中的随机n个像素置零,作为用于数据增强的掩模,其中n为不小于1的整数。
实施例3
图5是本发明实施例3提供的基于RGBD图像的目标检测的计算机设备硬件结构示意图,如图5所示,本发明实施例3提供的基于RGBD图像的目标检测的计算机设备包括:
处理器31;存储器32,用于存储有处理器31的可执行指令;其中,处理器31配置为经由所述可执行指令来执行上述方案任一项所述的基于RGBD图像的目标检测方法的步骤。
其中,存储器32可以是计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本实施例中,该存储器32可以用来存储实现上述目标检测方法的程序;
处理器31可以用来加载并执行存储器32存储的程序,以实现上述目标检测方法的各个步骤,具体实现过程可以参照上述方法实施例相应部分的描述。
在实际应用中,该计算机设备可以是服务器、电脑等。因此,计算机设备的结构组成并不局限于存储器和处理器,还可以包括其他硬件设备,如输入设备、存储设备等等,可以根据该计算机设备的配置确定,在这里不做一一列举。
实施例4
图6是本发明实施例1至3提供的基于RGBD图像的目标检测方法,装置及设备的业务流程图,示出了一优选实施方式。
如图6所示,在该优选实施例中,主要包括以下流程:
1、参数计算:通过采集环境深度信息,计算归一化参数和地面蒙板并对深度图像去噪,首先采集N张深度图像DEPTH=[Depth1,Depth2,…,DepthN],取其非零中位数合并为一张深度图像Depth以去噪,伪代码如下:
其中N为大于1的整数,i,j为像素索引,h,w为深度图像的高和宽,Median()为取中位数,NonZero()为去掉数组中的零;然后人为在深度图像中指定小部分地面区域,由区域生长法可获得地面蒙版Mask并去噪,其中地面区域为1,其它为0;由Mask与深度图像Depth可得到地面不同区域的深度值:
Depthfloor=Mask·Depth
其中,Depthfloor为仅包含地面区域的深度图像,Mask为通过区域生长法计算得到的用于表示地面区域的掩模,Depth为深度图像。
最后,统计Depthfloor中非零区域的均值,记为Dmean。
2、RGBD图像采集:由RGBD摄像头采集RGBD图像。
3、数据预处理:首先将分别将RGB图像、深度图像的图片补零到预设的图片比例,再分别将其缩放到预设的输入尺寸,最后将分别自适应归一化后的结果作为模型的输入。具体地,通过以下方法对RGB图像进行自适应归一化:
其中,RGBnorm为归一化后的RGB图像,RGB为归一化前的RGB图像,cRGB为预设常数;
通过以下方法对深度图像进行自适应归一化:
其中,Depthnorm为归一化后的深度图像,Depth为归一化前的深度图像,Dmean为Depthfloor中非零区域的均值,cD为预设常数。
4、利用深度学习目标检测模型(如yolo、ssd、centernet等)得到初步候选框。具体的做法为:利用卷积神经网络提取特征图,在特征图的基础上输出初步候选框信息。
5、过滤后处理:初步候选框通过阈值过滤掉置信度不够的框,然后通过NMS算法过滤掉多余重叠的框,再利用深度信息进一步过滤,剩余的框即为最后的输出框。NMS算法为一种根据候选框IOU(交并比)与置信度去除重叠框的算法。
具体地,如图7所示,判断是否满足过滤的判定条件,根据判定结果选择过滤或保留。
利用深度信息过滤的方法流程图及伪代码如下:
6、人体组件绑定:将人体的初步候选框Box1与人体组件的初步候选框Box2进行绑定操作,若满足:
则判定该组件Box2与人体Box1属于同一人。其中,area()为计算面积,∩为取交集,thresh为用于判断组件框与人体框目标关联关系的预设阈值。
需要说明的是:上述实施例提供的基于RGBD图像的目标检测装置、设备在触发目标检测业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置、设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于RGBD图像的目标检测装置、设备与基于RGBD图像的目标检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的基于RGBD图像的目标检测方法、装置及计算机设备,相比现有技术,具有以下有益效果:
1、通过采集RGBD图像增加了信息量;
2、通过对RGBD图像设置相应数据增强方法扩充训练数据,提高模型训练的精度;
3、通过对RGBD图像进行相应自适应归一化操作,避免了RGBD采集时因摄像头高度改变引起的算法性能下降;
4、通过阈值过滤、NMS过滤和深度信息过滤,提高目标检测准确率,能够准确高效地获取目标检测结果。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。