CN113256622A

CN113256622A - 基于三维图像的目标检测方法、装置及电子设备

Info

Publication number: CN113256622A
Application number: CN202110716725.0A
Authority: CN
Inventors: 杜强; 王思其; 陈相儒; 牟晓勇; 聂方兴
Original assignee: Beijing Xbentury Network Technology Co ltd
Current assignee: Beijing Xbentury Network Technology Co ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-08-13

Abstract

本申请涉及一种基于三维图像的目标检测方法、装置及电子设备，其包括：通过获取待检测的三维图像，然后将待检测的三维图像通过训练后的网络模型进行目标检测，其中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。本申请可以使得对小目标进行目标检测的模型可以获取到正样本特征点，以进行模型训练，进而可以提高训练后的模型在对小目标进行目标检测的准确度。

Description

基于三维图像的目标检测方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其是涉及一种基于三维图像的目标检测方法、装置及电子设备。

背景技术

随着信息技术的发展，网络模型也随之发展，基于网络模型的目标检测方法也随之发展，并且基于网络模型的目标检测方法也被应用于各个领域，例如，在相关技术中，基于网络模型的目标检测方法被应用于医疗技术领域，以用于甲状腺结节、肺结节等目标检测。

在相关技术中，在通过网络模型对图像进行目标检测时，由于某些目标可能恰好落在特征图的步长之间，导致在筛选正负样本的阶段已经将小目标的样本筛掉，从而导致在通过网络模型对图像进行目标检测时无法检测到小目标，进而导致通过网络模型对小目标进行检测的准确度不高，体验较差。

发明内容

本申请目的是提供一种基于三维图像的目标检测方法、装置及电子设备，用于解决以上至少一项技术问题。

本申请的上述发明目的一是通过以下技术方案得以实现的：

第一方面，提供了一种基于三维图像的目标检测方法，包括：

获取待检测的三维图像；

将待检测的三维图像通过训练后的网络模型进行目标检测；

训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。

在一种可能的实现方式中，该方法还包括：

获取训练样本，训练样本中包含多张三维样本图像；

基于各个三维样本图像确定各个三维样本图像分别对应的正样本特征点和负样本特征点；

基于各个三维样本图像分别对应的正样本特征点和负样本特征点，对预设网络模型进行训练，得到训练后的网络模型。

在另一种可能的实现方式中，针对任一三维样本图像，基于任一三维样本图像确定任一三维样本图像对应的正样本特征点和负样本特征点，包括：

对任一三维样本图像进行特征提取，得到多张不同维度的特征图；

确定各张特征图中每张特征图中各个特征点分别对应的偏移量；

基于各张特征图中每张特征图中各个特征点分别对应的偏移量，确定各个特征点分别与其对应样本图像标签的中心点之间的距离；

将距离小于预设阈值的特征点确定为正样本特征点，以及，将距离不小于预设阈值的特征点确定为负样本特征点。

在另一种可能的实现方式中，该方法还包括：

获取训练样本，训练样本中包含多张三维样本图像；

以各个三维样本图像分别对应的真实检测框的中心点作为图像中心点，对各自对应的图像进行裁剪，得到各自对应的预设尺寸的图像块；

基于各自对应的预设尺寸的图像块，对预设模型进行训练。

在另一种可能的实现方式中，将待检测的三维图像通过训练后的网络模型进行目标检测，包括：

将待检测的三维图像通过网格化处理，得到多个预设尺寸的三维图像块；

将多个预设尺寸的三维图像块通过训练后的网络模型进行目标检测，得到各个三维图像块分别对应的目标检测结果；

将各个三维图像块分别对应的目标检测结果进行拼接处理，得到待检测的三维图像对应的目标检测结果。

在另一种可能的实现方式中，该方法还包括：

获取训练样本，训练样本中包括多张三维样本图像；

将训练样本通过预设网络模型进行中心度预测处理，得到各个三维样本图像中各个位置分别对应的中心度；

基于各个位置分别对应的中心度以及各个位置分别对应的目标中心度，并通过二值交叉熵BCE损失函数，对预设网络模型进行训练。

将待检测的三维图像进行卷积处理，得到多张特征图；

基于多张特征图进行特征提取，得到多张不同维度的三维特征图；

基于多张不同维度的三维特征图进行目标检测，得到目标检测结果。

在另一种可能的实现方式中，基于多张不同维度的三维特征图进行目标检测，得到目标检测结果，包括：

基于多张不同维度的三维特征图并通过头网络head网络进行目标检测，得到目标检测结果；

其中，目标检测结果包括：目标所属类别、中心度、目标所处位置信息以及目标对应的偏移量。

第二方面，提供了一种基于三维图像的目标检测装置，包括：

第一获取模块，用于获取待检测的三维图像；

目标检测模块，用于将待检测的三维图像通过训练后的网络模型进行目标检测；

其中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。

在一种可能的实现方式中，该装置还包括：第二获取模块、确定模块以及第一训练模块，其中，

第二获取模块，用于获取训练样本，训练样本中包含多张三维样本图像；

确定模块，用于基于各个三维样本图像确定各个三维样本图像分别对应的正样本特征点和负样本特征点；

第一训练模块，用于基于各个三维样本图像分别对应的正样本特征点和负样本特征点，对预设网络模型进行训练，得到训练后的网络模型。

在另一种可能的实现方式中，针对任一三维样本图像，确定模块在基于任一三维样本图像确定任一三维样本图像对应的正样本特征点和负样本特征点时，具体用于：

在另一种可能的实现方式中，该装置还包括：第二获取模块、裁剪模块以及第二训练模块，其中，

裁剪模块，用于以各个三维样本图像分别对应的真实检测框的中心点作为图像中心点，对各自对应的图像进行裁剪，得到各自对应的预设尺寸的图像块；

第二训练模块，用于基于各自对应的预设尺寸的图像块，对预设模型进行训练。

在另一种可能的实现方式中，目标检测模块在将待检测的三维图像通过训练后的网络模型进行目标检测时，具体用于：

在另一种可能的实现方式中，该装置还包括：第三获取模块、预测处理模块以及第三训练模块，其中，

第三获取模块，用于获取训练样本，训练样本中包括多张三维样本图像；

预测模块，用于将训练样本通过预设网络模型进行中心度预测处理，得到各个三维样本图像中各个位置分别对应的中心度；

第三训练模块，用于基于各个位置分别对应的中心度以及各个位置分别对应的目标中心度，并通过二值交叉熵BCE损失函数，对预设网络模型进行训练。

将待检测的三维图像进行卷积处理，得到多张特征图；

在另一种可能的实现方式中，目标检测模块在基于多张不同维度的三维特征图进行目标检测，得到目标检测结果时，具体用于：

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面中任一可能的实现方式所示的基于三维图像的目标检测方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的基于三维图像的目标检测方法。

本申请提供了一种基于三维图像的目标检测方法、装置及电子设备，与现有技术相比，本申请通过获取待检测的三维图像，然后将待检测的三维图像通过训练后的网络模型进行目标检测，其中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。也即上述网络模型进行训练所利用的正样本特征点和负样本特征点是通过三维样本图像对应的每个特征图中的各个特征点到三维样本图像标签的中心点的偏移量确定的，从而可以使得对小目标进行目标检测的模型可以获取到正样本特征点，以进行模型训练，进而可以提高训练后的模型在对小目标进行目标检测的准确度。

附图说明

图1是本申请实施例提供的一种基于三维图像的目标检测方法的流程示意图；

图2是本申请实施例提供的一种基于三维图像的目标检测装置结构示意图；

图3是本申请实施例提供的一种电子设备的装置结构示意图；

图4是本申请实施例提供的一种3D-FCOST目标检测模型的结构示意图；

图5是本申请实施例提供的3D-FCOST目标检测模型骨干网络的结构示意图；

图6是3D-FCOST目标检测模型中共享头部网络的结构示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

本申请实施例提供了一种基于三维图像的目标检测方法，可以应用于各个应用场景，以对三维图像中的小目标进行检测，本申请实施例中以将基于三维图像的目标检测方法应用于医疗场景（例如，针对三维图像中的肺结节检测）为例进行说明，但是并不限于医疗场景。

例如，在针对三维图像中的肺结节检测的研究中，数据集为LIDC-IDRI (肺图像数据库联合会-图像数据库资源计划，The Lung Image Database Consortium- ImageDatabase Resource Initiative)，由胸部医学图像文件(. dcm)(如CT、x射线)和相应诊断结果的病灶注释(. xml)组成。这些数据由美国国家癌症研究所(National CancerInstitute)收集，用于研究高危人群的早期癌症检测。

在该数据集中，筛选出1018个研究样本。对于每一张图像，由4名经验丰富的胸片放射科医师进行两阶段诊断注释。在第一阶段中，每位医生将独立诊断并对患者的位置进行标记，将标记三类:1.大于或等于3毫米的结节；2.小于3毫米的结节；3.大于或等于3mm的非结节。在第二阶段，每位医生独立审阅其他三位医生的笔记，并给出自己的最终诊断。这两种阶段的标记可以尽可能完整地标记所有结果，而不需要强制达成一致。基于该数据集，主要对数据集中的肺结节进行三维检测和提取，并进行假阳性检测。

由于该数据集主要用到的标签是肺结节位置以及分类，且是3d数据，所以检测肺结节需要检测一个3d物体，而且由于肺结节大部分目标过小，所以需要使用3d目标检测的多任务同时优化的手段对其进行优化。

由于目标较小，在检测小目标时其体积已经小于目标网络（例如，FCOS(一阶段全卷积目标检测，Fully Convolutional One-Stage Object Detection)网络）中的3d特征图中对应的步长，从而在筛选正负样本阶段就已经将小目标的样本筛掉，从而导致网络无法看到小目标肺结节，因此使得目标网络（例如，FCOS网络）在小目标肺结节的检测中，效果并不好。

不仅如此，目前已有的深度学习目标检测模型如yolo系列，ssd系列，retinanet等基于anchor的目标检测模型更无法很好地适应该任务的要求。所以针对小目标肺结节检测以及在3d数据集进行3d目标检测的需求，我们针对这些问题设计并创新了目前在市面上暂时没有的针对小目标肺结节图像的基于无anchor的3d目标检测的深度学习方法。

本申请实施例设计了一种针对小目标肺结节检测数据库LIDC-IDRI的基于FCOS3d网络的的改进与创新方法，解决了FCOS3d网络无法检测到小目标（例如，占用4个像素以下的目标）检测问题，满足3d小目标肺结节图像目标检测的深度学习模型训练要求，使得训练过程更加合理，结果更加全面及精确。

其中，人工智能(ArtificialIntelligence ,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(MachineLearning ,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例的目的在于一种基于无anchor的针对3d图像中小目标肺结节进行分类和检测的模型，对3d图像中的小目标进行检测。

下述实施例结合附图详细介绍了一种基于三维图像的目标检测方法，具体详见下述实施例。

本申请实施例提供一种基于三维图像的目标检测方法，如图1所示，在本申请实施例中提供的病理图像的处理方法可以由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，该方法包括：

步骤S101、获取待检测的三维图像。

对于本申请实施例，待检测的三维图像可以为医疗影像图，也可以为其他目标的3d图像。在本申请实施例中，针对待检测的三维图像为医疗影像图，待检测的三维图像可以包含超声图像，也可以包含计算机断层扫描 (Computed Tomography，CT)影像图等，还可以包含其他的医疗影像图，在本申请实施例中并不对医疗图像的类型进行限定。

步骤S102、将待检测的三维图像通过训练后的网络模型进行目标检测。

例如，在医疗应用场景中，待检测的三维图像可以为肺部医疗影像图，将肺部的医疗影像图通过训练后的网络模型进行目标检测，以确定该医疗影像图是否为包含肺结节的医疗影像图；待检测的三维图像可以为甲状腺医疗影像图，将甲状腺医疗影像图通过训练后的网络模型进行目标检测，以确定该医疗影像图中是否为包含甲状腺结节的医疗影像图。

上述实例中涉及的肺结节信息以及甲状腺结节信息在医疗影响图中占据的区域较小，属于小目标，因此需要对网络模型进行精准训练，以得到训练后的网络模型。在本申请实施例中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。

本申请实施例提供了一种基于三维图像的目标检测方法，与现有技术相比，本申请实施例通过获取待检测的三维图像，然后将待检测的三维图像通过训练后的网络模型进行目标检测，其中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。也即上述网络模型进行训练所利用的正样本特征点和负样本特征点是通过三维样本图像对应的每个特征图中的各个特征点到三维样本图像标签的中心点的偏移量确定的，从而可以使得对小目标进行目标检测的模型可以获取到正样本特征点，以进行模型训练，进而可以提高训练后的模型在对小目标进行目标检测的准确度。

进一步地，由上述实施例可知：在本申请实施例中需要对3d图像中的小目标进行检测，因此需要对网络模型进行训练，以实现对小目标的检测。在本申请实施例中，以对FCOS3d网络模型进行训练，以得到可以对3d图像进行小目标检测的网络模型的方式为例进行介绍，但是并不限定于对本申请实施例的限定。其中，FCOS3d模型的网络结构如图4所示，其网络结构包括：骨干网络（backbone）以及头部网络（head），首先是backbone，输出三个特征图c3、c4、c5（输出步长（outstride）分别是8、16、32），然后经过1×1卷积改变通道数量（512、1024、2048），p3～p7明显是个特征金字塔结构，也即得到五层特征图，分别定义为{p3、p4、p5、p6、p7}，其中，三个特征图c3、c4、c5通过1×1卷积水平连接得到p3、p4、p5，p6和p7是p5的依次下采样得到；然后将五层特征图{p3、p4、p5、p6、p7}通过共享head网络得到分类结果（D*H*W*K）、中心度（D*H*W*1）以及目标回归结果（D*H*W*9）。具体地，backbone的网络结构如图5所示，head网络的网络结构如图6所示。

进一步地，该方法还可以包括：步骤Sa（图中未示出）、步骤Sb（图中未示出）以及步骤Sc（图中未示出），其中，步骤Sa、步骤Sb和步骤Sc可以在步骤S101之前执行，也可以在步骤S101之后执行，在本申请实施例中并不对具体的执行顺序进行限定。

步骤Sa、获取训练样本。

其中，训练样本中包含多张三维样本图像。

例如，针对三维图像中的肺结节检测，以确定三维图像中是否包含肺结节信息为例进行介绍，训练样本可以包含多张包含肺结节信息的三维样本图像以及多张不包含肺结节的三维样本图像。

步骤Sb、基于各个三维样本图像确定各个三维样本图像分别对应的正样本特征点和负样本特征点。

对于本申请实施例，针对任一三维样本图像，基于任一三维样本图像确定任一三维样本图像对应的正样本特征点和负样本特征点，包括：对任一三维样本图像进行特征提取，得到多张不同维度的特征图；确定各张特征图中每张特征图中各个特征点分别对应的偏移量；基于各张特征图中每张特征图中各个特征点分别对应的偏移量，确定各个特征点分别与其对应样本图像标签的中心点之间的距离；将距离小于预设阈值的特征点确定为正样本特征点，以及，将距离不小于预设阈值的特征点确定为负样本特征点。

具体地，在本申请实施例中，对任一三维样本图像通过backbone网络得到多张不同维度的特征图，也即特征图{p3、p4、p5、p6、p7}，然后分别确定p3、p4、p5、p6、p7中各个特征点分别对应的偏移量，然后针对每张特征图，确定各个特征点分别与其对应的样本图像标签的中心点之间的距离，然后基于确定出的距离与预设阈值的关系，确定正样本特征点和负样本特征点。在本申请实施例中，任一特征点对应的偏移量为该特征点到正样本中心度的三个偏移量，具体可以包括：深度偏移量、宽度偏移量、高度偏移量，其中，深度偏移量、宽度偏移量、高度偏移量分别通过D_bias、W_bias以及H_bias进行表征。

具体地，任一特征点与其对应的样本图像标签的中心点之间的距离可以通过公式1得到：

公式1；

进一步地，在得到任一特征点与其对应的样本图像标签的中心点的距离之后，将距离小于预设阈值（用m进行表示）的特征点记为正样本特征点，将距离大于预设阈值的特征点记为负样本特征点，也即，将

<m的特征点记为正样本特征点，将

>m的特征点记为负样本特征点。在本申请实施例中，负样本特征点一般不会用于边界框的回归。

进一步地，各个三维样本图像均按照上述方式得到正样本特征点和负样本特征点，具体的计算方式不再赘述。

步骤Sc、基于各个三维样本图像分别对应的正样本特征点和负样本特征点，对预设网络模型进行训练，得到训练后的网络模型。

对于本申请实施例，在通过步骤Sb中计算得到的各个三维样本图像分别对应的正样本特征点和负样本特征点，对预设网络模型进行训练，得到训练后的网络模型。

对于本申请实施例，由于不同特征点距离不同尺寸的目标中心点的距离不同，因此通过距离筛选出中心点周围的特征点作为正样本特征点，从而可以使得模型可以获取正样本数据。

进一步地，在上述实施例得到正样本特征点和负样本特征点，对模型进行训练，以得到训练后的模型可以进行小目标检测，并可以提高目标检测的准确度。进一步地，在本申请实施例中还可以通过增强算法在增加图像的同时不影响模型的准确性。

本申请实施例的另一种可能的实现方式，该方法还包括：步骤Sd（图中未示出）、步骤Se（图中未示出）以及步骤Sf（图中未示出），其中，

步骤Sd、获取训练样本。

其中，训练样本中包含多张三维样本图像。

对于本申请实施例，获取训练样本的方式详见上述实施例，在此不再赘述。

步骤Se、以各个三维样本图像分别对应的真实检测框的中心点作为图像中心点，对各自对应的图像进行裁剪，得到各自对应的预设尺寸的图像块。

对于本申请实施例，预设尺寸可以是预先确定的尺寸，也可以是根据网络模型预先设定的尺寸，在本申请实施例中不做限定。

例如，预设尺寸可以为128*128*128。

步骤Sf、基于各自对应的预设尺寸的图像块，对预设模型进行训练。

具体地，在本申请实施例中，在通过上述实施例得到各自对应的预设尺寸的图像块之后，将坐标映射到图像块中，并基于坐标映射后的图像块对预设模型进行训练。

例如，在训练过程中，将每个三维样本图像的真实检测框的中心点对每个三维样本图像进行裁剪，得到128*128*128的三维图像块，并将坐标映射到裁剪得到的三维图像块，进而通过坐标映射的三维图像块对预设模型进行训练。

进一步地，在通过裁剪后的三维图像块对网络模型进行训练之后，得到训练后的网络模型，且在通过训练后的网络模型进行目标检测时，也同样需要对待检测的三维图像进行处理得到三维图像块，具体地，将待检测的三维图像通过训练后的网络模型进行目标检测，包括：将待检测的三维图像通过网格化处理，得到多个预设尺寸的三维图像块；将多个预设尺寸的三维图像块通过训练后的网络模型进行目标检测，得到各个三维图像块分别对应的目标检测结果；将各个三维图像块分别对应的目标检测结果进行拼接处理，得到待检测的三维图像对应的目标检测结果。

在上述实施例中，虽然训练后的网络模型可以对小目标进行检测的准确度，但是网络预测过程中，仍有很多远离目标中心的低质量的边界框，为了在不引入额外超参数的情况下抑制这些低质量的边界框，该方法还包括：步骤Sg（图中未示出）、步骤Sh（图中未示出）以及步骤Si（图中未示出），其中，

步骤Sg、获取训练样本。

其中，训练样本中包括多张三维样本图像。

步骤Sh、将训练样本通过预设网络模型进行中心度预测处理，得到各个三维样本图像中各个位置分别对应的中心度。

对于本申请实施例，在head网络中的分类分支中并列增加一个单层网络分支来预测一个位置的“中心度”（即该像素位置对应目标的中心的置信度），如图6所示。给定某一位置的回归目标：中心点到边框左边界的距离（通过L^*进行表征）、中心点到边框上边界的距离（通过T^*进行表征）、中心点到边框右边界的距离（通过R^*进行表征）、中心点到边框下边界的距离（通过B^*进行表征）、中心点到边框前边界的距离（通过F^*进行表征）、中心点到边框后边界的距离（通过Be^*进行表征），中心度的计算方式如公式2所示：

公式2

对于本申请实施例，公式2中开根号是为了减缓中心度的衰减，中心度的范围从0到1。

步骤Si、基于各个位置分别对应的中心度以及各个位置分别对应的目标中心度，并通过二值交叉熵BCE损失函数，对预设网络模型进行训练。

对于本申请实施例，测试时，最终得分(用于预测anchor的排序)是分类得分与中心度的乘积，因此中心度可以降低远离目标中心边界框的权重，使得这些低质量的边界框大概率会被非极大值抑制(Non-Maximum Suppression，NMS)过滤掉，从而显著提升了检测性能。

进一步地，如图6所示，回归分支中，会预测9个预测值，前6个预测值是中心度点到边框的距离，后三个预测值是预测框中心点到真实框中心点的偏移量。在本申请实施例中，前6个预测值可以包括：L^*、T^*、R^*、B^*、F^*以及Be^*；后三个预测值可以包括：D_bias、W_bias以及H_bias。在本申请实施例中，在回归分支中添加D_bias、W_bias以及H_bias三个预测值，以使得检测框（anchor box）可以正确回归到目标中心点的位置。

进一步地，为了更加准确的预测预测框到真实框的偏移量，这里对偏移量使用了Exp(bias)，将偏移量全部转为正数，以便模型优化，使用L1 Loss对预测值进行优化，使得模型预测的偏移量更加准确，其中，L1 Loss如公式3所示：

公式3；

进一步地，在本申请实施例中，为了解决one-stage目标检测中调整正负样本的权重，以及控制难易分类样本的权重，使用了Focal loss对模型进行训练，其中，Focal loss如公式4所示：

公式4；

对于本申请实施例，该损失函数有两个超参数γ和α（例如γ=2，a=0.25,α用来调整正负样本不均衡情况，而γ用来使网络更加注重难易样本的分类权重，目的是通过减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。

在上述实施例介绍了各个损失函数对网络模型进行训练的目的，在本申请实施例中，还可以使用多种损失函数结合的方法进行训练，数据集的评价指标为精确率、召回率等分数的平均值，这种方法有利于对模型进行更加精准的评估。在本申请实施例中，四种损失函数被使用，其中有Focal loss损失函数,交并集损失函数(GIOU loss)，交叉熵函数(BCEloss)以及L1 Loss，如其总公式如公式5所示：

公式5；

其中L_cls 是focal loss、BCE loss，L_reg是UnitBox的IOU loss、L1 loss。N_pos表征正例数量，λ设为0.5用于平衡两种损失。求和计算在整个特征图上进行，其中‖(.)代表指示函数。

具体地，在本申请实施例中所使用的交并集损失函数(GIOU loss)[3]主要用于对检测框进行回归，GIOU越小，说明检测框与真实标签重合越好。

进一步地，在上述实施例中详细介绍对网络模型进行训练，得到训练后的网络模型，在得到训练后的网络模型之后，基于训练后的网络模型进行目标检测的方式，详见下述实施例。

本申请实施例的另一种可能的实现方式，将待检测的三维图像通过训练后的网络模型进行目标检测（步骤S102）具体可以包括：将待检测的三维图像进行卷积处理，得到多张特征图；基于多张特征图进行特征提取，得到多张不同维度的三维特征图；基于多张不同维度的三维特征图进行目标检测，得到目标检测结果。

对于本申请实施例，对待检测的三维图像进行卷积处理，得到多张特征图，然后基于多张特征图进行特征提取，得到多张不同维度的三维特征图的方式详见上述实施例，在此不在赘述。

具体地，在得到多张不同维度的三维特征图之后，基于多张不同维度的三维特征图进行目标检测，得到目标检测结果，具体可以包括：基于多张不同维度的三维特征图并通过头网络head网络进行目标检测，得到目标检测结果。

上述实施例从方法流程的角度介绍了一种基于三维图像的目标检测方法，下述实施例从模块或者单元的角度介绍了一种基于三维图像的目标检测装置，具体详见下述实施例。

本申请实施例提供了一种基于三维图像的目标检测装置，如图2所示，基于三维图像的目标检测装置20，可以包括：第一获取模块21以及目标检测模块22，其中，

第一获取模块21，用于获取待检测的三维图像。

目标检测模块22，用于将待检测的三维图像通过训练后的网络模型进行目标检测。

本申请实施例的另一种可能的实现方式，装置20还包括：第二获取模块、确定模块以及第一训练模块，其中，

本申请实施例的另一种可能的实现方式，针对任一三维样本图像，确定模块在基于任一三维样本图像确定任一三维样本图像对应的正样本特征点和负样本特征点时，具体用于：

本申请实施例的另一种可能的实现方式，装置20还包括：第二获取模块、裁剪模块以及第二训练模块，其中，

本申请实施例的另一种可能的实现方式中，目标检测模块22在将待检测的三维图像通过训练后的网络模型进行目标检测时，具体用于：

本申请实施例的另一种可能的实现方式中，装置20还包括：第三获取模块、预测处理模块以及第三训练模块，其中，

对于，对于本申请实施例，第一获取模块、第二获取模块以及第三获取模块可以相同的获取模块，也可以均为不同的获取模块，还可以部分为相同的获取模块，在本申请实施例中不做限定。

对于本申请实施例，第一训练模块、第二训练模块以及第三训练模块可以相同的训练模块，也可以均为不同的训练模块，还可以部分为相同的训练模块，在本申请实施例中不做限定。

将待检测的三维图像进行卷积处理，得到多张特征图；

本申请实施例的另一种可能的实现方式，目标检测模块22在基于多张不同维度的三维特征图进行目标检测，得到目标检测结果时，具体用于：

本申请实施例提供了一种基于三维图像的目标检测装置，与现有技术相比，本申请实施例通过获取待检测的三维图像，然后将待检测的三维图像通过训练后的网络模型进行目标检测，其中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。也即上述网络模型进行训练所利用的正样本特征点和负样本特征点是通过三维样本图像对应的每个特征图中的各个特征点到三维样本图像标签的中心点的偏移量确定的，从而可以使得对小目标进行目标检测的模型可以获取到正样本特征点，以进行模型训练，进而可以提高训练后的模型在对小目标进行目标检测的准确度。

本申请实施例提供的一种基于三维图像的目标检测装置适用于上述方法实施例，在此不再赘述。

本申请实施例中提供了一种电子设备，如图3所示，图3所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线5002相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容，本申请实施例通过获取待检测的三维图像，然后将待检测的三维图像通过训练后的网络模型进行目标检测，其中，训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，偏移量包括：深度偏移量、宽度偏移量和高度偏移量。也即上述网络模型进行训练所利用的正样本特征点和负样本特征点是通过三维样本图像对应的每个特征图中的各个特征点到三维样本图像标签的中心点的偏移量确定的，从而可以使得对小目标进行目标检测的模型可以获取到正样本特征点，以进行模型训练，进而可以提高训练后的模型在对小目标进行目标检测的准确度。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于三维图像的目标检测方法，其特征在于，包括：

获取待检测的三维图像；

将所述待检测的三维图像通过训练后的网络模型进行目标检测；

所述训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，所述正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，所述偏移量包括：深度偏移量、宽度偏移量和高度偏移量。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本中包含多张三维样本图像；

基于所述各个三维样本图像分别对应的正样本特征点和负样本特征点，对预设网络模型进行训练，得到训练后的网络模型。

3.根据权利要求2所述的方法，其特征在于，针对任一三维样本图像，基于所述任一三维样本图像确定所述任一三维样本图像对应的正样本特征点和负样本特征点，包括：

对所述任一三维样本图像进行特征提取，得到多张不同维度的特征图；

基于所述各张特征图中每张特征图中各个特征点分别对应的偏移量，确定各个特征点分别与其对应样本图像标签的中心点之间的距离；

将所述距离小于预设阈值的特征点确定为所述正样本特征点，以及，将所述距离不小于预设阈值的特征点确定为所述负样本特征点。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本中包含多张三维样本图像；

基于所述各自对应的预设尺寸的图像块，对所述预设模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述将所述待检测的三维图像通过训练后的网络模型进行目标检测，包括：

将所述待检测的三维图像通过网格化处理，得到多个预设尺寸的三维图像块；

将所述多个预设尺寸的三维图像块通过训练后的网络模型进行目标检测，得到各个三维图像块分别对应的目标检测结果；

将所述各个三维图像块分别对应的目标检测结果进行拼接处理，得到所述待检测的三维图像对应的目标检测结果。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本中包括多张三维样本图像；

将所述训练样本通过所述预设网络模型进行中心度预测处理，得到各个三维样本图像中各个位置分别对应的中心度；

基于所述各个位置分别对应的中心度以及所述各个位置分别对应的目标中心度，并通过二值交叉熵BCE损失函数，对所述预设网络模型进行训练。

7.根据权利要求1所述的方法，其特征在于，所述将所述待检测的三维图像通过训练后的网络模型进行目标检测，包括：

将所述待检测的三维图像进行卷积处理，得到多张特征图；

基于所述多张特征图进行特征提取，得到多张不同维度的三维特征图；

基于所述多张不同维度的三维特征图进行目标检测，得到目标检测结果。

8.根据权利要求7所述的方法，其特征在于，所述基于所述多张不同维度的三维特征图进行目标检测，得到目标检测结果，包括：

基于所述多张不同维度的三维特征图并通过头网络head网络进行目标检测，得到目标检测结果；

其中，所述目标检测结果包括：目标所属类别、中心度、目标所处位置信息以及所述目标对应的偏移量。

9.一种基于三维图像的目标检测装置，其特征在于，包括：

第一获取模块，用于获取待检测的三维图像；

目标检测模块，用于将所述待检测的三维图像通过训练后的网络模型进行目标检测；

其中，所述训练后的网络模型是通过正样本特征点和负样本特征点对预设网络模型进行训练后得到的，所述正样本特征点和负样本特征点为三维样本图像对应的每个特征图中的各个特征点到样本图像标签的中心点的偏移量确定出的，所述偏移量包括：深度偏移量、宽度偏移量和高度偏移量。

10.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至8任一项所述的基于三维图像的目标检测方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的基于三维图像的目标检测方法。