CN111179247A

CN111179247A - 三维目标检测方法及其模型的训练方法及相关装置、设备

Info

Publication number: CN111179247A
Application number: CN201911379639.4A
Authority: CN
Inventors: 董乐; 张宁; 陈相蕾; 赵磊; 黄宁; 赵亮; 袁璟
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Also published as: JP2022517769A; WO2021128825A1; TW202125415A; US20220351501A1

Abstract

本申请公开了一种三维目标检测方法及其模型的训练方法及相关装置、设备，其中，三维目标检测模型的训练方法包括：获取样本三维图像，其中，样本三维图像标注有三维目标的实际区域的实际位置信息；利用三维目标检测模型对样本三维图像进行目标检测，得到与样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个预测区域信息包括预测区域的预测位置信息和预测置信度；利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值；利用损失值，调整三维目标检测模型的参数。上述方案，能够直接检测得到三维目标，并降低其检测难度。

Description

三维目标检测方法及其模型的训练方法及相关装置、设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种三维目标检测方法及其模型的训练方法及相关装置、设备。

背景技术

随着神经网络、深度学习等人工智能技术的发展，对神经网络模型进行训练，并利用经训练的神经网络模型完成目标检测等任务的方式，逐渐受到人们的青睐。

然而，现有的神经网络模型一般都是以二维图像作为检测对象而设计的，对于诸如MRI(Magnetic Resonance Imaging，核磁共振成像)图像等三维图像，往往需要将其拆分为二维平面图像后进行处理，从而失去图像空间信息和结构信息，因此，难以直接检测得到三维图像中的三维目标。有鉴于此，如何检测得到三维目标，并降低其检测难度成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种三维目标检测方法及其模型的训练方法及相关装置、设备，能够直接检测得到三维目标，并降低其检测难度。

为了解决上述问题，本申请第一方面提供了一种三维目标检测模型的训练方法，包括：获取样本三维图像，其中，样本三维图像标注有三维目标的实际区域的实际位置信息；利用三维目标检测模型对样本三维图像进行目标检测，得到与样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个预测区域信息包括预测区域的预测位置信息和预测置信度；利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值；利用损失值，调整三维目标检测模型的参数。

因此，能够训练得到对三维图像进行三维目标检测的模型，而无需将三维图像处理为二维平面图像后再进行目标检测，故此，能够有效保留三维目标的空间信息和结构信息，从而能够直接检测得到三维目标。由于三维目标检测模型进行目标检测时，能够得到三维图像一个或多个子图像的预测区域信息，从而能够在三维图像的一个或多个子图像中进行三维目标检测，有助于降低三维目标检测的难度。

其中，预测区域信息的数量为预设数量个，预设数量与三维目标检测模型的输出尺寸相匹配，利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值，包括：利用实际位置信息，生成分别与预设数量个子图像对应的预设数量个实际区域信息，其中，每个实际区域信息包括实际位置信息和实际置信度，实际区域的预设点所在的子图像对应的实际置信度为第一值，其余子图像对应的实际置信度为小于第一值的第二值；利用与预设数量个子图像中对应的实际位置信息和预测位置信息，得到位置损失值；利用与预设数量个子图像中对应的实际置信度和预测置信度，得到置信度损失值；基于位置损失值和置信度损失值，得到三维目标检测模型的损失值。

因此，通过实际位置信息生成与预设数量个子图像对应的预设数量个实际区域信息，从而能够在预设数量个实际区域信息和与其对应的预测区域信息的基础上进行损失计算，进而能够降低损失计算的复杂度。

其中，实际位置信息包括实际区域的实际预设点位置和实际区域尺寸，预测位置信息包括预测区域的预测预设点位置和预测区域尺寸；利用与预设数量个子图像中对应的实际位置信息和预测位置信息，得到位置损失值，包括：利用二分类交叉熵函数，对与预设数量个子图像中对应的实际预设点位置和预测预设点位置进行计算，得到第一位置损失值；利用均方误差函数，对与预设数量个子图像中对应的实际区域尺寸和预测区域尺寸进行计算，得到第二位置损失值；利用与预设数量个子图像中对应的实际置信度和预测置信度，得到置信度损失值，包括：利用二分类交叉熵函数，对与预设数量个子图像中对应的实际置信度和预测置信度进行计算，得到置信度损失值；基于位置损失值和置信度损失值，得到三维目标检测模型的损失值，包括：对第一位置损失值、第二位置损失值和置信损失值进行加权处理，得到三维目标检测模型的损失值。

因此，通过对实际预设点位置和预测预设点位置之间的第一位置损失值，以及实际区域尺寸和预测区域尺寸之间的第二位置损失值，以及实际置信度和预测置信度之间的置信损失值分别进行计算，并最终对上述损失值进行加权处理，能够准确、全面地获得三维目标检测模型的损失值，从而有利于准确地调整模型参数，进而有利于加快模型训练速度，并提高三维目标检测模型的准确度。

其中，在利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值之前，方法还包括：将实际位置信息的值、一个或多个预测位置信息和预测置信度均约束至预设数值范围内；利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值，包括：利用经约束后的实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值。

因此，在利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值之前，将实际位置信息的值、一个或多个预测位置信息和预测置信度均约束至预设数值范围内，并利用经约束后的实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值，能够有效避免训练过程中可能会出现的网络震荡，加快收敛速度。

其中，实际位置信息包括实际区域的实际预设点位置和实际区域尺寸，预测位置信息包括预测区域的预测预设点位置和预测区域尺寸；将实际位置信息的值约束至预设数值范围内，包括：获得实际区域尺寸与预设尺寸之间的第一比值，并将第一比值的对数值作为经约束后的实际区域尺寸；获得实际预设点位置与子图像的图像尺寸之间的第二比值，将第二比值的小数部分作为经约束后实际预设点位置；将一个或多个预测位置信息和预测置信度均约束至预设数值范围内，包括：利用预设映射函数分别将一个或多个预测预设点位置和预测置信度映射到预设数值范围内。

因此，通过获得实际区域尺寸与预设尺寸之间的第一比值，并将第一比值的对数值作为经约束后的实际区域尺寸，并获得实际预设点位置与子图像的图像尺寸之间的第二比值，将第二比值的小数部分作为经约束后实际预设点位置，此外，利用预设映射函数分别将一个或多个预测预设点位置和预测置信度映射到预设数值范围内，从而能够通过数学运算或函数映射进行约束处理，进而能够降低约束处理的复杂度。

其中，获得实际预设点位置与子图像的图像尺寸之间的第二比值，包括：计算样本三维图像的图像尺寸和子图像的数量之间的第三比值，并获得实际预设点位置与第三比值之间的第二比值。

因此，通过计算样本三维图像的图像尺寸和子图像的数量之间的第三比值，能够获得子图像的图像尺寸，从而能够降低计算第二比值的复杂度。

其中，预设数值范围为0至1的范围内，和/或，预设尺寸为多个样本三维图像中的实际区域的区域尺寸的平均值。

因此，通过将预设数值范围设置为0至1之间，能够加快模型收敛速度，将预设尺寸设置为多个样本三维图像中的实际区域的区域尺寸的平均值，能够使得经约束后的实际区域尺寸不会过大或过小，从而能够避免训练初期发生震荡、甚至无法收敛，有利于提高模型质量。

其中，在利用三维目标检测模型对样本三维图像进行目标检测，得到一个或多个预测区域信息之前，方法还包括以下至少一个预处理步骤：将样本三维图像转换为三基色通道图像；将样本三维图像的尺寸缩放为设定图像尺寸；对样本三维图像进行归一化和标准化处理。

因此，通过将样本三维图像转换为三基色通道图像，能够提升目标检测的视觉效果，通过将样本三维图像的尺寸缩放为设定图像尺寸，能够使三维图像尽可能地与模型的输入尺寸匹配，从而提升模型训练效果，通过对样本三维图像进行归一化和标准化处理，有利于提升模型在训练过程中的收敛速度。

为了解决上述问题，本申请第二方面提供了一种三维目标检测方法，包括：获取待测三维图像，利用三维目标检测模型对待测三维图像进行目标检测，得到与待测三维图像中的三维目标对应的目标区域信息，其中，三维目标检测模型是通过上述第一方面中三维目标检测模型的训练方法得到的。

因此，利用第一方面的方法训练得到的三维目标检测模型，实现了对三维图像中的三维目标检测，且降低三维目标检测的难度。

为了解决上述问题，本申请第三方面提供了一种三维目标检测模型的训练装置，包括图像获取模块、目标检测模块、损失确定模块和参数调整模块，图像获取模块用于获取样本三维图像，其中，样本三维图像标注有三维目标的实际区域的实际位置信息；目标检测模块用于利用三维目标检测模型对样本三维图像进行目标检测，得到与样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个预测区域信息包括预测区域的预测位置信息和预测置信度；损失确定模块用于利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值；参数调整模块用于利用损失值，调整三维目标检测模型的参数。

为了解决上述问题，本申请第四方面提供了一种三维目标检测装置，包括图像获取模块和目标检测模块，图像获取模块用于获取待测三维图像，目标检测模块用于利用三维目标检测模型对待测三维图像进行目标检测，得到与待测三维图像中的三维目标对应的目标区域信息，其中，三维目标检测模型是通过上述第三方面中的三维目标检测模型的训练装置得到的。

为了解决上述问题，本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的三维目标检测模型的训练方法，或实现上述第二方面中的三维目标检测方法。

为了解决上述问题，本申请第六方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的三维目标检测模型的训练方法，或实现上述第二方面中的三维目标检测方法。

上述方案，获取到的样本三维图像标注有三维目标的实际区域的实际位置信息，并利用三维目标检测模型对样本三维图像进行目标检测，得到与样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，且每个预测区域信息包括对应于样本三维图像的一子图像的预测区域的预测位置信息和预测置信度，从而利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值，并利用损失值，调整三维目标检测模型的参数，进而能够训练得到对三维图像进行三维目标检测的模型，而无需将三维图像处理为二维平面图像后再进行目标检测，故此，能够有效保留三维目标的空间信息和结构信息，从而能够直接检测得到三维目标。由于三维目标检测模型进行目标检测时，能够得到三维图像一个或多个子图像的预测区域信息，从而能够在三维图像的一个或多个子图像中进行三维目标检测，有助于降低三维目标检测的难度。

附图说明

图1是本申请三维目标检测模型的训练方法一实施例的流程示意图；

图2是图1中步骤S13一实施例的流程示意图；

图3是将实际位置信息的值约束至预设数值范围内一实施例的流程示意图；

图4是本申请三维目标检测方法一实施例的流程示意图；

图5是本申请三维目标检测模型的训练装置一实施例的框架示意图；

图6是本申请三维目标检测装置一实施例的框架示意图；

图7是本申请电子设备一实施例的框架示意图；

图8是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请三维目标检测模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取样本三维图像，其中，样本三维图像标注有三维目标的实际区域的实际位置信息。

在一个实施场景中，为了实现对人体部位等三维目标进行检测，样本三维图像可以是核磁共振图像。此外，样本三维图像也可以是利用CT(Computed Tomography，电子计算机断层扫描)图像、B超图像进行三维重建而得到的三维图像，在此不做限定。具体地，人体部位可以包括但不限于：前叉韧带、脑垂体等。其他类型的三维目标，如病变组织等，可以以此类推，在此不再一一举例。

在一个实施场景中，为了提高训练后的三维目标检测模型的准确性，样本三维图像的数量可以是多个，例如：200、300、400等等，在此不做限定。

在一个实施场景中，为了使样本三维图像能够与三维目标检测模型的输入匹配，还可以在获得样本三维图像之后，对其进行预处理，具体地，可以将样本三维图像的尺寸缩放为设定图像尺寸，设定图像尺寸可以与三维目标检测模型的输入尺寸一致。例如，样本三维图像的原始尺寸可以为160*384*384，若三维目标检测模型的输入尺寸为160*160*160，则对应地，可以将样本三维图像的尺寸缩放至160*160*160。此外，为了提升模型在训练过程中的收敛速度，还可以对样本三维图像进行归一化处理和标准化处理。或者，为了提升目标检测效果，还可以将样本三维图像转换为三基色(即：红、绿、蓝)通道图像。

步骤S12：利用三维目标检测模型对样本三维图像进行目标检测，得到与样本三维图像的一个或多个子图像对应的一个或多个预测区域信息。

本实施例中，每个预测区域信息包括对应于样本三维图像的一子图像的预测区域的预测位置信息和预测置信度。其中，预测置信度用于表示预测结果为三维目标的可信度，预测置信度越高，表示预测结果的可信度越高。此外，本实施例中的预测区域为一个三维空间区域，例如，一个长方体所围成区域、一个正方体所围成的区域等等。

在一个实施场景中，为了满足实际应用需要，可以预先对三维目标检测模型进行参数设置，从而使得三维目标检测模型能够输出样本三维图像的预设数量个子图像对应的预测区域的预测位置信息和预测置信度，也就是说，本实施例中的预测区域信息的数量可以为预设数量个，该预设数量为大于或等于1的整数，预设数量可以与三维目标模型的输出尺寸相匹配。例如，以输入三维目标检测模型的三维图像的图像尺寸为160*160*160为例，可以预先通过网络参数的设置，使三维目标检测模型输出10*10*10个图像尺寸为16*16*16的子图像对应的预测区域的预测位置信息和预测置信度。此外，根据实际需要，预设数量也可以设置为20*20*20、40*40*40等等，在此不做限定。

在一个实施场景中，为了便于实现三维维度上的目标检测，三维目标检测模型可以为三维卷积神经网络模型，具体可以包括间隔连接的若干卷积层和若干池化层，且卷积层中的卷积核为预定尺寸的三维卷积核。以预设数量为10*10*10为例，请结合参阅下表1，表1是三维目标检测模型一实施例的参数设置表。

表1三维目标检测模型一实施例的参数设置表

如表1所示，三维卷积核的尺寸可以是3*3*3。当预设数量为10*10*10时，三维目标检测模型可以包括8层卷积层，如表1所示，三维目标检测模型具体可以包括顺序连接的第一层卷积层和激活层(即表1中conv1+relu)、第一层池化层(即表1中pool1)、第二层卷积层和激活层(即表1中conv2+relu)、第二层池化层(即表1中pool2)、第三层卷积层和激活层(即表1中conv3a+relu)、第四层卷积层和激活层(即表1中conv3b+relu)、第三层池化层(即表1中pool3)、第五层卷积层和激活层(即表1中conv4a+relu)、第六层卷积层和激活层(即表1中conv4b+relu)、第四层池化层(即表1中pool4)、第七层卷积层和激活层(即表1中conv5a+relu)、第八层卷积层(即表1中conv5b)。通过上述设置，最终能够在样本三维图像的10*10*10个子图像中进行三维目标的预测，从而当三维目标的预测区域的预测预设点(例如，预测区域的中心点)处于某个子图像所在的区域时，该子图像所在的区域负责预测三维目标的预测区域信息。

步骤S13：利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值。

具体地，可以通过二分类交叉熵函数、均方误差函数(Mean Square Error，MSE)中的至少一者对实际位置信息和预测区域信息进行计算，得到三维目标检测模型的损失值。本实施例在此暂不赘述。

步骤S14：利用损失值，调整三维目标检测模型的参数。

利用实际位置信息与预测区域信息所得到的三维目标检测模型的损失值，表示利用三维目标检测模型的当前参数进行三维目标的预测，所得的预测结果与标注的实际位置之间的偏差度。对应地，损失值越大，表示两者之间的偏差度越大，即当前参数与目标参数之间的偏差越大，因此，通过损失值可以对三维目标检测模型的参数进行调整。

在一个实施场景中，为了训练得到稳定、可用的三维目标检测模型，可以在调整三维目标检测模型的参数之后，重新执行上述步骤S12以及后续步骤，从而不断执行对样本三维图像的检测，以及三维目标检测模型的损失值计算，及其参数调整过程，直至满足预设训练结束条件为止。在一个具体的实施场景中，预设训练结束条件可以包括损失值小于一个预设损失阈值，且损失值不再减小。

请参阅图2，图2是图1中步骤S13一实施例的流程示意图。本实施例中，预测区域信息的数量为预设数量个，预设数量与三维目标检测模型的输出尺寸匹配，具体地，可以包括如下步骤：

步骤S131：利用实际位置信息，生成分别与预设数量个子图像对应的预设数量个实际区域信息。

仍以三维目标检测模型输出10*10*10个子图像的预测区域的预测位置信息和预测置信度为例，请结合参阅表1，三维目标检测模型所输出的预测区域信息可以认为是7*10*10*10的向量，其中，10*10*10表示预设数量个子图像，7表示每个子图像所负责预测得到的三维目标的预测位置信息(例如，预测区域的中心点位置在x、y、z方向上的坐标，以及预测区域在长、宽、高方向上的尺寸)和预测置信度。故此，为了使预先标注的实际位置信息与预设数量个子图像对应的预测区域信息一一对应，以便后续计算损失值，本实施例将实际位置信息进行扩展，从而生成与预设数量个子图像对应的预设数量个实际区域信息，具体地，每个实际区域信息包括实际位置信息(例如，实际区域的中心点位置在x、y、z方向上的坐标，以及实际区域在长、宽、高方向上的尺寸)和实际置信度，实际区域的预设点(例如，中心点)所在的子图像对应的实际置信度为第一值(例如，1)，其余子图像对应的实际置信度为小于第一值的第二值(例如，0)，从而所生成的实际区域信息也可以认为与预测区域信息尺寸一致的向量。

此外，为了对三维目标进行唯一标识，预测位置信息可以包括预测预设点位置(如预测区域的中心点位置)和预测区域尺寸。与预测位置信息对应地，实际位置信息也可以包括实际预设点位置(如与预测预设点位置对应地，实际预设点位置也可以是实际区域的中心点位置)和实际区域尺寸。

步骤S132：利用与预设数量个子图像中对应的实际位置信息和预测位置信息，得到位置损失值。

本实施例中，可以利用二分类交叉熵函数，对与预设数量个子图像对应的实际预设点位置和预测预设点位置进行计算，得到第一位置损失值，具体可以参阅下式：

上式中，n表示预设数量，X_pr(i),Y_pr(i),Z_pr(i)分别表示第i个子图像对应的预测预设点位置，X_gt(i),Y_gt(i),Z_gt(i)分别表示第i个子图像对应的预测预设点位置，loss_x,loss_y,loss_z分别表示第一位置损失值在x、y、z方向上的子损失值。

此外，还可以利用均方误差函数，对与预设数量个子图像对应的实际区域尺寸和预测区域尺寸进行计算，得到第二位置损失值，具体可以参阅下式：

上式中，n表示预设数量，L_pr(i),W_pr(i),H_pr(i)分别表示第i个子图像对应的预测区域尺寸，L_gt(i),W_gt(i),H_gt(i)分别表示第i个子图像对应的实际区域尺寸，loss_l,loss_w,loss_h分别表示第二位置损失值在l(长度)、w(宽度)、h(高度)方向上的子损失值。

步骤S133：利用与预设数量个子图像中对应的实际置信度和预测置信度，得到置信度损失值。

具体地，可以利用二分类交叉熵函数，对与预设数量个子图像中对应的实际置信度和预测置信度进行计算，得到置信度损失值，具体可以参考下式：

上式中，n为预设数量，P_pr(i)表示第i个子图像对应的预测置信度，P_gt(i)表示第i个子图像对应的实际置信度，loss_p表示置信度损失值。

本实施例中，上述步骤S132和步骤S133可以按照先后顺序执行，例如，先执行步骤S132，后执行步骤S133，或者，先执行步骤S133，后执行步骤S132；上述步骤S132和步骤S133也可以同时执行，在此不做限定。

步骤S134：基于位置损失值和置信度损失值，得到三维目标检测模型的损失值。

具体地，可以对上述第一位置损失值、第二位置损失值和置信度损失值进行加权处理，得到三维目标检测模型的损失值，具体可以参考下式：

上式中，

表示分别对应于第一位置损失值在x，y，z方向上的子损失值的权重，

表示分别对应于第二位置损失值在l(长度)、w(宽度)、h(高度)方向上的子损失值的权重，

表示对应于置信度损失值的权重。

在一个实施场景中，上式中的

的和为1。在一个具体的实施场景中，上式中的

的和不为1，则为了对损失值进行标准化处理，可以相应地，在根据上式求得的损失值的基础上，再除以上式中的

的和。

区别于前述实施例，通过实际位置信息生成分别与预设数量个子图像对应的预设数量个实际区域信息，能够在预设数量个实际区域信息和对应的预测区域信息的基础上，进行损失计算，能够降低损失计算的复杂度。

在一个具体的实施场景中，预设区域信息与实际区域信息的参考度量可能并不一致，例如，预测预设点位置可以是预测区域的中心点位置与其所在的子图像区域的中心点位置之间的偏移值，预测区域尺寸可以是预测区域的实际尺寸与一预设尺寸(例如，锚框尺寸)之间的相对值，而实际预设点位置可以是实际区域的中心点在样本三维图像中的位置，实际区域尺寸可以是实际区域的长、宽、高尺寸，故此，为了加快收敛速度，在计算损失值之前，还可以将实际位置信息的值、一个或多个预测位置信息和预测置信度均约束至预设数值范围(例如，0～1)内，然后，再利用经约束后的实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值，具体的损失值计算过程可以参考上述实施例中的相关步骤，在此不再赘述。

具体地，可以利用预设映射函数分别将一个或多个预测位置信息和预测置信度均约束至预设数值范围内。本实施例中，预设映射函数可以是sigmoid函数，从而将预测位置信息和预测置信度映射到0～1的范围内，具体可以参阅下式：

上式中，(x′,y′,z′)表示预测位置信息中的预测预设点位置，σ(x′),σ(y′),σ(z′)表示经约束后的预测位置信息中的预测预设点位置；p′表示预测置信度，σ(p′)表示经约束后的预测置信度。

此外，请结合参阅图3，图3是将实际位置信息的值约束至预设数值范围内一实施例的流程示意图，具体可以包括如下步骤：

步骤S31：获得实际区域尺寸与预设尺寸之间的第一比值，并将第一比值的对数值作为经约束后的实际区域尺寸。

本实施例中，预设尺寸可以是用户预先根据实际情况而设置的，也可以是多个样本三维图像中的实际区域的区域尺寸的平均值，例如，对于N个样本三维图像而言，第j个样本三维图像的实际区域的区域尺寸在l(长度)、w(宽度)、h(高度)方向上可以分别表示为l_gt(j),w_gt(j),h_gt(j)，故预设尺寸在l(长度)、w(宽度)、h(高度)方向上可以分别表示为：

上式中，l_avg,w_avg,h_avg分别表示预设尺寸在l(长度)、w(宽度)、h(高度)方向上的值。

在此基础上，可以通过下式，计算得到经约束后的实际区域尺寸在l(长度)、w(宽度)、h(高度)方向上的值：

上式中，

分别表示l(长度)、w(宽度)、h(高度)方向上的第一比值，l_gt′,w_gt′,h_gt′分别表示经约束后的实际尺寸在l(长度)、w(宽度)、h(高度)方向上的尺寸。

经过上式处理，能够将实际区域尺寸约束处理为实际区域尺寸相对于所有实际区域尺寸平均值的相对值。

步骤S32：获得实际预设点位置与子图像的图像尺寸之间的第二比值，将第二比值的小数部分作为经约束后实际预设点位置。

本实施例中，可以将三维样本图像的图像尺寸与子图像的数量之间第三比值，作为子图像的图像尺寸，从而可以获取实际预设点位置与第三比值之间的第二比值，在一个实施场景中，子图像的数量可以为与三维目标检测模型的输出尺寸相匹配的预设数量。以预设数量为10*10*10，三维样本图像的图像尺寸为160*160*160为例，子图像的图像尺寸在l(长度)、w(宽度)、h(高度)方向上分别为16、16、16，当预设数量和三维样本图像的图像尺寸为其他值时，可以以此类推，在此不再一一举例。

具体地，取第二比值的小数部分的操作，可以通过第二比值，与下取整第二比值之间的差值得到，请参考下式：

上式中，x′_gt,y′_gt,z′_gt分别表示经约束后实际预设点位置在x、y、z方向上的数值，L′,W′,H′分别表示预设尺寸在(长度)、w(宽度)、h(高度)方向上的尺寸，x_gt,y_gt,z_gt分别表示实际预设点位置在x、y、z方向上的数值，floor(·)表示下取整处理。

当预设尺寸为子图像的图像尺寸时，经过上述处理，能够将实际预设点位置约束处理为实际预设点在子图像中的相对位置。

本实施例中，上述步骤S31和步骤S32可以按照先后顺序执行，例如，先执行步骤S31，后执行步骤S32；或者先执行步骤S32，后执行步骤S31。上述步骤S31和步骤S32还可以同时执行，在此不做限定。

区别于前述实施例，在利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值之前，将实际位置信息的值、一个或多个预测位置信息和预测置信度均约束至预设数值范围内，并利用经约束后的实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值，能够有效避免训练过程中可能会出现的网络震荡，加快收敛速度。

在一些实施例中，为了提高训练的自动化程度，可以利用脚本程序，执行上述任一实施例中的步骤。具体地，可以通过Python语言和Pytorch框架执行上述任一实施例中的步骤，在此基础上，可以采用Adam优化器(Adam optimizer)，并设置学习率(learning rate)为0.0001，网络的批尺寸(batch size)为2，迭代次数(epoch)为50。上述学习率、批尺寸、迭代次数的具体数值仅为示例，具体还可以根据实际情况进行设置，在此不做限定。

在一些实施例中，为了直观地反映训练结果，利用实际位置信息，生成分别与预设数量个子图像对应的预设数量个实际区域信息，其中，每个实际区域信息包括实际位置信息，具体可以参阅上述实施例中的相关步骤，在此基础上，利用与预设数量个子图像对应的实际区域信息和预测区域信息，计算预设数量个子图像对应的实际区域与预测区域的交并比(Intersection over Union，IoU)，然后计算预设数量个交并比的平均值，作为一次训练过程中的均交并比(Mean Intersection over Union，MIoU)，均交并比越大，说明预测区域与实际区域的重合度越高，模型越准确。具体地，为了降低计算难度，还可以分别在冠状面、矢状面、横断面分别计算交并比，在此不再一一举例。

请参阅图4，图4是三维目标检测方法一实施例的流程示意图。具体而言，图4是利用上述任一三维目标检测模型的训练方法实施例中的步骤训练得到的三维目标检测模型进行目标检测的一实施例的流程示意图，具体包括如下步骤：

步骤S41：获取待测三维图像。

与样本三维图像类似，待测三维图像可以是核磁共振图像，也可以是利用CT(Computed Tomography，电子计算机断层扫描)图像、B超图像进行三维重建而得到的三维图像，在此不做限定。

步骤S42：利用三维目标检测模型对待测三维图像进行目标检测，得到与待测三维图像中三维目标对应的目标区域信息。

本实施例中，三维目标检测模型是通过上述任一三维目标检测模型的训练方法得到的，具体可以参阅前述任一三维目标检测模型的训练方法实施例中的步骤，在此不再赘述。

具体地，在利用三维目标检测模型对待测三维图像进行目标检测时，可以得到与待测三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个预测区域信息包括预测区域的预测位置信息和预测置信度。在一个实施场景中，一个或多个预测区域信息的数量可以为预设数量个，预设数量与三维目标检测模型的输出尺寸相匹配。具体可以参考前述实施例中的相关步骤。在得到与待测三维图像的一个或多个子图像对应的一个或多个预测区域信息之后，可以统计最高的预测置信度，并基于最高的预测置信度对应的预测位置信息确定与待测三维图像中的三维目标对应的目标区域信息。最高的预测置信度对应的预测位置信息具有最可靠的可信度，故此，可以基于最高的预测置信度对应的预测位置信息确定与三维目标对应的目标区域信息。具体地，目标区域信息可以是最高预测置信度所对应的预测位置信息，包括预测预设点位置(例如，预测区域的中心点位置)，以及预测区域尺寸。通过在待测三维图像的一个或多个子图像中进行三维目标检测，有助于降低三维目标检测的难度。

在一个实施场景中，待测三维图像在输入三维目标检测模型进行目标检测之前，为了与三维目标检测模型的输入相匹配，还可以缩放为设定图像尺寸(设定图像尺寸可以与三维目标检测模型的输入一致)，则在通过上述方式获得经缩放处理的待测三维图像中的目标区域信息之后，还可以将所获得的目标区域进行与缩放相逆的处理，从而得到待测三维图像中的目标区域。

上述方案，利用三维目标检测模型对待测三维图像进行目标检测，得到与待测三维图像中的三维目标对应的目标区域信息，且三维目标检测模型是通过上述任一三维目标检测模型的训练方法得到的，故能够无需将三维图像处理为二维平面图像后再进行目标检测，故此，能够有效保留三维目标的空间信息和结构信息，从而能够直接检测得到三维目标。

图5是本申请三维目标检测模型的训练装置50一实施例的框架示意图。三维目标检测模型的训练装置50包括：图像获取模块51、目标检测模块52、损失确定模块53和参数调整模块54，图像获取模块51用于获取样本三维图像，其中，样本三维图像标注有三维目标的实际区域的实际位置信息；目标检测模块52用于利用三维目标检测模型对样本三维图像进行目标检测，得到与样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个预测区域信息包括预测区域的预测位置信息和预测置信度；损失确定模块53用于利用实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值；参数调整模块54用于利用损失值，调整三维目标检测模型的参数。在一个实施场景中，三维目标检测模型为三维卷积神经网络模型。在一个实施场景中，样本三维图像为核磁共振图像，三维目标为人体部位。

在一些实施例中，预测区域信息的数量为预设数量个，预设数量与三维目标检测模型的输出尺寸相匹配，损失确定模块53包括实际区域信息生成子模块，用于利用实际位置信息，生成分别与预设数量个子图像对应的预设数量个实际区域信息，其中，每个实际区域信息包括实际位置信息和实际置信度，实际区域的预设点所在的子图像对应的实际置信度为第一值，其余子图像对应的实际置信度为小于第一值的第二值，损失确定模块53包括位置损失计算子模块，用于利用与预设数量个子图像中对应的实际位置信息和预测位置信息，得到位置损失值，损失确定模块53包括置信度损失计算子模块，用于利用与预设数量个子图像中对应的实际置信度和预测置信度，得到置信度损失值，损失确定模块53包括模型损失计算子模块，用于基于位置损失值和置信度损失值，得到三维目标检测模型的损失值。

在一些实施例中，实际位置信息包括实际区域的实际预设点位置和实际区域尺寸，预测位置信息包括预测区域的预测预设点位置和预测区域尺寸，位置损失计算子模块包括第一位置损失计算单元，用于利用二分类交叉熵函数，对与预设数量个子图像中对应的实际预设点位置和预测预设点位置进行计算，得到第一位置损失值，位置损失计算子模块包括第二位置损失计算单元，用于利用均方误差函数，对与预设数量个子图像中对应的实际区域尺寸和预测区域尺寸进行计算，得到第二位置损失值，置信度损失计算子模块具体用于利用二分类交叉熵函数，对与预设数量个子图像中对应的实际置信度和预测置信度进行计算，得到置信度损失值，模型损失计算子模块具体用于对第一位置损失值、第二位置损失值和置信损失值进行加权处理，得到三维目标检测模型的损失值。

在一些实施例中，三维目标检测模型的训练装置50还包括数值约束模块，用于将实际位置信息的值、一个或多个预测位置信息和预测置信度均约束至预设数值范围内，损失计算模块53具体用于利用经约束后的实际位置信息与一个或多个预测区域信息，确定三维目标检测模型的损失值。在一个实施场景中，预设数值范围为0至1的范围内。

在一些实施例中，实际位置信息包括实际区域的实际预设点位置和实际区域尺寸，预测位置信息包括预测区域的预测预设点位置和预测区域尺寸，数值约束模块包括第一约束子模块，用于获得实际区域尺寸与预设尺寸之间的第一比值，并将第一比值的对数值作为经约束后的实际区域尺寸，数值约束模块包括第二约束子模块，用于获得实际预设点位置与子图像的图像尺寸之间的第二比值，将第二比值的小数部分作为经约束后实际预设点位置，数值约束模块包括第三约束子模块，用于利用预设映射函数分别将一个或多个预测预设点位置和预测置信度映射到预设数值范围内。在一个实施场景中，预设尺寸为多个样本三维图像中的实际区域的区域尺寸的平均值。

在一些实施例中，第二约束子模块具体还用于计算样本三维图像的图像尺寸和子图像的数量之间的第三比值，并获得实际预设点位置与第三比值之间的第二比值。

在一些实施例中，三维目标检测模型的训练装置50还包括预处理模块，用于将样本三维图像转换为三基色通道图像。预处理模块还用于将样本三维图像的尺寸缩放为设定图像尺寸。预处理模块还用于对样本三维图像进行归一化和标准化处理。

请参阅图6，图6是本申请三维目标检测装置60一实施例的框架示意图。三维目标检测装置60包括图像获取模块61和目标检测模块62，图像获取模块61用于获取待测三维图像，目标检测模块62用于利用三维目标检测模型对待测三维图像进行目标检测，得到与待测三维图像中的三维目标对应的目标区域信息，其中，三维目标检测模型是利用上述任一三维目标检测模型的训练装置实施例中的三维目标检测模型的训练装置得到的。

上述方案，利用三维目标检测模型对待测三维图像进行目标检测，得到与待测三维图像中的三维目标对应的目标区域信息，且三维目标检测模型是利用上述任一三维目标检测模型的训练装置的实施例中的三维目标检测模型的训练装置得到的，故能够无需将三维图像处理为二维平面图像后再进行目标检测，故此，能够有效保留三维目标的空间信息和结构信息，从而能够直接检测得到三维目标。

请参阅图7，图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，处理器72用于执行存储器71中存储的程序指令，以实现上述任一三维目标检测模型的训练方法实施例的步骤，或实现上述任一三维目标检测方法实施例中的步骤。在一个具体的实施场景中，电子设备70可以包括但不限于：微型计算机、服务器，此外，电子设备70还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器72用于控制其自身以及存储器71以实现上述任一三维目标检测模型的训练方法实施例的步骤，或实现上述任一三维目标检测方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。

上述方案，能够无需将三维图像处理为二维平面图像后再进行目标检测，故此，能够有效保留三维目标的空间信息和结构信息，从而能够直接检测得到三维目标。且由于三维目标检测模型进行目标检测时，能够得到三维图像一个或多个子图像的预测区域信息，从而能够在三维图像的一个或多个子图像中进行三维目标检测，有助于降低三维目标检测的难度。

请参阅图8，图8为本申请计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令801，程序指令801用于实现上述任一三维目标检测模型的训练方法实施例的步骤，或实现上述任一三维目标检测方法实施例中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种三维目标检测模型的训练方法，其特征在于，包括：

获取样本三维图像，其中，所述样本三维图像标注有三维目标的实际区域的实际位置信息；

利用三维目标检测模型对所述样本三维图像进行目标检测，得到与所述样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个所述预测区域信息包括预测区域的预测位置信息和预测置信度；

利用所述实际位置信息与所述一个或多个所述预测区域信息，确定所述三维目标检测模型的损失值；

利用所述损失值，调整所述三维目标检测模型的参数。

2.根据权利要求1所述的训练方法，其特征在于，所述预测区域信息的数量为预设数量个，所述预设数量与所述三维目标检测模型的输出尺寸相匹配；

所述利用所述实际位置信息与所述一个或多个所述预测区域信息，确定所述三维目标检测模型的损失值，包括：

利用所述实际位置信息，生成分别与所述预设数量个子图像对应的预设数量个实际区域信息，其中，每个所述实际区域信息包括所述实际位置信息和实际置信度，所述实际区域的预设点所在的子图像对应的实际置信度为第一值，其余所述子图像对应的实际置信度为小于所述第一值的第二值；

利用与所述预设数量个子图像中对应的所述实际位置信息和所述预测位置信息，得到位置损失值；

利用与所述预设数量个子图像中对应的所述实际置信度和所述预测置信度，得到置信度损失值；

基于所述位置损失值和所述置信度损失值，得到所述三维目标检测模型的损失值。

3.根据权利要求2所述的训练方法，其特征在于，所述实际位置信息包括所述实际区域的实际预设点位置和实际区域尺寸，所述预测位置信息包括所述预测区域的预测预设点位置和预测区域尺寸；

所述利用与所述预设数量个子图像中对应的所述实际位置信息和所述预测位置信息，得到位置损失值，包括：

利用二分类交叉熵函数，对与所述预设数量个子图像中对应的所述实际预设点位置和所述预测预设点位置进行计算，得到第一位置损失值；

利用均方误差函数，对与所述预设数量个子图像中对应的所述实际区域尺寸和所述预测区域尺寸进行计算，得到第二位置损失值；

所述利用与所述预设数量个子图像中对应的所述实际置信度和所述预测置信度，得到置信度损失值，包括：

利用二分类交叉熵函数，对与所述预设数量个子图像中对应的所述实际置信度和所述预测置信度进行计算，得到置信度损失值；

所述基于所述位置损失值和所述置信度损失值，得到所述三维目标检测模型的损失值，包括：

对所述第一位置损失值、所述第二位置损失值和所述置信损失值进行加权处理，得到所述三维目标检测模型的损失值。

4.根据权利要求1-3中任意一项所述的训练方法，其特征在于，在所述利用所述实际位置信息与所述一个或多个所述预测区域信息，确定所述三维目标检测模型的损失值之前，所述方法还包括：

将所述实际位置信息的值、所述一个或多个所述预测位置信息和所述预测置信度均约束至预设数值范围内；

所述利用经约束后的所述实际位置信息与所述一个或多个所述预测区域信息，确定所述三维目标检测模型的损失值。

5.根据权利要求4所述的训练方法，其特征在于，所述实际位置信息包括所述实际区域的实际预设点位置和实际区域尺寸，所述预测位置信息包括所述预测区域的预测预设点位置和预测区域尺寸；

所述将所述实际位置信息的值约束至预设数值范围内，包括：

获得所述实际区域尺寸与预设尺寸之间的第一比值，并将所述第一比值的对数值作为经约束后的实际区域尺寸；

获得所述实际预设点位置与所述子图像的图像尺寸之间的第二比值，将所述第二比值的小数部分作为经约束后所述实际预设点位置；

所述将所述一个或多个所述预测位置信息和所述预测置信度均约束至预设数值范围内，包括：

利用预设映射函数分别将所述一个或多个预测预设点位置和预测置信度映射到所述预设数值范围内。

6.根据权利要求5所述的训练方法，其特征在于，所述获得所述实际预设点位置与所述子图像的图像尺寸之间的第二比值，包括：

计算所述样本三维图像的图像尺寸和所述子图像的数量之间的第三比值，并获得所述实际预设点位置与所述第三比值之间的第二比值。

7.根据权利要求5所述的训练方法，其特征在于，所述预设数值范围为0至1的范围内；和/或，所述预设尺寸为多个样本三维图像中的实际区域的区域尺寸的平均值。

8.根据权利要求1所述的训练方法，其特征在于，在所述利用三维目标检测模型对所述样本三维图像进行目标检测，得到一个或多个预测区域信息之前，所述方法还包括以下至少一个预处理步骤：

将所述样本三维图像转换为三基色通道图像；

将所述样本三维图像的尺寸缩放为设定图像尺寸；

对所述样本三维图像进行归一化和标准化处理。

9.一种三维目标检测方法，其特征在于，包括：

获取待测三维图像；

利用三维目标检测模型对所述待测三维图像进行目标检测，得到与所述待测三维图像中的三维目标对应的目标区域信息；

其中，所述三维目标检测模型是通过权利要求1至8任一项所述的三维目标检测模型的训练方法得到的。

10.一种三维目标检测模型的训练装置，其特征在于，包括：

图像获取模块，用于获取样本三维图像，其中，所述样本三维图像标注有三维目标的实际区域的实际位置信息；

目标检测模块，用于利用三维目标检测模型对所述样本三维图像进行目标检测，得到与所述样本三维图像的一个或多个子图像对应的一个或多个预测区域信息，其中，每个所述预测区域信息包括预测区域的预测位置信息和预测置信度；

损失确定模块，用于利用所述实际位置信息与所述一个或多个所述预测区域信息，确定所述三维目标检测模型的损失值；

参数调整模块，用于利用所述损失值，调整所述三维目标检测模型的参数。

11.一种三维目标检测装置，其特征在于，包括：

图像获取模块，用于获取待测三维图像；

目标检测模块，用于利用三维目标检测模型对所述待测三维图像进行目标检测，得到与所述待测三维图像中的三维目标对应的目标区域信息；

其中，所述三维目标检测模型是通过权利要求10所述的三维目标检测模型的训练装置得到的。

12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至8任一项所述的三维目标检测模型的训练方法，或实现权利要求9所述的三维目标检测方法。

13.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至8任一项所述的三维目标检测模型的训练方法，或实现权利要求9所述的三维目标检测方法。