CN110349138A

CN110349138A - 基于实例分割框架的目标物体的检测方法及装置

Info

Publication number: CN110349138A
Application number: CN201910577034.XA
Authority: CN
Inventors: 高巍; 张一凡; 于瑞涛
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-18
Anticipated expiration: 2039-06-28
Also published as: CN110349138B

Abstract

本发明公开了一种基于实例分割框架的目标物体的检测方法及装置，该方法包括：在开始目标检测后，获取与目标物体相关的待检测2D图像；将待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移；为实例分割框架的网络损失函数设置对应于3D位置信息的3D权重因子；利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

Description

基于实例分割框架的目标物体的检测方法及装置

技术领域

本发明涉及深度学习领域，尤其涉及一种基于实例分割框架的目标物体的检测方法、一种基于实例分割框架的目标物体的检测装置。

背景技术

在制造加工领域，通常需要检测生产出的产品是否合格。

目前，在检测产品是否合格时，通常利用人工智能AI技术从产品的2D图像中获取产品的2D位置信息，然后再根据该2D位置信息所反映的产品特征信息，检测产品是否合格。

但是，产品的2D位置信息往往不能全面且准确的反映出产品的特征信息，从而使得检测的结果不全面也不准确。

因此，一种能够对产品的合格进行全面准确的检测方法亟待被提出。

发明内容

本发明的目的在于提供一种用于目标物体检测的新的技术方案。

根据本发明的第一方面，提供了一种基于实例分割框架的目标物体的检测方法，包括：

在开始目标检测后，获取与目标物体相关的待检测2D图像；

将待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移；

为实例分割框架的网络损失函数设置对应于3D位置信息的3D权重因子；

利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

可选的，获取目标物体的3D位置信息包括：

获取目标物体相对于参考位置的、在三维空间的三个旋转角度和位置偏移量，形成四维空间向量作为目标物体的3D位置信息。

可选的，获取目标物体的3D位置信息包括：

利用实例分割框架的全卷积网络FCN中分类class分支、定位box分支和掩膜Mask分支对待检测2D图像进行处理，分别得到待检测2D图像中包含的目标物体的分类信息、包含的目标物体所处的检测框位置信息和包含的每一目标物体掩膜信息；以及

利用实例分割框架的全卷积网络FCN中的3D位置估计分支，从分类信息、检测框位置信息和掩膜信息中提取得到目标物体的3D位置信息；

或者，

利用外部传感器采集得到目标物体的3D位置信息。

可选的，获取到的掩膜信息为表示第一状态和第二状态的二值化信息，

第一状态指示2D图像中目标物体所在区域，第二状态指示2D图像中除目标物体之外的区域。

可选的，利用实例分割框架的全卷积网络FCN中分类class分支、定位box分支和掩膜Mask分支对待检测2D图像进行处理，分别得到待检测2D图像中包含的目标物体的分类信息、包含的目标物体所处的检测框位置信息和包含的每一目标物体掩膜信息，包括：

根据待检测2D图像以及实例分割框架中的感兴趣区域提取网络，从待检测2D图像中提取多个感兴趣区域的特征图；

根据每一感兴趣区域的特征图以及实例分割框架中的分类class分支，确定待检测2D图像中包含的目标物体的分类信息；

根据分类信息、实例分割框架中的定位box分支，确定待检测2D图像中包含的目标物体所处的检测框位置信息；

根据分类信息、检测框位置信息、实例分割框架中的掩膜Mask分支，确定待检测2D图像中包含的每一目标物体掩膜信息。

可选的，利用实例分割框架的全卷积网络FCN中的3D位置估计分支，从分类信息、检测框位置信息和掩膜信息中提取得到目标物体的3D位置信息，包括：

利用实例分割框架中的3D位置估计分支，从根据分类信息、检测框位置信息、每一目标物体掩膜信息中提取表征目标物体的3D位置信息的高维语义信息；

对高维语义信息降维，以得到表征每一目标物体的3D位置信息的四维空间向量。

可选的，在全卷积网络FCN中利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，包括：

为3D权重因子设置3D权重系数，利用3D权重因子和3D权重系数得到3D信息损失量；

利用分类class分支的损失量、定位box分支的损失量、掩膜mask分支的损失量与3D位置信息损失量按照预设线性关系得到网络损失量。

可选的，方法还包括通过下述方式对实例分割框架进行更新：

添加待检测2D图像对应的标签信息，标签信息至少包括待检测2D图像中目标物体的真实3D位置信息；

根据待检测2D图像以及对应的标签信息，更新实例分割框架。

根据本发明的第二方面，提供了一种基于实例分割算法的目标物体的检测装置，装置包括：

第一获取模块，用于在开始目标检测后，获取与目标物体相关的待检测2D图像；

第二获取模块，用于将待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移；

设置模块，用于为实例分割框架的网络损失函数设置对应于3D位置信息的3D权重因子；

判断模块，用于利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

可选的，第二获取模块，具体用于：获取目标物体相对于参考位置的、在三维空间的三个旋转角度和位置偏移量，形成四维空间向量作为目标物体的3D位置信息。

在本发明实施例中，将目标物体的3D位置信息添加至实例分割框架中，而目标物体的3D位置信息可以全面并准确的反映出目标物体的产品特征信息，从而基于目标物体的3D位置信息可对目标物体是否合格进行全面准确的判断。

进一步的，该实施例的一种实现方式无需利用外部硬件设备，例如高成本的外部传感器，便可计算出目标物体的3D位置信息以及判断目标物体是否合格。因此，该实施例的成本低。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的一种检测系统的硬件结构示意图；

图2是本发明实施例提供的一种基于实例分割框架的目标物体的检测方法的流程示意图；

图3是根据本发明实施例提供的一种实例分割框架的结构示意图；

图4是根据本发明实施例提供另的一种实例分割框架的结构示意图；

图5是根据本发明实施例提供又的一种实例分割框架的结构示意图；

图6是本发明实施例提供的另一种基于实例分割框架的目标物体的检测方法的流程示意图；

图7是本发明实施例提供的一种基于实例分割框架的目标物体的检测装置的结构示意图；

图8是本发明实施例提供的另一种基于实例分割框架的目标物体的检测装置的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<实施例一>

图1是根据本发明实施例的检测系统100的硬件配置的框图。

如图1所示，检测系统100包括图像采集装置1000和基于实例分割框架的目标物体的检测装置2000。

图像采集装置1000用于采集待检测2D图像，并将采集到的待检测2D图像提供至检测装置2000。

该图像采集装置1000可以是能够对待检测目标物体进行拍照的任意成像设备，例如摄像头等。

检测装置2000可以是任意的电子设备，例如PC机、笔记本电脑、服务器等。

在本实施例中，参照图1所示，检测装置2000可以包括处理器2100、存储器2200、接口装置2300、通信装置2400、显示装置2500、输入装置2600、扬声器2700、麦克风2800等等。

处理器2100可以是移动版处理器。存储器2200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置2300例如包括USB接口、耳机接口等。通信装置2400例如能够进行有线或无线通信，通信装置2400可以包括短距离通信装置，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置，通信装置2400也可以包括远程通信装置，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置2500例如是液晶显示屏、触摸显示屏等，显示装置2500用于显示图像采集装置采集的待检测2D图像。输入装置2600例如可以包括触摸屏、键盘等。用户可以通过扬声器2700和麦克风2800输入/输出语音信息。

在该实施例中，检测装置2000的存储器2200用于存储指令，该指令用于控制处理器2100进行操作以至少执行根据本发明任意实施例的基于实例分割框架的目标物体的检测方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

尽管在图1中示出了检测装置2000的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，检测装置2000只涉及存储器2200、处理器2100和显示装置2500。

在本实施例中，图像采集装置用于采集待检测2D图像，并提供至检测装置2000，检测装置2000则基于该待检测2D图像实施根据本发明任意实施例的方法。

应当理解的是，尽管图1仅示出一个图像采集装置1000和一个检测装置2000，但不意味着限制各自的数量，检测系统100中可以包含多个图像采集装置1000和/或检测装置2000。

<实施例二>

本实施例提供一种基于实例分割框架的目标物体的检测方法，该方法如图2所示，包括如下S201-S204：

S201、在开始目标检测后，获取与目标物体相关的待检测2D(Dimensional)图像。

在该实施例中，目标物体指的是需确定是否合格的产品，或者产品中的需要确定是否合格的一个零部件。例如，目标物体可以是PCB(Printed Circuit Board)板上的一个贴片电容。

待检测2D图像为对待检测目标物体进行拍照获得的2D图像。该待检测2D图像与目标物体相关。这也就是说，待检测2D图像中包含目标物体。当然，待检测2D图像中还可以不包含目标物体。

S202、将待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D(Dimensional)位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移。

在本实施例中，实例分割框架是在Mask R-CNN的基础上改进得到的，具体的，在Mask R-CNN的基础上增加能够识别目标物体3D位置信息的3D位置估计分支。因此，当本发明实施例提供的基于实例分割框架的目标物体的检测方法运行到实例分割框架的全卷积网络FCN(Fully Convolutional Netws)之后，实例分割框架便会输出目标物体的3D位置信息。

S203、为实例分割框架的网络损失函数设置对应于3D位置信息的3D权重因子。

在本实施例中，将L_3D记为3D位置信息的3D权重因子。该因子用于表示从实例分割框架获取到的3D位置信息，与合格的目标物体的3D位置信息之间的差值。

S204、利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

在本实施例中，将上述S202中获取到的3D位置信息，和对应的合格的目标物体的3D位置信息，带入到包括了3D权重因子的网络损失函数进行迭代运算。基于此，包括了3D权重因子的网络损失函数将输出一个网络损失量。将得到的网络损失量和允许网络损失量进行对比，若该网络损失量和允许网络损失量之间的差值在预设范围值内，则判断目标物体合格。反之，则目标物体不合格。

在本发明实施例中，将目标物体的3D位置信息添加至实例分割框架中，而目标物体的3D位置信息可以全面并准确的反映出目标物体的产品特征信息。从而基于目标物体的3D位置信息，可对目标物体进行是否合格进行全面准确的判断。

进一步的，该实施例的一种实现方式无需利用外部硬件设备，例如高成本的深度相机，便可计算出目标物体的3D位置信息以及进一步的判断目标物体是否合格。因此，该实施例的成本低。

<实施例三>

在该实施例中，上述S202中获取到的目标物体的3D位置信息利用相对于参考位置的，在三维空间的三个旋转角度和三个位置偏移量来表示。基于此，上述S202中的获取目标物体的3D位置信息包括如下步骤S2021：

在该实施例中，参考位置通常为待检测2D图像左上角的位置。

在一个例子中，三维空间可通过三维坐标系来表示。三维坐标系的原点可以为上述的参考位置，即为待检测2D图像左上角的位置。三维坐标系的X轴可以为待检测2D图像的左边框所在的方向，对应的，三维坐标系的Y轴为待检测2D图像的上边框所在的方向，三维坐标系的Z轴为过坐标原点，且垂直于X轴和Y轴的方向。

基于上述内容，上述S2021中的在三维空间的三个旋转角度，可分别理解为，相对于三维空间坐标系中X轴的旋转角度，相对于三维空间坐标系中Y轴的旋转角度，相对于三维空间坐标系中Z轴的旋转角度。上述S2021中的在三维空间的三个位置偏移量，可分别理解为，相对于三维空间坐标系中X轴的位置偏移量，相对于三维空间坐标系中Y轴的位置偏移量，相当于三维空间坐标系中Z轴的位置偏移量。

<实施例四>

在本实施例中，上述S202中的获取目标物体的3D位置信息，可通过外部传感器采集得到。

在该实施例中，外部传感器可以为深度相机。例如RGB-D(Red Green BlueDepthMap)深度相机。

在本实施例中，上述S202中的获取目标物体的3D位置信息，还可通过下述S2022和S2023来实现：

S2022、利用实例分割框架的全卷积网络FCN中的分类(class)分支、定位(box)分支和掩膜(Mask)分支对待检测2D图像进行处理，分别得到待检测2D图像中包含的目标物体的分类信息、包含的目标物体所处的检测框位置信息和包含的每一目标物体掩膜信息。

在一种例子中，可采用Mask R-CNN的实例分割架构中的分类class分支、定位box分支和掩膜mask分支，实现上述S2022。

S2023、利用实例分割框架的全卷积网络FCN(Fully Convolutional Netws)中的3D位置估计分支，从分类信息、检测框位置信息和掩膜信息中提取得到目标物体的3D位置信息。

在一种实施例中，上述S2023具体可通过如下S2023a和S2023b实现：

S2023a、利用实例分割框架中的3D位置估计分支，从根据分类信息、检测框位置信息、每一目标物体掩膜信息中提取表征目标物体的3D位置信息的高维语义信息。

S2023b、对高维语义信息降维，以得到表征每一目标物体的3D位置信息的四维空间向量。

当然，上述S2022和S2023还可通过其他方式实现。

另外，结合上述施例二可知，本发明实施例提供的实例分割框架如图3所示，该架构包括：卷积神经网络(CNN，Convolutional Neural Networks)、区域建议网络(RPN，RegionProposal Network)、感兴趣区域对齐(RoIAlign)网络以及由分类class分支、定位box分支、掩膜Mask分支以及3D位置估计分支组成的全卷积网络FCN。

针对卷积神经网络，卷积神经网络的输入端作为实例分割框架的输入端。卷积神经网络CNN用于根据待检测2D图像，得到高维度的特征图(feature map)。

针对区域建议网络RPN，区域建议网络RPN的输入端与卷积神经网络CNN的输出端连接。区域建议网络RPN用于从特征图feature map提取多个大小尺度不同的可能存在目标物体的感兴趣区域ROI(Region Of Interest)的特征图。

针对感兴趣区域对齐网络RoIAlign，感兴趣区域对齐网络RoIAlign的输入端与区域建议网络RPN的输出端连接。感兴趣区域对齐网络RoIAlign用于将多个大小尺度不同的感兴趣区域ROI中的每一感兴趣区域ROI的特征图，池化为尺度相同的感兴趣区域ROI的特征图。具体的，池化为7x7 pixels的感兴趣区域ROI。

需要说明的是，上述卷积神经网络CNN、区域建议网络RPN、感兴趣区域对齐网络RoIAlign的具体结构可参见Mask R-CNN中对应的网络结构，这里不再赘述。

针对于分类class分支和定位box分支，分类class分支用于输出待检测2D图像中包含的目标物体的分类信息，以及定位box分支用于输出待检测2D图像中包含的目标物体的所处的检测框位置信息。

在一个例子中，分类class分支和定位box分支用同一个两层全连接层实现。该同一个两层全连接层中的前一层全连接层的输入端连接在感兴趣区域对齐网络RoIAlign的输出端，该同一个两层全连接层中的后一层全连接层有两个输出端，该两个输出端分别作为分类class分支、定位box分支的输出端。

在该例子中，由于分类class分支和定位box分支用同一个两层全连接层实现，因此，确定分类class分支和定位box分支输出结果过程中，得到的图像特征几乎没有差别，这使得最终分类class分支和定位box分支的输出更加准确。

在上述分类class分支和定位box分支的例子中，每一全连接层可以包括1024个神经元。当然，也可以包括其他数量的神经元。

当然，分类class分支和定位box分支还可以采用其他的结构。

针对掩膜mask分支，在一个例子中，掩膜mask分支用于输出待检测2D图像中每一目标物体掩膜信息。

在一个例子中，掩膜mask分支可由七个卷积层组成。其中，第一个卷积层具有一个输入端，该输入端连接在感兴趣区域对齐网络RoIAlign的输出端上，最后一个卷积层作为掩膜mask分支的输出端。

在另一个例子中，掩膜mask分支也可由七个卷积层依次组成，第一个卷积层具有两个输入端。该两个输入端分别连接在分类class分支和定位box分支的输出端，最后一个卷积层作为掩膜mask分支的输出端。

在该例子中，由于掩膜mask分支的输入端并不是连接在感兴趣区域对齐网络RoIAlign的输出端，而是连接在分类class分支和定位box分支的输出端上，因此，掩膜mask分支输入的数据量大大减小，从而可以提高本发明实施例最终输出目标物体的3D位置信息的速度。

在上述掩膜mask分支的两个例子中，七个卷积层的结构可以依次为：连续四个14*14*256的卷积层、28*28*256的卷积层、28*28*C的卷积层、28*28*1的卷积层。其中，C指的是通道数，与分类class分支的输出类别对应。需要说明的是，上述掩膜mask分支的两个例子中，七个卷积层对应的网络参数可不相同。

当然，掩膜mask分支还可以采用其他的结构。

针对3D位置估计分支，用于输出待检测2D图像中目标物体的3D位置信息。

在一个例子中，3D位置估计分支由全卷积层组成。例如，由四层全卷积层依次组成。其中，第一层全卷积层具有一个输入端，该输入端连接在感兴趣区域对齐网络RoIAlign的输出端上。最后一层全卷积层的输出端作为3D位置估计分支的输出端。

在另一个例子中，3D位置估计分支由全卷积层组成。例如，由四层全卷积层依次组成。其中，第一层全卷积层具有三个输入端，每一输入端分别连接在分类class分支、定位box分支、掩膜Mask分支的输出端。第四层全卷积层的输出端作为3D位置估计分支的输出端。

在上述3D位置估计分支的两个例子中，第一层全卷积层和第二层全卷积层可以分别由4096个神经元组成，第三层全卷积层可以由384个神经元组成，第四层全卷积层可以由4个神经元组成。

需要说明的是，上述上述3D位置估计分支的两个例子中，全卷积层对应的网络参数可不相同。

另外，结合上述实施例三，上述第四层全卷积层的4个神经元分别输出一个空间向量，且4个神经元分别输出的空间向量中，一个空间向量用于表示相对于三维空间坐标系中X轴的旋转角度，一个空间向量用于表示相对于三维空间坐标系中Y轴的旋转角度，一个空间向量用于表示相对于三维空间坐标系中Z轴的旋转角度，一个空间向量用于表示相对于三维空间坐标系中X轴的位置偏移量，相对于三维空间坐标系中Y轴的位置偏移量，相对于三维空间坐标系中Z轴的位置偏移量。

基于上述内容，图3所示的实例分割框架可以被替换为如图4和如图5所示的实例分割框架。

基于上述图4或图5的实例分割框架，上述S2022具体可通过如下步骤实现：

S2022a、根据待检测2D图像以及实例分割框架中的感兴趣区域提取网络，从待检测2D图像中提取多个感兴趣区域的特征图。

需要说明的是，上述的感兴趣区域提取网络对应于上述描述的卷积神经网络CNN、区域建议网络RPN、感兴趣区域对齐网络RoIAlign。另外，待检测2D图像中提取的多个感兴趣区域的特征图，为大小尺度相同的感兴趣区域的特征图。

S2022b、根据每一感兴趣区域的特征图以及实例分割框架中的分类class分支，确定待检测2D图像中包含的目标物体的分类信息。

S2022c、根据分类信息、实例分割框架中的定位box分支，确定待检测2D图像中包含的目标物体所处的检测框位置信息。

S2022d、根据分类信息、检测框位置信息、实例分割框架中的掩膜Mask分支，确定待检测2D图像中包含的每一目标物体掩膜信息。

在该实施例中，由于是根据分类信息、检测框位置信息、实例分割框架中的掩膜Mask分支，确定的待检测2D图像中包含的每一目标物体掩膜信息，而不是根据从待检测2D图像中提取的多个感兴趣区域的特征图确定的，因此，本实施例中在确定待检测2D图像中包含的每一目标物体掩膜信息时，需进行处理的数据量可大大减小。同时，还可以提高本发明实施例最终输出目标物体的3D位置信息的速度。

在一种实施例中，上述S2022d中获取到的掩膜信息为表示第一状态和第二状态的二值化信息，其中，第一状态指示2D图像中目标物体所在区域，第二状态指示2D图像中除目标物体之外的区域。

在上述实施例的基础上，第一状态可以为真值(true)，此时，第二状态为假值(false)。对应的，第一状态还可以为假值(false)，此时第二状态为真值(true)。

在该实施例中，无需对每一目标物体进行区分，这可大大减少确定待检测2D图像中包含的每一目标物体掩膜信息的过程中的数据开销。同时，还可以提高本发明实施例最终输出目标物体的3D位置信息的速度。

当然，上述S2022d中获取到的掩膜信息可以用多个状态量来表示，以实现对待检测2D图像中每一目标进行区分。

<实施例五>

在该实施例中，上述S204中的利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，可被替换为如下S2041和S2042：

S2041、为3D权重因子设置3D权重系数，利用3D权重因子和3D权重系数得到3D信息损失量。

S2042、利用分类class分支的损失量、定位box分支的损失量、掩膜mask分支的损失量与3D位置信息损失量按照预设线性关系得到网络损失函数。

基于上述实施例二可知，本发明实施例提供的实例分割框架是在Mask R-CNN的基础上改进得到的，因此，可以理解的是，本实施例中的实例分割框架中包括分类class分支、定位box分支、掩膜mask分支。进一步的，在得到网络损失函数时，需利用分类class分支的损失量、定位box分支的损失量、掩膜mask分支的损失量与3D位置信息损失量。

在一个例子中，上述的预设线性关系可以为加权求和。

基于上述内容可知，网络损失函数Total_Loss可表示为：

Total_Loss＝L_cls+L_box+L_mask+ηL_3D

其中，L_cls为实例分割框架中的网络损失函数的分类信息的权重因子。该因子为分类class分支输出的分类信息与合格的目标物体的分类信息之间的差值。在该实施例中，分类信息的权重因子对应于分类class分支的损失量。

L_box为实例分割框架中的网络损失函数的检测框位置信息的权重因子。该因子为定位box分支输出的检测框位置信息与合格的目标物体的检测框位置信息之间的差值。在该实施例中，检测框位置信息的权重因子对应于定位box分支的损失量。

L_mask为实例分割框架中的网络损失函数的掩膜信息的权重因子。该因子为掩膜mask分支输出的掩膜信息与合格的目标物体的掩膜信息之间的差值。在该实施例中，掩膜信息的权重因子对应于掩膜mask分支的损失量。

L_3D为实例分割框架中的网络损失函数的3D位置信息的权重因子。该因子为3D位置估计分支输出的3D位置信息与合格的目标物体的3D位置信息之间的差值。在该例子中，ηL_3D对应于3D位置信息的损失量。

其中，L3d可表示为||γ–γ^||+λ||tz–tz^||p。其中，γ表示的是3D位置估计分支输出的在三维空间的三个旋转角度形成的旋转矩阵。γ^表示的是在三维空间的合格的目标物体的三个旋转角度形成的旋转矩阵。||γ–γ^||表示的是γ与γ^之间的L2范数的距离差值。

tz表示的是3D位置估计分支输出的在三维空间的三个位置偏移量形成的旋转矩阵，tz^表示的是在三维空间的合格的目标物体的三个位置偏移量形成的偏移矩阵。||tz–tz^||p表示的是tz与tz^之间的标准化的距离方差。λ为尺度因子。根据经验，λ可设置为0.5。

η为上述S2041中为3D权重因子设置的3D的权重系数。η根据经验值可以设置为2。基于该设置，可以使得3D位置估计分支对应的权重高，使得实例分割框架更偏向于目标物体的3D位置估计的学习。

在另一个例子中，网络损失函数Total_Loss还可表示为：

Total_Loss＝αL_cls+βL_box+δL_mask+ηL_3D

需要说明的是，在该例子中，αL_cls为分类class分支的损失量、βL_box为定位box分支的损失量，δL_mask掩膜mask分支的损失量

α为分类信息的权重因子对应的权重系数，β为检测框位置信息的权重因子对应的权重系数，δ为掩膜信息的权重因子对应的权重系数，η为上述S2041中为3D权重因子设置的3D的权重系数。在一种例子中，α和β取1，δ和η取2。

当然，网络损失函数Total_Loss还可表示为：

Total_Loss＝L_cls+L_box+L_mask+L_3D

需要说明的是，在该例子中，L_3D作为3D位置信息的损失量。

<实施例六>

在上述任一实施例的基础上，即在上述S204之后，本发明实施例提供的基于实例分割框架的目标物体的检测方法，如图6所示，还包括如下S205和S206：

S205、添加待检测2D图像对应的标签信息，标签信息至少包括待检测2D图像中目标物体的真实3D位置信息。

S206、根据待检测2D图像以及对应的标签信息，更新实例分割框架。

在该实施例中，利用待检测2D图像以及对应的标签信息对实例分割框架进行更新，可使得实例分割框架中的网络参数发生变化，以使得实例分割框架更适合于对实际获取到的待检测的2D图像的学习，使得后续对新的待检测的2D图像，能够得到更加准确的目标物体的3D位置信息，进而对目标物体是否合格进行更全面准确的判断。

需要说明的是，上述S205和S206和传统的神经网络的更新过程相同，这里不再赘述。

<实施例七>

图7为根据本发明实施例的基于实例分割框架的目标物体的检测装置6000的原理框图。

根据图7所示，本实施例的检测装置7000可以包括第一获取模块6100、第二获取模块7200、设置模块7300以及判断模块7400。其中：

第一获取模块7100，用于在开始目标检测后，获取与目标物体相关的待检测2D图像。

第二获取模块7200，用于将待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移。

设置模块7300，用于为实例分割框架的网络损失函数设置对应于3D位置信息的3D权重因子。

判断模块7400，用于利用目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

在一个实施中，第二获取模块7200具体用于：

或者，

利用外部传感器采集得到目标物体的3D位置信息。

在一个实施中，获取到的掩膜信息为表示第一状态和第二状态的二值化信息，

在一个实施中，第二获取模块7200具体用于：

根据待检测2D图像以及实例分割框架中的感兴趣区域提取网络，从待检测2D图像中提取多个感兴趣区域的特征图。

根据每一感兴趣区域的特征图以及实例分割框架中的分类class分支，确定待检测2D图像中包含的目标物体的分类信息。

根据分类信息、实例分割框架中的定位box分支，确定待检测2D图像中包含的目标物体所处的检测框位置信息。

在一个实施中，第二获取模块7200具体用于：

利用实例分割框架中的3D位置估计分支，从根据分类信息、检测框位置信息、每一目标物体掩膜信息中提取表征目标物体的3D位置信息的高维语义信息。

在一个实施中，判断模块7400具体用于：

为3D权重因子设置3D权重系数，利用3D权重因子和3D权重系数得到3D信息损失量。

利用分类class分支的损失量、定位box分支的损失量、掩膜mask分支的损失量与3D位置估计分支的损失量按照预设线性关系得到网络损失函数。

在一个实施例中，如图8所示，检测装置7000还包括更新模块7500，其中，更新模块7500用于：

添加待检测2D图像对应的标签信息，标签信息至少包括待检测2D图像中目标物体的真实3D位置信息。

本发明装置实施例中各模块的具体实现方式可以参见本发明方法实施例的相关内容，在此不再赘述。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于实例分割框架的目标物体的检测方法，其特征在于，包括：

在开始目标检测后，获取与目标物体相关的待检测2D图像；

将所述待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移；

利用所述目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

2.根据权利要求1所述的方法，其特征在于，获取目标物体的3D位置信息包括：

3.根据权利要求1所述的方法，其特征在于，获取目标物体的3D位置信息包括：

利用实例分割框架的全卷积网络FCN中的3D位置估计分支，从所述分类信息、检测框位置信息和掩膜信息中提取得到目标物体的3D位置信息；

或者，

利用外部传感器采集得到所述目标物体的3D位置信息。

4.根据权利要求3所述的方法，其特征在于，获取到的所述掩膜信息为表示第一状态和第二状态的二值化信息，

5.根据权利要求3所述的方法，其特征在于，所述利用实例分割框架的全卷积网络FCN中分类class分支、定位box分支和掩膜Mask分支对待检测2D图像进行处理，分别得到待检测2D图像中包含的目标物体的分类信息、包含的目标物体所处的检测框位置信息和包含的每一目标物体掩膜信息，包括：

根据所述待检测2D图像以及所述实例分割框架中的感兴趣区域提取网络，从所述待检测2D图像中提取多个感兴趣区域的特征图；

根据每一所述感兴趣区域的特征图以及所述实例分割框架中的分类class分支，确定所述待检测2D图像中包含的目标物体的分类信息；

根据所述分类信息、所述实例分割框架中的定位box分支，确定所述待检测2D图像中包含的目标物体所处的检测框位置信息；

根据所述分类信息、所述检测框位置信息、所述实例分割框架中的掩膜Mask分支，确定所述待检测2D图像中包含的每一目标物体掩膜信息。

6.根据权利要求3所述的方法，其特征在于，所述利用实例分割框架的全卷积网络FCN中的3D位置估计分支，从所述分类信息、检测框位置信息和掩膜信息中提取得到目标物体的3D位置信息，包括：

利用所述实例分割框架中的3D位置估计分支，从根据所述分类信息、所述检测框位置信息、所述每一目标物体掩膜信息中提取表征所述目标物体的3D位置信息的高维语义信息；

对所述高维语义信息降维，以得到表征每一所述目标物体的3D位置信息的四维空间向量。

7.根据权利要求1所述的方法，其特征在于，所述在全卷积网络FCN中利用所述目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，包括：

利用分类class分支的损失量、定位box分支的损失量、掩膜mask分支的损失量与3D位置信息损失量按照预设线性关系得到网络损失函数。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括通过下述方式对实例分割框架进行更新：

添加所述待检测2D图像对应的标签信息，所述标签信息至少包括所述待检测2D图像中所述目标物体的真实3D位置信息；

根据所述待检测2D图像以及对应的标签信息，更新所述实例分割框架。

9.一种基于实例分割算法的目标物体的检测装置，其特征在于，所述装置包括：

第二获取模块，用于将所述待检测2D图像输入实例分割框架，利用该框架中的各网络对待检测2D图像进行处理，当运行至实例分割框架的全卷积网络FCN时，获取目标物体的3D位置信息，该3D位置信息指示目标物体的旋转角度和位置偏移；

判断模块，用于利用所述目标物体的3D位置信息以及包括了3D权重因子的网络损失函数进行迭代运算，根据运算结果判断目标物体是否合格。

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块，具体用于：