CN114663347A

CN114663347A - 无监督的物体实例检测方法及装置

Info

Publication number: CN114663347A
Application number: CN202210116791.9A
Authority: CN
Inventors: 张兆翔; 王宇琪; 陈韫韬
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-06-24
Anticipated expiration: 2042-02-07
Also published as: CN114663347B

Abstract

本申请提供一种无监督的物体实例检测方法及装置。所述方法包括：将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取待检测图像的各像素间的亲和度矩阵；根据亲和度矩阵，对待检测图像进行物体检测，获取待检测图像中的各物体实例；其中，亲和度函数用于确定像素点之间的亲和度，由视频帧序列中图像帧对应的目标深度图的目标场景流作为监督信号，输入深度神经网络模型中训练得到。本申请实施例提供的无监督的物体实例检测方法可以解决在复杂场景下的物体检测问题，提高复杂场景下的物体检测的准确性。

Description

无监督的物体实例检测方法及装置

技术领域

本申请涉及图像识别技术领域，具体涉及一种无监督的物体实例检测方法及装置。

背景技术

物体检测在自动驾驶、工业检测、安防监控等领域具有广泛的应用。现有的物体检测方法是对物体框进行手工标注，然后进行深度学习网络的训练后，利用训练好的深度学习网络来进行物体识别。但是这种方法通常依赖于大量的人力和时间进行物体框的手工标注，耗时较长。

为此，相关技术中，采用无监督物体检测方法来进行物体检测。无监督物体检测致力于从原始数据中获取视觉线索来监督模型的训练，从而减少对人工标注的依赖。现有的无监督物体检测，通常依赖颜色、边缘或者纹理信息给物体一个定义，然后利用图像外观的线索来实现简单场景，如单物体场景下的物体检测，或者结合注意力模型进行显著性物体检测与分割。但仅仅依赖颜色、边缘或者纹理信息实际上难以给图像中所有的物体一个通用且鲁棒的定义，因此对于复杂场景，例如多物体场景，无法准确有效地进行物体检测。

发明内容

本申请实施例提供一种无监督的物体实例检测方法及装置，解决在复杂场景下的物体检测问题，提高复杂场景下的物体检测的准确性。

第一方面，本申请实施例提供一无监督的物体实例检测方法，包括：

将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵；

根据所述亲和度矩阵，对所述待检测图像进行物体检测，获取所述待检测图像中的各物体实例；

其中，所述亲和度函数用于确定像素点之间的亲和度，由视频帧序列中图像帧对应的目标深度图的目标场景流作为监督信号，输入深度神经网络模型中训练得到。

在一个实施例中，在将待检测图像输入训练好的深度神经网络模型之前，还包括：

将所述目标深度图和所述目标场景流作为监督信号，输入至待训练的深度神经网络模型，训练待训练的神经网络模型中的亲和度函数，以获取训练好的深度神经网络模型。

在一个实施例中，在将所述目标深度图和所述目标场景流作为监督信号，输入至待训练的深度神经网络模型之前，还包括：

将各所述图像帧输入预训练的深度模型，获取所述目标深度图，并将各所述图像帧输入预训练的光流模型，获取所述目标场景流。

在一实施例中，所述将各所述图像帧输入预训练的深度模型，获取所述目标深度图，包括：

将各所述图像帧输入预训练的深度模型，获取初始深度图；

根据预设的时序约束和几何约束，对所述初始深度图进行优化，获取所述目标深度图。

在一实施例中，所述将各所述图像帧输入预训练的光流模型，获取所述目标场景流，包括：

将各所述图像帧输入预训练的光流模型，获取初始场景流；

根据预设的时序约束和几何约束，对所述初始场景流进行优化，并将优化以后的初始场景流投影到图像平面中，获取所述目标场景流。

在一实施例中，所述将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵，包括：

将待检测图像输入训练好的深度神经网络模型，通过训练好的深度神经网络模型中用于识别前景像素的前景物体头，获取待检测图像的前景像素区域；

将待检测图像的前景像素区域通过所述亲和度函数进行处理，获取所述前景像素区域的各像素间的亲和度矩阵。

在一实施例中，根据所述亲和度矩阵，对所述待检测图像进行物体检测，获取所述待检测图像中的各物体实例，包括：

根据所述前景像素区域中的各像素点以及所述亲和度矩阵，构建无向图模型；

根据图像分割算法处理所述无向图模型，获取所述前景像素区域中的各物体实例；

其中，所述无向图模型的顶点为所述前景像素区域中的像素点，所述无向图模型的边的权重根据所述亲和度矩阵确定。

第二方面，本申请实施例提供一种无监督的物体实例检测装置，包括：

亲和度检测模块，用于将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵；

物体检测模块，用于根据所述亲和度矩阵，对所述待检测图像进行物体检测，获取所述待检测图像中的各物体实例；

第三方面，本申请实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的无监督的物体实例检测方法的步骤。

第四方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的无监督的物体实例检测方法的步骤。

本申请实施例提供的无监督的物体实例检测方法及装置，通过由视频帧序列得到的深度图和场景流作为监督信号，输入深度神经网络模型中训练得到深度神经网络模型的亲和度函数，来获取待检测图像的各像素间的亲和度矩阵，以根据亲和度矩阵对待检测图像进行物体检测，从而利用深度一致性和运动一致性的约束，来使训练得到的亲和度函数能够准确地判定待检测图像中像素间的亲和度关系，有效地判别两个像素是否属于同一物体，进而能够整个场景中不同物体的实例检测，提高复杂场景下的物体检测的准确性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的无监督的物体实例检测方法的流程示意图；

图2是本申请实施例提供的无监督的物体实例检测装置的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图；

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图对本申请实施例进行详细的阐述。

参见图1，是本发明实施例提供的无监督的物体实例检测方法的流程示意图之一，该方法应用与服务器中，用于检测图像中的物体实例。如图1所示，本实施例提供的一种无监督的物体实例检测方法包括：

步骤101，将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵；

通过由视频帧序列得到的深度图和场景流作为监督信号，输入深度神经网络模型中训练得到深度神经网络模型的亲和度函数，来获取待检测图像的各像素间的亲和度矩阵，以根据亲和度矩阵对待检测图像进行物体检测，从而利用深度一致性和运动一致性的约束，来使训练得到的亲和度函数能够准确地判定待检测图像中像素间的亲和度关系，有效地判别两个像素是否属于同一物体，进而能够整个场景中不同物体的实例检测，提高复杂场景下的物体检测的准确性。

在一实施例中，对于深度神经网络模型的训练，包括：

将视频帧序列中各图像帧的目标深度图和目标场景流作为监督信号，输入至待训练的深度神经网络模型，训练待训练的神经网络模型中的亲和度函数，以获取训练好的深度神经网络模型。

在一实施例中，深度神经网络模型包括骨干网络、特征金字塔以及前景物体头和亲和度函数头。其中，骨干网络用于提取图像的视觉特征，特征金字塔用于编码不同尺度的视觉特征；前景物体头用以区分前景和背景像素，亲和函数头编码局部窗口内像素的亲和关系。

在一实施例中，预先定义亲和度函数f，具体为：

a_ij＝f(p_i,p_j)

该函数刻画图像上两个像素点p_i和p_j的亲和关系。亲和关系越大则表示两个像素点越大概率属于同一物体。然后采用深度神经网络模型来训练亲和度函数，将亲和函数f分解为深度亲和度f_d和运动亲和度f_m两项，即：

其中，d_i表示深度图中像素i的深度值，v_i表示场景流投影到图像平面上像素i的运动流，包含x,y两个方向的速度。

然后，将目标深度图和目标场景流作为监督信号输入深度神经网络模型，基于亲和度函数头的损失函数，训练深度神经网络模型中的亲和度函数，以获得训练好的深度神经网络模型。其中，亲和函数的损失函数为：

其中，l_d表示深度亲和度损失，l_m表示运动亲和度损失，h,w代表图像的长和宽，r代表局部窗口的大小，O表示输出的亲和度矩阵，A_d和A_v表示从深度图和场景流获得的深度亲和度和运动亲和度。

在一实施例中，深度神经网络模型还可以采用其它结构构建，例如骨干网络可以采用卷积式的神经网络，也可以采用注意力式的神经网络。金字塔结构可以使用空洞卷积的网络形式提取多尺度的图像特征。局部窗口的形式也不限于方形，可以扩展至带空洞的窗口，圆形窗口等。损失函数也不限于采用上述公式中的MSE回归损失进行训练，也可通过其他合理有效的损失函数训练。

在一实施例中，对于目标深度图和场景流的获取，具体为：

在一实施例中，预先使用预训练的深度模型估计单帧图像帧的目标深度图D_t(如H×W×1)，以及利用预训练的光流模型估计相邻的两帧图像帧中当前帧到下一帧的光流V_t→t+1(如H×W×2)，从而根据图像帧之间的光流以及图像帧的目标深度图，预测图像帧对应的目标场景流。

在一实施例中，除通过预训练的深度模型以及预训练的光流模型来估计深度图以及场景流外，还可以使用其他的网络结构来估计深度和场景流，例如使用双目视频帧序列的数据形式进行深度和运动估计，以得到目标深度图以及目标场景流。

为使获取到的目标深度图以及目标场景流更为准确，以提高对深度神经网络模型的训练效果，在一实施例中，所述将各所述图像帧输入预训练的深度模型，获取所述目标深度图，包括：

将各所述图像帧输入预训练的深度模型，获取初始深度图；

在一实施例中，将各所述图像帧输入预训练的深度模型，利用预训练的深度模型预估图像帧的初始深度图。然后利用预设的时序和几何关系的约束，优化初始深度图，得到目标深度图。

将各所述图像帧输入预训练的光流模型，获取初始场景流；

在一实施例中，将各所述图像帧输入预训练的光流模型，利用预训练的光流模型估计当前帧到下一帧的光流，从而根据光流确定初始场景流。然后利用预设的时序约束和几何约束，对初始场景流进行优化，再将优化后的初始场景流投影到图像平面，从而得到目标场景流，即视频帧序列中物体的运动信息。

通过使用预训练的深度模型以及预训练的光流模型获取初始深度图以及初始场景流后，对初始深度图以及初始场景流进行联合优化，得到目标深度图以及目标场景流，从而使得到的目标深度图以及目标场景流更为准确，提高后续对深度神经网络模型的训练效果。

在一实施例中，在完成深度神经网络模型的训练后，获取待检测图像，将待检测图像输入训练好的深度神经网络模型中，通过深度神经网络模型中的亲和度函数确定待检测图像的各像素间的亲和度矩阵。

考虑到待检测图像中可能含有背景，此时直接通过亲和度函数对待检测图像进行处理，可能会导致计算复杂度过大，同时由于背景像素和前景物体的混杂，影响物体实例检测的准确度。

为此，在一实施例中，所述将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵，包括：

在一实施例中，将待检测图像，如静态的RGB图片输入训练好的深度神经网络模型，通过深度神经网络模型中的前景物体头，输出前景像素的预测概率，以提取预测概率大于预设阈值的所有像素作为前景像素，并根据提取到的所有前景像素组成待检测图像的前景像素区域。然后通过亲和度函数，对前景像素区域进行计算，得到前景像素区域的各像素间的亲和度矩阵。

其中，待检测图像的尺寸可根据实际情况进行确定，如可以为1920×1280×3。

通过提取待检测图像的前景像素区域，并基于前景像素区域来确定亲和度矩阵，从而避免计算复杂度过大，以及背景像素和前景物体的混杂影响对最终的检测结果造成干扰，进而提高后续物体实例检测的准确度。

在得到亲和度矩阵后，即可采用图割算法或基于能量的条件随机场等方法，对对前景像素区域进行不同物体的判别，从而获取待检测图像中的各物体实例。

为进一步提高各物体实例的检测准确度，在一实施例中，根据所述亲和度矩阵，对所述待检测图像进行物体检测，获取所述待检测图像中的各物体实例，包括：

在一实施例中，在得到亲和度矩阵后，根据前景像素区域中的各像素点，以及亲和度矩阵，构建一个无向图模型G＝(V,E)。其中，顶点V为前景像素区域中的像素点，边E的权重由亲和度矩阵加权计算得到，具体公式为：

其中，O_ij表示亲和度矩阵中像素i和像素j之间的亲和度，β是优化参数，∈用来保证数值稳定性，可根据实际情况设定。

然后对于构建的无向图模型，采用贪婪加性边收缩算法进行求解，最终得到不同物体的实例检测结果。

下面对本申请实施例提供的无监督的物体实例检测装置进行描述，下文描述的无监督的物体实例检测装置与上文描述的无监督的物体实例检测方法可相互对应参照。

在一实施例中，如图3所示，提供了一种无监督的物体实例检测装置，包括：

亲和度检测模块210，用于将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵；

物体检测模块220，用于根据所述亲和度矩阵，对所述待检测图像进行物体检测，获取所述待检测图像中的各物体实例；

在一实施例中，还包括神经网络训练模块，用于：

在一实施例中，还包括数据获取模块，用于：

在一实施例中，数据获取模块具体用于：

将各所述图像帧输入预训练的深度模型，获取初始深度图；

在一实施例中，数据获取模块具体用于：

将各所述图像帧输入预训练的光流模型，获取初始场景流；

在一实施例中，亲和度检测模块210具体用于：

在一实施例中，物体检测模块220具体用于：

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行无监督的物体实例检测方法的步骤，例如包括：

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的无监督的物体实例检测方法的步骤，例如包括：

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤，例如包括：

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种无监督的物体实例检测方法，其特征在于，包括：

2.根据权利要求1所述的无监督的物体实例检测方法，其特征在于，在将待检测图像输入训练好的深度神经网络模型之前，还包括：

3.根据权利要求2所述的无监督的物体实例检测方法，其特征在于，在将所述目标深度图和所述目标场景流作为监督信号，输入至待训练的深度神经网络模型之前，还包括：

4.根据权利要求3所述的无监督的物体实例检测方法，其特征在于，所述将各所述图像帧输入预训练的深度模型，获取所述目标深度图，包括：

将各所述图像帧输入预训练的深度模型，获取初始深度图；

5.根据权利要求3所述的无监督的物体实例检测方法，其特征在于，所述将各所述图像帧输入预训练的光流模型，获取所述目标场景流，包括：

将各所述图像帧输入预训练的光流模型，获取初始场景流；

6.根据权利要求1-5任意一项所述的无监督的物体实例检测方法，其特征在于，所述将待检测图像输入训练好的深度神经网络模型，根据训练好的深度神经网络模型中的亲和度函数，获取所述待检测图像的各像素间的亲和度矩阵，包括：

7.根据权利要求6所述的无监督的物体实例检测方法，其特征在于，根据所述亲和度矩阵，对所述待检测图像进行物体检测，获取所述待检测图像中的各物体实例，包括：

8.一种无监督的物体实例检测装置，其特征在于，包括：

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的无监督的物体实例检测方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的无监督的物体实例检测方法的步骤。