CN114419519B

CN114419519B - 目标对象检测方法、装置、电子设备和存储介质

Info

Publication number: CN114419519B
Application number: CN202210297747.2A
Authority: CN
Inventors: 谭啸; 张伟; 叶晓青; 时一峰; 孙昊; 王井东; 丁二锐; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-24
Anticipated expiration: 2042-03-25
Also published as: CN114419519A

Abstract

本公开提供了一种目标对象检测方法、装置、电子设备、存储介质和计算机程序产品，涉及人工智能领域，尤其涉及计算机视觉、图像识别和深度学习技术领域，可用于智慧城市和智能交通场景。具体实现方案为：根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息，确定当前帧图像的多个多尺度特征图；对多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图；根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征，确定时空融合特征图；以及根据时空融合特征图，检测当前帧图像中的目标对象。

Description

目标对象检测方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像识别和深度学习技术，具体涉及一种目标对象检测方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

在智能交通、自动驾驶等场景中，在基于二维图像对场景中的物体进行结构化分析时，需要分别估计物体的3D位置信息和运动状态信息。但是，由于没有考虑到3D位置信息和运动状态信息之间的关联性，导致效率低下，而且预测精度较低。

发明内容

本公开提供了一种目标对象检测方法、装置、电子设备、存储介质和计算机程序产品。

根据本公开的一方面，提供了一种目标对象检测方法，包括：

根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息，确定当前帧图像的多个多尺度特征图；

对多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图；

根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征，确定时空融合特征图；以及

根据时空融合特征图，检测当前帧图像中的目标对象。

根据本公开的另一方面，提供了一种目标对象检测装置，包括：

第一确定模块，用于根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息，确定当前帧图像的多个多尺度特征图；

第一融合模块，用于对多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图；

第二确定模块，用于根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征，确定时空融合特征图；以及

检测模块，用于根据时空融合特征图，检测当前帧图像中的目标对象。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机可读指令的非瞬时计算机可读存储介质，该计算机可读指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的目标对象检测方法的流程图；

图2是根据本公开实施例的确定时空融合特征图的方法的流程图；

图3是根据本公开实施例的确定目标时空融合特征图的方法的流程图；

图4是根据本公开另一实施例的确定目标时空融合特征图的方法的流程图；

图5是根据本公开另一实施例的确定目标时空融合特征图的方法的示意图；

图6是根据本公开实施例的检测当前帧图像中目标对象的方法的流程图；

图7是根据本公开实施例的目标对象检测装置的框图；

图8是根据本公开实施例的目标对象检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的目标对象检测方法的流程图。

如图1所示，目标对象检测方法100包括操作S110~S140。

在操作S110，根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息，确定当前帧图像的多个多尺度特征图。

当前帧图像可以是通过单目相机采集而得到的视频流中的任意一帧彩色图像。当前帧图像的关联语义信息可以是指对当前帧图像的在前帧图像进行语义分割处理而得到的针对在前帧图像的语义分割信息，该当前帧图像的关联语义信息表达了在前帧图像中每个像素点所属的类别或者标签（label）。在本公开实施例中，对当前帧图像的在前帧图像进行语义分割处理，可以是对当前帧图像的前一帧图像或者前几帧图像进行处理，这里不做限定。可以理解，在彩色图像为RGB图像的示例中，可以针对R、G和B通道的图像分别执行根据本公开实施例的方法。

当前帧图像的深度信息是指地面的点到相机的距离信息，可以用深度图来表示。对于不同视频帧图像，其对应的深度信息可以不同。

在本公开实施例中，当前帧图像的深度信息例如可以根据地面方程和相机的参数计算得到，或者可以采用其他方式获取，具体不做限定。

在本操作S110中，根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息来确定当前帧图像的多个多尺度特征图，可以利用骨架网络来实现。这里所谓的骨架网络例如可以包括残差网络（Residual Network，ResNet），骨架网络也可以由其他合适类型的神经网络结构来实现，具体可以根据实际选择。

例如，可以将当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息进行拼接，利用残差网络对拼接之后的信息进行特征提取，得到当前帧图像的多个多尺度特征图。

在操作S120，对多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图。

由于提取到的多个尺度特征图具有不同的分辨率（尺度），其特征感受野不同，因而每个多尺度特征图的语义信息表征能力不同，例如，对于高分辨率的多尺度特征图，其具有较小的感受野，几何细节信息的表征能力强，但是语义信息表征能力弱；而对于低分辨率的多尺度特征图，其具有较大的感受野，几何细节信息的表征能力弱（空间几何特征细节缺乏）。为了使多个多尺度特征图能够高效融合，获得不同感受野下的语义信息，以利于后续准确对目标对象进行检测和分割，可以对提取到的多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图。

在本公开实施例中，对多个多尺度特征图进行多尺度融合处理通常是指以多个多尺度特征图作为输入，对最大尺度特征图进行反卷积操作到目标尺度，然后与该尺度下的多尺度特征图相加得到该尺度下的多尺度融合特征图，该多尺度融合特征图再继续通过反卷积操作得到下一个尺度的多尺度融合特征图，以此类推得到多个多尺度融合特征图。

在本公开实施例中，多个多尺度特征图分别与多个多尺度融合特征图相对应，而每个多尺度特征图进行多尺度融合处理前后，其尺寸大小相同，即每个多尺度特征图与该多尺度特征图对应的多尺度融合特征图的尺寸一致。

在操作S130，根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征，确定时空融合特征图。

例如，可以基于所获取的多个多尺度融合特征图中的一个或多个（以下可以称为目标多尺度融合特征图）以及当前帧图像的第一全局上下文特征来进行时间和空间维度的特征融合，从而得到时空融合特征图。该时空融合特征图可以在后续用于检测当前帧图像中的目标对象以及目标对象的二维属性、三维属性以及目标对象的运动信息等。

在操作S140，根据时空融合特征图，检测当前帧图像中的目标对象。

例如，可以将时空融合特征图输入预先训练的一个或多个网络中，以提取当前帧图像中的目标对象以及针对目标对象的二维属性、三维属性以及目标对象的运动信息等，以上信息的详细获取方法将在后文进行介绍。

本公开中的技术方案通过将当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息相结合，得到融合上述三个维度特征的多尺度特征图，然后基于该多尺度特征图得到融合时间和空间维度特征的时空融合特征图，并利用时空融合特征图检测当前帧图像中的目标对象以及针对目标对象的二维属性、三维属性以及目标对象的运动信息等。基于上述方法，能够以简单、高效的方式实现对二维图像中物体的结构化分析，同时输出针对目标对象的二维属性、三维属性以及目标对象的运动信息等，提高了处理效率以及预测精度。

图2是根据本公开实施例的确定时空融合特征图的方法的流程图。以下将参考图2来说明上述操作S130的示例实现方式。

如图2所示，确定时空融合特征图的方法包括操作S231。

在操作S231，根据多个多尺度融合特征图中除目标多尺度融合特征图以外的其他多尺度融合特征图和目标时空融合特征图，确定时空融合特征图。

这里所述的目标多尺度融合特征图是指根据实际需要从多个多尺度融合特征图中选择的一个或多个多尺度融合特征图。为了便于描述，下文将以一个目标多尺度融合特征图作为输入为例来对时空融合特征图的获取方法进行详细说明，对此后续不再赘述。可以理解，以上所选择的一个目标多尺度融合特征图可以是多个多尺度融合特征图中的任意一个，本公开不以此为限。

例如，多个多尺度融合特征图包括P1、P2和P3，其中P1、P2和P3中的数字分别代表多尺度融合特征图的尺度。从多个多尺度融合特征图任意确定一个目标多尺度融合特征图（例如P3），并基于所确定的一个目标多尺度融合特征图P3获得与该目标多尺度融合特征图对应的目标时空融合特征图P3’，其中，该目标多尺度融合特征图P3与目标时空融合特征图P3’的维度相同。

分别对多个多尺度融合特征图中除目标多尺度融合特征图以外的其他多尺度融合特征图（例如P1和P2）进行反卷积操作，得到与所述目标时空融合特征图P3’的尺寸相同的特征图，然后将上述通过反卷积得到的特征图与目标时空融合特征图P3’进行拼接，得到时空融合特征图。

图3是根据本公开实施例的确定目标多尺度融合特征图的目标时空融合特征图的方法的流程图。以下将参考图3来说明确定目标多尺度融合特征图的目标时空融合特征图的示例实现方式。

如图3所示，确定目标多尺度融合特征图的目标时空融合特征图的方法300可以包括操作S310~S320。

在操作S310，针对多个多尺度融合特征图中的目标多尺度融合特征图，确定针对第t帧图像的第二全局上下文特征。

对于依据上述方法确定的目标多尺度融合特征图，将该目标多尺度融合特征图分别输入两个不同的卷积层网络（仅为示例）中，得到两个特征，即第一特征和第二特征，分别记为v^m和k^m。利用第一特征v^m和第二特征k^m可以计算针对第t帧图像的第二全局上下文特征，其中，第t帧图像是指当前帧图像。第二全局上下文特征满足如下关系：

上式中，GC表示第二全局上下文特征，v^m表示第一特征，k^m表示第二特征。

沿用上述针对目标多尺度融合特征图的示例，例如，对于目标多尺度融合特征图P3，将该目标多尺度融合特征图P3分别输入两个不同的卷积层网络中，得到上述两个特征v^m和k^m，基于第一特征v^m和第二特征k^m可以计算针对第t帧图像的第二全局上下文特征GC_t。

在操作S320，根据第二全局上下文特征，确定目标多尺度融合特征图的目标时空融合特征图。

在获取第二全局上下文特征之后，可以利用例如自注意力网络以及记忆池来确定目标多尺度融合特征图的目标时空融合特征图。

其中，记忆池可以是一个先入先出的队列，记忆池中存储有最邻近的i帧图像（例如第t-1帧图像至第t-i帧图像）的第二全局上下文特征，每一帧图像的第二全局上下文特征的获取方式与以上描述的过程类似，这里不再赘述。可以理解，第t帧图像是指当前帧图像，相应地，第t-1帧图像至第t-i帧图像是指当前帧的前一帧图像至当前帧的前i帧图像，本公开对于第t帧图像、第t-1帧图像至第t-i帧图像均同此定义，后续不再赘述。

在本公开实施例中，记忆池中存储的最邻近的i帧图像（例如第t-1帧图像至第t-i帧图像）的第二全局上下文特征表征了视频流中各图像特征在时间维度上的变化信息。若将表征时间维度变化的特征与表征空间维度变化的目标多尺度融合特征图上的特征进行融合，可以得到上述目标时空融合特征图。该目标时空融合特征图可以用于确定上述提及的时空融合特征图。

图4是根据本公开另一实施例的确定目标时空融合特征图的方法的流程图，图5是根据本公开另一实施例的确定目标时空融合特征图的方法的示意图。下面将参考图4和图5来介绍利用自注意力网络以及记忆池以确定目标多尺度融合特征图的目标时空融合特征图的过程。

如图4所示，确定目标时空融合特征图的方法包括操作S421~ S423。

在操作S421，根据第t帧图像的第二全局上下文特征至第t-i帧图像的第二全局上下文特征，确定当前帧图像的第一全局上下文特征。

前面已经介绍，记忆池中存储的最邻近的i帧图像（例如第t-1帧图像至第t-i帧图像）的第二全局上下文特征，而且记忆池是一个先入先出的队列。

在本公开实施例中，可以利用例如压缩和激励网络（Squeeze and ExcitationNetworks, SENet）基于记忆池中最邻近的i帧图像（例如第t-1帧图像至第t-i帧图像）的第二全局上下文特征来预测得到第t帧图像（即当前帧图像）的第一全局上下文特征（记为FC_t），该第t帧图像的第一全局上下文特征可以用于确定目标多尺度融合特征图的目标时空融合特征图。为了提高预测第t帧图像的第一全局上下文特征的准确性和可靠性，在一些实施例中，用于预测第t帧图像的第一全局上下文特征的最邻近的i帧图像的数量例如可以大于等于4，具体可以视实际情况而定。例如，在一个示例中，i可以等于4或5。

SENet网络主要包括压缩（Squeeze）部分和激励（Excitation）部分。在压缩部分，网络可以顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野。在激励部分，通过网络对每个特征通道的重要性进行预测，得到不同特征通道的重要性大小，然后将不同特征通道的重要性大小（对应于权重）作用到原先的特征通道上，完成在通道维度上对原始特征的权重标定。基于SENet网络，使得通道之间的信息交互成为可能，而且可以基于每个特征通道的重要程度去提升有用的特征并抑制对当前任务用处不大的特征，从而提高了网络预测结果的准确性。

获取第t帧图像的第一全局上下文特征FC_t之后，记忆池可以丢弃第t-i帧图像的第二全局上下文特征，然后将按照操作S310获得针对第t帧图像（即当前帧图像）的第二全局上下文特征存入记忆池中，以更新记忆池中存储的最邻近的i帧图像的第二全局上下文特征，这些特征将用于预测下一帧图像的第一全局上下文特征。

在操作S422，根据目标多尺度融合特征图，确定第三特征和第四特征。

例如，对于依据操作S231确定的目标多尺度融合特征图，将该目标多尺度融合特征图分别输入两个不同的卷积层网络（仅为示例）中，可以得到第三特征和第四特征，分别记为k^Q和v^Q。

在操作S423，根据第三特征、第四特征和当前帧图像的第一全局上下文特征，确定目标多尺度融合特征图的目标时空融合特征图。

例如，在获取第三特征k^Q、第四特征v^Q以及当前帧图像的第一全局上下文特征FC_t之后，可以利用自注意力网络基于当前帧图像的第一全局上下文特征FC_t以及第三特征k^Q、第四特征v^Q进行时空特征融合，得到目标多尺度融合特征图的目标时空融合特征图。

在一些实施例中，可以采用其他网络结构来基于第三特征、第四特征和当前帧图像的第一全局上下文特征确定时空融合特征图，本公开对此不做限定。

需要说明的是，以上虽然以特定的顺序描述了方法的各个步骤，然而本公开的实施例不限于此，上述步骤可以根据需要以其他顺序执行。例如在一些实施例中，步骤S421可以在步骤S422之前执行，或者与步骤S422同时执行，或者在步骤S422之后执行，本公开对此不作限制。

在本公开实施例中，通过利用自注意力网络和记忆池相结合的方式来对当前帧的特征进行时间和空间维度特征融合，以简单、高效的方式得到包含更多有效信息的目标时空融合特征图，从而提高了时空融合特征图的准确性，进而提高了对当前帧图像中的目标对象的检测精度和准确度。

图5是根据本公开另一实施例的确定目标时空融合特征图的方法的示意图。

沿用上述针对目标多尺度融合特征图的示例，例如，对于目标多尺度融合特征图P3，依照以上描述的方法，将目标多尺度融合特征图P3分别输入四个不同的卷积层网络（仅为示例）中，得到第一特征v^m、第二特征k^m、第三特征k^Q和第四特征v^Q，依据第一特征v^m和第二特征k^m可以计算得到针对第t帧图像（即当前帧图像）的第二全局上下文特征GC_t。

如图5所示，记忆池510中存储有最邻近的i帧图像（例如第t-1帧图像至第t-i帧图像）的第二全局上下文特征GC_t-1至GC_t-i，其中i可以根据实际设定。

从记忆池510中获取最邻近的i帧图像（例如第t-1帧图像至第t-i帧图像）的第二全局上下文特征GC_t-1至GC_t-i，并送入压缩和激励网络520中，得到第t帧图像的第一全局上下文特征FC_t。将上述获取的第三特征k^Q、第四特征v^Q以及第t帧图像的第一全局上下文特征FC_t输入自注意力网络530中进行时空特征融合，得到目标多尺度融合特征图P3的目标时空融合特征图540，该目标多尺度融合特征图P3的目标时空融合特征图540可以用于确定时空融合特征图。

在一些实施例中，在获取第t帧图像的第一全局上下文特征FC_t之后，记忆池510可以丢弃第t-i帧图像的第二全局上下文特征GC_t-i，然后将所获得的针对第t帧图像的第二全局上下文特征GC_t存入记忆池510中，以更新记忆池510中存储的最邻近的i帧图像的第二全局上下文特征，例如得到第t帧图像至第t-(i-1)帧图像的第二全局上下文特征GC_t至GC_t-(i-1)，这些特征将用于预测下一帧图像的第一全局上下文特征。

图6是根据本公开实施例的检测当前帧图像中目标对象的方法的流程图。

如图6所示，检测当前帧图像中目标对象的方法包括操作S641~S642。

在操作S641，根据时空融合特征图，确定目标对象的至少一个二维属性。

在本公开实施例中，可以将获得的时空融合特征图输入预先训练好的至少一个神经网络（例如反卷积网络）中，以得到目标对象的至少一个二维属性。其中，神经网络的数量与目标对象的二维属性的数量相对应，例如，可以使用一个经训练的神经网络基于时空融合特征图来预测目标对象的一个或多个二维属性，这里具体不做限定。

目标对象的至少一个二维属性例如可以包括以下中的至少一个：目标对象中心点热力图、2D包围框偏移量、帧间物体运动偏移量和帧内像素偏移量。其中，目标对象中心点热力图（Et）表示每个目标对象中心点位置坐标，目标对象中心的位置热力图的值较高，而背景位置的热力图数值较低；2D包围框偏移量（Od）表示每个目标对象2D包围框上下左右四个边界相对于目标对象中心点的偏移量；帧间物体运动偏移量（Otr）表示目标对象中心相对于在前帧图像的偏移，可以用于帧间多目标跟踪关联；帧内像素偏移量（Os）表示每个像素点相对于目标对象中心点的像素偏移，可以用于实例分割。

在操作S642，根据至少一个二维属性，检测当前帧图像中的目标对象。

例如，可以根据以上获得的至少一个二维属性来确定当前帧图像中的2D包围框、2D实例分割图以及多目标跟踪关联结果等。

以下将以目标对象中心点热力图、2D包围框偏移量、帧间物体运动偏移量和帧内像素偏移量等二维属性为例来说明确定当前帧图像中的2D包围框、2D实例分割图以及多目标跟踪关联结果的方法的示例实现方式。

例如，在目标对象中心点热力图Et中，获取极大值点的位置坐标，以作为检测到的第一个目标对象的中心点坐标位置，记为（Cx, Cy）；根据第一个目标对象的中心点坐标位置（Cx, Cy）以及2D包围框偏移量Od来确定2D包围框；根据第一个目标对象的中心点坐标位置（Cx, Cy）以及帧内像素偏移量Os可以计算得到每个像素预测中心与第一个目标对象的中心点坐标位置（Cx, Cy）的像素距离，在两者之间的像素距离满足第一预设阈值的情况下，获取第一个目标对象的分割掩膜（mask）；随后，在目标对象中心点热力图Et中剔除第一个目标对象的分割掩膜覆盖的像素坐标，并获取极大值点的位置坐标，以作为检测到的第二个目标对象的中心点坐标位置，重复执行上述操作，直到目标对象中心点热力图Et中全部阈值之上的像素坐标都被遍历过，从而得到全部目标对象的2D包围框以及2D实例分割图。

此外，可以结合每个目标对象在当前帧图像中的中心坐标，利用帧间物体运动偏移量Otr来预测在前帧图像中每个目标对象的中心坐标，并结合在前帧图像的检测结果利用多目标跟踪算法进行匹配，从而实现帧间多目标的跟踪关联。

本公开实施例中，多目标跟踪算法例如可以包括匈牙利算法或者贪心算法，或者采用其他方法，在此不做限定。

需要说明的是，在利用上述目标对象的二位属性确定当前帧图像中的2D包围框、2D实例分割图以及多目标跟踪关联结果之前，可以判断这些二维属性的分辨率与当前帧图像的分辨率是否一致，若一致，则可以利用上述二维属性来确定当前帧图像中的2D包围框、2D实例分割图以及多目标跟踪关联结果；否则，调整各二维属性的分辨率以使其与当前帧图像的分辨率相同。在本公开实施例中，例如可以采用双线性插值将上述二位属性的分辨率上采样到与当前帧图像相同的分辨率，或者可以根据实际选择其他的方法，本公开不以此为限。

在一些实施例中，还可以根据至少一个二维属性来确定目标对象的三维属性。目标对象的三维属性例如可以包括以下中的至少之一：类别属性、朝向角属性、3D关键点属性和尺寸属性。

以下将以获取类别属性、朝向角属性、3D关键点属性和尺寸属性为例来进行示例性说明。

例如，可以根据目标对象的2D包围框的大小从操作S120中获得的多个多尺度融合特征图中提取对应的特征区域，例如具有较大尺寸的目标对象的2D包围框可以从具有较大尺度的多尺度融合特征图中提取对应的特征区域。在本公开实施例中，从多尺度融合特征图中提取对应的特征区域，可以基于双线性插值将2D包围框的位置坐标映射到对应的多尺度融合特征图中，并将相应区域的特征池化为固定尺寸大小（例如a×a）的特征图。然后，利用上述确定的2D实例分割图中对应该目标对象前景像素的位置，对固定大小尺寸特征图进行平均池化操作，得到平均池化结果。通过平均池化操作能够有效降低图像的维度，从而便于后续利用平均池化结果来预测目标对象的三维属性。

根据上述平均池化结果来预测得到目标对象的至少一个三维属性。例如，可以将该平均池化结果分别输入不同的预测分支头，每个预测分支头例如可以是经训练的多层轻量的全连接层（Fully connected layers），以用于预测得到不同的三维属性，例如类别属性、朝向角属性、3D关键点属性和尺寸属性。

类别属性表示预测目标对象属于某个类别的概率，可以采用例如独热（One Hot）方式实现。由于目标对象的朝向角具有2π的周期性，若直接预测朝向角可能会导致较大的误差，因而难以准确预测朝向角。为了提高预测的准确性，在本公开实施例中，可以将0至2π划分为四等份，例如以0~π/2、π/2~π、π~3π/2、3π/2~2π来划分四等份，由此可以预测目标对象的朝向角属于某一等份的概率。在一些实施例中，为了进一步提高预测的准确性和可靠性，还可以预测相对于每个等份中值角度的偏移量。例如，对于落于0~π/2这一等份中的朝向角，还可以预测该朝向角相对于该等份中值角度π/4的偏移量。3D关键点属性表示预测得到的3D包围框的八个顶点在当前帧图像上的投影点。尺寸属性表示预测3D包围框的长、宽和高。

在一些实施例中，还可以基于上述3D关键点属性、尺寸属性以及朝向角属性来确定目标对象的3D位置。例如，可以采用奇异值分解（Singular Value Decomposition，SVD）基于上述三维属性来计算目标对象的3D位置。

在本公开实施例中，基于时空融合特征图可以同时确定目标对象的至少一个二维属性、三维属性、3D定位以及进行帧间多目标跟踪关联等，相比于相关技术中分别估计3D位置信息和运动状态信息的方法，本公开的方法可以同步获取3D位置信息和运动状态信息，而无需分别对其进行估计，从而提高获取3D位置信息和运动状态信息的速率，而且在获取上述信息的过程中，将3D位置信息和运动状态进行关联，提高了预测精度和准确度。

在一些实施例中，在确定当前帧图像中的目标对象的二维属性和三维属性过程中，可以计算各网络对应的损失函数。例如，可以采用L2距离分别计算包括对应分割、检测、跟踪偏移量回归损失以及目标对象中心热力图回归损失，采用smooth L1损失函数计算长宽高回归损失，采用L1距离计算3D关键点损失以及采用交叉熵分类损失和smooth L1回归损失来计算朝向角损失。基于上述方法获得的损失函数可以用于调整相应的网络模型，从而提高了各网络预测的可靠性，使得各网络输出的结果更加准确。

图7是根据本公开实施例的目标对象检测装置的框图。

如图7所示，目标对象检测装置700包括第一确定模块710、第一融合模块720、第二确定模块730和检测模块740。

第一确定模块710用于根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息，确定当前帧图像的多个多尺度特征图.

第一融合模块720用于对多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图。

第二确定模块730用于根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征，确定时空融合特征图。

检测模块740用于根据时空融合特征图，检测当前帧图像中的目标对象。

根据本公开实施例，其中，上述当前帧图像为第t帧图像，t为大于1的整数，上述目标对象检测装置700还包括第三确定模块和第二融合模块。

第三确定模块用于针对多个多尺度融合特征图中的目标多尺度融合特征图，确定针对第t帧图像的第二全局上下文特征。

第二融合模块用于根据第二全局上下文特征，确定目标多尺度融合特征图的目标时空融合特征图。

根据本公开实施例，其中，第三确定模块包括第一确定单元和第二确定单元。

第一确定单元用于根据目标多尺度融合特征图，确定第一特征和第二特征。

第二确定单元用于根据第一特征和第二特征，确定第二全局上下文特征。

根据本公开实施例，上述目标对象检测装置700还包括第四确定模块。第四确定模块用于根据第t帧图像的第二全局上下文特征至第t-i帧图像的第二全局上下文特征，确定当前帧图像的第一全局上下文特征，其中，i为大于等于2的整数。

根据本公开实施例，其中，上述i大于等于4。

根据本公开实施例，其中，第二融合模块包括第一融合单元和第二融合单元。

第一融合单元用于根据目标多尺度融合特征图，确定第三特征和第四特征。

第二融合单元用于根据第三特征、第四特征和当前帧图像的第一全局上下文特征，确定目标多尺度融合特征图的目标时空融合特征图。

根据本公开实施例，其中，第二确定模块包括第三确定单元。第三确定单元用于根据多个多尺度融合特征图中除目标多尺度融合特征图以外的其他多尺度融合特征图和目标时空融合特征图，确定时空融合特征图。

根据本公开实施例，其中，检测模块包括第一检测单元和第二检测单元。

第一检测单元用于根据时空融合特征图，确定目标对象的至少一个二维属性。

第二检测单元用于根据至少一个二维属性，检测当前帧图像中的目标对象。

根据本公开实施例，其中，上述目标对象的至少一个二维属性包括以下中的至少一个：目标对象中心点热力图、2D包围框偏移量、帧间物体运动偏移量和帧内像素偏移量。

根据本公开实施例，上述检测模块还包括第三检测单元。第三检测单元用于根据至少一个二维属性，确定目标对象的三维属性。

根据本公开实施例，其中，目标对象的三维属性包括以下中的至少一个：类别属性、朝向角属性、3D关键点属性和尺寸属性。

根据本公开实施例，上述目标对象检测装置700还包括分割模块和第五确定模块。

分割模块用于对当前帧图像的在前帧图像进行处理，得到在前帧图像的语义分割信息。

第五确定模块用于将在前帧图像的语义分割信息作为关联语义信息。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。另外，在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。根据本公开实施例的电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。根据本公开实施例的非瞬时计算机可读存储介质存储有计算机可读指令，该计算机可读指令用于使计算机执行根据本公开提供的方法。根据本公开实施例的计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开提供的方法

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如目标对象检测方法。例如，在一些实施例中，目标对象检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的目标对象检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行目标对象检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标对象检测方法，包括：

根据视频流中的当前帧图像、所述当前帧图像的关联语义信息以及所述当前帧图像的深度信息，确定所述当前帧图像的多个多尺度特征图；

对所述多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图；

根据所述多个多尺度融合特征图和所述当前帧图像的第一全局上下文特征，确定时空融合特征图；以及

根据所述时空融合特征图，检测所述当前帧图像中的目标对象；

所述当前帧图像为第t帧图像，t为大于1的整数；所述方法还包括：针对所述多个多尺度融合特征图中的目标多尺度融合特征图，确定针对第t帧图像的第二全局上下文特征；以及根据所述第二全局上下文特征，确定所述目标多尺度融合特征图的目标时空融合特征图；

所述根据所述多个多尺度融合特征图和所述当前帧图像的第一全局上下文特征，确定时空融合特征图包括：根据所述多个多尺度融合特征图中除所述目标多尺度融合特征图以外的其他多尺度融合特征图和所述目标时空融合特征图，确定所述时空融合特征图；

所述方法还包括：根据第t帧图像的第二全局上下文特征至第t-i帧图像的第二全局上下文特征，确定所述当前帧图像的第一全局上下文特征，其中，i为大于等于2的整数。

2. 根据权利要求1所述的方法，其中，针对所述多个多尺度融合特征图中的多尺度融合特征图，确定第t帧图像的第二全局上下文特征包括：

根据目标多尺度融合特征图，确定第一特征和第二特征；以及

根据所述第一特征和第二特征，确定第二全局上下文特征。

3. 根据权利要求1-2中任一项所述的方法，其中，根据所述第二全局上下文特征，确定所述目标多尺度融合特征图的目标时空融合特征图包括：

根据所述目标多尺度融合特征图，确定第三特征和第四特征；以及

根据所述第三特征、所述第四特征和所述当前帧图像的第一全局上下文特征，确定所述目标多尺度融合特征图的目标时空融合特征图。

4. 根据权利要求1所述的方法，其中，所述根据所述时空融合特征图，检测所述当前帧图像中的目标对象包括：

根据所述时空融合特征图，确定所述目标对象的至少一个二维属性；以及

根据所述至少一个二维属性，检测所述当前帧图像中的目标对象。

5.根据权利要求4所述的方法，其中，所述目标对象的至少一个二维属性包括以下中的至少一个：目标对象中心点热力图、2D包围框偏移量、帧间物体运动偏移量和帧内像素偏移量。

6.根据权利要求4所述的方法，还包括：

根据所述至少一个二维属性，确定所述目标对象的三维属性。

7.根据权利要求6所述的方法，其中，所述目标对象的三维属性包括以下中的至少一个：类别属性、朝向角属性、3D关键点属性和尺寸属性。

8. 根据权利要求1所述的方法，还包括：

对所述当前帧图像的在前帧图像进行处理，得到在前帧图像的语义分割信息；以及

将所述在前帧图像的语义分割信息作为所述关联语义信息。

9.一种目标对象检测装置，包括：

第一确定模块，用于根据视频流中的当前帧图像、所述当前帧图像的关联语义信息以及所述当前帧图像的深度信息，确定所述当前帧图像的多个多尺度特征图；

第一融合模块，用于对所述多个多尺度特征图进行多尺度融合处理，得到多个多尺度融合特征图；

第二确定模块，用于根据所述多个多尺度融合特征图和所述当前帧图像的第一全局上下文特征，确定时空融合特征图；以及

检测模块，用于根据所述时空融合特征图，检测所述当前帧图像中的目标对象；

所述当前帧图像为第t帧图像，t为大于1的整数；所述装置还包括：第三确定模块，用于针对所述多个多尺度融合特征图中的目标多尺度融合特征图，确定针对第t帧图像的第二全局上下文特征；第二融合模块，用于根据所述第二全局上下文特征，确定所述目标多尺度融合特征图的目标时空融合特征图；

所述第二确定模块包括：第三确定单元，用于根据所述多个多尺度融合特征图中除所述目标多尺度融合特征图以外的其他多尺度融合特征图和所述目标时空融合特征图，确定所述时空融合特征图；

所述装置还包括：第四确定模块，用于根据第t帧图像的第二全局上下文特征至第t-i帧图像的第二全局上下文特征，确定所述当前帧图像的第一全局上下文特征，其中，i为大于等于2的整数。

10. 根据权利要求9所述的装置，其中，所述第三确定模块包括：

第一确定单元，用于根据目标多尺度融合特征图，确定第一特征和第二特征；以及

第二确定单元，用于根据所述第一特征和第二特征，确定第二全局上下文特征。

11. 根据权利要求9-10中任一项所述的装置，其中，所述第二融合模块包括：

第一融合单元，用于根据所述目标多尺度融合特征图，确定第三特征和第四特征；以及

第二融合单元，用于根据所述第三特征、所述第四特征和所述当前帧图像的第一全局上下文特征，确定所述目标多尺度融合特征图的目标时空融合特征图。

12.根据权利要求9所述的装置，其中，所述检测模块包括：

第一检测单元，用于根据所述时空融合特征图，确定所述目标对象的至少一个二维属性；

第二检测单元，用于根据所述至少一个二维属性，检测所述当前帧图像中的目标对象。

13.根据权利要求12所述的装置，其中，所述目标对象的至少一个二维属性包括以下中的至少一个：目标对象中心点热力图、2D包围框偏移量、帧间物体运动偏移量和帧内像素偏移量。

14.根据权利要求12所述的装置，其中，所述检测模块还包括：

第三检测单元，用于根据所述至少一个二维属性，确定所述目标对象的三维属性。

15.根据权利要求14所述的装置，其中，所述目标对象的三维属性包括以下中的至少一个：类别属性、朝向角属性、3D关键点属性和尺寸属性。

16.根据权利要求9所述的装置，还包括：

分割模块，用于对所述当前帧图像的在前帧图像进行处理，得到在前帧图像的语义分割信息；以及

第五确定模块，用于将所述在前帧图像的语义分割信息作为所述关联语义信息。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机可读指令的非瞬时计算机可读存储介质，其中，所述计算机可读指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。