CN114898175A

CN114898175A - 目标检测方法、装置及相关设备

Info

Publication number: CN114898175A
Application number: CN202210474359.7A
Authority: CN
Inventors: 倪其玲; 严京旗; 方磊
Original assignee: Beijing Zetyun Tech Co ltd
Current assignee: Beijing Zetyun Tech Co ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-12
Anticipated expiration: 2042-04-29
Also published as: CN114898175B

Abstract

本申请提供一种目标检测方法、装置及相关设备，其中，方法包括获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息，参考帧为待检测视频中除当前帧之外的任一与当前帧相关的视频帧；根据第一帧信息和第二帧信息，确定对应的时域信息；将第一帧信息和时域信息分别通过不同的输入通道输入目标检测模型，获得待检测视频的目标检测结果。本申请提供的方法提高了视频的目标检测的准确率。

Description

目标检测方法、装置及相关设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种目标检测方法、装置及相关设备。

背景技术

视频的目标检测是指对视频中每一帧的目标进行识别和定位，其在自主驾驶感知、监控、可穿戴设备和物联网等领域被广泛应用。

目前，对于视频的目标检测方法通常是先根据视频得到视频帧(视频帧为静态图像)，然后采用静态图像的目标检测的方式对视频帧进行检测。但是由于在视频中目标往往具有运动特性，可能会导致目标的外观在某些帧中表现为不寻常的姿态，仅单单采用静态图像的目标检测的方式对视频帧进行检测，对运动中的目标的检测准确率较低。也就是说，现有技术中视频的目标检测方法准确率较低。

发明内容

本申请实施例提供一种目标检测方法、装置及相关设备，解决了视频的目标检测方法的准确率较低的问题。

为达到上述目的，第一方面，本申请实施例提供一种目标检测方法，包括：

获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息，所述参考帧为所述待检测视频中除所述当前帧之外的任一与所述当前帧相关的视频帧；

根据所述第一帧信息和所述第二帧信息，确定对应的时域信息；

将所述第一帧信息和所述时域信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果。

可选地，所述获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息之前，所述方法还包括：

根据可用资源量，确定所述参考帧；

和/或，

根据预先设置的目标检测的刷新周期，确定所述参考帧。

可选地，所述根据可用资源量，确定所述参考帧，包括：

在所述可用资源量大于第一预设值的情况下，将所述待检测视频中与所述当前帧相差第一帧差值的视频帧确定为所述参考帧；

或者，在所述可用资源量小于或等于第一预设值的情况下，将预先设置的第一目标帧确定为所述参考帧。

可选地，所述根据预先设置的目标检测的刷新周期，确定所述参考帧，包括：

在所述刷新周期大于第二预设值的情况下，将所述待检测视频中与所述当前帧相差第二帧差值的视频帧确定为所述参考帧；

在所述刷新周期小于或等于第二预设值的情况下，将预先设置的第二目标帧确定为所述参考帧。

根据所述待检测视频中的目标对象的运动速度，确定帧差等级；

根据所述帧差等级，确定所述参考帧。

可选地，所述根据所述第一帧信息和所述第二帧信息，确定对应的时域信息，包括：

将所述第一帧信息与所述第二帧信息中特征值之差的绝对值，确定为所述时域信息；

或者，

将所述第一帧信息与所述第二帧信息输入背景建模模型，获得所述时域信息。

可选地，所述时域信息包括：

所述当前帧与第一参考帧之间的第一帧间信息，所述参考帧包括所述第一参考帧，所述第一参考帧为所述待检测视频中与所述当前帧相差N帧的视频帧；

所述当前帧与第二参考帧之间的第二帧间信息，所述参考帧包括所述第二参考帧，所述第二参考帧为所述待检测视频中与所述当前帧相差M帧的视频帧，所述N、M为正整数，且M>N；

所述将所述第一帧信息和所述时域信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果，包括：

将所述第一帧信息、所述第一帧间信息和所述第二帧间信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果。

第二方面，本申请实施例提供一种目标检测装置，包括：

第一获取模块，用于获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息，所述参考帧为所述待检测视频中除所述当前帧之外的任一与所述当前帧相关的视频帧；

确定模块，用于根据所述第一帧信息和所述第二帧信息，确定对应的时域信息；

第二获取模块，用于将所述第一帧信息和所述时域信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果。

可选地，所述第一获取模块之前，所述装置还包括：

第二确定模块，用于根据可用资源量，确定所述参考帧；

和/或，

第三确定模块，用于根据预先设置的目标检测的刷新周期，确定所述参考帧。

可选地，所述第二确定模块，包括：

第一确定单元，用于在所述可用资源量大于第一预设值的情况下，将所述待检测视频中与所述当前帧相差第一帧差值的视频帧确定为所述参考帧；

或者，第二确定单元，用于在所述可用资源量小于或等于第一预设值的情况下，将预先设置的第一目标帧确定为所述参考帧。

可选地，所述第三确定模块，包括：

第三确定单元，用于在所述刷新周期大于第二预设值的情况下，将所述待检测视频中与所述当前帧相差第二帧差值的视频帧确定为所述参考帧；

第四确定单元，用于在所述刷新周期小于或等于第二预设值的情况下，将预先设置的第二目标帧确定为所述参考帧。

可选地，所述第一获取模块之前，所述装置还包括：

第四确定模块，用于根据所述待检测视频中的目标对象的运动速度，确定帧差等级；

第五确定模块，用于根据所述帧差等级，确定所述参考帧。

可选地，所述第一确定模块，包括：

第五确定单元，用于将所述第一帧信息与所述第二帧信息中特征值之差的绝对值，确定为所述时域信息；

或者，

第六确定单元，用于将所述第一帧信息与所述第二帧信息输入背景建模模型，获得所述时域信息。

可选地，所述时域信息包括：

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的目标检测方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，所述可读存储介质上存储有程序，所述程序被处理器执行时实现如第一方面所述的目标检测方法中的步骤。

本申请实施例中，通过获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息，并根据第一帧信息和第二帧信息，确定对应的时域信息，将第一帧信息和时域信息分别通过不同的输入通道输入目标检测模型，获得待检测视频的目标检测结果。本发明技术方案相对于采用GRB三个空间域输入通过的检测方式而言，本发明技术方案将第一帧信息作为空间域信息，利用第一帧信息和第二帧信息获取对应的时域信息，从而将空域信息和时域信息输入到对应的输入通道进行目标检测模型处理。本发明技术方案采用空间域信息与时域信息结合的输入通过，利用空间域信息和时域信息结合的方式对视频进行检测，相对于采用GRB三个空间域输入通过的检测方式而言，提高了目标检测的准确率。

附图说明

为了更清楚的说明本申请实施例中的技术方案，现对说明书附图作如下说明，显而易见地，下述附图仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据所列附图获得其他附图。

图1是本申请实施例提供的目标检测方法的流程示意图之一；

图2是本申请实施例提供的目标检测方法的流程示意图之二；

图3是本申请实施例提供的目标检测装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。在本申请中的实施例的基础上，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，下面先对本申请相关的背景知识进行介绍。

在静态图像上实现目标检测，本身是一个滑窗+分类的过程，前者是帮助锁定目标可能存在的局部区域，后者则是通过分类器打分，判断锁定的区域是否有(是)我们寻找的目标。具体而言，先将静态图像用特征表示，然后将特征输入到分类器进行打分，从而确定目标的位置。

但是由于在视频中目标往往具有运动特性，可能会导致目标的外观在某些帧中表现为不寻常的姿态，仅单单采用静态图像的目标检测的方式对视频帧进行检测，对运动中的目标的检测准确率较低。

为解决这一问题，本申请实施例提供一种目标检测方法。参见图1，图1是本申请实施例提供的目标检测方法的流程示意图之一，如图1所示，目标检测方法可以包括以下步骤：

步骤101，获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息，所述参考帧为所述待检测视频中除所述当前帧之外的任一与所述当前帧相关的视频帧。

第一帧信息可以包括当前帧的亮度，和/或当前帧的灰度，第一帧信息还可以包括当前帧在待检测视频中的位置信息，如当前帧的位置序号。

第二帧信息可以包括参考帧的亮度，和/或参考帧的灰度，第二帧信息还可以包括参考帧在待检测视频中的位置信息，如参考帧的位置序号。

参考帧可以为一张或多张与当前帧相关的视频帧。与当前帧相关的视频帧指以当前帧为依据，按照一定规则从待检测视频中选取的视频帧，一定规则可以是参考帧与当前帧相差的帧差值在预设范围内，也可以是与当前帧相差的播放时间差在预设范围内等。

步骤102，根据所述第一帧信息和所述第二帧信息，确定对应的时域信息。

本发明可选的是，可以通过获取第一帧信息和第二帧信息的帧间信息，利用该帧间信息确定对应的时域信息。例如，可以通过第一帧信息和第二帧信息中的特征值确定时域信息。

在本申请的一实施例中，可以将所述第一帧信息与所述第二帧信息中特征值之差的绝对值，确定为所述时域信息。

特征值指亮度或灰度，在参考帧为一张视频帧的情况下，将该参考帧的灰度与当前帧的灰度作差，或者将该参考帧的亮度与当前帧的亮度作差，以获得时域信息。

在参考帧包括多张视频帧的情况下，依次将多张参考帧中每一张参考帧的灰度与当前帧的灰度作差，或者依次将多张参考帧中每一张参考帧的亮度与当前帧的亮度作差，以获得时域信息。

应理解，视频帧由多个像素点组成，上述作差指当前帧和参考帧对应位置上的像素点的灰度/亮度作差。对于视频中的运动的目标对象而言，运动的目标对象所在区域的灰度/亮度会发生变化，当前帧与参考帧的帧信息作差的绝对值不为0；对于视频中的静止的目标对象而言，静止的目标对象所在区域的灰度/亮度不会发生变化，当前帧与参考帧的帧信息作差的绝对值为0。因此，通过将所述第一帧信息与所述第二帧信息中特征值之差的绝对值，确定为时域信息，可以通过时域信息确定运动的目标对象的所在区域，从而提高了目标检测的准确率。

在本申请的另一实施例中，可以采用背景建模算法获取帧间信息，从而得到对应的时域信息，也即可以将所述第一帧信息与所述第二帧信息输入到背景建模模型，获得所述时域信息。

具体实现时，背景建模模型可以为邻近算法(K-Nearest，KNN)、或高斯混合模型(Mixture of Gaussians，MOG2)、或目标跟踪(Geometric Multigid，GMG)。将第二帧信息输入具有初始背景信息的初始背景建模模型，以根据初始背景信息和第二帧信息，建立背景信息，并获得具有背景信息的背景建模模型；再将第一帧信息输入背景建模模型，背景建模模型将当前帧的第一帧信息与背景信息进行比较，获得时域信息。第二帧信息可以为待检测视频中当前帧之前的所有视频帧的帧信息，也可以为待检测视频中当前帧之前的部分视频帧的帧信息。

步骤103，将所述第一帧信息和所述时域信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果。

目标检测结果包括但不限于：目标对象在所述待测视频的位置、所述目标对象的类别、与所述目标对象的类别对应的置信度中的至少一项。

目标检测模型可以通过如下过程获得：

获取初始检测模型；

以预先设置的样本结果和样本数据训练所述初始检测模型，获得所述目标检测模型。样本数据包括样本视频的当前帧的帧信息和时域信息，样本结果为与样本视频对应的目标检测结果。

将第一帧信息和时域信息输入目标检测模块，从而获得运动中的目标对象或者静止的目标对象的目标检测结果。

根据可用资源量，确定所述参考帧；

和/或，

根据预先设置的目标检测的刷新周期，确定所述参考帧。

应理解，可用资源量为执行本申请提供的方法的设备的可用资源量，如执行本申请提供的方法的设备剩余可用的计算资源，和/或剩余可用的存储资源。

在一个可行的实施例中，根据可用资源量和/或根据预先设置的目标检测的刷新周期，确定所述参考帧包括：根据可用资源量和/或根据预先设置的目标检测的刷新周期，确定所述参考帧的获取方式；根据所述获取方式，获取所述参考帧。其中，所述参考帧的获取方式包括：帧间差固定方式、帧固定的方式。具体的，对于刷新周期要求不高，和/或可用资源不足的场景，采用帧固定的方式确定参考帧；对于刷新周期高，和/或可用资源充足的场景，采用帧间差固定方式确定参考帧，以下详述。

具体实现时，在可用资源量较多时，可选择对资源量要求高的参考帧获取方式确定参考帧，从而获得准确率更高的目标检测结果。

在可用资源量较少时，可选择对资源量要求低的参考帧获取方式确定参考帧，以避免造成资源量紧张。

在本发明中，若对可用资源量的要求大于标准资源量，则认为对资源量要求高；若对可用资源量的要求小于或等于标准资源量，则认为对可用资源量要求低。

若可用资源量大于标准资源量，则认为可用资源量较多；若可用资源量小于或等于标准资源量，则认为可用资源量较少。

标准资源量可根据实际情况确定，如标准资源量为执行本申请提供的方法的设备的总资源量的80％。

同理，在刷新周期较高时，可选择对刷新周期要求高的参考帧获取方式确定参考帧，从而获得准确率更高的目标检测结果。

在刷新周期较低时，可选择对刷新周期要求低的参考帧获取方式确定参考帧，以避免因刷新周期无法满足要求而造成目标检测结果不准确。

在本发明中，若对刷新周期的要求大于标准刷新周期，则认为对刷新周期要求高；若对刷新周期的要求小于或等于标准刷新周期，则认为对刷新周期要求低。

若执行本申请提供的方法的设备支持的预先设置的刷新周期小于或等于标准刷新周期，则认为刷新周期较高；若执行本申请提供的方法的设备支持的预先设置的刷新周期大于标准刷新周期，则认为刷新周期较低。

若当前帧每更新Q次后更新参考帧，则刷新周期为Q，Q为正整数。标准刷新周期可根据实际情况确定，如标准参考周期为10，或1。

本申请实施例中，通过根据可用资源量，和/或预先设置的目标检测的刷新周期，确定参考帧，可以结合实际情况选取有利于获得更准确的目标检测结果的方式确定参考帧，从而提高了目标检测的准确率。

在本申请的一实施例中，所述根据可用资源量，确定所述参考帧，包括：

在所述可用资源量大于第一预设值的情况下，将所述待检测视频中与所述当前帧相差第一帧差值的视频帧确定为所述参考帧，此方式为帧间差固定的方式；

或者，在所述可用资源量小于或等于第一预设值的情况下，将预先设置的第一目标帧确定为所述参考帧，此方式为帧固定的方式。

应理解，当前帧会随着检测的进行而更新，即在目标检测的过程中，待检测视频中的每一帧可按顺序轮流作当前帧。帧间差固定的方式指当前帧更新时，固定将与当前帧相差第一帧差值的视频帧作为参考帧，如固定地将与当前帧相差10帧的视频帧作为参考帧。这样，在当前帧更新时，参考帧也一并更新。这种方式需更高的可用资源量，刷新周期也较高。

帧固定的方式指当前帧更新时，若第一目标帧与当前帧之间的帧差在可允许的预设范围内，可不更新参考帧。如选定当前帧的前10帧中任一视频帧作为第一目标帧，在当前帧更新时，只要第一目标帧距离当前帧的帧差为10以内的，参考帧仍为第一目标帧；在第一目标帧距离当前帧的帧差大于10的时候，才更新参考帧。这种方式需要的可用资源量较少，刷新周期也较低。

在本申请的另一实施例中，所述根据预先设置的目标检测的刷新周期，确定所述参考帧，包括：

在所述刷新周期大于第二预设值的情况下，将所述待检测视频中与所述当前帧相差第二帧差值的视频帧确定为所述参考帧，此方式为帧间差固定的方式；

在所述刷新周期小于或等于第二预设值的情况下，将预先设置的第二目标帧确定为所述参考帧，此方式为帧固定的方式。

在该实施例中，帧间差固定和帧固定的方式与上一实施例中的相同，在此不再赘述。

应理解，目标对象运动速度越快，在一段待检测视频中捕捉到其运动的视频帧的帧数可能越少。因此，为进一步提高目标检测的准确率，可选地，所述获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息之前，所述方法还包括：

根据所述帧差等级，确定所述参考帧。

具体实现时，可以根据历史经验值划分多个运动速度范围与帧差等级的对应关系，如目标对象的运动速度位于1m/s至5m/s时，确定帧差等级为第一等级，即参考帧与当前帧的帧差值不大于10；目标对象的运动速度位于5m/s至15m/s时，确定帧差等级为第二等级，即参考帧与当前帧的帧差值不大于3。

本申请实施例中，通过根据待检测视频中的目标对象的运动速度，确定帧差等级，再根据帧差等级，确定参考帧，可以根据目标对象的实际运动速度，确定更加合理的参考帧，从而提高目标检测的准确率。

可选地，所述时域信息包括：

参见图2，所述将所述第一帧信息和所述时域信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果，包括：

具体实现时，可选取与当前帧相差2帧的视频帧作为第一参考帧，与当前帧相差10帧的视频帧作为第二参考帧，从而分别获得当前帧的远端帧即第二参考帧，和当前帧的近端帧即第一参考帧。这样，可通过近端帧与当前帧之间的时域信息捕获运动目标，远端帧与当前帧的时域信息补充补获缓慢运动目标，提高目标检测的准确率。

进一步地，结合当前帧的第一帧信息如当前帧的亮度信息提供的目标对象的特征细节，可进一步提高目标检测的准确率。

此外，本申请实施例中，可将现有技术方案中的RGB三色空间信息输入通道，改造为本申请中的输入通道，即将任意两个输入通道用于输入表征时域信息即第一帧间信息和第二帧间信息的输入通道，将另一输入通道用于输入第一帧信息即空间信息的输入通道。然后利用该时空结合的三输入通道对输入的信息进行处理，得到时空联合的图像，从而利用该预先训练好的目标检测模型对该时空联合图像进行目标检测，获得目标检测结果。这样，通过改造的时空结合输入通道，在不增加输入通道数量的情况下，引入时域信息，在不增加样本数据准备工作量，以及训练模型配置资源和工作量的情况下，在对运动目标进行检测场景中引入时域信息，提高了目标检测的准确率和目标检测模型的泛化能力。

参见图3，本申请实施例还提供一种目标检测装置300，包括：

第一获取模块301，用于获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息，所述参考帧为所述待检测视频中除所述当前帧之外的任一与所述当前帧相关的视频帧；

第一确定模块302，用于根据所述第一帧信息和所述第二帧信息，确定对应的时域信息；

第二获取模块303，用于将所述第一帧信息和所述时域信息分别通过不同的输入通道输入目标检测模型，获得所述待检测视频的目标检测结果。

可选地，所述第一获取模块301之前，所述装置300还包括：

第二确定模块，用于根据可用资源量，确定所述参考帧；

和/或，

可选地，所述第二确定模块，包括：

可选地，所述第三确定模块，包括：

可选地，所述第一获取模块301之前，所述装置300还包括：

第五确定模块，用于根据所述帧差等级，确定所述参考帧。

可选地，所述第一确定模块302，包括：

或者，

可选地，所述时域信息包括：

本申请实施例提供的目标检测装置300能够实现本申请目标检测方法实施例中能够实现的各个过程，以及达到相同的有益效果，为避免重复，在此不再赘述。

本申请实施例提供一种电子设备。如图4所示，电子设备400包括：处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序，电子设备400中的各个组件通过总线系统403耦合在一起。可理解，总线系统403用于实现这些组件之间的连接通信。

其中，处理器401，用于：

可选地，处理器401还用于：

根据可用资源量，确定所述参考帧；

和/或，

根据预先设置的目标检测的刷新周期，确定所述参考帧。

可选地，处理器401还用于：

根据所述帧差等级，确定所述参考帧。

可选地，处理器401还用于：

或者，

可选地，所述时域信息包括：

本申请实施例提供的电子设备400能够实现本申请目标检测方法实施例中能够实现的各个过程，以及达到相同的有益效果，为避免重复，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述目标检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息之前，所述方法还包括：

根据可用资源量，确定所述参考帧；

和/或，

根据预先设置的目标检测的刷新周期，确定所述参考帧。

3.根据权利要求2所述的方法，其特征在于，所述根据可用资源量，确定所述参考帧，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据预先设置的目标检测的刷新周期，确定所述参考帧，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待检测视频的当前帧的第一帧信息，以及参考帧的第二帧信息之前，所述方法还包括：

根据所述帧差等级，确定所述参考帧。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述第一帧信息和所述第二帧信息，确定对应的时域信息，包括：

或者，

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述时域信息包括：

8.一种目标检测装置，其特征在于，包括：

第一确定模块，用于根据所述第一帧信息和所述第二帧信息，确定对应的时域信息；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的目标检测方法中的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的目标检测方法中的步骤。