CN106897742B

CN106897742B - 用于检测视频中物体的方法、装置和电子设备

Info

Publication number: CN106897742B
Application number: CN201710093583.0A
Authority: CN
Inventors: 康恺; 李鸿升; 肖桐; 欧阳万里; 闫俊杰; 刘希慧; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2020-10-27
Anticipated expiration: 2037-02-21
Also published as: CN106897742A; WO2018153323A1

Abstract

本申请公开了用于检测视频中物体的方法、装置和电子设备。上述方法的一具体实施方式包括：确定待检测的视频中至少一图像帧为检测图像帧；获取检测图像帧所包含的至少一目标物体对应的第一位置区域；分别提取各检测图像帧中各第一位置区域的第一特征和视频中相对各检测图像帧时序连续的至少一在后图像帧在各第一位置区域的第二特征；根据提取的各第一特征和各第二特征，预测各目标物体分别在各至少一在后图像帧中的运动信息；至少根据各目标物体在各检测图像帧中的第一位置区域及各目标物体在各至少一在后图像帧中的运动信息的预测结果，确定各目标物体在各至少一在后图像帧中的位置区域。该实施方式有效地提高了计算效率。

Description

用于检测视频中物体的方法、装置和电子设备

技术领域

本申请涉及物体检测领域，具体涉及视频中物体检测领域，尤其涉及一种用于检测视频中物体的方法、装置和电子设备。

背景技术

对视频中物体的检测技术是对静态图像中物体检测技术在视频领域的扩展，该技术需要在视频的每一帧图像中检测一个或多个相同或不同的物体。

由于视频中的目标物体的运动状态不确定，所以传统的检测图像中的目标物体的技术在视频领域有所限制。

发明内容

本申请提出了一种用于检测视频中物体的技术方案。

第一方面，本申请提供了一种用于检测视频中物体的方法，上述方法包括：确定待检测的视频中至少一图像帧为检测图像帧；获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域；分别提取各上述检测图像帧中各上述第一位置区域的第一特征和上述视频中相对各上述检测图像帧时序连续的至少一在后图像帧在各上述第一位置区域的第二特征；根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息；至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

在一些实施例中，上述确定待检测的视频中至少一图像帧为检测图像帧，包括：将上述待检测的视频的第一图像帧作为上述检测图像帧。

在一些实施例中，上述确定待检测的视频中至少一图像帧为检测图像帧，包括：将上述待检测的视频的任一关键帧作为上述检测图像帧。

在一些实施例中，上述确定待检测的视频中至少一图像帧为检测图像帧，包括：将上述待检测的视频中至少一已知各上述目标物体的位置区域的图像帧作为上述检测图像帧。

在一些实施例中，上述待检测的视频包括多个时序连续的视频子段，至少两个时序相邻的视频子段包括至少一共同图像帧；以及上述确定待检测的视频中至少一图像帧为检测图像帧，包括：将上述至少一共同图像帧作为上述检测图像帧。

在一些实施例中，每一上述视频子段中包括m个时序连续的图像帧；以及上述确定待检测的视频中至少一图像帧为检测图像帧，包括：将时序在前的m-1个图像帧作为上述检测图像帧。

在一些实施例中，上述获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：在上述检测图像帧中标注各上述目标物体对应的第一位置区域。

在一些实施例中，上述获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：根据上述检测图像帧中已知的各上述目标物体的位置区域确定上述第一位置区域。

在一些实施例中，上述获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：根据任两个时序相邻的视频子段中时序在前的视频子段中上述至少一共同图像帧中各上述目标物体的位置区域，确定时序在后的视频子段中上述检测图像帧的第一位置区域。

在一些实施例中，上述获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：根据各上述目标物体在上述检测图像帧中的位置的外接矩形区域或外接轮廓区域，确定上述第一位置区域。

在一些实施例中，上述根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息，包括：根据各上述目标物体在任一上述检测图像帧中的各第一特征及各上述目标物体在任一在后图像帧中的各第二特征，预测各上述目标物体在上述任一在后图像帧中的运动信息。

在一些实施例中，上述根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息，包括：对于每个视频子段，根据时序在前的m-1个图像帧的各第一特征、与上述各第一特征对应的第一预设权重以及时序在后的第m个图像帧的第二特征、与上述第二特征对应的第二预设权重，预测各上述目标物体在上述时序在后的第m个图像帧中的运动信息，m为整数，且m＞1。

在一些实施例中，上述根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息，包括：根据提取的各上述第一特征和上述第二特征，利用预先训练的第一神经网络预测各上述目标物体在上述时序在后的第m个图像帧中的运动信息，其中，上述预先训练的第一神经网络的权重矩阵包括上述第一预设权重以及上述第二预设权重。

在一些实施例中，响应于m大于2，上述预先训练的第一神经网络通过以下训练步骤得到：将预先训练的第二神经网络的权重矩阵分为第三权重和第四权重；将上述第三权重确定为上述m个图像帧中的第1个图像帧的特征的上述第一预设权重的初始值；将上述第四权重分别确定为第t个图像帧的特征的上述第二预设权重的初始值，其中，2≤t≤m，且t为正整数；上述预先训练的第二神经网络通过以下训练步骤得到：分别提取已标注的训练用视频中时序相邻的两个样本图像帧中上述目标物体的特征；根据提取的特征预测上述目标物体在时序在后的样本图像帧中的运动信息；根据上述运动信息的预测结果和上述训练用视频的标注信息，调整第二神经网络的权重矩阵，直至满足上述第二神经网络预定的训练完成条件。

在一些实施例中，上述根据各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息，包括：根据各上述第一特征和各上述第二特征，确定各上述在后图像帧在各上述第一位置区域中的各目标物体相对上述检测图像帧在上述第一位置区域中的目标物体的相对变化信息；至少根据各上述目标物体的相对变化信息，预测各上述目标物体在各上述在后图像帧中的运动信息。

在一些实施例中，上述相对位置变化信息包括：上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量。

在一些实施例中，上述相对位置变化信息包括：上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量、上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量。

在一些实施例中，上述根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域，包括：根据上述第一位置区域、上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量和上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

在一些实施例中，上述至少根据各上述目标物体的相对变化信息，预测各上述目标物体在各上述在后图像帧中的运动信息，包括：根据上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量，和上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量，预测预测各上述目标物体在各上述在后图像帧中的运动信息；其中，各上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各上述目标物体的第一特征在水平方向的移动量确定；上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量根据各上述在后图像帧中各目标物体的第二特征较与其对应的各上述目标物体的第一特征在竖直方向的移动量确定。

在一些实施例中，上述至少根据各上述目标物体的相对变化信息，预测各上述目标物体在各上述在后图像帧中的运动信息，包括：根据上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量和上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量，预测各上述目标物体在各上述在后图像帧中的运动信息；其中，上述在后图像帧中上述第一位置区域在水平方向上较上述检测图像帧中上述第一位置区域的变化量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各目标物体的第一特征在水平方向的变化量确定；上述在后图像帧中上述第一位置区域在竖直方向上较上述检测图像帧中上述第一位置区域的变化量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各目标物体的第一特征在竖直方向的变化量确定。

在一些实施例中，上述至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域，包括：将上述第一位置区域作为各上述目标物体在各上述在后图像帧中的第二位置区域；根据上述在后图像帧在上述第一位置区域中的各目标物体相对上述检测图像帧在上述第一位置区域中的目标物体的相对变化信息，更新上述第二位置区域，得到各上述目标物体在各上述在后图像帧中的位置区域。

在一些实施例中，上述方法还包括：响应于各上述目标物体在上述待检测的视频或上述视频子段中的各图像帧中的位置区域确定完成，提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征；根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

在一些实施例中，每个上述待检测的视频或每一上述视频子段包括n个时序连续的图像帧，n＞1，且n为整数；以及上述提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征，包括：按照时序顺序提取上述n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

在一些实施例中，上述根据提取的各第三特征，分别确定各图像帧中的目标物体的类别，包括：根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

在一些实施例中，上述根据提取的各第三特征和上述第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果，包括：按照时序倒序，对上述n个图像帧的第三特征的编码结果进行解码；对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至上述n个图像帧的第三特征解码完成。

第二方面，本申请提供了一种用于检测视频中物体的方法，上述方法包括：确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征；根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

在一些实施例中，每个上述待检测的视频包括n个时序连续的图像帧，n＞1，且n为整数；以及上述提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征，包括：按照时序顺序提取上述n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

第三方面，本申请提供了一种用于检测视频中物体的装置，上述装置包括：检测图像帧确定单元，用于确定待检测的视频中至少一图像帧为检测图像帧；第一位置区域确定单元，用于获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域；特征提取单元，用于分别提取各上述检测图像帧中各上述第一位置区域的第一特征和上述视频中相对各上述检测图像帧时序连续的至少一在后图像帧在各上述第一位置区域的第二特征；运动信息预测单元，用于根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息；位置区域确定单元，用于至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

在一些实施例中，上述检测图像帧确定单元进一步用于：将上述待检测的视频的第一图像帧作为上述检测图像帧。

在一些实施例中，上述检测图像帧确定单元进一步用于：将上述待检测的视频的任一关键帧作为上述检测图像帧。

在一些实施例中，上述待检测的视频包括多个时序连续的视频子段，至少两个时序相邻的视频子段包括至少一共同图像帧；以及上述检测图像帧确定单元进一步用于：将上述至少一共同图像帧作为上述检测图像帧。

在一些实施例中，每一上述视频子段中包括时序连续的m个图像帧；以及上述检测图像帧确定单元进一步用于：将时序在前的m-1个图像帧作为上述检测图像帧。

在一些实施例中，上述第一位置区域确定单元进一步用于：在上述检测图像帧中标注各上述目标物体对应的第一位置区域。

在一些实施例中，上述第一位置区域确定单元进一步用于：根据上述检测图像帧中已知的各上述目标物体的位置区域确定上述第一位置区域。

在一些实施例中，上述第一位置区域确定单元进一步用于：根据任两个时序相邻的视频子段中时序在前的视频子段中上述至少一共同图像帧中各上述目标物体的位置区域，确定时序在后的视频子段中上述检测图像帧的第一位置区域。

在一些实施例中，上述第一位置区域确定单元进一步用于：根据各上述目标物体在上述检测图像帧中的位置的外接矩形区域或外接轮廓区域，确定上述第一位置区域。

在一些实施例中，上述运动信息预测单元进一步用于：根据各上述目标物体在任一上述检测图像帧中的各第一特征及各上述目标物体在任一在后图像帧中的各第二特征，预测各上述目标物体在上述任一在后图像帧中的运动信息。

在一些实施例中，上述运动信息预测单元进一步用于：对于每个视频子段，根据时序在前的m-1个图像帧的各第一特征、与上述各第一特征对应的第一预设权重以及时序在后的第m个图像帧的第二特征、与上述第二特征对应的第二预设权重，预测各上述目标物体在上述时序在后的第m个图像帧中的运动信息，m为整数，且m＞1。

在一些实施例中，上述运动信息预测单元进一步用于：根据提取的各上述第一特征和各上述第二特征，利用预先训练的第一神经网络预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息，其中，上述预先训练的第一神经网络的权重矩阵包括上述第一预设权重以及上述第二预设权重。

在一些实施例中，响应于m大于2，上述预先训练的第一神经网络通过以下第一训练模块得到，上述第一训练模块用于：将预先训练的第二神经网络的权重矩阵分为第三权重和第四权重；将上述第三权重确定为上述m个图像帧中的第1个图像帧的特征上述第一预设权重的初始值；将第四权重分别确定为第t个图像帧的特征的上述第二预设权重的初始值，其中，2≤t≤m，且t为正整数；上述预先训练的第二神经网络通过第二训练模块得到，上述第二训练模块用于：分别提取已标注的训练用视频中时序相邻的两个样本图像帧中上述目标物体的特征；根据提取的特征预测上述目标物体在时序在后的样本图像帧中的运动信息；根据上述运动信息的预测结果和上述训练用视频的标注信息，调整第二神经网络的权重矩阵，直至满足上述第二神经网络预定的训练完成条件。

在一些实施例中，上述运动信息预测单元包括：相对变化信息确定模块，用于根据各上述第一特征和各上述第二特征，确定各上述在后图像帧在各上述第一位置区域中的各目标物体相对上述检测图像帧在上述第一位置区域中的目标物体的相对变化信息；预测模块，用于至少根据各上述目标物体的相对变化信息，预测各上述目标物体在各上述在后图像帧中的运动信息。

在一些实施例中，上述位置区域确定单元包括：

位置区域确定模块，用于根据上述第一位置区域、上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量和上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

在一些实施例中，上述预测模块进一步用于：根据上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量，和上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量，预测预测各上述目标物体在各上述在后图像帧中的运动信息；其中，各上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各上述目标物体的第一特征在水平方向的移动量确定；上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量根据各上述在后图像帧中各目标物体的第二特征较与其对应的各上述目标物体的第一特征在竖直方向的移动量确定。

在一些实施例中，上述预测模块进一步用于：根据上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量和上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量，预测各上述目标物体在各上述在后图像帧中的运动信息；其中，上述在后图像帧中上述第一位置区域在水平方向上较上述检测图像帧中上述第一位置区域的变化量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各目标物体的第一特征在水平方向的变化量确定；上述在后图像帧中上述第一位置区域在竖直方向上较上述检测图像帧中上述第一位置区域的变化量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各目标物体的第一特征在竖直方向的变化量确定。在一些实施例中，上述特征提取模块进一步用于：根据提取的特征，确定上述标注区域在上述待预测图像中的相对位置信息，上述相对位置信息包括：上述标注区域在水平方向的移动量、上述标注区域在竖直方向的移动量、上述标注区域在水平方向的宽度变化量、上述标注区域在竖直方向的高度变化量；根据上述相对位置信息，确定上述目标物体的运动趋势；根据上述运动趋势，预测上述目标物体在上述其它至少一帧图像中的位置。

在一些实施例中，上述位置区域确定单元用于：将上述第一位置区域作为各上述目标物体在各上述在后图像帧中的第二位置区域；根据上述在后图像帧在上述第一位置区域中的各目标物体相对上述检测图像帧在上述第一位置区域中的目标物体的相对变化信息，更新上述第二位置区域，得到各上述目标物体在各上述在后图像帧中的位置区域。

在一些实施例中，上述装置还包括：第三特征提取单元，用于响应于各上述目标物体在上述待检测的视频或上述视频子段中的各图像帧中的位置区域确定完成，提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征；类别确定单元，用于根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

在一些实施例中，每个上述待检测的视频或每一上述视频子段包括n个时序连续的图像帧，n＞1，且n为整数；以及上述第三特征提取单元进一步用于：按照时序顺序提取上述n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

在一些实施例中，上述类别确定单元包括：解码结果确定模块，用于根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；类别确定模块，用于根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

在一些实施例中，上述解码结果确定模块进一步用于：按照时序倒序，对上述n个图像帧的第三特征的编码结果进行解码；对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至上述n个图像帧的第三特征解码完成。

第四方面，本申请提供了一种用于检测视频中物体的装置，上述装置包括：第二位置区域确定单元，用于确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；第一特征提取单元，用于提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征；第一类别确定单元，用于根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

在一些实施例中，每个上述待检测的视频包括n个时序连续的图像帧，n＞1，且n为整数；以及上述第一特征提取单元进一步用于：按照时序顺序提取上述n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

在一些实施例中，上述第一类别确定单元包括：第一解码结果确定模块，用于根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；第一类别确定模块，用于根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

在一些实施例中，上述第一解码结果确定模块进一步用于：按照时序倒序，对上述n个图像帧的第三特征的编码结果进行解码；对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至上述n个图像帧的第三特征解码完成。

第五方面，本申请提供了一种电子设备，包括：存储器，存储可执行指令；一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：确定待检测的视频中至少一图像帧为检测图像帧；获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域；分别提取各上述检测图像帧中各上述第一位置区域的第一特征和上述视频中相对各上述检测图像帧时序连续的至少一在后图像帧在各上述第一位置区域的第二特征；根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息；至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

第六方面，本申请提供了一种电子设备，包括：存储器，存储可执行指令；一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征；根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

本申请提供的用于检测视频中物体的方法和装置，首先确定待检测的视频中的一个或多个图像帧为检测图像帧，然后获取检测图像帧中包含的各个目标物体对应的第一位置区域，再分别提取各个检测图像帧在上述第一位置区域的第一特征和与各检测图像帧时序连续的一个或多个在后图像帧在上述第一位置区域的第二特征，根据提取的各第一特征和各第二特征，预测上述各个目标物体在各在后图像帧中的运动信息，最后根据上述第一位置区域和预测结果，确定各个目标物体在各在后图像帧中的位置区域。这样，通过确定各个目标物体在待检测的视频中各个图像帧中的位置区域，就可以实现对视频中的目标物体的检测，有效地提高了计算效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的用于检测视频中物体的方法的一个实施例的流程图；

图1a是本申请的用于检测视频中物体的方法的检测结果与现有技术的检测结果的对比示意图；

图2是根据本申请的用于检测视频中物体的方法的另一个实施例的流程图；

图2a是图2所示实施例中利用四维权重矩阵初始化16维权重矩阵的示意图；

图2b是图2所示实施例中利用5帧预测模型构建20帧预测模型的示意图；

图3是根据本申请的用于检测视频中物体的方法的又一个实施例的流程图；

图4是根据本申请的用于检测视频中物体的方法的又一个实施例的流程图；

图4a是是图4所示流程对应的工作关系示意图；

图5是根据本申请的用于检测视频中物体的装置的一个实施例的结构示意图；

图6是根据本申请的用于检测视频中物体的装置的另一个实施例的结构示意图；

图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参考图1，示出了根据本申请的用于检测视频中的物体的方法的一个实施例的流程100。本实施例的用于检测视频中的物体的方法，包括以下步骤：

步骤101，确定待检测的视频中至少一图像帧为检测图像帧，获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域。

在本实施例中，待检测的视频中可以包括多个时序连续的图像帧，本实施例的方法运行于其上的电子设备(如终端或服务器)可以确定上述待检测的视频中的一个或多个图像帧为检测图像帧。上述检测图像帧为一个时，其可以包含多个目标物体，且上述多个目标物体可以为同一种类的目标物体，也可以为不同种类的目标物体。上述检测图像帧为多个时，各检测图像帧之间可以是时序连续的，也可以是时序离散的。并且，各检测图像帧所包含的目标物体的数量和/或种类可以相同，也可以不同。上述目标物体可以是预设的各种类别的物体，例如可以包括飞机、自行车、汽车等各种交通工具，还可以包括鸟类、狗、狮子等各种动物。

在确定了检测图像帧后，可以利用各种图像处理方法来获取各检测图像帧中包含的各目标物体对应的第一位置区域，例如可以利用静态区域提议方法对各检测图像帧进行检测。

步骤102，分别提取各检测图像帧中各第一位置区域的第一特征和上述视频中相对各检测图像帧时序连续的至少一在后图像帧在各第一位置区域的第二特征。

在确定了各检测图像帧后，需要同时确定与各检测图像帧时序连续的至少一在后图像帧。这样，如果各检测图像帧为时序连续的，其与至少一在后图像帧结合，仍然为时序连续的一组图像；如果各检测图像帧为时序离散的，每个检测图像帧后都存在至少一在后图像帧，则上述待检测的视频中包括多个离散的图像组合，每个图像组合包括至少两个图像帧。

由于在待检测的视频中，时序相邻的两图像帧间的时间间隔很小，则目标物体在此时序相邻的两图像帧中的位置区域也很近，从而能够更容易的在时序连续的多个图像帧中预测目标物体的位置区域，提高预测的准确性。而对于离散的多个检测图像帧，由于各检测图像帧之间的时间间隔较大，避免了时序连续的多个检测图像帧由于位置区域相近造成的检测资源浪费的现象，提高了有效检测率。

本实施例中，在确定了检测图像帧和至少一在后图像帧后，可以分别提取各检测图像帧在上述第一位置区域的第一特征和各在后图像帧在上述第一位置区域的第二特征。在提取上述第一特征和第二特征时，可以利用卷积神经网络的卷积层来实现。

步骤103，根据提取的各第一特征和各第二特征，预测各目标物体分别在各至少一在后图像帧中的运动信息。

在提取了检测图像帧的各第一特征和各在后图像帧的各第二特征后，可以利用提取的各第一特征和各第二特征来预测各目标物体分别在各至少一在后图像帧中的运动信息。上述运动信息可以包括但不限于以下至少之一：各目标物体的运动趋势、相对于检测图像帧移动的距离等信息。

步骤104，至少根据各目标物体在各检测图像帧中的第一位置区域及各目标物体在各至少一在后图像帧中的运动信息的预测结果，确定各目标物体在各至少一在后图像帧中的位置区域。

本实施例中，根据各目标物体在各检测图像帧中的第一位置区域以及其在各至少一在后图像帧中的运动信息的预测结果，可以确定各目标物体在各至少一在后图像帧中的位置区域。在确定了各目标物体在各检测图像帧和各在后图像帧中的位置区域后，可基于获取的位置区域进行进一步的应用，例如可以根据各位置区域实现对各目标物体的检测。

可以理解的是，在各目标物体在各图像帧中的位置区域确定完成后，时序连续的各图像帧的位置区域连通可以形成贯穿与整个待检测的视频或视频子段的管状区域，此管状区域中即包含了目标物体的运动位置的信息，还包含了目标物体在每个图像帧中运动的＝时间信息，即各图像帧中的运动信息具有时间相关性。

与传统的物体检测方法(如静态区域提议方法、以物体的准确位置为目标的回归方法)相比，本申请的上述实施例提供的用于检测视频中物体的方法，既能够保留目标物体的运动的时间相关性，又能保证视频中物体检测的多样性。具体参见图1a，图1a中示出了4行图像，其中(a)行为待检测的视频中的原始图像帧；(b)行为利用静态区域提议方法得到的检测结果，可以发现此方法中虽然检测结果具有多样性(标注框的位置和/或大小各不相同，不同位置和/或大小的标注框代表不同类别的检测到的可能目标物体)，但各图像帧的检测结果之间没有对应关系，不能反应目标物体运动的时间相关性；(c)行为利用以物体的准确位置为目标的回归方法得到的检测结果，可知所有的标注框都收敛到接近的位置，丧失了检测结果的多样性；(d)行为利用本申请的用于检测视频中物体的方法得到的检测结果，可知该检测结果中即保留了检测的多样性，又保留了时间相关性。

本申请的上述实施例提供的用于检测视频中物体的方法，首先确定待检测的视频中的一个或多个图像帧为检测图像帧，然后获取检测图像帧中包含的各个目标物体对应的第一位置区域，再分别提取各个检测图像帧在上述第一位置区域的第一特征和与各检测图像帧时序连续的一个或多个在后图像帧在上述第一位置区域的第二特征，根据提取的各第一特征和各第二特征，预测上述各个目标物体在各在后图像帧中的运动信息，最后根据上述第一位置区域和预测结果，确定各个目标物体在各在后图像帧中的位置区域。这样，通过预测各目标物体在各在后图像帧中的运动信息，并在上述运动信息预测完成后确定各个目标物体在待检测的视频中各个图像帧中的位置区域，就可以实现对视频中的目标物体的检测，在提高了计算效率的同时，保留了目标物体运动的时间信息，同时保证了检测结果的多样性。

在本实施例的一些可选的实现方式中，在上述步骤101中，可以通过以下方式来确定待检测的视频中至少一图像帧为检测图像帧：将待检测的视频的第一图像帧作为检测图像帧。

在本实现方式中，可以将待检测的视频中的第一个图像帧作为检测图像帧，这样可以依次对待检测的视频中的各图像帧中的目标物体进行检测，既可以保证检测的全面性，又不会降低检测的准确性。

在本实施例的一些可选的实现方式中，在上述步骤101中，还可以通过以下方式来确定待检测的视频中至少一图像帧为检测图像帧：将待检测的视频的任一关键帧作为检测图像帧。

本实现方式中，上述关键帧可以是某一类目标物体第一次出现的图像帧，可以是目标物体最完整的图像帧(此处的完整是指目标物体的整体全部出现在图像帧中)，也可以是出现目标物体数量最多的图像帧，还可以是出现目标物体种类最多的图像帧。可以理解的是，可以对待检测的视频中的各图像帧进行遍历，确定目标物体的数量和/或种类和/或完整性，才可以确定各图像帧中关键帧的位置和数量。

在本实施例的一些可选的实现方式中，在上述步骤101中，还可以通过以下方式来确定待检测的视频中至少一图像帧为检测图像帧：将待检测的视频中至少一已知各目标物体的位置区域的图像帧作为检测图像帧。

本实现方式中，如果待检测的视频中存在一个或多个图像帧，并且已知该一个或多个图像帧中各目标物体所在的位置区域，则将此一个或多个图像帧作为检测图像帧。这样，无需再对检测图像帧中的目标物体进行检测，可以进一步提高计算效率。

在本实施例的一些可选的实现方式中，可以将上述待检测的视频分为多个时序连续的视频子段，并且定义两个时序相邻的视频子段共有至少一个图像帧。则上述步骤101中，还可以通过以下方式来确定待检测的视频中至少一图像帧为检测图像帧：将上述共有的至少一个图像帧作为检测图像帧。

本实现方式中，对于两个时序相邻的视频子段，如果时序在前的视频子段中的各图像帧中的目标物体的位置区域都已确定，对于时序在后的视频子段来说，选择共有的图像帧作为检测图像帧，无需再对检测图像帧中的目标物体进行检测，可以进一步提高计算效率。

在本实施例的一些可选的实现方式中，可以定义每一上述视频子段包括m个图像帧，则上述步骤101中，还可以通过以下方式来确定待检测的视频中至少一图像帧为检测图像帧：将时序在前的m-1个图像帧作为检测图像帧。

本实现方式中，可以将每个视频子段的前m-1个图像帧作为检测图像帧，结合最后一个图像帧即第m个图像帧中的特征来预测第m个图像帧中目标物体的位置区域。这样，可以提高检测的准确性。

在本实施例的一些可选的实现方式中，上述步骤101中可以通过以下方式实现获取检测图像帧所包含的至少一目标物体对应的第一位置区域：在各检测图像帧中标注各目标物体对应的第一位置区域。

本实现方式中，在确定了各检测图像帧后，可以对上述检测图像帧中包含的目标物体进行标注，通过标注的区域来确定各目标物体的第一位置区域。

在本实施例的一些可选的实现方式中，上述步骤101中可以通过以下方式实现获取检测图像帧所包含的至少一目标物体对应的第一位置区域：根据检测图像帧中已知的各目标物体的位置区域确定第一位置区域。

本实现方式中，如果待检测的视频中存在一个或多个图像帧，并且已知该一个或多个图像帧中各目标物体所在的位置区域，则可以将已知的位置区域确定为第一位置区域。

在本实施例的一些可选的实现方式中，上述步骤101中可以通过以下方式实现获取检测图像帧所包含的至少一目标物体对应的第一位置区域：根据任两个时序相邻的视频子段中时序在前的视频子段中至少一共同图像帧中各目标物体的位置区域，确定时序在后的视频子段中检测图像帧的第一位置区域。

本实现方式中，如果时序在前的视频子段中的各图像帧中的目标物体的位置区域都已确定，对于时序在后的视频子段来说，选择共有的图像帧作为检测图像帧，无需再对检测图像帧中的目标物体进行检测，可以进一步提高计算效率。

在本实施例的一些可选的实现方式中，上述步骤101中可以通过以下方式实现获取检测图像帧所包含的至少一目标物体对应的第一位置区域：根据各目标物体在检测图像帧中的位置的外接矩形区域或外接轮廓区域，确定第一位置区域。

本实现方式中，在对检测图像帧中的目标物体进行标注时，可以采用但不限于目标物体所在位置的外接矩形或其它外接轮廓对目标物体进行标注，则此时可以确定上述外接矩形区域或外接轮廓区域为第一位置区域。在利用外接矩形对目标物体进行标注时，可以采用但不限于目标物体的最小外接矩形对目标物体进行标注。

继续参考图2，其示出了根据本申请的用于检测视频中物体的方法的另一个实施例的流程图200。如图2所示，本实施例的用于检测视频中物体的方法中在预测目标物体在各在后图像帧中的运动信息时，可以具体通过以下步骤来实现：

步骤201，提取每一视频子段中时序在前的m-1个图像帧在各第一位置区域的各第一特征和时序在后的第m个图像帧在各第一位置区域的第二特征。

本实施例中，定义每一视频子段中包括m个图像帧，并将时序在前的m-1个图像帧作为检测图像帧，将第m个图像帧作为在后图像帧。在提取特征时，分别提取时序在前的m-1个图像帧在各第一位置区域的各第一特征以及时序在后的第m个图像帧在各第一位置区域的第二特征。

步骤202，对于每个视频子段，根据提取的各第一特征、与各第一特征对应的第一预设权重以及提取的第二特征、与上述第二特征对应的第二预设权重，预测各目标物体在时序在后的第m个图像帧中的运动信息。

其中，m为大于1的整数。

在得到上述各第一特征和第二特征后，可基于第一预设权重对各第一特征进行加权处理，基于第二预设权重对各第二特征进行加权处理。

在本实施例的一些可选的实现方式中，在利用上述各第一特征和第二特征进行运动信息的预测时，可以利用预先训练的第一神经网络来预测，上述预先训练的第一神经网络的网络参数包括权重矩阵，该权重矩阵包括上述第一预设权重和第二预设权重。

在本实施例的一些可选的实现方式中，上述预先训练的第一神经网络由图2中未示出的以下训练步骤得到：

将预先训练的第二神经网络的权重矩阵分为第三权重和第四权重；将第三权重确定为m个图像帧中的第1个图像帧的特征的第一预设权重的初始值；将第四权重分别确定为第t个图像帧的特征的第二预设权重的初始值，其中，2≤t≤m，且m和t均为正整数。

当待检测的视频的时间窗包括多个图像帧或视频子段包括多个图像帧时，利用上述第三权重初始化时序连续的m个图像帧中的第一个图像帧的第一特征的权重，利用上述第四权重分别初始化时序连续的m个图像帧中的第2～第m个图像帧的第二特征的权重，即为上述第一预设权重和上述第二预设权重设置初始值，得到的初始第一神经网络的权重矩阵中包括上述第一预设权重的初始值和第二预设权重的初始值。通过训练上述初始第一神经网络，上述权重由初始值调整为第一预设权重和第二预设权重，同时得到带有新的(m-1)²维权重矩阵的第一神经网络，就可以同时预测第2～第m个图像帧中目标物体的运动信息，有效地提高了运算效率。

以待检测的视频子段分别包括2个图像帧和5个图像帧的情形为例，具体参见图2a和图2b，图2a中，用于检测包括2个图像帧的视频子段的第二神经网络(也可称为2帧预测模型)，如第二卷积神经网络的权重矩阵包括分别对应2个图像帧所提取特征的两个权重部分—权重A(对应上述第三权重)和权重B(对应上述第四权重)。第二神经网络可以结合时序在前的一帧图像的第一特征和时序在后的一帧图像的第二特征以及上述权重A和权重B，来预测时序在后的一帧图像中的目标物体的运动信息。为了提高运算效率，可以利用第二神经网络的权重矩阵包含的两个权重部分构建用于检测包括多个图像帧的视频子段的第一神经网络(如第一卷积神经网络)的权重矩阵，图2a中，右侧虚线框中为用于检测包括5个图像帧的视频子段的第一神经网络(也可称为5帧预测模型)，如第一卷积神经网络权重矩阵，则权重A为时序连续的5个图像帧中的第1个图像帧的特征的权重的初始值，权重B分别为时序连续的5帧图像帧中的第2个图像帧、第3个图像帧、第4个图像帧以及第5个图像帧的特征的权重的初始值。基于已标注的训练用视频训练第一神经网络，根据每次训练过程中的检测结果反复调整第一神经网络的权重矩阵，直至满足训练完成条件，训练完成的权重矩阵即包括上述第一预设权重和第二预设权重。带有上述权重矩阵的训练后的第一神经网络可以同时预测目标物体在第2个图像帧、第3个图像帧、第4个图像帧以及第5个图像帧中的位置区域。由此上述2帧预测模型可以结合第1个图像帧和第2个图像帧的特征，预测目标物体在第2个图像帧中的位置区域；上述5帧预测模型可以结合第1～第5个图像帧的特征，预测目标物体分别在第2～5个图像帧中的位置区域。该方案有利于提高神经网络模型的训练速度，提高运算效率。

为了进一步地提高运算效率，可以利用上述5帧预测模型构建长度更长的预测模型，以同时预测目标物体在更多个图像帧中的位置区域。如图2b所示，可以利用5个上述5帧预测模型构建20帧预测模型，由于每个5帧预测模型的最后一个图像帧用于作为下一个5帧预测模型的第1个图像帧，因此，5个上述5帧预测模型可以构建20帧预测模型，等等。

可以理解的是，上述过程是一个初始化的过程，实际在应用上述第一神经网络时，需要首先对第二神经网络进行训练，则预先训练的第二神经网络通过以下训练步骤得到：

分别提取已标注的训练用视频中时序相邻的两个样本图像帧中目标物体的特征；根据提取的特征预测目标物体在时序在后的样本图像帧中的运动信息；根据运动信息的预测结果和训练用视频的标注信息，调整第二神经网络的权重矩阵，直至满足第二神经网络预定的训练完成条件。

在训练上述第二神经网络时，需要先获取已标注的训练用视频，可以理解的是，上述训练用视频包括多个图像帧，每个图像帧中的目标物体均已被标注，这样每个图像帧可以作为样本图像帧。然后提取上述训练用视频中时序相邻的两个样本图像帧中目标物体的特征，根据提取的特征预测目标物体在时序在后的样本图像帧中的运动信息，可以理解的是，根据此处的运动信息就可以确定目标物体在时序在后的样本图像帧中的位置区域，将此位置区域与已标注的位置区域同时输入第二神经网络，并调整第二神经网络的参数，直到满足第二神经网络的训练完成条件。上述训练完成条件可以是任何可以停止第二神经网络训练的条件，例如上述条件可以是预测确定的位置区域与标注的位置区域之间的误差小于预设值等等。

本申请的上述实施例提供的用于检测视频中物体的方法，在提取各检测图像帧的第一特征以及在后图像帧的第二特征后，通过初始化并调整上述第一特征的权重和第二特征的权重，并结合上述调整后的权重，可以实现对上述在后图像帧中的目标物体的运动信息的更精准的预测。

继续参考图3，其示出了根据本申请的用于检测视频中物体的方法的又一个实施例的流程300。如图3所示，本实施例的用于检测视频中物体的方法中在预测目标物体在各在后图像帧中的运动信息时，可以具体通过以下步骤来实现：

步骤301，根据各第一特征和各第二特征，确定各在后图像帧在各第一位置区域中的各目标物体相对检测图像帧在第一位置区域中的目标物体的相对变化信息。

在提取了各第一特征和各第二特征后，可以利用预先训练的回归网络基于上述提取的特征，确定各在后图像帧在各第一位置区域中的各目标物体相对于检测图像帧在第一位置区域中的目标物体的相对位置信息。

在本实施例的一些可选的实现方式中，上述相对位置信息可以包括：在后图像帧中的第一位置区域中心点在水平方向上较检测图像帧中的第一位置区域中心点的移动量Δx、在后图像帧中的第一位置区域中心点在竖直方向上较检测图像帧中的第一位置区域中心点的移动量Δy。

当上述目标物体在检测图像帧中的第一位置区域和在在后图像帧中的第一位置区域为矩形、椭圆、圆形或其它规则的图形时，可以确定其中心点。对于同一目标物体，可以通过上述第一位置区域的中心点在水平方向上的移动量Δx确定该目标物体在水平方向上的移动距离。同理，可以通过上述第一位置区域的中心点在竖直方向上的移动量Δy确定该目标物体在竖直方向上的移动距离。

在本实施例的一些可选的实现方式中，上述相对位置信息还可以包括：在后图像帧中的第一位置区域在水平方向上较检测图像帧中的第一位置区域的变化量Δw、在后图像帧中的第一位置区域在竖直方向上较检测图像帧中的第一位置区域的变化量Δh。

本实现方式中，对于同一目标物体，可以通过确定上述第一位置区域在水平方向上的宽度变化量Δw确定该目标物体所在的位置区域在水平方向上的宽度。同理，可以通过确定上述第一位置区域在竖直方向上的高度变化量Δh确定该目标物体所在的位置区域在竖直方向上的高度。

在本实施例的一些可选的实现方式中，上述相对变化信息可以根据以下公式来确定：

Δx＝(x_t-x₁)/w₁；Δy＝(y_t-y₁)/h₁；Δw＝log(w_t/w₁)；Δh＝log(h_t/h₁)。

即根据第一位置区域的中心点在水平方向上的移动量Δx以及其在检测图像帧中沿水平方向的坐标x₁和宽度w₁，确定第一位置区域的中心点在在后图像帧中沿水平方向的坐标x_t；根据第一位置区域的中心点在竖直方向的移动量Δy以及其在检测图像帧中沿竖直方向的坐标y₁和高度h₁，确定第一位置区域的中心点在在后图像帧中沿竖直方向的坐标y_t；根据第一位置区域在水平方向的宽度变化量Δw以及其在检测图像帧中沿水平方向的宽度w₁，确定第一位置区域在在后图像帧中沿水平方向的宽度w_t；根据第一位置区域在竖直方向的高度变化量Δh以及其在检测图像帧中沿竖直方向的高度h₁，确定第一位置区域在在后图像帧中沿竖直方向的高度h_t。

步骤302，至少根据各目标物体的相对变化信息，预测各目标物体在各在后图像帧中的运动信息。

本实施例中，可以根据得到的上述相对变化信息，来预测各目标物体在各在后图像帧中的运动信息。

在本实施例的一些可选的实现方式中，可以根据第一位置区域的中心点在水平方向上的移动量Δx以及第一位置区域的中心点在竖直方向的移动量Δy，预测各目标物体在各在后图像帧中的运动信息。

在本实施例的一些可选的实现方式中，可以根据第一位置区域在水平方向的宽度变化量Δw以及第一位置区域在竖直方向的高度变化量Δh，预测各目标物体在各在后图像帧中的运动信息。

在本实施例的一些可选的实现方式中，在得到上述相对变化信息后，还可以通过以下方式来确定各目标物体在各至少一在后图像帧中的位置区域：将上述第一位置区域作为各目标物体在各在后图像帧中的第二位置区域，根据上述相对变化信息，更新上述第二位置区域，得到各目标物体在各至少一在后图像帧中的位置区域。

本实现方式中，在确定了第一位置区域在在后图像帧中沿水平方向的坐标x_t、在在后图像帧中沿竖直方向的坐标y_t、在在后图像帧中沿水平方向的宽度w_t以及在在后图像帧中沿竖直方向的高度h_t后，可以根据上述相对变化信息更新上述第二位置区域的位置，并将更新后的第二位置区域作为各目标物体在各至少一在后图像帧中的位置区域。

本申请的上述实施例提供的用于检测视频中物体的方法，通过确定各相对变化信息，能够准确的确定各目标物体在各至少一在后图像帧中的位置区域，保证了目标物体检测的准确性。

采用本申请实施例提供的任一种检测视频中物体的方法，获得视频包括的各图像帧的位置区域之后，可基于获得的各图像帧的位置区域进行分类、图像分割等任务的处理，具体实现手段本申请并不限制。下文将以分类任务为例进行说明。可以理解，本申请实施例中的分类任务可采用本申请实施例体用的任一种检测视频中物体的方法来确定待检测视频中目标物体在各图像帧中的位置信息，也可采用现有技术的其他方法来检测视频中目标物体在各图像帧中位置信息，本申请实施例对此并不限制。

参考图4，其示出了根据本申请的用于检测视频中物体的方法的又一个实施例的流程400。如图4所示，本实施例的用于检测视频中物体的方法包括以下步骤(以下步骤可以在图1所示的流程后执行，也可在采用与图1不同的方法获得视频中目标物体在各图像帧中的位置区域之后执行，本申请实施例并不限制)：

步骤401，提取各目标物体在待检测的视频或视频子段的各图像帧中的位置区域中的第三特征。

本步骤可在响应于对各目标物体在待检测的视频或视频子段中的各图像帧中的位置区域确定完成时执行，具体确定方法可采用本申请实施例提供的任一种检测方法进行，也可采用其他方法确定，如标注方式、逐图像帧静态检测方式等等，本申请实施例并不限制。

本实施例中，在各目标物体在各图像帧中的位置区域确定完成后，时序连续的各图像帧的位置区域连通可以形成贯穿与整个待检测的视频或视频子段的管状区域，然后可以提取上述位置区域的第三特征。可以理解的是，由于已经确定上述位置区域中包含目标物体，所以提取的第三特征为各目标物体的特征。

在本实施例的一些可选的实现方式中，设定每个待检测的视频或每个视频子段包括n个时序连续的图像帧，其中，n为大于1的整数。上述步骤401可以按照以下方式来实现：按照时序顺序提取n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

本实现方式中，按照从第1个图像帧到第n个图像帧的顺序，依次提取n个图像帧的第三特征，然后对于每个图像帧，都对该图像帧的第三特征和在该图像帧之前的各图像帧的第三特征进行编码，直到对第n个图像帧的第三特征编码完成。

在编码时，可以采用但不限于可编码的LSTM(Long short-term memory，长短期记忆)单元。其在编码时可以读入管状区域的特征，从而可以对管状区域的外观和管状区域所包含的目标物体的运动信息进行编码，从而可以得到每个图像帧的第三特征的编码信息。

步骤402，根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

根据提取的各目标物体的第三特征，可以确定各目标物体的类别。可以理解的是，不同图像帧中的目标物体的类别可以相同，也可以不相同。

在本实施例的一些可选的实现方式中，上述步骤402可以进一步通过图4中未示出的以下步骤来实现：根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

在提取了各图像帧的第三特征，并完成了对第n个图像帧的第三特征的编码后，对各图像帧的第三特征及上述第n个图像帧的编码结果进行解码，然后根据解码结果，确定各图像帧中的目标物体的类别。

在解码时，可以采用可解码的LSTM单元实现上述解码。

在本实施例的一些可选的实现方式中，在解码时可以根据图4中未示出的以下步骤实现对各图像帧的第三特征的解码：按照时序倒序，对n个图像帧的第三特征的编码结果进行解码；对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至n个图像帧的第三特征解码完成。

在解码时，按照从第n个图像帧到第1个图像帧的顺序，依次对各个图像帧的第三特征的编码结果进行解码。对于每个图像帧，根据该图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定该图像帧的解码结果，直到n个图像帧的第三特征的解码完成。可以理解的是，第n个图像帧的第三特征的编码结果即为待检测的视频或视频子段的管状区域的编码结果，在对每个图像帧的第三特征的编码结果进行解码时，结合管状区域的编码结果和该图像帧的第三特征对该图像帧进行解码，得到的解码结果保留了各图像帧中的目标物体之间的时间相关性。

本实施例的用于检测视频中物体的方法，可以采用图4a所示的结构来完成，图4a是图4所示流程对应的工作关系示意图。图4a中，首先在确定了各目标物体在第1个图像帧的第一位置区域后，形成多个管状区域，然后预测各目标物体在各图像帧中的位置区域，对上述形成的管状区域进行调整。在调整完成后，提取每个图像帧在上述管状区域的特征，得到每个图像帧的特征后，按照从第1个图像帧～最后一个图像帧的顺序依次对各图像帧中的特征进行编码，然后得到整个管状区域的编码结果。在编码时，可以采用可编码的LSTM。然后对得到的编码结果进行解码，具体的，在解码时，结合每个图像帧在管状区域的特征以及得到的管状区域的编码结果，按照从最后一个图像帧～第1个图像帧的顺序依次对各图像帧中的特征进行解码。在解码时，可以采用可解码的LSTM。在解码后，可以根据解码结果，对视频中各图像帧包含的目标物体进行分类。

本申请的上述实施例提供的用于检测视频中物体的方法，在确定了各目标物体在各图像帧中的位置区域后，可以编码各位置区域的第三特征，得到各目标物体在整个管状区域内的综合特征，再根据解码结果实现对各目标物体的分类时，综合考虑了各目标物体在整个管状区域内的全部特征，解码上述管状区域得到的编码结果可以采用从最后一个图像帧～第1个图像帧的顺序依次对各图像帧中的特征进行解码，也可以从采用第1个图像帧～最后一个图像帧的顺序依次对各图像帧中的特征进行解码，但采用从最后一个图像帧～第1个图像帧的顺序依次对各图像帧中的特征进行解码可以保证每个图像帧中各目标物体的检测类别都是根据各目标物体在整个管状区域内的全部特征确定的，提高对视频中物体分类的准确度。

继续参见图5，其示出了根据本申请的用于检测视频中物体的装置的结构示意图。如图5所示，本实施例的用于检测视频中物体的装置500包括：检测图像帧确定单元501、第一位置区域确定单元502、特征提取单元503、运动信息预测单元504以及位置区域确定单元505。

其中，检测图像帧确定单元501，用于确定待检测的视频中至少一图像帧为检测图像帧。

第一位置区域确定单元502，用于获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域。

特征提取单元503，用于分别提取各上述检测图像帧中各上述第一位置区域的第一特征和上述视频中相对各上述检测图像帧时序连续的至少一在后图像帧在各上述第一位置区域的第二特征。

运动信息预测单元504，用于根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息。

位置区域确定单元505，用于至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

本申请的上述实施例提供的用于检测视频中物体的装置，首先确定待检测的视频中的一个或多个图像帧为检测图像帧，然后获取检测图像帧中包含的各个目标物体对应的第一位置区域，再分别提取各个检测图像帧在上述第一位置区域的第一特征和与各检测图像帧时序连续的一个或多个在后图像帧在上述第一位置区域的第二特征，根据提取的各第一特征和各第二特征，预测上述各个目标物体在各在后图像帧中的运动信息，最后根据上述第一位置区域和预测结果，确定各个目标物体在各在后图像帧中的位置区域。这样，通过确定各个目标物体在待检测的视频中各个图像帧中的位置区域，就可以实现对视频中的目标物体的检测，有效地提高了计算效率。

在本实施例的一些可选的实现方式中，上述检测图像帧确定单元501进一步用于：将上述待检测的视频的第一图像帧作为上述检测图像帧。

在本实施例的一些可选的实现方式中，上述检测图像帧确定单元501进一步用于：将上述待检测的视频的任一关键帧作为上述检测图像帧。

在本实施例的一些可选的实现方式中，上述检测图像帧确定单元501进一步用于：将上述待检测的视频中至少一已知各上述目标物体的位置区域的图像帧作为上述检测图像帧。

在本实施例的一些可选的实现方式中，上述待检测的视频包括多个时序连续的视频子段，至少两个时序相邻的视频子段包括至少一共同图像帧。则上述检测图像帧确定单元501进一步用于：将上述至少一共同图像帧作为上述检测图像帧。

在本实施例的一些可选的实现方式中，每一上述视频子段中包括时序连续的m个图像帧。则上述检测图像帧确定单元501进一步用于：将时序在前的m-1个图像帧作为上述检测图像帧。

在本实施例的一些可选的实现方式中，上述第一位置区域确定单元502进一步用于：在上述检测图像帧中标注各上述目标物体对应的第一位置区域。

在本实施例的一些可选的实现方式中，上述第一位置区域确定单元502进一步用于：根据上述检测图像帧中已知的各上述目标物体的位置区域确定上述第一位置区域。

在本实施例的一些可选的实现方式中，上述第一位置区域确定单元502进一步用于：根据任两个时序相邻的视频子段中时序在前的视频子段中上述至少一共同图像帧中各上述目标物体的位置区域，确定时序在后的视频子段中上述检测图像帧的第一位置区域。

在本实施例的一些可选的实现方式中，上述第一位置区域确定单元502进一步用于：根据各上述目标物体在上述检测图像帧中的位置的外接矩形区域或外接轮廓区域，确定上述第一位置区域。

在本实施例的一些可选的实现方式中，上述运动信息预测单元504进一步用于：根据各上述目标物体在任一上述检测图像帧中的各第一特征及各上述目标物体在任一在后图像帧中的各第二特征，预测各上述目标物体在上述任一在后图像帧中的运动信息。

在本实施例的一些可选的实现方式中，上述运动信息预测单元504进一步用于：对于每个视频子段，根据时序在前的m-1个图像帧的各第一特征、与上述各第一特征对应的第一预设权重以及时序在后的第m个图像帧的第二特征、与上述第二特征对应的第二预设权重，预测各上述目标物体在上述时序在后的第m个图像帧中的运动信息，m为整数，且m＞1。

在本实施例的一些可选的实现方式中，上述运动信息预测单元504进一步用于：根据提取的各上述第一特征和各上述第二特征，利用预先训练的第一神经网络预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息，其中，上述预先训练的第一神经网络的权重矩阵包括上述第一预设权重以及上述第二预设权重。

在本实施例的一些可选的实现方式中，在m大于2时，上述预先训练的第一神经网络通过以下第一训练模块得到，上述第一训练模块用于：

将预先训练的第二神经网络的权重矩阵分为第三权重和第四权重；将上述第三权重确定为上述m个图像帧中的第1个图像帧的特征上述第一预设权重的初始值；将第四权重分别确定为第t个图像帧的特征的上述第二预设权重的初始值，其中，2≤t≤m，且t为正整数。

上述预先训练的第二神经网络通过第二训练模块得到，上述第二训练模块用于：

分别提取已标注的训练用视频中时序相邻的两个样本图像帧中上述目标物体的特征；根据提取的特征预测上述目标物体在时序在后的样本图像帧中的运动信息；根据上述运动信息的预测结果和上述训练用视频的标注信息，调整第二神经网络的权重矩阵，直至满足上述第二神经网络预定的训练完成条件。

在本实施例的一些可选的实现方式中，上述运动信息预测单元504进一步包括图5中未示出的相对变化信息确定模块和预测模块。

其中，相对变化信息确定模块，用于根据各上述第一特征和各上述第二特征，确定各上述在后图像帧在各上述第一位置区域中的各目标物体相对上述检测图像帧在上述第一位置区域中的目标物体的相对变化信息。

预测模块，用于至少根据各上述目标物体的相对变化信息，预测各上述目标物体在各上述在后图像帧中的运动信息。

在本实施例的一些可选的实现方式中，上述相对位置变化信息包括：上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量。

在本实施例的一些可选的实现方式中，上述相对位置变化信息包括：上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量、上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量。

在本实施例的一些可选的实现方式中，上述位置区域确定单元505可以进一步包括图5中未示出的位置区域确定模块，用于根据上述第一位置区域、上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量、上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量和上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。

在本实施例的一些可选的实现方式中，上述预测模块进一步用于：根据上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量，和上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量，预测预测各上述目标物体在各上述在后图像帧中的运动信息。

其中，各上述在后图像帧中的上述第一位置区域中心点在水平方向上较上述检测图像帧中的上述第一位置区域中心点的移动量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各上述目标物体的第一特征在水平方向的移动量确定。

上述在后图像帧中的上述第一位置区域中心点在竖直方向上较上述检测图像帧中的上述第一位置区域中心点的移动量根据各上述在后图像帧中各目标物体的第二特征较与其对应的各上述目标物体的第一特征在竖直方向的移动量确定。

在本实施例的一些可选的实现方式中，上述预测模块进一步用于：根据上述在后图像帧中的上述第一位置区域在水平方向上较上述检测图像帧中的上述第一位置区域的变化量和上述在后图像帧中的上述第一位置区域在竖直方向上较上述检测图像帧中的上述第一位置区域的变化量，预测各上述目标物体在各上述在后图像帧中的运动信息。

其中，上述在后图像帧中上述第一位置区域在水平方向上较上述检测图像帧中上述第一位置区域的变化量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各目标物体的第一特征在水平方向的变化量确定。

上述在后图像帧中上述第一位置区域在竖直方向上较上述检测图像帧中上述第一位置区域的变化量根据各上述在后图像帧中各上述目标物体的第二特征较与其对应的各目标物体的第一特征在竖直方向的变化量确定。

在本实施例的一些可选的实现方式中，上述位置区域确定单元505可以进一步用于：将上述第一位置区域作为各上述目标物体在各上述在后图像帧中的第二位置区域；根据上述在后图像帧在上述第一位置区域中的各目标物体相对上述检测图像帧在上述第一位置区域中的目标物体的相对变化信息，更新上述第二位置区域，得到各上述目标物体在各上述在后图像帧中的位置区域。

在本实施例的一些可选的实现方式中，上述用于检测视频中物体的装置500还可以包括图5中未示出的第三特征提取单元和类别确定单元。

第三特征提取单元，用于响应于各上述目标物体在上述待检测的视频或上述视频子段中的各图像帧中的位置区域确定完成，提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征。

类别确定单元，用于根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

在本实施例的一些可选的实现方式中，每个上述待检测的视频或每一上述视频子段包括n个时序连续的图像帧，n＞1，且n为整数。上述第三特征提取单元可以进一步用于：按照时序顺序提取上述n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

在本实施例的一些可选的实现方式中，上述类别确定单元可以进一步包括图5中未示出的解码结果确定模块和类别确定模块。

其中，解码结果确定模块，用于根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果。

类别确定模块，用于根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

在本实施例的一些可选的实现方式中，上述解码结果确定模块可以进一步用于：按照时序倒序，对上述n个图像帧的第三特征的编码结果进行解码；对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至上述n个图像帧的第三特征解码完成。

图6示出了根据本申请的用于检测视频中物体的装置的结构示意图。如图6所示，本实施例的用于检测视频中物体的装置600包括：第二位置区域确定单元601、第一特征提取单元602以及第一类别确定单元603。

其中，第二位置区域确定单元601，用于确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域。

第一特征提取单元602，用于提取各上述目标物体在上述待检测的视频或上述视频子段的各图像帧中的位置区域中的第三特征。

第一类别确定单元603，用于根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

本申请的上述实施例提供的用于检测视频中物体的装置，在确定了各目标物体在各图像帧中的位置区域后，可以根据各位置区域的第三特征实现对各目标物体的分类，扩展了对视频中物体检测的功能。

在本实施例的一些可选的实现方式中，每个上述待检测的视频包括n个时序连续的图像帧，n＞1，且n为整数。则上述第一特征提取单元602可以进一步用于：按照时序顺序提取上述n个图像帧的第三特征；对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

在本实施例的一些可选的实现方式中，上述第一类别确定单元603可以进一步包括图6中未示出的第一解码结果确定模块以及第一类别确定模块。

其中，第一解码结果确定模块，用于根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果。

第一类别确定模块，用于根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

在本实施例的一些可选的实现方式中，上述第一解码结果确定模块可以进一步用于：按照时序倒序，对上述n个图像帧的第三特征的编码结果进行解码；对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至上述n个图像帧的第三特征解码完成。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括检测图像帧确定单元、第一位置区域确定单元、特征提取单元、运动信息预测单元及位置区域确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，检测图像帧确定单元还可以被描述为“确定待检测的视频中至少一图像帧为检测图像帧的单元”。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备700的结构示意图：如图7所示，计算机系统700包括一个或多个处理器、通信部等，上述一个或多个处理器例如：一个或多个中央处理单元(CPU)701，和/或一个或多个图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可包括但不限于网卡，上述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与ROM 702和/或RAM 703通信以执行可执行指令，通过总线704与通信部712相连、并经通信部712与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，确定待检测的视频中至少一图像帧为检测图像帧；获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域；分别提取各上述检测图像帧中各上述第一位置区域的第一特征和上述视频中相对各上述检测图像帧时序连续的至少一在后图像帧在各上述第一位置区域的第二特征；根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息；至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。或完成本申请实施例提供的任一项方法对应的操作，例如，确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；提取各所述目标物体在所述待检测的视频或所述视频子段的各图像帧中的位置区域中的第三特征；根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

此外，在RAM 703中，还可存储有装置操作所需的各种程序和数据。CPU 701、ROM702以及RAM 703通过总线704彼此相连。在有RAM 703的情况下，ROM 702为可选模块。RAM703存储可执行指令，或在运行时向ROM 702中写入可执行指令，可执行指令使CPU 701执行上述通信方法对应的操作。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线704链接上。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU 713和CPU 701可分离设置或者可将GPU 713集成在CPU 701上，通信部可分离设置，也可集成设置在CPU 701或GPU 713上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，确定待检测的视频中至少一图像帧为检测图像帧；获取上述检测图像帧所包含的至少一目标物体对应的第一位置区域；分别提取各上述检测图像帧中各上述第一位置区域的第一特征和上述视频中相对各上述检测图像帧时序连续的至少一在后图像帧在各上述第一位置区域的第二特征；根据提取的各上述第一特征和各上述第二特征，预测各上述目标物体分别在各上述至少一在后图像帧中的运动信息；至少根据各上述目标物体在各上述检测图像帧中的上述第一位置区域及各上述目标物体在各上述至少一在后图像帧中的运动信息的预测结果，确定各上述目标物体在各上述至少一在后图像帧中的位置区域。或执行本申请实施例提供的方法步骤对应的指令，例如，确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；提取各所述目标物体在所述待检测的视频或所述视频子段的各图像帧中的位置区域中的第三特征；根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被CPU 701执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种用于检测视频中物体的方法，其特征在于，所述方法包括：

确定待检测的视频中至少两个图像帧为检测图像帧；

获取所述检测图像帧所包含的至少一目标物体对应的第一位置区域；

分别提取各所述检测图像帧中各所述第一位置区域的第一特征和所述视频中相对各所述检测图像帧时序连续的至少一在后图像帧在各所述第一位置区域的第二特征；

根据提取的各所述第一特征和各所述第二特征，预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息；

至少根据各所述目标物体在各所述检测图像帧中的所述第一位置区域及各所述目标物体在各所述至少一在后图像帧中的运动信息的预测结果，确定各所述目标物体在各所述至少一在后图像帧中的位置区域。

2.根据权利要求1所述的方法，其特征在于，所述确定待检测的视频中至少两个图像帧为检测图像帧，包括：

将所述待检测的视频的第一图像帧作为所述检测图像帧。

3.根据权利要求1所述的方法，其特征在于，所述确定待检测的视频中至少两个图像帧为检测图像帧，包括：

将所述待检测的视频的至少两个关键帧作为所述检测图像帧。

4.根据权利要求1所述的方法，其特征在于，所述确定待检测的视频中至少两个图像帧为检测图像帧，包括：

将所述待检测的视频中至少两个已知各所述目标物体的位置区域的图像帧作为所述检测图像帧。

5.根据权利要求1所述的方法，其特征在于，所述待检测的视频包括多个时序连续的视频子段，至少两个时序相邻的视频子段包括至少一共同图像帧；以及

所述确定待检测的视频中至少两个图像帧为检测图像帧，包括：

将每两个时序相邻的视频子段所包括的共同图像帧作为所述检测图像帧。

6.根据权利要求5所述的方法，其特征在于，每一所述视频子段中包括m个时序连续的图像帧，其中，m为整数，且m＞2；以及

将时序在前的m-1个图像帧作为所述检测图像帧。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：

在所述检测图像帧中标注各所述目标物体对应的第一位置区域。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：

根据所述检测图像帧中已知的各所述目标物体的位置区域确定所述第一位置区域。

9.根据权利要求5或6所述的方法，其特征在于，所述获取所述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：

根据任两个时序相邻的视频子段中时序在前的视频子段中所述至少一共同图像帧中各所述目标物体的位置区域，确定时序在后的视频子段中所述检测图像帧的第一位置区域。

10.根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述检测图像帧所包含的至少一目标物体对应的第一位置区域，包括：

根据各所述目标物体在所述检测图像帧中的位置的外接矩形区域或外接轮廓区域，确定所述第一位置区域。

11.根据权利要求1所述的方法，其特征在于，所述根据提取的各所述第一特征和各所述第二特征，预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息，包括：

根据各所述目标物体在任一所述检测图像帧中的各第一特征及各所述目标物体在任一在后图像帧中的各第二特征，预测各所述目标物体在所述任一在后图像帧中的运动信息。

12.根据权利要求6所述的方法，其特征在于，所述根据提取的各所述第一特征和各所述第二特征，预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息，包括：

对于每个视频子段，根据时序在前的m-1个图像帧的各第一特征、与所述各第一特征对应的第一预设权重以及时序在后的第m个图像帧的第二特征、与所述第二特征对应的第二预设权重，预测各所述目标物体在所述时序在后的第m个图像帧中的运动信息，m为整数，且m＞2。

13.根据权利要求12所述的方法，其特征在于，所述根据提取的各所述第一特征和各所述第二特征，预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息，包括：

根据提取的各所述第一特征和所述第二特征，利用预先训练的第一神经网络预测各所述目标物体在所述时序在后的第m个图像帧中的运动信息，其中，所述预先训练的第一神经网络的权重矩阵包括所述第一预设权重以及所述第二预设权重。

14.根据权利要求13所述的方法，其特征在于，响应于m大于2，所述预先训练的第一神经网络通过以下训练步骤得到：

将预先训练的第二神经网络的权重矩阵分为第三权重和第四权重；

将所述第三权重确定为所述m个图像帧中的第1个图像帧的特征的所述第一预设权重的初始值；

将所述第四权重分别确定为第t个图像帧的特征的所述第二预设权重的初始值，其中，2≤t≤m，且t为正整数；

所述预先训练的第二神经网络通过以下训练步骤得到：

分别提取已标注的训练用视频中时序相邻的两个样本图像帧中所述目标物体的特征；

根据提取的特征预测所述目标物体在时序在后的样本图像帧中的运动信息；

根据所述运动信息的预测结果和所述训练用视频的标注信息，调整第二神经网络的权重矩阵，直至满足所述第二神经网络预定的训练完成条件。

15.根据权利要求1所述的方法，其特征在于，所述根据各所述第一特征和各所述第二特征，预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息，包括：

根据各所述第一特征和各所述第二特征，确定各所述在后图像帧在各所述第一位置区域中的各目标物体相对所述检测图像帧在所述第一位置区域中的目标物体的相对位置变化信息；

至少根据各所述目标物体的相对位置变化信息，预测各所述目标物体在各所述在后图像帧中的运动信息。

16.根据权利要求15所述的方法，其特征在于，所述相对位置变化信息包括：所述在后图像帧中的所述第一位置区域中心点在水平方向上较所述检测图像帧中的所述第一位置区域中心点的移动量、所述在后图像帧中的所述第一位置区域中心点在竖直方向上较所述检测图像帧中的所述第一位置区域中心点的移动量。

17.根据权利要求15所述的方法，其特征在于，所述相对位置变化信息包括：所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量、所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量。

18.根据权利要求16所述的方法，其特征在于，所述相对位置变化信息还包括：所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量、所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量。

19.根据权利要求18所述的方法，其特征在于，所述根据各所述目标物体在各所述检测图像帧中的所述第一位置区域及各所述目标物体在各所述至少一在后图像帧中的运动信息的预测结果，确定各所述目标物体在各所述至少一在后图像帧中的位置区域，包括：

根据所述第一位置区域、所述在后图像帧中的所述第一位置区域中心点在水平方向上较所述检测图像帧中的所述第一位置区域中心点的移动量、所述在后图像帧中的所述第一位置区域中心点在竖直方向上较所述检测图像帧中的所述第一位置区域中心点的移动量、所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量和所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量，确定各所述目标物体在各所述至少一在后图像帧中的位置区域。

20.根据权利要求16所述的方法，其特征在于，所述至少根据各所述目标物体的相对变化信息，预测各所述目标物体在各所述在后图像帧中的运动信息，包括：

根据所述在后图像帧中的所述第一位置区域中心点在水平方向上较所述检测图像帧中的所述第一位置区域中心点的移动量，和所述在后图像帧中的所述第一位置区域中心点在竖直方向上较所述检测图像帧中的所述第一位置区域中心点的移动量，预测各所述目标物体在各所述在后图像帧中的运动信息；

其中，各所述在后图像帧中的所述第一位置区域中心点在水平方向上较所述检测图像帧中的所述第一位置区域中心点的移动量根据各所述在后图像帧中各所述目标物体的第二特征较与其对应的各所述目标物体的第一特征在水平方向的移动量确定；

所述在后图像帧中的所述第一位置区域中心点在竖直方向上较所述检测图像帧中的所述第一位置区域中心点的移动量根据各所述在后图像帧中各目标物体的第二特征较与其对应的各所述目标物体的第一特征在竖直方向的移动量确定。

21.根据权利要求17所述的方法，其特征在于，所述至少根据各所述目标物体的相对变化信息，预测各所述目标物体在各所述在后图像帧中的运动信息，包括：

根据所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量和所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量，预测各所述目标物体在各所述在后图像帧中的运动信息；

其中，所述在后图像帧中所述第一位置区域在水平方向上较所述检测图像帧中所述第一位置区域的变化量根据各所述在后图像帧中各所述目标物体的第二特征较与其对应的各目标物体的第一特征在水平方向的变化量确定；

所述在后图像帧中所述第一位置区域在竖直方向上较所述检测图像帧中所述第一位置区域的变化量根据各所述在后图像帧中各所述目标物体的第二特征较与其对应的各目标物体的第一特征在竖直方向的变化量确定。

22.根据权利要求15-21任一项所述的方法，其特征在于，所述至少根据各所述目标物体在各所述检测图像帧中的所述第一位置区域及各所述目标物体在各所述至少一在后图像帧中的运动信息的预测结果，确定各所述目标物体在各所述至少一在后图像帧中的位置区域，包括：

将所述第一位置区域作为各所述目标物体在各所述在后图像帧中的第二位置区域；

根据所述在后图像帧在所述第一位置区域中的各目标物体相对所述检测图像帧在所述第一位置区域中的目标物体的相对变化信息，更新所述第二位置区域，得到各所述目标物体在各所述在后图像帧中的位置区域。

23.根据权利要求5所述的方法，其特征在于，所述方法还包括：

响应于各所述目标物体在所述待检测的视频或所述视频子段中的各图像帧中的位置区域确定完成，提取各所述目标物体在所述待检测的视频或所述视频子段的各图像帧中的位置区域中的第三特征；

根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

24.根据权利要求23所述的方法，其特征在于，每个所述待检测的视频或每一所述视频子段包括n个时序连续的图像帧，n＞1，且n为整数；以及

所述提取各所述目标物体在所述待检测的视频或所述视频子段的各图像帧中的位置区域中的第三特征，包括：

按照时序顺序提取所述n个图像帧的第三特征；

对于第i个图像帧，对其第三特征和该图像帧之前的i-1个图像帧的第三特征进行编码，直至对第n个图像帧的第三特征编码完成，其中，1≤i≤n。

25.根据权利要求24所述的方法，其特征在于，所述根据提取的各第三特征，分别确定各图像帧中的目标物体的类别，包括：

根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；

根据各图像帧的第三特征的解码结果，分别确定各图像帧中的目标物体的类别。

26.根据权利要求25所述的方法，其特征在于，所述根据提取的各第三特征和所述第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果，包括：

按照时序倒序，对所述n个图像帧的第三特征的编码结果进行解码；

对于第j个图像帧，根据第j个图像帧的第三特征和第n个图像帧的第三特征的编码结果，确定第j个图像帧的第三特征的解码结果，直至所述n个图像帧的第三特征解码完成。

27.一种用于检测视频中物体的方法，其特征在于，所述方法包括：

确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；

提取各所述目标物体在所述待检测的视频或视频子段的各图像帧中的位置区域中的第三特征，具体包括：将时序连续的各图像帧的位置区域连通成贯穿于整个待检测的视频或视频子段的管状区域，提取所述位置区域的第三特征，所述第三特征包括各目标物体在整个管状区域的综合特征；

28.根据权利要求27所述的方法，其特征在于，每个所述待检测的视频包括n个时序连续的图像帧，n＞1，且n为整数；以及

按照时序顺序提取所述n个图像帧的第三特征；

29.根据权利要求28所述的方法，其特征在于，所述根据提取的各第三特征，分别确定各图像帧中的目标物体的类别，包括：

30.根据权利要求28或29所述的方法，其特征在于，所述根据提取的各第三特征和所述第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果，包括：

31.一种用于检测视频中物体的装置，其特征在于，所述装置包括：

检测图像帧确定单元，用于确定待检测的视频中至少两个图像帧为检测图像帧；

第一位置区域确定单元，用于获取所述检测图像帧所包含的至少一目标物体对应的第一位置区域；

特征提取单元，用于分别提取各所述检测图像帧中各所述第一位置区域的第一特征和所述视频中相对各所述检测图像帧时序连续的至少一在后图像帧在各所述第一位置区域的第二特征；

运动信息预测单元，用于根据提取的各所述第一特征和各所述第二特征，预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息；

位置区域确定单元，用于至少根据各所述目标物体在各所述检测图像帧中的所述第一位置区域及各所述目标物体在各所述至少一在后图像帧中的运动信息的预测结果，确定各所述目标物体在各所述至少一在后图像帧中的位置区域。

32.根据权利要求31所述的装置，其特征在于，所述检测图像帧确定单元进一步用于：

将所述待检测的视频的第一图像帧作为所述检测图像帧。

33.根据权利要求31所述的装置，其特征在于，所述检测图像帧确定单元进一步用于：

将所述待检测的视频中至少两个关键帧作为所述检测图像帧。

34.根据权利要求31所述的装置，其特征在于，所述检测图像帧确定单元进一步用于：

35.根据权利要求31所述的装置，其特征在于，所述待检测的视频包括多个时序连续的视频子段，至少两个时序相邻的视频子段包括至少一共同图像帧；以及

所述检测图像帧确定单元进一步用于：

36.根据权利要求35所述的装置，其特征在于，每一所述视频子段中包括时序连续的m个图像帧，其中，m为整数，且m＞2；以及

所述检测图像帧确定单元进一步用于：

将时序在前的m-1个图像帧作为所述检测图像帧。

37.根据权利要求31-36任一项所述的装置，其特征在于，所述第一位置区域确定单元进一步用于：

38.根据权利要求31-36任一项所述的装置，其特征在于，所述第一位置区域确定单元进一步用于：

39.根据权利要求35或36所述的装置，其特征在于，所述第一位置区域确定单元进一步用于：

40.根据权利要求31-36任一项所述的装置，其特征在于，所述第一位置区域确定单元进一步用于：

41.根据权利要求31所述的装置，其特征在于，所述运动信息预测单元进一步用于：

42.根据权利要求36所述的装置，其特征在于，所述运动信息预测单元进一步用于：

43.根据权利要求42所述的装置，其特征在于，所述运动信息预测单元进一步用于：根据提取的各所述第一特征和各所述第二特征，利用预先训练的第一神经网络预测各所述目标物体分别在各所述至少一在后图像帧中的运动信息，其中，所述预先训练的第一神经网络的权重矩阵包括所述第一预设权重以及所述第二预设权重。

44.根据权利要求43所述的装置，其特征在于，响应于m大于2，所述预先训练的第一神经网络通过以下第一训练模块得到，所述第一训练模块用于：

将所述第三权重确定为所述m个图像帧中的第1个图像帧的特征所述第一预设权重的初始值；

将第四权重分别确定为第t个图像帧的特征的所述第二预设权重的初始值，其中，2≤t≤m，且t为正整数；

所述预先训练的第二神经网络通过第二训练模块得到，所述第二训练模块用于：

45.根据权利要求31所述的装置，其特征在于，所述运动信息预测单元包括：

相对变化信息确定模块，用于根据各所述第一特征和各所述第二特征，确定各所述在后图像帧在各所述第一位置区域中的各目标物体相对所述检测图像帧在所述第一位置区域中的目标物体的相对位置变化信息；

预测模块，用于至少根据各所述目标物体的相对位置变化信息，预测各所述目标物体在各所述在后图像帧中的运动信息。

46.根据权利要求45所述的装置，其特征在于，所述相对位置变化信息包括：所述在后图像帧中的所述第一位置区域中心点在水平方向上较所述检测图像帧中的所述第一位置区域中心点的移动量、所述在后图像帧中的所述第一位置区域中心点在竖直方向上较所述检测图像帧中的所述第一位置区域中心点的移动量。

47.根据权利要求45所述的装置，其特征在于，所述相对位置变化信息包括：所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量、所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量。

48.根据权利要求46所述的装置，其特征在于，所述相对位置变化信息包括：所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量、所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量。

49.根据权利要求48所述的装置，其特征在于，所述位置区域确定单元包括：

位置区域确定模块，用于根据所述第一位置区域、所述在后图像帧中的所述第一位置区域中心点在水平方向上较所述检测图像帧中的所述第一位置区域中心点的移动量、所述在后图像帧中的所述第一位置区域中心点在竖直方向上较所述检测图像帧中的所述第一位置区域中心点的移动量、所述在后图像帧中的所述第一位置区域在水平方向上较所述检测图像帧中的所述第一位置区域的变化量和所述在后图像帧中的所述第一位置区域在竖直方向上较所述检测图像帧中的所述第一位置区域的变化量，确定各所述目标物体在各所述至少一在后图像帧中的位置区域。

50.根据权利要求46所述的装置，其特征在于，所述预测模块进一步用于：

51.根据权利要求47所述的装置，其特征在于，所述预测模块进一步用于：

52.根据权利要求45-51任一项所述的装置，其特征在于，所述位置区域确定单元用于：

53.根据权利要求35所述的装置，其特征在于，所述装置还包括：

第三特征提取单元，用于响应于各所述目标物体在所述待检测的视频或所述视频子段中的各图像帧中的位置区域确定完成，提取各所述目标物体在所述待检测的视频或所述视频子段的各图像帧中的位置区域中的第三特征；

54.根据权利要求53所述的装置，其特征在于，每个所述待检测的视频或每一所述视频子段包括n个时序连续的图像帧，n＞1，且n为整数；以及

所述第三特征提取单元进一步用于：

按照时序顺序提取所述n个图像帧的第三特征；

55.根据权利要求54所述的装置，其特征在于，所述类别确定单元包括：

解码结果确定模块，用于根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；

56.根据权利要求55所述的装置，其特征在于，所述解码结果确定模块进一步用于：

57.一种用于检测视频中物体的装置，其特征在于，所述装置包括：

第二位置区域确定单元，用于确定至少一目标物体在待检测的视频包括的各图像帧中的位置区域；

第一特征提取单元，用于提取各所述目标物体在所述待检测的视频或视频子段的各图像帧中的位置区域中的第三特征，具体包括：将时序连续的各图像帧的位置区域连通成贯穿于整个待检测的视频或视频子段的管状区域，提取所述位置区域的第三特征，所述第三特征包括各目标物体在整个管状区域的综合特征；

第一类别确定单元，用于根据提取的各第三特征，分别确定各图像帧中的目标物体的类别。

58.根据权利要求57所述的装置，其特征在于，每个所述待检测的视频包括n个时序连续的图像帧，n＞1，且n为整数；以及

所述第一特征提取单元进一步用于：

按照时序顺序提取所述n个图像帧的第三特征；

59.根据权利要求58所述的装置，其特征在于，所述第一类别确定单元包括：

第一解码结果确定模块，用于根据提取的各第三特征和第n个图像帧的第三特征的编码结果，确定各图像帧的第三特征的解码结果；

60.根据权利要求59所述的装置，其特征在于，所述第一解码结果确定模块进一步用于：

61.一种电子设备，其特征在于，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：

确定待检测的视频中至少两个图像帧为检测图像帧；

62.一种电子设备，其特征在于，包括：

存储器，存储可执行指令；