CN110246160B

CN110246160B - 视频目标的检测方法、装置、设备及介质

Info

Publication number: CN110246160B
Application number: CN201910539115.0A
Authority: CN
Inventors: 揭泽群; 李宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2022-12-06
Anticipated expiration: 2039-06-20
Also published as: CN110246160A

Abstract

本申请公开了一种视频目标的检测方法、装置、设备及介质。该方法包括：获取视频中的过去帧的特征表示和当前帧的特征表示；根据所述过去帧的特征表示和所述当前帧的特征表示，得到所述过去帧和所述当前帧之间的伪光流信息；根据所述伪光流信息将所述过去帧的特征映射到所述当前帧，得到特征融合后的当前帧；对所述特征融合后的当前帧进行视频目标检测，得到所述当前帧中的视频目标。本申请可以解决相关技术中直接将过去帧上的特征传递到当前帧，并没有考虑图像内的物体空间位置随时间的变化，因此会导致特征错配的现象，引起机器学习模型的性能变差的问题。

Description

视频目标的检测方法、装置、设备及介质

技术领域

本申请涉及人工智能领域，特别涉及视频目标的检测方法、装置、设备及介质。

背景技术

视频目标的检测任务是指对视频帧中的视频目标(比如运动目标)进行检测的任务。目前常采用机器学习模型来对视频目标进行检测。

相关技术中提供了一种视频目标的检测方法，采用循环神经网络(RecurrentNeural Network，RNN)将过去帧上的像素点值与当前帧上的像素点值进行点对点的加权相加，得到特征融合后的当前帧，对特征融合后的当前帧采用机器学习模型进行视频目标检测，从而确定出当前帧中的视频目标。

由于直接将过去帧上的特征传递到当前帧，并没有考虑图像内的物体空间位置随时间的变化，因此会导致特征错配的现象，引起机器学习模型的性能变差。

发明内容

本申请实施例提供了一种视频目标的检测方法、装置、设备及介质。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种视频目标的检测方法，所述方法包括：

获取视频中的过去帧的特征表示和当前帧的特征表示；

根据所述过去帧的特征表示和所述当前帧的特征表示，得到所述过去帧和所述当前帧之间的伪光流信息；

根据所述伪光流信息将所述过去帧的特征映射到所述当前帧，得到特征融合后的当前帧；

对所述特征融合后的当前帧进行视频目标检测，得到所述当前帧中的视频目标。

根据本申请实施例的另一个方面，提供了一种视频目标的检测装置，所述装置包括：

获取模块，用于获取视频中的过去帧的特征表示和当前帧的特征表示；

处理模块，用于根据所述过去帧的特征表示和所述当前帧的特征表示，得到所述过去帧和所述当前帧之间的伪光流信息；

映射模块，还用于根据所述伪光流信息将所述过去帧的特征映射到所述当前帧，得到特征融合后的当前帧；

检测模块，用于对所述特征融合后的当前帧进行视频目标检测，得到所述当前帧中的视频目标。

在一个可选的实施例中，所述伪光流提取子模块，用于通过卷积层对所述残差特征进行预测，得到所述过去帧和所述当前帧之间的伪光流信息；

其中，所述卷积层是通过所述视频目标的监督信息来训练得到的。

在一个可选的实施例中，所述获取模块，还用于采用n层卷积网络层提取所述过去帧的浅层特征表示，以及采用所述n层卷积网络层提取所述当前帧的浅层特征表示。

在一个可选的实施例中，所述过去帧和所述当前帧对应级联的卷积长短时记忆网络LSTM，每个LSTM用于处理所述视频中的一个视频帧；每个LSTM包括记忆单元和隐藏特征空间；

所述映射模块，用于将所述过去帧的记忆单元输出的第一记忆特征值，通过所述伪光流信息加权映射到所述当前帧的记忆单元的第二记忆特征值；将所述过去帧的隐藏特征空间输出的第一隐藏特征值，通过所述伪光流信息加权映射到所述当前帧的隐藏特征空间的第二隐藏特征值；根据所述第二记忆特征值、所述第二隐藏特征值和所述当前帧的特征表示，计算得到融合后的隐藏特征表示。

在一个可选的实施例中，所述检测模块，用于根据所述融合后的隐藏特征表示进行视频目标检测，得到所述当前帧中的视频目标。

根据本申请实施例的另一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述实施例提供的视频目标的检测方法。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如前述实施例提供的视频目标的检测方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取视频中的过去帧的特征表示和当前帧的特征表示，来计算得到过去帧和当前帧之间的伪光流信息，将过去帧的特征根据伪光流信息映射到当前帧，对特征融合后的当前帧进行视频目标检测。一方面，使得当前帧能够同时参考过去帧的特征作出更准确的检测；另一方面，采用伪光流信息来保证过去帧的特征准确地映射到当前帧，从而实现不同帧之间的物体特征在空间上的对齐，从而实现更为准确的视频目标检测，解决了没有考虑图像内的物体空间位置随时间的变化会导致特征错配的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的视频目标的检测方法的流程图；

图2是本申请一个示例性实施例提供的视频目标的检测方法的框图；

图3是本申请另一个示例性实施例提供的视频目标的检测方法的流程图；

图4是本申请另一个示例性实施例提供的残差伪光流的LSTM模块的框图；

图5是本申请另一个示例性实施例提供的视频目标的检测模型(基于SSD)的框图；

图6是本申请另一个示例性实施例提供的视频目标的检测装置的结构框图；

图7示出了本申请一个实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供了一种基于残差伪光流进行跨帧融合的视频目标检测技术，该技术利用卷积长短时记忆网络(Convolution Long Short-Term Memory，Conv LSTM)对视频的不同帧进行建模，使过去帧的特征作为Conv LSTM的记忆单元方便地传递到当前帧，让当前帧同时考虑过去帧的信息，从而做出更准确的预测。

由于直接将过去帧的特征传递到当前帧，会因为没有考虑相邻图像内的物体空间位置随时间的变化，会导致特征错配的现象。本申请实施例提出了一种残差伪光流的学习方法，学习连续两帧(过去帧和当前帧)的伪光流信息，再根据伪光流信息将过去帧的特征映射到当前帧的相应位置，从而实现不同帧之间的物体特征在空间上的对齐。

图1示出了一示例性实施例提供的视频目标的检测方法的方法流程图。该方法可以由计算机设备来执行。该视频目标的检测方法包括以下步骤：

步骤101，获取视频中的过去帧的特征表示和当前帧的特征表示

过去帧是当前帧之前的历史帧。过去帧可以为一帧，也可以为多帧。在本实施例中，以当前帧为第i帧，过去帧为第i-1帧来举例说明。

特征表示是视频帧中的特征的机器学习特征表示。特征表示可以用于表征视频帧中的景物，例如，可以用于表征视频帧中的人物、花草树木、建筑物等。

可选地，采用卷积神经网络提取过去帧的特征表示，以及当前帧的特征表示。

步骤102，根据过去帧的特征表示和当前帧的特征表示，得到过去帧和当前帧之间的伪光流信息。

伪光流信息是根据过去帧的特征表示和当前帧的特征表示之间的残差，所计算到的光流信息。伪光流信息用于表征相邻图像内的物体空间位置随时间的变化。

步骤103，根据伪光流信息将过去帧的特征映射到当前帧，得到特征融合后的当前帧。

步骤104，对特征融合后的当前帧进行视频目标检测，得到当前帧中的视频目标。

可选地，对特征融合后的当前帧采用SSD(Single Shot MultiBox Detector)模型对特征融合后的当前帧进行视频目标检测，得到当前帧中的视频目标。视频目标可以是当前帧中的运动目标。

综上所述，本申请实施例提供的方法，通过获取视频中的过去帧的特征表示和当前帧的特征表示，来计算得到过去帧和当前帧之间的伪光流信息，将过去帧的特征根据伪光流信息映射到当前帧，对特征融合后的当前帧进行视频目标检测。一方面，使得当前帧能够同时参考过去帧的特征作出更准确的检测；另一方面，采用伪光流信息来保证过去帧的特征准确地映射到当前帧，从而实现不同帧之间的物体特征在空间上的对齐，从而实现更为准确的视频目标检测，解决了没有考虑图像内的物体空间位置随时间的变化会导致特征错配的问题。

参考图2，视频包括有很多个视频帧，计算机设备获取过去帧(比如第i-1帧)的特征表示11和当前帧(第i帧)的特征表示12，根据过去帧的特征表示11和当前帧的特征表示12计算得到伪光流信息13，该伪光流信息13能够表征物体空间位置随时间的变化。将过去帧14的信息根据伪光流信息13来映射到当前帧15，得到特征融合后的当前帧16。对特征融合后的当前帧16进行视频目标检测18，得到当前帧15中的视频目标。

图3示出了另一示例性实施例提供的视频目标的检测方法的方法流程图。该方法可以由计算机设备来执行。该视频目标的检测方法包括以下步骤：

步骤201，采用n层卷积网络层提取过去帧的浅层特征表示，以及采用n层卷积网络层提取当前帧的浅层特征表示；

计算机设备采用n层卷积网络层提取当前帧中的特征表示。

其中，用于提取当前帧中的特征表示的n层卷积网络与用于提取过去帧中的特征表示的n层卷积网络是相同的。例如，采用第一层至第四层卷积神经网络层，提取过去帧中的特征表示以及当前帧中的特征表示。

由于浅层特征中保留了更多的细节内容，对底层细节特征更敏感，更适合用来提取物体运动信息。因此，本实施例中采用n层卷积网络提取视频帧的浅层特征表示，n小于阈值。比如，n为2、3或4。

步骤202，计算过去帧的特征表示和当前帧的特征表示之间的残差特征。

计算机设备通过连续两帧(过去帧和当前帧)的浅层特征学习得到伪光流信息，其作用类似于光流。伪光流信息可以用于表示上一帧每个像素点与下一帧相应的像素点移动后的像素点之间的位移。本实施例不需要真正的光流监督信息进行训练，而是嵌入整个视频目标检测网络中，由视频目标的监督信息驱动来学习。

计算机设备在获取到过去帧的浅层特征表示f_t-1和当前帧的浅层特征表示f_t后，将连续两帧的浅层特征表示f_t与f_t-1相减，得到残差特征r_t＝f_t-f_t-1。

步骤203，通过伪光流提取部对残差特征进行处理，得到过去帧和当前帧之间的伪光流信息。

可选地，伪光流提取部采用卷积层来实现，该卷积层可以是3*3卷积层。计算机设备将步骤202中得到的残差r_t输入该卷积层中，通过卷积层对残差特征进行预测，经过卷积层的计算得到伪光流信息F_pse。其中，卷积层是通过视频目标的监督信息来训练得到的。可选地，卷积层是嵌入在整个模型中，通过视频目标的监督信息来训练得到的，而非采用光流监督信息来训练得到的。

本实施例中，过去帧和当前帧对应级联的两个卷积长短时记忆网络。每个LSTM用于处理视频中的一个视频帧，比如，第一LSTM用于处理过去帧；第二LSTM用于处理当前帧。每个LSTM包括记忆单元和隐藏特征空间。

步骤204，将过去帧的记忆单元输出的第一记忆特征值，通过伪光流信息加权映射到当前帧的记忆单元的第二记忆特征值。

计算机设备在得到连续两帧的伪光流信息后，根据伪光流信息将过去帧的记忆单元输出的第一记忆特征值，映射到当前帧的记忆单元的第二记忆特征值。

设第t-1帧为过去帧，第t帧为当前帧，c_t-1为第t-1帧的第一记忆特征值，映射到第i帧后的记忆单元为

得到

的计算公式如下：

其中，p表示特征图上的某一个位置，Δp为伪光流在p位置的值。q代表对记忆特征值上所有空间位置的遍历。G为双线性插值函数。因此，该计算公式可理解为对映射前的第i-1帧的记忆单元所有位置的特征插值求和。

步骤205，将过去帧的隐藏特征空间输出的第一隐藏特征值，通过伪光流信息加权映射到当前帧的隐藏特征空间的第二隐藏特征值。

计算机设备在得到连续两帧的伪光流信息后，将过去帧的隐藏特征空间输出的第一隐藏特征值，通过伪光流信息加权映射到当前帧的隐藏特征空间的第二隐藏特征值。

除记忆单元外，过去帧的隐藏特征值也需要根据伪光流信息映射到当前帧的隐藏特征值。设h_t-1为第t-1帧(过去帧)的第一隐藏特征值，映射到当前帧后的第二隐藏特征值为

计算

的公式如下：

该公式与记忆单元映射公式类似。其中，p表示特征图上的某一个位置，Δp为伪光流在p位置的值。q代表对记忆特征值上所有空间位置的遍历。G为双线性插值函数。

在得到映射后的

和

后，当前帧(第t帧)的ConvLSTM运算如下：

h_t＝o_t⊙tanh(c_t)

其中，x为当前帧的特征表示，w_i,w_f,w_o分别为输入门、遗忘门和输出门的权重；b_i，b_f,b_o分别为输入门、遗忘门和输出门的偏置。h_t为当前帧的融合后的隐藏特征表示。

步骤206，根据第二记忆特征值、第二隐藏特征值和当前帧的特征表示，计算得到融合后的隐藏特征表示；

步骤207，根据融合后的隐藏特征表示进行视频目标检测，得到当前帧中的视频目标。

基于与SSD模型相同或相似的视频目标检测模型，对融合后的隐藏特征表示进行视频目标检测，得到当前帧中的视频目标。

综上所述，本实施例提供的方法，通过获取视频中的过去帧的特征表示和当前帧的特征表示，来计算得到过去帧和当前帧之间的伪光流信息，将过去帧的特征根据伪光流信息映射到当前帧，对特征融合后的当前帧进行视频目标检测。一方面，使得当前帧能够同时参考过去帧的特征作出更准确的检测；另一方面，采用伪光流信息来保证过去帧的特征准确地映射到当前帧，从而实现不同帧之间的物体特征在空间上的对齐，从而实现更为准确的视频目标检测，解决了没有考虑图像内的物体空间位置随时间的变化会导致特征错配的问题。

本申请利用ConvLSTM来对视频的不同帧进行建模。不同帧图像作为ConvLSTM的不同时间步的输入。结合参考图4，设过去帧对应第t-1帧，当前帧对应第t帧，第t-1帧对应LSTM 42，第t帧对应LSTM 44。第t-1帧的特征表示“输入(t-1)”和第t帧的特征表示“输入(t)”计算残差特征后，通过卷积层提取到伪光流信息40。将LSTM 42的记忆单元输出的第一记忆特征值，根据伪光流信息映射41到LSTM44中得到第二记忆特征值；将LSTM 42的隐藏特征空间输出的第一隐藏特征值，根据伪光流信息映射42到LSTM44中得到第二隐藏特征值。根据第二记忆特征值、第二隐藏特征值以及当前帧的特征表示计算得到进行后续的视频目标检测，得到当前帧中的视频目标。

上述图4示出的是神经网络部分，可整体视为是一个“残差伪光流的LSTM模块400”。在一个示例性的例子中，图4所示出的“残差伪光流的LSTM模块400”可以与SSD模型实现成为一个整体的视频目标检测模型，该视频目标检测模型可以采用端到端的形式进行训练。图5示出了一个示例性实施例提供的视频目标检测模型，该视频目标检测模型包括用于处理t-1帧视频图像的左侧SSD部分，以及用于处理t帧视频图像的右侧SSD部分。

用于处理第t-1帧的左侧SSD部分，包括：基于VGG-16的Conv4_3、Conv6、Conv7、Conv8、Conv9_2。其中，Conv4_3代表第四层卷积网络块的第三个卷积网络层；Conv6代表第六层卷积网络块；Conv7代表第七层卷积网络块；Conv8_2代表第八层卷积网络块的第二个卷积网络层；Conv9_2代表第九层卷积网络块的第二个卷积网络层；Conv10_2代表第十层卷积网络块的第二个卷积网络层；Conv11_2代表第十一层卷积网络块的第二个卷积网络层。

Conv4_3用于输出38*38*512的特征图；Conv6用于输出19*19*1024的特征图；Conv7用于输出10*10*512的特征图；Conv8_2用于输出5*5*256的特征图；Conv9_2用于输出3*3*256的特征图；Conv10_2用于输出3*3*256的特征图；Conv11_2用于输出1*1*256的特征图。也即，每个卷积神经网络层输出不同尺度的特征图。

用于处理第t帧的右侧SSD部分，包括：基于VGG-16的Conv4_3、Conv6、Conv7、Conv8、Conv9_2。其中，Conv4_3代表第四层卷积网络块的第三个卷积网络层；Conv6代表第六层卷积网络块；Conv7代表第七层卷积网络块；Conv8_2代表第八层卷积网络块的第二个卷积网络层；Conv9_2代表第九层卷积网络块的第二个卷积网络层。Conv10_2代表第十层卷积网络块的第二个卷积网络层；Conv11_2代表第十一层卷积网络块的第二个卷积网络层。

SSD的模型架构不再一一赘述。本申请实施例提出在两个SSD部分对应的卷积网络块之间，采用残差伪光流的LSTM模块400相连接。对于第t-1帧的特征图输出，基于残差伪光流的LSTM模块400进行跨帧融合到第t帧中，然后对第t帧的6个不同尺度的特征图进行视频目标检测。

上述图5所示出的视频目标检测模型，可以通过SSD模型相同的训练损失来采用端到端的训练方式得到。即每层单独负责检测某一个固定尺度的物体。每个边界框负责检测相应物体，因而受到交叉熵分类损失和包围框回归损失的同时监督。

本申请的各个实施例提供的视频目标的检测方法可以应用于安装有目标应用程序的终端中，该目标应用程序是具有视频接收或发送功能的应用程序，该终端可以是智能手机、平板电脑、个人计算机或便携式计算机等等。比如，该目标应用程序是游戏、社交类应用程序、即时通信应用程序、视频播放应用程序等等，本申请实施例对此不做限定。

本申请的提供的视频目标的检测模型可以广泛的应用于视频目标检测任务的场景中，对此进行举例说明如下：

视频目标的检测模型应用于视频播放软件中，对视频网站上的视频(包括电视剧、电影、短视频等各种视频类型)的内容分析、目标物体检测识别等。例如，视频软件在播放视频内容时，随着视频播放的进行，视频目标的检测模型实时提取过去帧的特征表示和当前帧的特征表示，通过计算得到过去帧和当前帧之间的伪光流信息，并根据伪光流信息将过去帧的记忆单元中的特征和隐藏特征空间中的特诊映射到当前帧进行特征融合，对特征融合后的当前帧进行视频目标检测，得到当前帧中的视频目标。从而实现准确的视频目标检测。

视频目标的检测模型应用于无人车的目标检测定位中。无人车在行驶的过程中，需要用摄像头实施获取路况画面信息，路况画面通过摄像头进入无人车中带有视频目标的检测模型的处理单元中后，视频目标的检测模型获取前一帧的特征表示和当前帧的特征表示，通过计算得到过去帧和当前帧之间的伪光流信息，并根据伪光流信息将过去帧的记忆单元中的特征和隐藏特征空间中的特诊映射到当前帧进行特征融合，对特征融合后的当前帧进行视频目标检测，使得当前帧能够同时参考过去帧的特征作出更准确的检测。

由于无人车行驶速度较快，对画面处理的速度和准确度要求较高，因此本实施例通过获取视频中的过去帧的特征表示和当前帧的特征表示，来计算得到过去帧和当前帧之间的伪光流信息，将过去帧的特征根据伪光流信息映射到当前帧，对特征融合后的当前帧进行视频目标检测。一方面，使得当前帧能够同时参考过去帧的特征作出更准确的检测；另一方面，采用伪光流信息来保证过去帧的特征准确地映射到当前帧，从而实现不同帧之间的物体特征在空间上的对齐，从而实现更为准确的视频目标检测，解决了没有考虑图像内的物体空间位置随时间的变化会导致特征错配的问题。在快速处理视频的同时提高了目标检测的准确程度。

基于相同的理由和原理，本申请的视频目标的检测模型还能够适用于其他对实时性要求高的在线视频目标检测场景中，例如，机器人目标检测、直播目标检测或者安防监控视频目标检测等应用场景中。

本申请还公开了一种视频目标的检测装置，结合图6，该装置包括：

获取模块501，用于获取视频中的过去帧的特征表示和当前帧的特征表示；处理模块502，用于根据过去帧的特征表示和当前帧的特征表示，得到过去帧和当前帧之间的伪光流信息；映射模块503，还用于根据伪光流信息将过去帧的特征映射到当前帧，得到特征融合后的当前帧；检测模块504，用于对特征融合后的当前帧进行视频目标检测，得到当前帧中的视频目标。

残差计算子模块505，用于计算过去帧的特征表示和当前帧的特征表示之间的残差特征；伪光流提取子模块506，用于对残差特征进行处理，得到过去帧和当前帧之间的伪光流信息。

伪光流提取子模块506，用于通过卷积层对残差特征进行预测，得到过去帧和当前帧之间的伪光流信息；其中，卷积层是通过视频目标的监督信息来训练得到的。

获取模块501，还用于采用n层卷积网络层提取过去帧的浅层特征表示，以及采用n层卷积网络层提取当前帧的浅层特征表示。

过去帧和当前帧对应级联的卷积长短时记忆网络LSTM，每个LSTM用于处理视频中的一个视频帧；每个LSTM包括记忆单元和隐藏特征空间；映射模块503，用于将过去帧的记忆单元输出的第一记忆特征值，通过伪光流信息加权映射到当前帧的记忆单元的第二记忆特征值；将过去帧的隐藏特征空间输出的第一隐藏特征值，通过伪光流信息加权映射到当前帧的隐藏特征空间的第二隐藏特征值；根据第二记忆特征值、第二隐藏特征值和当前帧的特征表示，计算得到融合后的隐藏特征表示。

检测模块504，用于根据融合后的隐藏特征表示进行视频目标检测，得到当前帧中的视频目标。

本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现如前述实施例提供的视频目标的检测方法。

本申请还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现如前述实施例提供的视频目标的检测方法。

图7示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的视频目标的检测方法。具体来讲：

服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性地，本申请的真正范围和精神由上述的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频目标的检测方法，其特征在于，所述方法包括：

获取视频中的过去帧的特征表示和当前帧的特征表示；

计算所述过去帧的特征表示和所述当前帧的特征表示之间的残差特征；

通过伪光流提取部对所述残差特征进行处理，得到所述过去帧和所述当前帧之间的伪光流信息；

2.根据权利要求1所述的方法，其特征在于，所述伪光流提取部包括：卷积层；

所述通过伪光流提取部对所述残差特征进行处理，得到所述过去帧和所述当前帧之间的伪光流信息，包括：

通过所述卷积层对所述残差特征进行预测，得到所述过去帧和所述当前帧之间的伪光流信息；

3.根据权利要求1或2所述的方法，其特征在于，所述获取视频中的过去帧的特征表示和当前帧的特征表示，包括：

采用n层卷积网络层提取所述过去帧的浅层特征表示，以及采用所述n层卷积网络层提取所述当前帧的浅层特征表示，n为正整数。

4.根据权利要求1或2所述的方法，其特征在于，所述过去帧和所述当前帧对应级联的卷积长短时记忆网络LSTM，每个LSTM用于处理所述视频中的一个视频帧；每个LSTM包括记忆单元和隐藏特征空间；

所述根据所述伪光流信息将所述过去帧的特征映射到所述当前帧，得到特征融合后的当前帧，包括：

将所述过去帧的记忆单元输出的第一记忆特征值，通过所述伪光流信息加权映射到所述当前帧的记忆单元的第二记忆特征值；

将所述过去帧的隐藏特征空间输出的第一隐藏特征值，通过所述伪光流信息加权映射到所述当前帧的隐藏特征空间的第二隐藏特征值；

根据所述第二记忆特征值、所述第二隐藏特征值和所述当前帧的特征表示，计算得到融合后的隐藏特征表示。

5.根据权利要求4所述的方法，其特征在于，所述对所述特征融合后的当前帧进行视频目标检测，得到所述当前帧中的视频目标，包括：

根据所述融合后的隐藏特征表示进行视频目标检测，得到所述当前帧中的视频目标。

6.一种视频目标的检测装置，其特征在于，所述装置包括：

残差计算子模块，用于计算所述过去帧的特征表示和所述当前帧的特征表示之间的残差特征；

伪光流提取子模块，用于对所述残差特征进行处理，得到所述过去帧和所述当前帧之间的伪光流信息；

7.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的视频目标的检测方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5任一项所述的视频目标的检测方法。