CN108520532B

CN108520532B - 识别视频中物体运动方向的方法及装置

Info

Publication number: CN108520532B
Application number: CN201810296899.4A
Authority: CN
Inventors: 车广富; 安山; 黄志标; 陈宇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2020-12-22
Anticipated expiration: 2038-04-03
Also published as: CN108520532A

Abstract

本发明公开了一种识别视频中物体运动方向的方法、装置及计算机可读存储介质，涉及多媒体技术领域。其中的方法包括：计算视频的稠密光流，生成视频的多张光流场矢量图；将多张光流场矢量图量化为三通道彩色图像，三通道彩色图像能够表征视频中物体运动方向；利用预先训练的深度学习神经网络对三通道彩色图像进行处理，识别视频中物体运动方向。本发明通过计算稠密光流生成光流场矢量图，并将量化的三通道彩色图像输入深度学习神经网络进行处理，能够较为精确的自动识别视频中物体的运动方向。

Description

识别视频中物体运动方向的方法及装置

技术领域

本发明涉及多媒体技术领域，特别涉及一种识别视频中物体运动方向的方法、装置以及计算机可读存储介质。

背景技术

视频在播放过程中，视频中的物体例如可能处于顺时针旋转、逆时针旋转、不旋转等状态。对于视频中物体运动状态的自动识别，在多媒体技术领域中具有重要意义。

然而，传统的技术很难较为精确的自动识别视频中物体的运动方向。因此，如何提高自动识别视频中物体的运动方向的精确度，逐渐成为人们关注的焦点。

发明内容

本发明解决的一个技术问题是，如何较为精确的自动识别视频中物体的运动方向。

根据本发明实施例的一个方面，提供了一种识别视频中物体运动方向的方法，包括：计算视频的稠密光流，生成视频的多张光流场矢量图；将多张光流场矢量图量化为三通道彩色图像，三通道彩色图像能够表征视频中物体运动方向；利用预先训练的深度学习神经网络对三通道彩色图像进行处理，识别视频中物体运动方向。

在一些实施例中，将多张光流场矢量图量化为三通道彩色图像包括：对于每个像素坐标，将各张光流场矢量图的光流矢量方向角量化为第一颜色通道的亮度值以及第二颜色通道的亮度值，将张光流场矢量图的光流矢量模量化为第三颜色通道的亮度值；对于每个像素坐标，计算量化后的各张光流场矢量图的各个颜色通道的亮度均值；利用各个颜色通道的亮度均值生成三通道彩色图像。

在一些实施例中，第一颜色通道为红色通道，第二颜色通道为绿色通道，第三颜色通道为蓝色通道，三通道彩色图像为RGB图像。

在一些实施例中，方法还包括：将预先设置的三通道彩色图像以及对应的视频中物体实际运动方向输入深度学习神经网络，以对深度学习神经网络进行训练，使得深度学习神经网络能够根据输入的三通道彩色图像预测视频中物体的运动方向。

在一些实施例中，该方法还包括：将Tinynet网络模型中位于最后一层的全连接层用全局平均池化层代替，生成深度学习神经网络。

在一些实施例中，该方法还包括：将Tinynet、Googlenet、Caffenet、Resnet50网络模型中的一种作为深度学习神经网络。

在一些实施例中，计算视频的稠密光流，生成视频的多张光流场矢量图包括：根据相邻的两个视频帧对应的灰度图像，计算视频的稠密光流，得到视频的多张光流场矢量图。

根据本发明实施例的另一个方面，提供了一种识别视频中物体运动方向的装置，包括：光流场矢量图生成模块，用于计算视频的稠密光流，生成视频的多张光流场矢量图；彩色图像量化模块，用于将多张光流场矢量图量化为三通道彩色图像，三通道彩色图像能够表征视频中物体运动方向；运动方向识别模块，用于利用预先训练的深度学习神经网络对三通道彩色图像进行处理，识别视频中物体运动方向。

在一些实施例中，彩色图像量化模块用于：对于每个像素坐标，将各张光流场矢量图的光流矢量方向角量化为第一颜色通道的亮度值以及第二颜色通道的亮度值，将张光流场矢量图的光流矢量模量化为第三颜色通道的亮度值；对于每个像素坐标，计算量化后的各张光流场矢量图的各个颜色通道的亮度均值；利用各个颜色通道的亮度均值生成三通道彩色图像。

在一些实施例中，该装置还包括：神经网络训练模块，用于将预先设置的三通道彩色图像以及对应的视频中物体的实际运动方向输入深度学习神经网络，以对深度学习神经网络进行训练，使得深度学习神经网络能够根据输入的三通道彩色图像预测视频中物体的运动方向。

在一些实施例中，该装置还包括第一神经网络生成模块，用于将Tinynet网络模型中位于最后一层的全连接层用全局平均池化层代替，生成深度学习神经网络。

在一些实施例中，该装置还包括第二神经网络生成模块，用于将Tinynet、Googlenet、Caffenet、Resnet50网络模型中的一种作为深度学习神经网络。

在一些实施例中，光流场矢量图生成模块用于：根据相邻的两个视频帧对应的灰度图像，计算视频的稠密光流，得到视频的多张光流场矢量图。

根据本发明实施例的又一个方面，提供了一种识别视频中物体运动方向的装置，其中，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的识别视频中物体运动方向的方法。

根据本发明实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的识别视频中物体运动方向的方法。

本发明提供的识别视频中物体运动方向的方法，能够较为精确的自动识别视频中物体的运动方向。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例的识别视频中物体运动方向的方法的流程示意图。

图2示出了光流场矢量图的示意图。

图3A以及图3B示出了连续两帧之间的Munsell-Color系统光流场矢量量化图以及压缩均图。

图4示出了深度学习神经网络的结构示意图。

图5示出了深度学习神经网络的训练和使用流程示意图。

图6示出了本发明一个实施例的识别视频中物体运动方向的装置的结构示意图。

图7示出了本发明另一个实施例的识别视频中物体运动方向的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

首先结合图1介绍本发明一个实施例的识别视频中物体运动方向的方法。

图1示出了本发明一个实施例的识别视频中物体运动方向的方法的流程示意图。如图1所示，本实施例中的识别视频中物体运动方向的方法包括：

步骤S102，计算视频的稠密光流，生成视频的多张光流场矢量图。

其中，可以根据相邻的两个视频帧对应的灰度图像，计算视频的稠密光流，得到视频的多张光流场矢量图。

步骤S104，将多张光流场矢量图量化为一张三通道彩色图像，三通道彩色图像能够表征视频中物体运动方向。

其中，对于每个像素坐标，可以将各张光流场矢量图的光流矢量方向角量化为第一颜色通道的亮度值以及第二颜色通道的亮度值，将张光流场矢量图的光流矢量模量化为第三颜色通道的亮度值，然后计算量化后的各张光流场矢量图的各个颜色通道的亮度均值，再利用各个颜色通道的亮度均值生成一张三通道彩色图像。

例如，第一颜色通道为红色通道，第二颜色通道为绿色通道，第三颜色通道为蓝色通道，三通道彩色图像为RGB图像。

步骤S106，利用预先训练的深度学习神经网络对三通道彩色图像进行处理，识别视频中物体运动方向。

例如，可以采用Tinynet、Googlenet、Caffenet、Resnet50网络模型中的一种网络模型作为深度学习神经网络。还可以将Tinynet网络模型中位于最后一层的全连接层用全局平均池化层代替，生成深度学习神经网络，这种轻量型深度学习神经网络在使用过程中简单方便。

本领域技术人员应理解，在步骤S106之前，还可以执行步骤S105，将预先设置的三通道彩色图像以及对应的视频中物体实际运动方向输入深度学习神经网络，以对深度学习神经网络进行训练，使得深度学习神经网络能够根据输入的三通道彩色图像预测视频中物体的运动方向。

上述实施例中，通过全局性的稠密光流算法计算每连续帧之间生成光流场矢量图；然后依据光流点方向向量特点把双通道的光流场矢量图进行量化，把所有量化所得的可视化图压缩成一张光流运动均图以代表该视频中物体运动方向，最后将视频集上得到的光流均图数据输入深度学习神经网络，以对运动方向进行识别。通过训练，深度学习神经网络可以学习出光流场压缩均图里对于描述视频运动趋势的有效特征，从而较为精确自动预测视频中物体运动方向。同时，上述实施例使用稠密光流场量化，利用压缩均图表示视频旋转主趋势，解决了单个光流场难以完成训练的难点，从而能够使用卷积神经网络训练均图方向分类模型，使得该方法具有简单高效、可靠性强的特点。

下面介绍本发明识别视频中物体运动方向的方法的一个应用例。本应用例主要包括如下几个部分：

(一)计算光流场矢量图。

对连续的视频帧进行处理，输入为灰度图像，如果为彩色图像，可以使用公式(1)转为灰度图：

Gray＝0.299R+0.587G+0.114B (1)

然后使用Gunnar Farneback计算全局性的稠密光流算法，得到每两灰度帧之间的光流图。假定图像上点m＝(x,y)^T在时刻t的灰度值为I(x,y,t)，经过时间间隔dt后，对应点的灰度为I(x+dx,y+dy,t+dt)，当dt→0时，可以认为两点的灰度不变，也就是公式(2)：

I(x+dx,y+dy,t+dt)＝I(x,y,t) (2)

如果图像灰度随x,y,t缓慢变化，可以将公式(2)左边泰勒级数展开，得到公式(3)：

其中ε代表二阶无穷小项。由于dt→0，忽略ε，可以得到公式(4)：

令

代表x,y方向上的光流，

分别代表图像灰度相对于x,y,t的偏导，可以得到公式(5)：

I_xμ+I_yv+I_t＝0 (5)

此式即光流场的基本方程。写成向量形式，即得到公式(6)：

上式称为光流约束方程。其中

是图像在点m处的梯度，V_m＝(μ,v)是点m的光流。其中I_x可以通过I(x+1,y,t)-I(x,y,t)计算得到，I_y可以通过I(x,y+1,t)-I(x,y,t)计算得到，因此在V_m以及I_t已知的情况下可以计算视频的稠密光流求得V_m，得到视频的多张光流场矢量图。图2示出了光流场矢量图的示意图。本领域技术人员应理解，稠密光流需要使用插值方法在比较容易跟踪的像素之间进行插值，以解决那些运动不明确的像素。

(二)光流场矢量图的可视化。

光流场是图片中每个像素都有一个x方向和y方向的位移，所以在上面那些光流计算结束后得到的光流是个和原来图像大小相等的双通道图像，也就是的光流场矢量图。然后，使用孟塞尔颜色Munsell-Color系统依据光流场各个方向向量角度和模，把双通道的光流场矢量图量化至0-255之间的数值，完成可视化的目的。图3A以及图3B示出了连续两帧之间的Munsell-Color系统光流场矢量量化图以及压缩均图。

(三)光流场矢量图的压缩。

由于单张光流场矢量图是无法表示视频整体运动的趋势，同时也是无法进入卷积升级该网络进行训练和学习。为此，我们通过求取总体N-1张可视化后的图的RGB三通道的均值的方法得到压缩图片，简单且高效。假设待测视频共有N帧图片，当经过上述计算两两之间的稠密光流场矢量图，再经量化操作后可以得到N-1张图。此步骤中，我们通过公式(7)、(8)、(9)企图压缩所得到的N-1张图成为1张，以代表该待测视频运动的趋势。

不同旋转方向视频上进行上述的压缩计算，可以得到压缩图片和旋转方向一对一的分类样本集。有了样本集，我们可以进而通过分类算法完成深度学习神经网络的训练。

(四)深度学习神经网络的训练与使用。

可以准备500顺时针、500逆时针、500不旋转的三类样本视频。在每个类别上，将500划分成300训练加200验证的方式进行。深度学习神经网络基于Tinynet，它是一种很轻量的模型，包含16层卷积层，且都是以3*3和1*1的卷积核组合而成，此外，Tinynet最后一层以全局平均池化层代替常用的全连接层，可以大幅降低网络的参数量，从而减少容易导致过拟合的风险发生。图4示出了深度学习神经网络的结构示意图。其中，输入图片大小固定为128*128像素，训练参数具体为：训练方法Sovler设置为随机梯度下降SGD，学习策略lr_policy设置为固定步长下降step，初始学习力base_lr设置为0.001，冲量momentum设置为0.9，下降权值weight_decay设置为0.0005，最大训练次数max_iter设置为100000。实验表明，经过10000次的训练，该神经网络模型的精度稳定在0.95，可以达到实用的性能和目标。图5示出了深度学习神经网络的训练和使用流程示意图。训练完成之后，可以使用它来识别视频中物体旋转方向。

上述应用例中，首选利用Gunnar Farneback算法计算全局性的稠密光流，每连续帧之间生成光流图；然后使用munsell-color系统依据光流矢量特点，把双通道的光流图进行量化并使用RGB-mean的方法压缩为一张，代表该视频的运动趋势；最后利用视频集上得到的光流均图数据集对卷积神经网络进行训练，并利用训练好的卷及神经网络识别视频中物体旋转方向。

下面结合图6介绍本发明一个实施例的识别视频中物体运动方向的装置。

图6示出了本发明一个实施例的识别视频中物体运动方向的装置的结构示意图。如图6所示，本实施例的识别视频中物体运动方向的装置60包括：

光流场矢量图生成模块602，用于计算视频的稠密光流，生成视频的多张光流场矢量图；

彩色图像量化模块603，用于将多张光流场矢量图量化为一张三通道彩色图像，三通道彩色图像能够表征视频中物体运动方向；

运动方向识别模块606，用于利用预先训练的深度学习神经网络对三通道彩色图像进行处理，识别视频中物体运动方向。

在一些实施例中，彩色图像量化模块603用于：对于每个像素坐标，将各张光流场矢量图的光流矢量方向角量化为第一颜色通道的亮度值以及第二颜色通道的亮度值，将张光流场矢量图的光流矢量模量化为第三颜色通道的亮度值；对于每个像素坐标，计算量化后的各张光流场矢量图的各个颜色通道的亮度均值；利用各个颜色通道的亮度均值生成一张三通道彩色图像。

在一些实施例中，该装置还包括第一神经网络生成模块604A，用于将Tinynet、Googlenet、Caffenet、Resnet50网络模型中的一种作为深度学习神经网络。

在一些实施例中，该装置还包括第二神经网络生成模块604B，用于将Tinynet网络模型中位于最后一层的全连接层用全局平均池化层代替，生成深度学习神经网络。

在一些实施例中，该装置还包括：神经网络训练模块605，用于将预先设置的三通道彩色图像以及对应的视频中物体的实际运动方向输入深度学习神经网络，以对深度学习神经网络进行训练，使得深度学习神经网络能够根据输入的三通道彩色图像预测视频中物体的运动方向。

在一些实施例中，光流场矢量图生成模块602用于：根据相邻的两个视频帧对应的灰度图像，计算视频的稠密光流，得到视频的多张光流场矢量图。

图7示出了本发明另一个实施例的识别视频中物体运动方向的装置的结构示意图。如图7所示，该实施例的识别视频中物体运动方向的装置70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一个实施例中的识别视频中物体运动方向的方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

一种识别视频中物体运动方向的装置70还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730，740，750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口740为SD卡、U盘等外置存储设备提供连接接口。

本发明还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一个实施例中的识别视频中物体运动方向的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别视频中物体运动方向的方法，包括：

计算视频的稠密光流，生成视频的多张光流场矢量图；

将所述多张光流场矢量图量化为三通道彩色图像，所述三通道彩色图像能够表征视频中物体的运动方向；

利用预先训练的深度学习神经网络对所述三通道彩色图像进行处理，识别视频中物体的运动方向。

2.如权利要求1所述的方法，其中，所述将所述多张光流场矢量图量化为三通道彩色图像包括：

对于每个像素坐标，将各张光流场矢量图的光流矢量方向角量化为第一颜色通道的亮度值以及第二颜色通道的亮度值，将各张光流场矢量图的光流矢量模量化为第三颜色通道的亮度值；

对于每个像素坐标，计算量化后的各张光流场矢量图的各个颜色通道的亮度均值；

利用各个颜色通道的亮度均值生成三通道彩色图像。

3.如权利要求2所述的方法，其中，所述第一颜色通道为红色通道，所述第二颜色通道为绿色通道，所述第三颜色通道为蓝色通道，所述三通道彩色图像为RGB图像。

4.如权利要求1所述的方法，其中，所述方法还包括：

将预先设置的三通道彩色图像以及对应的视频中物体的实际运动方向输入深度学习神经网络，以对所述深度学习神经网络进行训练，使得所述深度学习神经网络能够根据输入的三通道彩色图像预测视频中物体的运动方向。

5.如权利要求4所述的方法，其中，所述方法还包括：将Tinynet网络模型中位于最后一层的全连接层用全局平均池化层代替，生成所述深度学习神经网络。

6.如权利要求4所述的方法，其中，所述方法还包括：

将Tinynet、Googlenet、Caffenet、Resnet50网络模型中的一种作为所述深度学习神经网络。

7.如权利要求1所述的方法，其中，所述计算视频的稠密光流，生成视频的多张光流场矢量图包括：

根据相邻的两个视频帧对应的灰度图像，计算视频的稠密光流，得到视频的多张光流场矢量图。

8.一种识别视频中物体运动方向的装置，包括：

光流场矢量图生成模块，用于计算视频的稠密光流，生成视频的多张光流场矢量图；

彩色图像量化模块，用于将所述多张光流场矢量图量化为三通道彩色图像，所述三通道彩色图像能够表征视频中物体的运动方向；

运动方向识别模块，用于利用预先训练的深度学习神经网络对所述三通道彩色图像进行处理，识别视频中物体的运动方向。

9.如权利要求8所述的装置，其中，所述彩色图像量化模块用于：

利用各个颜色通道的亮度均值生成三通道彩色图像。

10.如权利要求9所述的装置，其中，所述第一颜色通道为红色通道，所述第二颜色通道为绿色通道，所述第三颜色通道为蓝色通道，所述三通道彩色图像为RGB图像。

11.如权利要求8所述的装置，其中，所述装置还包括：

神经网络训练模块，用于将预先设置的三通道彩色图像以及对应的视频中物体的实际运动方向输入深度学习神经网络，以对所述深度学习神经网络进行训练，使得所述深度学习神经网络能够根据输入的三通道彩色图像预测视频中物体的运动方向。

12.如权利要求11所述的装置，其中，所述装置还包括：

第一神经网络生成模块，用于将Tinynet网络模型中位于最后一层的全连接层用全局平均池化层代替，生成所述深度学习神经网络。

13.如权利要求11所述的装置，其中，所述装置还包括：

第二神经网络生成模块，用于将Tinynet、Googlenet、Caffenet、Resnet50网络模型中的一种作为所述深度学习神经网络。

14.如权利要求8所述的装置，其中，所述光流场矢量图生成模块用于：

15.一种识别视频中物体运动方向的装置，其中，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至7中任一项所述的识别视频中物体运动方向的方法。

16.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至7中任一项所述的识别视频中物体运动方向的方法。