CN110991365B

CN110991365B - 一种视频运动信息获取方法、系统及电子设备

Info

Publication number: CN110991365B
Application number: CN201911249221.1A
Authority: CN
Inventors: 邬晶晶; 张涌; 文森特·周
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2024-02-20
Anticipated expiration: 2039-12-09
Also published as: CN110991365A

Abstract

本申请涉及一种视频运动信息获取方法、系统及电子设备。包括：通过当前帧预测周围帧的方法对视频运动信息构建网络模型；向构建的网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像；其中，每个单独损失函数是每张图像每个像素均方根误差：总的损失函数L为：L＝L_T+α₁(L_T+1+L_T‑1)+α₂(L_T+2+L_T‑2)+α₃(L_T+3+L_T‑3)…+α_n(L_T+n+L_T‑n)。本申请通过利用当前帧预测周围帧的方法获取视频的运动信息，帮助理解视频中的运动物体，实现简单，无需对原网络结构做改动，不会增加参数量，不增加网络的计算量，也没有增加额外的存储量，速度更快，计算成本小。

Description

一种视频运动信息获取方法、系统及电子设备

技术领域

本申请属于视频任务处理技术领域，特别涉及一种视频运动信息获取方法、系统及电子设备。

背景技术

在视频任务里，网络模型需要更可靠的运动特征来反映视频中发生的动态变化，帮助模型更准确预测。视频中的运动信息包括摄像头的运动和视频中物体的运动，还存在光照变化等影响，连续帧之间实际环境复杂多变，所以获取视频运动信息往往是处理视频任务中的一个难点。现有的处理方法包括：

一、三维卷积

卷积神经网络近年被广泛用于计算机视觉中，对于基于视频分析的问题，二维卷积不能捕获时序上的信息，因此采用三维卷积，增加了时间维度。三维卷积输入的数据是[时间长度，特征图长度，特征图宽度，通道数]，卷积核的大小为[时间跨度，卷积核长，卷积核宽，通道数]，卷积的过程相当于在三个维度(时间维度、特征图长度、特征图宽度)上滑动，从而得到新的不同时间尺度的特征图。由于三维卷积比二维卷积多了时间维度，会增加时间跨度倍的参数量，因此存在参数量多、运算量大、容易过拟合等缺点。

二、光流法

光流法是利用图像序列中像素在时间域上的变化，以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般情况下，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。

把每张图像中每个像素的运动速度和运动方向找出来就是光流场，研究光流场的目的就是为了从图片序列中近似得到不能直接得到的运动场，运动场是物体在三维真实世界中的运动。第T帧图片A点的位置是(x₁，y₁)，在第T+1帧的时候对应的A点位置是(x₂，y₂)，则A点的运动为：(u_x，v_y)＝(x₂，y₂)-(x₁，y₁)，计算T+1帧中A的位置，存在很多种光流计算方法，包括基于梯度的方法、基于匹配的方法、基于能量的方法、基于相位的方法。尽管端到端学习的表示方法取得了成功，但手工制作的光流特性仍然广泛应用于视频分析任务中。光流提取在空间和时间上都很昂贵。提取的光流必须写入磁盘进行训练和测试。需要花费很大的存储成本，并且光流计算未必准确。

发明内容

本申请提供了一种视频运动信息获取方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种视频运动信息获取方法，包括以下步骤：

步骤a：通过当前帧预测周围帧的方法对视频运动信息构建网络模型；

步骤b：向所构建的网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像；其中，每个单独损失函数是每张图像每个像素均方根误差：

上述公式中，n表示整张图像的像素数量，表示网络预测出来的像素值，y_i表示真实的像素值；

总的损失函数L为：

L＝L_T+α₁(L_T+1+L_T-1)+α₂(L_T+2+L_T-2)+α₃(L_T+3+L_T-3)…+α_n(L_T+n+L_T-n)

上述公式中，L_T为当前帧的损失函数、α₁(L_T+1+L_T-1)、α₂(L_T+2+L_T-2)、α₃(L_T+3+L_T-3)…α_n(L_T+n+L_T-n)为周围帧的损失函数，α_n(n＝1、2、3…)为上下相对应的损失函数前面的系数。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述网络模型的网络结构包括目标识别、图像分类、超分辨、图像分割网络结构。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述向网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像具体包括：向所述网络模型输入T时刻视频对应的灰度图，网络模型根据损失函数输出T时刻、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的着色后的彩色图像。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述向网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像还包括：向所述网络模型输入T时刻视频对应的图像，网络模型根据损失函数输出T时刻图像的物体分类结果、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的图像。

本申请实施例采取的技术方案还包括：所述T时刻图像的损失函数是多分类的交叉熵损失函数，定义如下：

上述公式中，M代表类别的数量，y_c的值为0或1，如果该类别和样本的类别相同则y_c的值为1，p_c表示预测样本属于类别c的概率。

本申请实施例采取的另一技术方案为：一种视频运动信息获取系统，包括：

模型构建模块：用于通过当前帧预测周围帧的方法对视频运动信息构建网络模型；

图像处理模块用于向所构建的网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像；其中，每个单独损失函数是每张图像每个像素均方根误差：

总的损失函数L为：

L＝L_T+α₁(L_T+1+L_T-1)+α₂(L_T+2+L_T-2)+α_L(L_T+3+L_T-3)…+α_n(L_T+n+L_T-n)

本申请实施例采取的技术方案还包括：所述网络模型的网络结构包括目标识别、图像分类、超分辨、图像分割网络结构。

本申请实施例采取的技术方案还包括：所述图像处理模块包括：

图像转换单元：用于向所述网络模型输入T时刻视频对应的灰度图，网络模型根据损失函数输出T时刻、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的着色后的彩色图像。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述图像处理模块还包括：

图像分类单元：用于向所述网络模型输入T时刻视频对应的图像，网络模型根据损失函数输出T时刻图像的物体分类结果、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的图像。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的视频运动信息获取方法的以下操作：

总的损失函数L为：

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的视频运动信息获取方法、系统及电子设备通过利用当前帧预测周围帧的方法获取视频的运动信息，向网络模型输入单帧的图像，网络模型输出多帧处理过后的图片或分类结果，帮助理解视频中的运动物体。本申请实现简单，无需对原网络结构做改动，不会增加参数量，没有增加网络的计算量，也没有增加额外的存储量，速度更快，计算成本小。

附图说明

图1是本申请第一实施例的视频运动信息获取方法的流程图；

图2是本申请第一实施例的网络模型图像处理过程示意图；

图3是本申请第二实施例的视频运动信息获取方法的流程图；

图4是本申请第二实施例的网络模型图像处理过程示意图；

图5是本申请实施例的视频运动信息获取系统的结构示意图；

图6是本申请实施例提供的视频运动信息获取方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了解决现有技术存在的不足，本申请通过当前帧预测周围帧的方法对视频运动信息构建网络模型，在实际应用时，向网络模型输入单帧图像，网络模型输出该单帧图像对应的周围帧图像，或识别图像物体分类结果，获取视频中的运动物体。本申请可应用于图像转换、视频分类、视频识别等多种视频图像处理任务，为了更加清楚的描述本申请的技术方案，以下分别以图像转换和视频分类为例进行具体说明。

请参阅图1，是本申请第一实施例的视频运动信息获取方法的流程图。本实施例需要将黑白视频转化为彩色视频，其具体包括：

步骤100：通过当前帧预测周围帧的方法对视频运动信息构建网络模型；

步骤100中，网络模型的网络结构可参考图像分类、超分辨、图像分割等网络结构进行设计。

步骤110：向网络模型输入T时刻视频对应的灰度图，网络模型根据损失函数输出T时刻、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的着色后的彩色图像；

步骤110中，预测的周围帧帧数可以根据任务特性进行设定。预测出来的周围帧，各自对应损失函数的权重，可以人为设定，也可以让网络自己学习。网络模型为了更加准确的预测出周围帧的彩色图像，在损失函数的更新下，网络模型不断学习物体的运动过程，并将运动信息隐藏在模型的权重里，同时预测T时刻对应的上下帧，可以学习到空间和时间上的上下文信息。网络模型的图像处理过程如图2所示。

损失函数的定义如下：

每个单独损失函数的计算是每张图像每个像素均方根误差(MSE)：

上述公式中，n表示整张图像的像素数量，表示网络预测出来的像素值，y_i表示真实的像素值。

上下相对应的损失函数前面的系数α_n(n＝1、2、3…)可以人为设定，也可以由网络模型自动学习得到。总的损失函数包括当前帧的损失函数和周围帧的损失函数：

L＝L_T+α₁(L_T+1+l_T-1)+α₂(L_T+2+L_T-2)+α₃(L_L+3+L_T-3)…+α_n(L_L+n+L_T-n) (2)

请参阅图3，是本申请第二实施例的视频运动信息获取方法的流程图。本实施例需要识别出视频每一帧图像的物体类别，其具体包括：

步骤200：通过当前帧预测周围帧的方法对视频运动信息构建网络模型；

步骤200中，网络模型的网络结构可参考目标识别等网络结构进行设计。

步骤210：向网络模型输入T时刻视频对应的图像，网络模型根据损失函数输出T时刻图像的物体分类结果、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的图像；

步骤210中，预测周围帧帧数可根据任务特性进行设定。预测出来的周围帧，各自对应损失函数的权重，可以人为设定，也可以让网络自己学习。网络模型为了更加准确的预测出T时刻图像的物体类别以及周围帧的图像，在损失函数的更新下，网络模型不断地学习物体的运动过程，并将运动信息隐藏在模型的权重里。同时预测T时刻对应的上下帧，可以学习到空间和时间上的上下文信息。网络模型的图像处理过程如图4所示。

T时刻的损失函数是多分类的交叉熵损失函数，定义如下：

上述公式中，M代表类别的数量、y_c的值为0或1，如果该类别和样本的类别相同就是1、p_c表示预测样本属于类别c的概率。

其他时刻的损失函数以及总的损失函数定义与第一实施例相同，此处将不再赘述。

请参阅图5，是本申请实施例的视频运动信息获取系统的结构示意图。本申请实施例的视频运动信息获取系统包括模型构建模块和图像处理模块。

模型构建模块：用于通过当前帧预测周围帧的方法对视频运动信息构建网络模型；其中，网络模型的网络结构可参考目标识别、图像分类、超分辨、图像分割等网络结构进行设计。

图像处理模块：用于向网络模型输入单帧图像，网络模型输出该单帧图像对应的周围帧图像，或识别图像物体分类结果，获取视频中的运动物体；具体的，图像处理模块可处理图像转换、视频分类、视频识别等多种任务，其至少包括：

图像转换单元：用于向网络模型输入T时刻视频对应的灰度图，网络模型根据损失函数输出T时刻、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的着色后的彩色图像；其中，预测的周围帧帧数可以根据任务特性进行设定。预测出来的周围帧，各自对应损失函数的权重，可以人为设定，也可以让网络自己学习。

网络模型为了更加准确的预测出周围帧的彩色图像，在损失函数的更新下，网络模型不断学习物体的运动过程，并将运动信息隐藏在模型的权重里，同时预测T时刻对应的上下帧，可以学习到空间和时间上的上下文信息。

损失函数的定义如下：

L＝L_T+α₁(L_T+1+L_T-1)+α₂(L_T+2+L_T-2)+α₃(L_T+3+L_T-3)…+α_n(L_T+n+L_T-n) (2)

图像分类单元：用于向网络模型输入T时刻视频对应的图像，网络模型根据损失函数输出T时刻图像的物体分类结果、T+n(n＝1、2、3…)时刻、T-n(n＝1、2、3…)时刻对应的图像；网络模型为了更加准确的预测出T时刻图像的物体类别以及周围帧的图像，在损失函数的更新下，网络模型不断地学习物体的运动过程，并将运动信息隐藏在模型的权重里。

T时刻的损失函数是多分类的交叉熵损失函数，定义如下：

图6是本申请实施例提供的视频运动信息获取方法的硬件设备结构示意图。如图6所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

总的损失函数L为：

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

总的损失函数L为：

L＝L_T+α₁(L_T+1+L_T-1)+α₂(L_T+2+L_T-2)+α₃(L_T+3+L_T-3)…

+α_n(L_T+n+L_T-n)

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

总的损失函数L为：

本申请实施例的视频运动信息获取方法、系统及电子设备通过利用当前帧预测周围帧的方法获取视频的运动信息，向网络模型输入单帧的图像，网络模型输出多帧处理过后的图片或分类结果，帮助理解视频中的运动物体。本申请实现简单，无需对原网络结构做改动，不会增加参数量，没有增加网络的计算量，也没有增加额外的存储量，速度更快，计算成本小。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频运动信息获取方法，其特征在于，包括以下步骤：

总的损失函数L为：

上述公式中，L_T为当前帧的损失函数、α₁(L_T+1+L_T-1)、α₂(L_T+2+L_T-2)、α₃(L_T+3+L_T-3)…α_n(L_T+n+L_T-n)为周围帧的损失函数，α_n，n＝1、2、3…，为上下相对应的损失函数前面的系数。

2.根据权利要求1所述的视频运动信息获取方法，其特征在于，在所述步骤a中，所述网络模型的网络结构包括目标识别、图像分类、超分辨、图像分割网络结构。

3.根据权利要求1或2所述的视频运动信息获取方法，其特征在于，在所述步骤b中，所述向网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像具体包括：向所述网络模型输入T时刻视频对应的灰度图，网络模型根据损失函数输出T时刻、T+n时刻、T-n时刻对应的着色后的彩色图像，其中n＝1、2、3…。

4.根据权利要求3所述的视频运动信息获取方法，其特征在于，在所述步骤b中，所述向网络模型输入单帧图像，网络模型根据损失函数输出该单帧图像对应的周围帧图像还包括：向所述网络模型输入T时刻视频对应的图像，网络模型根据损失函数输出T时刻图像的物体分类结果、T+n时刻、T-n时刻对应的图像，其中n＝1、2、3…。

5.根据权利要求4所述的视频运动信息获取方法，其特征在于，所述T时刻图像的损失函数是多分类的交叉熵损失函数，定义如下：

6.一种视频运动信息获取系统，其特征在于，包括：

总的损失函数L为：

7.根据权利要求6所述的视频运动信息获取系统，其特征在于，所述网络模型的网络结构包括目标识别、图像分类、超分辨、图像分割网络结构。

8.根据权利要求6或7所述的视频运动信息获取系统，其特征在于，所述图像处理模块包括：

图像转换单元：用于向所述网络模型输入T时刻视频对应的灰度图，网络模型根据损失函数输出T时刻、T+n时刻、T-n时刻对应的着色后的彩色图像，其中n＝1、2、3…。

9.根据权利要求8所述的视频运动信息获取系统，其特征在于，所述图像处理模块还包括：

图像分类单元：用于向所述网络模型输入T时刻视频对应的图像，网络模型根据损失函数输出T时刻图像的物体分类结果、T+n时刻、T-n时刻对应的图像，其中n＝1、2、3…。

10.根据权利要求9所述的视频运动信息获取系统，其特征在于，所述T时刻图像的损失函数是多分类的交叉熵损失函数，定义如下：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述的视频运动信息获取方法。