CN110070023A

CN110070023A - 一种基于运动顺序性回归的自监督学习方法及装置

Info

Publication number: CN110070023A
Application number: CN201910304026.8A
Authority: CN
Inventors: 金明; 张奕; 姜育刚
Original assignee: Shanghai Jilian Network Technology Co Ltd
Current assignee: Shanghai Jilian Network Technology Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-30
Anticipated expiration: 2039-04-16
Also published as: CN110070023B

Abstract

本发明公开了一种基于运动顺序性回归的自监督学习方法及装置，该方法包括：步骤S1，随机截取固定帧数的视频样本片段；步骤S2，计算获得所述视频样本片段的平均运动量；步骤S3，随机打乱所述视频样本片段内帧的顺序，得到乱序视频样本片段；步骤S4，对所述乱序视频样本片段进行顺序性评判；步骤S5，综合步骤S2获得的所述视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分并作为回归目标值，即标注标签，本发明充分利用了视频中运动顺序一致性的信息，通过随机生成样本以及样本内帧顺序，建立顺序性评判标准进行自动的顺序性得分评判，从而达到自动标注的目的。

Description

一种基于运动顺序性回归的自监督学习方法及装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种基于运动顺序性回归的自监督学习方法及装置。

背景技术

近几年来，基于深度学习(Deep Learning)的技术在计算机视觉领域取得了很好的成效，比如，人脸识别和目标分类，其中代表性的深度学习方法有CNN(卷积神经网络)、RNN(递归神经网络)、GAN(生成式对抗网络)等。深度学习技术的出现大幅提升了传统识别算法的精度，但是其对标注样本数量的依赖也大幅上升。为了获得理想的模型训练效果，往往必须提供大量的标注数据作为训练样本，因此，对标注样本的需求呈现快速增长。

然而，样本标注是一项繁琐而消耗大量人力的工作，在实际应用中，给样本进行标注需要耗费大量的时间和人力，成本较高。为了减少样本标注的人力成本，出现了一类利用样本数据自身相关性自动生成标注的方法，称为自监督方法。自监督方法往往使用样本局部与整体之间时间、空间维度上的相关性，生成样本与标注标签对，作为监督数据提供给深度神经网络训练。

现有的视觉识别的自监督方法主要利用的是静态图像局部与局部区域间以及局部与整体间的空间位置与内容联系来自动生成标注关系。对于时间上的关系还缺乏有效的利用手段。而事实上视频中前后帧之间时间上运动顺序的相关性与一致性是非常重要的一种视频数据自身特性，完全可以作为自动生成标签的依据，因此，实有必要提出一种技术手段，以实现一种基于运动顺序性回归的自监督学习方法。

发明内容

为克服上述现有技术存在的不足，本发明之一目的在于提供一种基于运动顺序性回归的自监督学习方法及装置，充分利用了视频中运动顺序一致性的信息，通过随机生成样本以及样本内帧顺序，建立顺序性评判标准进行自动的顺序性得分评判，从而达到自动标注的目的。

本发明之另一目的在于提供一种基于运动顺序性回归的自监督学习方法及装置，其通过利用生成的乱序样本及其对应的顺序性得分训练深度回归网络实现自监督学习，摆脱了深度学习对大量人工标注样本的依赖，使通过该自监督学习方法得到的深度神经网络具有良好的泛化能力，可用于多种图像视频的分类识别应用。

为达上述及其它目的，本发明提出一种基于运动顺序性回归的自监督学习方法，包括如下步骤：

步骤S1，随机截取固定帧数的视频样本片段；

步骤S2，计算所述视频样本片段的平均运动量；

步骤S3，随机打乱所述视频样本片段内帧的顺序，得到乱序视频样本片段；

步骤S4，对所述乱序视频样本片段进行顺序性评判；

步骤S5，综合步骤S2获得的所述视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分，并作为回归目标值，即获得标注标签。

优选地，于步骤S5后，还包括如下步骤：

步骤S6，对所述乱序视频样本片段生成视觉特征；

步骤S7，利用所述乱序视频样本片段的视觉特征及步骤S5得到的最终乱序得分作为回归目标值训练深度回归神经网络，训练得到深度网络模型。

优选地，于步骤S1中，采用均匀分布随机采样方法确定起始帧位置，截取固定帧数的视频样本片段，所述固定帧数为所述视频样本片段长度。

优选地，于步骤S2中，计算所述视频样本片段中相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为所述视频样本片段的平均运动量。

优选地，于步骤S3中，根据半正态分布随机生成乱序视频样本片段顺序性评判值，并根据该顺序性评判值随机生成一个对应的乱序序列。

优选地，步骤S3进一步包括：

步骤S300，根据半正态分布随机生成乱序视频样本的顺序性评判参数S；

步骤S301，计算所述视频样本X＝{x₁，x₂，...，x_M}的所有可能的乱序排列集合，计算各自对应的顺序评判，并记录各顺序评判值中的最大值为S_max；

步骤S302，采样服从高斯分布的随机变量p～N(0，S_max/2)，并计算变量P作为采样的顺序评判；

步骤S303，在所述乱序排列集合中寻找顺序评判与P的采样值一致的子集φ(P)，从φ(P)中均匀随机采样得到最终的乱序视频样本

优选地，所述顺序性评判参数S定义为：

其中

其中，和分别为乱序样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号。

优选地，于步骤S4中，所述乱序视频采样片段的视觉特征通过采样帧间差求和的方式获得。

优选地，于步骤S6中，所述乱序视频样本片段的最终顺序得分为其顺序性评判值S与原顺序序列的视频样本片段的平均运动量的乘积。

为达上述目的，本发明还提供一种基于运动顺序性回归的自监督学习装置，包括：

视频样本采样单元，用于随机截取固定帧数的视频样本片段；

平均运动量计算单元，用于计算所述视频样本采样单元采样到的视频样本片段的平均运动量；

乱序单元，用于随机打乱所述视频样本采样单元采样到的视频样本片段内帧的顺序；

顺序性评判单元，用于对所述乱序单元生成的乱序视频样本片段进行顺序性评判；

标注标签确定单元，用于综合所述平均运动量计算单元获得的视频样本片段的平均运动量和顺序性评判单元获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分作为回归目标值，即标注标签。

与现有技术相比，本发明一种基于运动顺序性回归的自监督学习方法及装置通过充分利用视频中运动顺序一致性的信息，通过随机生成样本以及样本内帧顺序，并建立顺序性评判标准进行自动的顺序性得分评判，以达到自动标注的目的，最后利用生成的乱序样本及其对应的顺序性得分训练深度回归网络实现自监督学习，从而摆脱了深度学习对大量人工标注样本的依赖，经实践证明，通过本发明的自监督学习方法得到的深度神经网络具有良好的泛化能力，可用于多种图像视频的分类识别应用。

附图说明

图1为本发明一种基于运动顺序性回归的自监督学习方法之一实施例的步骤流程图；

图2为本发明具体实施例中步骤S3的细部流程图；

图3为本发明具体实施例中顺序性评判的实例示意图；

图4为本发明一种基于运动顺序性回归的自监督学习方法之另一实施例的步骤流程图；

图5为本发明一种基于运动顺序性回归的自监督学习装置之一实施例的系统架构图；

图6为本发明具体实施例中乱序单元503的细部结构图；

图7为本发明一种基于运动顺序性回归的自监督学习装置之另一实施例的系统架构图；

图8为本发明具体实施例之基于运动顺序性回归的自监督学习方法的流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

由于目前的技术主要缺乏的是对视频帧之间运动顺序性进行有效的评判和建模，为此需要解决三大问题：一是设计合理的采样策略获得具有各种运动乱序程度的帧序列样本；二是定义合理的顺序性特征描述函数与量化指标，作为样本数据的标签；三是利用生成的样本和顺序性得分标签作为输入数据和输出标签训练深度神经网络，用训练得到的网络作为基础模型实现特征提取和多种应用。

图1为本发明一种基于运动顺序性回归的自监督学习方法的步骤流程图。如图1所示，本发明一种基于运动顺序性回归的自监督学习方法，包括如下步骤：

步骤S1，随机截取固定帧数的视频样本片段。在本发明具体实施例中，通过采用均匀分布随机采样方法确定起始帧位置，截取固定帧数的视频样本片段，所述固定帧数为样本片段长度。

具体地，于步骤S1中，首先给定采样序列窗长度参数，即固定帧数M＝10，这里的M值可根据精度和计算能力要求调整，然后对任意总帧数为L的视频，随机生成采样样本序列起始帧在原视频中的帧号s，整数s∈[0,L-M]，且服从均匀分布，生成s后即可得到原视频中的帧序列X⁰＝{x_s，x_s+1，...，x_s+M-1}，该采样序列即为一个顺序样本，记为X＝{x₁，x₂，...，x_M}。

步骤S2，计算步骤S1采样到的视频样本片段的平均运动量。在本发明具体实施例中，计算相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为视频样本片段的平均运动量。

具体地，对于顺序样本X＝{x₁，x₂，...，x_M}，首先计算顺序样本X＝{x₁，x₂，...，x_M}上各相邻帧间的光流图，具体如下：

OF＝{of₁，of₂，...，of_M-1}，

其中of_i＝A_h×w＝{a_mn}，A_h×w为h行w列的光流幅值矩阵，h和w分别帧的高和宽，a_mn(1≤m≤h，1≤n≤w)为坐标(n,m)的像素所在位置的光流幅值；

然后计算光流幅值在各像素及各时间点上的平均值，即，顺序样本X＝{x₁，x₂，...，x_M}的平均运动量MV可表示为：

其中算子Ψ定义为即对输入矩阵各元素求算数平均值。

步骤S3，随机打乱步骤S1采样到的视频样本片段内帧的顺序。在本发明具体实施例中，根据半正态分布随机生成乱序视频样本片段顺序性评判值，并根据该顺序性评判值随机生成一个对应的乱序序列。

具体地，如图2所示，步骤S3进一步包括：

步骤S300，根据半正态分布随机生成乱序视频样本的顺序性评判S，S定义为：

其中

其中，和分别为乱序视频样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号，如图3所示实例。

步骤S301，计算视频样本X＝{x₁，x₂，...，x_M}的所有可能的乱序排列集合，计算各自对应的顺序评判，并记录各顺序评判值中的最大值为S_max；

步骤S302，采样服从高斯分布的随机变量p～N(0，S_max/2)，并计算变量作为采样的顺序评判，其中[·]为四舍五入取整；

步骤S303，在乱序排列集合中寻找顺序评判与P的采样值一致的子集φ〔P〕，从φ〔P〕中均匀随机采样得到最终的乱序视频样本

步骤S4，对步骤S3生成的乱序视频样本片段进行顺序性评判。在本发明具体实施例中，所述乱序视频样本片段的顺序性评判的主要指标为乱序后两两相邻帧顺序与原顺序的一致性程度统计值，由于这里的顺序性评判过程与步骤S3的过程相同，在此不予赘述。

步骤S5，综合步骤S2获得的视频样本片段的平均运动量和步骤S4获得的顺序性评判结果为样本片段生成最终的顺序得分作为回归目标值，即标注标签。

具体地，该乱序视频样本的最终顺序得分为其顺序评判S与原顺序序列(原视频样本片段)平均运动量MV的加权，定义为

优选地，如图4所示，于步骤S6之后，本发明之基于运动顺序性回归的自监督学习方法，还包括：

步骤S6，为步骤S3得到的乱序视频样本片段生成视觉特征。在本发明具体实施例中，乱序视频样本片段的视觉特征采样帧间差求和的方式获得。具体地，乱序视频样本的视觉特征定义为：

其中I_i表示第i帧图像。

步骤S7，利用所述乱序视频样本片段的视觉特征及步骤S5得到的最终乱序得分回归目标值训练深度回归神经网络，训练得到深度网络模型。具体地，将乱序视频样本片段及对应最终得分输入到的深度神经网络结构，所述深度神经网络为基础卷积网络加回归损失函数，将乱序视频样本片段的视觉特征作为网络输入，顺序评判最终得分作为网络输出的真实标签，训练得到通用的视觉模型，即作为输入数据的(乱序视频样本的视觉特征)和对应的作为输入数据标注标签的最终顺序得分组成训练数据集，进行深度神经网络的训练，在本发明具体实施例中，根据数据类型、规模、精度、速度要求不同，可以选择各类卷积神经网络作为基础卷积网络，并采用均方误差作为回归损失函数。

需说明的是，训练得到的基础网络模型为通用的视觉特征提取模型，对任意输入图像，基础网络最后一层的输出即为输入图像的特征向量，可用于分类、识别等多种应用。

图5为本发明一种基于运动顺序性回归的自监督学习装置的系统架构图。如图5所示，本发明一种基于运动顺序性回归的自监督学习装置，包括：

视频样本采样单元501，用于随机截取固定帧数的视频样本片段。在本发明具体实施例中，视频样本采样单元501通过采用均匀分布随机采样方法确定起始帧位置，截取固定帧数的视频样本片段，所述固定帧数为样本片段长度。

具体地，视频样本采样单元501给定采样序列窗长度参数，即固定帧数M＝10，这里的M值可根据精度和计算能力要求调整，然后对任意总帧数为L的视频，随机生成采样样本序列起始帧在原视频中的帧号s，整数s∈[0,L-M]，且服从均匀分布，生成s后即可得到原视频中的帧序列X⁰＝{x_s，x_s+1，...，x_s+M-1}，该采样序列即为一个顺序样本，记为X＝{x₁，x₂，...，x_M}。

平均运动量计算单元502，用于计算视频样本采样单元501采样到的视频样本片段的平均运动量。在本发明具体实施例中，平均运动量计算单元502通过计算相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为视频样本片段的平均运动量。

具体地，对于顺序样本X＝{x₁，x₂，...，x_M}，平均运动量计算单元502首先计算顺序样本X＝{x₁，x₂，...，x_M}上各相邻帧间的光流图，具体如下：

OF＝{of₁，of₂，...，of_M-1}，

其中算子Ψ定义为即对输入矩阵各元素求算数平均值。

乱序单元503，用于随机打乱视频样本采样单元501采样到的视频样本片段内帧的顺序。在本发明具体实施例中，乱序单元503根据半正态分布随机生成乱序视频样本片段顺序性评判值，并根据该顺序性评判值随机生成一个对应的乱序序列。

具体地，如图6所示，乱序单元503进一步包括：

顺序性评价参数生成单元503a，用于根据半正态分布随机生成乱序样本的顺序性评判参数S，顺序性评判参数S定义为：

其中

乱序集合及顺序评判值计算单元503b，用于计算所述视频样本X＝{x₁，x₂，...，x_M}的所有可能的乱序排列集合，计算各自对应的顺序评判，并记录各顺序评判值中的最大值为S_max；

采样顺序评判变量确定单元503c，用于根据采样服从高斯分布的随机变量p～N(O，S_max/2)，确定随机变量p～N(O，S_max/2)作为采样的顺序评判，在本发明具体实施例中，采样服从高斯分布的随机变量p～N(O，S_max/2)，计算变量作为采样的顺序评判，其中[·]为四舍五入取整；

乱序视频样本确定单元503d，用于于乱序排列集合中寻找顺序评判与P的采样值一致的子集φ〔P〕，从φ(P)中均匀随机采样得到最终的乱序视频样本

顺序性评判单元504，用于对乱序单元503生成的乱序视频样本片段进行顺序性评判。在本发明具体实施例中，所述乱序视频样本片段的顺序性评判的主要指标为乱序后两两相邻帧顺序与原顺序的一致性程度统计值。

标注标签确定单元505，用于综合平均运动量计算单元502获得的视频样本片段的平均运动量和顺序性评判单元504获得的顺序性评判结果为该乱序视频样本片段生成最终的顺序得分作为回归目标值，即标注标签。

具体地，该乱序视频样本的最终顺序得分为其顺序评判S与原顺序序列平均运动量MV的加权，定义为

优选地，如图7所示，本发明之基于运动顺序性回归的自监督学习装置，还包括：

视觉特征生成单元506，用于对乱序单元503获得的乱序视频样本片段生成视觉特征。在本发明具体实施例中，视觉特征生成单元506通过采样帧间差求和的方式实现，具体地，乱序视频样本的视觉特征定义为：

其中I_i表示第i帧图像。

神经网络训练单元507，用于利用所述乱序视频样本片段的视觉特征及标注标签确定单元505得到的最终乱序得分回归目标值训练深度回归神经网络，训练得到深度网络模型。具体地，神经网络训练单元507将乱序视频样本片段及对应最终得分输入到的深度神经网络结构，所述深度神经网络为基础卷积网络加回归损失函数，将乱序视频样本片段的视觉特征作为网络输入，顺序评判最终得分作为网络输出的真实标签，训练得到通用的视觉模型，即作为输入数据的(乱序视频样本的视觉特征)和对应的作为输入数据标注标签的最终顺序得分组成训练数据集，进行深度神经网络的训练，在本发明具体实施例中，根据数据类型、规模、精度、速度要求不同，可以选择各类卷积神经网络作为基础卷积网络，并采用均方误差作为回归损失函数。

图8为本发明具体实施例之基于运动顺序性回归的自监督学习方法的流程图。在本发明具体实施例中，该基于运动顺序性回归的自监督学习方法步骤如下：

首先给定采样序列窗长度参数，即帧数M＝10，M可根据精度和计算能力要求调整，然后对任意总帧数为L的视频，随机生成采样样本序列起始帧在原视频中的帧号s，整数s∈[0,L-M]，且服从均匀分布，生成s后即可得到原视频中的帧序列X⁰＝{x_s，x_s+1，...，x_s+M-1}，该采样序列即为一个顺序样本，记为X＝{x₁，x₂，...，x_M}。

计算顺序样本X＝{x₁，x₂，...，x_M}上各相邻帧间的光流图OF＝{of₁，of₂，...，of_M-1}，其中of_i＝A_h×w＝{a_mn}，A_h×w为h行w列的光流幅值矩阵，h和w分别帧的高和宽，a_mn(1≤m≤h，1≤n≤w)为坐标(n,m)的像素所在位置的光流幅值，该顺序样本X＝{x₁，x₂，...，x_M}的平均运动量MV可表示为其中算子Ψ定义为即对输入矩阵各元素求算数平均值。

将该顺序样本X＝{x₁，x₂，...，x_M}经打乱顺序后变换为乱序样本首先对乱序样本的顺序性评判S定义为其中和分别为为乱序样本序列中第i帧和第i+1帧在原顺序样本序列中的帧号；计算所有可能的样本X＝{x₁，x₂，...，x_M}的乱序排列集合，计算各自对应的顺序评判，并记各顺序评判值中的最大值为S_max；然后采样服从高斯分布的随机变量p～N(0，S_max/2)，并计算变量作为采样的顺序评判，其中[·]为四舍五入取整；在乱序排列集合中寻找顺序评判与P的采样值一致的子集φ(P)，从φ(P)中均匀随机采样得到最终乱序样本

对该乱序样本进行顺序性评判S，并计算该乱序样本的最终顺序得分为顺序评判S与原顺序序列平均运动量MV的加权，即定义最终顺序得分为

计算乱序样本的视觉特征，将乱序样本的视觉特征定义为其中I_i表示第i帧图像。

作为输入数据的和对应的作为输入数据标注标签的组成训练数据集，用于深度神经网络的训练。并可根据数据类型、规模、精度、速度要求不同，选择各类卷积神经网络作为基础网络，并采用均方误差作为回归损失函数。

需说明的是，本发明训练得到的基础网络模型为通用的视觉特征提取模型，对任意输入图像，基础网络最后一层的输出即为输入图像的特征向量，可用于分类、识别等多种应用。

综上所述，本发明一种基于运动顺序性回归的自监督学习方法及装置通过充分利用视频中运动顺序一致性的信息，通过随机生成样本以及样本内帧顺序，并建立顺序性评判标准进行自动的顺序性得分评判，以达到自动标注的目的，最后利用生成的乱序样本及其对应的顺序性得分训练深度回归网络实现自监督学习，从而摆脱了深度学习对大量人工标注样本的依赖，经实践证明，通过本发明的自监督学习方法得到的深度神经网络具有良好的泛化能力，可用于多种图像视频的分类识别应用。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于运动顺序性回归的自监督学习方法，包括如下步骤：

步骤S1，随机截取固定帧数的视频样本片段；

步骤S2，计算所述视频样本片段的平均运动量；

步骤S4，对所述乱序视频样本片段进行顺序性评判；

2.如权利要求1所述的一种基于运动顺序性回归的自监督学习方法，其特征在于，于步骤S5后，还包括如下步骤：

步骤S6，对所述乱序视频样本片段生成视觉特征；

3.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于：于步骤S1中，采用均匀分布随机采样方法确定起始帧位置，截取固定帧数的视频样本片段，所述固定帧数为所述视频样本片段长度。

4.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于：于步骤S2中，计算所述视频样本片段中相邻帧间的光流矢量图并计算光流幅值在各像素及各时间点上的平均值作为所述视频样本片段的平均运动量。

5.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于：于步骤S3中，根据半正态分布随机生成乱序视频样本片段顺序性评判值，并根据该顺序性评判值随机生成一对应的乱序序列。

6.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于，步骤S3进一步包括：

7.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于，所述顺序性评判参数S定义为：

其中

8.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于：于步骤S4中，所述乱序视频采样片段的视觉特征通过采样帧间差求和的方式获得。

9.如权利要求2所述的一种基于运动顺序性回归的自监督学习方法，其特征在于：于步骤S6中，所述乱序视频样本片段的最终顺序得分为其顺序性评判值S与原顺序序列的视频样本片段的平均运动量的乘积。

10.一种基于运动顺序性回归的自监督学习装置，包括：

标注标签确定单元，用于综合所述平均运动量计算单元获得的视频样本片段的平均运动量和顺序性评判单元获得的顺序性评判结果为所述乱序视频样本片段生成最终的顺序得分，并作为回归目标值，即获得标注标签。