CN110263666B

CN110263666B - 一种基于非对称多流的动作检测方法

Info

Publication number: CN110263666B
Application number: CN201910458481.3A
Authority: CN
Inventors: 王乐; 康子健; 刘子熠; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-01-19
Anticipated expiration: 2039-05-29
Also published as: CN110263666A

Abstract

本发明公开了一种基于非对称多流的动作检测方法，包括以下步骤：从先验视频中提取RGB图像和光流，训练获得训练好的RGB图像单流网络和光流单流网络；提取先验视频中每帧的图像流特征信息和光流特征信息，结合动作标签，训练非对称双流网络；通过训练好的RGB图像单流网络和光流单流网络，分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息，获得目标视频的段特征并输入训练好的非对称双流网络，计算获得视频分类向量；从视频分类向量中选择出潜在动作，获得潜在动作的动作识别序列；通过动作识别序列完成动作的检测。本发明的动作检测方法，考虑到了图像流和光流之间的不对称性，可提升动作识别和动作检测的准确率。

Description

一种基于非对称多流的动作检测方法

技术领域

本发明属于计算机视觉与模式识别技术领域，特别涉及一种基于非对称多流的动作检测方法。

背景技术

对视频动作的发现和分割是视频处理领域中重要的研究内容，被广泛运用在动作追踪和发现中，具有很大的理论研究价值和实际应用价值。其中，利用弱监督数据实现的动作检测方法只需要少量人工标注就可以获得很好的性能。弱监督实现的动作检测方法从视频级别的标签进行建模，通过注意力机制判断视频帧是否包含动作。

为了对帧建模，大多数方法首先对视频序列进行处理，提取图像流和光流并融合，接着利用视频标签训练，再根据视频帧对网络逐帧进行激活判别。在弱监督动作检测方法中，传统的双流结合方式将双流看作是对称的，带来了很强的过拟合，无法准确定位动作。

发明内容

本发明的目的在于提供一种基于非对称多流的动作检测方法，以解决上述存在的一个或多个技术问题。本发明的动作检测方法，考虑到了图像流和光流之间的不对称性，可提升动作识别和动作检测的准确率。

为达到上述目的，本发明采用以下技术方案：

一种基于非对称多流的动作检测方法，包括以下步骤：

步骤1，采集若干已标注视频标签的先验视频，从先验视频的帧信息中提取RGB图像和光流；通过提取的RGB图像并结合视频标签训练卷积神经网络，获得训练好的RGB图像单流网络；通过提取的光流并结合视频标签训练卷积神经网络，获得训练好的光流单流网络；

步骤2，通过步骤1获得的训练好的RGB图像单流网络和光流单流网络，分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息；

步骤3，根据步骤2提取的图像流特征信息和光流特征信息，并结合动作标签，训练非对称双流网络，最终获得训练好的非对称双流网络；其中，非对称双流网络训练的过程包括：将图像流特征信息和光流特征信息结合作为输入，输出多流分类结果和多流注意力权重，加权多流分类结果获得视频分类向量，最小化非对称双流网络的损失函数；

步骤4，通过步骤1获得的训练好的RGB图像单流网络和光流单流网络，分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息；

步骤5，根据步骤4提取的图像流特征信息和光流特征信息，获得目标视频的段特征；将目标视频的段特征输入步骤3获得的训练好的非对称双流网络，输出段分类向量和段注意力权重；根据段分类向量和段注意力权重计算获得视频分类向量；

步骤6，从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作；其中，对于潜在动作a，从步骤5中获得的段分类向量中抽取潜在动作a的分类权重，获得潜在动作a的动作识别序列；通过潜在动作a的动作识别序列完成动作a的检测。

本发明的进一步改进在于，步骤3的非对称双流网络训练的过程中，图像流和光流信息结合的方式为：将光流特征信息作为主信息流；

将图像流特征信息和光流特征信息进行降维与融合后，作为辅助信息流；

将主信息流与辅助信息流拼合获得双流特征信息。

本发明的进一步改进在于，步骤6中还包括：使用阈值将获得的动作识别序列中的误动作剔除，获得剔除误动作后的动作识别序列；对剔除误动作后的动作识别序列进行最近邻插值，获得与目标视频帧数一一对应的激活序列；根据激活序列提取获得动作片段和动作片段置信度。

本发明的进一步改进在于，步骤6中使用的阈值为经验值或自适应阈值；

其中，自适应阈值在非对称双流网络训练时统计，具体步骤包括：

预设自适应阈值比例为p_th，p_th表示自适应阈值所对应的分位数，分位数为小于1大于0的小数；

统计所有先验视频的注意力权重，注意力权重序列

其中λ_t为序列中得第t位；对序列K重新排序，使得λ_i<λ_j,i<j，其中i，j为排序后得序号；

取排在第[m*p_th]位的权重

为自适应权重；其中，[]表示取整。

本发明的进一步改进在于，步骤3中，非对称双流网络的训练过程包括：

对输入的多流信息非对称降维和融合，所述多流信息包括主信息流和辅助信息流；其中，非对称降维表示不同流信息降维比例不同，融合指使用相加、拼接或神经网络合并特征向量；

使用分类神经网络处理融合了非对称双流信息的特征向量，输出对应输入特征的分类向量x和注意力权重λ；

通过softmax方法对分类向量和注意力权重归一化；通过对来自视频中多个的分类向量和注意力权重进行加权求和，获得视频分类向量。

本发明的进一步改进在于，步骤3中，

获得辅助信息流的步骤包括：将输入的光流特征和图像流特征降维，使用全连接或双线性神经网络融合降维的光流特征和特性特征；

另外，辅助信息流降维比例大于主信息流的降维比例；辅助信息流降维比例大于0且小于1/4。

本发明的进一步改进在于，非对称双流网络包括：

降维网络，用于对输入特征进行降维；

分类网络，用于输出对应帧的多流分类向量和多流注意力权重；

融合网络，用于融合光流特征和图像流特征，以及用于融合主信息流和辅助信息流；其中，融合方式包括使用双线性网络或相加或向量拼接的方法。

本发明的进一步改进在于，非对称双流网络中，

降维网络为一层或多层全连接网络，通过改变全连接网络的输出维度，降级输出向量的维度；

分类网络为一层或多层全连接网络；

融合网络的输入向量和合并向量使用一层或多层全连接层对信息进行转换、增维和降维，用于使融合的信息具有更高非线性性；

其中，双线性网络和全连接层包括归一化函数，对应的双线性或线性变换，以及对应的非线性函数。

本发明的进一步改进在于，步骤3中在训练非对称多流网络前还包括：将步骤2获得的图像流特征信息和光流特征信息分段及采样，获得段特征；将视频包含的动作标注在段特征上获得训练数据；

采用降维网络对特征进行降维，获得降维后的图像流特征信息和光流特征信息；其中，对于图像流和光流，主信息流和辅助信息流，降维比例；

将降维后的或原始(降维比例为0)光流特征信息作为主数据流；

将降维后的图像流特征信息和降维后的光流特征信息输入融合网络融合，例如使用双线性神经网络作为融合网络，输出降维后的双流特征信息；将双流特征信息作为辅助特征流；

将双流特征信息与降维后的光流特征信息拼接获得非对称多流网络的特征信息。

本发明的进一步改进在于，步骤1具体包括：

步骤1.1，确定需要识别的动作列表，收集包含目标动作相关的先验视频数据；将先验视频切割成视频频段，标记视频片段中出现的动作；将视频片段转换为图像信息和光流信息，对视频片段采样，获得用于训练单流网络的图像信息和光流信息；其中，每个视频频段至少出现一个动作；

步骤1.2，将步骤1.1采样获得图像信息和光流信息分别输入卷积神经网络，训练获得RGB图像单流网络和单流网络；其中，卷积神经网络的训练过程包括：输出分类向量和注意力权重标量，使用softmax方法对注意力加权输出分类结果；用交叉熵作为损失函数计算权重的梯度，通过梯度下降方法优化神经网络参数，最小化期望误差。

与现有技术相比，本发明具有以下有益效果：

本发明的基于非对称多流的动作检测方法，利用弱监督训练对视频动作发现和分割，即使用视频级别的标签训练模型来拟合动作序列；使用深度神经网络模型对动作序列建模，输出动作发现序列，可提升动作识别和动作检测的准确率，同时具有较高的可靠性和鲁棒性。

本发明采用的非对称多流结合方法考虑到了图像流和光流之间的不对称性，在对实际视频序列建模时，能够保证图像流和光流都对建模产生正面效益；使用双线性函数等进行双流融合和建模，考虑到了双流间的相互作用和流本身的信息，可大大提升动作识别和动作检测的准确率，并使得注意力权重更加可靠。

本发明的双流结合方法使用神经网络实现，不需要手工设计权重参数，并可以通过梯度下降快速优化。

本发明输出动作激活序列作为动作发现序列，可进一步提升动作识别和动作检测的准确率。

目前的弱监督方法往往设计大量经验参数，使得模型对数据敏感，在实际环境中不可靠，这是由于传统的方法要求对不同的先验数据手工设计，如阈值、多流权重等超参数，使得不同数据源的数据难以结合，这使得模型不稳定、鲁棒性弱。本发明采用自适应阈值方法来简化训练流程；通过自适应阈值，本发明的方法较容易被运用到新收集的数据中，能够大大简化建模的流程；在流程简化的同时，本发明具有较高鲁棒性，在处理未知数据时十分稳定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于非对称多流的动作检测方法的流程示意框图；

图2为本发明实施例的一种基于非对称多流的动作检测方法中非对称双流网络流程示意框图；

图3为本发明实施例的一种基于非对称多流的动作检测方法进一步细化后的流程示意框图；

图4为本发明实施例的一种基于非对称多流的动作检测方法对于不同流模型的对比示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种基于非对称多流和自适应阈值的动作检测方法，包括以下步骤：

(1)使用预收集的先验视频序列，已知视频包含的动作；从视频中提取RGB图像和光流，利用视频标签建立视频标签向量；对视频帧抽样，用单流神经网络建模，最小化注意力加权的分类结果，获得训练好的动作识别单流神经网络；利用单流神经网络模型提取先验视频的图像流和光流特征，训练非对称双流神经网络，处理提取的图像流和光流特征，记录自适应注意力阈值并最小化注意力加权分类结果。

(2)使用训练好的动作识别单流神经网络和非对称多流神经网络，完成目标视频的动作检测。首先对目标视频帧取样，提取视频每帧的图像和光流；抽样并利用单流网络提取抽样帧的图像流和光流特征，合并提取的图像流和光流特征，使用非对称双流网络提取识别序列每段的分类向量和注意力权重，有x_t,λ_t＝F(q_t)，其中，x_t为第t帧所有动作类别的分类向量，λ_t为这一帧的注意力权重；利用每段的分类向量和注意力权重，计算视频的分类向量，从中选择置信度大于0.1的动作类别；针对这些动作类别，抽取他们的段分类向量，获得原始动作识别序列；使用阈值方法和自适应阈值排除原始动作识别序列中的误动作。然后对动作识别序列进行最近邻插值，获得与待测试视频帧数一一对应的激活序列；利用现有检测和分割方法根据激活序列提取动作片段和动作片段置信度，完成检测与切割。

本发明的非对称多流结合方法，通过设计统一的网络，使用双线性连接融合双流数据，将来自于图像流和光流的信息通过神经网络结合。本发明提出的自适应阈值利用先验视频数据计算，可以自动生成阈值，分辨视频中的无效帧，对于单流或多流具有较高鲁棒性。本发明将多流结合和动态阈值方法统一在了同一个框架下，可以使用统一的网络和方法来学习不同来源的先验视频数据，并应用在未知视频上，生成位置视频的动作识别序列。

请参阅图1和图2，步骤(1)中所述神经网络训练具体包括以下步骤：

1)先验数据的收集和处理：确定需要识别的动作列表，收集包含目标动作相关的视频数据，切割收集的原始视频，生成10-30秒的动作片段，使得每个动作片段至少出现一个动作，标记视频片段中出现的动作，标注方式为0，1向量，即长度为总类别数的向量

其中包含动作对应的类别为0，非包含动作对应的类别为1；从视频中取样，将动作片段转换为多帧图像信息和光流信息；对动作片段采样，采样的结果包含m帧RGB图像信息和m帧光流信息，采样的数据用于训练单流网络。

2)训练单流网络：训练用于视频分类的卷积神经网络，利用采样的图像信息和光流信息分别训练图像网络和光流网络；单流网络F_b使用卷积神经网络结构，分别输入采样的图像信息和光流信息；网络一次接受m帧图像信息的输入，输出m组分类向量

和注意力权重标量

其中x_t为动作维度维向量，表示了第t帧不同动作发生可能性的置信度，λ_t表示了第t帧动作得置信度，使用softmax方法对注意力加权输出分类结果，即

其中y为对视频包含动作可能性的置信度，对y使用softmax方法归一化；用交叉熵作为损失函数l_s，其中l_s＝∑log(y)l，l为视频标签向量，计算网络权重的梯度，通过梯度下降方法优化神经网络参数，最小化期望误差；获得训练好的单流网络，固定网络权重，迁移网络，提取网络中倒数第二层作为输出，并将其作为需要的单流网络，给定每帧的图像x^r或光流x^f，网络输出每一帧的图像特征q^r，注意力权重λ^r，光流网络同理，有q^r,λ^r＝F^r(x^r)，q^f,λ^f＝F^f(x^f)。

3)双流网络的采样：对于训练好的单流网络和先验动作视频，先利用单流网络逐帧抽取特征；对先验视频片段

利用单流网络提取特征，获得特征序列

从特征序列中取样，取样方式为：先将视频分为7段，每一段中随机取样3份，将3份特征求平均，获得取样后的特征序列

最后将视频包含的动作标注在取样的数据上，获得一份训练数据；每次训练的数据都按照以上方法从随机动作片段中生成。

4)训练非对称多流网络：对特征序列Q，对其中包含的每一段的特征q^r和q^f，非对称多流网络融合并提取多流信息；其中，使用光流特征作为主要数据流，将其他特征作为辅助数据流；辅助信息流由光流特征和图像特征降维并融合而来，其输入为图像流和光流的特征q^r和q^f,输出为混合特征q^m；辅助信息流使用一层或多次全连接层降维，以一层全连接层为例：使用全连接网络降维图像和光流特征，使得

其中σ是ReLU非线性函数，W_r和W_f是可学习权重；辅助信息流的融合部分使用拼接、相加或双线性层，其中，以使用双线性神经网络对降维后的特征进行融合为例，融合的辅助信息流特征

其中σ为ReLU非线性函数，W_b为双线性网络权重，其中q^m为双线性网络的输出；已获得的辅助信息流特征，融合主信息流和辅助信息流，融合方式为相加、拼接或使用双线性网络，其中，主信息流可以不降维，直接使用提取的光流特征；以拼接方法进行融合为例：将辅助信息流特征q^m和主信息流特征(提取的光流特征)q^f拼接，获得非对称多流网络的特征，输入分类网络；其中分类网络使用一层或多次全连接层，分类网络输出对应帧的多流分类向量x_t和多流注意力权重λ_t，当使用一层全连接层时，以多流分类向量为例，可以写为x＝W_m,xq^m+W_f,xq^f,λ＝W_m,λq^m+W_f,λq^f,其中，可以将W_f,x和W_f,λ初始化为单流光流网络全连接层的权重；给定包含7组特征的训练数据和标签l,利用softmax方法加权分类结果，最小化损失函数；取经过softmax之后的多流分类结果和注意力权重作为输出,即

对s使用softmax方法归一化；利用交叉熵误差损失l_s，其中l_s＝∑log()；将训练好的非对称双流网络记为网络F,网络接受段特征输入q＝{q^r,q^f},输出段分类向量x和注意力权重λ。

5)在训练时统计注意力权重：对特征序列Q，定义自适应阈值比例p_th，他代表自适应阈值所对应的分位数(小于1大于0的小数)，他的比例一般大于视频中动作出现的比例；对于每个数据集，我们认为存在一个最优阈值比例，它生成的自适应阈值对各种模型均有效；给定视频信息序列

和网络F，在上一步训练的每轮迭代时，统计注意力权重序列

其中λ_t为序列中得第t位；对序列K重新排序，使得λ_i<λ_j,i<j，其中i，j为排序后的序号，λ_i，λ_j为排序后序号i，j对应的元素；取其中序号比例对应注意力权重为该序列的自适应权重，即取排在第[m*p_th]位的权重

为自适应权重，其中[]代表取整；使用滑动平均值方法求得预收集得先验视频动作的自适应阈值，其中，每处理一组视频序列X，新的自适应阈值观测值

同时，历史统计的自适应阈值

其初始化为0，令滑动平均比例为γ，有

其中，

为新的历史自适应阈值统计值，一般设为0.9；取最终的历史自适应阈值统计值作为需要的自适应阈值。

步骤(2)检测目标视频并生成动作识别序列具体包括以下步骤：

1)视频的预处理和取样：对目标视频V，首先逐帧提取图像和光流；每15帧，随机取3帧利用单流网络计算特征，获得视频特征序列

对每15帧内的3帧，对特征取平均，获得视频每段的特征序列，

使用训练的双流网络提取序列中每段的分类向量和注意力权重，

利用段分类向量和注意力权重计算视频分类向量s；

2)生成识别序列：对分类向量序列，注意力权重序列和视频分类向量s，对动作a，若满足s_a>0.1，将动作a标记为潜在动作；从每个段分类向量中抽取动作a对应的动作权重

获得原始动作识别序列

利用统计的自适应阈值，将段注意力权重小于自适应阈值的段对应的动作权重设为0，有

3)对动作识别序列的差值和分割：目标视频指定动作的动作识别序列p_a，首先对其进行最近邻插值，使得插值之后的动作识别序列

和原始视频呈逐帧对应关系，

其中下标

表示t最近邻在动作识别序列中对应的序号；使用现有方法分割动作，例如仅取相邻的激活值大于0的片段为动作，向量片段激活值的平均值作为动作片段置信度。

请参阅图4，图4展示了本发明的自适应阈值方法对图像流、光流和混合流的效果，从图中可以看出，不同流的最佳阈值都落在本发明的自适应阈值附近，体现了本发明的自适应阈值方法极佳的准确性和鲁棒性。配合各类已有后处理方法，本发明在两个广泛应用的数据源(Thumos14和ActivityNet1.2)上都取得了最好的成绩。即使使用简单的后处理方法，仅仅取相邻激活段作为动作对象，本发明在高IoU下也取得了极佳的精度。通过上述实验体现出了本发明的高性能和高可靠性。

综上所述，本发明的动作检测方法可用于弱监督视频动作发现和分割。本发明提出了非对称多流结合方法和自适应阈值方法，并与传统的弱监督动作识别方法相结合。本发明的方法提出了非对称多流结合方法，通过设计独特的双流集合网络，利用双线性连接融合双流数据，将来自于图像流和光流的信息通过神经网络结合。本发明的方法提出了自适应阈值利用先验视频数据计算，可以自动生成阈值，分辨视频中的无效帧，对于单流或多流具有较高鲁棒性。本发明将多流结合和动态阈值方法统一在了同一个框架下，可以使用统一的网络和方法来学习不同来源的先验视频数据，并应用在未知视频上，生成动作识别序列。本发明具有高自动化，高鲁棒性的特点，对数据不敏感，可靠性强，适合适用于真实生产环境。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于非对称多流的动作检测方法，其特征在于，包括以下步骤：

步骤6，从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作；其中，对于潜在动作a，从步骤5中获得的段分类向量中抽取潜在动作a的分类权重，获得潜在动作a的动作识别序列；通过潜在动作a的动作识别序列完成动作a的检测；

其中，步骤3的非对称双流网络训练的过程中，图像流和光流信息结合的方式为：将光流特征信息作为主信息流；将图像流特征信息和光流特征信息进行降维与融合后，作为辅助信息流；将主信息流与辅助信息流拼合获得双流特征信息；

步骤3中，非对称双流网络的训练过程包括：

2.根据权利要求1所述的一种基于非对称多流的动作检测方法，其特征在于，步骤6中还包括：使用阈值将获得的动作识别序列中的误动作剔除，获得剔除误动作后的动作识别序列；对剔除误动作后的动作识别序列进行最近邻插值，获得与目标视频帧数一一对应的激活序列；根据激活序列提取获得动作片段和动作片段置信度。

3.根据权利要求2所述的一种基于非对称多流的动作检测方法，其特征在于，步骤6中使用的阈值为经验值或自适应阈值；

统计所有先验视频的注意力权重，注意力权重序列

其中λ_t为序列中得第t位；对序列K重新排序，使得λ_i＜λ_j，i＜j，其中i，j为排序后得序号；

取排在第[m*p_th]位的权重

为自适应权重；其中，[]表示取整。

4.根据权利要求1所述的一种基于非对称多流的动作检测方法，其特征在于，步骤3中，

5.根据权利要求1所述的一种基于非对称多流的动作检测方法，其特征在于，非对称双流网络包括：

降维网络，用于对输入特征进行降维；

6.根据权利要求5所述的一种基于非对称多流的动作检测方法，其特征在于，非对称双流网络中，

分类网络为一层或多层全连接网络；

7.根据权利要求1所述的一种基于非对称多流的动作检测方法，其特征在于，步骤3中在训练非对称多流网络前还包括：将步骤2获得的图像流特征信息和光流特征信息分段及采样，获得段特征；将视频包含的动作标注在段特征上获得训练数据；

采用降维网络对特征进行降维，获得降维后的图像流特征信息和光流特征信息；其中，对于图像流和光流，降维比例不同；

将降维后或原始的光流特征信息作为主数据流；

将降维后的图像流特征信息和降维后的光流特征信息输入融合网络，融合网络输出双流特征信息；将双流特征信息作为辅助特征流；

8.根据权利要求1所述的一种基于非对称多流的动作检测方法，其特征在于，步骤1具体包括：