CN109409306A

CN109409306A - 一种基于深度强化学习的主动式视频行为检测系统及其方法

Info

Publication number: CN109409306A
Application number: CN201811298483.2A
Authority: CN
Inventors: 李楠楠; 张世雄; 张子尧; 李革; 安欣赏; 张伟民
Original assignee: Shenzhen Longgang Intelligent Audiovisual Research Institute
Current assignee: Shenzhen Longgang Intelligent Audiovisual Research Institute
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-03-01
Anticipated expiration: 2038-11-02
Also published as: CN109409306B

Abstract

本发明公布了一种基于深度强化学习的主动式视频行为检测系统和方法。该方法基于深度学习框架，构建了一个强化学习模型来产生视频行为提议；设计了一个多分类行为检测网络，可以同时完成行为提议分类和行为位置确定。相比于现今存在的基于滑动窗口式的行为提议方法，本发明提出的方法是主动式的，可以产生少量而优质的行为提议，从而提高了计算效率；本发明提供的方法是一个端到端的完整的检测框架，相比于传统的二段式的方法，提高了模型的整体优化效果，带来了检测精度的提升。在目前公布的测评数据集上，取得了领先的检测水平。

Description

一种基于深度强化学习的主动式视频行为检测系统及其方法

技术领域

本发明涉及视频行为分析技术领域，具体涉及到一种基于深度强化学习的主动式视频行为检测方法，该方法采用深度学习框架，利用强化学习算法来主动式产生行为提议，在此基础上完成视频行为分类和行为时间域定位。

背景技术

视频行为检测是计算机视觉领域长期以来的一个研究热点，随着互联网用户上传视频量的爆炸式增长，近年来越来越多的学者开始关注这个课题。视频行为检测通常回答两个问题：1)what？是什么行为；2)when？在什么时间段发生。通常地说，目前存在的检测方法基本上都遵循一个两步走的检测方案：1)采用滑动窗口的方式，在视频多个位置处在多个时间尺度上利用一个行为/背景的二分类器产生超量的行为提议；2)用预训练的行为分类器对行为提议进行分类，同时采用一些后处理技术，比如：行为持续时间先验、非极大值抑制等，对行为提议的位置进行调整。这种方案虽然产生了不错的检测结果，但是当输入的视频序列持续时间较长时，会带来大量的计算开销，在实际的应用场景下是不可取的。同时由于行为提议和行为检测是分离的，模型各部分的优化是分段进行的，无法完成从端(视频输入)到端(结果输出)的全局下的优化训练。2016年，Yeung等人(Serana Yeung,OlgaRussakovsky,Greg Mori and Li Fei-fei,“End to end learning of action detectionfrom glimpse in videos”,IEEE Conference on Computer Vision and PatternRecognition,pp.2678-2687)，利用强化学习构建一种基于注意力机制的模型来实现输入视频中行为时间域定位。他们的模型通过在视频感兴趣区域间不断地进行跳跃观测来实现行为分类和行为起止时间点预测。这种模型的缺点在于行为时间域的定位是通过多次累积观测后直接给出的，而无法实现位置的逐步调整。

发明内容

本发明的目的是提供一种基于深度强化学习的主动式视频行为检测方法，通过对输入视频多次累积的观测，逐步调整当前观测时间窗口的尺寸与位置，使之与行为发生的真实区域逐渐地重合，进而产生少量而优质的行为提议，同时对行为提议进行分类和位置校正，完成视频行为检测的任务。

本发明的另一目的是提供一种基于深度强化学习的主动式视频行为检测方法。

本发明提出的方法与现有的方法相比有两点主要的改进：1)本发明的方法基于深度强化学习产生行为提议，相比于传统的滑动窗口的方式，此方法可以产生少量而优质的行为提议，在很大程度上节省了运算量；2)本发明提出的模型可以进行端到端整体优化训练，相比于现有的两段式分离的方法，我们的模型训练起来更简单，模型的参数优化的更加充分。

本发明的原理是：1)构建深度强化学习模型来训练一个动作策略，使得模型根据对输入视频的累次观测结果，对当前关注的时间窗口的位置和尺寸进行调整，而此调整从有限步调整(例如，15步)长远的结果(例如，结果是关注的时间窗口与行为发生真实区域的交并比Intersection-over-union)来看，是当前可以做出的最优选择；2)把行为提议、行为分类和位置调整模块放置在同一个模型中，构建一个多任务的网络结构，实现模型端到端整体的优化训练。

本发明提供的技术方案如下：

一种基于深度强化学习的主动式视频行为检测系统，包括视频序列深度特征提取模块、强化学习模型视频行为提议模块和视频行为检测模块；其中：所述视频序列深度特征提取模块，用于提取任意长度的视频序列深度表述特征；所述强化学习模型视频行为提议模块，用于对一段视频产生少量而优质的行为提议，且产生过程是主动探索式的；所述视频行为检测模块，用于对视频行为提议进行行为分类和行为位置确定。

所述视频序列深度特征提取模块具体包括：单帧图像特征提取网络，用于提取视频序列随机抽样产生的若干图像的深度表述特征；LSTM时间序列网络，用于构建若干离散图像之间的时间关联关系，提取对一段视频序列的抽象表征。

所述强化学习模型视频行为提议模块具体包括：时间观测窗口和时间扩张窗口设置，用于提取强化学习模型当前观测内容及其上下文信息；观测窗口状态表述向量设置，用于联合表述当前窗口观测内容和其上下文信息，以及强化学习模型历史输出记录；强化学习网络设置，用于根据当前观测内容，在长期回报最大的情况下，给出当前最优的执行动作；强化学习模型执行动作集设置，用于规定对观测窗口可采取的可能的动作操作。

所述视频行为检测模块具体包括：行为检测网络，用于对强化学习模块产生的行为提议进行行为检测，得到行为分类得分和校正后的行为发生位置。

本发明提出的视频行为检测方法包括三个部分：对当前关注时间窗口和扩展时间窗口提取抽象特征表述；利用深度强化学习模型在输入视频中提取行为提议；利用多分类网络和位置回归网络对行为提议进行分类和位置调整。从一段视频输入到行为检测结果输出包括以下若干步骤(为了叙述的简洁，当前关注时间窗口以下简述为观测窗口，当前扩张时间窗口简述为扩张窗口)。本发明一种基于强化学习的主动式视频行为检测方法，包括以下步骤：

步骤1：根据待测视频，设置观测窗口和扩张窗口的初始位置；

步骤2：提取观测窗口和扩张窗口的特征表述；

步骤3：由深度强化学习模型对观测窗口的位置做一系列调整，得到动作候选区域；

步骤4：对动作候选区域进行排序，得到动作提议；

步骤5：利用行为检测网络对行为提议进行分类和位置校正，得到最终的检测结果。

与现有技术相比，本发明的有益效果是：

利用本发明提供的技术方案，在对视频中存在的行为进行检测时，采用一种主动搜索的方式来产生少量而优质的行为提议。相比于传统的滑动窗口的产生方法，节省了大量的计算开销，便于应用在对实时性要求比较高的场合；本发明中提出的模型可以进行端到端的整体优化训练，相比于现有的分段式的模型，提升了行为检测的准确性。

下面结合附图，通过实施例子对本发明进一步说明。

附图说明

图1为本发明的流程图；

图2为本发明所提出模型的网络结构图；

图3为深度强化学习模型所采用的动作指令集；

图4为观测和扩张窗口初始位置图。

附图中：

1—当前扩张窗口，2—当前观测窗口，3—CNN模块，4—LSTM模块，5—历史操作记录表述，6—扩张窗口内容表述，7—观测窗口内容表述，8—DQN模块，9—动作指令得分输出，10—行为检测模块，11—分类结果输出，12—位置调整输出，13—分类和位置输出模块全连接层，14—DQN模块全连接层，15—转换动作指令集，16—右移指令，17—左移指令，18—右扩张指令，19—左扩张指令，20—收缩指令，21—跳跃指令，22—终止指令，23—终止动作指令集，24—初始观测窗口，25—初始扩张窗口，26—t＝0时刻，27—给定视频V，28—t＝L_v时刻

具体实施方式

图1为本发明的流程图，其中s1—s6依次对应于具体实施步骤1)—6)。一种基于强化学习的主动式视频行为检测方法，其特征在于，包括以下步骤：

1)把观测窗口放置在视频开始处，窗口长度设置为行为平均持续长度。扩张窗口与观测窗口同位置，两端各向外延伸1/3窗口长度；

2)将观测窗口均匀划分为若干段，每段选取一帧图像，提取其ConvolutionalNeural Network(CNN)特征作为此段的表述。再将各段的表述依次输入到Long Short-TermMemory(LSTM)模块中得到对整个观测窗口的表述。对扩张窗口采用同样的操作得到其表述。

3)根据当前观测结果(包括观测窗口和扩张窗口的表述)和历史操作记录(对观测窗口所做调整的历史记录)，按照深度强化学习模型训练得到的动作执行策略，选择一个最优的执行动作对观测窗口的位置和尺寸进行调整，以此产生不同的动作候选区域；

4)按照得分值的高低对动作候选区域进行排序，得分值靠前的若干区域被选作为最终的动作提议；

5)利用多分类网络对动作提议进行分类，同时利用位置回归网络对动作提议的位置进行调整，进而得到最终的行为检测结果。

本发明的一种基于深度强化学习的主动式视频行为检测方法具体实施方式及整体操作流程现分述如下：

1)给定一个测试视频集，计算其中行为实例持续的平均时长，记为L_d。观测和扩张窗口初始位置放置如附图4所示。给定一段测试视频V(图4中27)，其持续时长记为L_v(图4中28)。在V的开始处(即t＝0时刻(图4中26))，放置一个观测窗口T(图4中24)和一个扩张窗口A(图4中25)，两个窗口的中心位置重合。观测窗口长度为L_d，扩张窗口左右边界由观测窗口两个边界向外各伸长得到，记其长度为L′_d。设定好T和A的位置，开始初始搜索。

2)若观测窗口T尚未遍历搜索完整个视频V，则提取观测窗口T和扩张窗口A的特征表述。T和A的特征提取过程相同，以下以T为例进行说明。图2为本发明所提出的网络结构图，其中包括数据输入和特征提取部分。图2中1为当前扩张窗口A，2为当前观测窗口T。首先将T均匀划分为16段，从每段中随机抽取一帧图像，对这些图像用CNN模块(图2中3)提取其特征。在这里，我们使用VGG-16模型(Simonyan K.and Zisserman A.2014.Very DeepConvolutional Networks for Large Scale Image Recognition.ArXiv(2014).https://doi.org/arXiv:1409.1556)，提取其fc6层特征p_cnn。用PCA降维模型将p_cnn的维度从4096维降到1024维，记为p′_cnn。然后将各段p′_cnn依次输入到LSTM模块(图2中4)中提取T的特征表述。LSTM模块由一层构成，包含512个隐藏单元。LSTM模块最后一个时间步(第16个时间步)隐含层输出作为T的特征表述，记为v_T。同理可以得到A的特征表述，记为v_A。首先构建对观测窗口T的历史操作记录表述。对T的每次操作用一个7维向量来表述，每一维分量分别对应7个动作指令，0表示动作没有执行，1表示动作执行。7个动作指令如附图3所示，可划分为两组：图3中15是转换动作指令集，图3中23是终止动作指令集。转换动作指令集实现对T的位置和尺寸的操作，包括图3中16至图3中21。终止动作指令集停止当前搜索，包括图中22。将对T的最近5次操作进行联合表述，得到一个35维的向量，记为v_h，作为历史操作记录表述。再将v_T，v_A和v_h连接起来，作为对T的状态表述，记为v_s。随后把v_s输入到深度强化学习模块DQN(图2中8)，得到7个动作指令对应的得分值，根据最大得分值对应的动作对T的位置和尺寸进行调整。DQN包括3个全连接层(图2中14)和一个输出层(图2中9)。全连接层具有1024个隐单元，输出层具有7个输出。强化学习模块DQN(图2中9)的损失函数定义如下：

max_1≤i≤nsign(IoU(T′，_gi)-IoU(T，g_i)) (1)

其中n为当前视频中存在的行为实例个数，T′为T执行动作a后更新后的状态，g_i代指行为实例，IoU(T，g_i)为观测窗口T和行为实例g_i之间的交并比。sign(x)为示例函数，当x≥0，sign(x)取值为1；当x＜0，sign(x)取值为-1。动作指令对T的位置和尺寸调整操作如下：右移和左移操作(图3中16和17)固定T的尺寸不变，位置移动距离为T长度的α倍；右扩张、左扩张和收缩操作(图3中18,19,20)固定T的位置不变，尺寸变化距离为T长度的α倍。跳跃操作(图3中21)固定T的尺寸不变，位置移动距离为T长度的β倍。这里取α＝0.2，β＝2。调整后的观测窗口T长度记为l_T，固定T的位置不变，左右边界各向外延伸得到更新后的扩张窗口A。每轮搜索，T所允许经历的最大调整次数为15，终止操作(图3中22)将直接终止当前搜索，直接开始新一轮的搜索。终止操作的位置移动距离为T长度的γ倍，改变T的长度为L_d，同时更新扩张窗口A。这里取γ＝3。

4)将每轮搜索中观测窗口T所在的区域记录下来，构建行为区域侯选池P，同时记录T每次调整时终止操作(图3中22)所对应的得分值，作为对应行为区域的得分。

5)若观测窗口T已经遍历搜索完整个视频V，则开始构建行为提议。把P中的行为区域按照其得分从高到低进行排序，保留前200个行为区域作为对视频V产生的行为提议。

6)对行为提议进行遍历。若遍历结束，则对视频V行为检测结束。若遍历没结束，则对行为提议进行分类和位置调整。图2中10为行为检测模块，包括行为分类和位置调整网络。把对当前观测窗口T的特征表述v_T输入到此网络中，经过两个全连接层(图2中13)，最后输出行为分类结果(图2中11)和位置调整量(图2中12)。其中全连接层包括1024个隐藏单元，分类结果输出为在所有动作类别和背景类别上的得分，位置调整输出为观测窗口T中心位置和长度的相对偏差。行为分类结果(图2中11)的损失函数采用softmax多分类损失，计算如下：

L_cls(u)＝-logp_u (2)

其中p_u为当前行为属于动作类别u的概率。位置调整结果(图2中12)的损失函数计算如下：

L_reg＝|t^u-t^v|₁

(3)

其中t^u和t^v分别为真实值和模型预测值，两者均为二元组{δc，δl}。设p_i，，c_i和l_i分别为行为提议及其中心位置和长度，和为p_i匹配的行为实例对应的中心位置和长度，则t^u对应的二元组定义为

以上即为本发明提出的一种基于深度强化学习的主动式视频行为检测方法的具体实施方案。此实施例是在实际视频数据集THOMAS’14上进行的，并用目前公认的评价标准mAP(mean Average Precision)对实验结果进行了评估。在IoU(Intersection overUnion)为0.5时，本发明提出的方法都达到了目前领先的检测精度，与当前方法的比较如表1所示。

表1.与当前方法的对比

表1所比较的方法列举如下：

[1]D.Oneata,J.Verbeek,and C.Schmid.Action and event recognition withvectors on a compact feature set.IEEE Conference on Computer Vision andPattern Recognition(CVPR),pp.1817–1824,2013.

[2]Yeung S.,Russakovsky O.,Mori G.,and Fei-Fei L.,End-to-end learningof action detection from frame glimpses in videos.IEEE Conference on ComputerVision and Pattern Recognition(CVPR),pp.2678-2687,2016.

[3]Shou Z.,Wang D.,and Chang S.F.,Temporal action localization inuntrimmed videos via multi-stage cnns.IEEE Conference on Computer Vision andPattern Recognition(CVPR),pp.10491058,2016

[4]Shou,Z.；Chan,J.；Zareian,A.；Miyazawa,K.；and Chang,S.F.Cdc:Convolutional-deconvolutional networks for precise temporal actionlocalization in untrimmed videos,In Computer Vision and Pattern Recognition(CVPR),2017.

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于深度强化学习的主动式视频行为检测系统，其特征在于，包括视频序列深度特征提取模块、强化学习模型视频行为提议模块和视频行为检测模块；其中：

所述视频序列深度特征提取模块，用于提取任意长度的视频序列深度表述特征；

所述强化学习模型视频行为提议模块，用于对一段视频产生少量而优质的行为提议，且产生过程是主动探索式的；

所述视频行为检测模块，用于对视频行为提议进行行为分类和行为位置确定。

2.根据权利要求1所述的基于强化学习的主动式视频行为检测系统，其特征是，所述视频序列深度特征提取模块具体包括：

单帧图像特征提取网络，用于提取视频序列随机抽样产生的若干图像的深度表述特征；

LSTM时间序列网络，用于构建若干离散图像之间的时间关联关系，提取对一段视频序列的抽象表征。

3.根据权利要求1所述的基于强化学习的主动式视频行为检测系统，其特征是，所述强化学习模型视频行为提议模块具体包括：

时间观测窗口和时间扩张窗口设置，用于提取强化学习模型当前观测内容及其上下文信息；

观测窗口状态表述向量设置，用于联合表述当前窗口观测内容和其上下文信息，以及强化学习模型历史输出记录；

强化学习网络设置，用于根据当前观测内容，在长期回报最大的情况下，给出当前最优的执行动作；

强化学习模型执行动作集设置，用于规定对观测窗口可采取的可能的动作操作。

4.根据权利要求1所述的基于强化学习的主动式视频行为检测系统，其特征在于，所述视频行为检测模块具体包括：

行为检测网络，用于对强化学习模块产生的行为提议进行行为检测，得到行为分类得分和校正后的行为发生位置。

5.一种基于强化学习的主动式视频行为检测方法，采用权利要求1-4任意一项检测系统，其特征在于，包括以下步骤：

步骤2：提取观测窗口和扩张窗口的特征表述；

步骤4：对动作候选区域进行排序，得到动作提议；

6.根据权利要求5所述的基于强化学习的主动式视频行为检测方法，其特征在于，所述的步骤1是：把观测窗口放置在视频开始处，窗口长度设置为行为平均持续长度；扩张窗口与观测窗口同位置，两端各向外延伸1/3窗口长度。

7.根据权利要求5所述的基于强化学习的主动式视频行为检测方法，其特征在于，所述的步骤2是：将观测窗口均匀划分为若干段，每段选取一帧图像，提取其ConvolutionalNeural Network(CNN)特征作为此段的表述。再将各段的表述依次输入到Long Short-TermMemory(LSTM)模块中得到对整个观测窗口的表述。对扩张窗口采用同样的操作得到其表述。

8.根据权利要求5所述的基于强化学习的主动式视频行为检测方法，其特征在于，所述的步骤3是：根据当前观测结果和历史操作记录，按照深度强化学习模型训练得到的动作执行策略，选择一个最优的执行动作对观测窗口的位置和尺寸进行调整，以此产生不同的动作候选区域。