CN114663798A

CN114663798A - 一种基于强化学习的单步视频内容识别方法

Info

Publication number: CN114663798A
Application number: CN202210030836.0A
Authority: CN
Inventors: 林锦涛; 段浩东; 陈恺; 林达华; 王利民
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-06-24

Abstract

本发明公开一种基于强化学习的单步视频内容识别方法。该方法包括：对目标视频执行时序维度的稀疏采样，获得候选视频帧；利用基于强化学习的模型框架获得视频内容识别结果，该模型框架包括略读网络、策略网络和视频识别器，略读网络对经空间降采样后的候选视频帧提取特征，该特征是整个目标视频的全局粗粒度时空特征；策略网络以提取的特征作为输入，输出对应的多项式分布，用于选择最优的视频帧集合，作为目标视频表达的视频片段；视频识别器以视频片段作为输入，输出对应的分类结果。本发明在基于单次迭代的前提下，将视频压缩为一段几个视频帧表示的表征片段，并且在不修改视频分类器模型的前提下，提高识别的准确率并加速实际推理速度。

Description

一种基于强化学习的单步视频内容识别方法

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种基于强化学习的单步视频内容识别方法。

背景技术

随着社交媒体平台的流行以及网络视频内容的爆炸式增长，如何处理大量视频数据中的动作或事件识别问题，逐渐成为研究的焦点。现有方案通常致力于探索复杂的时序模块，并通过密集地应用2D卷积或3D卷积来捕捉视频中的时序关系。对于2D卷积模型，通常采用先进的2D卷积网络辅以时序处理模块(如时序池化，循环神经网络模块等)进行时间维度上的特征聚合。对于3D卷积模型，通常将其应用到时序堆叠的一系列相邻帧上，用以提取时空特征。然而，2D卷积模型需要沿时间维度进行均匀稀疏采样，可能会遗漏时间发生时的关键信息。3D卷积模型则需要聚合多个短时视频片段的预测结果，这需要消耗大量的计算资源。尽管这些模型能够达到较高的识别准确率，但是由此引发的巨大计算开销限制了其在资源受限情况下的部署能力，特别是对于需要高吞吐量且低延迟的应用需求，这些模型往往无法实际部署。

因此，如何设计一种与模型架构无关的高效视频识别方法，使其能根据不同的视频实例将视频压缩为一段由少量视频帧组成的视频片段，逐渐成为研究的重点。目前的主流方案是将视频帧采样建模为串行采样问题。例如，采用记忆加强型的LSTM(长短期记忆网络)模块，提供视频上下文信息，用以决定下一帧的位置。这种方式需要多步的迭代过程，且每一步迭代只能决定当前视频帧的决策结果，因此所需的实际推理时间往往是普通模型的几倍。再如，设计蒸馏网络，将一段短时的视频片段用其初始视频帧和对应的音频片段进行模拟，从而减少计算开销。这种方式不仅需要多步的迭代过程，并且利用单张视频帧和对应音频片段表征一小段视频片段的过程无法避免选取到无效视频帧。另一种现有方案FrameExit(FrameExit:Conditional Early Exiting for Efficient Video Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition，2021:15608-15618，Amir Ghodrati等)是将视频帧采样进一步建模为一种早停网络，能够遵循一种既定的采样策略，有次序的进行视频帧输入，并在之后判定是否释放早停信号反馈至视频识别网络，从而决定采样过程是否结束。这种方式由于遵循了事先既定的采样策略，减少了原先的搜索空间大小，但可能导致最终的选取结果为次优解，并且需要多步迭代过程，在实际推理时间上存在劣势。

此外，也有一些方法将视频帧采样建模为并行采样问题。例如，采用轻量级网络对每个固定长度的视频片段进行显著分数计算，从而区分不同视频片段的重要性。或者采用多智体强化学习技术，使用多个智能体并行地选择多个重要视频帧用于视频识别模型推理。这种方式，为了训练多个智能体，需要经过大型的骨架网络，并且为了判定多智体的决策停止时间，需要多次的网络迭代，造成大量的计算开销。经分析，目前并行采样相关方法由于缺少视频全局特征的约束，导致每个视频帧的选取相对独立，没有关联，如分别在视频片段和视频帧的选取上进行显著性指标的划分，却缺乏选取帧序列整体效果上的考虑。

综上，现有的高效视频识别方法尽管一定程度上能减少理论上的计算开销，但在实际部署上仍存在效率问题。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于强化学习的单步视频内容识别方法。该方法包括：对目标视频执行时序维度上的稀疏采样，获得候选视频帧；利用预训练的基于强化学习的模型框架获得视频内容识别结果，该模型框架包括略读网络、策略网络和视频识别器，其中，略读网络用于对经过空间降采样后的候选视频帧提取特征，该特征是表征整个目标视频的全局粗粒度时空特征；策略网络以提取的特征作为输入，输出对应的多项式分布，用于选择最优的视频帧集合，作为目标视频表达的视频片段；视频识别器以所述视频片段作为输入，输出对应的分类结果。

与现有技术相比，本发明的优点在于，通过一次性选取视频中的代表帧，提高了视频识别的效率以及识别准确率，本发明在不操作视频识别器的情况下，仍然能提升视频识别的准确率，并且在理论计算开销和实际运行速率上，都超越了现有技术所达到的指标，从而能够实际应用在具有高吞吐量需求和高运行速率需求的场景，解决了现有高效视频识别技术强依赖于视频识别器的问题。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于强化学习的单步视频内容识别方法的总体模型框架图；

图2是根据本发明一个实施例的基于强化学习的单步视频内容识别方法的流程图；

图3是根据本发明一个实施例的策略网络示意图；

图4是根据本发明一个实施例的与现有技术的效果对比图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提供的基于强化学习的单步高效视频内容识别方法也被称为OCSampler，能够自适应地将长视频压缩为一段只有几张关键视频帧组成的视频表征片段，并且在不修改视频分类器模型的前提下，提高识别的准确率，降低了理论计算开销，并能够加速视频识别的实际推理速度。进一步地，提供对OCSampler的拓展改进，或称为OCSampler+，不仅能够决定选取帧的时序位置，还可通过插入一个额外的模块来根据视频的复杂程度，决定表征视频所需的关键帧数量。

简言之，所提供的方法整体上包括：构建基于强化学习的模型框架并进行预训练；利用经训练的模型框架对目标视频进行实时内容识别。参见图1所示，该模型框架包括略读网络(skim network)f_S、策略网络(policy network)π和视频识别器f_C。总体而言，对于给定的一个目标视频，首先在时序维度上稀疏采样T个视频帧作为视频帧候选，并将时序采样后的视频帧经过空间降采样输入一个轻量级的略读网络，获取整个视频的全局粗粒度时空特征。然后，该将视频特征送入策略网络，并输出对应的多项式分布p^L，用于决定最优的视频帧集合，以构成一个高效表达的视频片段。优选地，预算模块(Budget Module)作为一个可以插入于略读网络和策略网络之间的额外模块，用于决定表征该视频所需的视频帧数量。最后，将该视频片段作为视频识别器的输入，获取该视频的分类标签。对于模型的优化，向后回传预测结果的奖励(reward)值和对应的组合估计作为期望梯度。

具体地，结合图1和图2所示，所提供的基于强化学习的单步视频内容识别方法包括以下步骤。

步骤S210，对视频执行时序维度上的稀疏采样，获得候选视频帧，进而进行空间降采样。

例如，在时序维度上稀疏采样T个视频帧作为视频帧候选(或称候选视频帧)，标记为{v₁，v₂，...，v_T}，并将时序采样后的视频帧经过空间降采样，以生成对应视频帧的缩略图。时序采样率或空间采样率可根据对计算量、计算效率以及后续识别精度等的要求进行适当设置。

步骤S220，针对空间降采样后的候选视频帧，利用略读网络提取视频的全局粗粒度时空特征。

在一个实施例中，略读网络是一个轻量级的CNN(卷积神经网络)网络，用于提取候选视频帧在时序维度以及空间维度的特征，简称时空特征。略读网络用于提供视频的全局视野，有利于引导后续模块更好地判断视频帧的重要程度。

略读网络可采用多种类型的神经网络模型，如MobileNetV2-TSM模型，3D-CNN网络，X3D网络，R(2+1)D网络等。这这些模型中，常用的组件如TSM(Temporal Shift Module，时间位移模块)或3D卷积都可以作为略读网络的构成部分，以提供更好地时空特征提取能力。需要说明的是，略读网络所需的计算量远小于视频识别器的计算量。

步骤S230，以所提取的时空特征作为输入，利用基于强化学习的策略网络选取关键帧，构成视频片段。

策略网络将略读网络输出的时空特征作为输入，以此来判定选取的关键帧的时序位置。应注意的是，策略网络对于每个视频只进行一次迭代过程，并且不使用任何CNN或RNN(循环神经网络)模块。在一个实施例中，参见图3所示，策略网络只有一个线性映射层f_L辅以Softmax函数φ以及判定所构成视频片段显著性的价值函数(reward function)。

具体地，策略网络(或称决策网络)根据输入特征输出对应的多项式分布(Multinominal Distribution)，用于进行后续的多项式选择过程。由于该决策在数学上不可导，本发明将其抽象为一个单步马尔可夫决策过程(one-step Markov DecisionProcess，MDP)，并利用强化学习进行训练。对于训练过程，选取的视频帧通过在策略网络输出的多项式分布中采样获得；对于测试过程，选取的帧则可直接选定为获得最高分数的视频帧。

本发明的单步性主要体现在：采用单步的强化学习过程，其中状态只有两个，未被采帧的状态和已被采帧的状态；动作指的是对于每一个候选帧而言，是否需要被选择；策略指的是选出的视频片段，即有多个关键帧组成的集合；奖励或回报是可设定的价值函数，例如，设置为所选的视频片段经视频识别器后对于正确标签的分数。此外，在强化学习后，后续模型应用过程中，策略网络可直接输出具有显著性价值函数的视频片段。

由于动作是离散动作空间，策略网络学习的是多项式分布，该多项式分布能够反映不同的视频片段对于视频表征的价值。例如，在多项式分布下，可利用Sotfmax结合交叉熵损失计算价值或回报。策略网络所选出的视频片段针对候选视频帧进行了压缩，标记为

该视频片段包含的关键帧数目N小于候选帧数目T。

步骤S240，将所选取的视频片段输入到视频识别器，获得分类结果。

视频识别器用于对选取的关键视频帧组成的视频片段进行标签识别，并计算该视频片段的回报值(reward)。不同于现有的视频识别方法，本发明实施例提供的识别器用于一整个视频片段，而非逐一计算每个视频帧。

视频识别器模型可采用现有模型实现，如ResNet50模型、SlowFast、X3D、MobileNetV2等，且整个模型框架的主要计算开销都来自于视频识别器。

视频识别器利用已知的样本数据集进行训练，以学习视频识别器的参数，如权重、偏置等。依据样本数据集类型不同，可实现多种场景下的视频内容分类。类别可以是动作(如做蛋糕)，场景(如海滩)，物体(如汽车)等。本发明可实现对多种类型的视频或图像进行分类识别，例如识别面部表情动作、与物体交互有关的动作、常见的肢体动作、与人交互有关的肢体动作、人与物体交互相关动作、人与人交互相关的动作等。

为了更好的理解本发明，以下重点说明整个模型框架(OCSampler)的训练过程，其训练算法可以分为两部分：初始化略读网络和视频识别器，以及优化策略网络。

对于初始化略读网络和视频识别器，OCSampler分别通过视频识别任务和交叉熵损失函数对两部分的模型进行微调，使其获得良好的时空特征提取能力，能够更好地反馈回报值(reward)，并使后续的策略网络不受其他网络的影响。

对于优化策略网络，将问题建模为单步马尔可夫问题，并采取强化学习进行优化。具体地，策略网络的目标为最大化网络回报期望值

其中r为单个实例的回报值，具体定义为：

其中，θ_L表示需要学习的模型参数，z^S表示提取的全局特征，

表示将均匀等间隔的稀疏采样作为基准(baseline)采样方法下正确标签所对应的概率，

表示利用OCSampler采样所得的视频帧进行分类得到的正确标签所对应的概率，

表示将均匀等间隔的稀疏采样作为基准(baseline)采样方法下所得到的网络回报期望值。

该公式(1)不仅包含选取帧片段的回报价值，还将均匀采样得到的策略结果作为基准，以加强策略选择的稳定性，从而能够更好地判别每种策略的有效程度。

此外，为了能够根据视频难易自适应地确定所需要的视频帧数，可以通过插入一个额外的预算模块将OCSampler拓展为OCSampler+。例如，预算模块由一个64维的MLP(多层感知器)组成，以略读网络的输出特征作为输入，输出需要视频帧数量的概率，进而根据概率确定视频片段中应包含的关键帧数目。

在一个实施例中，为了训练预算模块，需要根据样本数据构造伪标签，每个视频通过测试不同帧数下准确率分布，并将其进行归一化后得到对应伪标签。通过在伪标签上进行分类任务微调，可以得到预算模块的权重，并插入至略读网络和策略网络之间，以获取每个视频所需帧数的估计。

需要说明的是，整个模型框架的预训练过程可在服务器或云端离线进行。将经训练的模型框架嵌入到电子设备即可实现实时的目标视频内容识别。该电子设备可以是终端设备或者服务器，终端设备包括但不限于手机、平板电脑、个人数字助理(PDA)、销售终端(POS)、车载电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)等任意终端设备。服务器包括但不限于应用服务器或Web服务器，可以是独立服务器或者集群服务器或云服务器等。在实际的模型应用中，电子设备可以直接从视频图像采集设备处获取待识别的目标视频。或者也可以将该目标视频通过网络发送给电子设备。本发明对获取目标视频的方式不作限定。

应理解的是，本发明所提供的视频内容识别方法不仅可以用于高效视频识别，也可以用于视频概述(Video Summarization)，视频检索(Video Retrieval)，视频定位(Video Localization)等任务中，因为这些任务都需要在初始时对视频进行采帧处理，本发明可以在这个过程中提供更鲁棒的采帧结果。本发明可用于游戏、企业服务、医疗健康、金融、娱乐、电子商务、智能家居、直播监控、智能安防等多种领域。

进一步地，为了验证本发明的效果，基于不同数据集与现有技术进行了对比实验。实验结果参见下表和图4所示，其中Ours、OCSampler或OCSampler+表示本发明实施例，在此对其他现有技术的具体内容不再赘述。

表1：在ActivityNet-v1.3和Mini-Kinetics数据集的对比

表1是不同方法在ActivityNet-v1.3和Mini-Kinetics数据集上的准确率和理论复杂度对比，其中mAP(均值平均精度)是用于衡量检测精度的指标，GFLOPs反映计算量。可以看出，本发明在提升识别精度的前提下，降低了运算量。

表2：不同方法在ActivityNet-v1.3上测试实际运行速率对比

表2是不同方法在ActivityNet-v1.3上测试实际运行速率，硬件统一为单张NVIDIA TITAN Xp GPU。可以看出，本发明的实际运行速率最好(参见吞吐量Throughput指标)，并且在提升识别精度的同时，降低了运算量。

表3：不同方法在Mini-Sports1M和FCVID数据集的对比

表3是不同方法在Mini-Sports1M和FCVID数据集上的准确率和理论复杂度对比。可以看出，本发明在识别精度和运算量方面均优于其他现有方法。

表4：不同的帧决策策略的对比

表4是不同策略下的识别准确率结果。可以看出，本发明的鲁棒性最强，所有的策略使用相同的识别器和决策策略，T设置为10。

表5：决策空间的有效性

表5是不同搜索空间下本发明的识别准确率和理论计算复杂度。可以看出，搜索空间越大，效果越好。其中，N设为6，对于T＝6，将帧在未经采样的情况下送入识别器。

表6：本发明所选视频帧构成的视频片段在不同识别器上的结果

在表6中，对于所有识别器，设置N为4，RN、MN-T、SLOW分别表示ResNet，MobileNetV2-TSM和SLOWOnly模型。相对于基准识别器模型(baseline)，本发明所选视频帧在不同识别器上的结果证明了视频片段的鲁棒性。

为进一步说明本发明的效果，与目前最好的现有技术FrameExit进行了对比。FrameExit将视频帧采样建模为判断何时进行早停的问题。FrameExit能够遵循一种事先既定的采样策略，按照事先规划好的次序进行视频帧输入，并在每个视频帧输入之后判定是否释放早停信号反馈至视频识别网络，从而决定采样过程是否结束。在早停前所经过的视频帧即为所选帧。相对于FrameExit，本发明至少具有以下优势：

1)、在使用同样的视频分类器的前提下，本发明在识别准确率和理论计算开销上均能超过FrameExit方法。这是因为本发明考虑整个视频片段得出回报值，而非针对单个视频帧的结果作为反馈，因此决策结果更具有鲁棒性。

2)、本发明由于只需要进行一次网络迭代就能获得决策结果，在实际运行速率上远超FrameExit。本发明的迭代过程是略读网络->决策网络->分类器，而FrameExit需要多次经过分类器，并且分类器的计算开销最大，因此本发明在实际运行速率上具有显著优势。

3)、本发明不需要事先设定一种特定的采样策略，有更大的搜索空间，更加接近最优解。而FrameExit减少了原先的搜索空间大小，很可能导致最终的选取结果为次优解(即最优解可能不在事先既定的采样范围)。

综上所述，本发明首先将视频经过均匀的稀疏采样，并将采样后的视频帧经过一个轻量级的卷积神经网络获取整个视频全局粗粒度特征。然后，基于该视频实例，通过强化学习算法训练一个简单高效的策略神经网络，能够为后续的视频分类器挑选最适合的视频帧用以组成视频片段。最后，根据构造的视频片段进行视频识别，获得该视频的类别。此外，通过进一步增加预算模块对模型进行改进，不仅能够决定选取帧的时序位置，还可以根据视频的复杂程度，决定表征所需的视频帧数。总之，本发明设计了一种高效且轻量的网络架构，能够在基于单次迭代的前提下，将视频压缩为一段只有几个视频帧表示的表征片段，并且能够在不修改视频分类器模型的前提下，提高识别的准确率，降低了理论计算开销，并且加速视频识别的实际推理速度。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于强化学习的单步视频内容识别方法，包括以下步骤：

对目标视频执行时序维度上的稀疏采样，获得候选视频帧；

利用预训练的基于强化学习的模型框架获得视频内容识别结果，该模型框架包括略读网络、策略网络和视频识别器，其中，略读网络用于对经过空间降采样后的候选视频帧提取特征，该特征是表征整个目标视频的全局粗粒度时空特征；策略网络以提取的特征作为输入，输出对应的多项式分布，用于选择最优的视频帧集合，作为目标视频表达的视频片段；视频识别器以所述视频片段作为输入，输出对应的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述略读网络采用轻量级卷积神经网络实现。

3.根据权利要求1所述的方法，其特征在于，所述策略网络设有一个线性映射层和分类层，其中线性映射层用于对输入特征进行线性拟合，分类层利用Softmax函数确定各分类标签的概率，并判定所构成视频片段显著性的价值函数，且所述策略网络对目标视频只进行一次迭代过程。

4.根据权利要求1所述的方法，其特征在于，所述视频识别器对输入的视频片段进行标签识别，并将向后回传预测结果的奖励值和对应的组合估计作为期望梯度。

5.根据权利要求1所述的方法，其特征在于，在所述模型框架预训练过程中，对于所述策略网络的优化，将问题建模为单步马尔可夫问题，并采取强化学习进行优化，策略网络的优化目标是最大化回报期望值

其中r是单个实例的回报值，表示为：

其中，

表示视频片段，θ_L表示需要学习的模型参数，z^S表示提取的全局时空特征，

表示将均匀等间隔的稀疏采样作为基准采样方法下正确标签所对应的概率，

表示采样所得的视频帧进行分类得到的正确标签所对应的概率，

表示将均匀等间隔的稀疏采样作为基准采样方法下所得到的网络回报期望值，并且在强化学习中，状态包括未被采帧状态和已被采帧状态，动作指的是对于每一个候选帧，是否需要被选择，策略表示选出的视频片段。

6.根据权利要求1所述的方法，其特征在于，所述略读网络和所述策略网络之间还设有预算模块，该预算模块基于所述略读网络输出的特征来确定目标视频所需的关键帧数目，以指导所述策略网络输出对应的多项式分布，该多项式分布反映不同的视频片段对于视频表征的价值。

7.根据权利要求6所述的方法，其特征在于，所述预算模块基于多层感知器构建，以略读网络的输出特征作为输入，输出目标视频所需关键视频帧数目的概率。

8.根据权利要求6所述的方法，其特征在于，根据以下步骤训练所述预算模块：

针对多个样本视频测试不同帧数下准确率分布，并将其进行归一化后得到对应伪标签；

通过在伪标签上进行分类任务微调，得到预算模块的参数，并插入至略读网络和策略网络之间获取每个视频所需帧数的估计。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种电子设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。