CN111837142A

CN111837142A - 用于表征视频内容的深度强化学习框架

Info

Publication number: CN111837142A
Application number: CN201880069825.5A
Authority: CN
Inventors: R.陈; N.库马尔; H.李
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-10-27
Filing date: 2018-10-25
Publication date: 2020-10-27
Also published as: EP3701436A4; US11386657B2; WO2019084308A1; US20210124930A1; US11829878B2; JP7047087B2; US20220327828A1; US20190163977A1; US10885341B2; JP2021501416A; EP3701436A1

Abstract

视频场景中的视频信息被表示为每帧描绘的特征序列。通过时间步距t的视频信息和来自前一时间步距t‑1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态。利用由机器学习算法控制的代理对步距t的帧采取动作A(t)，其中动作A(t)的输出表示时间步距t的帧的情感标签预测。将预测动作池转变成下一时间步距t+1的预测情感历史。包括预测情感历史作为下一时间步距t+1的所述环境状态的一部分。通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于预测动作生成奖励R。

Description

用于表征视频内容的深度强化学习框架

优先权要求

本申请要求2017年10月27日提交的美国临时专利申请62/577，970号的优先权权益，其全部内容通过引用并入本文中。

背景技术

随着视频点播移动电话应用和网站(如youtube.com)的普及，人们可以从不同的在线来源获得前所未有的视频量。因此，提取视频元数据(例如，电影场景标注)在方便高效搜索和推荐中起着重要作用。例如，电影推荐系统需要识别电影剪辑场景情感信息，并基于用户的请求或兴趣将其推荐给对应的用户。

然而，大多数可靠的电影标注仍然是手动生成的，因为电影场景情感标签，例如场景是否好笑，通常在较长的时间尺度上表现出来。当人类标注者试图识别电影场景的情感标签时，他们需要考虑更长的上下文。使用一种特定的算法来模拟人类标注过程的这种复杂的非线性性质并不容易。此外，电影情感标签预测是比使用准备充分的标准情绪数据库的情绪预测更具挑战性和更复杂的任务。此外，场景级情感标签通常由多种模态生成。例如，电影包含来自视觉、听觉和词汇渠道的信息。当标注者将一个电影场景标记为好笑时，评估可能是因为演员的面部表情、他们使用的文字记录或者只是背景音乐。更一般地说，标注者通常将所有这些信息组合在一起，来评估一个场景是否好笑。尽管有大量的电影音频资源可用，但由于版权和标注成本的原因，那些具有精确场景级标注的资源通常在数量上受到严重限制。因此，电影场景的情感分类无论是在技术算法上还是在数据收集上都是一项复杂且具有挑战性的任务。

许多相关的研究工作都集中在电影情感内容的分析上。最近，深度学习方法，如卷积神经网络(CNN)被用来提取中层代表，并将其应用于情感视频的理解。该领域的大多数相关研究工作都使用了监督机器学习方法。

本公开的各方面正是在这种背景下出现的。

附图说明

图1是示出根据本公开的各方面的关于电影情感标签预测的提议的RL框架的示意图。

图2是示出根据本公开的各方面的提议的电影序列生成方法的示意图。

图3是示出用于执行包括根据本公开的各方面的视频场景的序列级预测的方法的流程图。

图4是示出包括根据本公开的各方面的用于执行视频场景的序列级预测的系统的框图。

具体实施方式

引言

在高层级上，本公开背后的概念是使用人工智能(AI)方法来改进用于通过试错机制用情感标签标注视频内容的系统。强化学习(RL)是一种经验驱动的自主学习方法的框架。随着深度学习在RL(所定义的领域)中的应用，“深度强化学习”(DRL)在机器学习领域发挥着革命性的作用。DRL的崛起主要来自两个方面。第一个方面是深度神经网络(DNN)强大的函数逼近和表示学习特性。使用DNN，可以从高维数据(例如，图像、音频和文本)中获得低维特征表示，这允许DRL用高维状态和动作空间来解决决策问题。第二个方面是RL的“探索和开发”特性。探索与收集更多信息相关，这意味着系统将探索不同的可能试验，看它们是否比以前试验过的更好。探索确保系统在给定当前信息的情况下做出最佳决策，这意味着系统会记住过去最有效的策略。这两个优点相对于许多其他传统的监督学习方法是显著的进步。

本公开的各方面针对一种新颖的方法，该方法使用深度强化学习(DRL)例如在视频内容(例如电影、电视节目等)中执行序列级预测。基础事实标签形式的监督仅在序列的末尾提供，标签本身属于整个序列。这个问题可以被公式化为一个游戏，在这个游戏中，DRL代理试图在仅给出到当前时间步距为止的数据的情况下“猜测”全局标签。这种“猜测”代表了代理对标签的内在信念，并影响代理做出的任何进一步决策。这种信念还被用来计算奖励函数，该函数有助于训练DRL算法。不同的计算奖励函数的策略已经被探索，并且表明弱监督的方法如DRL在诸如情绪预测的任务中可能是有用的，在该任务中在全局层级上标注可能更容易。根据本公开的一个方面的一个实现方式包括用于实现电影场景情感标签预测的算法。在这个示例中，该算法使用预先训练的卷积网络从场景中演员的面部捕捉复杂的人类情感信息，以理解特定电影场景是否好笑。传统的DRL框架不能直接应用于这项任务。在传统的DRL中，每帧生成的决策必须与改变其状态的环境交互，例如，在乒乓球游戏或AlphaGO中。由于电影场景数据序列已经确定，所以每个帧的预测情感标签决策不能与环境交互。由该算法实现的稍微修改过的DRL框架使得DRL代理与环境状态交互成为可能。这将在下面详细描述。

方法学

电影场景剪辑可以被视为沿着不同模态的数据样本序列。例如，从语音模态中，剪辑可以包含音频信号，从视觉模态中，在每个电影场景剪辑中可以有一系列图像帧。对于情感标签预测任务，人类标注者需要处理动态的时间情感信息来获得正确的标签。对于RL应用，代理的动作决策还包含很强的时间相关性，当前的动作决策加上奖励也取决于先前的步距。因此，我们尝试使用RL来预测电影剪辑的情感标签。

作为示例而非限制，焦点可以被限制为使用来自一组视频帧的图像序列作为输入的视频数据。修改过的DRL算法试图基于对每个电影帧中一个或多个演员面部的分析来预测情感场景标签。

提议方法的框架

根据本公开的各方面，新的DRL框架包括环境状态和代理动作之间的交互。图1中示意性地示出了提议的RL框架。

电影场景中的视频信息可以被表示为每帧描绘的面部序列。在每个时间步距t，环境状态有两个组成部分，时间步距t的视频帧和来自前一时间步距t-1的预测情感信息。通过共同考虑这些信息，由机器学习算法控制的代理采取动作A(t)。动作的输出表示时间步距t的情感标签预测，例如好笑或不好笑。然后，函数G被用于将迄今为止的预测动作池{A(i):i≤t}转变为下一个时间步距t+1的预测情感历史。该信息作为下一个时间步距的环境状态的一部分被包括在内，并且类似地被代理用来生成在时间t+1的下一个动作。在每个步距，通过将到当前时间步距t为止的预测动作与对应的人类标注电影场景情感标签进行比较，由函数H基于该预测动作生成奖励。

在这个提议的RL结构中，我们使用函数G，将来自先前时间步距、来自代理的动作的预测添加到当前环境状态中，从而在代理的动作和环境状态之间建立连接。利用所提议的RL结构，可以为不同的应用设计不同的函数G和H。

视频数据处理

可以从原始视频数据(例如，原始电影)和对应的标注文件创建情感标签分类数据集。举例来说，将电影中的场景标记为好笑的或者可以集中在电影的视频信道中描绘的特定特征，特别是角色的面部。这些面部图像的序列是从视频中预先提取的，用作我们系统的输入。为了检测每个帧的面部，可以使用标准面部检测库，如dlib和openCV，从每个连续帧的原始视频中提取面部图像。如果一个帧包含多个面部，可以选择最靠近帧中心的面部。这种选择背后的直觉是，当屏幕上显示多个面部时，主要角色的面部很有可能位于屏幕的中央，以支配场景的情感信息。此外，与其他检测到的面部相比，通过该标准选择的面部通常也是面积最大的。

如果一个帧中有多个面部，则可以选择最中心位置的面部，因为主要角色很可能位于屏幕的中心以支配场景的情感信息，并且通常这个所选择的面部是所有其他检测到的面部中最大的一个。

另一个处理任务是生成训练序列。由于可用电影的数量有限以及昂贵的人工标注过程，标注电影数据量相当小。因为帧之间的时间间隔很小，所以一个帧与下一个帧之间的面部差异很小。为了获得在学习中使用的更多序列，可以以下面的方式生成每个电影场景的面部序列。对于每个场景，帧序列可以被下采样，例如，以18帧的间隔，以获得一个帧序列。此外，为了通过一个场景获得更多的训练数据，可以每两帧移动所有先前的采样索引，并且来自相同视频场景的所有生成的样本共享相同的情感标签。通过这样做，考虑了每个序列中面部的动态变化，同时基于有限的视频数据获得了更多的训练样本。这个过程如图2所示。

面部表情嵌入

可以使用附加的面部表情数据集来生成面部表情嵌入，而不是直接从来自电影的裁剪面部图像进行训练。作为示例而非限制，用卷积神经网络(CNN)训练的神经网络可以用于对不同的面部表情标签进行分类。

情感标签预测的RL

在一个实现方式中，根据本公开的方面，深度Q网络(DQN)可以与RL框架一起使用。DQN的输入可以包括两个部分：a)面部表情嵌入，它可以是上面讨论的面部嵌入模型的预训练的CNN的第二层到最后一层的输出；以及2)预测情感信息输入向量，其包括时间步距t的视频帧数据和来自前一时间步距t-1的预测情感信息，如上所述。添加两个完全连接的情感信息输入层，并与面部表情嵌入串连，以进一步与另外三个密集层连接。在DQN的最后一层，网络可以输出离散的二维动作。在这样的实现方式中，情感标签预测作为情感标签的二进制分类决策工作，例如，好笑或不好笑的独热码二维向量。

许多不同类型的函数G可以用来表示情感信息。例如，作为DQN的倒数第二层的输出的动作嵌入输出可以被视为具有所有先前状态记忆的一个高维特征表示向量。替代地，可以直接使用由DQN输出识别的独热码分类标签，该标签示出了前一时间步距的动作决策标签，例如好笑或不好笑。

在RL中，奖励函数的设置是重要的，因为奖励值用于更新Q值，并且DQN使用奖励(当前帧t的得分和前一帧t-1的得分之差)来学习动作决策。某些实现方式的标注标签可能不可用于视频场景的每个帧。相反，对于每个训练序列样本，可能只有整个训练序列的人类标注标签可用。在每个面部序列中，帧级情感标签不可用。在这样的实现方式中，奖励生成函数H可以被设计成使得在每个帧序列训练样本内，奖励值基于从最后一个人类标注帧到当前帧t的帧级结果的大多数投票。奖励值也可以基于帧级结果的最小百分比投票。例如，如果20％或更多的帧级结果是“好笑的”，并且最终人类标签是“好笑的”，则奖励可能是+1。基于这种设计，可以在每个帧步距分配一个奖励，而不仅仅是在整个序列的末尾。在替代实现方式中，在人类标注可用的时刻之前，可能没有任何奖励。

根据本公开的各方面，奖励值对于使用RL的序列级预测的有效性是至关重要的。如果奖励值过大或过小，RL系统就不会收敛，也无法学习情感信息。考虑中间步距和最后步距奖励的加权因素也很重要。

对于一个训练序列，代理生成的最后一个动作会考虑所有图像。此外，基础事实标签是可用的。因此，应分配大的奖励值R_end。然而，在中间时间步距，不能保证每个帧的音调标签应当与序列标签相同。

这一假设符合普遍的理解。例如，当一个人认为电影场景好笑时，并不能保证场景的每个帧都包含好笑的信息。由于情感标签是通过完整的帧序列累积起来的，所以中间时间步距的奖励(表示为R_inter)应被分配较小的值，以显示不确定性和较低的优先级。

这些功能的可能实验和设计的配置的更多细节可以在Haoqi Li、Naveen Kumar、Ruxin Chen在2018年美国电气和电子工程师学会声学、语音和信号处理国际会议(ICASSP)上的“A DEEP REINFORCEMENT LEARNING FRAMEWORK FOR IDENTIFYING FUNNY SCENES INMOVIES”第3116-3120页中找到，这篇文章通过引用并入本文并作为附录构成本公开的一部分。

方法

图3所示的流程图描绘了根据本公开的各方面的用于执行视频场景的序列级预测的方法的示例。该方法从302开始，将视频场景中的视频信息表示为每帧描绘的特征序列。作为示例而非限制，特征序列可以是出现在视频场景中的面部序列。面部序列可以是视频场景中的单个角色的面部序列。当在视频场景中显示多个面部时，面部序列可以是位于场景中心的面部序列。接下来，如304所示，通过时间步距t的视频信息和来自前一时间步距t-1的预测情感信息表示对应于每个帧的每个时间步距t的环境状态。然后，如306所示，由机器学习算法控制的代理对步距t的帧采取动作A(t)。动作A(t)的输出表示时间步距t的帧的情感标签预测。作为示例而非限制，时间步距t的情感标签预测可以表示视频场景是好笑还是不好笑。然而，在替代实现方式中，情感标签预测可以表示视频场景是悲伤还是不悲伤。

如308所示，随后将预测动作池(从场景的初始帧直到时间步距t的当前帧为止)例如转变成下一时间步距t+1的预测情感历史。如310所示，包括预测情感历史作为下一时间步距t+1的环境状态的一部分。如312所示，通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于该预测动作生成奖励R。在一些实现方式中，奖励R的值可以基于到时间步距t的当前帧为止的帧级情感标签预测结果的大多数投票。

系统

图4描绘了用于实现类似于图3所示的方法的系统。该系统可以包括耦合到用户输入设备402的计算设备400。用户输入设备402可以是控制器、触摸屏、麦克风、键盘、鼠标、操纵杆或允许用户向系统输入包括声音数据在内的信息的其他设备。用户输入设备可以耦合到触觉反馈设备421。触觉反馈设备421可以是例如振动马达、力反馈系统、超声波反馈系统或气压反馈系统。

计算设备400可以包括一个或多个处理器单元403，其可以根据众所周知的架构来配置，例如单核、双核、四核、多核、处理器协处理器、单元处理器等。计算设备还可以包括一个或多个存储器单元404(例如，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。

处理器单元403可以执行一个或多个程序，其一些部分可以存储在存储器404中，并且处理器403可以可操作地耦合到存储器，例如通过经由数据总线405访问存储器。存储器可以包括存储视频场景的视频帧的缓冲器408。这些程序可以包括机器学习算法421，其被配置成从视频帧中提取特征409，并分配标签预测410，如上所述。另外，存储器404可以包含实现训练的程序。存储器404还可以包含具有经过训练的数据(例如具有已知标签的视频场景)的数据库422。数据库422可以作为数据418存储在大容量存储设备418中，或者存储在耦合到通过网络接口414访问的网络420的服务器上。

输入视频也可以作为数据418存储在大容量存储设备415中。处理器单元403还被配置成执行存储在大容量存储设备415或存储器404中的一个或多个程序417，其使得处理器执行上述方法300。

计算设备400还可以包括众所周知的支持电路，例如输入/输出(I/O)407、电路、电源(P/S)411、时钟(CLK)412和高速缓存413，它们可以例如经由总线405与系统的其他组件通信。计算设备可以包括网络接口414。处理器单元403和网络接口414可以被配置成通过用于个人区域网(PAN)的合适的网络协议例如蓝牙来实现局域网(LAN)或PAN。计算设备可以可选地包括大容量存储设备415，例如磁盘驱动器、CD-ROM驱动器、磁带驱动器、闪存等，并且大容量存储设备可以存储程序和/或数据。计算设备还可以包括用户界面416，以便于系统和用户之间的交互。用户界面可以包括监视器、电视屏幕、扬声器、耳机或向用户传递信息的其他设备。

计算设备400可以包括网络接口414，以方便经由电子通信网络420的通信。网络接口414可以被配置成通过局域网和诸如因特网的广域网实现有线或无线通信。设备400可以通过网络420经由一个或多个消息分组发送和接收数据和/或文件请求。通过网络420发送的消息分组可以暂时存储在存储器404中的缓冲器中。分类过的声音数据库可以通过网络420获得，并且部分存储在存储器404中以供使用。

本公开的各方面通过修改传统的RL结构来实现标签预测代理和环境状态之间的期望交互，解决了使用RL方法用面部图像标记视频中的场景的问题。使用这里讨论的视频场景的序列级预测可以实时生成输出情感标签。所描述的序列级预测试图通过探索和开发来学习策略，这是通过尝试不同的策略来查看它们是否比以前尝试过的更好。所描述的序列级预测还具有记忆机制，允许它尝试过去最有效的策略。这些特性通常不能通过常规的监督学习方法来实现，这种方法通常是纯粹开发性的。

虽然以上是对本发明优选实施例的完整描述，但是可以使用各种替代、修改和等同物。因此，本发明的范围不应参照以上描述来确定，而是应参照所附权利要求及其等同物的全部范围来确定。这里描述的任何特征，无论是优选的还是非优选的，都可以与这里描述的任何其他特征相结合，无论是优选的还是非优选的。在随附的权利要求中，不定冠词“一” 或“一个”是指该冠词之后的一个或多个项的数量，除非另有明确说明。所附权利要求不应被解释为包括装置加功能的限制，除非在给定的权利要求中使用短语“用于……的装置”明确陈述了这种限制。

Claims

1.一种用于执行视频场景的序列级预测的方法，其包括：

将所述视频场景中的视频信息表示为每帧描绘的特征序列；

通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态；

利用由机器学习算法控制的代理对步距t的帧采取动作A(t)，其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测；

将预测动作池转变成下一时间步距t+1的预测情感历史；

包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分；以及

通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于所述预测动作生成奖励R。

2.根据权利要求1所述的方法，其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑。

3.根据权利要求1所述的方法，其中所述奖励R的值是基于到所述时间步距t的所述当前帧为止的帧级情感标签预测结果的多数投票。

4.根据权利要求1所述的方法，其中所述奖励R的值是基于所述帧级结果的最小百分比投票。

5.根据权利要求1所述的方法，其中在人类标签可用时的帧之前，所述奖励R的值为零。

6.根据权利要求1所述的方法，其中所述特征序列是出现在所述视频场景中的面部序列。

7.根据权利要求6所述的方法，其中所述面部序列是所述视频场景中的单个角色的面部序列。

8.根据权利要求6所述的方法，其中所述面部序列是所述视频场景中的单个角色的面部序列，并且其中当在所述视频场景中显示多个面部时，所述面部序列是位于所述场景中心的面部序列。

9.一种用于执行视频场景的序列级预测的系统，其包括：

处理器；

耦合到所述处理器的存储器；以及

包含在所述存储器中的处理器可执行指令，所述指令被配置成在被执行时致使所述处理器执行以下操作：

将视频场景中的视频信息表示为每帧描绘的特征序列；

将预测动作池转变成下一时间步距t+1的预测情感历史；

10.根据权利要求9所述的系统，其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑。

11.根据权利要求9所述的系统，其中所述奖励R的值是基于直到所述时间步距t的所述当前帧为止的帧级情感标签预测结果的多数投票。

12.根据权利要求9所述的系统，其中所述奖励R的值是基于所述帧级结果的最小百分比投票。

13.根据权利要求9所述的系统，其中在人类标签可用时的帧之前，所述奖励R的值为零。

14.根据权利要求9所述的系统，其中所述特征序列是出现在所述视频场景中的面部序列。

15.根据权利要求14所述的系统，其中所述面部序列是所述视频场景中的单个角色的面部序列。

16.根据权利要求14所述的系统，其中所述面部序列是所述视频场景中的单个角色的面部序列，并且其中当在所述视频场景中显示多个面部时，所述面部序列是位于所述场景中心的面部序列。

17.一种其中包含有可执行指令的非暂时性计算机可读介质，所述指令被配置成在被执行时致使计算机执行以下操作：

将视频场景中的视频信息表示为每帧描绘的特征序列；

将预测动作池转变成下一时间步距t+1的预测情感历史；

18.根据权利要求17所述的非暂时性计算机可读介质，其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑。

19.根据权利要求17所述的非暂时性计算机可读介质，其中所述奖励R的值是基于到所述时间步距t的所述当前帧为止的帧级情感标签预测结果的多数投票。

20.根据权利要求17所述的非暂时性计算机可读介质，其中所述奖励R的值是基于所述帧级结果的最小百分比投票。

21.根据权利要求17所述的非暂时性计算机可读介质，其中在人类标签可用时的帧之前，所述奖励R的值为零。

22.根据权利要求17所述的非暂时性计算机可读介质，其中所述特征序列是出现在所述视频场景中的面部序列。

23.根据权利要求22所述的非暂时性计算机可读介质，其中所述面部序列是所述视频场景中的单个角色的面部序列。

24.根据权利要求22所述的非暂时性计算机可读介质，其中所述面部序列是所述视频场景中的单个角色的面部序列，并且其中当在所述视频场景中显示多个面部时，所述面部序列是位于所述场景中心的面部序列。