CN110096938B

CN110096938B - 一种视频中的动作行为的处理方法和装置

Info

Publication number: CN110096938B
Application number: CN201810098321.8A
Authority: CN
Inventors: 袁园; 马林; 揭泽群; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2022-10-04
Anticipated expiration: 2038-01-31
Also published as: CN110096938A

Abstract

本发明实施例公开一种视频中的动作行为的处理方法和装置，实现对视频中的动作行为进行准确定位和准确分类。其中，对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到每个图像帧分别对应的多尺度上下文特征，对每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到每个图像帧分别对应的时间序列特征，根据每个图像帧分别对应的多尺度上下文特征对每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值，根据每个图像帧分别对应的时间序列特征和每个动作行为片段分别对应的概率预测值进行动作行为类别预测，得到输入视频的视频级别动作行为类别预测结果。

Description

一种视频中的动作行为的处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频中的动作行为的处理方法和装置。

背景技术

为了使用户能够快速的获取到视频中所包含的动作行为，现有技术中可以对一段视频中的动作行为进行定位，从而识别出该视频中特定的动作行为。

现有技术中，视频的动作行为定位具体需要定位出每个动作行为在视频当中的开始和结束的视频帧以及该动作行为的类别。在训练的过程当中如果每个动作行为的类别以及开始和结束的位置信息都是已知的，即具体到每个动作级别的标注，那么称之为全监督条件。在训练的过程中如果只知道每个视频里面的有哪些动作类别发生，而并不知道每个动作的具体开始和结束的位置信息，即只有视频级别的标注，那么称之为弱监督条件。举例说明：在图像的物体检测中，如果训练过程中已知图像中每个物体的位置框，则是全监督条件，如果训练过程中只知道图像中有什么物体而并不知道具体在什么位置，则是弱监督条件。

现有技术存在一种弱监督条件下视频的动作行为定位方案，主要是先对视频进行均匀不重叠的分段，从每一个分段中随机抽选一帧提取出特征，以此来代表该分段的特征，然后将每一分段的特征经过线性变换之后，得到视频级别的动作类别预测向量。接下来根据该视频级别的动作类别预测向量和弱监督条件下的视频中发生的动作类别信息计算出损失函数，通过损失函数来评估动作类别预测的准确性。

在上述的弱监督条件下视频的动作行为定位方案中，由于会对一段视频进行均匀不重叠分段，而没有考虑到跨分段的相邻多个视频帧之间的关联关系，并且没有考虑到不同长度的可能发生动作的片段。因此现有技术存在无法对动作行为在视频中发生的位置进行准确定位、以及无法对动作行为进行准确分类的问题。

发明内容

本发明实施例提供了一种视频中的动作行为的处理方法和装置，用于实现对视频中的动作行为进行准确定位和准确分类。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种视频中的动作行为的处理方法，包括：

对输入视频中的多个图像帧分别进行特征提取，得到所述多个图像帧分别对应的图像特征；

对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到所述每个图像帧分别对应的多尺度上下文特征；

对所述每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到所述每个图像帧分别对应的时间序列特征；

根据所述每个图像帧分别对应的多尺度上下文特征对所述每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值；

根据所述每个图像帧分别对应的时间序列特征和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测，得到所述输入视频的视频级别动作行为类别预测结果。

第二方面，本发明实施例还提供一种视频中的动作行为的处理装置，包括：

图像特征获取模块，用于对输入视频中的多个图像帧分别进行特征提取，得到所述多个图像帧分别对应的图像特征；

上下文特征获取模块，用于对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到所述每个图像帧分别对应的多尺度上下文特征；

时间序列特征获取模块，用于对所述每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到所述每个图像帧分别对应的时间序列特征；

概率预测模块，用于根据所述每个图像帧分别对应的多尺度上下文特征对所述每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值；

类别预测模块，用于根据所述每个图像帧分别对应的时间序列特征和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测，得到所述输入视频的视频级别动作行为类别预测结果。

第三方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第四方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，本发明实施例还提供一种视频中的动作行为的处理装置，该视频中的动作行为的处理装置可以包括终端设备、服务器或者芯片等实体，所述视频中的动作行为的处理装置包括：处理器、存储器；所述存储器用于存储指令；所述处理器用于执行所述存储器中的所述指令，使得所述视频中的动作行为的处理装置执行如前述各方面中任一项所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，由于可以对每一个图像帧前后不同尺度的多帧图像特征提取出多尺度上下文特征，该多尺度上下文特征还可以在时间序列上进行特征整合从而得到时间序列特征，该多尺度上下文特征还可以预测出动作行为片段的概率预测值，最后使用该时间序列特征以及动作行为片段的概率预测值得到视频级别动作行为类别预测结果，因此本发明实施例中通过对多尺度上下文特征的提取以及在时间序列上的特征整合，提高了视频中动作行为定位和分类的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频中的动作行为的处理方法的流程方框示意图；

图2为本发明实施例提供的视频中的动作行为的处理方法的应用场景示意图；

图3-a为本发明实施例提供的一种视频中的动作行为的处理装置的组成结构示意图；

图3-b为本发明实施例提供的一种上下文特征获取模块的组成结构示意图；

图3-c为本发明实施例提供的一种时间序列特征获取模块的组成结构示意图；

图3-d为本发明实施例提供的一种概率预测模块的组成结构示意图；

图3-e为本发明实施例提供的一种类别预测模块的组成结构示意图；

图4为本发明实施例提供的视频中的动作行为的处理方法应用于服务器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明实施例提供视频中的动作行为的处理方法，可实现对输入视频中的动作行为进行准确定位和分类，该方法可应用于对无人驾驶、智慧城市监控中摄像头采集到的自然无约束的长视频中人的动作行为进行定位和分类。请参阅图1所示，本发明实施例提供的一种视频中的动作行为的处理方法，包括如下步骤：

101、对输入视频中的多个图像帧分别进行特征提取，得到多个图像帧分别对应的图像特征。

在本发明实施例中，输入视频中可以包括多个图像帧，输入视频可以是一段连续多个图像帧的视频数据，该图像帧可以称为视频帧。针对每个图像帧都可以进行特征提取，从而可以得到每个图像帧对应的图像特征，其中该图像特征的提取方式与所使用的特征提取模型有关，例如可以对输入视频中的每一个图像帧使用特征提取模型实现特征提取，例如可以提取出卷积神经网络特征(Convolutional Neural Network,CNN)作为图像特征。

需要说明的是，本发明实施例中使用的特征提取模型可以有多种，基于不同的特征提取模型可以提取到不同类型的特征，举例说明如下，该特征提取模型具体可以是卷积神经网络模型，则使用特征提取模型所提取到的图像特征可以是卷积神经网络特征，本发明实施例中还可以采用机器学习算法中具有特征提取功能的其它算法模型，例如提取到的图像特征也可以是深度学习特征，此处不做限定。

102、对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到每个图像帧分别对应的多尺度上下文特征。

在本发明实施例中，输入视频中的每个图像帧都不孤立存在的，每个图像帧与周围其他图像帧都是有关联的，在得到每个图像帧的图像特征之后，本发明实施例中可以对每个图像帧生成多尺度上下文特征。对于这里的不同尺度可以有多种实现方式，例如以每一个图像帧为中心，提取前后1帧、3帧、5帧等不同尺度的动作行为片段，用不同长度的卷积核(对应的1*1,1*3,1*5等)得到不同尺度的一维向量特征，然后将所有不同尺度的一维向量拼在一起得到帧级别的多尺度上下文特征。由于本发明实施例中可以对输入视频中每一个图像帧周围多尺度的上下文信息进行建模，从而得到每个图像帧分别对应的多尺度上下文特征，通过一个图像帧对应的多尺度上下文特征，能够描述出该图像帧与周围其他图像帧之间的关联关系，从而得到具有更广泛联系的多尺度上下文特征。

在本发明的一些实施例中，步骤101对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到每个图像帧分别对应的多尺度上下文特征，包括：

以第一图像帧为中心，从多个图像帧分别对应的图像特征中提取第一图像帧的前后k种尺度的图像帧对应的图像特征，第一图像帧为多个图像帧中的任意一个图像帧；

将第一图像帧的前后k种尺度的图像帧对应的图像特征整合在一起，得到第一图像帧对应的多尺度上下文特征。

其中，以输入视频中多个图像帧中的任意一个帧的多尺度上下文特征的获取过程为例，假设需要获取多尺度上下文特征的图像帧为第一图像帧，首先利用时序上多尺度的一维卷积核获取到第一图像帧前后不同尺度的多帧的图像特征，然后通过该多尺度的一维卷积核对不同尺度的多帧的图像特征进行整合，这样可以得到第一图像帧的多尺度上下文特征。对于输入视频中的其他图像帧的多尺度上下文特征的获取过程可以参阅对第一图像帧的处理。

103、对每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到每个图像帧分别对应的时间序列特征。

在本发明实施例中，在得到每个图像帧分别对应的多尺度上下文特征之后，使用多尺度上下文特征在时间序列上进行特征整合，使得多个图像帧的多尺度上下文特征能够在时间序列上实现特征整合，即可得到时间序列特征，通过该时间序列特征可以表示出输入视频中多个图像帧在时间序列上的特征融合结果。

其中，本发明实施例中可以使用特征整合模型来输出图像帧的时间序列特征，本发明实施例中使用的特征整合模型可以是用于特征整合的多种模型，例如该特征整合模型具体可以是递归神经网络模型，通过该递归神经网络模型对多尺度上下文特征进行特征融合。需要说明的是，本发明实施例中还可以采用机器学习算法中具有特征整合功能的其它算法模型，此处不做限定。

在本发明的一些实施例中，步骤103对每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到每个图像帧分别对应的时间序列特征，包括：

通过第一递归神经网络模型获取第t-1个图像帧对应的时间序列特征，第t-1个图像帧为第t个图像帧的前一个图像帧，第t个图像帧为多个图像帧中的任意一个图像帧；

根据第t个图像帧对应的多尺度上下文特征和第t-1个图像帧对应的时间序列特征，通过第一递归神经网络模型进行预测，得到第t个图像帧对应的时间序列特征。

其中，以输入视频中多个图像帧中的任意一个帧的时间序列特征的获取过程为例，假设需要获取时间序列特征的图像帧为第t个图像帧，以使用第一递归神经网络模型进行特征整合为例，第t个图像帧为多个图像帧中的任意一个图像帧，第t-1个图像帧为第t个图像帧的前一个图像帧，首先通过第一递归神经网络模型输出第t-1个图像帧对应的时间序列特征，该第一递归神经网络模型使用第一递归门单元(Gate Recurrent Unit)，递归神经网络模型所设计的算法计算过程详见后续实施例中的描述。第一递归神经网络模型可以对输入视频中所有帧的多尺度上下文特征进一步进行时序上的信息整合，例如根据第t个图像帧对应的多尺度上下文特征和第t-1个图像帧对应的时间序列特征，通过第一递归神经网络模型进行预测，得到第t个图像帧对应的时间序列特征。

104、根据每个图像帧分别对应的多尺度上下文特征对每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值。

在本发明实施例中，在得到每个图像帧分别对应的多尺度上下文特征之后，除了生成每个图像帧分别对应的时间序列特征，还可以使用每个图像帧分别对应的多尺度上下文特征对每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测。其中，在每个图像帧的周围可能存在动作行为片段，该动作行为片段可能占用不同个数的图像帧，例如有的动作行为片段占用一个图像帧，有的动作行为片段占用两个图像帧。使用多尺度上下文特征可以对每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测。例如本发明实施例中可以使用概率预测模型来预测动作行为的发生概率，本发明实施例中使用的概率预测模型可以是用于预测输出的多种模型，例如该概率预测模型具体可以是递归神经网络模型，本发明实施例中还可以采用机器学习算法中具有预测功能的其它算法模型，此处不做限定。

举例说明如下，在判断一个动作行为片段是否包含动作行为的时候，视频的时序信息能够帮助预测概率，在观测到当前图像帧发生动作的时候，比如：投篮、射门，人能够判断接下来的帧动作是否结束。因此本发明实施例中使用递归神经网络也能够对时序进行建模从而为不同尺度的动作行为片段预测动作行为的发生概率。在获取多尺度上下文特征之后，使用递归神经网络对图像帧进行时序建模，以预测每一图像帧周围k个不同长度的动作行为片段有动作行为发生的概率，得到每个动作行为片段分别对应的概率预测值。

在本发明的一些实施例中，步骤104根据每个图像帧分别对应的多尺度上下文特征对每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值，包括：

通过第二递归神经网络模型获取第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，第t-1个图像帧为第t个图像帧的前一个图像帧，第t个图像帧为多个图像帧中的任意一个图像帧；

根据第t个图像帧对应的多尺度上下文特征和第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，通过第二递归神经网络模型进行预测，得到第t个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值。

其中，以输入视频中多个图像帧中的任意一个帧的不同尺度的动作行为片段的概率预测值的获取过程为例，假设需要获取不同尺度的动作行为片段的概率预测值的图像帧为第t个图像帧，以使用第二递归神经网络模型进行概率预测为例，第t个图像帧为多个图像帧中的任意一个图像帧，第t-1个图像帧为第t个图像帧的前一个图像帧，首先通过第二递归神经网络模型输出第t-1个图像帧对应的不同尺度的动作行为片段的概率预测值，该第二递归神经网络模型使用第二递归门单元，递归神经网络模型所设计的算法计算过程详见后续实施例中的描述。其中，动作行为片段的不同尺度的个数用k来表示，k的取值为正整数，例如k的取值可以为3或者5。第二递归神经网络模型可以对输入视频中每一帧周围可能发生的不同长度的动作行为片段的概率进行预测，例如根据第t个图像帧对应的多尺度上下文特征和第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，通过第二递归神经网络模型进行预测，得到第t个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值。

105、根据每个图像帧分别对应的时间序列特征和每个动作行为片段分别对应的概率预测值进行动作行为类别预测，得到输入视频的视频级别动作行为类别预测结果。

在本发明实施例中，通过前述步骤103得到每个图像帧分别对应的时间序列特征，再通过步骤104得到每个动作行为片段分别对应的概率预测值之后，可以基于时间序列特征和每个动作行为片段分别对应的概率预测值进行视频级别的动作行为类别预测，从而可以确定出输入视频的视频级别动作行为类别预测结果。通过该视频级别动作行为类别预测结果可以获取到在该输入视频中存在的动作行为类别以及各个动作行为在输入视频中的起始图像帧和结束图像帧。

在本发明的一些实施例中，前述步骤101至步骤105描述了对输入视频中的动作行为的定位与分类，就可以得到输入视频的视频级别动作行为类别预测结果。前述步骤101至步骤105中所处理的输入视频还可以是测试数据，若只能确定用于测试的输入视频中所存在的动作行为，而无法确定该输入视频中每个动作行为所在的具体图像帧，那么该输入视频可以是弱监督条件下的视频，那么在视频级别动作行为类别预测结果之后，还可以根据弱监督条件的视频中发生的动作类别信息计算损失函数。根据梯度下降算法，每一次迭代可以自动选取出概率大的行为片段来学习模型参数，根据更新的模型参数，在下一次迭代中能够得到更好的片段特征和片段概率，通过联合学习从而能够达到在弱监督条件下同时进行自动定位与分类。其中，损失函数是模型预测出来的视频包含的动作类别和真实标注中已知的该视频包含的动作类别两者之间计算出来的一个函数。如果两者完全一样，则预测完全正确，那么这个函数值为0。两者相差越大，该损失函数的值越大。需要说明的是，计算损失函数，然后通过梯度下降算法更新模型参数，是优化问题的标准解法，在模型测试完成之后，可以使用该模型来对待处理的输入视频进行动作行为的定位与分类。

需要说明的是，本发明实施例中输入需要识别的动作行为，就可以获取这些动作行为在输入视频中是否发生以及发生的图像帧位置。所输入的动作行为是视频级别的所有动作类型，而不是具体到视频中的每一个动作。举例来说，假设整个数据集可以包括200个类别的动作，训练的时候已知有一个视频发生了动作类别1和动作类别5，而并不知道视频里面动作类别1和动作类别5的开始和结束位置具体在哪里，同时视频里面还可能出现不止一段动作类别1和动作类别5。测试的时候需要检测出来所有的动作片段，并指明是什么动作类别以及开始和结束的图像帧位置。

在本发明的一些实施例中，步骤105根据每个图像帧分别对应的时间序列特征和每个动作行为片段分别对应的概率预测值进行动作行为类别预测，包括：

根据每个图像帧分别对应的时间序列特征对每个动作行为片段进行片段级别的特征提取，得到每个动作行为片段的片段级别特征；

根据每个动作行为片段的片段级别特征对每个动作行为片段进行动作行为类别预测，得到每个动作行为片段的片段级别动作行为类别预测结果；

根据每个动作行为片段的片段级别动作行为类别预测结果和每个动作行为片段分别对应的概率预测值进行动作行为类别预测。

其中，首先根据每个图像帧分别对应的时间序列特征来生成动作行为片段的片段级别特征，该片段级别特征对应于动作行为片段，每个图像帧的周围存在多少个动作行为片段，都需要生成所有动作行为片段对应的片段级别特征，举例说明如下，按照每个动作行为片段在输入视频中对应的位置，提取动作行为片段中所有图像帧的时间序列特征计算出平均值，该平均值可以作为片段级别特征。接下来针对每个动作行为片段进行片段级别的动作行为类别预测，其中，片段级别的动作行为类别预测可以通过动作行为预测模型来实现，从而根据每个动作行为片段的片段级别特征对每个动作行为片段进行动作行为类别预测，得到每个动作行为片段的片段级别动作行为类别预测结果。在得到每个动作行为片段的片段级别动作行为类别预测结果之后，通过每个动作行为片段的片段级别动作行为类别预测结果以及每个动作行为片段分别对应的概率预测值可以计算出视频级别动作行为类别预测结果，通过片段级别动作行为类别预测结果和动作行为片段分别对应的概率预测值进行视频级别的计算方式可以有多种，例如在本发明的一些实施例中，根据每个动作行为片段的片段级别动作行为类别预测结果和每个动作行为片段分别对应的概率预测值进行动作行为类别预测，包括：

将每个动作行为片段的片段级别动作行为类别预测结果按照每个动作行为片段分别对应的概率预测值进行加权平均。

其中，可以将每个片段级别动作行为类别预测结果乘以对应该片段的概率预测值，然后将所有的动作行为片段取平均从而得到视频级别动作行为类别预测结果。通过对片段级别动作行为类别预测结果的加权平均，使得每个片段级别动作行为类别预测结果基于所预测出的概率值来影响最终结果，因此得到的视频级别动作行为类别预测结果能够更准确的说明动作行为的定位和分类。

进一步的，在本发明的一些实施例中，根据每个动作行为片段的片段级别特征对每个动作行为片段进行动作行为类别预测，包括：

将每个动作行为片段的片段级别特征输入到线性网络模型，通过线性网络模型进行动作行为类别预测。

其中，本发明实施例中可以利用线性网络模型对每个动作行为片段的片段级别特征进一步压缩，从而获得每个片段的动作类别预测向量，通过该动作类别预测向量来表示片段级别动作行为类别预测结果。

通过以上实施例对本发明实施例的描述可知，由于可以对每一个图像帧前后不同尺度的多帧图像特征提取出多尺度上下文特征，该多尺度上下文特征还可以在时间序列上进行特征整合从而得到时间序列特征，该多尺度上下文特征还可以预测出动作行为片段的概率预测值，最后使用该时间序列特征以及动作行为片段的概率预测值得到视频级别动作行为类别预测结果，因此本发明实施例中通过对多尺度上下文特征的提取以及在时间序列上的特征整合，提高了视频中动作行为定位和分类的准确性。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例中提供对输入视频中的动作行为进行定位和分类的方案。本发明实施例中在训练过程中只需要输入视频以及视频中发生的动作类别，而不需要具体到视频中每一个动作行为的定位信息，通过深度神经网络完成视频特征提取、动作行为片段的自动定位预测和分类。具体而言，在对视频中的每一秒图像帧提取出卷积神经网络特征，该卷积神经网络特征作为图像帧，然后利用时序上多尺度的一维卷积核对每一帧前后不同尺度的多帧的卷积神经网络特征进行整合，得到该帧的多尺度上下文特征。然后将该多尺度上下文特征分别输入到两个递归神经网络当中，其中一个递归神经网络对输入视频中所有帧的多尺度上下文特征进行时序上的信息整合，另一个递归神经网络对输入视频中每一帧周围可能发生的不同长度的动作行为片段的概率进行预测。然后，对于每一个可能的动作行为片段，通过平均该片段中第一个递归神经网络输出的每一帧特征得到该片段的特征，再利用线性网络模型对每个片段的特征进一步压缩，获得每个片段的动作类别预测向量。再将输入视频中所有可能的动作行为片段的类别预测向量按照第二个递归神经网络输出的每个行为片段的概率加权平均，最终得到输入视频的动作类别预测向量，并根据弱监督的视频中发生的动作类别信息计算损失函数。根据梯度下降算法，每一次迭代可以自动选取出概率大的行为片段来学习模型参数，根据更新的模型参数，在下一次迭代中能够得到更好的片段特征和片段概率，通过联合学习从而能够达到在弱监督条件下同时进行自动定位与分类。

通过前述方式可以完成动作行为定位与分类的测试，本发明实施例中主要通过利用时序上多尺度的一维卷积核对每一帧前后不同尺度的多帧的信息进行整合，以及利用递归神经网络进一步进行时序上的特征整合，既得到更好的片段特征，也得到更好的片段概率预测，从而提高弱监督条件下视频中动作行为定位和分类的结果。

如图2所示，接下来对本发明实施例提供的视频中的动作行为的处理方法的应用场景进行举例说明。

本发明实施例中可以提供视频内容分析服务，自动定位出视频中人的动作行为发生的位置片段和识别出相应的类别。本发明实施例在弱监督的条件下，训练过程中不需要对视频中每一个动作进行精确的定位标注，只需要简单的视频级别的类别标注即可。在后台服务器对大规模的视频进行特征提取，时序上多尺度上下文特征融合，然后通过两个递归神经网络，一个进行时间序列特征整合，另一个进行动作行为片段概率预测，然后将整合的每一帧的特征进一步得到每一个行为片段的特征和类别预测，再乘以动作行为片段的概率预测值，从而实现在服务器端对视频中动作行为的定位与分类。本发明实施例可以部署在视频类网站为网站中视频中感兴趣的动作片段自动定位和识别，添加关键字词用于快速搜索与匹配内容或视频个性化推荐，或可用于智慧城市监控中在海量视频中自动定位出相关的动作行为片段，还可用于智能家居中家用机器人对主人日常生活中动作行为的识别和理解。

本发明实施例主要包括对图像帧特征的提取，图像帧的多尺度上下文特征的获取，图像帧的时间序列特征整合，视频的动作行为片段概率预测和弱监督学习。接下来对上述过程进行举例说明。

对于输入视频，通过对图像帧进行卷积神经网络特征提取(即后续步骤a)之后，可以获得图像帧特征组成的序列。对于每一个上阶段获得的帧级别的深度学习特征，进行多尺度上下文特征的提取(即后续步骤b)，从而得到帧级别多尺度上下文特征。随后将帧级别的多尺度上下文特征输入到两个不同的递归神经网络，一个进行时间序列特征融合(即后续步骤c)得到帧级别的时间序列特征，另一个进行行为片段概率预测(即后续步骤d)得到每个图像帧对应的的行为片段概率，然后将每个图像t对应的k维行为片段概率向量对应到预先定义好的第t个图像帧的k个不同长度的行为片段，按照每个行为片段在视频中的位置，对该片段内所有帧级别时间序列特征求取平均从而得到片段级别特征。然后经过一个线性回归得到片段级别动作行为类别预测结果。最后将每个片段级别动作行为类别预测乘以该片段概率，然后将所有的片段取平均从而得到视频级别动作行为类别预测结果(即后续步骤e)。训练的时候通过每个视频的动作行为类别来计算损失函数，通过梯度下降更新模型参数，神经网络模型参数都是通过梯度下降算法来更新。测试的时候将视频输入到网络中，得到片段级别动作行为类别预测和片段概率，将它们乘在一起得到最终的每个片段级别的动作行为类别预测，然后通过非极大值抑制和置信度阈值来筛选出最终的片段和类别。

步骤a、图像帧特征的提取。

本发明实施例中使用的图像帧特征提取的方案主要是基于卷积神经网络的方法，对视频中的图像帧进行特征提取，获得一个一维的图像帧特征，得到总共T帧的帧级别的深度学习特征。本发明实施例中图像帧特征提取方案有多种，多种帧特征提取方案均可以使用，包括基于图像的卷积神经网络的方法；也包括基于三维视频的卷积神经网络的方法，以每一帧为中心前后一共16帧提取出该帧的特征；也包括基于光流的卷积神经网络的方法，例如：two-stream。

步骤b、图像帧多尺度上下文信息建模。

由于对动作行为片段的定位往往会依赖于前后帧的图像特征，因此在帧级别的深度学习特征的基础上，本发明实施例中进一步提取帧级别的多尺度上下文特征。具体方案是以每一帧为中心，提取前后1帧，3帧，5帧等不同尺度的片段，用不同长度的卷积核(对应的1*1,1*3,1*5等)得到不同尺度的一维向量特征，然后将所有不同尺度的一维向量拼在一起得到帧级别的多尺度上下文特征。其中多尺度的卷积核的参数是通过学习得到的。

步骤c、图像帧的时间序列特征整合。

在帧级别的多尺度上下文特征的基础上，本发明实施例使用基于递归门单元的递归神经网络对图像帧进行时序建模，以提取帧级别时间序列特征。具体为：

r_t＝σ_r(w_rg_t+u_rh_t-1+b_r)，

z_t＝σ_z(w_zg_t+u_zh_t-1+b_z)，

v_t＝h_t。

其中，v_t是学习到的帧级别时间序列特征，h_t是递归神经网络模型的输出，r_t是递归神经网络模型的重置门，z_t是递归神经网络模型的更新门，σ_r和σ_z为sigmoid函数。u、bb都是基于递归门单元的递归神经网络模型参数，g_t是第t个图像帧的模型输入参数，对于递归神经网络模型的算法计算过程不在赘述。

步骤d、视频动作行为片段概率预测。

在判断一个片段是否包含动作行为的时候，视频的时序信息能够帮助预测概率，比如在观测到当前帧发生动作的时候，比如：投篮、射门，人能够判断接下来的帧动作是否结束。因此递归神经网络也能够对时序进行建模从而提供更精确的片段概率预测值。在帧级别多尺度上下文特征的基础上，本发明实施例使用另一个基于递归门单元的递归神经网络对图像帧进行时序建模，以预测每一帧周围k个不同长度的片段有动作行为发生的概率。具体的递归门单元类似前述步骤c，只是最后将递归神经网络模型的输出h_t再接了一个非线性层得到每一帧的k个片段的概率预测值，即k维向量m_t，具体为：

m_t＝σ₀(w₀h_t)，

其中，σ₀是指sigmoid函数，w₀是指线性网络模型参数。

步骤e、弱监督学习。

在前述步骤c和d得到T帧、每帧k个不同长度片段是否包含动作行为的概率预测值之后，对于总共Tk个不同长度不同位置的片段，根据步骤c中得到的帧级别的时间序列特征，按照每个片段在视频中对应的位置，提取片段中所有帧级别时间序列特征计算平均值，得到片段级别特征。然后将片段级别特征经过一个线性回归得到片段级别动作行为类别预测。最后将每个片段级别动作行为类别预测乘以步骤d中得到的该片段概率，然后将所有的片段取平均从而得到视频级别动作行为类别预测。训练的时候通过每个视频的动作行为类别来计算损失函数，通过梯度下降更新模型参数。测试的时候将视频输入到网络中，得到片段级别动作行为类别预测和片段概率，将它们乘在一起得到最终的每个片段级别的动作行为类别预测，然后通过非极大值抑制和置信度阈值来筛选出最终的片段和类别。

本发明实施例能够提高弱监督条件下视频中人的动作行为定位和识别，能够自动地在海量视频中定位出感兴趣的动作片段并且进行分类，并且能够根据获得的定位和分类对视频进行更精细的标签，从而进行视频个性化推荐，也可以在智慧城市监控视频中定位出相关的动作片段，或者智能家居机器人对主人的日常动作行为的识别和理解。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图3-a所示，本发明实施例提供的一种视频中的动作行为的处理装置300，可以包括：图像特征获取模块301、上下文特征获取模块302、时间序列特征获取模块303、概率预测模块304、类别预测模块305，其中，

图像特征获取模块301，用于对输入视频中的多个图像帧分别进行特征提取，得到所述多个图像帧分别对应的图像特征；

上下文特征获取模块302，用于对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到所述每个图像帧分别对应的多尺度上下文特征；

时间序列特征获取模块303，用于对所述每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到所述每个图像帧分别对应的时间序列特征；

概率预测模块304，用于根据所述每个图像帧分别对应的多尺度上下文特征对所述每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值；

类别预测模块305，用于根据所述每个图像帧分别对应的时间序列特征和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测，得到所述输入视频的视频级别动作行为类别预测结果。

在本发明的一些实施例中，请参阅图3-b所示，所述上下文特征获取模块302，包括：

图像特征提取子模块3021，用于以第一图像帧为中心，从所述多个图像帧分别对应的图像特征中提取所述第一图像帧的前后k种尺度的图像帧对应的图像特征，所述第一图像帧为所述多个图像帧中的任意一个图像帧；

图像特征整合子模块3022，用于将所述第一图像帧的前后k种尺度的图像帧对应的图像特征整合在一起，得到所述第一图像帧对应的多尺度上下文特征。

在本发明的一些实施例中，请参阅图3-c所示，所述时间序列特征获取模块303，包括：

第一模型输出子模块3031，用于通过第一递归神经网络模型获取第t-1个图像帧对应的时间序列特征，所述第t-1个图像帧为第t个图像帧的前一个图像帧，所述第t个图像帧为所述多个图像帧中的任意一个图像帧；

第一模型预测子模块3032，用于根据所述第t个图像帧对应的多尺度上下文特征和所述第t-1个图像帧对应的时间序列特征，通过所述第一递归神经网络模型进行预测，得到所述第t个图像帧对应的时间序列特征。

在本发明的一些实施例中，请参阅图3-d所示，所述概率预测模块304，包括：

第二模型输出子模块3041，用于通过第二递归神经网络模型获取第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，所述第t-1个图像帧为第t个图像帧的前一个图像帧，所述第t个图像帧为所述多个图像帧中的任意一个图像帧；

第二模型预测子模块3042，用于根据所述第t个图像帧对应的多尺度上下文特征和所述第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，通过所述第二递归神经网络模型进行预测，得到所述第t个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值。

在本发明的一些实施例中，请参阅图3-e所示，所述类别预测模块305，包括：

片段级别特征提取子模块3051，用于根据所述每个图像帧分别对应的时间序列特征对所述每个动作行为片段进行片段级别的特征提取，得到所述每个动作行为片段的片段级别特征；

第一类别预测子模块3052，用于根据所述每个动作行为片段的片段级别特征对所述每个动作行为片段进行动作行为类别预测，得到所述每个动作行为片段的片段级别动作行为类别预测结果；

第二类别预测子模块3053，用于根据所述每个动作行为片段的片段级别动作行为类别预测结果和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测。

在本发明的一些实施例中，所述第一类别预测子模块3052，具体用于将所述每个动作行为片段的片段级别特征输入到线性网络模型，通过所述线性网络模型进行动作行为类别预测。

在本发明的一些实施例中，所述第二类别预测子模块3053，具体用于将所述每个动作行为片段的片段级别动作行为类别预测结果按照所述每个动作行为片段分别对应的概率预测值进行加权平均。

通过以上对本发明实施例的描述可知，由于可以对每一个图像帧前后不同尺度的多帧图像特征提取出多尺度上下文特征，该多尺度上下文特征还可以在时间序列上进行特征整合从而得到时间序列特征，该多尺度上下文特征还可以预测出动作行为片段的概率预测值，最后使用该时间序列特征以及动作行为片段的概率预测值得到视频级别动作行为类别预测结果，因此本发明实施例中通过对多尺度上下文特征的提取以及在时间序列上的特征整合，提高了视频中动作行为定位和分类的准确性。

图4是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图4所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频中的动作行为的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对每个图像帧前后不同尺度的图像帧对应的图像特征进行特征提取，得到所述每个图像帧分别对应的多尺度上下文特征，包括：

以第一图像帧为中心，从所述多个图像帧分别对应的图像特征中提取所述第一图像帧的前后k种尺度的图像帧对应的图像特征，所述第一图像帧为所述多个图像帧中的任意一个图像帧；

将所述第一图像帧的前后k种尺度的图像帧对应的图像特征整合在一起，得到所述第一图像帧对应的多尺度上下文特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述每个图像帧分别对应的多尺度上下文特征在时间序列上进行特征整合，得到所述每个图像帧分别对应的时间序列特征，包括：

通过第一递归神经网络模型获取第t-1个图像帧对应的时间序列特征，所述第t-1个图像帧为第t个图像帧的前一个图像帧，所述第t个图像帧为所述多个图像帧中的任意一个图像帧；

根据所述第t个图像帧对应的多尺度上下文特征和所述第t-1个图像帧对应的时间序列特征，通过所述第一递归神经网络模型进行预测，得到所述第t个图像帧对应的时间序列特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述每个图像帧分别对应的多尺度上下文特征对所述每个图像帧前后不同尺度的动作行为片段的动作行为发生概率进行预测，得到每个动作行为片段分别对应的概率预测值，包括：

通过第二递归神经网络模型获取第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，所述第t-1个图像帧为第t个图像帧的前一个图像帧，所述第t个图像帧为所述多个图像帧中的任意一个图像帧；

根据所述第t个图像帧对应的多尺度上下文特征和所述第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，通过所述第二递归神经网络模型进行预测，得到所述第t个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述每个图像帧分别对应的时间序列特征和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测，包括：

根据所述每个图像帧分别对应的时间序列特征对所述每个动作行为片段进行片段级别的特征提取，得到所述每个动作行为片段的片段级别特征；

根据所述每个动作行为片段的片段级别特征对所述每个动作行为片段进行动作行为类别预测，得到所述每个动作行为片段的片段级别动作行为类别预测结果；

根据所述每个动作行为片段的片段级别动作行为类别预测结果和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测。

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个动作行为片段的片段级别特征对所述每个动作行为片段进行动作行为类别预测，包括：

将所述每个动作行为片段的片段级别特征输入到线性网络模型，通过所述线性网络模型进行动作行为类别预测。

7.根据权利要求5所述的方法，其特征在于，所述根据所述每个动作行为片段的片段级别动作行为类别预测结果和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测，包括：

将所述每个动作行为片段的片段级别动作行为类别预测结果按照所述每个动作行为片段分别对应的概率预测值进行加权平均。

8.一种视频中的动作行为的处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述上下文特征获取模块，包括：

图像特征提取子模块，用于以第一图像帧为中心，从所述多个图像帧分别对应的图像特征中提取所述第一图像帧的前后k种尺度的图像帧对应的图像特征，所述第一图像帧为所述多个图像帧中的任意一个图像帧；

图像特征整合子模块，用于将所述第一图像帧的前后k种尺度的图像帧对应的图像特征整合在一起，得到所述第一图像帧对应的多尺度上下文特征。

10.根据权利要求8所述的装置，其特征在于，所述时间序列特征获取模块，包括：

第一模型输出子模块，用于通过第一递归神经网络模型获取第t-1个图像帧对应的时间序列特征，所述第t-1个图像帧为第t个图像帧的前一个图像帧，所述第t个图像帧为所述多个图像帧中的任意一个图像帧；

第一模型预测子模块，用于根据所述第t个图像帧对应的多尺度上下文特征和所述第t-1个图像帧对应的时间序列特征，通过所述第一递归神经网络模型进行预测，得到所述第t个图像帧对应的时间序列特征。

11.根据权利要求8所述的装置，其特征在于，所述概率预测模块，包括：

第二模型输出子模块，用于通过第二递归神经网络模型获取第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，所述第t-1个图像帧为第t个图像帧的前一个图像帧，所述第t个图像帧为所述多个图像帧中的任意一个图像帧；

第二模型预测子模块，用于根据所述第t个图像帧对应的多尺度上下文特征和所述第t-1个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值，通过所述第二递归神经网络模型进行预测，得到所述第t个图像帧的前后k种尺度的动作行为片段分别对应的概率预测值。

12.根据权利要求8至11中任一项所述的装置，其特征在于，所述类别预测模块，包括：

片段级别特征提取子模块，用于根据所述每个图像帧分别对应的时间序列特征对所述每个动作行为片段进行片段级别的特征提取，得到所述每个动作行为片段的片段级别特征；

第一类别预测子模块，用于根据所述每个动作行为片段的片段级别特征对所述每个动作行为片段进行动作行为类别预测，得到所述每个动作行为片段的片段级别动作行为类别预测结果；

第二类别预测子模块，用于根据所述每个动作行为片段的片段级别动作行为类别预测结果和所述每个动作行为片段分别对应的概率预测值进行动作行为类别预测。

13.根据权利要求12所述的装置，其特征在于，所述第一类别预测子模块，具体用于将所述每个动作行为片段的片段级别特征输入到线性网络模型，通过所述线性网络模型进行动作行为类别预测。

14.根据权利要求12所述的装置，其特征在于，所述第二类别预测子模块，具体用于将所述每个动作行为片段的片段级别动作行为类别预测结果按照所述每个动作行为片段分别对应的概率预测值进行加权平均。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7任意一项所述的方法。