CN113627410A

CN113627410A - 一种视频中动作语义识别检索的方法

Info

Publication number: CN113627410A
Application number: CN202111194986.7A
Authority: CN
Inventors: 翟晓东; 汝乐; 凌涛; 凌婧
Original assignee: Jiangsu Austin Photoelectric Technology Co ltd
Current assignee: Jiangsu Austin Photoelectric Technology Co ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2021-11-09
Anticipated expiration: 2041-10-14
Also published as: CN113627410B

Abstract

本发明公开了一种视频中动作语义识别检索的方法，包括如下步骤：将视频切割成存在运动的分段运动视频，找出分段运动视频中的稳定帧；进行SlowFast自适应跨帧动作识别；将提取出的分段运动视频作为Fast算法模块的输入；稳定帧作为slow算法模块的输入，利用SlowFast算法进行动作语义识别，得到对应的动作语义识别结果Out1，建立视频检索库，当用户输入对应动作语义查询时，提取出对应的分段运动视频以供用户查询。它通过预处理，可以在大大减少SlowFast算法的计算量的前提下，提高其准确性。

Description

一种视频中动作语义识别检索的方法

技术领域

本发明属于动作语义识别技术领域，具体涉及一种视频中动作语义识别检索的方法。

背景技术

在日常生活中，人们有时需要在一段很长的视频中，寻找一组特定的动作片段。例如在几天的视频数据中，判断老人跌倒的时间，从而观测其跌倒时的周围情况。但是，我们很可能不知道具体的时间、地点，不知道哪个摄像头的视频中，出现过这一动作。人们需要一个基于动作的语义的视频检索功能。当我们在很多地方的很多视频中，检索到相同的动作后，我们可以把这些动作视频集中起来，形成一个整体相同动作的效果，可以集中在一个多屏幕的智能展示系统上展示，起到一个整齐划一的效果。

在类似的工作中，存在基于人脸识别、旁白识别的工作，但是基于动作语义的视频检索功能的研究较少，目前，最著名的相关算法是何凯明的SlowFast算法，该算法的核心思路是，视频行为识别需要从视频中提取鲁棒的外观和运动特征来进行行为识别，所谓SlowFast是指采用Slow和Fast两种采样率的path来并行处理视频，输入两个path的是视频采样后的帧，Slow path以较低的采样率来处理输入视频，提取随时间变化较慢的外观特征，为了提取鲁棒的外观特征，卷积核的空间通道数较大；Fast path以较高的采样率来处理输入视频，提取随时间变化较快的运动特征，为了降低该通道的复杂度，卷积核的空间通道数较小；然后通过横向连接对两个path的特征进行融合，进行行为识别。

SlowFast算法中，存在以下问题：

1、在SlowFast的慢算法模块中，其慢通道可以是任意一个将视频片段作为时空立方体输入的卷积模型，例如[12,49,5,56]。Slow pathway的关键理念是：输入视频帧的时间跨度τ很大，也就是说每τ帧才处理一帧。其研究的典型τ值为16，也就是说对于30帧的视频，slow pathway每秒大约采样处理1~2帧。将slow pathway采样处理的帧数表示为T，那么原始视频片段的长度就是T×τ帧，这一个模块的是整个识别动作语义的核心。

但是，视频中人们的运动往往是存在运动模糊的，对于一个上述长度为30帧的视频而言，其只用到了2帧，这2帧只要有1帧是模糊的，那么整个的识别效果就会大打折扣。由于运动原本就是动作识别的前提，就是说，运动模糊会永远伴随这个问题，所以说上述的2帧是很有可能存在运动模糊的。

2、在SlowFast的快算法模块中，它是一个具有以下特性的另一个卷积模型，它具有高帧率。快通道Fast pathway的目标是在时间维度上有很好的表示，Fast分支的时间跨度是τ/α，其中α是快慢分支的帧率比，α>1，显然Fast分支的时间跨度stride比Slow分支要小。这两个分支在相同的原始视频片段上执行，所以Fast分支处理的帧数就是αT，比Slow分支密集了α倍，实验中的典型值为α=8。α的存在是SlowFast概念的关键所在，它明确表明了两个路径以不同的时间速度工作，从而驱动了两个子网，即两个路径的实例化网络。

在这里，Fast模块也存在一个问题，就是在常见的动作视频数据集中，很明显，各个动作视频内容的长短不一，有的是10帧左右，有的是60帧左右，也就是说，动作与动作之间的时间跨度是不一样的，所以，用固定的帧跨度去解决所有的动作范围，是不合适的。如果我们选择用大于最大值，即大于60帧以上的时间跨度去平滑计算，理解所有的动作，那么计算量就会很大。因此存在一个动作检测的预处理工作，就可以减少快通道的计算量。

发明内容

本发明基于以上的问题，提出了一种视频中动作语义识别检索的方法，在原有的SlowFast算法基础上，提出了依据图像稳定指标，确定慢通道的输入图像，提高慢模块检测精度；依靠骨骼动作运动快速检测，确定快通道的输入视频段，减少快通道计算量的混合算法

本发明的一种视频中动作语义识别检索的方法，包括如下步骤：

步骤1，采用OpenPose工具箱提取视频图像中人体骨骼关键点，得到人体骨骼的三维坐标表示；

OpenPose工具箱提取人体骨骼关键点后，得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(f_i,k_i),y(f_i,k_i),z(f_i,k_i))；其中x(f_i,k_i)、y(f_i,k_i)、z(f_i,k_i)为第f_i帧、编号为k_i骨骼点的x、y、z轴坐标，k_i为人体骨骼关键点；

步骤2，用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频集Vd(d_i)，其中，d_i =1~d_imax，d_imax是分段运动视频的总数；

步骤3，进行SlowFast自适应跨帧动作识别；

步骤3.1，将分段运动视频集Vd(d_i)中的分段运动视频作为Fast算法模块的输入；

步骤3.2，利用SlowFast算法进行动作语义识别，得到每个分段运动视频对应的动作语义识别结果Out1(d_i)，动作语义识别结果Out1(d_i)实际输出的是对应分段运动视频中概率最高的动作；

步骤4，建立视频检索库，所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果，当用户输入对应动作语义查询时，提取出对应的分段运动视频以供用户查询。

进一步的，步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频集Vd(d_i)；具体包括如下步骤：

步骤2.1，对于视频V={Im(f_i)}中每帧图片Im(f_i)，f_i是从1~F_imax的编号，F_imax是视频V的最大帧数目，计算所有相邻图像中的骨骼关键点坐标变化量

；

当f_i=F_imax时，即最后一帧时，D

；

步骤2.2，在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量

的折线图L2，坐标系的X轴是帧的编号，Y轴的骨骼关键点坐标变化量

；

步骤2.3，在折线图L2中，建立沿X轴移动的平滑窗口，平滑窗口大小为Th2帧，移动步长为

，所述

表示对

取整，计算出平滑窗口中

平均值

；

步骤2.4，当

>Th3时，则判定当前平滑窗口对应的连续图像中有动作存在，提取出视频中所有

>Th3的连续图像，作为存在动作的视频段；

当

Th3时，则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止，把该图像

作为视频的分段点，对视频进行切割，从而切割成存在运动的分段运动视频；

当

和

均

Th3时，删除图像

、图像

、以及位于图像

和图像

之间的图像；

得到存在运动的分段运动视频Vd(d_i)。

进一步的，步骤3.1还包括，对每个分段运动视频中图像的稳定帧进行检测，选择出编号为最大和最小的稳定帧，作Slow算法模块的输入；

具体的，对运动视频中图像的稳定帧进行检测，包括如下步骤：

步骤3.1.1，计算每个图像的稳定指标S1：

其中，I为图像，

为横向坐标，

为纵向坐标，图像的左上角这坐标原点，

为横向坐标的最大值，

是纵向坐标的最大值，

是I图像中，所有像素值大小的平均值；

步骤3.1.2，视频中相邻图像稳定比较指标

在坐标系中绘制出运动视频中所有图像的稳定指标S1的折线图L1，坐标系的X轴是帧的编号，Y轴是图像的稳定指标S1；

在L1中，建立一个沿X轴向移动的平滑窗口，窗口大小为Th1帧，移动步长为

，所述

表示对

取整，选择出每个平滑窗口中最小的S1，其对应的图像作为视频的稳定图像Ims1。

进一步的，步骤3还包括：

步骤3.3，两个相邻分段运动视频Vd(d_i)和Vd(d_i+1)的动作语义识别结果分别为Out1(d_i)和Out1(d_i+1)，每个分段运动视频的动作语义识别结果Out1(d_i)包括概率排名最高的前三个动作，把相邻两个分段运动视频的动作语义识别结果做对比，如果Out1(d_i)和Out1(d_i+1)中包括有相同的动作，则将相应的两段分段运动视频Vd(d_i)和Vd(d_i+1)合并；

步骤3.4，对所有相邻分段运动视频的动作语义识别结果进行比较，重复步骤3.3，得到合并后分段运动视频集Vd2(d_j)，d_j =1~ d_jmax，d_jmax是合并的分段运动视频的总数；

同时在分段运动视频集Vd(d_i)中去除合并的分段运动视频，得到更新后的分段运动视频集Vd(d_i)；

步骤3.5，对合并后分段运动视频集Vd2(d_j)中每段分段运动视频进行语义识别，重复步骤3.1-3.2，得到合并后分段运动视频集Vd2(d_j)中每段分段运动视频对应的动作语义识别结果Out2(d_j)；

将所有动作语义识别结果Out2(d_j)与与其对应合并前的两段分段运动视频的动作语义识别结果Out1(d_i)、 Out1(d_i+1)作比较，如果Out2(d_j)中包括Out1(d_i)和Out1(d_i+1)的共同动作、或Out1(d_i)中概率最高的动作、或Out1(d_i+1)中概率最高的动作，则Out2(d_j)的实际输出为Out2(d_j)中概率最高的动作；Out2(d_j)的实际输出作为相邻两段分段运动视频合并后的动作语义识别结果；

否则，合并取消，将取消合并的两段分段运动视频加入更新后的分段运动视频集Vd(d_i)中，得到未经合并的分段运动视频集Vd3(d_k)；

从合并后的分段运动视频集Vd2(d_j)中删除取消合并的分段运动视频，更新合并后分段运动视频集Vd2(d_j)。

进一步的，步骤4中，分段运动视频是指更新的合并后分段运动视频集Vd2(d_j)以及未经合并的分段运动视频集Vd3(d_k)。

有益效果：通过实现以上发明内容，我们可以获得一个能够准确对视频进行动作检测、语义分析的语义识别检索算法，它通过预处理，可以在大大减少SlowFast算法的计算量的前提下，提高其准确性。

附图说明

图1是本发明的整体流程图。

具体实施方式

本发明在原有的SlowFast算法基础上，提出了依据图像稳定指标，确定慢通道的输入图像，提高慢模块检测精度；依靠骨骼动作运动快速检测，确定快通道的输入视频段，减少快通道计算量的混合算法。

本发明的一种视频中动作语义识别检索的方法，所述视频采用V={Im(f_i)}表示，其中Im是图像，f_i是对图像从1~F_imax的编号，F_imax是视频V的最大帧数目。即Im(f_i)代表是V中编号为f_i的图像，如图1所示，一种视频中动作语义识别检索的方法包括如下步骤：

OpenPose工具箱提取人体骨骼关键点后，得到的每帧人体骨骼三维坐标为M(f_i,k_i)=(x(f_i,k_i),y(f_i,k_i),z(f_i,k_i))。其中x(f_i,k_i)、y(f_i,k_i)、z(f_i,k_i)为第f_i帧、编号为k_i骨骼点的x、y、z轴坐标，k_i为人体骨骼关键点，取值范围为1~25，即OpenPose会得到每帧图片中，人体的25个骨骼点相对于相机坐标系的x、y、z轴坐标。

步骤2，用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频；

。

当f_i=F_imax时，即最后一帧时，D

。

。

，所述

表示对

取整，计算出平滑窗口中

平均值

。

以窗口大小为5，即Th2=5，窗口从第1帧开始为例：

其中，Th2的值来源于AVA的数据集的统计结果，统计AVA数据集已标记的动作数据集的两个数据集之间的间隔，取其1/4，作为Th2值。

步骤2.4，当

>Th3的连续图像，作为存在动作的视频段；其中，Th3的值来源于AVA数据集的统计结果，即在AVA数据集中，统计所有已标记的动作数据集的

，取其最小值的80%作为Th3的值。

当

作为视频的分段点，对视频进行切割，从而切割成存在运动的分段运动视频。

本实施例中，Dave为归一化值后的0.017，归一化的作用是适应不同长度的动作视频。

当

和

均

Th3时，删除图像

、图像

、以及位于图像

和图像

之间的图像，也就是删除了

个图像，消除掉由于各种偶然原因导致看起来运动暂停的帧，提取出含有运动的连续帧，其原理类似于图像中椒盐噪声的平滑滤波，从而保证所识别的连续动作的稳定性。其整体计算工作全部为加法，对计算资源要求很低。

这样，可以在整体视频中提取出一段段存在运动的分段运动视频，形成分段运动视频集Vd(d_i)，d_i =1~d_imax，d_imax是分段运动视频的总数。

步骤3，将提取的分段运动视频集Vd(d_i)和对应的图像稳定帧给SlowFast算法，进行SlowFast自适应跨帧动作识别；

步骤3.1，将提取出的分段运动视频作为Fast算法模块的输入；对每个分段运动视频中图像的稳定帧进行检测，选择出编号为最大和最小的稳定帧，作Slow算法模块的输入。

步骤3.1.1，计算每个图像的稳定指标S1：

其中，I为图像，

为横向坐标，

为纵向坐标，图像的左上角这坐标原点，

为横向坐标的最大值，

是纵向坐标的最大值，

是I图像中，所有像素值大小的平均值。

步骤3.1.2，视频中相邻图像稳定比较指标

在坐标系中绘制出运动视频中所有图像的稳定指标S1的折线图L1，坐标系的X轴是帧的编号，Y轴是图像的稳定指标S1。

，所述

表示对

取整，选择出每个平滑窗口中最小的S1，其对应的图像作为视频的稳定图像Ims1。其中，Th1的窗口大小的设定来源于AVA数据集的统计结果，其值为AVA数据集的已标记最小动作集的大小的一半，这样保证了一段视频中，至少有3个稳定帧。本实施例中，Th1为7，移动步长为3。

步骤3.2，利用SlowFast算法进行动作语义识别，得到对应的动作语义识别结果Out1(d_i)，d_i =1~d_imax，d_imax是分段运动视频的总数，每个分段运动视频的动作语义识别结果Out1(d_i)包括概率排名最高的前三个动作，每个分段运动视频的动作语义识别结果Out1(d_i)实际输出的是在所有动作中概率最高的动作。

例如，动作语义识别结果Out1(d_i)包括按概率排名的动作A、动作B和动作D；而动作语义识别结果Out1(d_i)实际输出的是动作A。

步骤3.3，考虑到有的连续动作执行者，做出超出AVA数据集标记动作中，故意暂停非常长的情况，再次分析Out1(d_i)的结果；

两个相邻分段运动视频Vd(d_i)和Vd(d_i+1)的动作语义识别结果分别为Out1(d_i)和Out1(d_i+1)，每个分段运动视频的动作语义识别结果Out1(d_i)包括概率排名最高的前三个动作，把相邻两个分段运动视频的动作语义识别结果做对比，如果Out1(d_i)和Out1(d_i+1)中包括有相同的动作，则将相应的两段分段运动视频Vd(d_i)和Vd(d_i+1)合并；

每个分段运动视频的动作语义识别结果Out1(d_i)包括概率排名最高的前三个动作，例如，Out1(d_i) 包括概率排名后的动作A、动作B和动作D；Out1(d_i+1) 包括概率排名后的动作C、动作D和动作E；存在共同的动作D，则Out1(d_i)和Out1(d_i+1)相对应的两段分段运动视频Vd(d_i)和Vd(d_i+1)合并；

步骤3.4，对所有相邻分段运动视频的动作语义识别结果进行比较，重复步骤3.3，当相邻分段运动视频的动作语义识别结果中存在相同的动作，则进行相邻分段运动视频合并，得到合并后分段运动视频集Vd2(d_j)，d_j =1~ d_jmax，d_jmax是合并后分段运动视频的总数，也就是合并的次数。在分段运动视频集Vd(d_i)中去除合并后分段运动视频，得到更新后的分段运动视频集Vd(d_i)；

步骤3.5，对分段运动视频集Vd2(d_j)中每段合并的分段运动视频进行语义识别，重复步骤3.1-3.2，得到每段合并后分段运动视频对应的动作语义识别结果Out2(d_j)；语义识别结Out2(d_j)包括概率排名最高的前三个动作。

将所有相邻两段分段运动视频合并后的动作语义识别结果为Out2(d_j)与与其对应的合并前的两段分段运动视频的动作语义识别结果Out1(d_i)、 Out1(di+1)作比较，如果Out2(d_j)中包括Out1(d_i)和Out1(d_i+1)的共同动作、或Out1(d_i)中概率最高的动作、或Out1(d_i+1)中概率最高的动作，则Out2(d_j)的实际输出为Out2(d_j)中概率最高的动作；Out2(d_j)的实际输出作为相邻两段分段运动视频合并后的动作语义识别结果。

否则，合并取消，保持原来相邻的两段分段运动视频及对应的动作语义识别结果，将取消合并的两段分段运动视频加入更新后的分段运动视频集Vd(d_i)中，得到未经合并的分段运动视频集Vd3(d_k)。

从合并后分段运动视频集Vd2(d_j)中删除取消合并的分段运动视频，更新合并后分段运动视频集Vd2(d_j)。

例如，Out1(d_i) 包括按概率排名的动作A、动作B和动作D；Out1(d_i+1) 包括按概率排名的动作C、动作D和动作E；存在共同的动作D，相邻两段分段运动视频合并，经过步骤3.2后得到动作语义识别结果Out2(d_j)， Out2(d_j)中如果包括动作A、动作C或动作D任意一个，则Out2(d_j)的实际输出为Out2(d_j)中概率最高的动作，否则，取消合并，保持原来相邻的两段分段运动视频及对应的动作语义识别结果。

步骤4，建立视频检索库，所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果，当用户输入对应动作语义查询时，提取出对应的分段运动视频以供用户查询，所述分段运动视频包括更新的合并后分段运动视频集Vd2(d_j)以及未经合并的分段运动视频集Vd3(d_k)。

通过实现以上发明内容，我们可以获得一个能够准确对视频进行动作检测、语义分析的语义识别检索算法，它通过预处理，可以在大大减少SlowFast算法的计算量的前提下，提高其准确性。在AVA数据集的测试上，其计算量可以减少42%，准确性可以提高2.7%。

Claims

1.一种视频中动作语义识别检索的方法，其特征在于，包括如下步骤：

步骤2，用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频集Vd(d_i)，其中，d_i=1~d_imax，d_imax是分段运动视频的总数；

步骤3，进行SlowFast自适应跨帧动作识别；

2.根据权利要求1所述一种视频中动作语义识别检索的方法，其特征在于，步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频集Vd(d_i)；具体包括如下步骤：

；

当f_i=Fimax时，即最后一帧时，D

；

；

，所述

表示对

取整，计算出平滑窗口中

平均值

；

步骤2.4，当

>Th3的连续图像，作为存在动作的视频段；

当

当

和

均

Th3时，删除图像

、图像

、以及位于图像

和图像

之间的图像；

得到存在运动的分段运动视频Vd(d_i)。

3.根据权利要求2所述一种视频中动作语义识别检索的方法，其特征在于，步骤2.3中Th2的值来源于AVA的数据集的统计结果，统计AVA数据集已标记的动作数据集的两个数据集之间的间隔，取其1/4，作为Th2值。

4.根据权利要求2所述一种视频中动作语义识别检索的方法，其特征在于，步骤2.4中Th3的值来源于AVA数据集的统计结果，即在AVA数据集中，统计所有已标记的动作数据集的

，取其最小值的80%作为Th3的值。

5.根据权利要求1所述一种视频中动作语义识别检索的方法，其特征在于，步骤3.1还包括，对每个分段运动视频中图像的稳定帧进行检测，选择出编号为最大和最小的稳定帧，作Slow算法模块的输入；

步骤3.1.1，计算每个图像的稳定指标S1：

其中，I为图像，

为横向坐标，

为纵向坐标，图像的左上角这坐标原点，

为横向坐标的最大值，

是纵向坐标的最大值，

是I图像中，所有像素值大小的平均值；

步骤3.1.2，视频中相邻图像稳定比较指标

，所述

表示对

6.根据权利要求5所述一种视频中动作语义识别检索的方法，其特征在于，步骤3.1.2中Th1的窗口大小的设定来源于AVA数据集的统计结果，其值为AVA数据集的已标记最小动作集的大小的一半。

7.根据权利要求1所述一种视频中动作语义识别检索的方法，其特征在于，步骤3还包括：

步骤3.3，两个相邻分段运动视频Vd(d_i)和Vd(d_i+1)的语义识别结果分别为Out1(d_i)和Out1(d_i+1))，每个分段运动视频的动作语义识别结果Out1(d_i)包括概率排名最高的前三个动作，把相邻两个分段运动视频的动作语义识别结果做对比，如果Out1(d_i)和Out1(d_i+1))中包括有相同的动作，则将相应的两段分段运动视频Vd(d_i)和Vd(d_i+1)合并；

步骤3.4，对所有相邻分段运动视频的动作语义识别结果进行比较，重复步骤3.3，得到合并后分段运动视频集Vd2(d_j)，dj=1~djmax，djmax是合并的分段运动视频的总数；

同时，在分段运动视频集Vd(d_i)中去除合并的分段运动视频，得到更新后的分段运动视频集Vd(d_i)；

步骤3.5，对合并后分段运动视频集Vd2(d_j)中每段分段运动视频进行语义识别，重复步骤3.1-3.2，得到合并后分段运动视频集Vd2(d_j)中每段分段运动视频对应的动作语义识别结果Out2(d_j)；动作语义识别结果Out2(d_j)包括概率排名最高的前三个动作；

将所有动作语义识别结果Out2(d_j)与与其对应的合并前的两段分段运动视频的动作语义识别结果Out1(d_i)、 Out1(d_i+1))作比较，如果Out2(d_j)中包括Out1(d_i)和Out1(d_i+1))的共同动作、或Out1(d_i)中概率最高的动作、或Out1(d_i+1))中概率最高的动作，则Out2(d_j)的实际输出为Out2(d_j)中概率最高的动作；Out2(d_j)的实际输出作为相邻两段分段运动视频合并后的动作语义识别结果；

8.根据权利要求7所述一种视频中动作语义识别检索的方法，其特征在于，步骤4中，分段运动视频是指更新的合并后分段运动视频集Vd2(d_j)以及未经合并的分段运动视频集Vd3(d_k)。