CN113627410A - 一种视频中动作语义识别检索的方法 - Google Patents

一种视频中动作语义识别检索的方法 Download PDF

Info

Publication number
CN113627410A
CN113627410A CN202111194986.7A CN202111194986A CN113627410A CN 113627410 A CN113627410 A CN 113627410A CN 202111194986 A CN202111194986 A CN 202111194986A CN 113627410 A CN113627410 A CN 113627410A
Authority
CN
China
Prior art keywords
video
motion
segmented
action
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111194986.7A
Other languages
English (en)
Other versions
CN113627410B (zh
Inventor
翟晓东
汝乐
凌涛
凌婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Austin Photoelectric Technology Co ltd
Original Assignee
Jiangsu Austin Photoelectric Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Austin Photoelectric Technology Co ltd filed Critical Jiangsu Austin Photoelectric Technology Co ltd
Priority to CN202111194986.7A priority Critical patent/CN113627410B/zh
Publication of CN113627410A publication Critical patent/CN113627410A/zh
Application granted granted Critical
Publication of CN113627410B publication Critical patent/CN113627410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频中动作语义识别检索的方法,包括如下步骤:将视频切割成存在运动的分段运动视频,找出分段运动视频中的稳定帧;进行SlowFast自适应跨帧动作识别;将提取出的分段运动视频作为Fast算法模块的输入;稳定帧作为slow算法模块的输入,利用SlowFast算法进行动作语义识别,得到对应的动作语义识别结果Out1,建立视频检索库,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。它通过预处理,可以在大大减少SlowFast算法的计算量的前提下,提高其准确性。

Description

一种视频中动作语义识别检索的方法
技术领域
本发明属于动作语义识别技术领域,具体涉及一种视频中动作语义识别检索的方法。
背景技术
在日常生活中,人们有时需要在一段很长的视频中,寻找一组特定的动作片段。例如在几天的视频数据中,判断老人跌倒的时间,从而观测其跌倒时的周围情况。但是,我们很可能不知道具体的时间、地点,不知道哪个摄像头的视频中,出现过这一动作。人们需要一个基于动作的语义的视频检索功能。当我们在很多地方的很多视频中,检索到相同的动作后,我们可以把这些动作视频集中起来,形成一个整体相同动作的效果,可以集中在一个多屏幕的智能展示系统上展示,起到一个整齐划一的效果。
在类似的工作中,存在基于人脸识别、旁白识别的工作,但是基于动作语义的视频检索功能的研究较少,目前,最著名的相关算法是何凯明的SlowFast算法,该算法的核心思路是,视频行为识别需要从视频中提取鲁棒的外观和运动特征来进行行为识别,所谓SlowFast是指采用Slow和Fast两种采样率的path来并行处理视频,输入两个path的是视频采样后的帧,Slow path以较低的采样率来处理输入视频,提取随时间变化较慢的外观特征,为了提取鲁棒的外观特征,卷积核的空间通道数较大;Fast path以较高的采样率来处理输入视频,提取随时间变化较快的运动特征,为了降低该通道的复杂度,卷积核的空间通道数较小;然后通过横向连接对两个path的特征进行融合,进行行为识别。
SlowFast算法中,存在以下问题:
1、在SlowFast的慢算法模块中,其慢通道可以是任意一个将视频片段作为时空立方体输入的卷积模型,例如[12,49,5,56]。Slow pathway的关键理念是:输入视频帧的时间跨度τ很大,也就是说每τ帧才处理一帧。其研究的典型τ值为16,也就是说对于30帧的视频,slow pathway每秒大约采样处理1~2帧。将slow pathway采样处理的帧数表示为T,那么原始视频片段的长度就是T×τ帧,这一个模块的是整个识别动作语义的核心。
但是,视频中人们的运动往往是存在运动模糊的,对于一个上述长度为30帧的视频而言,其只用到了2帧,这2帧只要有1帧是模糊的,那么整个的识别效果就会大打折扣。由于运动原本就是动作识别的前提,就是说,运动模糊会永远伴随这个问题,所以说上述的2帧是很有可能存在运动模糊的。
2、在SlowFast的快算法模块中,它是一个具有以下特性的另一个卷积模型,它具有高帧率。快通道Fast pathway的目标是在时间维度上有很好的表示,Fast分支的时间跨度是τ/α,其中α是快慢分支的帧率比,α>1,显然Fast分支的时间跨度stride比Slow分支要小。这两个分支在相同的原始视频片段上执行,所以Fast分支处理的帧数就是αT,比Slow分支密集了α倍,实验中的典型值为α=8。α的存在是SlowFast概念的关键所在,它明确表明了两个路径以不同的时间速度工作,从而驱动了两个子网,即两个路径的实例化网络。
在这里,Fast模块也存在一个问题,就是在常见的动作视频数据集中,很明显,各个动作视频内容的长短不一,有的是10帧左右,有的是60帧左右,也就是说,动作与动作之间的时间跨度是不一样的,所以,用固定的帧跨度去解决所有的动作范围,是不合适的。如果我们选择用大于最大值,即大于60帧以上的时间跨度去平滑计算,理解所有的动作,那么计算量就会很大。因此存在一个动作检测的预处理工作,就可以减少快通道的计算量。
发明内容
本发明基于以上的问题,提出了一种视频中动作语义识别检索的方法,在原有的SlowFast算法基础上,提出了依据图像稳定指标,确定慢通道的输入图像,提高慢模块检测精度;依靠骨骼动作运动快速检测,确定快通道的输入视频段,减少快通道计算量的混合算法
本发明的一种视频中动作语义识别检索的方法,包括如下步骤:
步骤1,采用OpenPose工具箱提取视频图像中人体骨骼关键点,得到人体骨骼的三维坐标表示;
OpenPose工具箱提取人体骨骼关键点后,得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(fi,ki),y(fi,ki),z(fi,ki));其中x(fi,ki)、y(fi,ki)、z(fi,ki)为第fi帧、编号为ki骨骼点的x、y、z轴坐标,ki为人体骨骼关键点;
步骤2,用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(di),其中,di =1~dimax,dimax是分段运动视频的总数;
步骤3,进行SlowFast自适应跨帧动作识别;
步骤3.1,将分段运动视频集Vd(di)中的分段运动视频作为Fast算法模块的输入;
步骤3.2,利用SlowFast算法进行动作语义识别,得到每个分段运动视频对应的动作语义识别结果Out1(di),动作语义识别结果Out1(di)实际输出的是对应分段运动视频中概率最高的动作;
步骤4,建立视频检索库,所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。
进一步的,步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(di);具体包括如下步骤:
步骤2.1,对于视频V={Im(fi)}中每帧图片Im(fi),fi是从1~Fimax的编号,Fimax是视频V的最大帧数目,计算所有相邻图像中的骨骼关键点坐标变化量
Figure 284059DEST_PATH_IMAGE001
Figure 420511DEST_PATH_IMAGE002
当fi=Fimax时,即最后一帧时,D
Figure 244110DEST_PATH_IMAGE003
步骤2.2,在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量
Figure 101208DEST_PATH_IMAGE001
的折线图L2,坐标系的X轴是帧的编号,Y轴的骨骼关键点坐标变化量
Figure 467598DEST_PATH_IMAGE001
步骤2.3,在折线图L2中,建立沿X轴移动的平滑窗口,平滑窗口大小为Th2帧,移动步长为
Figure 650318DEST_PATH_IMAGE004
,所述
Figure 695634DEST_PATH_IMAGE005
表示对
Figure 758354DEST_PATH_IMAGE006
取整,计算出平滑窗口中
Figure 103885DEST_PATH_IMAGE001
平均值
Figure 67293DEST_PATH_IMAGE007
Figure 865485DEST_PATH_IMAGE008
步骤2.4,当
Figure 720177DEST_PATH_IMAGE009
>Th3时,则判定当前平滑窗口对应的连续图像中有动作存在,提取出视频中所有
Figure 654635DEST_PATH_IMAGE009
>Th3的连续图像,作为存在动作的视频段;
Figure 179157DEST_PATH_IMAGE010
Th3时,则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止,把该图像
Figure 74432DEST_PATH_IMAGE011
作为视频的分段点,对视频进行切割,从而切割成存在运动的分段运动视频;
Figure 608182DEST_PATH_IMAGE009
Figure 787359DEST_PATH_IMAGE012
Figure 217203DEST_PATH_IMAGE013
Th3时,删除图像
Figure 989987DEST_PATH_IMAGE011
、图像
Figure 671636DEST_PATH_IMAGE014
、以及位于图像
Figure 580686DEST_PATH_IMAGE011
和图像
Figure 837224DEST_PATH_IMAGE015
之间的图像;
得到存在运动的分段运动视频Vd(di)。
进一步的,步骤3.1还包括,对每个分段运动视频中图像的稳定帧进行检测,选择出编号为最大和最小的稳定帧,作Slow算法模块的输入;
具体的,对运动视频中图像的稳定帧进行检测,包括如下步骤:
步骤3.1.1,计算每个图像的稳定指标S1:
Figure 566145DEST_PATH_IMAGE016
其中,I为图像,
Figure 441697DEST_PATH_IMAGE017
为横向坐标,
Figure 815041DEST_PATH_IMAGE018
为纵向坐标,图像的左上角这坐标原点,
Figure 117846DEST_PATH_IMAGE019
为横向坐标的最大值,
Figure 334064DEST_PATH_IMAGE020
是纵向坐标的最大值,
Figure 872362DEST_PATH_IMAGE021
是I图像中,所有像素值大小的平均值;
步骤3.1.2,视频中相邻图像稳定比较指标
在坐标系中绘制出运动视频中所有图像的稳定指标S1的折线图L1,坐标系的X轴是帧的编号,Y轴是图像的稳定指标S1;
在L1中,建立一个沿X轴向移动的平滑窗口,窗口大小为Th1帧,移动步长为
Figure 756004DEST_PATH_IMAGE022
,所述
Figure 105077DEST_PATH_IMAGE023
表示对
Figure 808591DEST_PATH_IMAGE024
取整,选择出每个平滑窗口中最小的S1,其对应的图像作为视频的稳定图像Ims1。
进一步的,步骤3还包括:
步骤3.3,两个相邻分段运动视频Vd(di)和Vd(di+1)的动作语义识别结果分别为Out1(di)和Out1(di+1),每个分段运动视频的动作语义识别结果Out1(di)包括概率排名最高的前三个动作,把相邻两个分段运动视频的动作语义识别结果做对比,如果Out1(di)和Out1(di+1)中包括有相同的动作,则将相应的两段分段运动视频Vd(di)和Vd(di+1)合并;
步骤3.4,对所有相邻分段运动视频的动作语义识别结果进行比较,重复步骤3.3,得到合并后分段运动视频集Vd2(dj),dj =1~ djmax,djmax是合并的分段运动视频的总数;
同时在分段运动视频集Vd(di)中去除合并的分段运动视频,得到更新后的分段运动视频集Vd(di);
步骤3.5,对合并后分段运动视频集Vd2(dj)中每段分段运动视频进行语义识别,重复步骤3.1-3.2,得到合并后分段运动视频集Vd2(dj)中每段分段运动视频对应的动作语义识别结果Out2(dj);
将所有动作语义识别结果Out2(dj)与与其对应合并前的两段分段运动视频的动作语义识别结果Out1(di)、 Out1(di+1)作比较,如果Out2(dj)中包括Out1(di)和Out1(di+1)的共同动作、或Out1(di)中概率最高的动作、或Out1(di+1)中概率最高的动作,则Out2(dj)的实际输出为Out2(dj)中概率最高的动作;Out2(dj)的实际输出作为相邻两段分段运动视频合并后的动作语义识别结果;
否则,合并取消,将取消合并的两段分段运动视频加入更新后的分段运动视频集Vd(di)中,得到未经合并的分段运动视频集Vd3(dk);
从合并后的分段运动视频集Vd2(dj)中删除取消合并的分段运动视频,更新合并后分段运动视频集Vd2(dj)。
进一步的,步骤4中,分段运动视频是指更新的合并后分段运动视频集Vd2(dj)以及未经合并的分段运动视频集Vd3(dk)。
有益效果:通过实现以上发明内容,我们可以获得一个能够准确对视频进行动作检测、语义分析的语义识别检索算法,它通过预处理,可以在大大减少SlowFast算法的计算量的前提下,提高其准确性。
附图说明
图1是本发明的整体流程图。
具体实施方式
本发明在原有的SlowFast算法基础上,提出了依据图像稳定指标,确定慢通道的输入图像,提高慢模块检测精度;依靠骨骼动作运动快速检测,确定快通道的输入视频段,减少快通道计算量的混合算法。
本发明的一种视频中动作语义识别检索的方法,所述视频采用V={Im(fi)}表示,其中Im是图像,fi是对图像从1~Fimax的编号,Fimax是视频V的最大帧数目。即Im(fi)代表是V中编号为fi的图像,如图1所示,一种视频中动作语义识别检索的方法包括如下步骤:
步骤1,采用OpenPose工具箱提取视频图像中人体骨骼关键点,得到人体骨骼的三维坐标表示;
OpenPose工具箱提取人体骨骼关键点后,得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(fi,ki),y(fi,ki),z(fi,ki))。其中x(fi,ki)、y(fi,ki)、z(fi,ki)为第fi帧、编号为ki骨骼点的x、y、z轴坐标,ki为人体骨骼关键点,取值范围为1~25,即OpenPose会得到每帧图片中,人体的25个骨骼点相对于相机坐标系的x、y、z轴坐标。
步骤2,用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频;
步骤2.1,对于视频V={Im(fi)}中每帧图片Im(fi),fi是从1~Fimax的编号,Fimax是视频V的最大帧数目,计算所有相邻图像中的骨骼关键点坐标变化量
Figure 150579DEST_PATH_IMAGE001
Figure 623149DEST_PATH_IMAGE025
当fi=Fimax时,即最后一帧时,D
Figure 267757DEST_PATH_IMAGE003
步骤2.2,在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量
Figure 599512DEST_PATH_IMAGE001
的折线图L2,坐标系的X轴是帧的编号,Y轴的骨骼关键点坐标变化量
Figure 89399DEST_PATH_IMAGE001
步骤2.3,在折线图L2中,建立沿X轴移动的平滑窗口,平滑窗口大小为Th2帧,移动步长为
Figure 72268DEST_PATH_IMAGE004
,所述
Figure 356619DEST_PATH_IMAGE005
表示对
Figure 300304DEST_PATH_IMAGE006
取整,计算出平滑窗口中
Figure 469248DEST_PATH_IMAGE001
平均值
Figure 181989DEST_PATH_IMAGE007
Figure 902820DEST_PATH_IMAGE008
以窗口大小为5,即Th2=5,窗口从第1帧开始为例:
Figure 192856DEST_PATH_IMAGE026
其中,Th2的值来源于AVA的数据集的统计结果,统计AVA数据集已标记的动作数据集的两个数据集之间的间隔,取其1/4,作为Th2值。
步骤2.4,当
Figure 24546DEST_PATH_IMAGE009
>Th3时,则判定当前平滑窗口对应的连续图像中有动作存在,提取出视频中所有
Figure 732739DEST_PATH_IMAGE009
>Th3的连续图像,作为存在动作的视频段;其中,Th3的值来源于AVA数据集的统计结果,即在AVA数据集中,统计所有已标记的动作数据集的
Figure 890051DEST_PATH_IMAGE009
,取其最小值的80%作为Th3的值。
Figure 277170DEST_PATH_IMAGE010
Th3时,则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止,把该图像
Figure 302764DEST_PATH_IMAGE011
作为视频的分段点,对视频进行切割,从而切割成存在运动的分段运动视频。
本实施例中,Dave为归一化值后的0.017,归一化的作用是适应不同长度的动作视频。
Figure 990097DEST_PATH_IMAGE009
Figure 193676DEST_PATH_IMAGE012
Figure 68091DEST_PATH_IMAGE013
Th3时,删除图像
Figure 631797DEST_PATH_IMAGE011
、图像
Figure 908057DEST_PATH_IMAGE014
、以及位于图像
Figure 407172DEST_PATH_IMAGE011
和图像
Figure 644249DEST_PATH_IMAGE015
之间的图像,也就是删除了
Figure 887012DEST_PATH_IMAGE027
个图像,消除掉由于各种偶然原因导致看起来运动暂停的帧,提取出含有运动的连续帧,其原理类似于图像中椒盐噪声的平滑滤波,从而保证所识别的连续动作的稳定性。其整体计算工作全部为加法,对计算资源要求很低。
这样,可以在整体视频中提取出一段段存在运动的分段运动视频,形成分段运动视频集Vd(di),di =1~dimax,dimax是分段运动视频的总数。
步骤3,将提取的分段运动视频集Vd(di)和对应的图像稳定帧给SlowFast算法,进行SlowFast自适应跨帧动作识别;
步骤3.1,将提取出的分段运动视频作为Fast算法模块的输入;对每个分段运动视频中图像的稳定帧进行检测,选择出编号为最大和最小的稳定帧,作Slow算法模块的输入。
具体的,对运动视频中图像的稳定帧进行检测,包括如下步骤:
步骤3.1.1,计算每个图像的稳定指标S1:
Figure 17779DEST_PATH_IMAGE028
其中,I为图像,
Figure 812428DEST_PATH_IMAGE017
为横向坐标,
Figure 927015DEST_PATH_IMAGE018
为纵向坐标,图像的左上角这坐标原点,
Figure 583255DEST_PATH_IMAGE019
为横向坐标的最大值,
Figure 834108DEST_PATH_IMAGE020
是纵向坐标的最大值,
Figure 799659DEST_PATH_IMAGE021
是I图像中,所有像素值大小的平均值。
步骤3.1.2,视频中相邻图像稳定比较指标
在坐标系中绘制出运动视频中所有图像的稳定指标S1的折线图L1,坐标系的X轴是帧的编号,Y轴是图像的稳定指标S1。
在L1中,建立一个沿X轴向移动的平滑窗口,窗口大小为Th1帧,移动步长为
Figure 135962DEST_PATH_IMAGE022
,所述
Figure 720527DEST_PATH_IMAGE023
表示对
Figure 966832DEST_PATH_IMAGE024
取整,选择出每个平滑窗口中最小的S1,其对应的图像作为视频的稳定图像Ims1。其中,Th1的窗口大小的设定来源于AVA数据集的统计结果,其值为AVA数据集的已标记最小动作集的大小的一半,这样保证了一段视频中,至少有3个稳定帧。本实施例中,Th1为7,移动步长为3。
步骤3.2,利用SlowFast算法进行动作语义识别,得到对应的动作语义识别结果Out1(di),di =1~dimax,dimax是分段运动视频的总数,每个分段运动视频的动作语义识别结果Out1(di)包括概率排名最高的前三个动作,每个分段运动视频的动作语义识别结果Out1(di)实际输出的是在所有动作中概率最高的动作。
例如,动作语义识别结果Out1(di)包括按概率排名的动作A、动作B和动作D;而动作语义识别结果Out1(di)实际输出的是动作A。
步骤3.3,考虑到有的连续动作执行者,做出超出AVA数据集标记动作中,故意暂停非常长的情况,再次分析Out1(di)的结果;
两个相邻分段运动视频Vd(di)和Vd(di+1)的动作语义识别结果分别为Out1(di)和Out1(di+1),每个分段运动视频的动作语义识别结果Out1(di)包括概率排名最高的前三个动作,把相邻两个分段运动视频的动作语义识别结果做对比,如果Out1(di)和Out1(di+1)中包括有相同的动作,则将相应的两段分段运动视频Vd(di)和Vd(di+1)合并;
每个分段运动视频的动作语义识别结果Out1(di)包括概率排名最高的前三个动作,例如,Out1(di) 包括概率排名后的动作A、动作B和动作D;Out1(di+1) 包括概率排名后的动作C、动作D和动作E;存在共同的动作D,则Out1(di)和Out1(di+1)相对应的两段分段运动视频Vd(di)和Vd(di+1)合并;
步骤3.4,对所有相邻分段运动视频的动作语义识别结果进行比较,重复步骤3.3,当相邻分段运动视频的动作语义识别结果中存在相同的动作,则进行相邻分段运动视频合并,得到合并后分段运动视频集Vd2(dj),dj =1~ djmax,djmax是合并后分段运动视频的总数,也就是合并的次数。在分段运动视频集Vd(di)中去除合并后分段运动视频,得到更新后的分段运动视频集Vd(di);
步骤3.5,对分段运动视频集Vd2(dj)中每段合并的分段运动视频进行语义识别,重复步骤3.1-3.2,得到每段合并后分段运动视频对应的动作语义识别结果Out2(dj);语义识别结Out2(dj)包括概率排名最高的前三个动作。
将所有相邻两段分段运动视频合并后的动作语义识别结果为Out2(dj)与与其对应的合并前的两段分段运动视频的动作语义识别结果Out1(di)、 Out1(di+1)作比较,如果Out2(dj)中包括Out1(di)和Out1(di+1)的共同动作、或Out1(di)中概率最高的动作、或Out1(di+1)中概率最高的动作,则Out2(dj)的实际输出为Out2(dj)中概率最高的动作;Out2(dj)的实际输出作为相邻两段分段运动视频合并后的动作语义识别结果。
否则,合并取消,保持原来相邻的两段分段运动视频及对应的动作语义识别结果,将取消合并的两段分段运动视频加入更新后的分段运动视频集Vd(di)中,得到未经合并的分段运动视频集Vd3(dk)。
从合并后分段运动视频集Vd2(dj)中删除取消合并的分段运动视频,更新合并后分段运动视频集Vd2(dj)。
例如,Out1(di) 包括按概率排名的动作A、动作B和动作D;Out1(di+1) 包括按概率排名的动作C、动作D和动作E;存在共同的动作D,相邻两段分段运动视频合并,经过步骤3.2后得到动作语义识别结果Out2(dj), Out2(dj)中如果包括动作A、动作C或动作D任意一个,则Out2(dj)的实际输出为Out2(dj)中概率最高的动作,否则,取消合并,保持原来相邻的两段分段运动视频及对应的动作语义识别结果。
步骤4,建立视频检索库,所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询,所述分段运动视频包括更新的合并后分段运动视频集Vd2(dj)以及未经合并的分段运动视频集Vd3(dk)。
通过实现以上发明内容,我们可以获得一个能够准确对视频进行动作检测、语义分析的语义识别检索算法,它通过预处理,可以在大大减少SlowFast算法的计算量的前提下,提高其准确性。在AVA数据集的测试上,其计算量可以减少42%,准确性可以提高2.7%。

Claims (8)

1.一种视频中动作语义识别检索的方法,其特征在于,包括如下步骤:
步骤1,采用OpenPose工具箱提取视频图像中人体骨骼关键点,得到人体骨骼的三维坐标表示;
OpenPose工具箱提取人体骨骼关键点后,得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(fi,ki),y(fi,ki),z(fi,ki));其中x(fi,ki)、y(fi,ki)、z(fi,ki)为第fi帧、编号为ki骨骼点的x、y、z轴坐标,ki为人体骨骼关键点;
步骤2,用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(di),其中,di=1~dimax,dimax是分段运动视频的总数;
步骤3,进行SlowFast自适应跨帧动作识别;
步骤3.1,将分段运动视频集Vd(di)中的分段运动视频作为Fast算法模块的输入;
步骤3.2,利用SlowFast算法进行动作语义识别,得到每个分段运动视频对应的动作语义识别结果Out1(di),动作语义识别结果Out1(di)实际输出的是对应分段运动视频中概率最高的动作;
步骤4,建立视频检索库,所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。
2.根据权利要求1所述一种视频中动作语义识别检索的方法,其特征在于,步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(di);具体包括如下步骤:
步骤2.1,对于视频V={Im(fi)}中每帧图片Im(fi),fi是从1~Fimax的编号,Fimax是视频V的最大帧数目,计算所有相邻图像中的骨骼关键点坐标变化量
Figure 908307DEST_PATH_IMAGE001
Figure 997486DEST_PATH_IMAGE002
当fi=Fimax时,即最后一帧时,D
Figure 244797DEST_PATH_IMAGE003
步骤2.2, 在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量
Figure 470242DEST_PATH_IMAGE001
的折线图L2,坐标系的X轴是帧的编号,Y轴的骨骼关键点坐标变化量
Figure 793907DEST_PATH_IMAGE001
步骤2.3, 在折线图L2中,建立沿X轴移动的平滑窗口,平滑窗口大小为Th2帧,移动步长为
Figure 104802DEST_PATH_IMAGE004
,所述
Figure 155804DEST_PATH_IMAGE005
表示对
Figure 501335DEST_PATH_IMAGE006
取整,计算出平滑窗口中
Figure 730322DEST_PATH_IMAGE001
平均值
Figure 528513DEST_PATH_IMAGE007
Figure 383206DEST_PATH_IMAGE008
步骤2.4,当
Figure 583243DEST_PATH_IMAGE009
>Th3时,则判定当前平滑窗口对应的连续图像中有动作存在,提取出视频中所有
Figure 983132DEST_PATH_IMAGE009
>Th3的连续图像,作为存在动作的视频段;
Figure 268619DEST_PATH_IMAGE010
Th3时,则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止,把该图像
Figure 661423DEST_PATH_IMAGE011
作为视频的分段点,对视频进行切割,从而切割成存在运动的分段运动视频;
Figure 715967DEST_PATH_IMAGE009
Figure 552336DEST_PATH_IMAGE012
Figure 325120DEST_PATH_IMAGE013
Th3时,删除图像
Figure 334664DEST_PATH_IMAGE011
、图像
Figure 633928DEST_PATH_IMAGE014
、以及位于图像
Figure 172356DEST_PATH_IMAGE011
和图像
Figure 432436DEST_PATH_IMAGE015
之间的图像;
得到存在运动的分段运动视频Vd(di)。
3.根据权利要求2所述一种视频中动作语义识别检索的方法,其特征在于,步骤2.3中Th2的值来源于AVA的数据集的统计结果,统计AVA数据集已标记的动作数据集的两个数据集之间的间隔,取其1/4,作为Th2值。
4.根据权利要求2所述一种视频中动作语义识别检索的方法,其特征在于,步骤2.4中Th3的值来源于AVA数据集的统计结果,即在AVA数据集中,统计所有已标记的动作数据集的
Figure 167043DEST_PATH_IMAGE009
,取其最小值的80%作为Th3的值。
5.根据权利要求1所述一种视频中动作语义识别检索的方法,其特征在于,步骤3.1还包括,对每个分段运动视频中图像的稳定帧进行检测,选择出编号为最大和最小的稳定帧,作Slow算法模块的输入;
具体的,对运动视频中图像的稳定帧进行检测,包括如下步骤:
步骤3.1.1,计算每个图像的稳定指标S1:
Figure 399441DEST_PATH_IMAGE016
其中,I为图像,
Figure 702247DEST_PATH_IMAGE017
为横向坐标,
Figure 59410DEST_PATH_IMAGE018
为纵向坐标,图像的左上角这坐标原点,
Figure 473073DEST_PATH_IMAGE019
为横向坐标的最大值,
Figure 215770DEST_PATH_IMAGE020
是纵向坐标的最大值,
Figure 814111DEST_PATH_IMAGE021
是I图像中,所有像素值大小的平均值;
步骤3.1.2,视频中相邻图像稳定比较指标
在坐标系中绘制出运动视频中所有图像的稳定指标S1的折线图L1,坐标系的X轴是帧的编号,Y轴是图像的稳定指标S1;
在L1中,建立一个沿X轴向移动的平滑窗口,窗口大小为Th1帧,移动步长为
Figure 783204DEST_PATH_IMAGE022
,所述
Figure 610346DEST_PATH_IMAGE023
表示对
Figure 614074DEST_PATH_IMAGE024
取整,选择出每个平滑窗口中最小的S1,其对应的图像作为视频的稳定图像Ims1。
6.根据权利要求5所述一种视频中动作语义识别检索的方法,其特征在于,步骤3.1.2中Th1的窗口大小的设定来源于AVA数据集的统计结果,其值为AVA数据集的已标记最小动作集的大小的一半。
7.根据权利要求1所述一种视频中动作语义识别检索的方法,其特征在于,步骤3还包括:
步骤3.3,两个相邻分段运动视频Vd(di)和Vd(di+1)的语义识别结果分别为Out1(di)和Out1(di+1)),每个分段运动视频的动作语义识别结果Out1(di)包括概率排名最高的前三个动作,把相邻两个分段运动视频的动作语义识别结果做对比,如果Out1(di)和Out1(di+1))中包括有相同的动作,则将相应的两段分段运动视频Vd(di)和Vd(di+1)合并;
步骤3.4,对所有相邻分段运动视频的动作语义识别结果进行比较,重复步骤3.3,得到合并后分段运动视频集Vd2(dj),dj=1~djmax,djmax是合并的分段运动视频的总数;
同时,在分段运动视频集Vd(di)中去除合并的分段运动视频,得到更新后的分段运动视频集Vd(di);
步骤3.5,对合并后分段运动视频集Vd2(dj)中每段分段运动视频进行语义识别,重复步骤3.1-3.2,得到合并后分段运动视频集Vd2(dj)中每段分段运动视频对应的动作语义识别结果Out2(dj);动作语义识别结果Out2(dj)包括概率排名最高的前三个动作;
将所有动作语义识别结果Out2(dj)与与其对应的合并前的两段分段运动视频的动作语义识别结果Out1(di)、 Out1(di+1))作比较,如果Out2(dj)中包括Out1(di)和Out1(di+1))的共同动作、或Out1(di)中概率最高的动作、或Out1(di+1))中概率最高的动作,则Out2(dj)的实际输出为Out2(dj)中概率最高的动作;Out2(dj)的实际输出作为相邻两段分段运动视频合并后的动作语义识别结果;
否则,合并取消,将取消合并的两段分段运动视频加入更新后的分段运动视频集Vd(di)中,得到未经合并的分段运动视频集Vd3(dk);
从合并后的分段运动视频集Vd2(dj)中删除取消合并的分段运动视频,更新合并后分段运动视频集Vd2(dj)。
8.根据权利要求7所述一种视频中动作语义识别检索的方法,其特征在于,步骤4中,分段运动视频是指更新的合并后分段运动视频集Vd2(dj)以及未经合并的分段运动视频集Vd3(dk)。
CN202111194986.7A 2021-10-14 2021-10-14 一种视频中动作语义识别检索的方法 Active CN113627410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111194986.7A CN113627410B (zh) 2021-10-14 2021-10-14 一种视频中动作语义识别检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111194986.7A CN113627410B (zh) 2021-10-14 2021-10-14 一种视频中动作语义识别检索的方法

Publications (2)

Publication Number Publication Date
CN113627410A true CN113627410A (zh) 2021-11-09
CN113627410B CN113627410B (zh) 2022-03-18

Family

ID=78391287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111194986.7A Active CN113627410B (zh) 2021-10-14 2021-10-14 一种视频中动作语义识别检索的方法

Country Status (1)

Country Link
CN (1) CN113627410B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238026A (zh) * 2023-07-10 2023-12-15 中国矿业大学 一种基于骨骼和图像特征的姿态重建交互行为理解方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560618A (zh) * 2020-12-06 2021-03-26 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备
CN112784724A (zh) * 2021-01-14 2021-05-11 上海眼控科技股份有限公司 一种车辆变道检测方法、装置、设备及存储介质
CN112990122A (zh) * 2021-04-25 2021-06-18 之江实验室 一种基于视频基础单元分析的复杂行为识别方法
CN113298017A (zh) * 2021-06-10 2021-08-24 东南大学 一种针对视频行为检测的行为提议生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备
CN112560618A (zh) * 2020-12-06 2021-03-26 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112784724A (zh) * 2021-01-14 2021-05-11 上海眼控科技股份有限公司 一种车辆变道检测方法、装置、设备及存储介质
CN112990122A (zh) * 2021-04-25 2021-06-18 之江实验室 一种基于视频基础单元分析的复杂行为识别方法
CN113298017A (zh) * 2021-06-10 2021-08-24 东南大学 一种针对视频行为检测的行为提议生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHU JIE等: "A Two-Pathway Convolutional Neural Network with Temporal Pyramid Network for Action Recognition", 《2020 IEEE 6TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238026A (zh) * 2023-07-10 2023-12-15 中国矿业大学 一种基于骨骼和图像特征的姿态重建交互行为理解方法
CN117238026B (zh) * 2023-07-10 2024-03-08 中国矿业大学 一种基于骨骼和图像特征的姿态重建交互行为理解方法

Also Published As

Publication number Publication date
CN113627410B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN113591674B (zh) 一种面向实时视频流的边缘环境行为识别系统
CN111415318B (zh) 基于拼图任务的无监督相关滤波目标跟踪方法及系统
Rao et al. Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera.
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN110232331A (zh) 一种在线人脸聚类的方法及系统
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN113627410B (zh) 一种视频中动作语义识别检索的方法
CN104063871A (zh) 可穿戴设备的图像序列场景分割方法
Hao et al. Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm
CN111882581A (zh) 一种深度特征关联的多目标跟踪方法
CN111160099B (zh) 一种视频图像目标的智能化分割方法
CN113014923A (zh) 一种基于压缩域表征运动向量的行为识别方法
CN111496784A (zh) 一种用于机器人智能化服务的空间环境识别方法及系统
CN110766093A (zh) 一种基于多帧特征融合的视频目标重识别方法
Wang et al. Robust face tracking via collaboration of generic and specific models
CN115546491A (zh) 一种跌倒报警方法、系统、电子设备及存储介质
CN115512263A (zh) 一种面向高空坠物的动态视觉监测方法及装置
CN113420608A (zh) 一种基于密集时空图卷积网络的人体异常行为识别方法
CN107977604B (zh) 一种基于改进聚合通道特征的手部检测方法
CN113298142A (zh) 一种基于深度时空孪生网络的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant