CN114266997A - 视频动作识别模型的训练方法、装置、计算设备及存储介质 - Google Patents

视频动作识别模型的训练方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN114266997A
CN114266997A CN202111591869.4A CN202111591869A CN114266997A CN 114266997 A CN114266997 A CN 114266997A CN 202111591869 A CN202111591869 A CN 202111591869A CN 114266997 A CN114266997 A CN 114266997A
Authority
CN
China
Prior art keywords
video
motion recognition
sequence
recognition model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111591869.4A
Other languages
English (en)
Inventor
林修明
王兵
朱海勇
林海
阎辰佳
张李钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202111591869.4A priority Critical patent/CN114266997A/zh
Publication of CN114266997A publication Critical patent/CN114266997A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种视频动作识别模型的训练方法、装置、计算设备及存储介质,该方法包括:按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片;通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征;将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数;根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。根据本发明实施例可以有效解决动作识别任务同一输入视频多个类别同时出现导致难以归类的问题,而且对较长的视频输入也可以有效识别。

Description

视频动作识别模型的训练方法、装置、计算设备及存储介质
技术领域
本发明涉及神经网络技术领域,特别涉及一种视频动作识别模型的训练方法及装置、视频动作识别方法及装置、计算设备及存储介质。
背景技术
视频动作识别是当下人工智能的一个热门课题,通过这一技术可以让计算机识别判断出视频中的某些特定动作,也能让计算机更好地去感知理解视频里发生的故事内容,从而在视频分类、电子监控、广告投放等场景中有着广泛应用。相比于图像,视频内容更加复杂多变,且视频拍摄时可能存在遮挡、抖动、视角变化等,为动作识别带来更多困难。并且,不同于静态图片,视频中还包含了时序信息。如何有效利用其中的时序信息,与空间信息有机结合起来是实现视频动作识别的必经之路。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
鉴于以上技术问题,本发明提供了一种视频动作识别模型的训练方法、装置、计算设备及存储介质,其可以有效解决动作识别任务同一输入视频多个类别同时出现导致难以归类的问题,而且对较长的视频输入也可以有效识别。
根据本发明的一个方面,提供一种视频动作识别模型的训练方法,其包括:
按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片;
通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征;
将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数;
根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。
根据本发明的另一方面,提供一种视频动作识别方法,其包括:
获取待识别的目标视频;
按预设的采样策略对所述目标视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述目标视频采集的按时序排列的多帧图片;
将所述图片序列输入利用根据本发明所述的训练方法训练的目标视频动作识别模型进行视频动作识别。
根据本发明的另一方面,提供一种视频动作识别模型的训练装置,其包括:
图片采样模块,用于按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片;
特征提取模块,用于通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征;
动作识别模块,用于将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数;
调整模块,用于根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。
根据本发明的另一方面,提供一种视频动作识别装置,其包括:
获取模块,用于获取待识别的目标视频;
采样模块,用于按预设的采样策略对所述目标视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述目标视频采集的按时序排列的多帧图片;
识别模块,用于将所述图片序列输入利用根据本发明所述的训练方法训练的目标视频动作识别模型进行视频动作识别。
根据本发明的又一方面,提供一种计算设备,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现根据本发明一方面的所述的视频动作识别模型的训练方法或视频动作识别方法。
根据本发明的再一方面,提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现根据本发明一方面的视频动作识别模型的训练方法或视频动作识别方法。
根据本发明的视频动作识别模型的训练方法及装置、计算设备及存储介质,通过将视频动作识别转换为多标签分类问题,利用多标签分类模块对视频特征序列进行多标签分类,从而可以识别视频中包含的多个动作,且对较长的视频输入也可以有效识别。根据本发明实施例的视频动作识别方法及装置,由于采用本发明训练方法得到视频动作识别模型,因此可以有效解决动作识别任务同一输入视频多个类别同时出现导致难以归类的问题,而且对较长的视频输入也可以有效识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的视频动作识别模型的训练方法的示意性流程图;
图2为根据本发明实施例的视频动作识别模型的训练过程的示例;
图3为根据本发明实施例的视频动作识别方法的示意性流程图;
图4为本发明实施例的视频动作识别模型的训练装置的示意性结构框图
图5为本发明实施例的视频动作识别装置的示意性结构框图;以及
图6是本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员来说显而易见的是,本发明实施例可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明实施例发生混淆,对于本领域公知的一些技术特征未进行描述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
基于3维卷积神经网络的动作识别方法使用3维卷积模块代替原有的2维卷积,借助多出来的维度用于处理时序信息。虽然目前基于开源动作数据集(通常只有一两秒)设计出来的动作识别模型能够较好的完成该数据集设定条件下的动作识别任务,但是对于较长视频的识别效果不佳,而现实中某些动作的完成往往不止一两秒,因此本发明将实际环境中动作识别任务的完成动作时长设定为10s。
而在定义动作类别的时候,有些类别往往是共现的,如一段打斗视频中往往会包含跑步追逐动作。另外在拉长待识别视频时长后,某些视频内往往包含了多个不同动作。因此本发明将其定义成多标签分类问题。
本发明实施例基于以上描述,提供了一种视频动作识别模型的训练方法、装置、计算设备及存储介质,其能够。下面结合附图进行详细描述。
首先对本发明实施例所提供的视频动作识别模型的训练方法进行介绍。
图1为根据本发明实施例的视频动作识别模型的训练方法100的示意性流程图。图2为根据本发明实施例的视频动作识别模型的训练过程的示例。
请参考图1和图2,本发明实施例公开的视频动作识别模型的训练方法100,包括:
步骤S101,按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片。
示例性地,在本发明实施例中,采样策略包括连续采样策略和跳帧采样策略。连续采样策略为随机采集所述样本视频不同起始点按时序排列的连续多帧图片。跳帧采样策略为随机采集所述样本视频不同起始点的按时序排列的多帧图片,相邻所述图片间隔n帧图片,n为大于0的自然数。
在本实施例中,对同个视频会进行多次采样,例如两次、三次或更多次。作为一个示例,以连续采样策略为例,对同个样本视频随机采集不同起始点连续64帧的图片序列两次,得到两组不同起始点连续64帧的图片序列。
示例性地,在本实施例中,样本视频为10s长度以内的视频。并且为了使训练的模型可以识别较长时间的动作,样本视频包括10s左右长度的视频。
步骤S102,通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征。
当在S101中对样本视频完成采样得到图片序列之后,则将图片序列输入至R(2+1)D网络进行特征提取,得到所述样本视频的视频序列特征。
应当知道的是,R(2+1)D网络是视频识别领域一个基础模型,基本结构与采用2D卷积的resnet网络一致,区别在于其卷积操作多出了一维表示时间序列,故这种网络里的卷积为(2+1)D,R代表resnet。
应当理解的是,所述视频序列特征包括每个所述图片序列中每张图片对应的特征向量。这些特征向量按照对应的时序排列。
示例性地,在本发明一实施例中,在S101中随机采集样本视频不同起始点连续64帧的图片序列两次,得到128张图片,则如图2中对应的视频特征序列F1至Fn为128个。该128个特征向量为两组按时序排列的特征向量。
步骤S103,将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数。
示例性地,在本发明实施例中,多标签分类模块采用BERT网络。该多标签分类模块包括位置编码网络、多头注意力及位置感知前馈网络。位置编码网络用于对视频特征序列F1至Fn进行编码并降低所述视频序列特征的维度,以使视频序列特征适用于多标签分类模块进行处理。多头注意力及位置感知前馈网络,用于基于降低维度后的所述视频序列特征和嵌入的分类特征向量得到所述视频动作分类结果。
如图2所示,位置编码网络对输入的视频特征序列F1至Fn进行处理,得到对应的向量X1至Xn,多头注意力及位置感知前馈网络对降低维度后的所述视频序列特征X1至Xn进行处理得到输出Y1至Yn。
进一步地,由于BERT网络没有下采样操作,多少个输入对应了多少个输出,为了将其应用于分类任务,故添加一个附加分类嵌入的分类特征向量Xcls,其对应输出为视频动作分类结果Ycls。
示例性地,在本发明实施例中,使用改进后的独热编码(one-hot)来表示类别信息,即用一维向量来表示类别标签,如[1,0,1,...,0]表示当前视频动作的类别标签为1和3,即视频中包含标签1和3所表示的两种动作。
进一步地,在本发明实施例中,损失函数经修改的二元交叉熵(Binary CrossEntropy,BCE)损失函数。这是因为二元交叉熵损失函数广泛应用于多标签分类中,BCE将多标签分类视为一系列的二元分类任务。对于多标签任务而言,单纯按标签对不同样本的进行再采样由于存在标签共现问题无法保证最后训练集中单一标签的正负样本符合均匀分布,同时也会造成负样本数目急剧增加。因此对BCE损失函数进行如下修改:
假定对于样本xk,其对应的真实标签为yk,yk=1表示yk中含有标签i。
对于标签i而言,采样频率可以表示为
Figure BDA0003430115680000071
其中C表示类别总数,ni表示归属于标签i的样本总数。
而对样本xk而言,它会被yk对应标签重复采样,故其采样频率可以表示为
Figure BDA0003430115680000072
故定义再平衡权重因子
Figure BDA0003430115680000073
为防止这一因子在某些条件下为0的情况,对其进行改进得到
Figure BDA0003430115680000074
至此,得到再平衡BCE函数如下:
Figure BDA0003430115680000075
其中,
Figure BDA0003430115680000076
表示分类结果
进一步地,为了抑制样本再平衡后某些类别负样本数目仍远大于正样本的情况,为各个类别预测结果添加对应的偏置项vi,故得到最后的损失函数:
L(xk,yk)
步骤S104,根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。
当在S103中计算损失函数后,便可以根据所述损失函数的计算结果调整R(2+1)D网络和多标签分类模块的网络参数,例如权重大小等。如此不断训练,直到损失函数的计算结果达到设定阈值为止,从而得到目标视频动作识别模型,该模型包括R(2+1)D网络和多标签分类模块。
进一步地,在本发明实施例中,对于同一批次的所述样本视频,当完成一次训练之后在进行新一次的训练采用与前一次训练不同的采样策略。示例性地,对于同一批次的所述样本视频,先采用连续采样策略再采用跳帧采样策略对样本视频进行采样。这是因为原有采样方法不一定能截取到完整的动作周期,因此使用初始采样策略训练得到第一版模型后,将原有的采集连续帧的策略修改为跳帧(跳帧数为n)继续精调(fine-tune)所得模型,即n=1时继承n=0的模型参数继续训练,n=2时继承n=1的模型继续训练,依次类推直到得到一个最佳模型。
根据本发明的视频动作识别模型的训练方法,通过将视频动作识别转换为多标签分类问题,利用多标签分类模块对视频特征序列进行多标签分类,从而可以识别视频中包含的多个动作,且对较长的视频输入也可以有效识别。
图3为本发明实施例提供的视频动作识别方法的示意性流程图。
如图3所述,本发明实施例提供的视频动作识别方法300,包括:
步骤S301,获取待识别的目标视频。
示例性地,目标视频为10s以内的长度的视频。
步骤S302,按预设的采样策略对所述目标视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述目标视频采集的按时序排列的多帧图片。
示例性地,采样策略可以采用前述连续采样策略或跳帧采样策略。每个图片序列包括的图片数量可以例如为前述64张,也可以为根据需要确定的其它数量。
步骤S303,将所述图片序列输入利用根据本发明所述的训练方法训练的目标视频动作识别模型进行视频动作识别。
示例性地,所述目标视频动作识别模型包括:
R(2+1)D网络,用于对所述图片序列进行特征提取,得到所述目标视频的视频序列特征;
多标签分类模块,用于基于所述视频序列特征和嵌入的分类特征向量得到视频动作分类结果。
根据本发明实施例的视频动作识别方法,由于采用本发明训练方法训练的目标视频动作识别模型进行视频动作识别,因此具有更好的识别性能。
图4为根据本发明实施例的视频动作识别模型的训练装置400的示意性结构框图。下面结合图4对根据本发明实施例的视频动作识别模型的训练装置400进行描述。
请参考图4,根据本发明实施例的视频动作识别模型的训练装置400包括图片采样模块410、特征提取模块420、动作识别模块430和调整模块440。
图片采样模块410用于按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片。图片采样模块410用于执行结合图1描述的视频动作识别模型的训练方法中的步骤S101,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
特征提取模块420用于通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征。特征提取模块420用于执行结合图1描述的视频动作识别模型的训练方法中的步骤S102,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
动作识别模块430用于将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数。动作识别模块430用于执行结合图1描述的视频动作识别模型的训练方法中的步骤S103,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
调整模块440用于根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。调整模块440用于执行结合图1描述的视频动作识别模型的训练方法中的步骤S104,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
图4所示视频动作识别模型的训练装置400中的各个模块/单元具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图5为根据本发明实施例的视频动作识别装置500的示意性结构框图。下面结合图5对根据本发明实施例的视频动作识别装置500进行描述。
请参考图5,根据本发明实施例的视频动作识别装置500包括获取模块510、采样模块520和识别模块530。
获取模块510用于获取待识别的目标视频。获取模块510用于执行结合图3描述的视频动作识别方法中的步骤S301,该过程的详细描述参见前述结合图3的描述,在此不再赘述。
采样模块520用于按预设的采样策略对所述目标视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述目标视频采集的按时序排列的多帧图片。采样模块520用于执行结合图3描述的视频动作识别模型的训练方法中的步骤S302,该过程的详细描述参见前述结合图3的描述,在此不再赘述。
识别模块530用于将所述图片序列输入利本发明实施例所述的训练方法训练的目标视频动作识别模型中进行视频动作识别。识别模块520用于执行结合图3描述的视频动作识别模型的训练方法中的步骤S303,该过程的详细描述参见前述结合图3的描述,在此不再赘述。
图5所示视频动作识别装置500中的各个模块/单元具有实现图3中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图6示出了本发明实施例提供的计算设备的硬件结构示意图。
计算设备600可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器602可以包括可移除或不可移除(或固定)的介质,或者存储器602是非易失性固态存储器。存储器602可在综合网关容灾设备的内部或外部。
在一个实例中,存储器602可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
存储器602可以包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现图1所示实施例中的方法/步骤S101至S104,以及图3所示实施例中的方法/步骤S301至S303,并达到图1和图3所示实例执行其方法/步骤达到的相应技术效果,为简洁描述在此不再赘述。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现图4所示实施例中的视频动作识别模型的训练装置400,以及图片采样模块410、特征提取模块420、动作识别模块430和调整模块440,并达到图4所示实例中的装置所达到的相应技术效果,以及实现视频动作识别装置500、获取模块510、采样模块520和识别模块530,并达到图5所示实例中的装置所达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,计算设备600还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该计算设备600可以执行本发明实施例中的视频动作识别模型的训练方法,从而实现结合图1描述的视频动作识别模型的训练方法。该计算设备600还可以执行本发明实施例中的视频动作识别方法,从而实现结合图3描述的视频动作识别方法
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的视频动作识别模型的训练方法以及视频动作识别方法的相应步骤,并且用于实现根据本发明实施例的视频动作识别模型的训练装置和视频动作识别装置的相应单元或模块。所述存储介质例如可以包括个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例视频动作识别模型的训练装置和视频动作识别装置中的各个功能模块,并且/或者可以执行根据本发明实施例的视频动作识别模型的训练方法和视频动作识别方法。
在一个实施例中,所述计算机程序指令在被计算机运行时执行以下步骤:按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片;通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征;将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数;根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。
根据本发明的视频动作识别模型的训练方法及装置、计算设备及存储介质,通过将视频动作识别转换为多标签分类问题,利用多标签分类模块对视频特征序列进行多标签分类,从而可以识别视频中包含的多个动作,且对较长的视频输入也可以有效识别。根据本发明实施例的视频动作识别方法及装置,由于采用本发明训练方法得到视频动作识别模型,因此可以有效解决动作识别任务同一输入视频多个类别同时出现导致难以归类的问题,而且对较长的视频输入也可以有效识别。
根据本发明的视频动作识别模型的训练方法、装置、计算设备及存储介质,通过增加监督网络提供监督信息来利用多个不同的开源数据集训练视频动作识别模型,实现在不增加识别网络复杂度的前提下,扩充训练样本数量的同时也有效提升了视频动作识别网络的识别性能。根据本发明实施例的视频动作识别方法及装置,由于采用本发明训练方法得到视频动作识别模型,因此具有更好的识别性能。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (13)

1.一种视频动作识别模型的训练方法,其特征在于,包括:
按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片;
通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征;
将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数;
根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。
2.根据权利要求1所述的方法,其特征在于,所述多标签分类模块包括:
位置编码网络,用于对所述视频序列特征进行编码并降低所述视频序列特征的维度;
多头注意力及位置感知前馈网络,用于基于降低维度后的所述视频序列特征和嵌入的分类特征向量得到所述视频动作分类结果。
3.根据权利要求1所述的方法,其特征在于,所述损失函数为:
Figure RE-FDA0003479272880000011
其中,
Figure RE-FDA0003479272880000012
Figure RE-FDA0003479272880000013
xk为样本视频,yk为xk对应的真实标签,C表示类别总数,表示归属于标签i的样本总数,
Figure RE-FDA0003479272880000014
表示分类结果,vi为各个类别预测结果对应的偏置项。
4.根据权利要求1-3中的任一项所述的方法,其特征在于,所述采样策略包括连续采样策略和跳帧采样策略,
所述连续采样策略为随机采集所述样本视频不同起始点按时序排列的连续多帧图片;
所述跳帧采样策略为随机采集所述样本视频不同起始点的按时序排列的多帧图片,相邻所述图片间隔n帧图片,n为大于0的自然数。
5.根据权利要求4所述的方法,其特征在于,对于同一批次的所述样本视频,当完成一次训练之后在进行新一次的训练采用与前一次训练不同的采样策略。
6.根据权利要求5所述的方法,其特征在于,对于同一批次的所述样本视频,先采用连续采样策略再采用跳帧采样策略对样本视频进行采样。
7.一种视频动作识别方法,其特征在于,包括:
获取待识别的目标视频;
按预设的采样策略对所述目标视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述目标视频采集的按时序排列的多帧图片;
将所述图片序列输入利用权利要求1-6中的任一项所述的训练方法训练的目标视频动作识别模型中进行视频动作识别。
8.根据权利要求7所述的视频动作识别方法,其特征在于,所述目标视频动作识别模型包括:
R(2+1)D网络,用于对所述图片序列进行特征提取,得到所述目标视频的视频序列特征;
多标签分类模块,用于基于所述视频序列特征和嵌入的分类特征向量得到视频动作分类结果。
9.一种视频动作识别模型的训练装置,其特征在于,包括:
图片采样模块,用于按预设的采样策略对样本视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述样本视频采集的按时序排列的多帧图片;
特征提取模块,用于通过R(2+1)D网络对所述图片序列进行特征提取,得到所述样本视频的视频序列特征;
动作识别模块,用于将所述视频序列特征输入多标签分类模块进行处理得到视频动作分类结果,并基于所述视频动作分类结果计算损失函数;
调整模块,用于根据所述损失函数的计算结果调整所述R(2+1)D网络和多标签分类模块,得到目标视频动作识别模型。
10.一种视频动作识别装置,其特征在于,包括:
获取模块,用于获取待识别的目标视频;
采样模块,用于按预设的采样策略对所述目标视频进行采样,得到至少两个图片序列,每个所述图片序列包括从所述目标视频采集的按时序排列的多帧图片;
识别模块,用于将所述图片序列输入利用权利要求1-6中的任一项所述的训练方法训练的目标视频动作识别模型中进行视频动作识别。
11.根据权利要求9所述的视频动作识别装置,其特征在于,所述目标视频动作识别模型包括:
R(2+1)D网络,用于对所述图片序列进行特征提取,得到所述目标视频的视频序列特征;
多标签分类模块,用于基于所述视频序列特征和嵌入的分类特征向量得到视频动作分类结果。
12.一种计算设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-6中的任意一项所述的视频动作识别模型的训练方法,或权利要求7或8所述的视频动作识别方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6中的任意一项所述的视频动作识别模型的训练方法,或权利要求7或8所述的视频动作识别方法。
CN202111591869.4A 2021-12-23 2021-12-23 视频动作识别模型的训练方法、装置、计算设备及存储介质 Pending CN114266997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111591869.4A CN114266997A (zh) 2021-12-23 2021-12-23 视频动作识别模型的训练方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111591869.4A CN114266997A (zh) 2021-12-23 2021-12-23 视频动作识别模型的训练方法、装置、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN114266997A true CN114266997A (zh) 2022-04-01

Family

ID=80829318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111591869.4A Pending CN114266997A (zh) 2021-12-23 2021-12-23 视频动作识别模型的训练方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN114266997A (zh)

Similar Documents

Publication Publication Date Title
CN110766096B (zh) 视频分类方法、装置及电子设备
Li et al. Efficient violence detection using 3d convolutional neural networks
CN112950581B (zh) 质量评估方法、装置和电子设备
CN106874857B (zh) 一种基于视频分析的活体判别方法及系统
CN112016500A (zh) 基于多尺度时间信息融合的群体异常行为识别方法及系统
CN110633745A (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN113936302B (zh) 行人重识别模型的训练方法、装置、计算设备及存储介质
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
WO2018028102A1 (zh) 一种仿记忆引导的模式识别方法
CN110087143A (zh) 视频处理方法和装置、电子设备及计算机可读存储介质
CN107437258A (zh) 特征提取方法、运动状态估计方法以及运动状态估计装置
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
CN105979283A (zh) 视频转码方法和装置
CN112836602A (zh) 基于时空特征融合的行为识别方法、装置、设备及介质
CN115205736A (zh) 视频数据的识别方法和装置、电子设备和存储介质
CN113313065A (zh) 一种视频处理方法、装置、电子设备和可读存储介质
CN113507608A (zh) 图像编码方法、装置、电子设备
CN114266997A (zh) 视频动作识别模型的训练方法、装置、计算设备及存储介质
CN108665455B (zh) 图像显著性预测结果的评价方法和装置
CN110956097A (zh) 遮挡人体提取方法及模块、场景转换方法及装置
CN113033500B (zh) 动作片段检测方法、模型训练方法及装置
CN112312205B (zh) 一种视频处理方法、装置、电子设备和计算机存储介质
CN111539420B (zh) 基于注意力感知特征的全景图像显著性预测方法及系统
CN111046232B (zh) 一种视频分类方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination