CN113591647A - 人体动作识别方法、装置、计算机设备和存储介质 - Google Patents

人体动作识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113591647A
CN113591647A CN202110828467.5A CN202110828467A CN113591647A CN 113591647 A CN113591647 A CN 113591647A CN 202110828467 A CN202110828467 A CN 202110828467A CN 113591647 A CN113591647 A CN 113591647A
Authority
CN
China
Prior art keywords
classification result
video
frames
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110828467.5A
Other languages
English (en)
Other versions
CN113591647B (zh
Inventor
郑浩河
乔丕业
刘航
刘朝鹏
程俊
牛茂龙
程钦
任子良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
China Nuclear Power Engineering Co Ltd
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
China Nuclear Power Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS, China Nuclear Power Engineering Co Ltd filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202110828467.5A priority Critical patent/CN113591647B/zh
Publication of CN113591647A publication Critical patent/CN113591647A/zh
Application granted granted Critical
Publication of CN113591647B publication Critical patent/CN113591647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种人体动作识别方法、装置、计算机设备和存储介质。该方法包括:基于目标RGB视频,获取m个图像组,对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得,从而提高目标RGB视频的动作识别速度。

Description

人体动作识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及人体行为识别技术领域,特别是涉及一种人体动作识别方法、装置、计算机设备和存储介质。
背景技术
动作识别是指:给定一个视频,通过机器来识别出视频里的主要动作类型。RGB彩色视频中的人体动作识别,是计算机视觉及模式识别研究中一个重要而富有挑战性的问题,其在人机交互、智能交通系统、紧急救援及视频监控等应用中发挥着重要作用。近年来,CNN(Convolutional Neural Networks,卷积神经网络)给动作识别带来了显著的推动。基于CNN(Convolutional Neural Networks,卷积神经网络)的动作方法能够从原始数据中自动学习特征。然而,出于背景杂乱、光照变化、视点变化及动作自由度大等原因,如何有效地完成动作识别任务仍然是一个挑战。
相关技术中,基于RGB彩色视频的动作识别工作主要集中在RGB图像和光流的结合。虽然运用光流的CNN(Convolutional Neural Networks,卷积神经网络)具有优越的识别性能,但是在提取光流时,涉及大量的解方程运算,从而导致运用光流的CNN(Convolutional Neural Networks,卷积神经网络)识别速度较慢,使得其在实时性要求高环境下存在难以应用的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够满足提高视频中人体动作识别的速度的人体动作识别方法、装置、计算机设备和存储介质。
一种人体动作识别方法,该方法包括:
基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
在其中一个实施例中,m不大于3。
在其中一个实施例中,T不大于7。
在其中一个实施例中,将RGB数据流输入至预设模型,输出第一分类结果之前,还包括:
从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成RGB数据流。
在其中一个实施例中,对目标RGB视频进行分段处理,得到T个视频段,包括:
对目标RGB视频进行平均分段处理,得到均分的T个视频段。
在其中一个实施例中,将多个图像组中每一图像组分别输入至预设模型之前,还包括:
基于第一样本集对初始模型进行训练,得到预训练模型;
基于第二样本集对预训练模型进行再训练,得到预设模型,第二样本集是由包含动作的样本图像所确定的,第一样本集是由随机选取的样本图像所确定的,第一样本集中的样本总数量大于第二样本集中的样本总数量。
在其中一个实施例中,将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果,包括:
获取第一分类结果的权重及每一第二分类结果的权重;
其中,第一分类结果的权重高于每一图像组的第二分类结果的权重;
将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘,将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率,将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘,将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率;
将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;
将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。
一种人体动作识别装置,该装置包括:
获取模块,用于基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
处理模块,用于对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
第一选取模块,用于对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
构成模块,用于基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
第一输出模块,用于将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
第二输出模块,用于将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
融合模块,用于将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
上述人体动作识别方法、装置、计算机设备和存储介质,通过基于目标RGB视频,获取m个图像组,对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3,对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得,而不是像提取光流一样需要涉及大量的解方程运算,从而使得计算量减少,进而提高目标RGB视频的动作识别速度。
附图说明
图1为一个实施例中人体动作识别方法的流程示意图;
图2为另一个实施例中人体动作识别方法的流程示意图;
图3为一个实施例中人体动作识别装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
动作识别是指:给定一个视频,通过机器来识别出视频里的主要动作类型。RGB彩色视频中的人体动作识别,是计算机视觉及模式识别研究中一个重要而富有挑战性的问题,其在人机交互、智能交通系统、紧急救援及视频监控等应用中发挥着重要作用。近年来,CNN(Convolutional Neural Networks,卷积神经网络)给动作识别带来了显著的推动。基于CNN(Convolutional Neural Networks,卷积神经网络)的动作方法能够从原始数据中自动学习特征。然而,出于背景杂乱、光照变化、视点变化及动作自由度大等原因,如何有效地完成动作识别任务仍然是一个挑战。
相关技术中,基于RGB彩色视频的动作识别工作主要集中在RGB图像和光流的结合。虽然运用光流的CNN(Convolutional Neural Networks,卷积神经网络)具有优越的识别性能,但是在提取光流时,涉及大量的解方程运算,从而导致运用光流的CNN(Convolutional Neural Networks,卷积神经网络)识别速度较慢,使得其在实时性要求高环境下存在难以应用的问题。
针对上述相关技术中存在的问题,本发明实施例提供了一种人体动作识别方法,该方法可以应用于服务器中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”。
在对本发明实施例的具体实施方式进行说明之前,先对本发明实施例的主要应用场景进行说明。本发明实施例中的人体动作识别方法主要应用于识别出视频中的人体动作,例如,视频监控领域中,主要通过识别出监控视频中的人体动作,若监控视频中人体的动作存在异常,则及时向有关部门发送警报。
结合上述实施例的内容,在一个实施例中,如图1所示,提供了一种人体动作识别方法,以该方法应用于服务器,且执行主体为服务器为例进行说明,该方法包括如下步骤:
101、基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
102、对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
103、对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
104、基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
105、将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
106、将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
107、将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
在上述步骤101中,目标RGB视频可以为包含一种动作类别的视频段。对于m个图像组中任一图像组,本发明实施例不对基于目标RGB视频,获取该图像组的方式作具体限定,包括但不限于:基于预设间隔,在目标RGB视频中选取Y帧图像;对Y帧图像进行分段处理,得到Z个候选图像组,Z不小于3;对于Z个候选图像组中每一候选图像组,基于每一候选图像组对应的Y/Z帧图像,获取每一候选图像组对应的Y/Z帧图像中每相邻两帧图像之间的差值的绝对值;对每一候选图像组对应的Y/Z帧图像中每相邻两帧图像之间的差值的绝对值进行求和;将求和结果归一化至预设范围,以获得每一候选图像组对应的一帧图像,并由Z个候选图像组对应的Z帧图像构成任一图像组。
其中,预设范围为0至255。另外,对于m个图像组中其它图像组,在获取其它图像组时的方式也可参考上述内容,只是在获取m个图像组中每一图像组时所使用的预设间隔可以均不同。另外,对于某一图像组,由于该图像组是由各个候选图像组各确定一帧图像所构成的,从而Z越大,则该图像组中包含的图像数量越多。而图像组中包含的图像数量越多,则能够越多覆盖视频中呈现动作类别的相关信息。
以Y=12、Z=3为例,对“基于目标RGB视频,获取m个图像组中任一图像组”的具体过程进行解释说明:首先,基于预设间隔,在目标RGB视频中选取12帧图像;然后,将12帧图像分为3段,得到3个候选图像组,每个候选图像组均由4帧图像组成;最后,基于每一候选图像组对应的4帧图像,确定每一候选图像组对应的一帧图像,最终基于3个候选图像组,确定3帧图像,由这3帧图像构成该图像组。其中,对于m个图像组中其它图像组,在获取其它图像组时的方式也可参考上述内容,只是在获取m个图像组中每一图像组时所使用的预设间隔可以均不同,预设间隔不同,相应的,基于预设间隔,在目标RGB视频中选取的图像的数量也不同,预设间隔越小,在目标RGB视频中选取的图像的数量越多,而图像的数量越多,则能够越多覆盖视频中呈现动作类别的相关信息。另外,在目标RGB视频中选取Y帧图像进行平均分段处理,得到均分的Z个候选图像组,目的是使得基于每一候选图像组对应的Y/Z帧图像,所确定每一候选图像组对应的一帧图像包含的动作信息越多,不会出现基于某一候选图像组,所确定的一帧图像包含的动作信息很少。
在上述步骤102中,T的取值越大,得到的视频段数量越多,由此,得到的图像数量也越多,也即任一图像组包含的图像数量越多,从而能够越多覆盖视频中呈现动作类别的相关信息,进而使得目标RGB视频的动作识别结果更加精确。
以T=3,n=4为例,对基于目标RGB视频,获取m个图像组的具体过程进行解释说明:对目标RGB视频进行分段处理,得到3个视频段;对于3个视频段中每一视频段,基于预设间隔,在每一视频段中选取4帧图像,基于每一视频段对应的4帧图像,确定每一视频段对应的一帧图像,并由3个视频段对应的3帧图像构成任一图像组。
在上述步骤104中,“基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像”的步骤,获得每一视频段对应的一帧图像的计算式可以如下公式(1)及(2)所示,本发明实施例对此不作具体限定:
Figure BDA0003174542940000091
Figure BDA0003174542940000092
其中,MI是指该帧图像,∑是累加符号,a是预设间隔,frame是指视频中的一帧,frame的下标(i+1)×a代表frame在整个视频片段中所处的位置,
Figure BDA0003174542940000093
表示向下取整,x′代表处理后的像素,x代表处理前的像素,Xmin是指该帧图像中最低的像素值,Xmax是指该帧图像中最高的像素值。
其中,归一化的目的是因为基于求和结果确定的一帧图像,其像素值可能超出取值范围,引起图像失真,会影响目标RGB视频的动作识别结果,为了提高目标RGB视频的动作识别结果的精度,因此,对基于求和结果确定的一帧图像进行归一化处理,将像素值控制在0至255。
在上述步骤105中,预设模型可以为InceptionNet,ResNet,VGG等,本发明实施例对此不作具体限定。另外,将RGB数据流输入至预设模型,输出第一分类结果之前,还包括:基于预设间隔,从目标RGB视频中选取Z帧图像,并由选取的Z帧图像构成RGB数据流。
在上述步骤107中,将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果,包括:将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。
例如,基于目标RGB视频,获取到一个RGB数据流及2个图像组,对应地,有一个第一分类结果及两个第二分类结果,两个第二分类结果分别为第一个第二分类结果及第二个第二分类结果;其中,第一分类结果包括RGB数据流中各种动作类别的概率,第一个第二分类结果包括其中一个图像组中各种动作类别的概率,第二个第二分类结果包括另外一个图像组中各种动作类别的概率。具体地,第一分类结果包括的各种动作类别的概率分别为:打篮球这种动作类别的概率为0.4,踢足球这种动作类别的概率为0.3,打羽毛球这种动作类别的概率为0.3;第一个第二分类结果包括的各种动作类别的概率分别为:打排球这种动作类别的概率为0.25,跑步这种动作类别的概率为0.25,打羽毛球这种动作类别的概率为0.2,打篮球这种动作类别的概率为0.3;第二个第二分类结果包括的各种动作类别的概率分别为:打排球这种动作类别的概率为0.3,打羽毛球这种动作类别的概率为0.15,跑步这种动作类别的概率为0.3,打篮球这种动作类别的概率为0.25。得到目标RGB视频的动作识别结果的过程可以为:
将第一分类结果中打篮球这种动作类别的概率及两个第二分类结果中打篮球这种动作类别的概率进行相加,得到打篮球这种动作类别对应的最终概率为0.4+0.3+0.25=0.95;将第一分类结果中踢足球这种动作类别的概率及两个第二分类结果中踢足球这种动作类别的概率进行相加,得到踢足球这种动作类别对应的最终概率为0.3+0+0=0.3;将第一分类结果中打羽毛球这种动作类别的概率及两个第二分类结果中打羽毛球这种动作类别的概率进行相加,得到打羽毛球这种动作类别对应的最终概率为0.3+0.2+0.15=0.65;将第一分类结果中打排球这种动作类别的概率及两个第二分类结果中打排球这种动作类别的概率进行相加,得到打排球这种动作类别对应的最终概率为0+0.25+0.3=0.55;将第一分类结果中跑步这种动作类别的概率及两个第二分类结果中跑步这种动作类别的概率进行相加,得到跑步这种动作类别对应的最终概率为0+0.25+0.3=0.55;最大的最终概率为0.95,所对应的动作类别为打篮球这种动作类别,从而确定目标RGB视频的动作识别结果为打篮球。
本发明实施例提供的方法,通过对目标RGB视频进行分段处理,得到T个视频段,T不小于3,对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得,而不是像提取光流一样需要涉及大量的解方程运算,从而使得计算量减少,进而提高目标RGB视频的动作识别速度。
结合上述实施例的内容,在一个实施例中,m不大于3。具体的,当m为3时,所得到的目标RGB视频的动作识别结果是最精确的,当m大于3时,识别精度与m的取值不再呈正相关,也即识别精度不会随着m的取值变大而变得更高。
结合上述实施例的内容,在一个实施例中,T不大于7。具体的,当对目标RGB视频进行分段处理,得到7个视频段时,所得到的目标RGB视频的动作识别结果是最精确的,当T大于7时,识别精度与T的取值不再呈正相关,也即识别精度不会随着T的取值变大而变得更高。
结合上述实施例的内容,在一个实施例中,将RGB数据流输入至预设模型,输出第一分类结果之前,还包括:从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成RGB数据流。
还是以T=3为例,对从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成RGB数据流的具体过程进行解释说明:
目标RGB视频被分为了3个视频段,从每一视频段中随机选取一帧图像,最终从3个视频段中一共选取出了3帧图像,由这3帧图像构成RGB数据流。
需要说明的是,T的取值越大,得到的视频段数量越多,对应地,随机选取出的图像数量也越多,也即RGB数据流包含的图像数量越多,从而能够越多覆盖视频中呈现动作类别的相关信息,进而使得目标RGB视频的动作识别结果更加精确。
结合上述实施例的内容,在一个实施例中,对目标RGB视频进行分段处理,得到T个视频段,包括:对目标RGB视频进行平均分段处理,得到均分的T个视频段。
其中,对目标RGB视频平均分段处理的目的是能够越多覆盖视频中呈现动作类别的相关信息,从而提高目标RGB视频的动作识别结果的精度。
本发明实施例提供的人体动作识别方法,通过对目标RGB视频进行平均分段处理,得到均分的T个视频段,从而使得能够越多覆盖视频中呈现动作类别的相关信息,进而提高目标RGB视频的动作识别结果的精度。
结合上述实施例的内容,在一个实施例中,如图2所示,将多个图像组中每一图像组分别输入至预设模型之前,还包括:
201、基于第一样本集对初始模型进行训练,得到预训练模型;
202、基于第二样本集对预训练模型进行再训练,得到预设模型,第二样本集是由包含动作的样本图像所确定的,第一样本集是由随机选取的样本图像所确定的,第一样本集中的样本总数量大于第二样本集中的样本总数量。
在上述步骤201中,第一样本集可以为ImageNet。相应的,本发明不对基于ImageNet对初始模型进行训练,得到预训练模型的方式作限定,包括但不限于:采用ResNet50在ImageNet数据集上训练,将训练好的ResNet50网络作为预训练模型。
在上述步骤202中,第二样本集可以包括UCF-101和/或HMDB-51。以第一样本集为ImageNet,第二样本集为HMDB-51为例,对基于第二样本集对预训练模型进行再训练,得到预设模型的具体过程进行解释说明:采用在ImageNet数据集上训练好的ResNet50网络作为初始参数,在HMDB-51数据集上进行微调训练,将训练好的ResNet50网络作为预设模型。
本发明实施例提供的人体动作识别方法,通过预先利用样本总数量较多的第一样本集,例如ImageNet对初始模型进行训练,使初始模型的内部参数优化到较好的状态,得到预训练模型,此时模型的内部参数已不需大幅改动;然后,再将预训练模型放到样本总数量较少的第二样本集上训练,得到预设模型,从而降低模型的训练时间,且能提高目标RGB视频的动作识别精度。
结合上述实施例的内容,在一个实施例中,将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果,包括:获取第一分类结果的权重及每一第二分类结果的权重;其中,第一分类结果的权重高于每一图像组的第二分类结果的权重;将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘,将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率,将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘,将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率;将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。
以“基于目标RGB视频,获取到一个RGB数据流及2个图像组。相应地,有一个第一分类结果及两个第二分类结果,两个第二分类结果分别为第一个第二分类结果及第二个第二分类结果,且第一分类结果的权重为0.5,第一个第二分类结果的权重及第二个第二分类结果的权重均为0.25。其中,第一分类结果包括RGB数据流中各种动作类别的概率,第一个第二分类结果包括其中一个图像组中各种动作类别的概率,第二个第二分类结果包括另外一个图像组中各种动作类别的概率。具体地,第一分类结果包括的各种动作类别的概率分别为:打篮球这种动作类别的概率为0.4,踢足球这种动作类别的概率为0.3,打羽毛球这种动作类别的概率为0.3;第一个第二分类结果包括的各种动作类别的概率分别为:打排球这种动作类别的概率为0.25,跑步这种动作类别的概率为0.25,打羽毛球这种动作类别的概率为0.2,打篮球这种动作类别的概率为0.3;第二个第二分类结果包括的各种动作类别的概率分别为:打排球这种动作类别的概率为0.3,打羽毛球这种动作类别的概率为0.15,跑步这种动作类别的概率为0.3,打篮球这种动作类别的概率为0.25”为例,对将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果的具体过程进行解释说明:
将第一分类结果中打篮球这种动作类别的概率0.4与第一分类结果的权重0.5进行相乘,结果为0.2,将0.2重新作为第一分类结果中打篮球这种动作类别对应的概率;将第一分类结果中踢足球这种动作类别的概率0.3与第一分类结果的权重0.5进行相乘,结果为0.15,将0.15重新作为第一分类结果中踢足球这种动作类别对应的概率;将第一分类结果中打羽毛球这种动作类别的概率0.3与第一分类结果的权重0.5进行相乘,结果为0.15,将0.15重新作为第一分类结果中打羽毛球这种动作类别对应的概率。
将第一个第二分类结果中打排球这种动作类别的概率0.25与第一个第二分类结果的权重0.25进行相乘,结果为0.0625,将0.0625重新作为第一个第二分类结果中打排球这种动作类别对应的概率;将第一个第二分类结果中跑步这种动作类别的概率0.25与第一个第二分类结果的权重0.25进行相乘,结果为0.0625,将0.0625重新作为第一个第二分类结果中跑步这种动作类别对应的概率;将第一个第二分类结果中打羽毛球这种动作类别的概率0.2与第一个第二分类结果的权重0.25进行相乘,结果为0.05,将0.05重新作为第一个第二分类结果中打羽毛球这种动作类别对应的概率;将第一个第二分类结果中打篮球这种动作类别的概率0.3与第一个第二分类结果的权重0.25进行相乘,结果为0.075,将0.075重新作为第一第二分类结果中打篮球这种动作类别对应的概率。
将第二个第二分类结果中打排球这种动作类别的概率0.3与第二个第二分类结果的权重0.25进行相乘,结果为0.075,将0.075重新作为第二个第二分类结果中打排球这种动作类别对应的概率;将第二个第二分类结果中打羽毛球这种动作类别的概率0.15与第二个第二分类结果的权重0.25进行相乘,结果为0.0375,将0.0375重新作为第二个第二分类结果中打羽毛球这种动作类别对应的概率;将第二个第二分类结果中跑步这种动作类别的概率0.3与第二个第二分类结果的权重0.25进行相乘,结果为0.075,将0.075重新作为第二个第二分类结果中跑步这种动作类别对应的概率;将第二个第二分类结果中打篮球这种动作类别的概率0.25与第二个第二分类结果的权重0.25进行相乘,结果为0.0625,将0.0625重新作为第二个第二分类结果中打篮球这种动作类别对应的概率。
将第一分类结果中打篮球这种动作类别的概率及两个第二分类结果中打篮球这种动作类别的概率进行相加,得到打篮球这种动作类别对应的最终概率为0.2+0.075+0.0625=0.3375;将第一分类结果中踢足球这种动作类别的概率及两个第二分类结果中踢足球这种动作类别的概率进行相加,得到踢足球这种动作类别对应的最终概率为0.15+0+0=0.15;将第一分类结果中打羽毛球这种动作类别的概率及两个第二分类结果中打羽毛球这种动作类别的概率进行相加,得到打羽毛球这种动作类别对应的最终概率为0.15+0.05+0.0375=0.2375;将第一分类结果中打排球这种动作类别的概率及两个第二分类结果中打排球这种动作类别的概率进行相加,得到打排球这种动作类别对应的最终概率为0+0.0625+0.075=0.1375;第一分类结果中跑步这种动作类别的概率及两个第二分类结果中跑步这种动作类别的概率进行相加,得到跑步这种动作类别对应的最终概率为0+0.0625+0.075=0.1375;最大的最终概率为0.3375,所对应的动作类别为打篮球这种动作类别,从而确定目标RGB视频的动作识别结果为打篮球。
本发明实施例提供的人体动作识别方法,通过采用加权融合的方式对第一分类结果和两个第二分类结果中动作类别的概率进行修正,从而使确定的目标RGB视频的动作识别结果更精确。
应该理解的是,虽然图1-图2的流程图中的各种步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
结合上述实施例的内容,在一个实施例中,如图3所示,提供了一种人体动作识别装置,该装置包括:
获取模块301,用于基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
处理模块302,用于对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
第一选取模块303,用于对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
构成模块304,用于基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
第一输出模块305,用于将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
第二输出模块306,用于将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
融合模块307,用于将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
在一个实施例中,m不大于3。
在一个实施例中,T不大于7。
在一个实施例中,该装置还包括:第二选取模块,用于从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成RGB数据流。
在一个实施例中,处理模块302,还用于对目标RGB视频进行平均分段处理,得到均分的T个视频段。
在一个实施例中,该装置还包括:第一训练模块,用于基于第一样本集对初始模型进行训练,得到预训练模型;第二训练模块,用于基于第二样本集对预训练模型进行再训练,得到预设模型,第二样本集是由包含动作的样本图像所确定的,第一样本集是由随机选取的样本图像所确定的,第一样本集中的样本总数量大于第二样本集中的样本总数量。
在一个实施例中,融合模块307,还用于获取第一分类结果的权重及每一第二分类结果的权重;其中,第一分类结果的权重高于每一图像组的第二分类结果的权重;将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘,将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率,将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘,将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率;将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。
本发明实施例提供的装置,通过处理模块302用于对目标RGB视频进行分段处理,得到T个视频段,T不小于3;通过第一选取模块303用于对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;通过构成模块304用于基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得,而不是像提取光流一样需要涉及大量的解方程运算,从而使得计算量减少,进而提高目标RGB视频的动作识别速度。
关于人体动作识别装置的具体限定可以参见上文中对于人体动作识别方法的限定,在此不再赘述。上述人体动作识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储退役电池的各项性能指标。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人体动作识别方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体地计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成RGB数据流。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标RGB视频进行平均分段处理,得到均分的T个视频段。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于第一样本集对初始模型进行训练,得到预训练模型;
基于第二样本集对预训练模型进行再训练,得到预设模型,第二样本集是由包含动作的样本图像所确定的,第一样本集是由随机选取的样本图像所确定的,第一样本集中的样本总数量大于第二样本集中的样本总数量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第一分类结果的权重及每一第二分类结果的权重;
其中,第一分类结果的权重高于每一图像组的第二分类结果的权重;
将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘,将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率,将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘,将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率;
将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;
将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于目标RGB视频,获取m个图像组,m不小于2,m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得;
对于m个图像组中任一图像组,对目标RGB视频进行分段处理,得到T个视频段,T不小于3;
对于T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由T个视频段对应的T帧图像构成任一图像组;其中,预设范围为0至255,在获取m个图像组中每一图像组时所使用的预设间隔均不同;
将RGB数据流输入至预设模型,输出第一分类结果,RGB数据流是由目标RGB视频中的部分图像帧所组成的;
将多个图像组中每一图像组分别输入至预设模型,输出每一图像组的第二分类结果,第一分类结果包括RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
将第一分类结果及每一第二分类结果进行融合,得到目标RGB视频的动作识别结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种人体动作识别方法,其特征在于,所述方法包括:
基于目标RGB视频,获取m个图像组,所述m不小于2,所述m个图像组中每一图像组均是由所述目标RGB视频中的部分图像帧计算所得;
对于m个图像组中任一图像组,对所述目标RGB视频进行分段处理,得到T个视频段,所述T不小于3;
对于所述T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对所述每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由所述T个视频段对应的T帧图像构成所述任一图像组;其中,所述预设范围为0至255,在获取所述m个图像组中每一图像组时所使用的预设间隔均不同;
将所述RGB数据流输入至预设模型,输出第一分类结果,所述RGB数据流是由所述目标RGB视频中的部分图像帧所组成的;
将所述多个图像组中每一图像组分别输入至所述预设模型,输出每一图像组的第二分类结果,所述第一分类结果包括所述RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
将所述第一分类结果及每一第二分类结果进行融合,得到所述目标RGB视频的动作识别结果。
2.根据权利要求1所述的方法,其特征在于,所述m不大于3。
3.根据权利要求1所述的方法,其特征在于,所述T不大于7。
4.根据权利要求1所述的方法,其特征在于,所述将所述RGB数据流输入至预设模型,输出第一分类结果之前,还包括:
从每一视频段中随机选取一帧图像,并由随机选取的所有图像构成所述RGB数据流。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标RGB视频进行分段处理,得到T个视频段,包括:
对所述目标RGB视频进行平均分段处理,得到均分的T个视频段。
6.根据权利要求1所述的方法,其特征在于,所述将所述多个图像组中每一图像组分别输入至所述预设模型之前,还包括:
基于第一样本集对初始模型进行训练,得到预训练模型;
基于第二样本集对预训练模型进行再训练,得到所述预设模型,所述第二样本集是由包含动作的样本图像所确定的,所述第一样本集是由随机选取的样本图像所确定的,所述第一样本集中的样本总数量大于所述第二样本集中的样本总数量。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述将所述第一分类结果及每一第二分类结果进行融合,得到所述目标RGB视频的动作识别结果,包括:
获取所述第一分类结果的权重及每一第二分类结果的权重;
其中,所述第一分类结果的权重高于每一图像组的第二分类结果的权重;
将第一分类结果中每种动作类别的概率与所述第一分类结果的权重进行相乘,将所述第一分类结果中每种动作类别对应的乘积重新作为所述第一分类结果中每种动作类别对应的概率,将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘,将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率;
将每一动作类别在所述第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加,将相加结果作为每一动作类别对应的最终概率;
将最大的最终概率所对应的动作类别作为所述目标RGB视频的动作识别结果。
8.一种人体动作识别装置,其特征在于,所述装置包括:
获取模块,用于基于目标RGB视频,获取m个图像组,所述m不小于2,所述m个图像组中每一图像组均是由所述目标RGB视频中的部分图像帧计算所得;
处理模块,用于对于m个图像组中任一图像组,对所述目标RGB视频进行分段处理,得到T个视频段,所述T不小于3;
第一选取模块,用于对于所述T个视频段中每一视频段,基于预设间隔,在每一视频段中选取n帧图像;
构成模块,用于基于每一视频段对应的n帧图像,获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值,对所述每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和,将求和结果归一化至预设范围,以获得每一视频段对应的一帧图像,并由所述T个视频段对应的T帧图像构成所述任一图像组;其中,所述预设范围为0至255,在获取所述m个图像组中每一图像组时所使用的预设间隔均不同;
第一输出模块,用于将所述RGB数据流输入至预设模型,输出第一分类结果,所述RGB数据流是由所述目标RGB视频中的部分图像帧所组成的;
第二输出模块,用于将所述多个图像组中每一图像组分别输入至所述预设模型,输出每一图像组的第二分类结果,所述第一分类结果包括所述RGB数据流中各种动作类别的概率,每一图像组的第二分类结果包括每一图像组中各种动作类别的概率;
融合模块,用于将所述第一分类结果及每一第二分类结果进行融合,得到所述目标RGB视频的动作识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110828467.5A 2021-07-22 2021-07-22 人体动作识别方法、装置、计算机设备和存储介质 Active CN113591647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110828467.5A CN113591647B (zh) 2021-07-22 2021-07-22 人体动作识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110828467.5A CN113591647B (zh) 2021-07-22 2021-07-22 人体动作识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113591647A true CN113591647A (zh) 2021-11-02
CN113591647B CN113591647B (zh) 2023-08-15

Family

ID=78249101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110828467.5A Active CN113591647B (zh) 2021-07-22 2021-07-22 人体动作识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113591647B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333947A (zh) * 2023-10-18 2024-01-02 首都体育学院 一种羽毛球动作分析方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034746A1 (en) * 2017-07-28 2019-01-31 Alibaba Group Holding Limited System and method for identifying re-photographed images
CN110096938A (zh) * 2018-01-31 2019-08-06 腾讯科技(深圳)有限公司 一种视频中的动作行为的处理方法和装置
CN110766096A (zh) * 2019-10-31 2020-02-07 北京金山云网络技术有限公司 视频分类方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034746A1 (en) * 2017-07-28 2019-01-31 Alibaba Group Holding Limited System and method for identifying re-photographed images
CN110096938A (zh) * 2018-01-31 2019-08-06 腾讯科技(深圳)有限公司 一种视频中的动作行为的处理方法和装置
CN110766096A (zh) * 2019-10-31 2020-02-07 北京金山云网络技术有限公司 视频分类方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷庆;李绍滋;陈锻生;: "一种结合姿态和场景的图像中人体行为分类方法", 小型微型计算机系统, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333947A (zh) * 2023-10-18 2024-01-02 首都体育学院 一种羽毛球动作分析方法与系统
CN117333947B (zh) * 2023-10-18 2024-05-10 首都体育学院 一种羽毛球动作分析方法与系统

Also Published As

Publication number Publication date
CN113591647B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
KR101640998B1 (ko) 화상 처리 장치 및 화상 처리 방법
CN111310731B (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
CN111814902A (zh) 目标检测模型训练方法、目标识别方法、装置和介质
US10776662B2 (en) Weakly-supervised spatial context networks to recognize features within an image
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN110826379B (zh) 一种基于特征复用与YOLOv3的目标检测方法
US20210326638A1 (en) Video panoptic segmentation
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN110619316A (zh) 人体关键点检测方法、装置和电子设备
Wu et al. Learning scene gist with convolutional neural networks to improve object recognition
CN109034218B (zh) 模型训练方法、装置、设备及存储介质
CN111199186A (zh) 图像质量评分模型训练方法、装置、设备及存储介质
CN111694954B (zh) 图像分类方法、装置和电子设备
CN111814690A (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN112232140A (zh) 人群计数方法、装置、电子设备及计算机存储介质
CN113591647B (zh) 人体动作识别方法、装置、计算机设备和存储介质
CN114298179A (zh) 一种数据处理方法、装置及设备
CN116129496A (zh) 一种图像遮挡方法、装置、计算机设备及存储介质
CN114723818A (zh) 基于深度学习的苗线识别的方法、装置和农机
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
CN111611846A (zh) 行人再识别方法、装置、电子设备及存储介质
Alharbi et al. Error-based noise filtering during neural network training
CN111524161A (zh) 提取轨迹的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant