CN116959097A - 动作识别方法、装置、设备及存储介质 - Google Patents
动作识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116959097A CN116959097A CN202310710277.2A CN202310710277A CN116959097A CN 116959097 A CN116959097 A CN 116959097A CN 202310710277 A CN202310710277 A CN 202310710277A CN 116959097 A CN116959097 A CN 116959097A
- Authority
- CN
- China
- Prior art keywords
- key point
- target
- sub
- keypoint
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 claims abstract description 226
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000000875 corresponding effect Effects 0.000 claims description 87
- 230000006870 function Effects 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000013210 evaluation model Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 18
- 230000000306 recurrent effect Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 210000001508 eye Anatomy 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000037147 athletic performance Effects 0.000 description 1
- 210000001217 buttock Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种动作识别方法、装置、设备及存储介质。方法应用于动作识别系统,所述动作识别系统包括关键点检测模型、动作识别模型,所述方法包括:获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型;通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;通过所述动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。本申请旨在实现提高动作识别的识别效率以及识别结果的准确性。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种动作识别方法、动作识别装置、计算机设备及计算机可读存储介质。
背景技术
随着计算机技术与机器学习技术的快速发展,计算机视觉技术也随之迅速增长。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。基于计算机视觉的动作识别可应用于行为分析、人机交互、公共安全、智能监控等多个领域。例如,动作识别能够用于监测和评估患者的康复训练,提高患者的康复效果和速度;或者用于评估运动员的动作准确性和流畅度,从而提高训练效果和成绩等。
然而,现有技术通过深度学习模型对于行为进行识别的过程中,通常需要手动标注或人工特征提取视频帧序列中的目标关键点,且不限制关键点的具体的应用场景,导致了模型检测得到的动作识别结果精度不高、准确性较低,且识别效率较慢。
发明内容
本申请提供了一种动作识别方法、动作识别装置、计算机设备及计算机可读存储介质,旨在实现提高动作识别的识别效率以及识别结果的准确性。
为实现上述目的,本申请提供一种动作识别方法,应用于动作识别系统,所述动作识别系统包括关键点检测模型、动作识别模型,所述方法包括:
获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;
基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,其中,所述关键点检测模型集成有多个子关键点检测模型,任一所述子关键点检测模型与其余所述子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:所述关键点类型不同,所述关键点数量相同;或所述关键点类型相同,所述关键点数量不相同;或所述关键点类型以及所述关键点数量都不相同;
通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;
将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;
通过所述动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。
为实现上述目的,本申请还提供一种动作识别装置,包括:
获取模块,所述获取模块用于获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;
关键点检测模块,所述关键点检测模块用于基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,其中,所述关键点检测模型集成有多个子关键点检测模型,任一所述子关键点检测模型与其余所述子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:所述关键点类型不同,所述关键点数量相同;或所述关键点类型相同,所述关键点数量不相同;或所述关键点类型以及所述关键点数量都不相同;
所述关键点检测模块还用于通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;
所述关键点检测模块还用于将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;
动作识别模块,所述动作识别模块用于通过动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。
此外,为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的动作识别方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的动作识别方法的步骤。
本申请实施例公开的动作识别方法、动作识别装置、计算机设备及计算机可读存储介质,能够获取包含待识别动作的目标视频,并从目标视频中确定目标视频帧序列以用于对动作进行识别。进一步的,可基于任务需求,确定关键点检测模型中的至少一个目标子关键点检测模型,并通过至少一个目标子关键点检测模型对目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列。如此,便可将至少一组目标子关键点序列进行处理得到目标关键点序列,并通过动作识别模型对目标关键点序列进行动作识别,从而得到动作识别结果。本申请可以基于任务确定对应的子关键点检测模型,因此在实现了提高模型检测的准确率和效率的同时,还提高了关键点检测模型的泛化性。此外,本申请通过子关键点检测模型对视频帧序列进行关键点检测,相较于现有技术通过手动标注或人工特征提取实现关键点检测,本申请提出的方法能够提高模型检测的效率和准确率,进而得到较为精确的动作识别结果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种动作识别方法的步骤示意图;
图2是本申请实施例提供的一种确定至少一个目标子关键点检测模型的步骤示意图;
图3是本申请实施例提供的一种得到目标关键点序列的步骤示意图;
图4是本申请实施例提供的另一种得到目标关键点序列的步骤示意图;
图5是本申请实施例提供的一种得到关键点检测模型的步骤示意图;
图6是本申请实施例提供的一种得到动作识别模型的步骤示意图;
图7是本申请实施例提供的一种动作识别装置的示意性框图;
图8是本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种动作识别方法的步骤示意图。其中,该动作识别方法可以应用在动作识别系统中,动作识别系统包括关键点检测模型和动作识别模型,由此实现动作识别。
如图1所示,该动作识别方法包括步骤S11至步骤S15。
步骤S11:获取包含待识别动作的目标视频,并从目标视频中确定目标视频帧序列。
具体的,当需要对动作进行识别时,可通过摄像装置或者具有摄像功能的装置录像的方式对待识别动作进行录像,从而得到包含待识别动作的目标视频。
进一步的,目标视频由若干个视频帧序列组成,因此,可针对目标视频以一定的频率采样,确定目标视频帧序列。
在本申请实施例中,可获取包含待识别动作的目标视频,并从目标视频中确定目标视频帧序列,以用于对待识别动作进行识别。
步骤S12:基于目标任务需求,确定关键点检测模型中的至少一个目标子关键点检测模型。
其中,目标任务需求可基于用户自身决定,例如目标任务需求为对面部进行识别、对手部进行识别或者对上肢进行识别等,本申请对此不加以限定。
进一步的,关键点检测模型集成有多个子关键点检测模型,任一子关键点检测模型与其余子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:关键点类型不同,关键点数量相同;或关键点类型相同,关键点数量不相同;或关键点类型以及关键点数量都不相同。
也就是说,每一子关键点检测模型均能检测得到一定数量和类型的关键点,其中,关键点可以为鼻子、眼睛、耳朵、肩膀、肘部、手腕、手指、臀部、膝盖和脚踝等特征,本申请对此不加以限定。
进一步的,每一子关键点与其他子关键点检测模型可能检测到相同类型的关键点,不同数量的关键点;或者,不同类型的关键点,相同数量的关键点,或者类型以及数量均不同的关键点。
为了方便理解,本申请以检测手部的第一子关键点检测模型以及检测上肢的第二子关键点检测模型为例进行说明。可以理解的,第二子关键点检测模型检测到的关键点的数量明显多余第二子关键检测模型的检测到的关键点数量。然而,第二子关键点检测模型能够检测到第一子关键点检测模型检测到的关键点,该关键点包括手腕、手指等特征。
因此,在任务需求为检测手部的动作时,可确定关键点检测模型中的若干能够检测到手部的关键点的子关键点检测模型。
需要说明的是,本申请对于关键点检测模型的类型不加以限定,例如可以为卷积神经网络模型(Convolutional Neural Network,CNN)、全连接网络模型等,本申请以关键点检测模型为卷积神经网络模型为例进行说明。
卷积神经网络是一种前馈神经网络,常用于处理具有类似网格结构的数据,如图像、声音等。卷积神经网络由卷积层、池化层和全连接层等组成,其中卷积层可以将输入数据与卷积核进行卷积操作,提取出输入数据的特征信息;池化层可以降低特征数据的维度,减少计算量;全连接层可以将特征数据映射到输出层,进行分类或回归等任务。卷积神经网络在计算机视觉、自然语言处理等领域有广泛应用。
在本申请实施例中,可基于目标任务需求,确定关键点检测模型中的至少一个目标子关键点检测模型,以用于对目标任务需求对应的关键点进行检测。
步骤S13:通过至少一个目标子关键点检测模型对目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列。
步骤S14:将至少一组目标子关键点序列进行处理,得到目标关键点序列。
由于目标任务需求对应有若干目标关键点,因此在得到至少一个目标子关键点检测模型后,可利用目标子关键点检测模型对目标视频帧序列中任务需求对应的关键点进行检测,从而得到至少一组目标子关键点序列。其中,目标子关键点序列包括每一目标关键点对应的位置坐标等,本申请对此不加以限定。
进一步的,由于不同的目标子关键点检测模型可能对同一类型关键点进行检测,且得到同一类型关键点对应的多个目标子关键序列,因此,可将同一类型关键点对应的多个目标子关键序列进行合并、或者筛选等处理,从而得到该关键点对应的最终的目标子关键序列。
基于此,可将任务需求中每一关键点对应的目标子关键序列进行集成,如此,得到目标关键点序列。
在本申请实施例中,可通过至少一个目标子关键点检测模型对目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列。进而将至少一组目标子关键点序列进行处理,得到目标关键点序列。可以理解的,由于目标关键点序列是通过多个目标子关键点检测模型检测并处理得到,因此,相较于手动标注或人工特征提取关键点,本申请实施例提升了关键点检测的准确性以及效率。
步骤S15:通过动作识别模型对目标关键点序列进行动作识别,得到动作识别结果。
具体的,可将目标关键点序列作为动作识别模型的输入,进而输出得到动作识别结果。
需要说明的是,本申请对于动作识别模型的类型不加以限定,例如动作识别模型的类型为循环神经网络模型(Recurrent Neural Network,RNN)、卷积神经网络模型或者其它机器学习算法,本申请以动作识别模型的类型为循环神经网络模型为例进行说明。
循环神经网络是一种具有循环结构的神经网络模型,常用于处理序列数据。循环神经网络通过在网络中引入循环的连接,使得网络可以保持一定的状态信息,并能够利用这些状态信息来处理序列数据。循环神经网络的一个重要特点是可以处理变长的序列数据,而且可以利用序列中的时间信息来进行预测或分类。循环神经网络在自然语言处理、语音识别、动作识别以及图像处理等领域中得到了广泛的应用。
在本申请实施例中,可基于动作识别模型对检测到的目标关键点序列进行动作识别,得到动作识别结果,从而实现动作的识别。
本申请实施例公开的动作识别方法,能够获取包含待识别动作的目标视频,并从目标视频中确定目标视频帧序列以用于对动作进行识别。进一步的,可基于任务需求,确定关键点检测模型中的至少一个目标子关键点检测模型,并通过至少一个目标子关键点检测模型对目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列。如此,便可将至少一组目标子关键点序列进行处理得到目标关键点序列,并通过动作识别模型对目标关键点序列进行动作识别,从而得到动作识别结果。本申请可以基于任务确定对应的子关键点检测模型,因此在实现了提高模型检测的准确率和效率的同时,还提高了关键点检测模型的泛化性。此外,本申请通过子关键点检测模型对视频帧序列进行关键点检测,相较于现有技术通过手动标注或人工特征提取实现关键点检测,本申请提出的方法能够提高模型检测的效率和准确率,进而得到较为精确的动作识别结果。
请继续参阅图2,图2是本申请实施例提供的一种确定至少一个目标子关键点检测模型的步骤示意图。如图2所示,可通过步骤S121至步骤S122实现确定至少一个目标子关键点检测模型。
步骤S121:获取任务映射表以及目标任务需求。
步骤S122:基于目标任务需求从任务映射表中确定对应的至少一个目标子关键点检测模型。
其中,任务映射表包括任务需求与配置文件列表的映射关系,配置文件列表包括每一子关键点检测模型。
具体的,在获取到任务映射表以及目标任务需求后,可从任务映射表中确定目标任务需求对应的至少一个目标子关键点检测模型。
例如,对于目标任务需求为对手部进行识别,则可从任务映射表中确定若干能够对手部进行识别的目标子关键点检测模型。其中,目标子关键点检测模型包括只对手部进行识别的子关键点检测模型,以及能够对手部和其他部位都进行识别的子关键点检测模型。
在本申请实施例中,可获取任务映射表以及目标任务需求,并基于目标任务需求直接从任务映射表中确定对应的至少一个目标子关键点检测模型。如此,提高了确定至少一个目标子关键点检测模型的效率,且进一步的提高了动作识别的效率。
可选地,配置文件列表还包括每一子关键点检测模型的配置文件的存储路径,上述基于目标任务需求从任务映射表中确定对应的至少一个目标子关键点检测模型之后,还包括:基于目标任务需求从任务映射表中确定对应的至少一个目标子关键点检测模型的目标存储路径;通过若干目标存储路径获取对应的目标子关键点检测模型的配置文件,其中,每一目标配置文件包含对应的目标子关键点检测模型的目标标识符、目标模型结构信息和目标参数信息;通过目标标识符加载对应的目标子关键点检测模型,并根据目标模型结构信息和目标参数信息初始化目标子关键点检测模型。
具体的,上述配置文件列表还包括每一子关键点检测模型的配置文件的存储路径。因此,可基于目标任务需求从任务映射表中确定对应的至少一个目标子关键点检测模型的目标存储路径,并通过若干目标存储路径获取对应的目标子关键点检测模型的配置文件。如此,可基于目标子关键点检测模型的配置文件实现目标子关键点检测模型的应用。
进一步的,还可以获取配置文件中的目标子关键点检测模型的目标标识符、目标模型结构信息和目标参数信息,并通过目标标识符加载对应的目标子关键点检测模型,进而根据目标模型结构信息和目标参数信息初始化目标子关键点检测模型。
可以理解的,通过对目标子关键点检测模型的初始化,能够帮助目标子关键点检测模型更快地收敛,进而提高模型的准确性。此外,还可以使得目标子关键点检测模型更好地适应新的数据集,从而提高模型的泛化能力。
在本申请实施例中,可基于配置文件列表的每一子关键点检测模型的配置文件的存储路径确定对应的目标子关键点检测模型的配置文件,进而基于配置文件的相关信息对目标子关键点检测模型进行初始化。如此,实现了提高目标子关键点检测模型输出结果的准确性,以及提高目标子关键点检测模型的泛化能力。
请继续参阅图3,图3是本申请实施例提供的一种得到目标关键点序列的步骤示意图。如图3所示,可通过步骤S131至步骤S132实现得到目标关键点序列。
步骤S131:响应于目标子关键点序列的数量为1,将目标子关键点序列作为目标关键点序列。
步骤S132:响应于目标子关键点序列的数量大于1,按照目标子关键点序列的关键点类型对至少两组目标子关键点序列进行处理,得到目标关键点序列。
可以理解的,当检测得到的目标子关键点序列的数量为1时,可直接将该目标子关键点序列作为目标关键点序列。
当检测到的目标子关键点序列的数量大于1时,可基于关键点类型对至少两组目标子关键点序列进行处理,进而得到目标关键点序列。
需要说明的是,本申请对于具体的处理方式不加以限定。例如对于同一类型的子关键点,其可能由多个目标子关键点检测模型检测得到多个目标子关键点序列,因此可通过最大值选取法、平均值计算法、加权平均法等确定该类型子关键点的最终目标子关键点序列。
进一步的,可得到每一子关键点对应的一个目标子关键点序列,进而将其作为目标关键点序列。
在本申请实施例中,可响应于目标子关键点序列的数量确定目标关键点序列。进一步的,还可以基于目标子关键点序列的关键点类型对至少两组目标子关键点序列进行处理,得到目标关键点序列。如此,可基于目标关键点序列实现动作的识别。
请继续参阅图4,图4是本申请实施例提供的另一种得到目标关键点序列的步骤示意图。如图4所示,可通过步骤S1321至步骤S1322实现对至少两组目标子关键点序列进行处理,得到目标关键点序列。
步骤S1321:对关键点类型相同的至少两组目标子关键点序列进行合并,得到第一目标关键点序列;和/或,将其余关键点类型的目标子关键点序列作为第二目标关键点序列,其中,每一其余关键点类型对应一组目标子关键点序列。
具体的,对关键点类型相同的至少两组目标子关键点序列,可将其进行合并,进而得到合并后的第一目标关键点序列。对于其余关键点类型的目标子关键点序列,由于每一其余关键点类型对应一组目标子关键点序列,因此,可直接将其作为第二目标关键点序列。
需要说明的是,本申请对于将关键点类型相同的至少两组目标子关键点序列合并的方式不加以限定,例如可以通过最大值选取法、平均值计算法、加权平均法等。
可选地,对关键点类型相同的至少两组目标子关键点序列进行合并,得到第一目标关键点序列,包括:获取关键点类型相同的至少两组目标子关键点序列对应的预测概率;对于每一关键点类型,确定预测概率中最大值对应的目标子关键点序列为最终子关键点序列;将每一最终子关键点序列进行合并,得到第一目标关键点序列。
具体的,对于每一相同的关键点类型对应的至少两组目标子关键点序列,可分别确定其对应的预测概率,进而将预测概率中最大值对应的目标子关键点序列为该关键点的最终子关键点序列。进一步的,可将每一关键点类型对应的最终子关键点序列进行集成,如此可得到第一目标关键点序列。
可以理解的,上述实施例的最终子关键点序列对应于最大值的预测概率,因此通过该方式得到的第一目标关键点序列准确性较高。
可选地,对关键点类型相同的至少两组目标子关键点序列进行合并,得到第一目标关键点序列,包括:获取关键点类型相同的至少两组目标子关键点序列对应的预测概率;对相同关键点类型的多个目标子关键点序列进行预测概率均值化,得到均值预测概率,并将均值预测概率作为最终目标子关键点序列的预测概率;将每一最终子关键点序列进行合并,得到第一目标关键点序列。
具体的,对于每一相同的关键点类型对应的至少两组目标子关键点序列,可分别确定其对应的预测概率,进而基于多个预测概率确定均值预测概率,并将均值预测概率作为最终目标子关键点序列的预测概率。进一步的,可将每一关键点类型对应的最终子关键点序列进行合并,如此可得到第一目标关键点序列。
可以理解的,上述实施例中基于均值预测概率对应于最终目标子关键点序列的预测概率。因此通过该方式得到的第一目标关键点序列准确性较高。
可选地,对关键点类型相同的至少两组目标子关键点序列进行合并,得到第一目标关键点序列,包括:获取关键点类型相同的至少两组目标子关键点序列对应的目标子关键点检测模型的预设权重;基于预设权重,对关键点类型相同的至少两组目标子关键点序列进行加权操作,得到加权操作后的目标子关键点序列;基于相同关键点类型,确定加权操作后的至少两组目标子关键点序列对应的预测概率,并进行预测概率均值化,得到均值预测概率;将均值预测概率作为最终目标子关键点序列的预测概率;将每一最终子关键点序列进行合并,得到第一目标关键点序列。
具体的,对于每一相同的关键点类型对应的至少两组目标子关键点序列,可基于预设权重对其进行加权操作,进而确定加权操作后的预测概率,并得到加权操作后的均值预测概率。进一步的,将加权操作后的均值预测概率作为最终目标子关键点序列的预测概率。并将每一关键点类型对应的最终子关键点序列进行合并,如此可得到第一目标关键点序列。
其中,本申请对于预设权重不加以限定,可根据关键点的侧重程度设定。
可以理解的,上述实施例中基于加权操作后的均值预测概率对应于最终目标子关键点序列的预测概率,从而实现第一目标关键点序列的确定。由于引入了预设权重,因此,通过该方式得到的第一目标关键点序列更接近实际准确性较高,且基于第一目标关键点序列得到的动作识别结果更接近于实际结果。
在本申请实施例中,对关键点类型相同的至少两组目标子关键点序列,可通过最大值选取法、平均值计算法、加权平均法等方式实现第一目标关键点序列的确定。对于对于其余关键点类型的目标子关键点序列,由于每一其余关键点类型对应一组目标子关键点序列,因此,可直接将其作为第二目标关键点序列。
步骤S1322:将第一目标关键点序列和/或第二目标关键点序列作为目标关键点序列。
由于目标关键点序列包括第一目标关键点序列和/或第二目标关键点序列,因此,在确定第一目标关键点序列和/或第二目标关键点序列后,可将第一目标关键点序列和/或第二目标关键点序列作为目标关键点序列。如此,实现目标关键点序列的确定。
在本申请实施例中,可以基于目标子关键点序列的关键点类型对目标子关键点序列进行处理,得到目标关键点序列。如此,可基于目标关键点序列实现动作的识别。
请继续参阅图5,图5是本申请实施例提供的一种得到关键点检测模型的步骤示意图。如图5所示,可通过步骤S21至步骤S23实现得到关键点检测模型。
步骤S21:获取若干第一样本数据,第一样本数据包括若干图像数据及对应的关键点标注。
步骤S22:根据若干第一样本数据基于预设的第一损失函数对每一预训练的子关键点检测模型进行训练,得到收敛后的若干子关键点检测模型。
其中,第一样本数据为训练关键点检测模型的样本数据;第一损失函数为训练关键点检测模型的损失函数。
进一步的,不同的子关键点检测模型对应的第一样本数据不同,以使不同的子关键点模型输出不同类型和/或数量的关键点。
具体的,可将若干第一样本数据输入至每一预训练的子关键点检测模型进行训练,进而通过预设的第一损失函数对训练后的若干子关键点检测模型进行迭代,从而得到收敛后的若干子关键点检测模型。
需要说明的是,本申请对于第一损失函数的类型不加以限定,例如可以包括均方误差损失函数、交叉熵损失函数、对数损失函数等。
在本申请实施例中,可以基于若干不同的第一样本数据对预训练的子关键点检测模型进行训练,以实现不同的子关键点模型输出不同类型和/或数量的关键点。此外,还可以基于第一损失函数对训练后的若干子关键点检测模型进行迭代,以实现降低子关键点检测模型输出结果的误差,提升模型的精确性。
步骤S23:将每一子关键点检测模型进行集成,得到关键点检测模型。
在得到若干子关键点检测模型后,可将其集成得到关键点检测模型。由于关键点检测模型是由若干训练后的若干子关键点检测模型得到,因此该关键点检测模型的精确性较高。
请继续参阅图6,图6是本申请实施例提供的一种得到动作识别模型的步骤示意图。如图6所示,可通过步骤S31至步骤S32实现得到动作识别模型。
步骤S31:获取第二样本数据,第二样本数据包括若干图像数据及对应的动作序列标注。
步骤S32:根据第二样本数据基于预设的第二损失函数对预训练的动作识别模型进行训练,以得到收敛后的动作识别模型。
其中,第二样本数据为训练动作识别模型的样本数据;第二损失函数为训练动作识别模型的损失函数。
具体的,可将若干第二样本数据输入至每一预训练的动作识别模型进行训练,进而通过预设的第二损失函数对训练后的动作识别模型进行迭代,从而得到收敛后的动作识别模型。
需要说明的是,本申请对于第二损失函数的类型不加以限定,例如可以包括均方误差损失函数、交叉熵损失函数、对数损失函数等。
在本申请实施例中,可以基于若干不同的第二样本数据对预训练的动作识别模型进行训练,并基于第二损失函数对训练后的动作识别模型进行迭代,以实现降低动作识别模型输出结果的误差,提升模型的精确性。
可选地,将至少一组目标子关键点序列进行处理,得到目标关键点序列之后,还包括:通过姿态估计模型对目标关键点序列进行姿态估计,得到姿态估计信息。
具体的,在得到目标关键点序列之后,还可以将目标关键点序列输入至姿态估计模型,进而输出得到姿态估计信息。如此,实现了对待识别动作的姿态进行估计,以捕捉待识别动作的细节以及变化。
需要说明的是,本申请对于姿态估计模型的类型不加以限定,例如姿态估计模型的类型包括循环神经网络模型(Recurrent Neural Network,RNN)、卷积神经网络模型或者其它机器学习算法等。
在上述实施例的基础上,动作识别结果包括动作类别结果,通过动作识别模型对目标关键点序列进行动作识别,得到动作识别结果,包括:通过动作识别模型基于姿态估计信息进行动作识别,得到动作类别结果。
具体的,在得到姿态估计信息后,可将其作为动作识别模型的输入,并输入至动作识别模型,从而通过动作识别模型基于姿态估计信息进行动作识别,并输出得到动作类别结果。
在本申请实施例中,可基于姿态估计模型的待识别动作的姿态信息,以实现了对待识别动作的姿态进行估计,进而捕捉待识别动作的细节以及变化。进一步的,还可以从而通过动作识别模型基于姿态估计信息进行动作识别,通过学习到动作的时空特征,以得到较为准确的动作类别结果。
可选地,动作识别系统还包括得分评估模型,通过动作识别模型对目标关键点序列进行动作识别,得到动作识别结果之后,还包括:基于动作识别结果确定对应的运动指标信息;通过得分评估模型基于运动指标信息进行得分评估,得到得分评估结果。
其中,运动指标信息包括但不限于动作时长、关键点运动速度、加速度、角度等运动学指标。
具体的,可基于动作识别结果确定对应的运动指标信息,进而基于得分评估模型对运动指标信息进行得分评估,得到得分评估结果。
需要说明的是,本申请对于具体的评估方式不加以限定,可基于具体的应用场景和需求设定。
在本申请实施例中,可基于得分评估模型对动作识别结果确定对应的运动指标信息进行得分评估,得到得分评估结果。本申请实施例提出的方法可应用于体育竞技等场景,可将运动员的动作指标信息与标准模板的指标信息进行比较,进而实现基于比较结果计算运动员的得分。
请参阅图7,图7是本申请实施例提供的一种动作识别装置的示意性框图。该动作识别装置可以配置于服务器中,用于执行前述的动作识别方法。
如图6所示,该动作识别装置200包括:获取模块201、关键点检测模块202、动作识别模块203。
获取模块201,用于获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;
关键点检测模块202,用于基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,其中,所述关键点检测模型集成有多个子关键点检测模型,任一所述子关键点检测模型与其余所述子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:所述关键点类型不同,所述关键点数量相同;或所述关键点类型相同,所述关键点数量不相同;或所述关键点类型以及所述关键点数量都不相同;
关键点检测模块202,还用于通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;
关键点检测模块202,还用于将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;
动作识别模块203,用于通过动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。
关键点检测模块202,还用于获取任务映射表以及所述目标任务需求,其中,所述任务映射表包括任务需求与配置文件列表的映射关系,所述配置文件列表包括每一所述子关键点检测模型;基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型。
关键点检测模块202,还用于基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型的目标存储路径;通过若干所述目标存储路径获取对应的所述目标子关键点检测模型的配置文件,其中,每一所述目标配置文件包含对应的所述目标子关键点检测模型的目标标识符、目标模型结构信息和目标参数信息;通过所述目标标识符加载对应的所述目标子关键点检测模型,并根据所述目标模型结构信息和所述目标参数信息初始化所述目标子关键点检测模型。
关键点检测模块202,还用于响应于所述目标子关键点序列的数量为1,将所述目标子关键点序列作为所述目标关键点序列;响应于所述目标子关键点序列的数量大于1,按照所述目标子关键点序列的关键点类型对至少两组目标子关键点序列进行处理,得到所述目标关键点序列。
关键点检测模块202,还用于对关键点类型相同的至少两组所述目标子关键点序列进行合并,得到第一目标关键点序列;和/或,将其余关键点类型的所述目标子关键点序列作为第二目标关键点序列,其中,每一其余关键点类型对应一组目标子关键点序列;将所述第一目标关键点序列和/或所述第二目标关键点序列作为所述目标关键点序列。
关键点检测模块202,还用于获取关键点类型相同的至少两组所述目标子关键点序列对应的预测概率;对于每一所述关键点类型,确定所述预测概率中最大值对应的所述目标子关键点序列为最终子关键点序列;将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
关键点检测模块202,还用于获取关键点类型相同的至少两组所述目标子关键点序列对应的预测概率;对相同关键点类型的多个所述目标子关键点序列进行预测概率均值化,得到均值预测概率,并将所述均值预测概率作为最终目标子关键点序列的预测概率;将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
关键点检测模块202,还用于获取关键点类型相同的至少两组所述目标子关键点序列对应的所述目标子关键点检测模型的预设权重;基于所述预设权重,对关键点类型相同的至少两组所述目标子关键点序列进行加权操作,得到加权操作后的所述目标子关键点序列;基于相同关键点类型,确定加权操作后的至少两组所述目标子关键点序列对应的预测概率,并进行所述预测概率均值化,得到均值预测概率;将所述均值预测概率作为最终目标子关键点序列的预测概率;将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
关键点检测模块202,还用于获取若干第一样本数据,所述第一样本数据包括若干图像数据及对应的关键点标注;根据若干所述第一样本数据基于预设的第一损失函数对每一预训练的子关键点检测模型进行训练,得到收敛后的若干所述子关键点检测模型,其中,不同的所述子关键点检测模型对应的所述第一样本数据不同,以使不同的所述子关键点模型输出不同类型和/或数量的所述关键点;将每一所述子关键点检测模型进行集成,得到所述关键点检测模型。
动作识别模块203,还用于获取第二样本数据,所述第二样本数据包括若干图像数据及对应的动作序列标注;根据所述第二样本数据基于预设的第二损失函数对预训练的动作识别模型进行训练,以得到收敛后的所述动作识别模型。
关键点检测模块202,还用于通过所述姿态估计模型对所述目标关键点序列进行姿态估计,得到姿态估计信息。
动作识别模块203,还用于通过所述动作识别模型基于所述姿态估计信息进行动作识别,得到所述动作类别结果。
动作识别模块203,还用于基于所述动作识别结果确定对应的运动指标信息;通过所述得分评估模型基于所述运动指标信息进行得分评估,得到得分评估结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器。
如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括易失性存储介质、非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种动作识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种动作识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,其中,所述关键点检测模型集成有多个子关键点检测模型,任一所述子关键点检测模型与其余所述子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:所述关键点类型不同,所述关键点数量相同;或所述关键点类型相同,所述关键点数量不相同;或所述关键点类型以及所述关键点数量都不相同;通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;通过所述动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。
在一些实施方式中,所述处理器还用于获取任务映射表以及所述目标任务需求,其中,所述任务映射表包括任务需求与配置文件列表的映射关系,所述配置文件列表包括每一所述子关键点检测模型;基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型。
在一些实施方式中,所述处理器还用于基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型的目标存储路径;通过若干所述目标存储路径获取对应的所述目标子关键点检测模型的配置文件,其中,每一所述目标配置文件包含对应的所述目标子关键点检测模型的目标标识符、目标模型结构信息和目标参数信息;通过所述目标标识符加载对应的所述目标子关键点检测模型,并根据所述目标模型结构信息和所述目标参数信息初始化所述目标子关键点检测模型。
在一些实施方式中,所述处理器还用于响应于所述目标子关键点序列的数量为1,将所述目标子关键点序列作为所述目标关键点序列;响应于所述目标子关键点序列的数量大于1,按照所述目标子关键点序列的关键点类型对至少两组目标子关键点序列进行处理,得到所述目标关键点序列。
在一些实施方式中,所述处理器还用于对关键点类型相同的至少两组所述目标子关键点序列进行合并,得到第一目标关键点序列;和/或,将其余关键点类型的所述目标子关键点序列作为第二目标关键点序列,其中,每一其余关键点类型对应一组目标子关键点序列;将所述第一目标关键点序列和/或所述第二目标关键点序列作为所述目标关键点序列。
在一些实施方式中,所述处理器还用于获取关键点类型相同的至少两组所述目标子关键点序列对应的预测概率;对于每一所述关键点类型,确定所述预测概率中最大值对应的所述目标子关键点序列为最终子关键点序列;将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
在一些实施方式中,所述处理器还用于获取关键点类型相同的至少两组所述目标子关键点序列对应的预测概率;对相同关键点类型的多个所述目标子关键点序列进行预测概率均值化,得到均值预测概率,并将所述均值预测概率作为最终目标子关键点序列的预测概率;将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
在一些实施方式中,所述处理器还用于获取关键点类型相同的至少两组所述目标子关键点序列对应的所述目标子关键点检测模型的预设权重;基于所述预设权重,对关键点类型相同的至少两组所述目标子关键点序列进行加权操作,得到加权操作后的所述目标子关键点序列;基于相同关键点类型,确定加权操作后的至少两组所述目标子关键点序列对应的预测概率,并进行所述预测概率均值化,得到均值预测概率;将所述均值预测概率作为最终目标子关键点序列的预测概率;将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
在一些实施方式中,所述处理器还用于获取若干第一样本数据,所述第一样本数据包括若干图像数据及对应的关键点标注;根据若干所述第一样本数据基于预设的第一损失函数对每一预训练的子关键点检测模型进行训练,得到收敛后的若干所述子关键点检测模型,其中,不同的所述子关键点检测模型对应的所述第一样本数据不同,以使不同的所述子关键点模型输出不同类型和/或数量的所述关键点;将每一所述子关键点检测模型进行集成,得到所述关键点检测模型。
在一些实施方式中,所述处理器还用于获取第二样本数据,所述第二样本数据包括若干图像数据及对应的动作序列标注;根据所述第二样本数据基于预设的第二损失函数对预训练的动作识别模型进行训练,以得到收敛后的所述动作识别模型。
在一些实施方式中,所述处理器还用于通过所述姿态估计模型对所述目标关键点序列进行姿态估计,得到姿态估计信息。
在一些实施方式中,所述处理器还用于通过所述动作识别模型基于所述姿态估计信息进行动作识别,得到所述动作类别结果。
在一些实施方式中,所述处理器还用于基于所述动作识别结果确定对应的运动指标信息;通过所述得分评估模型基于所述运动指标信息进行得分评估,得到得分评估结果。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的任一种动作识别方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种动作识别方法,其特征在于,应用于动作识别系统,所述动作识别系统包括关键点检测模型、动作识别模型,所述方法包括:
获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;
基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,其中,所述关键点检测模型集成有多个子关键点检测模型,任一所述子关键点检测模型与其余所述子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:所述关键点类型不同,所述关键点数量相同;或所述关键点类型相同,所述关键点数量不相同;或所述关键点类型以及所述关键点数量都不相同;
通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;
将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;
通过所述动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,包括:
获取任务映射表以及所述目标任务需求,其中,所述任务映射表包括任务需求与配置文件列表的映射关系,所述配置文件列表包括每一所述子关键点检测模型;
基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型。
3.根据权利要求2所述的方法,其特征在于,所述配置文件列表还包括每一所述子关键点检测模型的配置文件的存储路径,所述基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型之后,还包括:
基于所述目标任务需求从所述任务映射表中确定对应的至少一个所述目标子关键点检测模型的目标存储路径;
通过若干所述目标存储路径获取对应的所述目标子关键点检测模型的配置文件,其中,每一所述目标配置文件包含对应的所述目标子关键点检测模型的目标标识符、目标模型结构信息和目标参数信息;
通过所述目标标识符加载对应的所述目标子关键点检测模型,并根据所述目标模型结构信息和所述目标参数信息初始化所述目标子关键点检测模型。
4.根据权利要求1所述的方法,其特征在于,每一组所述目标子关键点序列包括若干个目标关键点对应的目标关键点序列,所述将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列,包括:
响应于所述目标子关键点序列的数量为1,将所述目标子关键点序列作为所述目标关键点序列;
响应于所述目标子关键点序列的数量大于1,按照所述目标子关键点序列的关键点类型对至少两组目标子关键点序列进行处理,得到所述目标关键点序列。
5.根据权利要求4所述的方法,其特征在于,所述按照所述目标子关键点序列的关键点类型对至少两组目标子关键点序列进行处理,得到所述目标关键点序列,包括:
对关键点类型相同的至少两组所述目标子关键点序列进行合并,得到第一目标关键点序列;和/或,
将其余关键点类型的所述目标子关键点序列作为第二目标关键点序列,其中,每一其余关键点类型对应一组目标子关键点序列;
将所述第一目标关键点序列和/或所述第二目标关键点序列作为所述目标关键点序列。
6.根据权利要求5所述的方法,其特征在于,所述对关键点类型相同的至少两组所述目标子关键点序列进行合并,得到第一目标关键点序列,包括:
获取关键点类型相同的至少两组所述目标子关键点序列对应的预测概率;
对于每一所述关键点类型,确定所述预测概率中最大值对应的所述目标子关键点序列为最终子关键点序列;
将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
7.根据权利要求5所述的方法,其特征在于,所述对关键点类型相同的至少两组所述目标子关键点序列进行合并,得到第一目标关键点序列,包括:
获取关键点类型相同的至少两组所述目标子关键点序列对应的预测概率;
对相同关键点类型的多个所述目标子关键点序列进行预测概率均值化,得到均值预测概率,并将所述均值预测概率作为最终目标子关键点序列的预测概率;
将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
8.根据权利要求5所述的方法,其特征在于,所述对关键点类型相同的至少两组所述目标子关键点序列进行合并,得到第一目标关键点序列,包括:
获取关键点类型相同的至少两组所述目标子关键点序列对应的所述目标子关键点检测模型的预设权重;
基于所述预设权重,对关键点类型相同的至少两组所述目标子关键点序列进行加权操作,得到加权操作后的所述目标子关键点序列;
基于相同关键点类型,确定加权操作后的至少两组所述目标子关键点序列对应的预测概率,并进行所述预测概率均值化,得到均值预测概率;
将所述均值预测概率作为最终目标子关键点序列的预测概率;
将每一所述最终子关键点序列进行合并,得到所述第一目标关键点序列。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取若干第一样本数据,所述第一样本数据包括若干图像数据及对应的关键点标注;
根据若干所述第一样本数据基于预设的第一损失函数对每一预训练的子关键点检测模型进行训练,得到收敛后的若干所述子关键点检测模型,其中,不同的所述子关键点检测模型对应的所述第一样本数据不同,以使不同的所述子关键点模型输出不同类型和/或数量的所述关键点;
将每一所述子关键点检测模型进行集成,得到所述关键点检测模型。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二样本数据,所述第二样本数据包括若干图像数据及对应的动作序列标注;
根据所述第二样本数据基于预设的第二损失函数对预训练的动作识别模型进行训练,以得到收敛后的所述动作识别模型。
11.根据权利要求1所述的方法,其特征在于,所述将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列之后,还包括:
通过所述姿态估计模型对所述目标关键点序列进行姿态估计,得到姿态估计信息。
12.根据权利要求11所述的方法,其特征在于,所述动作识别结果包括动作类别结果,所述通过所述动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果,包括:
通过所述动作识别模型基于所述姿态估计信息进行动作识别,得到所述动作类别结果。
13.根据权利要求1所述的方法,其特征在于,所述动作识别系统还包括得分评估模型,所述通过所述动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果之后,还包括:
基于所述动作识别结果确定对应的运动指标信息;
通过所述得分评估模型基于所述运动指标信息进行得分评估,得到得分评估结果。
14.一种动作识别装置,其特征在于,所述动作识别装置包括:
获取模块,所述获取模块用于获取包含待识别动作的目标视频,并从所述目标视频中确定目标视频帧序列;
关键点检测模块,所述关键点检测模块用于基于目标任务需求,确定所述关键点检测模型中的至少一个目标子关键点检测模型,其中,所述关键点检测模型集成有多个子关键点检测模型,任一所述子关键点检测模型与其余所述子关键点检测模型检测的关键点类型和关键点数量存在以下任一关系:所述关键点类型不同,所述关键点数量相同;或所述关键点类型相同,所述关键点数量不相同;或所述关键点类型以及所述关键点数量都不相同;
所述关键点检测模块还用于通过至少一个所述目标子关键点检测模型对所述目标视频帧序列进行关键点检测,得到至少一组目标子关键点序列;
所述关键点检测模块还用于将所述至少一组目标子关键点序列进行处理,得到所述目标关键点序列;
动作识别模块,所述动作识别模块用于通过动作识别模型对所述目标关键点序列进行动作识别,得到动作识别结果。
15.一种计算机设备,其特征在于,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序所述处理器用于通过运行所述存储器中存储的程序,实现如权利要求1-13中任一项所述的动作识别方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-13中任一项所述的动作识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710277.2A CN116959097A (zh) | 2023-06-14 | 2023-06-14 | 动作识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710277.2A CN116959097A (zh) | 2023-06-14 | 2023-06-14 | 动作识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959097A true CN116959097A (zh) | 2023-10-27 |
Family
ID=88460998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310710277.2A Pending CN116959097A (zh) | 2023-06-14 | 2023-06-14 | 动作识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959097A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230254A (zh) * | 2024-05-20 | 2024-06-21 | 深圳市巨龙科教网络有限公司 | 拥挤判断方法、装置、终端及可读存储介质 |
-
2023
- 2023-06-14 CN CN202310710277.2A patent/CN116959097A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230254A (zh) * | 2024-05-20 | 2024-06-21 | 深圳市巨龙科教网络有限公司 | 拥挤判断方法、装置、终端及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020061489A1 (en) | Training neural networks for vehicle re-identification | |
WO2019200782A1 (zh) | 样本数据分类方法、模型训练方法、电子设备及存储介质 | |
CN107633207A (zh) | Au特征识别方法、装置及存储介质 | |
CN113326835B (zh) | 一种动作检测方法、装置、终端设备和存储介质 | |
EP3937076A1 (en) | Activity detection device, activity detection system, and activity detection method | |
US20170103284A1 (en) | Selecting a set of exemplar images for use in an automated image object recognition system | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
Giorgi et al. | Walking through the deep: Gait analysis for user authentication through deep learning | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN110633004A (zh) | 基于人体姿态估计的交互方法、装置和系统 | |
CN116959097A (zh) | 动作识别方法、装置、设备及存储介质 | |
CN110717407A (zh) | 基于唇语密码的人脸识别方法、装置及存储介质 | |
CN114495241A (zh) | 一种图像识别方法及装置、电子设备、存储介质 | |
Bezobrazov et al. | Artificial intelligence for sport activitity recognition | |
Khartheesvar et al. | Automatic Indian sign language recognition using MediaPipe holistic and LSTM network | |
CN116189800B (zh) | 基于气体检测的模式识别方法、装置、设备及存储介质 | |
Dong et al. | Scene-oriented hierarchical classification of blurry and noisy images | |
CN116051917B (zh) | 一种训练图像量化模型的方法、检索图像的方法及装置 | |
Parvini et al. | An algorithmic approach for static and dynamic gesture recognition utilising mechanical and biomechanical characteristics | |
Akila | Recognition of inter-class variation of human actions in sports video | |
CN111382712A (zh) | 一种手掌图像识别方法、系统及设备 | |
Farouk | Principal component pyramids using image blurring for nonlinearity reduction in hand shape recognition | |
Malawski et al. | Depth-Based vs. Color-Based Pose Estimation in Human Action Recognition | |
Abdellaoui et al. | Template matching approach for automatic human body tracking in video | |
Abdulkareem et al. | A Proposed Approach for Object Detection and Recognition by Deep Learning Models Using Data Augmentation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |