CN118015711A - 基于多角度下的表演动作识别方法、系统、设备及介质 - Google Patents

基于多角度下的表演动作识别方法、系统、设备及介质 Download PDF

Info

Publication number
CN118015711A
CN118015711A CN202410424781.0A CN202410424781A CN118015711A CN 118015711 A CN118015711 A CN 118015711A CN 202410424781 A CN202410424781 A CN 202410424781A CN 118015711 A CN118015711 A CN 118015711A
Authority
CN
China
Prior art keywords
human body
body part
performance
action
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410424781.0A
Other languages
English (en)
Other versions
CN118015711B (zh
Inventor
容为
王胤哲
宋益善
綦羽
邱少健
谢旅毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202410424781.0A priority Critical patent/CN118015711B/zh
Publication of CN118015711A publication Critical patent/CN118015711A/zh
Application granted granted Critical
Publication of CN118015711B publication Critical patent/CN118015711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多角度下的表演动作识别方法、系统、设备及介质,方法包括:采集表演中的视频数据,得到每个视频中的表演图像和人体部位的关键点坐标;对表演图像进行动作分类,在分类后的表演图像中标注关键点,得到人体部位的动作点坐标,利用动作周期性特征确定采样间隔,捕捉表演图像中分类图像的关键帧;多角度摄像机制,为人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致;本发明考虑了动作的周期性特征,减少了数据冗余,提高了模型的处理效率;使用多角度摄像机制,更准确的对人体部位的位置和动作进行建模,解决了动作遗漏的问题。

Description

基于多角度下的表演动作识别方法、系统、设备及介质
技术领域
本发明涉及动作识别技术领域,尤其涉及一种基于多角度下的表演动作识别方法、系统、设备及介质。
背景技术
传统的动作识别视频系统通常包括视频采集、预处理、动作检测、特征提取、分类与识别以及后处理等步骤。然而,这些方法在处理多人同时表演的套路动作时面临更为复杂的挑战,可能导致对表演者部位动作的遗漏。
这些遗漏可能由于以下原因引起:表演者动作不标准时,与模型训练时使用的标准动作存在较大差异,可能导致模型难以正确识别。摄像机安装问题涉及位置和角度,可能导致动作部位被遮挡或拍摄的角度不佳,使模型难以准确提取动作信息。光照不足或背景复杂可能导致图像质量下降,进而影响模型性能。
随之而来的模型泛化问题可能使在模型训练过程中不能很好地适应新的表演者、场景或动作变化,导致对新条件无法进行准确识别。为了满足实时性要求,系统可能采用较短的时间窗口进行动作识别,但是又会出现对较长或复杂的动作无法完整捕捉。因此,这些因素可能共同导致对表演者部位动作的遗漏。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。因此,本发明提供了一种基于多角度下的表演动作识别方法、系统、设备及介质,本发明考虑了表演动作的周期性特征,减少了数据冗余,提高了对表演动作的识别效率。
为解决上述技术问题,本发明提供如下技术方案:
第一方面,本发明提供了一种基于多角度下的表演动作识别方法,包括:
采集表演中的视频数据,得到每个视频中的表演图像,根据所述表演图像得到人体部位的关键点坐标;
对所述表演图像进行动作分类,在分类后的表演图像中标注关键点,得到每个人体部位的动作点坐标,并利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧;
利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致。
作为优选的技术方案,根据所述表演图像得到人体部位的关键点坐标,包括:
剔除每张表演图像中人体部位以外的图像,对人体部位进行标记,把剩下含有人体部位的图像分为5个子图像,并基于所述5个子图像分别定义人体部位的关键点坐标;所述5个子图像分别为头部、身体部位、左胳膊、右胳膊和腿部。
作为优选的技术方案,得到每个人体部位的动作点坐标,包括:
创建动作分类模型,将表演动作作为数据集输入至所述动作分类模型中;
所述动作分类模型自动识别出数据集中的图像类型,若所述图像为RGB或深度图像,则动作分类模型中采用卷积神经网络进行处理;若所述图像中包含骨架信息或光流数据,则动作分类模型中采用循环神经网络进行处理;
通过选择不同的神经网络类型,对所述表演动作进行标注,得到每个人体部位的动作点坐标。
作为优选的技术方案,将表演动作作为数据集输入至分类模型前,需要提前将表演的动作名称作为关键字,并通过自然语言处理技术,提取出表演动作中包含的表演项目,通过表演项目设定参考表演动作,用以标记实际表演动作。
作为优选的技术方案,利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧,包括:
通过相对位置公式考虑邻近光流轨迹,并结合光流估计法捕捉图像相邻帧之间像素点的运动信息,得到采样间隔时间;
将所述采样间隔时间代入动作分类模型选择好的神经网络中,得到表演图像中分类图像的关键帧;所述关键帧表示表演图像中每个像素点在相邻两帧之间的运动差异,将运动差异大于设定阈值的表演图像设定为关键帧;
将关键帧作为人体部位的动作点坐标的更新条件,对原人体部位的动作点坐标进行更新。
作为优选的技术方案,利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,包括:
设定多角度相机数量,将相机数量与对应投影到的点进行关联,设置相机的内部参数,将更新后的人体部位的动作点坐标和人体部位的关键点坐标作为投影坐标的参考值;
当所有相机数量与对应投影到的点都关联完成,形成多角度的投影图像以及投影坐标,将所述投影坐标转换为世界坐标,根据所述世界坐标转换为三维坐标;
得到人体部位的动作点坐标和人体部位的关键点坐标的三维形式。
作为优选的技术方案,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致,得到判断结果,包括:
将人体部位的动作点坐标和人体部位的关键点坐标的三维形式分别依次相连,得到关于人体部位的动作点坐标的多边形和人体部位的关键点坐标的多边形/>
设置时间戳,分别获取多边形和/>的外部连接点,计算多边形的体积/>和/>
若所述多边形的体积和/>相等,则人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标一致;否则,返回至创建动作分类模型处,继续执行。
第二方面,本发明提供了一种基于多角度下的表演动作识别系统,基于所述的基于多角度下的表演动作识别方法,包括:
表演图像获取模块,采集表演中的视频数据,得到每个视频中的表演图像,同时根据所述表演图像得到人体部位的关键点坐标;
表演图像处理模块,对所述表演图像进行动作分类,在分类后的表演图像中标注关键点,得到每个人体部位的动作点坐标,并利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧;
表演图像判断模块,利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致。
第三方面,本发明提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
与现有技术相比,发明有益效果为:
本发明通过采集表演中的视频数据,得到每个视频中的表演图像,同时根据表演图像得到人体部位的关键点坐标;对表演图像进行动作分类,在分类后的表演图像中标注关键点,得到人体部位的动作点坐标,利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧;多角度摄像机制,为人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致;本发明考虑了动作的周期性特征,减少了数据冗余,提高了模型的处理效率;使用多角度摄像机制,能够更准确的对人体部位的位置和动作进行建模,解决了动作遗漏的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例所述的基于多角度下的表演动作识别方法的总体流程图;
图2为本发明一个实施例所述的基于多角度下的表演动作识别方法的动作识别准确率对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明第一个实施例,该实施例提供了一种基于多角度下的表演动作识别方法,包括:
S1、采集表演中的视频数据,得到每个视频中的表演图像,同时根据表演图像得到人体部位的关键点坐标。
进一步的,剔除每张表演图像中人体部位以外的图像,对人体部位进行标记,把剩下含有人体部位的图像分为5个子图像,并将5个子图像分别定义为人体部位的关键点坐标。
具体的,5个子图像分别为头部、身体部位(腰部以上)、左胳膊(包括肩部),右胳膊(包括肩部)和腿部(腰部以下)。
应当说明的是,人体部位坐标和关键点坐标都位于第一象限;
具体的,定义人体部位的头部坐标,表示为:
具体的,定义人体部位的身体部位坐标,表示为:
具体的,定义人体部位的左胳膊部位坐标,表示为:
具体的,定义人体部位的右胳膊部位坐标,表示为:
具体的,定义人体部位的腿部部位坐标,表示为:
应当说明的是,通过对每个人体部位进行分割和标记,能够使得后续模型训练或分析时更容易泛化到不同的场景和表演自身的动作,从而提高模型算法的通用性;同时,剔除操作可以降低图像的处理量,减少对图像不必要的处理过程,提高图像处理效率。
S2、对表演图像进行动作分类,在分类后的表演图像中标注关键点,得到每个人体部位的动作点坐标,并利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧。
进一步的,创建动作分类模型,将表演动作作为数据集输入至分类模型中。
应当说明的是,将表演动作作为数据集输入至模型前,需要提前将表演的动作名称作为关键字,并通过自然语言处理技术,提取出表演动作中包含的表演项目,通过表演项目设定参考表演动作,用以标记实际表演动作。
更进一步的,所述动作分类模型能够自动识别出数据集中的图像类型,若所述图像为RGB或深度图像,则动作分类模型中采用卷积神经网络进行处理;若所述图像中包含骨架信息或光流数据,则动作分类模型中采用循环神经网络进行处理。
优选的,为了处理RGB图像带来的光照和遮挡,在卷积神经网络和循环神经网络中加入注意力机制和时空注意力模块。
更进一步的,通过选择不同的神经网络类型,对表演动作进行标注,得到每个人体部位的动作点坐标。
更进一步的,人体部位的动作点坐标表示为:
具体的,根据参考表演动作,对人体部位动作的关键点进行标注,例如,胳膊伸直,弯曲不得超过参考表演动作的范围。
更进一步的,建立坐标约束条件:
应当说明的是,为考虑到表演动作的合理性,需对人体部位动作进行约束,保证模型参与训练的准确性。
进一步的,通过相对位置公式考虑邻近光流轨迹,并结合光流估计法捕捉图像相邻帧之间像素点的运动信息,得到采样间隔时间。
具体的,相对位置公式,表示为:
其中,P n t)表示第n条光流轨迹在时间t的位置。
具体的,光流估计法采用Lucas-Kanade方法,表示为:
其中,I x I y 为表演图像中分类图像的梯度,V x V y 为光流的水平和垂直分量,I t 为分类图像的灰度值随时间t的变化率。
应当说明的是,采用相对位置和光流估计,能够捕捉表演图像之间细微的运动信息,使得神经网络能够识别亮度变化。
更进一步的,将采样间隔时间代入动作分类模型选择好的神经网络中,得到表演图像中分类图像的关键帧。
具体的,关键帧表示为:
其中,表示表演图像中每个像素点在相邻两帧之间的运动差异,若较小,则说明该表演图像不是关键帧。
更进一步的,将关键帧作为人体部位的动作点坐标的更新条件,对原人体部位的动作点坐标进行更新。
更进一步的,将PA转换为多维向量,对原人体部位的动作点坐标进行更新,公式表示为:
更进一步的,本实施例中动作分类模型是用于识别并分类不同动作的数学模型,构建动作分类模型包括以下几个方面:
1. 特征提取:从输入数据中提取出能够描述动作的特征。对于视频数据,包括图像帧中的像素值、颜色、纹理、形状等视觉特征,以及帧与帧之间的运动信息(如光流)。
2.特征表示:提取出的特征需要以一种适合机器学习算法处理的方式表示。这涉及将特征转换为向量或矩阵形式,以便输入到分类器中。
3.分类器设计:分类器是动作分类模型的核心部分,负责根据输入的特征向量对动作进行分类。常见的分类器包括支持向量机(SVM)、随机森林、神经网络等。在设计分类器时,需要考虑如何使其与提取到的特征相适应,并从特征数据中学习以建立辨别能力。
4.模型训练与优化:使用标记好的数据集对模型进行训练,通过调整模型的参数来优化其性能。这涉及使用梯度下降等优化算法来最小化分类错误率或最大化分类准确率。
5.模型评估与部署:在独立的测试集上评估模型的性能,以确保其具有良好的泛化能力。模型达到满意的性能水平,就可以将其部署到实际应用中,用于实时或离线的动作分类任务。
可以理解的是,动作分类模型的具体实现方式因应用场景、数据类型和可用资源等因素而有所不同。例如,在处理视频数据时,使用深度学习技术(如卷积神经网络或循环神经网络)来提取和表示复杂的时空特征。
S3、利用多角度摄像机制,为人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致。
进一步的,设定多角度相机数量,将相机数量与对应投影到的点进行关联,设置相机的内部参数,将更新后的人体部位的动作点坐标和人体部位的关键点坐标作为投影坐标的参考值。
具体的,假设有两个摄像机α和β,它们拍摄到同一点P的投影分别为P a 和Pβ,以及两个摄像机的内参K a 和Kβ、外参T a 和Tβ
更进一步的,当所有相机数量与对应投影到的点都关联完成,形成多角度的投影图像以及投影坐标,将投影坐标转换为世界坐标,根据世界坐标转换为三维坐标。
具体的,将投影坐标转换为世界坐标,表示为:
其中,X a 和X β 分别表示点P在相机α和β中的相机坐标,K-1表示逆矩阵。
具体的,将世界坐标转换为三维坐标,表示为:
其中,和/>表示点P在世界坐标系中的坐标,T表示外参矩阵;外参矩阵包括了摄像机的位置和动作信息。
更进一步的,将人体部位的关键点坐标进行整合,得到:
更进一步的,得到人体部位的动作点坐标和人体部位的关键点坐标的三维形式,求解方程如下:
进一步的,将人体部位的动作点坐标和人体部位的关键点坐标的三维形式分别依次相连,得到关于人体部位的动作点坐标的多边形和人体部位的关键点坐标的多边形
更进一步的,设置时间戳,分别获取多边形和/>的外部连接点,计算多边形的体积/>和/>
具体的,设有n个点,则多边形的顶点可以表示为:,/>
具体的,多边形表示为:
具体的,多边形表示为:
更进一步的,若多边形的体积和/>相等,则人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标一致;否则,返回至创建动作分类模型处,继续执行。
应当说明的是,使用多角度摄像机制,能够更准确的对人体部位的位置和动作进行建模,解决了动作遗漏的问题。
进一步的,本实施例还提供一种基于多角度下的表演动作识别系统,包括:
表演图像获取模块,采集表演中的视频数据,得到每个视频中的表演图像,同时根据所述表演图像得到人体部位的关键点坐标;
表演图像处理模块,对所述表演图像进行动作分类,在分类后的表演图像中标注关键点,得到每个人体部位的动作点坐标,并利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧;
表演图像判断模块,利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致。
本实施例还提供一种计算机设备,适用于基于多角度下的表演动作识别方法的情况,包括:
存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的基于多角度下的表演动作识别方法。
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的基于多角度下的表演动作识别方法。
本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
实施例2
参照图2,为本发明第二个实施例,该实施例提供了一种基于多角度下的表演动作识别方法,包括:通过模拟实验的方式对本发明方法进行有益效果的验证。
本实验模型训练使用Win10操作系统,软件使用MATLAB R2021b,数据集采用仿真数据集TLP,包括5000个训练样本和3000个测试样本;设置模型训练参数输入的图像尺寸为192*64,batch size为16,初始学习率为0.0002,训练次数50次,每次训练迭代次数为5。
使用传统方法对模型进行实验,可以看到表演动作识别的准确率在86%,而我方发明的准确率在92%,有明显提升。
且由图2看出,当使用传统方法经过训练的模型在前阶段相比我方发明模型在表演动作识别准确率略有提升,但随着模型训练次数的增加,传统方法已然比我方发明模型的识别准确率低,这是因为传统模型采用较短的时间窗口进行动作识别,会出现对较长或复杂的动作无法完整捕捉;而我方发明模型正好弥补了这一点,充分说明我方发明模型能够在动作识别的准确率上更优。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于多角度下的表演动作识别方法,其特征在于,包括:
采集表演中的视频数据,得到每个视频中的表演图像,根据所述表演图像得到人体部位的关键点坐标;
对所述表演图像进行动作分类,在分类后的表演图像中标注关键点,得到每个人体部位的动作点坐标,并利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧;
利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致。
2.如权利要求1所述的基于多角度下的表演动作识别方法,其特征在于,根据所述表演图像得到人体部位的关键点坐标,包括:
剔除每张表演图像中人体部位以外的图像,对人体部位进行标记,把剩下含有人体部位的图像分为5个子图像,并基于所述5个子图像分别定义人体部位的关键点坐标;所述5个子图像分别为头部、身体部位、左胳膊、右胳膊和腿部。
3.如权利要求2所述的基于多角度下的表演动作识别方法,其特征在于,得到每个人体部位的动作点坐标,包括:
创建动作分类模型,将表演动作作为数据集输入至所述动作分类模型中;
所述动作分类模型自动识别出数据集中的图像类型,若所述图像为RGB或深度图像,则动作分类模型中采用卷积神经网络进行处理;若所述图像中包含骨架信息或光流数据,则动作分类模型中采用循环神经网络进行处理;
通过选择不同的神经网络类型,对所述表演动作进行标注,得到每个人体部位的动作点坐标。
4.如权利要求3所述的基于多角度下的表演动作识别方法,其特征在于,将表演动作作为数据集输入至分类模型前,需要提前将表演的动作名称作为关键字,并通过自然语言处理技术,提取出表演动作中包含的表演项目,通过表演项目设定参考表演动作,用以标记实际表演动作。
5.如权利要求1所述的基于多角度下的表演动作识别方法,其特征在于,利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧,包括:
通过相对位置公式考虑邻近光流轨迹,并结合光流估计法捕捉图像相邻帧之间像素点的运动信息,得到采样间隔时间;
将所述采样间隔时间代入动作分类模型选择好的神经网络中,得到表演图像中分类图像的关键帧;所述关键帧表示表演图像中每个像素点在相邻两帧之间的运动差异,将运动差异大于设定阈值的表演图像设定为关键帧;
将关键帧作为人体部位的动作点坐标的更新条件,对原人体部位的动作点坐标进行更新。
6.如权利要求1所述的基于多角度下的表演动作识别方法,其特征在于,利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,包括:
设定多角度相机数量,将相机数量与对应投影到的点进行关联,设置相机的内部参数,将更新后的人体部位的动作点坐标和人体部位的关键点坐标作为投影坐标的参考值;
当所有相机数量与对应投影到的点都关联完成,形成多角度的投影图像以及投影坐标,将所述投影坐标转换为世界坐标,根据所述世界坐标转换为三维坐标;
得到人体部位的动作点坐标和人体部位的关键点坐标的三维形式。
7.如权利要求5所述的基于多角度下的表演动作识别方法,其特征在于,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致,得到判断结果,包括:
将人体部位的动作点坐标和人体部位的关键点坐标的三维形式分别依次相连,得到关于人体部位的动作点坐标的多边形 和人体部位的关键点坐标的多边形/>
设置时间戳,分别获取多边形和/>的外部连接点,计算多边形的体积/>
若所述多边形的体积和/>相等,则人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标一致;否则,返回至创建动作分类模型处,继续执行。
8.一种基于多角度下的表演动作识别系统,基于权利要求1~7任一所述的基于多角度下的表演动作识别方法,其特征在于,包括:
表演图像获取模块,采集表演中的视频数据,得到每个视频中的表演图像,同时根据所述表演图像得到人体部位的关键点坐标;
表演图像处理模块,对所述表演图像进行动作分类,在分类后的表演图像中标注关键点,得到每个人体部位的动作点坐标,并利用动作的周期性特征,确定采样间隔,捕捉表演图像中分类图像的关键帧;
表演图像判断模块,利用多角度摄像机制,为所述人体部位的关键点坐标和人体部位的动作点坐标建立三维坐标,判断处理后的人体部位的关键点坐标和人体部位的动作点坐标所建立的三维坐标是否一致。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述方法的步骤。
CN202410424781.0A 2024-04-10 2024-04-10 基于多角度下的表演动作识别方法、系统、设备及介质 Active CN118015711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410424781.0A CN118015711B (zh) 2024-04-10 2024-04-10 基于多角度下的表演动作识别方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410424781.0A CN118015711B (zh) 2024-04-10 2024-04-10 基于多角度下的表演动作识别方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN118015711A true CN118015711A (zh) 2024-05-10
CN118015711B CN118015711B (zh) 2024-07-12

Family

ID=90956827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410424781.0A Active CN118015711B (zh) 2024-04-10 2024-04-10 基于多角度下的表演动作识别方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN118015711B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及系统
CN111488824A (zh) * 2020-04-09 2020-08-04 北京百度网讯科技有限公司 运动提示方法、装置、电子设备和存储介质
CN111783724A (zh) * 2020-07-14 2020-10-16 上海依图网络科技有限公司 一种目标对象识别方法和装置
CN114511931A (zh) * 2022-02-22 2022-05-17 平安科技(深圳)有限公司 基于视频图像的动作识别方法、装置、设备及存储介质
CN115170998A (zh) * 2022-05-12 2022-10-11 无锡范特智能科技有限公司 人体行为动作识别方法、装置、计算机设备和存储介质
WO2022241583A1 (zh) * 2021-05-15 2022-11-24 电子科技大学 一种基于多目视频的家庭场景动作捕捉方法
CN115869608A (zh) * 2022-11-29 2023-03-31 京东方科技集团股份有限公司 击剑比赛裁判方法及装置、系统、计算机可读存储介质
CN116978126A (zh) * 2023-08-03 2023-10-31 国电电力发展股份有限公司 一种多摄像头测量的人体动作描述方法
US11854306B1 (en) * 2022-10-08 2023-12-26 Nanjing Silicon Intelligence Technology Co., Ltd. Fitness action recognition model, method of training model, and method of recognizing fitness action
CN117710870A (zh) * 2024-02-05 2024-03-15 武汉博特智能科技有限公司 基于大数据技术的互联网内容监测方法、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及系统
CN111488824A (zh) * 2020-04-09 2020-08-04 北京百度网讯科技有限公司 运动提示方法、装置、电子设备和存储介质
CN111783724A (zh) * 2020-07-14 2020-10-16 上海依图网络科技有限公司 一种目标对象识别方法和装置
WO2022241583A1 (zh) * 2021-05-15 2022-11-24 电子科技大学 一种基于多目视频的家庭场景动作捕捉方法
CN114511931A (zh) * 2022-02-22 2022-05-17 平安科技(深圳)有限公司 基于视频图像的动作识别方法、装置、设备及存储介质
CN115170998A (zh) * 2022-05-12 2022-10-11 无锡范特智能科技有限公司 人体行为动作识别方法、装置、计算机设备和存储介质
US11854306B1 (en) * 2022-10-08 2023-12-26 Nanjing Silicon Intelligence Technology Co., Ltd. Fitness action recognition model, method of training model, and method of recognizing fitness action
CN115869608A (zh) * 2022-11-29 2023-03-31 京东方科技集团股份有限公司 击剑比赛裁判方法及装置、系统、计算机可读存储介质
CN116978126A (zh) * 2023-08-03 2023-10-31 国电电力发展股份有限公司 一种多摄像头测量的人体动作描述方法
CN117710870A (zh) * 2024-02-05 2024-03-15 武汉博特智能科技有限公司 基于大数据技术的互联网内容监测方法、设备及存储介质

Also Published As

Publication number Publication date
CN118015711B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
Jiang et al. Seeing invisible poses: Estimating 3d body pose from egocentric video
CN105550678B (zh) 基于全局显著边缘区域的人体动作特征提取方法
WO2021036059A1 (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN110929569B (zh) 人脸识别方法、装置、设备及存储介质
JP4799105B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
CN107251096B (zh) 图像捕获装置和方法
Zelnik-Manor et al. Statistical analysis of dynamic actions
JP4799104B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
EP2864933B1 (en) Method, apparatus and computer program product for human-face features extraction
CN109684925B (zh) 一种基于深度图像的人脸活体检测方法及设备
US20180211104A1 (en) Method and device for target tracking
US12067659B2 (en) Generating animated digital videos utilizing a character animation neural network informed by pose and motion embeddings
CN108416266A (zh) 一种利用光流提取运动目标的视频行为快速识别方法
WO2015139231A1 (en) Facial expression and/or interaction driven avatar apparatus and method
JP2006523878A (ja) 画像から対象ポーズを判定する方法とシステム
CN108256567B (zh) 一种基于深度学习的目标识别方法及系统
WO2022120843A1 (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN109859857A (zh) 身份信息的标注方法、装置和计算机可读存储介质
WO2024060978A1 (zh) 关键点检测模型训练及虚拟角色驱动的方法和装置
CN114694075B (zh) 一种基于深度强化学习的危险行为识别方法
CN116129016B (zh) 一种姿态运动的数字同步方法、装置、设备及存储介质
Wang et al. Swimmer’s posture recognition and correction method based on embedded depth image skeleton tracking
CN118015711B (zh) 基于多角度下的表演动作识别方法、系统、设备及介质
CN109359543B (zh) 一种基于骨骼化的人像检索方法及装置
Nasrollahi et al. Summarization of surveillance video sequences using face quality assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant