CN116543461A - 一种动作识别方法、装置、计算机设备及存储介质 - Google Patents

一种动作识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116543461A
CN116543461A CN202310509724.8A CN202310509724A CN116543461A CN 116543461 A CN116543461 A CN 116543461A CN 202310509724 A CN202310509724 A CN 202310509724A CN 116543461 A CN116543461 A CN 116543461A
Authority
CN
China
Prior art keywords
grid
target object
sequence
action
simplified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310509724.8A
Other languages
English (en)
Inventor
王兆龙
邵志兢
廖庆敏
张煜
孙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Prometheus Vision Technology Co ltd
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Zhuhai Prometheus Vision Technology Co ltd
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Prometheus Vision Technology Co ltd, Shenzhen International Graduate School of Tsinghua University filed Critical Zhuhai Prometheus Vision Technology Co ltd
Priority to CN202310509724.8A priority Critical patent/CN116543461A/zh
Publication of CN116543461A publication Critical patent/CN116543461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种动作识别方法、装置、计算机设备及存储介质,可以获取针对目标对象的视频帧序列;对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;获取对象网格序列中网格的网格顶点的空间参数;根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。由于本申请实施例可以利用对视频帧序列的对象网格序列进行简化处理得到的简化后对象网格序列,来对目标对象进行对象动作识别,从而提高对对象动作识别的准确性。

Description

一种动作识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种动作识别方法、装置、计算机设备及存储介质,其中,存储介质为计算机可读存储介质。
背景技术
随着视频识别技术的发展,目前会采用多种识别方法对视频中的对象如三维模型或二维模型进行动作识别。例如,现有的识别方法可以是采用对象的部分信息(如关节点的运动信息)来对对象进行动作识别,这样会忽略一些重要信息,难以区分一些相近的动作,导致无法准确识别出动作。又例如,现有的识别方法还可以是采用对象在视频中所有信息来对对象进行动作识别,但是这种方式会存在噪声信息过大,以至于难以区分视频中的对象和背景,或者对象的动作被身体的其他部位遮挡,导致难以识别出动作。
综上,目前存在无法准确地对视频中的对象进行识别的问题。
发明内容
本申请实施例提供一种动作识别方法、装置、计算机设备及存储介质,能够提高对视频中的对象进行识别的准确性。
一种动作识别方法,包括:
获取针对目标对象的视频帧序列;
对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;
获取对象网格序列中网格的网格顶点的空间参数;
根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;
根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。
相应地,本申请实施例提供一种动作识别装置,包括:
第一获取单元,可以用于获取针对目标对象的视频帧序列;
提取单元,可以用于对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;
第二获取单元,可以用于获取对象网格序列中网格的网格顶点的空间参数;
简化单元,可以用于根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;
识别单元,可以用于根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些实施例中,简化单元,具体可以用于根据空间参数,对网格顶点之间的顶点距离进行计算处理,得到网格顶点之间的顶点距离;根据顶点距离,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
在一些实施例中,识别单元,具体可以用于采用动作识别模型,对简化后对象网格进行属性特征提取,得到简化后对象网格序列中简化后对象网格对应的至少一个维度的网格属性特征;根据至少一个维度的网格属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些实施例中,识别单元,具体可以用于对至少一个维度的网格属性特征进行融合处理,得到融合后属性特征;根据融合后属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些实施例中,识别单元,具体可以用于采用动作识别模型对融合后属性特征进行分类处理,得到目标对象的对象动作类别参数;根据对象动作类别参数,确定目标对象的对象动作。
在一些实施例中,识别单元,具体还可以用于获取简化后对象网格样本和简化后对象网格样本对应的动作标签;采用待训练动作识别模型,对简化后对象网格样本进行特征提取,得到简化后对象网格样本的至少一个维度的样本属性特征;根据样本属性特征和动作标签,对待训练动作识别模型进行训练,得到动作识别模型。
在一些实施例中,第一获取单元,具体可以用于获取候选视频帧序列;对候选视频帧序列进行目标对象识别,得到针对目标对象的视频帧序列。
此外,本申请实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本申请实施例提供的任一种动作识别方法。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种动作识别方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种动作识别方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种动作识别方法。
本申请实施例可以获取针对目标对象的视频帧序列;对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;获取对象网格序列中网格的网格顶点的空间参数;根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。由于本申请实施例可以利用对视频帧序列的对象网格序列进行简化处理得到的简化后对象网格序列,来对目标对象进行对象动作识别,从而提高对对象动作识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的动作识别方法的场景示意图;
图2是本申请实施例提供的动作识别方法的流程示意图;
图3是本申请实施例提供的目标对象对应的视频帧的示意图;
图4是本申请实施例提供的目标对象对应的网格的示意图;
图5是本申请实施例提供的动作识别模型的示意图;
图6是本申请实施例提供的动作识别装置的结构示意图;
图7是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种动作识别方法、装置、计算机设备和计算机可读存储介质。其中,该动作识别装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例可以应用在视频帧序列可以为体积视频中视频帧序列。体积视频(Volumetric Video,又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度信息和色彩信息等)并生成三维模型序列的技术。相对于传统的视频,体积视频将空间的概念加入到视频中,用三维模型来更好的还原真实三维世界,而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列,使得用户可以随自己喜好调整到任意视角进行观看,较二维平面视频具有更高的还原度和沉浸感。
可选地,在本申请中,用于构成体积视频的三维模型可以按照如下方式重建得到:
先获取拍摄对象的不同视角的彩色图像和深度图像,以及彩色图像对应的相机参数;然后根据获取到的彩色图像及其对应的深度图像和相机参数,训练隐式表达拍摄对象三维模型的神经网络模型,并基于训练的神经网络模型进行等值面提取,实现对拍摄对象的三维重建,得到拍摄对象的三维模型。
例如,参见图1,以动作识别装置集成在计算机设备中为例,计算机设备可以获取针对目标对象的视频帧序列;对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;获取对象网格序列中网格的网格顶点的空间参数;根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。
其中,目标对象可以是三维模型;具体来说,三维模型可以为人体三维模型,也可以为非人体三维模型比如是宠物的三维模型。
其中,网格可以是指目标对象的网格。
其中,对象动作例如是当目标对象为人体三维模型时,对象动作比如是弯腰动作、穿鞋动作、脱鞋动作,等等。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从动作识别装置的角度进行描述,该动作识别装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以获取数据的智能设备等设备。
如图2所示,该动作识别方法的具体流程如步骤S201至步骤S205:
S201、获取针对目标对象的视频帧序列。
其中,视频帧序列中的视频帧可以为RGB格式的图像,也可以为YUV格式的图像,等等。
在一些申请实施例中,获取针对目标对象的视频帧序列的方式可以为:获取候选视频帧序列;对候选视频帧序列进行目标对象识别,得到针对目标对象的视频帧序列。
其中,可以理解的是,候选视频帧序列的长度可以比视频帧序列的长度长,视频帧序列属于候选视频帧序列。
其中,候选视频帧序列可以是任意一段具有目标对象的视频。
在一示例中,对候选视频帧序列进行目标对象识别,得到针对目标对象的视频帧序列的方式可以为:可以采用对象识别神经网络模型对候选视频帧序列进行目标对象识别,得到目标对象对应的视频帧;根据目标对象对应的视频帧进行提取处理,得到针对目标对象的视频帧序列。
在一示例中,对象识别神经网络模型可以为CNN神经网络模型,也可以为自注意力神经网络模型。
在一示例中,根据目标对象对应的视频帧进行提取处理,得到针对目标对象的视频帧序列的方式可以为:判断目标对象对应的视频帧是否为相邻序列的视频帧;若目标对象对应的视频帧为相邻序列的视频帧,则对视频帧进行提取处理,得到针对目标对象的视频帧序列。
S202、对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列。
在一些申请实施例中,对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列的方式可以为:对视频帧序列中视频帧的目标对象进行网格提取,得到视频帧中目标对象对应的网格;根据视频帧中目标对象对应的网格,构建目标对象对应的对象网格序列。
在一示例中,可以采用Pixel2Mesh(Generating3D Mesh Models From SingleRGB Images,从单个RGB图像生成三维网格模型)方式对视频帧序列中视频帧的目标对象进行网格提取,得到视频帧中目标对象对应的网格。
具体来说,本申请实施例可以基于Pixel2Mesh方式,采用全卷积神经网络(CNN)和图卷积神经网络(GCN)对视频帧序列中视频帧的目标对象进行网格提取,得到视频帧中目标对象对应的网格。
具体来说,例如,本申请实施例以一帧视频帧为例进行说明,如图3所示,图3为目标对象对应的视频帧。本申请实施例对目标对象对应的视频帧进行网格提取,得到目标对象对应的网格,其中,网格如图4所示。
在一些申请实施例中,对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列的方式可以为:采用网格提取模型,对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列。
其中,网格提取模型为神经网络模型。
S203、获取对象网格序列中网格的网格顶点的空间参数。
其中,空间参数可以是指网格顶点在网格中所在平面的参数。
例如,平面的表达式可以如公式(1)所示:
ax+by+cz+d=0 公式(1)
其中,a、c、d、d均为参数,其中,a2+b2+c2=1。x表示网格顶点在坐标轴x轴对应的坐标,y表示网格顶点在坐标轴y轴对应的坐标,z表示网格顶点在坐标轴z轴对应的坐标。
在一示例中,空间参数可以包括网格顶点的坐标参数,以及网格顶点所在平面的平面参数。具体来说,基于公式(1),对任意一个网格顶点,网格顶点的坐标参数具体可参见公式(2),网格顶点所在平面的平面参数可参见公式(2):
v=[x,y,z,1]T 公式(2)
其中,v表示网格顶点的坐标参数。
p=[a,b,c,d]T 公式(3)
其中,p表示网格顶点所在平面的平面参数。
S204、根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
在一些申请实施例中,根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列的方式可以为:根据空间参数,对网格顶点之间的顶点距离进行计算处理,得到网格顶点之间的顶点距离;根据顶点距离,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
其中,可以理解的是,本申请实施例中的网格可以为三角网格例如流形三角网格。本申请实施例可以通过对网格的边进行收缩,从而减少三角网格的数量,从而实现对对象网格序列中的网格进行简化处理。其中,对网格的边进行收缩例如是收缩三角网格的一条边,减少三角网格中的一个网格顶点,如此可以减少三角网格的面数。
具体来说,本申请实施例根据空间参数,对网格顶点之间的顶点距离进行计算处理,得到网格顶点之间的顶点距离的方式具体可参见公式(4):
其中,表示两个平面之间所有网格顶点之间的顶点距离的最小化;Qi+1表示网格顶点vi+1所在平面中所有的网格顶点对应的参数;Qi表示网格顶点vi所在平面中所有的网格顶点对应的参数;v表示简化后对象网格序列中网格的网格顶点的坐标参数;vT表示简化后对象网格序列中网格的网格顶点的坐标参数的转置。
其中,其中,每一平面对应的Kp可能是不同的,p的取值具体可参见公式(3)。
在本申请实施例中,公式(4)的推导过程具体可参见公式(5)、公式(6)和公式(7):
其中,dis tan ce(v,p)2=(vTp)2=vTppTv=vTKPv。
基于公式(5),本申请实施例可以对公式(5)进行简化处理,得到公式(6):
其中,基于公式(6),可以得到公式(7):
基于公式(7)可推出前述的公式(4)。
其中,基于公式(4),可知,当两个平面之间所有网格顶点之间的顶点距离的最小化时,可以获取到简化后对象网格序列中网格的网格顶点的坐标参数,如此可以实现对所述对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
S205、根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些申请实施例中,根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作的方式可以为:采用动作识别模型,对简化后对象网格进行属性特征提取,得到简化后对象网格序列中简化后对象网格对应的至少一个维度的网格属性特征;根据至少一个维度的网格属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作。
其中,动作识别模型可以为图卷积神经网络模型,也可以为CNN神经网络模型。本申请实施例的动作识别模型优选为图卷积神经网络模型。其中,网格属性特征的维度可以包括时间维度和空间维度。时间维度的网格属性特征可以为空间属性特征,空间维度的网格属性特征可以为简化后对象网格的时间属性特征。
在一示例中,根据至少一个维度的网格属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作的方式可以为:对至少一个维度的网格属性特征进行融合处理,得到融合后属性特征;根据融合后属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作。
具体来说,本申请实施例对至少一个维度的网格属性特征进行融合处理,得到融合后属性特征的方式可以为:将空间属性特征和时间属性特征进行融合处理,得到融合后属性特征。
其中,本申请实施例可以将空间属性特征和时间属性特征进行拼接处理,得到融合后属性特征。
在一示例中,根据融合后属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作的方式可以为:采用动作识别模型对融合后属性特征进行分类处理,得到目标对象的对象动作类别参数;根据对象动作类别参数,确定目标对象的对象动作。
其中,对象动作类别参数的表征形式可以为分数,也可以为概率。对象动作类别参数可以是指目标对象的动作类别的参数。
其中,本申请实施例将最大的对象动作类别参数对应的动作类别作为目标对象的动作类别;基于目标对象的动作类别,确定目标对象的对象动作。具体来说,如图5所示,本申请实施例的动作识别模型可以包括特征提取层和分类层,本申请实施例可以采用动作识别模型的特征提取层对简化后对象网格进行属性特征提取,得到简化后对象网格序列中简化后对象网格对应的空间属性特征和时间属性特征;对空间属性特征和时间属性特征进行融合处理,得到融合后属性特征;采用动作识别模型的分类层对融合后属性特征进行分类处理,得到目标对象的对象动作类别参数;根据对象动作类别参数,确定目标对象的对象动作。
在一些申请实施例中,在采用动作识别模型,对简化后对象网格进行属性特征提取,得到简化后对象网格序列中简化后对象网格对应的至少一个维度的网格属性特征之前,还对待训练动作识别模型进行训练,训练过程具体可以为:获取简化后对象网格样本和简化后对象网格样本对应的动作标签;采用待训练动作识别模型,对简化后对象网格样本进行特征提取,得到简化后对象网格样本的至少一个维度的样本属性特征;根据样本属性特征和动作标签,对待训练动作识别模型进行训练,得到动作识别模型。
其中,简化后对象网格样本可以以序列的形式表征。具体来说,简化后对象网格样本可以是对对象如三维模型对应的候选对象网格序列进行简化得到的候选简化后对象网格序列。其中,对对象如三维模型对应的候选对象网格序列进行简化可参见前述“根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列”的过程,此处不再赘述。
其中,本申请实施例可以采用动作标签对待训练动作识别模型进行有监督的学习。具体来说,本申请实施例可以采用BP(Back Propagation,反向传播)算法对待训练动作识别模型进行训练。
在一示例中,样本属性特征可以包括样本时间属性特征和样本空间属性特征,基于此,根据样本属性特征和动作标签,对待训练动作识别模型进行训练,得到动作识别模型的方式可以为:将样本时间属性特征和样本空间属性特征进行融合处理,得到融合后样本属性特征;对融合后样本属性特征进行分类处理,得到融合后样本属性特征对应的动作类别;根据动作类别,确定融合后样本属性特征对应的候选对象动作;根据候选对象动作和动作标签,对待训练动作识别模型进行训练,得到动作识别模型。
其中,本申请实施例可以采用损失函数对候选对象动作和动作标签进行计算,得到候选对象动作和动作标签之间的损失值;根据损失值,对待训练动作识别模型的模型参数进行收敛,得到动作识别模型。
基于上述,可知,本申请实施例可以通过对对象网格序列中的网格进行化简得到需要进行识别的简化后对象网格序列。本申请实施例可以对待训练动作识别模型进行监督学习,以得到动作识别模型,其中,本申请实施例可以通过简化算法如公式(4)的会计算出简化后对象网格样本,然后可以采用BP(Back Propagation,反向传播)算法对待训练动作识别模型进行训练,以自动优化简化后对象网格样本的不同部位的面数。其中,本申请实施例在对待训练动作识别模型进行监督学习添加了样本时间属性特征和样本空间属性特征的学习,能更使得待训练动作识别模型学习更多维度的特征,从而提高动作识别模型识别的准确性。其中,本申请实施例采用了简化后对象网格序列,来对待训练动作识别模型进行监督学习,相当是在待训练动作识别模型中增加了对时序上的特征优化学习,从而得到更加精准的动作识别。
本申请实施例可以获取针对目标对象的视频帧序列;对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;获取对象网格序列中网格的网格顶点的空间参数;根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。由于本申请实施例可以利用对视频帧序列的对象网格序列进行简化处理得到的简化后对象网格序列,来对目标对象进行对象动作识别,从而提高对对象动作识别的准确性。
为了更好地实施以上方法,本申请实施例还提供一种动作识别装置,该动作识别装置可以集成在计算机设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图6所示,该动作识别装置可以包括第一获取单元301、提取单元302、第二获取单元303、简化单元304和识别单元305,如下:
(1)第一获取单元;
第一获取单元,可以用于获取针对目标对象的视频帧序列。
在一些申请实施例中,第一获取单元,可以用于获取候选视频帧序列;对候选视频帧序列进行目标对象识别,得到针对目标对象的视频帧序列。
(2)提取单元;
提取单元,可以用于对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列。
(3)第二获取单元;
第二获取单元,可以用于获取对象网格序列中网格的网格顶点的空间参数。
(4)简化单元;
简化单元,可以用于根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
在一些申请实施例中,简化单元,可以用于根据空间参数,对网格顶点之间的顶点距离进行计算处理,得到网格顶点之间的顶点距离;根据顶点距离,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
(5)识别单元;
识别单元,可以用于根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些申请实施例中,识别单元,可以用于采用动作识别模型,对简化后对象网格进行属性特征提取,得到简化后对象网格序列中简化后对象网格对应的至少一个维度的网格属性特征;根据至少一个维度的网格属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些申请实施例中,识别单元,可以用于对至少一个维度的网格属性特征进行融合处理,得到融合后属性特征;根据融合后属性特征,对目标对象进行对象动作识别,得到目标对象的对象动作。
在一些申请实施例中,识别单元,可以用于采用动作识别模型对融合后属性特征进行分类处理,得到目标对象的对象动作类别参数;根据对象动作类别参数,确定目标对象的对象动作。
在一些申请实施例中,识别单元,可以用于获取简化后对象网格样本和简化后对象网格样本对应的动作标签;采用待训练动作识别模型,对简化后对象网格样本进行特征提取,得到简化后对象网格样本的至少一个维度的样本属性特征;根据样本属性特征和动作标签,对待训练动作识别模型进行训练,得到动作识别模型。
由上可知,本申请实施例的第一获取单元可以用于获取针对目标对象的视频帧序列;提取单元,可以用于对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;第二获取单元,可以用于获取对象网格序列中网格的网格顶点的空间参数;简化单元,可以用于根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;识别单元,可以用于根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。由于本申请实施例可以利用对视频帧序列的对象网格序列进行简化处理得到的简化后对象网格序列,来对目标对象进行对象动作识别,从而提高对对象动作识别的准确性。
本申请实施例还提供一种计算机设备,如图7所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息通讯,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
获取针对目标对象的视频帧序列;对视频帧序列中的目标对象进行网格提取,得到目标对象对应的对象网格序列;获取对象网格序列中网格的网格顶点的空间参数;根据空间参数,对对象网格序列中的网格进行简化处理,得到简化后对象网格序列;根据简化后对象网格,对目标对象进行对象动作识别,得到目标对象的对象动作。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种动作识别方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种动作识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种动作识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种动作识别方法、装置、计算机设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种动作识别方法,其特征在于,包括:
获取针对目标对象的视频帧序列;
对所述视频帧序列中的所述目标对象进行网格提取,得到所述目标对象对应的对象网格序列;
获取所述对象网格序列中网格的网格顶点的空间参数;
根据所述空间参数,对所述对象网格序列中的网格进行简化处理,得到简化后对象网格序列;
根据所述简化后对象网格,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作。
2.根据权利要求1所述的动作识别方法,其特征在于,所述根据所述空间参数,对所述对象网格序列中的网格进行简化处理,得到简化后对象网格序列,包括:
根据所述空间参数,对所述网格顶点之间的顶点距离进行计算处理,得到所述网格顶点之间的顶点距离;
根据所述顶点距离,对所述对象网格序列中的网格进行简化处理,得到简化后对象网格序列。
3.根据权利要求1所述的动作识别方法,其特征在于,所述根据所述简化后对象网格,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作,包括:
采用动作识别模型,对所述简化后对象网格进行属性特征提取,得到所述简化后对象网格序列中简化后对象网格对应的至少一个维度的网格属性特征;
根据至少一个维度的所述网格属性特征,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作。
4.根据权利要求3所述的动作识别方法,其特征在于,所述根据至少一个维度的所述网格属性特征,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作,包括:
对至少一个维度的所述网格属性特征进行融合处理,得到融合后属性特征;
根据所述融合后属性特征,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作。
5.根据权利要求4所述的动作识别方法,其特征在于,所述根据所述融合后属性特征,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作,包括:
采用所述动作识别模型对所述融合后属性特征进行分类处理,得到所述目标对象的对象动作类别参数;
根据所述对象动作类别参数,确定所述目标对象的对象动作。
6.根据权利要求3所述的动作识别方法,其特征在于,所述采用动作识别模型,对所述简化后对象网格进行属性特征提取,得到所述简化后对象网格序列中简化后对象网格对应的至少一个维度的网格属性特征之前,所述方法还包括:
获取简化后对象网格样本和所述简化后对象网格样本对应的动作标签;
采用待训练动作识别模型,对所述简化后对象网格样本进行特征提取,得到所述简化后对象网格样本的至少一个维度的样本属性特征;
根据所述样本属性特征和所述动作标签,对所述待训练动作识别模型进行训练,得到所述动作识别模型。
7.根据权利要求1所述的动作识别方法,其特征在于,所述获取针对目标对象的视频帧序列,包括:
获取候选视频帧序列;
对所述候选视频帧序列进行目标对象识别,得到针对目标对象的视频帧序列。
8.一种动作识别装置,其特征在于,包括:
第一获取单元,用于获取针对目标对象的视频帧序列;
提取单元,用于对所述视频帧序列中的所述目标对象进行网格提取,得到所述目标对象对应的对象网格序列;
第二获取单元,用于获取所述对象网格序列中网格的网格顶点的空间参数;
简化单元,用于根据所述空间参数,对所述对象网格序列中的网格进行简化处理,得到简化后对象网格序列;
识别单元,用于根据所述简化后对象网格,对所述目标对象进行对象动作识别,得到所述目标对象的对象动作。
9.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至7任一项所述的动作识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至7任一项所述的动作识别方法。
CN202310509724.8A 2023-05-06 2023-05-06 一种动作识别方法、装置、计算机设备及存储介质 Pending CN116543461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310509724.8A CN116543461A (zh) 2023-05-06 2023-05-06 一种动作识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310509724.8A CN116543461A (zh) 2023-05-06 2023-05-06 一种动作识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116543461A true CN116543461A (zh) 2023-08-04

Family

ID=87457270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310509724.8A Pending CN116543461A (zh) 2023-05-06 2023-05-06 一种动作识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116543461A (zh)

Similar Documents

Publication Publication Date Title
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN108961369B (zh) 生成3d动画的方法和装置
CN112598780B (zh) 实例对象模型构建方法及装置、可读介质和电子设备
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN114648613B (zh) 基于可变形神经辐射场的三维头部模型重建方法及装置
CN112232258A (zh) 一种信息处理方法、装置及计算机可读存储介质
CN113393544B (zh) 一种图像处理方法、装置、设备及介质
CN113822965A (zh) 图像渲染处理方法、装置和设备及计算机存储介质
CN113744286A (zh) 虚拟头发生成方法及装置、计算机可读介质和电子设备
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN115222917A (zh) 三维重建模型的训练方法、装置、设备及存储介质
CN117252791A (zh) 图像处理方法、装置、电子设备及存储介质
CN113762051B (zh) 模型训练方法、图像检测方法、装置、存储介质及设备
CN117237547B (zh) 图像重建方法、重建模型的处理方法和装置
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN115775300B (zh) 人体模型的重建方法、人体重建模型的训练方法及装置
CN115482557A (zh) 人体图像生成方法、系统、设备及存储介质
CN116543461A (zh) 一种动作识别方法、装置、计算机设备及存储介质
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质
CN114202606A (zh) 图像处理方法、电子设置、存储介质及计算机程序产品
CN113516735A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN113761281A (zh) 虚拟资源处理方法、装置、介质及电子设备
CN113706399A (zh) 人脸图像美化方法、装置、电子设备以及存储介质
CN111814865A (zh) 一种图像识别方法、装置、设备及存储介质
CN114926480B (zh) 一种训练图像分割模型的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination