CN115272914A - 一种跳跃识别方法、装置、电子设备及存储介质 - Google Patents

一种跳跃识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115272914A
CN115272914A CN202210767000.9A CN202210767000A CN115272914A CN 115272914 A CN115272914 A CN 115272914A CN 202210767000 A CN202210767000 A CN 202210767000A CN 115272914 A CN115272914 A CN 115272914A
Authority
CN
China
Prior art keywords
suspended
foot
feet
original images
suspension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210767000.9A
Other languages
English (en)
Inventor
陈勃霖
龙良曲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insta360 Innovation Technology Co Ltd
Original Assignee
Insta360 Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insta360 Innovation Technology Co Ltd filed Critical Insta360 Innovation Technology Co Ltd
Priority to CN202210767000.9A priority Critical patent/CN115272914A/zh
Publication of CN115272914A publication Critical patent/CN115272914A/zh
Priority to PCT/CN2023/103824 priority patent/WO2024002238A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Abstract

本申请实施例提出了一种跳跃识别方法、装置、电子设备及存储介质,能够以较小的计算代价识别视频中记录的跳跃动作。其中,所述方法包括:获取连续的多帧原始图像;基于预先训练的动作识别模型,对多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作。

Description

一种跳跃识别方法、装置、电子设备及存储介质
【技术领域】
本申请实施例涉及人工智能技术领域,尤其涉及一种跳跃识别方法、装置、电子设备及存储介质。
【背景技术】
视频中跳跃的片段往往是精彩的、用户比较关注的片段。相关技术中关于跳跃的判断大多是基于视频模型来进行的,视频模型具体指以多帧作为输入的深度学习模型,如X3D、快慢网络Slowfast等。由于这些技术均以多帧作为输入,需要通过分析目标对象在不同帧之间的动作或姿态的关联性,来识别视频中是否存在跳跃动作,且在分析帧与帧之间的关联性的过程中涉及三维(3-dimensional,3D)卷积计算,计算量较大,在识别视频中的跳跃动作时的计算代价也较高。
【发明内容】
本申请实施例提供了一种跳跃识别方法、装置、电子设备及存储介质,能够以较小的计算代价识别视频中的跳跃动作。
第一方面,本申请实施例提供了一种跳跃识别方法,所述方法包括:
获取连续的多帧原始图像;
基于预先训练的动作识别模型,对多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作。
在本申请实施例中,以单帧原始图像作为动作识别模型的输入,通过识别每一帧原始图像中是否存在单脚悬空或双脚悬空,在多帧原始图像中至少存在双脚悬空的情况下,确定这多帧原始图像中记录有跳跃动作。这种通过单帧图像识别来判定跳跃动作的方法,不需要分析帧与帧之间的目标对象的动作或姿态的关联性,而是仅基于单帧图像的识别结果来进行判定,相比于基于多帧图像通过视频模型来分析帧与帧之间的关联性进而识别跳跃动作的方法而言,计算代价较小。
可选地,若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作,包括:
若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和单脚悬空的出现次数均不小于1。
在本申请实施例中,给出一种确定多帧原始图像中记录有跳跃动作的方法,以使该跳跃识别方法适用于多种识别场景。
可选地,若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作,包括:
若多帧原始图像对应的识别结果中依次出现双脚均未悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
在本申请实施例中,给出另一种确定多帧原始图像中记录有跳跃动作的方法,以使该跳跃识别方法适用于多种识别场景。
可选地,若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作,包括:
若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
在本申请实施例中,给出又一种确定多帧原始图像中记录有跳跃动作的方法,以使该跳跃识别方法适用于多种识别场景。
可选地,若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作,包括:
若多帧原始图像对应的识别结果依次为双脚均未悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和单脚悬空的出现次数均不小于1。
在本申请实施例中,给出又一种确定多帧原始图像中记录有跳跃动作的方法,以使该跳跃识别方法适用于多种识别场景。
可选地,在获取连续的多帧原始图像之前,所述方法包括:
获取训练图像集,训练图像集中包含具有标注信息的训练图像,标注信息为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
基于训练图像集,对待训练的目标识别模型进行训练,得到动作识别模型。
在本申请实施例中,通过分析目标对象的跳跃姿态特点,制定单帧图像中的目标对象是否正在进行跳跃的标准,然后收集并标注存在跳跃的图像,并基于此训练图像分类模型,得到一个基于单帧判断是否跳跃的模型,以在实际使用过程中,使用训练得到的动作识别模型来对单帧原始图像进行识别,不需要分析帧与帧之间的目标对象的动作或姿态的关联性,而是仅基于单帧图像的识别结果来进行判定,相比于基于多帧图像通过视频模型来分析帧与帧之间的关联性进而识别跳跃动作的方法而言,计算代价较小。
可选地,获取训练图像集,包括:
采集多个待标注图像;
提取待标注图像中的目标对象所在的区域,得到待标注图像对应的待训练图像;
响应针对待训练图像中的目标对象所添加的标注信息,获得训练图像集。
在本申请实施例中,通过将待标注图像中的目标对象所在的区域提取出来,得到冗余信息更少的待训练图像,仅根据待训练图像进行标注,从而减少干扰信息,提高标注准确度。
第二方面,本申请实施例提供了一种跳跃识别装置,所述装置包括:
获取单元,用于获取连续的多帧原始图像;
识别单元,用于基于预先训练的动作识别模型,对多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
确定单元,用于若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作。
可选地,所述确定单元具体用于:
若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和单脚悬空的出现次数均不小于1。
可选地,所述确定单元具体用于:
若多帧原始图像对应的识别结果中依次出现双脚均未悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
可选地,所述确定单元具体用于:
若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
可选地,所述确定单元具体用于:
若多帧原始图像对应的识别结果依次为双脚均未悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和单脚悬空的出现次数均不小于1。
可选地,所述装置还包括:
所述获取单元,还用于获取训练图像集,训练图像集中包含具有标注信息的训练图像,标注信息为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
训练单元,用于基于训练图像集,对待训练的目标识别模型进行训练,得到动作识别模型。
可选地,所述装置还包括:
采集单元,用于采集多个待标注图像;
提取单元,用于提取待标注图像中的目标对象所在的区域,得到待标注图像对应的待训练图像;
所述获取单元,还用于响应针对待训练图像中的目标对象所添加的标注信息,获得训练图像集。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如第一方面任一实施例所述方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一实施例所述方法的步骤。
应当理解的是,本发明实施例的第二至四方面与本发明实施例的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种跳跃识别方法的实现流程示意图;
图2为本申请实施例提供的一种双脚均未悬空的示意图;
图3为本申请实施例提供的一种单脚悬空的示意图;
图4为本申请实施例提供的一种双脚悬空的示意图;
图5为本申请实施例提供的动作识别模型的训练方法的实现流程示意图;
图6为本申请实施例提供的跳跃识别装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”用以区别类似或不同的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
随着通信技术的发展和移动设备的大众化,用户逐渐脱离电视转而使用移动设备观看视频,视频节目及内容迎来了爆发性的增长期。其中,电影、电视剧、综艺等形式的视频都想第一时间抓住用户的眼球,而视频中跳跃的片段往往是精彩的、用户比较关注的片段,因此,通过识别出视频中的跳跃动作,能够较快吸引用户,提升用户黏着力。
相关技术中关于跳跃的判断大多是基于视频模型来进行的,视频模型具体指以多帧图像作为输入的深度学习模型。由于这些技术均以多帧图像作为输入,需要通过分析目标对象在不同帧之间的动作或姿态的关联性,来识别视频中是否存在跳跃动作,且在分析帧与帧之间的关联性的过程中涉及3D卷积计算,计算量较大,在识别视频中记录的跳跃动作时的计算代价也较高。
经过研究发现,通常跳跃的姿态与站立、行走等的姿态有较大区别,且往往表现为单脚悬空或者双脚悬空,因此可以通过单帧图像中目标对象的脚部悬空状态来对跳跃进行静态的判断。
有鉴于此,本申请实施例提供一种跳跃识别方法,以单帧原始图像作为动作识别模型的输入,通过识别单帧原始图像中是否存在单脚悬空或双脚悬空,在原始图像中至少存在双脚悬空的情况下,确定记录有跳跃动作。这种通过单帧图像识别来判定跳跃动作的方法,不需要分析帧与帧之间的目标对象的动作或姿态的关联性,而是仅基于单帧图像的识别结果来进行判定,相比于基于多帧图像通过视频模型来分析帧与帧之间的关联性进而识别跳跃动作的方法而言,计算代价较小。
该方法应用于电子设备,所述电子设备在实施的过程中可以为各种类型的具有信息处理能力的计算机设备,例如所述计算机设备可以包括个人计算机(如台式机、笔记本电脑、小型笔记本电脑、平板电脑以及超级本等)、手机、个人数字助理(Personal DigitalAssistant,PDA)、服务器等。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。
图1为本申请实施例提供的跳跃识别方法的实现流程示意图。如图1所示,该方法可以包括以下步骤101至步骤103:
步骤101,获取连续的多帧原始图像。
在本申请实施例中,对于多帧原始图像的获取方式不做限定。例如,在一些实施例中,可以由其他设备对原始视频进行分帧处理,得到连续的多帧原始图像,再将这连续的多帧原始图像传输给执行跳跃识别方法的电子设备。在另一些实施例中,也可以为执行跳跃识别方法的电子设备直接对获取到的原始视频进行分帧处理,从而得到连续的多帧原始图像。
在本申请实施例中,对于帧间时差的大小也不做限定,可以根据实际情况来确定。
在一些实施例中,在获取连续的多帧原始图像之前,可以通过执行如下步骤501至步骤502来预先对动作识别模型进行训练,以得到训练完成的动作识别模型。
步骤102,基于预先训练的动作识别模型,对多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种。
通过预先对收集到的图像中的目标对象的动作分析发现,图像中的目标对象在执行跳跃动作的时候,往往存在单脚悬空或者双脚悬空的情况。例如,如图2所示,给出目标对象单脚悬空的示例;如图3所示,给出目标对象双脚悬空的示例。因此可以根据脚部悬空的情况来判断目标对象是否正在执行跳跃动作。进一步地,经分析发现,单脚悬空通常是发生在跳跃动作的开始和结束阶段,而双脚悬空往往发生在整个跳跃动作的中间阶段。
当然,目标对象在不执行跳跃动作时,表现为双脚均不悬空。如图4所示,给出目标对象双脚均未悬空的示例。
因此,在本申请实施例中,可以利用动作识别模型来对每一帧原始图像进行动作识别,以在原始图像中存在目标对象时判断目标对象的脚部动作情况(具体包括单脚悬空、双脚悬空或双脚均未悬空)。
需要说明的是,对于原始图像中不存在目标对象的情况而言,认定其对应的识别结果为双脚均未悬空。
步骤103,若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作。
可以理解地,在目标对象的跳跃过程中,不管是以单脚悬空还是双脚悬空进行起跳或落地,在某一时刻一定会出现双脚悬空的情况,即目标对象的双脚均不接触地面,而在目标对象的非跳跃过程中,不会出现双脚悬空的情况。因此,只要多帧原始图像的识别结果中至少包括有双脚悬空,那么就可以基于此确定目标对象在执行跳跃动作。
需要说明的是,在本申请实施例中,对于多帧原始图像的识别结果中出现双脚悬空,以确定记录有跳跃动作的时机不做限定。
例如,在一些实施例中,若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和单脚悬空的出现次数均不小于1。
在这种情况下,认为目标对象实际在跳跃时,是执行单脚起跳,中间过程双脚悬空,最后再单脚落地的跳跃动作。如果多帧原始图像的帧间时差较小,那么该跳跃动作对应的多帧原始图像的识别结果可能为多帧单脚悬空(单脚起跳)、多帧双脚悬空(中间跳跃过程)和多帧单脚悬空(单脚落地)。
又如,在一些实施例中,若多帧原始图像对应的识别结果中依次出现双脚均未悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
在这种情况下,认为目标对象实际在跳跃时,是执行原地双脚起跳,中间过程双脚悬空,最后再双脚落地的跳跃动作。如果多帧原始图像的帧间时差较小,那么该跳跃动作对应的多帧原始图像的识别结果可能为多帧双脚均未悬空(原地双脚起跳)、多帧双脚悬空(中间跳跃过程)和多帧双脚均未悬空(双脚落地)。
还如,在一些实施例中,若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
在这种情况下,认为目标对象实际在跳跃时,是执行单脚起跳,中间过程双脚悬空,最后再双脚落地的跳跃动作。如果多帧原始图像的帧间时差较小,那么该跳跃动作对应的多帧原始图像的识别结果可能为多帧单脚悬空(单脚起跳)、多帧双脚悬空(中间跳跃过程)和多帧双脚均未悬空(双脚落地)。
再如,在一些实施例中,若多帧原始图像对应的识别结果依次为双脚均未悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和单脚悬空的出现次数均不小于1。
在这种情况下,认为目标对象实际在跳跃时,是执行原地双脚起跳,中间过程双脚悬空,最后再单脚落地的跳跃动作。如果多帧原始图像的帧间时差较小,那么该跳跃动作对应的多帧原始图像的识别结果可能为多帧双脚均未悬空(原地双脚起跳)、多帧双脚悬空(中间跳跃过程)和多帧单脚悬空(单脚落地)。
在本申请实施例中,在确定多帧原始图像中记录有跳跃动作后,还可以将对应的多帧原始图像提取出来,以得到目标对象的跳跃片段,通过播放跳跃片段第一时间抓住用户的眼球,提升用户黏着力。
在本申请实施例中,以单帧原始图像作为动作识别模型的输入,通过识别每一帧原始图像中是否存在单脚悬空或双脚悬空,在多帧原始图像中至少存在双脚悬空的情况下,确定这多帧原始图像中记录有跳跃动作。这种通过单帧图像识别来判定跳跃动作的方法,不需要分析帧与帧之间的目标对象的动作或姿态的关联性,而是仅基于单帧图像的识别结果来进行判定,相比于基于多帧图像通过视频模型来分析帧与帧之间的关联性进而识别跳跃动作的方法而言,计算代价较小。
图5为本申请实施例提供的动作识别模型的预先训练方法的实现流程示意图。如图5所示,该方法可以包括以下步骤501至步骤502:
步骤501,获取训练图像集,训练图像集中包含具有标注信息的训练图像,标注信息为单脚悬空、双脚悬空或双脚均未悬空中的任意一种。
可以理解地,在训练识别模型时需要多张带有标注的图像,而为了对图像进行标注,首先需要制定标注的标准。在本申请实施例中,关注的是在单张图像中是否存在目标对象在进行跳跃动作。
基于上述步骤102中的分析可知,可以根据脚部悬空(具体包括单脚悬空、双脚悬空或双脚均未悬空)的情况来判断目标对象是否正在执行跳跃动作。因此,在本申请实施例中,基于上述分析结果,制定确定单帧原始图像中的目标对象是否正在进行跳跃的标注标准,将图像中的目标对象的动作分为三类,分别是双脚均未悬空、单脚悬空以及双脚悬空。
这里,将目标对象的动作分为三类,而不是仅分为双脚均未悬空和脚部悬空(不区分单脚悬空还是双脚悬空),主要是基于两方面的考虑:(1)在一些实施例中,可以把单脚悬空当作是跳跃开始或者结束状态,把双脚悬空当作是跳跃中间状态,在识别跳跃时,当多帧原始图像依次满足单脚悬空、双脚悬空、单脚悬空时,才判断多帧原始图像中记录有跳跃动作,从而提高识别的精确度。(2)有些单脚悬空的情况并非跳跃,可能只是目标对象抬起腿,在图像标注阶段,如果跟双脚悬空的情况混在一起进行标注,会影响标注员的判断,也可能对后续的动作识别模型的训练有负面影响。
在一些实施例中,可以通过执行如下步骤获取训练图像集:
步骤5011,采集多个待标注图像。
在确定好标注标准后,需要采集多个待标注图像进行标注。在本申请实施例中,对于采集待标注图像的方式不做限定,例如,可以直接借用公开的数据集获取多个待标注图像;或者,通过爬虫从网上收集合适的图像,将其作为待标注图像。
步骤5012,提取待标注图像中的目标对象所在的区域,得到待标注图像对应的待训练图像。
可以理解地,在对待标注图像进行标注时,重点关注的是目标对象是否处于跳跃状态(表现为脚部是否悬空),而在待标注图像中,除了目标对象以外的大部分背景信息,对于目标对象的脚部悬空状态的判断并没有帮助。因此,在本申请实施例中,可以将待标注图像中的目标对象所在的区域提取出来,得到冗余信息更少的待训练图像,仅根据待训练图像进行标注,从而减少干扰信息,提高标注准确度。
这里,对于提取目标对象所在的区域的方式不做限定。例如,在一些实施例中,可以通过人体检测器把待标注图像中包含目标对象的部分裁剪出来,得到待训练图像。在另一些实施例中,也可以通过滤除掉待标注图像中的背景信息的方式,得到仅包含目标对象的待训练图像。
步骤5013,响应针对待训练图像中的目标对象所添加的标注信息,获得训练图像集。
在本申请实施例中,对于待训练图像中的目标对象的标注方法不做限定。例如,可以通过人工方式来进行标注,得到训练图像集。
在一些实施例中,为了得到一个更可靠的标注结果,在条件允许的情况下,可以采用多人标注单张待标注图像的方法。可以根据多数人的标注结果来确定类别,将待标注图像的标签定义为多数人所标注的类别,或者在多数人对于同一张图像的标注结果不一致时,单独拿出来讨论或删除这张待标注图像(如部分人将待标注图像中的目标对象的动作标注为单脚悬空,部分人将待标注图像中的目标对象的动作标注为双脚悬空)。这种多人标注的方式,可以减少标注噪声,提高标注质量,进而提高后续模型的性能。
步骤502,基于训练图像集,对待训练的目标识别模型进行训练,得到动作识别模型。
在本申请实施例中,在得到训练图像集后,需要根据训练图像对待训练的目标识别模型进行训练。其中,在选择目标识别模型时,可以根据当前执行训练的电子设备的计算能力的不同来选择。如果分配给模型的计算资源相对充足,可以考虑选择ResNext101、Vision Transformer等较大的模型进行训练,以争取更好的分类性能。如果分配给模型的计算资源相对紧缺,可以考虑选择MobileNet、ShuffleNet等移动端模型进行训练,以降低模型的计算成本。
在本申请实施例中,通过分析目标对象的跳跃姿态特点,制定单帧图像中的目标对象是否正在进行跳跃的标准,然后收集并标注存在跳跃的图像,并基于此训练图像分类模型,得到一个基于单帧判断是否跳跃的模型,以在实际使用过程中,使用训练得到的动作识别模型来对单帧原始图像进行识别,基于单帧图像的识别结果确定来判定跳跃动作。这种判定方法,不需要分析帧与帧之间的目标对象的动作或姿态的关联性,而是仅基于单帧图像的识别结果来实现,相比于基于多帧图像通过视频模型来分析帧与帧之间的关联性进而识别跳跃动作的方法而言,计算代价较小。
基于前述的实施例,本申请实施例提供一种跳跃识别装置,该装置包括所包括的各模块、以及各模块所包括的各单元,可以通过处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图6为本申请实施例提供的跳跃识别装置的结构示意图,如图6所示,所述装置600包括获取单元601、识别单元602和确定单元603,其中:
获取单元601,用于获取连续的多帧原始图像;
识别单元602,用于基于预先训练的动作识别模型,对多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
确定单元603,用于若确定多帧原始图像对应的识别结果中至少包括双脚悬空,则确定多帧原始图像记录有跳跃动作。
在一些实施例中,确定单元603具体用于:
若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和单脚悬空的出现次数均不小于1。
在一些实施例中,确定单元603具体用于:
若多帧原始图像对应的识别结果中依次出现双脚均未悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
在一些实施例中,确定单元603具体用于:
若多帧原始图像对应的识别结果中依次出现单脚悬空、双脚悬空和双脚均未悬空,则确定多帧原始图像记录有跳跃动作;单脚悬空、双脚悬空和双脚均未悬空的出现次数均不小于1。
在一些实施例中,确定单元603具体用于:
若多帧原始图像对应的识别结果依次为双脚均未悬空、双脚悬空和单脚悬空,则确定多帧原始图像记录有跳跃动作;双脚均未悬空、双脚悬空和单脚悬空的出现次数均不小于1。
在一些实施例中,所述装置还包括训练单元,获取单元601,还用于获取训练图像集,训练图像集中包含具有标注信息的训练图像,标注信息为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;训练单元,用于基于训练图像集,对待训练的目标识别模型进行训练,得到动作识别模型。
在一些实施例中,所述装置还包括采集单元和提取单元,采集单元,用于采集多个待标注图像;提取单元,用于提取待标注图像中的目标对象所在的区域,得到待标注图像对应的待训练图像;获取单元601,还用于响应针对待训练图像中的目标对象所添加的标注信息,获得训练图像集。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中图6所示的跳跃识别装置对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
本申请实施例提供一种电子设备,图7为本申请实施例的电子设备的硬件实体示意图,如图7所示,所述电子设备700包括存储器701和处理器702,所述存储器701存储有可在处理器702上运行的计算机程序,所述处理器702执行所述程序时实现上述实施例中提供的方法中的步骤。
需要说明的是,存储器701配置为存储由处理器702可执行的指令和应用,还可以缓存在处理器702以及电子设备700中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(RandomAccess Memory,RAM)实现。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。
本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例提供的方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如对象A和/或对象B,可以表示:单独存在对象A,同时存在对象A和对象B,单独存在对象B这三种情况。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能模块可以全部集成在一个处理单元中,也可以是各模块分别单独作为一个单元,也可以两个或两个以上模块集成在一个单元中;上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种跳跃识别方法,其特征在于,所述方法包括:
获取连续的多帧原始图像;
基于预先训练的动作识别模型,对所述多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,所述识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
若确定所述多帧原始图像对应的识别结果中至少包括所述双脚悬空,则确定所述多帧原始图像记录有跳跃动作。
2.根据权利要求1所述的方法,其特征在于,所述若确定所述多帧原始图像对应的识别结果中至少包括所述双脚悬空,则确定所述多帧原始图像记录有跳跃动作,包括:
若所述多帧原始图像对应的识别结果中依次出现所述单脚悬空、所述双脚悬空和所述单脚悬空,则确定所述多帧原始图像记录有跳跃动作;所述单脚悬空、所述双脚悬空和所述单脚悬空的出现次数均不小于1。
3.根据权利要求1所述的方法,其特征在于,所述若确定所述多帧原始图像对应的识别结果中至少包括所述双脚悬空,则确定所述多帧原始图像记录有跳跃动作,包括:
若所述多帧原始图像对应的识别结果中依次出现所述双脚均未悬空、所述双脚悬空和所述双脚均未悬空,则确定所述多帧原始图像记录有跳跃动作;所述双脚均未悬空、所述双脚悬空和所述双脚均未悬空的出现次数均不小于1。
4.根据权利要求1所述的方法,其特征在于,所述若确定所述多帧原始图像对应的识别结果中至少包括所述双脚悬空,则确定所述多帧原始图像记录有跳跃动作,包括:
若所述多帧原始图像对应的识别结果中依次出现所述单脚悬空、所述双脚悬空和所述双脚均未悬空,则确定所述多帧原始图像记录有跳跃动作;所述单脚悬空、所述双脚悬空和所述双脚均未悬空的出现次数均不小于1。
5.根据权利要求1所述的方法,其特征在于,所述若确定所述多帧原始图像对应的识别结果中至少包括所述双脚悬空,则确定所述多帧原始图像记录有跳跃动作,包括:
若所述多帧原始图像对应的识别结果依次为所述双脚均未悬空、所述双脚悬空和所述单脚悬空,则确定所述多帧原始图像记录有跳跃动作;所述双脚均未悬空、所述双脚悬空和所述单脚悬空的出现次数均不小于1。
6.根据权利要求1所述的方法,其特征在于,在获取连续的多帧原始图像之前,所述方法包括:
获取训练图像集,所述训练图像集中包含具有标注信息的训练图像,所述标注信息为所述单脚悬空、所述双脚悬空或所述双脚均未悬空中的任意一种;
基于所述训练图像集,对待训练的目标识别模型进行训练,得到所述动作识别模型。
7.根据权利要求6所述的方法,其特征在于,所述获取训练图像集,包括:
采集多个待标注图像;
提取所述待标注图像中的目标对象所在的区域,得到所述待标注图像对应的待训练图像;
响应针对所述待训练图像中的目标对象所添加的所述标注信息,获得所述训练图像集。
8.一种跳跃识别装置,其特征在于,所述装置包括:
获取单元,用于获取连续的多帧原始图像;
识别单元,用于基于预先训练的动作识别模型,对所述多帧原始图像中每一原始图像进行识别处理,得到每一原始图像的识别结果,所述识别结果为单脚悬空、双脚悬空或双脚均未悬空中的任意一种;
确定单元,用于若确定所述多帧原始图像对应的识别结果中至少包括所述双脚悬空,则确定所述多帧原始图像记录有跳跃动作。
9.一种电子设备,其特征在于,所述电子设备包括至少一个处理器以及与所述至少一个处理器连接的存储器,所述至少一个处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202210767000.9A 2022-06-30 2022-06-30 一种跳跃识别方法、装置、电子设备及存储介质 Pending CN115272914A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210767000.9A CN115272914A (zh) 2022-06-30 2022-06-30 一种跳跃识别方法、装置、电子设备及存储介质
PCT/CN2023/103824 WO2024002238A1 (zh) 2022-06-30 2023-06-29 一种跳跃识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210767000.9A CN115272914A (zh) 2022-06-30 2022-06-30 一种跳跃识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115272914A true CN115272914A (zh) 2022-11-01

Family

ID=83762840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210767000.9A Pending CN115272914A (zh) 2022-06-30 2022-06-30 一种跳跃识别方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN115272914A (zh)
WO (1) WO2024002238A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966016A (zh) * 2022-12-19 2023-04-14 天翼爱音乐文化科技有限公司 一种跳跃状态识别方法、系统、电子设备及存储介质
WO2024002238A1 (zh) * 2022-06-30 2024-01-04 影石创新科技股份有限公司 一种跳跃识别方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091025B (zh) * 2018-10-23 2023-04-18 阿里巴巴集团控股有限公司 图像处理方法、装置和设备
CN111753795A (zh) * 2020-06-30 2020-10-09 北京爱奇艺科技有限公司 一种动作识别方法、装置、电子设备及存储介质
US20230274580A1 (en) * 2020-08-14 2023-08-31 Intel Corporation Method and system of image processing for action classification
CN113743273B (zh) * 2021-08-27 2024-04-05 西安交通大学 基于视频图像目标检测的实时跳绳计数方法、装置和设备
CN115272914A (zh) * 2022-06-30 2022-11-01 影石创新科技股份有限公司 一种跳跃识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024002238A1 (zh) * 2022-06-30 2024-01-04 影石创新科技股份有限公司 一种跳跃识别方法、装置、电子设备及存储介质
CN115966016A (zh) * 2022-12-19 2023-04-14 天翼爱音乐文化科技有限公司 一种跳跃状态识别方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
WO2024002238A1 (zh) 2024-01-04

Similar Documents

Publication Publication Date Title
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
CN110602526B (zh) 视频处理方法、装置、计算机设备及存储介质
KR102433393B1 (ko) 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
US20110243452A1 (en) Electronic apparatus, image processing method, and program
CN115272914A (zh) 一种跳跃识别方法、装置、电子设备及存储介质
CN113453040B (zh) 短视频的生成方法、装置、相关设备及介质
JP4697106B2 (ja) 画像処理装置および方法、並びにプログラム
US9996554B2 (en) Search apparatus, search method, and storage medium
KR101563297B1 (ko) 영상에서 행동을 인식하는 방법 및 장치
Dubuisson et al. A survey of datasets for visual tracking
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
JP2017112448A (ja) 映像シーン分割装置及び映像シーン分割プログラム
JP2014093058A (ja) 画像管理装置、画像管理方法、プログラム及び集積回路
Oshin et al. Capturing the relative distribution of features for action recognition
US20230252786A1 (en) Video processing
CN111797850A (zh) 视频分类方法、装置、存储介质及电子设备
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN108289201A (zh) 视频数据处理方法、装置和电子设备
WO2023208134A1 (zh) 图像处理方法及模型生成方法、装置、车辆、存储介质及计算机程序产品
CN110019951B (zh) 一种生成视频缩略图的方法及设备
Yang et al. Semi-automatic image and video annotation system for generating ground truth information
Gharahdaghi et al. A non-linear mapping representing human action recognition under missing modality problem in video data
CN108536343B (zh) 控件展示方法、装置、终端及存储介质
CN115713722B (zh) 一种多模态第一视角视频分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination