CN108197589B - 动态人体姿态的语义理解方法、装置、设备和存储介质 - Google Patents

动态人体姿态的语义理解方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN108197589B
CN108197589B CN201810053189.9A CN201810053189A CN108197589B CN 108197589 B CN108197589 B CN 108197589B CN 201810053189 A CN201810053189 A CN 201810053189A CN 108197589 B CN108197589 B CN 108197589B
Authority
CN
China
Prior art keywords
posture
picture frame
instruction
image frame
target person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810053189.9A
Other languages
English (en)
Other versions
CN108197589A (zh
Inventor
张丽晶
汤炜
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rubu Technology Co.,Ltd.
Original Assignee
Beijing Rubo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rubo Technology Co Ltd filed Critical Beijing Rubo Technology Co Ltd
Priority to CN201810053189.9A priority Critical patent/CN108197589B/zh
Publication of CN108197589A publication Critical patent/CN108197589A/zh
Application granted granted Critical
Publication of CN108197589B publication Critical patent/CN108197589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种动态人体姿态的语义理解方法、装置、设备和存储介质。本发明实施例动态人体姿态的语义理解方法,包括:从获取的视频流图像帧中识别目标人物;根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;根据所述语义图像帧序列中的姿态识别对应的语义。本发明实施例能够适应更丰富场景下的人体姿态识别,提高识别准确性。

Description

动态人体姿态的语义理解方法、装置、设备和存储介质
技术领域
本发明实施例涉及模式识别和计算机视觉领域技术,尤其涉及一种动态人体姿态的语义理解方法、装置、设备和存储介质。
背景技术
人体姿态估计是计算机视觉领域的一个重要技术,通过识别人的动作揣摩人的意图,可以将其应用于人体活动分析、人机交互和视频监视等方面。例如,对运动员进行姿态估计,分析运动过程中动作的关键点,学习姿态的位置、方向和尺度,可以帮助运动员有针对性的制定训练计划;一些带有体感体验的娱乐设备,可以通过人体姿态估计,识别人体的姿态,翻译出姿态对应的控制指令,从而可以控制娱乐设备作出相应的反应;对监控视频中的人进行人体姿态估计,检测是否有异常情况,可以提高视频监控整体水平。
目前大多数视觉控制是基于人体局部部位的检测,最常见的是脸部和手部,其需要被检测的局部部位在图像中占据主要位置,例如,人脸必须处于图像的中间位置,清晰且占据大部分区域,通过人脸的左右转动、上下俯仰,分别表示不同的语义。但是这种方法可以表达的语义有限,难以满足复杂场景下的信息准确传递和控制。
也可以通过点特征匹配法、图结构化模型和统计模型等方法进行人体姿态估计。但是在复杂环境中,会出现人物相互遮挡,姿态复杂,图像模糊,有类人物体等情况,很容易出现误检现象,导致机器不能准确识别到控制指令,及时作出反应。而且目前基于人体姿态估计的语义理解只有针对静态单帧图像,可获得的语义也是有限的。
发明内容
本发明实施例提供一种动态人体姿态的语义理解方法、装置、设备和存储介质,以适应更丰富场景下的人体姿态识别,提高识别准确性。
第一方面,本发明实施例提供了一种动态人体姿态的语义理解方法,包括:
从获取的视频流图像帧中识别目标人物;
根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
根据所述语义图像帧序列中的姿态识别对应的语义。
可选的,所述根据所述语义图像帧序列中的姿态识别对应的语义,包括:
将所述语义图像帧序列中的连续姿态输入循环神经网络,根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义,所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。
可选的,在所述根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列之前,还包括:
将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧;或者,
保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧,作为所述指令图像帧。
可选的,所述从获取的视频流图像帧中识别目标人物,包括:
对所述视频流图像帧进行特征提取,将提取出来的所述特征与目标检测模型进行匹配,根据匹配结果确定所述目标人物。
可选的,所述目标检测模型包括以下任一种或几种信息:
所述目标人物的外貌特征信息;
所述目标人物的衣着信息;
所述目标人物的位置信息;
所述目标人物在所述图像帧中的面积占比信息。
可选的,在所述根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列之前,还包括:
对所述视频流中的图像帧进行目标人物人体姿态识别;
将识别到的人物姿态与设定指令姿态进行匹配,并根据匹配结果确定所述指令图像帧。
可选的,所述对所述视频流中的图像帧进行目标人物人体姿态识别,包括:
通过图像识别确定人物的身体关键部位对应的关键点,并获得关键点的连线;
根据所述关键点和所述关键点的连线,确定人物的姿态。
可选的,所述指令图像帧包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧,所述相邻图像帧为起始指令图像帧和终止指令图像帧。
可选的,在所述根据所述语义图像帧序列中的姿态识别对应的语义之后,还包括:
根据所述语义确定对应的控制指令,并执行所述控制指令;
其中,所述目标人物为交通警察,所述控制指令为交通手势;或所述目标人物为游戏玩家,所述控制指令为游戏姿势。
第二方面,本发明实施例提供了一种动态人体姿态的语义理解装置,包括:
人物识别模块,用于从获取的视频流图像帧中识别目标人物;
待识别图像帧序列确定模块,用于根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
语义识别模块,用于根据所述语义图像帧序列中的姿态识别对应的语义。
可选的,所述语义识别模块,具体用于将所述语义图像帧序列中的连续姿态输入循环神经网络,根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义,所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。
可选的,所述待识别图像帧序列确定模块,还用于将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧;或者,保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧,作为所述指令图像帧。
可选的,所述人物识别模块,具体用于对所述视频流图像帧进行特征提取,将提取出来的所述特征与目标检测模型进行匹配,根据匹配结果确定所述目标人物。
可选的,所述目标检测模型包括以下任一种或几种信息:
所述目标人物的外貌特征信息;
所述目标人物的衣着信息;
所述目标人物的位置信息;
所述目标人物在所述图像帧中的面积占比信息。
可选的,所述待识别图像帧序列确定模块,还用于对所述视频流中的图像帧进行目标人物人体姿态识别;将识别到的人物姿态与设定指令姿态进行匹配,并根据匹配结果确定所述指令图像帧。
可选的,所述待识别图像帧序列确定模块,具体用于通过图像识别确定人物的身体关键部位对应的关键点,并获得关键点的连线;根据所述关键点和所述关键点的连线,确定人物的姿态。
可选的,所述指令图像帧包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧,所述相邻图像帧为起始指令图像帧和终止指令图像帧。
可选的,还包括:
处理模块,用于根据所述语义确定对应的控制指令,并执行所述控制指令;其中,所述目标人物为交通警察,所述控制指令为交通手势;或所述目标人物为游戏玩家,所述控制指令为控制游戏的姿态。
第三方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面任一所述的动态人体姿态的语义理解方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种动态人体姿态的语义理解方法,该方法包括:
从获取的视频流图像帧中识别目标人物;
根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
根据所述语义图像帧序列中的姿态识别对应的语义。
本发明实施例通过对视频流图像帧中的目标人物出现指令姿态的图像帧之间的非指令图像帧序列进行姿态识别,可以基于明确的指令图像帧得到一系列要识别的图像帧序列,并获得一系列姿态对应的语义,因此降低了复杂场景中的人体姿态识别难度,也解决了局部检测只能表达有限语义的问题,达到了视觉控制语义多样化的效果,实现复杂场景下的信息准确传递。
附图说明
图1为本发明实施例一提供的动态人体姿态的语义理解方法的流程图;
图2a-2e为本发明实施例一中所提供的目标人物人体姿态示意图;
图3为本发明实施例二提供的动态人体姿态的语义理解装置的结构示意图;
图4为本发明实施例三提供的动态人体姿态的语义理解装置的结构示意图;
图5为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的动态人体姿态的语义理解方法的流程图,该方法可以由动态人体姿态的语义理解装置来执行,该装置可以应用于任意需要进行人体姿态识别的设备中,例如智能车辆的控制单元,有体感体验的娱乐设备,计算机,游戏控制台,或平板设备等。动态人体姿态的语义理解方法具体包括如下步骤:
步骤101、从获取的视频流图像帧中识别目标人物;
该视频流可以是通过摄像头、照相机等摄像装置实时采集获取到的,也可以是预先通过摄像装置采集保存下来的,本实施例可以从实时获取的视频流的当前图像帧中识别目标人物,也可以从预先获取的视频流中的各个图像帧中分别识别目标人物。视频流由一帧一帧的图像帧依时间顺序组成,本实施例中对这些图像帧进行识别,明确需要进行人体姿态识别的目标人物,这样可以避免在具有复杂背景、或多人物的图像帧中对错误的对象进行姿态识别。图像帧中的所有人物都可能成为目标人物,优选的是为图像帧中具有设定特征的人物。
步骤102、根据视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,指令图像帧为目标人物出现指令姿态的图像帧;
本实施例中目标人物发出的指令是由一系列的姿态组成的,将视频流图像帧中的目标人物出现指令姿态的图像帧作为指令图像帧,将相邻指令图像帧之间的非指令图像帧序列作为语义图像帧序列。通常人在不做动作时有一些习惯性的动作,例如,直立双手自然下垂,因此就可以依惯例将某一姿态设定为指令姿态,只要目标人物出现了该指令姿态就可以认为其所在的图像帧为指令图像帧。也可以将一些固定姿态作为指令姿态,预先告知目标人物,这样目标人物可以专门做一个指定的指令姿态,当图像帧中目标人物出现了该指令姿态就将其作为指令图像帧。以相邻指令图像帧作为起止图像帧,确定一个完整指令的边界,该边界之间的非指令图像帧序列可以认为反映了目标人物作出的一系列姿态,将其作为真正表达语义的语义图像帧序列,构成一个完整的语义指令。起止图像帧的指令姿态可以相同或不同。
可选的,基于视频流的帧速度,可能在指令图像帧之间的所有图像帧的相邻两个之间人物姿态的变化很小甚至没有变化,因此可以从这些图像帧中选取部分图像帧作为语义图像帧序列进行目标人物人体姿态的语义理解,例如,每隔一帧或多帧图像帧选取一帧图像帧。这样得到的语义图像帧序列既能保留关键姿态,反映目标人物的姿态变化,又能减少姿态识别的计算量。
步骤103、根据语义图像帧序列中的姿态识别对应的语义。
将语义图像帧序列中的连续姿态输入循环神经网络,根据预先得到的动态姿态识别模型分类出语义图像帧序列对应的语义,该动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。预先将带有已知语义标签信息的连续姿态输入循环神经网络,训练出动态姿态识别模型,该动态姿态识别模型中各语义对应的姿态不是静态姿态,而是由多个姿态依时间顺序组成的连续姿态,不仅包括多个关键姿态,还包括这些关键姿态之间的先后顺序和关联关系。将语义图像帧序列中的连续姿态输入循环神经网络,其中包括上述动态姿态识别模型,基于此,通过学习语义图像帧序列的特征,根据损失函数计算得到的语义图像帧序列对应的语义概率最大的语义即为图像帧序列对应的语义。
目前基于人体姿态估计的语义理解大多只有针对对静态单帧图像进行检测,而更多现实场景中,一些指令的语义由连续的图像帧序列构成,这对技术提出了更高的要求。本实施例中目标人物的人体姿态是其全身姿态,且是连续姿态,这样无论是身体哪一部位的连续姿态发生变化,或者连续姿态中的关键姿态发生变化,都可以赋予其不同的语义,这样表达的语义就可以很丰富多样。
本实施例的技术方案,通过对视频流图像帧中的目标人物出现指令姿态的图像帧之间的非指令图像帧序列进行姿态识别,可以基于明确的指令图像帧得到一系列要识别的图像帧,并获得一系列姿态对应的语义,因此降低了复杂场景中的人体姿态识别难度。
在上述技术方案的基础上,通常视频流中出现指令姿态的连续图像帧不会只有一帧,因此可以将视频流图像帧中连续出现指令姿态的图像帧进行合并,作为一个指令图像帧;或者,保留视频流图像帧中连续出现指令姿态的图像帧的第一帧或最后一帧,作为指令图像帧。
在连续出现指令姿态的多张图像帧中,可以将这多张图像帧合并成一张图像帧作为指令图像帧,也可以只保留这多张图像帧中的第一帧或最后一帧(其余图像帧剔除)作为指令图像帧,这样一方面可以明确一个完整指令的边界,另一方面在后续做语义识别时可以避免对重复的图像帧进行处理,减少计算量。
在上述技术方案的基础上,从获取的视频流图像帧中识别目标人物可以通过对视频流图像帧进行特征提取,将提取出来的特征与目标检测模型进行匹配,根据匹配结果确定目标人物。其中,目标检测模型包括以下任一种或几种信息:目标人物的外貌特征信息;目标人物的衣着信息;目标人物的位置信息;目标人物在图像帧中的面积占比信息。
举例说明,在车辆行驶中,需要以听从交警指挥,则交警就是要检测出来的目标人物,那么以交警为原型学习并设定目标检测模型,其中可以包括:外貌特征信息,即头戴交警帽;衣着信息,即交警特定的服装颜色、着装特征等;交警所处的位置,即通常交警站在一个圆柱形的高台上;交警在图像帧中的面积占比。将从图像帧中检测出来的特征与上述信息进行匹配,结果一致,或者相似度高达某阈值以上的就可以认为该特征是目标人物。
在上述技术方案的基础上,对于图像帧中的目标人物需要进行目标人物人体姿态识别,将识别到的人物姿态与设定指令姿态进行匹配,并根据匹配结果确定指令图像帧,指令图像帧可以包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧,相邻图像帧为起始指令图像帧和终止指令图像帧,即起止指令姿态和终止指令姿态可以设定为相同的姿态,也可以设定为不同的姿态,若是相同的姿态,则相邻两个识别到指定姿态的图像帧一前一后分别作为起始和终止指令图像帧,若是不相同的姿态,则从视频流图像帧中从视频流图像帧中识别到包括起始指令姿态的可以作为起始指令图像帧,从视频流图像帧中识别到包括终止指令姿态的可以作为终止指令图像帧。
通常可以通过图像识别确定人物的身体关键部位对应的关键点,并获得关键点的连线,再根据关键点和关键点的连线,确定人物的姿态。图2a-2e为本发明实施例一中所提供的目标人物人体姿态示意图,其中2a和2e是指令图像帧,其包括的人物姿态就是设定的指令姿态,2b、2c和2d是语义图像帧序列中抽取的关键帧,通过循环神经网络将各关键帧出现的人体姿态和彼此之间的先后顺序及关联关系与训练好的动态姿态识别模型进行匹配,其包括的目标人物人体姿态序列对应的语义与动态姿态识别模型中交警示意左转的姿态所表达的语义一致,表示其对应的语义是左转。由于目标人物的人体姿态是其全身姿态,且是连续姿态,这样无论是身体哪一部位的连续姿态发生变化,或者连续姿态中的关键姿态发生变化,都可以赋予其不同的语义,这就解决了局部检测和静态单帧图像只能表达有限语义的问题,其表达的语义就可以很丰富多样,达到了视觉控制语义多样化的效果,实现复杂场景下的信息准确传递。
在上述技术方案的基础上,对于识别到的语义确定其对应的控制指令,并执行控制指令;其中,目标人物为交通警察,控制指令为交通手势;或目标人物为游戏玩家,控制指令为游戏姿势。
举例说明,识别到交警姿态序列对应的语义为左转,则控制车辆左转;识别到游戏玩家挥动网球拍的姿态序列对应的语义为击打,则控制游戏界面上的球拍击打网球。此外还有其他利用视觉控制技术的应用场景,均可使用本实施例的方法得到目标人物的连续姿态序列对应的语义,进而执行相应的操作,对此本发明实施例不做具体限定。
实施例二
图3为本发明实施例二提供的动态人体姿态的语义理解装置的结构示意图,该装置包括人物识别模块11、待识别图像帧序列确定模块12和语义识别模块13,其中,人物识别模块11,用于从获取的视频流图像帧中识别目标人物;待识别图像帧序列确定模块12,用于根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;语义识别模块13,用于根据所述语义图像帧序列中的姿态识别对应的语义。
在上述技术方案的基础上,所述语义识别模块13,具体用于将所述语义图像帧序列中的连续姿态输入循环神经网络,根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义,所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。
在上述技术方案的基础上,所述待识别图像帧序列确定模块12,还用于将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧;或者,保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧,作为所述指令图像帧。
在上述技术方案的基础上,所述人物识别模块11,具体用于对所述视频流图像帧进行特征提取,将提取出来的所述特征与目标检测模型进行匹配,根据匹配结果确定所述目标人物。
在上述技术方案的基础上,所述目标检测模型包括以下任一种或几种信息:所述目标人物的外貌特征信息;所述目标人物的衣着信息;所述目标人物的位置信息;所述目标人物在所述图像帧中的面积占比信息。
在上述技术方案的基础上,所述待识别图像帧序列确定模块12,还用于对所述视频流中的图像帧进行目标人物人体姿态识别;将识别到的人物姿态与设定指令姿态进行匹配,并根据匹配结果确定所述指令图像帧。
在上述技术方案的基础上,所述待识别图像帧序列确定模块12,具体用于通过图像识别确定人物的身体关键部位对应的关键点,并获得关键点的连线;根据所述关键点和所述关键点的连线,确定人物的姿态。
在上述技术方案的基础上,所述指令图像帧包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧,所述相邻图像帧为起始指令图像帧和终止指令图像帧。
实施例三
在上述技术方案的基础上,图4为本发明实施例三提供的动态人体姿态的语义理解装置的结构示意图,该装置还包括:处理模块14,用于根据所述语义确定对应的控制指令,并执行所述控制指令;其中,所述目标人物为交通警察,所述控制指令为交通手势;或所述目标人物为游戏玩家,所述控制指令为控制游戏的姿态。
本发明实施例所提供的动态人体姿态的语义理解装置可执行本发明任意实施例所提供的动态人体姿态的语义理解方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种设备的结构示意图,如图5所示,该设备包括处理器20、存储器21、输入装置22和输出装置23;设备中处理器20的数量可以是一个或多个,图5中以一个处理器20为例;设备中的处理器20、存储器21、输入装置22和输出装置23可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器21作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的动态人体姿态的语义理解方法对应的程序指令/模块。处理器20通过运行存储在存储器21中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的动态人体姿态的语义理解方法。
存储器21可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器21可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器21可进一步包括相对于处理器20远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置22可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置23可包括显示屏等显示设备。
该设备可以是用于处理视频流的后台服务器,也可以是进行人体姿态实时识别并用于其他控制的便携式设备或固定设备等。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种动态人体姿态的语义理解方法,该方法包括:
从获取的视频流图像帧中识别目标人物;
根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
根据所述语义图像帧序列中的姿态识别对应的语义。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的动态人体姿态的语义理解方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明实施例可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
注意,上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明实施例不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明实施例构思的情况下,还可以包括更多其他等效实施例,而本发明实施例的范围由所附的权利要求范围决定。

Claims (14)

1.一种动态人体姿态的语义理解方法,其特征在于,包括:
从获取的视频流图像帧中识别目标人物;
根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
根据所述语义图像帧序列中的姿态识别对应的语义,其中,所述语义图像帧序列中的姿态是依据时间顺序组成的连续姿态,所述连续姿态表达一个完整语义指令。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语义图像帧序列中的姿态识别对应的语义,包括:
将所述语义图像帧序列中的连续姿态输入循环神经网络,根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义,所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列之前,还包括:
将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧;或者,
保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧,作为所述指令图像帧。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述从获取的视频流图像帧中识别目标人物,包括:
对所述视频流图像帧进行特征提取,将提取出来的所述特征与目标检测模型进行匹配,根据匹配结果确定所述目标人物。
5.根据权利要求4所述的方法,其特征在于,所述目标检测模型包括以下任一种或几种信息:
所述目标人物的外貌特征信息;
所述目标人物的衣着信息;
所述目标人物的位置信息;
所述目标人物在所述图像帧中的面积占比信息。
6.根据权利要求1-3中任一项所述的方法,其特征在于,在所述根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列之前,还包括:
对所述视频流中的图像帧进行目标人物人体姿态识别;
将识别到的人物姿态与设定指令姿态进行匹配,并根据匹配结果确定所述指令图像帧。
7.根据权利要求6所述的方法,其特征在于,所述对所述视频流中的图像帧进行目标人物人体姿态识别,包括:
通过图像识别确定人物的身体关键部位对应的关键点,并获得关键点的连线;
根据所述关键点和所述关键点的连线,确定人物的姿态。
8.根据权利要求1-3中任一项所述的方法,其特征在于,所述指令图像帧包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧,所述相邻指令图像帧为起始指令图像帧和终止指令图像帧。
9.根据权利要求1所述的方法,其特征在于,在所述根据所述语义图像帧序列中的姿态识别对应的语义之后,还包括:
根据所述语义确定对应的控制指令,并执行所述控制指令;
其中,所述目标人物为交通警察,所述控制指令为交通手势;或所述目标人物为游戏玩家,所述控制指令为游戏姿势。
10.一种动态人体姿态的语义理解装置,其特征在于,包括:
人物识别模块,用于从获取的视频流图像帧中识别目标人物;
待识别图像帧序列确定模块,用于根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
语义识别模块,用于根据所述语义图像帧序列中的姿态识别对应的语义,其中,所述语义图像帧序列中的姿态是依据时间顺序组成的连续姿态,所述连续姿态表达一个完整语义指令。
11.根据权利要求10所述的装置,其特征在于,所述语义识别模块,具体用于将所述语义图像帧序列中的连续姿态输入循环神经网络,根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义,所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。
12.根据权利要求10所述的装置,其特征在于,还包括:
处理模块,用于根据所述语义确定对应的控制指令,并执行所述控制指令;其中,所述目标人物为交通警察,所述控制指令为交通手势;或所述目标人物为游戏玩家,所述控制指令为控制游戏的姿态。
13.一种人体姿态识别设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的动态人体姿态的语义理解方法。
14.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种动态人体姿态的语义理解方法,其特征在于,该方法包括:
从获取的视频流图像帧中识别目标人物;
根据所述视频流中的指令图像帧,将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列,其中,所述指令图像帧为目标人物出现指令姿态的图像帧;
根据所述语义图像帧序列中的姿态识别对应的语义。
CN201810053189.9A 2018-01-19 2018-01-19 动态人体姿态的语义理解方法、装置、设备和存储介质 Active CN108197589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810053189.9A CN108197589B (zh) 2018-01-19 2018-01-19 动态人体姿态的语义理解方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810053189.9A CN108197589B (zh) 2018-01-19 2018-01-19 动态人体姿态的语义理解方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN108197589A CN108197589A (zh) 2018-06-22
CN108197589B true CN108197589B (zh) 2019-05-31

Family

ID=62590350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810053189.9A Active CN108197589B (zh) 2018-01-19 2018-01-19 动态人体姿态的语义理解方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN108197589B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900788B (zh) * 2018-07-12 2020-09-15 北京市商汤科技开发有限公司 视频生成方法、视频生成装置、电子装置及存储介质
CN109165552B (zh) * 2018-07-14 2021-02-26 深圳神目信息技术有限公司 一种基于人体关键点的姿态识别方法、系统及存储器
US20200135236A1 (en) * 2018-10-29 2020-04-30 Mediatek Inc. Human pose video editing on smartphones
CN109657534A (zh) * 2018-10-30 2019-04-19 百度在线网络技术(北京)有限公司 对图像中人体进行分析的方法、装置及电子设备
CN111476838A (zh) * 2019-01-23 2020-07-31 华为技术有限公司 图像分析方法以及系统
CN110135246B (zh) * 2019-04-03 2023-10-20 平安科技(深圳)有限公司 一种人体动作的识别方法及设备
CN110119700B (zh) * 2019-04-30 2020-05-15 广州虎牙信息科技有限公司 虚拟形象控制方法、虚拟形象控制装置和电子设备
CN110399794A (zh) * 2019-06-20 2019-11-01 平安科技(深圳)有限公司 基于人体的姿态识别方法、装置、设备及存储介质
CN111246177A (zh) * 2020-01-23 2020-06-05 深圳市大拿科技有限公司 一种用户安全告警提示方法及系统
CN111292504A (zh) * 2020-01-23 2020-06-16 深圳市大拿科技有限公司 一种通过图像识别进行安全告警方法及系统
CN111913574B (zh) * 2020-07-15 2024-04-30 抖音视界有限公司 用于控制设备的方法、装置、电子设备和计算机可读介质
CN112016513B (zh) * 2020-09-08 2024-01-30 北京达佳互联信息技术有限公司 视频语义分割方法、模型训练方法、相关装置及电子设备
CN112597933B (zh) * 2020-12-29 2023-10-20 咪咕互动娱乐有限公司 动作评分方法、装置及可读存储介质
CN113191288A (zh) * 2021-05-09 2021-07-30 刘明 用于手语交流的人工智能云平台系统及智能药盒
CN113657163A (zh) * 2021-07-15 2021-11-16 浙江大华技术股份有限公司 行为识别方法、电子装置和存储介质
CN115309962B (zh) * 2022-08-05 2024-04-26 重庆大学 人体姿态动作数据处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102136066A (zh) * 2011-04-29 2011-07-27 电子科技大学 一种视频序列中人体动作的识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101579571B (zh) * 2009-04-30 2012-09-26 武汉市高德电气有限公司 实景游戏装置及实现实景游戏的方法
CN101789125B (zh) * 2010-01-26 2013-10-30 北京航空航天大学 一种无标记单目视频人体骨架运动跟踪方法
CN107203753B (zh) * 2017-05-25 2020-09-08 西安工业大学 一种基于模糊神经网络和图模型推理的动作识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102136066A (zh) * 2011-04-29 2011-07-27 电子科技大学 一种视频序列中人体动作的识别方法

Also Published As

Publication number Publication date
CN108197589A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197589B (zh) 动态人体姿态的语义理解方法、装置、设备和存储介质
CN111857356B (zh) 识别交互手势的方法、装置、设备和存储介质
Kumar et al. Sign language recognition
Trejo et al. Recognition of yoga poses through an interactive system with kinect device
CN107423398B (zh) 交互方法、装置、存储介质和计算机设备
Guyon et al. Chalearn gesture challenge: Design and first results
CN107741781A (zh) 无人机的飞行控制方法、装置、无人机及存储介质
CA2973126A1 (en) Systems and methods of monitoring activities at a gaming venue
CN106648078B (zh) 应用于智能机器人的多模态交互方法及系统
CN109731302A (zh) 运动姿态识别方法、装置及电子设备
CN112632349B (zh) 展区指示方法、装置、电子设备及存储介质
CN112527113A (zh) 手势识别及手势识别网络的训练方法和装置、介质和设备
CN110633004A (zh) 基于人体姿态估计的交互方法、装置和系统
Balasuriya et al. Learning platform for visually impaired children through artificial intelligence and computer vision
Galicia et al. Mexican sign language recognition using movement sensor
CN109977811A (zh) 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法
CN108318042A (zh) 导航模式切换方法、装置、终端及存储介质
Neverova Deep learning for human motion analysis
CN104714650B (zh) 一种信息输入方法和装置
CN114093024A (zh) 人体动作的识别方法、装置、设备及存储介质
US20230148135A1 (en) Tracking user and object dynamics using a computerized device
CN105929946B (zh) 一种基于虚拟界面的自然交互方法
Guo et al. Gesture recognition for Chinese traffic police
Shahjalal et al. An approach to automate the scorecard in cricket with computer vision and machine learning
Vieriu et al. Background invariant static hand gesture recognition based on Hidden Markov Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun District Economic Development Zone, Beijing 101500

Applicant after: Beijing Rubo Technology Co., Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun District Economic Development Zone, Beijing 101500

Applicant before: BEIJING INTELLIGENT HOUSEKEEPER TECHNOLOGY CO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210819

Address after: 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100038

Patentee after: Beijing Rubu Technology Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun District Economic Development Zone, Beijing 101500

Patentee before: BEIJING ROOBO TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right