CN104011628A - 用于识别姿势的方法和姿势检测器 - Google Patents

用于识别姿势的方法和姿势检测器 Download PDF

Info

Publication number
CN104011628A
CN104011628A CN201280060051.2A CN201280060051A CN104011628A CN 104011628 A CN104011628 A CN 104011628A CN 201280060051 A CN201280060051 A CN 201280060051A CN 104011628 A CN104011628 A CN 104011628A
Authority
CN
China
Prior art keywords
skin
posture
body part
detection device
posture detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280060051.2A
Other languages
English (en)
Other versions
CN104011628B (zh
Inventor
米哈伊·法戈塔-科斯马
穆莱·法蒂里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Optical Networks Israel Ltd
Original Assignee
Alcatel Optical Networks Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Optical Networks Israel Ltd filed Critical Alcatel Optical Networks Israel Ltd
Publication of CN104011628A publication Critical patent/CN104011628A/zh
Application granted granted Critical
Publication of CN104011628B publication Critical patent/CN104011628B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及用于识别在会议情况等类似情形中使用的二维视频流(3)中的姿势的方法,包括步骤:执行所述视频流(3)的屏幕中的皮肤识别以识别皮肤部分(13);确定所识别的皮肤部分(13)中的至少一个身体部位(19,20);监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态;以及基于状态的变化的检测提供指示检测到的姿势的控制信号。本发明还涉及适合于执行上述方法的姿势检测器(5)、包括上述姿势检测器(5)和包括视频摄像机(2)与上述姿势检测器(5)的视频摄像设备(24)的呈现系统(1)。

Description

用于识别姿势的方法和姿势检测器
技术领域
本发明涉及一种用于识别在会议情况等类似情形中使用的二维视频流中的姿势的方法。本发明还涉及包括用于接收视频流的输入,以及适合于提供指示所检测的姿势的控制信号的信号输出,其中,所述姿势检测器适合于执行上述方法。本发明也涉及包括用于生成视频流的视频摄像机、用于运行包括适合接收用于控制呈现的控制信号的信号输入的呈现的呈现设备,以及上述姿势检测器,其中,姿势检测器的输入被连接至由视频摄像机生成的视频流,且姿势检测器的信号输出被连接至呈现设备的信号输入,且呈现设备适合于基于接收来自姿势检测器的控制信号,控制呈现。最后,本发明涉及包括视频摄像机和上述姿势检测器的视频摄像设备。
背景技术
在当今世界,姿势检测变得越来越重要,因为姿势检测能够使用户基于简单的和甚至天生的人类姿势而无需使用特定输入设备如键盘、轨迹球、游戏控制器或其他设备来操作IT系统,例如台式计算机、笔记本电脑、PDA、智能电话、游戏机,或其他系统。该等输入设备要求用户使其行为适应特定输入设备的需要,这甚至可能因不同输入设备而不同。尽管识别姿势的方法和姿势检测器在本领域中是已知的,姿势识别仅很少应用在特殊情况。特定硬件需求和对执行姿势检测的高的计算工作量妨碍了姿势控制的广泛应用。
用于检测姿势的一个该系统是基于为姿势检测特定设计的立体摄像机和麦克风硬件配件的。该技术是对终端用户已知的举例,如与微软X-Box360游戏机一起使用的Kinect。通常,用户可通过姿势方式控制使用上述硬件的IT系统,如为控制增强的现实环境。该解决方案的缺陷是其依赖于专用硬件,这使得很难将姿势识别应用于任何IT系统。而且,Kinect技术需要明确定义的环境,在该环境中用户可确保姿势会被Kinect系统识别。此外,对每一用户,Kinect系统的校准是需要的。Kinect系统的另一缺陷是为识别姿势的计算量是很高的,这使得不可能在具有低计算性能的IT系统上使用姿势识别,这样的系统通常应用于移动设备。例如,在视频会议情况下,例如在公共场所中办公室之外使用公共接入方式参与该视频会议的参与者,由于缺少合适的硬件和对于姿势检测的不合适的公共环境,被排除在姿势检测之外。这同样适用于在呈现系统中使用姿势检测以控制呈现设备。
发明内容
因此本发明的一个目的是提供一种用于识别姿势的方法和姿势检测器,该姿势检测器可与允许具有低计算量的强大且可靠的姿势检测的标准硬件组件一起使用。此外,本发明的一个目的是提供一种用于姿势检测的视频摄像系统,该系统简单易用,允许具有低计算量的强大且可靠的姿势检测且是有成本效益的。最后,本发明的一个目的是提供一种呈现系统,该系统可由人类姿势容易地控制,独立于硬件需求并允许具有低计算量的强大且可靠的姿势检测。
该目的通过独立权利要求实现。有利实施例在从属权利要求中被给出。
具体地,本发明提供一种用于识别在会议情况等类似情形中使用的二维视频流中姿势的方法,包括步骤:执行视频流屏幕中的皮肤识别以识别皮肤部分,确定所识别的皮肤部分中的至少一个身体部位,监测关于所述至少一个身体部位的至少一个预定屏幕区域的状态,以及基于状态变化的检测提供指示所检测的姿势的控制信号。
本发明还提供包括用于接收视频流的输入,以及适合提供指示所检测的姿势的控制信号的信号输出的姿势检测器,其中,所述姿势检测器适合执行上述方法。
基本思想是基于状态机执行姿势检测,因此相比于预定屏幕区域,至少一个身体部分的状态可被监测。状态机可以容易地被且实现且仅需用于识别姿势的低的计算量。姿势识别是基于状态机,例如,姿势的识别由当前状态以及视频帧的当前场景中的皮肤部分和身体部位的识别确定。
场景在此是指视频流的瞬间视频信息。优选地,场景是基于视频流的帧。场景历史或之前场景的特定数据是不需要的并因此不被本发明的姿势检测考虑。
身体部位的检测基于事先的皮肤检测。皮肤识别通常是基于视频流的场景中具有某颜色的某区域的检测。基本上,视频流的帧中的每一像素的颜色与在特定颜色空间诸如RGB、YUV或HSV中定义的规则集进行比较。在数学上,每一规则定义将颜色空间分为不相交区域的平面。由所有平面的交叉在颜色空间中确定的体积对应于皮肤。
优选地,在HSV和RGB颜色空间上定义的规则的混合被应用于皮肤识别。通过将颜色像素表示为分别用RGB颜色空间中[R,G,B]和HSV颜色空间中[H,S,V]表示的矢量,如下的符合规则被用于将像素标记为皮肤:
(R-G>29)且(R-B>29)且(H<27)且(S>=0.188)
皮肤识别工作如下。上述规则被应用于帧中的每一像素,对于皮肤返回真否则返回错误。接着,与输入帧相同大小的二进制皮肤掩膜(mask)被用于皮肤像素的数值1和用于非皮肤像素的数值0填充。相应地,二进制皮肤掩膜也称作皮肤图像,包含所识别的皮肤部分。
皮肤识别在假设某些前提的会议情况等类似情形中可被容易地实现。在该等会议情况等类似情形中,假设仅人的上半身是可见的且一个人的身体的皮肤部分基本上位于相同位置。而且,会议情况等类似情形通常由坐在摄像机前面且使其自己朝向摄像机的人定义,例如新闻发言人的方式。这尤其是指举行演讲的人,由此视频摄像机聚焦于该人。
会议情况等类似情形中的身体部位的识别也是相当简单的,因为人的上半身的可见性暗示人的脸和/或手是可见的。尤其当特定着装要求被保持时,可假设人的身体和双臂被覆盖,剩下脸和手待被确定。关于会议情况等类似情形的假设给定的越多,所识别皮肤部分中的身体部位的识别越容易。
控制信号可指示适合通过上述方法和姿势检测器识别的任何类型姿势,例如,简单姿势如举手,或者组合姿势例如举起右手和左手。例如,举手姿势由将手举起确定,例如将放置在预定的屏幕区域中,在该情形中预定的屏幕区域是位于屏幕区域的上半部分。另一姿势可由双举手来定义,例如,举起手,将手降低在预定屏幕区域外,并再次举起手。关于不同身体部位的不同屏幕区域的状态的改变也可被合并为单个姿势,例如,举起右手和左手。
姿势检测器基本上可位于独立于视频流源的任何位置。视频流的输入可以是视频输入,例如模拟或数字视频输入,或用于通过IP网络例如LAN连接器传输视频流的任何类型的数据输入。姿势检测器通过内部处理单元,或使用位于姿势检测器外部的处理装置执行上述方法。相应地,姿势检测甚至可通过具有一个或多个位于姿势检测器外部的处理单元的云计算来执行。
本发明还提供包括视频摄像机和上述姿势检测器的视频摄像设备。
视频摄像机根据上述方法和姿势检测器提供视频流。视频摄像设备可被提供为单个设备或包括与视频摄像机相对应的一个独立装置和与姿势检测器相对应的一个独立装置。视频摄像机和姿势检测器通过网络连接例如有线或无线LAN连接器,或任何类型的合适视频连接,相连接。优选地,视频摄像设备的姿势检测器可使用云服务,如关于姿势检测器的以上描述。云服务的使用能够提供非常简单且便宜的姿势检测器。
本发明还提供包括用于生成视频流的视频摄像机,用于运行呈现的呈现设备的呈现系统,其中,呈现设备包括适合于接收用于控制呈现的控制信号的信号输入、上述姿势检测器,其中,姿势检测器的输入被连接至由视频摄像机生成的视频流,且姿势检测器的信号输出被连接至呈现设备的信号输入,其中,呈现设备适合于基于对来自姿势检测器的控制信号的接收来控制呈现。
对于呈现系统,呈现设备可位于任何位置。信号输入为例如网络输入,其与姿势检测器的网络输出相连接。因此,呈现系统的所有组件可彼此远离地分布。呈现设备可以是例如本地计算机,其从姿势检测器接收控制信号,或是使用计算机网络定位的中心服务器。呈现设备甚至可以是由云服务提供的任何虚拟设备。优选地,视频摄像设备通过网络连接被连接至姿势检测器。优选地,呈现系统是视频会议系统的一部分。因此,视频摄像机是呈现系统也是视频会议系统的一部分。姿势检测器可位于沿从视频摄像机到视频会议的其他参与者的显示设备的视频流传输路由的任何位置。呈现设备可用视频会议系统的任何类型的服务器整体地提供,或可位于任何其他位置,如以上详细说明的。
根据一个优选实施例,本方法适合于对视频流的每一视频帧执行所有方法步骤。视频流的简单处理允许对每一帧执行皮肤识别,以确定身体部位并监测关于身体部位的预定于屏幕区域。相应地,姿势检测的精确度可被提高。
一个优选实施例包括预定义关于一身体部位的位置的预定屏幕区域的步骤。这允许容易地将该方法适应于具有关于屏幕的不同测量和/或不同位置的不同用户,因此,对于在所有位置的所有这些用户,姿势的检测同样是可靠的。相应地,所检测的皮肤部分的相对位置可被用于确定不同身体部位,例如,在假设手位于屏幕的较低右侧和左侧区域下。
优选地,预定的屏幕区域被连续地适应,因此当用户在屏幕中移动时,姿势可被可靠地检测。即使用户的改变是可能的,例如从高用户到低用户,其中,对于这两种用户,姿势检测可被可靠地执行。作为一个举例,预定的屏幕区域可被定义为与手的位置相关。相应地,手的相对运动可被检测为姿势。在不同的实施例中,预定屏幕区域是屏幕的固定区域,其能够对视频流非常有效的处理。
在修改的实施例中,对预定的屏幕区域进行预定的步骤包括预定义关于脸的位置的屏幕区域,以及监测关于至少一个身体部位的至少一个预定屏幕区域的状态的步骤包括监测手。脸通常以屏幕中的最大皮肤部分为特征,这使得检测相当简单。而且,脸在屏幕中并不频繁地移动。相反,手被频繁地使用和移动,例如,通过做公众知晓的姿势、指示形式或指向方向,来支持演讲。由于相对固定的位置,脸是定义姿势的合适基础。同样,手相对头的移动范围受限于手臂,并因此是容易可检测的。优选地,各身体部位相对于头的角位置被监测以确定状态。
在优选实施例中,确定所识别的皮肤部分中的至少一个身体部位的步骤包括确定具有最大尺寸属于人脸的皮肤部分。此外或可选地,同样当前可用的脸检测器,例如HAAR特征分类器,可被用于人脸识别。
在优选实施例中,确定所识别的皮肤部分中的至少一个身体部位的步骤包括确定具有第二最大尺寸属于人手的皮肤部分。尤其在会议情况等类似情形中,身体部位的该等确定是很可靠的,因屏幕中的可用身体部位的数量是有限的。背景人物,若出现,通常在屏幕上将具有合理的较小的尺寸,因此对于姿势检测,他们可被可靠地丢弃。优选地,手可被确定为右手或左手基于他们相对人脸的位置。因此,位于人脸右侧的手被确定为右手,反之,位于人脸左侧的手被确定为左手。即使均位于人脸的相同侧的两个手可被可靠地识别,因他们的距离人脸的不同距离。因此,右手和左手的识别可具有高可靠性地被执行。
在修改的实施例中,确定所识别的皮肤部分中的至少一个身体部位的步骤包括使用黄金比例度量。黄金比例定义了人身体部位尤其是人脸的宽度和高度之间的特定关系,其通常可应用于几乎任何人脸。相应地,具有根据黄金比例的尺寸的皮肤部位可容易地被确定为身体部位。
在优选实施例中,监测关于至少一个身体部位的至少一个预定屏幕区域状态的步骤包括检测至少一个身体部位的中心位置。中心位置可由在本领域中通常被称为那些指向发现物体的“质量中心”的任何不同算法来估计。身体部位的中心的识别有便利于预定区域和所确定的身体部位的监测。基于中心位置,监测身体部位是否进入预定屏幕区域也是相当简单的。优选地,皮肤部分周围的额外边界框被使用,其提供了屏幕中的皮肤部分的估计。因不需要用于进一步处理的详细屏幕信息,这进一步有便利了姿势检测。
在优选实施例中,基于状态的变化的检测提供指示所检测的姿势的控制信号的步骤包括确定预定时间的状态的变化。相应地,平均化被执行,其允许状态的更可靠的检测,并因此姿势的更可靠的检测。视频错误和噪声,其可阻止成功的皮肤识别和/或身体部位的确定,但不是永久的,因此将不会降低姿势检测的可靠性。根据特定需求,例如根据待被识别的姿势的类别、帧速率,或一个人的个体行为,预定时间段可被指定。
在优选实施例中,监测关于至少一个身体部位的至少一个预定屏幕区域状态的步骤包括监测至少一个预定屏幕区域中的至少一个身体部位的运动状态。对于运动状态,由运动定义的姿势,也被称为扫动(sweeping)姿势或滑动(swiping)姿势,可被容易地检测。运动状态可被定义为各身体部位的运动的指示。优选地,运动状态包括监测位置,其允许获得运动的方向。相应地,滑动姿势的方向也可被检测。甚至更优选地,运动状态可通过角速度来监测。
在优选实施例中,姿势检测器包括用于监测关于至少一个身体部位的至少一个预定屏幕区域的每一状态的一个实体。每一实体独立地监测状态,这使得大多数可能的姿势能够被识别。优选地,对每一实体,预定屏幕区域和身体部位均被独立地检测,即预定屏幕区域中的身体部位的检测可被用于检测不同姿势,例如,当除左臂之外右臂抬高,或者右臂独立地被抬高而左臂没有抬高。
附图说明
通过仅示例方式,并参考附图,根据本发明的装置和/或方法的一些实施例现在被描述,其中:
图1为根据示例性实施例的呈现系统的示意图;
图2为根据示例性实施例的指示用于检测举手姿势的方法的视频帧的示意图;以及
图3是根据示例性实施例的指示用于将手运动检测为刷出姿势的方法的视频帧的示意图。
具体实施方式
图1示出根据示例性实施例的呈现系统1的示意图。呈现系统包括视频摄像机2,其生成包括多个单个视频帧4的视频流3,其中,视频帧4是指根据本发明的屏幕。不同的视频帧4如图2和3所示。
呈现系统1还包括姿势检测器5,其中,姿势检测器5的输入6经由LAN连接7被连接至由视频摄像机2生成的视频流3。姿势检测器5还包括信号输出8,其通过另一LAN连接9被连接至呈现系统1的呈现设备11的信号输入10。呈现设备11适合于运行呈现并基于从姿势检测器5接收到控制信号来控制呈现。
姿势检测器5包括皮肤分割单元12,其适合于执行视频流3中的皮肤识别以识别皮肤部分13,这在图2和3中被示出。皮肤分割单元12中的皮肤识别是基于具有与皮肤相关联的特定颜色的帧4的特定区域的检测。皮肤分割单元12提供作为输出的皮肤图像14,其包含视频帧4中的皮肤部分13的确定。
在该实施例中,皮肤识别是基于具有视频帧4中的特定颜色的帧4的特定区域的检测。实质上,视频流的视频帧4中的每一像素的颜色与在特定颜色空间诸如RGB、YUV或HSV中定义的规则集进行比较。在数学上,每一规则定义将颜色空间分为不相交区域的平面。由所有平面的交叉在颜色空间中确定的体积对应于皮肤。
在该实施例中,在HSV和RGB颜色空间上定义的规则的混合被应用于皮肤识别。通过将颜色像素表示为分别用RGB颜色空间中[R,G,B]和HSV颜色空间中[H,S,V]表示的矢量,如下的符合规则被用于将像素标记为皮肤:
(R-G>29)且(R-B>29)且(H<27)且(S>=0.188)
皮肤识别工作如下。上述规则被应用于视频帧4中的每一像素,对于皮肤返回真否则返回错误。接着,与视频帧4相同大小的皮肤图像14作为二进制文件被用于皮肤像素的数值1和用于非皮肤像素的数值0填充。相应地,皮肤图像14包含所识别的皮肤部分13。
对于每一所识别的皮肤部分13,也被称为场景对象SO(sceneobject),其质量中心15也被称为CM,以距离已被标记为皮肤的所有对象像素点的中心位置做计算。质量中心15为图像坐标对<X,Y>并被用于计算帧4中不同皮肤部分13之间的相对位置和角度。此外,每一皮肤部分13接收关联的边界框15(也被称为BB),其由其极限的左侧、右侧、上部和底部皮肤像素坐标确定并被表示为<左,上,右,下>四重。
姿势检测器5还包括作为输入接收皮肤图像14的场景对象确定单元17。场景对象确定单元17适合于确定皮肤图像14中的皮肤部分13之外的身体部位19、20。场景对象确定单元17首先通过确定具有最大尺寸如人脸19的皮肤部分13来执行身体部位19、20(也被称为场景对象SO)的基础确定。具有第二最大尺寸的所识别的皮肤部分14被确定为手20。具体地,位于人脸19左侧的手20被确定为左手,反之位于人脸19右侧的手20被确定为右手。
相应地,场景对象确定单元17通过将黄金比例度量应用于所识别的皮肤部分13来执行第二确定步骤。相应地,若皮肤部分13的宽和高被确定为身体部位满足黄金比例,可靠性检查被执行。场景对象确定单元17提供作为输出的具有所确定的身体部位19、20的身体图像21,其中,每一身体部位19、20根据皮肤图像14中的皮肤部分13的表征而被表示。
姿势检测器5还包括一组三个姿势检测器实体(gesture detectorinstance)22(也被称为GDI),其适合于监测关于一个身体部位19、20的一个预定屏幕区域23的状态。预定屏幕区域23通过如图2和3所示的角位置在关于头19的每种情形中被定义。每一姿势检测器实体22检测关于手20的一个预定屏幕区域23的状态。
基于在其输入接收到身体图像21,每一姿势检测器实体22计算也被称为HSO的头19的位置与对应的也被称为LHSO的左手20的位置或也被称为RHSO的右手20的位置之间的相对角度和位置。每一姿势检测器实体22对该数据应用时空规则集,其意思是相对位置被衡量且该位置的变化随时间被监测以更新其当前内部状态。当姿势检测器实体22的当前内部状态表明成功检测时,姿势事件被该姿势检测器实体22触发且指示特定姿势的各个控制信号在姿势检测器5的信号输出8处被提供。
现在详细描述举手姿势的检测。用于检测举手姿势的姿势检测器实体22,也被称为HRGD,是围绕2-状态机被建立的。在空闲状态,HRGD基于如下详细说明的条件(1)搜索当前身体图像21,其触发关于举手姿势的控制信号:
(1)(CMSO·Y>BBHSO·BOTTOM)且(α<αmin)
其中,SO=LHSO或RHSO
&alpha; = arctg | CM SO &CenterDot; Y - CM HSO &CenterDot; Y | | CM SO &CenterDot; X - CM HSO &CenterDot; X |
αmin=应用特定阈值(例如30度)
X=X-坐标
Y=Y-坐标
BOTTOM=底部皮肤像素坐标
当条件(1)有效时,意味着手20已经进入预定屏幕区域23,HRGD进入激活状态。只要条件(1)仍然有效,激活状态被保持。当因手20离开预定屏幕区域23条件(1)变为无效时,HRGD触发放下手姿势并回到空闲状态。
另一姿势检测器实体20适合于基于状态的后续变化的识别提供关于所识别的姿势的控制信号。通过各自姿势检测器实体22监测的姿势包括举起和放下手20。基于首先检测举手姿势及后续放下手姿势,如以上描述,该姿势被检测。相应地,状态从手20不在预定区域23中到手20在预定区域23中到手20不在预定区域23中的变化触发相应姿势。
现在详细描述滑动姿势的检测即姿势基于运动的检测。用于检测也被称为SWGD的滑动姿势的姿势检测器实体22具有内部的3-状态机。SWGD能够检测或者因手20从帧4的外部边缘向其中心移动引起的滑入,或因手20从帧4的中心向其外部边缘移动引起的滑出。结果,姿势检测器5可包含每个会议参与者多达4个SWGD,为一个手20与移动的一个方向一起的每个可能组合提供一个。
后续描述的是由SWGD检测的滑出情况。检测器启动并保持空闲状态直到启动条件(2)被满足:
(2)(CMSO·Y<BBHSO·BOTTOM)且(β<βmin)
其中,SO=LHSO或RHSO
&beta; = arctg | CM SO &CenterDot; X - CM HSO &CenterDot; X | | CM SO &CenterDot; Y - CM HSO &CenterDot; Y |
βmin=应用特定阈值(例如5度)
X=X-坐标
Y=Y-坐标
BOTTOM=底部皮肤像素坐标
当该条件被满足时,SWGD更改为跟踪状态。只要手20朝向预期的方向移动而未到达最大手与头角度阈值βmin且跟踪未丢失的时间间隔大于应用特定时间Tmax,该状态被保持。若跟踪丢失,如将发生的例如,若手SO从场景内消失,SWGD返回空闲状态且无控制信号被生成。若跟踪暂时丢失,例如由于视频错误,若丢失小于预定持续时间例如大约10帧,SWGD继续跟踪。
若跟踪发生而未失败,此时激活条件(3)被满足:
(3)(CMSO·Y<BBHSO·BOTTOM)且(β=>βmax)
其中,SO=LHSO或RHSO
&beta; = arctg | CM SO &CenterDot; X - CM HSO &CenterDot; X | | CM SO &CenterDot; Y - CM HSO &CenterDot; Y |
βmax=应用特定阈值(例如45度)
X=X-坐标
Y=Y-坐标
BOTTOM=底部皮肤像素坐标
SWGD进入激活状态,其中,用于滑动姿势的控制信号被生成。控制信号包含指示手20和移动方向的参数。
控制信号生成之后,SWGD立即又回到空闲状态并跟踪新的检测周期。
除了启动程序和激活条件(2)和(3)互换之外,滑入情形是很相似的,因为手20的预期移动在相反方向发生。
以上方法在姿势检测器5中被实现以对视频流3的每一视频帧4执行所有步骤。如此,对每一视频帧4执行皮肤识别和身体部位19、20的确定,且状态变化被监测。基于状态变化的检测,关于所检测的姿势的控制信号被激起。姿势检测器5中被实现以在每帧后检测状态变化。
在该示例性实施例中,姿势检测器5被提供为远离视频摄像机2。特别地,姿势检测器5位于用于处理视频流3和提供控制信号的所谓的云。
在该示例性实施例中,呈现系统1构成在附图中未进一步示出的视频会议系统的一部分。相应地,由视频摄像机2提供的视频流3进一步被提供给在附图中也未示出的视频会议系统的服务器。视频流3由视频会议服务器提供给更多的参与者。视频会议服务器还适应于将视频流3反向提供给所有用户。
根据示例性实施例,视频摄像设备24被提供作为如以上描述的视频摄像机2和姿势检测器5的组合。视频摄像设备24构成可被用于将控制信号提供给任何类型设备的独立组件。类似地,姿势检测器5也可被独立地用于与任何可用的视频摄像机2和将被控制信号控制的任何类型设备相组合。
本发明可在其他特殊装置和/或方法中被体现。所描述的实施例在所有方面被认为是仅示例性的而非限制性的。尤其是,本发明的范围由附加权利要求指示而不是由在此的说明书和附图指示。含义中的所有变化以及权利要求的等同范围均被包含在各自的范围之内。

Claims (15)

1.用于识别在会议情况等类似情形中使用的二维视频流(3)中的姿势的方法,包括步骤
执行所述视频流(3)的屏幕中的皮肤识别以识别皮肤部分(13);
确定所识别的皮肤部分(13)中的至少一个身体部位(19,20);
监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态;以及
基于状态的变化的检测提供指示检测到的姿势的控制信号。
2.根据权利要求1所述的方法,特征在于
所述方法适用于对所述视频流(3)的每一视频帧(4)执行所有方法步骤。
3.根据权利要求1所述的方法,包括对关于一个身体部位(19,20)的位置的所述预定屏幕区域(23)进行预定的步骤。
4.根据权利要求3所述的方法,特征在于
对所述预定屏幕区域(23)进行预定的步骤包括预定义关于脸(19)的位置的屏幕区域(23);以及
监测关于所述至少一个身体部位(20)的至少一个所述预定屏幕区域(23)的状态的步骤包括监测手(20)。
5.根据权利要求1所述的方法,特征在于
确定所识别的皮肤部分(13)中的至少一个身体部位(19,20)的步骤包括确定具有最大尺寸如人脸的所述皮肤部分(13)。
6.根据权利要求1所述的方法,特征在于
确定所识别的皮肤部分(13)中的至少一个身体部位(19,20)的步骤包括确定具有第二最大尺寸如人手(20)的所述皮肤部分(13)。
7.根据前述权利要求1所述的方法,特征在于
确定所识别的皮肤部分(13)中的至少一个身体部位(19,20)的步骤包括应用黄金比例度量。
8.根据任何前述权利要求1所述的方法,特征在于
监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态的步骤包括检测所述至少一个身体部位(19,20)的中心位置。
9.根据任何前述权利要求1所述的方法,特征在于
基于状态的变化的检测提供指示检测到的姿势的控制信号的步骤包括确定预定持续时间的状态的变化。
10.根据前述权利要求1所述的方法,特征在于
检测状态变化的步骤包括确定状态的后续变化。
11.根据前述权利要求1所述的方法,特征在于
监测关于所述至少一个身体部位(19,20)的至少一个预定屏幕区域(23)的状态的步骤包括监测所述至少一个预定屏幕区域(23)中的所述至少一个身体部位(19,20)的运动状态。
12.一种姿势检测器(5),包括
用于接收视频流(3)的输入(6);以及
适合于提供指示检测到的姿势的控制信号的信号输出(8);其中,
所述姿势检测器(5)适合于执行根据权利要求1的所述方法。
13.一种呈现系统(1),包括
用于生成视频流(3)的视频摄像机(2);
用于运行呈现的呈现设备(11),其中,所述呈现设备(11)包括适合于接收用于控制所述呈现的控制信号的信号输入(10);
根据前述权利要12的姿势检测器(5),其中,所述姿势检测器(5)的输入(6)被连接至由视频摄像机(2)生成的所述视频流(3),且所述姿势检测器(5)的信号输出(8)被连接至所述呈现设备(11)的信号输入(10);
其中,所述呈现设备(11)适合于基于对来自所述姿势检测器(5)的控制信号的接收来控制所述呈现。
14.根据权利要求13所述的呈现系统(1),其中,所述视频摄像机(2)经由网络连接(7)被连接至所述姿势检测器(5)。
15.一种包括视频摄像机(2)和根据权利要求12的姿势检测器(5)的视频摄像设备(24)。
CN201280060051.2A 2011-12-05 2012-11-26 用于识别姿势的方法和姿势检测器 Expired - Fee Related CN104011628B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11290561.7A EP2602692A1 (en) 2011-12-05 2011-12-05 Method for recognizing gestures and gesture detector
EP11290561.7 2011-12-05
PCT/EP2012/073604 WO2013083423A1 (en) 2011-12-05 2012-11-26 Method for recognizing gestures and gesture detector

Publications (2)

Publication Number Publication Date
CN104011628A true CN104011628A (zh) 2014-08-27
CN104011628B CN104011628B (zh) 2017-03-01

Family

ID=47263325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280060051.2A Expired - Fee Related CN104011628B (zh) 2011-12-05 2012-11-26 用于识别姿势的方法和姿势检测器

Country Status (6)

Country Link
US (1) US9348422B2 (zh)
EP (1) EP2602692A1 (zh)
JP (1) JP5916880B2 (zh)
KR (1) KR101693951B1 (zh)
CN (1) CN104011628B (zh)
WO (1) WO2013083423A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109700449A (zh) * 2018-08-09 2019-05-03 阳光学院 一种可抗头部自然运动的有效心率量测系统

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2602692A1 (en) * 2011-12-05 2013-06-12 Alcatel Lucent Method for recognizing gestures and gesture detector
WO2014102569A1 (en) * 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion description
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
CN104574433A (zh) * 2013-10-14 2015-04-29 株式会社理光 对象跟踪方法和设备、跟踪特征选择方法
US9479730B1 (en) * 2014-02-13 2016-10-25 Steelcase, Inc. Inferred activity based conference enhancement method and system
GB201404134D0 (en) * 2014-03-10 2014-04-23 Bae Systems Plc Interactive information display
US9531998B1 (en) * 2015-07-02 2016-12-27 Krush Technologies, Llc Facial gesture recognition and video analysis tool
US9734391B2 (en) * 2014-07-11 2017-08-15 Ryan Fink Systems and methods of gesture recognition
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
WO2018084576A1 (en) 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
US10942575B2 (en) * 2017-06-07 2021-03-09 Cisco Technology, Inc. 2D pointing indicator analysis
JP7246850B2 (ja) 2017-10-30 2023-03-28 株式会社吉野工業所 ヒンジキャップ
KR102034277B1 (ko) * 2017-12-06 2019-10-18 서울과학기술대학교 산학협력단 행사 실시간 스트리밍 방송 시스템
KR20190139605A (ko) * 2018-06-08 2019-12-18 전자부품연구원 제스처 인식 장치 및 방법
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR102107182B1 (ko) 2018-10-23 2020-05-06 전남대학교 산학협력단 손 제스처 인식 시스템 및 방법
WO2023122511A1 (en) * 2021-12-21 2023-06-29 Canon U.S.A., Inc. Apparatus and method for controlling an online meeting

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185555A (ja) * 2002-12-06 2004-07-02 Fuji Photo Film Co Ltd 顔領域抽出方法及び装置
US20080019589A1 (en) * 2006-07-19 2008-01-24 Ho Sub Yoon Method and apparatus for recognizing gesture in image processing system
WO2009131539A1 (en) * 2008-04-22 2009-10-29 Agency For Science, Technology And Research A method and system for detecting and tracking hands in an image
WO2009156565A1 (en) * 2008-06-27 2009-12-30 Nokia Corporation Method, apparatus and computer program product for providing gesture analysis
CN101810003A (zh) * 2007-07-27 2010-08-18 格斯图尔泰克股份有限公司 增强的基于相机的输入
CN101874404A (zh) * 2007-09-24 2010-10-27 格斯图尔泰克股份有限公司 用于语音和视频通信的增强接口
US20100329509A1 (en) * 2009-06-30 2010-12-30 National Taiwan University Of Science And Technology Method and system for gesture recognition

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2183878B (en) * 1985-10-11 1989-09-20 Matsushita Electric Works Ltd Abnormality supervising system
JPH0832095B2 (ja) * 1987-04-15 1996-03-27 中部電力株式会社 プラント監視装置
TWI281126B (en) * 2002-03-19 2007-05-11 Intervideo Digital Technology Image detection method based on region
DE602004006190T8 (de) * 2003-03-31 2008-04-10 Honda Motor Co., Ltd. Vorrichtung, Verfahren und Programm zur Gestenerkennung
DE60314851D1 (de) * 2003-05-19 2007-08-23 St Microelectronics Sa Bildverarbeitungsverfahren für numerische Bilder mit Belichtungskorrektur durch Erkennung von Hautbereichen des Gegenstandes
US7844076B2 (en) * 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US8086971B2 (en) * 2006-06-28 2011-12-27 Nokia Corporation Apparatus, methods and computer program products providing finger-based and hand-based gesture commands for portable electronic device applications
US7924271B2 (en) * 2007-01-05 2011-04-12 Apple Inc. Detecting gestures on multi-event sensitive devices
US8144129B2 (en) * 2007-01-05 2012-03-27 Apple Inc. Flexible touch sensing circuits
US20090037945A1 (en) * 2007-07-31 2009-02-05 Hewlett-Packard Development Company, L.P. Multimedia presentation apparatus, method of selecting multimedia content, and computer program product
US8019702B1 (en) * 2007-12-07 2011-09-13 Google Inc. Supervised learning with multi-scale time intervals using a statistical classification model to classify unlabeled events
JP2011039812A (ja) * 2009-08-12 2011-02-24 Sony Corp 画像処理装置及び電子機器
JP2011130419A (ja) * 2009-11-18 2011-06-30 Sony Corp 情報処理装置、情報処理方法、プログラム、及び電子機器
JP5573209B2 (ja) * 2010-02-04 2014-08-20 ソニー株式会社 画像処理装置、画像処理方法、プログラム、及び電子機器
US8620024B2 (en) * 2010-09-17 2013-12-31 Sony Corporation System and method for dynamic gesture recognition using geometric classification
JP2012068762A (ja) * 2010-09-21 2012-04-05 Sony Corp 検出装置、検出方法、プログラム、及び電子機器
KR20120045667A (ko) * 2010-10-29 2012-05-09 삼성전자주식회사 움직임 인식을 이용한 사용자 인터페이스 장치 및 방법
EP2602692A1 (en) * 2011-12-05 2013-06-12 Alcatel Lucent Method for recognizing gestures and gesture detector
EP2639674B1 (en) * 2012-03-12 2016-06-01 Alcatel Lucent Method for control of a video interface, face orientation detector, and video conferencing server
EP2739044B1 (en) * 2012-11-29 2015-08-12 Alcatel Lucent A video conferencing server with camera shake detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185555A (ja) * 2002-12-06 2004-07-02 Fuji Photo Film Co Ltd 顔領域抽出方法及び装置
US20080019589A1 (en) * 2006-07-19 2008-01-24 Ho Sub Yoon Method and apparatus for recognizing gesture in image processing system
CN101810003A (zh) * 2007-07-27 2010-08-18 格斯图尔泰克股份有限公司 增强的基于相机的输入
CN101874404A (zh) * 2007-09-24 2010-10-27 格斯图尔泰克股份有限公司 用于语音和视频通信的增强接口
WO2009131539A1 (en) * 2008-04-22 2009-10-29 Agency For Science, Technology And Research A method and system for detecting and tracking hands in an image
WO2009156565A1 (en) * 2008-06-27 2009-12-30 Nokia Corporation Method, apparatus and computer program product for providing gesture analysis
US20100329509A1 (en) * 2009-06-30 2010-12-30 National Taiwan University Of Science And Technology Method and system for gesture recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109700449A (zh) * 2018-08-09 2019-05-03 阳光学院 一种可抗头部自然运动的有效心率量测系统
CN109700449B (zh) * 2018-08-09 2021-08-20 阳光学院 一种可抗头部自然运动的有效心率量测系统

Also Published As

Publication number Publication date
JP2015507391A (ja) 2015-03-05
KR101693951B1 (ko) 2017-01-06
EP2602692A1 (en) 2013-06-12
WO2013083423A1 (en) 2013-06-13
US20140300684A1 (en) 2014-10-09
US9348422B2 (en) 2016-05-24
KR20140105809A (ko) 2014-09-02
CN104011628B (zh) 2017-03-01
JP5916880B2 (ja) 2016-05-11

Similar Documents

Publication Publication Date Title
CN104011628A (zh) 用于识别姿势的方法和姿势检测器
KR101457777B1 (ko) 컴퓨팅 디바이스 인터페이스
Letessier et al. Visual tracking of bare fingers for interactive surfaces
Harrison et al. OmniTouch: wearable multitouch interaction everywhere
Jain et al. Real-time upper-body human pose estimation using a depth camera
Mardanbegi et al. Eye-based head gestures
EP2879020B1 (en) Display control method, apparatus, and terminal
EP3136203B1 (en) System and method of real-time interactive operation of user interface
JPH1153083A (ja) アクティブな公共インターフェイスのための人間の視覚的感知方法及び装置
CN105929954B (zh) 一种控制光标的方法及装置、显示设备
Song et al. Detection of movements of head and mouth to provide computer access for disabled
Pino et al. Improving mobile device interaction by eye tracking analysis
WO2018042751A1 (ja) ジェスチャー判定装置、ジェスチャー操作装置、及びジェスチャー判定方法
CN102348093A (zh) Android手机视频聊天智能底座
KR101426378B1 (ko) 깊이 정보를 이용한 프레젠테이션 이벤트 처리 장치 및 방법
Yu et al. Gaze tracking system for teleoperation
CN116301551A (zh) 触控识别方法、触控识别装置、电子设备及介质
Sato et al. Video-based tracking of user's motion for augmented desk interface
CN112965599B (zh) 一种机器人与终端的交互方法、装置及机器人
Chandra Gope Hand tracking and hand gesture recognition for human computer interaction
US20230214023A1 (en) Method and an electronic device for 3d gesture interaction across nearby electronic devices
Tabata et al. Recognition of request through hand gesture for mobile care robots
Jyothilakshmi et al. Patient assistance system in a super speciality hospital using a Kinect sensor camera
Upasana et al. Virtual mouse with RGB colored tapes
Gyoda et al. Mobile care robot accepting requests through nonverbal interaction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170301

Termination date: 20201126

CF01 Termination of patent right due to non-payment of annual fee