CN103916647B - 采用拖延期的视频流的姿势预处理来减少平台功率 - Google Patents
采用拖延期的视频流的姿势预处理来减少平台功率 Download PDFInfo
- Publication number
- CN103916647B CN103916647B CN201410010010.3A CN201410010010A CN103916647B CN 103916647 B CN103916647 B CN 103916647B CN 201410010010 A CN201410010010 A CN 201410010010A CN 103916647 B CN103916647 B CN 103916647B
- Authority
- CN
- China
- Prior art keywords
- level
- pixel
- target
- present frame
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/96—Management of image or video recognition tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
公开的技术用于处理视频流以通过采用分步的分布式流水线过程来减少平台功率,其中选择性地执行CPU密集处理。在一个示例情况下,这些技术在用户的计算机系统中实现,其中初始阈值检测部件(图像扰动)和用户存在(例如,手部图像)处理部件(可选地)接近或在系统的相机内,并且相机位于或接近系统的主显示器。阈值检测级和/或目标存在级可以在拖延期被选择性禁用。例如,拖延期可以在50到1000毫秒的范围中并且响应于系统的用户不可能作出导航姿势或系统没准备好处理视频的指示而被触发,因此通过避免没有导航姿势的视频帧的处理来保存功率。
Description
背景技术
最终用户的大多数计算机使用将最终用户连接到因特网,并且通过浏览接口发生。常见使用和活动包括例如基于搜索引擎的浏览、电子邮件、社交网络、内容消费(例如,新闻文章和视频观看)、内容共享(例如,照片、音乐等)、在线购物和购买、以及地图和方向,只列出一些。这样的常见因特网使用通常需要某个形式的基于用户的导航,例如典型地用鼠标或触摸板和关键词完成的导航。
在改进用户导航体验的努力中,已经产生基于姿势(gesture)的导航技术。特别地,用户手部运动可以由所谓的网络相机(webcam)记录并且转化成指针运动。结合网络相机操作的典型的基于姿势的导航应用能够模仿通常用常规鼠标或触摸板执行的动作:单击、双击、拖拉和滚动。用户还可使用头部运动来控制计算机或以其它方式影响导航。存在两个使用相机实现人体姿势的基本方法:使用具有所谓的标记的对象的姿势(其中在视场中部署的标记与相机传感器交互),以及无标记的姿势(例如无标记的手势)。可以使用典型用于大约3到5米(m)范围中的观察距离的三维或3D相机(具有Z深度),或典型用于在大约0.5m范围中的观察距离的两维或2D相机(从2D信息解释3D运动),来实现无标记的姿势技术。
计算环境(例如,桌上型计算机或工作站、膝上型计算机或平板计算机、或游戏控制台)中的图形处理通常需要多个复杂操作。这样的操作包括例如关于确保图像被适当并及时渲染的那些、以及关于姿势识别的那些。存在出现在这样的操作的上下文中的多个重要的问题。
发明内容
本发明一方面提供一种用于处理原始视频流的系统。该系统包括:阈值检测级,配置为确定所述视频流的当前帧是否充分不同于所述视频流的前一帧,并且响应于所述当前帧没有充分不同于所述前一帧,所述阈值检测级还配置为停止后续级对所述当前帧的进一步处理;以及目标存在级,配置为确定所述当前帧是否包括肤色颜色的(colored)像素,并且响应于所述当前帧不包括肤色颜色的像素,所述目标存在级还配置为停止后续级对所述当前帧的进一步处理;其中所述阈值检测级和/或目标存在级中的至少一个能够在拖延期(hold-off period)被选择性禁用。
本发明另一方面提供一种用于处理原始视频流的系统。该系统包括:阈值检测级,配置为确定所述视频流的当前帧是否充分不同于所述视频流的前一帧,并且响应于所述当前帧没有充分不同于所述前一帧,所述阈值检测级还配置为停止后续级对所述当前帧的进一步处理;目标存在级,配置为确定所述当前帧是否包括肤色颜色的像素,并且响应于所述当前帧不包括肤色颜色的像素,所述目标存在级还配置为停止后续级对所述当前帧的进一步处理;分割级,配置为接收来自所述当前帧的数据,并且将感兴趣的像素与不感兴趣的像素分开,其中感兴趣的像素被表示为二进制大对象(blob)并且不感兴趣的像素由非二进制大对象表示;手部分析器(parser)级,配置为执行从所述分割级接收的二进制大对象数据的空间解释;以及姿势识别级,配置为执行从所述手部分析器级接收的二进制大对象数据的时间解释并且识别用户基于手部的导航姿势;其中所述阈值检测级、目标存在级、分割级、分析器级和姿势识别级以分步的(stepped)分布式布置进行配置,并且所述阈值检测级和/或所述目标存在级中的至少一个能够在拖延期被选择性禁用。
本发明又一方面提供一种使用原始视频流的计算机导航方法。该方法包括:在第一处理级处确定所述视频流的当前帧是否充分不同于所述视频流的前一帧,并且响应于所述当前帧没有充分不同于所述前一帧,停止后续级对所述当前帧的进一步处理;以及在第二处理级处确定所述当前帧是否包括肤色颜色的像素,并且响应于所述当前帧不包括肤色颜色的像素,停止后续级对所述当前帧的进一步处理;其中所述第一和第二处理级中的至少一个能够在拖延期被选择性禁用,所述拖延期在50到1000毫秒的范围中并且响应于没有作出导航姿势的指示而被触发,因此通过避免没有导航姿势的视频帧的处理来保存功率。
附图说明
图1a根据本发明的实施例用图形图示用于实施视频流的姿势预处理来减少平台功耗的分步的分布式过程。
图1b根据本发明的实施例图示图1a中分步的分布式过程的流程图。
图2a根据本发明的实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的系统的框图。
图2b根据本发明的实施例图示来自图2a中示出的系统的不同级(stage)的控制和数据流。
图2c根据本发明的实施例示出用于过程中每个的典型CPU利用(给定特定计算系统设置),并且因此示范可以通过使用视频流过程的分步的分布式姿势预处理而具有的改进潜力。
图3a根据本发明的实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的计算系统的示例使用情形。
图3b-图3e根据本发明的实施例各自图示相机和GP电路的示例布置。
图4根据本发明的实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的计算系统的框图。
图5根据本发明的另一实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的计算系统的框图。
图6根据本发明的另一实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的计算系统的框图。
图7根据本发明的实施例图示可以减少多少平台功耗的示例。
图8根据本发明的另一实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的应用编程接口(API)的框图。
图9图示根据本发明的实施例配置的媒体系统。
图10图示根据本发明的实施例配置的移动计算系统。
具体实施方式
公开的技术用于通过采用分步的分布式流水线(pipeline)过程来处理视频流以减少平台功率,其中选择性地执行CPU密集处理。根据一些实施例,这些技术特别地适用于视频流的有效的基于手部的导航姿势处理。该过程的分步的分布式特性允许减小在图像处理之前将图像数据从给定相机传递到存储器所需的功率。在一个示例情况下,例如,在用户的计算机系统中实现这些技术,其中初始阈值检测(图像扰动)部件和用户存在(手部图像)处理部件(可选地)接近或在系统的相机内,并且相机位于或接近系统的主显示器。这些技术还可包括当用户摆姿势的手部忙于一些其它用户活动(例如,键盘、鼠标或触摸屏活动)时,通过在姿势预处理期间选择性地引入拖延期来减少图像处理。当计算机系统检测到这样的活动时,可以安全地推断基于手部的导航摆姿势未被同时实施,并且因此图像处理可以在那些无姿势期期间以及在随后简短的拖延期(例如,50到1000毫秒(mSec)、或50到500毫秒、或50到100毫秒)停止,拖延期通常反映用户将他/她的手部从鼠标/键盘/屏幕位置移回到通常实施基于手部的导航摆姿势的中间位置所花费的时间段。这样的停止可以被选择性地使用,例如只当计算机系统在电池或以其它方式受限的功率上操作时。例如,计算机系统可以是具有在系统内部和/或外部的显示器和相机的任何移动或固定计算系统。在一些情况下,这个中间位置的定位可以是用户可配置的。
一般概述
如先前解释的,存在出现在图形处理的上下文中的多个重要的问题,特别是关于姿势识别。例如,执行姿势识别的典型2D和3D视频图像处理的工作量消耗相对大量的输入/输出(IO)功率,并且对中央处理单元(CPU)利用和平台热设计功率(有时被称作TDP)预算作出最大贡献(max out)。在相机“总是打开”并提供图像用于处理并且因此即使在视觉图像内没有相关事情发生也消耗功率的应用中,这样的问题加剧了。例如,捕获图像信息并且将它推送到CPU用于处理可以轻易消耗超过10瓦,即使对于简单姿势或以其它方式在计算上简单的任务。大多数图像处理工作量通常包括在计算上更复杂的任务并且以可用的最大视频处理能力或接近可用的最大视频处理能力来操作,并且内在地由CPU利用和功率预算限制。因此,图像处理应用可以消耗所有可用的CPU周期,不留下或以其它方式留下不充分的CPU处理能力用于其它应用。相机功率本身是在图像处理之前将图像数据从相机传递到存储器所需的视频捕获功率(包括平台控制器中心、CPU、和存储器功率)的相对小的部分。图像处理算法由这些因素有效地自我限制并且将消耗多得多的功率(如果它可用)。例如,典型的算法将帧速率自我限制到15帧每秒(FPS),当更好的识别将以更高的FPS发生时。因此,有可能可以用视频图像处理来消耗最大平台功率,即使当没有将被分析的感兴趣的影像(imagery)(例如,摆姿势等)时。
因此,并且根据本发明的实施例,公开用于处理视频流来减少平台功率的技术。虽然可关于处理任何类型的视频内容来使用这些技术,但是根据一些实施例,它们特别适用于视频流的有效的基于手部的导航姿势处理。可以用分步的分布式方式来实现这些技术,使得极大减少在图像处理之前将图像数据从给定相机传递到存储器所需的功率。例如,在一个示例情况下,在用户的计算机系统中实现这些技术,其中预处理部件接近或位于系统的相机内,并且相机位于或接近系统的主显示器。在一些这样的实施例中,这些技术还包括通过在姿势预处理期间选择性地引入拖延期来减少图像处理。更详细地,当用户的手部忙于一些其它基于用户接口的活动(例如,基于键盘或鼠标或触摸屏的活动)时,可以识别没有基于手部的导航姿势的时期。当由计算机系统检测到这样的活动时,可以安全地推断基于手部的导航摆姿势未被同时实施,并且因此图像处理可以在无姿势期期间以及在随后简短的拖延期(例如,50到500毫秒)被停止,拖延期通常反映用户将他/她的手部从鼠标/键盘/屏幕移回到通常实施基于手部的导航摆姿势的中间位置所花费的时间段。这样的停止可被选择性地使用,例如只当计算机系统在电池功率上操作时。当在外部电源上操作时,则拖延期可以根据一些实施例而被设置为零来提供瞬时响应性,这是某些应用(例如,基于手势的游戏)期望的。
例如,计算机系统可以是膝上型计算机或上网本(其中显示器是翻盖(lid)类型显示器)、或桌上型计算机或工作站计算机或游戏控制台(其中显示器是外部显示器)、或平板计算机或智能电话(其中显示器是用户接口和计算系统的壳体的完整部分)。例如,显示器可以是LCD或CRT、或触摸屏显示器,并且可与计算装置一体化(例如,平板计算机、膝上型计算机、移动电话)或在计算装置外部(例如,桌上型计算机、膝上型计算机或平板计算机)。例如,相机可以是单个2D相机或网络相机,虽然可使用任何合适的相机技术,包括3D相机或所谓的立体相机对,并且可与计算装置和/或显示器一体化或在外部。
根据一个示例实施例,预处理部件包括阈值检测级、目标存在级、分割级、手部分析器级和姿势识别级。阈值检测级通常配置为确定视频帧是否实际上是空的。如果帧不是空的或已经以有意义的方式从最后帧改变,则处理转到目标存在级,目标存在级配置为找到作为目标的像素颜色(具体地是颜色匹配肤色特性的像素)。如果找到充分的皮肤颜色的像素来暗示可能存在手指,则处理转到分割级,分割级配置为将感兴趣的像素与不感兴趣的像素分开并且因此可以作为自适应肤色检测级(肤色/非肤色边缘检测)操作。在一个示例配置中,这一级将彩色视频帧转换成二进制大对象(blob)图像,其可以被编码为单色或灰度级图像。二进制大对象用来表示皮肤颜色的像素的区域。根据一些示例实施例,这一级也配置成纠正相机噪声和照明差别,并且使用腐蚀和放大变形方法来平滑二进制大对象。
手部分析器级配置为执行由分割级产生的二进制大对象数据的空间解释,并且尝试将二进制大对象数据映射到人体解剖几何形状。根据实施例,相关性选择极大取决于使用情形和关于实施导航姿势的人的相机观看角度的假设。取决于场景,有时只需要边缘数据,有时需要填充的二进制大对象数据,并且有时需要有关节的手部模型。如将领会到的,取决于正被成像的主体部分的复杂性,解剖学上具体的分析可能难以概括并且因此难以放入固定功能件解决方案。然而,在这个使用情形中,可以在手部分析器级检测手指,例如通过分析手部二进制大对象的边缘。例如,手部分析器级可配置用于比较边缘的斜率来识别峰值(指尖)的位置。根据一些示例实施例,拇指和食指可以位于手部二进制大对象内,并且这些手指可以用作姿势识别任务的目标。姿势识别级配置为执行由手部分析器级生成的解剖/手部数据的时间解释。例如,如果姿势识别级用来检测鼠标等效的操作,则它可查找用户的指尖和/或手部的位置改变。
注意,不是所有这五个预处理级必须接近或在计算系统的相机内。也不是它们所有必须处于或接近计算系统的显示器来实现功率节省。例如,如将根据本公开所领会的,如果阈值检测级和目标存在级是在接近显示器的相机传感器中实现的仅有级,并且剩下的级被实现在CPU中(例如,作为又将讨论的姿势API的一部分),则这样的实施例仍然会实现可观的功率节省。而且,不同的使用模型可指示不同的实现策略。例如,可期望具有两个模式操作:用于因特网导航(涉及相对低复杂性姿势的更随意使用)的2D模式,以及用于更密集的应用(例如,可涉及相对高复杂性姿势的CAD操纵、Photoshop)的3D模式。在这样的实施例中,2D模式可全部在相机传感器中执行(以增加的相机成本为代价),而3D模式可在相机传感器中执行前两个或三个级并且然后将原始图像数据上传到姿势API用于由计算系统的CPU执行的姿势处理步骤(或将那个原始图像数据传到专用软件应用)。在2D和3D模式两者中,实现功率节省,尤其是当相机的视场(FOV)内没有出现感兴趣的事情时。
在一些实施例中,各种分步的分布式预处理部件到计算机系统的逻辑连接被实现为姿势应用编程接口(在下文中称为“姿势API”)。例如,根据一些实施例,姿势API可呈现为扩展的通用串行总线人接口(USB HID)类装置。一般而言,姿势API有效地暴露来自各种预处理级(阈值检测、目标存在、分割、手部分析器和姿势识别)的信息,以使这样的信息可以由计算系统的其它部分利用,如果这样期望的话。在一些实施例中,API还可被编程或以其它方式配置为包括安全/隐私政策以便防止例如来自视频流的不安全信息接入到计算系统的CPU或其它资源。
如将根据本公开领会的,本文提供的姿势预处理视频流技术可用于任何数量的应用,包括改进基于手势的因特网导航以及基于手势的计算机导航。可以应用这些技术的一个具体这样的应用是在大约0.5m的距离处使用2D相机的无标记手势识别。然而,这些技术可应用于包括基于3D的应用的许多其它应用,如果这样期望的话。根据本公开许多使用模型将是显而易见的,例如桌子或用户的膝部或公园长凳上的笔记本计算机或上网本、在家或办公室的具有一个或多个外部显示器的桌上型计算机或笔记本计算机或上网本、在工作/卧室环境中的桌上型计算机或笔记本计算机或上网本、咖啡馆桌上的笔记本计算机或上网本、会议室桌上的笔记本计算机或上网本、飞机托盘顶部上的笔记本计算机或上网本、以及因特网咖啡馆(例如,具有一个或多个外部显示器的桌上型计算机),只列出一些。
如将根据本公开进一步领会的,计算系统内视频处理任务的功耗应该理想地与从计算系统的相机传感器获取的原始图像数据的提取的等级相当。换句话说,原始图像数据消耗极小功率,增加地更多功率被消耗来将图像阈值化(threshold),而更多功率被消耗来检测存在,等等。为此,根据实施例,预处理部件有效地实施分步的或渐进式操作序列,其中增加地更多功率消耗在行进中的每个级来生成视频流图像内的更高级的相关信息或意义。然而注意,一些实施例可具有一些比后面的级使用更多功率的中间级,并且要求保护的发明不旨在限于展现功耗的任何特定进展的级。例如,在一些实施例中,分割级比组合的其它四个级更计算密集。总的来说,预处理部件可以共同地并且有效地分析原始(未经压缩的)的视频流或视频流的子集,来确定视频流图像内的意义或相关性。例如,可以在硬件中(例如,诸如Verilog或VHDL的寄存器传递语言、或其它门级逻辑或专门建立的半导体)、或软件/固件中(例如,在微控制器中执行的微码)实现预处理部件。
系统架构
图1a根据本发明的实施例用图形图示用于实施视频流的姿势预处理来减少平台功耗的分步的分布式过程。如可以看出的,存在可以在计算系统的CPU和分布式性能原语之间被有效地划分的五个不同级别的数据提取。这些级别包括原始数据、阈值化、存在、命令、和识别。如可以进一步看到的,与数据提取的这些级别中的每个相关联的处理可以被实施在相机中(或其附近)、或在图形处理单元(GPU)硬件加速中、或在CPU上执行的应用软件中。如可以进一步看到的,在这些级别中的至少一些处的处理可以用拖延期来实现,当可以推断没有相关活动正在相机的FOV中发生时,拖延期可用于在适当的时刻有效地禁用在那个级别处的处理,如本文解释的。
例如,原始数据可以是编码的视频流或原始图像流。原始数据通常指示未经压缩的图像数据,然而编码的视频流通常被压缩。压缩算法通常用来通过低带宽通信信道拟合(fit)大量的数据,并且这通常在相机传感器硅内完成。数据压缩通常减少图像的保真度并且使图像处理更困难。在阈值化级别,可完成阈值化来检测图像中的扰动以便粗略地识别用户活动的存在。例如,这样的粗略识别将检测从没有用户出现的数据帧的流到有用户出现的数据帧的流的转换,如由用户运动(视频内容)和/或用户语音(音频内容)指示的。如在这个示例实施例中可以看到的,原始数据和阈值化级别中的每个可以在相机内或以其它方式接近相机而被处理。
一旦在阈值化级别处作出这样的粗略识别,则可以在存在级别处识别内容中具体用户特征的存在。例如,具体用户特征可包括用户的脸部和/或手部。如另外参考图1a中描绘的示例实施例可以看到的,处理的这个特定级别可在一些情况下在相机内或以其它方式接近相机而被实施,或在其它情况下由GPU作为加速过程来实施,这取决于涉及的图像分析的复杂性(例如,脸部分析可比手部分析更复杂)。
一旦作出具体用户特征出现在内容流中的这样的精确识别,则那些用户特征可以通常对于在命令级别处摆姿势被评定。例如,脸部和/或手部活动可以通常对于类似命令的姿势(如同运动的手部或头部转动)被评定。如另外参考图1a中描绘的示例实施例可以看到的,处理的这个特定级别可由GPU作为加速过程来实施。例如,在一些情况下,GPU可与CPU共处一地(co-locate),或可经由总线结构在操作上耦合到CPU。在后者情况下,GPU可以在与CPU相同的母板上,或可在母板外部(例如,在操作上耦合到母板的专用图形处理卡上,或在经由通信端口在操作上耦合到计算系统的外部图形处理装置上)。
一旦识别类似命令的姿势,则那个姿势可以对于在识别等级的特定命令被评定。例如,命令可以是用于指引用户正在执行的在线购物过程的用户导航命令。例如,关于视频内容,基于脸部的姿势可以经过(subject to)脸部识别,和/或基于手部的姿势可以经过分析来识别符合美国符号语言(ASL)的手势,以便识别给定命令。如另外参考图1a中描绘的示例实施例可以看到的,处理的这个特定级别可由CPU上执行的应用软件实施。
图1b根据本发明的实施例图示图1a的分步的分布式过程的流程图。如在这个示例实施例中可以看到的,视频相机用来生成给定计算机设置处的用户手部活动的原始图像数据。在其它实施例中,将被处理的视频内容可包括用户的脸部活动。如将根据本公开领会的,无论内容类型,本文提供的用于预处理媒体内容的分步的分布式技术可以按类似方式被等同地应用。
流程以从可包括一个或多个相机的传感器接收原始图像数据流媒体(streaming)开始。如果使用多于一个相机,则因此可以处理每个视频流,如本文所讨论的。如可以看到的,在这个示例实施例中的初始处理级别(阈值化和存在级别)可以在拖延期期间被选择性地禁用,如又将参考图2a解释的。为了图1b的这个描述的剩余部分的目的,假设启用在这些级别处的处理。
在阈值化级别处,分析视频流来检测视频流中的扰动。在一个示例实施例中,如果当前视频帧多于10%与前一视频帧不同,则可以发出检测信号。阈值可以从一个实施例到下一个而不同(例如,5%或者更多、或者50%或更多,等等),并且可以按期望的给定因素,例如为给定计算系统(使用情形)设置而正被观察的特定环境以及在那个环境/系统中改变的所期望的灵敏性程度),而设置。如果不超过预先建立的粗略阈值,则过程继续接收并监视原始图像数据。然而,如果超过粗略阈值,则过程继续在存在级别处检测图像中的用户手部。如以前解释的,在一些实施例中,在阈值化级别和存在级别处的预处理可以被实施在相机电路中,或被实施在配置为接近相机部署并且在相对短的距离上(例如,小于0.1m,例如0.05m或者更小,或经由总线结构或其它合适的通信端口直接耦合到相机壳体)在操作上与相机耦合的专用电路中,以使IO功率相对于在来自相机的所有图像内容被提供给CPU上执行的应用软件时将使用的IO功率而减少。如将领会的,要求保护的发明不旨在限于专用电路与给定相机传感器之间的距离的任何特定范围;而是本文提供的使用分步的分布式预处理方案的概念可以在任何数量的配置中被实现。如果图像不包括可识别为用户手部的任何东西,则过程继续接收并监视原始图像数据。
然而,如果图像的确包括可识别为用户手部的内容,则过程在命令级别或以其它方式朝着命令级别继续将成像的手部映射到与已知手势相关联的有关节的手部的模型。在一些这样的示例实施例中,成像的手部与多个这样的模型比较,并且为每个模型确定相似度分数。过程在命令级别继续确定图像是否包括作出已知姿势的手部。例如,在一些这样的情况下,产生最高相似度分数的模型可以被识别为匹配。在其它情况下,遇到的具有超过预先建立的阈值的相似度分数的第一模型可以被识别为匹配(以使不一定需要测试所有模型)。如以前解释的,在一些实施例中,这个命令级别预处理可以被实施为GPU加速过程。如果在命令级别处确定图像不包括作出已知姿势的手部,则过程返回到存在级别以便继续关于图像中是否存在用户手部而分析视频流。如将根据本公开领会的,命令级别可通知存在级别它的发现(例如,没有二进制大对象数据),使得存在级别处的处理以受教育的方式进行。
然而,如果在命令级别处确定图像的确包括作出已知姿势的手部,则过程继续将姿势数据传给应用软件用于在识别级别进行处理。如以前解释的,这个级别的处理趋向于是CPU密集的。另外注意,在这个示例情况中姿势数据经由USB HID API(姿势API)传上栈。将参考图8又讨论这个API。如将进一步领会的,注意命令级别确定可足以明确识别已知手势,并且将不需要执行在基于CPU的识别级别处的后续处理,因此进一步节省基于CPU的功耗。
因此,通过在相机内或以其它方式接近相机进行至少一些程度的视频流的姿势预处理可以实质减少功耗,这在移动计算装置(例如,膝上型计算机、上网本、平板计算机、智能电话等)中可能是特别有帮助的。这是因为,一般而言,大多数视频处理涉及可以在配置为并且定位成减少IO活动和CPU工作量的分布式电路中被实施的相对低复杂性的处理,并且涉及更高复杂性处理的剩余百分比的处理可作为原始数据被发送到GPU用于加速处理和/或发送到CPU中的驱动器(应用软件)用于处理。在此意义上,本文提供的技术通过使用在相机和GPU中(或其附近)运行的专用分布式性能原语或硬件功能件来减少在通用CPU核中执行的基于软件的算法的需要。
图2a根据本发明的实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的系统的框图。如可以看到的,系统是配置有多个分布式部件(在此示例情况下为五个)的姿势处理流水线。在这个示例实施例中,部件中的两个(阈值检测级和目标存在级)被实现为在相机内或以其它方式接近相机的姿势预处理(GP)电路。响应于拖延控制信号,这两个部件中的每个可以被启用或禁用(根据具体情况而定),这将又参考表1进行讨论。如将根据本公开领会的,如果GP电路实际直接集成在相机电路内或以其它方式充分接近相机(只要GP电路充分接近相机传感器以便减少IO功率和CPU处理时间)或以其它方式比CPU更接近相机,则GP电路可被认为是与相机“共处一地”。另一部件(分割级)是GPU加速的。其它的两个部件(手部分析器级和姿势识别级)在计算系统的CPU中被执行。根据本公开,这个分步的分布式架构的变化将是显而易见的,其中任何这样的分步的分布式架构允许关于活跃和空闲功率场景的优化。特别地,与相机和GPU共处一地的视频处理部件是有效地更固定的功能件,因此比解决相同计算问题的传统CPU要求更少功率。
如本文所使用的,“GP电路”是配置为实现图2a中示出的五个级中的一个或多个的集成电路,它被实现在提供将被分析的视频流的相机内或者被实现为配置为由如以前解释的相对短的连接来与那个相机直接耦合的专用电路(例如,以便与将所有视频从相机传到基于CPU的驱动器的传统技术相比减少IO功率和CPU周期)。共处一地的GP电路和相机中的每个可以集成在显示器内、或在显示器外部、或一些合适的组合。例如,在一些具体示例实施例中,GP电路可以被实现在移动计算装置(例如,膝上型计算机、上网本等)的铰链式显示器盖内并且接近也嵌入在那个盖内的相机电路。在其它这样的示例基于盖的显示器情况下,GP电路可被直接实现在嵌入的相机本身内。在其它示例情况下,例如,GP电路可被直接实现在外部相机内,外部相机配置为夹住或以其它方式在操作上耦合到计算系统(例如,桌上型计算机、膝上型计算机等)的基于盖的显示器或外部显示器。在另外其它示例情况下,GP电路可被实现在离散封装件中并且配置为与这样的外部相机在操作上耦合。在另外其它示例实施例中,GP电路可嵌在外部显示器的壳体内并且接近也嵌在那个显示器内的相机电路。在其它这样的示例外部显示器情况下,GP电路可被直接实现在嵌入的相机本身内。如将根据本公开领会的,GP电路与相机电路之间的集成度或接近度越大,在相机与GP电路图像处理子系统之间可以实现的IO功率减小越大。
阈值检测级是流水线中的第一级并且配置为粗略地确定视频帧是否实际上是空的。如果当前视频帧与前一帧足够类似,则该帧被视为空的。例如,根据一个这样的实施例,这可以使用低功率硅来实现,低功率硅实现合计并且比较每个帧的亮度(luma)通道的简单算法。如果视频使用RGB颜色空间,则因为YUV像素的大多数亮度分量被包括在RGB像素的绿色分量中,所以绿色分量在其位置被代替。如果当前的与以前的之间的变化量大于给定阈值,则这将触发移到下一级。否则,不发送空帧到下一级,这当用户不执行姿势时帮助管理功率。
根据实施例,目标存在级配置为实现相对低复杂性的方法用于找到作为目标的像素颜色。在一些情况下,这一级寻找颜色匹配肤色的特性的像素。例如,对肤色的匹配可以在配置为将RGB(或YUV)数据流转换成HSV像素的硅中被实施。人类肤色占用色调中相对有限的范围,从而允许快速、低功率固定功能的转换和比较。注意目标存在级不要求前一帧的信息或任何数据存储。如果在扫描线路中找到足够的皮肤颜色的像素以暗示可能出现手指,则处理转换到下一级。否则,无目标存在或不足数量的皮肤颜色的像素的帧没有被发送到下一级,这当用户不执行姿势时帮助管理功率。
根据实施例,分割级配置为从目标存在级接收目标存在帧并且将感兴趣的像素与不感兴趣的像素分开。在一个示例情况下,这一级实现将彩色视频帧转换成二进制大对象的图像的自适应肤色检测算法,二进制大对象的图像可编码为单色或灰度级图像。例如,在灰度级图像的情况下,非零像素可用于表示二进制大对象的像素并且黑色像素指示非二进制大对象像素。本质上,二进制大对象用来表示皮肤颜色的像素的区域。自适应肤色检测基于帧数据来适配皮肤色调下界和上界。除了使用腐蚀和放大变形方法来平滑对象之外,这也消除由于相机噪声和照明引起的分散像素。如已知的,形态学是基于形状处理数字图像的数学方法。放大变形通常指的是扩展或填充目标对象的操作。腐蚀变形涉及类似的方法,但是在不是对象而是图像的背景上操作。如将根据本公开领会的,许多GPU具有可以对于分割级的最佳实现受影响(leverage)的指令。
根据实施例,手部分析器级配置为执行二进制大对象数据的空间解释。在一个特定示例情况下,该级尝试将二进制大对象数据映射到人体解剖几何形状,例如人手的模型或人体的模型,这取决于正在评价的目标姿势。如将根据本公开领会的,手部分析器级尝试关联二进制大对象数据与人体部分/姿态的方式极大取决于使用情形以及关于人的相机观看角度的假设。解释二进制大对象的方式也可以不同。在一些示例情况下,只使用边缘确定人体几何形状可能是充分的。在其它场景中,填满的二进制大对象是更适当的。在一些情况下,来自分割级的二进制大对象数据可需要附加的处理来移除二进制大对象上对正确分析它们有害的视觉伪像,并且手部分析器级可配置为移除这样的伪像。在相机配置为观看用户手部的情况下,可以通过分析手部二进制大对象的边缘来检测手指。比较边缘上不同采样点处的斜率可以暗示峰值(例如,指尖)的位置。那些类似峰值的二进制大对象的另外分析(在各种像素之间的距离和斜率方面)可以揭示指尖附连到指干。如有必要,这一级可以尝试接合整个人手,包括所有5个指尖的位置。在一些情况下,检测单个手指可能是充分的。在这个意义上,使用模型确定要求分析的数量。如以前指示的,解剖学上具体的分析(例如,手部分析)可难以概括,并且因此难以放入固定功能硅。因此,在一些实施例中,手部分析器级由CPU执行。
根据本发明的实施例,姿势识别级配置为执行解剖/手部数据(从手部分析器级接收的二进制大对象数据)的时间解释。例如,如果该级用于分析鼠标或触摸板操作,则它可以查找一个或多个指尖的位置改变。在一些情况下,原始相机图像中的运动模糊可以使手部分析器级难以接合人体解剖。在这样的情况下,姿势识别级可以采用关于使用情形的假定来改进姿势解释的可靠性。例如,如果手部分析器级在一个帧中成功地检测完整手指但它只可以在下一帧中确定指尖位置(例如,不可以确认指尖附连到“适当的”手指),则姿势识别级可假定它是在下一帧中的相同手指。
一般而言,分割级、手部分析器级和姿势识别级可配置为将反馈发送到阈值检测级或目标存在级。例如,并且如在图2a的示例实施例中可以看到的,如果手部分析器级实际找到可能是手部的足够大的二进制大对象,则它可以用信号通知阈值检测级来将前一帧的亮度/绿色计数器复位到零,因此迫使下一帧指示它是非空帧。例如,在一个具体示例实施例中,这个类型的用信号通知可以通过GP电路的阈值检测级硅上的单个管脚/导线来实现,其可从驱动器进行控制。备选地,根据另一实施例,它还可以在USB上被完成。这帮助防止非移动的手部引起阈值检测级认为手部是静态背景的一部分的场景。另一示例反馈环场景将是当检测到足够大的二进制大对象时迫使系统将数据直接从相机发送到分割级,而不将它发送到阈值检测级和目标存在级(如图2a中描绘的并且标为目标存在-数据流)。这个类型的活动可通过移除不必要的阈值有关的处理来改进功率。然而注意,虽然这样的反馈机制可提供进一步程度的优化,但是它们不是在所有实施例中必需的。例如,如果这些技术的实现是成本高昂的,则备选解决方案是每1或2秒回落到目标存在级来检查目标是否持续地出现。在这样的情况下,为这付出的处罚是价值姿势命令数据的一个帧的损耗。
图2b根据本发明的实施例描述来自图2a系统的不同级的控制和数据。为了根据一个示例实施例提出的划分,GP电路可以配置有阈值检测级和目标存在级,并且可以还配置为控制数据多工(mux)并且决定是否向上游发送数据(用于分割)来唤醒系统。根据一些这样的实施例,利用这样的按需发送数据的方法,可实现平台功率的重要保存并且计算系统只在它需要醒着时才醒着。
如可以看到的,来自起始帧的原始数据被提供到阈值状态,阈值状态配置为对于感兴趣区域检测相较于前一帧的给定帧中的改变。如果不满足改变阈值,则可减少FPS并且过程继续以监视帧的原始数据。如果满足阈值,则原始数据被传到目标存在状态,目标存在状态配置为在感兴趣的色调范围内查找目标存在。例如,可以使用由各种样本聚集的经验数据来确定色调范围。在其它实施例中,色调范围可以被确定为测量给定用户的肤色的初始设置或校准过程的一部分。在任何这样的情况下,如果没有找到合适的目标,则将控制提供回到阈值状态。否则,如果以给定帧速率(例如,默认速率或如在这个控制环内精制的)找到合适的目标,则控制被传到分割处理状态,分割处理状态实施如以前解释的自适应皮肤检测。还注意,在一些实施例中,如以前解释的,在某个情况下,例如当检测到足够大的二进制大对象时,系统可以将原始数据直接从相机发送到分割处理状态,而不将它发送到阈值状态和目标存在状态(如图2b中描绘的并且标为处理状态期间的数据/控制流)。
在任何这样的情况下,分割处理状态配置为实施自适应肤色检测来分割图像。在一些实施例中,可使用变形方法来消除噪声并且平滑图像。自适应皮肤图像信息被提供到手部分析器状态,手部分析器状态配置为将二进制大对象数据映射到人体解剖几何形状,例如在此示例情况下的人手模型。如果手部分析器状态无法确认给定二进制大对象与手部相关,则控制被回传到目标存在状态(没有检测到二进制大对象)。然而,如果手部分析器状态确认给定二进制大对象与手部相关,则控制被传到姿势识别状态(找到二进制大对象)。然后姿势识别状态分析特定命令(例如,由用户提供的导航命令)的手部数据。一旦结束这个分析,则那个帧的过程流程完成,并且在计算系统上执行的给定应用可因此受控制。
图2c示出可以在GP电路中被实现的五个过程中的每个的典型CPU利用,给定包括2-2.66 GHz CPU和提供640x480像素帧的视频数据的USB相机的特定设置。如可以看到的,分割采取最大利用,并且由于更少的迭代改变它是可以被加速的良好候选者。根据本发明的实施例,GPU加速的自适应肤色检测算法将帮助改进总的系统性能和功率效率。由于工作量可以在CPU/GPU之间共享,这也将确保处理数据帧而没有任何帧丢弃。当找到更大的二进制大对象时并且采用更长的周长长度,看到典型的最差情况的手部分析器利用。根据一些示例实施例,在划分如本文所描述的处理(例如,如果阈值检测和目标存在被分布到USB相机中或以其它方式接近USB相机,并且分割是GPU加速的)之后的总的CPU利用率将小于10%。
示例使用情形和系统配置
图3a根据本发明的实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的计算系统的示例使用情形。如可以看到的,用户以常见或其它典型的方式正坐在计算系统前面。这个示例的计算系统表现为具有外部显示器的桌上型布置,但如将领会的可以是任何合适的计算系统,例如膝上型计算机或上网本或使用基于盖的显示器的其它这样的移动计算装置、或使用外部显示器的移动计算装置、或例如平板计算机或智能电话的触摸屏装置。
在任何这样的情况下,这个示例实施例的系统另外配置有相机和GP电路。例如,相机可用来捕获用户姿势(例如手势)。在图3a中描绘的这个示例情况下,相机和GP电路嵌入显示器的顶部内以便提供包括如下区域的FOV:其中,用户手部将通过使用例如计算机系统键盘、鼠标、触摸屏、或其它这样的输入装置而是活动的。然而注意,给定如本文所描述的系统的姿势解释能力,用户不需要实际从事于这样的输入装置。而是,如本文所论述的,用户可以在处于FOV中的指定用户输入区域内简单运动他或他的手部以便使用基于手部的姿势与计算机系统有效地通信。图3b-图3e图示相机和GP电路的各种示例布置。
图3b图示如下示例情况:其中,GP电路被集成或以其它方式被包含在相机的成像集成电路(硅或其它)内来进一步减少平台功率(通过消除相机传感器与图像处理功能件中的至少一些之间的IO功率)。在这个示例情况(以及在图3c-图3e中示出的示例情况)下,GP电路至少包括阈值检测和目标存在电路,以及可能还包括本文中提供的其它姿势预处理电路,如果这样期望的话。图3c图示另一示例情况,其中相机和GP电路是彼此分开实现的但是仍然接近彼此并且由相对短的通信总线(在这个示例实施例中是USB总线)在操作上耦合。如将领会的,可使用任何数量的其它合适的通信端口和总线结构。图3d图示另一示例情况,其中GP电路被集成或以其它方式被包含在相机的成像集成电路内,并且相机嵌入显示器内。图3e图示另一示例情况,其中相机嵌入显示器内,并且GP电路配置为孤立装置,所述孤立装置配置为与装置的USB端口在操作上耦合以便提供对其中嵌入的相机的接入。例如,在图3a-图3e中指示的任何这样的情况下,显示器可以在操作上是外部显示器、触摸屏显示器、或基于盖的显示器。
图4根据本发明的实施例图示配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的膝上型计算系统的框图。如可以看到的,这个示例具有膝上型计算机的典型形状因数并且包括由铰链在操作上耦合到显示器部分的基板部分。例如,显示器可具有触摸屏能力,但也可以是LED显示器。一般而言,除了与视频内容的分级式和分布式姿势预处理有关的架构和功能性以外,可以用常规或习惯的技术来实现许多示出的架构和功能性(如所希望的),其根据本发明的实施例来实现并且又将被讨论。
在这个示例情况下,GP电路被包括在显示器电路的传感器数据处理块中,传感器数据处理块经由对应的移动产业处理器接口-相机串行接口(MIPI-CSI)在操作上耦合到两个集成相机。一个相机聚焦在第一用户输入区域上以便捕获用户手势,并且另一相机聚焦在第二用户输入区域上以便捕获用户头部和脸部姿势。如将领会的,手部GP电路配置有阈值检测级和目标存在级用于用户手势处理,并且头部-脸部GP电路配置有阈值检测级和目标存在级用于用户头部和/或脸部姿势处理。因此,在这个示例情况下,GP电路可以被有效地分成两个姿势专用块。在其它示例实施例中,一个相机可结合机械透镜化组件来使用,机械透镜化组件有效地允许单个相机捕获两个作为目标的用户输入区域,如果这样期望的话。在这样的情况下,GP电路可实现为能够处理涉及的各种姿势类型中的每个的单个块。
如将领会的,可以用类似的方式实现GP电路用于手部和头部-脸部中的每个。如以前解释的,无论解剖目标,GP电路的阈值检测级可以用例如配置为合计并且比较每个帧的亮度通道的门级逻辑或其它专门构造的半导体来实现,并且如果当前帧与前一帧之间的变化量大于给定阈值(例如,>3%改变,或>5%改变,或>10%改变),则可以生成用户检测信号,因此触发原始数据到目标存在级的传递。否则,不变的或以其它方式为空的帧有效抑制这样的检测信号,因此在没有姿势的时间期间保存功率。在类似的方式中,并且不管解剖目标,目标存在级GP电路可以用例如配置成如下的门级逻辑或其它专门构造的半导体来实现:将RGB(或YUV)数据流扫描线转换成HSV像素,并且将其中表示的像素色调值与肤色色调的相对有限范围作比较。如果在扫描线中找到皮肤颜色的像素来暗示可能出现手指或脸部,则处理转到分割级。否则,无目标出现或不足数量的皮肤颜色的像素的帧没有被发送到下一级或以其它方式被抑制,以便在没有姿势的时间期间保存功率。在其它实施例中,目标存在级可被实现在GPU中,给定它的功能的平行特性(例如,给定扫描线内每个像素的色调平行分析)。然而,如将领会的,在这样的情况下,通常存在更高的IO功率成本来将那个图像数据从相机传送到GPU。尽管如此,使用GPU仍然避免关联的CPU周期,所述CPU周期对在驱动器级别处的那个图像数据的处理将是必需的。
在这个示例实施例中,分割级与CPU共处一地(如有时完成的),但其它实施例可利用与CPU通信的单独GPU(如以前解释的)。根据一个示例实施例,分割级配置为将它接收的彩色视频中的每个帧转换成二进制大对象的图像,其中非零像素表示二进制大对象像素并且黑色像素指示非二进制大对象像素。例如,在这样的情况下,二进制大对象可用于表示皮肤颜色的像素的区域。在这个意义上,分割级适配或以其它方式更清楚地定义给定帧内基于皮肤色调的二进制大对象的边界,因此有效地减少给定图像到二进制布置(二进制大对象和非二进制大对象)的复杂性。这样的基于扫描线的处理任务到平行处理的可控制性使分割级成为GPU实现的理想候选者。
在其它实施例中,可以按与目标存在级的类似方式用门级逻辑或其它专门构造的半导体来在GP电路中实现分割级。然而,定义二进制大对象数据的边界可通常要求处理更大数量的扫描线,这可以增加目标存在级的复杂性。然而,这个复杂性可以例如通过使用适合于目标解剖特征和合理程度的内插的假设得以弥补。例如,假定作出和平符号的手部是目标解剖特征,并且处理手部图像的三个或四个扫描线。例如,第一扫描线可示出跨和平符号的“V”部分的上部取得的非肤色像素(三组)和肤色像素(两组)的交替组。第二扫描线可类似地示出跨和平符号的“V”部分的下部取得的非肤色像素(三组)和肤色像素(两组)的交替组,但两个肤色像素部分之间的非肤色像素部分的长度将更短。第三扫描线可示出跨手部主体部分取得的非肤色像素(两组)和肤色像素(一组)的交替组,并且第四扫描线可示出跨手腕部分取得的非肤色像素(两组)和肤色像素(一组)的交替组,其中手部主体部分中的肤色像素的组比手腕区域中的肤色像素的组更长。因此,例如,如果这三个或四个扫描线的这样的表征可以使用基于逻辑的比较来确认,则与介入扫描线关联的手部数据可以被插入或以其它方式估计并且可以因此指定整个肤色二进制大对象的边界。
手部分析器级和姿势识别级可以由作为应用驱动器的一部分的基板中的CPU执行,但如本文所描述的只有当被较早的级激活时。再次,根据一些实施例,这样的处理可备选地在GPU中执行,或甚至在GP电路中执行。为此目的,预处理功能件到GPU和/或GP电路的集成度可以基于例如成本收益分析,该分析平衡(在一方面)这样的集成的费用/成本与(在另一方面)功耗和CPU周期的节省。如将根据本公开领会的,以相对低的成本的重要节省可以通过在GP电路中实现阈值检测级和目标存在级、在GPU中实现分割级,并且允许手部分析器级和姿势识别级在CPU上执行来实现。到GP电路的进一步集成的成本可以不是合理的或以其它方式合意的,但本发明不旨在这样限制。
另外参考图4,SRAM高速缓冲存储器可用于存储与视频的有效处理关联的参数,并且可以用任何其它类型的合适存储器技术来实现。例如,在一些实施例中,存储器可用于存储帧内的坐标(通常包括由用户提供的手势)。例如,这些坐标可以基于经验分析随时间(overtime)建立和/或精制,或可以是用户配置的。在任何情况下,这样的坐标可由GP电路(以及其它部件,如果这样期望的话)使用以有效地进一步减少图像处理负载。在这个意义上,可以分析视频流的子集。存储器还可包括与特定用户设置关联的肤色的范围。例如,此数据可以是基于经验分析随时间建立的,或可以是用户配置的。许多其它类型的信息和数据可以被存储在存储器中,如将领会的。
性能原语是可以提供来支持GP电路的功能的可选部件,并且可在硬件和/或软件中实现。例如,适合于处理手势视频的示例性能原语可以是矩阵乘法或求和模块。另一示例功能件可以是傅里叶变换模块以将图像从空间域转换到频域以便于处理。在更一般的意义上,将由基于CPU的驱动器处理使用的任何图像处理工具可以在性能原语中实现来帮助分布式预处理功能件。可选的隐私和安全政策模块可以配置为提供针对恶意行为的保护,并且可实现来执行一个或多个安全政策,例如与信任的装置处理环境关联的那些。例如,隐私和安全政策模块可执行政策,例如基于用户的政策(例如,一些用户可不想要打开相机)和基于平台的政策(例如,只有信任的平台模块(TPM)装置可以经由USB端口连接到平台控制器中心(PCH))。
图4中示出的其它显示器和基板元件部分可按通常完成的或如以其它方式所期望的实现。图5根据本发明的另一实施例图示配置为实施视频流的分步的分布式姿势预处理来减少平台功耗的上网本计算系统的框图。如可以看见的,系统的显示器部分类似于图4中示出的膝上型计算机系统的显示器部分,并且以前的有关论述此处同样可应用。基板部分也类似,但配置稍微不同,给定它是上网本配置。因此,CPU可能是例如Intel®Atom™ CPU或合适于上网本、上网机(nettop)和其它这样的低功率微型计算系统的其它这样的处理器。如以前解释的,GPU可与CPU共处一地(如示出的或以其它方式与CPU在操作上耦合)。
图6根据本发明的另一实施例图示具有外部显示器并且配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的计算系统的框图。例如,计算系统可以是桌上型计算机或膝上型计算机(固定的或不固定的,在电池功率上运行)。如可以看见的,系统的显示器和基板部分可以类似于图4和图5中示出的系统的显示器/基板部分,并且以前的有关论述此处同样可应用。可使用许多其它计算系统架构和配置,并且要求保护的发明不旨在限于任何特定的一个。
图7根据本发明的实施例指示通过将视频预处理移出核/非核并且移入相机模块而实现的功率节省。总∆功率是在平台的备用电源上消耗的功率。如将根据本公开领会的,当没有东西出现在图像中时,可基本上减少视频操作的CPU C0%占有率。如可以进一步看到的,虽然将图像处理从核移到非核节省大约1.4瓦的功率(来自减少的CPU周期),当在相机传感器本身内执行预处理(例如阈值检测状态和目标存在状态)时(因此消除I/O功率),实现大约3.6瓦的额外功率节省。
例如,可用于互联网导航的示例手势通常依靠粗粒度姿势(例如,滚动向上/向下、下一页/上一页、双击,等等),单个精细粒度姿势通常用于鼠标运动。当输入具体文本信息时只需要在键盘上打字。典型类别的文本包括URL、用户名字、密码、搜索字(包括街道名等)。在许多场景中,需要很少或不需要鼠标运动。因此,姿势的简单性还允许姿势识别被实现为相机本身内的分布式过程。
姿势API
图8根据本发明的另一实施例图示示出配置用于实施视频流的分步的分布式姿势预处理来减少平台功耗的应用编程接口(API)的框图。在这一示例情况下,姿势API是在这个特定系统上可用的一个或多个API(传感器API、上下文API)。原始传感器数据通过传感器API来处理,并且姿势API预处理原始传感器数据并且暴露来自阈值检测级和目标存在级的信息(存在和阈值数据)、以及来自分割级、手部分析器级和/或姿势识别级的信息(姿势数据),无论计算是否是在相机传感器内/接近相机传感器或在CPU/主存储器上运行的软件驱动器内执行。如可以另外看到的,姿势API可包括隐私和安全政策,例如基于用户的政策(例如,一些用户可不想要打开相机)以及基于平台的政策(例如,只有信任的平台模块(TPM)装置可以经由USB端口连接到平台控制器中心(PCH))。如以前解释的,姿势API预处理原始视频数据并且呈现为扩展的USB HID类装置。在这样的情况下,原始数据不受影响并且呈现为标准USB视频类装置。
姿势API可以被编程或以其它方式配置为将状态消息传递给相机中的姿势装置端点,例如包括用户输入区域(例如,键盘/鼠标区域,如在图3a中示出的)的像素。外部显示器的相机的过程与笔记本计算机的集成显示器的相机的过程相同。在一个示例情况下,该过程包括:使键盘位于视频流的视场中;以感兴趣的像素(虚拟标记)的形式将键盘信息传递给相机/GP电路;在相机传感器/GP电路中开始手势预处理任务;更新键盘位置(如需要的);并且经由姿势API将姿势处理信息呈现给平台。在多显示器或多键盘的系统中,用户可以指示哪个显示器或键盘是主要的。这里可使用任何数量的合适选项。
如先前也解释的,由姿势API解释的手势可用于增强其它补充输入模态,例如由键盘和/或鼠标接收的用户输入。各种搜索引擎当前合并有许多鼠标/触摸姿势,用户可以将其用作捷径来改进它们的浏览体验。用户可以启用/禁用特定捷径,并且如期望的添加新的定制捷径。这样的系统的一个缺点(除了缺乏标准化之外)是所有捷径总共合计为将被使用的潜在巨大数量的姿势,从而引起不可避免地禁止广泛采用中的精神混乱。根据本发明的一个实施例,提供基于姿势的命令的相对简单和简明的列表,其可以如所期望的进行修改/扩展。例如,一些可编程性可以是期望的,因为大多数勤劳的用户可能希望扩展姿势的列表,并且大多数用户可能想要为他们的收藏夹(Favourite)中列出的网站添加个人化姿势。大多数用户通常一再地频繁访问相同的网页(例如,Google、Gmail、Facebook等)。将这个系列的键盘/鼠标命令减少成单个姿势(或短系列的姿势)可改进易用性并且加速用户的页面切换时间。
此外,可以考虑若干手势所需的“中间返回”。“中间位置”是当不执行手势时手部的统计平均位置。例如,当手掌放在掌托上时,其中手指放在以下键上:Q-E-R-G-空格键-空格键-H-U-I-P。中间返回是手部到中间位置的返回(例如,在执行一个手势之后并且在开始下一姿势之前)。在大多数计算系统使用模型中,手部保持在中间位置。期望最小化总的手势,从而使手掌在手势期间留在相同的物理位置中。因为图像处理算法将忽略相机FOV外部的所有视觉活动,这简化了图像处理。图8中示出的其它部件和特征先前关于图4-6进行了讨论或者如将领会的,可以以其它方式如通常完成的被实现。
拖延期
如先前解释的,当基于用户的当前活动和/或他/她的计算机系统的操作状态/环境在视频流上执行姿势预处理任务时,还可引入拖延期,以便通过消除浪费的处理周期来进一步减少平台功率。例如并且如先前解释的,如果用户正在键盘上打字或使用鼠标或触碰触摸屏或趋向被识别或以其它方式被定义为除了基于手部的导航摆姿势以外的一些事情的可检测活动,则可以假定用户没有同时作出基于手部的导航姿势。因此,用户将花费有限数量的时间来将他/她的手部从当前非摆姿势活动位置重新定位到从其开始作出期望手势的中间位置。在此不摆姿势期期间发生的任何图像处理有效地总计为浪费的处理周期和浪费的功率,并且因此可被停止,这还有助于功率效率。
因此,在这样的示例情况下,图像处理可以在无姿势期期间以及在随后的简短拖延期停止。简短期(本文被称作拖延期)可以例如在50到500毫秒、或50到250毫秒、或50到100毫秒的范围中。在更一般的意义上,这个拖延期可以被设置为反映用户将他/她的手部从鼠标/键盘/屏幕移回到通常实施基于手部的导航姿势的中间位置所花费时间段的任何延迟。如先前解释的,这个中间位置的定位可以是用户可配置的。以类似的方式,拖延期也可以是用户可配置的(如果这样期望的话)以便提供定制的性能。
如将根据本公开进一步领会的,可以选择性地使用或以其它方式调整拖延期,这取决于操作的环境因素,例如当前在计算机系统上执行的应用(例如,文字处理应用对游戏应用)、功率保存方案(例如,全功率模式对睡眠或其它低功率模式)、和/或那个计算机系统的功率源(例如,电池对市电电源(mains))。例如,根据一些实施例,当在外部功率上操作时,则拖延期可以被设置为零或某个更低延迟以便提供更大的响应性,这可以是取决于应用而期望的。同样地,当执行具有严格瞬时响应性要求的应用(例如某些游戏应用)时,则拖延期可以被设置为零或某个更低延迟以便提供更大的瞬时响应性。在其它示例场景中,如果计算机系统正在电池功率上运行时,则例如50-100毫秒延迟可以是可接受的以适应从低功率状态醒来的平台(例如,以便允许PCH/CPU/DRAM加电回来)。同样地,如果近来发生按键按压/鼠标运动,则附加的50-100毫秒延迟可以是可接受的,这是因为当用户的手部移回到中间位置时通常将没有姿势出现。一般的想法是:因为可能没有相关的事情出现在照相机的FOV中,例如当用户不可能作出姿势时,或当用户正作出系统未准备好解释的姿势时,在拖延期期间,图像预处理的停止是可接受的。
如先前指出的,阈值检测级和目标存在级中的每个(或任何其它级)可以响应于拖延控制信号而被禁用,例如,当存在用户没有作出需要分析的导航姿势或系统没准备好解释这样的导航姿势的指示时,所述拖延控制信号被选择性地设置(或复位,根据具体情况而定)。表1示范提供这样的指示的示例活动。
可检测的活动 | 指示 | 拖延控制信号 |
基于鼠标的活动 | 用户不做姿势 | 禁用GP电路 |
基于键盘的活动 | 用户不做姿势 | 禁用GP电路 |
基于触摸屏的活动 | 用户不做姿势 | 禁用GP电路 |
基于操作杆的活动 | 用户不做姿势 | 禁用GP电路 |
基于控制台的活动 | 用户不做姿势 | 禁用GP电路 |
从低功率状态唤醒 | 系统没准备好 | 禁用GP电路 |
应用运行 | 系统没准备好 | 禁用GP电路 |
CPU周期处于最大 | 系统没准备好 | 禁用GP电路 |
电子邮件应用 | 低的响应性 | 禁用GP电路 |
游戏应用 | 高的响应性 | 启用GP电路 |
表1:示例拖延期指示符
每当拖延控制信号被复位(以便禁用GP电路),它停留在禁用状态简短的拖延期(例如,50到500毫秒)以便有效禁止不必要的视频姿势预处理。例如,可以由操作系统的软件或主机计算机系统的BIOS来实现可检测活动的拖延评价和拖延控制信号的设置/复位。在另一实施例中,拖延评价可以被实现在计算机系统上执行的特定姿势处理驱动器内。
以下用伪RTL逻辑来提供示例实现,其中信号“Reg_Processing_Enable”用于启用/禁用姿势预处理任务。注意这些任务是彼此并行运行。
例如,在一个这样的示例情况下,信号Reg_Processing_Enable可以是消息或令牌,其被往下传到(例如,从操作系统或BIOS或专用驱动器)相机传感器中的姿势预处理单元(例如,阈值检测级、目标存在级等)来启用/禁用它们的操作,例如在图1a-b和图2a的示例实施例中示出的。在更一般的意义上,拖延评价可以被实现在存在对感兴趣操作环境因素(例如,用户输入装置活动的指示符、功率纯源化(sourcing)和状态、以及应用状态)的接入的任何级别上。许多其它类型的用户活动和他/她的计算机系统的操作状态/环境可用在如本文所描述的拖延确定中。在任何这样的情况下,如本文各方面描述的姿势预处理活动可以在时间段选择性地禁用以便当用户不可能作出导航姿势时,或当用户正作出系统没准备好解释的姿势时节省平台功率。
示例系统
图9根据一些实施例图示可实现如本文所描述的视频内容的分步的分布式姿势预处理的示例系统900。在一些实施例中,系统900可以是媒体系统,虽然系统900不限于这个上下文。例如,系统900可并入到个人计算机(PC)、膝上型计算机、超膝上型计算机、平板计算机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能装置(例如,智能电话、智能平板计算机或智能电视)、移动互联网装置(MID)、消息传递装置、数据通信装置、机顶盒、游戏控制台、或能够执行图形渲染操作的其它这样的计算环境。
在一些实施例中,系统900包括耦合到显示器920的平台902。平台902可从内容装置(例如内容服务装置930或内容递送装置940或其它类似内容源)接收内容。导航控制器950包括可用于与例如平台902和/或显示器920交互的一个或多个导航特征,以便补充用户的导航摆姿势。以下更详细地描述这些示例部件中的每个。
在一些实施例中,平台902可包括芯片集905、处理器910、存储器912、存储装置914、图形子系统915、应用916和/或无线电装置918的任何组合。芯片集905可提供处理器910、存储器912、存储装置914、图形子系统915、应用916和/或无线电装置918间的互通。例如,芯片集905可包括能够提供与存储装置914的互通的存储装置适配器(未描绘)。
例如,处理器910可被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核、或任何其它微处理器或中央处理单元(CPU)。在一些实施例中,处理器910可包括双核处理器、双核移动处理器等等。例如,存储器912可实现为易失性存储器装置,例如但不限于,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、或静态RAM(SRAM)。例如,存储装置914可实现为非易失性存储装置,例如但不限于,磁盘驱动器、光盘驱动器、磁带驱动器、内部存储装置、附连的存储装置、闪速存储器、电池备份SDRAM(同步DRAM)、和/或网络可存取存储装置。在一些实施例中,例如,当包括多个硬驱动器时,存储装置914可包括用来增加有价值数字媒体的存储性能增强保护的技术。
图形子系统915可执行例如静止或视频的图像的处理以供显示。例如,图形子系统915可以是图形处理单元(GPU)或视觉处理单元(VPU)。模拟或数字接口可用于在通信上耦合图形子系统915和显示器920。例如,接口可以是高清晰度多媒体接口、显示端口、无线HDMI、和/或适应无线HD的技术中的任何一个。图形子系统915可集成到处理器910或芯片集905中。图形子系统915可以是在通信上耦合到芯片集905的孤立卡。本文描述的分步的分布式图形和/或视频处理技术可在各种硬件架构(例如,接近相机的相机硅中的GP电路)中实现。在又一实施例中,包括分布式预处理级中的一些(例如,手部分析器和姿势识别)的图形和/或视频功能件可由通用处理器(包括多核处理器)实现。在另外其它情况下,可使用共处一地或离散的GPU处理器(例如,分割级)。
无线电装置918可包括能够使用各种合适的无线通信技术来传送并接收信号的一个或多个无线电设备。这样的技术可涉及跨一个或多个无线网络的通信。示范性无线网络包括(但不限于)无线局域网(WLAN)、无线个人区域网络(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在跨这样的网络通信时,无线电装置918可根据任何版本中的一个或多个可应用标准来操作。
在一些实施例中,显示器920可包括任何电视或计算机类型的监视器或显示器。显示器920可包括例如液晶显示器(LCD)屏幕、电泳显示器(electrophoretic display, EPD)或液体纸显示器、平板显示器、触摸屏显示器、类似电视的装置、和/或电视。显示器920可以是数字的和/或模拟的。在一些实施例中,显示器920可以是全息或三维显示器。而且,显示器920可以是可接收视觉投影的透明表面。这样的投影可传达各种形式的信息、图像、和/或对象。例如,这样的投影可以是移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用916的控制下,平台902可在显示器920上显示用户接口922。
在一些实施例中,例如,内容服务装置930可由任何国家、国际和/或独立服务托管(host)并且因此经由因特网或其它网络对平台902可接入。内容服务装置930可耦合到平台902和/或显示器920。平台902和/或内容服务装置930可耦合到网络960来向并且从网络960传递(例如,发送和/或接收)媒体信息。内容递送装置940也可耦合到平台902和/或显示器920。在一些实施例中,内容服务装置930可包括有线电视盒、个人计算机、网络、电话、能够传递数字信息和/或内容的因特网使能的装置或器具、以及能够经由网络960或直接在内容提供商与平台902和/显示器920之间单向或双向传递内容的任何其它类似装置。将领会,可经由网络960向并且从系统900中任一个部件和内容提供商单向和/或双向传递内容。内容的示例可包括任何媒体信息(包括例如视频、音乐、图形、文本、医疗和游戏内容等等)。
内容服务装置930接收例如包括媒体信息的有线电视节目的内容、数字信息、和/或其它内容。内容提供商的示例可包括任何有线或卫星电视或广播(radio)或因特网内容提供商。提供的示例不旨在限制要求保护的发明。在一些实施例中,平台902可从具有一个或多个导航特征的导航控制器950接收控制信号。例如,控制器950的导航特征可用于与用户接口922交互。在一些实施例中,导航控制器950可以是指点装置,其可以是允许用户将空间(例如,连续的和多维的)数据输入到计算机的计算机硬件部件(具体是人接口装置)。许多系统(例如,图形用户接口(GUI)、电视和监视器)允许用户使用物理姿势来控制并且提供数据到计算机或电视。
控制器950的导航特征的运动可由指针、光标、聚焦环、或在显示器上显示的其它视觉指示符的运动而在显示器(例如,显示器920)上重复。例如,在软件应用916的控制下,位于导航控制器950上的导航特征可映射到在用户接口922上显示的虚拟导航特征。在一些实施例中,控制器950可以不是单独的部件而是集成到平台902和/或显示器920中。然而,如将领会的,实施例不限于本文中示出或描述的元件或上下文。
在一些实施例中,驱动器(未示出)可包括在初始引导之后(例如,当启用时)使得用户能够用按钮的触碰来立即打开并关闭类似电视的平台902的技术。当平台“关闭”时,程序逻辑可允许平台902将内容流播(stream)到媒体适配器或其它内容服务装置930或内容传递装置940。此外,例如,芯片集905可包括5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动器可包括集成图形平台的图形驱动器。在一些实施例中,图形驱动器可包括外围部件互连(PCI)快速图形卡。
在各实施例中,系统900中示出的部件中的任何一个或多个可以被集成。例如,平台902和内容服务装置930可以被集成,或平台902和内容递送装置940可以被集成,或平台902、内容服务装置930、和内容递送装置940可以被集成。在各实施例中,平台902和显示器920可以是集成单元。例如,显示器920和内容服务装置930可以被集成,或显示器920和内容递送装置940可以被集成。这些示例不旨在限制要求保护的发明。
在各实施例中,系统900可实现为无线系统、有线系统、或两者的组合。当实现为无线系统时,系统900可包括适合于在无线共享媒体上通信的部件和接口,例如一个或多个天线、传送器、接收器、收发器、放大器、滤波器、控制逻辑等等)。无线共享媒体的示例可包括无线频谱(例如,RF频谱等等)的部分。当实现为有线系统时,系统900可包括适合于在有线通信媒体上通信的部件和接口,例如输入/输出(I/O)适配器、连接I/O适配器与对应有线通信媒体的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等等。有线通信媒体的示例可包括导线、线缆、金属引线、印刷电路板(PCB)、底板、开关构造、半导体材料、双绞线导线、同轴线缆、光纤等等。
平台902可建立一个或多个逻辑或物理信道来传递信息。信息可包括媒体信息和控制信息。媒体信息可涉及表示打算用于用户的内容的任何数据。例如,内容的示例可包括来自语音会话、视频会议、流媒体视频、电子邮件或文本消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等等的数据。控制信息可涉及表示打算用于自动化系统的命令、指令或控制字的任何数据。例如,控制信息可用于通过系统路由媒体信息,或命令节点以预定方式(例如,如本文所描述的,使用辅助用于特权接入侵犯检查的硬件)处理媒体信息。然而,实施例不限于图9中示出或描述的元件或上下文。
如以上所描述的,系统900可以用变化的物理风格或形状因数来实施。图10图示其中可实施系统900的小形状因数装置1000的实施例。例如,在一些实施例中,装置1000可实现为具有无线能力的移动计算装置。例如,移动计算装置可涉及具有处理系统和移动功率源或电源(例如一个或多个电池)的任何装置。
如先前描述的,移动计算装置的示例可包括个人计算机(PC)、膝上型计算机、超膝上型计算机、平板计算机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能装置(例如,智能电话、智能平板计算机或智能电视)、移动互联网装置(MID)、消息传递装置、数据通信装置等等。
移动计算装置的示例还可包括布置成由人穿戴的计算机,例如手腕计算机、手指计算机、环状计算机、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、衣服计算机、以及其它可穿戴计算机。例如,在一些实施例中,移动计算装置可实现为能够执行计算机应用、以及语音通信和/或数据通信的智能电话。虽然可通过示例的方式用实现为智能电话的移动计算装置来描述一些实施例,但可领会,也可使用其它无线移动计算装置来实现其它实施例。实施例不限于这个上下文。
如图10所示,装置1000可包括壳体1002、显示器1004、输入/输出(I/O)装置1006、以及天线1008。装置1000还可包括导航特征1012。显示器1004可包括用于显示适合于移动计算装置的信息的任何合适的显示器单元。I/O装置1006可包括用于将信息输入到移动计算装置的任何合适的I/O装置。I/O装置1006的示例可包括字母数字键盘、数字小键盘、触摸板、输入按键、按钮、相机、开关、摇杆开关、麦克风、扬声器、语音识别装置和软件等等。也可通过麦克风的方式将信息输入到装置1000中。这样的信息可由语音识别装置数字化。实施例不限于这个上下文。
可使用硬件元件、软件元件或两者的组合来实现各种实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片集等等。软件的示例可包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码片段、计算机代码片段、字、值、符号、或其任何组合。是否使用硬件元件和/或软件元件可根据任何数量的例如如下的因素而从一个实施例到下一实施例而不同:所期望的计算速率、功率级别、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其它设计或性能约束。
例如,可使用可存储指令或指令集(如果由机器执行,则可引起机器执行根据本发明实施例的方法和/或操作)的机器可读介质或物品来实现一些实施例。例如,这样的机器可包括任何合适的处理平台、计算平台、计算装置、处理装置、计算系统、处理系统、计算机、处理器等,并且可使用硬件和软件的任何合适组合来实现。例如,机器可读介质或物品可包括任何合适类型的存储器单元、存储器装置、存储器物品、存储器介质、存储装置、存储物品、存储介质和/或存储单元,例如,存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器密致盘(CD-ROM)、可记录密致盘(CD-R)、可重写密致盘(CD-RW)、光盘、磁性介质、磁光介质、可移除存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、盒式录音带等。指令可包括任何合适类型的可执行代码(使用任何合适的高级、低级、面向对象的、可视、汇编和/或翻译编程语言来实现)。
根据本公开,许多变化和配置将显而易见。例如,本发明的一个示例实施例提供用于处理原始视频流的系统。系统包括阈值检测级,其配置为确定视频流的当前帧是否与视频流的前一帧充分不同,并且响应于当前帧没有与前一帧充分不同,阈值检测级还配置为停止后续级对当前帧的进一步处理。系统还包括目标存在级,其配置为确定当前帧是否包括肤色颜色的像素,并且响应于当前帧不包括肤色颜色的像素,目标存在级还配置为停止后续级对当前帧的进一步处理。阈值检测级和/或目标存在级中的至少一个可以在拖延期选择性地被禁用。在一些情况下,阈值检测级配置为合计并且比较当前帧的亮度通道与前一帧的亮度通道,并且如果当前帧与前一帧之间的变化量大于给定阈值,则当前帧的数据被传到目标存在级用于进一步处理。在一些情况下,目标存在级配置为将当前帧的数据转换成一个或多个HSV像素,并且如果找到充分数量的肤色颜色的像素,则当前帧的数据被传到下一处理级。在一个这样的情况下,下一处理级是分割级,其配置为将感兴趣的像素与不感兴趣的像素分开,其中感兴趣的像素被表示为二进制大对象并且不感兴趣的像素由非二进制大对象表示。在这样的情况下,分割级可以配置为如下中的至少一个:消除由于相机噪声和/或照明引起的分散像素,和/或使用腐蚀和/或放大变形方法来处理成像数据。在其它这样的情况下,分割级被实现在图形处理单元(GPU)中。在其它这样的情况下,系统还包括分析器级,其配置为执行从分割级接收的二进制大对象数据的空间解释。在一个这样的情况下,分析器级通过将二进制大对象数据映射到目标人体解剖几何形状的模型来执行空间解释。目标人体解剖几何形状可以是例如手部。在其它这样的情况下,系统还包括姿势识别级,其配置为执行从分析器级接收的二进制大对象数据的时间解释。在一个这样的情况下,分割级、分析器级、和/或姿势识别级中的至少一个配置为将反馈发送到阈值检测级和/或目标存在级中的至少一个。根据本公开,其它有关实施例将显而易见。例如,另一实施例提供包括如在这段中多方面定义的系统以及在操作上耦合到那个系统的相机的成像装置。在一个这样的情况下,阈值检测级和目标存在级中的至少一个被实现在相机的传感器电路内。本发明的另一示例实施例提供包括如在这段中多方面定义的系统的显示器。在一些示例情况下,拖延期在50到1000毫秒的范围中,并且响应于系统的用户不可能作出导航姿势或系统没准备好处理视频(例如,因为它正在醒来)的指示而被触发。
本发明的另一示例实施例提供用于处理原始视频流的系统。系统包括阈值检测级,其配置为确定视频流的当前帧是否充分不同于视频流的前一帧,并且响应于当前帧没有充分不同于前一帧,阈值检测级还配置为停止后续级对当前帧的进一步处理。系统还包括目标存在级,其配置为确定当前帧是否包括肤色颜色的像素,并且响应于当前帧不包括肤色颜色的像素,目标存在级还配置为停止后续级对当前帧的进一步处理。系统还包括分割级,其配置为接收来自当前帧的数据,并且将感兴趣的像素与不感兴趣的像素分开,其中感兴趣的像素被表示为二进制大对象并且不感兴趣的像素由非二进制大对象表示。系统还包括:手部分析器级,配置为执行从分割级接收的二进制大对象数据的空间解释;以及姿势识别级,配置为执行从手部分析器级接收的二进制大对象数据的时间解释并且识别用户基于手部的导航姿势。阈值检测级、目标存在级、分割级、分析器级和姿势识别级以分步的分布式布置进行配置,并且阈值检测级和/或目标存在级中的至少一个可以在拖延期被选择性禁用。在一些情况下,阈值检测级和目标存在级中的至少一个在相机内或接近相机(可在第一位置处部署并且具有包括用户输入区域的视场)实现,并且分割级、分析器级和姿势识别级位于不同于第一位置的一个或多个位置。在一些情况下,阈值检测级和目标存在级在显示器内实现。在一些情况下,分割级在图形处理单元中实现,并且分析器级和姿势识别级由应用软件实现。在一些情况下,系统还包括:应用编程接口(API),用于在操作上将一个或多个级耦合到系统配置为工作在其中的计算平台。在一些这样的情况下,API被表示为扩展的通用串行总线人机接口(USB HID)类装置。在一些示例情况下,拖延期在50到1000毫秒的范围中,并且响应于系统的用户不可能作出导航姿势或系统没准备好处理视频的指示而被触发。另一示例实施例提供媒体处理系统,它包括如在此段中多方面描述的系统。另一示例实施例提供移动计算系统(例如,智能电话、平板计算机、膝上型计算机、上网本),它包括如在此段中多方面描述的系统。
本发明的另一实施例提供使用原始视频流的计算机导航方法。方法包括:在第一处理级处确定视频流的当前帧是否充分不同于视频流的前一帧,并且响应于当前帧没有充分不同于前一帧,停止后续级对当前帧的进一步处理。方法继续在第二处理级处确定当前帧是否包括肤色颜色的像素,并且响应于当前帧不包括肤色颜色的像素,停止后续级对当前帧的进一步处理。第一和第二处理级中的至少一个可以在拖延期被选择性禁用,拖延期在50到1000毫秒的范围中并且响应于没有作出导航姿势的指示而被触发,因此通过避免没有导航姿势的视频帧的处理而保存功率。在一些情况下,方法继续在第三处理级处接收来自当前帧的数据,并且将感兴趣的像素与不感兴趣的像素分开,其中感兴趣的像素被表示为二进制大对象并且不感兴趣的像素由非二进制大对象表示。在一些情况下,方法继续在第四处理级处通过将二进制大对象数据映射到人体解剖几何形状来执行从第三处理级接收的二进制大对象数据的空间解释。在一些情况下,方法继续在第五处理级处执行从第四处理级接收的二进制大对象数据的时间解释来识别用户导航姿势。在一些情况下,方法继续基于用户导航姿势指导计算系统。在一些示例情况下,这些处理级以分步的分布式布置进行配置。
为了图示和描述的目的,已经呈现本发明的示例实施例的上文描述。不旨在是穷举的或将本发明限制于公开的精确形式。许多修改和变化按照本公开是可能的。旨在本发明的范围不限制于此详细描述,但是限制于随附的权利要求。
Claims (24)
1.一种用于处理原始视频流的系统,包括:
阈值检测级,配置为确定所述视频流的当前帧是否充分不同于所述视频流的前一帧,并且响应于所述当前帧没有充分不同于所述前一帧,所述阈值检测级还配置为停止后续级对所述当前帧的进一步处理;以及
目标存在级,配置为确定所述当前帧是否包括肤色颜色的像素,并且响应于所述当前帧不包括肤色颜色的像素,所述目标存在级还配置为停止后续级对所述当前帧的进一步处理;
其中所述阈值检测级和/或目标存在级中的至少一个能够在拖延期被选择性禁用,并且
其中所述拖延期是响应于所述系统的用户不可能作出导航姿势或所述系统未准备好处理视频的指示而被触发的时间段。
2.如权利要求1所述的系统,其中所述阈值检测级配置为合计并且比较所述当前帧的亮度通道与所述前一帧的亮度通道,并且如果所述当前帧与所述前一帧之间的变化量大于给定阈值,则所述当前帧的数据被传到所述目标存在级用于进一步处理。
3.如权利要求1所述的系统,其中所述目标存在级配置为将所述当前帧的数据转换成一个或多个HSV像素,并且如果找到充分数量的肤色颜色的像素,则所述当前帧的数据被传到下一处理级。
4.如权利要求3所述的系统,其中所述下一处理级是分割级,所述分割级配置为将感兴趣的像素与不感兴趣的像素分开,其中感兴趣的像素被表示为二进制大对象,并且不感兴趣的像素由非二进制大对象表示。
5.如权利要求4所述的系统,其中所述分割级配置为如下中的至少一个:消除由于相机噪声和/或照明引起的分散像素,和/或使用腐蚀和/或放大变形方法来处理成像数据。
6.如权利要求4所述的系统,其中所述分割级在图形处理单元(GPU)中实现。
7.如权利要求4所述的系统,还包括:
分析器级,配置为通过将从所述分割级接收的二进制大对象数据映射到目标人体结构几何形状的模型来执行所述二进制大对象数据的空间解释。
8.如权利要求7所述的系统,其中所述目标人体结构几何形状是手部。
9.如权利要求7所述的系统,还包括:
姿势识别级,配置为执行从所述分析器级接收的二进制大对象数据的时间解释以便查找所述用户的手部的位置改变。
10.如权利要求9所述的系统,其中所述分割级、分析器级和/或姿势识别级中的至少一个配置为将反馈发送到所述阈值检测级和/或所述目标存在级中的至少一个。
11.如权利要求1所述的系统,其中所述拖延期在50到1000毫秒的范围中。
12.一种成像装置,包括权利要求1至11中任一项所述的系统和在操作上耦合到所述系统的相机。
13.如权利要求12所述的成像装置,其中所述阈值检测级和所述目标存在级中的至少一个在所述相机的传感器电路内实现。
14.一种显示器,包括权利要求1至11中任一项所述的系统。
15.一种用于处理原始视频流的系统,包括:
阈值检测级,配置为确定所述视频流的当前帧是否充分不同于所述视频流的前一帧,并且响应于所述当前帧没有充分不同于所述前一帧,所述阈值检测级还配置为停止后续级对所述当前帧的进一步处理;
目标存在级,配置为确定所述当前帧是否包括肤色颜色的像素,并且响应于所述当前帧不包括肤色颜色的像素,所述目标存在级还配置为停止后续级对所述当前帧的进一步处理;
分割级,配置为接收来自所述当前帧的数据,并且将感兴趣的像素与不感兴趣的像素分开,其中感兴趣的像素被表示为二进制大对象并且不感兴趣的像素由非二进制大对象表示;
手部分析器级,配置为将从所述分割级接收的二进制大对象数据映射到目标人体结构几何形状的模型来执行所述二进制大对象数据的空间解释;以及
姿势识别级,配置为执行从所述手部分析器级接收的二进制大对象数据的时间解释以便查找用户的手部的位置改变并且识别用户基于手部的导航姿势;
其中所述阈值检测级、所述目标存在级、所述分割级、所述手部分析器级和所述姿势识别级以分步的分布式布置进行配置,并且所述阈值检测级和/或所述目标存在级中的至少一个能够在拖延期被选择性禁用,并且
其中所述拖延期是响应于所述系统的用户不可能作出导航姿势或所述系统未准备好处理视频的指示而被触发的时间段。
16.如权利要求15所述的系统,其中所述阈值检测级和/或所述目标存在级中的至少一个在相机内或接近相机实现,所述相机可在第一位置处部署并且具有包括用户输入区域的视场,并且所述分割级、手部分析器级和姿势识别级位于不同于所述第一位置的一个或多个位置。
17.如权利要求16所述的系统,其中所述阈值检测级和所述目标存在级在显示器内实现。
18.如权利要求15所述的系统,其中所述分割级在图形处理单元中实现,并且所述手部分析器级和所述姿势识别级由应用软件实现。
19.如权利要求15所述的系统,还包括:应用编程接口(API),用于在操作上将一个或多个所述级耦合到所述系统配置为工作在其中的计算平台。
20.如权利要求19所述的系统,其中所述应用编程接口被表示为扩展的通用串行总线人机接口(USB HID)类装置。
21.如权利要求15所述的系统,其中所述拖延期在50到1000毫秒的范围中。
22.一种媒体处理系统,包括权利要求15至21中任一项所述的系统。
23.一种移动计算系统,包括权利要求15至21中任一项所述的系统。
24.一种使用原始视频流的计算机导航方法,包括:
在第一处理级处确定所述视频流的当前帧是否充分不同于所述视频流的前一帧,并且响应于所述当前帧没有充分不同于所述前一帧,停止后续级对所述当前帧的进一步处理;以及
在第二处理级处确定所述当前帧是否包括肤色颜色的像素,并且响应于所述当前帧不包括肤色颜色的像素,停止后续级对所述当前帧的进一步处理;
其中所述第一和第二处理级中的至少一个能够在拖延期被选择性禁用,所述拖延期在50到1000毫秒的范围中并且响应于系统用户不可能作出导航姿势或系统未准备好处理视频的指示而被触发,因此通过避免没有导航姿势的视频帧的处理来保存功率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/737413 | 2013-01-09 | ||
US13/737,413 US9104240B2 (en) | 2013-01-09 | 2013-01-09 | Gesture pre-processing of video stream with hold-off period to reduce platform power |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103916647A CN103916647A (zh) | 2014-07-09 |
CN103916647B true CN103916647B (zh) | 2017-04-12 |
Family
ID=49999722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410010010.3A Active CN103916647B (zh) | 2013-01-09 | 2014-01-09 | 采用拖延期的视频流的姿势预处理来减少平台功率 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9104240B2 (zh) |
EP (1) | EP2755165A3 (zh) |
CN (1) | CN103916647B (zh) |
TW (1) | TWI516099B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9747306B2 (en) * | 2012-05-25 | 2017-08-29 | Atheer, Inc. | Method and apparatus for identifying input features for later recognition |
EP3617843A1 (en) * | 2012-12-10 | 2020-03-04 | Samsung Electronics Co., Ltd. | Mobile device, control method thereof, and ui display method |
US8761448B1 (en) * | 2012-12-13 | 2014-06-24 | Intel Corporation | Gesture pre-processing of video stream using a markered region |
US9292103B2 (en) | 2013-03-13 | 2016-03-22 | Intel Corporation | Gesture pre-processing of video stream using skintone detection |
US9430045B2 (en) * | 2013-07-17 | 2016-08-30 | Lenovo (Singapore) Pte. Ltd. | Special gestures for camera control and image processing operations |
US10845884B2 (en) * | 2014-05-13 | 2020-11-24 | Lenovo (Singapore) Pte. Ltd. | Detecting inadvertent gesture controls |
US20180307318A1 (en) * | 2016-06-28 | 2018-10-25 | Chia Chuan Wu | Gesture embedded video |
US10614292B2 (en) * | 2018-02-06 | 2020-04-07 | Kneron Inc. | Low-power face identification method capable of controlling power adaptively |
CN110139305B (zh) * | 2018-02-08 | 2022-02-25 | 中兴通讯股份有限公司 | 流量使用情况的监控方法及装置、存储介质 |
CN109947238B (zh) * | 2019-01-17 | 2020-07-14 | 电子科技大学 | 一种基于wifi的非合作式手势识别的方法 |
KR102359367B1 (ko) * | 2020-04-07 | 2022-02-07 | 주식회사 엔씨소프트 | 게임 스트리밍을 위한 방법 및 장치 |
US11782149B2 (en) | 2021-01-08 | 2023-10-10 | Google Llc | Systems and methods for managing motion detection of an electronic device, and associated electronic devices |
US12099112B2 (en) | 2021-01-08 | 2024-09-24 | Google Llc | Systems and methods for managing sensors of an electronic device, and associated electronic devices |
JP7562867B2 (ja) * | 2021-01-08 | 2024-10-07 | グーグル エルエルシー | 電子デバイスの動き検知を管理するためのシステムおよび方法、ならびに関連する電子デバイス |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346990A (zh) * | 2005-12-28 | 2009-01-14 | 富士通株式会社 | 电视电话功能的拍摄图像处理切换装置 |
CN101551732A (zh) * | 2009-03-24 | 2009-10-07 | 上海水晶石信息技术有限公司 | 带有交互功能的增强现实的方法及其系统 |
CN102184021A (zh) * | 2011-05-27 | 2011-09-14 | 华南理工大学 | 一种基于手写输入和指尖鼠标的电视人机交互方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9019538D0 (en) | 1990-09-07 | 1990-10-24 | Philips Electronic Associated | Tracking a moving object |
WO1993007554A1 (en) | 1991-10-07 | 1993-04-15 | Eastman Kodak Company | A compositer interface for arranging the components of special effects for a motion picture production |
US6067125A (en) | 1997-05-15 | 2000-05-23 | Minerva Systems | Structure and method for film grain noise reduction |
US6301370B1 (en) | 1998-04-13 | 2001-10-09 | Eyematic Interfaces, Inc. | Face recognition from video images |
AU2002305387B2 (en) | 2001-05-04 | 2008-04-03 | Legend Films, Llc | Image sequence enhancement system and method |
US7027054B1 (en) | 2002-08-14 | 2006-04-11 | Avaworks, Incorporated | Do-it-yourself photo realistic talking head creation system and method |
US7436981B2 (en) | 2005-01-28 | 2008-10-14 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7796827B2 (en) | 2004-11-30 | 2010-09-14 | Hewlett-Packard Development Company, L.P. | Face enhancement in a digital video |
US8019170B2 (en) | 2005-10-05 | 2011-09-13 | Qualcomm, Incorporated | Video frame motion-based automatic region-of-interest detection |
US7634108B2 (en) | 2006-02-14 | 2009-12-15 | Microsoft Corp. | Automated face enhancement |
TWI377055B (en) | 2007-08-10 | 2012-11-21 | Ind Tech Res Inst | Interactive rehabilitation method and system for upper and lower extremities |
US20110299774A1 (en) | 2008-04-22 | 2011-12-08 | Corey Mason Manders | Method and system for detecting and tracking hands in an image |
DE102008052928A1 (de) | 2008-10-23 | 2010-05-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung, Verfahren und Computerprogramm zur Erkennung einer Geste in einem Bild, sowie Vorrichtung, Verfahren und Computerprogramm zur Steuerung eines Geräts |
WO2010099034A1 (en) | 2009-02-25 | 2010-09-02 | Honda Motor Co., Ltd. | Capturing and recognizing hand postures using inner distance shape contexts |
US9417700B2 (en) * | 2009-05-21 | 2016-08-16 | Edge3 Technologies | Gesture recognition systems and related methods |
US8428368B2 (en) * | 2009-07-31 | 2013-04-23 | Echostar Technologies L.L.C. | Systems and methods for hand gesture control of an electronic device |
KR101167784B1 (ko) | 2010-07-09 | 2012-07-25 | 성균관대학교산학협력단 | 단말기의 후면부 손가락 움직임에 따른 포인터 인식 방법 및 제어 명령어 인식 방법 |
US8792722B2 (en) * | 2010-08-02 | 2014-07-29 | Sony Corporation | Hand gesture detection |
US9213890B2 (en) | 2010-09-17 | 2015-12-15 | Sony Corporation | Gesture recognition system for TV control |
US8817087B2 (en) | 2010-11-01 | 2014-08-26 | Robert Bosch Gmbh | Robust video-based handwriting and gesture recognition for in-car applications |
WO2012139242A1 (en) | 2011-04-11 | 2012-10-18 | Intel Corporation | Personalized program selection system and method |
EP2512141B1 (en) | 2011-04-15 | 2019-07-17 | Sony Interactive Entertainment Europe Limited | System and method of user interaction in augmented reality |
US8761448B1 (en) | 2012-12-13 | 2014-06-24 | Intel Corporation | Gesture pre-processing of video stream using a markered region |
US8805017B2 (en) | 2012-12-13 | 2014-08-12 | Intel Corporation | Gesture pre-processing of video stream to reduce platform power |
US9129155B2 (en) | 2013-01-30 | 2015-09-08 | Aquifi, Inc. | Systems and methods for initializing motion tracking of human hands using template matching within bounded regions determined using a depth map |
US9292103B2 (en) | 2013-03-13 | 2016-03-22 | Intel Corporation | Gesture pre-processing of video stream using skintone detection |
-
2013
- 2013-01-09 US US13/737,413 patent/US9104240B2/en active Active
-
2014
- 2014-01-08 TW TW103100634A patent/TWI516099B/zh not_active IP Right Cessation
- 2014-01-08 EP EP14150415.9A patent/EP2755165A3/en not_active Withdrawn
- 2014-01-09 CN CN201410010010.3A patent/CN103916647B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346990A (zh) * | 2005-12-28 | 2009-01-14 | 富士通株式会社 | 电视电话功能的拍摄图像处理切换装置 |
CN101551732A (zh) * | 2009-03-24 | 2009-10-07 | 上海水晶石信息技术有限公司 | 带有交互功能的增强现实的方法及其系统 |
CN102184021A (zh) * | 2011-05-27 | 2011-09-14 | 华南理工大学 | 一种基于手写输入和指尖鼠标的电视人机交互方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201448581A (zh) | 2014-12-16 |
EP2755165A3 (en) | 2018-01-17 |
TWI516099B (zh) | 2016-01-01 |
US9104240B2 (en) | 2015-08-11 |
EP2755165A2 (en) | 2014-07-16 |
CN103916647A (zh) | 2014-07-09 |
US20140193030A1 (en) | 2014-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103916647B (zh) | 采用拖延期的视频流的姿势预处理来减少平台功率 | |
US10261596B2 (en) | Gesture pre-processing of video stream using a markered region | |
CN104050443B (zh) | 使用肤色检测的视频流的姿势预处理 | |
US11592872B2 (en) | Systems and methods for configuring displays based on paired keyboard | |
US8805017B2 (en) | Gesture pre-processing of video stream to reduce platform power | |
CN105051792B (zh) | 用于使用深度映射和光源合成增强3d图像的设备 | |
CN111541907B (zh) | 物品显示方法、装置、设备及存储介质 | |
WO2022170221A1 (en) | Extended reality for productivity | |
Yu et al. | Vision-based hand recognition based on tof depth camera | |
Suresh et al. | Virtual Mouse Implementation using Color Pointer Detection | |
Lee et al. | Finger gesture input utilizing the rear camera of a mobile phone: A perspective of mobile CAD | |
Lee et al. | Real time FPGA implementation of hand gesture recognizer system | |
Oh et al. | Finger gesture-based three-dimension mobile user interaction using a rear-facing camera | |
Krishna | Automated Gesture Recognition System Using Raspberry Pi | |
Vibhute Pritish et al. | Wearable Computer Vision based Human Assistance System using Android 4.0. 3 ICS Operating System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |