CN103455978A

CN103455978A - 用于增强视频图像的设备和方法

Info

Publication number: CN103455978A
Application number: CN2013102112702A
Authority: CN
Inventors: G.D.克莱默; T.E.卢卡斯-伍德利; W.O.赛克斯; A.R.萨法里阿泽阿拉姆达利
Original assignee: Sony Computer Entertainment Europe Ltd
Current assignee: Sony Interactive Entertainment Europe Ltd
Priority date: 2012-05-31
Filing date: 2013-05-31
Publication date: 2013-12-18
Anticipated expiration: 2033-05-31
Also published as: GB2502591B; GB201209723D0; CN103455978B; EP2669868B1; EP2669868A1; US20130321463A1; US9214044B2; GB2502591A

Abstract

一种增强视频图像的方法，包括步骤：估计视频图像内捕获的标识表面的范围；标识与视频图像内标识表面的估计范围对应的测试区域内的皮肤像素；基于标识的皮肤像素，外推在测试区域之外的视频图像内的皮肤像素的位置；由标识的皮肤像素和外推的皮肤像素的组合生成掩蔽；设置实际上叠加在视频图像内标识表面的顶部上的计算机图形的范围，该范围大于标识表面的估计范围；和对应于生成的掩蔽叠加视频图像的图形增强。

Description

用于增强视频图像的设备和方法

技术领域

本发明涉及用于增强视频图像的设备和方法。

背景技术

典型的增强现实（或者“AR”）应用或系统接收实际环境的实况或记录的视频图像，且然后以下述方式以计算机图形增强这些视频图像，即计算图形显得在视频图像中以与实际环境的移动或位置一致的方式移动或定位。

效果是以一致和可信的方式将计算机图形（或者“虚拟物体”）插入实际环境中。优选地，这实时进行；就是说，以正常视频帧速率执行视频的生成和增强。可以在

PlayStation

或者“PS3”

的游戏“Eye Pet”

中看到其示例。

大多数AR应用或系统通过在其外观和维度已知的环境中利用实际物体且随后预先将该物体的外观和维度编码为计算机中的基准模型来实现此。通过比较视频图像中找到的该物体的规模和定向与基准模型，计算机可以计算应该应用于用于增强该图像的虚拟物体的相应规模和定向。

为了在不利的光照条件下，或者在使用中的视频相机具有低分辨率时改进该处理的可靠性，通常使用的实际物体是所谓的参照标记800，其示例如图1所示。这种标记典型地具有高对比度边界和图形以改进对光照的鲁棒性，且图形典型地是非对称的以帮助解决标记的定向。

随后，AR应用对视频图像的增强通常将计算机图形定位于参照标记之上，以使得在用户实现信任的中止；例如，如果标记放置在平坦表面上，那么整个平坦表面可以与图形效果重叠（比如跑道或者运动场等）。在这种情况下，如果用户希望与该平坦表面顶部的实际或虚拟物体交互，那么AR应用能够标识用户的皮肤色调并在重叠的计算机图形与视频图像中用户的皮肤一致时省略（或遮蔽掉）该重叠的计算机图形，由此使得用户的皮肤（例如，用户的手）显得在图形层的前面。

但是，通常皮肤色调的标识的精确度可能相对差，导致用户的手在计算机图形上的过度渲染（noisy）或者不调和的遮蔽（patchy masking）。

发明内容

本发明寻求解决或缓解上述问题。

在第一方面中，根据权利要求1提供增强视频图像的方法。

在另一方面中，根据权利要求9提供娱乐装置。

在另一方面中，根据权利要求15提供增强的现实系统

本发明的另外的各个方面和特征在所附权利要求中限定。

附图说明

现在将通过参考附图以示例的方式描述本发明的实施例。

图1是参照标记的示意图；

图2是根据本发明实施例的娱乐装置的示意图；

图3A是根据本发明实施例的书的示意图；

图3B是根据本发明实施例的增强的书的捕获的视频图像的示意图；

图4A是根据本发明实施例的书的捕获的视频图像的示意图；

图4B是根据本发明实施例的遮蔽物的示意图；

图4C是根据本发明实施例的增强的书的捕获的视频图像的示意图；

图5是以计算机图形增强的捕获的视频图像的示意图；

图6是根据本发明实施例的遮蔽物的示意图；

图7是根据本发明实施例的增强视频图像的方法的流程图。

具体实施方式

公开了增强视频图像的设备和方法。在下面描述中，呈现多个特定细节以提供本发明实施例的全面理解。但是，对于本领域技术人员来说很明显不需要采用这些特定细节来实践本发明。相反地，为了清楚的目的在适当时省略本领域技术人员已知的特定细节。

如上所述，

是用于实现增强现实的适当设备或娱乐装置，典型地当连接到比如EyeToy的适当的视频相机时，或者当在适当的软件控制（比如AR应用）下操作时。

图2示意性地图示已知为

PlayStation

娱乐装置或者

的适当的娱乐装置的整个系统架构。PS3包括系统单元10，如下详细所述地，包括视频相机的外围装置可连接到该系统单元10。

系统单元10包括：单元处理器100；

动态随机存取存储器（SDRAM）单元500；具有专用视频随机存取存储器（VRAM）单元250的现实合成器图形单元200；和I/O桥接器700。

系统单元10还包括通过I/O桥接器700可访问的用于从盘440读取的Blu

Disk

光盘读取器430和可拆卸插槽式硬盘驱动器（HDD）400。可选地，系统单元还包括用于读取致密闪存储存储卡的、存储棒

储存卡等的存储卡读取器450，其类似地通过I/O桥接器700可访问。

I/O桥接器700还连接到四个通用串行总线（USB）2.0端口710；G比特以太端口720；IEEE802.11b/g无线网络（Wi-Fi）端口730；和能够支持多达七个蓝牙连接的蓝牙无线链路端口740。

在操作中，I/O桥接器700处理所有无线、USB和以太数据，包括来自一个或多个游戏控制器751的数据。例如，当用户正在玩游戏时，I/O桥接器700经由蓝牙链路从游戏控制器751接收数据，并将其导向单元处理器100，该单元处理器100相应地更新游戏的当前状态。

无线、USB和以太端口还提供除了游戏控制器751之外用于其它外围装置的连接性，比如，遥控器752、键盘753、鼠标754、便携式娱乐装置755（比如Sony Playstation

娱乐装置）和头带耳机757。这种外围装置因此原则上可以无线地连接到系统单元10；例如，便携式娱乐装置755可以经由Wi-Fi自组织连接通信，同时头戴耳机757可以经由蓝牙链路通信。

具体地说，这些连接使得比如视频相机756（或者立体视频相机，未示出）之类的视频相机能够耦接到PS3，以捕获书的视频图像（或立体视频图像对）。

提供这些接口意味着Playstation3装置还潜在地与其它外围装置（比如数字录像机（DVR）、机顶盒、数码相机、便携式媒体播放器、IP语音电话、移动电话、打印机和扫描仪）兼容。

另外，传统存储卡读取器410可以经由USB端口710连接到系统单元，使能由

或者Playstation

装置使用的这种存储卡420的读取。

在本实施例中，游戏控制器751可操作以经由蓝牙链路与系统单元10无线地通信。但是，游戏控制器751可以代替地连接到USB端口，由此还提供对游戏控制器751的电池进行充电的功率。除了一个或多个模拟操作杆和现有的控制按钮之外，游戏控制器对在六个自由度（对应于每个轴的平移和旋转）上的运动敏感。因此，除了现有的按钮或操作杆命令，或者代替现有的按钮或操作杆命令，游戏控制器的用户的手势和移动也可以翻译为对游戏的输入。可选地，比如便携式娱乐装置755或者Playstation

758之类的其它无线使能外围装置可以用作控制器。在便携式娱乐装置的情况下，可以在装置的屏幕上提供另外的游戏或控制信息（例如，控制指令或生命数目）。在Playstation Move的情况下，控制信息可以由内部运动传感器和通过Playstation Move装置上监控光的视频两者提供。其它替代的或补充的控制装置也可以使用比如跳舞毯（未示出）、激光枪（未示出）、方向盘和踏板（未示出）或者预约控制器，比如用于快速响应问答游戏的单个或几个大的按钮（同样未示出）。

遥控器752也可操作为经由蓝牙链路与系统单元10无线通信。遥控器752包括适于蓝光盘BD-ROM读取器430的操作和用于盘的内容的导航的控制。

除了现有预记录和可记录CD之外，蓝光盘BD-ROM读取器430可操作为读取与Playstation和Playstation2装置兼容的CD-ROM，和所谓的超级音频CD。除了现有的预记录和可记录DVD之外，读取器430还可操作为读取与Playstation2和Playstation3装置兼容的DVD-ROM。读取器430进一步可操作为读取与Playstation3装置兼容的BD-ROM，以及现有的预记录和可记录蓝光盘。

系统单元10可操作为通过音频和视频连接器将音频和视频（由Playstation3装置经由现实合成器图形单元200生成或解码的）提供给显示和声音输出装置300，比如具有显示器305和一个或多个扬声器310的监视器或电视机。音频连接器210可以包括现有的模拟和数字输出，同时视频连接器220可以多样地包括分量视频、S-视频、合成视频和一个或多个高清晰度多媒体接口（HDMI）输出。因此，视频输出可以以比如PAL或NTSC或者以720p、1080i或1080p高清晰度的格式。

音频处理（生成、解码等）由单元处理器100执行。Playstation3装置的操作系统支持

5.1环绕声、

剧院环绕声（DTS）和来自蓝光

盘的7.1环绕声的解码。

在本实施例中，视频相机756包括单个电荷耦合器件（CCD），LED指示器和基于硬件的实时数据压缩和编码设备，以使得可以以比如基于图像内的MPEG（运动图像专家组）的适当格式发送压缩的视频数据以由系统单元10解码。相机LED指示器布置为响应于来自系统单元10的适当的控制数据照亮，例如表示不利的光照条件。视频相机756的实施例可以经由USB、蓝牙或Wi-Fi通信端口多样地连接到系统单元10。视频相机的实施例可以包括一个或多个相关联的麦克风且也能够发送音频数据。在视频相机的实施例中，CCD可以具有适于高清晰度视频捕获的分辨率。在视频相机的实施例中，其是立体的。在使用中，由视频相机捕获的图像例如可以并入游戏内或者解释为游戏控制输入。

通常，为了经由系统单元10的通信端口之一进行与比如视频相机或遥控器的外围装置的成功的数据通信，应该提供比如装置驱动之类的适当软件。装置驱动技术是公知的且将不在这里详细描述，除了条本领域技术人员将知道在描述的本实施例中可能需要装置驱动或类似的软件接口。

在制造时提供的软件包括系统固件和Playstation3装置的操作系统（OS）。在操作中，OS提供使得用户能够从包括玩游戏、听音乐、看照片或看电影的多种功能中选择的用户界面。该界面以所谓的交叉媒体条（XMB）的形式，其中功能的种类水平排列。用户通过使用游戏控制器751、遥控器752或其它适当的控制装置水平地移动通过功能图标（表示功能）来导航，从而在选项图标的垂直可卷动列表的中心在该功能图标上时高亮想要的功能图标（在该点属于该功能的选项出现），这可以以模拟方式导航。但是，如果游戏、音频或电影盘440插入BD-ROM光盘读取器430，Playstation3装置可以自动地选择适当的选项（例如，通过开始游戏）或者可以提供相关选项（例如，在播放音频盘或压缩其内容到HDD400之间选择）。

另外，OS提供在线性能，包括网络浏览器，与可以从其下载另外的游戏内容，示范游戏（demos）和其它媒体的在线商店的界面，以及朋友管理性能，提供与由当前装置的用户任命的其它Playstation3装置用户的在线通信。该在线性能还提供在玩适当配置的游戏期间的在线通信、内容下载和内容购买，且提供Playstation3装置本身的固件和OS的更新。将认可术语“在线”并不暗指线路的物理存在，因为该术语可应用于多种类型的无线连接。

现在参考图3A和图3B，在本发明的实施例中，书1000具有多个刚性可翻动的页（所谓的“板页”），并包括每一页1001、1002上的参照标记1011、1012，如图3A所示。页将被理解为书的单个可翻动的纸张或面板，且典型地包括每一侧上的页。图3A和图3B通过示例的方式示出页1和2（分别标记为1001和1002）。可选地，书的内侧的前和/或后封面也可以用作页，并包括参照标记。因此，在该示例中，页1实际上可以是内侧前封面。类似的，可选地外侧前和/或后封面可以包括参照标记。另外，可选地，每个页的边缘在外边缘具有高对比度标记1020以促进页的内容的检测。

耦接到视频相机的娱乐装置可以捕获书的图像并使用已知的技术来检测每一可见页上的参照标记，且因此定位书的那些页。给定该信息，然后如图2B所示，娱乐装置可以以对应于可见页上的参照标记1011、1012的放置、规模和定向的弹出的虚拟计算机图形元素1111、1112来增强书的捕获的视频图像，并输出增强的视频图像以显示。以该方式，书的显示的版本变为其中页可以活起来的“魔术”弹出式书。

在这些页的很多上，可以期望图形角色可以动作化故事，且需要用户与其交互。例如，在已知的故事三只小猪的交互版本中，在后续页中可以询问用户收集稻草、木头或砖块用于各个页中的猪的角色来使用以建造房屋。

同样地，在典型的使用中，书的页可被处理为用于增强的现实播放的一系列表面。

因此，在典型的使用场景中，在平面上呈现给用户的书的视频图像由完全覆盖书的描绘场景的计算机图形的重叠（比如示出三只小猪的房屋的地图）来增强。

因此，如果用户希望与该场景交互（例如，点击上房屋上以开始故事的相应部分），那么他们将他们的手在书上方移动。因为他们的手也是初始的视频图像的一部分，经由重叠的计算机图形覆盖。这不仅模糊用户的手，使得精确的交互（例如，指向房屋）困难，而且还损坏图形是书的一部分的幻觉，因为用户知道他们的手在书的上方，但是显示为在计算机图形的下面。

因此，如上所述，为解决该问题，AR应用可以以多个已知技术中的任意一个，通过检测输入视频图像中的皮肤像素来特别地修改增强处理，并且应用对应于那些皮肤像素的遮蔽物（mask），以使得计算机图形不叠加在与皮肤像素对应的遮蔽物区域中。结果，用户的手等看起来其在与书重叠的计算机图形的上方。

由于阴影、不同的光照颜色温度或者用户的皮肤和背景表面之间的低对比度，在某些情况下皮肤像素的标识可能很困难。

在本发明的实施例中，为改进皮肤和书之间的区分，书的页是非皮肤色调，比如绿或蓝。因此，例如，书的背景可以以亮蓝色，同时以暗蓝色印刷参照标记（和任意其它标记）。替代地可以使用亮和暗的绿色方案。

使用这种用户书本的颜色方案，则在捕获的图像中由书本占据的区域内，可以假定落在皮肤色调的宽范围内的任意像素必须属于用户，因为所有其它像素将以书本的色调。

将理解由AR应用基于参照标记或者在书本的页上可见的标记的位置、规模和定向以及它们与书本的已知的物理关系（大小、位置等）来估计视频图像中由书本占据的区域。同时对于其中书本在视频图像中可见的图像的区域，在用户的手或者手臂与书本的边缘交叉的区域中，这可以与书本的颜色方案交叉验证，然后仅估计是可用的。

因此在本发明的实施例中，可选地输入视频图像被处理（例如，由单元处理器100或者由用作图像处理装置的现实合成器图形单元200中的遮蔽器），以规范化捕获的图像的红色、绿色和绿色（“RGB”）通道的值。就是说，对于图像的给定像素，S=R+G+B，且像素的颜色值然后更新为R/S、G/S和B/S。

这产生保持原始图像的R:G:B比率同时具有均匀的亮度水平的图像，由此去除由于高亮或阴影引起的图像中的变化。其一个优点是由于来自用户的手落在书本上的阴影引起的任意交互错误因而可以由该步骤减轻，虽然并不必要地完全消除。

无论是否以该方式处理，单元处理器100或现实合成器图形单元200然后基于测试中的像素的颜色通道中红色对蓝色值的第一阈值比率和/或可能不同的红色对蓝色值的第二阈值比率，来对于书本的估计区域中的每个像素是否是皮肤色调而测试该像素。换句话说，取决于R:B和/或R:G阈值，响应于像素的颜色平衡是否超过红色的预定阈值纯度，将像素分类为皮肤或非皮肤像素。因此该分类可用于产生二进制值的皮肤/非皮肤掩码。

因为书本的背景颜色设计为产生捕获图像中非常高的绿色或蓝色像素颜色值，所以可以使得经验地确定的一个或多个阈值水平对从浅白色到暗黑色的宽范围的皮肤色调敏感，这些皮肤色调都包含比书本更高的红色的比例。就是说，可以积极地设置一个或多个阈值水平以包围皮肤色调的大范围。

因此，提供了检测用户的皮肤而不需要用户的任意校准的有力的和计算简单的方法。

上述技术在产生用于与增强层一起使用的书本上的掩蔽时工作良好，使得用户的手显得在叠加在书本上的图形之上。

因此，参考图4A，在该处理的示例中，用户的手（1300）放在屋里的书本之上。在该情况下，示出该书本在页1和2上打开且除了页1和2（1001，1002）的参照标记1011和1012之外还包括多个可选的印刷要素，包括位于参照标记和书本的一个或多个外边缘之间的非字母数字图案（1040A-D），且其可以用于在同一页上的参照标记变为被看到之前，将新的页标识为在其上翻页的多个页，由此使能展现出的页的更高的增强。因此，当结合如由书本的不同页上的参照标记指示的书本的规模和定向使用是，每个非字母数字图案能够至少指示相对的一对页，其包含非字母数字图案位于其上的各个页。另外，可以提供边界图案（1030A-D，1035L、R），在那里书本的封面延伸到页的维度之外。这些图案再次以与书本的页相同的蓝色或绿色方案，且例如可以用于检测书本的一个或多个页是否翻页，或者书本本身是否和上（仅该第二动作导致边界图案的相应翻转）。这可以用于当书本正在合上时停止一般的和估计的增强页的初始显示。这种初始显示通常可以用于隐藏正在展现的新的蓝色或绿色的页，直到其由非字母数字图案或者在其上印刷的参照标记适当地标识为止。

现在参考图4B，基于上述的书本的占主导的蓝色或绿色页和用户的皮肤之间的差别的检测，基于如先前所述的书本的估计区域初始地生成皮肤掩蔽。该皮肤掩蔽可被称为初始皮肤掩蔽。图4B示出了对应于图4A中所示的书本的估计区域的这种初始皮肤掩蔽1320。在该初始皮肤掩蔽中，对应于皮肤色调的像素1340的区域以黑色示出。这些像素可被称为皮肤掩蔽的背景内的皮肤像素（即，标识在视频图像中在哪里找到皮肤像素的二进制值）。

现在参考图4C，在产生的增强图像中，重叠的计算机图形（1113）被叠加在书本的估计区域之上（如之前所述，如基于参照标记的位置、规模、定向以及这些对书本的已知的物理关系而计算的），并且在该情况下完全遮挡该估计区域，除了由初始皮肤掩蔽作为皮肤像素遮蔽掉的书本的那些区域之外。如上所述，结果是用户的手1300显得保留在计算机图形之上。

但是，实际上，上述书本的区域的计算可能不是完全精确的。其原因包括输入视频图像的分辨率，这给予参照标记的垂直和水平测量有限的精确性。就是说，书本可能小量地倾斜或旋转或充定位，然而仍然将参照标记映射到输入视频图像的同一像素上。但是，整体的书本典型地是参照标记的大小的3到6倍，且因此同一小范围的角度可能导致书本的区域的估计的典型1到5个像素的误差。误差的程度可能是参照标记的相关角度的函数（例如，浅的角度可能导致更大的估计误差），且因此可以根据参照标记的外观上的角度来估计可能的误差的大小。

在任意情况下，因为书本大部分是浅蓝色（或者浅绿色），在误差导致增强未对准且没有完全覆盖书本时，这在增强的图像中非常明显。

可以以几种方式减轻该误差。

一个方式是当首先估计视频图像中书本的区域时校验视频图像；书本的估计的区域可以与视频图像比较，且紧接在与紧接在边界内的相邻像素同一颜色（或在容差内）的估计区域的边界之外的视频图像中的任意像素可被分类为书本的一部分。如果以该方式分类出在书本的任意一侧上的边界之外的多余阈值百分比的像素，则区域可以在该侧延伸一个像素，且可以重复该处理，以生长该估计区域直到其适配为止。但是，该方法具有几个问题，第一个是如果背景（例如书本放置在其上的地毯）也在颜色方案的容差内，则系统可能将背景错误地分类为书本的一部分。另一问题由混淆（aliasing）引起。在书本边缘的像素的颜色可能由于混淆而是蓝色（例如）和背景颜色的混合，且蓝色的比例可能逐像素地改变。因此，书本的外观上的范围可能快速波动±1像素，这是不希望的。第三个问题在于当用户的手或手臂遮挡了边界的大比例（这可能是如果用户持有书本的情况），则可能在一侧没有足够边界来可信地校验在任意情况下边界外测的像素的阈值数目。简短地说，存在与校验书本的边缘相关联的大量波动的变量和条件，这使得视频图像的一致的处理很困难。

因此，另一方式是简单地假定书本部分地大于其估计的范围，以使得在增强的图像中增强以典型的1到5像素的量级延伸超出书本的估计区域。如上所述，可能的错误的程度可能与参照标记的当前定向成正比，且这可以用于选择将增强延伸多远。实际上，对于大多数情况，增强延伸1或2个像素超出书本的计算的范围。

这是通过过估计几个像素来隐藏书本的区域的估计中的误差的相对简单的方式。

但是，现在参考图5，这导致了新的问题。在图5中，扩展的计算机图形1113’（仅为了示例的目的）比其重叠的书本的估计区域大5%。

同时，用于保证用户的皮肤显得在叠加的计算机图形的顶部的皮肤掩蔽仍然基于书本的初始估计的区域。结果，计算机图形现在将重叠视频中用户皮肤1310的区域，其超出物理书本的估计的区域且不包括在皮肤掩蔽中。如图5所示，效果是计算机图形像素的薄的边界在用户的手/手臂交叉到书本的表面上的点处显得在用户的手/手臂的顶部。

显而易见的解决方案可能是简单地将皮肤像素的检测延伸到计算机图形的扩展的区域。但是，由系统应用的积极的皮肤色调检测基于背景是书本的蓝色或绿色的假设，且该假设在书本的估计区域外不能保证。结果，如果皮肤像素检测处理应用于计算机图形的扩展的区域，则（取决于背景的颜色，例如，红色的毯子），扩展区域的大部分将错误地作为皮肤掩蔽掉。

原则上，可以看到以与第一解决方案互补的方式解决书本大小估计误差；如果它们是蓝色/绿色则添加像素到书本，如果它们不是蓝色/绿色则从扩展的书本区域删除它们。但是，将认可该方法同样具有与第一方法相同的问题，即当存在混淆背景时失败（这里可适用的蓝色或绿色）和由于混淆引起的波动。

因此，现在参考图4B且还参考图6，在本发明的实施例中，如先前所述的，基于书本的初始估计区域初始地生成初始皮肤掩蔽，如图4B所示。

图6示出图4B的初始皮肤掩蔽的角落的特写视图，这里对应于掩蔽中的皮肤像素的区域1340到达初始皮肤掩蔽的边缘1322，因此指示用户的手/手臂交叉书本的估计边缘的区域。

可通过对于沿着边界的邻近的一组皮肤像素（即，多于预定阈值数目的像素）分析初始皮肤掩蔽的边界来自动找到该区域。该数目可以与视频图像中的书本的当前规模成正比，这又指示在视频图像中用户的手/手臂当放在书本之上时可能的规模。

这样一组中的第一和最后像素（1342，1352）然后可以用于预测其中用户的手/手臂突出到初始皮肤掩蔽的范围之外的另外的区域。

因此，在本发明的实施例中，本领域中已知的任意适当的边缘跟踪技术可以用于从上述的第一和最后像素中的每个开始，跟踪发展到掩蔽区域中的皮肤像素区域的各个边缘。

该跟踪可对于预定距离（在此选择性地与视频图像中当前检测到的书本的规模/大小成比例）进行，以达到沿着由掩蔽定义的用户的手/手臂的轮廓的边缘的点。

一旦对于该预定距离跟踪，在达到的点和形成边缘跟踪的开始点的各个第一或最后像素之间的线（1344，1354）可被计算并突出到掩蔽之外。该线基于适配掩蔽的皮肤像素区域的跟踪的边缘的多边形而可以是直线或曲线。因此，该线预测用户的手/手臂的外边缘怎样可能地从视频图像内书本的初始估计的区域之外继续到相邻区域中。

给定这些预测，然后可以计算这些线与用于扩展图形（1113’）的书本的区域的扩展的估计的边缘（1324）的交叉点（1346，1356）。由书本的区域的初始估计的边缘限定的区域，书本的区域的扩展的估计的边缘（1324）和由皮肤掩蔽计算的线（1344，1354）然后表示可能的皮肤区域（1360），其可能包括不应该由扩展的计算机图形覆盖的另外的皮肤像素。

因此，皮肤掩蔽可以扩展以匹配书本的扩展的估计的区域。假定掩蔽的扩展的区域是非皮肤像素，除了在上述可能的皮肤区域（1360）中。

在该可能的皮肤区域中，掩蔽可以简单地填充有皮肤像素掩蔽值。替代地，可以以如前所述的皮肤检测器分析可能的皮肤区域，可选地以不同的R:B和/或R:G比率阈值。因为该区域非常接近匹配视频图像中皮肤的可能位置，所以该区域中背景作为皮肤的大范围的误分类的可能性很小，使得在该区域中检测器的使用是可接受的。

可选地，可能的皮肤区域可以平行于估计的区域的各个边缘扩展几个像素（例如，1和5个像素之间，可选地与视频图像中书本的当前检测的规模/尺寸，或者可能的皮肤区域自身的尺寸成正比）。换句话说，新的皮肤区域可以在初始估计的书本区域和扩展估计的书本区域之间的区域中扩展预定数目的像素。这减少了用户的手/手臂的视频图像由新的皮肤掩蔽剪切的机会，其潜在代价是几个像素被误分类为皮肤像素（再次，该扩展区域可被简单地设置为掩蔽中的皮肤像素，或者使得经历皮肤检测处理）。

因此，通过上述实施例中的技术的使用，可以通过选择性地检测（或设置）基于书本的初始估计区域内检测到的皮肤掩蔽像素预测的区域中的书本的初始估计区域相邻的皮肤掩蔽像素，缓解位于书本的边缘相邻的皮肤区域之上的扩展的计算机图形的问题，以使得背景颜色和混淆抖动的问题变得对实际上检测到皮肤的区域实质上无意义。

将认可用户的手/手臂的外边缘怎么可能地继续到视频图像内书本的初始估计区域之外的预测可以由任意适当的方式进行，例如包括估计初始皮肤掩蔽的皮肤像素内的中线且因此皮肤像素的全部方向，且然后将皮肤像素从如上所述的第一和最后皮肤像素（1342，1352）传播到由中线指示的方向上的相邻区域中。

在本发明的另一实施例中，使得初始皮肤掩蔽极小地小于书本的区域的初始估计，例如，小几个（1-5个）像素。这将偏离在视频图像中书本的实际区域之外的初始估计的误差的效果减轻了几个像素，以使得使用积极的皮肤色调检测处理评估一些背景像素。然后，皮肤掩蔽可以每个如前所述的处理都扩展到书本的初始估计区域或者书本的扩展估计区域（按照需要的）和标识的任意新的皮肤区域中填充的扩展区域。

因此，在本发明的概括实施例中，用于增强现实应用的娱乐装置（例如，PS3，10）包括用于接收视频图像的视频输入端（例如，USB，WiFi或蓝牙

输入端），可操作以估计视频图像内捕获的识别的表面（1320）的范围的图像处理器（例如，在适当的软件指令下操作的单元处理器100和/或现实合成器图形单元200，可操作以标识与视频图像内标识的表面的估计范围对应的测试区域（1320）内的皮肤像素的皮肤像素检测器（例如，再次在适当的软件指令下操作的单元处理器100），在操作中布置以基于标识的皮肤像素来外推在测试区域外测的视频图像内皮肤像素的位置的处理器（例如，再次在适当的软件指令下操作的单元处理器100），可操作以由标识的皮肤像素和外推的皮肤像素的组合来生成掩蔽的掩蔽发生器（例如，在适当的软件指令下操作的单元处理器100和/或现实合成器图形单元200），以及可操作以将计算机图形的范围设置为实质上重叠在视频图形内标识的表面的顶部上的处理器，该范围比标识的表面的估计的范围更大，以及可操作以响应于生成的掩蔽叠加视频图像的图形增强的图像处理器。将认可生成的掩蔽将具有与计算机图形相同的范围，或者可选地更大。

在概括的实施例的情况下，测试区域（1320）与视频图像内标识的表面的估计范围相同。但是，在替代的情况下，测试区域从视频图像内标识的表面的估计范围的边缘扩展到预定数目像素之内。如前所述，预定数目的像素可以对应于估计书本在视频图像中占据的区域。

在任一情况下，在概括实施例的情况下，如前所述，在操作中布置处理器以标识交叉测试区域的边缘（1322）的皮肤像素的区域（1340），且对于标识的区域，在操作中布置以标识在边缘的第一外围皮肤像素（1342，1352），描绘（trace）远离边缘预定距离的区域的外围并从测试区域的边缘向外外推轨迹（1344，1354）。

替代地，在概括实施例的情况下，然后如前所述，在操作中布置处理器以标识交叉测试区域区域的边缘（1322）的皮肤像素的区域（1340），且对于该标识的区域，在操作中布置以计算与测试区域的边缘交叉的中心线（例如，使用骨骼建模技术或者其它适当的技术），计算垂直于中心线的区域宽度-例如在垂直于中心线的线交叉第一外围皮肤像素之一的点的宽度（1342，1352）-和对应于中心线的方向和计算的区域宽度将标识的区域传播到测试区域的边缘之外。

在任一情况下，在概括实施例的情况下，在操作中布置掩蔽发生器以标识测试区域的边缘和计算图形的范围的边缘之间的外推的皮肤像素的区域，并生成代表标识的皮肤像素和标识的外推皮肤像素的掩蔽。作为标识适当的外推皮肤像素的处理的一部分，掩蔽发生器可以操作以检测标识的区域中的外推的皮肤像素是否满足皮肤像素颜色测试，且仅如果像素通过测试才标识像素为外推的皮肤像素。

实际上，娱乐装置将与可操作地耦合到娱乐装置的视频相机结合地使用，且如这里所述的书本至少包括用于标识书本表面的目的的第一参照标记。

现在转到图7，增强视频图像的方法包括：

在第一步骤s10中，估计视频图像内捕获的标识的表面的范围；

在第二步骤s20中，标识与视频图像内的标识的表面的估计范围对应的测试区域内的皮肤像素；

在第三步骤s30中，基于标识的皮肤像素外推在测试区域之外的视频图像内皮肤像素的位置；

在第四步骤s40中，由标识的皮肤像素和外推的皮肤像素的组合生成掩蔽；

在第五步骤s50中，设置计算机图形的范围实质上重叠在视频图像内标识的表面的顶部之上，该范围比标识的表面的估计的范围更大；和

在第六步骤s60中，对应于生成的掩蔽叠加视频图像的图形增强。

对于本领域技术人员很明显在本发明的范围内考虑对应于如上所述和在这里要求权利的设备的各种实施例的操作的上述方法的变型，包括但不限于：

测试区域与视频图像内标识的表面的估计的范围相同，或者测试区域从视频图像内标识的表面的估计范围的边缘延伸到预定数目像素之内；

在任一情况下，外推步骤包括：标识与测试区域的边缘交叉的皮肤像素的区域，且对于该标识的区域，标识在边缘的第一外围皮肤像素，跟踪远离边缘预定距离的区域的外围，且从测试区域的边缘向外外推轨迹，或者

外推步骤包括标识与测试区域的边缘交叉的皮肤像素的区域，且对于该标识的区域，计算与测试区域的边缘交叉的中心线，计算与中心线垂直的区域宽度，且对应于中心线的方向和计算的区域宽度将标识的区域传播到测试区域的边缘之外；

在任意情况下，该生成掩蔽的步骤包括标识测试区域的边缘和计算机图形的范围的边缘之间的外推的皮肤像素的区域，和生成代表标识的皮肤像素和标识的外推皮肤像素的掩蔽，

且其中标识外推的皮肤像素的区域的步骤可以包括检测外推的皮肤像素是否满足皮肤像素颜色测试，并如果像素通过测试才标识像素为外推的皮肤像素。

最后，将认可在这里公开的方法可以在适当地适配为可由软件指令应用的现有硬件上或者由专用硬件的内含物或替代来执行。

因此，对现有等效装置的现有部分的所需的适配可以以非瞬时计算机程序产品或者制造的类似物体的形式实现，包括：可实现在数据载体上存储的指令的处理器，该数据载体比如软盘、光盘、硬盘、PROM、RAM、闪存存储器或这些活其它存储介质的任意组合，或者以硬件实现的处理器，比如ASIC（特定用途集成电路）或者FPGA（场可编程门阵列）或者适于适配于现有等效装置使用的其它可配置电路。分开地，如果可应用，计算机程序可采取网络上经由数据信号的传输的形式，该网络比如以太网、无线网、因特网或者这些或其它网络的任意组合。

Claims

1.一种增强视频图像的方法，包括步骤：

估计视频图像内捕获的标识表面的范围；

标识与视频图像内的标识表面的估计范围对应的测试区域内的皮肤像素；

基于标识的皮肤像素，外推在测试区域之外的视频图像内的皮肤像素的位置；

设置实际上要叠加在视频图像内的标识表面的顶部上的计算机图形的范围，该范围大于标识表面的估计范围；和

从标识的皮肤像素和外推的皮肤像素的组合生成掩蔽，该掩蔽至少具有与计算机图形相同的范围；和

对应于生成的掩蔽叠加视频图像的图形增强。

2.如权利要求1所述的方法，其中，所述测试区域与视频图像内的标识表面的估计范围相同。

3.如权利要求1所述的方法，其中，所述测试区域从视频图像内的标识表面的估计范围的边缘延伸到预定数目的像素内。

4.如权利要求1所述的方法，其中，所述外推步骤包括：

标识与测试区域的边缘交叉的皮肤像素的区域；和

对于标识的区域，

标识在边缘的第一外围皮肤像素；

追溯远离边缘预定距离的区域的外围；和

从测试区域的边缘向外外推轨迹。

5.如权利要求1到3中的任意一个所述的方法，其中，所述外推步骤包括：

标识与测试区域的边缘交叉的皮肤像素的区域；和

对于标识的区域，

计算与测试区域的边缘交叉的中心线；

计算垂直于中心线的区域宽度；和

对应于中心线的方向和计算的区域宽度在测试区域的边缘之外传播标识区域。

6.如权利要求1所述的方法，其中，所述生成掩蔽的步骤包括：

标识测试区域的边缘和计算机图形的范围的边缘之间的外推的皮肤像素的区域；和

生成代表标识的皮肤像素和标识的外推的皮肤像素的掩蔽。

7.如权利要求6所述的方法，其中，所述标识外推的皮肤像素的区域的步骤包括：

检测外推的皮肤像素是否满足皮肤像素颜色测试，和

如果像素通过测试则标识所述像素为外推的皮肤像素。

8.用于实现权利要求1的步骤的计算机程序。

9.一种用于增强现实应用的娱乐装置，包括：

用于接收视频图像的视频输入端；

图像处理器，可操作以估计视频图像内捕获的标识表面的范围；

皮肤像素检测器，可操作以标识与视频图像内标识表面的估计范围对应的测试区域内的皮肤像素；

处理器，在操作中布置以基于标识的皮肤像素外推测试区域之外的视频图像内的皮肤像素的位置，

所述处理器可操作以设置实际上要叠加在视频图像内的标识表面的顶部上的计算机图形的范围，该范围大于标识表面的估计范围；

掩蔽生成器，可操作以由标识的皮肤像素和外推的皮肤像素的组合生成掩蔽，该掩蔽至少具有与计算机图形相同的范围；和

所述图像处理器可操作以对应于生成的掩蔽叠加视频图像的图形增强。

10.如权利要求9所述的娱乐装置，其中，所述测试区域与视频图像内的标识表面的估计范围相同。

11.如权利要求9所述的娱乐装置，其中，所述测试区域从视频图像内标识表面的估计范围的边缘延伸到预定数目的像素内。

12.如权利要求9所述的娱乐装置，其中，所述处理器在操作中布置以：

标识与测试区域的边缘交叉的皮肤像素的区域；和

对于标识的区域，

标识在边缘的第一外围皮肤像素；

追溯远离边缘预定距离的区域的外围；和

从测试区域的边缘向外外推轨迹。

13.如权利要求9到11中的任意一个所述的娱乐装置，其中，所述处理器在操作中布置以：

标识交叉测试区域的边缘的皮肤像素的区域；和

对于标识的区域，

计算与测试区域的边缘交叉的中心线；

计算垂直于中心线的区域宽度；和

14.如权利要求9所述的娱乐装置，其中，所述掩蔽生成器在操作中布置以：

标识测试区域的边缘和计算机图形的范围的边缘之间的外推的皮肤像素的区域；

检测标识区域中的外推的皮肤像素是否满足皮肤像素颜色测试，

如果像素通过测试则标识所述像素为外推的皮肤像素；和

生成代表标识的皮肤像素和标识的外推皮肤像素的掩蔽。

15.一种增强现实系统，包括：

根据权利要求9到14中的任意一个所述的娱乐装置；

可操作以耦合到所述娱乐装置的视频相机；和

包括用于标识书本的表面的目的的参照标记的书本。