CN102292689B

CN102292689B - 利用脸部检测和热点运动控制媒体的方法

Info

Publication number: CN102292689B
Application number: CN200980155057.6A
Authority: CN
Inventors: 杨瑞多; 罗英; 张涛
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2016-08-03
Anticipated expiration: 2029-01-21
Also published as: JP5706340B2; EP2384465A1; WO2010085221A1; CN102292689A; US20110273551A1; JP2012515968A

Abstract

本发明涉及使用姿势控制交互媒体的健壮方法。利用脸部检测和(热点)运动控制多媒体设备的方法提供了使发出命令不易受影响的准确性，其中所述方法涉及如下步骤：使用当前捕获图像(C_i)提取热点区；计算和分析当前捕获图像(C_i)与以前捕获图像(C_i?1)之间的差值，得出D_i；对D_i应用腐蚀运算以消除小区域；将提取的(热点)运动区用作屏蔽区以过滤掉非热点运动区；加入D_i以构建运动图像；求出所有检测到运动相连组元的最大x，y和最小x，y坐标，将每一个表示成lx，ly，sx和sy；以及执行一种算法来确定手势是否代表控制多媒体设备的命令。

Description

利用脸部检测和热点运动控制媒体的方法

技术领域

本发明涉及控制多媒体输出设备的方法，尤其，本发明涉及利用脸部检测和热点运动控制多媒体输出设备的方法。

背景技术

操作电子设备越来越依赖于允许用户从远处发出命令的电子遥控器。一般说来，遥控器是自供电的，经由红外(IR)和无线电信号发出命令。

在一个典型家庭中，像电视或视频投影系统、卫星或有线电视(TV)接收器、CD(激光唱盘)播放器、录像机、DVD(多功能视频盘)播放器、音频调谐器、计算机系统、和甚至照明设备那样的一个或多个电子设备都可以用遥控器来控制。尽管这些遥控器已经变得非常复杂，但遥控器的使用始终受大众欢迎。许多电子消费者强烈希望提高与所有形式的多媒体，尤其电视的互动性。

电子消费者早就希望抛开电子遥控器，特别是通过人体的姿势提高与媒体的交互性和参与性。就命令媒体输出端和与媒体输出端交互来说，手部动作被证明是有价值的。

姿势识别技术使用户可以无需使用像电子遥控器那样的其它机械设备地与电子设备交互。这种技术通常包括拍摄人体运动的摄像机，并且将从摄像机中收集的数据传送到计算机。然后，计算机将所选姿势识别成电子设备的有意命令。例如，在实际中，用户可以将手指点在电视机或计算机屏幕上，以便移动光标或激活应用命令。

在美国专利第7,283,983中公开了一种交互式媒体系统，其中讲述了将计算机与摄像机耦合以便提供利用成像和识别技术的方法，与像书籍、教材、杂志、海报、图表、地图、个人网页、包装材料、游戏卡等那样的印刷媒体的使用结合为使用人员提供放大了的交互性。该计算机系统使用基于视觉的传感器来识别印刷媒体和检索与那种观看相对应的信息。然后，传感器至少针对媒体的一部分识别第一用户姿势。然后，计算机系统将该姿势翻译成命令，并且至少部分根据第一姿势和所检索信息，该系统以电子方式大声说出所检索信息的至少一部分。

人体姿势可以来源于任何身体运动或状态，包括上述的手部动作。脸部识别通过区分那些姿势来自何处，并过滤掉不相关运动，可以进一步帮助运动检测系统。

尽管人类具有识别和区分脸部的与生俱来能力，但将那种天生能力应用于计算机软件却相当困难。然而，在过去几年里，已经开发出了较好的系统。

与计算机系统一起使用的脸部识别使得可以从数字图像或视频源中识别和核实个人。由于人脸具有许多可区分特点，所以对这些特点的比较可以用于识别个人。通过使用某些算法，计算机软件可以比较像眼睛之间的距离、眼窝的深度、颧骨的形状那样的特点，以及许多其它脸部特征，然后将每种特征与现有脸部数据相比较。

授予Agraham等人的美国专利6,377,995提供了使用脸部和语音识别索引多媒体通信信息，以便可以有效地检索和重放多媒体通信信息的所选部分的方法和装置。该方法和装置结合脸部和语音识别来识别可以包括数据或元数据的多播、多媒体电话会议的参与者。当音频和视频脸部模式两者都与特定参与者的讲话和脸部模型匹配时，服务器就确定那个特定参与者的身份，然后根据参与者的讲话和脸部模式的识别创建参与者的索引，从而将该索引用于划分多媒体通信信息。

深度意识摄像机已经用得很普遍，并且也用于控制媒体。像Sony Eyetoy和Playstation Eye那样的视频模式识别软件利用专门摄像机生成通过摄像机短距离观看的深度图，使用户可以使用运动、颜色检测和甚至声音(使用内置麦克风)与媒体交互。

授予McCarty等人的美国专利6,904,408讲述了用于定制用户网页浏览经验的网页内容管理器。该管理器按照如收集在遗留数据库中的用户心理喜好和响应至少一个实时可观察行为信号来选择合适在线媒体。皮肤温度、脉搏、心率、呼吸率、EMG(肌电图)、EEG(脑电图)、声压和姿势识别是一些行为响应，并且对心理指标加以测量和分析。姿势识别通过视频输入的计算机分析来完成。脸部的位置可以指示乐观或悲观态度，其中每分钟眨眼数可以用于指示焦虑性。

对于许多应用都已经证明姿势识别是有长处的。但是，姿势识别也存在许多挑战，包括姿势识别软件的健壮性和准确性。对于基于图像的姿势识别，存在与装备和存在于视场中的噪声量有关的局限性。无意的姿势和背景运动阻碍了发出命令的全面识别。

发明内容

本发明提供了使用姿势控制交互媒体的健壮方法。利用脸部检测和热点运动控制媒体的方法提供了使发出命令不易受影响的准确性，其中所述方法涉及如下步骤：使用当前捕获图像(C_i)提取运动区；计算和分析当前捕获图像(C_i)与以前捕获图像(C_i-1)之间的差值，得出D_i；对D_i应用腐蚀运算以消除小区域；将提取的热点区用作屏蔽区以过滤掉非运动区；加入D_i以构建运动历史图像；求出所有检测到运动相连组元的最大x，y和最小x，y坐标；将每一个表示成lx，ly，sx和sy；以及执行一种算法来确定手势是否是控制媒体的命令。

本发明进一步涉及一种媒体控制装置，让该媒体控制装置包含具有图像传感器的摄像机和通过所述图像传感器接收画面图像的输入图像模块。所述输入图像模块进一步通过存储器与脸部检测模块和姿势识别模块连接。媒体控制界面接收来自所述输入图像模块的命令，并且将电信号发送给多媒体输出设备。

附图说明

下文将参照附图以及参考实施例对本发明作更详细说明，在附图中：

图1是多媒体控制系统使用的代表性装备的方块图；

图2是多媒体控制系统的透视图；

图3是脸部检测模块的流程图；

图4是使用脸部检测算法处理当前捕获图像的脸部检测模块的例示性表示；

图5是姿势识别模块的流程图；

图6是使用姿势识别算法处理当前捕获图像的姿势识别模块的例示性表示。

具体实施方式

现在对本发明作更详细描述，其中本发明的实施例例示在附图中。

现在参照图1，例示了按照本发明的多媒体控制系统1。该多媒体控制系统1包含图像传感器2、与存储器5连接的输入图像模块4、媒体控制界面6、与存储器5连接的脸部检测模块10和姿势识别模块20、和多媒体输出设备8。

尤其，图像传感器2是将光图像转换成电信号的器件。在处理之前将电信号输入图像模块4中并存储到存储器5中。

基本上，如图2进一步例示，图像传感器2与数字摄像机30结合在一起使用。摄像机30用于将光线聚焦在图像传感器2上并捕获光线。图像传感器2从多媒体用户3中捕获多个静止图像，多媒体用户3可以向多媒体输出设备8发出命令也可以不向多媒体输出设备8发出命令。图像传感器2完成将捕获光线转换成通过输入图像模块4来处理的电输出信号的任务。脸部检测和姿势识别模块10、20通过存储器5与输入图像模块4连接，与确定用户3是否执行了发出命令结合在一起处理电信号。

摄像机30可以含有变焦透镜(未示出)，该变焦透镜可以通过角度θ调整摄像机的视场。这是限制潜在噪声的首要和最基本方式。多媒体用户3可以调整摄像机30，以便摄像机可以聚焦在多媒体用户3上。

在一个实施例中，输入图像模块4是像微处理器那样的可编程器件。尽管可以集成地将输入图像模块4制造到数字摄像机30中，但进一步的实施例也可以允许输入图像模块4单独构成，与摄像机30和图像传感器2分开，和通过电线连接。

输入图像模块4含有存储部件5，存储部件5存储摄像机30捕获的和图像传感器2传信的输入图像帧。将存储图像收集和存储起来用于脸部检测模块10与姿势识别模块20之间的处理。媒体控制界面6也是最好配备在单一结构中的输入图像模块的另一个部件。但是，可以将媒体控制界面6配备成输入图像模块4的外部部件。

输入图像模块4包含按照与脸部检测和姿势识别相联系的算法预编程逻辑功能和连通性的模块10、20。在本发明的一个实施例中，脸部检测和姿势识别模块10、20两者集成地与输入图像模块4一起构成。取决于脸部检测和姿势识别模块10、20的算法所确定的结果，输入图像模块4将如图1所例示，通过媒体控制界面6将命令提供给多媒体输出设备8。

在一个实施例中，通过预先指定的姿势指示预编程命令。姿势识别模块20将许多特定姿势指示识别成要由多媒体输出设备8执行的特定命令。例如，如果用户将他的右手挥到他脸部的右侧，姿势识别模块就将那种姿势识别成关闭多媒体输出设备8的命令。但是，在其它实施例中，系统1将能够使用户3可以将他们自己的特定姿势编程成发出命令。例如，作为关闭命令，用户可以将系统1编程成通过用户将他的左手挥到他脸部的左侧触发关闭命令。

按照本发明的和例示在图1中的多媒体控制系统1向用户3提供了利用脸部检测和热点运动检测控制媒体的方法。本发明的目的是使用户3可以以健壮方式唯一使用人体姿势来控制多媒体输出设备8。这些姿势通过摄像机30和图像传感器2来捕获。但是，只有当在通过脸部检测模块10执行的算法限定和提取的预先指定运动区(热点)中完成姿势时才识别该姿势。姿势识别模块20执行一些算法，以便健壮地确定用户所做的动作是否是实际发出命令。如果姿势识别模块20确定该动作是有意命令，则根据存储器5中预先指定的姿势的字典进一步确定是哪一种命令。

如上所述，每个图像热点区12a、12b通过脸部区域11来定义，其中将第一图像(热点)运动区12a指定成刚好在脸部区域11左侧的区域，而将第二图像(热点)运动区12b指定成刚好在脸部区域11右侧的区域。在所示的实施例中，图像运动区12a、12b任一个的尺度取决于脸部区域f₁的尺寸。脸部区域f₁通过大致在头顶上面的区域、和大致在所检测脸部下面的区域定义。在所示的实施例中，可以将脸部区域f₁和图像运动(热点)区12a、12b的尺寸校准成更好地完善人体姿势指示14的识别的更小或更大尺度。

如图2所例示，摄像机30捕获视场31中的图像。使用图像传感器2以电子方式将当前捕获图像C_i传信到输入图像模块4，以便由脸部检测模块10来处理。脸部检测模块10通过从f₁开始指定脸部区域，确定视场31中的脸部。根据这个脸部区域f₁，脸部检测模块进一步提取和指定热点区12a、12b，以便完善姿势指示14的识别。也可以让脸部检测模块只提取和指定一个(热点)运动区12a。在这样的状况下，甚至健壮性提高得更多地将单个(热点)运动区12a用于过滤掉不想要运动。

在所示的实施例中，每个热点区12a、12b通过脸部区域11来定义，其中将第一(热点)运动区12a指定成刚好在脸部区域f₁左侧的区域，而将第二(热点)运动区12b指定成刚好在脸部区域f₁右侧的区域。在所示的实施例中，(热点)运动区12a、12b任一个的尺度取决于脸部区域f₁的尺寸。脸部区域f₁通过大致在头顶上面的区域、和大致在所检测脸部下面的区域定义。在所示的实施例中，可以将脸部区域f₁和(热点)运动区12a、12b的尺寸校准成更好地完善人体姿势指示14的识别的更小或更大尺度。

所指定(热点)运动区12a、12b的位置可以是灵活的，只要它们与所检测脸部区域f₁接近，并且可以容易地识别(热点)运动区12a、12b中的捕获图像C_i。例如，正好在头部下面的指定(热点)运动区12a、12b不是好的候选者，因为身体图像将干扰那个区域中的人手图像。

图3是使用脸部检测的图像热点提取方法的流程图，而图4例示了脸部检测方法的直观表示。首先，摄像机30捕获由图像传感器2转换成电信号的当前捕获图像C_i。在存储器5中将信号存储成文件，以便脸部检测模块10可以首先处理它。

脸部检测模块10使用当前图像C_i来执行脸部检测算法13。脸部检测算法13处理当前捕获图像文件C_i，检测视场31中的任何脸部。如上所述，脸部检测算法13能够检测许多脸部，并且指定脸部区域(f₁，f₂，...，f_n)。

最初，脸部检测算法13从存储器5中取出当前图像C_i作为输入文件。将检测的第一脸部指定成脸部区域f₁。取决于视场31内脸部的数量，该算法将识别其它脸部区域，将第二脸部区域指定成f₂，...，f_n，其中n代表视场31中脸部的数量。如果该算法没有检测到脸部，则脸部检测模块10将返回到存储器5，并利用新的捕获图像C_n重复脸部检测算法13的运算。

在识别了一个脸部之后，脸部检测模块10分别将脸部的左区和右区识别和指定成(热点)运动区12a、12b。将(热点)运动区12a、12b用作屏蔽区，以便过滤掉非热点区中的无意姿势指示。一定指定了(热点)运动区12a、12b，该模块就生成输出文件。该输出文件由长方形的阵列组成，它对应于脸部区域f₁和按检测的脸部区域f₁的尺度成比例缩放的(热点)运动区12a、12b。现在将输出文件存回到存储器5中，以便姿势识别模块20可以进一步处理它。

图5是表示使用姿势识别控制媒体的媒体指示的流程图，而图6例示了姿势识别和媒体控制指示的直观表示。

在将当前捕获图像C_i的文件从脸部检测模块10读回到存储器5中之后，姿势识别模块20接着执行姿势识别算法21。

使用也存储在存储器5中的以前捕获图像文件C_i-1，姿势识别算法21首先计算当前捕获图像C_i与以前捕获图像C_i-1之间的差值D_i的绝对值。姿势识别算法21也将腐蚀运算应用于差值D_i，以便首先消除小区域，有助于人体姿势指示14得到更完善识别。

在所示的实施例中，使用函数cvErode对D_i进行腐蚀。cvErode函数使用决定呈现最小的像素点附近的形状的特定结构元素。尽管在所示的实施例中腐蚀函数只应用一次，但在其它实施例中也可以对D_i多次应用腐蚀函数。

由于捕获图像C_i和C_i-1以前被脸部检测模块10处理过，并且存储在存储器5中，所以每个捕获图像C_i和C_i-1都包含指定的、提取的(热点)运动区12a、12b。姿势识别算法21使用提取的热点区12a、12b来屏蔽和过滤非热点区中的运动。其结果是，姿势识别算法21针对未指定热点区中的运动修改D_i，构建运动历史图像(MHI)。运动历史图像(MHI)用于检测运动斑点，和姿势识别算法21的进一步运算确定这些姿势斑点是否是实际人体姿势指示14。

运动历史图像(MHI)量化和限定随时间的运动，表示在图像序列当中运动是如何发生的。在本发明中，由姿势识别模块20在特定区域中，尤其在(热点)运动区12a、12b中审查和识别运动斑点。

每个运动历史图像(MHI)具有通过时标的特定坐标x，y标识和定义的像素。这些坐标与那个像素中的最近运动有关。随着在(热点)运动区12a、12b中检测运动，姿势识别算法21修正运动历史图像(MHI)，以创建所得运动斑点的分层历史。

对于在(热点)运动区12a、12b中检测到的所有运动斑点，姿势识别算法21定位最大和最小x，y像素坐标，并且将最大值表示成l_x，l_y和将最小值表示成S_x，S_y。

使用运动历史图像(MHI)的最大和最小x，y像素坐标，姿势识别算法21首先确定l_y与S_y之间的差值是否大于第一试探值T₁(l_y-S_y＞T₁)。如果对那个问题的回答是肯定的，那么，姿势识别算法21将不把当前捕获图像C_i识别成含有所识别姿势指示14。第一试探值T₁可以在安装多媒体控制系统1之前通过统计或通过实验确定，并且补充到算法中。如果没有所识别姿势指示14，那么，姿势识别算法21将停止处理C_i，并且开始处理脸部检测模块10首先处理过的新捕获图像C_n。

如果l_y与S_y之间的差值未大于第一试探值T₁，那么，姿势识别算法21将转移到下一个步骤，并且确定l_x与S_x之间的差值是否大于第二试探值T₂(l_x-S_x＞T₂)。如果是，那么，姿势识别算法21将不把当前捕获图像C_i识别成含有所识别人体姿势指示14，开始处理新捕获图像C_n。否则，姿势识别算法21确定x运动(l_x-S_x)是否小于y运动(l_y-S_y)。如果x运动小于y运动，那么，姿势识别算法21将不识别当前捕获图像C_i中的姿势指示14，该算法21将再次开始处理新捕获图像C_n。

作为默认，如果姿势识别算法21有待于标识和识别当前捕获图像C_i中的姿势指示14，但在运动历史图像(MHI)中存在一些“足够大”组元时，那么，姿势识别算法21将确定存在“有手部动作”。“足够大”是在实现系统1之前通过统计或通过实验确定的试探阈值。

如果存在识别出“有手部动作”的三个连接捕获图像，那么，姿势识别模块10将通过媒体控制界面6向多媒体输出设备发出特定命令。

“有手部动作”应该是控制发给多媒体输出设备的特定命令的姿势指示14。根据识别“有手部动作”的地方，即，左侧(热点)运动区12a或右侧(热点)运动区12b确定与“有手部动作”有关的特定控制命令。如上所述，特定控制命令被预先指定给特定(热点)运动区12a、12b，或可以由用户3编程。

如果在三个连续捕获图像上识别出“有手部动作”，姿势识别模块20就发送特定命令。然后，将那个特定命令发送给媒体控制界面6，媒体控制界面6又将相应电命令信号转发给多媒体输出设备8。

输出(deferent)姿势的所有姿势指示都是存储在多媒体控制系统1中的明确定义、预先指定命令。但是，用户3也可以在使用之前定义他自己的命令。因此，如果右侧(热点)运动区12b中的挥手是打开多媒体输出设备8的定义姿势，和姿势识别算法21将右侧(热点)运动区12b中的挥手识别成姿势指示14，那么，向多媒体输出设备8发出打开信号。相反，如果左侧(热点)运动区12a中的挥手是关闭多媒体输出设备8的定义姿势，和姿势识别算法21将左侧(热点)运动区12a中的挥手识别成姿势指示14，那么，向多媒体输出设备8发出关闭信号。

当构建运动历史图像(MHI)，以便进行运动检测时，存在两种实现。在一种实现中，使用整个捕获图像C_i构建运动历史图像(MHI)。但是，在另一种实现中，只使用(热点)运动区12a、12b图像构建运动历史图像(MHI)。当用户3静态，即，缓慢或没有头部运动时，两种实现得出相同结果。但是，如果用户3在运动，那么这些实现是不同的。

在所示的实施例中，指定(热点)运动区12a、12b是相对于脸部f₁的，并且脸部f₁可以缓慢运动。尽管在这些情况下运动检测可能是精确的，但头部的运动可能引起运动检测的误差。如果使用整个图像构建运动历史图像(MHI)，则在指定(热点)运动区12a、12b中可能存在运动。但是，如果只使用指定(热点)运动区12a、12b构建运动历史图像(MHI)，那么，由于过滤掉外部运动，可能使检测更完善。

另外，在只指定一个(热点)运动区12a的一个实施例中，需要更强有力的姿势识别算法来识别热点中的姿势，以达到更高的精度，包括只从指定(热点)运动区12a、12b中构建的运动历史图像(MHI)。

上面所述的装置和方法可以用于控制任何交互式多媒体输出设备8，使脸部检测技术有助于定义和提取使运动的识别局限于(热点)运动区12a、12b的那些(热点)运动区12a、12b，以非常健壮的方式通过人体姿势向输出设备发出控制命令。

上文例示了实践本发明的一些可能性。许多其它实施例也可以在本发明的范围和精神之内。因此，应该将上文的描述当作例示性的，而不是限制性的，本发明的范围由所附权利要求书以及与它们等范围的等效物来限定。

Claims

1.一种控制多媒体设备的方法，其中，所述方法包含如下步骤：

使用检测脸部区域的脸部检测确定当前捕获图像(C_i)中的运动区，所述运动区通过横向最接近检测的脸部区域的左区和右区来定义并且按检测的脸部区域的尺度成比例缩放，并且所述运动区被指定和包括在存储在存储器中的输出文件中，以便姿势识别模块进一步处理它；

计算和分析当前捕获图像(C_i)与以前捕获图像(C_i-1)之间的差值(D_i)，通过将运动区用作屏蔽区过滤掉非运动区来修改该差值(D_i)，以构建运动图像，并且检测该运动图像中的运动斑点，其中确定每个检测到运动斑点的最大x，y和最小x，y坐标并且将其表示成lx，ly，Sx和Sy，并且在ly和Sy之间的差值不大于第一试探值、lx和Sx之间的差值不大于第二试探值、以及x运动不小于y运动时确定检测到运动；

确定所述运动是否与预先指定命令匹配；

将与预先指定命令相对应的信号提供给所述多媒体设备。

2.如权利要求1所述的方法，进一步包含对差值(D_i)应用腐蚀运算以消除小区域的步骤。

3.如权利要求1所述的方法，其中从捕获图像中构建运动图像。

4.如权利要求1所述的方法，其中从运动区中构建运动图像。

5.如权利要求1所述的方法，进一步包含使用摄像机拍摄当前捕获图像(C_i)的步骤。

6.如权利要求1所述的方法，进一步包含检测当前捕获图像(C_i)中的脸部，并且将每个脸部表示成F1，F2，F3，…，Fn的步骤，其中n代表脸部的数量。

7.如权利要求1所述的方法，进一步包含定义左运动区上的姿势的命令和右运动区上的姿势的命令的步骤。

8.一种媒体控制装置，包含：

具有图像传感器的摄像机；

通过所述图像传感器接收画面图像的输入图像模块；

与所述输入图像模块连接的存储器；

与所述输入图像模块连接的脸部检测模块；

与所述输入图像模块连接的姿势识别模块；以及

接收来自所述输入图像模块的命令，并且将所述命令转换成控制多媒体输出设备的电信号的媒体控制界面，

其中，所述脸部检测模块使用检测脸部区域的脸部检测确定当前捕获图像(C_i)中的运动区，所述运动区通过横向最接近检测的脸部区域的左区和右区来定义并且按检测的脸部区域的尺度成比例缩放，并且所述运动区被指定和包括在存储在存储器中的输出文件中，以便姿势识别模块进一步处理它；

所述姿势识别模块计算和分析当前捕获图像(C_i)与以前捕获图像(C_i-1)之间的差值(D_i)，通过将运动区用作屏蔽区过滤掉非运动区来修改该差值(D_i)，以构建运动图像，并且检测该运动图像中的运动斑点，其中确定每个检测到运动斑点的最大x，y和最小x，y坐标并且将其表示成lx，ly，Sx和Sy，并且在ly和Sy之间的差值不大于第一试探值、lx和Sx之间的差值不大于第二试探值、以及x运动不小于y运动时确定检测到运动；确定所述运动是否与预先指定命令匹配；并且将与预先指定命令相对应的信号提供给所述多媒体输出设备。

9.如权利要求8所述的媒体控制装置，其中所述图像传感器与所述摄像机集成在一起。

10.如权利要求8所述的媒体控制装置，其中所述输入图像模块与所述摄像机集成在一起。

11.如权利要求8所述的媒体控制装置，其中所述输入图像模块是微处理器。

12.如权利要求8所述的媒体控制装置，其中所述存储器、所述脸部检测模块、和所述姿势识别模块与所述输入图像模块集成在一起。

13.如权利要求8所述的媒体控制装置，其中媒体控制界面与所述输入图像模块集成在一起。

14.如权利要求8所述的媒体控制装置，

其中所述摄像机、图像传感器、输入图像模块、存储器、脸部检测模块、姿势识别模块、和媒体控制界面集成地构成一个部件；以及

所述媒体控制装置是与所述多媒体输出设备连接的外部部件。