CN102655576A

CN102655576A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN102655576A
Application number: CN2012100448201A
Authority: CN
Inventors: 鹤见辰吾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-04
Filing date: 2012-02-24
Publication date: 2012-09-05
Also published as: US20120224043A1; JP5772069B2; JP2012186622A

Abstract

提供了信息处理设备、信息处理方法和程序，该信息处理设备包括：图像获取单元，用于获取位于显示内容的视频的显示单元附近的用户的图像；观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

Description

信息处理设备、信息处理方法和程序

技术领域

本公开涉及信息处理设备、信息处理方法和程序。

背景技术

诸如TV等显示装置被安装在家中诸如起居室、房间等各种位置处，并且向用户提供有关生活的各个方面的视频和音频内容。因此，用户对所提供的内容的观看状态也大大不同。用户不必专心于观看内容，而是可以在例如学习或阅读的同时观看内容。因此，正在开发一种根据用户对内容的观看状态来控制内容的视频或音频的播放属性的技术。例如JP2004-312401A描述了用于通过检测用户的视线来确定用户的关注水平并且根据确定结果来改变内容的视频或音频的输出属性的技术。

发明内容

然而，用户对内容的观看状态正在变得越来越不同。因此，在JP2004-312401A中描述的技术不足以输出根据处于每一观看状态的用户的各种需要的内容。

因此，期望用于更精确地响应于用户在每一个观看状态下的需要来控制内容的输出的技术。

根据本公开，提供了一种信息处理设备，该信息处理设备包括：图像获取单元，用于获取位于显示内容的视频的显示单元附近的用户的图像；观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

而且，根据本公开，提供了一种信息处理方法，该信息处理方法包括：获取位于显示内容的视频的显示单元附近的用户的图像；基于所述图像来确定所述用户对所述内容的观看状态；以及根据所述观看状态来控制所述内容的音频向所述用户的输出。

而且，根据本公开，提供了一种程序，用于使得计算机发挥下述单元的作用：图像获取单元，用于获取位于显示内容的视频的显示单元附近的用户的图像；观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

如上所述，根据本公开，在对例如内容的音频的输出控制中反映了用户对内容的观看状态。

根据本公开，可以针对每一观看状态根据用户需要来更精确地控制内容的输出。

附图说明

图1是示出根据本公开的一个实施例的信息处理设备的功能配置的框图；

图2是示出根据本公开的一个实施例的信息处理设备的图像处理单元的功能配置的框图；

图3是示出根据本公开的一个实施例的信息处理设备的声音处理单元的功能配置的框图；

图4是示出根据本发明的一个实施例的信息处理设备的内容分析单元的功能配置的框图；

图5是示出根据本公开的一个实施例的处理的示例的流程图；以及

图6是示出根据本公开的实施例的信息处理设备的硬件配置的框图。

具体实施方式

以下参考附图来详细描述本公开的优选实施例。注意，在本说明书和附图中，使用相同的附图标记来表示具有大体相同的功能和配置的结构元件，并且省略对这些结构元件的重复说明。

根据本公开的一个实施例，提供了一种信息处理设备，该信息处理设备可以包括：图像获取单元，用于获取位于显示内容的视频的显示单元附近的用户的图像；观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

作为一个具体实施例，所述观看状态确定单元基于从所述图像检测到的所述用户的眼睛的开/闭来确定所述用户是否正在收听所述音频，作为所述观看状态。

作为另一具体实施例，所述观看状态确定单元基于从所述图像中检测到的所述用户的嘴部的开/闭来确定所述用户是否正在收听所述音频，作为所述观看状态。

作为另一具体实施例，所述的信息处理设备进一步包括：声音获取单元，用于获取由所述用户发出的声音，其中，所述观看状态确定单元基于在所述声音中包括的语音的说话者是否是所述用户来确定所述用户是否正在收听所述音频，作为所述观看状态。

作为另一具体实施例，所述观看状态确定单元基于从所述图像中检测的所述用户的取向来确定所述用户是否正在收听所述音频，作为所述观看状态。

作为另一具体实施例，所述观看状态确定单元基于从所述图像中检测的所述用户的姿态来确定所述用户是否正在收听所述音频，作为所述观看状态。

作为另一具体实施例，如果确定所述用户未正在收听所述音频作为所述观看状态，则所述音频输出控制单元降低所述音频的音量。

作为另一具体实施例，如果确定所述用户未在收听所述音频作为所述观看状态，则所述音频输出控制单元提高所述音频的音量。

作为另一具体实施例，所述信息处理设备进一步包括：重要性确定单元，用于确定所述内容的每一部分的重要性，其中，所述音频输出控制单元提高在所述内容中的重要性较高的部分处的音频的音量。

作为另一具体实施例，所述信息处理设备进一步包括：面部识别单元，用于基于在所述图像中包括的面部来识别所述用户，其中，所述重要性确定单元基于所识别的用户的属性来确定所述重要性。

作为另一具体实施例，所述的信息处理设备进一步包括：面部识别单元，用于基于在所述图像中包括的面部来识别所述用户，其中，所述观看状态确定单元基于所述图像来确定所述用户是否正在观看所述内容的输入，并且其中，在确定所识别的用户正在观看所述视频的情况下，所述音频输出控制单元根据所识别的用户的属性来改变所述音频的声音质量。

根据本公开的另一实施例，提供了一种信息处理方法，该方法包括：获取位于显示内容的视频的显示单元附近的用户的图像；基于所述图像来确定所述用户对所述内容的观看状态；以及根据所述观看状态来控制所述内容的音频向所述用户的输出。

根据本公开的实施例，还提供了一种程序，该程序用于使得计算机发挥下列单元的作用：图像获取单元，用于获取其上显示内容的视频的显示单元附近的用户的图像；观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

另外，将以下面的顺序来给出对一些实施例的说明。

1.功能配置

2.处理流

3.硬件配置

4.总结

5.补充

(1.功能配置)

首先，参考图1描述根据本公开的实施例的信息处理设备100的示意功能配置。图1是示出信息处理设备100的功能配置的框图。

信息处理设备100包括图像获取单元101、图像处理单元103、声音获取单元105、声音处理单元107、观看状态确定单元109、音频输出控制单元111、音频输出单元113、内容获取单元115、内容分析单元117、重要性确定单元119和内容信息存储单元151。信息处理设备100被实施为例如TV调谐器或PC(个人计算机)。显示装置10、相机20和麦克风30连接到信息处理设备100。显示装置10包括：显示单元11，在该显示单元上显示内容的视频；以及扬声器12，从该扬声器输出内容的音频。信息处理设备100可以是例如将这些装置以集成的方式形成的TV接收器或PC。另外，在附图中省略了可应用的用于内容播放的已知结构，如用于向显示装置10的显示单元11提供内容的视频数据的结构。

例如通过CPU(中央处理单元)、ROM(只读存储器)、RAM(随机存取存储器)和通信装置来实施图像获取单元101。图像获取单元101从连接到信息处理设备100的相机20获取接近显示装置10的显示单元11的用户U的图像。另外，可以存在如图中所示的几个用户，或可以存在一个用户。图像获取单元101向图像处理单元103提供有关所获取的图像的信息。

例如通过CPU、GPU(Graphics Processing Unit，图形处理单元)、ROM和RAM来实施图像处理单元103。图像处理单元103通过滤波等来处理有关从无线通信单元110获取的图像的信息，并且获取关于用户U的信息。例如，图像处理单元103从图像中获取关于用户U面部的角度、嘴部的开和闭、眼睛的开和闭、注视方向、位置和姿态等信息。而且，图像处理单元103可以基于图像中所包括的面部的图像来识别用户U，并且可以获取用户ID。图像处理单元103向观看状态确定单元109和内容分析单元117提供已经获取的这些信息。另外，下面描述图像处理单元103的详细功能配置。

例如通过CPU、ROM、RAM和通信装置来实施声音获取单元105。声音获取单元105从连接到信息处理设备100的麦克风30获取用户U发出的声音。声音获取单元105向声音处理单元107提供关于所获取的声音的信息。

例如通过CPU、ROM和RAM来实施声音处理单元107。声音处理单元107通过滤波等来处理关于从声音获取单元105获取的声音的信息，并且获取关于由用户UD发出的声音的信息。例如，如果声音是用户U的发声而导致的，则声音处理单元107进行表示用户U为说话者的估计，并且获取用户ID。而且，声音处理单元107还可以从声音中获取关于声源的方向、语音的存在/不存在等的信息。声音处理单元107向观看状态确定单元109提供这些获取的信息。另外，下面描述声音处理单元107的详细功能配置。

例如通过CPU、ROM和RAM来实施观看状态确定单元109。观看状态确定单元109基于用户U的运动来确定用户U对内容的观看状态。基于从图像处理单元103或声音处理单元107获取的信息来确定用户U的运动。用户的运动包括“观看视频”、“保持眼睛闭合”、“嘴部好像进行会话那样动作”和“语音”等。基于这样的用户运动而确定的用户的观看状态例如为“以正常方式观看”、“正在睡眠”、“进行会话”、“在打电话”或“工作”等。观看状态确定单元109向音频输出控制单元111提供关于所确定的观看状态的信息。

通过例如CPU、DSP(数字信号处理器)、ROM和RAM来实施音频输出控制单元111。音频输出控制单元111根据从观看状态确定单元109获取的观看状态来控制内容的音频向用户的输出。音频输出控制单元111例如提高音频的音量、降低音频的音量或改变音频的声音质量。音频输出控制单元111还可以根据音频的类型、例如通过提高音频中所包括的话音的音量来控制输出。而且，音频输出控制单元111还可以根据从重要性确定单元119获取的内容的每一部分的重要性来控制音频的输出。而且，音频输出控制单元111可以使用图像处理单元103已经获取的用户ID，并且参考预先在ROM、RAM、存储装置等中注册的用户的属性信息，由此根据用户的被注册为属性信息的偏好来控制音频的输出。音频输出控制单元111向音频输出单元113提供音频输出的控制信息。

例如通过CPU、DSP、ROM和RAM来实现音频输出单元113。音频输出单元113根据从音频输出控制单元111获取的控制信息来向显示装置10的扬声器12输出内容的音频。另外，通过用于内容重放的结构(附图中未示出)向音频输出单元113提供要输出的内容的音频数据。

例如通过CPU、ROM、RAM和通信装置来实施内容获取单元115。内容获取单元115获取由显示装置10向用户U提供的内容。内容获取单元115可以例如通过解调和解码经由天线接收的广播波来获取广播内容。内容获取单元115还可以经由通信装置从通信网络下载内容。而且，内容获取单元115可以读出存储装置中所存储的内容。内容获取单元115向内容分析单元117提供已经获取的内容的视频数据和音频数据。

例如通过CPU、ROM和RAM来实施内容分析单元117。内容分析单元117分析从内容获取单元115获取的内容的视频数据和音频数据，并且检测内容中所包括的关键词或内容中的场景。内容获取单元115使用从图像处理单元103获取的用户ID，并且参考预先注册的用户的属性信息，由此检测用户U高度感兴趣的关键词或场景。内容分析单元117向重要性确定单元119提供这些信息。另外，下面描述内容分析单元117的详细功能配置。

例如通过ROM、RAM和存储装置来实施内容信息存储单元151。例如，诸如EPG或ECG等内容信息被存储在内容信息存储单元151中。内容信息与内容一起可以被内容获取单元115获取，并且被存储在内容信息存储单元151中。

例如通过CPU、ROM和RAM来实施重要性确定单元119。重要性确定单元119确定内容的每一部分的重要性。重要性确定单元119例如基于从内容分析单元117获取的、关于用户高度感兴趣的关键词或场景的信息来确定内容的每一部分的重要性。在该情况下，重要性确定单元119确定内容中的检测到关键词或场景的部分是重要的。重要性确定单元119还可以基于从内容信息存储单元151获取的内容信息来确定内容的每一部分的重要性。在该情况下，重要性确定单元119使用由图像处理单元103获取的用户ID，并且参考预先注册的用户的属性信息，由此确定内容中与用户的被注册为属性信息的偏好匹配的部分是重要的。重要性确定单元119还可以与用户无关的方式来确定用户通常会感兴趣的部分(例如由内容信息指示的部分，其中，广告结束并且主要内容开始)是重要的。

(图像处理单元的细节)

接着，参考图2进一步说明信息处理设备100的图像处理单元103的功能配置。图2是示出图像处理单元103的功能配置的框图。

图像处理单元103包括面部检测单元1031、面部跟踪单元1033、面部识别单元1035和姿态估计单元1037。面部识别单元1035参考用于面部识别的数据库153。图像处理单元103从无线通信单元110获取图像数据。而且，图像处理单元103向观看状态确定单元109或内容分析单元117提供用于标识用户的用户ID和诸如面部的角度、嘴部的开和闭、眼睛的开和闭、注视方向、位置和姿态等的信息。

例如通过CPU、GPU、ROM和RAM来实施面部检测单元1031。面部检测单元1031参考从无线通信单元110获取的图像数据，并且检测图像中包括的人的面部。如果图像中包括面部，则面部检测单元1031检测面部的位置或大小等。而且，面部检测单元1031检测图像中示出的面部的状态。例如，面部检测单元1031检测诸如面部的角度、眼睛是否闭合或注视方向等状态。另外，可以将任何已知的技术应用于面部检测单元1031的处理，诸如应用JP 2007-65766A和JP 2005-44330A中描述的那些技术。

例如通过CPU、GPU、ROM和RAM来实施面部跟踪单元1033。面部跟踪单元1033在从无线通信单元110获取的不同帧的图像数据上跟踪由面部检测单元1031检测到的面部。面部跟踪单元1033利用由面部检测单元1031检测到的面部的图像数据的图案之间的相似度等，并且在后续帧中搜索与该面部对应的部分。通过面部跟踪单元1033的该处理，可以将多个帧的图像中所包括的面部识别为同一用户的面部的随着时间的改变。

例如通过CPU、GPU、ROM和RAM来实施面部识别单元1035。面部识别单元1035是用于进行关于由面部检测单元1031检测到的面部是哪个用户的面部的识别的处理单元。面部识别单元1035通过关注于由面部检测单元1031检测的面部的特征部分等来计算局部特征，并且将已经计算的局部特征和预先存储于用于面部识别的数据库(DB)153中的用户的面部图像的局部特征相比较，由此识别由面部检测单元1031检测到的面部，并且指定与该面部对应的用户的用户ID。另外，可以将诸如JP 2007-65766A和JP 2005-44330A中描述的那些技术等任何已知技术应用于面部识别单元1035的处理。

例如通过CPU、GPU、ROM和RAM来实施姿态估计单元1037。姿态估计单元1037参考从无线通信单元110获取的图像数据，并且估计在图像中包括的用户的姿态。姿态估计单元1037基于预先注册的用户的每种姿态的图像的特性来估计在图像中包括的用户的姿态是哪种姿态。例如，在从图像中感知到用户拿着某个装置靠近耳部的姿态的情况下，姿态估计单元1037估计这是用户正在打电话的姿态。另外，可以将任何已知技术应用于姿态估计单元1037的处理。

例如通过ROM、RAM和存储装置来实施用于面部识别的数据库153。例如，将用户的面部图像的局部特征与例如用户ID相关联地预先存储在用于面部识别的数据库153中。面部识别单元1035参考在用于面部识别的数据库153中存储的用户的面部图像的局部特征。

(声音处理单元的细节)

下面将参考图3来描述信息处理设备100的声音处理单元107的功能配置。图3是示出声音处理单元107的功能配置的框图。

声音处理单元107包括语音检测单元1071、说话者估计单元1073和声源方向估计单元1075。说话者估计单元1073参考用于说话者识别的数据库(DB)155。声音处理单元107从声音获取单元105获取声音数据。而且，声音处理单元107向观看状态确定单元109提供用于标识用户的用户ID和关于声源方向、语音(utterance)的存在/不存在等信息。

例如通过CPU、ROM和RAM来实施语音检测单元1071。语音检测单元1071参考从声音获取单元105获取的声音数据，并且检测在声音中包括的语音(utterance)。在声音中包括语音的情况下，语音检测单元1071检测语音的起点、其终点和频率特性等。另外，可以向语音检测单元1071的处理应用任何已知的技术。

例如，通过CPU、ROM和RAM来实施说话者估计单元1073。说话者估计单元1073估计由语音检测单元1071检测到的语音的说话者，并且例如通过下述方式来确定说话者的用户ID：将由语音检测单元1071检测到的语音的频率特性与预先在用于说话者识别的数据库155中注册的用户的语音的特性相比较。另外，可以向说话者估计单元1073的处理应用任何已知技术。

例如通过CPU、ROM和RAM来实施声源方向估计单元1075。声源方向估计单元1075例如通过检测声音获取单元105从不同位置处的多个麦克风30获取的声音数据的相差来估计声音数据中包括的诸如语音等声音的声源的方向。由声源方向估计单元1075估计的声源的方向可以与由图像处理单元103检测到的用户的位置相关联，并且可以由此估计语音的说话者。另外，可以向声源方向估计单元1075的处理应用任何已知的技术。

可以通过ROM、RAM和存储装置来实施用于说话者识别的数据库155。在用于说话者识别的数据库155中，与例如用户ID相关联地存储了诸如用户的语音的频率特性等特性。说话者估计单元1073参考在用于说话者识别的数据库155中存储的用户的语音的特性。

(内容分析单元的细节)

接下来参考图4进一步描述信息处理设备100的内容分析单元117的功能配置。图4是示出内容分析单元117的功能配置的框图。

内容分析单元117包括语音检测单元1171、关键词检测单元1173和场景检测单元1175。关键词检测单元1173参考用于关键词检测的数据库157。声源方向估计单元1075参考用于场景检测的数据库159。内容分析单元117从图像处理单元103获取用户ID。而且，内容分析单元117从内容获取单元115获取内容的视频数据和音频数据。内容分析单元117向重要性确定单元119提供与被估计为用户高度感兴趣的关键词或场景有关的信息。

例如通过CPU、ROM和RAM来实施语音检测单元1171。语音检测单元1171参考从内容获取单元115获取的内容的音频数据，并且检测在声音中包括的语音。在声音中包括语音的情况下，语音检测单元1171检测语音的起点、其终点和频率特性等。另外，可以向语音检测单元1171的处理应用任何已知技术。

例如通过CPU、ROM和RAM来实施关键词检测单元1173。关键词检测单元1173针对由语音检测单元1171检测的语音来检测在语音中包括的关键词。关键字被预先存储在用于关键词检测的数据库157中，作为各用户高度感兴趣的关键词。关键词检测单元1173在由语音检测单元1171检测到的语音的部分中搜索具有存储于用于关键词检测的数据库157中的关键词的音频特性的部分。为了确定要检测哪个用户感兴趣的关键词，关键词检测单元1173使用从图像处理单元103获取的用户ID。在语音部分中检测到关键词的情况下，关键词检测单元1173以彼此相关联的方式输出例如检测到的关键词和对这个关键词高度感兴趣的用户的用户ID。

例如通过CPU、ROM和RAM来实施场景检测单元1175。场景检测单元1175参考从内容获取单元115获取的内容的视频数据和音频数据，并且检测内容的场景。在用于场景检测的数据库159中预先存储作为各用户高度感兴趣的场景的场景。场景检测单元1175确定内容的视频或音频是否具有在用于场景检测的数据库159中存储的场景的视频或音频特性。为了确定要检测哪个用户感兴趣的场景，场景检测单元1175使用从图像处理单元103获取的用户ID。在检测到场景的情况下，场景检测单元1175以彼此相关联的方式输出所检测的场景和对这个场景高度感兴趣的用户的用户ID。

例如通过ROM、RAM和存储装置来实施用于关键词检测的数据库157。例如，在用于关键词检测的数据库157中，以与用户ID和用于识别关键词的信息相关联的方式预先存储用户高度感兴趣的关键词的音频特性。关键词检测单元1173参考在用于关键词检测的数据库157中存储的关键字的音频特性。

例如通过ROM、RAM和存储装置来实施用于场景检测的数据库159。例如，以与用户ID和用于识别关键词的信息相关联的方式，预先在用于场景检测的数据库159中存储用户高度感兴趣的场景的视频或音频特性。场景检测单元1175参考在用于场景检测的数据库159中存储的场景的视频或音频特性。

(2.处理流程)

接下来参考图5来描述本公开的一个实施例的处理流程。图5是示出本公开的实施例的观看状态确定单元109、音频输出控制单元111和重要性确定单元119的处理的示例的流程图。

参考图6。首先，观看状态确定单元109确定用户U是否在观看内容的视频(步骤S101)。在此，可以基于由图像处理单元103检测到的用户U的面部的角度、眼睛的开和闭与注视方向来确定用户U1是否在观看内容的视频。例如，在用户面部的角度和注视方向接近显示装置10的显示单元11的方向的情况下或在用户眼睛没有闭合的情况下，观看状态确定单元109确定“用户正在观看内容”。在存在多个用户U的情况下，如果确定用户U中的一个正在观看内容的视频，则观看状态确定单元109可以确定“用户正在观看内容”。

在步骤S101中确定“用户正在观看内容”的情况下，观看状态确定单元109接下来确定用户对内容的观看状态是“以正常方式观看”(步骤S103)。在此，观看状态确定单元109向音频输出控制单元111提供用于指示观看状态是“以正常方式观看”的信息。

接下来，音频输出控制单元111根据用户的偏好来改变内容的音频的质量(步骤S105)。在此，音频输出控制单元111可以通过使用图像处理单元103已经获取的用户ID来参考预先在ROM、RAM、存储装置等中注册的用户的属性信息，并且可以获取被注册为属性信息的用户的偏好。

另一方面，在步骤S101中未确定“用户正在观看内容”的情况下，观看状态确定单元109接下来确定用户U的眼睛是否闭合(步骤S107)。在此，可以基于由图像处理单元103检测到的用户U的眼睛的张开和闭合的随时间的改变来确定用户U的眼睛是否闭合。例如，在用户眼睛闭合的状态持续预定时间或更长的情况下，观看状态确定单元109确定“用户正在保持眼睛闭合”。在存在多个用户U的情况下，如果确定用户U中的两者保持其眼睛闭合，则观看状态确定单元109可以确定“用户正在保持眼睛闭合”。

在步骤S107中确定“用户正在保持眼睛闭合”的情况下，观看状态确定单元109接下来确定用户对内容的观看状态是“睡眠”(步骤S109)。在此，观看状态确定单元109向音频输出控制单元111提供用于指示观看状态是“睡眠”的信息。

接下来，音频输出控制单元111逐渐地降低内容的音频的音量，然后将音频静音(步骤S111)。例如，如果用户在睡眠，则对音频输入的这种控制可以防止对睡眠的干扰。此时，与音频输出控制一起，可以执行降低显示单元11上显示的视频的亮度并且然后清除屏幕的视频输出控制。如果在逐渐降低音量的同时用户的观看状态发声改变或者获取了用户在显示装置10上的操作，则可以取消降低音量的控制。

在此，作为步骤S111的处理的修改示例，音频输出控制单元111可以提高内容的音频的音量。例如，如果用户想要观看内容但是他/她在打瞌睡，则这种的音频控制可以使得用户继续观看内容。

另一方面，在步骤S107中未确定“用户在保持眼睛闭合”的情况下，观看状态确定单元109接下来确定用户U的嘴部是否好象正在进行会话那样动作(步骤S113)。在此，可以基于由图像处理单元103检测到的用户U的嘴部的打开和闭合随时间的改变来确定用户U的嘴部是否好象正在进行会话那样动作。例如，在用户的嘴部在打开和闭合之间改变的状态持续预定时间或更长时间的情况下，观看状态确定单元109确定“用户的嘴部好象正在进行会话那样动作”。在存在多个用户U的情况下，如果用户U之一的嘴部好象正在进行会话那样动作，则观看状态确定单元109确定“用户的嘴部好象正在进行会话那样动作”。

在步骤S113中确定“用户的嘴部好象正在进行会话那样动作”的情况下，观看状态确定单元109接下来确定是否检测到用户U的语音(步骤S115)。在此，可以基于由声音处理单元107检测到的语音的说话者的用户ID来确定是否检测到用户U的语音。例如，在从图像处理单元103获取的用户ID与从声音处理单元107获取的语音的说话者的用户ID匹配的情况下，观看状态确定单元109确定“检测到用户的语音”。在存在多个用户U的情况下，如果检测到用户U之一的语音，则观看状态确定单元109可以确定“检测到用户的语音”。

在步骤S115中确定“检测到用户的语音”的情况下，观看状态确定单元109接下来确定用户U是否在观看另一个用户(步骤S117)。在此，可以基于由图像处理单元103检测的用户U的面部的角度和位置来确定用户U是否在观看另一个用户。例如，如果用户的面部的角度所指示的用户面向的方向与另一个用户的位置对应，则观看状态确定单元109确定“用户在观看另一个用户”。

在步骤S117中确定用户在观看另一个用户”的情况下，观看状态确定单元109接下来确定用户对内容的观看状态是“正在进行会话”(步骤S119)。在此，观看状态确定单元109向音频输出控制单元111提供用于指示观看状态是“正在进行会话”的信息。

接下来，音频输出控制单元111略降内容的音频的音量(内容S121)。这种对音频输出的控制可以例如在用户进行会话时防止对会话的干扰。

另一方面，在步骤S117中未确定“用户在观看另一个用户”的情况下，观看状态确定单元109接下来确定用户U是否处于正在打电话的姿态(步骤S123)。在此，可以基于由图像处理单元103检测到的用户U的姿态来确定用户U是否处于正在打电话的姿态。例如，在图像处理单元103中包括的姿态估计单元1037估计用户拿着某个装置(电话接收器)靠近耳部的姿态是用户正在打电话的姿态的情况下，观看状态确定单元109确定“用户处于在打电话的姿态”。

在步骤S123中确定“用户处于在打电话的姿态”的情况下，观看状态确定单元109接下来确定内容的用户的观看状态是“正在打电话”(步骤S125)。在此，观看状态确定单元109向音频输出控制单元111提供用于指示观看状态是“正在打电话”的信息。

接着，音频输出控制单元111略降内容的音频的音量(步骤S121)。这种对音频输出的控制可以防止例如在用户正在打电话的情况下中断电话呼叫。

另一方面，在步骤S113中未确定“用户的嘴部好象正在进行会话那样动作”的情况下。在步骤S115中未确定“检测到用户的语音”的情况下并且在步骤S123中未确定“用户处于在打电话的姿态”的情况下，观看状态确定单元109接下来确定内容的用户的观看状态是“正在工作”(步骤S127)。

接下来，重要性确定单元119确定正在向用户提供的内容的重要性是否高(步骤S129)。在此，可以基于由重要性确定单元119确定的内容的每一部分的重要性来确定正在提供的内容的重要性是否高。例如，重要性确定单元119确定内容中由内容分析单元117检测到用户高度感兴趣的关键词或场景的部分的重要性高。而且，重要性确定单元119基于从内容信息存储单元151获取的内容信息来确定内容中例如匹配预先注册的用户的偏好的部分的重要性高，或确定通常情况下会高度感兴趣的部分(如广告结束并且主要内容开始的部分)的重要性高。

在步骤S129中确定内容的重要性高的情况下，音频输出控制单元111接下来略微提高内容的音频中的发出声音的音量(步骤S131)。这种对音频输出的控制可以在例如用户在显示装置10附近从事诸如阅读、干家务或学习等非内容观看的某种事情的情况下，使用户知道被估计为用户感兴趣的内容的部分已经开始。

(3.硬件配置)

接下来将参考图6来详细描述如上所述的根据本公开的实施例的信息处理设备100的硬件配置。图6是用于描述根据本公开的实施例的信息处理设备100的硬件配置的框图。

信息处理设备100包括CPU 901、ROM 903和RAM 905。而且，信息处理设备100还可以包括主机总线907、桥909和外部总线911、接口913、输入装置915、输出装置917、存储装置919、驱动器921、连接端口923和通信装置925。

CPU 901作为处理装置和控制装置，并且根据在ROM 903、RAM 905、存储装置919或可拆卸记录介质927中记录的各个程序来控制信息处理设备100的整体操作或部分操作。ROM 903存储要由CPU 901使用的程序、处理参数等。RAM 905暂时存储在CPU 901的执行中使用的程序、在执行中改变的参数等。CPU 901、ROM 903和RAM 905通过由诸如CPU中心的内部总线构成的主机总线907来彼此连接。

主机总线907经由桥909连接到诸如PCI(外部部件互连/对接)总线等外部总线911。

输入装置915是由用户操作的输入部件，如鼠标、键盘、触摸板、按钮、开关、杆等。而且，输入装置915可以是使用红外线或来自无线电波的遥控部件，或其可以是符合信息处理设备100的操作的外部连接装置929，如移动电话、PDA等。而且，由输入控制电路等来构成输入装置915，用于基于由用户使用如上所述的操作部件输入的信息来产生输入信号，并且向CPU 901输出该信号。信息处理设备100的用户可以通过操作输入装置915向信息处理设备100输入各种数据，或者指令信息处理设备100执行处理。

由能够可视地或可听地向用户通知获取的信息的装置来构成输出装置917。这样的装置的示例包括：显示装置(如CRT显示装置、液晶显示装置、等离子体显示装置、EL显示装置或等)；音频输出装置(如扬声器或耳机；打印机；移动电话；传真机；等等)。输出装置917输出例如通过由信息处理设备100执行的各个处理而获得的结果。具体地说，显示装置以文本或图像的形式来显示通过由信息处理设备100执行的各个处理而获得的结果。另一方面，音频输出装置将诸如再现音频数据或声音数据的音频信号转换为模拟信号，并且输出模拟信号。

存储装置919是被配置为信息处理设备100的存储单元的示例的用于存储数据的装置。例如从诸如HDD(硬盘驱动器)的磁存储装置、半导体存储装置、光学存储装置或磁光存储装置构成存储装置919。存储装置919例如存储要由CPU 901执行的程序、各种类型的数据和从外部获得的各种类型的数据。

驱动器921是记录介质的读取器/写入器，并且被包含在信息处理设备100内或外部附接到信息处理设备100。驱动器921读取在诸如磁盘、光盘、磁光盘或半导体存储器的附接可拆卸记录介质927中记录的信息，并且向RAM 905输出该信息。而且，驱动器921可以在诸如磁盘、光盘、磁光盘或半导体存储器的附接可拆卸记录介质927中写入。可拆卸记录介质927例如是DVD介质、HD-DVD介质或Blu-ray(蓝光，注册商标)介质。可拆卸记录介质927可以例如是电器或配备了非接触IC芯片的IC卡(集成电路卡)。

连接端口923是用于使得装置直接连接到信息处理设备100的端口。连接端口923的示例包括USB(通用串行总线)端口、IEEE 1394端口、SCSI(小计算机系统接口)端口等。连接端口923的其他示例包括RS-232C端口、光音频终端、HDMI(高清晰度多媒体接口)端口等。利用连接到这个连接端口923的外部连接设备929，信息处理设备100直接从外部连接设备929获得各种类型的数据，并且向外部连接设备929提供各种类型的数据。

通信装置925是由例如用于连接到通信网络931的通信装置构成的通信接口。通信装置925例如是有线或无线LAN(局域网)、Bluetooth(注册商标)、用于WUSB(无线USB)的通信卡等。替代地，通信装置925可以是用于光学通信的路由器、用于ADSL(非对称数字用户线)的路由器、用于各种通信的调制解调器等。这个通信装置925可以在因特网上并且例如与其他装置根据诸如TCP/IP等预定协议来发送和接收信号等。由经由有线或无线地连接的网络等构成连接到通信装置925的通信网络931，并且通信网络931例如可以是因特网、家庭局域网、红外线通信、无线电波通信或卫星通信等。

至此，已经示出了信息处理设备100的硬件配置的示例。可以使用通用材料构成如上所述的结构元件中的每一个，或者可以由专用于每一结构元件的功能的硬件来所述构成结构元件中的每一个。因此，可以根据在执行如上所述的每一实施例时的技术水平来适当地改变要使用的硬件配置。

(4.总结)

根据如上所述的实施例，提供了一种信息处理设备，该设备包括：图像获取单元，用于获取位于显示内容的视频的显示单元附近的用户的图像；观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

在该情况下，通过识别用户例如因为各种原因而未在收听内容的音频的状态，可以控制内容的音频的输出，以更精确地满足用户的需要。

而且，观看状态确定单元可以基于从所述图像中检测到的所述用户的眼睛的开/闭来确定所述用户是否正在收听所述音频，作为所述观看状态的。

在该情况下，通过识别例如用户正在睡眠的情况来控制内容的音频的输出。例如，在用户正在睡觉的情况下，可以设想用户的需要，如进行睡眠而不被内容的音频所中断，或从睡眠中醒来从而继续内容的观看。在该情况下，使得能够进行更精确地满足用户的这种需要的、对内容的音频的输出的控制。

而且，所述观看状态确定单元可以基于从所述图像中检测到的所述用户的嘴部的开/闭来确定所述用户是否正在收听所述音频，作为所述观看状态的。

在该情况下，可以通过识别例如用户进行会话或在打电话的情况来控制内容的音频的输出。例如，在用户进行会话或在打电话的情况下，可以设想用户的需要，如降低内容的音频的音量，这是因为它正在打扰会话或电话呼叫。在该情况下，使得能够进行更精确地满足用户的这种需要的、对内容的音频的输出的控制。

所述信息处理设备可以进一步包括声音获取单元，该声音获取单元用于获取由所述用户发出的声音。所述观看状态确定单元可以基于在所述声音中包括的语音的说话者是否是所述用户来确定所述用户是否正在收听所述音频，作为所述观看状态。

在该情况下，在例如用户的嘴部正在打开和闭合但是未发出声音的情况下，可以防止错误地将用户确定为正在进行会话或在打电话。

而且，所述观看状态确定单元可以基于从所述图像中检测到的所述用户的取向来确定所述用户是否正在收听所述音频，作为所述观看状态。

在该情况下，在例如用户在自言自语的情况下，可以防止错误地将用户确定为正在进行会话。

而且，所述观看状态确定单元可以基于从所述图像中检测到的所述用户的姿态来确定所述用户是否正在收听所述音频，作为所述观看状态。

在该情况下，在例如用户正在自言自语的情况下，可以防止错误地将用户确定为正在打电话。

而且，在确定所述用户未正在收听所述音频作为所述观看状态的情况下，所述音频输出控制单元可以降低所述音频的音量。

在该情况下，在用户正在睡眠、进行会话或打电话而未正在收听内容的音频并且因此内容的音频是不必要的并且是干扰的情况下，可以控制内容的音频的输出，以反映用户的需要。

例如，在确定所述用户未在收听所述音频作为所述观看状态的情况下，所述音频输出控制单元可以提高所述音频的音量。

在该情况下，例如，在用户正在睡眠或工作而未在收听内容的音频但是意欲继续内容观看的情况下，可以控制内容的音频的输出，以反映用户的需要。

而且，信息处理设备可以进一步包括重要性确定单元，该重要性确定单元用于确定所述内容的每一部分的重要性。所述音频输出控制单元可以提高在所述内容中重要性较高的部分处的所述音频的音量。

在该情况下，例如，在用户希望仅恢复对内容的特定重要部分处的内容的观看的情况下，可以控制内容的音频的输出，以反映用户的需要。

信息处理设备可以进一步包括面部识别单元，该面部识别单元用于基于在所述图像中包括的面部来识别所述用户。所述重要性确定单元可以基于所识别的用户的属性来确定所述重要性。

在该情况下，可以基于图像来自动地识别用户，并且还可以确定内容的重要部分，以例如反映所识别的用户的偏好。

而且，信息处理设备可以进一步包括面部识别单元，该面部识别单元用于基于在所述图像中包括的面部来识别所述用户。所述观看状态确定单元可以基于所述图像来确定所述用户是否正在观看所述内容的视频。在确定所识别的用户正在观看所述视频的情况下，所述音频输出控制单元可以根据所识别的用户的属性来改变音频的声音质量。

在该情况下，例如在用户在观看内容的情况下，可以根据用户的偏好来提供内容的音频的输出。

(5.补充)

在上述实施例中，“正在观看视频”、“保持眼睛闭合”、“嘴部象正在进行会话那样动作”、“发音”等作为用户运动的示例，并且，“以正常方式观看”、“睡眠”、“在进行会话”、“在打电话”、“在工作”等被作为用户的观看状态的示例，但是本技术不局限于这些示例。可以基于获取的图像和音频来确定用户的各种运动和观看状态。

而且，在上述实施例中，基于用户的图像和用户已经发出的声音来确定用户的观看状态，但是本技术不局限于这个示例。用户已经发出的声音并非必需用于观看状态的确定，并且可以完全基于用户的图像来确定观看状态。

本领域的技术人员应当明白，可以根据设计要求和其他因素来进行各种修改、组合、子组合和改变，只要它们在所附权利要求或其等同物的范围内即可。

本公开包含与2011年3月4日在日本专利局提交的日本优先权专利申请JP 2011-047892中公开的主题相关的主题，该日本专利申请的整体内容通过引用被包含在此。

Claims

1.一种信息处理设备，包括：

图像获取单元，用于获取位于显示内容的视频的显示单元附近的用户的图像；

观看状态确定单元，用于基于所述图像来确定所述用户对所述内容的观看状态；以及

音频输出控制单元，用于根据所述观看状态来控制所述内容的音频向所述用户的输出。

2.根据权利要求1所述的信息处理设备，其中，所述观看状态确定单元基于从所述图像中检测到的所述用户的眼睛的开和/或闭来确定所述用户是否正在收听所述音频，作为所述观看状态。

3.根据权利要求1所述的信息处理设备，其中，所述观看状态确定单元基于从所述图像中检测到的所述用户的嘴部的开和/或闭来确定所述用户是否正在收听所述音频，作为所述观看状态的。

4.根据权利要求1所述的信息处理设备，进一步包括：

声音获取单元，用于获取由所述用户发出的声音，

其中，所述观看状态确定单元基于在所述声音中包括的语音的说话者是否所述用户来确定所述用户是否正在收听所述音频，作为所述观看状态。

5.根据权利要求1所述的信息处理设备，其中，所述观看状态确定单元基于从所述图像中检测到的所述用户的取向来确定所述用户是否正在收听所述音频，作为所述观看状态。

6.根据权利要求1所述的信息处理设备，其中，所述观看状态确定单元基于从所述图像中检测到的所述用户的姿态来确定所述用户是否正在收听所述音频，作为所述观看状态。

7.根据权利要求1所述的信息处理设备，其中，如果作为所述观看状态、确定了所述用户未在收听所述音频，则所述音频输出控制单元降低所述音频的音量。

8.根据权利要求1所述的信息处理设备，其中，如果作为所述观看状态、确定了所述用户未在收听所述音频，则所述音频输出控制单元提高所述音频的音量。

9.根据权利要求8所述的信息处理设备，进一步包括：

重要性确定单元，用于确定所述内容的每一部分的重要性，

其中，所述音频输出控制单元提高在所述内容的重要性较高的部分处的音频的音量。

10.根据权利要求9所述的信息处理设备，进一步包括：

面部识别单元，用于基于所述图像中包括的面部来识别所述用户，

其中，所述重要性确定单元基于所识别的用户的属性来确定所述重要性。

11.根据权利要求1所述的信息处理设备，进一步包括：

面部识别单元，用于基于在所述图像中包括的面部来识别所述用户，

其中，所述观看状态确定单元基于所述图像确定所述用户是否正在观看所述内容的视频，并且

其中，在确定所述识别的用户正在观看所述视频的情况下，所述音频输出控制单元根据所述识别的用户的属性来改变所述音频的声音质量。

12.根据权利要求1所述的信息处理设备，进一步包括：

图像处理单元，用于处理从所述图像获取单元获取的图像，以获得与所述用户有关的信息，所述与所述用户有关的信息包括：用户的面部的角度、用户的嘴部的开闭、用户的眼睛的开闭、用户的注视方向、用户的位置和用户的姿态，

其中，所述观看状态确定单元基于与所述用户有关的信息来确定所述用户对所述内容的观看状态。

13.根据权利要求12所述的信息处理设备，其中，所述图像处理单元包括：

面部检测单元，用于检测从所述图像获取单元获取的图像中的用户的面部；

面部跟踪单元，用于在所述图像获取单元获取的图像中跟踪由所述面部检测单元检测到的所述面部；

面部识别单元，用于基于由所述面部检测单元检测到的所述面部来识别所述用户；以及

姿态估计单元，用于估计所述图像中的所述用户的姿态并获得与所述用户有关的信息。

14.一种信息处理方法，包括：

获取位于显示内容的视频的显示单元附近的用户的图像；

基于所述图像来确定所述用户对所述内容的观看状态；以及

根据所述观看状态来控制所述内容的音频向所述用户的输出。

15.一种程序，用于使得计算机发挥下述单元的左右：