CN112424731B

CN112424731B - 信息处理设备，信息处理方法和记录介质

Info

Publication number: CN112424731B
Application number: CN201980047761.3A
Authority: CN
Inventors: 泷谷翔; 御供俊元; 武田正资; 西山伸英; 児山久美子
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-07-25
Filing date: 2019-07-08
Publication date: 2024-04-12
Anticipated expiration: 2039-07-08
Also published as: US20200034162A1; US10877781B2; WO2020022039A1; US11307877B2; JP7444060B2; JPWO2020022039A1; US20210081224A1; CN112424731A

Abstract

[问题]为了根据用户上下文来呈现对于用户最佳的用户界面，或控制播放的内容。[解决方案]一种信息处理设备，包括控制部，用于基于包括用户状态、用户简档或用户环境信息的用户上下文信息，从多个用户界面中确定要呈现给用户的用户界面。

Description

信息处理设备，信息处理方法和记录介质

技术领域

本技术涉及信息处理设备、信息处理方法和程序，其能够根据用户上下文来切换由用户操作的用户界面或控制由用户观看的内容的播放。

背景技术

以下专利文献1公开了根据用户与设备之间的距离或用户之间的距离来呈现内容。

引用列表

专利文献

专利文献1：日本特开2010-191487号公报

发明内容

技术问题

然而，在上述专利文献1中描述的技术中，可以根据用户的状况来改变要呈现的内容本身，但是，内容的播放内容或用于操作内容的用户界面无法切换。

鉴于上述情况，本技术的目的是提供能够根据用户上下文呈现对用户最佳的用户界面或控制内容的播放内容的信息处理设备、信息处理方法和程序。

解决问题的技术方案

为了实现上述目的，根据本技术的实施例的信息处理设备包括：控制单元，基于包括用户的用户状态、用户简档或用户环境信息的用户上下文信息来从多个用户界面确定要呈现给用户的用户界面。

利用这种配置，信息处理设备能够根据用户上下文呈现对于用户最佳的用户界面。在此，用户状态表示例如用户的位置、距信息处理设备的距离、行为、视线、脸部朝向、姿态、面部表情、姿势或生物信息。用户简档表示名称信息、帐户信息、属性信息、物理信息、偏好信息、行为历史信息、人际关系信息等。此外，用户环境信息包括从信息处理设备或其他感测设备的相机或麦克风获取的信息，例如信息处理设备所处位置的噪声水平、温度、湿度、照度、亮度和时间等信息，且还包括从其他设备获取的感测信息。

这里，用户界面表示用于提示用户通过预定输入装置输入的信息呈现装置。输入装置可以包括例如语音输入、触摸输入、按钮输入、姿势输入、视线输入和远程控制输入。此外，信息呈现装置可以包括屏幕输出、语音输出等。

多个用户界面可以包括用于语音输入的用户界面和用于触摸输入的用户界面、用于姿势输入的UI、用于按钮输入的UI、用于视线输入的UI、用于遥控输入的UI等。这里，例如，用于语音输入的UI表示用于提示用户执行语音输入的信息呈现装置，并且包括例如通过屏幕输出的信息呈现或通过语音输出的信息呈现。

控制单元可以在确定用户与信息处理设备之间的距离小于或等于预定距离的情况下，将用于触摸输入的用户界面确定为要呈现的用户界面，并且在确定该距离大于预定距离的情况下，可以将语音输入的用户界面、姿势输入的UI、视线输入的UI和远程控制输入的UI中的一种确定为要呈现的用户界面。

这允许信息处理设备在用户处于他/她可以观看或触摸屏幕内容的距离的情况下呈现用于触摸输入的UI，并且在用户处于用户难以观看或触摸屏幕内容的距离的情况下，呈现用于语音输入的UI、用于姿势输入的UI、用于视线输入的UI和用于遥控输入的UI中的一种，从而提高了用户的便利性。

在确定用户的视线指向信息处理设备的情况下，控制单元可以使用于触摸输入的用户界面或用于语音输入的用户界面包括第一信息量。此外，在确定用户的视线未指向信息处理设备的情况下，控制单元可以使用于触摸输入的用户界面或用于语音输入的用户界面包括小于第一信息量的第二信息量。

这允许信息处理设备根据视线为用户呈现最佳UI，例如，在用户在看信息处理设备的情况下，信息处理设备呈现详细的UI，而在用户没有看信息处理设备的情况下，呈现简单的UI。在此，信息量包括内容的数量、菜单、按钮、元信息等。

控制单元可以在确定包括信息处理设备的预定区域中存在多个用户的情况下，基于多个用户中被确定为存在于最靠近或最远离信息处理设备的位置处的用户，来确定要呈现的用户界面。

此外，控制单元可以在确定包括信息处理设备的预定区域中存在多个用户的情况下，基于多个用户中被确定为要查看信息处理设备的用户，来确定要呈现的用户界面。

即使在存在多个用户的情况下，这也允许信息处理设备呈现适合于任何用户的UI。

控制单元可以根据在信息处理设备周围检测到的声音水平，改变用于确定要呈现的用户界面的预定距离。

这允许信息处理设备根据周围语音输入环境的质量来改变用于切换呈现界面的阈值，从而防止用于语音输入的界面中的输入错误。

控制单元可以在检测到用户躺卧的情况下，将用于语音输入的用户界面确定为要呈现的用户界面。

这允许信息处理设备在例如用户躺在床上的情况下呈现用于语音输入的UI，从而避免了用户坐起来并执行触摸操作的需要。

此外，控制单元可以在通过图像识别等识别出用户的两只手已占满的情况下，将用于语音输入的用户界面确定为要呈现的用户界面。

这使得信息处理设备避免了在用户的两只手都占满而使得用户无法执行操作的情况下向用户呈现用于触摸输入的UI的不便。

根据本技术的另一实施例的信息处理设备包括：控制单元，其基于包括用户的用户状态、用户简档或用户环境信息的用户上下文信息或从不同设备收集的感测信息来生成步骤切换信息，所述步骤切换信息用于控制内容的多个播放步骤的切换。

利用这种配置，信息处理设备能够根据用户上下文或者来自不同设备的感测信息控制内容的播放内容。不同的设备例如是烹饪器具(炉灶、微波炉、搅拌器等)、冰箱或相机，并且感测信息例如是炉灶或微波炉的加热时间或冰箱中食物的信息。

内容可以是其中播放步骤和播放时间彼此相关联的视频内容。在这种情况下，控制单元可以基于步骤切换信息和播放时间来控制视频内容的播放。

这允许信息处理设备根据用户上下文来控制视频内容的暂停、播放、倒回、快进等。

在已经从来自语音输入单元的语音输入识别出预定词，或者已经从来自成像单元的图像输入识别出预定姿势的情况下，控制单元可以生成步骤切换信息。

这允许信息处理设备适当地识别来自用户的指令并切换内容。在此，预定词是例如“告诉我下一个(Tell me next)”，“下一个(Next)”，“进行(Go)”，“确认(OK)”等，并且预定姿势例如是滑动、手势(好手势等)、眨眼等。

该内容可以是其中针对与播放步骤相对应的每个烹饪过程描述烹饪食谱的食谱内容。在这种情况下，控制单元可以基于感测信息识别用户的行为，并且可以在确定已经完成与当前播放步骤相对应的烹饪过程的情况下生成步骤切换信息。

这允许信息处理设备根据用户的行为来确定烹饪过程的完成，并且播放下一烹饪过程的播放步骤而无需从用户接收明确指令。用户的行为例如是在使用者用菜刀切割食物的过程中上下移动菜刀的动作，在碗中混合食物过程中旋转筷子或抹刀的动作等。

此外，控制单元可以基于感测信息识别与烹饪食谱中包括的食物相对应的食物的状态，并且可以在确定与当前播放步骤相对应的烹饪过程已经完成的情况下生成步骤切换信息。

这允许信息处理设备根据感测信息可识别的食物的状态来确定烹饪过程的完成，并且播放下一烹饪过程的播放步骤而无需从用户接收明确指令。在此，感测信息例如是表示内置在菜刀中的传感器在微细加工过程中检测到细微切割状态(预定的加速度/角速度等)并且然后结束的信息，或表示内置在炉灶中的传感器在加热过程中已经识别出锅的重量长达预定时间段并且已经检测到预定时间段内的加热的信息。

此外，控制单元可以分析食谱内容的每个烹饪过程，并可以在每个烹饪过程到达时发送指令信号，用于指示将预定的注释信息输出到与相应的烹饪过程相关联的用户的烹饪器具或烹饪器具的附近的设备。

这允许信息处理设备使用户容易地掌握在每个烹饪过程中使用的烹饪器具。预定注释信息是例如光或声音的输出。

此外，控制单元可以分析食谱内容的每个烹饪过程，并将用于指示执行至少一个烹饪过程中的至少一部分的指令信号发送到在相应烹饪过程中使用的用户的烹饪器具。

这允许信息处理设备在至少一部分过程中代替用户烹饪。

根据本技术的另一实施例的信息处理方法，包括：获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息；以及基于用户上下文信息，确定多个用户界面中要呈现给用户的用户界面。

根据本技术的另一实施例的信息处理方法，包括：获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息或者从不同设备收集的感测信息；以及基于用户上下文信息或感测信息，生成用于控制内容的多个播放步骤的切换的步骤切换信息。

根据本技术的另一实施例的程序使信息处理设备执行以下步骤：获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息；以及基于用户上下文信息，从多个用户界面确定要呈现给用户的用户界面。

根据本技术的另一实施例的程序使信息处理设备执行以下步骤：获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息或者从不同设备收集的感测信息；以及基于用户上下文信息或感测信息，生成用于控制内容的多个播放步骤的切换的步骤切换信息。

发明的有益效果

如上所述，根据本技术，可以根据用户上下文呈现对于用户最佳的用户界面或控制内容的播放内容。然而，效果不限制本技术。

附图说明

图1是示出根据本技术的第一实施例的音乐播放系统的配置的示图。

图2是示出音乐播放系统的信息处理终端的外观的示图。

图3是示出信息处理终端的硬件配置的示图。

图4是示出信息处理终端的功能块的示图。

图5是示出音乐播放系统的信息处理服务器的功能块的示图。

图6是示出可以由信息处理终端显示的各种用户界面的示例的示图。

图7是示出信息处理终端的用户界面的转变示例的示图。

图8是示出在音乐播放系统中显示用户界面的处理流程的流程图。

图9是示出语音输入到信息处理终端的音乐播放指令的示例的示图。

图10是示出在上述图8的每个最终步骤中显示的用户界面的示例的示图。

图11是示出在音乐播放系统中用于切换用户界面的区域范围的示图。

图12是示出根据音乐播放系统中的区域范围显示用户界面的处理流程的流程图。

图13是示出在音乐播放系统中还考虑用户的视线来显示用户界面的处理流程的流程图。

图14是示出语音输入到信息处理终端的音乐改变指令的示例的示图。

图15是示出在图14的每个最终步骤中显示的用户界面的示例的示图。

图16是描述在由多个用户操作信息处理终端的情况下，多个用户中的每个用户的位置与区域范围之间的关系的示图。

图17是示出根据音乐播放系统中的多个用户的位置来显示用户界面的处理流程的流程图。

图18是示出在用户位于靠近音乐播放系统中的信息处理终端的位置的情况下显示的用户界面的另一示例的示图。

图19是示出在用户位于远离音乐播放系统中的信息处理终端的位置的情况下显示的用户界面的另一示例的示图。

图20是描述在音乐播放系统中显示的用户界面的分辨率的改变的示图。

图21是示出在音乐播放系统应用于食谱播放系统的情况下显示的用户界面的示例的示图。

图22是描述根据本技术的第二实施例的在食谱播放系统中选择食谱的处理流程的示图。

图23是描述在食谱播放系统中开始烹饪食谱之前的通知处理的示图。

图24是描述在食谱播放系统中选择食谱的处理的另一示例的示图。

图25是示出在食谱播放系统中切换播放步骤的处理的示例的示图。

图26是示出在食谱播放系统中使用视频内容的食谱数据的示例的示图。

图27是示出在食谱播放系统中使用视频内容来切换播放步骤的处理的示例的示图。

图28是示出在食谱播放系统中使用视频内容来切换播放步骤的处理流程的流程图。

图29是描述除了食谱播放系统中的食谱播放之外的信息处理终端的功能的示图。

具体实施方式

在下文中，将参照附图描述本技术的实施例。

<第一实施例>

首先将描述本技术的第一实施例。

[系统概述]

如图所示，该系统包括信息处理终端100和信息处理服务器200，并且两者能够经由诸如因特网的网络50彼此通信。

信息处理终端100例如是具有触摸面板型显示器的智能扬声器。用户可以通过语音输入和触摸输入两者来操作安装在信息处理终端100上的各种应用。

输入到信息处理终端100的语音被发送到云上的信息处理服务器200，并且信息处理服务器200将语音转换成文本，执行与文本相对应的处理，将与处理结果相对应的语音发送给信息处理终端100。信息处理终端100播放语音。

此外，由输入到信息处理终端100触摸所指示的处理基本上不由信息处理服务器200执行，而是由信息处理终端100执行。

在该实施例中，信息处理终端100向用户呈现根据用户上下文切换的用于语音输入的用户界面(以下称为UI)和用于触摸输入的UI。

用户上下文包括用户状态、用户简档或用户环境信息。用户状态表示例如用户的位置、距信息处理终端100的距离、行为、视线、脸部朝向、姿态、面部表情、姿势或生物信息。用户简档表示名称信息、帐户信息、属性信息、物理信息、偏好信息、行为历史信息、人际关系信息等。此外，用户环境信息包括从信息处理设备或其他感测设备的相机或麦克风获取的信息，信息例如为信息处理设备所处位置的噪声水平、温度、湿度、照度、亮度和时间等信息，且还包括从其他设备获取的感测信息。

[信息处理终端的硬件配置]

接下来，将描述信息处理终端100的硬件配置。

图2是示出信息处理终端100的外观的示图。此外，图3是示出信息处理终端100的硬件配置示例的框图。

如图2所示，信息处理终端100包括例如桌面型外壳，其前视图是矩形的，并且可以放置在桌子、架子、地板等上。

此外，如图3所示，信息处理终端100包括CPU(中央处理单元)11、ROM(只读存储器)12和RAM(随机存取存储器)13。此外，信息处理终端100可以包括主机总线14、桥接器15、外部总线16、接口17、输入设备18、输出设备19、存储设备20、驱动器21、连接端口22和通信设备23。信息处理终端100可以根据需要进一步包括成像设备26和传感器27。代替或除了CPU11以外，信息处理终端100可以包括处理电路，例如DSP(数字信号处理器)、ASIC(专用集成电路)和FPGA(现场可编程门阵列)。

CPU 11用作操作处理设备和控制设备，并根据记录在ROM 12、RAM 13、存储设备20或可移除记录介质24中的各种程序来控制信息处理终端100的总体或部分操作。ROM 12存储CPU 11所使用的程序、算术参数等。RAM 13主要存储在CPU 11执行时使用的程序、在执行中适当改变的参数等。CPU 11、ROM 12和RAM 13通过包括诸如CPU总线之类的内部总线的主机总线14彼此连接。此外，主机总线14经由桥接器15连接到诸如PCI(外围组件互连/接口)总线的外部总线16。

输入设备18是由用户操作的设备，例如触摸面板、物理按钮、开关和操纵杆。输入设备18可以是例如使用红外线或其他无线电波的遥控设备，或者可以是与信息处理终端100的操作相对应的外部连接设备25，例如智能电话和智能手表。输入设备18包括输入控制电路，其基于用户输入的信息来生成输入信号，并将所生成的信号输出至CPU 11。通过操作该输入设备18，用户将各种类型的数据输入至信息处理终端100，并指示信息处理终端100执行处理操作。

如图2所示，在本实施例中，将从前表面的中心到上部设置的触摸面板、在例如顶表面上设置的麦克风、其他物理按钮(电源按钮、音量调节按钮等)提供作为输入设备18。

输出设备19包括使用诸如视觉、听觉和触觉之类的感觉能够向用户通知所获取的信息的设备。输出设备19可以是例如诸如LCD(液晶显示器)和有机EL(电致发光)显示器的显示设备；诸如扬声器的语音输出设备等。输出设备19将通过信息处理终端100执行处理获得的结果输出为视频(例如，文本或图像)、语音(例如，语音或声音)、振动等。

如图2所示，在本实施例中，将与上述触摸面板一体设置的显示器、设置在显示器下部的扬声器等提供作为输出设备19。

图2所示的显示器的屏幕示出主屏幕的示例，并且例如，除了时间、天气信息和登录用户信息之外，还显示用于启动诸如视频应用、音乐应用、烹饪应用和相机应用的应用的多个图标i。

存储设备20是被配置为信息处理终端100的存储单元的示例的数据存储设备。存储设备20包括例如诸如HDD(硬盘驱动器)的磁存储单元设备、半导体存储设备、光学存储设备或磁光存储设备。存储设备20存储例如由CPU 11执行的程序、各种类型的数据以及从外部获取的各种类型的数据。

驱动器21是用于诸如磁盘、光盘、磁光盘和半导体存储器的可移除记录介质24的读取器/写入器，并且内置于或从外部连接到信息处理终端100。驱动器21读取记录在附接的可移除记录介质24上的信息，并将读取的信息输出到RAM 13。此外，驱动器21将记录写入附接的可移除记录介质24。

连接端口22是用于将设备连接至信息处理终端100的端口。连接端口22可以是例如USB(通用串行总线)端口、IEEE1394端口或SCSI(小型计算机系统接口)端口。此外，连接端口22可以是RS-232C端口、光学音频端子、HDMI(注册商标)(高清晰度多媒体接口)端口等。通过将外部连接设备25连接到连接端口22，可以在信息处理终端100和外部连接设备25之间交换各种类型的数据。

通信设备23是通信接口，包括例如用于连接到通信网络50的通信设备。通信设备23可以是例如用于LAN(局域网)、蓝牙(注册商标)、Wi-Fi或WUSB(无线USB)的通信卡。此外，通信设备23可以是用于光通信的路由器、用于ADSL(非对称数字用户线)的路由器或用于各种类型的通信的调制解调器。通信设备23使用诸如TCP/IP的预定协议向因特网或其他通信设备发送例如信号和自因特网或其他通信设备接收例如信号。此外，连接到通信设备23的通信网络50可以是有线或无线连接的网络，并且可以包括例如因特网、家庭LAN、红外通信、无线电波通信或卫星通信。

例如，成像设备26是使用各种构件(诸如包括CMOS(互补金属氧化物半导体)和CCD(电荷耦合器件)的图像传感器以及用于控制在图像传感器上形成物体图像的透镜)捕获真实空间的图像的相机，并生成图像。成像设备26可以捕获静止图像或可以捕获运动图像。

例如，传感器27是各种传感器，诸如加速度传感器、角速度传感器，地磁传感器、照度传感器、热传感器、气压传感器和声音传感器(麦克风)。传感器27获取与信息处理终端100本身的状态有关的信息，例如信息处理终端100的壳体的姿势，或者获取与信息处理终端100的周围环境有关的信息，诸如信息处理终端100周围的亮度和噪声。此外，传感器27可以包括GPS接收器，其接收GPS(全球定位系统)信号以测量设备的纬度、经度和高度。

可以通过使用通用构件来配置上述每个组件，或者可以通过专用于相应组件的功能的硬件来配置上述每个组件。可以根据实施时的技术水平适当地改变这种配置。

[信息处理终端的功能块配置]

图4是示出信息处理终端100的功能块的示图。

如图所示，信息处理终端100包括控制单元110、传感器单元120、语音输入单元130、触摸输入单元140、成像单元150、显示单元160、语音输出单元170和通信单元180作为功能块(软件模块)。

控制单元110与CPU 11协作以整体控制信息处理终端100的每个功能块的处理。

传感器单元120将由上述传感器27检测到的感测数据传送到控制单元110。

语音输入单元130向控制单元110发送从输入到用作输入设备18的麦克风的语音转换的语音信号。触摸输入单元140将由用作输入设备18的触摸面板感测到的触摸位置的信息作为信息信号发送至控制单元110。成像单元150基于来自控制单元110的指令，通过成像设备26捕获图像，并且将捕获的图像作为数字数据发送到控制单元110。

除了上述主屏幕之外，显示单元160在作为输出设备19的触摸面板上显示各种激活的应用的GUI(图形用户界面；在下文中，也称为UI)。

如上所述，在本实施例中，主要通过音乐应用来显示根据用户上下文切换的用于语音输入的UI或用于触摸输入的UI。

语音输出单元170基于来自控制单元110的指令，从作为输出设备19的扬声器输出语音。

通信单元180与通信设备23协作，以经由网络50与诸如信息处理服务器200的其他设备通信。例如，通信单元180将从用户输入的语音数据发送到信息处理服务器200。

可以不在信息处理服务器200中提供这些功能，而在诸如信息处理终端100或云上的设备的外部终端中提供这些功能。特别地，语音输入单元130、成像单元150和显示单元160可以设置在外部连接的设备中。

[信息处理服务器的功能块配置]

图5是示出信息处理服务器200的功能块的示图。

如图所示，信息处理服务器200包括控制单元210、通信单元220、语音识别单元230、语义分析单元240、用户识别单元250和用户状态估计单元260作为功能块，并且包括呈现信息DB(数据库)270和用户DB 280的数据库。

控制单元210与信息处理服务器200的CPU合作，以整体控制信息处理服务器200的每个功能块的处理。

通信单元220经由网络50与诸如信息处理终端100的其他设备通信，从信息处理终端100接收语音数据，将接收到的数据发送到语音识别单元230和控制单元210，并且例如，将表示控制单元210执行的处理结果的数据发送到信息处理终端100。

语音识别单元230通过语音识别处理从信息处理终端100接收的语音数据，以将其转换为文本数据，并将该文本数据发送至语义分析单元240。

语义分析单元240参考用户DB 280，分析上述文本数据的语义，并将表示所分析的语义的数据发送到控制单元210。控制单元210从呈现信息数据库270中提取与该数据相对应的呈现数据，并且经由通信单元220将所提取的呈现数据发送到信息处理终端100。

用户识别单元250从由通信单元220接收的信息处理终端100的相机获得的图像数据中识别人。

用户状态估计单元260通过参考用户DB 280来估计上述识别出的用户的状态(或行为)，并将估计结果发送至控制单元210。控制单元210从呈现信息数据库270中提取与估计结果相对应的呈现数据，并且经由通信单元220将所提取的呈现数据发送到信息处理终端100。

这些功能可以不在信息处理服务器200中提供，而是可以在诸如信息处理终端100或云上的设备的外部终端中提供。

[信息处理终端的用户界面的示例]

接下来，将描述在执行上述应用中的音乐应用时，上述信息处理终端100可以在显示单元160上显示的UI的示例。图6是示出各种用户界面的示例的示图。图7是示出UI的转变示例的示图。

图6的部分A显示了在播放特定音乐时的UI。例如，控制部(例如搜索栏、播放按钮、快进按钮和回退按钮)位于下部，且音乐、艺术家、录制的专辑名称、专辑封面图像等布置在其上部。

图的部分B至部分E分别示出供用户选择音乐的音乐列表画面的示例。图的部分B是用于语音输入的列表画面，并且例如，在横向上并排显示主要包括专辑封面图像的三个专辑信息。与上述部分B所示的语音输入的列表画面相比，该图的部分C示出用于触摸输入的列表画面，列表方向是纵向方向，每个专辑封面的图像变小，并且还列出了与每个专辑中包括的多首音乐有关的信息。图的部分D和部分E分别是其中上述部分B和C中所示的列表画面可以通过滚动条在横向和纵向上滚动的版本。

图的部分F示出了通过将图的部分A中所示的播放画面和图的部分E中所示的用于触摸输入的列表画面彼此组合而获得的画面。

如将在下面详细描述的，假定在用户由于他/她位于远离信息处理终端100的位置而不能在信息处理终端100上执行触摸输入(很难看到)的情况下呈现语音输入的UI，其信息量(图像对象、文本、列表项等)较小，并且粒度设置为较大。相反，假定在用户由于他/她位于靠近信息处理终端100的位置而可以在信息处理终端100上执行触摸输入(很容易看到)的情况下呈现了用于触摸输入的UI，其信息量大，并且粒度设置为较小。

信息处理终端100从这样的UI中选择适当的UI，并根据用户上下文(位置等)显示选择的UI。例如，如图7所示，当画面从播放画面转变为列表画面时，在用户处于适合于触摸输入的状态的情况下，信息处理终端100显示用于触摸输入的详细列表画面，如图中的部分B所示，且在用户未处于适合于触摸输入的状态的情况下，显示用于语音输入的相对简单的列表画面，如附图的部分C所示。

[音乐播放系统的操作]

接下来，将描述如上所述配置的音乐播放系统的操作。诸如信息处理终端100或信息处理服务器200的CPU和通信单元的硬件与诸如存储在存储单元中的应用的软件协作来执行该操作。在下面的描述中，为了方便起见，将信息处理终端100的CPU 11和信息处理服务器200的控制单元210主要描述为主要操作体。

图8是示出响应于信息处理终端100的触发而显示UI的处理流程的流程图。

如图所示，信息处理终端100的CPU 11在任何时候从输入设备18、成像设备26、传感器27等获取信息(步骤81)，并根据该信息确定是否已经接受触发(步骤82)。

例如，在触发是音乐播放指令的情况下，输入源可以是语音输入、触摸输入或用户的远程控制操作。例如，假定从上述图2所示的主屏幕的显示状态开始，如图8所示，通过音乐应用播放特定艺术家的音乐是由用户的语音表达所指示的(在步骤82中的是)。

注意，指令的语音在开头具有预定的唤醒词部分，且然后是技能名称(应用的功能名称等)部分、声音表达(utterance，发音意见)部分和启动部分。这些部分的划分以及是否已经接受触发的确定由信息处理服务器200的语音识别单元230和语义分析单元240执行。

然后，CPU 11估计指令源的用户的状态，特别是用户的位置(步骤83)。用户位置的估计由信息处理服务器200的用户状态估计单元260基于成像设备26捕获的图像来执行。

除了所捕获的图像之外，例如，可以基于从用户输入到多个麦克风的语音的到达时间之间的差异或从终端(例如用户拥有的智能手机)接收到的GPS(全球定位系统)信息或VPS(虚拟定位系统)信息，可以估算用户位置。此外，可以通过定位技术使用信标(BLE(蓝牙低能耗))信息或航位推算来估算用户位置。

在可以估计用户位置的情况下(步骤84中的是)，信息处理服务器200的控制单元210基于上述捕获图像等来确定用户位置距信息处理终端100的距离是否小于或等于预定距离(步骤85)。预定距离例如为0.5m，1m，2m等，但不限于此。

在确定用户位置小于或等于预定距离的情况下，控制单元210向信息处理终端100发送用于指示在触摸板上显示用于触摸输入的UI的指令信号，用于触摸输入的UI使用户通过触摸选择上述播放指令中包括的艺术家的专辑。响应于此，信息处理终端100的CPU 11控制触摸面板，以显示如图10的部分B所示的用于触摸输入的UI(步骤86)。

在确定用户在预定距离之外的情况下，控制单元210向信息处理终端100发送指示在触摸面板上显示用于语音输入的UI的指令信号，用于语音输入的UI使用户通过语音选择上述专辑。响应于此，信息处理终端100的CPU 11控制触摸面板，以显示如图10的部分C所示的用于语音输入的UI(步骤87)。

在上述步骤84中确定不能估计用户位置的情况下(否)，例如，控制单元210随机地或从列表顺序的顶部拾取包括在播放指令中的艺术家的专辑，并将指示在触摸面板上显示用于播放的UI的指令信号发送到信息处理终端100，其中，从头开始或随机地播放专辑的音乐。如图10的部分D所示，响应于此，信息处理终端100的CPU 11控制触摸面板，以显示用于播放的UI(步骤88)。

此外，控制单元210可以将第一距离和第二距离(第一距离<第二距离)设置为上述预定距离，并且将指令信号发送到信息处理终端100，所述指令信号用于在用户位置小于或等于第一距离的情况下，促使显示用于触摸输入的UI；在用户位置超出第二距离的情况下，促使显示用于语音输入的UI；以及在用户位置在第一距离和第二距离之间的情况下，促使显示其他UI，诸如用于姿势输入的UI、用于视线输入的UI以及用于远程控制输入的UI。

(基于用户所在范围的UI显示)

CPU 11可以使用预定区域范围而不是预定范围作为上述用户位置的标准。图11是用于描述区域范围的示图。

如图的部分A所示，例如，CPU 11可以将在距信息处理终端100的前表面的上述预定距离之内并且在左右60度之内的区域范围设置为用于触摸输入的UI的区域范围A1，并将其他区域范围设置为用于语音输入的UI的区域范围A2。

如图的部分B所示，例如，CPU 11可以将在距信息处理终端100的前表面的上述预定距离之内并且在左右60度之内的区域范围设置为用于触摸输入的UI的区域范围A1；将距前表面的距离大于上述预定距离并且在左右60度以内的区域范围设置为用于语音输入的UI的区域范围A2；并将其他区域范围(用户看不到UI的范围)设置为用于简单(单单)播放的UI的区域范围A3。此外，区域范围A3可以被设置为不显示画面(UI)的区域范围(仅扬声器的操作)。

图12是示出显示与区域范围相对应的UI的处理流程的流程图。

在图中，从步骤121到步骤124的处理与上述的图8的从步骤81到步骤84的处理相似。

在步骤124中确定可以估计用户位置的情况下(是)，信息处理服务器200的控制单元210确定用户是否处于他/她可以看到信息处理终端100的显示器的第一范围内(图11的部分B中的区域范围A1和A2)(步骤125)。

在确定用户在第一范围内(是)的情况下，控制单元210确定用户是否在用户可以触摸显示器的第二范围内(图11的部分B中的区域范围A1)(步骤126)。

在确定用户在第二范围内(是)的情况下，用于指示在触摸板上显示用于触摸输入的UI的指令信号被发送到信息处理终端100，用于触摸输入的UI使用户通过触摸选择上述播放指令中包括的艺术家的专辑。响应于此，信息处理终端100的CPU 11控制触摸面板，以显示如图10的部分B所示的用于触摸输入的UI(步骤127)。

在确定用户存在于第一区域之内和第二范围之外(图11的部分B中的区域范围A2)的情况下，控制单元210向信息处理终端100发送用于指示在触摸面板上显示用于语音输入的UI的指令信号，用于语音输入的UI使用户通过语音选择上述专辑。响应于此，信息处理终端100的CPU 11控制触摸面板，以显示如图10的部分C所示的用于语音输入的UI(步骤128)。

与图8的步骤88类似，在上述步骤124中确定不能估计用户位置(否)的情况下，控制单元210向信息处理终端100发送用于指示在触摸面板上显示用于播放的UI的指令信号。响应于此，CPU 11控制触摸面板，以显示如图10的部分D所示的用于播放的UI(步骤129)。

例如，可以将上述区域范围A1和A2进一步细分，并且可以将A4设置在A1和A2之间。在这种情况下，在确定用户存在于区域范围A4中的情况下，控制单元210可以将指令信号发送到信息处理终端100，以便显示其他UI，例如用于姿势输入的UI、用于视线输入的UI和用于远程控制输入的UI。

(还考虑用户视线的UI显示)

除了上述区域范围之外，CPU 11还可以使用用户的视线(用户是否正在看向信息处理终端100的显示器)作为上述用户位置的标准。

图13是示出信息处理终端100还考虑到用户的视线来显示UI的处理流程的流程图。

在图中，从步骤131到步骤136的处理与上述图12的从步骤121到步骤126的处理相似。在该示例中，假设已经通过从用户输入的语音接受了将当前正在播放的音乐改变为另一首音乐的指令作为触发，例如，如图14所示。

在步骤136中确定用户在用户可以触摸显示器的第二范围内(是)或用户在第二范围外(否)时，信息处理服务器200的控制单元210例如基于由成像设备26捕获的图像，确定用户的视线是否指向信息处理终端100的显示器(步骤137，步骤138)。

在确定在第二范围内的用户正在看向显示器的情况下(步骤137中的是)，控制单元210显示具有大量信息的用于触摸输入的UI，并且向信息处理终端100发送例如用于指示输出诸如“哔哔”之类的简单声音效果或打开LED的指令信号。响应于此，如图15的部分B所示，信息处理终端100的CPU 11控制触摸面板以显示用于触摸输入的UI(大量信息)，并且控制扬声器以输出上述声音效果或打开LED(步骤139)。

为什么将声音效果或LED用作通知的原因在于，当他/她在看向显示器时，详细的语音指导被认为是用户的障碍。另外，信息量具体包括内容(音乐)的数量、菜单的数量、滚动条、元信息等。

在确定第二范围内的用户没有看向显示器的情况下(步骤137中的“否”)，控制单元210显示具有小于上述信息量的信息量的用于触摸输入的UI，并且向信息处理终端100发送用于指示向显示器输出用于引导用户的视线的语音指导的指令信号，例如“这首歌怎么样？”。响应于此，如图15的部分C所示，信息处理终端100的CPU 11控制触摸面板以显示用于触摸输入的UI(少量信息)，并控制扬声器以输出上述语音指导(步骤140)。

在确定第二范围外的用户正在看向显示器的情况下(步骤138中的是)，控制单元210显示具有大量信息的用于语音输入的UI，并且向信息处理终端100发送例如用于指示输出诸如“哔哔”之类的简单声音效果或打开LED的指令信号。响应于此，如图15的部分D所示，信息处理终端100的CPU 11控制触摸面板以显示用于语音输入的UI(大量信息)，并且控制扬声器以输出声音效果或打开LED(步骤141)。

在确定第二范围之外的用户没有看向显示器的情况下(步骤138中的“否”)，控制单元210显示具有小于上述信息量的信息量的用于语音输入的UI，并且向信息处理终端100发送用于指示输出语音指导(例如“这首歌怎么样？”)的指令信号。响应于此，如图15的部分E所示，信息处理终端100的CPU 11控制触摸面板以便显示用于语音输入的UI(少量信息)，并控制扬声器以输出上述语音指导(步骤142)。

在确定无法估计用户的位置(步骤134中为“否”)或者用户不在第一范围内(步骤135中为“否”)的情况下，控制单元210将指令信号发送到信息处理终端100，该指令信号用于指示仅将音乐切换到另一首音乐(例如，正在播放的专辑的下一首音乐)而无需更改当前播放的UI，并输出用于将音乐描述为切换目的地的语音指导，例如“播放歌曲B1”。响应于此，如图15的部分F所示，信息处理终端100的CPU 11控制触摸面板以切换内容而不改变UI，并且控制扬声器以输出语音指导(步骤143)。

(存在多个用户的情况)

尽管以上描述是在假设信息处理终端100的用户数量为一个的前提下进行的，但是也可以想到，多个用户操作信息处理终端100。

图16是描述在由多个用户操作信息处理终端100的情况下，多个用户中的每个用户的位置与区域范围之间的关系的示图。

如图所示，在信息处理终端100周围存在两个用户，即用户U1和用户U2。用户U1存在于他/她不能看到信息处理终端100的显示器的区域范围中，即，在用于显示的UI的区域范围A3中，并且用户U2存在于他/她可以触摸信息处理终端100的显示器的区域范围中，即，在用于触摸选择的UI的区域范围A1中。信息处理终端100根据存在多个用户的区域来显示UI。

图17是示出根据多个用户所处的区域由信息处理终端100显示UI的处理流程的流程图。

如图所示，信息处理终端100的CPU 11在任何时候从输入设备18、成像设备26、传感器27等获取信息(步骤171)，并根据该信息确定是否已经接受触发(步骤172)。

在确定已经接受了触发(例如，已经输入了音乐切换指令的语音)(是)的情况下，信息处理服务器200的用户识别单元250例如基于由成像设备26捕获的图像，确定在信息处理终端100周围是否存在多个用户(步骤173)。

在确定不存在多个用户的情况下(否)，信息处理服务器200和信息处理终端100执行图8中的步骤83和后续步骤，图12中的步骤123和后续步骤，或图13中的步骤133和后续步骤的上述处理。

在确定存在多个用户的情况下(是)，用户识别单元250从上述捕获的图像等中确定用户是否存在于上述区域范围A1至A3中的不同区域范围中(步骤174)。

在确定多个用户存在于相同区域范围内的情况下(否)，与用户数量为一的情况类似，信息处理服务器200和信息处理终端100执行图8中的步骤83和后续步骤，图12中的步骤123和后续步骤，或图13中的步骤133和后续步骤的上述处理(步骤182)。

在确定多个用户存在于不同区域范围中的情况下(是)，用户识别单元250基于上述捕获的图像等来确定是否存在不能看到信息处理设备100的显示器的用户，即，位于上述区域范围A3中的用户(步骤175)。

在确定存在看不到显示器的用户的情况下(是)，用户识别单元250基于上述捕获的图像等来确定是否存在可以触摸显示器的用户(步骤176)。

在确定存在可以触摸显示器的用户的情况下(是)，控制单元210为可以触摸显示器的用户显示用于触摸输入的UI，并向信息处理终端100发送指令信号，用于通过波束成形(沿特定方向的声波的传输)来针对看不到显示器的用户指示输出类似于以上参考图13所述的语音指导。响应于此，信息处理终端100的CPU 11显示用于触摸输入的UI，并控制扬声器，以便例如仅使用与信息处理终端100后面的上述区域范围A3相对应的扬声器，向不能看到显示器的用户输出方向性语音指导(步骤178)。结果，可以看到显示器的用户不会受到上述语音指导的妨碍，并且向不能看到显示器的用户提供适当的信息。

在确定不存在可以触摸显示器的用户的情况下(否)，控制单元210向可以看到显示器的用户显示用于语音输入的UI，并向信息处理终端100发送指令信号，用于指示向看不到显示器的用户输出上述语音指导。响应于此，信息处理终端100的CPU 11显示用于语音输入的UI，并且控制扬声器以通过与上述类似地波束成形输出语音指导(步骤179)。

在上述步骤175中确定不存在看不见显示器的用户(否)的情况下，控制单元210确定指令用户(发出触发的用户)是否可以执行触摸操作(他/她是否在区域范围A1中)(步骤177)。

这里，可以通过检查在信息处理终端100中包括的多个麦克风中输入了触发的语音的麦克风的位置与在上述捕获的图像中的用户的位置来执行指令用户的规范。

在确定指令用户可以触摸显示器的情况下(是)，控制单元210显示上述用于触摸输入的UI，并向信息处理终端100发送用于指示输出与图13中的情况类似的声音效果或打开LED的指令信号。响应于此，信息处理终端100的CPU 11控制触摸面板以显示用于触摸输入的UI，并且控制扬声器输出声音效果或打开LED(步骤180)。

在确定指令用户不能触摸显示器的情况下(否)，控制单元210显示用于语音输入的UI，并向信息处理终端100发送用于指示输出上述声音效果或打开LED的指令信号。响应于此，信息处理终端100的CPU 11控制触摸面板以显示上述用于语音输入的UI，并且控制扬声器输出声音效果或打开LED(步骤181)。

上述通过波束成形的语音指导不仅可以输出到看不到信息处理终端100的显示器的用户，而且还可以输出到可以看到该显示器的用户。此时，CPU 11可以控制扬声器，使得对于看不见显示器的用户的语音指导的内容和对于可以看见显示器的用户的语音指导的内容彼此不同地输出。此外，在多个用户中只有某个指令用户执行操作的情况下，CPU 11可以控制扬声器，以便通过波束成形仅向上述指令用户输出语音指导。

此外，CPU 11可与信息处理服务器200协作以指定多个用户中最远离或最靠近信息处理终端100的用户的位置，并控制触摸面板以根据位置(根据位置位于区域范围A1到A3中的哪个)显示UI。

此外，CPU 11可以指定多个用户的位置的中间(平均)位置，并且控制触摸面板以根据该位置显示UI。

此外，CPU 11可以指定多个用户中正在看显示器的用户，并控制触摸面板以根据该用户的位置显示UI。

上述示例示出了来自用户的指令明确的示例，但是存在来自用户的指令不明确的情况。在这种情况下，CPU 11也可以根据例如基于由成像设备26捕获的图像确定用户距信息处理终端100的距离，确定用户所在的区域范围，以及确定用户的视线是否指向信息处理终端10的确定结果，来执行处理。这可以包括与除音乐应用之外的应用或服务有关的处理。可以基于信息处理终端100的距离传感器或外部传感器(距离传感器，室内相机等)的感测数据来确定上述距离和区域范围。

例如，在从用户输入“(嗨，代理)艺术家A”的语音并且用户位于他/她可以触摸或正看向信息处理终端100的位置的情况下，如图18所示，CPU 11不仅可以显示用于选择艺术家A的音乐的列表显示，而且可以显示包括网络搜索和与艺术家A有关的新闻显示(作为选择菜单)的UI。

此外，在用户的指令不明确并且用户与信息处理终端100相距一定距离或未看向信息处理终端100的情况下，CPU 11可以通过语音询问指示内容，或者可以通过任意地预测执行过程来执行播放处理或列表显示处理。图19示出在输入“(嗨，代理)艺术家A”的语音的情况下，CPU 11预测“已经指示了艺术家A的音乐的播放”并执行播放的状态。

此外，在信息处理终端100的环境声音水平等于或高于预定水平的情况下，或者从感测信息估计语音输入环境差的情况下，CPU 11可以扩展距离/范围，以提供用于更可靠的触摸输入的UI作为操作输入装置，例如，激活诸如电视机的另一AV设备。

例如，在语音输入环境良好的情况下，假定从信息处理终端100到用户的距离是1m(该距离是用于显示用于触摸输入的UI或用于语音输入的UI的参考)，在已经检测到环境声音水平等于或高于预定值或者激活了另一AV设备的情况下，CPU 11可以将上述参考距离改变为3m。这防止用于语音输入的界面中的输入错误。

此外，CPU 11可以根据上述语音输入环境，在显示器上显示用于表示输入到用户的语音的识别灵敏度或准确性的UI、图标、条等。例如，CPU 11可能会更改图2中的画面顶部的条的颜色或图标组中心的麦克风图标(例如，在语音输入环境良好的情况下为红色，在语音输入环境差的情况下为蓝色)。

结果，例如，当CPU 11由于语音识别精度差而显示用于触摸输入的UI时，用户可以直观地理解由于语音识别不成功而显示了触摸UI，并且可以自然地选择触摸输入来代替语音输入。

在以上描述中，CPU 11还可以考虑用户的姿势来切换UI的显示。即，即使在用户位于靠近信息处理终端100的位置的情况下，在检测到用户躺卧的情况下，CPU 11可以显示用于语音输入的UI。结果，可以避免躺着的用户坐起来执行触摸操作的必要性。从成像设备26或外部传感器(床中的传感器，用户佩戴的可穿戴终端，室内相机等)捕获的图像中获取姿势信息。

替代地，在已经检测到用户在躺着的情况下，CPU 11可以显示上述用于播放的UI。这避免了在躺着的用户并不看向显示器的情况下看显示器上的UI并选择处理的麻烦。

在上述示例中，假定在音乐应用中预先提供了用于触摸输入的UI和用于语音输入的UI。然而，根据应用或服务，在某些情况下，不提供用于触摸输入的UI和用于语音输入的UI。在这种情况下，在该服务提供的UI的不同模式情况下，尽管它不是用于触摸/语音输入的UI，CPU 11可以将该UI用于触摸/语音输入。

例如，在存在具有大量内容的UI和具有少量内容的UI的情况下，CPU 11将前者用于触摸输入而将后者用于语音输入。此外，在提供平板页面和智能手机页面的情况下，CPU11可以将前者用于触摸输入而将后者用于语音输入。

此外，在通过响应设计创建服务侧网页的情况下，如图20所示，CPU 11可以虚拟地改变页面的分辨率信息，并将高分辨率页面(图20的部分A)用作用于触摸输入的UI，并将低分辨率页面(图20的部分B或部分C)用作用于语音输入的UI。

此外，在未提供如上所述的UI的不同模式的情况下，CPU 11可以通过改变内容(图像或字体)的大小以将它们彼此区分开来显示用于触摸输入的UI或用于语音输入的UI。

此外，在服务侧页面具有链接或选项的情况下，在该页面用作用于触摸输入的UI的情况下，CPU 11可以按原样显示该页面，并在页面用作用于语音输入的UI的情况下，为语音指令提供图标，例如指向链接或选项的数字。

结果，即使在其中没有预先提供用于触摸输入的UI和用于语音输入的UI的应用或服务中，信息处理终端100能够提供与输入装置相对应的适当的UI。

在上述示例中，已经描述了音乐应用中的UI，但是根据诸如用户的距离、范围和视线等上下文切换用于语音输入的UI/用于触摸输入的UI的过程也可以在其他应用程序中类似地实现。

作为示例，图21示出了与图8的步骤86至88以及图10的部分B至D相对应的UI作为在烹饪应用中的UI中显示的UI。

图的部分A示出了用于触摸输入的UI，图的部分B示出了用于语音输入的UI，并且图的部分C示出了用于播放的UI。在用于触摸输入的UI中，画面信息量(字符信息量)大，并且与其一起输出的语音信息量小。在用于语音输入的UI中，画面信息量很小(字符信息被图片代替)，并且伴随的语音信息量也很小。在用于播放的UI中，画面信息量小而语音信息量大。

在上述示例中，信息处理终端100和信息处理服务器200可以通过与用户当时使用的UI或来自用户的指令内容相关联地学习用户的位置、视线、姿势或面部表情中的至少一项来确定UI。

作为学习方法，例如，使用神经网络或深度学习。神经网络是模仿人类颅神经回路的模型，并包括三种类型的层，即输入层、中间层(隐藏层)和输出层。此外，深度学习是使用多层结构的神经网络的模型，并且可以通过在每一层中重复特征学习来学习隐藏在大量数据中的复杂模式。深度学习用于例如识别图像中的物体或语音中的词。

在使用深度学习的情况下，输入可以是位置、姿势、面部表情、用户的视线等，并且输出可以是用于触摸输入的UI、用于语音输入的UI等。

此外，作为用于实现这种机器学习的硬件结构，可以使用结合了神经网络的概念的神经芯片/神经形态芯片。

此外，机器学习的问题设置包括监督学习、无监督学习、半监督学习、强化学习、反强化学习、主动学习、过渡学习等。例如，监督学习基于给定的标记学习数据(教学数据)学习特征量。这使得可以导出未知数据的标签。

此外，在无监督学习中，分析大量未标记的学习数据以提取特征量，并且基于所提取的特征量执行聚类。这样就可以基于大量未知数据来分析趋势并预测未来。

此外，半监督学习是监督学习和非监督学习的混合，并且是一种在通过监督学习而学习特征量之后通过非监督学习提供大量训练数据，并在自动计算特征量的同时重复执行学习的方法。

此外，强化学习解决代理在某些环境中观察当前的状态来决定要采取的行为的问题。代理通过选择行为从环境中获得奖励，并学习如何通过一系列行为获得最大的奖励。如上所述，通过在某些环境中学习最优解，可以再现人的判断，并使计算机比人学习更多的判断。

在上述示例中，将用于触摸输入的UI和用于语音输入的UI示出为要切换的UI，但是可以切换和显示其他UI，例如用于姿势输入的UI，用于视线输入的UI和用于远程控制输入的UI。例如，在上述示例中，CPU 11可以控制触摸面板以显示用于视线输入的UI来代替用于触摸输入的UI以及显示用于姿势输入的UI来代替用于语音输入的UI。

在上述示例中，基于用户与信息处理终端100之间的距离，用户所在的区域范围或者用户的视线是否指向信息处理终端100的确定结果，切换UI的显示。然而，CPU 11可以基于与用户的听觉和视觉有关的简档信息来切换UI的显示。例如，在从简档信息中确定识别到的用户患有听力障碍的情况下，CPU 11可以控制触摸面板以显示用于触摸输入的UI，而在确定用户没有听力障碍的情况下，显示用于语音输入的UI。此外，在上述示例中，在确定识别到的用户有听力障碍的情况下，CPU 11可以控制触摸面板以显示用于姿势输入的UI、用于视线输入的UI或用于远程控制输入的UI，来代替用于语音输入的UI。

<第二实施例>

接下来，将描述本技术的第二实施例。在本实施例中，具有与上述第一实施例中的功能和配置相似的功能和配置的部分由相同的附图标记表示，并且省略或简化了重复的描述。

在上述实施例中，已经示出了根据用户上下文在音乐应用中改变用于音乐播放的UI的处理。顺便提及，与诸如音乐和视频的媒体内容不同，诸如烹饪食谱和电子书的内容需要操作，例如，用户需要在播放之后翻页(逐步)。

在该实施例中，将描述烹饪应用(食谱播放系统)作为基于包括用户的用户状态(位置/姿势/视线/面部表情等)、用户简档或用户环境信息的用户上下文信息或从其他设备收集的感测信息，来控制内容中包括的多个播放步骤的切换的处理的示例。

烹饪应用可以通过因特网从诸如Cook pad和Allrecipes.com的用户发布型服务下载诸如食谱、图像和内容的信息，并在控制上述播放步骤的切换的同时显示信息，或者在控制上述播放步骤的切换的同时对信息进行流播放。

图22是描述根据该实施例的在食谱播放系统中播放食谱的过程的流程的示图。

如图中的部分A所示，用户通过从图2所示的主屏幕输入的语音来启动烹饪应用，并指示搜索特定菜肴(例如煎蛋卷)的食谱。

在识别出语音输入之后，如图22的部分B所示，信息处理终端100的CPU 11在显示器上显示相应菜肴的食谱的搜索结果，并通过语音通知用户搜索结果的数量。

如图的部分C所示，根据搜索结果，用户指示通过语音输入将特定食谱添加到“今天的菜单”。

在识别出语音输入之后，CPU 11在显示器上显示其中已经将上述食谱添加到上述“今天的菜单”的页面，并且通过语音向用户通知相应食谱的添加和烹饪时间。烹饪时间可以由将食谱发布到服务的用户输入，或者可以由实际创建食谱的用户发布并另外登记。此外，服务侧可以记录已播放食谱的多个用户中的每一个所花费的时间，并输出其平均值。

此时，CPU 11还显示用于针对多个食谱选择“一个一个地烹饪”或“一起烹饪”的按钮。“一个一个地烹饪”表示一种模式，在该模式下，一道一道地烹饪菜，并且烹饪的顺序由信息处理终端100给出(用户选择也是可行的)。“一起烹饪”表示其中信息处理终端100呈现用于一起烹饪多个选择的食谱的过程的模式。在该实施例中，如图的部分E所示，假设已经通过来自用户的语音输入指示了“一起烹饪”。

现有方法可以用于“一起烹饪”。即，CPU 11基于食谱中描述的工作(切割，翻炒，煮沸等)，人数和用户简档中的工作环境(炉灶，平底锅，厨刀等的数量)来解决使时间最小化的优化问题。

代替来自用户的上述食谱搜索指示，CPU 11可以获取冰箱中的食物的信息作为感测数据，并且向用户呈现包括食物的食谱。在这种情况下，在冰箱中设置有传感器(相机等)和发送器，并且通过发送器将与传感器检测到的食物有关的信息作为感测数据发送到信息处理终端100。

图23是描述在上述食谱播放系统中开始烹饪食谱之前的烹饪应用的画面的示图。

在开始烹饪之前，信息处理终端100显示诸如食材的准备之类的通知消息，例如由图中的虚线所示。假设以下是通知消息的示例。

将食谱数据和用户简档相互比较，并且在食谱数据包括在用户简档中登记的过敏食品的情况下，CPU 11在显示器上显示警告。警告可以作为警告声音或警告消息从扬声器输出。

在从感测数据中检测到冰箱或架子上存在替代食材的情况下，则CPU 11会提示此类替代食品(例如，大豆->鹰嘴豆)。

CPU 11可以从安装在信息处理终端100上的医疗保健应用获取运动信息或饮食信息，并在食谱的热量信息超过预定值的情况下显示警告。警告可以作为警告声音或警告消息从扬声器输出。

CPU 11可以提示将冰箱中的食物中缺少食谱中的食物的食材添加到EC(电子商务)站点上的购物车/意愿列表中。

CPU 11可以在通过参考家庭用户的位置信息检测到家庭用户外出的情况下，检查是否从信息处理终端100向诸如用户的智能手机的便携式设备发送了消息，以使用户购买食物。然后，在家庭用户同意购物的情况下，CPU 11可以根据用户的估计的返回时间来改变食谱的顺序。

接下来，将描述设置烹饪时间的过程作为食谱开始播放之前的功能。

当从用户指定烹饪完成时间时，CPU 11可以提出改变烹饪开始时间。例如，CPU 11可以将用户期望的烹饪完成时间和估计的烹饪时间彼此进行比较，并且在烹饪比用户期望的时间更早完成的情况下，向用户呈现适当的烹饪开始时间。

另外，在一起制作所有上述烹饪食谱中，CPU 11可以优化烹饪时间，使得烹饪时间接近于用户期望的时间而不是最小烹饪时间。

此外，在食谱是视频内容的情况下，CPU 11可以通过调节视频播放速度来调节烹饪完成时间。

此外，在确定规划的烹饪结束时间将超过用户期望的烹饪完成时间的情况下，CPU11可以呈现较短烹饪时间的食谱。

此外，CPU 11可以获取外出者的位置信息和过去的行为历史信息，并且基于估计的返回时间向用户呈现烹饪开始时间。

此外，CPU 11可以根据用户过去的食谱播放次数来设置经验值(经验)，设置级别，并在搜索菜单时根据用户级别显示菜单。图24是示出食谱的呈现画面的示例的示图，并且呈现了根据具有经验值(经验)为325的用户的菜单。

此外，CPU 11可以根据与用户先前已经烹饪过的食谱有关的食谱信息来呈现食谱。例如，在针对每个食谱将与所使用的食材和工作(炒和切割)有关的信息存储在信息处理服务器200中的情况下，例如，可以根据所存储的信息来呈现使用用户经常使用的食物或烹饪方法的食谱。

接下来，将描述食谱数据。图26是示出在该实施例中使用视频内容的食谱数据的示例的示图。

如图所示，食谱数据包括与食谱的各个播放步骤的名称有关的数据、各个播放步骤的视频的开始时间、与各个播放步骤相对应的烹饪过程的内容、用户的工作、食材、数量以及在相应烹饪过程中使用的器具。

其中，与工作、食材、数量和器具有关的数据可以由用户设置。可替代地，步骤名称和内容可以由用户设置，并且视频时间、工作、食材、数量和器具可以由系统(信息处理终端100或信息处理服务器200)根据视频或内容来估计和设置。

接下来，将描述在播放食谱时信息处理终端100和信息处理服务器200的操作。图25是示出由信息处理终端100和信息处理服务器200切换食谱的播放步骤的处理的示例的示图。

如图中的部分A所示，将要播放的食谱配置为具有多个步骤的视频内容(食谱视频)，其存储在信息处理服务器200中并针对每个步骤由TTS(时间戳传输流)播放。

在食谱视频中，将每个步骤(的开始时间)与视频内容上的播放时间相关联地标记。标记可以由发布者或服务用户设置，或者可以在很多情况下通过信息处理服务器200分析服务用户暂停视频的位置来自动设置。此外，信息处理服务器200可以分析食谱视频并自动进行标记。

如图的部分A所示，以步骤为单位播放食谱视频，且当食谱视频播放到下一个标记的播放位置(下一步骤的开始时间)时，食谱视频自动暂停。

然后，在如图所示的部分B和C中从用户获取切换触发时，CPU 11播放食谱视频的下一步骤。切换触发的识别由信息处理服务器200的控制单元210执行，并且处理结果被发送到信息处理终端100。

此外，例如，在食谱视频的播放画面的左下方，将用于向用户显示来自信息处理终端100的通知的区域提供作为通知区域。此外，除了在通知区域中显示之外，可以将相同的内容作为语音输出。

作为通知内容的示例，如图中的部分A所示，信息处理服务器200分析用户的工作并生成建议。可以通过信息处理服务器200的控制单元210分析来自成像设备26的输入(例如，混合不足，蔬菜切块过大)来生成建议，或者可以基于从烹饪器具获取的信息(火力弱，炒得过多)来生成建议。

此外，当从用户接收到针对除烹饪应用或服务以外的应用的指令(例如，音乐播放或新闻播放)时，CPU 11可以使用当前正在执行的烹饪工作的信息来反映与指令相对应的过程。例如，当从用户接收诸如“播放推荐的音乐”的语音指令时，CPU 11可与信息处理服务器200的控制单元210协作以搜索并播放“标题中包含蛋卷的歌曲”，或者搜索并播放“播放时间接近剩余烹饪时间的播放列表”。这允许CPU 11使正在烹饪的用户放松或向用户提供用于烹饪的有用信息。

此外，作为上述播放步骤的切换触发，存在有意地由用户指令并且由CPU 11通过执行确定来自动切换触发。

前者的示例包括语音指令，例如“告诉我下一个”，“下一个”，“进行”和“确认”。

此外，CPU 11和控制单元210可以从相机识别用户的姿势或视线作为用户的指令。姿势的示例包括滑动、预定手势(好的手势等)和眨眼。为了防止错误指令，仅在已经检测到语音和姿势(或视线)两者的情况下，CPU 11和控制单元210才可以切换到下一播放步骤。

作为后者的示例，在确定用户已经完成了与当前播放步骤相对应的烹饪工作的情况下，CPU 11和控制单元210可以从相机图像识别用户的行为或食物的状态，并切换播放步骤。

此外，在CPU 11和控制单元210基于来自另一设备(炉灶、智能菜刀、可穿戴终端等)的感测信息确定与当前播放步骤相对应的烹饪工作已经完成的情况下，可以切换播放步骤。

例如，在播放步骤中来自食谱的指示是“加热○分钟”的情况下，炉灶基于重量识别出已放置锅，并且在CPU 11和控制单元210检测到它已被加热○分钟的情况下，CPU 11将播放步骤切换到下一步骤。

此外，在播放步骤中来自食谱的指示是“请精细剁碎”的情况下，在智能菜刀中的传感器检测到切碎(垂直方向的频繁移动)且然后通过感测信息检测到不再检测到切碎(或放置了菜刀)的情况下，CPU 11将播放步骤切换到下一步骤。

此外，CPU 11可以基于用户佩戴的可佩戴终端的感测信息来执行与烹饪有关的行为的识别。例如，CPU 11和控制单元210获取包括在智能腕带中的加速度传感器和陀螺仪传感器的信息，基于该信息学习烹饪行为(切，翻炒，混合等)，识别用户的行为，并且在确定已经完成每个烹饪过程中包括的烹饪行为的情况下，将播放步骤切换到下一步骤。

以这种方式，CPU 11能够通过根据用户的行为或感测信息所识别的食物的状态来确定烹饪过程的完成，从而将烹饪过程的播放步骤切换到下一步骤，而无需从用户那里收到明确的指示。

图28是示出切换播放步骤的处理流程的流程图。

如图所示，首先，如上所述，CPU 11基于用户的搜索指示等从信息处理服务器200获取食谱信息(步骤281)。

随后，如上所述，CPU 11和控制单元210执行优化食谱的处理，例如烹饪时间和食物(步骤282)。

随后，CPU 11播放食谱视频的步骤N(N＝1)(步骤283)。

随后，当完成步骤N的播放时，CPU 11暂停食谱视频(步骤284)。

随后，CPU 11和控制单元210确定是否已经接受了上述切换触发(步骤285)。

如上所述，切换触发的识别主要由信息处理服务器200的控制单元210执行。在识别到切换触发时，控制单元210生成用于指示切换播放步骤的步骤切换信息，并且将所生成的信息发送到信息处理终端100。

在确定已经接受了切换触发(已经接收到步骤切换信息)的情况下(是)，CPU 11确定食谱视频是否具有下一步骤(步骤286)。

在确定存在下一步骤(是)的情况下，CPU 11将上述N增加以使播放步骤前进到下一步骤(步骤287)，并且重复上述步骤283和后续步骤的处理，直到最终播放步骤。

切换触发的识别可以由信息处理终端100的CPU 11执行。在这种情况下，一旦识别出切换触发并识别了下一步骤，则CPU 11生成上述步骤切换信息。在这种情况下，步骤切换信息是对烹饪应用的指示，以将食谱视频切换到下一步骤。

在上述流程图中，CPU 11通过播放、暂停或恢复食谱视频的播放来切换播放步骤。然而，例如，在接收到来自用户的指示的情况下，食谱视频可以被快进预定时间或前进到下一播放步骤，或者可以被回退预定时间或回退到前一播放步骤。

接下来，将描述与通过信息处理终端100和信息处理服务器200的食谱视频播放以外的食谱有关的功能。图29是描述功能的示图。

即使没有用户指示，信息处理终端100也可以自动执行烹饪过程中包括的过程。这就省去了用户的指示和烹饪的劳动。

也就是说，CPU 11和控制单元210可以分析食谱的步骤内容并自身控制烹饪器具，或者在确定步骤内容中包括可以由信息处理终端100处理的工作的情况下，向用户通知消息。

具体地，如图中的部分A所示，在食谱中指出“慢炖3分钟”的情况下，CPU 11将控制信号发送到定时器以“设置3分钟定时器”。然后，在识别出用户已经打开炉灶或用户已经说出“启动定时器”的情况下，CPU 11发送用于启动上述设置的定时器的信号。

此外，在食谱包括要通过中火进行加热并且从炉灶接收到与通过弱火或强火进行加热有关的感测信息的陈述的情况下，CPU 11发送用于控制炉灶以对中火进行加热的信号以及诸如“将火力改变为中火”的语音指导。

此外，在潜在危险的烹饪过程中，CPU 11和控制单元210在自动处理之前与用户确认要执行该处理。

例如，当在食谱的步骤中存在诸如“中火翻炒”和“搅拌器切碎”的描述时，CPU 11和控制单元210识别“用中火点燃炉灶”和“启动搅拌器”，他们不会自动执行该过程，而是通过语音(例如“用中火点燃炉灶？”)向用户确认，这是因为“炉灶”和“搅拌器”被设置为危险的烹饪器具。这避免了使用危险的烹饪器具进行自动处理的危险。

此外，CPU 11和控制单元210可执行注释处理，其在烹饪器具上引起用户的注意。

即，如图的部分B所示，CPU 11和控制单元210分析食谱的步骤内容，并使与该步骤有关的烹饪器具发光或发出声音。结果，CPU 11允许用户容易地掌握要在烹饪过程中使用的烹饪器具。

此时，如图的部分C所示，CPU 11可以将指令信号发送到烹饪器具本身以发光/发声，或者可以将指令信号发送到烹饪器具附近的设备以发光/发声。此外，CPU 11可以识别与步骤有关的“动作/工作”，并将用于指示改变用户通常执行动作的地方的颜色或亮度的指令信号不是发送给烹饪器具，而是发送至照明设备，以将用户引导至该地方。

<修改的示例>

本发明不限于上述实施例，并且在不脱离本发明的实质的情况下可以进行各种修改。

在上述实施例中，信息处理服务器200的控制单元210执行诸如识别，分析和DB之类的功能，但是它们中的一些或全部可以由信息处理终端100的CPU 11执行。

在上述第一实施例中，用于语音输入的UI和用于触摸输入的UI被示出为UI，但是UI不限于此。例如，本技术可以被应用于用于鼠标操作或远程控制的UI。

在上述第二实施例中，将食谱视频示出为视频内容，但是视频不限于此。

<其他>

本技术还可以采用以下配置。

(1)一种信息处理设备，包括：控制单元，其基于包括用户的用户状态、用户简档或用户环境信息的用户上下文信息来确定多个用户界面中要呈现给用户的用户界面。

(2)根据以上(1)的信息处理设备，其中，多个用户界面包括用于语音输入的用户界面和用于触摸输入的用户界面。

(3)根据以上(2)的信息处理设备，其中，控制单元执行以下：

在确定用户与信息处理设备之间的距离小于或等于预定距离的情况下，将用于触摸输入的用户界面确定为要呈现的用户界面，以及

在确定距离大于预定距离的情况下，将用于语音输入的用户界面确定为要呈现的用户界面。

(4)根据上述(2)或(3)的信息处理设备，其中，控制单元执行以下：

在确定用户的视线指向信息处理设备的情况下，使用于触摸输入的用户界面或用于语音输入的用户界面包括第一信息量，以及

在确定用户的视线未指向信息处理设备的情况下，使用于触摸输入的用户界面或用于语音输入的用户界面包括小于第一信息量的第二信息量。

(5)根据以上(1)至(4)中任一项的信息处理设备，其中，控制单元在确定包括信息处理设备的预定区域中存在多个用户的情况下，基于多个用户中被确定为存在于最靠近或最远离信息处理设备的位置处的用户，来确定要呈现的用户界面。

(6)根据以上(1)至(4)中任一项的信息处理设备，其中，控制单元在确定包括信息处理设备的预定区域中存在多个用户的情况下，基于多个用户中被确定为看向信息处理设备的用户，来确定要呈现的用户界面。

(7)根据以上(1)至(6)中任一项的信息处理设备，其中，控制单元根据在信息处理设备周围检测到的声音水平，改变用于确定要呈现的用户界面的预定距离。

(8)根据以上(2)至(7)中任一项的信息处理设备，其中，在检测到用户躺卧的情况下，控制单元将用于语音输入的用户界面确定为要呈现的用户界面。

(9)一种信息处理设备，包括：

控制单元，其基于包括用户的用户状态、用户简档或用户环境信息的用户上下文信息或从不同设备收集的感测信息来生成用于控制内容的多个播放步骤的切换的步骤切换信息。

(10)根据以上(9)的信息处理设备，其中，内容是其中播放步骤和播放时间相互关联的视频内容，以及控制单元基于步骤切换信息和播放时间来控制视频内容的播放。

(11)根据以上(9)或(10)的信息处理设备，其中，在已经从语音输入单元输入的语音识别出预定词或者已经从成像单元输入的图像识别出预定姿势的情况下，控制单元生成步骤切换信息。

(12)根据以上(9)或(11)的信息处理设备，其中，内容是食谱内容，在该食谱内容中，针对与播放步骤相对应的每个烹饪过程描述了烹饪食谱。

(13)根据以上(9)至(12)中任一项的信息处理设备，其中，控制单元基于感测信息识别用户的行为，并在确定与当前播放步骤相对应的烹饪过程已经完成的情况下生成步骤切换信息。

(14)根据以上(12)或(13)的信息处理设备，其中，控制单元基于感测信息识别与烹饪食谱中包括的食物相对应的食物的状态，并在确定与当前播放步骤相对应的烹饪过程已完成的情况下生成步骤切换信息。

(15)根据以上(12)至(14)中任一项的信息处理设备，其中，控制单元分析食谱内容的每个烹饪过程，并在每个烹饪过程到达时发送指令信号，用于指示将预定的注释信息输出到与相应的烹饪过程相关联的用户的烹饪器具或烹饪器具附近的设备。

(16)根据以上(12)至(15)中任一项的信息处理设备，其中，控制单元分析食谱内容的每个烹饪过程，并将用于指示执行至少一个烹饪过程的至少一部分的指令信号发送给在相应烹饪过程中使用的用户的烹饪器具。

(17)一种信息处理方法，包括：

获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息；以及

基于用户上下文信息，确定多个用户界面中要呈现给用户的用户界面。

(18)一种信息处理方法，包括：

获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息或者从不同设备收集的感测信息；以及

基于用户上下文信息或感测信息，生成用于控制内容的多个播放步骤的切换的步骤切换信息。

(19)一种使信息处理设备执行以下步骤的程序：

基于用户上下文信息，确定多个用户界面要呈现给用户的用户界面。

(20)一种使信息处理设备执行以下步骤的程序：

Claims

1.一种信息处理设备，包括：

控制单元，基于包括用户的用户状态、用户简档或用户环境信息的用户上下文信息，确定多个用户界面中要呈现给所述用户的用户界面，

其中，所述多个用户界面包括用于语音输入的用户界面和用于触摸输入的用户界面，

其中，所述控制单元用于：

在确定所述用户的视线指向所述信息处理设备的情况下，

使用于触摸输入的所述用户界面或用于语音输入的所述用户界面包括第一信息量，以及

在确定所述用户的视线未指向所述信息处理设备的情况下，使用于触摸输入的所述用户界面或用于语音输入的所述用户界面包括小于所述第一信息量的第二信息量。

2.根据权利要求1所述的信息处理设备，其中

所述控制单元用于：

在确定所述用户与所述信息处理设备之间的距离小于或等于预定距离的情况下，将用于触摸输入的所述用户界面确定为要呈现的所述用户界面，以及

在确定所述距离大于所述预定距离的情况下，将用于语音输入的所述用户界面确定为要呈现的所述用户界面。

3.根据权利要求1所述的信息处理设备，其中

所述控制单元在确定包括所述信息处理设备的预定区域中存在多个用户的情况下，基于所述多个用户中被确定为位于最靠近或最远离所述信息处理设备的位置处的用户，来确定要呈现的所述用户界面。

4.根据权利要求1所述的信息处理设备，其中

所述控制单元在确定包括所述信息处理设备的预定区域中存在多个用户的情况下，基于所述多个用户中被确定为看向所述信息处理设备的用户，确定要呈现的所述用户界面。

5.根据权利要求2所述的信息处理设备，其中

所述控制单元根据在所述信息处理设备周围检测到的声音水平，改变用于确定要呈现的所述用户界面的所述预定距离。

6.根据权利要求1所述的信息处理设备，其中

所述控制单元在检测到所述用户躺着的情况下，将用于语音输入的所述用户界面确定为要呈现的所述用户界面。

7.一种在信息处理设备中使用的信息处理方法，包括：

获取包括用户的用户状态、用户简档或用户环境信息的用户上下文信息；

基于所述用户上下文信息，确定多个用户界面中要呈现给所述用户的用户界面，其中，所述多个用户界面包括用于语音输入的用户界面和用于触摸输入的用户界面；

确定所述用户相对于所述信息处理设备的视线，

在确定所述用户的视线指向所述信息处理设备的情况下，使用于触摸输入的所述用户界面或用于语音输入的所述用户界面包括第一信息量，以及

8.一种记录介质，存储有使信息处理设备执行以下步骤的程序：

确定所述用户相对于所述信息处理设备的视线，

9.一种用于控制语音辅助设备的用户界面的信息处理方法，包括：

获取包括用户状态、用户简档或用户环境信息的用户上下文信息；

基于所述用户上下文信息，从用于语音输入的用户界面和用于触摸输入的用户界面确定要呈现的用户界面；以及

根据确定的用户界面，控制要显示的内容的信息量，其中，多个所述用户界面包括用于语音输入的用户界面和用于触摸输入的用户界面；

确定所述用户相对于所述信息处理设备的视线，