CN104281259A

CN104281259A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN104281259A
Application number: CN201410315263.1A
Authority: CN
Inventors: 土居正一; 竹冈义树; 高田昌幸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-07-10
Filing date: 2014-07-03
Publication date: 2015-01-14
Anticipated expiration: 2034-07-03
Also published as: EP2824564B1; CN104281259B; US10725734B2; JP6102588B2; JP2015018365A; US20150019974A1; EP2824564A1; US20190012140A1

Abstract

提供了一种信息处理装置和信息处理方法，该信息处理装置包括处理器，该处理器被配置为实现：称谓语定义功能，定义要在显示器上显示的图像的至少部分区域的称谓语；显示控制功能，在显示器上显示图像并且与区域相关联地在显示器上暂时显示称谓语；语音输入获取功能，获取针对图像的语音输入；以及命令发布功能，当称谓语包括在语音输入中时发布与区域相关的命令。

Description

信息处理装置、信息处理方法和程序

对相关申请的交叉引用

本申请要求2013年7月10日提交的日本优先权专利申请JP2013-144449的权益，其全部内容通过引用合并于此。

技术领域

本公开涉及信息处理装置、信息处理方法和程序。

背景技术

在计算机的用户接口之中，为用户实现更自然且更直观操作的操纵的自然用户接口(NUI)近来得到广泛普及。众所周知的自然用户接口是将用户说出的语音、用户做出的姿势等用作输入操纵的NUI。这样的输入操纵在许多情况下被单独使用。然而，例如，JP 2012-103840A公开了一种用于组合并使用利用语音的输入操纵和利用姿势的输入操纵。

发明内容

然而，例如，当打算通过NUI选择性地操纵多个UI组件时，用户难以理解设置哪个符号(例如，语音的称谓语(address term))以便在一些情况下指定操纵目标UI组件。虽然在上述JP 2012-103840A中所公开的技术有助于改进对NUI的用户体验，但是可能不一定认为该技术充分地解决上述要点。

因此，期望提供能够向用户通知用于在NUI上指定操纵目标的符号以使得用户可以容易地理解该符号的一种新颖且改进的信息处理装置、新颖且改进的信息处理方法和新颖且改进的程序。

根据本公开的一个实施例，提供了一种信息处理装置，包括处理器，被配置为实现：称谓语定义功能，定义要在显示器上显示的图像的至少部分区域的称谓语；显示控制功能，在显示器上显示图像并且与区域相关联地在显示器上暂时显示称谓语；语音输入获取功能，获取针对图像的语音输入；以及命令发布功能，当称谓语包括在语音输入中时发布与区域相关的命令。

根据本公开的另一实施例，提供了一种信息处理方法，包括通过处理器进行：定义要在显示器上显示的图像的至少部分区域的称谓语；在显示器上显示图像并且与区域相关联地在显示器上暂时显示称谓语；获取针对图像的语音输入；以及当称谓语包括在语音输入中时发布与区域相关的命令。

根据本公开的又一实施例，提供了一种程序，其使得计算机实现：称谓语定义功能，定义要在显示器上显示的图像的至少部分区域的称谓语；显示控制功能，在显示器上显示图像并且与区域相关联地在显示器上暂时显示称谓语；语音输入获取功能，获取针对图像的语音输入；以及命令发布功能，当称谓语包括在语音输入中时发布与区域相关的命令。

如上所述，根据本公开的实施例，可以向用户通知用于在NUI上指定操作目标的符号以使得用户可以容易地理解符号。

附图说明

图1是示出根据本公开的实施例的显示装置的整体配置的框图；

图2是示出根据本公开的实施例的显示装置中实现的整体功能配置的图；

图3是用于描述本公开的第一实施例中所定义的图像中的区域的分层结构的图；

图4是用于描述本公开的第一实施例中所定义的图像中的区域的分层结构的图；

图5是示出在本公开的第一实施例中的称谓语的显示示例的图；

图6是示出本公开的第一实施例中的称谓语的显示示例的图；

图7是用于描述本公开的第二实施例中所定义的图像中的区域的分层结构的图；

图8A至图8C是示出本公开的第二实施例中的称谓语的显示示例的图；

图9A至图9C是示出本公开的第二实施例中的称谓语的显示示例的图；

图10A至图10C是示出本公开的第二实施例的第一变型示例的图；

图11是示出本公开的第二实施例的第二变型示例的图；

图12是示出本公开的第二实施例的第二变型示例的图；以及

图13是示出本公开的第三实施例中的称谓语的显示示例的图。

具体实施方式

下文中，将参照附图详细描述本公开的优选实施例。应注意，在本说明书和附图中，具有基本上相同的功能和结构的结构元件以相同的附图标记表示，并且省略对这些结构元件的重复说明。

将按以下顺序进行描述。

1.系统配置

1-1.硬件配置

1-2.功能配置

1-3.区域的分层结构

1-4.称谓语的显示示例

2.第二实施例

2-1.区域的分层结构

2-2.称谓语的显示示例

2-3.变型示例

3.第三实施例

4.补充

(1.系统配置)

(1-1.硬件配置)

图1是示出根据本公开的实施例的显示装置的整体配置的框图。参照图1，显示装置100包括处理器102、存储器104、存储装置106、通信模块108、显示器110、扬声器112、麦克风114、输入装置116、摄像装置模块118和连接端口120。

显示装置100可以是根据用户的期望在显示器110上显示图像的各种装置中的任一个。例如，显示装置100可以是包括显示器110的电视机、个人计算机(PC)、平板式终端、智能电话、便携式媒体播放器或便携式游戏装置。例如，显示装置100可以是连接至分开配置的显示器110并且控制显示器110的PC、机顶盒、录像机或游戏装置。下文中，将进一步描述显示装置100的构成元件。

处理器102由例如中央处理单元(CPU)、数字信号处理器(DSP)或专用集成电路(ASIC)实现并且根据存储在存储器104中的程序工作以实现各种功能。处理器102通过控制显示装置100的各个单元来获取各种输入，并且提供各种输出。以下将描述处理器102实现的详细功能。

存储器104由例如用作随机存取存储器(RAM)或只读存储器(ROM)的半导体存储器实现。存储器104存储例如使得处理器102工作的程序。例如，这些程序可从存储装置106读取并且可暂时加载到存储器104上，或者程序可永久地存储在存储器104中。替选地，程序可由通信模块108接收并可暂时加载到存储器104上。此外，存储器104暂时或永久存储通过处理器102的处理所生成的各种数据。

存储装置106例如由诸如磁盘(比如硬盘驱动器(HDD))、光盘或磁光盘的存储设备或者闪存实现。存储装置106永久地存储例如使得处理器102工作的程序或者通过处理器102的处理所生成的各种数据。存储装置106可被配置为包括可移除介质或者可包括在显示装置100中。

通信模块108由在处理器102的控制下进行有线或无线网络通信的各种通信电路中的任一种来实现。当进行无线通信时，通信模块108可以包括天线。例如，通信模块108遵照因特网、局域网(LAN)、蓝牙(注册商标)等的通信标准来进行网络通信。

显示装置100包括作为输出单元的显示器110和扬声器112。显示器110例如由液晶显示器(LCD)或有机电致发光(EL)显示器来实现。如上所述，显示器110可与显示装置100集成或者可以是单独的显示器。显示器110在处理器102的控制下显示各种信息作为图像。以下将描述在显示器110上所显示的图像的示例。扬声器112在处理器102的控制下输出各种信息作为语音。

例如，麦克风114获取在显示装置100附近产生的各种语音(诸如，用户说出的语音)并且将语音作为语音数据提供至处理器102。这里，在该实施例中，麦克风114用作NUI上的语音输入单元。即，处理器102分析麦克风114提供的语音数据，并且基于用户说出的且从语音数据中提取的语音等来执行各种命令。

输入装置116是在显示装置100中所使用的另一输入单元。输入装置116可包括例如键盘、按钮或鼠标。输入装置116可包括布置在与显示器110对应的位置处的触摸传感器，以使得触摸面板由显示器110和触摸传感器构成。当根据利用麦克风114的语音输入来充分地操纵显示装置100时，可不安装单独的输入装置116。

摄像装置模块118例如由图像传感器(诸如，电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS))、光学系统(诸如，控制图像传感器中的对象图像的形成的透镜)以及驱动图像传感器和光学系统的驱动电路来实现。摄像装置模块118将通过图像传感器捕获对象图像而生成的静止图像或运动图像作为图像数据提供至处理器102。可在显示器110上显示摄像装置模块118生成的静止图像或运动图像作为例如通过图像(throughimage)或记录图像。

连接端口120是将外部装置直接连接至显示装置100的端口，并且由例如通用串行总线(USB)端口、IEEE1394端口或高清多媒体接口(HDMI)(注册商标)端口来实现。在所示的示例中，存储装置106、显示器110、扬声器112、麦克风114和输入装置116在内部(例如，通过总线等)连接至处理器102，但这样的构成元件可与显示装置100分离。在这种情况下，例如，显示装置(外部显示器等)、输入装置(键盘、鼠标等)或存储装置(外部HDD等)可以连接至连接端口120。连接至连接端口120的装置不限于这些示例，而是可连接除了上述装置外的各种装置。

(1-2.功能配置)

图2是示出根据本公开的实施例的显示装置中所实现的整体功能配置的图。参照图2，在显示装置100中，可以实现图像生成功能151、称谓语定义功能153、显示控制功能155、语音输入获取功能157和命令发布功能159。

例如，当显示装置100的处理器102根据存储在存储器140中的程序工作时，实现了这样的功能。上述功能中的任一种参考命令DB 161。命令DB 161可存储在显示装置100的存储装置106中，并且根据需要，命令DB 161的一部分或全部可被读取至存储器104。

(图像生成功能)

图像生成功能151生成要在显示装置100的显示器110上显示的图像。例如，图像可包括诸如照片或视频的内容图像、或者以各种格式描述的文档(例如包括以超文本标记语言(http)描述的网页)的图像。图像可包括用于操纵显示装置100的图形用户接口(GUI)图像。例如，用于显示这样的图像的数据可从存储装置106读取或者可经由通信模块108从网络上的服务器等获取。通过显示控制功能155在显示器110上显示通过图像生成功能151生成的图像。

例如，图像生成功能151可以生成包括多个子图像的图像。子图像可以是例如内容图像、文档图像或GUI图像，并且可包括通过将这样的图像布置在预定区域内而在显示器110上显示的图像。在这种情况下，图像生成功能151可以例如响应于通过命令发布功能159所发布的命令而在显示器110的整个区域(全屏幕)上扩大并显示任意子图像。

例如，图像生成功能151可以生成定义了对象图像的图像。该图像可以是例如诸如照片或视频的内容图像，并且通过图像识别处理或者用户的设置操纵来识别图像内的对象区域。在这种情况下，图像生成功能151可以例如响应于命令发布功能159发布的命令而使用任意对象区域作为基准来扩大并显示图像。例如，这样的图像可显示在显示器110的整个区域(全屏幕)内或者可以是上述子图像之一。

(称谓语定义功能)

称谓语定义功能153定义与通过图像生成功能151生成的且通过显示控制功能155在显示器110上显示的图像的至少部分区域有关的称谓语。如上所述，在本实施例中，显示器110上所显示的图像可以包括被定义为例如图像中的子图像或对象区域的区域。称谓语定义功能153针对每个区域来定义称谓语，以使得可以根据语音输入容易地操纵图像在显示器110上的显示，如以下将描述的那样。称谓语定义功能153将所定义的称谓语提供至显示控制功能155以在显示器110上显示称谓语，并且将与称谓语有关的信息存储在命令DB 161中。

例如，称谓语定义功能153针对包括在显示器110上所显示的图像中的多个子图像的显示区域中的每一个来定义称谓语。在这种情况下，例如，称谓语定义功能153可以基于提供每个子图像的应用功能的设置信息来定义称谓语(例如，可以定义诸如“网络浏览器”或“媒体播放器”的称谓语)。例如，称谓语定义功能153可以基于包括在每个子图像中的标题、文本等来定义称谓语(例如，可以定义诸如“新闻”、“备忘录”和“电影”的称谓语)。这里，例如，当在这样的示例中定义重复的称谓语时，称谓语定义功能153可通过使用例如序号来唯一地定义称谓语(例如，可以定义诸如“网络浏览器1”和“网络浏览器2”的称谓语)。另外，例如，称谓语定义功能153可基于图像中的每个子图像的位置来定义称谓语(例如，可以定义诸如“左上”或“右下”的称谓语)。

这里，例如，当响应于例如通过命令发布功能159发布的命令而在显示器110的整个区域上扩大并显示作为上述子图像的内容图像、文档图像等(下文中，称为应用图像)时，称谓语定义功能153可针对包括在应用图像中的GUI组件(例如，其可以是按钮、标签、图标等)的区域来定义称谓语。在这种情况下，例如，称谓语定义功能153可基于与在提供应用图像的程序中所定义的GUI组件有关的信息来定义称谓语(例如，可以定义诸如“标题”、“标签”或“地址栏”的称谓语)。

例如，称谓语定义功能153针对包括在显示器110上所显示的图像中的多个对象区域中的每一个来定义称谓语。在这种情况下，例如，称谓语定义功能153可基于新执行的图像分析的结果或者作为元数据添加到图像中的信息来定义称谓语。这里，例如，当可以根据图像分析的结果识别对象或者记录对象的名称作为元数据时，称谓语定义功能153可基于对象的名称来定义对象区域的称谓语(例如，可以定义诸如“父母”、“孩子”、“手”、或“面部”的称谓语)。另外，例如，称谓语定义功能153可基于图像中的每个对象区域的位置来定义称谓语(例如，可以定义诸如“左上”或“右下”的称谓语)。

例如，称谓语定义功能153定义用于对显示器110上所显示的图像的操纵的称谓语。这里所提及的“对图像的操纵”与其他示例的操纵不同之处可以在于，该操纵是在没有指定图像内的特定区域的情况下所执行的操纵。这里所定义的称谓语可以是显示器110上所显示的图像的整个区域的称谓语。在这种情况下，例如，称谓语定义功能153可基于预先存储在命令DB 161中的操纵命令的名称来定义称谓语(例如可以定义诸如“缩小”或“向下滚动”的称谓语)。

(显示控制功能)

显示控制功能155在显示器110上显示通过图像生成功能151生成的图像，并且在显示器110上与图像中的与称谓语对应的区域相关联地暂时显示通过称谓语定义功能153定义的称谓语。例如，显示控制功能155将称谓语作为文本显示在对应区域中的某些位置处。显示控制功能155可显示表示对应于称谓语的区域的框边等，并且可与其相关联地显示称谓语和框边等。

如上所述，通过显示控制功能155暂时显示称谓语(和框边等)。例如，显示控制功能155可在显示器110上开始显示通过图像生成功能151新生成的图像，并接着在显示器110上显示称谓语(和框边等)仅预定时间。在预定时间过去之后，可以在显示器110上仅显示通过图像生成功能151生成的图像。

因此，当通过称谓语定义功能153定义的称谓语与对应于这些称谓语的区域相关联地暂时显示在显示器110上时，用户可以在使用语音输入操纵显示装置100时容易地识别用户通过哪个称谓语来指定操纵目标，如以下将描述的。此外，暂时显示称谓语(和框边等)。例如，通过在预定时间过去之后隐藏称谓语，可以确保显示器110上所显示的图像的可见性。

例如，显示控制功能155可以根据通过命令发布功能159发布的命令来重新开始称谓语(和框边等)的显示。在这种情况下，显示控制功能155可继续显示例如称谓语(和框边等)，直到从命令发布功能159发布另外的命令为止。

(命令DB)

命令DB 161存储与通过称谓语定义功能153定义的称谓语有关的信息，如上所述。与称谓语有关的信息可以包括例如称谓语本身和用于在图像中指定由称谓语指定的区域的信息。例如，当称谓语被设置为对应于子图像的显示区域时，可以连同称谓语一起存储提供子图像的应用功能的标识信息(例如，其可以是处理ID、窗口ID等)。例如，当称谓语被设置为对应于包括在应用图像中的GUI组件的区域时，可以连同称谓语一起存储GUI组件的标识信息(例如，其可以是给予按钮、标签等的ID)。例如，当称谓语被设置为对应于对象区域时，可以连同称谓语一起存储对象区域的标识信息(例如，其可以是图像内的坐标信息)。

命令DB 161存储预先定义的操纵命令的名称。例如，如上所述，当称谓语定义功能153设置用于显示器110上所显示的图像的操纵的称谓语时，参考操纵命令的名称，以及当以下要描述的命令发布功能159分析来自用户的语音输入时，也参考操纵命令的名称。操纵命令包括如上所述的在不指定图像内的特定区域的情况下所执行的操纵命令，并且还包括通过指定图像内的特定区域而执行的操纵命令(例如，其可以是诸如“扩大”和“选择”的操纵命令)。命令发布功能159通过参考存储在命令DB 161中的操纵命令的名称来指定通过语音输入所指示的命令种类，并且还通过参考与存储在命令DB 161中的名称有关的信息来指定目标的区域。

(语音输入获取功能)

语音输入获取功能157针对显示器110上所显示的图像来获取语音输入。更具体地，当通过显示控制功能155在显示器110上显示图像时，语音输入获取功能157获取经由麦克风114所获取的用户的语音输入。如上所述，由于麦克风114获取在显示装置100附近所产生的各种语音，因此语音输入获取功能157可执行从所获取的语音数据中提取诸如用户的话音的预定语音的处理。替选地，除了语音输入获取功能157外，还可设置执行上述处理的预处理单元(未示出)。

(命令发布功能)

当通过语音输入获取功能157获取的语音输入包括通过称谓语定义功能153定义的称谓语时，命令发布功能159发布与对应于称谓语的区域相关的命令。更具体地，基于通过语音识别从所获取的语音输入中提取的文本，命令发布功能159参考命令DB 161来检索包括在文本中的称谓语和操纵命令的名称。当发现对应的称谓语和操纵命令的名称时，命令发布功能159针对与包括在文本中的称谓语相对应的区域来发布与包括在文本中的名称相对应的操纵命令。可以向例如图像生成功能151或显示控制功能155发布命令。

例如，当显示器110上所显示的图像包括多个子图像时，命令发布功能159向图像生成功能151发布用于在显示器110的整个区域(全屏幕)上扩大并显示任意子图像的命令。此时，可以参考命令DB 161、基于包括在语音输入中的称谓语来确定扩大并显示哪个子图像。

例如，当显示器110上所显示的图像包括多个对象区域时，命令发布功能159向图像生成功能151发布用于使用任意对象区域作为基准来扩大并显示图像的命令。此时，可以参考命令DB 161、基于包括在语音输入中的称谓语确定将哪个对象区域用作基准来扩大并显示图像。

1-3.区域的分层结构

图3和图4是用于描述本公开的第一实施例中所定义的图像内的区域的分层结构的图。在本实施例中，可以根据以下要描述的分层结构来设置称谓语通过称谓语定义功能153来定义的图像内的区域。

在图3所示的示例中，层1至层4这四个层具有上位和下位关系。即，层1的区域是层2的区域的上位层区域，层2的区域是层3的区域的上位层区域，以及层3的区域是层4的区域的上位层区域。在本实施例中，下位层区域包括在上位层区域中。在所示的示例中，所有下位层区域包括在上位层区域中。然而，在另一示例中，下位层区域中的至少一部分可包括在上位层区域中。

在本实施例中，这样的分层结构用于选择显示称谓语的图像内的区域。在图3所示的示例的情况下，例如，当在显示器110上连同图像一起针对从层1至层4的所有区域来显示称谓语时，存在甚至在临时显示中图像的可见性也会被破坏的可能性。相应地，当在显示器110上显示上位层区域时，显示控制功能155可以在显示器110上显示包括在所显示的上位层区域中的下位层区域的称谓语。

即，例如，当在显示器110上显示层1的区域(上位层区域)时，显示控制功能155在显示器110上显示包括在层1的区域中的层2的区域(下位层区域)的称谓语。例如，当在所示的示例中在显示器110上显示层2的两个区域中的任一区域(上位层区域)时，显示控制功能155在显示器110上显示包括在层2的显示区域中的层3的区域(下位层区域)的称谓语。

例如，如在图4所示的示例中，可将上述分层结构定义为亲子关系或链接关系。所示的示例示出如下情况：其中，层2的两个区域(层2-1和层2-2)包括在层1的区域(仅一个区域被设置且对应于例如整个图像)中，层3的三个区域(层3-1、层3-2和层3-3)包括在层2-1中，等等。当称谓语定义功能153针对每个区域来定义称谓语时，规定了这样的关系。其后，显示控制功能155或命令发布功能159可以使用称谓语。以下将描述区域的分层结构的具体使用示例。

(1-4.称谓语的显示示例)

图5和图6是示出根据本公开的第一实施例的称谓语的显示示例的图。在该实施例中，例如，如图5的示例中所示，针对包括在显示器110上所显示的图像中的多个子图像的显示区域中的每一个来定义称谓语。在所示的示例中，将层1的区域设置为对应于显示器110上所显示的整个图像，以及针对包括在图像中的子图像的显示区域来定义层2的区域。称谓语定义功能153可以将称谓语定义为对应于网络浏览器(层2-1)、开发工具(层2-2)、文本编辑器(层2-3)和任务栏(层2-4)的显示区域中的每一个。在该示例中，显示装置100可以例如是PC。

此时，显示控制功能155在显示器110上显示图像(层1的区域)，并且在显示器110上暂时显示针对与每个子图像对应的区域而定义的称谓语和表示与称谓语对应的区域的框边。在该图中，通过显示控制功能155在显示器110上暂时显示与层2-1的区域相对应的称谓语AT2-1(网络浏览器)、与层2-2的区域相对应的称谓语AT2-2(开发工具)、与层2-3的区域相对应的称谓语AT2-3(文本编辑器)以及与层2-4的区域相对应的称谓语AT2-4(任务栏)。

此后，当开始显示图像(层1的区域)并且预定时间过去时，显示控制功能155结束称谓语AT2-1至AT2-4的框边的显示，并且该显示返回到仅图像(层1的区域)的显示。用户可以通过向显示装置100给出包括称谓语AT2-1至AT2-4的语音输入来在显示称谓语AT2-1至AT2-4期间或之后，对与称谓语AT2-1至AT2-4相对应的区域执行操纵。例如，当用户说“扩大‘网络浏览器’”时，可以通过语音输入获取功能157向其提供了该语音输入的命令发布功能159对与层2-1的区域相对应的网络浏览器的显示区域执行扩大操纵，如以下将描述的一样。例如，当用户说“隐藏任务栏”时，可以隐藏与层2-4的区域相对应的任务栏的显示。

在图6所示的示例中，示出了当在图5所示的第一示例中用户说“扩大‘网络浏览器’”时显示的改变。在这种情况下，命令发布功能159参考命令DB 161、基于通过语音识别从上述话音的语音输入中所提取的文本来发现操纵命令“扩大”的称谓语和称谓语“网络浏览器”(对应于在图5的示例中所显示的称谓语AT2-1)。因此，命令发布功能159向图像生成功能151发布给出用于在显示器110上所显示的图像的整个区域内扩大并显示网络浏览器的子图像(对应于层2-1的区域)的请求的命令。响应于该命令，图像生成功能151将在显示器110上所显示的图像从用于显示层1的区域的图像改变为用于扩大并显示层2-1的整个区域的图像。

此时，显示控制功能155在显示器110上显示新图像(层2-1的区域)，并且在显示器110上暂时显示针对包括在图像中的GUI组件的区域所定义的称谓语和表示与该称谓语对应的区域的框边。在附图中，通过显示控制功能155在显示器110上暂时显示与层3-1(标签)的区域对应的称谓语AT3-1、与层3-2(地址栏)的区域对应的称谓语AT3-2、与层3-3(标题)的区域对应的称谓语AT3-3、与层3-4(主体)的区域相对应的称谓语AT3-4以及与层3-5(选项)的区域对应的称谓语AT3-5。

在所示的示例中，例如，可通过称谓语定义功能153新定义当在显示器110上显示新图像(层2-1的区域)时暂时显示的称谓语AT3-1至AT3-5。替选地，例如，当层2-1的区域被显示为层1的区域的图像内的子图像时，称谓语AT3-1至AT3-5可通过称谓语定义功能153定义并且可连同图4所示的分层结构的数据一起存储在命令DB 161等中。

显示控制功能155将对显示器110上所显示的图像的操纵的称谓语C1(对应于缩小的操纵)和C2(对应于向下滚动的操纵)连同上述称谓语AT3-1至AT3-5一起暂时显示在显示器110上。由于例如在显示器110上所显示的新图像的整个部分(层2-1的区域)内显示网络浏览器的图像，因此可以在不指定图像内的特定区域的情况下执行诸如缩小或向下滚动的操纵。因此，称谓语定义功能153在预先存储在命令DB 161中的操纵命令的称谓语当中提取可针对网络浏览器的图像执行的操纵命令的名称，称谓语定义功能153定义与所提取的操纵命令的名称相对应的称谓语。结果，显示控制功能155在显示器110上暂时显示称谓语C1和C2。例如，显示称谓语C1和C2的位置可以在显示器110的端部附近或角部附近，使得不妨碍观看所显示的图像。

此后，当图像(层2-1的区域)的显示开始并且预定时间过去时，显示控制功能155结束称谓语AT3-1至AT3-5和框边的显示以及称谓语C1和C2的显示，并且显示返回到仅图像(层2-1的区域)的显示。即使在称谓语AT3-1至AT3-5以及称谓语C1和C2的显示之后，用户也能通过向显示装置100给出包括称谓语AT3-1至AT3-5或称谓语C1和C2的语音输入，来对与称谓语AT3-1至AT3-5或称谓语C1和C2对应的区域执行操纵。

当用户向显示装置100给出预定语音输入(例如，“显示命令”)时，命令发布功能159向显示控制功能155发布给出用于在显示器110上再次显示称谓语AT3-1至AT3-5和框边并显示称谓语C1和C2的请求的命令。响应于该命令，显示控制功能155在显示器110上再次显示上述称谓语和框边。如在称谓语和框边的初始显示时一样，此时显示的称谓语和框边可在开始显示称谓语和框边之后的预定时间消失，或者考虑到用户的有意呼叫而可被设置为不自动消失。在这种情况下，当用户向显示装置100给出另一预定语音输入(例如，“隐藏命令”)时，显示控制功能155可以结束称谓语和框边的显示。

(2.第二实施例)

接下来，将描述本公开的第二实施例。由于第二实施例中的配置除了以下描述的区域的配置示例和称谓语的显示示例外几乎与上述第一实施例中的配置相同，因此将省略除了配置示例和显示示例的描述外的详细描述。

(2-1.区域的分层结构)

图7是用于描述本公开的第二实施例中所定义的图像内的区域的分层结构的图。在该实施例中，显示器110上所显示的照片的整个图像是层1的区域。定义了包括在层1的区域中的层2的两个区域(层2-1和层2-2)。层2的两个区域(层2-1和层2-2)分别包括层3的两个区域(层3-1和层3-2)以及两个区域(层3-3和层3-4)。在层3的四个区域(层3-1至层3-4)之中，两个区域(层3-3和层3-4)还分别包括层4的两个区域(层4-1和层4-2)以及两个区域(层4-3和层4-4)。

层2或其下位的每层的区域可以包括例如基于图像分析的结果所指定的对象区域。在这种情况下，所有区域可不一定基于图像分析的结果来定义。例如，上位层的区域(例如，层2的区域)可以是稍后被设置为用于对与基于图像分析的结果所指定的对象区域对应的下位层的区域(例如，层3和层4的区域)进行分组的区域的区域。替选地，除了图像分析外或者代替图像分析，可基于用户的设置操纵来指定对象区域。例如，对象区域可包括当用户承认或修正基于图像分析的结果而建议的候选区域时所确定的区域。例如，这样的区域可根据照片的图像数据上所附带的元数据来预先定义，或者可基于通过在显示图像时执行图像分析而获得的结果来新定义。

(2-2.称谓语的显示示例)

图8A至图9C是示出根据本公开的第二实施例的称谓语的显示示例的图。在本实施例中，例如，如图7的示例中所示，针对包括在显示器110上所显示的图像中的多个对象区域中的每一个来定义称谓语。在所示的示例中，层1的区域被设置为对应于显示器110上所显示的照片的整个图像(或者照片的图像可能不一定显示在整个显示器110上，即照片的图像在上述第一实施例中可被显示为一个子图像)，并且层2或其下位的层的区域是针对包括在图像中的对象区域而定义的。

首先，如图8A所示，当在显示器110上显示图像(层1的区域)时，显示控制功能155在显示器110上暂时显示针对与层2的每个区域对应的区域所定义的称谓语以及表示与称谓语对应的区域的框边。在附图中，通过显示控制功能155在显示器110上暂时显示与层2-1的区域相对应的称谓语AT2-1和与层2-2的区域对应的称谓语AT2-2。

这里，称谓语定义功能153例如基于根据图像分析所指定的对象的名称或者来自用户的输入，定义被显示为称谓语AT2-1和AT2-2的称谓语。例如，当照片的图像数据所附带的元数据记录了包括在层2-1的区域中的对象是父母以及包括在层2-2的区域中的对象是孩子的事实时，称谓语生成功能可以将层2-1的区域和层2-2的区域的称谓语分别定义为“父母”和“孩子”。

此后，当开始显示图像(层1的区域)并且预定时间过去时，显示控制功能155结束称谓语AT2-1至AT2-2和框边的显示，并且显示返回到简单图像(层1的区域)的显示。用户可以通过向显示装置100给出包括称谓语AT2-1和AT2-2的语音输入，来在显示称谓语AT2-1和AT2-2期间或之后对与称谓语AT2-1和AT2-2对应的区域执行操纵。在所示的示例中，在称谓语和框边的显示结束之前，用户向显示装置100给出语音输入“选择‘孩子’”。

此时，命令发布功能159参考命令DB 161、基于通过语音识别从语音输入中所提取的文本，找出操纵命令的名称“选择”和区域的称谓语(与在图8A的示例中所显示的称谓语AT2-2相对应)“孩子”。因此，命令发布功能159向图像生成功能151发布给出用于允许层2-2的区域进入选择状态的请求的命令。响应于该命令，图像生成功能151生成用于在显示器110上所显示的图像内以选择状态显示层2-2的区域的图像，并且显示控制功能155在显示器110上显示该图像，如图8B所示。例如，通过暗淡地显示除了层2-2的区域外的区域或者连同框边一起显示层2-2的区域，层2-2的区域可以以选择状态来表现(表现不一定如图8B所示)。

这里，如图8B所示，显示控制功能155在显示器110上显示新图像(层2-2的区域处于选择状态的图像)，并且将针对包括在处于选择状态的层2-2的区域中的多个下位层区域(即，层3-3和层3-4的区域)而定义的称谓语和表示与称谓语对应的区域的框边连同针对层2的每个区域所定义的称谓语和框边一起暂时显示在显示器110上。在图中，除了称谓语AT2-1和AT2-2外，通过显示控制功能155在显示器110上还暂时显示称谓语AT3-3和AT3-4。

此后，当图像(层2-2的区域处于选择状态的图像)的显示开始并且预定时间经过时，显示控制功能155结束上述称谓语和框边的显示，并且显示返回到简单图像(层2-2的区域处于选择状态的图像)的显示。用户可以通过向显示装置100给出包括称谓语的语音输入，来在显示称谓语和框边期间以及之后对与称谓语对应的区域执行操纵。在所示的示例中，在称谓语和框边的显示结束之前，用户向显示装置100给出语音输入“扩大‘男孩’”。

此时，命令发布功能159参考命令DB 161、基于通过语音识别从语音输入中提取的文本来找出操纵命令的名称“扩大”以及区域的称谓语“男孩”。因此，命令发布功能159向图像生成功能151发布给出用于使用层3-3的区域作为基准来扩大并显示图像的请求的命令。响应于该命令，图像生成功能151生成使用层3-3的区域作为基准所扩大的图像，并且显示控制功能155在显示器110上显示该图像，如图8C所示。在图8B的上述状态下，通过在显示器110上除了层2的区域的称谓语(AT2-1和AT2-2)外还暂时显示层3的部分区域的称谓语(AT3-3和AT3-4)，可以从显示层1的区域的图像的状态立刻实现使用层3-3的区域作为基准对图像的扩大和显示(跳过层2的区域)。

这里，如图8C所示，显示控制功能155在显示器110上显示新图像(使用层3-3的区域作为基准来扩大的图像)，并且将针对包括在被用作扩大的基准的层3-3的区域中的多个下位层区域(即，层4-1和层4-2的区域)所定义的称谓语和表示与称谓语对应的区域的框边连同针对层3-3的区域所定义的称谓语和框边一起暂时显示在显示器110上。

在所示的示例中，由于使用层3-3的区域作为基准来扩大并显示图像并且层3-3的区域不一定显示在整个显示器110上(在许多情况下，对象区域的纵横比与显示器110的纵横比不匹配)，因此即使在扩大并显示图像之后也显示针对层3-3的区域所定义的称谓语和区域会是有用的。

如图8C所示，当除了层3(用作扩大的基准的图像所属的层)的区域外的区域(层3-4的区域)包括在新图像(使用层3-3的区域作为基准所扩大的图像)的显示范围内时，也可通过显示控制功能155在显示器110上暂时显示针对层3-4的区域所定义的称谓语和区域。

在图8C所示的步骤中，显示控制功能155将针对对显示器110上所显示的图像的操纵的称谓语C1(对应于缩小的操纵)连同上述称谓语一起暂时显示在显示器110上。由于例如在显示器110上所显示的新图像(使用层3-3的区域作为基准所扩大的图像)内扩大并显示原始图像，因此可以在不指定图像内的特定区域的情况下执行缩小的操纵。因而，称谓语定义功能153在预先存储在命令DB 161中的操纵命令的名称当中提取可对图像执行的操纵命令的名称，并且定义与所提取的操纵命令的名称相对应的称谓语。结果，显示控制功能155在显示器110上暂时显示称谓语C1。

此后，当图像(使用层3-3的区域作为基准所扩大的图像)的显示开始并且预定时间过去时，显示控制功能155结束上述称谓语和框边的显示，并且显示返回到简单图像(使用层3-3的区域作为基准所扩大的图像)的显示。用户可以通过向显示装置100给出包括称谓语的语音输入，在显示称谓语期间或之后对与称谓语对应的区域执行操纵。在所示的示例中，如图9A所示，用户在称谓语和框边的显示结束之前向显示装置100给出语音输入“手”。

此时，命令发布功能159参考命令DB 161、基于通过语音识别从语音输入中所提取的文本来找到区域“手”的名称。命令发布功能159参考命令DB 161来估计针对被指定为操纵目标的区域(层4-1的区域)的操纵命令。例如，当在命令DB 161中将“扩大”和“选择”定义为可针对一般区域执行的操纵命令时，命令发布功能159可以识别出层4-1的区域的选择由于层4是最低层并且不存在下位层区域的事实而毫无意义，并且可以基于该识别估计操纵命令是“扩大”。因此，命令发布功能159向图像生成功能151发布给出用于使用层4-1的区域作为基准来扩大并显示图像的请求的命令。响应于该命令，图像生成功能151在显示器110上显示使用层4-1的区域作为基准所扩大的图像，如图9B所示。

这里，在如图9B所示的步骤中，如上所述，由于层4是最低层，因此显示控制功能155在显示器110上没有显示新区域的称谓语。另一方面，如直到图9A为止所显示的图像中一样，即使在图9B中所显示的图像中也可以执行缩小操纵。因此，显示控制功能155在显示器110上暂时显示与缩小操纵相对应的称谓语C2。例如，根据与正显示的图像的对象区域的关系，可将称谓语C2的显示位置(图像的右上角)设置为与直到图9A为止的称谓语C1的显示位置(图像的左下角)不同的位置。

此后，当图像(使用层4-3的区域作为基准所扩大的图像)的显示开始并且预定时间过去时，显示控制功能155结束称谓语AT4-1和对应框边的显示，并且显示返回到样本图像(使用层4-1的区域作为基准所扩大的图像)的显示。用户可以通过向显示装置100给出包括称谓语的语音输入，在显示称谓语期间或之后对与称谓语对应的区域执行操作。在所示的示例中，如图9B所示，在称谓语和框边的显示结束之前，用户向显示装置100给出语音输入“显示女孩的面部”。

此时，命令发布功能159参考命令DB 161、基于通过语音识别从语音输入中提取的文本，提取操纵命令的名称“显示”以及区域的称谓语“女孩的面部”。然而，在图9B时的图像显示中，不存在称谓语“女孩的面部”的区域。因此，命令发布功能159与区域的分层结构相关联地检索与存储在命令DB 161中的称谓语有关的信息。例如，命令发布功能159分析文本“女孩的面部”，并且首先检索“女孩”、随后检索“面部”。这是因为存在在包括在相互不同的上位层区域中的其他下位层区域中重复地定义了针对更下位层区域的称谓语(例如，“面部”)的可能性。

在所示的示例中，如上所述，命令发布功能159首先发现针对层3-4的区域所定义的称谓语“女孩”作为通过从命令DB 161检索称谓语“女孩”而获得的结果。然后，命令发布功能159发现针对层4-4的区域所定义的称谓语“面部”作为通过从命令DB 161检索包括在层3-4的区域中的下位层区域中的称谓语“面部“而获得的结果。基于上述检索结果，命令发布功能159向图像生成功能151发布给出用于使用层4-4的区域作为基准来扩大并显示图像的请求的命令。响应于该命令，图像生成功能151扩大并显示使用层4-4的区域作为基准所扩大的图像，如图9C所示。在图8A至图9B的上述步骤之中，由于先前定义且显示的区域的称谓语存储在命令DB 161中，因此甚至针对包括此时在显示器110上没有显示但用户记得先前显示的称谓语的语音输入也能实现用户预期的操纵。

(2-3.变型示例)

(第一变型示例)

图10A至图10C是示出本公开的第二实施例的第一变型示例的图。在图10A至图10C中，当获取以上参照图8B和8C所述的用户的话音“扩大‘男孩’”作为语音输入时，示出在使用层3-3的区域作为基准来扩大图像的显示时显示器110的显示的改变以及在转变期间的显示(图10B)。

在图10B中，通过图像生成功能151显示包括如下称谓语的文本T，该称谓语包括在语音输入中并且在将显示器110上所显示的图像从层1的区域的图像转变为使用层3-3的区域作为基准所扩大并显示的图像的步骤期间由显示装置100(命令发布功能159)识别。替选地，文本T可以是表示显示装置100的命令发布功能159发布的命令的文本。当在显示器110上进行这样的显示时，用户可以识别出显示装置100根据用户的意图工作。例如，当显示装置100没有正确地识别用户的语音输入并且执行了用户不期望的命令时，用户可以基于这样的显示理解发生了什么。

(第二变型示例)

图11和图12是示出本公开的第二实施例的第二变型示例的图。在本实施例中，如参照图7所述，已针对显示器110上所显示的照片来设置包括对象区域的区域的分层结构。在图7所示的示例中，所有下位层区域包括在上位层区域中，但该变型示例中，不都包括在上位层区域中。

例如，如图11所示，在一些情况下，下位层区域中的仅一部分可包括在上位层区域中。在图11所示的示例中，层4-1的区域的仅一部分包括在作为上位层区域的层3-3的区域中，并且层4-1的区域的其他部分在层3-3的区域之外。同样地，层4-3的区域的仅一部分包括在作为上位层区域的层3-4的区域中，并且层4-3的区域的其他部分在层3-4的区域之外。类似于层3或层4的其他区域，可以存在全部包括在上位层区域中的下位层区域。

图12示出当如在图11的示例中一样设置区域时图像的扩大和显示的示例。在该变型示例中，由于整个下位层区域不一定包括在上位层区域中，因此，在上位层区域与下位层区域之间所识别的关系会相对脆弱。相应地，例如，即使在使用层3-3的区域作为基准来扩大并显示图像时，不仅可以显示包括在层3-3中的下位层区域(层4-1和层4-2)的称谓语(AT4-1和AT4-2)，而且可以显示包括在层3-4中的下位层区域(层4-3)的称谓语(AT4-3)。

这里，由于称谓语AT4-1和AT4-3两者均原本重复为“手”，因此称谓语定义功能153添加序号以将这些称谓语彼此区分，以使得称谓语AT4-1变为“手1”以及称谓语AT4-3变为“手2”。当在显示器110上显示称谓语AT4-1和AT4-3中的仅一个时，称谓语定义功能153可省略序号的负荷。

上述显示是可能的而与下位层区域的仅一部分是包括在上位层区域中还是整个下位层区域包括在上位层区域中无关。即，图像内的区域可以如图7所示的示例中那样配置，并且也可以如图11所示的示例中那样配置。例如，当使用作为层2-2的区域的下位层区域的层3-3的区域作为基准来扩大并显示图像时，暂时显示作为层3-3的区域的下位层区域的层4-1和层4-2的称谓语。另外，也可以暂时显示包括在图像的显示范围内的层3-4的区域以及作为层3-4的区域的下位层区域的层4-3和层4-4的称谓语。然而，当层4-1或层4-2的区域的称谓语和层4-3或层4-4的区域的称谓语重复时，如上所述，通过添加序号来将这些称谓语彼此区分开，或者可以通过不显示层4-3或层4-4的区域的重复称谓语来解决重复的问题。

(3.第三实施例)

接下来，将描述本公开的第三实施例。由于第三实施例中的配置除了以下要描述的称谓语的显示示例外几乎与上述第一实施例中的配置相同，因此将省略除了称谓语的显示示例的描述外的详细描述。

图13是示出本公开的第三实施例中的称谓语的显示示例的图。在本实施例中，例如，如图13的示例中所示，针对显示器110上所显示的图像中所包括的多个子图像的显示区域中的每一个来定义称谓语。在所示的示例中，在显示器110上所显示的整个图像中定义层1的区域，并且针对包括在图像中的子图像的显示区域来定义层2的区域。显示器110上所显示的图像是发表者以表示的方式所显示的图像，并且包括当前显示的幻灯片(页面)和表示先前显示的图表、页等的子图像。称谓语定义功能153可以将称谓语定义为对应于标题“当前幻灯片”中的主要文本(层2-1)和右侧图表(层2-2)、以及与“当前幻灯片”分开显示的上一图表(层2-3)、上一页(层2-4)和下一页(层2-5)的显示区域。

此时，显示控制功能155在显示器110上显示图像(层1的区域)，并且在显示器110上暂时显示针对与每个子图像对应的区域所定义的称谓语和表示与称谓语对应的区域的框边。在图中，通过显示控制功能155在显示器110上暂时显示与层2-1(主要文本)的区域对应的称谓语AT2-1、与层2-2(右侧图表)的区域对应的称谓语AT2-2、与层2-3(上一图表)的区域对应的称谓语AT2-3、与层2-4(上一页)的区域对应的称谓语AT2-4以及与层2-5(下一页)的区域对应的称谓语AT2-5。

在本实施例中，向显示装置10给出的用户的语音输入可以是例如“显示‘上一图表’”或“转向‘下一页’”。响应于语音输入，命令发布功能159向图像生成功能151发布给出用于再次放大并显示先前参考的图表的请求的命令、给出用于进入下一幻灯片(页)的请求的命令等。例如，当图像生成功能151基于给出用于进入下一幻灯片(页)的请求的命令来在“当前幻灯片”的区域内新显示被显示为图中的“下一页”的幻灯片(页)时，此时将直到此时为止被显示为“当前幻灯片”的幻灯片(页)显示为“上一页”。

在本实施例中，称谓语定义功能153可基于区域的显示形式的时序改变来定义称谓语。例如，当此时显示为“当前幻灯片”的幻灯片(页)在与“当前幻灯片”分离的位置处被显示为更小时，称谓语定义功能153可针对与该幻灯片(页)对应的区域来定义含义与“上一页”的含义相同的称谓语。

(4.补充)

本公开的实施例可以包括例如上述的信息处理装置(被描述为显示装置)、系统、在信息处理装置或系统中所执行的信息处理方法、使得信息处理装置运行的程序以及存储有程序的非暂态计算机可读存储介质。

以上参照附图详细描述了本公开的优选实施例，但本公开的实施例不限于本公开的技术范围。对于本领域技术人员而言应该明显的是，在权利要求书中所描述的技术范围内可想到各种变型或修改，当然，应理解，这些变型或修改属于本公开的技术范围。

另外，本技术还可以如下进行配置。

(1)一种信息处理装置，包括：

处理器，被配置为实现：

称谓语定义功能，定义要在显示器上显示的图像的至少部分区域的称谓语；

显示控制功能，在所述显示器上显示所述图像并且与所述区域相关联地在所述显示器上暂时显示所述称谓语；

语音输入获取功能，获取针对所述图像的语音输入；以及

命令发布功能，当所述称谓语包括在所述语音输入中时发布与所述区域相关的命令。

(2)根据(1)所述的信息处理装置，

其中，所述区域包括上位层区域和下位层区域，并且

其中，当所述上位层区域显示在所述显示器上时，所述显示控制功能显示其至少一部分包括在所显示的所述上位层区域中的下位层区域的称谓语。

(3)根据(2)所述的信息处理装置，其中，所述命令发布功能发布扩大并显示所述下位层区域的命令。

(4)根据(3)所述的信息处理装置，其中，所述区域包括所述下位层区域的更下位层区域，并且

其中，当扩大并显示所述下位层区域时，所述显示控制功能显示其至少一部分包括在所述下位层区域中的、所述下位层区域的更下位层区域的称谓语。

(5)根据(2)至(4)中的任意一项所述的信息处理装置，其中，所述命令发布功能发布允许所述下位层区域进入选择状态的命令。

(6)根据(5)所述的信息处理装置，

其中，所述区域包括所述下位层区域的更下位层区域，并且

其中，当所述下位层区域进入选择状态时，所述显示控制功能显示其至少一部分包括在所述下位层区域中的、所述下位层区域的更下位层区域的称谓语。

(7)根据(6)所述的信息处理装置，其中，所述命令发布功能发布扩大并显示所述下位层区域的更下位层区域的命令。

(8)根据(2)至(7)中的任意一项所述的信息处理装置，

其中，所述上位层区域对应于所述图像的整个区域，并且

其中，所述下位层区域对应于包括在所述图像中的多个子图像中的每一个的显示区域。

(9)根据(8)所述的信息处理装置，其中，所述命令发布功能发布如下命令：在所述图像的整个区域内扩大并显示所述多个子图像中的与包括在所述语音输入中的称谓语对应的子图像。

(10)根据(2)至(7)中的任意一项所述的信息处理装置，

其中，所述上位层区域对应于在所述图像的整个区域内所显示的应用图像，并且

其中，所述下位层区域对应于包括在所述应用图像中的GUI组件的区域。

(11)根据(2)所述的信息处理装置，

其中，所述上位层区域对应于所述图像的整个区域，并且

其中，所述下位层区域对应于在所述图像内所识别的多个对象区域中的每一个。

(12)根据(11)所述的信息处理装置，其中，所述命令发布功能发布如下命令：使用所述多个对象区域中的与包括在所述语音输入中的称谓语对应的对象区域作为基准来扩大并显示所述图像。

(13)根据(2)至(12)中的任意一项所述的信息处理装置，其中，所述下位层区域整体包括在所述上位层区域中。

(14)根据(1)至(13)中的任意一项所述的信息处理装置，其中，所述称谓语定义功能基于与所述区域有关的设置信息来定义所述称谓语。

(15)根据(1)至(14)中的任意一项所述的信息处理装置，其中，所述称谓语定义功能基于所述区域在所述图像内的位置来定义所述称谓语。

(16)根据(1)至(15)中的任意一项所述的信息处理装置，其中，所述称谓语定义功能基于所述区域的显示形式的时序改变来定义所述称谓语。

(17)根据(1)至(16)中的任意一项所述的信息处理装置，其中，所述显示控制功能在所述显示器上显示包括在所述语音输入中的称谓语。

(18)根据(1)至(17)中的任意一项所述的信息处理装置，其中，所述显示控制功能在所述显示器上显示所发布的命令。

(19)一种信息处理方法，包括通过处理器进行：

定义要在显示器上显示的图像的至少部分区域的称谓语；

在所述显示器上显示所述图像并且与所述区域相关联地在所述显示器上暂时显示所述称谓语；

获取针对所述图像的语音输入；以及

当所述称谓语包括在所述语音输入中时发布与所述区域相关的命令。

(20)一种程序，使得计算机实现：

语音输入获取功能，获取针对所述图像的语音输入；以及

Claims

1.一种信息处理装置，包括：

处理器，被配置为实现：

语音输入获取功能，获取针对所述图像的语音输入；以及

2.根据权利要求1所述的信息处理装置，

其中，所述区域包括上位层区域和下位层区域，并且

3.根据权利要求2所述的信息处理装置，其中，所述命令发布功能发布扩大并显示所述下位层区域的命令。

4.根据权利要求3所述的信息处理装置，其中，所述区域包括所述下位层区域的更下位层区域，并且

5.根据权利要求2所述的信息处理装置，其中，所述命令发布功能发布允许所述下位层区域进入选择状态的命令。

6.根据权利要求5所述的信息处理装置，

其中，所述区域包括所述下位层区域的更下位层区域，并且

7.根据权利要求6所述的信息处理装置，其中，所述命令发布功能发布扩大并显示所述下位层区域的更下位层区域的命令。

8.根据权利要求2所述的信息处理装置，

其中，所述上位层区域对应于所述图像的整个区域，并且

9.根据权利要求8所述的信息处理装置，其中，所述命令发布功能发布如下命令：在所述图像的整个区域内扩大并显示所述多个子图像中的与包括在所述语音输入中的称谓语对应的子图像。

10.根据权利要求2所述的信息处理装置，

11.根据权利要求2所述的信息处理装置，

其中，所述上位层区域对应于所述图像的整个区域，并且

12.根据权利要求11所述的信息处理装置，其中，所述命令发布功能发布如下命令：使用所述多个对象区域中的与包括在所述语音输入中的称谓语对应的对象区域作为基准来扩大并显示所述图像。

13.根据权利要求2所述的信息处理装置，其中，所述下位层区域整体包括在所述上位层区域中。

14.根据权利要求1所述的信息处理装置，其中，所述称谓语定义功能基于与所述区域有关的设置信息来定义所述称谓语。

15.根据权利要求1所述的信息处理装置，其中，所述称谓语定义功能基于所述区域在所述图像内的位置来定义所述称谓语。

16.根据权利要求1所述的信息处理装置，其中，所述称谓语定义功能基于所述区域的显示形式的时序改变来定义所述称谓语。

17.根据权利要求1所述的信息处理装置，其中，所述显示控制功能在所述显示器上显示包括在所述语音输入中的称谓语。

18.根据权利要求1所述的信息处理装置，其中，所述显示控制功能在所述显示器上显示所发布的命令。

19.一种信息处理方法，包括通过处理器进行：

定义要在显示器上显示的图像的至少部分区域的称谓语；

获取针对所述图像的语音输入；以及

20.一种程序，使得计算机实现：

语音输入获取功能，获取针对所述图像的语音输入；以及