CN109313532A

CN109313532A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN109313532A
Application number: CN201780036694.6A
Authority: CN
Inventors: 河野真; 河野真一; 生江拓也; 杉原贤次; 深泽辽; 佐藤大辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-06-22
Filing date: 2017-06-08
Publication date: 2019-02-05
Anticipated expiration: 2037-06-08
Also published as: CN109313532B; US20190138117A1; WO2017221720A1; US10788902B2; JP2017228080A

Abstract

本技术涉及一种信息处理设备、一种信息处理方法和一种程序，其能够简单地校正图像中对应于在三维空间中指向的位置的指示位置。信息处理设备包括：指示位置检测单元，其检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置；以及指示位置校正单元，其基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于空间指示位置的指示位置。本技术例如适用于使用虚拟现实(VR)的头戴式显示器(HMD)。

Description

信息处理设备、信息处理方法和程序

技术领域

本技术涉及一种信息处理设备、一种信息处理方法和一种程序，更具体来说，涉及一种信息处理设备、一种信息处理方法和一种程序，其适用于校正图像中对应于在三维空间中指向的位置的指示位置的情况。

背景技术

在相关技术中，提出了一种技术，其中被识别为用户的手指等指向的目标的名称等在通知中用语音给出，并由用户确认(例如，参考专利文献1)。

另外，在相关技术中，提出了一种技术，其通过比较通过识别用手绘制的图形或字符而获得的图形或字符候选与通过识别用户彼此说出的语音而获得的图形或字符候选来选择图形或字符(例如，参考专利文献2)。

引文列表

专利文献

专利文献1：日本专利申请公开号2013-88906

专利文献2：日本专利申请公开号2007-48177

发明内容

本发明要解决的问题

然而，在专利文献1和2中，未检查校正图像中对应于在三维空间中指向的位置的指示位置的配置。

这里，本技术被配置成简单地校正图像中对应于在三维空间中指向的位置的指示位置。

问题的解决方案

根据本技术的一个方面，提供一种信息处理设备，包括：指示位置检测单元，其检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置；以及指示位置校正单元，其基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于空间指示位置的指示位置。

指示位置校正单元可以基于用户语音将图像指示位置校正到图像中的位置。

指示位置校正单元可以校正通过虚拟现实在视觉上识别用户的图像中的图像指示位置。

当用户说出用户语音时，指示位置校正单元可以校正对应于空间指示位置的图像指示位置。

指示位置检测单元可以检测作为图像中的目标的指示目标，该目标对应于指示对象在三维空间中指向的第一目标，并且在指示目标与第二目标匹配的情况下，指示位置校正单元不能基于用户语音校正指示目标，并且在指示目标与第二目标不匹配的情况下，可以执行将对应于第二目标的图像中的目标校正到指示目标的校正处理。

信息处理设备可以进一步包括输出控制单元，其控制作为用于确认指示目标的语音的确认语音的输出。指示位置校正单元可以基于关于确认语音的用户语音执行校正处理。

确认语音可以是鼓励输入用于识别指示目标的信息的语音。

在校正处理之后改变指示目标的情况下，输出控制单元可以控制语音信息的输出，以用预定语言给出与指示目标相关联的信息的通知。

语音信息可以包括指示该指示目标的视觉可识别内容的内容信息。

内容信息可以指示该指示目标的名称、指示目标的类型和由指示目标在视觉上表示的事物中的至少一个。

在校正处理之后改变指示目标的情况下，输出控制单元可以执行控制，使得输出用于给出指示目标改变的通知的通知声音。

输出控制单元可以执行控制，使得输出根据指示目标的移动方向而不同的通知声音。

信息处理设备可以进一步包括翻译单元，其将与指示目标相关联的信息翻译成预定语言。

信息处理设备可以进一步包括检测图像中的对象的对象检测单元。

指示对象可以是用户身体的一部分。

信息处理设备可以进一步包括识别用户语音的语音识别单元。

根据本技术的另一方面，提供一种信息处理方法，包括：指示位置检测步骤，其用于检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置；以及指示位置校正步骤，其用于基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于空间指示位置的指示位置。

根据本技术的又一方面，提供一种程序，其使计算机执行处理，包括：指示位置检测步骤，其用于检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置；以及指示位置校正步骤，其用于基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于空间指示位置的指示位置。

根据本技术的方面，检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置，并且基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于空间指示位置的指示位置。发明的效果

根据本技术的一个方面，可以简单地校正图像中对应于在三维空间中指向的位置的指示位置。

此外，这里描述的效果不受限制，并且可以是本公开中描述的任何一种效果。

附图说明

图1是图示应用本技术的信息处理系统的实施方案的方框图。

图2是图示由信息处理系统执行的信息处理的流程图。

图3是图示手指指向模式处理的细节的流程图。

图4是图示指示方向信息获取处理的细节的流程图。

图5是图示指示方向图像的拍摄范围的实例的视图。

图6是图示生成指示方向平面图像的方法的视图。

图7是图示指示方向平面图像的实例的视图。

图8是图示指示方向信息列表的实例的图解。

图9是图示语音指示方向信息获取处理的细节的流程图。

图10是图示生成语音指示方向平面缩小图像的方法的视图。

图11是图示生成语音指示方向平面缩小图像的方法的视图。

图12是图示语音指示方向信息列表的实例的图解。

图13是图示语音指示方向平面缩小图像的图像的视图。

图14是图示语音引导处理的细节的流程图。

图15是图示计算机的配置实例的方框图。

具体实施方式

在下文中，将参考附图详细描述用于执行本发明的模式(在下文中，称为“实施方案”)。此外，将按以下顺序进行描述。

1.实施方案

2.修改实例

<1.实施方案>

{信息处理系统10的配置实例}

首先，将参考图1描述应用本技术的信息处理系统10的配置实例。

例如，信息处理系统10是安装在用户上或由用户携带的系统，其识别被识别为用户的手指在三维空间中指向的目标，并用预定语言的语音给出与目标相关联的内容信息的通知。这里，由信息处理系统10识别的目标是被识别为用户指向的目标，并且可以与手指实际指向的目标不同。

此外，在下文中，被识别为用户指向的目标和用户实际指向的目标被称为“指示目标”。另外，在下文中，在被识别为用户指向的目标和用户实际指向的目标被区分的情况下，前者被称为“用户识别指示目标”并且后者被称为“实际指示目标”。

另外，内容信息是指示视觉上可识别的对象内容的信息。例如，内容信息指示对象的名称、对象类型和由对象在视觉上表示的事物(在下文中，称为“视觉内容”)中的至少一个。这里，视觉内容的实例包括由对象表示的图像(运动图像、静止图像、图形等)、字符和标记，以及由对象的形状或运动表示的字符、标记和消息。另外，在对象是人的情况下，视觉可识别内容的实例包括诸如肢体语言和交通控制手信号的手势，以及面部表情。

信息处理系统10包括语音输入单元11、信息获取单元12、信息处理单元13和输出单元14。

例如，语音输入单元11由麦克风构成。例如，语音输入单元11与用户的嘴相邻设置，以检测用户说出的语音(在下文中，称为“用户语音”)，并将指示用户语音的语音信号提供给信息处理单元13。

例如，信息获取单元12具有指环形状，并且安装在当用户指向某物时使用的手指(例如，食指)上。信息获取单元12包括拍摄单元21和传感器单元22。

拍摄单元21拍摄用户的手指指向的方向(下文中，称为“指示方向”)，并将从拍摄获得的图像(下文中，称为“指示方向图像”)提供给信息处理单元13。

例如，传感器单元22包括传感器(例如，加速度传感器和陀螺仪传感器)，其被配置成检测用户手指的手势、手指的位置、指示方向等。另外，传感器单元22包括传感器(例如，距离传感器)，其测量例如在指示方向上到对象的距离。另外，传感器单元22将指示传感器的检测结果的传感器信号提供给信息处理单元13。

例如，信息处理单元13由诸如智能电话、平板电脑和可穿戴设备的便携式信息终端构成。信息处理单元13包括指示位置检测单元31、指示位置校正单元32、对象检测单元33、距离计算单元34、图像处理单元35、翻译单元36、信息生成单元37、语音识别单元38、输出控制单元39和通信单元40。

指示位置检测单元31基于来自传感器单元22的传感器信息执行用户指向的位置和目标的检测。

指示位置校正单元32基于用户语音执行用户指向的位置和目标的检测结果的校正。

对象检测单元33执行对指示方向图像中的对象的检测。

例如，距离计算单元34计算由对象检测单元33检测的对象之间的距离。另外，距离计算单元34基于来自传感器单元22的传感器信息和指示方向图像计算例如用户的眼睛和对象之间的距离，以及用户的眼睛和用户的手指之间的距离。

图像处理单元35执行图像处理，诸如将指示方向图像转换为指示方向平面图像，以及将指示方向平面图像转换为语音指示方向平面缩小图像。此外，稍后将描述指示方向平面图像和语音指示方向平面缩小图像的细节。

翻译单元36执行两种或更多种语言之间的翻译。

信息生成单元37生成指示方向信息列表、语音指示方向信息列表等，其指示与存在于用户指向的方向上的对象相关联的信息。此外，稍后将描述指示方向信息列表和语音指示方向信息列表的细节。另外，信息生成单元37生成以语音通知用户时给出的信息。

语音识别单元38执行用户语音的识别。

输出控制单元39控制输出单元14输出语音。

通信单元40执行语音输入单元11、信息获取单元12和输出单元14之间的通信。此外，通信单元40的通信方法不限于预定方法，并且可以在包括有线方法和无线方法的各种通信方法中采用任意方法。另外，语音输入单元11、信息获取单元12和输出单元14之间的通信方法可以设置为彼此不同的方法。

输出单元14由可以输出语音的设备构成。例如，输出单元14由扬声器、头戴式耳机、耳机、声源等构成。

此外，例如，语音输入单元11、信息处理单元13和输出单元14可以彼此集成。例如，集成设备由颈带式可穿戴设备构成。

{信息处理系统10的处理}

接着，将参考图2至图14描述信息处理系统10的处理。

首先，将参考图2的流程图描述由信息处理系统10执行的信息处理。此外，例如，当信息处理单元13的电源(未图示)接通时启动处理，并且当电源关闭时终止处理。

在步骤S1中，指示位置检测单元31确定用户是否用手指指向某物。具体来说，指示位置检测单元31基于从传感器单元22传输的传感器信号执行用户手指的手势检测。此外，作为手势检测方法，可以采用任意方法。另外，指示位置检测单元31基于检测到的手势确定用户是否用手指指向某物。重复执行步骤S1中的确定处理，直到确定用户用手指指向某物，例如，以预定间隔。另外，在确定用户用手指指向某物的情况下，处理进入步骤S2。

在步骤S2中，信息处理系统10执行手指指向模式处理。这里，将参考图3的流程图描述手指指向模式处理的细节。

在步骤S51中，信息处理单元13执行指示方向信息获取处理。这里，将参考图4的流程图描述指示方向信息获取处理的细节。

在步骤S101中，对象检测单元33检测指示方向图像中的对象。具体来说，对象检测单元33从拍摄单元21获取指示方向图像，并执行图像识别以检测指示方向图像中的对象，即，在用户手指指向的方向上存在于预定范围内的对象。另外，对象检测单元33检测该检测对象的指示方向图像中的位置和大小、对象类型、对象的视觉内容、对象的视觉特征(例如，颜色和形状)等。另外，对象检测单元33执行由视觉内容指示的信息的识别。例如，对象检测单元33识别包括在视觉内容中的特定内容，诸如图像、字符串、标记和消息。

此外，作为对象检测单元33的对象检测方法，可以采用任意方法。

另外，在下文中，将给出获得如图5中所示的商业区景观范围D1中的图像作为指示方向图像的情况的描述。此外，在该图中，未图示建筑物的招牌等。

在步骤S102中，指示位置检测单元31检测用户指向的目标(指示目标)。例如，在对象检测单元33检测到的对象存在于指示方向图像的中心的情况下，指示位置检测单元31将对象检测为指示目标。另一方面，在对象检测单元33检测到的对象不存在于指示方向图像的中心的情况下，指示位置检测单元31将最接近指示方向图像的中心的对象检测为指示目标。

此外，在以下描述中，由指示位置检测单元31检测的指示目标被称为“系统识别指示目标”。基本上，系统识别指示目标与用户实际指向的目标(实际指示目标)大致匹配，但可能与在某些情况下被识别为用户指向的目标(用户识别指示目标)不匹配。

在步骤S103中，距离计算单元34计算到指示方向图像中的对象的最短距离。具体来说，距离计算单元34基于传感器信息和指示方向图像计算指示方向图像中的对象中最接近用户眼睛的部分(在下文中，称为“最短位置”)和用户眼睛之间的距离(在下文中，称为“最短对象距离”)。

这里，将参考图6描述计算最短对象距离的方法的具体实例。图6是当从上侧在指示方向图像中捕获建筑物101和招牌102时的示意图。位置P1表示用户眼睛的位置。

距离计算单元34检测建筑物101和招牌102中最接近位置P1的部分。根据该配置，例如，招牌102的左前角的位置P2被检测为最接近位置P1的部分(最短位置)。另外，距离计算单元34计算位置P1和位置P2之间的距离d1作为最短对象距离。

此外，作为计算最短对象距离的方法，可以采用任意方法。

在步骤S104中，图像处理单元35生成指示方向平面图像。例如，图像处理单元35生成通过将指示方向图像投影到垂直于指示方向并通过最短位置的平面上而获得的图像，作为指示方向平面图像。

例如，在上述图6的实例中，获得通过将指示方向图像投影到通过最短位置P2的平面F1上而获得的图像作为指示方向平面图像。

图7示意性地图示指示方向平面图像的具体实例。在图7的指示方向平面图像121中，捕获招牌131、窗口132和招牌133至招牌137。此外，指示方向平面图像121被图示为单色图像。然而，实际上，各个对象都有颜色。稍后将描述各个对象的主要部分的颜色。

招牌131、窗口132和招牌133从左到右水平排列。招牌134至招牌136在招牌131、窗口132和招牌133的下侧从左到右水平排列。招牌134位于招牌131和窗口132下方。招牌135位于招牌133下方。招牌136位于招牌133下方，并且与招牌133相比进一步向右突出。招牌137位于招牌135下方。

招牌131具有矩形形状，并且在招牌131上显示具有黄色身体的狗的图像(图形)。

窗口132具有近似正方形的形状，并且框架的颜色是灰色。

招牌133具有矩形形状，并且在橙色背景上显示黑色韩文字符串。韩文字符串代表“家常菜的味道”。

招牌134具有矩形形状，并且在灰色背景上显示黑色韩文字符串。韩文字符串代表“这栋建筑的5F”。

招牌135具有矩形形状，并且在白色背景上显示蓝色数字“7080”。

招牌136具有矩形形状，并且在白色背景上显示块状韩文字符串。韩文字符串代表“餐馆”。

招牌137具有矩形形状，并且在浅蓝色背景上显示黑色韩文字符串。韩文字符串代表“体育用品”。

另外，图像处理单元35将由对象检测单元33检测的指示方向图像中的各个对象的位置和大小转换为指示方向平面图像中的位置和大小。

此外，关于获得图7中的指示方向平面图像121的情况，将描述每个处理的具体实例。

在步骤S105中，指示位置检测单元31检测指示方向平面图像中的用户指向的位置(指示位置)。例如，指示位置检测单元31检测指示方向平面图像中的系统识别指示目标的中心，并将检测位置设置为指示方向平面图像中的指示位置。

在步骤S106中，信息生成单元37生成指示方向信息列表。指示方向信息列表是与在指示方向图像中检测的各个对象相关联的多条信息的列表，并且基于从指示方向图像转换的指示方向平面图像来生成。

图8图示基于图7中的指示方向平面图像121生成的指示方向信息列表的实例。

指示方向信息列表包括ID、位置、大小、对象类型、内容类型、详细信息和相邻对象的项目。详细信息包括内容信息、翻译信息和颜色的项目。相邻对象包括上、下、左、右项。

该ID应用于每个对象以唯一地识别每个对象。在该实例中，ID1至ID7分别应用于招牌131、窗口132和招牌133至137。

该位置表示每个对象在指示方向平面图像中的位置。例如，设置指示方向平面图像中的每个对象的中心的坐标。

该大小表示指示方向平面图像中的每个对象的大小。例如，在指示方向平面图像中，设置垂直方向上每个对象的长度的最大值和水平方向上每个对象的长度的最大值。

对象类型表示对象检测单元33检测到的对象的类型。例如，招牌131和招牌133至137的对象类型是“招牌”，并且窗口132的对象类型是“窗口”。

基本上，内容类型表示对象检测单元33检测到的每个对象的视觉内容的类型。然而，对于不具有视觉内容的对象，视觉内容类型被设置为“对象”。例如，招牌131的内容类型是“图像”。另外，例如，招牌133、134和137的内容类型是“句子”，并且招牌135和136的内容类型是“单词”。此外，在视觉内容与字符串有关的情况下，当字符串中仅包括一个单词时，内容类型被设置为“单词”，并且当字符串中包括两个或更多个单词时，内容类型被设置为“句子”。窗口132不包括视觉内容，因此内容类型被设置为“对象”。

在内容类型是作为“对象”的对象的情况下，即，在不具有视觉内容的对象的情况下，对象类型被设置为内容信息。另一方面，在内容类型是除“对象”之外的对象的情况下，即，在包括视觉内容的对象的情况下，设置视觉内容的内容。

例如，招牌131包括作为视觉内容的图像，因此将作为图像内容的“狗”设置为内容信息。窗口132不具有视觉内容，因此将作为对象类型的“窗口”设置为内容信息。招牌133至137包括作为视觉内容的句子或单词，因此将句子或单词设置为具有原始语言的内容信息(在该实例中为韩语)。即，在本说明书中，招牌133至招牌137的多条内容信息可以分别被视为被定义为“招牌133的原始语言信息”、“招牌134的原始语言信息”、“招牌135的原始语言信息”、“招牌136的原始语言信息”和“招牌137的原始语言信息”。

被翻译成用于由翻译单元36向用户通知内容信息的语言(下文中，称为“用户语言”)的信息被设置为翻译信息。这里，用户语言可以被视为与用户语音的语言相同。

将每个对象中包括的颜色中的特征颜色设置为颜色。

在指示方向平面图像的上侧、下侧、左侧和右侧上与每个对象相邻的对象的ID被设置为相邻对象。例如，由于招牌133、招牌137、招牌134和招牌136分别在上侧、下侧、左侧和右侧上与ID5的招牌135相邻，所以ID3、ID7、ID4和ID6分别设置在“相邻对象”的列中的“上”、“下”、“左”和“右”中。

然后，终止指示方向信息获取处理。

返回到图3，在步骤S52中，指示位置检测单元31确定是否给出用于释放手指指向模式的指令。具体来说，如在图2中的步骤S1的处理中，指示位置检测单元31基于从传感器单元22传输的传感器信号执行用户手指的手势检测，并且检测是否执行给出用于释放手指指向模式的指令的手势。例如，给出用于释放手指指向模式的指令的手势可以是停止手指指向手势或做出预定的手指形状。另外，在不执行给出用于释放手指指向模式的指令的手势的情况下，指示位置检测单元31确定不给出用于释放手指指向模式的指令，并且处理进入步骤S53。

在步骤S53中，指示位置检测单元31确定用户指向的位置是否是固定的。例如，指示位置检测单元31基于从传感器单元22传输的传感器信息测量用户手指的移动范围在预定范围内的状态的持续时间。在用户手指的移动范围是预定范围的状态的持续时间短于预定时间的情况下，指示位置检测单元31确定用户指向的位置不是固定的，并且处理返回到步骤S51。

然后，重复执行步骤S51至S53中的处理，直到在步骤S52中确定给出用于释放手指指向模式的指令，或在步骤S53中确定用户指向的位置是固定的。另外，每当重复处理时，系统识别指示目标、指示方向平面图像、指示方向平面图像中的指示位置和指示方向信息列表被更新。

另一方面，在用户手指的移动范围在预定范围内的状态的持续时间等于或长于预定时间的情况下，在步骤S53中，指示位置检测单元31确定用户指向的位置是固定的，并且处理进入步骤S54。

在步骤S54中，信息处理系统10输出用于确认用户指向的目标的语音(在下文中，称为“确认语音”)。具体来说，首先，信息生成单元37创建用于确认用户指向的目标的查询句。

这里，信息生成单元37例如基于系统识别指示目标的内容类型创建查询句。例如，在内容类型是图像的情况下，创建“你指向哪个图像？”的查询句。在内容类型是句子的情况下，创建“你指向哪个句子？”的查询句。在内容类型是单词的情况下，创建“你指向哪个单词？”的查询句。在内容类型是对象的情况下，创建“你指向哪个对象？”的查询句。

此外，上述查询句仅是说明性的，并且可以根据需要进行改变。例如，可以基于对象类型而不是内容类型来创建查询句。另外，例如，可以基于对象类型和内容类型来创建查询句。另外，例如，不管对象类型和内容类型如何，都可以创建诸如“你指向哪个？”的查询句。

然而，优选地，查询句是鼓励用户输入用于识别用户识别指示目标的信息的句子，使得从用户可靠地获得可以从其他对象识别用户识别指示目标的信息。例如，在查询“你指向哪个？”的情况下，当用户用“招牌”给出查询的答案时，信息处理系统10不能识别用户指向哪个招牌。相反，例如，在查询“你指向哪个单词”的情况下，假设用户用招牌上的单词给出查询的答案，因此信息处理系统10可以基于用户的答案容易地识别用户识别指示目标。

另外，输出单元14在输出控制单元39的控制下输出指示查询句的确认语音。

在步骤S55中，语音识别单元38启动语音识别。

在步骤S56中，语音识别单元38基于从语音输入单元11传输的语音信号确定是否在预定时间内启动语音输入。在确定在预定时间内启动语音输入的情况下，处理进入步骤S57。

在步骤S57中，信息处理系统10执行语音指示方向信息获取处理。这里，将参考图9的流程图描述语音指示方向信息获取处理的细节。

在步骤S151中，指示位置检测单元31检测用户手指在语音中的位置和方向。具体来说，如在图2的步骤S1中的处理中，指示位置检测单元31基于从传感器单元22传输的传感器信号执行用户手指的手势检测，并检测用户指尖的位置和方向。另外，指示位置检测单元31将检测到的用户指尖的位置和方向设置为参考手指位置和参考手指方向。此外，可以通过参考手指位置和参考手指方向在语音三维空间中获得用户指向的位置。

此外，检测参考手指位置和参考手指方向的定时被设置为例如在用户的语音期间的预定定时，诸如语音的启动，在从语音的启动起经过预定时间之后，以及语音的终止。或者，例如，可以存储在语音中用户指尖的位置和方向，并且可以在确定用户手指的移动在语音中最小的定时检测参考手指位置和参考手指方向。

在步骤S152中，语音识别单元38确定是否终止语音输入。在确定语音输入仍在继续的情况下，处理进入步骤S153。

在步骤S153中，语音识别单元38确定在语音输入的启动之后是否经过了预定时间。在确定在语音输入的启动之后尚未经过预定时间的情况下，处理返回到步骤S152。

然后，重复执行步骤S152和步骤S153中的处理，直到在步骤S152中确定语音输入被终止，或在步骤S153中确定在语音输入的启动之后已经过了预定时间。

另一方面，在无声时段持续预定时间的情况下，在步骤S152中，语音识别单元38确定语音输入被终止，并且处理进入步骤S154。

另外，在步骤S153中，在确定在语音输入的启动之后已经过了预定时间的情况下，处理进入步骤S154。这对应于语音输入连续执行预定时间或更长时间的情况。

在步骤S154中，语音识别单元38停止语音识别。

在步骤S155中，语音识别单元38确定语音识别是否成功。在可以基于从语音输入单元11传输的语音信号识别用户语音的内容的情况下，语音识别单元38确定语音识别成功，并且处理进入步骤S156。

在步骤S156中，指示位置校正单元32检索被识别为用户指向的目标(用户识别指示目标)。例如，指示位置校正单元32从最新指示方向信息列表中的各个对象的多条翻译信息中包括的多条文本信息中检索与从用户语音获取的文本信息类似的文本信息。即，指示位置校正单元32执行具有与最新指示方向信息列表中的用户语音的内容类似的翻译信息数据(通过将内容信息翻译成用户语言而获得的数据)的对象的检索。

另外，在仅存在具有与用户语音的内容类似的翻译信息数据的一个对象的情况下，指示位置校正单元32将该对象检测为用户识别指示目标。例如，在用户说“7080”的情况下，翻译信息数据为“7080”的对象仅是招牌135，因此将招牌135检测为用户识别指示目标。

另一方面，在不能检测到具有与用户语音的内容类似的翻译信息数据的对象的情况下，或在检测到具有与用户语音的内容类似的翻译信息数据的两个或更多个对象的情况下，指示位置校正单元32确定其未能检测到用户识别指示目标。

在步骤S157中，指示位置校正单元32确定是否可以检测到被识别为用户指向的目标(用户识别指示目标)。在确定可以检测到被识别为用户指向的目标的情况下，处理进入步骤S158。

在步骤S158中，指示位置校正单元32校正指示方向平面图像中的指示位置。

具体来说，在用户识别指示目标和最新系统识别指示目标彼此匹配的情况下，指示位置校正单元32不校正系统识别指示目标。另一方面，在用户识别指示目标和最新系统识别指示目标彼此不匹配的情况下，指示位置校正单元32将系统识别指示目标校正到用户识别指示目标。另外，指示位置校正单元32将此时的系统识别指示目标设置为参考指示目标。

根据该配置，可以使被识别为用户指向的目标(用户识别指示目标)和由信息处理系统10识别为由用户指向的目标(系统识别指示目标)彼此匹配，而不会使用户校正指向。

另外，用户可以将指示方向上的对象中的任意对象设置为参考指示目标。因此，例如，用户可以设置对象类型、名称等已知的对象，或将视觉内容的内容理解为参考指示目标的对象。例如，在图7中所示的实例中，在用户不能理解韩语的情况下，用户可以在不显示韩语的招牌131、窗口132和招牌135中设置参考指示目标。

另外，指示位置校正单元32检测指示方向平面图像中的参考指示目标的中心，将检测到的位置校正到当前指示位置，并将检测到的位置设置为参考指示位置。参考指示位置成为指示方向平面图像中的指示位置(在下文中，也称为“图像指示位置”)，该指示位置对应于语音三维空间中的指示位置(在下文中，也称为“空间指示位置”)，其是相对于确认语音通过在步骤S151中设置的参考手指位置和参考手指方向获得的。

以这种方式，可以以用户期望的方式简单地校正对应于空间指示位置的图像指示位置。

在步骤S159中，距离计算单元34计算从用户的眼睛到用户的手指的距离。具体来说，距离计算单元34计算在步骤S151的处理中检测到的语音中的用户眼睛和用户指尖之间的距离。例如，如图10中所示，距离计算单元34计算用户眼睛的位置P1和指尖的位置P3之间的距离d2(在下文中，称为“眼睛到手指的距离d2”)。

此外，作为距离计算方法，可以采用任意方法。

在步骤S160中，图像处理单元35计算缩小率。例如，在图10中所示的实例的情况下，基于最短对象距离d1和眼睛到手指的距离d2，通过以下表达式(1)计算缩小率r。

r＝d2/d1...(1)

在步骤S161中，图像处理单元35生成语音指示方向平面缩小图像。具体来说，图像处理单元35通过在步骤S160的处理中计算的缩小率来缩小最新指示方向平面图像，并且将指示方向平面图像投影到通过用户指尖并与指示方向平面图像平行的平面上，由此生成语音指示方向平面缩小图像。

例如，如图11中所示，指示方向平面图像121被缩小，并且被投影到通过用户指尖的位置P3并与指示方向平面图像121平行的平面上，由此生成语音指示方向平面缩小图像151。

另外，图像处理单元35将指示方向平面图像中的各个对象的位置和大小转换为指示方向平面缩小图像中的位置和大小。另外，图像处理单元35将指示方向平面图像中的指示位置转换为指示方向平面缩小图像中的指示位置。

在步骤S162中，信息处理系统10生成语音指示方向信息列表。具体来说，距离计算单元34计算指示方向平面缩小图像中的相邻对象之间的距离。信息生成单元37用指示方向平面缩小图像中的位置和大小替换最新指示方向信息列表中的各个对象的位置和大小。另外，信息生成单元37将由距离计算单元34计算的各个对象之间的距离添加到最新指示方向信息列表。根据该处理，生成语音指示方向信息列表。

图12图示基于图8中的指示方向信息列表生成的语音指示方向信息列表的实例。此外，在图12中，在图中未图示对象类型、内容类型和详细信息的项目。

当相互比较时，图8中的语音指示方向信息列表和指示方向信息列表在位置数据和大小数据，以及与新添加的相邻对象的距离的项目方面彼此不同。

具体来说，在语音指示方向信息列表中，各个对象的位置和大小被设置为语音指示方向平面缩小图像中的位置和大小。

与在语音指示方向平面缩小图像中的各个对象的上侧、下侧、左侧和右侧上相邻的对象的距离被设置为与相邻对象的距离。例如，招牌134与ID1的招牌131的下侧相邻，因此招牌131和招牌134之间的距离在ID1中“与相邻对象的距离”的“下”列中被设置为d1_d。另外，例如，窗口132从右侧与ID1的招牌131相邻，因此招牌131和窗口132之间的距离在ID1中“与相邻对象的距离”的“右”列中被设置为d1_r。

此外，例如，设置对象A的中心和对象B的中心之间的上下方向(垂直方向)上的距离，作为与上侧或下侧的对象A相邻的对象B的距离。另外，例如，计算对象A的中心和对象C的中心之间的左右方向(水平方向)上的距离，作为与左侧或右侧的对象A相邻的对象C的距离。

例如，可以理解，当用户的手指由于与相邻对象的距离数据而在一定程度上向某个方向移动时，可以指向相邻对象。

例如，将给出将作为招牌135的中心的位置P3设置为语音指示方向平面缩小图像151中的指示位置的情况的描述，如图13中所示。例如，可以看出，当用户的手指在向上方向上移动距离d5_u时，可以指向与招牌135的上侧相邻的招牌133的近似垂直中心。可以看出，当用户的手指在向下方向上移动距离d5_d时，可以指向与招牌135的下侧相邻的招牌137的近似垂直中心。可以看出，当用户的手指在左方向上移动距离d5_l时，可以指向与招牌135的左侧相邻的招牌134的近似水平中心。可以看出，当用户的手指在右方向上移动距离d5_r时，可以指向与招牌135的右侧相邻的招牌136的近似水平中心。

在步骤S162中的处理之后，终止语音指示方向信息获取处理。

另一方面，在步骤S157中，在确定不能检测到被识别为用户指向的目标的情况下，处理进入步骤S163。

另外，在步骤S155中，在确定语音识别失败的情况下，处理进入步骤S163。

在步骤S163中，信息处理系统10给出用户指向的目标确认失败的通知。例如，输出单元14在输出控制单元39的控制下输出用于给出用户指向的目标确认失败的通知的语音。

然后，终止语音指示方向信息获取处理。

返回到图3，在步骤S58中，指示位置校正单元32确定是否可以确认用户指向的目标。在确定可以确认用户指向的目标的情况下，处理进入步骤S59。

在步骤S59中，信息处理系统10执行语音引导处理。这里，将参考图14的流程图描述语音引导处理的细节。

在步骤S201中，指示位置检测单元31确定用户的手指是否移动。具体来说，指示位置检测单元31基于从传感器单元22传输的传感器信号检测用户手指的移动。另外，在指示位置检测单元31确定用户的手指移动的情况下，处理进入步骤S202。

在步骤S202中，指示位置检测单元31确定用户指向的目标(指示目标)是否被改变。具体来说，指示位置检测单元31基于从传感器单元22传输的传感器信号，以设置为参考的参考手指位置和参考手指方向来检测用户手指的当前位置和当前方向。另外，指示位置检测单元31基于检测到的用户的当前位置和当前方向，根据语音指示方向平面图像中的参考指示位置来计算当前指示位置的移动量和移动方向。另外，指示位置检测单元31基于所计算的指示位置的移动量和移动方向以及语音指示方向信息列表来检测用户当前指向的目标(指示目标)。另外，在当前检测的指示目标与先前检测的指示目标不同的情况下，指示位置检测单元31确定用户指向的目标被改变，并且处理进入步骤S203。

在步骤S203中，输出控制单元39获取与用户指向的目标(指示目标)相关联的信息。例如，输出控制单元39从语音指示方向信息列表中获取当前指示目标的翻译信息数据。

在步骤S204中，输出控制单元39确定是否从先前语音引导经过了预定时间。在确定从先前语音引导已经过了预定时间的情况下，处理进入步骤S205。此外，即使在启动手指指向模式处理之后第一次执行语音引导的情况下，也确定从先前语音引导已经过了预定时间，处理进入步骤S205。

在步骤S205中，信息处理系统10用语音引导与用户指向的目标(指示目标)相关联的信息。

例如，首先，输出单元14在输出控制单元39的控制下输出通知声音，该通知声音是用于给出指示目标改变的通知的声音。此外，例如，可以输出根据指示目标的移动方向(例如，上、下、左、右)而不同的通知声音。另外，例如，可以输出根据当前指示目标与参考指示目标间隔开多少个的情况而不同的通知声音。例如，可以输出在当前指示目标是与参考指示目标相邻的对象的情况和当前指示目标是与参考指示目标间隔开两个的对象的情况之间不同的通知声音。

此外，作为改变通知声音的方法，可以采用任意方法。例如，输出控制单元39通过改变音阶、音质、音量等中的至少一个来改变通知声音。

另外，例如，可以通过设备的振动等通知而不是通知声音来给出指示目标的改变。另外，例如，可以在诸如“上”和“左”的特定语音的通知中给出指示目标的移动方向。

根据该配置，用户可以基于参考指示目标正确地识别当前由信息处理系统10识别的指示目标。因此，防止了用户和信息处理系统10之间的指示目标识别偏差。

接着，输出单元14在输出控制单元39的控制下输出用于给出例如当前指示目标的翻译信息数据的通知的语音信息。例如，在当前指示目标是图7中的招牌137的情况下，输出作为招牌137的翻译信息数据的“体育用品”的语音作为语音信息。

根据该配置，即使在将信息用无法理解的韩语显示在当前指示目标上的情况下，用户也可以用可以理解的语言(即用户语言)获得信息。

另外，例如，用户难以从远处位置用手指等更精确地指向远处对象、小对象、在对象周围密集地布置的对象中的对象等，而不与对象直接接触。因此，例如，在图7的实例中，可以假设用户用手指指向与所需招牌不同的招牌，因此不同招牌的语音信息不存在的情况。然而，当用户不能理解韩语时，用户很难意识到这种情况。另外，例如，在用户对用户指向的位置没有信心的情况下，用户不能确定输出语音信息是否是真正希望获得的信息。

另一方面，当使用信息处理系统10时，防止了用户和信息处理系统10之间的指示目标识别偏差，因此用户可以可靠地获得与用户期望的目标相关联的信息。另外，用户对用户用手指指向的位置充满信心，因此用户可以确定输出语音信息是与用户期望的目标相关联的信息。

此外，在指示目标改变的情况下，在输出通知声音之后可能不会立即输出语音信息，并且当指示目标在预定时间内没有改变时，可以输出语音信息，即，确定用户指向的目标。根据该配置，在用户希望听到位于与参考目标间隔开两个或更多个的位置处的对象的语音信息的情况下，不需要听到位于两者之间的对象的语音信息。另外，即使没有输出语音信息，也会输出通知声音，因此用户可以可靠地识别出用户指向的目标被改变。

另外，例如，指示目标的内容信息和翻译信息数据可以包括在语音信息中。即，用原始语言的指示目标的内容信息和用用户语言的内容信息可以包括在语音信息中。根据该配置，用户可以知道用原始语言的指示目标的内容信息的发音等。

然后，终止语音引导处理。

另一方面，在步骤S204中，在确定从先前语音引导尚未经过预定时间的情况下，跳过步骤S205中的处理，并且终止语音引导处理。

另外，在步骤S202中，在确定用户指向的目标没有改变的情况下，跳过步骤S203至S205中的处理，并且终止语音引导处理。

另外，在步骤S201中，在确定用户的手指不移动的情况下，跳过步骤S202至S205中的处理，并且终止语音引导处理。

返回到图3，在步骤S60中，确定是否像步骤S52中的处理一样给出了用于释放手指指向模式的指令。在确定没有给出用于释放手指指向模式的指令的情况下，处理返回到步骤S59。

然后，在步骤S60中，重复执行步骤S59和S60中的处理，直到确定给出了用于释放手指指向模式的指令。

另一方面，在步骤S60中，在确定给出了用于释放手指指向模式的指令的情况下，终止手指指向模式处理。

另外，在步骤S56中，在确定在预定时间内未启动语音输入的情况下，处理进入步骤S61。

在步骤S61中，语音识别单元38停止语音识别。

然后，处理进入步骤S62。

另一方面，在步骤S58中，在确定不能确认用户指向的目标的情况下，处理进入步骤S62。

在步骤S62中，确定是否像步骤S52中的处理一样给出了用于释放手指指向模式的指令。在确定没有给出用于释放手指指向模式的指令的情况下，处理返回到步骤S51。

然后，执行步骤S51和后续步骤中的处理。

另一方面，在步骤S62中，在确定给出了用于释放手指指向模式的指令的情况下，终止手指指向模式处理。

返回到图2，在步骤S2中的处理之后，处理返回到步骤S1，并且执行步骤S1和后续步骤中的处理。

如上所述，系统识别指示目标基于用户语音进行校正，因此可以使用户识别指示目标和系统识别指示目标以简单且快速的方式彼此匹配，而不会使用户校正指向。即，可以以简单且快速的方式使用户和信息处理系统10之间的用户指向的位置的识别同步。

另外，用户可以基于参考指示目标准确地理解信息处理系统10识别的指示目标，因此，可以防止用户和信息处理系统10之间的指示目标识别偏差。

另外，以用户可以理解的语言用语音输出指示目标的内容信息，因此，例如，即使在以用户不能理解的语言显示视觉内容的情况下，用户也可以容易地理解其内容。

<2.修改实例>

在下文中，将描述本技术的实施方案的修改实例。

{与本技术的应用范围相关的修改实例}

本技术的应用范围不限于上述实例。

例如，在本技术中，成为指示目标的对象不必是一个对象的整体，并且可以是对象的一部分。例如，在一个招牌上显示多个字符串或图像的情况下，可以将多个字符串或图像的一部分指定为指示目标。另外，例如，可以将诸如建筑物的大目标的一部分指定为指示目标。

另外，例如，本技术也适用于通过指示对象校准指示位置。

例如，本技术适用于在通过用户的手势在图像中移动操作对象(例如，指针)的情况下校准操作对象的位置。例如，本技术适用于校准用户通过头戴式显示器(HMD)等中的虚拟现实(VR)在视觉上识别的图像(例如，称为“VR图像”)中的操作对象，以及智能电视屏幕中的操作对象的位置。

例如，将描述操作对象在VR图像内按照用户食指指尖的移动而移动的情况。在这种情况下，指示对象是食指，并且三维空间中的指示位置(空间指示位置)是食指的指尖。

例如，在食指停止在三维空间中的所需位置的状态下，用户通过用语音输入操作对象的VR图像中的指示位置(图像指示位置)来执行操作对象的位置的校准，该指示位置期望与该状态下的空间指示位置相关。例如，当用户输入“中心”的语音时，校正坐标系(图像指示位置的坐标系)，使得语音中的空间指示位置对应于VR图像的中心。另外，校正操作对象的位置，使得操作对象的指示位置(图像指示位置)成为VR图像的中心。

此外，例如，可以通过用语音输入VR图像中的特定坐标系来执行操作对象的位置的校准。

另外，例如，也可以通过在操作对象的位置固定的状态下移动VR图像的范围，校正操作对象相对于VR图像的指示位置。例如，可以移动VR图像的范围，使得通过用户在操作对象的位置固定的状态下用语音输入VR图像中的特定位置，使用户指示的VR图像中的位置与操作对象的指示位置匹配。

根据该配置，可以简单地将对应于空间指示位置的图像指示位置校正到用户期望的位置。

另外，校准技术也适用于例如校准增强现实(AR)的操作对象的位置。

另外，已经给出了远处招牌等被指向作为本技术的应用现状的情况的实例的描述。然而，本技术也适用于通过使用指示对象以非接触方式指向所需位置的各种情况。这些情况的实例包括在博物馆等的陈列柜里指向所需位置的情况，在由于入口限制而难以接近的位置指向所需位置的情况，在观景塔前的景观中指向所需位置的情况，指向由于污染而难以直接接触的对象的所需位置的情况，指向禁止接触的对象的所需位置的情况，以及在讲座会议等中从远处位置指向所需位置的情况。

另外，例如，本技术也适用于通过与目标直接接触指向所需位置的情况。例如，本技术也适用于使手指等与诸如显示器的显示设备的屏幕直接接触以在屏幕上显示的图像中指向所需位置的情况。特别地，在图像小并因此难以精确地指向个别目标的情况下，本技术的应用效果得到增强。此外，在这种情况下，空间指示位置和图像指示位置大致彼此匹配。

另外，本技术适用于各种设备，其中在三维空间中检测到指示对象指向的位置(空间指示位置)，并且设置图像中对应于空间指示位置的位置(图像指示位置)。设备的实例包括可穿戴设备、VR设备、AR设备、智能电视、数字标牌、投影仪、智能电话和平板电脑。

另外，能够在本技术中使用的图像的类型不受特别限制。例如，本技术适用于在诸如运动图像、静止图像、二维图像、三维图像和全方位图像的任意类型的图像中设置图像指示位置的情况。

{与系统的配置实例相关的修改实例}

图1中的信息处理系统10的配置实例仅是说明性的，并且可以根据需要进行改变。

例如，可以在语音输入单元11、信息获取单元12或输出单元14中提供信息处理单元13的部分功能。另外，例如，语音输入单元11、信息获取单元12、信息处理单元13和输出单元14中的两个或更多个可以彼此集成。另外，例如，可以通过与语音输入单元11、信息获取单元12、信息处理单元13和输出单元14不同的组合来配置信息处理系统10的组成元件。

另外，例如，可以在外部提供信息处理系统10的部分功能。

{与指示目标的检测方法相关的修改实例}

已经给出了一个实例的描述，其中基于由安装在用户手指上的信息获取单元12的拍摄单元21拍摄的指示方向图像来检测用户手指指向的指示目标，但是可以通过另一种方法检测指示目标。

例如，拍摄指示用户指向的方向的指示方向图像的拍摄单元可以安装在除用户手指之外的部分(例如，头部)上，并且可以另外提供拍摄用户的拍摄单元。在这种情况下，例如，指示位置检测单元31基于通过拍摄用户获得的图像，通过检测用户手指的位置和方向等来检测用户在三维空间中指向的方向(在下文中，称为“空间指示方向”)。另外，指示位置检测单元31基于空间指示方向检测指示方向图像中的用户指向的指示目标。

此外，在拍摄指示方向图像的拍摄单元安装在除用户手指之外的部分上的情况下，在某些情况下，拍摄方向和用户指向的方向可能彼此不匹配。相反，例如，指示位置检测单元31可以通过使用同步定位和映射(SLAM)基于指示方向图像来创建用户周边的空间地图，并且可以基于空间地图和空间指示方向来检测指示目标。

另外，例如，拍摄指示方向图像的拍摄单元可以与用户分开提供，而不安装在用户上。

{与指示对象相关的修改实例}

作为能够应用于本技术的指示对象，可以采用任意指示对象，只要指示对象可以指向所需位置即可。例如，除了用户手指之外的身体的一部分，诸如眼睛、头部、面部、面部的一部分、手臂和手臂的一部分可以用作指示对象，并且可以使用这些部分通过手势等指向所需位置。另外，例如，诸如激光指示器的指向设备和诸如虚拟现实(VR)设备的设备可以用作指示对象。此外，在使用VR设备作为指示对象的情况下，例如，可以通过例如VR设备的方向指向所需方向。

{与指示方向信息列表和语音指示方向信息列表相关的修改实例}

指示方向信息列表和语音指示方向信息列表的项目不限于上述实例，并且可以根据需要进行改变。例如，详细信息可以包括除了各个对象的颜色之外的视觉特征(例如，形状)。

另外，已经给出了通过使用指示方向信息列表的翻译信息数据来检索用户识别指示目标的实例的描述，但是可以使用另一种类型的数据。例如，可以输出用于查询对象的视觉特征的确认语音，诸如“指向的对象有多少种颜色？”和“请让我知道指向的对象的形状”，并且可以基于对象的视觉特征从指示方向信息列表中检索用户识别指示目标。另外，例如，可以结合指示方向信息列表的两种或更多种类型的数据来检索用户识别指示目标。

另外，对对象类型和内容类型进行分类的方法不限于上述实例，并且可以根据需要进行改变。

另外，例如，可以将与在倾斜方向上相邻的对象相关联的信息添加到指示方向信息列表和语音指示方向信息列表，以检测指示目标在倾斜方向上的移动。

{其他修改实例}

已经给出了将指示目标的内容信息从韩语翻译成用户语言的实例的描述，但是翻译语言的组合不限于该实例。另外，例如，用户可以设置翻译目的地的语言(用于通知用户的语言)。

另外，例如，可以在显示器等上显示内容信息的文本数据，而不是使用内容信息的语音。

另外，例如，为了便于观看指示目标的内容信息，可以以放大的方式显示指示目标和其周边。根据该配置，例如，在指示目标是招牌的情况下，在由于招牌远离的情况，招牌上的字符很小的情况，招牌反射强烈的情况，周边黑暗的情况等，能见度很差的情况下，可以提高能见度。

另外，已经给出了通过使用指示对象指向所需目标的用户和向信息处理系统10输入用户语音的用户彼此相同的实例的描述，但是用户不必彼此相同。例如，与携带信息处理系统10的用户A不同的另一个用户B可以输入用户语音。在这种情况下，例如，用户A可以提供允许用户B对信息处理系统10的语音输入的命令。例如，该命令可以由用户A用语音命令输入。

另外，例如，用户B可以携带另一个系统，并且可以在用户A和用户B的系统之间协作获取给出所需目标的指令的手势和用户语音的组合。

{计算机的配置实例}

上述一系列处理可以由硬件或软件执行。在通过软件执行一系列处理的情况下，构成软件的程序安装在计算机中。这里，计算机的实例包括具备专用硬件的计算机，以及例如能够通过安装各种程序来执行各种功能的通用个人计算机。

图15是图示通过程序执行上述一系列处理的计算机硬件的配置实例的方框图。

在计算机中，中央处理单元(CPU)301、只读存储器(ROM)302和随机存取存储器(RAM)303通过总线304彼此连接。

另外，输入/输出接口305连接到总线304。输入单元306、输出单元307、存储单元308、通信单元309和驱动器310连接到输入/输出接口305。

输入单元306包括键盘、鼠标、麦克风等。输出单元307包括显示器、扬声器等。存储单元308包括硬盘、非易失性存储器等。通信单元309包括网络接口等。驱动器310驱动可移动介质311，诸如磁盘、光盘、磁光盘和半导体存储器。

在具有上述配置的计算机中，CPU 301通过输入/输出接口305和总线304将例如存储在存储单元308中的程序加载到RAM 303中，并执行该程序，由此执行上述一系列处理。

由计算机(CPU 301)执行的程序可以例如在作为封装介质等记录在可移动介质311中的状态下被提供。另外，该程序可以通过有线或无线传输介质来提供，诸如局域网、互联网和数字卫星广播。

在计算机中，当可移动介质311安装在驱动器310中时，程序可以通过输入/输出接口305安装在存储单元308中。另外，程序可以由通信单元309通过有线或无线传输介质接收，并且可以安装在存储单元308中。另外，程序可以预先安装在ROM 302或存储单元308中。

此外，由计算机执行的程序可以是根据本说明书中描述的程序按时间序列执行处理的程序，或可以是并行地或在必要的时间(诸如在进行呼叫时)执行处理的程序。

另外，多个计算机可以彼此协作地执行上述处理。另外，计算机系统由执行上述处理的单个计算机或多个计算机构成。

另外，在本说明书中，系统表示多个组成元件(设备、模块(部件)等)的组件，并且整个组成元件是否存在于同一壳体中无关紧要。因此，容纳在个别壳体中并通过网络连接的所有多个设备，以及其中多个模块容纳在一个壳体中的一个设备表示该系统。

另外，本技术的实施方案不限于上述实施方案，并且可以在不脱离本技术的主旨的范围内进行各种修改。

例如，本技术可以具有云计算配置，其中一个功能由多个设备共享，并通过网络协同处理。

另外，除了由一个设备执行之外，流程图中描述的各个步骤可以在由多个设备共享的状态下执行。

另外，在一个步骤中包括多种处理的情况下，除了由一个设备执行之外，一个步骤中包括的多种处理可以在由多个设备共享的状态下执行。

另外，本说明书中描述的效果仅是说明性的，并且可以提供其他效果。

另外，例如，本技术也可以采用以下配置。

(1)

一种信息处理设备，包括：

指示位置检测单元，其检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置；以及

指示位置校正单元，其基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于所述空间指示位置的指示位置。

(2)

根据(1)所述的信息处理设备，

其中所述指示位置校正单元基于所述用户语音将所述图像指示位置校正到所述图像中的位置。

(3)

根据(2)所述的信息处理设备，

其中所述指示位置校正单元校正通过虚拟现实在所述用户视觉识别的所述图像中的所述图像指示位置。

(4)

根据(1)至(3)中任一项所述的信息处理设备，

其中当所述用户说出所述用户语音时，所述指示位置校正单元校正对应于所述空间指示位置的所述图像指示位置。

(5)

根据(1)所述的信息处理设备，

其中所述指示位置检测单元检测作为所述图像中的目标的指示目标，所述目标对应于所述指示对象在三维空间中指向的第一目标，以及

在所述指示目标与第二目标匹配的情况下，所述指示位置校正单元不基于所述用户语音校正所述指示目标，并且在所述指示目标与所述第二目标不匹配的情况下，执行将对应于所述第二目标的所述图像中的目标校正到所述指示目标的校正处理。

(6)

根据(5)所述的信息处理设备，进一步包括：

输出控制单元，其控制作为用于确认所述指示目标的语音的确认语音的输出，

其中所述指示位置校正单元基于关于所述确认语音的所述用户语音执行所述校正处理。

(7)

根据(6)所述的信息处理设备，

其中所述确认语音是鼓励输入用于识别所述指示目标的信息的语音。

(8)

根据(5)至(7)中任一项所述的信息处理设备，

其中在所述校正处理之后改变所述指示目标的情况下，所述输出控制单元控制语音信息的输出，以用预定语言给出与所述指示目标相关联的信息的通知。

(9)

根据(8)所述的信息处理设备，

其中所述语音信息包括指示所述指示目标的视觉可识别内容的内容信息。

(10)

根据(9)所述的信息处理设备，

其中所述内容信息指示所述指示目标的名称、所述指示目标的类型和由所述指示目标在视觉上表示的事物中的至少一个。

(11)

根据(8)至(10)中任一项所述的信息处理设备，

其中在所述校正处理之后改变所述指示目标的情况下，所述输出控制单元执行控制，使得输出用于给出所述指示目标改变的通知的通知声音。

(12)

根据(11)所述的信息处理设备，

其中所述输出控制单元执行控制，使得输出根据所述指示目标的移动方向而不同的所述通知声音。

(13)

根据(8)至(12)中任一项所述的信息处理设备，进一步包括：

翻译单元，其将与所述指示目标相关联的所述信息翻译成所述预定语言。

(14)

根据(5)至(13)中任一项所述的信息处理设备，进一步包括：

检测所述图像中的对象的对象检测单元。

(15)

根据(1)至(14)中任一项所述的信息处理设备，

其中所述指示对象是用户身体的一部分。

(16)

根据(1)至(15)中任一项所述的信息处理设备，进一步包括：

识别所述用户语音的语音识别单元。

(17)

一种信息处理方法，包括：

指示位置检测步骤，其用于检测空间指示位置，所述空间指示位置是指示对象在三维空间中指向的位置；以及

指示位置校正步骤，其用于基于作为用户说出的语音的用户语音，校正图像指示位置，所述图像指示位置是图像中对应于所述空间指示位置的指示位置。

(18)

一种程序，其使计算机执行处理，包括：

参考符号列表

10 信息处理系统

11 语音输入单元

12 信息获取单元

13 信息处理单元

14 输出单元

21 拍摄单元

22 传感器单元

31 指示位置检测单元

32 指示位置校正单元

33 对象检测单元

34 距离计算单元

35 图像处理单元

36 翻译单元

37 信息生成单元

38 语音识别单元

39 输出控制单元。

Claims

1.一种信息处理设备，包含：

指示位置校正单元，其基于作为用户说出的语音的用户语音来校正图像指示位置，所述图像指示位置是图像中对应于所述空间指示位置的指示位置。

2.根据权利要求1所述的信息处理设备，

3.根据权利要求2所述的信息处理设备，

其中所述指示位置校正单元校正通过虚拟现实由所述用户视觉识别的所述图像中的所述图像指示位置。

4.根据权利要求1所述的信息处理设备，

5.根据权利要求1所述的信息处理设备，

6.根据权利要求5所述的信息处理设备，进一步包含：

7.根据权利要求6所述的信息处理设备，

8.根据权利要求5所述的信息处理设备，

其中在所述校正处理之后改变所述指示目标的情况下，所述输出控制单元控制语音信息的输出，该语音信息用于以预定语言给出与所述指示目标相关联的信息的通知。

9.根据权利要求8所述的信息处理设备，

10.根据权利要求9所述的信息处理设备，

11.根据权利要求8所述的信息处理设备，

12.根据权利要求11所述的信息处理设备，

13.根据权利要求8所述的信息处理设备，进一步包含：

14.根据权利要求5所述的信息处理设备，进一步包含：

检测所述图像中的对象的对象检测单元。

15.根据权利要求1所述的信息处理设备，

其中所述指示对象是用户身体的一部分。

16.根据权利要求1所述的信息处理设备，进一步包含：

识别所述用户语音的语音识别单元。

17.一种信息处理方法，包含：

指示位置校正步骤，其用于基于作为用户说出的语音的用户语音来校正图像指示位置，所述图像指示位置是图像中对应于所述空间指示位置的指示位置。

18.一种程序，其使计算机执行如下处理，包含：