CN106257355B

CN106257355B - 设备控制方法和控制器

Info

Publication number: CN106257355B
Application number: CN201610320472.4A
Authority: CN
Inventors: 大久保雅文; 田中敬一; 中村智典
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2015-06-18
Filing date: 2016-05-16
Publication date: 2021-02-09
Anticipated expiration: 2036-05-16
Also published as: US9825773B2; JP2017010176A; US20160373269A1; CN106257355A; JP6739907B2

Abstract

提供一种设备控制方法和控制器。设备控制方法包括：从相机取得视线信息，所述视线信息包含表示检测出的用户的视线方向的信息，判断所述用户的视线方向，在判断为所述用户的视线方向指示所述用户能够视觉识别的第一空间所包含的配置了第一设备的第一位置以外的第三位置的情况下，将配置于用户不能视觉识别的第二空间的第二设备确定为控制对象，从麦克风取得语音数据，所述语音数据表示检测出的用户的说话，生成与所述取得的语音数据对应的控制指令，将所述生成的控制指令向所述控制对象发送。

Description

设备控制方法和控制器

技术领域

本公开涉及从多台设备中确定成为用户的操作对象的对象设备并进行控制的设备控制方法和控制器。

背景技术

有利用语音输入对位于家庭中的电子设备的状态进行确认和操作的系统。例如，在这样的系统中，由便携式麦克风取得的人的说话(发声)内容被传送给电视机等电子设备。电子设备解析用户发出的语言(语句)，并执行基于说话的处理。由此，实现了电子设备的状态的确认或操作。

在专利文献1中记载的装置通过解析图像处理和语音处理这两种处理的结果，确定用户的说话开始到结束为止的区间和声源的方向。由此，能够提高用户的语音操作的便利性，并且能够减少用户发出的语言的误识别。

在专利文献2中记载的装置通过使用语音、拍手或手势等与用户的使用环境相应的多个开始触发(trigger)，确定用户的说话开始。由此，能够提高语音操作的便利性。

另外，在专利文献3中记载的装置在控制多台电子设备时，通过根据用户的手或头的动作确定设备，进行语音识别和设备控制。

在先技术文献

专利文献

专利文献1：日本特开2014-153663号公报

专利文献2：日本特开2013-080015号公报

专利文献3：日本特开2007-121576号公报

发明内容

发明要解决的问题

然而，在上述专利文献1～3中，需要进一步的改善。

用于解决问题的技术方案

本公开的一个技术方案涉及的设备确定方法是一种与第一设备、第二设备、相机以及麦克风连接的控制器中的设备控制方法，所述第一设备设置在第一空间的第一位置，所述第二设备设置在第二空间的第二位置，所述相机检测用户的视线方向，所述麦克风检测所述用户的说话，所述第一空间是所述用户能够视觉识别的空间，所述第二空间是所述用户不能视觉识别的空间，从所述相机取得视线信息，所述视线信息包含表示所述检测出的用户的视线方向的信息，基于所述视线信息，判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置，在判断为所述用户的视线方向指示所述第三位置的情况下，将所述第二设备确定为控制对象，从所述麦克风取得语音数据，所述语音数据表示所述检测出的用户的说话，生成与所述取得的语音数据对应的控制指令，将所述生成的控制指令向所述控制对象发送。

发明的效果

根据上述一个技术方案，能够实现进一步的改善。

附图说明

图1A是表示在实施方式中对话信息提供系统提供的服务的整体画面的图。

图1B是表示在实施方式中设备制造商相当于数据中心运营公司的例子的图。

图1C是表示在实施方式中设备制造商和管理公司这两方或某一方相当于数据中心运营公司的例子的图。

图2是表示实施方式1中的对话信息提供系统的构成的图。

图3是表示实施方式1中的对话信息提供系统的工作的流程图。

图4A是表示实施方式1中的设备管理信息的一例的图。

图4B是表示实施方式1中的对话词典的一例的图。

图5是实施方式1中的对话信息提供系统所包含的各装置的框图。

图6是表示实施方式1中的对话信息提供系统的工作例的图。

图7是表示实施方式1中的对话信息提供系统的工作例的图。

图8是表示实施方式1中的设备的工作的流程图。

图9是表示实施方式1中的声音收集装置的工作的流程图。

图10是表示实施方式1中的家庭网关的工作的流程图。

图11是实施方式1中的对象设备确定处理的流程图。

图12是表示实施方式1中的语音对话处理的工作例的图。

图13是实施方式1中的语音对话处理的流程图。

图14是表示实施方式1中的语音识别处理的工作例的图。

图15是实施方式1中的语音识别处理的流程图。

图16是表示实施方式1中的意图理解处理的工作例的图。

图17是实施方式2中的对象设备确定处理的流程图。

图18是表示实施方式2中的对话信息提供系统的工作例的图。

图19是实施方式3中的第一设备和第二设备的框图。

图20A是表示实施方式3中的设备管理信息的一例的图。

图20B是表示实施方式3中的设备管理信息的一例的图。

图20C是表示实施方式3中的设备管理信息的一例的图。

图21是实施方式3中的对象设备设定处理的流程图。

图22是实施方式4中的对象设备设定处理的流程图。

图23是表示实施方式5中的对话信息提供系统的构成的图。

图24是表示实施方式5中的设备管理信息的一例的图。

图25是实施方式5中的对象设备设定处理的流程图。

图26是实施方式6中的对象设备确定处理的流程图。

图27是表示对话信息提供系统的变形例的构成的图。

图28是表示对话信息提供系统的变形例的构成的图。

图29是表示对话信息提供系统的变形例的构成的图。

图30是表示对话信息提供系统的变形例的构成的图。

图31是表示服务类型1(自己公司数据中心型云服务)中的信息管理系统提供的服务的整体画面的图。

图32是表示服务类型2(IaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。

图33是表示服务类型3(PaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。

图34是表示服务类型4(SaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。

标号说明

1010、1020 用户

1100、1100A、1100B、1100C、1100D 组

1101 多台设备

1102、1102A、1102B 家庭网关

1110 数据中心运营公司

1111 云服务器

1120 服务提供商

1121 服务器

1201 应用

1202 OS

1203 数据中心

2001 第一空间

2002 第二空间

2011、2011A 第一设备

2012、2012A 第二设备

2013、2013B、2014 声音收集装置

2013A 视线检测装置

2020、2021 网络

2100 语音对话服务器

2101、2147 对话词典

2111、2121、2131、2151 视线检测单元

2112、2122、2134、2145 设备通信单元

2113、2123 设备命令执行单元

2114、2124 距离检测单元

2132、2152 声音收集单元

2133 信息提示单元

2141 设备确定单元

2142、2142A、使2142B、2142C、2142D 设备管理信息

2143 语音对话单元

2144 设备管理单元

2146 云通信单元

2155 用户信息

具体实施方式

(成为本公开的基础的见解)

正在研究用于提供如下服务的技术：按照来自用户的说话，对家庭内的多台设备的状态进行确认或操作。

在这样的系统中，装置通过确定用户的说话开始到结束的区间，取得仅是用户的说话内容的语音数据。并且，装置通过解析语音数据，决定用户想确认或操作的电子设备和该确认或操作内容。

另外，作为取得用户的说话内容的方法，提出了如下方法：利用仅选择特定方向的声音的波束成形处理或识别回声并削减回声的回声消除(Echo cancellation)处理等进行降噪。但是，降噪处理也有限，在已有的利用了降噪的构成中，实现足够水平的语音识别精度是困难的。

另外，作为确定想确认或操作的电子设备和该确认或操作内容的方法，有如下槽位填充(Slot filling)技术：解析用户的说话，并将其结果填入框架(模板)，由此使对话进行。例如，框架包含“设备”、“操作”以及“场所”这三个信息。用户说“接通电源”时，在框架的“操作”中设定“power_on”，但其他“设备”和“场所”的框架不填充。在该情况下，系统通过对用户反问“想接通哪台设备的电源？”、“想接通位于哪里的哪台设备的电源？”等，由此使对话继续。通过用户再次说“空调”或“起居室的空调”等而填充空着的“设备”和/或“场所”的框架。但是，由于需要对用户进行反问并催促用户说话直到填满框架为止，所以有可能使用户焦躁。另外，有可能误识别反问时的说话而进一步反复反问，或陷入不希望的结果。

另外，用户会抵触对着设备说话，另一方面，什么也不看就说话会感觉到不自然。另外，在无法识别说话的内容或存在多台设备的情况下，为了确定为操作对象的设备，用户被要求重新说话多次，有时也会感觉很难用。关于用于满足这些需求的技术解决对策，尚未进行研究。

例如，在用户利用尚未与特定的电子设备关联的虚拟化身(avatar)、天花板麦克风或可穿戴麦克风等说话的情况下，会难以确定想操作哪台电子设备。

这样，在存在多台作为操作对象的设备的情况下，在用户的说话中除了操作内容以外，还需要包含用于确定为操作对象的设备的信息。由此，由于用户的说话变长，所以很可能发生由于噪声等影响无法正确掌握用户的说话内容的状况。进而，用户为了设备操作而需要发出许多词句，另外，在不能确定对象设备的情况下会发生反问。由此，存在用户的便利性下降这一问题。

(1)本公开的一个技术方案涉及的设备控制方法是一种与第一设备、第二设备、相机以及麦克风连接的控制器中的设备控制方法，所述第一设备设置在第一空间的第一位置，所述第二设备设置在第二空间的第二位置，所述相机检测用户的视线方向，所述麦克风检测所述用户的说话，所述第一空间是所述用户能够视觉识别的空间，所述第二空间是所述用户不能视觉识别的空间，从所述相机取得视线信息，所述视线信息包含表示所述检测出的用户的视线方向的信息，基于所述视线信息，判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置，在判断为所述用户的视线方向指示所述第三位置的情况下，将所述第二设备确定为控制对象，从所述麦克风取得语音数据，所述语音数据表示所述检测出的用户的说话，生成与所述取得的语音数据对应的控制指令，将所述生成的控制指令向所述控制对象发送。

由此，在用户的视线朝向设备存在的位置以外的特定区域的情况下，确定为存在于对用户来说不能视觉识别的空间中的设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(2)在上述技术方案中，也可以进一步基于所述视线信息判断所述用户的视线方向是否指示所述第二位置，在判断为所述用户的视线方向指示所述第二位置的情况下，将所述第一设备确定为所述控制对象。

由此，在用户将视线朝向某设备的情况下，能够确定为该设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(3)在上述技术方案中，所述第三位置也可以是设置有所述控制器的位置。

由此，在用户的视线朝向家庭网关等设备确定装置(控制器)的情况下，确定为存在于对用户来说不能视觉识别的空间中的设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(4)在上述技术方案中，所述控制器也可以具备所述相机。

由此，能够以简单的构成精度良好地检测用户的视线是否朝向设备确定装置(控制器)。

(5)在上述技术方案中，所述第三位置也可以是设置有所述麦克风的位置。

由此，在用户的视线朝向尚未与特定的设备进行关联的天花板麦克风或可穿戴麦克风等声音收集装置的情况下，确定为存在于对用户来说不能视觉识别的空间中的设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(6)在上述技术方案中，所述麦克风也可以具备所述相机。

由此，能够以简单的构成精度良好地检测用户的视线是否朝向声音收集装置(麦克风)。

(7)在上述技术方案中，在所述第一空间中也可以配置有物体(object)，所述第三位置也可以是配置了所述物体的位置。由此，在用户的视线朝向尚未与特定的设备进行关联的特定物体(例如填充玩偶)的情况下，确定为存在于对用户来说不能视觉识别的空间中的设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(8)在上述技术方案中，所述物体也可以具备所述相机。

由此，能够以简单的构成精度良好地检测用户的视线是否朝向物体。

(9)在上述技术方案中，所述物体也可以包含人偶。

由此，能够以简单的构成提供物体。

(10)在上述技术方案中，也可以在所述第一空间中投影有假想物体，所述第三位置也可以是投影了所述假想物体的位置。

由此，在用户的视线朝向尚未与特定的设备进行关联的假想物体(例如虚拟化身)的情况下，确定为存在于对用户来说不能视觉识别的空间中的设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

(11)在上述技术方案中，所述假想物体也可以包含虚拟化身和全息图。

由此，能够以简单的构成提供假想物体。

(12)在上述技术方案中，也可以进一步向所述用户通知所述确定出的控制对象。

由此，由于能够基于用户的说话内容，在对存在于用户不能视觉识别的空间中的设备进行操作之前向用户确认操作内容，所以能够防止进行用户不希望的操作。

(13)在上述技术方案中，也可以在所述第一空间中设置第三设备。进一步，解析所述取得的语音数据，在判断为所述取得的语音数据包含表示所述第三设备的说话的情况下，将所述第三设备确定为控制对象。

由此，即使在基于用户的视线信息确定了成为操作对象的设备的情况下，也能够使根据用户的说话内容确定的设备优先作为操作对象。因此，能够抑制用户不希望的设备被错误地选择为操作对象。

(14)在上述技术方案中，所述第一空间也可以包含第三空间，在所述第三空间中也可以设置第三设备，进一步，解析所述取得的语音数据，在判断为所述取得的语音数据包含表示所述第三空间的说话的情况下，将所述第三设备确定为控制对象。

由此，即使在基于用户的视线信息确定了成为操作对象的设备的情况下，也能够使存在于根据用户的说话内容确定的空间中的设备优先作为操作对象。因此，能够抑制用户不希望的设备被错误地选择为操作对象。

(15)在上述技术方案中，所述麦克风也可以为多个麦克风，在从所述多个麦克风中的第一麦克风取得所述语音数据的情况下，将所述第一设备和所述第二设备中与所述用户预先关联的设备确定为控制对象。

由此，能够使与用户关联的设备优先作为操作对象。因此，能够抑制用户不希望的设备被错误地选择为操作对象。

(16)在上述技术方案中，所述控制器也可以进一步具备存储器，所述存储器存储所述语音数据和与所述语音数据对应的控制指令的对应关系，

所述控制指令也可以基于所述对应关系生成。由此，能够容易地生成控制指令。

(17)在上述技术方案中，所述控制器也可以与服务器连接，所述服务器存储所述语音数据和与所述语音数据对应的控制指令的对应关系，进一步，从所述服务器取得所述对应关系，所述控制指令基于所述取得的对应关系而生成。

由此，能够容易地生成控制指令。

另外，本公开不仅能够作为执行以上那样的特征性处理的设备控制方法而实现，也能够作为用于执行控制方法所包含的特征性步骤的控制器等而实现。另外，也能够作为使计算机执行这样的设备控制方法所包含的特征性的各步骤的计算机程序而实现。而且，当然能够使这样的计算机程序经由CD-ROM等计算机可读取非暂时性记录介质或互联网等通信网络流通。

此外，以下说明的实施方式均为表示本公开的一个具体例的实施方式。在以下的实施方式中所示的数值、形状、构成要素、步骤、步骤的顺序等均为一例，并不意图限定本公开。另外，关于以下实施方式的构成要素中的、表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素进行说明。另外，在全部实施方式中，也能够将各个内容进行组合。

(提供的服务的整体画面)

首先，说明本实施方式中的信息管理系统提供的服务的整体画面。

图1A是表示本实施方式中的信息管理系统提供的服务的整体画面的图。信息管理系统具备组1100、数据中心运营公司1110以及服务提供商(service provider)1120。

组1100例如是企业、团体或家庭等，其规模不限。组1100具备：包含第一设备和第二设备的多台设备1101和家庭网关1102。多台设备1101包含：能够与互联网连接的设备(例如智能手机、个人计算机(PC)或电视机等)和其自身不能与互联网连接的设备(例如照明、洗衣机或冰箱等)。多台设备1101也可以包含即使其自身不能与互联网连接，但能够经由家庭网关1102与互联网连接的设备。另外，用户1010使用组1100内的多台设备1101。

数据中心运营公司1110具备云服务器1111。云服务器1111是经由互联网与各种设备合作的假想化服务器。云服务器1111主要管理难以用通常的数据库管理工具等处理的巨大数据(大数据)等。数据中心运营公司1110进行数据的管理、云服务器1111的管理以及进行这些管理的数据中心的运营等。后面将说明数据中心运营公司1110进行的服务的详细情况。

在此，数据中心运营公司1110不限于仅进行数据的管理或云服务器1111的管理的公司。例如，如图1B所示，在开发或制造多台设备1101中的一台设备的设备制造商进行数据的管理或云服务器1111的管理等的情况下，设备制造商相当于数据中心运营公司1110。另外，数据中心运营公司1110不限于一个公司。例如，如图1C所示，在设备制造商和管理公司共同或分担而进行数据的管理或云服务器1111的管理的情况下，这两方或某一方相当于数据中心运营公司1110。

服务提供商1120具备服务器1121。在此所说的服务器1121不限其规模，例如也包含个人用PC内的存储器等。另外，也存在服务提供商1120不具备服务器1121的情况。

此外，在上述信息管理系统中，家庭网关1102不是必需的。例如，在云服务器1111进行全部数据管理等情况下，无需家庭网关1102。另外，像家庭内的全部设备与互联网连接的情况那样，也有不存在其自身不能与互联网连接的设备的情况。

接着，说明上述信息管理系统中的信息的流动。

首先，组1100的第一设备或第二设备分别将各日志信息发送给数据中心运营公司1110的云服务器1111。云服务器1111集积第一设备或第二设备的日志信息(图1A的箭头1131)。在此，日志信息是表示多台设备1101的例如运转状况或工作日期和时间等的信息。例如，日志信息包含电视机的收看历史记录、录像机的录像预约信息、洗衣机的运转日期和时间、洗过的衣服的量、冰箱的开闭日期和时间或冰箱的开闭次数等，但不限于这些信息，也可以包含能够从各种设备取得的各种信息。此外，日志信息也可以经由互联网从多台设备1101本身直接提供给云服务器1111。另外，日志信息也可以从多台设备1101暂时集积于家庭网关1102，并从家庭网关1102提供给云服务器1111。

接着，数据中心运营公司1110的云服务器1111以一定的单位，将已集积的日志信息提供给服务提供商1120。在此，一定的单位既可以是能够整理数据中心运营公司1110能够对已集积的信息进行整理并提供给服务提供商1120的单位，也可以是服务提供商1120要求的单位。另外，虽然以一定的单位提供，但也可以不以一定的单位提供，提供的信息量可以根据状况而变化。日志信息根据需要保存在服务提供商1120保有的服务器1121中(图1A的箭头1132)。

然后，服务提供商1120将日志信息整理成与提供给用户的服务相适合的信息，并提供给用户。被提供信息的用户既可以是使用多台设备1101的用户1010，也可以是外部的用户1020。作为向用户1010和1020的信息提供方法，例如，也可以从服务提供商1120直接向用户1010和1020提供信息(图1A的箭头1133和1134)。另外，作为向用户1010的信息提供方法，例如，也可以再次经由数据中心运营公司1110的云服务器1111而将信息提供给用户1010(图1A的箭头1135和1136)。另外，数据中心运营公司1110的云服务器1111也可以将日志信息整理成与提供给用户的服务相适合的信息，并提供给服务提供商1120。

此外，用户1010既可以与用户1020不同，也可以相同。

(实施方式1)

在本实施方式中，示出用户利用天花板麦克风等这样具有声音收集功能的设备，通过说话对设备的状态进行确认和操作的情况的一例。

在本实施方式中，在用户的视线朝向某设备的情况下，将该设备决定为操作对象。另外，在用户的视线朝向没有设备的空间(例如，朝向声音收集装置)的情况下，将不在用户的视觉识别范围内的设备决定为操作对象。

图2是表示本实施方式中的对话信息提供系统的构成的图。该对话信息提供系统包含组1100和数据中心运营公司1110内的语音对话服务器2100。组1100与语音对话服务器2100经由网络2020连接。

组1100包含第一空间2001和第二空间2002。例如，组1100为家庭(住宅)，第一空间2001和第二空间2002为起居室或卧室等房间。此外，空间也可以包含多个房间。例如，空间也可以是住宅的一楼或二楼等。另外，空间也可以是一个房间的某个空间(区域)。

另外，组1100包含第一设备2011、第二设备2012、声音收集装置2013以及家庭网关1102。第一设备2011、声音收集装置2013以及家庭网关1102配置在第一空间2001中，第二设备2012配置在第二空间2002中。另外，第一设备2011、第二设备2012、声音收集装置2013以及家庭网关1102经由网络2021连接。网络2021为能够进行设备间通信的装置即可，如有线LAN、无线LAN、Bluetooth(注册商标)、或特定小功率无线等。

在此，第一设备2011和第二设备2012为空调或照明等家电设备，是基于与用户的对话来操作或控制其工作的设备。

首先，说明本实施方式涉及的对话信息提供系统的工作的概略。图3是本实施方式涉及的对话信息提供系统中的、作为操作对象的对象设备的确定处理的流程图。

此外，以下的处理由对话信息提供系统所包含的设备确定装置进行。在此，设备确定装置例如是家庭网关1102。此外，如后所述，以下处理既可以由组1100所包含的一台或多台设备进行，也可以由组1100所包含的一台或多台设备和经由网络与该设备连接的外部设备(例如语音对话服务器2100)进行分散处理。

首先，设备确定装置基于用户的说话内容，判定是否能够确定对象设备(S101)。

在基于用户的说话内容不能确定对象设备的情况下(在S101中为否)，设备确定装置判定用户的视线是否朝向某一台设备(S103)。具体而言，设备确定装置取得与用户的视线朝向的方向相关的视线信息。接着，设备确定装置基于该视线信息，判断用户的视线是否朝向存在于该用户能够视觉识别的空间中的多台设备所包含的第二设备。另外，设备确定装置基于该视线信息判断用户的视线是否朝向第一区域，所述第一区域是该用户能够视觉识别的空间中的一部分区域，且与存在多台设备的位置不同。在此，能够视觉识别的空间是指用户在当前的位置能够视觉识别的空间。

在用户的视线没有朝向任一台设备的情况下，也就是说，在判断为用户的视线朝向上述第一区域的情况下(在S103中为否)，设备确定装置将多台设备中的、存在于该用户不能视觉识别的空间中的第一设备确定为对象设备(S105)。在此，不能视觉识别的空间是指用户在当前的位置不能视觉识别的空间。

另一方面，在用户的视线朝向某一台设备的情况下，也就是说，在判断为用户的视线朝向上述第二设备的情况下(在S103中为是)，将该第二设备确定为对象设备(S104)。

另外，在基于用户的说话内容能够确定对象设备的情况下(在S101中为是)，设备确定装置将基于用户的说话内容确定的设备决定为对象设备(S102)。也就是说，即使在用户的视线朝向上述第一区域或第二设备的情况下，在用户的说话内容中包含确定多台设备所包含的第三设备的信息的情况下，设备确定装置将该第三设备确定为对象设备。

接着，设备确定装置向用户确认已确定的对象设备是否正确(S106)。具体而言，设备确定装置向用户通知已确定的对象设备，并得到其回答。此外，除了对象设备以外，设备确定装置还可以向用户确认对于对象设备的控制内容。

在已确定的对象设备被用户承认的情况下(在S107中为是)，设备确定装置基于用户的操作对已确定的对象设备进行操作(S108)。具体而言，设备确定装置基于用户的说话内容生成用于控制对象设备的命令，并将该命令发送给对象设备。

另一方面，在已确定的对象设备没有被用户承认的情况下(在S107中为否)，设备确定装置对用户进行用于确认对象设备的反问对话(S109)，对通过该对话得到的用户的说话内容再次进行步骤S101以后的处理。

通过以上，在用户的视线朝向设备存在的位置以外的特定区域的情况下，确定为存在于对用户来说不能视觉识别的空间中的设备是操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

例如，用户在起居室中，在起居室和卧室中设置有空调。在该情况下，在用户想控制起居室的空调的情况下，用户通过将视线朝向起居室的空调，说“打开空调”，能够控制起居室的空调。

进一步，在用户想控制卧室的空调的情况下，用户通过在没有将视线朝向配置在起居室中的任一台设备的状态下进行上述说话，能够控制卧室的空调。

这样，通过本实施方式涉及的方法，即使在对象设备存在于用户的视觉识别范围外的情况下，也能够基于用户的视线确定对象设备。由此，在这样的情况下，由于能够缩短用户的说话内容，所以能够提高用户的便利性，并且能够抑制由于噪声等的影响而不能识别或错误地解释说话内容。

此外，在图3中，设备确定装置在步骤S106、S107以及S109中进行对象设备的确认和反问，但也可以不进行这些处理。或者，也可以仅在步骤S102、S104以及S105的某一个之后进行对象设备的确认。例如，在基于说话内容确定了对象设备的情况下(S102之后)，不进行对象设备的确认也可以。

另外，步骤S101和S103的判定处理的顺序为一例，既可以以相反的顺序进行这些处理，也可以并行地进行至少一部分。

另外，在本实施方式中，以主要基于用户的说话操作设备的情况为例进行说明，但在利用其他方法操作多台设备的情况下，也能够使用同样的方法。例如，在利用手势操作设备的情况下也能够使用同样的方法。

以下，详细说明各设备的构成和工作的一例。

如图2所示，第一设备2011具备视线检测单元2111，第二设备2012具备视线检测单元2121。视线检测单元2111、2121以及2131(后述)检测用户的视线方向。具体而言，视线检测单元2111、2121以及2131具备红外线相机或可视相机，解析用这些相机得到的影像，并利用脸部识别等检测用户的视线是否朝向本设备。此外，视线检测单元2111、2121以及2131既可以检测用户面部的朝向作为视线的朝向，也可以检测用户的眼球的朝向作为视线的朝向。

此外，在此，叙述了各设备检测用户的视线是否朝向本设备的例子，但也可以通过对配置在组1100内的一台以上相机拍摄到的影像进行解析来检测用户的视线方向，也可以利用其他方法检测用户的视线方向。

另外，在以下说明中，叙述了将该视线检测作为触发(trigger)判定用户是否开始说话的例子，但作为用户的说话开始的触发，除了视线检测以外或也可以代替视线检测而使用口唇检测、手势检测或“打开麦克风”这样的固定言词的说话检测等。口唇检测是根据相机拍摄到的图像检测用户的嘴的动作，即检测口唇动作，并基于口唇动作判定用户是否开始说话。手势检测基于用户进行了拍手或举手等预先决定的动作时由相机拍摄到的图像或语音数据，判定用户是否开始说话。

声音收集装置2013具备视线检测单元2131和声音收集单元2132。声音收集单元2132取得周围的语音，并将该语音所包含的用户的说话内容保持一定期间。具体而言，声音收集单元2132基于由相机等得到的用户的位置信息确定说话声源(用户)的方向，使用说话声源的方向从得到的语音中减少周围噪声，由此提取用户的说话内容。

此外，声音收集装置2013只要是具有声音收集的功能、且具有能够传送进行声音收集得到的数据的功能的设备即可。例如，声音收集装置2013是设置于天花板的天花板麦克风、用户穿戴的可穿戴麦克风或具备声音收集的功能的填充玩偶等。

家庭网关1102具备设备确定单元2141和语音对话单元2143。另外，家庭网关1102保持有设备管理信息2142。设备确定单元2141在用第一设备2011、第二设备2012以及声音收集装置2013的某一个的视线检测单元2111、2121以及2131检测出用户的视线时，利用设备管理信息2142确定作为操作对象的对象设备。

设备管理信息2142表示各设备的设置场所和视线检测功能的有无等(详细情况将在后面叙述)。语音对话单元2143进行语音对话处理。具体而言，语音对话单元2143通过向声音收集装置2013发出声音收集开始指示命令而取得包含用户的说话内容的语音数据，并将取得的语音数据向语音对话服务器2100传送。语音对话单元2143从语音对话服务器2100取得基于语音数据所包含的说话内容的控制命令，并将控制命令发送给对象设备。

此外，在本实施方式中，家庭网关1102和声音收集装置2013各自分别存在，但也可以在家庭网关1102内包含声音收集装置2013的功能。

语音对话服务器2100是云服务器1111之一，并保持有对话词典2101。该语音对话服务器2100通过语音数据解析，根据语音数据来确定说话内容，并利用对话词典2101，根据说话内容来确定控制命令。

在对话词典2101中，记载了用于根据说话内容(文本)确定控制命令的规则(详细情况将在后面叙述)。此外，在本实施方式中，语音对话服务器2100和家庭网关1102各自分别存在，但也可以在家庭网关1102内包含语音对话服务器2100的功能。另外，也可以在家庭网关1102内包含语音对话服务器2100的功能的一部分。

图4A是表示本实施方式中的设备管理信息2142的一例的图。

设备管理信息2142包括：唯一地确定设备的识别符信息、表示设备是否为家庭网关的属性信息、表示设备保有的功能的种类的类别信息、表示设备是否保有声音收集能力的声音收集信息、表示设置有设备的场所的设置场所信息、表示设备是否为检测出用户的说话开始触发(视线)的设备的说话信息。

识别符信息例如在WiFi或Bluetooth等的配对(pairing)时根据设备的MAC地址和随机数生成。或者，识别符信息可利用ECHONET Lite的实例列表通知所包含的识别符。

在支持ECHONET Lite等家电设备控制协议的情况下，属性信息和类别信息利用该家电设备控制的种类信息而设定。

声音收集信息基于在WiFi或Bluetooth等的配对时通知的声音收集功能有无而设定。设置场所信息由用户利用家庭网关1102的设定菜单等设定。设定说话信息在从第一设备2011、第二设备2012以及声音收集装置2013的某一个的视线检测单元2111、2121以及2131检测出用户的说话开始触发(视线)时被设定。

图4B是表示本实施方式中的对话词典2101的一例的图。

对话词典2101包含：表示语音识别后得到的字符串信息(说话内容)的说话识别文本信息、用于根据说话识别文本确定控制命令的行动(action，作用)信息。行动信息包含：表示根据说话识别文本确定的控制命令的控制命令信息、表示对象设备的类别(属性)的设备信息以及表示设置有对象设备的场所的场所信息。

例如，在用户说了“打开起居室的照明”的情况下，通过“起居室”、“照明”、“打开”的关键词匹配，填充全部框架(控制命令(power_on)、设备(照明)、场所(起居室))作为行动信息。由此，进行将设置在起居室中的照明的电源设为接通的处理。

另外，在用户说了“打开空调”的情况下，通过“空调”、“打开”的关键词匹配，填充场所以外的框架(控制命令(power_on)、设备(空调))作为行动信息。在该情况下，在用户家中只设置有一台空调的情况下，进行将该空调的电源设为接通的处理，但在设置有两台以上的情况下，通过反问道“接通哪里的空调的电源？”，并由用户指定场所，最终确定将要进行接通电源处理的对象空调。

另外，在用户说了“打开制冷”的情况下，虽然没有说确定设备本身的内容，但由于说了设备固有的操作指示内容，所以使用对话词典2101补充设备信息。另外，在用户说了“接通电源”或“加热”的情况下，作为行动信息，只填充控制命令(power_on、heating_on)。因此，需要由用户指示设备或场所的信息。

另外，如用户说了“一并关闭”的情况那样，有时即使只填充了行动信息中的控制命令(all_poff)，也能够进行操作。

图5是表示本实施方式中的对话信息提供系统所包含的各设备的构成例的框图。

除了上述视线检测单元2111以外，第一设备2011还具备设备通信单元2112和设备命令执行单元2113。除了上述视线检测单元2121以外，第二设备2012还具备设备通信单元2122和设备命令执行单元2123。

设备通信单元2112是ECHONET Lite等家电设备控制的协议栈(protocol stack)。具体而言，设备通信单元2112对家庭网关1102进行：启动第一设备2011时的通知等实例列表通知、接通或断开电源的变化的通知等设备状态的通知、来自家庭网关1102的电源接通设定等控制命令的接收和解释、以及控制命令的执行结果的响应。

另外，向家庭网关1102进行视线检测结果的通知既可以利用该通知功能进行，也可以利用独自的协议进行。

设备命令执行单元2113将从设备通信单元2112接受到的控制命令转换为设备的硬件命令并执行。

此外，视线检测单元2121、设备通信单元2122以及设备命令执行单元2123的功能与视线检测单元2111、设备通信单元2112以及设备命令执行单元2113的功能相同。

除了上述视线检测单元2131和声音收集单元2132以外，声音收集装置2013还具备信息提示单元2133和设备通信单元2134。

信息提示单元2133对由视线检测单元2131检测出的用户提示各种信息。例如，信息提示单元2133对用户输出“请说话”这样的语音或使LED灯发光而催促用户的说话。

设备通信单元2134的功能与上述设备通信单元2112和2122相同。

除了上述设备确定单元2141和语音对话单元2143以外，家庭网关1102还具备设备管理单元2144、设备通信单元2145以及云通信单元2146。

设备通信单元2145的功能与上述的设备通信单元2112、2122以及2134的功能相同。云通信单元2146在利用对话功能时，管理用户是否同意利用许可，在用户同意了允许利用的情况下，建立与语音对话服务器2100的连接，并与语音对话服务器2100收发信息。

图6是表示本实施方式中的用户对对象设备说话的情况下的对话信息提供系统中的工作例的图。例如，第一设备2011是设置在第一空间2001(一楼起居室)中的空调，第二设备2012是设置在第二空间2002(二楼卧室)中的空调，声音收集装置2013是设置在第一空间2001(一楼起居室)的天花板上的麦克风。用户在第一空间2001中将视线朝向第一设备2011并说“打开空调”。

由此，第一设备2011检测出用户的视线朝向了本设备这一情况(S301)，并向家庭网关1102通知检测结果(S302)。家庭网关1102确定对象设备(S303)。在该情况下，由于用户的视线朝向了第一设备2011，所以家庭网关1102将第一设备2011决定为对象设备。

接着，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行语音对话处理(S304)。语音对话处理是根据对语音数据进行解析后得到的字符串信息和对话词典2101确定用户试图的家电操作，并向用户通知该结果的处理，所述语音数据是对用户的说话进行声音收集而成的数据。在图4B的对话词典2101的例子中，虽然不能确定相对于说话识别文本“打开空调”的“场所”的行动，但基于在步骤S303中确定的对象设备，能够将“场所”补充为“第一空间(起居室)”。

接着，家庭网关1102基于语音对话处理的结果，向第一设备2011发送控制命令(S305)。第一设备2011执行接收到的控制命令(S306)。

通过这样的流程，即使在用户没有进行确定设备的内容的说话的情况下，也能够确定设备并进行操作。

此外，在用户在说话内容中加入确定设备的要素的情况下，使由用户的说话内容确定的设备比由步骤S303确定的设备优先，并将由用户的说话内容确定的设备决定为对象设备。例如，在看着起居室的空调(第一设备2011)说了“打开卧室的空调”的情况下，接通卧室的空调的电源，而不是起居室的空调的电源。

图7是表示本实施方式中的用户对声音收集装置2013说话的情况下的对话信息提供系统中的工作例的图。用户将视线朝向声音收集装置2013并说“打开空调”。

声音收集装置2013检测用户的视线朝向本设备这一情况(S311)，并向家庭网关1102通知检测结果(S312)。家庭网关1102确定对象设备(S313)。在该情况下，由于用户的视线朝向了声音收集装置2013，所以家庭网关1102将第一设备2011和第二设备2012中存在于用户的视觉识别范围外的第二设备2012决定为对象设备。此外，在此，用户存在于第一空间2001(起居室)，选择配置于与第一空间2001不同的第二空间2002(卧室)的第二设备2012作为对象设备。

接着，与步骤S304同样地，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行语音对话处理(S314)。然后，家庭网关1102基于语音对话处理的结果，向第二设备2012发送控制命令(S315)。第二设备2012执行接收到的控制命令(S316)。

通过这样的流程，即使在用户没有进行确定设备的内容的说话，且用户对尚未与设备关联的声音收集装置2013说话的情况下，也能够确定设备并进行操作。

接着，说明各装置的工作。图8是表示第一设备2011的工作流程的流程图。此外，第二设备2012的工作也同样如此。

首先，第一设备2011通过检测用户的视线是否朝向了本设备来检测用户的说话开始(S201)。第一设备2011在检测出用户的视线的情况下(在S201中为是)，向家庭网关1102发送表示检测出用户的视线的视线检测通知(S202)。

另外，第一设备2011在从家庭网关1102接收到控制命令的情况下(在S203中为是)，执行接收到的控制命令(S204)。

图9是表示声音收集装置2013的工作流程的流程图。首先，声音收集装置2013通过检测用户的视线是否朝向本设备，检测用户的说话开始(S211)。声音收集装置2013在检测出用户的视线的情况下(在S211中为是)，向家庭网关1102发送表示检测出用户的视线的视线检测通知(S212)。

图10是表示家庭网关1102的工作流程的流程图。家庭网关1102在从第一设备2011、第二设备2012或声音收集装置2013接收到视线检测通知的情况下(在S221中为是)，基于由哪个装置检测出视线，确定对象设备(S222)。接着，家庭网关1102进行语音对话处理(S223)。接着，家庭网关1102向由步骤S222确定的对象设备发送由语音对话处理确定的控制命令(S224)。

以下，说明家庭网关1102中的确定对象设备的处理(S222)的详细情况。图11是表示对象设备确定处理(S222)的详细情况的流程图。

家庭网关1102参照设备管理信息2142，判定作为视线检测通知的发送源的装置是否为家电设备(S231)。在此，家电设备是作为利用语音对话进行操作的对象的设备。

在作为视线检测通知的发送源的装置为家电设备的情况下(在S231中为是)，家庭网关1102将作为视线检测通知的发送源的装置决定为对象设备(S232)。另一方面，在作为视线检测通知的发送源的装置不是家电设备的情况下(在S231中为否)，家庭网关1102参照设备管理信息2142，判定在用户的视觉识别范围外是否存在设备(S233)。

具体而言，检测用户存在于哪个空间。例如，家庭网关1102判断为用户存在于与作为视线检测通知的发送源的装置相同的空间(例如房间)内。此外，家庭网关1102也可以判定为用户存在于与取得了用户语音的声音收集装置2013相同的空间内。另外，家庭网关1102也可以判断为用户存在于作为视线检测通知的发送源的装置的附近。或者，家庭网关1102也可以根据由设置于组1100内的相机得到的信息判定用户的位置。

家庭网关1102参照设备管理信息2142，将存在于与用户存在的空间(例如房间)不同的空间内的设备判断为用户的视觉识别范围外的设备。此外，在此，基于用户和设备是否存在于相同的空间(例如房间)，判定各设备是在用户的视觉识别范围内还是在视觉识别范围外，但家庭网关1102也可以更详细地判定各设备和用户的位置，并且使用用户存在的空间的详细的布局信息等，根据用户的位置确定实际上能够视觉识别的设备，将确定出的设备以外的设备判定为用户的视觉识别范围外的设备。

在设备存在于用户的视觉识别范围外的情况下(在S233中为是)，家庭网关1102将用户的视觉识别范围外的设备决定为对象设备(S234)。

另一方面，在用户的视觉识别范围外不存在设备的情况下(在S233中为否)，家庭网关1102不决定对象设备而将全部设备决定为对象设备的候选。

此外，也可以预先将由设备管理信息2142管理的全部设备设定为默认对象设备的候选，在步骤S232或S234中选择了设备作为对象设备的情况下，也可以进行更新以使得仅该设备成为对象设备。

另外，在此，叙述了在步骤S232和S234中仅选择一台设备作为对象设备的例子，但在使用了用于判定对象设备的视线以外的判定基准的情况下，也可以将选择出的设备的优先级设定为高。由此，通过与其他判定基准的组合，能够选择可能性最高的设备。另外，由此，例如，在用户的视觉识别范围外存在多台设备的情况下，将这些多台设备的优先级设定为高，并能够基于其他判定基准，选择一台设备。此外，在以下叙述的其他实施方式中也能应用同样的变形例。

以下，说明图6和图7所示的语音对话处理(S304和S314)的详细情况。图12是表示语音对话处理(S304和S314)的工作例的图。

首先，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行将说话内容转换成文本的语音识别处理(S321)。接着，家庭网关1102和语音对话服务器2100进行如下意图理解处理：基于对话词典2101，根据作为语音识别处理的结果得到的识别文本输出对设备的控制命令(S322)。在通过该意图理解处理不能够确定对象设备或控制命令的情况下(S323)，家庭网关1102向声音收集装置2013指示以向用户进行反问(S324)。当声音收集装置2013接收到反问的指示时，对用户进行用于确定对象设备或控制命令的反问(S325)。

对通过该反问得到的说话内容再次进行语音识别处理(S326)和意图理解处理(S327)。在通过该意图理解处理能够确定对象设备和控制命令的情况下(S328)，家庭网关1102向声音收集装置2013发送使声音收集装置2013提示语音对话的结果的指示(S329)。当声音收集装置2013接收到结果显示的指示时，对用户提示语音对话结果的信息(S330)。

图13是家庭网关1102的语音对话处理(图10的S223)的流程图。首先，家庭网关1102进行语音识别处理(S241)和意图理解处理(S242)。接着，家庭网关1102判断是否能够确定对象设备(S243)。在能够确定设备的情况下(在S243中为是)，家庭网关1102判断是否能够确定控制命令(S244)。在能够确定控制命令的情况下(在S244中为是)，家庭网关1102向声音收集装置2013发送使声音收集装置2013显示语音对话的结果的指示(S245)。

另一方面，在判断为不能够确定对象设备的情况下(在S243中为否)或判断为不能够确定控制命令的情况下(在S244中为否)，家庭网关1102向声音收集装置2013指示以向用户进行反问(S246)。

在此，在语音识别处理中，利用通过对象设备确定处理确定出的对象设备的信息，由此有可能能够减少误识别的风险。例如，在用户说了“加热”(あたためて)的情况下，在提取语音识别结果时，可考虑“あたためて”、“暖めて”、“温めて”、“アタタメテ”等多个候选。假设确定空调作为对象设备的情况下，做为由意图理解实现的设备操作内容，将“暖めて”作为最有力候选更容易得到正确的结果。同样地，在确定微波炉作为对象设备的情况下，设为“温めて”较好。另外，在未确定对象设备的情况下，选定“あたためて”较好。

另外，即使进行反问，也不一定通过理想次数的说话就能进行用户希望的设备操作。例如，在用户说了“接通电源”的情况下，在图4B所示的对话词典2101中，如果通过反问请用户说出设备和场所这两个信息，则处理应该完毕。只是，实际上并不能保证用清楚且很大的声音，仅仅说出“空调”作为设备，说出“卧室”作为场所。也会存在混入杂音，用户说了多余的语言，或者用户用很小且不清楚的声音说话的情况。这样，由于很可能识别失败，所以通过对象设备确定处理以尽可能少的说话进行设备操作，由此用户的便利性会提高。在误识别的发生太过分的情况下，可以通过对用户提示容易识别的说话例子而实现误识别率的降低，或者也可以通过使可爱的角色等道歉而缓和用户的焦躁。

图14是表示语音识别处理(图12的S321)的工作例的图。首先，家庭网关1102指示声音收集装置2013保持语音(S351)，指示语音对话服务器2100开始语音识别(S352)。

接受到指示的声音收集装置2013开始保持用户说出的语音数据(S353)。之后，声音收集装置2013向用户提示用于诱导说话的信息(S355)。另一方面，接受到指示的语音对话服务器2100开始对语音数据的语音识别(S354)。

接着，家庭网关1102取得声音收集装置2013保持着的语音数据(S356)，并向语音对话服务器2100传送语音数据(S357)。语音对话服务器2100对传送来的语音数据进行语音识别处理(S358)。反复进行该一系列处理直到用户的说话结束。

在用户的说话结束的情况下，家庭网关1102通知声音收集装置2013结束语音数据的保持(S359)，并通知语音对话服务器2100结束语音识别(S360)。

接受到通知的声音收集装置2013结束对用户说出的语音数据的保持(S361)。接受到通知的语音对话服务器2100结束语音识别处理(S362)，向家庭网关1102通知语音识别结果(S363)。

图15是由家庭网关1102进行的语音识别处理(图13的S241)的流程图。

首先，家庭网关1102对声音收集装置2013指示保持语音，对语音对话服务器2100指示开始语音识别(S251)。接着，家庭网关1102取得声音收集装置2013保持着的语音数据(S252)。然后，家庭网关1102基于取得的声音数据判断用户的说话是否结束(S253)。

在判断为用户的说话还在继续的情况下(在S253中为否)，家庭网关1102向语音对话服务器2100传送语音数据(S254)，并返回步骤S252。

另一方面，在判断为用户的说话结束的情况下(在S253中为是)，家庭网关1102通知声音收集装置2013结束语音数据的保持，并通知语音对话服务器2100结束语音识别(S255)。

接着，家庭网关1102接收从语音对话服务器2100发送来的语音识别结果(S256)。

图16是表示意图理解处理(图12的S322和S327)的工作例的图。首先，家庭网关1102对语音对话服务器2100指示开始意图理解(S371)。此时，家庭网关1102例如将说话识别文本等作为输入信息发送给语音对话服务器2100。

当接受意图理解开始的指示时，语音对话服务器2100对照说话识别文本和对话词典2101，决定对设备指示的行动(S372)。然后，语音对话服务器2100对家庭网关1102发送表示所决定的行动的信息(S373)。

此外，在上述说明中，作为检测用户的视线朝向不存在多台设备的区域这一情况的方法，使用了声音收集装置2013具备的视线检测单元2131的检测结果，但也可以使用除此以外的方法。例如，视线检测单元也可以设置在配置有多台设备(第一设备2011和第二设备2012)的区域以外的任意区域。

例如，家庭网关1102也可以具备视线检测单元。或者，也可以在成为用户对话的对象的物体(人偶等)上设置视线检测单元。进一步，成为用户的对话对象的物体也可以是假想性物体(全息图等)。该情况下，例如，也可以基于由设置在组1100内的相机拍摄到的图像，检测用户的视线方向。另外，在多台设备具备的视线检测单元都没有检测出用户的视线的情况下，也可以判定为用户的视线朝向不存在多台设备的区域。

此外，作为检测用户的视线朝向不存在多台设备的区域这一情况的方法，既可以使用上述的某一种方法，也可以使用两种以上方法。

如上所述，本实施方式涉及的设备确定方法通过从多台设备中确定成为用户的操作对象的对象设备的设备确定装置(例如家庭网关1102等)进行。此外，如上所述，设备确定装置不限定于家庭网关1102，可以是系统所包含的任意设备。例如，如后所述，设备确定装置也可以包含家庭网关1102、声音收集装置2013以及语音对话服务器2100的功能中的至少一部分。

首先，设备确定装置取得与用户的视线朝向的方向相关的视线信息。设备确定装置基于视线信息判断用户的视线是否朝向第一区域，所述第一区域是该用户能够视觉识别的空间中的一部分区域，且与存在多台设备的位置不同(S103，S231)。

例如，第一区域为设备确定装置存在的区域。具体而言，设备确定装置具备检测用户的视线是否朝向该设备确定装置的视线检测单元，并取得该视线检测单元已检测出用户的视线朝向设备确定装置这一情况之意作为视线信息。在视线检测单元检测出用户的视线朝向设备确定装置的情况下，设备确定装置判断为用户的视线朝向第一区域。

或者，设备确定装置基于由设置于与多台设备不同的位置的声音收集装置2013收集到的用户的说话来操作对象设备，第一区域是声音收集装置2013存在的区域。具体而言，声音收集装置2013具备视线检测单元2131，所述视线检测单元2131检测用户的视线是否朝向该声音收集装置2013。设备确定装置取得视线检测单元2131已检测出用户的视线朝向声音收集装置2013这一情况之意作为视线信息。在视线检测单元2131已检测出用户的视线朝向声音收集装置2013的情况下，设备确定装置判断为用户的视线朝向第一区域。

或者，设备确定装置基于用户的说话操作对象设备，第一区域是作为用户的说话(对话)对象的物体(人偶等)存在的区域。具体而言，物体具备视线检测单元，所述视线检测单元检测用户的视线是否朝向该物体。设备确定装置取得视线检测单元已检测出用户的视线朝向物体这一情况之意作为视线信息。在视线检测单元已检测出用户的视线朝向物体的情况下，设备确定装置判断为用户的视线朝向第一区域。

或者，设备确定装置基于用户的说话操作所述对象设备，第一区域是作为用户的说话(对话)对象的假想物体(全息图等)存在的区域。具体而言，设备确定装置取得由拍摄装置拍摄到的包含用户的图像作为视线信息。设备确定装置通过解析该图像判断用户的视线是否朝向假想物体，在判断为用户的视线朝向假想物体的情况下，判断为用户的视线朝向第一区域。

在判断为用户的视线朝向所述第一区域的情况下(在S103中为否，在S231中为否)，设备确定装置将多台设备中存在于该用户不能视觉识别的空间内的第一设备确定为对象设备(S105、S234)。

接着，设备确定装置基于用户的操作对已确定的对象设备进行操作(S108)。具体而言，设备确定装置基于用户的说话内容生成用于控制对象设备的命令，并将该命令发送给对象设备。

另外，设备确定装置对用户通知已确定的对象设备(S106)，在已确定的对象设备被用户承认的情况下(在S107中为是)，基于用户的操作对已确定的对象设备进行操作(S108)。

由此，本实施方式涉及的设备确定方法在用户的视线朝向设备存在的位置以外的特定区域的情况下，能够将存在于对用户来说不能视觉识别的空间内的设备确定为操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

另外，设备确定装置判断用户的视线是否朝向存在于该用户能够视觉识别的空间中的、多台设备所包含的第二设备(S103、S231)，在判断为用户的视线朝向第二设备的情况下(在S103中为是，在S231中为是)，将该第二设备确定为对象设备(S104、S232)。

由此，本实施方式涉及的设备确定方法在用户将视线朝向某设备的情况下，能够将该设备确定为操作对象。由此，由于能够减少对用户的反问的产生，所以能够提高用户的便利性。

另外，即使在用户的视线朝向第一区域的情况下，在用户的说话的内容中包含确定多台设备所包含的第三设备的信息的情况下，设备确定装置将第三设备确定为对象设备。另外，即使在判断为用户的视线朝向第一区域的情况下，在用户的说话内容中包含确定预定空间的信息的情况下，将多台设备中存在于预定空间的第三设备确定为对象设备(在S101中为是，S102)。

由此，即使在基于用户的视线信息确定了成为操作对象的设备的情况下，也能够使根据用户的说话内容确定的设备优先作为操作对象。因此，能够抑制用户意想不到的设备被错误地选择为操作对象。

(实施方式2)

在本实施方式中，说明上述实施方式1涉及的对话信息提供系统的变形例。此外，在以下的实施方式中，省略与之前的实施方式重复的说明，主要说明不同之处。

本实施方式涉及的对话信息提供系统相对于实施方式1涉及的对话信息提供系统的不同之处在于对象设备确定处理(图10的S222)。具体而言，在本实施方式中，在用户的视线没有朝向设备的情况下，选择存在于用户附近的设备作为对象设备。

图17是本实施方式涉及的对象设备确定处理(S222A)的流程图。此外，相对于图10所示的处理，图17所示的处理包含步骤S233A和S234来取代包含步骤S233和S234。

在作为视线检测通知的发送源的装置不是家电设备的情况下(在S231中为否)，家庭网关1102参照设备管理信息2142，判定在用户附近是否存在设备(S233A)。

具体而言，家庭网关1102参照设备管理信息2142，将存在于与用户存在的空间(例如房间)相同的空间内的设备判断为用户附近的设备。

在用户附近存在设备的情况下(在S233A中为是)，家庭网关1102将用户附近的设备决定为对象设备(S234A)。

另一方面，在用户附近不存在设备的情况下(在S233A中为否)，家庭网关1102不决定对象设备而将全部设备决定为对象设备的候选。

此外，也可以预先将由设备管理信息2142管理的全部设备设定为默认的对象设备的候选，在步骤S234A中选择了设备作为对象设备的情况下，进行更新以使得仅该设备成为对象设备。

图18是表示本实施方式中的用户对声音收集装置2013说话的情况下的对话信息提供系统中的工作例的图。此外，用户对对象设备说话的情况下的对话信息提供系统中的工作例与图6相同。

例如，用户将视线朝向声音收集装置2013并说“打开空调”。

声音收集装置2013检测出用户的视线朝向本设备这一情况(S311)，并向家庭网关1102通知检测结果(S312)。家庭网关1102确定对象设备(S313A)。在该情况下，由于用户的视线朝向声音收集装置2013，所以家庭网关1102将第一设备2011和第二设备2012中存在于用户附近的第一设备2011决定为对象设备。此外，在此，用户存在于第一空间2001(起居室)，并选择存在于与用户相同的第一空间2001内的第一设备2011作为对象设备。

接着，与步骤S304同样地，声音收集装置2013、家庭网关1102以及语音对话服务器2100进行语音对话处理(S314)。然后，家庭网关1102基于语音对话处理的结果，向第一设备2011发送控制命令(S315A)。第一设备2011执行接收到的控制命令(S316A)。

通过这样的流程，即使是在用户没有进行确定设备的内容的说话，且用户对尚未与设备关联的声音收集装置2013说话的情况下，也能够确定设备并进行操作。

(实施方式3)

在本实施方式中，说明上述实施方式1涉及的对话信息提供系统的变形例。在本实施方式中，第一设备2011和第二设备2012进一步具有检测与用户的距离的功能。对话信息提供系统基于检测出的设备与用户的距离，确定用户的视觉识别范围外的设备。

图19是表示本实施方式中的第一设备2011A和第二设备2012A的一例的框图。第一设备2011A和第二设备2012A除了实施方式1涉及的第一设备2011和第二设备2012的构成要素以外，还具备检测用户与本设备的距离的距离检测单元2114和2124。在此，距离检测单元2114和2124既可以检测用户是否存在于距本设备预定距离以内，也可以检测用户与本设备的距离(值)。

图20A～图20C是表示本实施方式中的设备管理信息2142的一例的图。在图20A所示的设备管理信息2142A的例子中，家庭网关1102、作为第一设备2011的空调、作为声音收集装置2013的天花板麦克风设置在起居室内，作为第二设备2012的空调设置在卧室内。另外，作为由距离检测单元2114和2124取得的用户与设备的距离信息，示出了由第一设备2011检测出用户这一情况。

在图20B所示的设备管理信息2142B的例子中，虽然存在家庭网关1102、作为第一设备2011的空调、作为第二设备2012的空调以及作为声音收集装置2013的天花板麦克风，但未设定各装置的设置场所。另外，作为由距离检测单元2114和2124取得的用户与设备的距离信息，示出了由第一设备2011检测出用户这一情况。

在图20C所示的设备管理信息2142C的例子中，家庭网关1102和作为第二设备2012的空调设置在起居室内，作为第一设备2011的微波炉和作为声音收集装置2013的声音收集麦克风设置在厨房内。另外，作为由距离检测单元2114和2124取得的用户与设备的距离信息，示出了由第一设备2011检测出用户这一情况。

此外，在此，作为距离信息示出了由哪台设备检测出用户，但也可以示出数值信息以知道距离的远近。另外，作为该数值信息，也可以使用表示与设备的通信时间的信息。由此，在存在检测出用户的多台设备的情况下，能够判定哪台设备与用户最接近。

图21是表示图11所示的处理中的将用户的视觉识别范围外的设备设定为对象设备的处理(S233和S234)的详细情况的流程图。

首先，家庭网关1102判定在设备管理信息2142中是否设定有设置场所信息(S401)。在设定有设置场所信息的情况下(在S401中为是)，家庭网关1102选择设置在与用户不同的空间(例如不同的房间)中的设备(S402)。

另一方面，在未设定设置场所信息的情况下(在S401中为否)，家庭网关1102基于距离信息，选择离用户预定距离以上的设备(S403)。例如，家庭网关1102选择检测出用户的设备以外的设备。

另外，在步骤S402和S403中选择了多台设备的情况下(在S404中为是)，家庭网关1102选择距用户的距离最远的设备(S405)。

以下，用图20A和图20B的例子说明该处理的具体例。

在图20A所示的例子中，第一设备2011为设置在起居室中的空调，第二设备2012为设置在卧室中的空调，声音收集装置2013为设置在天花板上的麦克风。用户在起居室中未将视线朝向设备(例如将视线朝向声音收集装置2013)而说了“加热”的情况下，设置在与用户不同的房间内的卧室的空调被选择为对象设备。此外，在不同的房间中设置有多台空调的情况下，既可以选择这些空调的全部，也可以仅选择距用户最远的设备。

另外，在图20B所示的例子中，按距用户的距离从近到远的顺序存在第一设备2011、第二设备2012。第一设备2011和第二设备2012为空调，声音收集装置2013为设置在天花板上的麦克风。用户在起居室中未将视线朝向设备而说了“打开制冷”的情况下，开始距用户距离最远的卧室的空调的制冷运转。

(实施方式4)

在本实施方式中，说明对上述实施方式2涉及的对话信息提供系统应用了与实施方式3同样的变形例的情况。此外，第一设备2011A和第二设备2012A、设备管理信息2142的构成与实施方式3相同。

图22是表示图17所示的处理中将用户附近的设备设定为对象设备的处理(S233A和S234A)的详细情况的流程图。

首先，家庭网关1102判定在设备管理信息2142中是否设定有设置场所信息(S401)。在设定有设置场所信息的情况下(在S401中为是)，家庭网关1102选择设置在与用户相同的空间(例如相同的房间)中的设备(S402A)。

另一方面，在未设定设置场所信息的情况下(在S401中为否)，家庭网关1102基于距离信息，选择存在于距用户预定距离以内的设备(S403A)。例如，家庭网关1102选择检测出用户的设备。

另外，在步骤S402A和S403A中选择了多台设备的情况下(在S404中为是)，家庭网关1102选择距用户的距离最近的设备(S405A)。

以下，用图20A～图20C的例子说明该处理的具体例。

在图20A所示的例子中，第一设备2011为设置在起居室中的空调，第二设备2012为设置在卧室中的空调，声音收集装置2013为设置在天花板上的麦克风。在用户在起居室中未将视线朝向设备而说了“加热”的情况下，设置在与用户相同的房间内的起居室的空调被选择为对象设备。此外，在起居室中设置有多台空调的情况下，既可以选择这些空调的全部，也可以仅选择距用户最近的设备。

另外，在图20B所示的例子中，按距用户的距离从近到远的顺序存在第一设备2011、第二设备2012。第一设备2011和第二设备2012为空调，声音收集装置2013为设置在天花板上的麦克风。在用户在起居室中未将视线朝向设备而说了“打开制冷”的情况下，开始距用户距离近的起居室的空调的制冷运转。由此，能够向用户提供更加舒适的环境。

另外，在图20C所示的例子中，第一设备2011为设置在厨房中的微波炉，第二设备2012为设置在起居室中的空调，声音收集装置2013为设置在厨房中的具有麦克风功能的显示设备。在用户在厨房中利用显示设备一边检索菜谱一边说了“加热”的情况下，也同样地选择微波炉，所述微波炉是与正在说话的用户的距离为阈值以内的设备。或者，在将用户所在的场所确定为厨房时，不仅根据距离的远近，还通过使作为厨房家电种类的设备的微波炉优先而有可能更容易推定用户的意图。

(实施方式5)

在本实施方式中，说明上述实施方式4的变形例。另外，在本实施方式中，说明用户利用自己专用的填充玩偶、虚拟化身(Avatar)或可穿戴麦克风等，通过说话来确认或操作家电设备的状态的情况。具体而言，在用户不将视线朝向设备而说话且由用户专用的声音收集装置取得了说话的情况下，选择与该用户建立了关联的设备(例如，设置在该用户的房间中的设备)。

图23是表示本实施方式中的对话信息提供系统的一例的图。相对于图2所示的对话信息提供系统，图23所示的对话信息提供系统中，组1100A的构成与组1100不同。具体而言，组1100A还包含声音收集装置2014。声音收集装置2014具备视线检测单元2151和声音收集单元2152。视线检测单元2151和声音收集单元2152的功能与声音收集装置2013具备的视线检测单元2131和声音收集单元2132相同。声音收集装置2014进一步保持用户信息2155。用户信息2155表示使用声音收集装置2013的用户(所有者)的名称或识别符等。

图24是表示本实施方式中的设备管理信息2142的一例的图。在图24所示的设备管理信息2142D的例子中，家庭网关1102、作为第一设备2011的空调、作为声音收集装置2013的天花板麦克风设置在起居室内，作为第二设备2012的空调设置在儿童房间内。另外，儿童将作为声音收集装置2014的可穿戴麦克风戴在身上并想要说话。

图25是表示将用户附近的设备设定为对象设备的处理(图17的S233A和S234A)的详细情况的流程图。图25所示的处理相对于图22所示的处理追加了步骤S406和S407。

在设定有设置场所信息的情况下(在S401中为是)，家庭网关1102判定用户是否利用像天花板麦克风那样的设置场所被固定的设置麦克风进行了说话(S406)。在用户利用设置麦克风说话了的情况下(在S406中为是)，与实施方式4同样地，进行步骤S402A以后的处理。

另一方面，在用户没有利用设置麦克风说话的情况下，也就是说，利用与该用户关联的可穿戴麦克风等便携麦克风说话了的情况下(在S406中为否)，家庭网关1102选择设置在用户的房间中的设备(S407)。

在图24的例子中说明该处理的具体例。

在图24的例子中，第一设备2011为设置在起居室中的空调，第二设备2012为设置在用户的房间中的空调，声音收集装置2014为用户专用的可穿戴麦克风。在用户在起居室中利用可穿戴麦克风说出“加热”的情况下，选择设置在用户的房间中的第二设备2012。

这样，即使在像“加热”那样用户没有说出确定设备的情况下，也能够确定设备并控制相应的设备。

此外，也可以预先对用户设定优先级。由此，在多个用户同时说话的情况下，使优先级更高的用户的说话优先。例如，也可以在家人中将大人的优先级设定为比儿童高。或者，也可以将家人的优先级设定为高，将来客等未预先登记的用户的优先级设定为低。

此外，在此，作为实施方式4的变形例，说明了本实施方式的工作，但对其他实施方式也能够应用同样的变形例。

如上所述，设备确定装置基于通过多个声音收集装置2013和2014的某一个收集的用户的说话来操作对象设备。多个声音收集装置2013和2014包含与用户预先关联的第一声音收集装置2014。在由第一声音收集装置2014收集到用户的说话的情况下，设备确定装置将多台设备(第一设备2011和第二设备2012)中的、与用户预先建立了关联的设备确定为对象设备。

由此，能够使与用户关联的设备优先作为操作对象。因此，能够抑制用户意想不到的设备被错误地选择为操作对象。

(实施方式6)

在本实施方式中，说明上述实施方式1的变形例。在本实施方式中，对话信息提供系统在开始声音收集时诱导用户以使得用户明确地指示想操作的设备。具体而言，对话信息提供系统催促用户朝向对象设备的方向说话。

图26是对象设备确定处理(S222)的变形例(S222B)的流程图。图26所示的处理相对于图11所示的处理追加了步骤S235和S236。

在作为视线检测通知的发送源的装置不是家电设备的情况下(在S231中为否)，家庭网关1102判定是否进行了让用户将视线朝向对象设备并说话的通知(S235)。在没有进行通知的情况下(在S235中为否)，家庭网关1102向具有向用户的信息提示能力的声音收集装置2013等指示以使得向用户传递消息(S236)。例如，该消息是“请朝向想操作的设备并说话”等。

由此，能够更明确地确定用户想操作的设备。

(其他变形例)

此外，在上述实施方式中说明的技术例如也可利用以下构成来实现。

在图27中，视线检测单元2131和声音收集单元2132分离为不同的设备。也就是说，图27所示的组1100B具备视线检测装置2013A和声音收集装置2013B来取代声音收集装置2013，所述视线检测装置2013A具备视线检测单元2131，所述声音收集装置2013B具备声音收集单元2132。通过设为这样的构成，不仅能够降低设备的单价，还因能够使设备小型化和轻量化而使设备能够容易携带。由此，能够提高视线检测的精度。

在图28所示的组1100C中，家庭网关1102A保持有对话词典2147。通过设为这样的构成，在电波不良或有线LAN缆线脱落的情况下等通信切断时，也能够实施利用说话进行的设备控制。另外，由于在能够进行通信的情况下也能够减少通信的额外开销，所以能够提高响应性。

此外，在该情况下，也可以由家庭网关1102A和语音对话服务器2100这两方实施意图理解处理。在该情况下，由于可以认为家庭网关1102A保有的对话词典2147与语音对话服务器2100保有的对话词典2101产生差异的情况，所以只用某一方就可能得到期望的结果。

在图29所示的例子中，在家庭网关1102A中保持对话词典2147，不存在语音对话服务器2100。通过设为这样的构成，即使在不与互联网连接的环境中也能够实施利用说话进行的设备控制。

在图30所示的组1100D中，将家庭网关1102和声音收集装置2013一体化。组1100D所包含的家庭网关1102B具备视线检测单元2131和声音收集单元2132。通过设为这样的构成，由于无需用设备间通信进行视线检测通知等，所以减少了通信的额外开销，因此能够提高对用户的响应性。

此外，在上述技术方案中说明的技术例如能够在以下的云服务类型中实现。但是，实现在上述技术方案中说明的技术的云服务的类型不限于此。

(服务类型1：自己公司数据中心型云服务)

图31是表示服务类型1(自己公司数据中心型云服务)中的信息管理系统提供的服务的整体画面的图。在本类型中，服务提供商1120从组1100取得信息，并对用户提供服务。在本类型中，服务提供商1120具有数据中心运营公司的功能。即，服务提供商1120保有管理大数据的云服务器1111。因此，不存在数据中心运营公司。

在本类型中，服务提供商1120运营和管理数据中心(云服务器)1203。另外，服务提供商1120管理操作系统(OS)1202和应用1201。服务提供商1120使用服务提供商1120管理的OS1202和应用1201而提供服务(箭头1204)。

(服务的类型2：IaaS利用型云服务)

图32是表示服务类型2(IaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。在此，IaaS是Infrastructure-as-a-Service(基础设施即服务)的简称，是将用于构造计算机系统并使之工作的基础本身提供作为经由互联网的服务的云服务提供模型。

在本类型中，数据中心运营公司1110运营和管理数据中心(云服务器)1203。另外，服务提供商1120管理OS1202和应用1201。服务提供商1120使用服务提供商1120管理的OS1202和应用1201而提供服务(箭头1204)。

(服务的类型3：PaaS利用型云服务)

图33是表示服务类型3(PaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。在此，PaaS是Platform-as-a-Service(平台即服务)的简称，是将平台作为经由互联网的服务而提供的云服务提供模型，所述平台成为用于构建软件并使之工作的基础。

在本类型中，数据中心运营公司1110管理OS1202，并运营和管理数据中心(云服务器)1203。另外，服务提供商1120管理应用1201。服务提供商1120使用数据中心运营公司1110管理的OS1202和服务提供商1120管理的应用1201提供服务(箭头1204)。

(服务的类型4：SaaS利用型云服务)

图34是表示服务类型4(SaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。在此，SaaS是Software-as-a-Service(软件即服务)的简称。SaaS利用型云服务例如是具有如下功能的云服务提供模型：不保有数据中心(云服务器)的公司或个人等利用者能够经由互联网等网络，使用保有数据中心(云服务器)的平台提供者提供的应用。

在本类型中，数据中心运营公司1110管理应用1201，管理OS1202，并运营和管理数据中心(云服务器)1203。另外，服务提供商1120使用数据中心运营公司1110管理的OS1202和应用1201提供服务(箭头1204)。

以上，在任一种云服务的类型中，都是服务提供商1120提供服务。另外，例如服务提供商或数据中心运营公司也可以自己开发OS、应用或大数据的数据库等，另外，也可以外包给第三者。

以上，说明了本公开的实施方式涉及的对话信息提供系统，但本公开不限定于该实施方式。

另外，上述实施方式涉及的对话信息提供系统所包含的各处理单元典型地以作为集成电路的LSI实现。这些各处理单元可以分别形成独立的单片，也可以形成为包含一部分或全部处理单元的单片。

并且，集成电路化的方法不限于LSI，也可以以专用电路或通用处理器来实现。在LSI制造后，也可以利用可编程的FPGA(Field Programmable Gate Array：现场可编程门阵列)或利用能够将LSI内部的电路单元的连接以及设定重新构建的可重构处理器(Reconfigurable processor)。

此外，在上述各实施方式中，各构成要素可由专用硬件构成，也可以通过执行适于各构成要素的软件程序来实现。各构成要素也可以通过CPU或处理器等程序执行单元读出并执行记录在硬盘或半导体存储器等记录介质中的软件程序来实现。

而且，本公开既可以是上述程序，也可以是记录有上述的程序的非暂时性计算机可读取记录介质。并且，上述程序当然能够经由互联网等传输介质流通。

另外，框图中的功能块的分割为一例，可以将多个功能块作为一个功能块而实现，将一个功能块分割为多个，或将一部分功能转移到其他功能块。另外，也可以是单一的硬件或软件以并行或时分方式处理具有类似功能的多个功能块的功能。

另外，执行上述流程图等所示的多个步骤的顺序是为了具体说明本公开而例示的顺序，也可以是上述以外的顺序。并且，上述步骤的一部分也可以与其他的步骤同时(并行)执行。

以上，基于实施方式说明了一个或多个技术方案涉及的对话信息提供系统，但本公开不限定于该实施方式。只要不脱离本公开的主旨，对本实施方式实施了本领域技术人员能够想到的各种变形而得到实施方式、以及组合不同的实施方式中的构成要素而构建的实施方式均包含在一个或多个技术方案的范围内。

Claims

1.一种设备控制方法，是与第一设备、第二设备、相机以及麦克风连接的控制器中的设备控制方法，

所述第一设备设置在第一空间的第一位置，所述第二设备设置在第二空间的第二位置，

所述相机检测用户的视线方向，

所述麦克风检测所述用户的说话，

所述第一空间是所述用户能够视觉识别的空间，

所述第二空间是所述用户不能视觉识别的空间，

所述设备控制方法包括：

从所述相机取得视线信息，所述视线信息包含表示所述检测出的用户的视线方向的信息，

基于所述视线信息，判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置，

在判断为所述用户的视线方向指示所述第三位置的情况下，将所述第二设备确定为控制对象，

从所述麦克风取得语音数据，所述语音数据表示所述检测出的用户的说话，

生成与所述取得的语音数据对应的控制指令，

将所述生成的控制指令向所述控制对象发送。

2.根据权利要求1所述的设备控制方法，还包括：

基于所述视线信息判断所述用户的视线方向是否指示所述第二位置，

在判断为所述用户的视线方向指示所述第二位置的情况下，将所述第一设备确定为所述控制对象。

3.根据权利要求1所述的设备控制方法，

所述第三位置是设置有所述控制器的位置。

4.根据权利要求1所述的设备控制方法，

所述控制器具备所述相机。

5.根据权利要求1所述的设备控制方法，

所述第三位置是设置有所述麦克风的位置。

6.根据权利要求1所述的设备控制方法，

所述麦克风具备所述相机。

7.根据权利要求1所述的设备控制方法，

在所述第一空间中配置有物体，

所述第三位置是配置了所述物体的位置。

8.根据权利要求7所述的设备控制方法，

所述物体具备所述相机。

9.根据权利要求7所述的设备控制方法，

所述物体包含人偶。

10.根据权利要求1所述的设备控制方法，

在所述第一空间中投影有假想物体，

所述第三位置是投影了所述假想物体的位置。

11.根据权利要求10所述的设备控制方法，

所述假想物体包含虚拟化身和全息图。

12.根据权利要求1所述的设备控制方法，还包括：

向所述用户通知所述确定的控制对象。

13.根据权利要求1所述的设备控制方法，

在所述第一空间中设置有第三设备，

所述设备控制方法还包括：

解析所述取得的语音数据，

在判断为所述取得的语音数据包含表示所述第三设备的说话的情况下，将所述第三设备确定为控制对象。

14.根据权利要求1所述的设备控制方法，

所述第一空间包含第三空间，

在所述第三空间中设置有第三设备，

所述设备控制方法还包括：

解析所述取得的语音数据，

在判断为所述取得的语音数据包含表示所述第三空间的说话的情况下，将所述第三设备确定为控制对象。

15.根据权利要求1所述的设备控制方法，

所述麦克风为多个麦克风，

在从所述多个麦克风中的第一麦克风取得了所述语音数据的情况下，将所述第一设备和所述第二设备中与所述用户预先关联的设备确定为控制对象。

16.根据权利要求1所述的设备控制方法，

所述控制器还具备存储器，

所述存储器存储所述语音数据和与所述语音数据对应的控制指令的对应关系，

所述控制指令基于所述对应关系而生成。

17.根据权利要求1所述的设备控制方法，

所述控制器与服务器连接，

所述服务器存储所述语音数据和与所述语音数据对应的控制指令的对应关系，

所述设备控制方法还包括：

从所述服务器取得所述对应关系，

所述控制指令基于所述取得的对应关系而生成。

18.一种控制器，是与第一设备、第二设备、相机以及麦克风连接的控制器，

所述第一设备设置在第一空间的第一位置，

所述第二设备设置在第二空间的第二位置，

所述相机检测用户的视线方向，

所述麦克风检测所述用户的说话，

所述第一空间是所述用户能够视觉识别的空间，

所述第二空间是所述用户不能视觉识别的空间，

所述控制器执行：

生成与所述取得的语音数据对应的控制指令，

将所述生成的控制指令向所述控制对象发送。