CN111758128A

CN111758128A - 方法、控制装置以及程序

Info

Publication number: CN111758128A
Application number: CN201980005590.8A
Authority: CN
Inventors: 国武勇次
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-01-11
Filing date: 2019-07-31
Publication date: 2020-10-09
Also published as: JP2020112692A; US20200234709A1; WO2020144884A1

Abstract

一种基于用户的发言内容控制设备的控制装置进行的方法，在多个设备的至少其中一个设备检测其状态的变化；基于表示所述状态的变化的第一信息，从所述多个设备之中确定控制对象设备；在确定了所述控制对象设备的情况下，开始使用集音装置受理所述用户的语音的语音受理处理；输出用于催促用户进行与所述控制对象设备有关的发言的通知。

Description

方法、控制装置以及程序

技术领域

本发明涉及一种基于用户的发言内容控制设备的技术。

背景技术

已存在利用语音输入对家中的电子设备进行状态确认以及操作的系统。例如，在这样的系统，通过具备麦克风的终端获取用户的发言。该具备麦克风的终端等待预先规定的特定的语句(触发词)的输入。如果检测到输入了触发词，就开始语音识别，并将表示继触发词之后用户的发言的语音信号转发到被安装在云上的语音处理系统。语音处理系统，基于所转发的语音信号分析用户的发言内容，并执行基于分析结果的处理。由此，电子设备的状态确认以及操作得以实现。

专利文献1公开了一种技术，通过检测作为开始获取语音的触发的预先规定的事件的发生，开始获取语音，并通知用户已经开始获取语音。

可是，当存在多个可以控制的设备的情况下，用户需要说出用于确定控制对象设备的信息(设置场所以及控制对象设备名称等)和控制内容。然而，在发生用微波炉烹调食材或者用洗衣机开始洗涤这样放置食材或者洗涤物的物理事件的情况下，控制对象设备是明确的，让用户再说出用于确定控制对象设备的发言显得比较麻烦。

(以往技术文献)

(专利文献)

专利文献1：日本专利公开公报特开2017-004231号

发明内容

本发明是为了解决上述问题而做出的发明，其目的在于提供一种不用让用户说出作为开始语音受理处理的触发的发言以及用于确定控制对象设备的发言就可以受理与控制对象设备有关的用户的发言的方法、控制装置以及程序。

本发明的一方面涉及一种基于用户的发言内容控制设备的控制装置进行的方法，在多个设备的至少其中一个设备检测其状态的变化；基于表示所述状态的变化的第一信息，从所述多个设备之中确定控制对象设备；在确定了所述控制对象设备的情况下，开始使用集音装置受理所述用户的语音的语音受理处理；输出用于催促用户进行与所述控制对象设备有关的发言的通知。

根据本发明，在存在多个可以语音控制的设备的系统构成中，不用让用户说出对于用户来说麻烦的作为开始语音受理处理的触发的发言以及用于确定控制对象设备的发言就可以受理与控制对象设备有关的用户的发言。

附图说明

图1是表示第一实施方式涉及的可以用语音控制多个被控制设备的语音控制系统的整体构成的一个例子的方框图。

图2是表示图1所示的语音对话字典DB的数据构成的一个例子的示意图。

图3是表示图1所示的开始条件表的数据构成的一个例子的示意图。

图4是表示图1所示的波束赋形表的数据构成的一个例子的示意图。

图5是表示在第一实施方式被配置在住宅内的房间的控制设备与被控制设备的具体例子的示意图。

图6是表示第一实施方式的语音控制系统从判断开始语音受理处理的开始条件到开始语音受理处理为止的处理的一个例子的流程图。

图7是表示第一实施方式的语音控制系统开始语音受理处理之后确定对控制对象设备的控制命令之际的处理的一个例子的流程图。

图8是表示第二实施方式的语音控制系统的整体构成的一个例子的方框图。

图9是表示第二实施方式的语音控制系统从判断开始语音受理处理的开始条件到开始语音受理处理为止的处理的一个例子的流程图。

图10是图9的后续的流程图。

图11是表示第二实施方式的语音控制系统开始语音受理处理之后确定对控制对象设备的控制命令之际的处理的一个例子的流程图。

图12是图11的后续的流程图。

具体实施方式

(本发明的基础知识)

通过执行根据用户的发言的语音进行语音识别处理并解析语音识别结果来控制电子设备的控制装置正处于研究之中。在这样的控制装置中，如果语音识别处理总是被启动，用户会因发言总是被第三方听到而感到不安。而且，如果语音识别处理总是被启动，存在因意外的语音导致电子设备误动作的可能性。在此，在这样的控制装置中，一般是以说出特定的短语(触发词)作为条件开始语音识别处理。然而，每次开始语音识别处理时都需说出触发词对用户来说非常麻烦。

针对这样的问题，上述专利文献1涉及的技术，通过检测预先规定的事件开始语音识别处理并通过语音通知用户开始了语音识别处理，来谋求防止每次都要说出触发词的麻烦以及防止给用户带来发言总是被听到的不安。

然而，专利文献1的技术是以语音对话的接口被安装在特定的电子设备上为前提，并没有想到用一个控制装置控制多个电子设备。为此，专利文献1的技术不能在语音识别处理开始之后从多个电子设备之中确定控制对象的电子设备。

在用一个控制装置利用语音从多个电子设备之中控制特定的电子设备的情况下，需要确定控制对象设备。例如，在存在多个如两台空调这样相同种类的电子设备的情况下，需要确定控制对象设备。而且，在存在多个是不同种类的设备但具有用相同的发言短语就动作的功能的电子设备的情况下，例如，在说出“加热”这样的发言的情况下，因为空调开始暖风运转，微波炉也开始加热运转，所以需要确定控制对象设备。

可是，专利文献1的技术，在预先规定的事件例如是将食材放置在微波炉的情况下，认为用户想要控制的电子设备是微波炉。

然而，当作为可以控制的电子设备包含空调和微波炉的情况下，如果仅仅说出“加热”的发言，由于控制装置无法确定微波炉和空调中的哪一个是控制对象，需要进行用于确定作为控制对象的电子设备的对话处理，这对于用户和控制设备双方来说都非常麻烦。

到目前为止，在从可以控制的多个电子设备之中用语音控制特定的电子设备的控制装置中，没有研究通过检测预先规定的事件开始语音识别，确定作为控制对象的电子设备，并受理与所确定的电子设备有关的用户的发言的技术。

为了解决以上的问题，本发明的一方面涉及一种基于用户的发言内容控制设备的控制装置进行的方法，在多个设备的至少其中一个设备检测其状态的变化；基于表示所述状态的变化的第一信息，从所述多个设备之中确定控制对象设备；在确定了所述控制对象设备的情况下，开始使用集音装置受理所述用户的语音的语音受理处理；输出用于催促用户进行与所述控制对象设备有关的发言的通知。

根据该构成，检测出设备的状态的变化，基于表示该状态的变化的第一信息从多个设备之中确定控制对象设备，在确定了控制对象设备的基础上，开始语音受理处理并输出用于催促用户进行与控制对象设备有关的发言的通知。为此，本发明，不用让用户说出作为开始语音受理处理的触发的发言以及用于确定控制对象设备的发言这样麻烦的发言，就可以从多个设备之中确定控制对象设备并开始语音受理处理，受理与控制对象设备有关的发言。

在上述构成，所述通知也可以是包含所述控制对象设备所对应的第二信息和表示对所述控制对象设备的控制内容的至少一部分的第三信息的第四信息。

根据该构成，因为在开始语音受理处理的同时还输出包含控制对象设备所对应的第二信息和表示对控制对象设备的控制内容的至少一部分的第三信息的第四信息，可以更可靠地通知用户哪个设备是控制对象设备，该控制对象设备是否处于可以受理控制的状态。

在上述构成，所述状态的变化也可以基于从所述多个设备的任何一个设备具备的传感器获得的传感值而检测出。

根据该构成，因为基于从多个设备具备的传感器获得的传感值来检测状态的变化，能准确地检测出状态的变化。

在上述构成，在检测出从开始所述语音受理处理之后所述控制对象设备在一定期间内没有被控制的情况下，还可以再次开始所述语音受理处理并输出所述通知。

根据该构成，因为在从开始语音受理处理之后一定期间内控制对象设备没有被控制的情况下再次开始语音受理处理并输出催促用户发言的通知，在用户忘记了对控制对象设备进行控制的情况下，可以让是否想起对控制对象设备进行控制。

在上述构成，所述通知也可以是催促用于执行与所述控制对象设备相关联的服务的发言的第五信息。

根据该构成，因为输出催促用于执行与控制对象设备相关联的服务的发言的第五信息，可以使控制对象的范围不限于设备而扩展到服务。

在上述构成，所述通知也可以是从语音输出装置输出的语音。

根据该构成，可以通过语音输出通知。

在上述构成，所述通知也可以是从电子音输出装置输出的声音。

根据该构成，可以通过“滴滴”或“怦怦”等简单的声音通知用户开始语音受理处理。因此，对于用语音通知感到麻烦的用户而言，通过用简单的通知音可以降低不愉快感。

在上述构成，所述通知也可以是从显示器输出的映像。

在用声音通知用户而用户没有听到时不能再次进行确认，而用视觉信息输出通知的本构成，可以抑制用户错过通知。

在上述构成，所述通知也可以是从发光装置输出的光。

根据该构成，可以通过从LED等的发光装置输出的光，让用户视觉地识别开始语音受理处理。

在上述构成，也可以是，所述集音装置被设置在与所述控制对象设备不同的位置，在所述语音受理处理中，所述集音装置执行将麦克风的指向性指向对所述控制对象设备预先决定的方向的指向性控制。

根据该构成，能更可靠地集音来自用户可能发言的方向的用户的发言。

在上述构成，所述预先决定的方向也可以基于所述集音装置集音所述用户为了控制所述控制对象设备说出的语音的方向的履历来决定。

根据该构成，集音装置的指向性的方向基于用户对控制对象设备进行控制时说出的语音的方向的履历来决定，可以自动地调整指向性的方向，省略用户的设定。

在上述构成，也可以是，在确定所述控制对象设备时，当所述多个设备之中的第一设备变为规定的状态并且与所述第一设备不同的第二设备变为规定的状态的情况下，将所述第一设备以及所述第二设备中的至少其中之一确定为所述控制对象设备。

根据该构成，例如在第一设备的运行中第二设备插进来，用户为了应对该插进需要使第一设备的状态变化的情况下，可以催促用户发出对第一设备以及第二设备中的至少其中之一进行控制的发言。而且，根据该构成，例如，还可以将第一设备的状态变化和第二设备的状态变化这样多个设备的状态变化作为条件，开始语音受理处理。

而且，本发明不仅可以作为执行上述所述特征的处理的方法而实现，而且还可以作为具备用于执行方法所包含的特征的步骤的处理部的控制装置等而实现。而且也可以作为让计算机执行方法所包含的特征的各步骤的计算机程序而实现。而且，不用说也可以使这样的计算机程序通过CD-ROM等计算机可读取的非暂时性的记录介质或因特网等通信网络而流通。

以下参照附图对本发明的实施方式进行说明。另外，以下说明的实施方式中的任何一个实施方式都是用于具体地表示本发明的一个例子。在以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等只不过是一个例子而已，并不用于限定本发明。而且，以下的实施方式中的构成要素之中，对于表示最上位概念的独立权利要求中没有记载的构成要素作为任意的构成要素而说明。而且，在全部的实施方式中，可以任意地组合各自的内容。

(第一实施方式)

图1是表示第一实施方式可以用语音控制多个被控制设备2000的语音控制系统的整体构成的一个例子的方框图。图1所示的语音控制系统具备与网络4000连接的语音处理装置1000(控制装置的一个例子)、被控制设备2000(设备的一个例子)以及控制设备3000(输出部、语音输出装置以及集音装置的一个例子)。

语音处理装置1000具备主控制部1100、存储器1200以及通信部1300。主控制部1100例如由CPU等处理器构成。主控制部1100具备控制命令发行部1110、意向解释部1120、应答生成部1130、语音识别部1140、语音输入控制部1150以及语音合成部1160。主控制部1100具备的各模块既可以通过让处理器执行程序来实现也可以由专用的电路来构成。

意向解释部1120具备控制命令决定部1121以及状态判断部1122(检测部以及确定部的一个例子)。存储器1200例如由半导体存储器或硬盘等非易失性存储器构成。存储器1200具备语音对话字典DB(数据库)1210、开始条件表1220、波束赋形(beam forming)表1230。

构成语音处理装置1000的全部要素既可以安装在与网络4000连接的现实的服务器上或者安装在云服务上的虚拟的服务器上，也可以安装在与控制设备3000相同的终端上。此外，也可以让被控制设备2000之中的至少一个被控制设备2000具备控制设备3000以及语音处理装置1000的功能，还可以采用能组合实现这些构成的所有的构成。

控制命令发行部1110将通过控制命令决定部1121决定的控制命令通过通信部1300发送到被确定为控制对象设备的被控制设备2000。

控制命令决定部1121，从语音识别部1140获取作为语音识别结果的文本数据，并解析获取的文本数据的句子等，确定在文本数据中包含的单词等。而且，控制命令决定部1121通过将解析结果与被保存在存储器1200中的语音对话字典DB1210进行对照，决定对通过状态判断部1122确定的控制对象设备的控制内容，并将控制内容输出到控制命令发行部1110。

状态判断部1122，通过通信部1300获取被控制设备2000的传感部2003检测出的传感值，并通过将获取的传感值与开始条件表1220进行对照，判断多个被控制设备2000之中有无满足语音受理处理的开始条件的被控制设备2000。而且，状态判断部1122，在判断存在满足语音受理处理的开始条件的被控制设备2000的情况下，将该被控制设备2000确定为控制对象设备，并将控制对象设备的设备ID分别输出到语音输入控制部1150、应答生成部1130以及控制命令决定部1121。

应答生成部1130，在通过状态判断部1122确定了控制对象设备的情况下，生成用于催促用户说出用于对控制对象设备进行控制的发言的应答文的文本数据，并将该文本数据输出到语音合成部1160。在此，作为用于催促用户说出用于对控制对象设备进行控制的发言的应答文，例如有“在微波炉中放入了食材。怎样进行控制？”这样的包含作为与控制对象设备对应的信息的“微波炉”和作为表示控制对象设备的控制内容的至少一部分的信息的“怎样进行控制？”。在此，与控制对象设备对应的信息是第二信息的一个例子，可以采用表示控制对象设备的信息。表示控制对象设备的控制内容的至少一部分的信息是第三信息的一个例子。而且，应答文是第四信息的一个例子。表示控制内容的至少一部分的第三信息，例如可以是“开始微波炉的加热运转吗？”这样的表示控制内容本身的信息，也可以是“在微波炉中加入了食材。”这样的包含控制对象设备的状态的信息，也可以是委婉地询问“怎样进行控制？”这样的控制方法的消息。此外，表示控制内容本身的信息也可以采用以选择形式询问例如“是开始加热运转还是开始解冻运转或者是开始烤箱运转”这样的控制内容的消息。

而且，应答生成部1130，在通过控制命令决定部1121决定了对控制对象设备的控制内容的情况下，生成表示该内容的应答文的文本数据，并将该文本数据输出到语音合成部1160。此外，应答生成部1130，在通过控制命令决定部1121判断用于确定控制内容的信息不足需要进行再次询问的情况下，生成用于再次询问的应答文的文本数据，并将该文本数据输出到语音合成部1160。

语音识别部1140，将通过通信部1300从控制设备3000的语音输入部3030获取的语音信号转换为文本数据，并将所转换的文本数据作为语音识别结果输出到控制命令决定部1121。

语音输入控制部1150，在通过状态判断部1122确定了控制对象设备的情况下，通过通信部1300向控制设备3000发送指示开始语音受理处理的控制命令。由此，控制设备3000开始语音受理处理并受理用于控制控制对象设备的用户的发言。而且，语音输入控制部1150也可以参照波束赋形表1230，获取与所确定的控制对象设备对应的波束赋形方向，并与指示开始语音受理处理的控制命令一起发送波束赋形方向。

语音合成部1160获取由应答生成部1130生成的应答文的文本数据，并通过进行语音合成处理生成应答语音信号，通过通信部1300将其发送到控制设备3000。

通信部1300由将语音处理装置1000连接到网络4000的通信电路构成。语音处理装置1000通过通信部1300将被控制设备2000以及控制设备3000经由网络4000相互可通信地连接。具体而言，通信部1300向控制设备3000发送用于指示开始语音受理处理的控制命令、用于控制被控制设备2000的控制命令以及应答语音信号等。而且，通信部1300接收由被控制设备2000的传感部2003检测出的传感值以及由控制设备3000获取的语音信号等。

被控制设备2000具备控制部2001、通信部2002以及传感部2003。被控制设备2000例如是微波炉、IH烹调器以及空调等生活家用电器；电视机以及录像机等AV(音频、audiovisual)设备；对讲机等住宅设备；固定电话以及智能手机等的通信设备等被连接到网络4000的可远程控制的设备。

控制部2001例如由包含CPU以及存储器的计算机构成，执行由通信部2002接收到的用于控制被控制设备2000的控制命令。

通信部2002由将被控制设备2000连接到网络4000的通信电路构成，将通过传感部2003获取的传感值经由网络4000通知给语音处理装置1000的状态判断部1122。而且，通信部2002从控制命令发行部1110接收通过通信部1300发送来的控制命令。

传感部2003由温度传感器以及开关传感器等任意的传感器构成，根据被控制设备2000的种类或想要判断的状态的不同而采用不同的传感器。开关传感器例如是陀螺传感器(Gyro sensor)或加速度传感器。传感部2003既可以由搭载在被控制设备2000上的一个或多个传感器构成，也可以由独立于被控制设备2000的一个或多个传感器构成。例如，如果是空调，作为传感部2003就采用检测室内、室外以及冷媒等的温度的温度传感器等，如果是冰箱，作为传感部2003就采用检测门的开闭的开关传感器以及检测冰箱内温度的温度传感器等。

控制设备3000具备通信部3010、语音输出部3020以及语音输入部3030。语音输入部3030具备指向性控制部3031以及麦克风3032。控制设备3000例如是具备智能扬声器等集音功能的语音输出装置或者是具备智能手机等集音功能以及语音输出功能的便携式终端。另外，控制设备3000也可以采用被包含在被控制设备2000中的结构。例如，在多个被控制设备2000之中特定的被控制设备2000搭载控制设备3000的功能，让该特定的被控制设备2000承担控制设备3000的功能。另外，控制设备3000也可以由台式计算机构成。

通信部3010将通过语音输入部3030获取的语音信号发送到语音处理装置1000，或接收使语音受理处理开始的控制命令以及应答语音信号。

语音输出部3020例如是将通过语音输入部3030获取的语音信号转换为语音并输出到外部空间的扬声器，再生从语音处理装置1000发送来的应答语音信号。

语音输入部3030的麦克风3032，例如，集音用户发出的语音并将其转换为语音信号。在本实施方式，为了可以进行指向性控制，麦克风3032由多个麦克风构成的阵列麦克风构成。另外，在不进行指向性控制的情况下，麦克风3032由一个麦克风构成。指向性控制部3031，如果获取了从语音处理装置1000的语音输入控制部1150发送来的波束赋形方向，就执行使麦克风3032的指向性指向该波束赋形方向的指向性控制。

网络4000例如是光纤、无线或公用电话线路等任意的网络。例如，在语音处理装置1000、被控制设备2000以及控制设备3000被设置在住宅内的情况下，网络4000也可以是与因特网等外部网络切断的住宅内的本地网络。而且，在语音处理装置1000以及被控制设备2000被设置在住宅内，语音处理装置1000由云服务器构成的情况下，网络4000也可以包含外部网络、与外部网络连接的住宅内的本地网络。

图2是表示图1所示的语音对话字典DB1210的数据构成的一个例子的示意图。语音对话字典DB1210，如图2所示，具备设备ID列100、场所列101、发言列102以及控制内容列103，针对每个被控制设备2000将设备ID、场所、发言以及控制内容相互对应地进行存储。语音对话字典DB1210在根据用户的发言确定用于控制被控制设备2000的控制命令之际被控制命令决定部1121所参照。设备ID是用于唯一地确定被控制设备2000的标识符。例如，设备ID，如果是空调就是“空调_01，如果是IH烹调器就是“IH_01等。场所例如是客厅以及厨房等被控制设备2000的设置场所。发言例如是“加热”以及“冷却”等用于控制被控制设备2000的发言内容。控制内容例如是与“打开暖风”以及“打开冷风”等的发言所对应的被控制设备2000的控制内容。例如，空调对于“加热”的发言是开始暖风运转，对于“冷却”的发言是开始冷风运转。

图3是表示图1所示的开始条件表1220的数据构成的一个例子的示意图。开始条件表1220在状态判断部1122判断是否满足语音受理处理的开始条件之际被参照。关于是否满足开始条件的处理的详细内容后述。开始条件表1220，如图3所示，具备设备ID列200、开始条件列201、控制对象设备列202以及应答文列203，针对每个被控制设备2000将设备ID、开始条件、控制对象设备以及应答文相互对应地进行存储。设备ID与图2所示的设备ID相同。开始条件是语音受理处理的开始条件。例如，在设备ID为“微波炉_01”的微波炉，作为开始条件存储有“door_state＝Open、door_state＝Close、open_close_interval＝3sec”。因此，在检测到门处于打开状态而在3秒钟以内门处于关闭状态这样的状态变化的情况下，该微波炉被判断为满足语音受理处理的开始条件并被确定为控制对象设备。

控制对象设备列202存储作为全部满足在开始条件列201中存储的条件时的控制对象的被控制设备2000。在控制对象设备列202基本上存储在设备ID列200中存储了设备ID的被控制设备2000。但是，如第五行、第六行所示，也可以存储在设备ID列200中存储的多个被控制设备2000中的其中之一(例如，IH烹调器)，如第七行所示，也可以存储与在设备ID列200中存储的多个被控制设备2000不同的被控制设备2000(例如，录像机)。

应答文是在开始语音受理处理时通过语音从控制设备3000输出的应答文。例如，在第一行的微波炉满足了语音受理处理的开始条件的情况下，作为应答文从控制设备3000输出“在微波炉里放入了食材。怎样进行控制？”的应答语音。由此，用户可以确认微波炉处于可以受理发言的状态。

图4是表示图1所示的波束赋形表1230的数据构成的一个例子的示意图。波束赋形表1230，如图4所示，具备设备ID列300以及波束赋形方向列301，针对每个被控制设备2000将设备ID以及波束赋形方向相互对应地进行存储。设备ID与图2所示的设备ID相同。波束赋形方向是表示当将控制设备3000的基准方向设为0°度时控制设备3000的指向性的方向的角度，例如，可以取0°度至359°度的值。

参照图5对波束赋形方向的决定方法进行说明。波束赋形方向例如基于被控制设备2000的设置位置来决定。例如，对于微波炉411，将连接微波炉411的设置位置以及作为控制设备3000的智能扬声器421的设置位置的直线L1与基准方向L0之间形成的角度θ决定为波束赋形的方向。基准方向L0是通过智能扬声器421的设置位置的与地板平行的规定的方向。另外，存储在波束赋形表1230中的波束赋形方向，例如，在设置被控制设备2000时由用户或作业人员等利用智能手机等的输入装置进行输入，并被发送到语音处理装置1000。

而且，波束赋形方向也可以让被控制设备2000根据通过语音容易被控制的方向而校正(calibration)。校正的方法例如有利用智能手机等的设定应用程序由用户指定的方法。在这种情况下，语音处理装置1000的主控制部1100，当获取了用户对某个被控制设备2000指定的波束赋形方向时，就用所获取的波束赋形方向更新被存储在波束赋形表1230中的被控制设备2000的波束赋形方向。

而且，校正的方向有例如基于在通过语音控制某个被控制设备2000之际智能扬声器421收集声音的方向的履历来决定的方法。在这种情况下，智能扬声器421，将集音信号包含在表示通过语音控制被控制设备2000之际所集音的用户的语音的语音信号之中并发送到语音处理装置1000，其中，集音信号是将收集声音的方向与被控制的被控制设备2000的设备ID相互对应的信号。接收到该语音信号的语音处理装置1000将与语音信息相对应的集音信息作为履历蓄积在存储器1200中。另一方面，主控制部1100，如果对某个被控制设备2000蓄积在存储器1200中的集音信息的蓄积个数增加了规定个数，就计算出被包含在最新的规定个数的集音信息中的方向的平均值，将计算出的平均值作为新的波束赋形方向来更新波束赋形表1230中相应的被控制设备2000的波束赋形方向。

图5是表示在第一实施方式配置在住宅内房间的控制设备3000和被控制设备2000的具体例子的示意图。以下，对配置在图5所示房间的控制设备3000和被控制设备2000的动作例子进行说明。图5所示的房间布局由厨房410、客厅·餐厅420、玄关·走廊430、化妆间·浴室440、厕所450以及卧室460构成。在厨房410设置有微波炉411以及IH烹调器412。在客厅·餐厅420设置有智能扬声器421(控制设备3000的一个例子)、空调423以及电视机424。在玄关·走廊430设置有门铃431。在化妆间·浴室440设置有洗衣机441。在卧室460中设置有空调461。

例如，假设用户打开微波炉411的门放入食材在3秒钟以内关闭了门。此时，通过微波炉411的开关传感器，门处于打开状态的传感值以及关闭状态的传感值在3秒钟以内被依次发送到语音处理装置1000。接收到传感值的语音处理装置1000，参照开始条件表1220，由于微波炉411满足了语音受理处理的开始条件，因此将微波炉411确定为控制对象设备。此时，语音处理装置1000将图3所示的表示存储在开始条件表1220中的微波炉411的应答文“在微波炉中放入了食材。怎样进行控制？”的应答语音信号发送到智能扬声器421。而且，此时，语音处理装置1000，参照图4所示的波束赋形表1230，获取与微波炉411对应的波束赋形方向并将其发送到智能扬声器421。

由此，智能扬声器421输出接收到的应答语音信号所示的应答语音。此外，智能扬声器421进行将指向性朝向获取的波束赋形方向的指向性控制，开始语音受理处理。此时，语音处理装置1000，对于用户的发言，参照图2所示的语音对话字典DB1210中存储的微波炉的电子字典，决定控制内容。因此，例如，如果用户说出“加热”，该发言的语音信号就从智能扬声器421发送到语音处理装置1000，“开始自动加热”的控制命令被从语音处理装置1000发送到微波炉411，微波炉411开始自动加热运转。

首先，如果通过被控制设备2000的传感部2003获取到表示被控制设备2000的状态的传感值(在S100为是)，被控制设备2000的控制部2001，为了向语音处理装置1000的状态判断部1122通知传感值，通过通信部2002将传感值发送到语音处理装置1000(S101)。在此，被控制设备2000既可以在发生状态变化时发送传感值，也可以以任意的周期定期地发送传感值。

而且，被控制设备2000的控制部2001，也可以根据检测状态的传感器的种类以及被控制设备2000的构成等，划分为在发生状态变化时发送传感值的方式和定期地发送传感值的方式。另外，传感值与发送源的被控制设备2000的设备ID相互对应。

在通过传感部2003没有获取到传感值(在S100为否)的情况下，传感部2003处于等待获取传感值的状态。

其次，状态判断部1122，将获取的传感值与开始条件表1220进行对照，并判断是否确定了控制对象设备(S102)。在还没有确定控制对象设备的情况下(在S102为否)，处理转移到S100，传感部2003再次变为等待获取传感值的状态。另一方面，在确定了控制对象设备的情况下(在S102为是)，处理转移到S103。

例如，在获取了设备ID为“微波炉_01”的传感值的情况下，提取开始条件表1220的第一行和第二行的记录，并参照所提取的记录的开始条件列201。在此，如果获取的传感值表示微波炉的门处于关闭状态的“door_state＝Close”，并获取了表示从当前时刻起在3秒钟以内微波炉的门变为打开状态的“door_state＝Open”的传感值，由于满足了存储在第一行的开始条件列201中的全部条件，将存储在第一行的控制对象设备列202中的微波炉确定为控制对象设备。另一方面，在仅获取了第一行的开始条件列中存储的条件之中的“door_state＝Open”的情况下，该开始条件被保留。而且，在从获取“door_state＝Open”的时刻起经过3秒钟的时刻还没有获取到“door_state＝Close”的情况下，该保留被复位。

在步骤S103，状态判断部1122将在S102确定的控制对象设备的设备ID分别输出到语音输入控制部1150、控制命令决定部1121以及应答生成部1130。例如，在将设备ID为“微波炉_01”的微波炉确定为控制对象设备的情况下，设备ID“微波炉_01”被分别输出到语音输入控制部150、控制命令决定部1121以及应答生成部1130。如以下所示，S104以及S105的处理、S106至S108的处理、S109的处理被并行进行。

在步骤S104，语音输入控制部1150通过通信部1300向控制设备3000发送指示开始语音受理处理的控制命令和波束赋形方向。具体而言，语音输入控制部1150，参照波束赋形表1230的设备ID列300，提取与被输出的设备ID匹配的记录，将存储在所提取的记录的列301的波束赋形方向作为控制对象设备的波束赋形方向而获取。然后，语音输入控制部1150通过通信部1300将获取的波束赋形方向与指示开始语音受理处理的控制命令一起发送到控制设备3000。

其次，控制设备3000的语音输入部3030的指向性控制部3031执行指向性控制，使麦克风3032的指向性朝向接收到的波束赋形方向，开始语音受理处理(S105)。

在S106，应答生成部1130通过从开始条件表1220获取与输出的设备ID所示的控制对象设备对应的应答文，生成用于催促让用户对控制对象设备进行控制的应答文的文本数据(S106)。例如，如果从状态判断部1122输出了设备ID“微波炉_01”，应答生成部1130就获取被存储在开始条件表1220的第一行的应答文列203的“在微波炉中放入了食材。怎样进行控制？”的应答文的文本数据。获取的应答文的文本数据被输出到语音合成部1160。

其次，语音合成部1160通过进行语音合成处理生成被输出的应答文的应答语音信号，并通过通信部1300将生成的应答语音信号发送到控制设备3000(S107)。

其次，控制设备3000的语音输出部3020输出应答语音信号所示的应答语音(S108)。在上述的微波炉的例子中，从语音输出部3020输出“在微波炉中放入了食材。怎样进行控制？”的应答语音。由此，用户可以判断微波炉因自己将食材放入微波炉这样的动作而处于等待控制的状态，确认从现在开始通过发出语音可以控制微波炉。

在S109，控制命令决定部1121从语音对话字典DB1210中选择被通知的设备ID所示的控制对象设备的语音对话字典(S109)。例如，如果设备ID为“微波炉_01”的微波炉是控制对象设备，就从语音对话字典DB1210中选择设备ID“微波炉_01”的语音对话字典。由此，在用户对微波炉说出“加热”的情况下，可以防止错误地发生空调开始暖风运转或IH烹调器开始加热等情况。

图7是表示第一实施方式的语音控制系统从开始语音受理处理到确定对控制对象设备的控制命令之际的处理的一个例子的流程图。如果通过语音输入部3030获取到表示用户的发言的语音信号(在S200为是)，控制设备3000就通过通信部3010将获取的语音信号发送到语音处理装置1000。该语音信号通过语音识别部1140获取。

其次，语音识别部1140，执行语音识别处理将获取的语音信号转换为文本数据，并将其作为语音识别结果输出到控制命令决定部1121(S201)。另一方面，在没有获得表示用户的发言的语音信号的期间，语音输入部3030处于等待语音信号的获取的状态(在S200为否)。

其次，控制命令决定部1121判断在语音识别结果中是否包含用于确定被控制设备2000的信息。在此，用于确定被控制设备2000的信息例如是某个被控制设备2000的设备名称。在包含用于确定控制对象设备的信息的情况下(在S202为是)，控制命令决定部1121，代替在图6的S102作为控制对象设备所确定的被控制设备2000，将语音识别结果中包含的被控制设备2000决定为控制对象设备(S207)，使处理前往S203。

在S202被判断为“是”的情形例如是在图6的S102将微波炉确定为控制对象设备而开始语音受理处理之后，用户说出了“空调、加热”这样的发言的情形。在这种情况下，尊重用户最近的发言将空调确定为控制对象设备而不是将微波炉确定为控制对象设备。

另一方面，在语音识别结果中未包含用于确定被控制设备2000的信息的情况下(在S202为否)，控制命令决定部1121，通过将在S201获取的语音识别结果与在图6的S102确定的控制对象设备的语音对话字典进行对照，缩小控制命令范围(S203)。例如，如果控制对象设备是设备ID“微波炉_01”的微波炉，就从语音对话字典DB1210的设备ID“微波炉_01”的语音对话字典之中缩小控制命令的范围。

在通过控制命令决定部1121能唯一地确定控制命令的情况下(在S204为是)，控制命令发行部1110通过通信部1300将唯一地确定的控制命令发送到控制对象设备(S205)。

其次，作为控制对象设备的被控制设备2000的控制部2001，执行发送来的控制命令(S206)。由此，例如，如果控制对象设备是微波炉、用户说出了“加热”的发言，就执行通过微波炉加热食材的动作。

另一方面，在通过控制命令决定部1121无法唯一地确定控制命令的情况下(在S204为否)，应答生成部1130生成反问用户用于对控制对象设备进行语音控制的发言的应答文的文本数据。反问的应答文例如可以采用“怎样进行控制？”等反问对控制对象设备的控制内容的消息。无法唯一地确定的情形，例如存储在控制对象设备的语音对话字典的发言列102中的发言都没有被包含于在S201获取的语音识别结果中就相当于该情形。

其次，语音合成部1160生成反问的应答文的应答语音信号，并通过通信部1300发送到控制设备3000(S208)。由此，通过语音从控制设备3000的语音输出部3020输出“怎样进行控制？”等的消息。在S208的结束处理之后，处理转移到S200。

另一方面，在S210，应答生成部1130生成表示在S204唯一地确定的控制命令所示的控制内容的应答文的文本数据(S210)。表示控制内容的应答文例如是“开始微波炉的加热。”这样的应答文。其次，语音合成部1160生成表示控制内容的应答文的应答语音信号，并通过通信部1300将其发送到控制设备3000。由此，从控制设备3000的语音输出部3020输出“开始微波炉的加热。”这样的应答文的语音(S211)。其结果，用户可以确认控制对象设备是否按照自己的发言被控制。

如上所述，根据第一实施方式，检测出被控制设备2000的状态的变化，在基于表示该状态的变化的传感值从多个被控制设备2000之中确定了控制对象设备之后，开始语音受理处理。此外，在开始语音受理处理的同时，通过语音从控制设备3000输出催促用户说出用于对控制对象设备进行控制的发言的应答文。因此，不需要让用户说出成为开始语音受理处理的触发的发言以及用于确定控制对象设备的发言这样麻烦的发言，就可以从多个被控制设备2000之中确定控制对象设备，并获取用户对该控制对象设备的发言。

(第二实施方式)

第二实施方式是在开始语音受理处理之后检测到控制对象设备在一定期间没有被控制的情况下，重新开始语音受理处理，输出催促用户说出用于对控制对象设备进行控制的发言的应答文的实施例。

图8是表示第二实施方式的语音控制系统的整体构成的一个例子的方框图。在图8中，与图1的不同点在于语音处理装置1000还具备第一计时器1401以及第二计时器1402。

第一计时器1401对从开始语音受理处理到重新开始语音受理处理为止的第一期间进行计时。第二计时器1402对作为语音受理处理的超时期间的第二期间进行计时。第一期间例如是在开始语音受理处理之后用户忘记说出用于对控制对象设备进行语音控制的发言的可能性比较高的期间。第二期间是比第一期间短的期间。

图9是表示第二实施方式的语音控制系统从判断开始语音受理处理的开始条件起到开始语音受理处理为止的处理的一个例子的流程图。另外，在图9中对与图6相同的处理赋予相同的步骤编号。图9所示的S100至S109与图6所示的S100至S109相同。通过图9的处理，可以确定控制对象设备，开始语音受理处理，输出催促用户发言的应答文。

图10是图9的后续的流程图。另外，图10所示的S110至S114的处理与图9所示的S104至S105的处理、S106至S108的处理、S109的处理并行进行。

在S110，状态判断部1122开始第二计时器1402的计时。在步骤S111，状态判断部1122参照开始条件表1220，判断在S102确定的控制对象设备是否包含超时条件。在包含超时条件的情况下(在S111为是)，将超时条件所示的时间设定为第一期间，开始第一计时器1401的计时(S112)。另一方面，在控制对象设备未包含超时条件的情况下(在S111为否)，结束处理。在图3的例子中，在微波炉为控制对象设备的情况下，在第二行的开始条件列201中，除了“door_state＝Open、door_state＝Close、open__close_interval＝3sec”之外，还包含作为超时条件的“Operation_timeout＝10min”。为此，第一期间被设定为10分钟并开始第一计时器1401的计时。

其次，状态判断部1122判断经过了第一期间第一计时器1401是否超时(S113)。在第一计时器1401超时的情况下(在S113为是)，状态判断部1122指示应答生成部1130从开始条件表1220获取应答文(S114)。在图3的第二行的微波炉的例子中，因为第一计时器1401的超时，满足了存储在开始条件列201中的全部的条件。由此，状态判断部1122指示应答生成部1130获取应答文，应答生成部1130获取第二行的应答文“在微波炉中放入的食材已经过了10分钟。没有忘记控制吗？”。另一方面，在第一计时器1401没有超时的情况下(在S113为否)，第一计时器1401继续进行计时。

如果S114结束，处理就转移到图9的S103，再次执行S104至S105的处理、S106至S108的处理、S109的处理、S110至S114的处理。在这种情况下，生成在步骤S114获取的应答文(S106)，该应答文的应答语音信号被发送到控制设备3000(S107)，从控制设备3000输出该应答文的应答语音(S108)。由此，可以使用户想起进行控制。另外，图10的S110至S114的处理，为了避免重复多次，也可以在重复规定次数的情况下，不转移到图9的S103，而是结束处理。重复多次的情形例如在开始语音受理处理之后用户外出的情况下会发生。

图11是表示第二实施方式的语音控制系统在开始了语音受理处理之后确定对控制对象设备的控制命令之际的处理的一个例子的流程图。另外，在图11中对与图7相同的处理赋予了相同的步骤编号。在图11，与图7的不同点在于在S200为否之后处理转移到S212，在S204为是之后处理转移到图12的S214。

在通过语音输入部3030未能获取表示用户的发言的语音信号的情况下(在S200为否)，状态判断部1122判断经过了第二期间第二计时器1402是否超时(S212)。在第二计时器1402超时的情况下(在S212为是)，状态判断部1122使语音受理处理结束(S213)。在这种情况下，控制命令发行部1110发行指示结束语音受理处理的控制命令，并通过通信部1300将控制命令发送到控制设备3000。控制设备3000，如果接收该控制命令，就结束通过语音输入部3030的集音。由此，可以防止用户的发言总是被泄漏到外部。

另一方面，在第二计时器1402未超时的情况下(在S212为否)，处理转移到S200，变为语音输入部3030等待用户的发言的等待状态。

在S204，当唯一地确定了控制命令的情况下(在S204为是)，处理转移到图12所示的S214。图12是图11的后续的流程图。另外，S214至S216的处理与图11的S205至S206的处理、S210至S211的处理并行进行。

在步骤S214，状态判断部1122判断第二计时器1402是否处于计时中。在第二计时器1402处于计时中的情况下(在S214为是)，状态判断部1122使第二计时器1402的计时结束(S215)。接着，状态判断部1122使语音受理处理结束(S216)。即，因为在第二计时器1402的计时中通过用户的发言控制命令已被唯一地确定，所以使第二计时器1402的计时结束。在这种情况下，表示结束语音受理处理的控制命令被从控制命令发行部1110发送到控制设备3000。另一方面，在第二计时器1402未处于计时中的情况下(在S214为否)，结束处理。

根据第二实施方式，作为语音受理处理的开始条件，例如，在开闭微波炉之后，如果在一定期间微波炉没有被控制的情况下，重新开始语音受理处理，并输出“在微波炉中放入了食材，但是好像没有开始控制。您是不是忘记了？”等应答文。由此，在预测用户控制的时刻没有进行控制的情况下，可以重新开始语音受理处理，并可以通过应答文确认用户是否忘记了对控制对象设备进行控制。

(变形例)

本发明可以采用以下的变形例。

(1)在上述实施方式中，作为语音受理处理的始条件，采用了在微波炉中放入了食材的情况，但是，本发明并不局限于此。例如，也可以采用开闭微波炉1的门或者将物体放置在IH烹调器上作为开始条件。

(2)语音受理处理的开始条件，也可以不是基于一个被控制设备2000的状态变化而是基于多个被控制设备2000的状态变化来判断开始条件是否成立。

在图3的第五行的例子中，在设备ID列200存储有设备ID为“电话_01”的电话机和设备ID为“IH_001”的IH烹调器。而且，在开始条件列201中存储有表示电话机的来电的“incoming＝true”、表示IH烹调器正在使用中的“ih_cooker_state＝On”，在控制对象设备列202中存储有“IH烹调器”。为此，状态判断部1122，在IH烹调器正在使用中有电话机来电的情况下，将IH烹调器确定为控制对象设备。在这种情况下，在应答文列203中存储“有电话的来电。使用中的IH怎么办？”的应答文。为此，应答生成部1130使该应答文从控制设备3000的语音输出部3020输出。

由此，在IH烹调器正在使用中有电话来电的情况下，用户可以通过说出例如“停止”或“小火”等的发言，在使IH烹调器停止或小火之后离开IH烹调器去接听电话。

同样，在图3的第六行的例子中，在设备ID列200中存储有设备ID为“对讲机_01”的对讲机、设备ID为“IH_01”的IH烹调器，在开始条件列201中存储有表示对讲机已经受理了来自来访者的呼叫“ring_intercom＝true”和表示IH烹调器正在使用中的“ih_cooker_state＝On”，在控制对象设备列202中存储有“IH烹调器”。

为此，状态判断部1122，在IH烹调器正在使用中有来自对讲机的呼叫的情况下，将IH烹调器确定为控制对象设备。在这种情况下，在应答文列203中存储“有来访者。使用中的IH怎么办？”的应答文。为此，应答生成部1130使该应答文从控制设备3000的语音输出部3020输出。

由此，在IH烹调器正在使用中出现对讲机的呼叫的情况下，用户可以通过说出例如“停止”或“小火”等的发言，在使IH烹调器停止或小火之后离开IH烹调器去接听对讲机的呼叫。

而且，在图3的第七行的例子中，在设备ID列200中存储有设备ID为“对讲机_01”的对讲机和设备ID为“TV_01”的电视机。而且，在开始条件列201中存储有表示对讲机受理了来自来访者的呼叫的”rin.g_intercom＝true”和表示电视机打开的”tv_state＝ON”，在控制对象设备列202中存储有“电视机/录像机”。为此，状态判断部1122，在正在观看电视机时有来自对讲机的呼叫的情况下，将电视机和录像机确定为控制对象设备。在这种情况下，在应答文列203中存储“有来访者。正在观看的电视机怎么办？”的应答文。为此，应答生成部1130使该应答文从控制设备3000的语音输出部3020输出。

由此，在正在观看电视机时有来访者的情况下，用户可以通过说出例如“电视机关闭。录像机录像”等的发言，使电视机关闭并让录像机录制正在观看的电视节目。

(3)在上述实施方式中，从控制设备3000输出在开始语音受理处理时用于催促对控制对象设备进行控制的应答文，但是，本发明并不局限于此，也可以从控制设备3000输出在开始语音受理处理时用于催促执行与控制对象设备相关联的服务的应答文。

在图3的第三行的例子中，在设备ID列200中存储有设备ID“冰箱_01”，在开始条件列201中存储有“door_state＝Open”，在控制对象设备列202中存储有“冰箱”，在应答文列203中存储有“如果库存没了请通知我们。”的应答文。该应答文是第五信息的一个例子。

为此，状态判断部1122，在冰箱的门处于打开状态的情况下，将冰箱确定为控制对象设备。而且，应答生成部1130使该应答文从控制设备3000的语音输出部3020输出。

在这种情况下，用户说出例如“购买西红柿”这样的用于催促购买冰箱中库存没了的食材的发言。由此，语音处理装置1000，例如，访问云上的食材购买网站，并代理该用户进行购买食材的处理。由此，购买的食材被配送到用户的住宅，用户可以将没有库存的食材补充到冰箱中。另外，在这种情况下，让语音对话字典DB1210事先存储与控制对象设备相关联的服务所对应的语音对话字典，控制命令决定部1121通过参照该语音对话字典来决定服务的执行内容即可。

(4)在上述实施方式中，通过语音从控制设备3000输出在开始语音受理处理时用于催促用户发言的应答文，但是，本发明并不局限于此。例如，在控制设备3000具备LED等的发光装置的情况下，控制设备3000也可以代替通过语音输出应答文而从发光装置发出光。而且，控制设备3000也可以从语音输出部3020输出蜂鸣音等的电子音来代替通过语音输出应答文。而且，在控制设备3000具备显示器的情况下，控制设备3000也可以代替通过语音输出应答文而在显示器上显示应答文的映像。而且，也可以适当地组合这些方式。

产业上的可利用性

本发明，因为可以在通过语音对话控制设备之际减轻用户的负担，所以在通过语音对话控制设备或执行与设备有关的服务的技术领域具有其实用价值。

Claims

1.一种方法，是基于用户的发言内容控制设备的控制装置进行的方法，其特征在于包括以下步骤：

在多个设备的至少其中一个设备检测其状态的变化；

基于表示所述状态的变化的第一信息，从所述多个设备之中确定控制对象设备；

在确定了所述控制对象设备的情况下，开始使用集音装置受理所述用户的语音的语音受理处理；

输出用于催促用户进行与所述控制对象设备有关的发言的通知。

2.根据权利要求1所述的方法，其特征在于，

所述通知是包含所述控制对象设备所对应的第二信息和表示对所述控制对象设备的控制内容的至少一部分的第三信息的第四信息。

3.根据权利要求1或2所述的方法，其特征在于，

所述状态的变化基于从所述多个设备的任何一个设备具备的传感器获得的传感值而检测出。

4.根据权利要求1至3中任一项所述的方法，其特征在于，

在检测出从开始所述语音受理处理之后所述控制对象设备在一定期间内没有被控制的情况下，还再次开始所述语音受理处理并输出所述通知。

5.根据权利要求1至4中任一项所述的方法，其特征在于，

所述通知是催促用于执行与所述控制对象设备相关联的服务的发言的第五信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，

所述通知是从语音输出装置输出的语音。

7.根据权利要求1至6中任一项所述的方法，其特征在于，

所述通知是从电子音输出装置输出的声音。

8.根据权利要求1至7中任一项所述的方法，其特征在于，

所述通知是从显示器输出的映像。

9.根据权利要求1至8中任一项所述的方法，其特征在于，

所述通知是从发光装置输出的光。

10.根据权利要求1至9中任一项所述的方法，其特征在于，

所述集音装置被设置在与所述控制对象设备不同的位置，

在所述语音受理处理中，所述集音装置执行将麦克风的指向性指向对所述控制对象设备预先决定的方向的指向性控制。

11.根据权利要求10所述的方法，其特征在于，

所述预先决定的方向基于所述集音装置集音所述用户为了控制所述控制对象设备而说出的语音的方向的履历来决定。

12.根据权利要求1至11中任一项所述的方法，其特征在于，

在确定所述控制对象设备时，当所述多个设备之中的第一设备变为规定的状态并且与所述第一设备不同的第二设备变为规定的状态的情况下，将所述第一设备以及所述第二设备中的至少其中之一确定为所述控制对象设备。

13.一种控制装置，是基于用户的发言内容控制设备的控制装置，其特征在于包括：

检测部，在多个设备的至少其中一个设备检测其状态的变化；

确定部，基于表示所述状态的变化的第一信息，从所述多个设备之中确定控制对象设备；以及，

输出部，在确定了所述控制对象设备的情况下，开始语音受理处理并输出用于催促用户进行与所述控制对象设备有关的发言的通知。

14.一种程序，其特征在于，

是让计算机执行权利要求1至12中任一项所述的方法的程序。