CN111971647A

CN111971647A - 语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法

Info

Publication number: CN111971647A
Application number: CN201880092205.3A
Authority: CN
Inventors: 桥本康宣; 荒井郁也; 高清水聪; 吉泽和彦; 清水宏; 鹤贺贞雄; 川前治
Original assignee: Maxell Ltd
Current assignee: Maxell Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2020-11-20
Also published as: US20210104242A1; JP2023025061A; WO2019198132A1; US11810567B2; EP3779667A1; EP3779667A4; JPWO2019198132A1; JP7179834B2

Abstract

为了协作地使用多个语音识别设备，语音识别设备包括：语音输入部；语音输出部；与其他语音识别设备之间进行数据收发的通信控制部；对话模式执行部，其对其他语音识别设备发送从语音输入部输入的语音数据，并从语音输出部输出从其他语音识别设备接收到的语音数据；将从语音输入部输入的语音转换为文本数据的语音识别部；从文本数据中检测对话启动热词的热词检测部，其中对话启动热词用于指示启动对话模式执行部；和对其他语音识别设备发送控制命令的命令发送部。当热词检测部检测到对话启动热词时，命令发送部对其他语音识别设备发送使该其他语音识别设备所具有的对话模式执行部启动的控制命令。

Description

语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法

技术领域

本发明涉及语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法。

背景技术

近年来，不断出现了被称作所谓智能音箱或AI音箱的使用了语音识别技术和人工智能技术的语音识别设备，其对说话人发出的语音内容进行语音识别，通过分析说话内容来从附带的扬声器以声音的形式输出与说话内容相应的响应(应答)。例如，在专利文献1中，作为语音识别技术之一例记载了这样的内容，“在对语音输入应用语音识别算法得到了解释候选的情况下，为了以减少冗余性、经过整合的方法提示该解释候选，对用户提供从解释候选中进行选择的机会，将选项以无重复要素的方式提示给用户(选自摘要)”。此外，专利文献2中记载了，“作为自动语音识别系统中的对语音识别模型和数据的使用进行管理的功能，能够进行追踪以预测用户何时有使用系统的可能性(选自摘要)”。

现有技术文献

专利文献

专利文献1：日本特开2013-68952号公报

专利文献2：日本特表2015-537258号公报

发明内容

发明要解决的技术问题

上述的智能音箱等语音识别设备，能够因位于该设备周围的人物以语音对该设备发出指示等，而在该设备进行处理来获得响应，但是这些文献均没有公开协作地使用多个该设备的内容。即，以住宅内使用为例，当家庭成员在客厅中共用该设备来请求获取天气预报、新闻、音乐等互联网上的信息时，能够以语音的形式输出与该请求相应的内容，但是，没有考虑到与客厅以外的例如孩子的房间内的另外的语音识别设备之间进行某些交流、协作动作。因此，无法协作地使用多个语音识别设备，语音识别设备的新的使用方式存在改善的余地。

本发明鉴于上述问题而作出，其目的在于提供一种能够协作地使用多个语音识别设备的语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法。

解决问题的技术手段

为实现上述目的，可采用本发明的后述技术方案。

发明效果

依照本发明，可提供一种能够协作地使用多个语音识别设备的语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法。上述以外的技术目的、技术特征和技术效果将在下述实施方式中说明。

附图说明

图1是本实施方式的语音识别设备的硬件结构图。

图2是语音识别设备的功能框图。

图3A是表示存储在参照存储器中的热词数据的例子的图。

图3B是表示存储在参照存储器中的声音认证数据的例子的图。

图4是表示使用语音识别设备构成的协作系统的图。

图5是表示协作系统的第一呼叫动作的流程图。

图6是表示位置估计数据之一例的图。

图7是表示通常模式/对话模式的第一切换处理的流程的流程图。

图8是表示通常模式/对话模式的第二切换处理的流程的流程图。

图9是表示新机设置时的第一设定处理的概念图。

图10是表示新机设置时的第二设定处理的概念图。

图11是表示新机设置时的第二设定处理的流程的流程图。

图12是表示第二实施方式中的房屋内的语音识别设备的协作系统的概要结构的图。

图13是表示记录了人物的每个时间段的使用状况的使用状况数据之一例的图。

图14是表示记录了人物的每个时间段的呼叫优先级的呼叫优先级数据之一例的图。

图15是表示用坞站将语音识别设备与便携式通信终端连接的例子的图。

图16是表示切换至看家模式的切换处理的流程图。

具体实施方式

下面使用附图对本发明的实施方式的例子进行说明。各附图中，对相同功能标注相同标记并省略重复说明。

＜第一实施方式＞

图1是本实施方式的语音识别设备1的硬件结构图。语音识别设备1可以是语音识别专用的装置，也可以是便携式电话终端、智能手机、个人计算机、游戏机等现存的具有通信功能的电子设备。此外，在语音识别设备1中，作为通信功能可以使用有线LAN、无线LAN、便携式电话线路的无线通信、Bluetooth(注册商标)、RFID等近距离无线通信等通常的通信功能，包括一个或多个与这些通信功能对应的通信接口。

具体而言，在语音识别设备1中，CPU101、存储器103、作为外部接口的有线LAN I/F104、无线LAN I/F105和无线通信I/F106、语音输入部107(例如麦克风)、语音输出部108(例如扬声器)、显示输出部109(例如液晶屏幕)经总线102彼此连接。此外，总线102上还可以连接人物探测传感器I/F110、计时器111、RTC112和摄像机113。

存储器103包括由易失性存储器构成的内部存储器1031和由非易失性存储器构成的参照存储器1032。

人物探测传感器I/F110是用于外接人物探测传感器的I/F，其不限定人物探测传感器的种类，例如人体传感器、声音采集传感器等。

图2是语音识别设备1的功能框图。

语音识别设备1包括语音处理引擎120。语音处理引擎120主要包括语音处理部1201、语音识别部1202、热词检测部1203、语音分析部1204和特征提取部1205。

语音处理引擎120通过由CPU101读取存储在参照存储器1032中的语音处理程序加载至内部存储器1031，并执行按照语音处理程序的处理，来实现语音处理引擎120的功能。

具体而言，当人朝向语音识别设备1说话时，其声音被语音输入部107采集，声音(模拟数据)被转换为由数字数据构成的语音数据。

语音处理部1201进行一些调整等，例如除去语音数据中包含的环境噪声等。

语音识别部1202进行将语音数据转换为字符串数据的语音识别处理。

热词检测部1203判断字符串数据是否是包含规定语句(下面称为“热词”(hotword))的字符串数据，其中，该规定语句是要求语音识别设备1开始工作、启动——例如从待机状态恢复等的语句。

图3A是表示存储在参照存储器1032中的热词数据150的例子的图。热词数据150是由已登记热词1501、类别1502和呼叫目标1503关联得到的数据，其中，类别1502规定了语音识别设备1针对该已登记热词1501的动作，呼叫目标1503规定了用于确定要使用已登记热词1501呼叫的语音识别设备1的设备固有信息。热词检测部1203基于字符串数据是否记载在热词数据150中来进行热词的检测。

语音分析部1204决定如何解释用户朝向语音识别设备1说出的内容，即，决定与字符串数据对应的响应数据、控制命令，将响应数据从语音输出部108输出，或将控制命令输出至CPU101，使CPU101执行语音数据表示的处理。例如，作为控制命令，可以是播放特定音乐的命令。

语音识别部1202也可以不设置在语音识别设备1上，而是设置在与语音识别设备1连接的外部服务器201上(参照图4)，由外部服务器201执行语音识别处理。由此，能够减轻语音识别设备1的负载。在由语音识别设备1执行语音识别处理的情况下，能够减少与外部服务器201之间的数据通信量。

此外，作为第一实施方式的语音识别设备1的特征性功能，除了如现有的语音识别设备那样单独工作之外，还具有这样的功能，能够将用户说出的语音输送至设于规定空间内例如房屋、建筑物内的私有通信网络(下称住宅内LAN210，参照图4的示例)上的其他语音识别设备1，来进行对话。因此，热词检测部1203进行热词的检测，该热词是一个起点(即触发)，自此转移至用于进行对话的对话模式。进而，语音识别设备1具有特征提取部1205，从可参加经住宅内LAN210进行的对话的人物处提取声音、图像的特征，判断与已登记数据是否一致。

图3B是表示存储在参照存储器1032中的声音认证数据160的例子的图。

声音认证数据160是由说话人1601、说话人类别1602和说话人模板1603关联得到的数据，其中，说话人1601是用于唯一地确定可参加经住宅内LAN210进行的对话的人物的信息，说话人类别1602表示说话人的属性，例如是具有语音识别设备1、通信网络的设定权限的“主用户”，还是不具有设定权限、仅具有参加住宅内LAN210上的对话的参加权限的“普通用户”，说话人模板1603表示各个人的声音的特征。

图4是表示使用语音识别设备1构成的协作系统100的图，表示了在住宅内使用的情况之一例。该例虽然表示为住宅内，但并不限定于房屋内，在事务所、教室等特定的人群聚集的空间也能够应用本实施方式。

(第一呼叫动作)

图4中，房屋内各房间1、房间2、房间3、房间4中分别设置的第一语音识别设备1A、第二语音识别设备1B、第三语音识别设备1C、第四语音识别设备1D，具有与图1的语音识别设备1相同的功能。这里，处于各房间的第一～第四语音识别设备1A～1D各自经设置于各房间2～4的作为访问接入点或无线中继器的第二AP2032～第四AP2034，与设置在房间1的路由器202连接。而且，第一～第四语音识别设备1A～1D各自经路由器202与外部的互联网200连接。

下面，按图5的各步骤的顺序对协作系统100的第一呼叫动作进行说明。假设在本步骤的处理开始时，第一～第四语音识别设备1A～1D全部已接通电源，语音输入部107和语音处理引擎120处于已启动的状态。将该状态称为待机模式。

当位于房间1的人物A朝向第一语音识别设备1A进行呼叫时，人物A的声音被第一语音识别设备1A的语音输入部107采集，由热词检测部1203判断其是否是表示请求启动之含义的第一热词。在热词检测部1203判断为呼叫语音是第一热词时(S101/是)，从语音输出部108播放“有什么事情吗？”这样的规定的格式语句的语音响应数据。热词检测部1203将第一热词输出至语音分析部1204，语音分析部1204对通常模式执行部1406输出执行命令。由此，第一语音识别设备1A切换至通常模式。通常模式是能够执行第一语音识别设备1A所具有的所有功能的动作模式。

当热词检测部1203判断为不是热词时(S101/否)，维持待机模式。

接着，人物A朝向处于其他房间的人物B呼叫“小B！”时，其声音经语音输入部107采集为语音数据，在语音处理引擎120的语音处理部1201进行环境噪声除去等调整后，由热词检测部1203判断是否是第二热词(请求指示切换至对话模式的热词)(S102)。

“小B！”这一呼叫语音数据已作为热词被事先登记在热词数据150中，当热词检测部1203判断为“小B！”这一词语是第二热词时(S102/是)，将第二热词输出至语音分析部1204。本实施方式中，以位于住宅内的人物的姓名作为热词，但并不限定于此，也可以是其他格式词语，例如“对话”、“连接”等之类的词语或其他词语，这里，热词是用于转移至对话模式的起点(触发)。

语音分析部1204分析出第二热词是用于切换至对话模式的请求，并选择其所需的控制命令(S103)。本例中相当于语音传输命令和语音播放命令，用于从第一语音识别设备1A向第二～第四语音识别设备1B～1D的每一个，分别发送使第一～第四语音识别设备1A～1D切换至对话模式的模式切换命令和“小B！”这一语音数据，使得从各自的语音输出部108输出。

在第一语音识别设备1A中，也启动对话模式执行部1403，切换至对话模式(S104)。

第一语音识别设备1A的命令发送部1402基于语音传输命令，经通信控制部1410对第二～第四语音识别设备1B～1D传输“小B！”这一呼叫语音数据，并将用于切换至对话模式的模式切换命令和语音播放命令发送至各个语音识别设备。此外，第一语音识别设备1A的命令发送部1402开始计测从对第二～第四语音识别设备1B～1D传输呼叫语音数据起经过的时间(S105)。

第二～第四语音识别设备1B～1D的每一个，从各自具有的语音输出部108将呼叫语音数据播放为“小B！”这一语音，并启动对话模式执行部1403来切换至对话模式。关于语音数据的播放顺序，可以由第二～第四语音识别设备1B～1D各自同时播放语音，也可以按规定顺序从第二～第四语音识别设备1B～1D输出语音。该规定顺序例如可以是语音识别设备的安装顺序，或按每个房间赋予了优先级的顺序(参照图14)等。

当位于房间2的人物B作出回应，例如发出“在！”这样的针对呼叫的回答时，第二语音识别设备1B经语音输入部107采集为语音数据，将该响应语音数据送回至作为呼叫方的第一语音识别设备1A。此时，将第二语音识别设备1B与人物B关联(绑定)。进而，将关联信息共用地登记在第一、第三、第四语音识别设备1A、1C、1D中，这里，关联信息表示设有第二语音识别设备1B的房间2中的人物是人物B。

图6表示位置估计数据之一例。

作为人物B与第二语音识别设备1B之间的关联的登记示例，当第一语音识别设备1A接收到上述响应语音数据时，可以将“人物B＝第二语音识别设备1B”补充到事先登记在参照存储器1032中的位置估计数据(参照图6)。住宅内的第一～第四语音识别设备1A～1D的标识可使用设备的Mac地址、住宅内LAN210内的设备分配IP地址等特定的标识符。

进而，从第一语音识别设备1A要求住宅内的其他语音识别设备即第二～第四语音识别设备1B～1D登记上述的位置估计数据，将其保存在各第二～第四语音识别设备1B～1D的参照存储器1032中。其中，在上述位置估计数据已经保存在各第一～第四语音识别设备1A～1D内的参照存储器1032中的情况下，判断为已登记故不进行关联操作。关于人物的登记，若在语音处理引擎120或外部服务器201上将图2的“小B！”这一呼叫语音中包含的姓名的部分提取而用作姓名数据，则能够实现“人物B的姓名＝第二语音识别设备1B”这样的关联。

此外，关于用于判断是否切换至对话模式的热词的登记方法，以后述的方法在设置语音识别设备时例如初始设定时、或设定新登记的热词时进行。

第一语音识别设备1A的命令发送部1402，在计时器111测得的经过时间大于等于用于判断响应之有无的待机时间阈值的情况下(S106/是)，对第二～第四语音识别设备1B～1D中没有发出响应的设备发送从对话模式返回待机模式的命令(S107)。

在从第二～第四语音识别设备1B～1D中的至少一个收到语音数据的响应，且该响应的经过时间小于待机时间阈值的情况下(S106/否)，维持第一语音识别设备1A和发出响应的设备例如第二语音识别设备1B的对话模式(S108)。

对话模式执行部1403在步骤S104中切换至对话模式后，对于输入至第一语音识别设备1A的语音输入部107的语音和在步骤S105中输入至第二语音识别设备1B的语音输入部107的语音，在第一语音识别设备1A与第二语音识别设备1B之间进行语音的收发。

当第一语音识别设备1A和第二语音识别设备1B中的任一者检测到用于结束对话模式的第三热词时(S109/是)，检测到热词的设备例如第二语音识别设备1B切换至待机模式(S110)，并且对第一语音识别设备1A发送切换至待机模式的命令(S107)。于是，第一语音识别设备1A也切换至待机模式，对话模式结束。

此外，如果在步骤S102中没有检测到第二热词(S102/否)，则第一语音识别设备1A不转移至对话模式，而是维持通常模式(S111)，结束处理。

在上述例子中，关于关联操作，最先实施了呼叫的第一语音识别设备1A成为主设备，由其对房屋2内的被呼叫的第二～第四语音识别设备1B～1D分别实施控制指示，但是不限定于此，也可以由被呼叫的、作出响应的第二语音识别设备1B成为主设备。

作为另外的关联方法，也可以是，例如在住宅内首次设置第四语音识别设备1D时，事先登记第四语音识别设备1D的主要使用者或操作者是人物D，并在设置后立即经住宅内LAN210将关联数据发送到第一～第三语音识别设备1A～1C，在第一～第四语音识别设备1A～1D内的参照存储器1032中登记“人物D＝第四语音识别设备1D”。

上述例子是从第一语音识别设备1A向第二语音识别设备1B发出呼叫的例子，其步骤能够应用于住宅内的所有语音识别设备之间，从上述例子以外的语音识别设备向其他语音识别设备发出的呼叫也能够同样地应用。

此外，在上述例子中，第一～第四语音识别设备1A～1D利用无线LAN与各房间进行通信，但是也能够采用基于有线LAN的连接，或采用使用了便携式电话线路的连接。进而，也能够仅在对话模式时将通信模式换成其他接口。例如，可以在通常模式使用无线LAN，在对话模式利用Bluetooth这样的另外的无线系统。

(第二呼叫动作)

在如上述实施方式那样，完成语音识别设备1与人物的关联后，之后在人物A与人物B进行对话时，仅开放人物A使用的第一语音识别设备1A与人物B使用的第二语音识别设备1B之间的通信，关闭这之外的与语音识别设备1之间的通信，由此能够提高对话内容的保密性。

例如，在人物A第二次及以后呼叫人物B时，第一语音识别设备1A的命令发送部1402建立与登记在位置估计数据(图6)中的人物B所关联的第二语音识别设备1B的通信(通过发送模式切换命令，接收对命令的响应来建立通信)，将语音数据发送至第二语音识别设备1B。

对话模式执行部1403这以后仅在第一语音识别设备1A与第二语音识别设备1B之间实施语音数据的通信，能够形成人物A与人物B直接对话的状态。由此，没有必要向住宅内的所有语音识别设备发送语音数据。

在该对话模式执行期间，例如，在从呼叫起的规定时间内没有接收到来自人物B的响应的语音数据时，第一语音识别设备1A的对话模式执行部1403判断对话对方不在。于是，从对话模式执行部1403指示命令发送部1402，开通目前为止处于通信关闭状态的与房屋内的其他语音识别设备间的通信通道，即，向其他语音识别设备(第三、第四语音识别设备1C、1D)发送语音数据，等待响应。

这里，例如如果从位于房间4的第四语音识别设备1D得到响应，则第一语音识别设备1A开始与该第四语音识别设备1D之间通信，再次开始对话。该情况下，第一语音识别设备1A可以不在内部的参照存储器1032的位置估计数据190中存储人物B与第四语音识别设备1D的关联信息，而是看作人物B暂时移动到了其他地方，或者，也可以生成人物B与第四语音识别设备1D的关联信息并赋予优先级，按照人物B与第二语音识别设备1B的关联为上级、人物B与第四语音识别设备1D的关联为下级来设定优先顺序，按优先顺序进行连接，等待响应的有无。

进而，如果从第四语音识别设备1D也没有得到响应，则依次对住宅内的其他语音识别设备(在本例中为第三语音识别设备1C)发送语音数据，等待响应。于是，对第三语音识别设备1C发送语音数据等待响应，在最终于规定时间内所有房间的语音识别设备均没有响应的情况下，第一语音识别设备1A判断为无响应，对操作者即人物A例如以“无人回应。”等规定的词语进行回答。或者，也可以不像上述那样由第一语音识别设备1A判断其他语音识别设备无响应，而是由其他语音识别设备判断在规定时间内没有来自人物B的响应语音，并将无响应信息送回第一语音识别设备1A，使第一语音识别设备1A认识到无响应，输出“无人回应。”等规定的回答语音。

其中，规定的回答语音数据可以事先保存在存储器103中，也可以使用保存在互联网200上的外部服务器201等上的数据。

(第三呼叫动作)

在本例中，在图1的语音识别设备1的人物探测传感器I/F110，连接能够进行人物确认的摄像传感器、或判断人物有无的人体传感器等人物探测传感器，基于其探测结果进行呼叫动作。此外，也可以使用语音识别设备1内置的摄像机113。

例如，在响应来自人物A的呼叫而从第一语音识别设备1A向位于各房间的第二～第四语音识别设备1B～1D发送人物A的呼叫语音数据时，利用第二～第四语音识别设备1B～1D分别设有的人物探测传感器判断人的有无，在能够判断为无人的房间，由设置在房间的语音识别设备向第一语音识别设备1A返回表示无人的不在通知，命令发送部1402接收该不在通知。

于是，第一语音识别设备1A的命令发送部1402不向对第一语音识别设备1A发送了不在通知的语音识别设备进行呼叫语音的输出。

另一方面，第一语音识别设备1A的命令发送部1402向没有对第一语音识别设备1A发送不在通知的语音识别设备发送语音数据，接收到语音数据的语音识别设备播放语音数据进行呼叫。之后的动作可以与上述各实施方式的情况相同。

上述人物的识别判断可以使用通常的方法。能够由使用红外线传感器等构成的人体传感器探测人物的移动，来检测人物的有无。

进而，也可以使用摄像机113作为人物探测传感器。于是，可以由面部识别部1404从摄像机113拍摄到的图像中提取人的特征(例如面部图像)来判断人物的有无。可以事先在参照存储器1032中保存由面部图像与人物相关联得到的面部认证数据，与事先保存的人物与脸部图像之间的对应信息进行对照，判断所呼叫的人物是否在室内。如果摄像机113捕获到了所呼叫的人物，能够判断为其在室内，则能够通过第一语音识别设备1A与第二语音识别设备1B的通信连接，来进行人物A与人物B的对话。

(第四呼叫动作)

在另一实施方式中，图4的人物A对人物B进行呼叫，在人物B以外的人物作出回答的情况下，不建立第一语音识别设备1A与第二语音识别设备1B之间的通信连接，而是再次实施呼叫。

首先，在设置于各房间的第一～第四语音识别设备1A～1D的每一个上，将居住在房屋内的人物的声音认证数据160(图3B)事先保存在参照存储器1032中。声音认证数据160通过这样的方式生成，其中，由语音处理引擎120的特征提取部1205利用人物的声纹、声音的语调或声音具有的频率特性等生成说话人模板1603，将其作为声音认证数据160事先保存在第一～第四语音识别设备1A～1D的参照存储器1032中。

声音认证数据160能够在第一～第四语音识别设备1A～1D各自进行初始设定时，登记到各设备。在此基础上，第一语音识别设备1A的声音识别部1405对登记在声音认证数据160中的人物B的声音特征数据与进行了回答的人物的声音的特征进行比较，如果一致则判断为是人物B，将判断结果交给命令发送部1402。于是，命令发送部1402对第二语音识别设备1B发送用于转移至对话模式的命令。

如果声音识别部1405判断为声音的特征不一致，则按照不是人物B来进行处理。

声音认证数据160可以如上所述事先保存在位于各房间的所有第一～第四语音识别设备1A～1D的每一个中，比较各个房间的人物响应的声音与人物A所呼叫的人物B的声音是否一致，但也可以代替这样的方式，仅在特定的作为主设备的第一语音识别设备1A的参照存储器1032中保存声音认证数据160，在第一语音识别设备1A上判断声音的特征是否一致。

或者也可以是，在设置于住宅内的服务器等设备上事先保存声音认证数据160，将第一～第四语音识别设备1A～1D分别发送来的语音数据与声音认证数据160进行比较，判断一致/不一致。

进而，也可以在设置于住宅外的外部服务器上保存声音认证数据160，对声音的特征进行比较。

通过如上述例子那样对说话人1601的声音的特征进行判断，能够防止居住在房屋内的家庭成员以外的人物、由家庭成员许可能够参加对话的人物以外的外人参加对话，能够提高安全性。

此外，在检测到已登记的说话人以外的声音的特征的情况下，例如可以使进行呼叫的一方的第一语音识别设备1A所具有的显示输出部109进行警报显示，或从语音输出部108输出“有外人回应”这样的语音来发出警告。

(通常模式/对话模式的切换1)

图7是表示通常模式/对话模式的第一切换处理的流程的流程图，与图5的例子相反，默认设定为对话模式。

在本例中，在设置了第一～第四语音识别设备1A～1D后，在主电源接通的状态下，对话模式执行部1403启动，成为等待操作者呼叫其他人物的对话模式。此时，当操作者说出模式切换的热词，例如“模式切换”这样的规定词语时(S201/是)，模式切换部1401切换为通常模式(S202)，通常模式执行部1406启动(S203)。

在步骤S201中，在没有检测到模式切换的热词的情况下(S201/否)，通过对话模式执行部1403维持对话模式。

通常模式执行部1406在不满足返回至对话模式的返回条件的期间(S204/否)，维持通常模式。

在满足从通常模式返回至对话模式的返回条件时(S204/是)，对话模式执行部1403再次启动，返回至对话模式。作为返回条件，可以设定用于返回的热词，也可以是，如果在规定时间内没有收到操作者的响应则返回对话模式。

(通常模式/对话模式的切换2)

在本例中，语音识别设备1首先启动语音输入部107，仅持续监视语音的有无(S301/否)。当语音输入部107检测到语音时(S301/是)，热词检测部1203判断检测到的语音是请求语音识别设备1启动(请求启动通常模式)的第一热词，还是请求启动对话模式的第二热词(S302)。如果不符合第一热词和第二热词中的任一个(S302/否)，则返回到语音检测处理。

在检测到第一热词的情况下(S302/第一热词)，通常模式执行部1406启动(S303)。例如，在用户呼叫了为了启动语音识别设备1而设定的昵称的情况下，按通常模式进行之后的处理。

在检测到第二热词的情况下(S302/第二热词)，对话模式执行部1403启动(S304)。例如，在呼叫了家庭成员、位于住宅内的人物的姓名的情况下，判断为是对话模式，进行之后的处理。

第一热词、第二热词可以事先设定，也可以在设置后改变为与操作者的易用程度匹配的热词。为了改变热词的设定，能够在智能手机、个人计算机上安装设定用的专用应用软件来实施。或者，可以事先决定主操作者501，用主操作者501的声音对第一～第四语音识别设备1A～1D指示改变热词，或者，也可以从主语音识别设备例如第一语音识别设备1A向其他位于住宅内的从设备例如第二～第四语音识别设备1B～1D发出改变的指示。此时，使得仅在识别为主操作者501的声音的情况下能够改变热词，由此防止热词被容易地改变。主操作者501的声音的设定方法是，准备智能手机、个人计算机的设定用专用应用，由此进行声音的登记。对于主操作者501的声音，可以由第一语音识别设备1A的语音处理引擎120内的特征提取部1205生成声音特征数据，将生成的数据登记在参照存储器1032中，或者，在智能手机、个人计算机上生成声音认证数据160，将生成的数据登记在参照存储器1032中。进而，在具有与住宅内的网络环境相连的家庭服务器601的情况下，可以将声音特征数据保存在该家庭服务器601上，使该服务器与语音识别设备协作，对所呼叫的声音的特征与保存数据的声音的特征进行比较确认。

(新机设置时的设定1)

图9是表示关于新机设置时的第一设定处理的概念图。

在住宅内新设置语音识别设备1时，在智能手机、个人计算机等电子设备401上安装专用的应用软件(初始设定用应用软件)410。然后进行这些设定，例如，设定与住宅内的路由器202等之间的网络连接，在存在现有语音识别设备1的情况下进行设备登记，设定关于住宅内的家庭成员等人物与语音识别设备1之间的对应关系的关联数据、家庭成员等人物的声音认证数据160等。在该例中，新设置的语音识别设备与住宅内的例如无线路由器这样的通信设备之间的连接设定所采用的方法是，使用上述的智能手机、个人计算机等进行设定，或使用WPS(WiFi Protected Setup)这样的自动设定方法进行连接设定。

此外，作为上述的人物与语音识别设备1之间的对应关系，在所述智能手机、个人计算机等的应用软件上进行这样的关联设定：人物A主要使用的设备为第一语音识别设备1A，人物B主要使用的设备为第二语音识别设备1B。

进而，关于人物的声音认证数据160，可以读取已有设备例如第三语音识别设备1C上保存的数据来共用该数据，或在上述的电子设备上管理，对该数据进行设定。

(新机设置时的设定2)

图10是表示关于新机设置时的第二设定处理的概念图，图11是表示新机设置时的第二设定处理的流程的流程图。

在该例子中，由具有住宅内通信设备的设定权限的主操作者501通过语音进行新语音识别设备1S的连接设定。

首先，主操作者501朝向新语音识别设备1S开始说话，语音输入部107通过接收语音的输入而开始连接设定处理，并开始计时器111的计时(S401)。

当新语音识别设备1S的热词检测部1203检测到用于进行初始设定的第四热词W501时(S402/OK)，新语音识别设备1S的初始设定部1408开始初始设定处理。具体而言，初始设定部1408将主操作者501的语音数据和初始设定请求数据发送给住宅内的已有设备，例如第一～第四语音识别设备1A～1D、家庭服务器601(S403)。至此为止的发送处理要在规定时间内进行(S404)。

之所以将发送处理限定在规定时间内，是为了降低数据发送时会扩散至住宅外等的初始设定请求数据和主操作者501的语音数据被窃听的可能性。

发送的所述请求数据、语音数据，被住宅内已有的第一～第四语音识别设备1A～1D接收(S403)。

第一～第四语音识别设备1A～1D各自的特征提取部1205，基于上述广播来的初始设定请求数据，验证所发送的语音数据是否是主操作者501的语音数据(S405)。特征提取部1205从第一～第四语音识别设备1A～1D各自的参照存储器1032中保存的表示主操作者501的声音特征的说话人模板和广播来的语音数据中，分别提取声音特征数据进行比较，如果一致(S405/OK)则对新语音识别设备1S执行初始设定(S406)，结束连接设定处理。

在步骤S402、S405中判断结果为NG的情况下(S402/NG)，(S405/NG)也结束本处理。

初始设定的执行，是由第一～第四语音识别设备1A～1D中的能够对住宅内的所有语音识别设备进行统一控制的主语音识别设备进行的。主语音识别设备的作用例如由设置住宅内的客厅等处的设备(家人会以较高频率使用的语音识别设备)、第一个设置在住宅内的设备完成。或者，也可以由主操作者501设定主语音识别设备。

或者，也可以使用住宅内的家庭服务器601为主设备，执行上述的语音数据的验证、新连接设备的初始设定。在家庭服务器601实施语音数据的验证的情况下，主操作者501的语音数据、初始设定请求数据由已有的第一～第四语音识别设备1A～1D接收并转发给家庭服务器601，或由家庭服务器601自身接收。家庭服务器601上事先保存主操作者501的声音特征数据即声音模板，进行声音的特征是否一致的验证，如果一致，则从家庭服务器601对新语音识别设备1S发出关于通信的各种设定的指示，使得其能够连接至住宅内LAN210。

＜第二实施方式＞

在本实施方式中，使用了语音识别设备1的住宅内的对话系统由还包括家庭服务器设备的系统构成。图12是表示第二实施方式中的房屋内的语音识别设备1的协作系统100a的概要结构的图。

与图4的不同之处在于，住宅内LAN210上具有家庭服务器601。家庭服务器601上保存着住宅内的人物的语音数据、包含声音的特征点的声音认证数据160。而且，家庭服务器601根据从第一～第四语音识别设备1A～1D的每一个发送来的语音数据、通知人物的有无的数据，来始终监视住宅内的人物是否位于第一～第四语音识别设备1A～1D中的任一设备的附近。

由此，在图12中，在从人物A呼唤人物D的情况下，接收到人物A的呼叫的第一语音识别设备1A从家庭服务器601获取被判断为最靠近人物D的语音识别设备(第四语音识别设备1D)的信息。

然后，从第一语音识别设备1A仅对第四语音识别设备1D发送语音数据，于是不用每次确认对话对方的位置，就能够实现仅与想要呼唤的人物附近的语音识别设备之间的对话。

图12中，位于室内的人是房间2中的人物B和房间4中的人物D。第一～第四语音识别设备1A～1D各自利用自身设有的人物探测传感器I/F110掌握室内状况，将其结果发送给家庭服务器601。由此，第一语音识别设备1A通过向家庭服务器601询问检测到人物的语音识别设备是哪个设备，就能够优先与位于房间2和房间4的第二语音识别设备1B和第四语音识别设备1D建立通信连接。

进而，通过由家庭服务器601收集人物的有无、语音的有无等信息，能够始终掌握哪个人物在哪个房间。这样，能够由家庭服务器601确认从第一语音识别设备1A发送针对人物D的呼叫数据的发送目的地，将呼叫数据发送给设置在人物D所处的房间4的第四语音识别设备1D。

接着，人物D对第四语音识别设备1D上播放的呼叫作出响应，建立第一语音识别设备1A与第四语音识别设备1D之间的通信连接，能够进行人物A与人物D之间的对话。

在上述的例子中，家庭服务器601通过第一～第四语音识别设备1A～1D上分别设置的人物探测传感器掌握室内状况，但也可以代替这种方式，或者在这种方式的基础上，使用各语音识别设备的使用状况的数据。

图13表示记录了人物A的每个时间段的使用状况的使用状况数据170之一例。图14表示基于使用状况数据170决定的人物A每个时间段的呼叫优先级数据180之一例。对于其他人物也生成同样的数据，不过这里没有图示。

在第一～第四语音识别设备1A～1D各自的参照存储器1032中，保存使用状况数据170、呼叫优先级数据180。例如当人物A受到呼叫而通过第一语音识别设备1A作出响应时，第一～第四语音识别设备1A～1D各自在本机上保存的使用状况数据170和呼叫优先级数据180中，写入并更新响应成绩(表示作出了响应的历史记录)和呼叫优先级。

进而，第一语音识别设备1A将更新后的使用状况数据170和呼叫优先级数据180广播发送至住宅内LAN210。第二～第四语音识别设备1B～1D各自使用接收到的更新后的使用状况数据170和呼叫优先级数据180更新本机的参照存储器1032中存储的使用状况数据170和呼叫优先级数据180。

该状态下，假定人物B在星期一的7：00从第四语音识别设备1D呼叫了人物A。第四语音识别设备1D的命令发送部1402参照呼叫优先级数据180，按除本机以外的第一～第三语音识别设备1A～1C中的优先级从高到底的顺序，即按第二语音识别设备1B、第一语音识别设备1A、第三语音识别设备1C的顺序依次读取。

其中，呼叫优先级数据180不仅依赖于使用状况数据170，也可以根据用户的指定而改变。例如可以是，在知道呼叫目标在某时间段位于特定设备的旁边的情况下，临时改变呼叫优先级数据180，令该设备的优先级为1级。

此外，例如，如果在第一使用状况数据170中能够掌握人物A对第二语音识别设备1B的使用频率的特点是，在星期六、星期天的20时至第二天早上8时之间频繁地使用该设备，则如果处于该时间内，能够判断为人物A在室内的可能性较高，能够尝试对话模式的连接。在上述以外的时间段，家庭服务器601还能够按人物A不在室内来进行处理。

(与住宅外的对话)

在上述例子的情况下，在万一判断为被呼叫的人物D不在室内的情况下，还能够将语音数据传输至人物D持有的智能手机等通信设备。

在此情况下，通过将人物D和其持有的通信设备的互联网地址、线路信息、设备ID等设备信息事先登记在家庭服务器601的参照存储器1032中，能够按照该信息向通信设备传输呼叫数据。

当呼叫信息送达人物D持有的通信设备时，通过屏幕显示、声音输出、振动等通知人物D。这里也可以是，通过人物D进行响应，而在住宅内的第一语音识别设备1A与住宅外的人物B持有的通信设备之间开始通话。

如果人物D在该阶段也不回答呼叫，则从家庭服务器601对第一语音识别设备1A发送不在通知数据，针对人物D未给出响应(没有接听)这一状况，从第一语音识别设备1A输出例如“当前无人回应”这样的规定的语音。

上面所述的实施方式中，说明了从第一语音识别设备1A对其他第二～第四语音识别设备1B～1D进行呼叫的例子，但是不限于此，也能够从第二～第四语音识别设备1B～1D中的任一个进行呼叫。因此，能够从住宅内的任一个语音识别设备呼叫其他语音识别设备。此外，本实施方式的语音识别设备能够设置多个，在新设置的情况下，能够利用上述的设置方法来新增设备。

(来自住宅外的通知)

图15表示通过坞站701连接语音识别设备1和便携式通信终端71的例子。

语音识别设备1还包括坞站701。坞站701包括对便携式通信终端71进行充电的充电控制接口711，和经连接端子进行通信的通信控制接口712。作为具体的功能，能够实现通过USB(Universal Serial Bus)、特定的便携式通信终端接口进行有线连接的功能、或无线充电功能以及无线通信功能。

在便携式通信终端71收到来电的情况下，从便携式通信终端71经通信控制接口712输出至语音识别设备1，从语音输出部108输出“来电话了。”、“来电子邮件了。”这样的来电通知语音。

当便携式通信终端71的持有者作出“请播放。”、“从谁那里来的？”、“什么内容？”这样的响应时，能够对便携式通信终端71进行接听指示、电子邮件内容的传输指示，告知发出了通知的对方的姓名，或将语音识别设备作为电话的扬声器动作，如果是电子邮件则能够以语音的形式输出电子邮件内容。

进而，在便携式通信终端71的持有者不在室内的情况下，根据规定时间内有无响应来判断其位于房屋内的其他场所，从图12所示的家庭服务器601推断最靠近便携式通信终端71的持有者当前所处位置的语音识别设备1，对该语音识别设备1传输来电通知。基于传输来的来电通知，进行与上述的呼叫动作同样的动作。

此外，作为识别便携式通信终端71的持有者当前所处场所的方法，可以在家庭服务器601中使用房屋内的每一个语音识别设备1的使用状况、用户对各个语音识别设备1说出的声音的特征提取数据、各个语音识别设备1采集的声音、坞站701与便携式通信终端71的连接状况等，判断房屋内的人物在哪个语音识别设备1的附近。

进而也可以是，在便携式通信终端71那样通常其持有者随身带着的设备(也可以是可穿戴设备)能够使用近距离通信——可判断为足够近，例如连接到坞站701上——来与语音识别设备1进行通信，或能够用语音识别设备1的摄像机113确认该终端处于同一房间的情况下，推断终端持有者位于该房间，采取应对来提高该房间的语音识别设备1面对呼叫的优先级。

＜第三实施方式＞

(家中无人时的监视)

第三实施方式将图12所示的第二实施方式的结构应用于其他方式，涉及看家模式。图16是表示切换至看家模式的切换处理的流程图。

住宅内的人物中的具有访问各语音识别设备1之许可的人物发出用于切换至看家模式的第五热词，例如“拜托看家！”。当第一～第四语音识别设备1A～1D中的任一个检测到第五热词时(S501/是)，检测到第五热词的语音识别设备的特征提取部1205，对声音认证数据160中作为具有访问住宅内LAN之许可的人物登记的人物的声音的特征与由该语音识别设备1提取的声音特征数据进行比较判断。

该判断的方法能够使用之前所述的各实施方式中说明的方法。此外，热词的确认和访问许可的判断的顺序不分前后。

当特征提取部1205判断为一致时(S502/是)，命令发送部1402向家庭服务器601发出向看家模式转移的指示(S503)。

家庭服务器601在接收到向看家模式转移的转移指示时，从接收到指示起经过规定时间后，对住宅内的所有的第一～第四语音识别设备1A～1D发出看家模式转移指示(S504)以转移至看家模式，其中在看家模式下，在探测到规定音量以上的声音的情况下，向家庭服务器601发送表示出现异常声音的通知。

第一～第四语音识别设备1A～1D各自通过本机设置的模式切换部1401切换至看家模式，看家模式执行部1407执行看家模式的处理(S505)。

在第一～第四语音识别设备1A～1D中的至少一台于看家模式下检测到语音时(S506/是)，检测到语音的第一～第四语音识别设备1A～1D的特征提取部1205对检测到的语音与登记在声音认证数据160中的人物(家人)的声音特征数据进行比较。当检测到的语音与登记在声音认证数据160中的声音特征数据一致时(S507/是)，模式切换部1401从看家模式返回至通常模式(S508)。

在步骤S507中，在判断为特征提取部1205检测到的语音数据与登记在声音认证数据160中的人物(家人)的声音特征数据不一致时(S507/否)，模式切换部1401切换至警戒模式(S509)，警戒模式执行部1409启动。

警戒模式执行部1409启动警戒模式，例如，启动第一～第四语音识别设备1A～1D分别设有的摄像机113进行室内图像数据的记录，或执行语音输入部107检测到的语音的记录处理。此外，也可以对家庭服务器601发送异常信息。家庭服务器601在接收到异常信息时，向事先登记的家人所持有的便携式电话、智能手机等便携式通信终端71发送电子邮件等警报。

接收到警报的家人还能够与家庭服务器601进行通信连接，家庭服务器601将检测到异常声音的语音识别设备1的语音输入部107采集的声音接收为语音数据，将该数据直接发送给家人，使得能够确认住宅内的状况。

在警戒模式的执行期间，当满足了警戒模式的解除条件，例如检测到回家的家人发出的指示返回通常模式的第一热词时(S510/是)，模式切换部1401解除警戒模式，返回至通常模式(S508)。

上面说明了使用多个语音识别设备1的例子，但是语音识别设备1单独也能够进行监视动作。在单独动作的情况下，由语音识别设备1具有家庭服务器601所执行的功能。或者，也能够代替家庭服务器601利用互联网上的云服务器等。

依照本实施方式，能够使住宅内的语音识别设备1协作动作，基于家中无人期间有无语音输入以及语音的特征是否是已经登记的语音，来启动警戒模式。由此，能够使用设置在多个房间的语音识别设备1监视住宅内的非法侵入，在探测到异常后利用住宅内的全部语音识别设备1执行警戒模式，能够进行侵入者的追踪、行动和面部图像记录，以及向家人通知。

此外，在检测到上述的异常声音的情况下，还能够从语音识别设备1输出警告声和警告语音。警告声可事先登记警笛等，作为警告语音可事先登记“是谁”之类的词语，使得在检测到异常声音后能够播放，有望提高防盗效果。

在上面的实施方式中，对语音识别设备之间的1对1的通话进行了说明，但是不限于此，也能够是1对多、多对多的通话模式。在此情况下，对话模式中的人物的语音数据被发送给多个语音识别设备。

依照本实施方式，通过协作地使用多个语音识别设备，能够经家庭内等网络进行住宅内交流。即，能够在设置于不同房间、不同位置的语音识别设备之间，如处于相同房间、相同位置的人物那样彼此进行交流，因此，能够经设置在其他位置的语音识别设备与他人进行顺畅的交流。

附图标记说明

1：语音识别设备

100：协作系统

100a：协作系统

101：CPU

102：总线

103：存储器

104：有线LAN I/F

105：无线LAN I/F

106：无线通信I/F

107：语音输入部

108：语音输出部

109：显示输出部

111：计时器

113：摄像机

Claims

1.一种语音识别设备，其特征在于，包括：

语音输入部；

语音输出部；

与其他语音识别设备之间进行数据收发的通信控制部；

对话模式执行部，其对所述其他语音识别设备发送从所述语音输入部输入的语音数据，并从所述语音输出部输出从所述其他语音识别设备接收到的语音数据；

将从所述语音输入部输入的语音转换为文本数据的语音识别部；

从所述文本数据中检测对话启动热词的热词检测部，其中所述对话启动热词用于指示启动所述对话模式执行部；和

对所述其他语音识别设备发送控制命令的命令发送部，

其中，当所述热词检测部检测到所述对话启动热词时，所述命令发送部对所述其他语音识别设备发送使该其他语音识别设备所具有的对话模式执行部启动的控制命令。

2.如权利要求1所述的语音识别设备，其特征在于：

当所述热词检测部检测到所述对话启动热词时，所述命令发送部将检测到所述对话启动热词的语音数据和该语音数据的播放命令发送至所述其他语音识别设备。

3.如权利要求1所述的语音识别设备，其特征在于，还包括：

存储声音认证数据的存储部，其中所述声音认证数据是已被允许使用所述语音识别设备进行对话的人物与该人物的声音特征数据关联而得到的；和

特征提取部，其提取所输入的所述语音数据的声音特征数据，并检测该声音特征数据与所述声音认证数据是否一致，

所述命令发送部在所述特征提取部检测到所述声音特征数据与所述声音认证数据一致的情况下，对所述其他语音识别设备发送所述控制命令。

4.如权利要求1所述的语音识别设备，其特征在于，还包括：

摄像部；

存储面部认证数据的存储部，其中所述面部认证数据是由已被允许使用所述语音识别设备进行对话的人物与该人物的拍摄图像关联而得到的；和

特征提取部，其检测所述摄像部拍摄到的拍摄图像与所述面部认证数据是否一致，

在所述特征提取部检测到所述拍摄图像与所述面部认证数据一致的情况下，所述命令发送部对所述其他语音识别设备发送所述控制命令。

5.如权利要求1所述的语音识别设备，其特征在于：

所述命令发送部基于表示所述其他语音识别设备检测到人物的存在的人物探测信息，对输出了所述人物探测信息的所述其他语音识别设备发送所述控制命令。

6.如权利要求1所述的语音识别设备，其特征在于：

还包括计时器，

所述语音输入部接收呼叫特定人物的语音的输入，

所述命令发送部将所述呼叫特定人物的语音和用于在所述其他语音识别设备上播放该语音的播放命令发送至所述其他语音识别设备，

从所述计时器取得自发送所述呼叫特定人物的语音和所述播放命令起的经过时间，

当所述经过时间为预先决定的待机时间以上时，从所述语音输出部输出响应消息用于通知没有来自所述特定人物的响应消息。

7.如权利要求1所述的语音识别设备，其特征在于：

所述语音识别设备经通信网络与多个其他语音识别设备连接，

所述语音输入部接收呼叫特定人物的语音的输入，

所述命令发送部将所述呼叫特定人物的语音和用于在所述多个其他语音识别设备上分别播放该语音的播放命令发送至所有的所述多个其他语音识别设备，

所述通信控制部在从多个其他语音识别设备中的一个接收到来自所述特定人物的响应消息时，维持与发送了该响应消息的其他语音识别设备的通信的连接，并断开与剩余的其他语音识别设备的通信。

8.如权利要求1所述的语音识别设备，其特征在于：

所述语音识别设备还包括：

存储声音认证数据和第一使用状况数据的存储部，其中，所述声音认证数据是由已被允许使用所述语音识别设备进行对话的人物与该人物的声音特征数据关联而得到的，所述第一使用状况数据是由已被允许进行所述对话的人物和该人物从各语音识别设备作出响应的响应次数关联而得到的；和

特征提取部，其提取从所述语音输入部输入的语音数据的声音特征数据，并检测该声音特征数据与所述声音认证数据是否一致，

所述语音输入部接收呼叫特定人物的语音的输入，

所述命令发送部按照所述特征提取部检测到与所述声音认证数据一致的人物在所述第一使用状况数据中的响应次数从高到底的顺序，对所述多个其他语音识别设备的每一个发送所述控制命令。

9.如权利要求1所述的语音识别设备，其特征在于：

所述语音识别设备还包括：

时刻计测部；和

存储第二使用状况数据的存储部，其中，在所述第二使用状况数据中按照时间段确定了从所述语音识别设备呼叫所述多个其他语音识别设备的顺序，

所述命令发送部从所述时刻计测部取得检测到所述对话启动热词的时刻，按照所述第二使用状况数据中的针对所述时刻所属的时间段决定的呼叫优先级，对所述多个其他语音识别设备的每一个发送所述控制命令。

10.如权利要求1所述的语音识别设备，其特征在于：

所述语音识别设备还包括：

人体传感器；

监视所述人体传感器是否检测到人物的看家模式执行部；

存储声音认证数据的存储部，其中所述声音认证数据是由已被允许使用所述语音识别设备进行对话的人物与该人物的声音特征数据关联而得到的；和

所述热词检测部还检测看家热词，所述看家热词用于指示启动所述看家模式执行部，

在所述看家模式执行部的执行期间所述特征提取部检测到所述声音特征数据与所述声音认证数据一致时，停止所述看家模式执行部。

11.一种语音识别设备的协作系统，利用通信网络将第一语音识别设备与第二语音识别设备连接，其特征在于：

所述第一语音识别设备和所述第二语音识别设备各自包括：

语音输入部；

语音输出部；

与其他语音识别设备之间进行数据收发的通信控制部；

对所述其他语音识别设备发送控制命令的命令发送部，

其中，当所述第一语音识别设备的所述热词检测部检测到所述对话启动热词时，所述命令发送部对所述第二语音识别设备发送使该第二语音识别设备的对话模式执行部启动的控制命令，

所述第二语音识别设备接收所述控制命令，使所述第二语音识别设备所具有的所述对话模式执行部启动。

12.一种语音识别设备的协作方法，在经通信网络与其他语音识别设备连接的语音识别设备上执行，其特征在于，包括：

接收被说出的语音的输入的步骤；

将所述语音转换为文本数据的步骤；

从所述文本数据中检测对话启动热词的步骤，其中所述对话启动热词用于指示启动对话模式；

对所述其他语音识别设备发送用于使该其他语音识别设备转移至对话模式的控制命令的步骤；和

启动对话模式的步骤，其中在所述对话模式中，将从所述其他语音识别设备接收到的语音数据以语音的形式输出，并将接收到输入的语音发送至所述其他语音识别设备。