CN110413249B

CN110413249B - 远程交互系统

Info

Publication number: CN110413249B
Application number: CN201910344992.2A
Authority: CN
Inventors: 粂谷幸司
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-04-27
Filing date: 2019-04-26
Publication date: 2023-03-28
Anticipated expiration: 2039-04-26
Also published as: JP2019192121A; US20190333503A1; CN110413249A; US10971150B2; JP7133969B2

Abstract

本发明提供声音输入装置以及远程交互系统。声音输入装置包括：声音输入部、第一通信部、第二通信部、声音输出部以及控制部。声音输入部输入第一声音。第一通信部将对应于所述第一声音的第一声音数据发送至外部装置。第二通信部从声音收发装置接收第二声音数据。声音输出部输出与第二声音数据对应的第二声音。控制部根据第一声音生成第一声音数据，根据第二声音数据生成第二声音。控制部判断第二声音数据是否表示启动命令。控制部在判断为第二声音数据表示启动命令的情况下，在规定时间内禁止向外部装置发送第一声音数据。

Description

远程交互系统

技术领域

本发明涉及声音输入装置以及远程交互系统。

背景技术

智能音响之类的声音输入装置是已知的。声音输入装置中设定有特定的启动命令，用户在从发出启动命令开始到经过一定时间之间，能够利用声音输入装置(例如，参考专利文献1)。具体地，用户在发出启动命令之后，当发出指示执行特定处理的处理命令时，表示特定处理的执行结果的声音数据被从服务器发送至声音输入装置。

专利文献

[专利文献1]特开2016-024212号公报

但是，例如在A地点与B地点之间进行网络会议或者电视会议之类的远程交互中，用户对设置于A地点的声音输入装置A发出启动命令以及处理命令时，存在B地点的用户不希望的处理命令从设置于B地点的声音输入装置B发送至服务器的可能。具体地，用户对声音输入装置A发出启动命令以及处理命令时，通过网络会议或者电视会议之类的远程交互系统，表示启动命令的声音以及表示处理命令的声音在B地点被输出。其结果，存在声音输入装置B将由远程交互系统输出的处理命令发送至服务器的可能。

发明内容

本发明鉴于上述课题，目的在于提供能够抑制用户不希望的处理命令被发送至服务器的声音输入装置以及远程交互系统。

本发明的声音输入装置包括：声音输入部、第一通信部、第二通信部、声音输出部以及控制部。所述声音输入部输入第一声音。所述第一通信部将与所述第一声音对应的第一声音数据发送至外部装置。所述第二通信部从声音收发装置接收第二声音数据。所述声音输出部输出与所述第二声音数据对应的第二声音。所述控制部根据所述第一声音生成所述第一声音数据，根据所述第二声音数据生成所述第二声音。所述控制部判断所述第二声音数据是否表示启动命令。所述控制部在判断为所述第二声音数据表示所述启动命令的情况下，在规定时间内禁止向所述外部装置发送所述第一声音数据。

本发明的远程交互系统包括声音输入装置和声音收发装置。所述声音输入装置包括：声音输入部、第一通信部、第二通信部、声音输出部以及控制部。所述声音输入部输入第一声音。所述第一通信部将与所述第一声音对应的第一声音数据发送至外部装置。所述第二通信部从所述声音收发装置接收第二声音数据。所述声音输出部输出与所述第二声音数据对应的第二声音。所述控制部根据所述第一声音生成所述第一声音数据，根据所述第二声音数据生成所述第二声音。所述控制部判断所述第二声音数据是否表示启动命令。所述控制部在判断为所述第二声音数据表示所述启动命令的情况下，在规定时间内禁止向所述外部装置发送所述第一声音数据。所述声音收发装置包括接收部和发送部。所述接收部从其它声音收发装置接收所述第二声音数据。所述发送部将从所述其它声音收发装置接收到的所述第二声音数据发送至所述第二通信部。

根据本发明，能够抑制用户不希望的处理命令被发送至服务器。

附图说明

图1是表示本发明实施方式的远程交互系统的结构的图。

图2是示出本发明的实施方式的第一智能音响的结构的图。

图3是示出本发明的实施方式的第一终端的结构的示意图。

图4是示出本发明实施方式的第一智能音响的第一动作的流程图。

图5是示出本发明的实施方式的第一智能音响的第二动作的流程图。

图6是示出禁止从第一智能音响向第一服务器发送声音数据的处理的图。

图7是示出从第一智能音响向第一服务器发送声音数据的处理的图。

具体实施方式

以下，参数附图说明本发明的实施方式。但，本发明并不限于上述实施方式。此外，关于重复说明之处，有时适当省略说明。另外，对图中相同或者相当的部分标注相同的附图标记，且不重复说明。

首先，参照图1，说明远程交互系统1的结构。图1是示出本发明实施方式的远程交互系统1的结构的图。如图1所示，远程交互系统1包括第一处理单元2a～第三处理单元2c、第一服务器3以及第二服务器4。第一服务器3为外部装置的一个例子。在本实施方式中，远程交互系统1是网络会议系统。

第一处理单元2a包括第一智能音响21a、第一终端22a、第一显示装置23a。第二处理单元2b包括第二智能音响21b、第二终端22b、第二显示装置23b。第三处理单元2c包括第三智能音响21c、第三终端22c、第三显示装置23c。第一智能音响21a～第三智能音响21c分别为声音输入装置的一个例子。另外，第一终端22a～第三终端22c分别为声音收发装置的一个例子。

在本实施方式中，第一终端22a～第三终端22c为例如笔记本型PC(个人计算机)或者台式PC之类的信息处理装置。或者，第一终端22a～第三终端22c为例如平板电脑PC或者智能手机之类的便携式信息处理装置。第一智能音响21a以及第一显示装置23a为第一终端22a的外围设备，第二智能音响21b以及第二显示装置23b为第二终端22b的外围设备，第三智能音响21c以及第三显示装置23c为第三终端22c的外围设备。

第一服务器3例如通过网络线路分别与第一智能音响21a～第三智能音响21c进行通信。具体地，第一服务器3从第一智能音响21a～第三智能音响21c接收声音数据。另外，第一服务器3将声音数据发送至第一智能音响21a～第三智能音响21c。

详细地，当第一服务器3从第一智能音响21a～第三智能音响21c的任意一个接收声音数据时，判断是否能够根据接收到的声音数据识别出处理命令。具体地，第一服务器3通过声音识别处理将接收到的声音数据转换为文本信息，判断是否能够根据文本信息识别出处理命令。处理命令为指示执行特定处理的命令。

第一服务器3能够根据声音数据识别出处理命令的情况下，取得表示对应于处理命令的处理的执行结果的处理结果数据。处理结果数据为声音数据。第一服务器3将处理结果数据发送至发送了声音数据的智能音响。例如，处理命令表示检索关键字和催促检索处理的执行的关键字。这种情况下，第一服务器3基于检索关键字执行检索处理，取得表示检索结果的数据。此外，第一服务器3也可以对其他服务器请求与处理命令对应的处理的执行。这种情况下，第一服务器3从其他服务器取得(接收)处理结果数据。

第二服务器4例如通过网络线路分别与第一终端22a～第三终端22c进行通信，在第一终端22a～第三终端22c之间进行网络会议。具体的，第二服务器4将从第一终端22a接收到的声音数据及摄像数据发送至第二终端22b及第三终端22c。同样地，第二服务器4将从第二终端22b接收到的声音数据及摄像数据发送至第一终端22a及第三终端22c。另外，第二服务器4将从第三终端22c接收到的声音数据及摄像数据发送至第一终端22a及第二终端22b。

接着，参照图1，对第一处理单元2a的动作进行说明。具体地，对包含在第一处理单元2a中的第一智能音响21a、第一终端22a及第一显示装置23a的动作进行说明。

第一智能音响21a输入声音。第一智能音响21a将输入的声音转换为声音数据(数字数据)并发送至第一终端22a。另外，第一智能音响21a从第一终端22a接收声音数据。第一智能音响21a输出与从第一终端22a接收的声音数据对应的声音。进而，第一智能音响21a包括摄像部，将摄像数据发送至第一终端22a。

另外，第一智能音响21a存储表示启动命令的数据。第一智能音响21a在输入了表示启动命令的声音的情况下，变为准备状态直到第一规定时间过去。当在成为准备状态之后到第一规定时间过去之前，输入声音时，第一智能音响21a将该输入的声音转换为声音数据并发送给第一服务器3及第一终端22a。

在本实施方式中，第一智能音响21a在从第一终端22a接收到的声音数据表示启动命令的情况下，执行禁止处理直到第二规定时间过去。禁止处理是禁止从第一智能音响21a向第一服务器3发送声音数据的处理。

第一终端22a将从第一智能音响21a接收到的声音数据和摄像数据发送到第二服务器4。另外，第一终端22a从第二服务器4接收声音数据及摄像数据。第一终端22a将从第二服务器4接收到的声音数据发送至第一智能音响21a。第一终端22a将从第二服务器4接收到的摄像数据输出至第一显示装置23a。第一显示装置23a显示与从第一终端22a输出的摄像数据对应的影像。

以上，参考图1，说明了第一处理单元2a的动作。另外，第二处理单元2b及第三处理单元2c与第一处理单元2a相同地进行动作，因此省略其说明。

接下来，参考图1和图2说明第一智能音响21a的结构。图2是示出本实施方式的第一智能音响21a的结构的图。

如图2所示，第一智能音响21a具备声音输入部211、声音输出部212、摄像部213、第一通信部214、第二通信部215、存储部216和控制部217。

声音输入部11输入声音。具体地，声音输入部211对声音进行收音，转换为模拟电信号。模拟电信号被输入到控制部217。声音输入部211例如是麦克风。另外，在以下的说明中，有时将声音输入部211输入的声音记载为“输入声音”。

声音输出部212输出与从第一终端22a接收到的声音数据对应的声音。另外，声音输出部212输出与从第一服务器3接收到的声音数据对应的声音。声音输出部212例如是音响。另外，在以下的说明中，有时将声音输出部212输出的声音记载为“输出声音”。

摄像部213对第一智能音响21a的周边环境进行摄像并输出图像信号(模拟电信号)。例如，摄像部213具备CCD(Charge-Coupled Device,电荷耦合器件)诸如此类的摄像元件。

第一通信部214控制与第一服务器3之间的通信。第一通信部214例如包括LAN(Local Area Network，局域网)板或无线LAN板。具体地，第一通信部214将与输入声音对应的声音数据发送至第一服务器3。另外，第一通信部214从第一服务器3接收声音数据。另外，在以下的说明中，有时将与输入声音对应的声音数据记载为“输入声音数据”。

第二通信部215控制与第一终端22a之间的通信。第二通信部215包括例如基于蓝牙(注册商标)之类的近距离无线通信标准的无线通信模块。可选地，第二通信部215可以是USB接口，该USB接口包括USB(Universal Serial Bus，通用串行总线)端子。

第二通信部215将输入声音数据发送至第一终端22a。另外，第二通信部215将与从摄像部213输出的图像信号对应的摄像数据发送至第一终端22a。此外，第二通信部215从第一终端22a接收声音数据。另外，在以下的说明中，有时将第二通信部215接收的声音数据记载为“接收声音数据”。

存储部216例如具备RAM(Random Access Memory,随机存取存储器)及ROM(ReadOnly Memory,只读存储器)等半导体存储器。存储部216还可以包括诸如HDD(Hard DiskDrive,硬盘驱动器)之类的存储设备。存储部216存储控制部217执行的控制程序。存储部216还存储参考图1说明的表示启动命令的数据。

控制部217包括例如CPU(Central Processing Unit，中央处理器)、MPU(MicroProcessing Unit，微处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)或者DSP(Digital Signal Processor，数字信号处理器)之类的处理器。控制部217基于存储在存储部216中的控制程序来控制第一智能音响21a的动作。

具体地，控制部217将从声音输入部211输入的模拟电信号(输入声音)转换为数字信号(输入声音数据)，使第二通信部215发送数字信号(输入声音数据)。换句话说，控制部217根据由声音输入部211输入的声音(输入声音)生成声音数据(输入声音数据)。

另外，控制部217将由摄像部213输入的图像信号(模拟电信号)转换为数字信号(摄像数据)，使第二通信部215发送数字信号(摄像数据)。

另外，控制部217将第二通信部215接收到的数字信号(接收声音数据)转换为模拟电信号，使声音输出部212输出声音。换句话说，控制部217根据第二通信部215接收到的声音数据(接收声音数据)生成输出声音。

另外，当控制部217处于准备状态时，除了第二通信部215之外，控制部217还使第一通信部214发送输入声音数据。进而，控制部217将第一通信部214接收到的数字信号(声音数据)转换为模拟电信号，使声音输出部212输出声音。换句话说，控制部217根据第一通信部214接收到的声音数据生成输出声音。

详细地，当生成输入声音数据时，控制部217参考存储在存储部216中的表示启动命令的数据，确定输入声音数据是否表示启动命令。具体而言，控制部217参照表示启动命令的数据，判断表示启动命令的声音数据是否被包含在输入声音数据中。在输入声音数据表示启动命令的情况下，控制部217成为准备状态直到第一规定时间过去。在成为准备状态之后到第一规定时间过去之前生成输入声音数据时，控制部217经由第一通信部214向第一服务器3发送输入声音数据，并经由第二通信部215向第一终端22a发送输入声音数据。另外，存储部216存储表示第一规定时间的数据。第一规定时间例如为8秒。

如参考图1所述，当从第一智能音响21a接收到表示处理命令的输入声音数据时，第一服务器3将处理结果数据(声音数据)发送至第一智能音响21a。结果，第一通信部214从第一服务器3接收数字信号(声音数据)。控制部217将第一通信部214接收到的数字信号(声音数据)转换为模拟电信号，使声音输出部212输出声音。

在本实施方式中，当第二通信部215接收到声音数据时，控制部217解析第二通信部215接收到的声音数据(接收声音数据)。并且，控制部217根据解析的结果判断接收声音数据是否表示启动命令。具体而言，控制部217参照存储部216所存储的表示启动命令的数据，判断接收声音数据是否表示启动命令。具体而言，控制部217参照表示启动命令的数据，判断接收声音数据中是否包含表示启动命令的声音数据。

当判断为接收声音数据表示启动命令时，控制部217执行参照图1说明的禁止处理。具体地，控制部217从判断为接收声音数据表示启动命令之后到第二规定时间过去为止，禁止第一通信部214向第一服务器3发送声音数据。

第二规定时间的长度可以在第一规定时间以上，也可以在第一规定时间以下。但是，如果第二规定时间比第一规定时间过于长，则存在第一智能音响21a不向第一服务器3发送第一处理单元2a的用户希望发出的处理命令的可能。另一方面，如果第二规定时间比第一规定时间过于短，则存在第一智能音响21a向第一服务器3发送第一处理单元2a的用户不希望的处理命令的可能。因此，优选第二规定时间的长度与第一规定时间大致相等。第二规定时间例如为8秒。表示第二规定时间的数据被存储在存储部216中。

以上，参考图1和图2说明第一智能音响21a的结构。另外，由于第二智能音响21b及第三智能音响21c的结构与第一智能音响21a的结构相同，因此不作说明。

接下来，继续参考图1和图3说明第一终端22a的结构。图3是示出本实施方式的第一终端22a的结构的示意图。如图3所示，第一终端22a包括第一通信部221、第二通信部222、输出部223、存储部224以及控制部225。

第一通信部221控制与第二服务器4之间的通信。第一通信部221例如包括LAN板或无线LAN板。第一通信部221向第二服务器4发送声音数据和摄像数据。换句话说，第一通信部221向第二终端22b和第三终端22c发送声音数据和摄像数据。另外，第一通信部221从第二服务器4接收声音数据及摄像数据。换句话说，第一通信部221从第二终端22b和第三终端22c接收声音数据和摄像数据。第一通信部221是接收部的示例。

第二通信部222控制与第一智能音响21a之间的通信。第二通信部222包括例如基于蓝牙(注册商标)之类的近距离无线通信标准的无线通信模块。或者，第二通信部222可以是USB接口，该USB接口包括USB端子。

第二通信部222从第一智能音响21a接收声音数据和摄像数据。另外，第二通信部222向第一智能音响21a发送声音数据。第二通信部222是发送部的示例。

输出部223将摄像数据输出到第一显示装置23a。输出部223例如是诸如HDMI(注册商标)端子或Displayport(显示接口)之类的数字影像接口。另外，输出部223也可以是D-SUB端子之类的模拟影像接口。

存储部224例如具备RAM及ROM等半导体存储器。进一步,存储部224还可以包括诸如HDD之类的存储设备。存储部224存储控制部225执行的控制程序。另外，存储部224存储网络会议用的应用软件。

控制部225包括例如CPU或MPU之类的处理器。另外，控制部225基于存储于存储部224的控制程序，控制第一终端22a的动作。

以下，对控制部225基于网络会议用应用软件所执行的处理进行说明。控制部225通过执行用于网络会议的应用软件，第一处理单元2a的第一终端22a在第二处理单元2b的第二终端22b和第三处理单元2c的第三终端22c之间执行网络会议。

具体地，控制部225经由第二通信部222将从第一智能音响21a接收到的声音数据和摄像数据经由第一通信部221发送至第二服务器4。其结果，输入到第一智能音响21a的声音由第二处理单元2b的第二智能音响21b和第三处理单元2c的第三智能音响21c输出。另外，在第二处理单元2b的第二显示装置23b及第三处理单元2c的第三显示装置23c中，显示由第一智能音响21a拍摄的影像。

另外，控制部225将经由第一通信部221从第二服务器4接收到的声音数据,经由第二通信部222发送至第一智能音响21a。其结果，第一智能音响21a输出由第二处理单元2b的第二智能音响21b输入的声音和由第三处理单元2c的第三智能音响21c输入的声音。

另外，控制部225将经由第一通信部221从第二服务器4接收到的摄像数据，经由输出部223输出至第一显示装置23a。结果，第一显示装置23a显示由第二处理单元2b的第二智能音响21b拍摄到的影像和由第三处理单元2c的第三智能音响21c拍摄到的影像。

以上,参照图1及图3，说明了第一终端22a的结构。另外，第二终端22b及第三终端22c的结构与第一终端22a的结构相同，因此省略其说明。

接下来，参考图2及图4,说明第一智能音响21a的第一动作。图4是示出本实施方式的第一智能音响21a的第一动作的流程图。当第一智能音响21a的第二通信部215从第一终端22a接收到声音数据时,图4所示的动作开始。

如图4所示，当第二通信部215从第一终端22a接收声音数据时，控制部217判断接收声音数据是否表示启动命令(步骤S1)。具体而言，控制部217参照存储于存储部216的表示启动命令的数据，判断接收声音数据是否表示启动命令。

控制部217在判断为接收声音数据表示启动命令的情况下(步骤S1的“是”)，将禁止标志设为ON状态直到第二规定时间过去(步骤S2)。禁止标志被存储在存储部216中。当禁止标志处于ON状态时，禁止向第一服务器3发送声音数据。另外，在禁止标志为OFF状态的情况下，允许向第一服务器3发送声音数据。

控制部217在将禁止标志设为ON状态之后，根据接收声音数据生成输出声音(步骤S3)。或者，控制部217在判断为接收声音数据不表示启动命令的情况下(步骤S1中的“否”)，根据接收声音数据生成输出声音(步骤S3)。具体而言，控制部217将接收声音数据转换为模拟电信号，使声音输出部212输出与接收声音数据对应的声音。当控制部217生成输出声音时，第一智能音响21a结束图4所示的操作。

接下来，参考图1、图2和图5说明第一智能音响21a的第二动作。图5是示出本实施方式的第一智能音响21a的第二动作的流程图。当第一智能音响21a的声音输入单元211输入声音时，图5所示的动作开始。

如图5所示，当声音输入单元211输入声音时，控制部217生成输入声音数据(步骤S11)。当生成输入声音数据时，控制部217确定存储于存储部216中的禁止标志是否处于ON状态(步骤S12)。

控制部217在判断为禁止标志处于ON状态的情况下(步骤S12的“是”)，根据输入声音数据生成输出声音。具体而言，将输入声音数据转换为模拟电信号，使声音输出部212输出与输入声音数据对应的声音。当控制部217生成输出声音时，第一智能音响21a结束图5所示的操作。

控制部217在判断为禁止标志不处于ON状态的情况下(步骤S12的“否”)，换言之，在禁止标志处于OFF状态的情况下，参照存储于存储部216中表示启动命令的数据，判断输入声音数据是否表示启动命令(步骤S13)。

控制部217在判断为输入声音数据不表示启动命令的情况下(步骤S13的“否”)，根据输入声音数据生成输出声音。当控制部217生成输出声音时，第一智能音响21a结束图5所示的操作。

控制部217在判断为输入声音数据表示启动命令的情况下(步骤S13的“是”)，根据输入声音数据生成输出声音。进而，控制部217成为准备状态直到第一规定时间过去。换句话说，控制部217在第一规定时间过去之前,允许向第一服务器3发送声音数据。

当变为准备状态时，控制部217判断声音输入单元211是否输入了声音(步骤S14)。控制部217在判断为声音输入部211输入了声音的情况下(步骤S14的“是”)，生成输入声音数据(步骤S15)，并经由第一通信部214向第一服务器3发送输入声音数据同时，经由第二通信部215向第一终端22a发送输入声音数据(步骤S16)。当发送输入声音数据时，控制部217再次判断声音输入单元211是否输入了声音(步骤S14)。

在判断为声音输入单元211没有输入声音的情况下(步骤S14中的“否”)，控制部217判断控制部217处于准备状态之后是否过去了第一规定时间(步骤S17)。

控制部217在判断为第一规定时间还没过去的情况下(步骤S17的“否”)，再次判断声音输入部211是否输入了声音(步骤S14)。

若控制部217判断为第一规定时间已过去(步骤S17的“是”)，则第一智能音响21a结束图5所示的动作。

以上参照图1、图2、图4及图5，说明了第一智能音响21a的动作。此外,第二智能音响21b和第三智能音响21c与第一智能音响21a相同，执行图4和图5所示的动作。

接着参照图1～图3、图6及图7，说明本实施方式的禁止处理。图6是示出禁止从第一智能音响21a向第一服务器3发送声音数据的处理的图。图7是示出从第一智能音响21a向第一服务器3发送声音数据的处理的图。

具体地说，图6示出第一智能音响21a从第一终端22a接收的声音数据(接收声音数据)、第一智能音响21a存储的禁止标志、第一智能音响21a输出的声音(输出声音)、第一智能音响21a输入的声音(输入声音)、第一智能音响21a与输入声音对应而生成的声音数据(输入声音数据)、以及第一智能音响21a向第一服务器3发送的声音数据。图7示出第一智能音响21a存储的禁止标志、第一智能音响21a输入的声音(输入声音)、第一智能音响21a对应输入声音生成的声音数据(输入声音数据)、以及第一智能音响21a向第一服务器3发送的声音数据。在图6和图7中，横轴是时间轴。

如图6所示，当第一智能音响21a从第一终端22a接收到表示启动命令的第一声音数据61时，禁止标志处于ON状态，直到第二规定时间过去。另外，当第一智能音响21a从第一终端22a接收到第一声音数据61时，生成与第一声音数据61对应的第一输出声音61a。第一输出声音61a被输入至第一智能音响21a。其结果，生成与第一输出声音61a对应的第一输入声音数据61b。换句话说，生成表示启动命令的输入声音数据。

在接收到第一声音数据61之后，第二规定时间经过之前，当第一智能音响21a从第一终端22a接收到第二声音数据62时，生成与第二声音数据62对应的第二输出声音62a。第二输出声音62a被输入至第一智能音响21a，其结果，生成与第二输出声音62a对应的第二输入声音数据62b。

在本实施方式中，在禁止标志处于ON状态的情况下，即使生成表示启动命令的输入声音数据(第一输入声音数据61b)，声音数据(第二输入声音数据62b)也不被发送至第一服务器3。

另一方面，如图7所示，当禁止标志处于OFF状态时，当第一智能音响21a输入表示启动命令的第一声音71从而生成与第一声音71对应的输入声音数据71a时，第一智能音响21a变为准备状态。因此，在第一声音71的输入后，第一规定时间过去之前，当第一智能音响21a输入第二声音72时，与第二声音72对应的输入声音数据72a被发送至第一服务器3。

以上参照图1～图7说明了本发明的实施方式。根据本实施方式，能够抑制第一处理单元2a～第三处理单元2c的用户不希望的处理命令从第一智能音响21a～第三智能音响21c被发送至第一服务器3。

例如，即使在用户对第一智能音响21a发出启动命令之后发出处理命令，并通过远程对话系统1，从第二智能音响21b和第三智能音响21c输出表示启动命令的声音和处理命令的声音，第二智能音响21b及第三智能音响21c也不向第一服务器3发送表示处理命令的声音数据。因此，可以抑制第二处理单元2b的用户和第三处理单元2c的用户不希望的处理命令从第二智能音响21b和第三智能音响21c被发送至第一服务器3。

另外，根据本实施方式，在第一处理单元2a～第三处理单元2c之间的声音的收发不被中断。因此，由于在网络会议中声音输出不被中断，能够高效地进行会议。

另外，本发明不限于上述实施方式，能够在不脱离其主旨的范围内在各种方式中实施。

例如，在本发明的实施方式中，说明了第一智能音响21a～第三智能音响21c具备摄像部213的结构，但也可以是第一终端22a～第三终端22c具备摄像部。或者，照相机装置可以作为外围设备连接到第一终端22a～第三终端22c。

另外，在本发明的实施例中，远程交互系统1是网络会议系统，但远程交互系统1也可以是电视会议系统或电话会议系统。这种情况下，第一终端22a～第三终端22c经由LAN连接。

如果远程交互系统1是电视会议系统或电话会议系统，则可以省略第二服务器4。另外，在远程交互系统1是电话会议系统的情况下，第一终端22a～第三终端22c可以是电话会议专用的麦克风/扬声器装置。另外，在远程交互系统1是电话会议系统的情况下，可以省略第一显示装置23a～第三显示装置23c。

另外，在本发明的实施方式中，说明了第一处理单元2a～第三处理单元2c包含第一终端22a～第三终端22c的结构，第一智能音响21a～第三智能音响21c也可以具有第一终端22a～第三终端22c的功能。在这种情况下，可以省略第一终端22a～第三终端22c。在第一终端22a～第三终端22c被省略的情况下，第一智能音响21a～第三智能音响21c从第二服务器4接收声音数据。

另外，根据本发明的实施例，远程交互系统1包括三个处理单元，但是远程交互系统1也可以包括两个处理单元或四个以上处理单元。

产业上的利用可能性

本发明对使用诸如智能音响之类的声音输入装置的系统是有用的。

附图标记说明

1 远程对话系统

2a 第一处理单元

2b 第二处理单元

2c 第三处理单元

3 第一服务器

4 第二服务器

21a 第一智能音响

21b 第二智能音响

21c 第三智能音响

22a 第一终端

22b 第二终端

22c 第三终端

211 声音输入部

212 声音输出部

214 第一通信部

215 第二通信部

216 存储部

217 控制部

221 第一通信部

222 第二通信部

Claims

1.一种远程交互系统，其包括智能音响、终端装置和服务器，其特征在于：

所述智能音响包括：

声音输入部，其输入第一声音；

第一通信部，其将与所述第一声音对应的第一声音数据发送至所述服务器；

第二通信部，其向所述终端装置发送所述第一声音数据，并从所述终端装置接收第二声音数据；

声音输出部，其输出与所述第二声音数据对应的第二声音；以及

控制部，其根据所述第一声音生成所述第一声音数据，根据所述第二声音数据生成所述第二声音，

所述服务器判断是否能够根据从所述智能音响发送的所述第一声音数据识别处理命令,在能够识别所述处理命令的情况下,执行与所述处理命令对应的处理,

所述控制部判断所述第二声音数据是否表示启动命令，

所述控制部在判断为所述第二声音数据表示所述启动命令的情况下，在规定时间内禁止向所述服务器发送所述第一声音数据，并且不会禁止向所述终端装置发送所述第一声音数据，

所述终端装置包括：

第三通信部，其从其他终端装置接收所述第二声音，并将从所述智能音响接收到的所述第一声音数据向所述其他终端装置发送；以及

第四通信部，其将从所述其他终端装置接收到的所述第二声音数据发送至所述智能音响，并接收从所述智能音响发送的所述第一声音数据。

2.如权利要求1所述的远程交互系统，其特征在于:

所述控制部在判断为所述第二声音数据不表示所述启动命令的情况下，判断所述第一声音数据是否表示所述启动命令；

所述控制部在判断为所述第一声音数据表示所述启动命令的情况下，在规定时间内允许向所述服务器发送所述第一声音数据。

3.如权利要求2所述的远程交互系统，其特征在于:

在被发送至所述服务器的所述第一声音数据表示所述处理命令的情况下，所述第一通信部接收表示执行与所述处理命令对应的处理的结果的声音数据。