CN113496701A

CN113496701A - 语音交互系统、方法、设备和会议系统

Info

Publication number: CN113496701A
Application number: CN202010256834.4A
Authority: CN
Inventors: 杨智慧; 王路; 付强; 马骁; 田彪; 纳跃跃; 史鹏腾
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2021-10-12

Abstract

提出了一种语音交互系统、设备、方法及其相应的会议系统。所述语音交互系统，包括多个相互通信的语音设备，其中，所述语音设备具有远场语音交互功能并且用于进行语音交互；其中，所述多个语音设备基于预定仲裁规则，选择其中的一个语音设备与用户进行当前语音交互。本发明的语音交互方案可以通过基于用户实时状态的多端仲裁实现多个语音设备的动态选择。具体地，可以通过就近应答等原则确定最适于与用户交互的设备，由此提升为用户提供语音服务的准确性和易用性。

Description

语音交互系统、方法、设备和会议系统

技术领域

本发明涉及信息技术领域，尤其涉及一种语音交互系统、方法、设备和会议系统。

背景技术

随着语音交互技术的发展，越来越多的用户配备了智能语音交互终端(例如，智能音箱)作为家中的智能交互中心。智能音箱是音箱和网络技术升级的产物，可以用作家庭消费者用语音上网的工具。智能音箱可以进行点播歌曲、上网购物，或是了解天气预报的操作，也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

虽然语音交互终端通常采用远场拾音技术使得其能够接收3-5m范围之外的语音输入，但上述远场拾音通常无法覆盖较大交互空间内的所有位置，尤其是考虑到房间门、墙壁和上下楼等阻隔，以及会议室场景等的情况时。为了提升语音交互的可达性，可以考虑在家中布置多个语音交互终端。而在存在多个语音交互终端时，如何恰当选择终端与用户交互成为了本领域需要解决的一个问题。

发明内容

为了解决如上至少一个问题，本发明提出了一种新的语音解决方案，该方案中可以配备多个具备远场语音交互功能的语音设备，这多个语音设备基于预定的仲裁规则选择要与用户进行语音交互的设备，由此方便用户对语音设备的使用，并提升语音交互系统整体的触达率。

根据本发明的第一方面，提出了一种语音交互系统，包括多个相互通信的语音设备，其中，所述语音设备具有远场语音交互功能并且用于进行语音交互；其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互。

上述系统尤其适用于会议场景。为此，根据本发明的第二方面，提出了一种语音会议系统，包括多个相互通信的语音设备，其中，所述语音设备具有远场语音交互功能并且用于进行语音交互；其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互，所述当前语音交互用于如下至少一项：进行会议通话；以及进行智能语音交互。

根据本发明的第三方面，提出了一种语音设备，与至少一个其他语音设备通信，其中，所述语音设备包括：交互单元，用于与用户进行语音交互；以及通信单元，用于与所述至少一个其他语音设备通信；仲裁单元，用于基于预定的仲裁规则，从所述语音设备和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

根据本发明的第四方面，提出了一种语音交互方法，包括：采集用户的语音输入信息；基于采集到的语音数据信息，与相互通信的其他语音设备进行多端仲裁；以及基于多端仲裁的结果，选择一个语音设备与用户进行当前语音交互。

根据本发明的第五方面，提出了一种智能语音面板，能够与至少一个其他语音设备通信，其中，所述智能语音面板包括：麦克风，用于获取用户输入的语音；扬声器，用于向用户输出语音反馈；以及通信单元，用于与所述至少一个其他语音设备通信；仲裁单元，用于基于预定的仲裁规则，从所述智能语音面板和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

根据本发明的第六方面，提出了一种智能音箱，能够与至少一个其他语音设备通信，其中，所述智能音箱包括：麦克风，用于获取用户输入的语音；扬声器，用于向用户输出语音反馈；以及通信单元，用于与所述至少一个其他语音设备通信；仲裁单元，用于基于预定的仲裁规则，从所述智能音箱和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

根据本发明的第七方面，提出了一种智能语音会议系统，可以包括如上所述的各种能够相互通信的多个语音设备。所述语音设备具有远场语音交互功能并且用于进行语音交互，并且包括至少两个智能语音面板；其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互，所述当前语音交互用于如下至少一项：进行会议通话；以及进行智能语音交互。

由此，本发明通过上述语音交互系统、方法、设备和会议系统，能够通过基于用户实时状态的多端仲裁实现多个语音设备的动态选择。具体地，可以通过就近应答等原则确定最适于与用户交互的设备，由此提升为用户提供语音服务的准确性和易用性。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了需要选择语音设备进行交互的一个场景。

图2示出了在家中安装多个语音设备的一个例子。

图3示出了根据本发明一个实施例的语音交互系统的组成示意图。

图4示出了根据本发明的多端仲裁机制的一个例子。

图5示出了根据本发明一个实施例的分布式语音交互系统的例子。

图6示出了根据本发明的一种语音设备的组成示意图。

图7示出了根据本发明一个实施例的语音交互方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

越来越多的用户配备了智能语音交互终端(例如，智能音箱)作为家中的智能交互中心。智能音箱是音箱和网络技术升级的产物，可以用作家庭消费者用语音上网的工具。智能音箱可以进行点播歌曲、上网购物，或是了解天气预报的操作，也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

图1示出了需要选择语音设备进行交互的一个场景。具体地，图1示出了用户使用家中与同一个号码a绑定的四台语音设备110并使用语音设备呼叫号码b的情景。

由于一个语音交互终端的覆盖范围有限，因此在较大的空间中，可以安装多个语音设备以实现全面覆盖。图2示出了在家中安装多个语音设备的一个例子。如图所示，为了方便随时随地进行语音呼叫，用户在客厅、厨房、主卧和次卧中分别安装了语音交互设备210。

上述语音交互设备210可以是常见的智能音箱，也可以是其他具备语音交互功能的设备。在本发明中，语音交互设备210尤其可以实现为智能语音面板，该面板可以安装开关或空调控制面板一样在墙上，并且彼此具有相同的功能和权限，以方便进行后续将详述的多端仲裁。在其他实施例中，多个语音交互设备210可以包括例如一个智能音箱外加多个功能更为简单的智能语音贴等。

回到图1，在购买多个语音设备并联网(还可以包括云端平台的注册操作)之后，用户可以通过网络开通电话卡(对应号码a)，然后与多个语音设备110相绑定。结合图2所示，用户可以选择将空调、主卧、次卧和厨房的语音设备210与号码a绑定。在其他实施例中，用户也可以选择性地绑定部分语音设备。

当用户A想要打电话时，用户可以给出语音指令，“XX，打电话给妈妈”。在此，XX可以指代语音设备的唤醒词。语音设备在接收到上述语音指令后，可以给出应答“在的，打电话给妈妈”并进行拨打“妈妈”的号码b的操作，以经由服务端120进行呼出。

如果语音设备在唤醒时，出现多个设备同时应答的情况下，会导致过度通知，例如，惊扰到卧室中正在睡觉或学习的孩子，并且会增加语音设备不必要的功耗。而手机选择方案则会增加语音交互的步骤，降低用户使用友好度。为此，需要一种准确接入相应的语音设备并为用户提供无障碍语音交互的解决方案。

为此，本发明提出了一种新的语音交互方案，该方案可以通过获取用户状态信息，从多个语音设备中动态选择要与用户进行语音交互的设备，由此方便用户对语音设备的使用，并提示语音交互系统整体的触达率。

图3示出了根据本发明一个实施例的语音交互系统的组成示意图。如图3所示，语音交互系统中包括多个语音设备，例如图中示出的语音设备310-1、310-2、310-3和310-4。上述四个语音设备用于进行语音交互，并且可以是相同或不同的设备。在一个实施例中，这四个设备可以全都实现为如下将详述的智能语音面板。在其他实施例中，这四个设备可以包括一个智能音箱，以及三个智能语音贴(即，结构较为简单的语音交互终端)。

语音交互系统中包括的多个语音设备可以互相通信，所述语音设备可以具有远场语音交互功能(例如，在3-5m的范围内接收语音输入的能力)并且可以用于进行语音交互。在需要进行语音交互时，多个语音设备310可以基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互。

在不同的实现中，这四个设备可以采取不同的决策策略。在一个实施例中，可以使用一个语音设备作为中心节点，进行信息收集与决策，例如自行决策或是与服务端通信决策。此时，所述多个语音设备包括一个中心节点。多个语音设备可以自行采集相关信息，并发送给中心节点。中心节点可以汇总其他语音设备发送的信息并进行仲裁；以及所述中心节点基于仲裁结果动态切换所述多个语音设备中的一个语音设备与用户进行当前语音交互。

在其他实施例中，可以还使用其他设备作为中心节点，例如边缘计算系统中的决策中心、服务端或是本地设置的其他设备。

在本发明的优选实施例中，还可以使用平行节点的结构。即，每个语音设备具有相同的重要性，并且基于多端决策的方式来进行决策。在此情况下，参与多端决策的节点可以仅限于涉及当前事件的节点。如图3所示，用户可以通过“你好，XX”来唤醒语音设备的语音交互功能。此时，在家中安装的语音设备310-1、310-2、310-3和310-4中，只有语音设备310-1、310-2和310-3接收到了唤醒词“XX”并被激活，因此只有这三个设备参与多端决策，同时语音设备310-4保持静默。

在图3的例示中，虚线箭头表示设备之间的通信，被激活的语音设备310-1、310-2和310-3需要通过信息交换进行多端决策，以选出要与用户进行交互的语音设备，例如，语音设备310-1。在被选择之后，语音设备310-2可以应答用户，并进行后续的语音交互操作。例如，在图1的场景中，应答用户“在的，打电话给妈妈”并进行拨打“妈妈”的号码b的操作，并支持电话接通后的语音通话功能。在此，“多端决策”指代不存在固定进行决策的主节点的决策方式。具体地，本发明的多端决策过程可以涉及多个语音设备参与，并且决策结果的产生或是进行决策的节点选举需要每个语音设备参与，或是同时决定。

具体地，本发明所涉及的多端决策可以包括当前信息交换并共同决策的方式。此时，多个语音设备中的被激活的语音设备交换当前信息。随后，所述被激活的语音设备基于交换的当前信息，选择符合所述预定仲裁规则的一个语音设备与用户进行当前语音交互。基于交换的当前信息，选择与用户进行当前语音交互的语音设备可以基于就近唤醒、上电顺序、趋势判断或是节点类型等的特征，或是同时考虑多个特征的加权组合，由此选择与用户进行语音交互的语音设备。

而在需要进行主节点选举时，可以基于交换的当前信息，从所述被激活的语音设备中选择一个语音设备作为主节点；所述主节点基于预定仲裁规则，选择所述多个语音设备中的一个语音设备与用户进行当前语音交互。类似地，基于交换的当前信息，选择与用户进行当前语音交互的语音设备或是主节点也可基于就近唤醒、上电顺序、趋势判断或是节点类型等的特征，或是同时考虑多个特征的加权组合。

图4示出了根据本发明的多端仲裁机制的一个例子。如图4所示，用户可以通过在语音设备覆盖范围的任一位置说出唤醒词来激活应答。为此，用户可以通过说出“你好，XX”(其中，“XX”的语音设备410-1、410-2和410-3的共同唤醒词)启动本地唤醒流程。语音设备410-1、410-2和410-3配备有远程唤醒模块，并且具备在本地(即，无需连接云端服务)识别唤醒词的功能。由于用户所在位置，只有语音设备410-1和410-2接收到了唤醒词XX，因此语音设备410-1、410-2被激活并进入物理拾音流程，而语音设备410-3则保持静默。

被激活的语音设备410-1和410-2随后可以如上所述，基于交换的当前信息，选择符合所述预定仲裁规则的一个语音设备与用户进行当前语音交互。

在一个实施例中，语音设备可以基于就近唤醒原则进行交互设备的选择。在一个简单实现中，可以获取被激活的两个语音设备采集的用户语音强度信息，并基于所述用户语音强度信息，确定与用户进行当前语音交互的语音设备。换句话说，可以进使用语音强度信息作为特征Va。如果语音设备410-2接收到的唤醒词强度Va比语音设备410-1接收到的Va更大，则在智能仲裁阶段可以直接选择语音设备410-2作为交互设备，并由被选择语音设备410-2完成快速应答“我在”。在此，语音设备410-1和410-2可以相对方发送自己的Va，并各自进行比较，Va较大的一方自行认定为是交互设备，Va较小的一方则不进行应答。

在一个更为复杂的实现中，就近唤醒原则除了包括考虑强度信息之外，还需要考虑信噪比。此时的特征Va就可以包括强度信息和信噪比两者，并且最终的特征计算还需要考虑为强度信息和信噪比分配的权重。例如，虽然语音设备410-1接收到的用户语音信号强度比410-2接收到的信号强度更大，但由于语音设备410-1附近的电视干扰了其对用户语音输入的接收而使得信噪比更小(即，无关噪音更大)，因此多端仲裁可以在比较了语音设备410-1和410-2各自计算的Va之后，选择用户语音信号强度略低但同时信噪比更高的410-2作为交互设备，并由被选择语音设备410-2完成快速应答“我在”。

而在涉及主节点选举的多端仲裁机制中，同样可以首先基于单纯的就近原则(例如，接收到的信号强度大)选择主节点，例如语音设备410-1，主节点410-1则可综合考虑信号强度和信噪比，选择语音设备410-2作为交互设备。另外，还可以简单基于上电顺序选择主节点，例如，语音设备410-1首先被激活，并自动成为主节点，并在后续声明身份并获取其他被激活节点发送的信息(例如，Va)，通过比较后确定交互设备。

除了语音设备本身直接获取的语音信息之外，还可以基于其他设备报告的信息来进行交互设备的选择。为此，多个语音设备(例如，被选举的主节点)可以获取状态感知设备采集的当前用户状态，并且所述预定的仲裁规则还包括：基于所述当前用户状态，确定主节点和/或与用户进行当前语音交互的语音设备。

在此，在此，“当前用户状态”可以指代用于判定用户当前使用哪个语音设备为优选设备的信息。进一步地，“当前用户状态”可以是用于表征用户与各个语音设备之间的通信状况的信息。根据声波的传播特性，用户与语音设备的交互质量不仅取决于相对距离，还取决于用户相对语音设备的朝向，运动趋势，甚至还取决于其间障碍物和反射物的状况。因此在不同的实施例中，可以从不同的角度来估算用户与各个语音设备之间的通信状况。

在基于操作设备的操作而获取了用户状态信息之后，可以基于该用户状态信息，从所述多个语音设备中选择与所述用户进行当前语音交互的语音设备。随后，被选择的语音设备可以用于与所述用户进行语音交互。

具体地，采集当前用户状态的操作可以包括如下至少一项：拍摄所述用户的图像；对所述用户进行红外追踪扫描；以及获取所述用户操作设备的设备状态。

在一个实施例中，状态感知设备可以是配备有摄像头的设备，用于拍摄用户图像，并且可以在本地或是基于云端或中心节点的处理，基于上述图像确定用户的当前位置和/或朝向。例如，状态感知设备可以是深度摄像头，能够基于拍摄的图像确定用户的三维位置。在例如，状态感知设备可以拍摄人脸，通过人脸识别和拍摄人脸所占像素大小推断用户的位置信息。上述位置信息可用于判定用户所在位置，并由此选择恰当的语音设备进行交互。

在另一个实施例中，状态感知设备可以对所述用户进行红外追踪扫描。例如，智能空调上安装的红外传感器可以对用户进行红外成像及追踪，并向用户低温部位(例如，足部)进行送风(例如，制热模式下)。此时，可以基于上述红外信息确定用户所在位置，并由此选择恰当的语音设备进行交互。

在一个实施例中，状态感知设备的设备状态本身也可以作为用户位置的表征。例如，在晚上八点，只有客厅的电灯和电视开启(例如，在半小时前被用户语音开启)，此时可以判定用户人在客厅，并直接选择客厅的语音设备进行交互。

交互设备的选择还可以基于对趋势变化判断。例如，在交互过程中，如果用户走动或者外界环境发生变化，则可以基于上述变化，动态切换与所述用户进行当前语音交互的语音设备。具体地，可以所述多个语音设备中至少两个语音设备采集的用户语音强度信息的变化，和/或基于状态感知设备采集到的当前用户状态的变化来进行上述判断。

例如当用户从图2所示的客厅走进次卧时，各语音设备接收到的用户语音交互强度会发生相应变化。当前交互的客厅语音设备可以感知接收到的用户语音交互强度逐渐变小，此时，可以激活其他语音设备，确定接收强度逐渐变大的卧室设备作为要被动态切换进行交互的设备，并在恰当时机进行切换。另外，还可以基于例如摄像头采集到的用户进行卧室的图像，或是在前语音交互中显示的意图，“XXX(睡在次卧的孩子名)，该起床啦”，进行动态切换。

在检测到用户状态的变化后，可以延迟预定时间进行在所述至少两个语音设备之间的动态切换。例如，在用户在客厅通话并去往书房拿书的情况下，可以不在感测到用户位置变化后立即将用于通话的语音设备切换至书房的语音设备，还是稍作延迟，在判定用户是临时去书房马上返回到客厅，还是一直待在书房进行通话后，再确定是否要进行设备切换。同样地，为了保证用语音交互质量，还可以根据语音交互过程中用户状态的变化，调整进行语音设备的音量。由此，确保在一个相对确定的音量范围内进行交互。

在其他实施例中，如果多个语音设备并非相同型号的设备，则还可以基于设备所具有的功能，从激活设备中选择所需的设备。

在使用就近唤醒原则选择语音设备时，还可以汇总多方信息来判断最适合接入的语音设备。例如，多台语音设备可以根据麦克风接收到用户声音的大小来共同推定用户的位置和/或方位。上述判断也可以借助例如语音设备之外的其他设备获取的信息进行。例如，本发明的上述系统还可以包括：联网设备，而要使用语音设备的用户状态根据用户对联网设备的操作确定。多个语音设备可以包括属于同一个物联网的多个智能语音设备。于是，同一个物联网中的其他设备的使用状态可被用于判断用户状态。例如，厨房的蓝牙顶灯刚被点亮，则可以通过上述信息判断用户当前正位于厨房。另外，还可以经由用户身上佩戴的蓝牙设备(例如，智能手表)或是其他低功耗蓝牙设备，基于蓝牙5.1标准中的波达角(AoA)和发射角(AoD)来间接确定与蓝牙设备所处相同位置的用户的位置。

另外，还可以基于语音设备的功耗选择要接入进行语音呼叫的语音设备。例如，在距离相近的情况下，选择由持续电源输入的智能音箱，而非电池供电的智能语音贴进行通话。

在其他实施例中，动态选择所基于的用户状态可以是用户位置状态之外的其他状态信息。例如，当用户佩戴了诸如运动手表之类能够反映身体状态的联网设备时，还可以基于用户的身体状态来进行动态接入判断。例如，当手表现在用户当前正平躺睡眠时，可以选择接入卧室的语音设备，但是选择更为温和的通知方式，例如，蓝色信号灯闪烁，而非直接进行语音播报。

如前所述，如图1-4所示的本发明的语音交互系统中包括的多个语音设备之间可以相互通信，由此实现多端仲裁。在一个优选实施例中，所述多个相互通信的语音设备包括：基于近距离通信规范进行组网通信的多个语音设备。例如，多个语音设备可以基于WiFimesh或是蓝牙mesh规范进行通信。由此，多个语音设备能够在本地(即，无需云端，甚至无需边缘计算设备参与的情况下)实现多端仲裁，并选择出交互设备实现快速响应。

上述的语音交互系统本身可以作为家庭物联网或是其他局域网络的组成部分。换句话说，上述家庭物联网或是局域网可以提供语音交互功能，并且可以作为一个语音交互系统。此时，该系统可以包括如下至少一项：用于采集当前用户状态的状态感知设备；以及基于被选择的语音设备与用户进行的当前语音交互，进行相应操作的受控设备。

进一步地，该系统还可以包括：中控设备，用于：接收基于所述当前语音交互生成的操作指令；以及基于所述操作指令，控制受控设备进行所述相应操作。

在交互设备被选定之后，可以与用户进行语音交互。此时，语音设备通常需要借助外部的语音处理能力，此时，系统还可以包括：服务端，用于获取当前语音交互的交互内容，并下发反馈信息。作为替换或者补充，也可以由边缘计算设备提供外部的语音处理能力。为此，系统还可以包括：边缘计算设备，用于获取当前语音交互的交互内容，并下发反馈信息。

图5示出了根据本发明一个实施例的分布式语音交互系统的例子。图5可以看作是一种根据本发明的分布式语音解决方案。通过在本地空间内的不同位置安装多个语音输入设备，与云端服务平台、中控系统互联互通，使用者不必受空间的限制，随时随地用语音实现设备操控、场景切换、状态问询等，实现无处不在的沉浸式语音交互体验。

在本地，例如，家庭物联网，大厦物联网等的局域网范围内，分布式语音控制系统可以如图5中的虚线所示，由多个语音设备510、中控设备520以及连接到中控设备520的受控设备530构成。

语音设备510例如可以是多个智能语音面板。可以根据空间的面积尺寸，安装多个语音面板，可以完成双麦拾音、远场语音增强、唤醒、识别、对话理解和语音播报等全链路的语音交互。多个语音面板之间可以通过WIFI mesh组网本地通信，并智能仲裁机制，实现就近唤醒，唯一响应。

中控设备520和受控设备530构成可以构成中控系统。中控设备520可以实现为一种集中控制设备主机。这部分构成了整个中控系统的大脑，由控制主机及多块功能不同的端口及模块构成，由这些不同的端口、模块可连接不同的设备，并对这些设备进行控制。

受控设备530则可以通过配置的继电器模块、调光模块、实现对场地灯光的开关及亮度的调节，通过空调网关来进行对空调的集中管理与控制。同时结合控制主机上的的RS232/485接口、IR接口、IO接口、RELAY接口、WIFI接口，来完成不同设备对接的需求。具体地受控设备可以包括图示的灯、窗帘、空调、摄像头、新风系统和门锁等，还可以包括电视、大屏等其他设备。

具体地，语音输入设备采用分布式多端仲裁技术，在多个设备同时唤醒的情况下，设备之间通过WIFI mesh组网本地通信，进行诸如图4所示的智能多端仲裁，就近唤醒，即只有离使用者最近的设备做出响应，避免了“一呼多应”，有效解决了空间覆盖和设备响应之间的平衡。

由于采用的是就近唤醒原则，所以可以粗略地获得用户的位置信息，对用户的模糊意图进行理解，从而实现智能控制。例如，在语音设备被选择之后，可以基于被选择进行当前语音交互的语音设备属性，明确所述当前语音交互中的模糊意图。在某些实施例中，上述属性可以是位置属性，例如，在不同位置说“打开灯”，即可打开就近位置的灯。还比如，在不同会议室，说“会议模式”，可以执行系统记忆的不同会议模式。

在使用选定的语音设备与用户交互时，用户可以将获取的语音信息上传至云端服务平台540，例如，语音云。后者执行意图理解和相应处理，并返回云端处理结果。返回的云端处理结果可以用于语音设备本身的操作，例如，进行语音反馈，也可以发送给中控设备520用于对受控设备530进行控制。在其他实施例中，中控设备520也可以直接从云端获取处理结果并用于对受控设备530进行控制。在不同的实施例中，受控设备530，甚至是语音设备510，能够以各自本地通信方式与中控设备520进行通信，例如，可以基于各自短距离无线通信方式进行图像。在某些实施例中，受控设备530，甚至是语音设备510，能够以有线连接方式与中控设备520进行通信。例如，语音设备510可以是在房屋交付时配备的基础设施，并且属于房屋布线的一部分。另外，受控设备530可以是各类可被无线受控的物联网设备，也可以是需要经由传统有线端口进行控制的常规设备。

另外，在某些实施例中，语音交互系统还可以包括APP550。用户可以利用安装在例如智能手机内的APP550，对分布式语音交互系统中各个设备进行设置或控制，上述操作可以直接基于本地的短距离连接进行(例如，经由蓝牙连接)，也可以经由云端服务平台540进行。

本发明的上述系统尤其适用于实现为一个语音交互会议系统。例如，可以在会议室内配备多个语音设备，每个语音设备都可以同时包括麦克风和扬声器，能够基于例如WIFI mesh组网本地通信，并且可以基于例如红外传感器或是蓝牙5.1规范确定正在发言的用户的当前位置，由此选择合适的语音设备进行通话。上述语音交互会议系统可以是视频会议系统的一部分，并且尤其适用于布置在较大的场景(例如，较大的会议室、报告厅、或是需要进行例如模型展示的整层办公室内等)。

具体地，本发明可以实现为一种语音会议系统，包括多个相互通信的语音设备，其中，所述语音设备具有远场语音交互功能并且用于进行语音交互；其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互，所述当前语音交互用于如下至少一项：进行会议通话；以及进行智能语音交互。上述语音会议系统指代可以进行语音交互的会议系统，并且还会议系统也可以具备视频会议系统的功能或是作为其一部分。

在一个实施例中，所述预定的仲裁规则包括多端仲裁规则，并且所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互：基于就近唤醒规则，从所述多个语音设备中动态选择一个语音设备作为主节点；所述主节点汇总其他语音设备发送的信息并进行仲裁；以及所述主节点基于仲裁结果选择所述多个语音设备中的一个语音设备与用户进行当前语音交互。

在一个实施例中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互包括：基于如下至少一项，动态切换与所述用户进行当前语音交互的语音设备：所述多个语音设备中至少两个语音设备采集的用户语音强度信息的变化；以及位置感知设备采集到的当前用户状态的变化。

可以基于被选择进行当前语音交互的语音设备位置属性，明确所述当前语音交互中的模糊意图。作为替换或是附加，可以基于被选择进行当前语音交互的场景属性，明确所述当前语音交互中的模糊意图。

在一个实施例中，该系统还可以包括：中控设备和受控设备。中控设备可以用于：接收基于所述当前语音交互生成的操作指令；以及基于所述操作指令，控制受控设备进行所述相应操作。受控设备则可用于：基于接收到的操作指令，进行相应操作。

上述系统中的多个语音设备、所述中控设备和至少部分受控设备可以基于近距离通信规范进行组网通信，以实现部分功能的本地快速响应。

进一步地，至少部分受控设备可以经由有线端口接收来自中控设备的操作指令。这些设备可以是传统的电气设备，除了经由中控设备实现语音控制之外，还可以经由其默认配备的控制面板、感应器或是触摸屏进行操作。

本发明还可以实现为一种语音设备。图6示出了根据本发明的一种语音设备的组成示意图。如图6所示，语音设备600可以包括交互单元610、通信单元620和仲裁单元630。交互单元610用于与用户进行交互，例如，可以包括采集用户话音的麦克风(例如，双麦拾音)以及用于播报的扬声器，还可以根据实现，包括语音处理链路上是全部或部分模块，例如，语义分析和理解模块等。在不同的实施例中，上述语音处理链路可以全部或部分在云端实现，或是在中心语音设备上实现等。在一个实施例中，该语音设备600可以是智能语音面板。在另一个实施例中，该语音设备600可以是智能音箱，在其他实施例中，该设备600也可以是功能更为简单的语音言配件，例如智能语音贴等。通信单元620用于与至少一个其他语音设备通信。在不同的实施例中，通信单元620可以具备不同的通信能力。例如，在语音设备600是智能语音面板或智能音箱的情况下，通信单元620可以包括近距离和远距离通信子单元，例如，包括蓝牙和WiFi功能的子单元，以用于与近距离的物联网设备和远距离的云端服务器通信。而在语音设备600是更为简单的语音配件的情况下，通信单元620可以仅具备近距离通信功能，例如，蓝牙通信功能，以方便与其他语音设备相通信。

仲裁单元630可以用于基于预定的仲裁规则，从所述语音设备和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

进一步地，通信单元610可以用于：向服务端上传所述当前语音交互；获取服务端下发的反馈信息(例如，云端处理结果)；以及并且，所述语音设备基于所述反馈信息进行相应的操作。上述操作可以是语音设备本身基于反馈信息的操作，例如语音反馈，也可以是转发至中控系统的操作，也可以是直接控制受控设备的操作。

进一步地，该语音设备600还可以包括处理单元，用于理解所述当前语音交互的意图并生成反馈信息。上述处理单元还可以实现仲裁单元所需的处理功能。

进一步地，服务端和/或处理单元基于被选择进行当前语音交互的语音设备位置属性，明确所述当前语音交互中的模糊意图。例如，用户说“开灯”，次卧的语音面板可以基于自身的位置信息，补全上述语音输入中缺失的位置信息，并直接打开次卧的灯。

在一个实施例中，该语音设备可以是一种智能语音面板。为此，本发明可以实现为一种智能语音面板，与至少一个其他语音设备通信，其中，所述智能语音面板包括：麦克风，用于获取用户输入的语音；扬声器，用于向用户输出语音反馈；以及通信单元，用于与所述至少一个其他语音设备通信；仲裁单元，用于基于预定的仲裁规则，从所述智能语音面板和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

所述至少一个其他语音设备可以包括至少一个其他智能语音面板，并且所述智能语音设备与所述至少一个其他智能语音面板经由布线进行有线通信。例如，这些智能语音面板可以是预先安装(例如，安装在墙上)并进行布线(例如，布线在墙内)连接。例如，这些智能语音面板之间可以进行有线通信，并且能够与中控设备(例如，智能会议系统或是家庭智能系统的中控设备)同样经由布线有线连接并通信。

具体地，智能语音面板可以完成双麦拾音、远场语音增强、唤醒、识别、对话理解和语音播报等全链路的语音交互。多个语音面板之间可以通过WIFI mesh组网本地通信，并智能仲裁机制，实现就近唤醒，唯一响应。

在另一个实施例中，该语音设备可以是一种智能音箱。为此，本发明可以实现为一种智能音箱，与至少一个其他语音设备通信，其中，所述智能音箱包括：麦克风，用于获取用户输入的语音；扬声器，用于向用户输出语音反馈；以及通信单元，用于与所述至少一个其他语音设备通信；仲裁单元，用于基于预定的仲裁规则，从所述智能音箱和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

不同于智能语音面板，智能音箱通常能够由用户方便地移动，并且需要用户进行操作来与现有的智能系统相连接，或是作为组建例如家庭智能语音系统的中心节点。此时，所述至少一个其他语音设备可以包括如下至少一项：至少两个智能语音面板，所述至少两个智能语音面板经由布线进行有线通信，并与所述智能音箱进行无线通信以进行仲裁；至少一个其他智能音箱，所述智能音箱与所述至少一个其他智能音箱箱进行无线通信以进行仲裁；以及至少一个智能语音贴，所述智能音箱与所述至少一个智能语音贴进行无线通信以进行仲裁。

由此，本发明的智能语音会议系统可以包括如上所述的各种能够相互通信的多个语音设备。所述语音设备具有远场语音交互功能并且用于进行语音交互，并且包括至少两个智能语音面板；其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互，所述当前语音交互用于如下至少一项：进行会议通话；以及进行智能语音交互。

所述至少两个智能语音面板被预先安装在墙面中，用于：彼此经由无线组网进行近距离无线通信，彼此有线连接，和/或(经由布线或是无线组网连接至所述系统包括的中控设备。

本发明的动态接入方案还可以实现为一种语音交互方法。该语音交互方法可由例如图1-4所示的语音交互系统执行，在某些情况下，也可由于语音设备。图7示出了根据本发明一个实施例的语音交互方法的流程示意图。

在步骤S710，采集用户的语音输入信息。在步骤S720，基于采集到的语音数据信息，与相互通信的其他语音设备进行多端仲裁。在步骤S730，基于多端仲裁的结果，选择一个语音设备与用户进行当前语音交互。

步骤S720可以包括：根据至少两个语音设备采集的用户语音强度信息，基于就近唤醒规则进行多端仲裁。

在一个实施例中，该方法还可以包括：基于被选择进行当前语音交互的语音设备属性，明确所述当前语音交互中的模糊意图。

在一个实施例中，该方法还可以包括：上传当前语音交互的交互内容；获取基于所述交互内容下发的反馈信息；以及基于所述反馈信息执行相应操作。其中基于所述反馈信息执行对应操作包括：向用户播放语音反馈；将所述反馈信息转发给中控设备；以及基于所述反馈信息，使得对应受控设备执行相应操作。

上文中已经参考附图详细描述了根据本发明的语音交互系统、方法、设备和会议系统。本发明采用分布式多端仲裁技术，在多个设备同时唤醒的情况下，设备之间通过例如WIFI mesh组网进行本地通信，智能仲裁，就近唤醒，唯一响应，即只有离使用者最近的设备做出响应，避免了“一呼多应”，有效解决了空间覆盖和设备响应之间的平衡。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音交互系统，包括多个相互通信的语音设备，其中，

所述语音设备具有远场语音交互功能并且用于进行语音交互；

其中，所述多个语音设备基于预定仲裁规则，选择其中的一个语音设备与用户进行当前语音交互。

2.如权利要求1所述的系统，其中，所述预定的仲裁规则包括多端仲裁规则，并且所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互包括：

所述多个语音设备中的被激活的语音设备交换当前信息；以及

所述被激活的语音设备基于交换的当前信息，选择符合所述预定仲裁规则的一个语音设备与用户进行当前语音交互。

3.如权利要求2所述的系统，其中，所述被激活的语音设备基于所述当前信息，选择符合所述预定仲裁规则的一个语音设备与用户进行当前语音交互包括：

基于交换的当前信息，从所述被激活的语音设备中选择一个语音设备作为主节点；

所述主节点基于预定仲裁规则，选择所述多个语音设备中的一个语音设备与用户进行当前语音交互。

4.如权利要求2所述的系统，其中，基于交换的当前信息，选择与用户进行当前语音交互的语音设备和/或主节点包括如下至少一项：

基于就近唤醒规则进行选择；

基于上电顺序进行选择；

基于趋势预判规则进行选择。

5.如权利要求4所述的系统，所述就近唤醒规则包括：

获取被激活的至少两个语音设备采集的用户语音强度信息；以及

基于所述至少两个语音设备的用户语音强度信息，确定主节点和/或与用户进行当前语音交互的语音设备。

6.如权利要求5所述的系统，其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互还包括：

所述多个语音设备获取状态感知设备采集的当前用户状态，并且

所述预定的仲裁规则还包括：

基于所述当前用户状态，确定主节点和/或与用户进行当前语音交互的语音设备。

7.如权利要求6所述的系统，其中，采集当前用户状态的操作包括如下至少一项：

拍摄所述用户的图像；

对所述用户进行红外追踪扫描；以及

获取所述用户操作设备的设备状态。

8.如权利要求1所述的系统，其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互包括：

基于如下至少一项，动态切换与所述用户进行当前语音交互的语音设备：

所述多个语音设备中至少两个语音设备采集的用户语音强度信息的变化；以及

基于状态感知设备采集到的当前用户状态的变化。

9.如权利要求1所述的系统，其中，基于被选择进行当前语音交互的语音设备属性，明确所述当前语音交互中的模糊意图。

10.如权利要求1所述的系统，其中，所述多个相互通信的语音设备包括：

基于近距离通信规范进行组网通信的多个语音设备。

11.如权利要求10所述的系统，还包括如下至少一项：

用于采集当前用户状态的状态感知设备；以及

基于被选择的语音设备与用户进行的当前语音交互，进行相应操作的受控设备。

12.如权利要求10所述的系统，还包括：

中控设备，用于：

接收基于所述当前语音交互生成的操作指令；以及

基于所述操作指令，控制受控设备进行所述相应操作。

13.如权利要求1所述的系统，还包括如下至少一项：

服务端，用于获取当前语音交互的交互内容，并下发反馈信息；以及

边缘计算设备，用于获取当前语音交互的交互内容，并下发反馈信息。

14.如权利要求1所述的系统，其中，所述多个语音设备包括一个中心节点，并且所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互包括：

所述中心节点汇总其他语音设备发送的信息并进行仲裁；以及

所述中心节点基于仲裁结果动态切换所述多个语音设备中的一个语音设备与用户进行当前语音交互。

15.一种语音会议系统，包括多个相互通信的语音设备，其中，

其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互，

所述当前语音交互用于如下至少一项：

进行会议通话；以及

进行智能语音交互。

16.如权利要求15所述的系统，其中，所述预定的仲裁规则包括多端仲裁规则，并且所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互：

基于就近唤醒规则，从所述多个语音设备中动态选择一个语音设备作为主节点；

所述主节点汇总其他语音设备发送的信息并进行仲裁；以及

所述主节点基于仲裁结果选择所述多个语音设备中的一个语音设备与用户进行当前语音交互。

17.如权利要求15所述的系统，其中，所述多个语音设备基于预定的仲裁规则，选择其中的一个语音设备与用户进行当前语音交互包括：

位置感知设备采集到的当前用户状态的变化。

18.如权利要求15所述的系统，其中，基于被选择进行当前语音交互的语音设备位置属性，明确所述当前语音交互中的模糊意图；和/或

基于被选择进行当前语音交互的场景属性，明确所述当前语音交互中的模糊意图。

19.如权利要求15所述的系统，还包括：

中控设备，用于：

接收基于所述当前语音交互生成的操作指令；以及

基于所述操作指令，控制受控设备进行所述相应操作，

受控设备，用于：

基于接收到的操作指令，进行相应操作。

20.如权利要求19所述的系统，其中，所述多个语音设备、所述中控设备和至少部分受控设备基于近距离通信规范进行组网通信。

21.如权利要求19所述的系统，其中，至少部分受控设备经由有线端口接收来自中控设备的操作指令。

22.一种语音设备，与至少一个其他语音设备通信，其中，所述语音设备包括：

交互单元，用于与用户进行语音交互；以及

通信单元，用于与所述至少一个其他语音设备通信；

仲裁单元，用于基于预定的仲裁规则，从所述语音设备和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

23.如权利要求22所述的设备，其中，所述通信单元用于：

向服务端上传所述当前语音交互；

获取服务端下发的反馈信息；以及

并且，所述语音设备基于所述反馈信息进行相应的操作。

24.如权利要求22所述的设备，还包括：

处理单元，用于理解所述当前语音交互的意图并生成反馈信息。

25.如权利要求23或24所述的设备，其中，所述服务端和/或所述处理单元基于被选择进行当前语音交互的语音设备位置属性，明确所述当前语音交互中的模糊意图。

26.一种语音交互方法，包括：

采集用户的语音输入信息；

基于采集到的语音数据信息，与相互通信的其他语音设备进行多端仲裁；以及

基于多端仲裁的结果，选择一个语音设备与用户进行当前语音交互。

27.如权利要求26所述的方法，其中，基于采集到的语音数据信息，与相互通信的其他语音设备进行多端仲裁包括：

根据至少两个语音设备采集的用户语音强度信息，基于就近唤醒规则进行多端仲裁。

28.如权利要求26所述的方法，还包括：

基于被选择进行当前语音交互的语音设备属性，明确所述当前语音交互中的模糊意图。

29.如权利要求26所述的方法，还包括：

上传当前语音交互的交互内容；

获取基于所述交互内容下发的反馈信息；以及

基于所述反馈信息执行相应操作。

30.如权利要求26所述的方法，其中基于所述反馈信息执行对应操作包括：

向用户播放语音反馈；

将所述反馈信息转发给中控设备；以及

基于所述反馈信息，使得对应受控设备执行相应操作。

31.一种智能语音面板，与至少一个其他语音设备通信，其中，所述智能语音面板包括：

麦克风，用于获取用户输入的语音；

扬声器，用于向用户输出语音反馈；以及

通信单元，用于与所述至少一个其他语音设备通信；

仲裁单元，用于基于预定的仲裁规则，从所述智能语音面板和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

32.如权利要求31所述的智能语音面板，其中，所述至少一个其他语音设备包括至少一个其他智能语音面板，并且所述智能语音设备与所述至少一个其他智能语音面板经由布线进行有线通信和/或经由无线组网进行近距离无线通信。

33.一种智能音箱，与至少一个其他语音设备通信，其中，所述智能音箱包括：

麦克风，用于获取用户输入的语音；

扬声器，用于向用户输出语音反馈；以及

通信单元，用于与所述至少一个其他语音设备通信；

仲裁单元，用于基于预定的仲裁规则，从所述智能音箱和至少一个其他语音设备中动态选择与所述用户进行当前语音交互的一个语音设备。

34.如权利要求33所述的智能音箱，其中，所述至少一个其他语音设备包括如下至少一项：

至少两个智能语音面板，所述至少两个智能语音面板经由布线进行有线通信和/或经由无线组网进行近距离无线通信，并与所述智能音箱进行无线通信以进行仲裁；

至少一个其他智能音箱，所述智能音箱与所述至少一个其他智能音箱箱进行无线通信以进行仲裁；以及

至少一个智能语音贴，所述智能音箱与所述至少一个智能语音贴进行无线通信以进行仲裁。

35.一种智能语音会议系统，包括多个相互通信的语音设备，其中，

所述语音设备具有远场语音交互功能并且用于进行语音交互，并且包括至少两个智能语音面板；

所述当前语音交互用于如下至少一项：

进行会议通话；以及

进行智能语音交互。

36.如权利要求35所述的系统，其中，所述至少两个智能语音面板被预先安装在墙面中，并且用于如下至少一项：

经由无线组网进行近距离无线通信；

彼此有线连接并进行有线通信；以及

连接至所述系统包括的中控设备。