CN113992463A

CN113992463A - 语音交互方法及相关装置、设备、系统和存储介质

Info

Publication number: CN113992463A
Application number: CN202111062094.1A
Authority: CN
Inventors: 张坤; 卢尧; 张陈
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-28
Anticipated expiration: 2041-09-10
Also published as: CN113992463B

Abstract

本申请公开了一种语音交互方法及相关装置、设备、系统和存储介质，其中，语音交互方法由语音设备执行，且多个语音设备组网为本地网络，语音交互方法包括：采集用户发出的唤醒语音；分析唤醒语音，得到用于定位用户位置的参考信息；与至少一个协同设备交换参考信息，以获取各个语音设备的参考信息；其中，协同设备包括本地网络中本端设备以外的语音设备；基于各个语音设备的参考信息，得到决策信息；其中，决策信息包括本端设备是否需被唤醒。上述方案，能够在多个语音设备的使用场景下，灵活、快速且准确地进行语音交互。

Description

语音交互方法及相关装置、设备、系统和存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种语音交互方法及相关装置、设备、系统和存储介质。

背景技术

随着电子信息的发展和人们生活水平的提高，诸如智能音箱、智能手机等能够与用户进行语音交互的语音设备，已经走进了越来越多的家庭中，并极大地方便了人们日常生活。

然而，当使用环境中存在多个语音设备且多个语音设备的唤醒词也一致时，多个语音设备将同时与用户交互，从而使得语音设备之间相互干扰，产生大量噪音，进而影响正常语音交互，甚至可能导致语音设备做出错误响应。有鉴于此，如何在多个语音设备的使用场景下，灵活、快速且准确地进行语音交互成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音交互方法及相关装置、设备、系统和存储介质，能够在多个语音设备的使用场景下，灵活、快速且准确地进行语音交互。

为了解决上述技术问题，本申请第一方面提供了一种语音交互方法，语音交互方法由语音设备执行，且多个语音设备组网为本地网络，语音交互方法包括：采集用户发出的唤醒语音；分析唤醒语音，得到用于定位用户位置的参考信息；与至少一个协同设备交换参考信息，以获取各个语音设备的参考信息；其中，协同设备包括本地网络中本端设备以外的语音设备；基于各个语音设备的参考信息，得到决策信息；其中，决策信息包括本端设备是否需被唤醒。

为了解决上述技术问题，本申请第二方面提供了一种语音交互装置，包括：采集模块、分析模块、交换模块和决策模块，采集模块用于采集用户发出的唤醒语音；分析模块用于分析唤醒语音，得到用于定位用户位置的参考信息；交换模块用于与至少一个协同设备交换参考信息，以获取各个语音设备的参考信息；其中，协同设备包括本地网络中本端设备以外的语音设备，且本地网络是由多个语音设备组网形成的；决策模块用于基于各个语音设备的参考信息，得到决策信息；其中，决策信息包括本端设备是否需被唤醒。

为了解决上述技术问题，本申请第三方面提供了一种语音设备，包括语音采集电路、通信电路、存储器和处理器，语音采集电路、通信电路和存储器耦接至处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音交互方法。

为了解决上述技术问题，本申请第四方面提供了一种语音交互系统，包括多个语音设备，语音设备为上述第三方面中的设备，多个语音设备组网形成本地网络，且语音设备之间通过本地网络交互信息。

为了解决上述技术问题，本申请第五方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音交互方法。

上述方案，多个语音设备组网为本地网络，且各个语音设备均采集用户发出的唤醒语音，并分析唤醒语音，得到用于定位用户位置的参考信息，以及与至少一个协同设备交换参考信息，以获取各个语音设备的参考信息，且协同设备包括本地网络中除本端设备以外的语音设备，从而基于各个语音设备的参考信息，得到决策信息，且决策信息包括本端设备是否需被唤醒，一方面由于各个语音设备均在语音设备本地决策是否需被唤醒，即在决策过程中无需连接服务器，有利于提升交互速度，另一方面由于多个语音设备组成本地网络，且各个语音设备均需执行相同的决策步骤，故能够大大降低设备掉线对决策唤醒的影响，有利于提升交互灵活性，又一方面由于在决策唤醒之前，各个语音设备均未响应唤醒语音，故能够大大减少语音设备之间的干扰，有利于提升交互准确性。故此，能够在多个语音设备的使用场景下，灵活、快速且准确地进行语音交互。

附图说明

图1是本申请语音交互方法一实施例的流程示意图；

图2是环绕区域一实施例的示意图；

图3是本申请语音交互方法一实施例的过程示意图；

图4是目标区域一实施例的示意图；

图5是本申请语音交互方法另一实施例的流程示意图；

图6是本申请语音交互方法另一实施例的过程示意图；

图7是本申请语音交互方法又一实施例的过程示意图；

图8是本申请语音交互方法又一实施例的过程示意图；

图9是本申请语音交互装置一实施例的框架示意图；

图10是本申请语音设备一实施例的框架示意图；

图11是本申请语音交互系统一实施例的框架示意图；

图12是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音交互方法一实施例的流程示意图。本公开实施例中步骤由语音设备执行，且多个语音设备组网形成本地网络。具体而言，本公开实施例可以包括如下步骤：

步骤S11：采集用户发出的唤醒语音。

为了便于理解，首先介绍多个语音网络的组网过程。语音设备可以包括但不限于：智能音箱、智能手机、智能网关等等，在此不做限定。此外，在使用过程中，语音设备可以与无线路由器通信连接。在语音设备接入到无线路由器之后，可以广播组网请求信息，且组网请求信息可以包括设备类型和设备地址(如，IP地址、MAC地址等)，当另一语音设备接收到组网请求信息之后，可以校验其设备类型是否确为语音设备，若是则可以基于组网请求信息中的设备地址，向该语音设备发送组网确认信息，以完成与该语音设备的组网。也就是说，在语音交互之前，多个语音设备之间可以相互发现，以组成本地网络。

在一个实施场景中，所有语音设备可以是同一家厂商制造的，在此情况下，所有语音设备的唤醒词可以完全相同。

在一个实施场景中，语音设备的制造厂商也可以部分相同，即部分语音设备可以是由同一家厂商制造的，部分语音设备又可以是另一家厂商制造的，在此不做限定，在此情况下，多个语音设备的唤醒词可以并不完全相同。

在一个具体的实施场景中，在多个语音设备的唤醒词并不完全相同的情况下，语音设备在广播组网请求信息时，其组网请求信息还可以进一步包括厂商代码，在另一语音设备接收到该组网请求信息之后，可以先校验其设备类型是否确为语音设备，若是则进一步确认其厂商代码是否与自身相同，若是则可以基于组网请求信息中的设备地址，向该语音设备发送组网确认信息，以完成与该语音设备的组网，从而使得相同厂商制造的语音设备组成本地网络。

在另一个具体的实施场景中，在前述方案的基础上，在相同厂商制造的语音设备组成本地网络之后，每个本地网络中语音设备还可以相互交换算力信息，该算力信息可以表示语音设备的处理能力，并决策出本地网络中对接设备，需要说明的是，对接设备可以是本地网络中处理能力最强的语音设备。在此基础上，对接设备可以进一步广播组网请求信息，且该组网请求信息中可以包含对接设备的设备地址，当另一本地网络的对接设备接收到该组网请求信息之后，可以基于该组网请求信息中的设备地址，向该对接设备发送组网确认信息，以完成与该对接设备组网，最终各个本地网络将通过各自的对接设备组网形成一个新的本地网络。

需要说明的是，本地网络中多个语音设备均需执行本公开实施例中步骤，即本地网络中多个语音设备为平等关系，即不存在主从关系，故此即使存在设备掉线等情况，也能够决策出唤醒设备，而不会导致语音交互无法完成，有利于提升语音交互的鲁棒性。

在一个实施场景中，唤醒语音可以包含唤醒词，唤醒词可以根据语音设备的制造厂商而定，如，唤醒词可以是“魔飞魔飞”、“小飞小飞”等等，在此不做限定。

在一个实施场景中，为了提高语音交互质量，语音设备可以集成有麦克风阵列，即可以通过麦克风阵列采集用户发出的唤醒语音。需要说明的是，麦克风阵列所包含的麦克风数量可以是2个、4个、6个等等，在此不做限定。

步骤S12：分析唤醒语音，得到用于定位用户位置的参考信息。

具体地，语音设备在采集到唤醒语音之后，可以对唤醒语音进行分析，以得到用于定位用户位置的参考信息。

在一个实施场景中，分析处理具体可以包括波束成形。需要说明的是，波束成形(Beam Forming)是融合麦克风阵列的多通道语音数据，对噪声和干扰方向进行抑制，以增强目标方向(即用户方向)的信号，具体过程可以参阅波束成形的技术细节，在此不再赘述。

在一个实施场景中，分析处理还可以包括特征检测。唤醒语音在经波束成形之后，可以进一步对其进行特征检测，以处理得到参考信息。参考信息具体可以包括能量信息和区域信息，能量信息用于表示语音设备处的声音音量，而区域信息用于表示用户所在的预估区域，且预估区域所述若干子区域，若干子区域是由语音设备的环绕区域划分得到的。上述方式，通过将参考信息设置为包括能量信息和区域信息，且能量信息用于表示语音设备处的声音音量，区域信息用于表示用户所在的预估区域，且预估区域属于若干子区域，若干子区域是由语音设备的环绕区域划分得到的，故能够从声音音量和预估区域两个层面来对用户进行定位，有利于提升定位准确性。

在一个具体的实施场景中，可以检测得到唤醒语音的幅度谱，并基于幅度谱统计得到幅度均值，作为声音音量。

在一个具体的实施场景中，请结合参阅图2，图2是环绕区域一实施例的示意图。如图2所示，网格阴影填充的圆形表示语音设备，以语音设备为中心，每隔60度划分一个子区域，从而将环绕区域划分为6个子区域。此外，为了便于标记子区域，还可以将6个子区域分别进行编号，如可以采用阿拉伯数字分别编号为：1号子区域、2号子区域、3号子区域、4号子区域、5号子区域、6号子区域。其他情况可以以此类推，在此不再一一举例。

在一个具体的实施场景中，可以基于麦克风阵列所采集到的多通道语音数据进行声源定位，以得到区域信息。声源定位具体采用：FRIDA(即finite rate of innovationsampling based algorithm)、MUSIC(即MUsical Signal Classification)、TOPS(即testof orthogonality of projected subspaces)等算法，在此不做限定。具体定位过程，可以参阅上述相关算法的技术细节，在此不再赘述。

步骤S13：与至少一个协同设备交换参考信息，以获取各个语音设备的参考信息。

本公开实施例中，协同设备包括本地网络中本端设备以外的语音设备。以3个语音设备组成本地网络为例，1号语音设备、2号语音设备和3号语音设备分别经上述步骤处理之后，均可以得到各自的参考信息，在此情况下，以1号语音设备视角为例，1号语音设备即为本端设备，2号语音设备和3号语音设备即为协同设备，则1号语音设备可以基于本地网络与2号语音设备交换各自的参考信息，并与3号语音设备交换各自的参考信息；而以2号语音设备视角为例，2号语音设备即为本端设备，1号语音设备和3号语音设备即为协同设备，则2号语音设备在与1号语音设备通过本地网络交换各自的参考信息的同时，还可以与3号语音设备交换各自的参考信息；而以3号语音设备为例，3号语音设备即为本端设备，1号语音设备和2号语音设备即为协同设备，则3号语音设备可以基于本地网络分别与1号语音设备、2号语音设备交换各自的参考信息。在此基础上，1号语音设备、2号语音设备和3号语音设备都可以获取到所有语音设备的参考信息。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，本端设备可以与各个协同设备均交换参考信息，以使本端设备获取到各个语音设备的参考信息。

在一个实施场景中，由于在本地网络交换参考信息过程中，不可避免地会产生时间差，即很难同时交换参考信息，故本端设备也可以选择性地与部分协同设备交换参考信息，也能够使本端设备获取到各个语音设备的参考信息。以3个语音设备组成本地网络为例，以1号语音设备视角为例，1号语音设备即为本端设备，2号语音设备和3号语音设备即为协同设备，1号语音设备可以与2号语音设备交换参考信息，并与3号语音设备交换参考信息，此时1号语音设备能够获取到各个语音设备的参考信息，而2号语音设备能够获取到其本身以及1号语音设备的参考信息，3号语音设备同理能够获取到其本身以及1号语音设备的参考信息，故在2号语音设备作为本端设备，而1号语音设备和3号语音设备作为协同设备的情况下，2号语音设备可以仅与3号语音设备交换参考信息，以获取各个语音设备的参考信息，或者，在3号语音设备作为本端设备，而1号语音设备和2号语音设备作为协同设备的情况下，3号语音设备可以仅与2号语音设备交换参考信息，以获取各个语音设备的参考信息。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，请结合参阅图3，图3是本申请语音交互方法一实施例的过程示意图。如图3所示，1号语音设备、2号语音设备和3号语音设备组成本地网络，各个语音设备均通过内置的麦克风阵列采集多通道的唤醒语音，并对其进行波束成形、特征检测等处理，得到各自的参考信息，且参考信息中包含区域信息和能量信息。在此基础上，通过本地网络，1号语音设备、2号语音设备和3号语音设备相互之间交换各自的参考信息。需要说明的是，图3所示仅仅是实际应用过程中，可能存在的一种交互情况，并不因此而限定实际交互过程，例如，本地网络也可以包含2个语音设备、4个语音设备等等，在此不做限定。

步骤S14：基于各个语音设备的参考信息，得到决策信息。

本公开实施例中，决策信息包括本端设备是否需被唤醒，以图3为例，1号语音设备的决策信息可以包括需被唤醒，2号语音设备的决策信息可以包括不需被唤醒，3号语音设备的决策信息可以包括不需被唤醒，其他情况可以以此类推，在此不再一一举例。具体地，可以将各个协同设备分别作为当前设备，并基于本端设备的参考信息和当前设备的参考信息进行分析，得到当前设备的分析结果，且分析结果表示当前设备相较于本端设备距离用户的远近，在此基础上，再基于各个协同设备的分析结果，得到决策信息。上述方式，通过将本端设备的参考信息分别与各个协同设备的参考信息相结合，来判断用户至本端设备相较于至各个协同设备的远近，有利于提升决策准确性。

在一个实施场景中，请继续结合参阅图3，在1号语音设备执行本公开实施例的情况下，1号语音设备即为本端设备，则2号语音设备和3号语音设备即为协同设备，在此情况下，可以分别将2号语音设备和3号语音设备作为当前设备。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，参考信息可以包括能量信息，则可以比较本端设备和当前设备的能量信息，得到比较结果，在此基础上，可以通过比较结果得到分析结果。例如，在比较结果表示本端设备高于当前设备的情况下，可以认为相较于当前设备，用户至本端设备更近，反之在比较结果表示当前设备高于本端设备的情况下，可以认为相较于本端设备，用于至当前设备更近。

在一个实施场景中，为了进一步提升决策准确性，参考信息可以包括区域信息和能量信息，则可以基于本端设备的区域信息和当前设备的区域信息，确定用户所在的目标区域，并比较本端设备的能量信息和当前设备的能量信息，得到比较结果，在此基础上，再基于目标区域和比较结果，得到分析结果，需要说明的是，分析结果具体可以包括用户至本端设备的第一距离与用户至当前设备的第二距离两者之间的大小关系。上述方式，通过将本端设备的参考信息分别与各个协同设备的参考信息相结合，来判断用户至本端设备的第一距离与用户至协同设备的第二距离两者之间的大小关系，有利于提升唤醒决策的鲁棒性和准确性。

在一个具体的实施场景中，可以将本端设备的预估区域和当前设备的预估区域的交集，作为目标区域。请结合参阅图4，图4是目标区域一实施例的示意图。如图4所示，上侧网格阴影填充的圆形所示为1号语音设备，左下网格阴影填充的圆形所示为2号语音设备，右下网格阴影填充的圆形所示为3号语音设备，黑色阴影填充的圆形所示为用户。1号语音设备的参考信息中预估区域为4号子区域，2号语音设备的参考信息中预估区域为2号子区域，3号语音设备的参考信息中预估区域为6号子区域，则以1号语音设备作为本端设备为例，在当前设备为2号语音设备的情况下，目标区域为点状阴影填充的三角形区域，而在当前设备为3号语音设备的情况下，目标区域也为点状阴影填充的三角形区域。其他情况可以以此类推，在此不再一一举例。上述方式，将本端设备的预估区域和当前设备的预估区域的交集，作为目标区域，有利于降低确定目标区域的复杂度。

在一个具体的实施场景中，可以比较本端设备的声音音量和当前设备的声音音量，得到比较结果，即比较结果具体可以包括本端设备高于当前设备，或者比较结果也可以包括本端设备低于当前设备，或者比较结果还可以包括本端设备等于当前设备，在此不做限定。上述方式，直接比较本端设备的声音音量和当前设备的声音音量，得到比较结果，有利于降低获取比较结果的复杂度。

在一个具体的实施场景中，可以结合多个语音设备的分布信息，并基于目标区域和比较结果，确定第一距离与第二距离两者之间的大小关系。需要说明的是，分布信息表示多个语音设备的排布情况，请结合参阅图4，图4中三个语音设备的分布信息可以包括：2号语音设备位于1号语音设备南偏西30度L米处，3号语音设备位于1号语音设备南偏东30度L米处。上述分布信息可以由用户自行设置，可以由语音设备在组网过程中相互感知得到，在此不做限定。具体地，可以基于分布信息和目标区域进行分析，得到第一距离与第二距离之间的距离情况，该距离情况具体可以包括第一距离与第二距离之间若干种可能关系，在此基础上，可以再结合距离情况和比较结果，确定第一距离与第二距离之间的大小关系。

举例来说，若目标区域与本端设备、当前设备均相关，则距离情况可以包括：第一距离大于第二距离、第一距离等于第二距离以及第一距离小于第二距离，即此时第一距离与第二距离之间存在所有可能关系。请结合参阅图4，以本端设备为1号语音设备，当前设备为2号语音设备为例，若目标区域为点状阴影所示的三角形区域，则该目标与本端设备、当前设备均相关，则此时仅根据分布信息和目标区域不能完全确定第一距离与第二距离之间的大小关系，即此时第一距离与第二距离之间存在所有可能关系。其他情况可以以此类推，在此不再一一举例。

举例来说，若目标区域与本端设备相关，而与当前设备无关，则距离情况可以包括：第一距离小于第二距离。请结合参阅图4，仍以本端设备为1号语音设备，当前设备为2号语音设备为例，如前所述，在1号语音设备的预估区域为编号为1的子区域，2号语音设备的预估区域为编号为1的子区域的情况下，目标区域为两者之间的交集，即目标区域为斜线阴影填充的区域，故目标区域与本端设备相关，而与当前设备无关，故分析结果包括第一距离小于第二距离。其他情况可以以此类推，在此不再一一举例。

举例来说，若目标区域与当前设备相关，而与本端设备无关，则距离情况可以包括：第一距离大于第二距离。请结合参阅图4，仍以本端设备为1号语音设备，当前设备为2号语音设备为例，如前所述，在1号语音设备的预估为编号为5的子区域，2号语音设备的预估区域为编号为5的子区域的情况下，目标区域为两者之间的交集，即目标区域为横线阴影填充的区域，故目标区域与当前设备相关，而与本端设备无关，故分析结果可以包括第一距离大于第二距离。其他情况可以以此类推，在此不再一一举例。

进一步地，若距离情况包括：第一距离大于第二距离、第一距离等于第二距离以及第一距离小于第二距离，则可以根据比较结果确定分析结果(即大小关系)。例如，在比较结果包括本端设备高于当前设备的情况下，可以确定第一距离小于第二距离，即用户离本端设备比价近，反之，在比较结果包括本端设备低于当前设备的情况下，可以确定第一距离大于第二距离，即用户离当前设备比较近，而在比较结果包括本端设备等于当前设备的情况下，可以确定第一距离等于第二距离，用户离本端设备和当前设备一样近。

进一步地，若距离情况包括：第一距离大于第二距离，则可以根据距离情况与比较结果之间的一致性，确定分析结果(即第一距离与第二距离之间的大小关系)。例如，在比较结果包括本端设备低于当前设备的情况下，说明距离情况与比较结果一致，则可以直接确定第一距离大于第二距离，即用户离当前设备比较近，反之，在比较结果包括本端设备不低于当前设备的情况下，说明距离情况与比较结果不一致，则可以认为结合区域和能量两者无法确定第一距离与第二距离之间的大小关系，但考虑到音量的高低会直接影响语音识别，则可以根据比较结果确定第一距离与第二距离之间的大小关系，即此时可以认为第一距离不大于第二距离，即若比较结果包括本端设备等于当前设备，则可以认为第一距离等于第二距离，若比较结果包含本端设备高于当前设备，则可以认为第一距离小于第二距离。

进一步地，若距离情况包括：第一距离小于第二距离，则可以根据距离情况与比较结果之间的一致性，确定分析结果(即第一距离与第二距离之间的大小关系)。例如，在比较结果包括本端设备高于当前设备的情况下，说明距离情况与比较结果一致，则可以直接确定第一距离小于第二距离，即用户离本端设备比较近，反之，在比较结果包括本端设备不高于当前设备的情况下，说明距离情况与比较结果不一致，则可以认为结合区域和能量两者无法确定第一距离与第二距离之间的大小关系，但是考虑到音量的高低会直接影响语音识别，则可以根据比较结果确定第一距离与第二距离之间的大小关系，即此时可以认为第一距离不低于第二距离，即若比较结果包括本端设备等于当前设备，则可以认为第一距离等于第二距离，若比较结果包括本端设备低于当前设备，则可以认为第一距离大于第二距离。

在一个实施场景中，在分析得到各个协同设备的分析结果之后，则可以综合各个协同设备的分析结果，得到决策信息。具体地，如前所述，分析结果可以包括用户至本端设备的第一距离与用户至当前设备的第二距离之间的大小关系，则在各个协同设备均确定出大小关系均表示第一距离小于第二距离的情况下，可以认为在多个语音设备中，用户离本端设备最近，则决策信息可以包括本端设备需被唤醒，反之在其他情况下，即检测到至少一个协同设备对应的大小关系表示第二距离低于第一距离的情况下，可以认为在多个语音设备中，用户并非离本端设备最近，则决策信息可以包括本端设备无需被唤醒。请结合参阅图3，若用户至1号语音设备的第一距离小于用户至2号语音设备的第二距离，且用户至1号语音设备的第一距离也小于用户至3号语音设备的第二距离，则可以认为在多个语音设备中，用户至1号语音设备最近，则决策信息可以包括本端设备需被唤醒。类似地，在2号语音设备为本端设备，而1号语音设备、3号语音设备分别为当前设备的情况下，决策信息可以包括本端设备无需被唤醒，在3号语音设备为本端设备，而1号语音设备、2号语音设备分别为当前设备的情况下，决策信息可以包括本端设备无需被唤醒。

请参阅图5，图5是本申请语音交互方法另一实施例的流程示意图。本公开实施例中步骤由语音设备执行，多个语音设备组网形成本地网络，相似内容可以参阅前述公开实施例中相关描述，在此不再赘述具体而言，本公开实施例可以包括如下步骤：

步骤S51：采集用户发出的唤醒语音。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S52：分析唤醒语音，得到用于定位用户位置的参考信息。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S53：与至少一个协同设备交换基础信息和参考信息，以获取各个语音设备的基础信息和参考信息。

本公开实施例中，协同设备包括本地网络中本端设备以外的语音设备，基础信息包括语音设备的设备功能。需要说明的是，基础信息具体可以包括但不限于语音设备所支持的功能、设备能力、设备类型等信息，以表示语音设备的设备功能，在此不做限定。以智能音箱为例，其基础信息可以包括：播放音频、回答问题等，或者以智能网关为例，其基础信息可以包括：遥控设备等，其他设备可以以此类推，在此不再一一举例。

步骤S54：基于各个语音设备的参考信息，得到决策信息。

本公开实施例中，决策信息包括本端设备是否需被唤醒，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S55：基于决策信息包括本端设备需被唤醒，响应唤醒语音，并采集用户发出的指令语音。

具体地，在本端设备的决策信息包括本端设备需被唤醒的情况下，可以输出响应语音，以响应用户的唤醒语音。请结合参阅图6，图6是本申请语音交互方法另一实施例的过程示意图。如图6所示，1号语音设备、2号语音设备、3号语音设备经上述流程进行决策之后，1号语音设备的决策信息为需被唤醒，其他两个语音设备的决策信息包括无需被唤醒，在此情况下，1号语音设备可以响应用户的唤醒语音“魔飞魔飞”，输出响应语音，如“我在！”，“在的呢，请说！”等，在此不做限定。在此之后，可以通过语音设备所集成的麦克风阵列采集指令语音，如图6中的指令语音“打开窗帘”，或者，也可以为“打开电视”、“打开空调”等等，在此不做限定。

此外，在本端设备的决策信息包括本端设备无需被唤醒的情况下，本端设备可以保持静默。请结合参阅图6，由于2号语音设备和3号语音设备的决策信息均包含本端设备无需被唤醒，则2号语音设备和3号语音设备可以保持静默。

步骤S56：基于基础信息和指令语音的解析结果，确定本地网络中用于执行指令语音的目标设备。

具体地，本端设备可以对指令语音进行解析，得到指令语音的解析结果，从而可以结合本地网络中各个语音设备的基础信息，确定本地网络中可执行该指令语音的目标设备。请结合参阅图6，1号语音设备为智能音箱，2号语音设备为智能网关，3号语音设备也为智能音箱，且1号语音设备和3号语音设备的两者的设备功能均包含播放音频、回答问题，而2号语音设备的设备功能包含遥控设备，则在指令语音为“打开窗帘”的情况下，可以确定2号语音设备为目标设备。其他情况可以以此类推，在此不再一一举例。此外，请结合参阅图7，图7是本申请语音交互方法又一实施例的过程示意图。如图7所示，多个语音设备可以通过相互感知组成本地网络，在此之后，各个语音设备分别经唤醒语音采集、波束成形、特征检测等相关处理之后，再基于本地网络实现信息交互，从而各个语音设备分别进行唤醒决策，以确定自身是否离用户最近，若是则可以确定自身的决策信息包括需被唤醒，如图7中1号语音设备经决策需被唤醒，则1号语音设备可响应唤醒语音并继续采集指令语音，而2号语音设备和3号语音设备可以保持静默，进一步地，1号语音设备可以基于各个语音设备的基础信息和指令语音的解析结果，确定本地网络中，2号语音设备为用于执行指令语音的目标设备。其他情况可以以此类推，在此不再一一举例。

步骤S57：转发指令语音和/或解析结果至目标设备。

具体地，在确定目标设备之后，即可将指令语音和/或解析结果转发中目标设备，以便于目标设备在接收到指令语音和/或解析结果之后，执行用户指令。如图6所示，2号语音设备为目标语音设备，2号语音设备可以执行用户指令“打开窗帘”，从而使得窗帘处于打开状态。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，前述基础信息还可以包括语音设备的处理能力，则在目标设备的处理能力满足预设条件的情况下，可以转发指令语音或解析结果至目标设备。预设条件具体可以设置为处理能力高于预设阈值，如在以处理器频率表征处理能力的情况下，预设条件可以设置为处理器频率高于预设阈值，在以其他指标表征处理能力的情况下，可以以此类推，在此不再一一举例。

在一个实施场景中，前述基础信息还可以包括语音设备的处理能力，则在目标设备的处理能力不满足预设条件的情况下，可以转发解析结果至目标设备。预设条件具体可以设置为处理能力不高于预设阈值，处理能力可以以处理器频率等指标来表征，在此不做限定。

请结合参阅图8，图8是本申请语音交互方法又一实施例的过程示意图。如图8所示，多个语音设备通过相互发现，组成本地网络，并在通过本地网络交互信息之后，就近唤醒，在此基础上，通过唤醒的语音设备和本地网络，将用户指令转达给本地网络中目标设备，以实现功能共享，具体过程可以参阅前述描述，在此不再赘述。

上述方案，在本端设备与协同设备交换参考信息的同时，还进一步交换基础信息，且基础信息包括语音设备的设备功能，从而在得到决策信息之后，基于决策信息包括本端设备需被唤醒，响应唤醒语音，并采集用户发出的指令语音，以及基于基础信息和指令语音的解析结果，确定本地网络中用于执行指令语音的目标设备，进而转发指令语音和/或解析结果至目标设备，故能够在本地网络传达语音指令，实现技能共享，扩宽语音设备的指令响应范围，加快语音设备的响应速度，有利于提升用户体验。

请参阅图9，图9是本申请语音交互装置90一实施例的框架示意图。语音交互装置90包括：采集模块91、分析模块92、交换模块93和决策模块94，采集模块91用于采集用户发出的唤醒语音；分析模块92用于分析唤醒语音，得到用于定位用户位置的参考信息；交换模块93用于与至少一个协同设备交换参考信息，以获取各个语音设备的参考信息；其中，协同设备包括本地网络中本端设备以外的语音设备，且本地网络是由多个语音设备组网形成的；决策模块94用于基于各个语音设备的参考信息，得到决策信息；其中，决策信息包括本端设备是否需被唤醒。

上述方案，一方面由于各个语音设备均在语音设备本地决策是否需被唤醒，即在决策过程中无需连接服务器，有利于提升交互速度，另一方面由于多个语音设备组成本地网络，且各个语音设备均需执行相同的决策步骤，故能够大大降低设备掉线对决策唤醒的影响，有利于提升交互灵活性，又一方面由于在决策唤醒之前，各个语音设备均未响应唤醒语音，故能够大大减少语音设备之间的干扰，有利于提升交互准确性。故此，能够在多个语音设备的使用场景下，灵活、快速且准确地进行语音交互。

在一些公开实施例中，参考信息包括能量信息和区域信息，能量信息用于表示语音设备处的声音音量，区域信息用于表示用户所在的预估区域，预估区域属于若干子区域，且若干子区域是由语音设备的环绕区域划分得到的。

因此，通过将参考信息设置为包括能量信息和区域信息，且能量信息用于表示语音设备处的声音音量，区域信息用于表示用户所在的预估区域，且预估区域属于若干子区域，若干子区域是由语音设备的环绕区域划分得到的，故能够从声音音量和预估区域两个层面来对用户进行定位，有利于提升定位准确性。

在一些公开实施例中，决策模块94包括当前设备确定子模块，用于将各个协同设备分别作为当前设备；决策模块94包括参考信息分析子模块，用于基于本端设备的参考信息和当前设备的参考信息进行分析，得到当前设备的分析结果；其中，分析结果表示当前设备相较于本端设备距离用户的远近；决策模块94包括决策信息获取子模块，用于基于各个协同设备的分析结果，得到决策信息。

因此，，通过将本端设备的参考信息分别与各个协同设备的参考信息相结合，来判断用户至本端设备相较于至各个协同设备的远近，有利于提升决策准确性。

在一些公开实施例中，参考信息包括能量信息和区域信息，参考信息分析子模块包括目标区域确定单元，用于基于本端设备的区域信息和当前设备的区域信息，确定用户所在的目标区域，参考信息分析子模块包括能量信息比较单元，用于比较本端设备的能量信息和当前设备的能量信息，得到比较结果；参考信息分析子模块包括分析结果获取单元，用于基于目标区域和比较结果，得到分析结果。

因此，通过将本端设备的参考信息分别与各个协同设备的参考信息相结合，来判断用户至本端设备的第一距离与用户至协同设备的第二距离两者之间的大小关系，有利于提升唤醒决策的鲁棒性和准确性。

在一些公开实施例中，目标区域确定单元具体用于将本端设备的预估区域和当前设备的预估区域的交集，作为目标区域；能量信息比较单元具体用于比较本端设备的声音音量和当前设备的声音音量，得到比较结果。

因此，将本端设备的预估区域和当前设备的预估区域的交集，作为目标区域，有利于降低确定目标区域的复杂度，此外，直接比较本端设备的声音音量和当前设备的声音音量，得到比较结果，有利于降低获取比较结果的复杂度。

在一些公开实施例中，分析结果包括用户至本端设备的第一距离与用户至当前设备的第二距离两者之间的大小关系，决策信息获取子模块包括第一决策单元，用于检测到各个协同设备对应的大小关系均表示第二距离不低于第一距离，确定决策信息包括本端设备需被唤醒；决策信息获取子模块包括第二决策单元，用于检测到至少一个协同设备对应的大小关系表示第二距离低于第一距离，确定决策信息包括本端设备无需被唤醒。

因此，通过检测各个协同设备对应的大小关系是否均表示第二距离不低于第一距离来确定决策信息，有利于综合各个协同设备来进行决策唤醒，有利于提升决策唤醒的准确性。

在一些公开实施例中，交换模块93具体用于与协同设备交换基础信息和参考信息；其中，基础信息包括语音设备的设备功能，语音交互装置90还包括交互模块，用于基于决策信息包括本端设备需被唤醒，响应唤醒语音，并采集用户发出的指令语音，语音交互装置90还包括确定模块，用于基于基础信息和指令语音的解析结果，确定本地网络中用于执行指令语音的目标设备；语音交互装置90还包括转发模块，用于转发指令语音和/或解析结果至目标设备。

因此，在本端设备与协同设备交换参考信息的同时，还进一步交换基础信息，且基础信息包括语音设备的设备功能，从而在得到决策信息之后，基于决策信息包括本端设备需被唤醒，响应唤醒语音，并采集用户发出的指令语音，以及基于基础信息和指令语音的解析结果，确定本地网络中用于执行指令语音的目标设备，进而转发指令语音和/或解析结果至目标设备，故能够在本地网络传达语音指令，实现技能共享，扩宽语音设备的指令响应范围，加快语音设备的响应速度，有利于提升用户体验。

在一些公开实施例中，交互模块具体用于输出响应语音，以响应用户的唤醒语音；语音交互装置90还包括静默模块，用于基于决策信息包括本端设备无需被唤醒，保持静默。

因此，通过输出响应语音，有利于提升用户交互体验，而在决策信息包括本端设备无需被唤醒的情况下，保持静默，有利于尽可能地降低干扰。

在一些公开实施例中，基础信息还包括语音设备的处理能力；转发模块具体用于在目标设备的处理能力满足预设条件的情况下，转发指令语音或解析结果至目标设备，和/或，用于在目标设备的处理能力不满足预设条件的情况下，转发解析结果至目标设备。

因此，将基础信息设置为包括语音设备的处理能力，并根据目标设备的处理能力来转发指令语音和/或解析结果至目标设备，有利于提升语音交互的准确性。

请参阅图10，图10是本申请语音设备100一实施例的框架示意图。语音设备100包括语音采集电路101、通信电路102、存储器103和处理器104，语音采集电路101、通信电路102和存储器103耦接至处理器104，存储器103中存储有程序指令，处理器104用于执行程序指令以实现上述任一语音交互方法实施例中的步骤。具体地，语音设备100可以包括但不限于：智能音箱、智能手机、智能网关等等，在此不做限定。此外，语音采集电路101可以用于采集语音(如，唤醒语音、指令语音)，而通信电路102可以用于交换信息(如，参考信息、基础信息)。具体可以参阅语音交互方法实施例中的步骤。

具体而言，处理器104用于控制其自身以及存储器103以实现上述任一音频优化方法实施例中的步骤。处理器104还可以称为CPU(Central Processing Unit，中央处理单元)。处理器104可能是一种集成电路芯片，具有信号的处理能力。处理器104还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器104可以由集成电路芯片共同实现。

请参阅图11，图11是本申请语音交互系统110一实施例的框架示意图。如图11所示，语音交互系统110包括多个语音设备111，语音设备111为上述任一语音设备实施例中的语音设备，在此不再赘述。此外，多个语音设备111组网形成本地网络，且语音设备111之间通过本地网络交互信息，具体可以参阅前述语音交互方法实施例中相关描述，在此不再赘述。需要说明的是，语音交互系统110中所包含的语音设备111的具体数量在此不做限定，如可以包含2个、3个、4个等等。

请参阅图12，图12是本申请计算机可读存储介质120一实施例的框架示意图。计算机可读存储介质120存储有能够被处理器运行的程序指令121，程序指令121用于实现上述任一语音交互方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音交互方法，其特征在于，所述语音交互方法由语音设备执行，且多个语音设备组网为本地网络，所述方法包括：

采集用户发出的唤醒语音；

分析所述唤醒语音，得到用于定位用户位置的参考信息；

与至少一个协同设备交换所述参考信息，以获取各个所述语音设备的参考信息；其中，所述协同设备包括所述本地网络中本端设备以外的语音设备；

基于各个所述语音设备的参考信息，得到决策信息；其中，所述决策信息包括所述本端设备是否需被唤醒。

2.根据权利要求1所述的方法，其特征在于，所述参考信息包括能量信息和区域信息，所述能量信息用于表示所述语音设备处的声音音量，所述区域信息用于表示用户所在的预估区域，所述预估区域属于若干子区域，且所述若干子区域是由所述语音设备的环绕区域划分得到的。

3.根据权利要求1所述的方法，其特征在于，所述基于各个所述语音设备的参考信息，得到决策信息，包括：

将各个所述协同设备分别作为当前设备；

基于所述本端设备的参考信息和所述当前设备的参考信息进行分析，得到所述当前设备的分析结果；其中，所述分析结果表示所述当前设备相较于所述本端设备距离用户的远近；

基于各个所述协同设备的分析结果，得到所述决策信息。

4.根据权利要求3所述的方法，其特征在于，所述参考信息包括能量信息和区域信息，所述基于所述本端设备的参考信息和所述当前设备的参考信息进行分析，得到所述当前设备的分析结果，包括：

基于所述本端设备的区域信息和所述当前设备的区域信息，确定用户所在的目标区域，并比较所述本端设备的能量信息和所述当前设备的能量信息，得到比较结果；

基于所述目标区域和所述比较结果，得到所述分析结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述本端设备的区域信息和所述当前设备的区域信息，确定用户所在的目标区域，包括：

将所述本端设备的预估区域和所述当前设备的预估区域的交集，作为所述目标区域；

和/或，所述比较所述本端设备的能量信息和所述当前设备的能量信息，得到比较结果，包括：

比较所述本端设备的声音音量和所述当前设备的声音音量，得到所述比较结果。

6.根据权利要求3所述的方法，其特征在于，所述分析结果包括用户至所述本端设备的第一距离与用户至所述当前设备的第二距离两者之间的大小关系；所述基于各个所述协同设备的分析结果，得到所述决策信息，包括：

检测到各个所述协同设备对应的大小关系均表示所述第二距离不低于所述第一距离，确定所述决策信息包括所述本端设备需被唤醒；

和/或，检测到至少一个所述协同设备对应的大小关系表示所述第二距离低于所述第一距离，确定所述决策信息包括所述本端设备无需被唤醒。

7.根据权利要求1所述的方法，其特征在于，所述与至少一个协同设备交换所述参考信息，包括：

与所述至少一个协同设备交换基础信息和所述参考信息；其中，所述基础信息包括所述语音设备的设备功能；

在基于各个所述语音设备的参考信息，得到决策信息之后，所述方法还包括：

基于所述决策信息包括所述本端设备需被唤醒，响应所述唤醒语音，并采集用户发出的指令语音；

基于所述基础信息和所述指令语音的解析结果，确定所述本地网络中用于执行所述指令语音的目标设备；

转发所述指令语音和/或所述解析结果至所述目标设备。

8.根据权利要求7所述的方法，其特征在于，所述响应所述唤醒语音，包括：

输出响应语音，以响应用户的唤醒语音；

和/或，所述方法还包括：

基于所述决策信息包括所述本端设备无需被唤醒，保持静默。

9.根据权利要求7所述的方法，其特征在于，所述基础信息还包括所述语音设备的处理能力；所述转发所述指令语音和/或所述解析结果至所述目标设备，包括：

在所述目标设备的处理能力满足预设条件的情况下，转发所述指令语音或所述解析结果至所述目标设备；

和/或，在所述目标设备的处理能力不满足预设条件的情况下，转发所述解析结果至所述目标设备。

10.一种语音交互装置，其特征在于，包括：

采集模块，用于采集用户发出的唤醒语音；

分析模块，用于分析所述唤醒语音，得到用于定位用户位置的参考信息；

交换模块，用于与至少一个协同设备交换所述参考信息，以获取各个所述语音设备的参考信息；其中，所述协同设备包括本地网络中本端设备以外的语音设备，且所述本地网络是由多个语音设备组网形成的；

决策模块，用于基于各个所述语音设备的参考信息，得到决策信息；其中，所述决策信息包括所述本端设备是否需被唤醒。

11.一种语音设备，其特征在于，包括语音采集电路、通信电路、存储器和处理器，所述语音采集电路、所述通信电路和所述存储器耦接至所述处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音交互方法。

12.一种语音交互系统，其特征在于，包括多个语音设备，所述语音设备为权利要求11所述的设备，所述多个语音设备组网形成本地网络，且所述语音设备之间通过所述本地网络交互信息。

13.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的语音交互方法。