CN110047494B

CN110047494B - 设备响应方法、设备及存储介质

Info

Publication number: CN110047494B
Application number: CN201910299254.0A
Authority: CN
Inventors: 侯海宁; 龙韬臣
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2022-06-03
Anticipated expiration: 2039-04-15
Also published as: CN110047494A

Abstract

本公开是关于一种设备响应方法、设备及存储介质，该方法应用于包括控制设备和多个非控制设备的场景中的控制设备；该方法包括：获取针对用户的语音信号的第一语音特征向量，第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；根据第一语音特征向量，确定目标设备；控制目标设备响应语音信号。本公开可以根据当前场景中的每个非控制设备在单位球面空间中针对语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有设备都响应用户的问题。

Description

设备响应方法、设备及存储介质

技术领域

本公开涉及电子设备技术，特别涉及一种设备响应方法、设备及存储介质。

背景技术

用户与智能设备进行远场语音交互，可以有效地改善人机交互的模式，大大提高智能产品使用的便捷性。然而，在进行远场语音交互的场景中(例如家居场景)，当有多个智能设备同时存在时，进行远场语音交互往往会唤醒所有智能设备，大大降低了用户的交互体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种设备响应方法、设备及存储介质。技术方案如下：

根据本公开实施例的第一方面，提供一种设备响应方法，所述方法应用于包括控制设备和多个非控制设备的场景中，所述方法应用于控制设备；所述方法包括：

获取针对用户的语音信号的第一语音特征向量，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；

根据所述第一语音特征向量，确定目标设备；

控制所述目标设备响应所述语音信号；

其中，所述第一语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、单位球面空间中的所有位置对应的SRP均值、单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、和所述语音信号的谱方差。

本公开的实施例提供的技术方案可以包括以下有益效果：控制设备可以根据当前场景中的每个非控制设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

可选的，所述控制设备上设置有麦克风；所述方法还包括：

通过每个所述麦克风在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，所述第二采集信号包括：每个所述麦克风采集的信号的加窗信号所对应的频域信号；

获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量。

本公开的实施例提供的技术方案可以包括以下有益效果：当控制设备是与非控制设备位于同一场景中的智能设备、且会对用户发出的语音信号做出响应的智能设备时，控制设备可以根据当前场景中的每个非控制设备得到的第一采集信号对应的第二语音特征向量，以及，控制设备得到的第二采集信号对应的第三语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

可选的，所述获取所述第二采集信号对应的第三语音特征向量，包括：

根据所述频域信号，获取所述麦克风的相关性集合信息，所述相关性集合信息包括：任意两个麦克风分别采集所述语音信号时的时延差相关性曲线信息；

根据在对应的单位球面空间中的每个第一位置、和每个所述麦克风在对应的单位球面空间中的第二位置，获取每个所述第一位置的时延差集合信息，所述时延差集合信息包括：任意两个麦克风分别对所述第一位置发出的所述语音信号进行采集所得到的信号之间的时延差信息；

根据所述相关性集合信息和所述时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性；

将任意两个麦克风分别对同一第一位置发出的所述语音信号进行采集的相关性相加，得到每个所述第一位置对应的SRP值；

根据每个所述第一位置对应的SRP值，获取所述第一SRP值、所述SRP均值、以及所述第二SRP值；

获取所述第一SRP值与所述第二SRP值的比值。

可选的，所述根据每个所述第一位置对应的SRP值，获取所述第一SRP值、所述SRP均值、以及所述第二SRP值，包括：

将所有第一位置对应的SRP值中最大的SRP值作为所述第一SRP值，所述第一SRP值对应的第三位置为所述用户发出所述语音信号的位置；

根据所述第三位置的时延差集合信息中的每两个麦克风对应的时延差信息，在每两个所述麦克风分别采集所述语音信号时的时延差相关性曲线信息中，去除距离所述时延差最近的预设数量的时延差信息，得到更新后的麦克风的相关性集合信息；

根据所述更新后的麦克风的相关性集合信息，以及，每个第四位置的时延差集合信息，获取任意两个麦克风分别对每个所述第四位置发出的所述语音信号进行采集的相关性，所述第四位置为所有第一位置中除所述第三位置之外的位置；

将任意两个麦克风分别对同一第四位置发出的所述语音信号进行采集的相关性相加，得到每个所述第四位置对应的SRP值；

将所有第四位置对应的SRP值中最大的SRP值作为所述第二SRP值。

可选的，所述根据在对应的单位球面空间中的每个第一位置、和每个所述麦克风在对应的单位球面空间中的第二位置，获取每个所述第一位置的时延差集合信息，包括：

根据

获取每个所述第一位置的时延差集合信息；

其中，所述i表示第i个麦克风，所述j表示第j个麦克风，所述n表示对应的单位球面空间中的第n个位置，所述f_s表示所述语音信号的采样频率，所述V为所述语音信号的速度，所述

表示所述第i个麦克风与所述第j个麦克风之间采集从所述第n个位置发出的所述语音信号的时延差；所述

所述n_x表示所述第n个位置在对应的单位球面空间的x轴上的坐标，所述n_y表示所述第n个位置在对应的单位球面空间的y轴上的坐标，所述n_z表示所述第n个位置在对应的单位球面空间的z轴上的坐标，所述i_x表示所述第i个麦克风在对应的单位球面空间的x轴上的坐标，所述i_y表示所述第i个麦克风在对应的单位球面空间的y轴上的坐标，所述i_z表示所述第i个麦克风在对应的单位球面空间的z轴上的坐标，所述j_x表示所述第j个麦克风在对应的单位球面空间的x轴上的坐标，所述j_y表示所述第j个麦克风在对应的单位球面空间的y轴上的坐标，所述j_z表示所述第j个麦克风在对应的单位球面空间的z轴上的坐标。

可选的，所述根据所述相关性集合信息和所述时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性之前，所述方法还包括：

对任意两个麦克风分别采集所述语音信号时的时延差相关性曲线进行三次样条插值。

本公开的实施例提供的技术方案可以包括以下有益效果：在根据麦克风的相关性集合信息和每个位置的时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性之前，对任意两个麦克风分别采集所述语音信号时的时延差相关性曲线进行三次样条插值，可以提高获取的语音特征向量中的关于SRP的语音特征的准确性。

可选的，所述根据所述频域信号，获取所述麦克风的相关性集合信息，包括：

根据

获取所述麦克风的相关性集合信息；

其中，所述i表示第i个麦克风，所述j表示第j个麦克风，所述X_i(ω)表示所述第i个麦克风采集的信号的加窗信号所对应的频域信号，所述X_j(ω)表示所述第j个麦克风采集的信号的加窗信号所对应的频域信号，所述R_ij(τ)表示所述第i个麦克风与所述第j个麦克风分别采集所述语音信号时的时延差相关性曲线。

根据Z_i(ω)＝exp(log[X_i(ω)]-μ)，计算每个所述麦克风在每个频带的谱包络；其中，所述i表示第i个麦克风，所述X_i(ω)表示所述第i个麦克风采集的信号的加窗信号所对应的频域信号，所述μ为log[X_i(ω)]的时间平均，所述Z_i(ω)表示所述第i个麦克风在频带ω的谱包络；

根据V_i(ω)＝Var[Z_i(ω)^1/3]，计算每个所述麦克风在每个频带的初始谱方差；其中，V_i(ω)表示所述第i个麦克风在频带ω的初始谱方差；

根据

得到每个所述麦克风的谱方差；其中，所述i′表示第i′个麦克风，所述EV_i表示所述第i个麦克风的谱方差，所述m表示所述控制设备包括的麦克风的数量；

将所有所述麦克风的谱方差中最大的谱方差作为所述语音信号的谱方差。

可选的，所述第一语音特征向量为将各所述第二语音特征向量和所述第三语音特征向量串联得到的语音联合特征向量；

所述根据所述第一语音特征向量，确定目标设备，包括：

根据所述语音联合特征向量，以及，预设的语音联合特征向量与目标设备分布的对应关系，确定出响应所述用户的目标设备。

根据本公开实施例的第二方面，提供一种设备响应方法，所述方法应用于包括控制设备和多个非控制设备的场景中，所述方法应用于所述非控制设备；所述方法包括：

检测针对用户的语音信号；

响应于检测到所述语音信号，获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第二语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、所述单位球面空间中的所有位置对应的SRP均值、所述单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、所述语音信号的谱方差；

向所述控制设备发送所述第二语音特征向量。

本公开的实施例提供的技术方案可以包括以下有益效果：在检测到针对用户的语音信号后，响应于检测到所述语音信号，获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，并向所述控制设备发送所述第二语音特征向量，这样控制设备可以根据当前场景中的每个非控制设备在对应的单位球面空间中采集语音信号得到的语音特征向量，来识别使用哪个设备响应用户的语音信号，进而可以控制该设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

根据本公开实施例的第三方面，提供一种控制设备，所述控制设备应用于包括所述控制设备和多个非控制设备的场景中，所述控制设备包括：

第一获取模块，被配置为获取针对用户的语音信号的第一语音特征向量，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；

确定模块，被配置为根据所述第一语音特征向量，确定目标设备；

控制模块，被配置为控制所述目标设备响应所述语音信号；

本公开的实施例提供的技术方案可以包括以下有益效果：第一获取模块可以获取当前场景中的每个非控制设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，从而使得确定模块根据所获取的包括各第二语音特征向量的第一语音特征向量，来识别使用哪个设备响应用户的语音信号，进而控制模块可以控制该设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

可选的，所述控制设备上设置有麦克风；所述控制设备还包括：

采集模块，被配置为通过每个所述麦克风在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，所述第二采集信号包括：每个所述麦克风采集的信号的加窗信号所对应的频域信号；

第二获取模块，被配置为获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量。

本公开的实施例提供的技术方案可以包括以下有益效果：若控制设备是与非控制设备位于同一场景中的智能设备、且会对用户发出的语音信号做出响应的智能设备时，控制设备的采集模块可以通过控制设备的每个所述麦克风在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，从而使得第二获取模块可以获取所述第二采集信号对应的第三语音特征向量，进而使得确定模块可以根据当前场景中的每个智能设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的采集信号对应的语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

可选的，所述第二获取模块，被配置为：

获取所述第一SRP值与所述第二SRP值的比值。

可选的，所述第二获取模块，被配置为：

可选的，所述第二获取模块，被配置为根据

获取每个所述第一位置的时延差集合信息；

可选的，所述第二获取模块，被配置为：

在根据所述相关性集合信息和所述时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性之前，对任意两个麦克风分别采集所述语音信号时的时延差相关性曲线进行三次样条插值。

本公开的实施例提供的技术方案可以包括以下有益效果：第二获取模块在根据麦克风的相关性集合信息和每个位置的时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性之前，对任意两个麦克风分别采集所述语音信号时的时延差相关性曲线进行三次样条插值，可以提高获取的语音特征向量中的关于SRP的语音特征的准确性。

可选的，所述第二获取模块，被配置为根据

获取所述麦克风的相关性集合信息；

可选的，所述第二获取模块，被配置为：

根据

所述确定模块，被配置为根据所述语音联合特征向量，以及，预设的语音联合特征向量与目标设备分布的对应关系，确定出响应所述用户的目标设备。

根据本公开实施例的第四方面，提供一种非控制设备，所述非控制设备应用于包括控制设备和多个所述非控制设备的场景中，所述非控制设备包括：

检测模块，被配置为检测针对用户的语音信号；

处理模块，被配置为响应于检测到所述语音信号，获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第二语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、所述单位球面空间中的所有位置对应的SRP均值、所述单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、所述语音信号的谱方差；

发送模块，被配置为向所述控制设备发送所述第二语音特征向量。

本公开的实施例提供的技术方案可以包括以下有益效果：处理模块在检测模块检测到针对用户的语音信号后，响应于检测到所述语音信号，获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，以使发送模块向所述控制设备发送所述第二语音特征向量，这样控制设备可以根据当前场景中的每个非控制设备在对应的单位球面空间中采集语音信号得到的语音特征向量，来识别使用哪个设备响应用户的语音信号，进而可以控制该设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

根据本公开实施例的第五方面，提供一种控制设备，该控制设备包括：

存储器、处理器以及计算机指令，所述处理器运行所述计算机指令执行如第一方面任一项所述的方法的步骤。

根据本公开实施例的第六方面，提供一种非控制设备，包括：存储器、处理器以及计算机指令，所述处理器运行所述计算机指令执行如第二方面所述的方法的步骤。

根据本公开实施例的第七方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述的方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：控制设备的处理器可以根据当前场景中的每个非控制设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

根据本公开实施例的第八方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第二方面所述的方法的步骤。

根据本公开实施例的第九方面，提供一种设备响应系统，包括控制设备和多个非控制设备，所述控制设备执行如第一方面任一项所述的方法的步骤，所述非控制设备执行如第二方面所述的方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种设备响应方法的应用场景图；

图2是根据一示例性实施例示出的一种设备响应方法的流程图；

图3是根据另一示例性实施例示出的一种设备响应方法的流程图；

图4是根据又一示例性实施例示出的一种设备响应方法的流程图；

图5是根据一示例性实施例示出的一种控制设备的框图；

图6是根据另一示例性实施例示出的一种控制设备的框图；

图7是根据一示例性实施例示出的一种非控制设备的框图；

图8是根据又一示例性实施例示出的一种控制设备的实体的框图；

图9是根据另一示例性实施例示出的一种非控制设备的实体的框图；

图10是根据一示例性实施例示出的一种控制设备500的框图；

图11是根据一示例性实施例示出的一种控制设备1100的框图；

图12是根据一示例性实施例示出的一种非控制设备600的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

用户与智能设备进行远场语音交互，可以有效地改善人机交互的模式，大大提高智能产品使用的便捷性。上述所说的智能设备例如可以为：音箱、空调、油烟机、灯具等。

目前，在进行远场语音交互的场景中(例如家居场景)，当有多个智能设备同时存在时，进行远场语音交互时往往会唤醒所有智能设备，大大降低了用户的交互体验。图1是根据一示例性实施例示出的一种设备响应方法的应用场景图。如图1所示，以当前进行远场语音交互的场景中包括音箱A、音箱B1和音箱B2为例，当用户通过发出语音信号，期望与音箱B2进行远场语音交互时，该语音信号也会唤醒音箱A和音箱B1。即，音箱A、音箱B1和音箱B2都会响应用户的语音信号，大大降低了用户的交互体验。

由于麦克风阵列具有噪声抑制、混响去除、阵列增益等功能，因此，智能设备多采用麦克风阵列进行拾音，以提高语音信号处理质量。因此，本公开提供了一种设备响应方法，控制设备可以根据当前场景中的每个非控制设备在单位球面空间中针对用户发出的语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有设备都响应用户的问题。

可以理解，上述位于同一场景中的非控制设备均为采用麦克风阵列进行拾音的智能设备，这些智能设备可以为同一类型的智能设备(例如，均为音箱)，或者，不同类型的智能设备(例如部分设备为音箱，部分设备为灯具)。

下面结合具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2是根据一示例性实施例示出的一种设备响应方法的流程图。该方法应用于包括控制设备和多个非控制设备的场景中的控制设备。这里所说的控制设备可以是用户持有的终端设备、非控制设备对应的服务器、或者，位于同一场景中的智能设备。在本公开中，控制设备与非控制设备可以通过无线网络连接。

该方法的执行主体可以为设备响应装置，还可以为集成了设备响应装置的控制设备，下述以执行主体为集成了设备响应装置的控制设备(简称：控制设备)为例进行说明。如图2所示，该方法可以包括以下步骤：

在步骤S101中，获取针对用户的语音信号的第一语音特征向量，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量。

具体的，上述非控制设备可以包括多个麦克风，各非控制设备所包括的麦克风的数量可以相同，也可以不同。

在本实施例中，当用户在包括多个非控制设备的场景中发出语音信号时，各非控制设备在检测到针对用户的语音信号后，可以响应于检测到所述语音信号，在非控制设备对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量θ₂(o)。其中，o表示第o个非控制设备。应理解，这里的o仅用于区分各非控制设备。

这里所说的非控制设备对应的单位球面空间可以为以非控制设备为圆心，以非控制设备能够接收语音信号的最远距离为半径形成的球面空间。非控制设备在对应的单位球面空间可以为以非控制设备为圆心，以非控制设备能够接收语音信号的最远距离为半径形成的球面空间。

这里所说的第一采集信号可以为非控制设备的每个麦克风采集的信号的加窗信号所对应的频域信号。

这里所说的第二语音特征向量θ₂(o)可以包括：发出语音信号的位置对应的第一可控功率响应(Steered Response Power，简称：SRP)值

第o个非控制设备对应的单位球面空间中的所有位置对应的SRP均值

第o个非控制设备对应的单位球面空间中反射语音信号的位置对应的第二SRP值

第一SRP值与第二SRP值的比值SRP(o)²_ratoo、语音信号的能量En(o)²、语音信号的谱方差Ev(o)²。即，

应理解，上述第二语音特征向量中各元素的上角标2用于表示该元素为第二语音特征向量中的元素。

上述所示的非控制设备的第二语音特征向量θ₂(o)可以反映出该非控制设备与用户之间的距离，以及，该非控制设备与用户发出语音信号的朝向之间的夹角。因此，各非控制设备在得到第二语音特征向量之后，可以发送给控制设备，以使控制设备可以得到包括各第二语音特征向量θ₂(o)的第一语音特征向量θ₁。所述第一语音特征向量θ₁可以为将各所述第二语音特征向量串联得到的语音联合特征向量。

以位于同一场景中的非控制设备有设备1、设备2和设备3，其中，设备1所采集的第二语音特征向量为θ₂(1)、设备2所采集的第二语音特征向量为θ₂(2)、设备3所采集的第二语音特征向量为θ₂(3)，则上述第一语音特征向量θ₁可以为[θ₂(1),θ₂(2),θ₂(3)]。

在步骤S102中，根据所述第一语音特征向量，确定目标设备。

如前述所说，上述非控制设备的第二语音特征向量θ₂(o)可以反映出该非控制设备与用户之间的距离，以及，该非控制设备与用户发出语音信号的朝向之间的夹角。因此，控制设备在获取到包括各第二语音特征向量θ₂(o)的第一语音特征向量θ₁之后，可以根据预设响应规则、上述第一语音特征向量θ₁，确定出响应用户的目标设备。例如，该预设响应规则为：当位于同一场景中的设备与用户的距离相同时，与用户发出语音信号的朝向之间的夹角较小的设备作为目标设备；当与用户发出语音信号的朝向之间的夹角相同时，与用户的距离较小的设备作为目标设备。继续以图1所示的示例为例，在该场景下，当用户发出语音信号时，控制设备可以通过上述预设响应规则，确定音箱A作为目标设备响应用户。通过这种方式，可以实现最优响应。可以理解，上述预设响应规则仅是一种示意，具体可以根据用户的需求设定。

在步骤S103中，控制所述目标设备响应所述语音信号。

例如，控制设备可以向目标设备发送响应指示，响应指示用于指示目标设备响应用户的语音信号。可选的，控制设备可以控制除目标设备之外的非控制设备不响应用户的语音信号。

本公开提供的设备响应方法，控制设备可以根据当前场景中的每个非控制设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

如前述所说，控制设备可以是用户持有的终端设备、非控制设备对应的服务器、或者，位于同一场景中的智能设备。作为一种可能的实施方式，当控制设备是与非控制设备位于同一场景中的智能设备、且会对用户发出的语音信号做出响应的智能设备时，即控制设备上设置有麦克风时，控制设备还可以在检测到针对用户的语音信号后，可以响应于检测到所述语音信号，通过控制设备上的每个麦克风在控制设备对应的单位球面空间中针对语音信号进行采集，得到第二采集信号，所述第二采集信号包括：每个所述麦克风采集的信号的加窗信号所对应的频域信号。然后，控制设备可以获取所述第二采集信号对应的第三语音特征向量。其中，该第三语音特征向量可以包括：发出语音信号的位置对应的第一SRP值

控制设备对应的单位球面空间中的所有位置对应的SRP均值

控制设备对应的单位球面空间中反射语音信号的位置对应的第二SRP值

第一SRP值与第二SRP值的比值SRP³_ratio、语音信号的能量En³、语音信号的谱方差Ev³。即，

应理解，上述第三语音特征向量中各元素的上角标3用于表示该元素为第三语音特征向量中的元素。通过上述描述可以看出，第三语音特征向量与第二语音特征向量所包括的元素相同。

上述所示的控制设备的第三语音特征向量θ₃可以反映出该控制设备与用户之间的距离，以及，该控制设备与用户发出语音信号的朝向之间的夹角。因此，当用户在包括控制设备和多个非控制设备的场景中发出语音信号时，控制设备可以得到包括各非控制设备所得到的第二语音特征向量θ₂(o)，以及，控制设备所得到的第三语音特征向量θ₃的第一语音特征向量θ₁。此时，第一语音特征向量θ₁为将各所述第二语音特征向量θ₂(o)和所述第三语音特征向量θ₃串联得到的语音联合特征向量。通过第一语音特征向量θ₁可以获知：各非控制设备与用户之间的距离，以及，各非控制设备与用户发出语音信号的朝向之间的夹角，以及，控制设备与用户之间的距离，以及，控制设备与用户发出语音信号的朝向之间的夹角。

因此，控制设备在获取到该第一语音特征向量θ₁，例如可以根据预设响应规则、上述第一语音特征向量θ₁，从位于同一场景中的控制设备和多个非控制设备中确定出响应用户的目标设备，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

如前述实施例所说，上述第一语音特征向量θ₁为将各所述第二语音特征向量θ₂(o)和所述第三语音特征向量θ₃串联得到的语音联合特征向量。可选的，在一些实施例中，上述控制设备可以通过如下方式确定出响应用户的目标设备，具体地：

在本实施例中，上述控制设备可以预设有语音联合特征向量与目标设备分布的对应关系，因此，控制设备可以根据第一语音特征向量θ₁，以及，预设的语音联合特征向量与目标设备分布的对应关系，从控制设备和非控制设备中确定出响应用户的目标设备。

例如，以位于同一场景中的智能设备有设备1、设备2和设备3，其中，设备1和设备2位非控制设备，设备3为控制设备。设备1所采集的第二语音特征向量为θ₂(1)、设备2所采集的第二语音特征向量为θ₂(2)、设备3所采集的第三语音特征向量为θ₃，则上述第一语音特征向量θ₁可以为[θ₂(1),θ₂(2),θ₃]。

在该实例下，预设的语音联合特征向量与目标设备分布的对应关系例如可以为[θ₂(1),θ₂(2),θ₃][1,0,0]，其中，1表征该语音特征向量对应的智能设备为目标设备，则通过上述对应关系，可以确定设备1为目标设备。

在一些实施例中，上述预设的语音联合特征向量与目标设备分布的对应关系还可以通过预设的响应模型来实现。也就是说，通过预先建立语音联合特征向量与目标设备分布的对应关系的响应模型，使得控制设备可以通过响应模型来确定目标设备。其中，上述所说的预设的响应模型例如可以为现有技术中具有分类功能的模型，例如：随机森林模型、支持向量机(Support Vector Machine，SVM)模型、神经网络模型等。

因此，上述预设的响应模型可以为根据多个场景中所采集的语音联合特征向量，以及，预定义的该语音联合特征向量与目标设备分布的对应关系训练后的模型。该预定义的该语音联合特征向量与目标设备分布的对应关系可以满足前述实施例所说的响应规则，以筛选出最优的目标设备响应用户。

本公开提供的设备响应方法，在用户发出语音信号时，可以将当前场景中的每个智能设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的采集信号对应的语音特征向量串联成语音联合特征向量，进而可以根据语音联合特征向量，以及，预设的语音联合特征向量与目标设备分布的对应关系，从当前场景中的所有智能设备中确定出响应用户的目标设备，并控制目标设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

如前述所说，当控制设备是与非控制设备位于同一场景中的智能设备、且会对用户发出的语音信号做出响应的智能设备时，控制设备与非控制设备一样，在检测到针对用户的语音信号后，可以响应于检测到所述语音信号，通过自己的每个麦克风在对应的单位球面空间中针对语音信号进行采集，并基于所采集的采集信号，获取语音特征向量。即，控制设备与非控制设备本身获取自身的语音特征向量的方式相同。

下面对智能设备如何根据自己的每个麦克风在对应的单位球面空间中针对语音信号进行采集，得到采集信号的过程进行说明。应理解，当智能设备为控制设备时，该采集信号可以称为第二采集信号，基于该采集信号所获取的语音特征向量为第三语音特征向量。当智能设备为非控制设备时，该采集信号可以称为第一采集信号，基于该采集信号所获取的语音特征向量为第二语音特征向量。

图3是根据另一示例性实施例示出的一种设备响应方法的流程图。如图3所示，该方法可以包括以下步骤：

在步骤S201中，根据每个麦克风在对应的单位球面空间中所采集的语音信号，提取每个麦克风对应的加窗信号。

智能设备可以对每个麦克风在对应的单位球面空间中所采集的语音信号进行分帧加窗，提取每个麦克风对应同一时间点t的加窗信号。以X_i(t)表示第i个麦克风对应时间点t的加窗信号。

在步骤S202中，获取每个麦克风对应的加窗信号的频域信号。

智能设备可以对第i个麦克风的X_i(t)进行短时傅里叶变换(short-time Fouriertransform，STFT)，得到第i个麦克风对应的加窗信号的频域信号X_i(ω)。

智能设备的所有麦克风对应的加窗信号的频域信号X_i(ω)构成了智能设备的采集信号。

下面对智能设备如何基于采集信号，获取语音特征向量进行说明。

图4是根据又一示例性实施例示出的一种设备响应方法的流程图。如图4所示，该方法可以包括以下步骤：

S301、根据所述频域信号，获取所述麦克风的相关性集合信息，所述相关性集合信息包括：任意两个麦克风分别采集所述语音信号时的时延差相关性曲线信息。

例如，智能设备可以根据下述公式(1)，获取智能设备的麦克风的相关性集合信息。该公式(1)可以如下所示：

其中，所述i表示第i个麦克风，所述j表示第j个麦克风，所述X_i(ω)表示所述第i个麦克风采集的信号的加窗信号所对应的频域信号，所述X_j(ω)表示所述第j个麦克风采集的信号的加窗信号所对应的频域信号，所述R_ij(τ)表示所述第i个麦克风与所述第j个麦克风分别采集所述语音信号时的时延差相关性曲线，τ表示时延。

通过上述公式(1)可以得到智能设备的任意两个麦克风分别采集所述语音信号时的时延差相关性曲线。智能设备的麦克风的相关性集合信息所包括的时延差相关性曲线的数量可以根据智能设备的麦克风数量确定。假定智能设备包括n个麦克风，则麦克风的相关性集合信息所包括的时延差相关性曲线的数量等于

以上述智能设备包括6个麦克风为例，则麦克风的相关性集合信息可以包括如下时延差相关性曲线：R₁₂(τ)、R₁₃(τ)、R₁₄(τ)、R₁₅(τ)、R₁₆(τ)、R₂₃(τ)、R₂₄(τ)、R₂₅(τ)、R₂₆(τ)、R₃₄(τ)、R₃₅(τ)、R₃₆(τ)、R₄₅(τ)、R₄₆(τ)、R₅₆(τ)。

可选的，通过上述公式(1)得到任意两个麦克风分别采集所述语音信号时的时延差相关性曲线后，还可以对该曲线进行三次样条插值，以提高计算精度。例如，对该曲线进行三次样条10倍插值，得到插值后的曲线R_ip_ij(τ′)，其中，τ′等于10倍的τ。

S302、根据在对应的单位球面空间中的每个第一位置、和每个所述麦克风在对应的单位球面空间中的第二位置，获取每个所述第一位置的时延差集合信息，所述时延差集合信息包括：任意两个麦克风分别对所述第一位置发出的所述语音信号进行采集所得到的信号之间的时延差信息。

例如，智能设备可以根据下述公式(2)，获取每个第一位置的时延差集合信息。该公式(2)可以如下所示：

其中，n表示对应的单位球面空间中的第n个位置，f_s表示语音信号的采样频率，V为语音信号的速度，

表示第i个麦克风与第j个麦克风之间采集从第n个位置发出的语音信号的时延差；

所述n_x表示所述第n个位置在对应的单位球面空间的x轴上的坐标，所述n_y表示所述第n个位置在对应的单位球面空间的y轴上的坐标，所述n_z表示所述第n个位置在对应的单位球面空间的z轴上的坐标，所述i_x表示所述第i个麦克风在对应的单位球面空间的x轴上的坐标，所述i_y表示所述第i个麦克风在对应的单位球面空间的y轴上的坐标，所述i_z表示所述第i个麦克风在对应的单位球面空间的z轴上的坐标，所述j_x表示所述第j个麦克风在对应的单位球面空间的x轴上的坐标，所述j_y表示所述第j个麦克风在对应的单位球面空间的y轴上的坐标，所述j_z表示所述第j个麦克风在对应的单位球面空间的z轴上的坐标。上述所说的单位球面空间为该智能设备对应的单位球面空间。

S303、根据所述相关性集合信息和所述时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性。

智能设备在获取到上述麦克风的相关性集合信息、每个第一位置的时延差集合信息之后，可以根据麦克风的相关性集合信息和每个第一位置的时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性。即，智能设备可以根据任意两个麦克风分别采集从该第一位置发出的语音信号的时延差，在该两个麦克风分别采集所述语音信号时的时延差相关性曲线中查找该时延差对应的相关性，以得到任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性。上述所说的相关性集合中的时延差相关性曲线可以为R_ij(τ)，还可以为对R_ij(τ)进行三次样条10倍插值后的曲线R_ip_ij(τ′)。

S304、将任意两个麦克风分别对同一第一位置发出的所述语音信号进行采集的相关性相加，得到每个所述第一位置对应的SRP值。

以基于R_ip_ij(τ′)获取任意两个麦克风分别对同一第一位置发出的所述语音信号进行采集的相关性为例，则智能设备可以通过如下公式(3)，得到每个所述第一位置对应的SRP值。该公式(3)可以如下：

其中，m为智能设备包括的麦克风的数量。

S305、根据每个所述第一位置对应的SRP值，获取所述第一SRP值、所述SRP均值、以及所述第二SRP值。

将所有第一位置对应的SRP值中最大的SRP值作为所述第一SRP值，所述第一SRP值对应的第三位置为所述用户发出所述语音信号的位置。

由于SRP值越大，说明来自该位置的语音信号的能量越强，因此，单位球面空间中所有第一位置对应的SRP值中最大的SRP值即为用户发出语音信号的位置对应的SRP值。即，智能设备可以将所有第一位置对应的SRP值中最大的SRP值作为第一SRP值SRP_max1，具体如下述公式(4)所示：

SRP_max1＝max(SRP_n) (4)

其中，第一SRP值SRP_max1对应的第三位置为用户发出语音信号的位置，其中，n表示第n个第一位置。该第三位置可以为单位球面空间中的任一第一位置。

智能设备可以对单位球面空间中的所有第一位置对应的SRP值求平均，得到SRP均值SRP_mean。具体如下述公式(5)所示：

SRP_mean＝mean(SRP_n) (5)

假定第三位置为s，则智能设备可以根据第三位置s的时延差集合信息中的每两个麦克风对应的时延差

信息，在每两个麦克风分别采集所述语音信号时的时延差相关性曲线信息中，去除距离该时延差

最近的预设数量的时延差(例如在曲线上将该时延差左右各20个点清零)信息，得到更新后的麦克风的相关性集合信息；

然后，智能设备可以根据更新后的麦克风的相关性集合信息，以及，每个第四位置的时延差集合信息，获取任意两个麦克风分别对每个所述第四位置发出的所述语音信号进行采集的相关性，第四位置为单位球面空间中所有第一位置中除第三位置之外的位置。进而，智能设备可以将任意两个麦克风分别对同一第四位置发出的所述语音信号进行采集的相关性相加，得到每个第四位置对应的SRP值。

最后，智能设备可以从所有第四位置对应的SRP值中筛选出最大的SRP值作为第二SRP值SRP_max2。即，智能设备将第三位置s从所有第一位置中刨除之后，重新遍历单位球面空间中的其余第一位置，得到一个次大SRP值。次大SRP值可以反映出该智能设备是否采集到用户发出的语音信号的反射信号，进而可以间接反映出智能设备所在的环境，例如，智能设备是否位于角落。

S306、获取所述第一SRP值与所述第二SRP值的比值。

在得到第一SRP值SRP_max1与第二SRP值SRP_max2之后，智能设备可以将第一SRP值SRP_max1与第二SRP值SRP_max2相除，得到第一SRP值与第二SRP值的比值SRP_ratio，具体如下述公式(6)所示：

在上述根据每个麦克风采集的信号的加窗信号所对应的频域信号，获取语音特征向量θ中的第一SRP值SRP_max1、第二SRP值SRP_max2、SRP均值SRP_mean、第一SRP值与第二SRP值的比值SRP_ratio的同时，智能设备还可以根据每个麦克风采集的信号的加窗信号所对应的频域信号，获取智能设备所采集的用户发出的语音信号的能量En和谱方差Ev。即，语音特征向量θ中的语音信号的能量En、语音信号的谱方差Ev。具体地：

智能设备可以根据每个麦克风采集的信号的加窗信号所对应的频域信号X_i(ω)，以及，每个麦克风对应第三位置s的波束形成系数，进行波束形成，得到波形形成后的语音信号Y(ω)，具体如下述公式(7)所示：

Y(ω)＝W^H(ω)*X(ω) (7)

其中，上述W为每个麦克风对应第三位置s的波束形成系数，X(ω)为智能设备的所有麦克风采集的信号的加窗信号所对应的频域信号组成的矩阵的转置。以智能设备包括6个麦克风为例，则该智能设备的X(ω)＝[X₁(ω) X₂(ω) X₃(ω) X₄(ω) X₅(ω) X₆(ω)]^T。

可以理解，智能设备可以通过相关技术中的任一种波束形成技术实现上述波束形成，例如延迟累加波束形成(Delay Sum Beamforming，简称：DSB)技术，本公开对此不限定。

然后，智能设备可以获取波形形成后的语音信号Y(ω)的能量，并将波形形成后的语音信号的能量作为语音信号的能量，具体可以如下述公式(8)所示：

En＝∑_ω|Y(ω)|² (8)

另外，智能设备可以根据每个麦克风采集的信号的加窗信号所对应的频域信号X_i(ω)，计算每个麦克风在每个频带的谱包络。例如，智能设备可以根据下述公式(9)，计算每个麦克风在每个频带的谱包络，该公式(9)如下所示：

Z_i(ω)＝exp(log[X_i(ω)]-μ) (9)

其中，μ为log[X_i(ω)]的时间平均，Z_i(ω)表示第i个麦克风在频带ω的谱包络。

进而，智能设备可以根据每个麦克风在每个频带的谱包络，计算每个麦克风在每个频带的初始谱方差。例如，智能设备可以根据下述公式(10)，计算每个麦克风在每个频带的初始谱方差，该公式(10)如下所示：

V_i(ω)＝Var[Z_i(ω)^1/3] (10)

其中，V_i(ω)表示第i个麦克风在频带ω的初始谱方差。

智能设备在得到每个麦克风在每个频带的初始谱方差之后，可以对每个麦克风在每个频带的初始谱方差进行加权归一化，得到每个麦克风的谱方差。例如，智能设备可以根据下述公式(11)，计算每个麦克风的谱方差，该公式(11)如下所示：

其中，i′表示第i′个麦克风，EV_i表示第i个麦克风的谱方差，m表示智能设备包括的麦克风的数量。

最后，智能设备可以将所有麦克风的谱方差中最大的谱方差作为语音信号的谱方差Ev，具体可以如下述(12)所示：

Ev＝max(EV_i) (12)

可以理解，上述智能设备根据自己的每个麦克风在对应的单位球面空间中针对所述语音信号进行采集，得到的采集信号对应的语音特征向量的方式可以适用于图2所示的实施例中的任一非控制设备。若控制设备是与非控制设备位于同一场景中的智能设备、且会对用户发出的语音信号做出响应的智能设备时，控制设备也可以通过上述方法获取语音特征向量。

然后，控制设备可以根据所获取的非控制设备的第二语音特征向量和控制设备的第三语音特征向量，从位于同一场景中的控制设备和非控制设备中确定出响应用户的目标设备，并控制目标设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题。

可以理解，上述方式虽然以控制设备和非控制设备为例，对本公开提供的设备响应方法进行了示意说明。但是，本领域技术人员可以理解的是，在任一涉及到多个均可以与用户进行远场交互的智能设备的场景，均可以采用本公开提供的设备响应方法。另外，对于上述实施例中所涉及的语音特征向量，具体可以根据实际场景添加或删减下语音特征向量所包括的特征，对此不进行限定。

在一些实施例中，上述方法实施例也可以不涉及控制设备，每个智能设备根据图4所示的方法，获取自己的语音特征向量，并接收场景中其他设备发送的语音特征向量。进而，该智能设备可以根据这些语音特征向量，以及，上述确定目标设备的方式，确定自己是否为目标设备。若是，则响应用户。若否，则不响应用户。通过这种方式，同样可以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

本公开提供的设备响应方法，控制设备可以根据当前场景中的每个智能设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的采集信号对应的语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种控制设备的框图。如图5所示，所述控制设备应用于包括所述控制设备和多个非控制设备的场景中，所述控制设备包括：

第一获取模块11，被配置为获取针对用户的语音信号的第一语音特征向量，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；

确定模块12，被配置为根据所述第一语音特征向量，确定目标设备；

控制模块13，被配置为控制所述目标设备响应所述语音信号；

本公开提供的控制设备，第一获取模块可以获取当前场景中的每个非控制设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，从而使得确定模块根据所获取的包括各第二语音特征向量的第一语音特征向量，来识别使用哪个设备响应用户的语音信号，进而控制模块可以控制该设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

图6是根据另一示例性实施例示出的一种控制设备的框图。如图6所示，在上述图5所示框图的基础上，当上述所述控制设备上设置有麦克风，所述控制设备还包括：

采集模块14，被配置为通过每个所述麦克风在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，所述第二采集信号包括：每个所述麦克风采集的信号的加窗信号所对应的频域信号；

第二获取模块15，被配置为获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量。

在该实现方式下，所述第一语音特征向量为将各所述第二语音特征向量和所述第三语音特征向量串联得到的语音联合特征向量；则上述确定模块12，被配置为根据所述语音联合特征向量，以及，预设的语音联合特征向量与目标设备分布的对应关系，确定出响应所述用户的目标设备。

第二获取模块15，可以通过如下方式获取所述第二采集信号对应的第三语音特征向量：

根据所述频域信号，获取所述麦克风的相关性集合信息，所述相关性集合信息包括：任意两个麦克风分别采集所述语音信号时的时延差相关性曲线信息；作为一种可能的实现方式，根据

获取所述麦克风的相关性集合信息；其中，所述i表示第i个麦克风，所述j表示第j个麦克风，所述X_i(ω)表示所述第i个麦克风采集的信号的加窗信号所对应的频域信号，所述X_j(ω)表示所述第j个麦克风采集的信号的加窗信号所对应的频域信号，所述R_ij(τ)表示所述第i个麦克风与所述第j个麦克风分别采集所述语音信号时的时延差相关性曲线。

根据在对应的单位球面空间中的每个第一位置、和每个所述麦克风在对应的单位球面空间中的第二位置，获取每个所述第一位置的时延差集合信息，所述时延差集合信息包括：任意两个麦克风分别对所述第一位置发出的所述语音信号进行采集所得到的信号之间的时延差信息；作为一种可能的实现方式，根据

获取每个所述第一位置的时延差集合信息；其中，所述i表示第i个麦克风，所述j表示第j个麦克风，所述n表示对应的单位球面空间中的第n个位置，所述f_s表示所述语音信号的采样频率，所述V为所述语音信号的速度，所述

根据每个所述第一位置对应的SRP值，获取所述第一SRP值、所述SRP均值、以及所述第二SRP值；作为一种可能的实现方式，可以将所有第一位置对应的SRP值中最大的SRP值作为所述第一SRP值，所述第一SRP值对应的第三位置为所述用户发出所述语音信号的位置；根据所述第三位置的时延差集合信息中的每两个麦克风对应的时延差信息，在每两个所述麦克风分别采集所述语音信号时的时延差相关性曲线信息中，去除距离所述时延差最近的预设数量的时延差信息，得到更新后的麦克风的相关性集合信息；根据所述更新后的麦克风的相关性集合信息，以及，每个第四位置的时延差集合信息，获取任意两个麦克风分别对每个所述第四位置发出的所述语音信号进行采集的相关性，所述第四位置为所有第一位置中除所述第三位置之外的位置；将任意两个麦克风分别对同一第四位置发出的所述语音信号进行采集的相关性相加，得到每个所述第四位置对应的SRP值；将所有第四位置对应的SRP值中最大的SRP值作为所述第二SRP值。

获取所述第一SRP值与所述第二SRP值的比值。

可选的，所述第二获取模块15，被配置为在根据所述相关性集合信息和所述时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性之前，对任意两个麦克风分别采集所述语音信号时的时延差相关性曲线进行三次样条插值。

可选的，所述第二获取模块15，被配置为根据Z_i(ω)＝exp(log[X_i(ω)]-μ)，计算每个所述麦克风在每个频带的谱包络；其中，所述i表示第i个麦克风，所述X_i(ω)表示所述第i个麦克风采集的信号的加窗信号所对应的频域信号，所述μ为log[X_i(ω)]的时间平均，所述Z_i(ω)表示所述第i个麦克风在频带ω的谱包络；根据V_i(ω)＝Var[Z_i(ω)^1/3]，计算每个所述麦克风在每个频带的初始谱方差；其中，V_i(ω)表示所述第i个麦克风在频带ω的初始谱方差；根据

得到每个所述麦克风的谱方差；其中，所述i′表示第i′个麦克风，所述EV_i表示所述第i个麦克风的谱方差，所述m表示所述控制设备包括的麦克风的数量；将所有所述麦克风的谱方差中最大的谱方差作为所述语音信号的谱方差。

本公开提供的控制设备，若控制设备是与非控制设备位于同一场景中的智能设备、且会对用户发出的语音信号做出响应的智能设备时，控制设备的采集模块可以通过控制设备的每个所述麦克风在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，从而使得第二获取模块可以获取所述第二采集信号对应的第三语音特征向量，进而使得确定模块可以根据当前场景中的每个智能设备在对应的单位球面空间中针对用户发出的语音信号进行采集，得到的采集信号对应的语音特征向量，来识别使用哪个设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

图7是根据一示例性实施例示出的一种非控制设备的框图。如图7所示，所述非控制设备应用于包括控制设备和多个所述非控制设备的场景中，所述非控制设备包括：

检测模块21，被配置为检测针对用户的语音信号；

处理模块22，被配置为响应于检测到所述语音信号，获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第二语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、所述单位球面空间中的所有位置对应的SRP均值、所述单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、所述语音信号的谱方差；

发送模块23，被配置为向所述控制设备发送所述第二语音特征向量。

可选的，处理模块22，可以通过如下方式获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量：

获取所述第一SRP值与所述第二SRP值的比值。

可选的，所述第二获取模块15，被配置为根据Z_i(ω)＝exp(log[X_i(ω)-μ)，计算每个所述麦克风在每个频带的谱包络；其中，所述i表示第i个麦克风，所述X_i(ω)表示所述第i个麦克风采集的信号的加窗信号所对应的频域信号，所述μ为log[X_i(ω)]的时间平均，所述Z_i(ω)表示所述第i个麦克风在频带ω的谱包络；根据V_i(ω)＝Var[Z_i(ω)^1/3]，计算每个所述麦克风在每个频带的初始谱方差；其中，V_i(ω)表示所述第i个麦克风在频带ω的初始谱方差；根据

得到每个所述麦克风的谱方差；其中，所述i′表示第i′个麦克风，所述EV_i表示所述第i个麦克风的谱方差，所述m表示所述非控制设备包括的麦克风的数量；将所有所述麦克风的谱方差中最大的谱方差作为所述语音信号的谱方差。

本公开提供的非控制设备，处理模块在检测模块检测到针对用户的语音信号后，响应于检测到所述语音信号，获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，以使发送模块向所述控制设备发送所述第二语音特征向量，这样控制设备可以根据当前场景中的每个非控制设备在对应的单位球面空间中采集语音信号得到的语音特征向量，来识别使用哪个设备响应用户的语音信号，进而可以控制该设备响应用户的语音信号，以避免当前场景中的所有智能设备都响应用户的问题，提高了用户的交互体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据又一示例性实施例示出的一种控制设备的实体的框图。如图8所示，该控制设备包括：

处理器31和存储器32；

存储器32用于存储处理器31的可执行的计算机指令；

其中，对于包括控制设备和多个非控制设备的场景，处理器31被配置为：

根据所述第一语音特征向量，确定目标设备；

控制所述目标设备响应所述语音信号；

可选的，所述控制设备上设置有麦克风；还包括：

获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量。

获取所述第一SRP值与所述第二SRP值的比值。

根据

获取每个所述第一位置的时延差集合信息；

根据

获取所述麦克风的相关性集合信息；

根据

所述根据所述第一语音特征向量，确定目标设备，包括：

在上述控制设备的实施例中，应理解，处理器31可以是中央处理子模块(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器32可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。可选的，控制设备还可以包括SIM卡。SIM卡也称为用户身份识别卡、智能卡，数字移动电话机必须装上此卡方能使用。即在电脑芯片上存储了数字移动电话客户的信息，加密的密钥以及用户的电话簿等内容。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

图9是根据另一示例性实施例示出的一种非控制设备的实体的框图。如图9所示，该非控制设备包括：

处理器41和存储器42；

存储器42用于存储处理器41的可执行的计算机指令；

其中，对于包括控制设备和多个非控制设备的场景，处理器41被配置为：

检测针对用户的语音信号；

向所述控制设备发送所述第二语音特征向量。

可选的，所述获取在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，包括：

获取所述第一SRP值与所述第二SRP值的比值。

根据

获取每个所述第一位置的时延差集合信息；

根据

获取所述麦克风的相关性集合信息；

根据

得到每个所述麦克风的谱方差；其中，所述i′表示第i′个麦克风，所述EV_i表示所述第i个麦克风的谱方差，所述m表示所述非控制设备包括的麦克风的数量；

在上述非控制设备的实施例中，应理解，处理器41可以是中央处理子模块(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器42可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。可选的，非控制设备还可以包括SIM卡。SIM卡也称为用户身份识别卡、智能卡，数字移动电话机必须装上此卡方能使用。即在电脑芯片上存储了数字移动电话客户的信息，加密的密钥以及用户的电话簿等内容。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

图10是根据一示例性实施例示出的一种控制设备500的框图。例如，控制设备500可以被提供为一服务器或智能设备。参照图10，控制设备500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述设备响应方法。

该方法包括：

根据所述第一语音特征向量，确定目标设备；

控制所述目标设备响应所述语音信号；

可选的，所述控制设备上设置有麦克风；还包括：

获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量。

获取所述第一SRP值与所述第二SRP值的比值。

根据

获取每个所述第一位置的时延差集合信息；

根据

获取所述麦克风的相关性集合信息；

根据

所述根据所述第一语音特征向量，确定目标设备，包括：

控制设备500还可以包括一个电源组件526被配置为执行控制设备500的电源管理，一个有线或无线网络接口550被配置为将控制设备500连接到网络，和一个输入输出(I/O)接口558。控制设备500可以操作基于存储在存储器532的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

图11是根据一示例性实施例示出的一种控制设备1100的框图。例如，控制设备1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，控制设备1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电源组件1106，多媒体组件1108，音频组件1110，输入/输出(I/O)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制控制设备1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理组件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在控制设备1100的操作。这些数据的示例包括用于在控制设备1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1106为控制设备1100的各种组件提供电力。电源组件1106可以包括电源管理系统，一个或多个电源，及其他与为控制设备1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在控制设备1100和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当控制设备1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(MIC)，当控制设备1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主条按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为控制设备1100提供各个方面的状态评估。例如，传感器组件1114可以检测到控制设备1100的打开/关闭状态，组件的相对定位，例如组件为控制设备1100的显示器和小键盘，传感器组件1114还可以检测控制设备1100或控制设备1100一个组件的位置改变，用户与控制设备1100接触的存在或不存在，控制设备1100方位或加速/减速和控制设备1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于控制设备1100和其他设备之间有线或无线方式的通信。控制设备1100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件1116还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，控制设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由控制设备1100的处理器1120执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由控制设备1100的处理器执行时，使得控制设备1100在与非控制设备之间进行网络连接时，能够执行一种设备响应方法。该方法包括：

根据所述第一语音特征向量，确定目标设备；

控制所述目标设备响应所述语音信号；

可选的，所述控制设备上设置有麦克风；还包括：

获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量。

获取所述第一SRP值与所述第二SRP值的比值。

根据

获取每个所述第一位置的时延差集合信息；

根据

获取所述麦克风的相关性集合信息；

根据

所述根据所述第一语音特征向量，确定目标设备，包括：

图12是根据一示例性实施例示出的一种非控制设备600的框图。参照图12，非控制设备600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述设备响应方法。

该方法包括：

检测针对用户的语音信号；

向所述控制设备发送所述第二语音特征向量。

获取所述第一SRP值与所述第二SRP值的比值。

根据

获取每个所述第一位置的时延差集合信息；

根据

获取所述麦克风的相关性集合信息；

根据

非控制设备600还可以包括一个电源组件626被配置为执行非控制设备600的电源管理，一个有线或无线网络接口650被配置为将非控制设备600连接到网络，和一个输入输出(I/O)接口658。非控制设备600可以操作基于存储在存储器632的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本公开还提供了一种设备响应系统，包括上述实施例所示的控制设备和上述实施例所示的多个非控制设备，其实现原理类似，对此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种设备响应方法，其特征在于，所述方法应用于包括控制设备和多个非控制设备的场景中，所述方法应用于控制设备；

所述方法包括：

获取针对用户的语音信号的第一语音特征向量，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，所述第二语音特征向量用于表征所述非控制设备与所述用户之间的距离，以及所述非控制设备与所述用户发出语音信号的朝向之间的夹角；

根据所述第一语音特征向量，确定目标设备；

控制所述目标设备响应所述语音信号；

其中，所述第一语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、单位球面空间中的所有位置对应的SRP均值、单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、和所述语音信号的谱方差；

所述控制设备上设置有麦克风；

所述方法还包括：

获取所述第二采集信号对应的第三语音特征向量；

所述第一语音特征向量还包括：所述第三语音特征向量；

所述第一语音特征向量为将各所述第二语音特征向量和所述第三语音特征向量串联得到的语音联合特征向量；

所述根据所述第一语音特征向量，确定目标设备，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述第二采集信号对应的第三语音特征向量，包括：

获取所述第一SRP值与所述第二SRP值的比值。

3.根据权利要求2所述的方法，其特征在于，所述根据每个所述第一位置对应的SRP值，获取所述第一SRP值、所述SRP均值、以及所述第二SRP值，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据在对应的单位球面空间中的每个第一位置、和每个所述麦克风在对应的单位球面空间中的第二位置，获取每个所述第一位置的时延差集合信息，包括：

根据

获取每个所述第一位置的时延差集合信息；

5.根据权利要求2所述的方法，其特征在于，所述根据所述相关性集合信息和所述时延差集合信息，获取任意两个麦克风分别对每个所述第一位置发出的所述语音信号进行采集的相关性之前，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述根据所述频域信号，获取所述麦克风的相关性集合信息，包括：

根据

获取所述麦克风的相关性集合信息；

7.根据权利要求1所述的方法，其特征在于，所述获取所述第二采集信号对应的第三语音特征向量，包括：

根据

得到每个所述麦克风的谱方差；其中，所述i^′表示第i^′个麦克风，所述EV_i表示所述第i个麦克风的谱方差，所述m表示所述控制设备包括的麦克风的数量；

8.一种设备响应方法，其特征在于，所述方法应用于包括控制设备和多个非控制设备的场景中，所述方法应用于所述非控制设备；

所述方法包括：

检测针对用户的语音信号；

响应于检测到所述语音信号，在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第二语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、所述单位球面空间中的所有位置对应的SRP均值、所述单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、所述语音信号的谱方差，所述第二语音特征向量用于表征所述非控制设备与所述用户之间的距离，以及所述非控制设备与所述用户发出语音信号的朝向之间的夹角；

向所述控制设备发送所述第二语音特征向量，以使控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，获取所述第二采集信号对应的第三语音特征向量；根据语音联合特征向量，以及，预设的语音联合特征向量与目标设备分布的对应关系，确定出响应所述用户的目标设备，并控制所述目标设备响应所述语音信号；所述第二采集信号包括：所述控制设备上的每个麦克风采集的信号的加窗信号所对应的频域信号，第一语音特征向量为控制设备针对用户的语音信号获取的，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第一语音特征向量还包括：所述第三语音特征向量，所述语音联合特征向量为将各所述第二语音特征向量和所述第三语音特征向量串联得到的向量。

9.一种控制设备，其特征在于，所述控制设备应用于包括所述控制设备和多个非控制设备的场景中，所述控制设备包括：

第一获取模块，被配置为获取针对用户的语音信号的第一语音特征向量，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量，所述第二语音特征向量用于表征所述非控制设备与所述用户之间的距离，以及所述非控制设备与所述用户发出语音信号的朝向之间的夹角；

控制模块，被配置为控制所述目标设备响应所述语音信号；

所述控制设备上设置有麦克风；

所述控制设备还包括：

所述第一语音特征向量还包括：所述第三语音特征向量；

10.根据权利要求9所述的设备，其特征在于，所述第二获取模块，被配置为：

获取所述第一SRP值与所述第二SRP值的比值。

11.根据权利要求10所述的设备，其特征在于，所述第二获取模块，被配置为：

12.根据权利要求10所述的设备，其特征在于，所述第二获取模块，被配置为根据

获取每个所述第一位置的时延差集合信息；

13.根据权利要求10所述的设备，其特征在于，所述第二获取模块，被配置为：

14.根据权利要求10所述的设备，其特征在于，所述第二获取模块，被配置为根据

获取所述麦克风的相关性集合信息；

15.根据权利要求9所述的设备，其特征在于，所述第二获取模块，被配置为：

根据

16.一种非控制设备，其特征在于，所述非控制设备应用于包括控制设备和多个所述非控制设备的场景中，所述非控制设备包括：

检测模块，被配置为检测针对用户的语音信号；

处理模块，被配置为响应于检测到所述语音信号，在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第二语音特征向量包括：发出所述语音信号的位置对应的第一可控功率响应SRP值、所述单位球面空间中的所有位置对应的SRP均值、所述单位球面空间中反射所述语音信号的位置对应的第二SRP值、所述第一SRP值与所述第二SRP值的比值、所述语音信号的能量、所述语音信号的谱方差，所述第二语音特征向量用于表征所述非控制设备与所述用户之间的距离，以及所述非控制设备与所述用户发出语音信号的朝向之间的夹角；

发送模块，被配置为向所述控制设备发送所述第二语音特征向量，以使控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到第二采集信号，获取所述第二采集信号对应的第三语音特征向量；根据语音联合特征向量，以及，预设的语音联合特征向量与目标设备分布的对应关系，确定出响应所述用户的目标设备，并控制所述目标设备响应所述语音信号；所述第二采集信号包括：所述控制设备上的每个麦克风采集的信号的加窗信号所对应的频域信号，第一语音特征向量为控制设备针对用户的语音信号获取的，所述第一语音特征向量包括各个非控制设备在对应的单位球面空间中针对所述语音信号进行采集，得到的第一采集信号对应的第二语音特征向量；所述第一语音特征向量还包括：所述第三语音特征向量，所述语音联合特征向量为将各所述第二语音特征向量和所述第三语音特征向量串联得到的向量。

17.一种控制设备，其特征在于，包括：存储器、处理器以及计算机指令，所述处理器运行所述计算机指令执行如权利要求1-7任一项所述方法的步骤。

18.一种非控制设备，其特征在于，包括：存储器、处理器以及计算机指令，所述处理器运行所述计算机指令执行如权利要求8所述方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。