CN109637528A

CN109637528A - 使用多个语音命令装置的设备和方法

Info

Publication number: CN109637528A
Application number: CN201811147515.9A
Authority: CN
Inventors: M.E.克里斯托夫; G.法芬格
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2017-10-05
Filing date: 2018-09-29
Publication date: 2019-04-16
Anticipated expiration: 2038-09-29
Also published as: CN109637528B; KR20190039646A; EP3467819B1; US10984789B2; US20190108837A1; KR102638713B1; EP3467819A1

Abstract

本发明提供了一种方法和一种具有多个语音命令装置的系统，其中所述语音命令装置中的每一个包括：处理器单元；收发器，所述收发器耦合到所述处理器单元并且被配置为耦合到网络；一个或多个麦克风，每个麦克风被配置为捕获音频信号；以及至少一个扬声器，并且其中所述处理器单元被配置为：检测所述捕获到的音频信号中的话音信号；在检测到话音信号时，使用所述收发器经由所述网络向软件即服务SaaS提供商传输关于所述一个或多个麦克风的方向性信息；以及使用所述收发器经由所述网络从所述SaaS提供商接收关于所述多个语音命令装置的方向性信息。

Description

使用多个语音命令装置的设备和方法

技术领域

本发明涉及一种使用多个语音命令装置的设备和方法，具体地讲涉及声学云装置的自动选择。

背景技术

最近，在市场上已经提供连接到云或其它web服务提供商的许多用语音操作的装置。一些示例包括亚马逊的Echo、iOS上的Siri和Android上的话音交互等。这些语音命令装置作为用于web服务的前端操作，诸如流式传输音频、音乐、书籍、视频和其它数字内容，并且可以由用户使用语音命令来操作。用户可以要求例如通过该装置来播放某些内容。为此目的，语音命令装置一般配备有一个或若干个扬声器和/或连接到单独地提供的扬声器。

可以采用关键字词来向系统指示接下来的语音命令。例如，但不限于，可以对亚马逊的Echo说使用关键字词“Alexa”后接命令“播放音乐”。将由语音命令装置的一个或多个麦克风捕获的接收到的音频信号数字化以通过网络(例如，互联网)传输到服务提供商，具体地使用云。接着，语音命令装置可以联系远程服务，远程服务以流式传输音乐或递送所请求的数据作为响应。可以提供互操作性，其中远程装置或web服务要求说明命令。例如，但不限于，可以将“你想要听什么音乐？”发送到语音命令装置，语音命令装置将使用扬声器发出问题。将由用户给出且由语音命令装置捕获的回答传输到远程装置或web服务，接着，远程装置或web服务将流式传输所期望的音乐。可以由语音命令装置和/或服务提供商采用话音识别来分析捕获到的音频信号以得到语音命令。

原理上，可以独立于用户的特定位置来触发语音命令装置，只要可以可靠地在捕获到的音频信号中检测到话音信号。换句话说，当前语音命令装置通常提供用于捕获所发出的语音命令的360°范围以及用于输出由云提供的音频信号(例如，音乐信号)的360°范围。

只要使用单个语音命令装置，就可以自主地由语音命令装置处理相对于语音命令装置来定位用户的问题。在确定用户的位置之后，可以在语音命令装置的多个麦克风和/或说话者之间执行波束操纵，以从用户接收最佳可能的话音信号和/或在该用户的位置处生成高质量声场。随着语音命令装置变得更普及和廉价，用户开始为他们的家庭配备位于相同的房间或不同的房间中的多个语音命令装置。另外，由用户请求的音频再现质量不断地提高，使得可以使用多个语音命令装置提供立体声或甚至环绕声再现质量。

然而，在各个位置中提供多个语音命令装置需要相对于语音命令装置中的每一个来定位说话者，其中包围说话者和语音命令装置的声室的几何形状影响音频信号在说话者与语音命令装置之间的传播。为了捕获最佳可能的话音信号，必须分析在语音命令装置之间的大量麦克风和/或操纵角组合，以在说话者移动通过房间时引起显著的时间延迟，同时继续语音控制语音命令装置。另外，语音命令装置中的一些将更好地定位以捕获所发出的话音和/或提供所期望的声场。

因此，期望一种选择多个语音命令装置中的某些语音命令装置和/或它们对应的麦克风和/或扬声器的最佳组合以实现最佳话音捕获和/或音频再现的有效方式。

发明内容

上述技术问题通过一种系统、特别是一种娱乐系统解决，所述系统具有多个语音命令装置，其中所述语音命令装置中的每一个包括：处理器单元，特别是耦合到存储器；收发器，所述收发器耦合到所述处理器单元并且被配置为耦合到网络；一个或多个麦克风，每个麦克风被配置为捕获音频信号；以及至少一个扬声器，其中所述处理器单元被配置为：检测所述捕获到的音频信号中的话音信号；在检测到话音信号时，使用所述收发器经由所述网络向软件即服务SaaS提供商传输关于所述一个或多个麦克风的方向性信息；以及使用所述收发器经由所述网络从所述SaaS提供商接收关于所述多个语音命令装置的方向性信息。

语音命令装置中的每一个可以提供作为独立单元，其中收发器可操作以通过网络、特别是互联网进行通信，以使用语音控制来提供音乐、新闻和其它音频信息。语音命令装置可以相同或不同，只要它们包括以上提及的部件。语音命令装置可以具体地布置在不同的空间位置处，例如被分布于房屋的一个或若干个房间。如上提及，语音命令装置中的每一个可以被配置为作为用于web服务的前端操作，诸如流式传输音频、音乐、书籍、视频和由远程服务提供商使用网络提供的其它数字内容。

处理器单元可以由一个或多个处理元件实现，一个或多个处理元件诸如逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或本领域已知的任何其它装置或装置组合。处理器单元可以具体地包括CPU、GPU和/或数字信号处理器(DSP)。它可以耦合到存储器，诸如RAM、ROM、闪存存储器、固态盘、硬盘，光学数据存储装置、磁光数据存储装置，或者本领域已知的能够存储指令或软件和相关联的数据并将指令和任何相关联的数据提供到处理器单元以使得处理器单元可以执行指令的任何装置。

处理器单元可以包括专用硬件部件，诸如DSP、FFT单元、滤波单元、波束形成单元，以及用于执行音频信号的下述处理的另外单元。可选地或另外地，处理器单元可以被配置为执行存储在存储器上的指令，以执行下述操作。语音命令装置可以具体地包括在存储器上编码的处理器可读指令，其指示处理器单元来执行下述方法。

根据本发明，多个语音命令装置中的每一个包括收发器，收发器耦合到处理器单元并且被配置为向网络传输数据和从网络接收数据。收发器可以是无线收发器，例如WiFi或蓝牙收发器，或者可以是有线收发器，例如使用USB或HDMI端口。收发器可以被配置为耦合到本地网络，诸如家庭网络，特别是安装在用户的家中的LAN或WLAN网络。举例来说，收发器可以被配置为无线地耦合到提供在用户的家中的WLAN路由器。可选地或另外地，收发器可以被配置为直接地连接到移动通信网络，诸如3GPP网络。通过提供用于连接到网络的物理层，收发器使得处理器单元能够连接到软件即服务SaaS提供商(例如，作为云的一部分)以与SaaS提供商交换数据。此连接可以是直接的，例如经由移动通信网络，或者使用路由器作为网关间接地协商。已知的连接标准和协议中的任一者可以用于连接到网络和/或与SaaS提供商交换数据。

术语“软件即服务”或“SaaS”提供商是指软件分发模型，其中软件和其相关联的数据集中地托管(诸如在互联网或云上)并由用户使用客户端访问。在目前情况下，用于访问SaaS提供商的客户端在语音命令装置、特别是处理器单元中实现。SaaS是用于许多商业应用程序的共用分发模型，包括会计、合作、客户关系管理、管理信息系统、企业资源规划、发票开具、人力资源管理、内容管理和服务台管理。在本上下文中，SaaS特别是用于提供娱乐web服务的共用分发模型，诸如由远程提供商将音频、音乐、有声读物、视频和其它数字内容流式传输或下载到客户端，特别是作为云的一部分。SaaS提供商还可以包括主要服务提供商和一个或多个次要服务提供商。主要服务提供商可以具体地提供用于处理和分析由用户发出且由语音命令装置捕获的语音命令和用于从次要服务提供商请求对应的数据(诸如音乐或视频内容)的功能。或者，语音命令装置的处理器单元可以被配置为在语音命令装置侧处处理和分析语音命令，并且仅将该分析的结果传输到SaaS提供商以进一步处理。

根据本发明，每个语音命令装置包括一个或多个麦克风，其中每个麦克风被配置为捕获音频信号。麦克风可以是本领域已知的任何麦克风，无论是全向还是单向的。具体地，语音命令装置的多个麦克风可以被实现为麦克风阵列，具体地，被实现为圆形或球形麦克风阵列。换句话说，多个麦克风可以分布(特别是等距地)在语音命令装置的圆圈或圆周上，或分布在语音命令装置的球形或半球形表面上。举例来说，语音命令装置可以采取圆柱形、半球形或球形形状因子。

每个麦克风被配置为捕获音频信号或麦克风信号，其中麦克风信号可以被捕获为包络信号或数字信号。在包络信号的情况下，音频信号或麦克风信号还可以由A/D转换器或处理器单元本身来转换成数字信号。在存在多个麦克风的情况下，音频信号或麦克风信号可以是多通道信号。为了简单起见，术语“音频信号”在下文中用作由麦克风捕获、由处理器单元处理和/或向网络传输或从网络接收的数字信号的一般术语，其中音频信号包括音频数据，例如对应于由SaaS提供商提供的捕获到的麦克风信号或音乐数据的音频数据。

一个或多个麦克风连接到处理器单元并且被配置为将捕获到的音频信号提供到处理器单元以进一步处理。根据本发明，此进一步处理具体地包括话音信号处理，以便检测捕获到的音频信号中的话音信号，其中话音信号处理可以由处理器单元、特别是专用DSP根据本领域已知的任何方法执行。捕获到的音频信号的处理可以在时域和/或频域中或在频率子带范围中执行。为此目的，麦克风信号可以经历傅里叶变换，特别是快速傅里叶变换、离散傅里叶变换等，或通过分析滤波器组进行滤波以将麦克风信号变换到频域中。在实际应用中，麦克风信号可以提供作为经采样的时间离散麦克风信号而不是连续的时间相关信号，并且还可以逐帧地进行处理，其中帧持续时间可以是预定的或由话音检测算法适应，并且可以是5毫秒至40毫秒的量级。

可以通过对麦克风信号应用语音活动检测(VAD)方法来检测话音信号，其中语音活动检测方法检测捕获到的音频信号中的人类话音的存在或不存在。在本发明的一个基本实施方案中，检测捕获到的音频信号中的话音信号可以仅包括在麦克风信号中判别人类话音的存在和不存在，而不对麦克风信号执行话音识别。根据此基本实施方案，话音信号的检测可以仅用于触发捕获到的音频信号的进一步处理，其中进一步处理可以具体地由SaaS提供商执行。在这种情况下，语音命令装置可以被配置为将由一个或多个麦克风捕获的原始音频信号传输到SaaS提供商作为关于一个或多个麦克风的方向性信息。接着，通过执行下述话音识别并计算关于多个语音命令装置的方向性信息来在SaaS提供商侧处处理所传输的音频信号。

在本发明的替代实施方案中，检测捕获到的音频信号中的话音信号还可以包括在语音命令装置侧处执行话音识别，即，检测麦克风信号中的音素、字词、短语和/或句子。通过对麦克风信号执行话音识别，非言语的人类话语(如打喷嚏、咳嗽、吹口哨等)就不会被意外地检测为话音信号，使得下述过程不会非自愿地触发。

可以基于从麦克风信号确定的测量来执行语音活动检测，其中不同的测量包括频谱斜率、相关系数、对数似然比、倒谱和加权的倒谱系数(其从频谱密度的对数的傅里叶系数确定)，以及经修改的距离测量、短时能量、过零率、线性预测系数、谱熵、最小二乘周期性测量和小波变换系数。语音活动检测还可以包括降噪阶段，例如通过频谱减法、用于回声补偿的滤波和/或确定由间隔开的麦克风捕获的两个或更多个音频信号的信号相干性，以便滤除漫射背景噪声和/或声音反射。

话音识别可以根据本领域已知的方法中的任一种执行。具体地，话音识别方法可以是基于使用倒谱系数的隐马尔可夫模型。所采用的隐马尔可夫模型还可以涉及音素的上下文依赖性、用于针对不同的说话者和/或记录条件来归一化的倒谱归一化、用于男性/女性归一化的声道长度归一化(VTLN)和/或用于更一般的说话者适应性的最大似然线性回归(MLLR)。除了单独地使用系数之外，可以使用所谓的Δ和Δ-Δ系数来包括它们的时间动态。或者，可以使用拼接和基于LDA的投影，接着就可能是进行异方差线性判别分析(HLDA)。可以使用判别训练技术(诸如最大互信息(MMI)、最小分类误差(MCE)和最小音素误差(MPE)的)进一步适应基于隐马尔可夫模型的话音识别系统。作为对隐马尔可夫模型的替代，话音识别方法可以是基于动态时间规整(DTW)。而且，神经网络可以用于话音识别的某些方面，诸如音素分类、孤立字词识别和说话者适应性。另外，神经网络可以用作实际话音识别步骤的预处理步骤。可用于使用话音识别来检测麦克风信号中的话音信号的其它方法包括但不限于：功率频谱分析(FFT)；线性预测分析(LPC)，其中在当前时间上的特定话音样本可以被近似为过去的话音样本的线性组合，并且其中预测器系数被变换为倒谱系数；感知线性预测(PLP)，其是基于短期话音频谱并且使用若干基于心理物理的变换；Mel域倒谱分析(MEL)，其中频谱根据MEL域进行扭曲，并且其中倒谱平滑用于平滑所修改的功率频谱；相对频谱滤波(RASTA)，其用于补偿线性通道失真，可以在对数频谱或倒谱域中使用；以及能量归一化，其用于补偿响度、麦克风录音以及不同的音素声音之间的信号能量的变化。

最后，统计语言建模可以用于话音识别，其中统计语言模型将概率分布分配到语言的字词和句子。在统计语言建模中，基于一个或多个所识别的前缀字词而识别所说出的字词中的至少一个。可以例如通过所熟知的n-gram语言建模来给出统计语言建模示例。

话音检测可以逐帧地连续地执行，或者分别以预定的、可能可配置的帧大小重叠，例如每500ms或每1秒一次。另外，处理器单元可以适于周期性或连续地检查捕获的音频信号中的话音信号。

检测话音信号还可以包括基于说话者识别方法使用语音识别来检测至少两个不同的人类说话者的语音活动。说话者识别一般表示通过正在说话的人的语音的特征来识别他们的领域，即，所谓的生物测定，根据本实施方案的语音识别可以限于检测至少两个不同的人类说话者的话音信号包括在检测到的话音信号中。这可以通过话音信号的频谱分析且通过识别话音信号的至少两个不同的频谱特性来实现，而不将检测到的频谱特性和/或语音生物测定与预定频谱特性和/或与特定的人相关联的语音生物测定进行比较。至少两个不同的人类说话者的话音信号可以同时包含在检测到的话音信号中，即，当至少两个不同的人类说话者同时地发出言语时，或者可以以检测到的话音信号的不同的可能连续和/或重叠的时间间隔包含在检测到的话音信号中，即，在至少两个人类说话者之间的实际对话的情况下。可以使用频率估计、隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化、决策树、信号的频谱密度的协方差迟滞的序列、自回归移动平均(ARMA)模型、基于检测到的话音信号的音调的频谱分析、频谱中的共振峰的检测或本领域已知的任何其它频谱特性来执行说话者识别或说话者区分。

可以由语音命令装置和/或SaaS提供商使用说话者识别来授权语音命令装置的操作。然而，在本发明的上下文中，检测至少两个不同的人类说话者的话音信号也可以由本发明的系统使用来为语音命令装置的多个麦克风和/或扬声器执行关于至少两个不同的说话者的波束形成。

检测话音信号还可以包括基于由至少一个扬声器从捕获到的音频信号输出的音频信号而减去信号。为了避免错误地检测由语音命令装置从SaaS提供商接收且由语音命令装置的扬声器输出的音频数据中包含的话音信号，可以从捕获到的音频信号或麦克风信号中减去可能在处理之后的对应的音频信号。

在一个特定实施方案中，可以使用声学传递函数从输出音频信号确定要从麦克风信号中减去的信号，以将音频信号从至少一个扬声器传递到一个或多个麦克风。声学传递函数描述在线性时间不变系统(这里是由至少一个扬声器和一个或多个麦克风形成的声学空间)中输出(这里是由一个或多个麦克风捕获的音频信号)与输入(这里是经由至少一个扬声器输出的音频信号)之间的关系。在封闭的声学空间中，如房屋的房间，由一个或多个麦克风捕获的音频信号一般不仅包括直接地从至少一个扬声器到达一个或多个麦克风的声波，而且还包括声学空间内的物体/对象和声学空间的限制结构的反射和回响。对于明确函数地限定的声学空间，诸如房间，声学传递可以由语音命令装置预确定并且存储在存储介质中。

根据本发明，可以由SaaS提供商基于来自娱乐系统的所有语音命令装置的捕获到的音频信号而执行确定，并且数据可以存储在SaaS提供商和/或语音命令装置的存储介质中。可以具体地在通过使用由语音命令装置的至少一个扬声器输出且由一个或多个麦克风捕获的参考信号来检测话音信号之前在校准步骤中确定声学传递函数。此校准步骤可以由SaaS提供商执行，并且可以涉及由单独语音命令装置或作为娱乐系统的一部分的语音命令装置组合输出的参考信号。换句话说，SaaS提供商可以将专用音频信号传输到娱乐系统的语音命令装置，以自动地/自适应地将声学传递函数从语音命令装置的扬声器布置建模到语音命令装置的麦克风布置。此校准步骤可以在不知道房间几何形状或语音命令装置的空间分布的情况下执行，或者可以涉及由用户向SaaS提供商输入和传输对应的校准数据。为此，语音命令装置可以包括输入装置，诸如触摸屏或具有对应的屏幕的键盘。

接着，可以通过使用数字或模拟滤波器对要经由至少一个扬声器输出的音频信号进行滤波来确定要从捕获到的音频信号中减去的信号，数字或模拟滤波器的特征为声学传递函数。通过相应地滤波要经由至少一个扬声器输出的音频信号，可以从麦克风信号中有效地减去经由至少一个扬声器输出的任何音频信号，无论其是否是话音信号，使得剩余麦克风信号理想地仅包括来自外部源(即，不来自至少一个扬声器)的音频信号，例如由人类说话者发出且与一般背景噪声组合的音频信号。接着，从剩余麦克风信号中，可以有效地且可靠地检测话音信号。

从剩余麦克风信号中检测话音信号可以具体地包括将话音信号的信噪比与预定阈值进行比较，并且如果信噪比大于预定阈值，那么确定检测到话音信号。可以在执行如上所述的实际话音检测和/或说话者识别之前执行信噪比与预定阈值的此比较，使得可以减少所需要的计算资源。具体地，信噪比比较可以由语音命令装置本身执行，而实际语音识别和分析，例如关于如下所述的说话者定位和检测到的话音信号中的语音命令的识别是由SaaS提供商执行。在这种情况下，大于预定阈值的信噪比是下述方向性信息的传输和接收的先决条件。

语音命令装置可以包括专用话音检测单元，诸如DSP，专用话音检测单元被配置为从一个或多个麦克风接收捕获到的音频信号，即，麦克风信号，并且执行上述方法以检测捕获到的音频信号中的话音信号。话音检测单元可以作为单独单元或作为处理器单元的一部分提供。话音检测单元可以以集成电路的形式和/或以计算机可执行指令的形式实现，以执行上述方法并存储在存储器中或计算机可读介质上。处理器单元可以以中央处理单元的形式实现，典型地是CPU或GPU，或者以专用集成电路(ASIC)的形式实现。

语音命令装置还可以包括：一个或若干个A/D转换器，所述一个或若干个A/D转换器用于将由多个麦克风捕获的模拟音频信号转换为数字音频信号；一个或若干个滤波单元，所述一个或若干个滤波单元用于在将捕获到的音频信号传输到SaaS提供商或在处理器单元中进一步处理它们之前对其进行滤波；一个或若干个滤波单元，所述一个或若干个滤波单元用于在经由至少一个扬声器输出作为由SaaS提供商提供的音频服务的一部分的接收到的音频信号之前对它们进行滤波；均衡器，所述均衡器用于在经由至少一个扬声器输出接收到的音频信号之前对接收到的音频信号应用均衡；一个或若干干放大器，所述一个或若干干放大器用于放大从网络接收的捕获到的音频信号和/或音频信号；以及一个或若干个D/A转换器，所述一个或若干个D/A转换器用于将数字音频信号转换回模拟音频信号以经由至少一个扬声器输出。可以提供本领域已知的另外部件作为语音命令装置的一部分，特别是作为其处理器单元的一部分。

根据本发明，语音命令装置的处理器单元还被配置为使用收发器经由网络将关于一个或多个麦克风的方向性信息传输到SaaS提供商。作为回报，语音命令装置使用收发器经由网络从SaaS提供商接收关于多个语音命令装置的方向性信息。

检测话音信号(例如作为处理器单元将话音信号的信噪比与预定的第一阈值进行比较的肯定结果)由此触发一方面的一个或若干个语音命令装置与另一方面的SaaS提供商之间的方向性信息的交换。方向性信息的交换使用语音命令装置的收发器执行并且由网络调解来中介。可以将任何已知的传输方法和协议应用于方向性信息的交换。

在本上下文中，方向性信息一般是指数字数据，其包括检测到的话音信号的至少一个源相对于语音命令装置中的一个或若干个的相对位置的至少一些信息。在关于一个或多个麦克风的方向性信息的情况下，关于相对位置的此信息涉及包括相应的一个或多个麦克风的特定语音命令装置。因此，关于一个或多个麦克风的方向性信息仅包括关于话音信号的至少一个源相对于一个特定语音命令装置的空间位置的信息。换句话说，关于一个或多个麦克风的方向性信息包括关于检测到的话音信号的至少一个源的相对位置的信息，其仅考虑由特定语音命令装置的一个或多个麦克风捕获的音频信号，而不考虑由其它语音命令装置的麦克风捕获的音频信号。

相反，关于多个语音命令装置的方向性信息包括关于检测到的话音信号的至少一个源相对于语音命令装置中的两个或更多个的相对位置的信息。此方向性信息可以提供作为显式信息，例如，以相对于多个语音命令装置且相对于检测到的话音信号的至少一个源的波束操纵角的形式，或者编码到由SaaS提供商提供的音频数据中作为音频服务的一部分，例如，通过对多个语音命令装置的扬声器的单独的音频通道编码以形成环绕声或高保真度立体声响复制声。换句话说，关于多个语音命令装置的方向性信息包括关于检测到的话音信号的至少一个源的相对位置的信息，其考虑了由两个或更多个语音命令装置的麦克风捕获的音频信号。具体地，关于多个语音命令装置的方向性信息可以考虑由语音命令装置的麦克风捕获的所有音频信号，其中检测到的话音信号的信噪比高于预定阈值。

基于由单个语音命令装置的麦克风捕获的音频信号而定位检测到的话音信号的源的结果一般不如基于由多个语音命令装置的麦克风捕获的音频信号的源的定位的结果可靠。因此，基于在SaaS提供商侧处由多个语音命令装置的麦克风捕获的音频信号而确定关于多个语音命令装置的方向性信息可以包括校正检测到的话音信号的至少一个源的位置，这种校正由语音命令装置本身或SaaS提供商基于仅由语音命令装置的麦克风捕获的音频信号而计算。或者，可以由SaaS提供商确定关于多个语音命令装置的方向性信息，而不基于单个语音命令装置的捕获到的音频信号对检测到的话音信号的源进行在先定位。如果语音命令装置仅包括单个麦克风，那么尤其可能是这种情况。在这种情况下，关于该语音命令装置的一个或多个麦克风的方向性信息可以包括捕获到的音频信号本身，同样如下所述。除了基于来自两个或若干个语音命令装置、特别是来自所有多个语音命令装置的捕获到的音频信号的源定位的提高的可靠性之外，SaaS提供商一般提供更好的计算资源和更好的性能以耗时地确定关于多个语音命令装置的方向性信息。根据可用的网络连接，特别是短的往返延迟，可以根据本发明来跟踪移动通过声学空间、即通过房间或多个房间的说话者的位置，使得可以优化语音命令捕获和与音频服务相关的音频再现。

在一个实施方案中，关于多个语音命令装置的方向性信息包括以下至少一者：用于选择多个语音命令装置中的至少一者作为活动语音命令装置的选择信息、用于选择至少一个麦克风的麦克风选择信息以及关于至少两个麦克风的波束形成信息。根据此实施方案，关于多个语音命令装置的方向性信息包括关于使用多个语音命令装置的组合麦克风捕获音频信号的方向性信息。

如上所述，娱乐系统的语音命令装置分布在声学空间内的各个空间位置上，声学空间可以是例如房屋中的一间房间或一系列房间。在没有限制的情况下，声学空间也可以由车辆(诸如汽车或卡车)的车厢构成。由于语音命令装置位于声学空间内的不同位置处，因此它们中的一些将位于用于捕获来自用户的话音信号的更好位置，例如通过更靠近用户的暂时位置而定位。而且，声学空间内的物体，诸如家具、壁或其它大型物体，可以部分地阻挡声波从说话者传播到特定语音命令装置。因此，可以选择仅语音命令装置的子组或甚至单个语音命令装置来捕获由用户发出的音频信号。此类选定的语音命令装置在本发明的术语中被称为活动语音命令装置或活动装置。

根据由SaaS提供商提供的方向性信息中包括的选择信息被选择为活动语音命令装置的语音命令装置继续监视话音信号的捕获到的音频信号，并且还可以被选择为用于由Saas提供商提供的音频服务的音频再现装置。根据选择信息而未被选择为活动语音命令装置的其它语音命令装置可以继续接收音频信号并检查话音信号的捕获到的音频信号，但是一般不用于对多个麦克风进行波束形成或参与以上提及的音频再现。在特定实施方案中，可以停用未被选择的语音命令装置以保存能量。

关于多个语音命令装置的方向性信息可以包括用于选择至少一个麦克风的麦克风选择信息。麦克风选择信息可以选择特定语音命令装置的多个麦克风中的至少一个麦克风或不同语音命令装置的一个或若干个麦克风。选择特定语音命令装置的麦克风可以具体地包括选择对应的语音命令装置作为活动语音命令装置。由于将麦克风选择信息提供到多个语音命令装置中的一个或若干个，因此由选定的麦克风形成的麦克风集合用于监视至少一个定位的说话者的言语，并且任选地，音频再现可以使用对应的语音命令装置的至少一个扬声器来执行。

可选地或另外地，关于多个语音命令装置的方向性信息可以包括关于至少两个麦克风的波束形成信息。至少两个麦克风可以属于特定语音命令装置的多个麦克风或属于不同的语音命令装置。基于由SaaS提供商向对应的语音命令装置提供的波束形成信息，在捕获来自至少一个说话者的音频信号时，可以执行至少两个麦克风的波束形成。根据多个语音命令装置的麦克风的空间布置，波束形成信息可以具体地包括用于二维波束操纵或三维波束操纵的至少一个操纵角。如果多个麦克风沿着360°语音命令装置的圆周布置，特别是沿着圆圈布置，那么可以包括用于二维波束操纵的单个操纵角。如果多个麦克风布置在半球形或球形表面上，那么可以包括用于三维波束操纵的两个操纵角。

多个麦克风的波束形成一般已知，因此为了清楚起见，这里省略对本领域已知的波束形成方法的详细描述。一般，波束形成是用于控制声学信号的接收或发射的方向性的信号处理技术，并且通常通过对完全地变换的信号的滤波步骤或处理步骤来实现。在当前情况下，可以使用至少两个麦克风的波束形成来使至少两个麦克风表现为单向麦克风并将声学波束朝向说话者操纵，以便最大化在扬声器的方向上的接收并且减弱来自任何其它方向的不需要的声音。即使每个语音命令装置仅具有单个麦克风，波束形成也可以应用于单个语音命令装置的多个麦克风和/或多个语音命令装置的麦克风集合。举例来说，可以对由至少两个麦克风捕获的音频信号应用时间延迟补偿，以补偿从话音信号的源(即，说话者)到相应的麦克风的不同传输时间。此外，滤波技术(如回声补偿和噪声补偿)可以应用于处理过的音频信号，以从处理过的信号中去除话音信号的不需要的反射以及噪声。通过将不同的权重和/或相移应用到由单独麦克风捕获的音频信号，可以将声学子空间或最佳听音点限定为声室内的有限空间，由于单独麦克风信号的相长干涉，优选地从声室接收音频信号，而来自声学子空间外的音频信号至少部分地被消除或滤除。因此，由定位的说话者发出的语音命令可以以显著提高的信噪比由至少两个麦克风捕获。

波束形成，即，对应的处理可以基于从SaaS提供商接收的方向性信息而部分地应用在活动语音命令装置侧处(即，通过使用它们的处理器单元)，例如，通过将相应的时间延迟、权重和/或相移应用到由一些或所有麦克风捕获的音频信号并将预处理的音频信号传输到SaaS提供商。接着，可以将需要由至少两个麦克风捕获的所有音频信号的波束形成步骤应用于在SaaS提供商侧处接收到的预处理的音频信号。具体地，可以使用从SaaS提供商接收的方向性信息在语音命令装置侧执行活动语音命令装置的多个麦克风中的两个或更多个麦克风的波束操纵。因此，可以减少传输到SaaS提供商的数据量，并且可以提高检测到的话音信号的质量，使得在SaaS提供商侧处执行的语音识别变得更成功。

包括选择信息、麦克风选择信息和/或波束形成信息的方向性信息由SaaS提供商基于关于从至少一个语音命令装置接收的一个或多个麦克风的方向性信息来确定。具体地，关于多个语音命令装置的方向性信息由SaaS提供商基于从娱乐系统的若干、特别是所有的语音命令装置接收的一个或多个麦克风的方向性信息而确定。

在另一实施方案中，关于一个或多个麦克风的方向性信息可以包括由处理器单元关于一个或多个麦克风中的每一个和/或关于多个麦克风(如果存在于语音命令装置中的话)的多个不同波束形成方向而计算的所述话音信号的信噪比(SNR)。根据此实施方案，由语音命令装置传输的方向性信息包括关于由语音命令装置基于由一个或多个麦克风捕获的音频信号而计算的检测到的话音信号的至少一个源的位置的信息。

方向性信息可以具体地包括关于捕获到的音频信号中的每一个的话音信号的信噪比。低于预定阈值的信噪比可以被传输到SaaS提供商或从方向性信息中省略。信噪比可以由语音命令装置的处理器单元根据本领域已知的任何方法来计算。

可以关于单个麦克风信号(即，仅由单个麦克风捕获的音频信号)来计算信噪比。因此，特别是在不对捕获到的音频信号应用波束形成的情况下执行信噪比的计算。然而，可以在从捕获到的音频信号中消除由至少一个扬声器输出的音频信号之后才执行计算。

可选地或另外地，可以由处理器单元关于多个麦克风(如果语音命令装置中存在)的多个不同波束形成方向而计算关于话音信号的单独的信噪比。在这种情况下，处理器单元根据多个麦克风的空间布置来相对于多个不同波束形成方向(二维或三维)对捕获到的音频信号执行波束形成。不同波束形成方向可以等距地分布在圆圈的某个片段或感兴趣的球体的某个片段或完整的圆圈或完整的球体上。可以基于语音命令装置、特别是其麦克风相对于可能存在人类的空间区域的相对布置而在语音命令装置中预限定感兴趣的片段。用于计算信噪比的波束形成方向的数量和/或分布可以是预定的，其由语音命令装置根据计算的结果来自适应地确定，或由SaaS提供商确定并传输到语音命令装置。

对于波束形成方向中的每一个，信噪比由语音命令装置计算并经由收发器报将其连同识别波束形成方向的信息(诸如对应的波束形成角度)一起报告给SaaS提供商。

根据从娱乐系统的语音命令装置接收的所传输的信噪比，即，关于一个或多个麦克风和/或多个不同波束形成方向，SaaS提供商可以确定用于选择活动语音命令装置的上述选择信息、用于选择麦克风的麦克风选择信息和/或关于至少两个麦克风的波束形成信息。详细地，SaaS提供商可以选择具有高于第二预定阈值的信噪比的那些语音命令装置作为活动语音命令装置。此选择可以例如基于相对于多个不同波束形成方向的信噪比。或者，可以选择具有信噪比超过第二阈值的至少一个麦克风的语音命令装置作为活动语音命令装置。可以在麦克风选择信息中选择活动语音命令装置的麦克风，其信噪比超过第三阈值。第三阈值可以与第二阈值相同。或者，可以为每个活动语音命令装置的一个或多个麦克风选择最佳波束形成方向，其中SaaS提供商可以基于与关于来自多个语音命令装置的一个或多个麦克风的方向性信息一起提供的最佳波束形成方向而针对关于多个语音命令装置的方向性信息来计算关于至少两个麦克风的波束形成信息。。

为了计算信噪比，可以首先将捕获到的且可能进行波束形成的音频信号提交给高通滤波器，以阻挡典型地在一面上被噪声严重地覆盖的信号部分，并且不包含所期望的话音信号的部分。可选地，可以应用低通滤波器来阻挡在典型的话音频谱之外的信号部分。接着，可以使用非线性平滑滤波器来估计背景噪声。基于处理过的音频信号和所估计的背景噪声信号，可以计算信噪比，其可以与预定的信噪比阈值进行比较。此比较可以由语音命令装置或SaaS提供商执行。通过将对应的权重和/或相移应用于多个麦克风的捕获到的音频信号，可以计算对应地波束形成的信号相对于多个波束形成方向的信噪比。在一个实施方案中，计算被变换成谱域，其允许应用更高的信噪比阈值，因为可以在某些区间中找到远远超过背景噪声水平的单独的共振峰。

上述方法可以扩展到检测来自两个或更多个空间上分开的说话者的话音信号。在这种情况下，SaaS提供商可以选择单独的麦克风或麦克风组，甚至单独的语音命令装置或语音命令装置组，以使得能够通过活动语音命令装置最佳地捕获来自两个或更多个说话者的话音信号。而且，至少两个麦克风可以根据两个或更多个说话者的位置经历波束形成。一般，具有若干个麦克风的语音命令装置将包括足够数量的麦克风，以允许在至少两个扬声器的方向上对多个麦克风进行波束形成。可以相应地扩展关于一个或多个麦克风的方向性信息和关于多个语音命令装置的方向性信息。

在另一个实施方案中，关于一个或多个麦克风的方向性信息可以包括由处理器单元基于捕获到的音频信号而估计的到达方向(DOA)信息。根据此实施方案，具有多个麦克风的语音命令装置的处理器单元被配置为在确定到达方向方面执行检测到的话音信号的源的定位。

例如，可以通过分析构成语音命令装置的多个麦克风的麦克风的时间采样信号或其傅里叶变换来确定话音信号的源的位置。接着，根据单独的捕获到的音频信号之间的延迟来计算话音信号的到达方向(DOA)角。可以通过不同的麦克风信号的互相关来计算这种延迟。或者，源所位于的方向可以通过除源定位之外的其它手段来确定，例如，基于特定声学空间的预定扫描角度。例如，可以由处理器单元相对于话音信号的信噪比来分析上述多个不同波束形成方向，并且可以将具有最高信噪比的波束形成方向确定为到达方向。

根据本实施方案，具有检测话音信号的多个麦克风的每个语音命令装置经由网络将计算出的到达方向信息传输到SaaS提供商。根据所传输的DOA信息，SaaS提供商可以例如通过确定DOA波束之间的交叉点来确定扬声器的位置，即所谓的最佳听音点。如果提供多于两个DOA波束，那么在确定DOA波束的交叉点时，可以将检测到的话音信号的信噪比作为权重来应用，并且可以将最佳听音点确定为所得的交叉点的几何中心。

报告关于话音信号的源的DOA信息的每个语音命令装置可以由SaaS提供商确定为活动语音命令装置。此外，可以由SaaS提供商基于所报告的DOA信息和计算出的最佳听音点而计算关于活动语音命令装置的麦克风的波束形成信息，并且作为关于多个语音命令装置的方向性信息的一部分而报告回活动语音命令装置。

在另一个实施方案中，关于一个或多个麦克风的方向性信息可以包括捕获到的音频信号，一般是在预处理(诸如采样、转换成数字信号和任选地滤波、平滑和/或噪声消除)之后，其中关于多个语音命令装置的方向性信息包括由SaaS提供商基于来自至少两个语音命令装置的捕获到的音频信号而计算的DOA信息。

在该实施方案中，SaaS提供商执行相对于具有多个麦克风的对应的语音命令装置的多个麦克风和/或相对于传输捕获到的音频信号的那些语音命令装置的麦克风的集合的DOA波束的上述确定。因此，该方法也适用于仅具有单个麦克风的语音命令装置，因为SaaS提供商可以相对于多个语音命令装置来确定DOA波束。如在先前的实施方案中那样，该过程可以考虑在设置过程中或在初始校准过程期间提供给SaaS提供商的关于语音命令装置的相对位置的空间信息，以确定扬声器相对于语音命令装置的最佳听音点。由SaaS提供商返回的方向性信息可以包括关于至少两个语音命令装置的麦克风的DOA信息。接收到的方向性信息可以由至少两个语音命令装置使用来在由DOA信息指示的方向上操纵麦克风波束和/或在最佳听音点的位置处以最佳声场来执行音频再现。

在SaaS提供商侧处处理捕获到的音频信号增加网络流量，但是减少语音命令装置上的计算负荷，使得可以使用简化版本的语音命令装置。

在另一个实施方案中，语音命令装置还可以被配置为：从SaaS提供商接收包括至少一个音频信号的音频服务；以及基于关于多个语音命令装置的接收到的方向性信息而经由至少一个扬声器输出音频信号。

根据本发明，每个语音命令装置包括至少一个扬声器。至少一个扬声器可以是本领域已知的任何扬声器。具体地，音频信号可以经由包括多个全频扬声器和至少一个重低频扬声器或低频扬声器的扬声器系统输出。扬声器系统还可以适应于提供立体声、环绕声、虚拟环绕声或高保真度立体声响复制声，如以下进一步描述的。具体地，多个扬声器可以沿着语音命令装置的圆周、特别是圆圈布置，或者分布在作为语音命令装置的一部分的半球或球体上。关于音频再现，语音命令装置可以具体地形成为360°装置，其允许在水平平面中的所有方向上发射声波。

这里和下文中，假设在一个或多个麦克风的位置与每个语音命令装置的至少一个扬声器之间存在固定的空间关系，并且此空间关系是相应的语音命令装置已知的和/或传输到SaaS提供商。因此，相应的语音命令装置的处理器单元可以使用已知的空间关系来基于关于多个语音命令装置的接收到的方向性信息而执行从SaaS提供商接收的音频信号的音频再现。

在一个特定实施方案中，在由SaaS提供商提供的方向性信息中仅被选择为活动装置的语音命令装置可以执行音频再现。因此，在本实施方案中，没有选择离收听者(其在本发明中与说话者相同，或其输出被大型物体或壁屏蔽)太远的语音命令装置来用于音频再现以保存能量并且不打扰其它区域或房间的居住者。在替代实施方案中，还可以选择未被选择为活动装置的语音命令装置来用于音频再现。这可以由SaaS提供商基于语音命令装置相对于话音信号的检测到的源的相对空间布置来完成。因此，即使是未被选择作用于捕获话音信号的活动语音命令装置的语音命令装置仍然可以用于音频再现，例如，如果它们被SaaS提供商识别为合适地定位的，那么播放侧通道信号。基于说话者/收听者的检测到的位置，如果由这些语音命令装置输出的声音可以直接地或间接地到达收听者的耳朵，那么SaaS提供商可以例如选择另外的语音命令装置用于音频再现。当选择附加的语音命令装置用于音频输出的时，SaaS提供商还可以考虑到房间几何形状，并且还通过明确地不基于相对于这些附加的人的位置而选择特定语音命令装置来为两个或更多个检测到的人形成分开的音频区域以免打扰他们。为了在检测到的说话者的位置处形成具有所期望的声音质量的声区，还可以由SaaS提供商将关于多个语音命令装置的方向性信息发送到这些附加语音命令装置或所有多个语音命令装置。这种方向性信息可以包括关于音频再现的选择信息。

由活动语音命令装置输出的音频信号和被选择用于音频再现的可能附加的语音命令装置可以是与SaaS提供商提供的音频服务有关的任何音频信号。在下文中，描述经由活动语音命令装置的音频再现。然而，应理解，所述的方法可以容易地扩展到由SaaS提供商选择的附加的语音命令装置以用于如上所述的音频再现。具体地，音频信号可以是表示与一段音乐、有声读物、视频的音频数据、数字广播、播客、电话连接或可以由SaaS提供商提供的任何种类的基于音频的服务相关的音频数据的单通道或多通道音频信号。传输到活动语音命令装置的音频信号可以包括用于每个活动语音命令装置和/或活动语音命令装置的每个扬声器的专用音频信号。另外，如果至少一个语音命令装置连接到一个或多个外部扬声器，诸如电视机的扬声器，那么传输到此语音命令装置的音频信号还可以包括专用于外部扬声器的音频信号。在这种情况下，配置信息(诸如外部扬声器相对于语音命令装置的相对空间信息)可以由语音命令装置存储并且经由网络传输到SaaS提供商。

在一个特定实施方案中，输出音频信号包括基于接收到的方向性信息对音频信号进行波束形成。基于关于多个语音命令装置的接收到的方向性信息，一个或若干个语音命令装置可以基于接收到的音频服务而生成由至少一个扬声器输出的专用音频信号。举例来说，方向性信息可以包括相移信息和/或权重以将应用于从SaaS提供商接收的用于活动语音命令装置的至少一个扬声器中的每一个的音频信号。如果活动语音命令装置包括多个扬声器，特别是以360°扬声器阵列的形式，那么可以执行在说话者的位置的方向上的输出的波束操纵。在由SaaS提供商提供关于多个语音命令装置的方向性信息时，可以向这些语音命令装置提供用于多个语音命令装置的扬声器的相移信息和/或权重以输出对应地修改的音频信号，使得来自语音命令装置的所得的音频信号被操纵到收听者的最佳听音点。换句话说，从SaaS提供商传输到至少两个活动语音命令装置的方向性信息可以用于在收听者的位置处产生最佳声场，例如通过由至少两个活动语音命令装置的扬声器输出的音频信号的正干扰。

此外，从SaaS提供商接收的方向性信息可以包括到达方向信息，其可以由具有扬声器阵列的活动语音命令装置使用以在定位的收听者的方向上执行波束操纵。

活动语音命令装置的处理器单元可以具体地使用一个或多个麦克风的位置与至少一个扬声器的位置之间的空间关系将关于至少两个麦克风的波束形成信息变换为关于至少一个扬声器的对应的波束形成信息。此变换也可以由SaaS提供商执行，特别是对于将两个或更多个语音命令装置用于音频再现的情况，并且关于用于音频再现的扬声器的对应的波束形成信息可以由SaaS传输到活动语音命令装置作为关于多个语音命令装置的方向性信息的一部分。

作为在活动语音命令装置侧处执行音频输出的波束操纵处理的替代方案，关于多个语音命令装置的方向性信息也可以编码在由SaaS提供商传输到活动语音命令装置的音频信号中以对输出音频信号执行波束形成。换句话说，由SaaS提供商提供的音频服务已经包括用于活动语音命令装置的扬声器的专用音频信号，其中这些专用音频信号已经由SaaS提供商在将相应的相移和/权重应用于音频信号方面进行预处理，使得由活动语音命令装置的扬声器输出接收到的音频信号通过波束形成在收听者的位置处产生所期望的声场。在提供到活动语音命令装置的音频信号中编码方向性信息自动地对输出音频信号执行波束形成。由于SaaS提供商拥有所有必需信息，即，关于活动语音命令装置的一个或多个麦克风的方向性信息集合，并且如果必需，关于一个或多个麦克风相对于至少一个扬声器和/或多个语音命令装置相对于房间几何结构的相对空间布置的信息在SaaS提供商侧处的音频再现期间产生用于波束形成的经修改的音频信号显著减少在语音命令装置侧处所需要的计算资源。

在另一个实施方案中，音频服务可以包括与多个语音命令装置中的不同的扬声器相关联的多个音频通道，以提供立体声、环绕声、虚拟环绕声或高保真度立体声响复制声。根据此实施方案，由不同的扬声器输出的声学数据可以在内容方面不同，使得通过由不同的扬声器输出的音频信号的叠加在收听者的位置处形成虚拟的分开的声源的印象。

在最简单的情况下，通过向至少两个空间上分开的扬声器提供左音频通道和右音频通道来产生立体声的效果。至少两个空间上分开的扬声器可以特别属于不同语音命令装置。如果声学空间中的这些语音命令装置的相对位置、特别是相对于收听者的相对位置是SaaS提供商已知的，例如，作为上述设置过程或校准过程的结果，SaaS提供商可以将左音频通道和右音频通道提供到活动语音命令装置的相应的扬声器，其中还可以使用上述波束形成来修改左音频通道和右音频通道，以在收听者的位置处产生最佳声场。此附加的修改还可以补偿房间中的活动语音命令装置的次优布置。另外，当在收听者的位置处产生用于实现最佳立体声印象的音频通道时，该修改可以考虑房间的几何形状，特别是房间的壁的反射。

根据语音命令装置被提供的扬声器的类型和数量，也可以实现更高阶的声音效果。举例来说，语音命令装置的至少一个扬声器可以包括低频扬声器、宽带扬声器、中频扬声器和/或所谓的高频扬声器。根据可用扬声器的数量及其相对于收听者(即，话音信号的检测到的源)的位置的空间布置，环绕声或虚拟环绕声可以通过提供多通道音频信号作为由SaaS提供商提供的音频服务的一部分在收听者的位置处生成。SaaS提供商可以将多个音频通道路由到活动语音命令装置的扬声器，其中SaaS提供商基于从多个语音命令装置接收的关于多个麦克风的方向性信息而识别多个语音命令装置的扬声器的最佳组合。

具体地，SaaS提供商可以被配置为根据5.1ITU(国际电信联盟)标准来识别至少6个扬声器以在最佳听音点处提供环绕声。然而，本发明不限于这种特定格式的环绕声，而是可以应用于本领域已知的任何环绕扬声器配置，例如7.1环绕扬声器配置。在识别出活动语音命令装置的合适的扬声器之后，SaaS提供商可以向识别的扬声器中的每一个传输单独的音频通道。如果在语音命令装置处使用多于一个扬声器，那么可以将多通道信号传输到语音命令装置。在大多数的情况下，当对传输到语音命令装置的音频通道进行编码时，由SaaS提供商将每个源通道映射到专用扬声器。语音命令装置可以包括矩阵单元，矩阵单元被配置为恢复在从SaaS提供商接收的多通道音频信号中编码的源通道的数量和内容，并且将它们应用于它们相应的扬声器。

如上所述，其它信息(诸如波束形成信息)可以由SaaS提供商编码在所传输的音频信号中，特别是如果多于一个扬声器可用于环绕声系统的至少一个通道。

SaaS提供商还可以将提供有音频服务的多个音频通道中的虚拟环绕声信息编码到活动语音命令装置。为了在收听者的位置处产生虚拟环绕声效果，可以由SaaS提供商考虑到头部相关的传递函数以生成音频通道，当由活动语音命令装置的扬声器输出时，音频通道使收听者感知声学空间中的虚拟源的声音。此外，SaaS提供商可以提供音频通道，以引导强烈的声音波束从房间的壁反射，使得收听者听到比直接地来自扬声器的声音更高水平的反射。在收听者的位置处的虚拟环绕声效果所需要的信息中的任一者，包括用于选择和控制活动语音命令装置的各个扬声器的控制信号，可以由SaaS提供商传输到活动语音命令装置，并且特别是编码在构成音频服务的音频通道中。语音命令装置可以包括对应的解码单元，其从接收到的音频服务提取控制信号，并且可以控制其扬声器输出对应的音频通道。

在一个特定实施方案中，音频服务可以包括与多个语音命令装置中的不同扬声器相关联的多个音频通道，以提供高保真度立体声响复制声。高保真度立体声响复制声效果是本领域熟知的，因此这里省略详细描述。一般，高保真度立体声响复制是指使用多通道混音技术的音频再现技术，该技术在录制高保真度立体声响复制声时重新形成存在于空间中的声场。与常规的环绕系统相比，如果收听者位于扬声器之间的非常窄的最佳听音点位置，那么仅产生声场的错觉，使用高保真度立体声响复制技术形成的声场可以填充更大的区域，有时甚至是整个声学空间。在4个或更多个扬声器布置在收听者周围的情况下，可以呈现三维声场。

举例来说，可以使用规则地分布在球体或半球上的4个或更多个低阶扬声器来形成三维高阶扬声器。利用语音命令装置的至少一个扬声器的球形或半球形分布，可以形成高保真度立体声响复制声场。而且，来自不同语音命令装置的扬声器可以用于形成高保真度立体声响复制声场。如果语音命令装置位于声学空间的地板上方的不同高度处，那么甚至每个语音命令装置的扬声器的二维布置也可用于形成高保真度立体声响复制声场。因此，可以使用根据本发明的具有扬声器阵列的二维布置的两个或更多个语音命令装置来生成三维波场。

为了在检测到的扬声器的位置处形成高保真度立体声响复制声场，SaaS提供商可以生成多通道音频信号，其中专用音频通道被提供给活动语音命令装置的选定的扬声器。在这种情况下，由SaaS提供商传输到活动语音命令装置的关于多个语音命令装置的方向性信息还可以包括用于选择活动语音命令装置的扬声器以进行专用音频通道输出的选择信息。SaaS提供器可以被配置为确定音频信号的语音命令装置的扬声器的子集，以基于从语音命令装置接收的关于一个或多个麦克风的方向性信息而将音频信号输出为高保真度立体声响复制声。具体地，当生成用于高保真度立体声响复制声场的音频通道时，可以由SaaS提供商来考虑到达方向信息和/或至少一个扬声器的检测位置。接着，音频通道可以由SaaS提供商作为单独音频通道或多通道信号传输，包括用于将每个音频通道映射到相应的活动扬声器的映射信息。因此，可以在至少一个扬声器的位置处准确地再现原始声场。

在一个特定实施方案中，一个或若干个活动语音命令装置可以充当高阶扬声器(HOL)，即，执行可自由地调整的基于扬声器的波束形成，接着，可以将其用作为在收听者的位置处使用例如高保真度立体声响复制形成所期望的声场的基础。在这种情况下，SaaS提供商可以基于关于多个语音命令装置的方向性信息而为充当HOL的语音命令装置生成对应的音频信号。由此，声场形成还可以包括自适应地修改所有参与的HOL，只要自适应地改变它们的波束(方向性模式)即可。

在另一个实施方案中，至少一个语音命令装置还可以包括跟踪单元，特别是雷达传感器和/或相机，其被配置为跟踪检测到的扬声器。单个语音命令装置的跟踪单元可以足以提供对检测到的扬声器的跟踪。或者，每个语音命令装置可以具有跟踪单元。而且，可以提供与语音命令装置分开的跟踪单元，例如作为监视系统的一部分，并且可以将跟踪单元连接到SaaS提供商。在这种情况下，由于扬声器的检测，来自单独跟踪单元的信号被提供到SaaS提供商。

跟踪单元可以接收从检测到的扬声器的雷达反射或捕获包括检测到的扬声器的图像。语音命令装置的控制单元可以用于确定检测到的扬声器的位置随时间的变化，并且对应地适应由语音命令装置发送到SaaS提供商的方向性信息。或者，可以将接收到的信号或捕获到的图像发送到SaaS提供商以由SaaS提供商的控制单元处理。接着，检测到的扬声器的位置的检测到的变化可以用于对应地更新关于多个语音命令装置的方向性信息。因此，可以始终相对于说话者/收听者的当前位置来执行波束形成。

本发明还包括一种操作娱乐系统的多个语音命令装置的方法，其中每个语音命令装置包括处理器单元、收发器、一个或多个麦克风和至少一个扬声器，并且其中所述方法包括：处理器单元，收发器，一个或多个麦克风和至少一个扬声器，并且其中该方法包括：由所述语音命令装置中的至少一者的所述一个或多个麦克风捕获音频信号，由所述语音命令装置中的所述至少一者的所述处理器单元分析所述捕获到的音频信号以检测话音信号，在检测到所述话音信号时，使用所述语音命令装置中的所述至少一者的所述收发器经由网络向软件即服务SaaS提供商传输关于所述语音命令装置中的所述至少一者的所述一个或多个麦克风的方向性信息，以及使用所述语音命令装置中的所述至少一者的所述收发器经由所述网络从所述SaaS提供商接收关于所述多个语音命令装置的方向性信息。

如以上关于具有多个语音命令装置的系统(即，娱乐系统)所述的等效修改和扩展也可以应用于用于操作多个语音命令装置的方法。SaaS提供商可以具体地是云服务提供商，并且语音命令装置的收发器可以被配置为经由网络(诸如互联网)与SaaS提供商交换数据。一个或多个麦克风中的每一个捕获音频信号，音频信号可以由语音命令装置本身和/或SaaS提供商进一步处理。捕获到的音频信号可以具体地经历如以上详细地描述的话音信号处理。

检测捕获到的音频信号中的话音信号可以包括在语音命令装置侧和/或SaaS提供商侧执行语音识别。而且，可以使用语音识别来检测至少两个不同的人类说话者的话音活动。检测至少两个不同的人类说话者的话音信号可以用于为语音命令装置的多个麦克风和/或扬声器执行关于至少两个不同的扬说话者的波束形成。检测话音信号还可以包括基于由至少一个扬声器从捕获到的音频信号输出的音频信号而减去信号，如上所述。

用于操作多个语音命令装置的方法还可以包括在检测话音信号之前的校准步骤，其涉及由语音命令装置的扬声器输出参考信号并用语音命令装置的麦克风捕获它们。校准步骤可以由SaaS提供商与语音命令装置交互来执行。校准步骤还可以包括用户输入关于语音命令装置的空间分布和/或声学空间(例如，语音命令装置所位于的房间)的几何形状的信息。可以将校准数据输入到一个或多个语音命令装置，并且由语音命令装置传输到SaaS提供商。

从可能预处理的麦克风信号中检测话音信号可以具体地包括将话音信号的信噪比与预定阈值进行比较，并且如果信噪比大于预定阈值，那么确定检测到话音信号，如上所述。

检测话音信号(例如作为将话音信号的信噪比与预定的第一阈值进行比较的肯定结果)触发一方面的一个或若干个语音命令装置与另一方面的SaaS提供商之间的方向性信息的交换，如上所述。关于多个语音命令装置的方向性信息的相同变型和关于娱乐系统的一个或多个上述麦克风的方向性信息也可以应用于用于操作娱乐系统的方法。

该方法因此还可以具体地包括：由SaaS提供商基于关于一个或多个麦克风的所传输的方向性信息而选择多个语音命令装置中的至少一者作为活动语音命令装置，并且在关于多个语音命令装置的方向性信息中包括对应的选择信息，如上所述。因此，可以由SaaS提供商来选择语音命令装置的子组或甚至单个语音命令装置以捕获音频信号。此类选定的语音命令装置被称为活动语音命令装置。根据由SaaS提供商提供的方向性信息中包括的选择信息的活动语音命令装置可以继续监视来自说话者的检测到的位置的话音信号的捕获到的音频信号，并且还可以自动地被选择为用于由SaaS提供商提供的音频服务的音频再现装置。

可选地或另外地，所有语音命令装置(无论是否被选择为活动装置)都可以继续来一般地捕获音频信号并且分析它们以检测来自居于例如不同的房间中或居于相同的房间中但在房间的不同角落的第二个人或一般是其它人的话音信号。在这种情况下，活动语音命令装置的特征为经由麦克风和/或扬声器参与相对于测到的扬声器位置的波束形成过程。另外，可以使用多于一个语音命令装置来形成(周围)声场，而同时在相同情况下仅一个活动语音命令装置就足够了。

房间中的人的当前位置仍是有效信息，例如是动态地修改波束形成器的操纵角以拾取话音信号和/或动态地改变所期望的波场以使得其随移动的人一起移动需要的。对于此类型的特征，可以使用包括在一个或若干个语音命令装置中的一种跟踪装置，如上所述，使得跟踪，尤其是在动态地改变/跟踪声场方面，可以独立于该人是否谈话而工作。这种跟踪功能可以用包括在每个语音命令装置中的雷达传感器、相机或通过利用安装的麦克风和扬声器(高频扬声器)结合声学回声消除信号处理块来实现。由此，可以将扬声器的位置的变化变换成动态地变化的房间脉冲器(RIR)，语音命令装置本身和/或SaaS提供商可以从中产生人员的定位信息。如果检测到的扬声器的位置基于跟踪功能而改变超过特定余量，那么可以基于扬声器的新位置来适应对活动语音命令装置的选择。因此，该方法还可以包括使用至少一个语音命令装置的跟踪单元来跟踪检测到的扬声器，跟踪单元特别是雷达传感器和/或相机。

该方法还可以包括由SaaS提供商基于关于一个或多个麦克风的所传输的方向性信息而选择多个语音命令装置的至少一个麦克风作为活动麦克风，并且在关于多个语音命令装置的所述方向性信息中包括对应的麦克风选择信息，如上所述。活动麦克风继续监视话音信号的捕获到的音频信号。另外，选择特定语音命令装置的麦克风可以具体地包括选择对应的语音命令装置作为活动语音命令装置。由选定的麦克风形成的麦克风集合用于监视至少一个定位的说话者的话语，并且任选地，可以使用对应的语音命令装置的至少一个扬声器来执行音频再现。

该方法还可以包括由SaaS提供商基于关于一个或多个麦克风的所传输的方向性信息而确定关于多个语音命令装置的至少两个麦克风的波束形成信息，如上所述。该方法接着还可以包括在如上所述捕获音频信号时执行至少两个麦克风的波束形成，其中可以基于从SaaS提供商接收的方向性信息而在活动语音命令装置侧部分地应用对应的处理。剩余波束形成步骤可以在SaaS提供商侧处执行。

关于多个语音命令装置的方向性信息具体地可以由SaaS提供商基于从娱乐系统的若干、特别是所有的语音命令装置接收的一个或多个麦克风的方向性信息而确定。

该方法还可以包括由语音命令装置中的至少一者的处理器单元关于麦克风中的每一个和/或关于对应的语音命令装置的多个麦克风的多个不同波束形成方向来计算话音信号的信噪比，并且在关于一个或多个麦克风的方向性信息中包括计算出的SNR，其由对应的语音命令装置传输到SaaS提供商。在这种情况下，可以应用与以上关于娱乐系统所述的相同变型。用于计算信噪比的波束形成方向的数量和/或分布可以具体地是预定的，其由语音命令装置根据计算的结果来自适应地确定，或由SaaS提供商确定并传输到语音命令装置。根据从娱乐系统的语音命令装置接收的所传输的信噪比，SaaS提供商可以确定用于选择活动语音命令装置的上述选择信息、麦克风选择信息和/或关于至少两个麦克风的波束形成信息，如以上关于娱乐系统所述的。

或者，该方法可以包括由语音命令装置中的至少一者的处理器单元基于捕获到的音频信号而估计话音信号的到达方向，并且在关于一个或多个麦克风的方向性信息中包括所估计的DOA信息，如以上使用已知的源定位方法所述的。SaaS提供商可以基于所报告的DOA信息而计算关于活动语音命令装置的麦克风的波束形成信息，并且将此信息作为关于多个语音命令装置的方向性信息的一部分报告回活动语音命令装置。

或者，该方法可以包括：在关于一个或多个麦克风的方向性信息中包括捕获到的音频信号，并且由SaaS提供商基于来自至少两个语音命令装置的捕获到的音频信号而计算DOA信息，如上所述。计算出的DOA信息可以由SaaS提供商作为关于多个语音命令装置的方向性信息的一部分而返回，并且接收到的方向性信息可以由至少两个语音命令装置使用来在由DOA信息指示的方向上操纵麦克风波束和/或在最佳听音点的位置处以最佳声场来执行音频再现。

该方法还可以包括：从SaaS提供商接收包括至少一个音频信号的音频服务；以及基于关于多个语音命令装置的接收到的方向性信息而经由至少一个语音命令装置的至少一个扬声器输出音频信号。至少一个语音命令装置可以具体地是活动语音命令装置。同样，如以上关于娱乐系统所述的相同的修改和扩展可以应用于本实施方案。音频信号可以是如上所述的单通道或多通道音频信号。所传输的音频信号可以具体地包括用于每个活动语音命令装置和/或活动语音命令装置的每个扬声器的专用音频信号或音频通道。

该方法可以具体地包括：由至少一个语音命令装置的处理器单元基于接收到的方向性信息而对接收到的音频信号执行波束形成；或者由SaaS提供商对音频信号中的关于多个语音命令装置的方向性信息进行编码，使得输出的音频信号形成波束。具体地，仅活动语音命令装置才可以用于音频再现。而且，如上所述，附加的语音命令装置可以用于音频再现。活动语音命令装置可以对接收到的音频信号本身执行波束形成，或仅输出已经预处理的音频信号，使得活动语音命令装置集合通过在说话者的方向上形成波束来在说话者的位置处生成所期望的声场，如上所述。

该方法还可以包括由SaaS提供商生成和传输与至少一个语音命令装置的不同的扬声器相关联的多个音频通道以提供立体声、环绕声、虚拟环绕声或高保真度立体声响复制声，如以上关于娱乐系统所述。用于形成所期望的声场的扬声器可以具体地属于不同的语音命令装置。SaaS提供商可以例如向活动语音命令装置的相应的扬声器提供左音频通道和右音频通道，其中还可以使用上述波束形成来修改音频通道以在收听者的位置处生成最佳声场。SaaS提供商可以将多个音频通道路由到活动语音命令装置的扬声器，其中SaaS提供商基于从多个语音命令装置接收的关于多个麦克风的方向性信息而识别多个语音命令装置的扬声器的最佳组合。在识别出活动语音命令装置的合适的扬声器之后，SaaS提供商可以向识别的扬声器中的每一个传输单独的音频通道。

SaaS提供商还可以将提供有音频服务的多个音频通道中的虚拟环绕声信息编码到活动语音命令装置，如上所述。此外，SaaS提供商可以确定语音命令装置、特别是活动语音命令装置的扬声器的子集，以基于从语音命令装置接收的关于一个或多个麦克风的方向性信息而将音频信号输出为高保真度立体声响复制声。接着，SaaS提供商可以生成用于高保真度立体声响复制声场的音频通道，特别是考虑到达方向信息和/或至少一个扬声器的检测到的位置。接着，音频通道可以由SaaS提供商作为单独音频通道或多通道信号传输，包括用于将每个音频通道映射到相应的活动扬声器的映射信息。

本发明还包括一种非暂时性计算机可读介质，所述非暂时性计算机可读介质具有指令，所述指令在由处理器执行时致使所述处理器执行根据上述实施方案中任一者的方法。具体地，可以为每个语音命令装置和SaaS提供商提供单独非暂时性计算机可读介质，其中存储在语音命令装置或SaaS提供商上执行对应的方法步骤所需要的指令。或者，可以提供可由语音命令装置和SaaS提供商中的每一个访问的专用计算机可读介质，特别是作为SaaS提供商提供的服务的一部分，其中用于在语音命令装置侧处执行方法步骤的必要指令由语音命令装置经由网络从SaaS提供商下载。如以上关于娱乐系统所述的相同的修改和扩展也可以应用于根据本实施方案的非暂时性计算机可读介质。

用于控制处理器以执行如上所述的方法的指令或软件可以被编写为计算机程序、代码片段、指令或其任何组合，以用于单独地或共同地指示或配置处理器来作为机器或专用计算机操作以执行如上所述的方法的操作。在一个示例中，指令或软件可以包括直接地由处理器执行的机器代码，诸如由编译器产生的机器代码。在另一示例中，指令或软件可以包括由处理器使用解释器执行的更高级代码。本领域的普通技术人员中的编程人员可以基于本文提供的方法的描述而容易地编写指令或软件。

所述的本发明的方法和系统允许在捕获话音信号以及相对于说话者的音频再现方面自动地选择最适合的语音命令装置。在SaaS提供商从单独语音命令装置收集用于此选择的所有必要信息时，可以执行有效且优化的选择过程，特别是使用通常由SaaS提供商提供的扩展的计算资源。由于大多数的处理由SaaS提供商处理，因此可以在计算能力方面简化语音命令装置，使得可以促进本发明的娱乐系统的发布。

将从若干语音命令装置收集的关于扬声器的位置的信息组合允许在扬声器的位置方向上对若干语音命令装置的麦克风进行高度准确且实时的波束形成，并且同时允许通过多个语音命令装置提供高质量音频再现。这里，考虑到语音命令装置的相对空间位置和扬声器的位置，可以在SaaS提供商侧生成用于对输出音频信号进行波束形成所必需的音频信号和/或用于高阶声场所必需的音频通道。

附图说明

将参考附图详细地说明本发明的其它特征和示例性实施方案以及优点。将理解，本发明不应被解释为受以下实施方案的描述的限制。还应理解，下文中描述的特征的一些或全部也可以以替代方式进行组合。

图1示出了与云服务提供商交互的根据本发明的示例性娱乐系统。

图2示出了根据本发明的语音命令装置的示意图。

图3示出了具有圆柱形形状的根据本发明的语音命令装置。

图4示出了呈半球的形式的根据本发明的语音命令装置。

图5示出了根据本发明的球形语音命令装置。

图6示出了在用户的家中根据本发明的娱乐系统的示例性安装的示意图。

图7示出了根据现有技术的用于音频再现的示例性波束形成器的示意图。

图8示出了根据本发明的操作娱乐系统的方法的示例性过程流程。

图9示出了根据本发明的使用娱乐系统进行音频再现的示例性过程流程。

图10示出了根据现有技术的用于麦克风波束形成的示例性波束形成器的示意图。

具体实施方式

图1示出了与云服务提供商或SaaS提供商交互的根据本发明的示例性娱乐系统。该示意图示出了包括三个语音命令装置101至103的娱乐系统100的说明性示例。语音命令装置101至103布置在声学空间(未示出)的不同空间位置中，诸如图6中所示的房间序列。语音命令装置的数量以及它们与也存在于声学空间内的用户110的空间关系仅被选择用于说明目的，并不限制本公开的范围。此外，在声学空间内可能存在多于一个用户。

图1中所示的用户110表示人类说话者和收听者。用户110与语音命令装置101至103、更特别是语音命令装置的麦克风和扬声器之间的声学路径由虚线101a至103a指示，表示由用户110发出的话音信号或由语音命令装置的扬声器输出的音频信号的声波沿着该声学路径行进。因此，虚线还表示到达方向信息，因为它可以由单独语音命令装置基于由用户110发出的话音信号而检测。如以上详细地描述的，语音命令装置101至103中的每一个被配置为使用一个或多个麦克风来捕获声学空间内的音频信号，并且提供用于再现由SaaS提供商提供的音频服务的音频再现能力。

为此，语音命令装置101至103中的每一个连接到远程装置120，远程装置120可以是网关、归属代理、安装在家庭网络中的路由器或用于连接局域网的任何其它装置，诸如通向互联网130的家庭网络，如实线101b至103b指示。语音命令装置与远程装置120之间的连接可以是无线的，例如，使用对应的无线收发器，诸如WiFi或蓝牙，或者可以是经由电缆的，诸如以太网、USB连接、HDMI连接或本领域已知的任何其它有线连接。在两种情况下，语音命令装置101至103和远程装置120可以包括对应的网络能力，即收发器、编码器/解码器、加密单元或本领域已知的任何其它网络单元。作为对使用远程装置120作为网关的替代，语音命令装置101至103中的每一个还可以配备有用于直接地连接到互联网130的收发器，例如配备有用于直接地连接到移动通信网络的收发器。

语音命令装置101至103经由远程装置120或直接地通过互联网130与SaaS提供商或云服务装置140交换数据和控制信号。图1中的示意图示出了根据本领域已知的任何连接模型连接到互联网130的单个SaaS提供商140，特别是在它们用于云时。然而，本发明不限于这样的配置，而是可以将任意数量的SaaS提供商连接到互联网130并将其配置为与家庭娱乐系统100交换数据和控制信号。此外，语音命令装置101至103可以提供在汽车环境中，例如车辆的车厢，而不是用户的家中。

SaaS提供商140可以被配置为向家庭娱乐系统100提供音频服务，诸如音乐、有声读物、电话连接、视频的音频轨道、音频内容的数字广播或任何其它音频服务的回放。音频服务可以具体地包括应付音频服务，其中可以根据本领域已知的任何协议来协商SaaS提供商对家庭娱乐系统100的认证。另外，家庭娱乐系统100和SaaS提供商140之间的数据交换可以被加密以实现安全性和隐私性。加密可以由语音命令装置和/或远程装置120执行。

根据图1中所示的说明性示例，互联网130可以连接到主要服务提供商140，主要服务提供商140又耦合到一个或多个次要服务提供商141、142和143。在次要服务提供商中，一些服务提供商141和143可以主要用作数据库，特别是用于音频内容的数据库，而其它服务提供商140和142可以提供用于处理从互联网130接收的数据的计算资源。根据本发明，SaaS提供商140可以具体地处理从娱乐系统100的多个语音命令装置接收的方向性信息和/或捕获到的音频信号，以确定关于如上所述的多个语音命令装置的方向性信息和/或提供在至少一个说话者110的位置处具有优化的声场的音频服务。另外，云服务提供商140和142还可以提供数据库，特别是关于由这些提供商提供的音频服务。云服务提供商(即，SaaS提供商)的结构和功能在本领域中是熟知的，使得为了清楚起见，这里省略详细描述。

根据本发明，SaaS提供商与娱乐系统100交互，更具体地与多个语音命令装置101至103交互，以优化对由用户110发出的话音信号的捕获，特别是通过语音命令装置101至103的麦克风在说话者110的方向上的共同波束操纵进行。SaaS提供商基于由用户110发出的话音而与语音命令装置协作来定位说话者110。基于说话者的检测到的位置，SaaS提供商140还可以生成或修改传输到娱乐系统100的音频信号作为所请求的音频服务的一部分，使得由多个语音命令装置的扬声器发射的音频信号在收听者110的位置处形成高质量声场。

如本领域已知的，每个语音命令装置101至103可以被配置为由用户110说出的关键字词或关键短语激活，诸如“Alexa”。因此，语音命令装置可以一直监视声学空间以获得话音信号。由于检测到的关键字词或关键短语，每个语音命令装置可以分析检测到的话音信号或将话音信号传输到SaaS提供商140以进行分析。在替代配置中，语音命令装置101至103可以被配置为在不分析话音信号的情况下将任何检测到的话音信号直接地传输到SaaS提供商140。对由关键字词或关键短语触发的话音信号的分析可以产生对音频服务的请求，诸如“Alexa，播放音乐”。可以通过附加的话音来提供实现所请求的音频服务所必需的另外细节，特别是响应于由SaaS提供商140传输到娱乐系统100的对应问题。

语音命令装置250的示例性实施方案在图2中示出。根据图2中所示的非限制性示例，语音命令装置250可以具有圆形横截面，例如通过具有圆柱形外壁256。沿着壁256的圆周，布置多个麦克风252a至252d以捕获语音命令装置250所位于的声学空间中存在的音频信号。而且，多个扬声器251a至251d沿着壁256的圆周布置。在图2的示例中，麦克风和扬声器沿着圆周交替地布置。然而，本发明不限于麦克风和扬声器的任何特定布置，只要每个语音命令装置具有多个麦克风和至少一个扬声器。

举例来说，扬声器351a至315c可以围绕语音命令装置350的圆柱形壁356的圆周布置在麦克风352a-c下方，如图3中的侧视图所示。而且，麦克风和扬声器的数量可以变化，并且可以特别是不同的。用于语音命令装置的麦克风和扬声器的大量替代布置包括在本公开中。语音命令装置250和350被提供为相对于麦克风和扬声器的360°装置。这意味着，麦克风和扬声器的方位角范围分别覆盖整个圆圈。也可以采用其它布置，即，仅覆盖圆圈的区段，特别是如果对应的语音命令装置应靠置于房间的壁或角落。理想地，声学空间内的多个语音命令装置的布置使得可以通过来自至少两个语音命令装置的声波到达说话者/收听者的任何可能位置。然而，本公开不限于这种情况。

如图2示意性地所示，麦克风252a至252d中的每一个和扬声器251a至251d中的每一个连接到处理器单元255。如以上详细地描述的，此处理器单元可以是CPU或GPU和/或可以包括专用数字信号处理器。或者，如图2所示，可以单独地提供用于处理捕获到的音频信号以及作为由SaaS提供商提供的音频服务的一部分的接收到的音频信号的DSP 254。已知用于语音命令装置(诸如Amazon的Echo)的大量附加的单元可以是本发明的语音命令装置的一部分。在这些中，可以提及附加的处理器单元、易失性和非易失性存储器单元、存储单元、FFT/IFFT单元、矩阵变换单元、放大器，A/D和D/A转换器等。

图2中的示例性实施方案还示出了用于与远程装置120和/或移动通信网络通信的无线收发器253。由于收发器(无论无线还是有线)是本领域中熟知的，因此这里省略详细描述。如上所述，麦克风252a至252d可以是全向麦克风或定向麦克风，并且扬声器251a至251d可以是任何已知的扬声器，诸如宽带、中频、高频扬声器、低频扬声器、重低频扬声器等。扬声器阵列251a至251d还可以包括特定类型的扬声器的子组，其本身可以沿着装置壳体256的圆周布置。

语音命令装置450的形状因子的另一变型在图4中以侧视图示出。这里实施方案中，扬声器阵列451a至451d安装在语音命令装置450的刚性半球456的表面中或其上。扬声器可以规则地或准规则地分布在半球456的表面上。半球456具有圆顶形表面，并且另一部分具有平面表面。扬声器阵列安装在圆顶形表面中或其上，其中扬声器451a至451c可以靠近平面表面布置，并且扬声器451d可以布置在距平面表面最远的位置，例如，在半球456的极点处。语音命令装置450可以搁置在房间的地板上或以其平面表面安装到房间或车辆车厢的壁或顶板。除了扬声器451a至451d之外，根据图4中所示的实施方案的语音命令装置450具有多个麦克风452a至452b，其可以沿着半球的圆形横截面来布置在平面表面附近。

虽然麦克风的布置覆盖360°方位角范围以捕获话音信号，但是扬声器451a至451d的三维布置允许例如使用高保真度立体声响复制音频通道的三维声场的音频再现。如以上详细地描述的，SaaS提供商可以将专用音频通道传输到语音命令装置的扬声器451a至451d中的每一个作为音频服务的一部分，使得可以在说话者110的位置处生成所期望的高保真度立体声响复制声场。

根据本发明的语音命令装置550的另一示例性实施方案在图5中示出。根据此实施方案，三维麦克风阵列552a至552c布置在球体556上方，其中麦克风可以规则地分布在球体556的表面上方。在麦克风552a至552c的偏移处，多个扬声器551a至551c安装在球体556的表面上或其中。除了在安装元件的位置处不提供扬声器之外，扬声器的布置可以是规则的。球形语音命令装置550几乎覆盖整个范围，即4π，三维声学空间的整个范围。使用多个球形语音命令装置550，可以在收听者的位置处形成更高阶波场，诸如高保真度立体声响复制声场。

将理解，根据图2至图5中示例性地示出的实施方案，多个语音命令装置还可以包括语音命令装置的混合和/或分组。一般，每个语音命令装置的麦克风和扬声器的相对空间布置是固定的，并且是明确限定的。对应的信息可以是语音命令装置的处理器单元已知的，特别是存储在语音命令装置的存储器单元中，并且可以与关于一个或多个麦克风的上述方向性信息一起或在单独的设置或初始化过程中传输到SaaS提供商。作为这种设置或初始化过程的一部分，声学空间内的多个语音命令装置的相对空间布置也可以由用户输入或使用如上所述的参考信号确定并传输到SaaS提供商。关于麦克风和扬声器的相对空间布置以及语音命令装置的相对空间布置的信息可以由语音命令装置和/或SaaS提供商使用来对接收到的麦克风信号或要输出的音频信号执行变换以执行如上所述的波束形成。

图6示出了根据本发明的娱乐系统在用户的家中的示例性安装的示意图。将理解，图6中所示的语音命令装置的数量和相对布置被选择以仅用于说明的目的。图6中示出了用户的家的简化表示，其具有通向厨房区域671的门677，厨房区域671通过壁676与起居室区域672分开。厨房的柜台678示意性地示出在厨房区域671中。图6中所示的房间序列还包括用餐区域673，其中示意性地示出了包括六把椅子的桌子674。此外，在起居室区域672中提供电视机670和长沙发椅675。最后，窗户679和680被示出为在用户的家的壁上。

在所示的示例中，总共六个语音命令装置650a至650f分布在房间序列上。根据安装要求以及风格考虑，可以根据上述形状因子之一来提供语音命令装置中的每一个。举例来说，语音命令装置650a至650c和650f可以被提供为在房间的地板上的柱体，而语音命令装置650e可以被提供为厨房柜台上的半球，并且语音命令装置650d可以被提供为悬挂在房间的顶板上的球形语音命令装置。根据图6的语音命令装置650a至650f的示例性布置使得房间序列内的任何点是至少从语音命令装置中的两个发射的声波可访问的。

附图中示出了用户的两个示例性位置以说明本发明。当用户610a坐在长沙发椅675上时(可能正在观看电视机670上的视频)，用户610b站在厨房区域671中。因此，由用户610a发出的话音信号可以在语音命令装置650f可以离说话者610a非常远时由语音命令装置650a至650d容易地捕获和/或被桌子674挡住以捕获来自用户610a的具有足够高的信噪比的话音。语音命令装置650e通过壁676与说话者610a分开，使得声波不能在语音命令装置650e与用户610a之间传播。同样地，由用户610b发出的话音信号不能被可能太远的语音命令装置650c可靠地检测到，也不能被由壁676与用户610b分开的语音命令装置650a和650b可靠地检测到。因此，仅语音命令装置650d至650f可以捕获来自用户610b的具有足够的信噪比的话音信号。

类似的考虑适用于通过语音命令装置再现音频服务。具体地，语音命令装置650a至650d可以用于在收听者610a的位置处的音频再现，而语音命令装置650d至650f可以用于在收听者610b的位置处的音频再现。由于经由波束操纵和/或使用环绕声或立体声效果的上述音频信号定向发射，可以在用户610a和610b的位置处形成几乎完全地分开的声场。实际上，单个语音命令装置650d可以用于通过在音频再现期间使用专用扬声器和/或音频通道来同时地促成在用户610a和610b的位置处的声场。如上所述，SaaS提供商可以使用关于多个语音命令装置的麦克风的方向性信息来定位说话者610a和610b，并且为处于用于音频再现的合适位置的每个语音命令装置和/或此类语音命令装置的可用于在相应的收听者的位置处形成所期望的声场的每个扬声器生成专用音频信号和/或音频通道。

在没有限制的情况下，可以与语音命令装置分开地在声学空间内提供另外的扬声器661至664，其可以在由语音命令装置进行的音频再现期间另外地使用。为此，扬声器661至664可以无线地或经由电缆连接到至少一个语音命令装置，并且它们的相对位置可以通过测量和/或检测来确定并可以存储在语音命令装置的存储器中或通过多个语音命令装置的麦克风使用上述校准过程来确定。举例来说，测试信号可以由单独的扬声器输出并且由语音命令装置的麦克风捕获，以确定对应的扬声器的位置。图6中所示的非限制性示例示出了左通道扬声器661、右通道扬声器663、中央扬声器662和作为安装在用户的家中的音频系统的一部分的重低频扬声器664。

通过对对应的语音命令装置的麦克风的波束操纵，可以从分开的用户610a和610b可靠地检测到和捕获所发出的命令。此外，可以在收听者610a和610b的最佳听音点处形成包括高阶声音效果的完全地分开的声场。最后，图6示出了远程装置620，诸如无线路由器，其与语音命令装置650a至650f中的每一个和互联网通信。

图7示出了根据现有技术的用于音频再现的示例性波束形成器的示意图。所示出的波束形成器或任何其它已知的波束形成器可以与根据本发明的语音命令装置的扬声器阵列一起使用。如图7所示的波束形成器模块根据N个输入信号722来控制具有Q个扬声器751或Q组扬声器的扬声器组件，每个具有多个扬声器，诸如高频扬声器、中频范围扬声器和/或低频扬声器。波束形成模块还可以包括模态加权子模块724、动态波场操纵子模块728、正则化子模块734和矩阵变换子模块738。模态加权子模块724被供应有输入信号722[x(n)]，输入信号722基于N个球面谐波用滤波器系数加权以提供所期望的波束模式，即，辐射模式以递送N个加权的高保真度立体声响复制信号726。加权的高保真度立体声响复制信号726由动态波场操纵子模块728使用加权系数变换以将所期望的波束模式旋转到所期望的位置θ_Des，因此，由动态波场操纵子模块728输出N个修改(例如，旋转、聚焦和/或放大)且加权的高保真度立体声响复制信号732。

然后将N个修改且加权的高保真度立体声响复制信号732输入到正则化子模块734中，该正则化子模块734对信号执行附加的滤波，特别是相对于白噪声。接着，正则化子模块734的所得信号736由矩阵变换子模块738使用N×Q加权矩阵变换为Q个扬声器信号739[y₁(n)，...，y_Q(n)]。或者，Q个扬声器信号739可以由多输入多输出子模块使用N×Q滤波器矩阵从N个正则化、修改且加权的高保真度立体声响复制信号736生成。图7中所示的波束形成模块可以与任何语音命令装置一起使用以使用更高阶的高保真度立体声响复制在收听者的位置处形成二维声场或三维声场。

图8示出了根据本发明的操作娱乐系统的方法的示例性过程流程。在步骤888中，由一个或若干个语音命令装置的一个或多个麦克风捕获音频信号。在步骤889中，由对应的语音命令装置的处理器单元分析捕获到的音频信号，以检测话音信号。如果不能从捕获到的麦克风信号检测到话音信号，那么过程流程返回到步骤888。在步骤890中，如果在捕获到的麦克风信号中检测到话音信号，那么可以关于麦克风中的每一个和/或关于对应的语音命令装置的多个麦克风的多个不同波束形成方向计算话音信号的信噪比，如上所述。或者，在步骤890中，可以基于捕获到的音频信号而由相应的语音命令装置的处理器单元估计话音信号的到达方向信息。

在步骤891中，所得的信噪比或DOA信息可以包括在由一个或多个语音命令装置发送到SaaS提供商的关于一个或多个麦克风的方向性信息中。从关于一个或多个麦克风的接收到的方向性信息中，SaaS提供商可以在步骤892中选择多个语音命令装置中的至少一个作为活动语音命令装置。可选地或另外地，在步骤892中，SaaS提供商可以选择多个语音命令装置中的至少一个麦克风作为活动麦克风。此外，另外地或可选地，在步骤892中，可以由SaaS提供商确定关于多个语音命令装置的至少两个麦克风的波束形成信息。在步骤893中，对应的选择信息、麦克风选择信息和/或波束形成信息可以包括在由SaaS提供商发送到至少活动语音命令装置的关于多个语音命令装置的方向性信息中。因此，在步骤893中，至少一个语音命令装置经由网络从SaaS提供商接收关于多个语音命令装置的方向性信息。

基于接收到的方向性信息，活动语音命令装置在步骤894中对所选择的麦克风执行波束形成，以监视来自用户的具有增强的信噪比的话音信号。除了这种监视之外，可能尚未被选择为活动的语音命令装置和/或麦克风可以继续从声学空间接收音频信号并分析音频信号以获得话音信号。或者，如果波束形成的麦克风信号的信噪比下降到低于阈值下限和/或如果预定时段到期和/或如果由雷达构件或相机对说话者的跟踪指示扬声器已经移出最佳听音点区，那么可以在步骤888处重新发起整个过程。

图9示出了使用根据本发明的娱乐系统的音频再现的示例性过程流程。根据本发明，假设当在步骤995中在SaaS提供商处从娱乐系统接收到对音频服务的请求时，已执行了根据图8的过程。如上所述，可以在娱乐系统侧处或在SaaS提供商侧处分析这样的请求。根据图9的实施方案，将包括请求的话音信号从娱乐系统传输到SaaS提供商，并且在步骤996中进行分析以检测和确定对音频服务的特定请求。或者，可以在娱乐系统侧处执行分析，并且可以将结果作为数字信息传输到SaaS提供商。响应于对音频服务的请求的接收，SaaS提供商可以提供音频信号，例如基于存储在数据库或存储装置中的音频数据，音频信号可以在将音频信号传输到娱乐系统之前被进一步处理。

在一个实施方案中，可以在步骤997中在SaaS提供商侧处将关于多个语音命令装置的方向性信息编码在音频信号中，使得当由娱乐系统的语音命令装置的扬声器输出时的音频信号在定位用户的方向上形成波束。可选地或另外地，可以在步骤997中基于由SaaS提供商检索的音频数据而生成与至少一个语音命令装置的不同的扬声器相关联的多个音频通道，以在最佳听音点处提供立体声、环绕声、虚拟环绕声或高保真度立体声响复制声。在步骤998中，可以将所得的音频信号或音频通道作为关于多个语音命令装置的方向性信息的一部分与之接合或在其之后从SaaS提供商传输到娱乐系统的响应语音命令装置。

根据接收到的方向性信息，在步骤999中，语音命令装置可以提取用于由至少一个语音命令装置的处理器单元对接收到的音频信号执行波束形成的必要信息。然而，由于诸如相移和/或权重的波束形成信息可能已经编码在从SaaS提供商接收的音频信号中，因此可以省略步骤999以在娱乐系统侧处保留计算资源。最后，在步骤1000中，基于关于多个语音命令装置的接收到的方向性信息而由对应的语音命令装置通过相应的扬声器输出接收到的音频信号，特别是专用音频通道。具体地，可以使用包括在接收到的方向性信息中的映射信息将由活动语音命令装置接收的专用音频通道映射到对应的扬声器，使得在一个或多个收听者的位置处形成期望质量的声场。根据图9中的过程流程的本发明具体地允许在声学空间中的两个或更多个最佳听音点处对完全地分开的高保真度立体声响复制声场的音频再现。

最后，图10示出了根据现有技术的用于麦克风波束形成的示例性波束形成器1000的示意图。在没有限制的情况下，波束形成器1000包括麦克风1001至1006，麦克风1001至1006输出捕获到的音频信号1101至1106。如上所述，麦克风1001至1006可以作为单个语音命令装置的一部分提供或分布在多个语音命令装置上。而且，如以上还描述的，可以由语音命令装置本身或SaaS提供商对语音命令装置的麦克风的麦克风信号进行波束形成，同时由SaaS提供商对来自多个语音命令装置的麦克风信号进行波束形成。因此，波束形成器1000的下述部件可以作为语音命令装置和/或SaaS提供商的一部分提供。

根据图10中示出的示例性实施方案，将总共Q个麦克风信号1101至1106馈送到矩阵变换模块1205，矩阵变换模块1205将N个球面谐波供应到旋转模块1206。旋转模块1206从N个球面谐波生成M个旋转的球面谐波，其在模态加权模块1207中被加权，即，乘以频率相关的加权系数C₁至C_M，并且接着，在求和模块1208中求和，以形成波束形成的麦克风信号，即，多个麦克风1001至1006的方向信号。所得的信号可以任选地通过高通滤波器1210以降低噪声。

可以在语音命令装置和/或SaaS提供商中实现所描述的波束形成器。通过在SaaS提供商中实现波束形成器1000，可以简化语音命令装置。

Claims

1.一种具有多个语音命令装置的系统，所述语音命令装置中的每一个包括：

处理器单元，

收发器，所述收发器耦合到所述处理器单元并且被配置为耦合到网络，

一个或多个麦克风，每个麦克风被配置为捕获音频信号；以及

至少一个扬声器，

其中所述处理器单元被配置为：

检测所述捕获到的音频信号中的话音信号，

在检测到话音信号时，使用所述收发器经由所述网络向软件即服务SaaS提供商传输关于所述一个或多个麦克风的方向性信息，以及

使用所述收发器经由所述网络从所述SaaS提供商接收关于所述多个语音命令装置的方向性信息。

2.根据权利要求1所述的系统，其中关于所述多个语音命令装置的所述方向性信息包括以下至少一者：用于选择所述多个语音命令装置中的至少一者作为活动语音命令装置的选择信息、用于选择至少一个麦克风的麦克风选择信息以及关于至少两个麦克风的波束形成信息。

3.根据权利要求1或2所述的系统，其中关于所述一个或多个麦克风的所述方向性信息包括由所述处理器单元关于所述一个或多个麦克风中的每一个和/或关于语音命令装置的多个麦克风的多个不同波束形成方向而计算的所述话音信号的信噪比SNR。

4.根据权利要求1或2所述的系统，其中关于所述一个或多个麦克风的所述方向性信息包括由所述处理器单元基于所述捕获到的音频信号而估计的到达方向DOA信息。

5.根据权利要求1或2所述的系统，其中关于所述一个或多个麦克风的所述方向性信息包括所述捕获到的音频信号，并且其中关于所述多个语音命令装置的所述方向性信息包括由所述SaaS提供商基于来自至少两个语音命令装置的所述捕获到的音频信号而计算的DOA信息。

6.根据前述权利要求中的一项所述的系统，其中所述语音命令装置还被配置为：从所述SaaS提供商接收包括至少一个音频信号的音频服务；以及基于关于所述多个语音命令装置的所述接收到的方向性信息而经由所述至少一个扬声器输出所述音频信号。

7.根据权利要求6所述的系统，其中输出所述音频信号包括基于所述接收到的方向性信息来使所述音频信号波束形成，或者其中将关于所述多个语音命令装置的所述方向性信息编码在所述音频信号中，使得所述输出的音频信号形成波束。

8.根据权利要求6或7所述的系统，其中所述音频服务包括与所述多个语音命令装置中的不同的扬声器相关联的多个音频通道以提供立体声、环绕声、虚拟环绕声或高保真度立体声响复制声。

9.根据前述权利要求中的一项所述的系统，其中至少一个语音命令装置还包括跟踪单元，特别是雷达传感器和/或相机，所述跟踪单元被配置为跟踪检测到的扬声器。

10.一种用于操作娱乐系统的多个语音命令装置的方法，其中每个语音命令装置包括处理器单元、收发器、一个或多个麦克风和至少一个扬声器，所述方法包括：

由所述语音命令装置中的至少一者的所述一个或多个麦克风捕获音频信号，

由所述语音命令装置中的所述至少一者的所述处理器单元分析所述捕获到的音频信号以检测话音信号，

在检测到所述话音信号时，使用所述语音命令装置中的所述至少一者的所述收发器经由网络向软件即服务SaaS提供商传输关于所述语音命令装置中的所述至少一者的所述一个或多个麦克风的方向性信息，以及

使用所述语音命令装置中的所述至少一者的所述收发器经由所述网络从所述SaaS提供商接收关于所述多个语音命令装置的方向性信息。

11.根据权利要求10所述的方法，所述方法还包括以下至少一者：

由所述SaaS提供商基于关于所述一个或多个麦克风的所述所传输的方向性信息而选择所述多个语音命令装置中的至少一者作为活动语音命令装置，并且在关于所述多个语音命令装置的所述方向性信息中包括对应的选择信息；

由所述SaaS提供商基于关于所述一个或多个麦克风的所述所传输的方向性信息而选择所述多个语音命令装置的至少一个麦克风作为活动麦克风，并且在关于所述多个语音命令装置的所述方向性信息中包括对应的麦克风选择信息；以及

由所述SaaS提供商基于关于所述一个或多个麦克风的所述所传输的方向性信息而确定关于所述多个语音命令装置的至少两个麦克风的波束形成信息，并且在关于所述多个语音命令装置的所述方向性信息中包括对应的波束形成信息。

12.根据权利要求10或11所述的方法，所述方法还包括：

由所述语音命令装置中的所述至少一者的所述处理器单元关于所述麦克风中的每一个和/或关于语音命令装置的多个麦克风的多个不同波束形成方向来计算所述话音信号的信噪比SNR，并且在关于所述一个或多个麦克风的所述方向性信息中包括所述计算出的SNR；或者

由所述语音命令装置中的所述至少一者的所述处理器单元基于所述捕获到的音频信号而估计所述话音信号的到达方向DOA，并且在关于所述一个或多个麦克风的所述方向性信息中包括所述所估计的DOA信息；或者

在关于所述一个或多个麦克风的所述方向性信息中包括所述捕获到的音频信号，并且由所述SaaS提供商基于来自至少两个语音命令装置的所述捕获到的音频信号而计算DOA信息。

13.根据权利要求10至12中的一项所述的方法，所述方法还包括：

从所述SaaS提供商接收包括至少一个音频信号的音频服务；以及

基于关于所述多个语音命令装置的所述接收到的方向性信息而经由至少一个语音命令装置的所述至少一个扬声器输出所述音频信号。

14.根据权利要求13所述的方法，所述方法还包括：

由所述至少一个语音命令装置的所述处理器单元基于所述接收到的方向性信息而对所述接收到的音频信号执行波束形成；或者

由所述SaaS提供商对所述音频信号中的关于所述多个语音命令装置的方向性信息进行编码，使得所述输出的音频信号形成波束。

15.根据权利要求13或14所述的方法，所述方法还包括：

由所述SaaS提供商生成和传输与所述至少一个语音命令装置的不同的扬声器相关联的多个音频通道以提供立体声、环绕声、虚拟环绕声或高保真度立体声响复制声。

16.根据权利要求10至15中的一项所述的方法，所述方法还包括使用至少一个语音命令装置的跟踪单元来跟踪检测到的扬声器，所述跟踪单元特别是雷达传感器和/或相机。

17.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质具有指令，所述指令在由处理器执行时致使所述处理器执行根据权利要求10至16中的一项的方法。