CN108989953B

CN108989953B - 空间上回避通过波束形成扬声器阵列产生的音频

Info

Publication number: CN108989953B
Application number: CN201810553141.4A
Authority: CN
Inventors: A·法米利; G·I·布彻; H·D·弗维杰; D·C·格拉哈姆; I·乔德里; M·A·鲁伊斯; C·J·斯特林格
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-06-02
Filing date: 2018-06-01
Publication date: 2020-12-29
Anticipated expiration: 2038-06-01
Also published as: CN112584273A; CN108989953A; AU2020201425B2; AU2018203165B2; EP3410740B1; US20180352334A1; JP2018207482A; US10531196B2; AU2018203165A1; CN112584273B; KR20180132521A; US10856081B2; AU2020201425A1; EP3410740A1; JP6595039B2; KR20200015662A; KR102074878B1; US20200107122A1; KR102222866B1

Abstract

本公开涉及空间上回避通过波束形成扬声器阵列产生的音频。一种用于调节通过波束形成扬声器阵列输出的音频的方法。渲染节目音频以驱动扬声器阵列产生声音波束，所述声音波束具有i)指向收听者的主内容方向图，与ii)指向远离所述收听者的几个漫射内容方向图叠加。响应于接收到是指警示音频的警示消息，所述主方向图中的节目音频的部分被移动到漫射方向图中，并且所述警示音频被渲染以驱动扬声器阵列使得所述主方向图中的所述节目音频的部分被警示音频替换。还描述了其它实施方案并要求对其进行保护。

Description

空间上回避通过波束形成扬声器阵列产生的音频

本非临时性专利申请要求于2017年6月2日提交的美国临时申请62/514,712的较早申请日期的权益。

技术领域

本发明的实施方案涉及空间上回避正在渲染以通过扬声器阵列输出的节目音频。还描述了其他实施方案。

背景技术

扬声器阵列可生成波束方向图以在不同方向上投射声音。例如，波束形成器可接收声音节目内容(例如，音乐)的输入音频声道并且将输入音频声道转换为几个驱动器信号，该几个驱动器信号驱动扬声器阵列的换能器以产生一个或多个声音波束方向图。具有几个波束方向图允许音频系统在扬声器阵列所在的整个房间内沿不同方向投射声音。

发明内容

计算机程序或应用程序需要为收听者渲染并输出(或回放)不同类型的音频。例如，提醒应用程序可产生由音频系统渲染并输出的可听通知(例如，“30分钟后开球”)。另一个示例是用作虚拟个人助理(“VPA”)的计算机程序，其允许收听者发起并进行与虚拟助理的对话。例如，收听者可通过说出触发短语(“嘿，Hal，你明白我说的吗？”)来触发VPA，并且然后向VPA提出问题(或发出命令)。作为响应，VPA将检索可听响应作为系统渲染并输出的音频信号(“我怎样可以帮助你Dave？”或“你认为你在做什么，Dave？Dave，我真的认为我有权回答这个问题。”)当正在输出诸如音乐作品的正在进行的声音节目内容(节目音频)时，将这些类型的音频输出给收听者对收听者来说具有破坏性。

更好的解决方案是“回避”正在进行的声音节目内容。例如，在欣赏由系统输出的音乐时，收听者可能想要与VPA交互。这种交互可从收听者说出触发短语或按下按钮开始。一旦系统确定收听者想要与VPA交互，正在输出的音乐可被回避(例如，其音量减小)，而VPA和收听者通过说出的词语进行交互。一旦设备确定交互完成，设备可恢复音乐的输出而不施加回避。这可为比重复暂停和恢复或者仅降低和增加音量更好的解决方案，因为后者可能不仅对该收听者具有破坏性，而且对不与VPA直接进行交互的其他收听者也具有破坏性。

本发明的实施方案是一种音频系统，该音频系统“空间上回避”其输出正在进行的一段声音节目内容(例如，音乐)的节目音频，同时输出警示音频，从而优雅且简洁地减轻在例如VPA会话期间由音乐造成的分心。空间回避通过将音乐从“前景”拉出并将其移动到“背景”中有效地改变了收听者对音乐的感知。在背景中输出音乐使收听者感觉音乐正在远处(例如，在另一个房间中)输出。换句话说，空间回避导致收听者所体验的音乐声音“模糊”，使收听者不容易识别声音的起源(例如，来自音频系统的扬声器箱)。一旦正在进行的声音节目内容开始被空间回避，则警示音频可在前景中输出。这使得收听者可更直接地听到警示音频，即使同时音乐以令人愉快的方式继续在背景中输出(而不是被暂停或仅以减小的音量输出)，这对收听者的体验具有较小破坏性。

本发明的实施方案是一种由基于扬声器阵列的波束形成音频系统执行的方法，该方法在空间上回避正在由扬声器阵列输出的一段声音节目内容的节目音频。这导致节目音频的继续输出，但是在背景中，而在前景中输出警示音频。该系统具有渲染处理器，该渲染处理器接收节目音频并将其渲染成通过扬声器阵列转换成声音的换能器驱动器信号。现在，考虑在正常输出期间(在没有警示音频输出时)，使用主-漫射波束形成渲染模式来渲染所接收的节目音频。在该模式中，扬声器阵列被驱动以产生几个声音波束，具有i)主内容方向图(主波束)，与ii)指向不同方向的几个漫射内容方向图(两个或更多个漫射内容波瓣或波束)。在以该渲染模式输出节目音频期间，收听者可能尝试通过说出“触发短语”来启动与VPA的对话。说出的触发短语通过音频系统的麦克风被感测。自动语音识别器分析感测到的收听者的语音以找出(或识别)其中的语音。所识别的语音被发送到触发短语检测器，以便确定在所识别的语音内是否存在触发短语。

一旦检测到触发短语，警示音频就需要渲染并输出给收听者(如VPA的“人声”响应)。在一个实施方案中，首先检索对触发短语的合适文本响应(制定或从存储装置获取)，例如，“我怎样可以帮助你，Dave？”然后这被提供给文本到语音TTS系统，该系统也被发信号通知以产生合适文本响应的合成语音版本(如警示音频)。另选地，警示音频可检索为先前记录的人类说出的短语(其被认为适合作为对触发短语的响应)。在这两种情况下，指向或包含警示音频的警示消息被提供给决策逻辑部件(以及可选地提供给渲染处理器)，警示音频包括响应于警示音频触发事件VPA打算输出的合适语音响应。

响应于该警示消息，与渲染处理器一起起作用的决策逻辑部件i)将正在主内容方向图(主波束)中输出的节目音频的一部分(一些或全部)移动到漫射内容方向图(两个或更多个波束)中，并且ii)在某种意义上，用警示音频“替换”从主内容方向图中移出的节目音频的部分。这为收听者提供了清晰直接的可听反馈(来自VPA)，有效地在前景中呈现了VPA的响应，同时在空间上回避了正在进行的声音节目内容(将其移至背景中)。

在以主-漫射渲染模式渲染节目音频时，决策逻辑部件(或决策处理器)对节目音频的几个输入音频声道(例如左声道和右声道)执行内容分析，以找到其中的相关的内容和不相关的(去相关的)内容。然后，使用渲染处理器的波束形成能力，相关内容被渲染在主内容方向图波束中(而不在漫射内容方向图波束或波瓣中)，而去相关的内容被渲染在漫射内容方向图波束(或波瓣)中的一者或多者中。在这种情况下，响应于接收到的警示消息，可执行以下过程(以便空间上回避节目音频)：标识主内容波束方向图内正在输出的节目音频的“当前”部分，并且在该“当前”部分被提供给决策逻辑部件的内容分析例程之前对其执行去相关过程。可通过向包含所标识的当前部分的节目音频的输入音频声道中的一者或多者的那些片段中添加混响来实现这种去相关。因此，内容分析例程将然后检测现在去相关的内容，并且将向渲染处理器发信号以在漫射内容方向图波束中渲染该内容。因此，这种方法直接地或固有地导致漫射内容方向图波束包含i)音频系统已经故意去相关的节目音频的原始直接部分(例如，由于添加的混响)以及ii)节目音频的原始漫射部分。

以上是当接收到警示消息时包括原始相关的内容或直接内容并且正在通过主内容方向图波束输出的节目音频的一部分如何被移动到漫射内容方向图波束中的示例。当主内容方向图波束变成部分地或者完全没有节目音频的原始直接内容或相关的内容时，可被认为仅包括相关的内容(例如，单声道音频或单个音频声道)的警示音频被添加到或有效地插入到主内容方向图波束中(并且不被插入到任何漫射内容方向图波束中)。

在另一个实施方案中，将节目音频的直接内容部分移动到背景中的感觉通过以下组合来实现：1)添加混响(到至少直接内容部分)，2)将其移动到漫射内容方向图波束中，以及3)通过低通滤波器对其进行滤波以去除高频内容。在另一个实施方案中，代替低通滤波或除了低通滤波之外，可调整直接内容部分的标量全频带增益以便减小其“音量水平”。在所有这些情况下，收听者将听到清晰且可理解的警示音频，而空间上回避的节目音频继续输出，但“在背景中”，从而提供更愉快的聆听体验。

当以其他声音渲染模式(不同于上述主-漫射模式)来渲染节目音频时，响应于接收到的警示消息节目音频被空间上回避(有效地移动到背景中)的方式可能会有所不同。例如，考虑中间-侧边渲染模式，其中渲染处理器驱动扬声器阵列以产生几个同时的声音波束，其具有i)全向方向图，与ii)具有多个波瓣的定向方向图叠加。当在此类输出期间接收到警示消息时，渲染处理器i)将当前在全向方向图中的节目音频的一部分(一些或全部)移动到定向方向图的几个波瓣中，以及ii)在某种意义上，用警示音频替换所移动的部分(全向方向图中)。

以上概述不包括本发明的所有方面的详尽列表。可预期的是，本发明包括可从上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合而实施的所有系统和方法。此类组合具有未在上述发明内容中具体阐述的特定优点。

附图说明

本发明的实施方案以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，本公开中提到“一”或“一个”实施方案未必是同一实施方案，并且这意味着至少一个。另外，为了简洁以及减少附图的总数，可使用某个附图示出本发明的不止一个实施方案的特征，并且对于某个实施方案，可能并非需要该附图中的所有元素。

图1A示出了音频接收器和包括扬声器阵列的圆柱形扬声器箱。

图1B示出了在VPA会话期间被空间上回避的节目音频和VPA人声响应的同时输出的时间线。

图2A是具有波束形成扬声器阵列的音频系统的框图。

图2B示出了类似于图2A中的音频系统的音频系统的详细框图。

图3示出了根据本发明的一个实施方案的由音频系统产生的示例声音波束的向下视图。

图4示出了其中用户与如图3所示操作的音频系统进行交互的几个阶段的进展。

图5示出了根据本发明另一实施方案的由音频系统产生的声音波束的示例的向下视图。

图6示出了其中用户与如图5中所示操作的音频系统进行交互的几个阶段的进展。

图7示出了其中用户与多个音频系统中的一者进行交互的几个阶段的进展，每个音频系统如图5所示操作。

具体实施方式

现在将参考所附附图来解释本发明的若干个实施方案。每当在实施方案中描述的部件的形状、相对位置和其它方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本发明的一些实施方案可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

图1A示出了音频接收器105和包括扬声器阵列115的大体圆柱形扬声器箱110。音频接收器105可耦接到圆柱形扬声器箱110以驱动扬声器阵列115的各个驱动器120发射各种声音波束到收听区域中。尽管示出为通过电缆(诸如电线)耦接，但接收器105可另选地通过无线装置与扬声器箱110通信。在其他实施方案中，由音频接收器105执行的功能(例如，由音频渲染处理器处理的数字信号)可由容纳在扬声器箱110内的电子电路组件来执行，从而将接收器105的电气硬件部件中的一部分或全部与扬声器箱110组合成单个外壳。在一个实施方案中，音频接收器105和扬声器箱110可为家庭音频系统的一部分，而在另一个实施方案中，它们可为集成在车辆内的音频或信息娱乐系统的一部分。

扬声器阵列115中的驱动器120可以各种方式布置。如图1A所示，驱动器120围绕箱110的中心竖直轴线并排且周向布置。驱动器120的其他布置是可能的。例如，驱动器120可为电动力驱动器，并且可包括专门设计用于不同频带的声音输出的一些驱动器，包括例如高音扬声器和中音扬声器的任何合适的组合。另外，箱110可具有其他形状，诸如圆环形状，或者大体球形或椭圆形形状，其中驱动器120可围绕椭圆体的基本整个表面均匀地分布。在另一个实施方案中，箱110可为智能电话、平板电脑、膝上型计算机或台式计算机的一部分。

图1B示出了在VPA会话期间正在同时输出的一段声音节目内容的节目音频和VPA人声响应(例如，警示音频)的时间线。具体地说，该图示出了节目音频130的上部时间线(例如，输入音频声道)，因为它被提供给决策逻辑部件215—见图2A。决策逻辑部件可处理节目音频130，以便渲染处理器以几种渲染模式中的一者渲染并输出节目音频130。该图还具有几个VPA人声响应(例如，警示音频)140和145的底部时间线。这些响应也被提供给决策逻辑部件(并且随后被渲染处理器渲染用于输出)，同时节目音频130被空间上回避，从而允许收听者在VPA会话期间与VPA通信，而不被节目音频过分地分心。下面将进一步描述该图，作为使用波束形成扬声器阵列在空间上回避音频的过程的示例。

图2A示出了具有被用于输出一段声音节目内容(例如，音乐作品或电影声带)的节目音频的波束形成扬声器阵列的音频系统200的框图。音频系统200包括扬声器箱110、渲染处理器210、决策逻辑部件215(也称为决策处理器)和基于语音的服务230。该示例中的扬声器箱110在其中包括多个功率音频放大器250，每个功率音频放大器250具有耦接到相应的扬声器驱动器120的驱动信号输入的输出。扬声器箱110通过使用扬声器驱动器120将所得到的数字扬声器驱动器信号转换为声音来“输出”或“回放”节目音频。这可使用放大器250来实现，每个放大器可从相应的数模转换器(DAC)245接收模拟输入，其中后者通过音频通信链路275接收其输入数字音频信号。尽管DAC 245和放大器250被示为独立的块，但是在一个实施方案中，用于这些的电子电路组件可被组合，不仅针对每个驱动器，而且针对多个驱动器，以便提供更高效的数模转换和各个驱动器信号的放大操作，例如使用例如D类放大器技术。

用于每个驱动器120中的各个数字音频驱动器信号通过音频通信链路275从渲染处理器210传送。渲染处理器210可实现在扬声器箱的独立外壳内(例如，作为图1A的接收器105的一部分)。渲染处理器210以及图2A所示的其他数字信号处理组件可在其他设备(例如智能电话、平板电脑、膝上型计算机或台式计算机)内实现。在这些情况下，音频通信链路275更可能是无线数字通信链路，诸如蓝牙链路或无线局域网链路。然而，在其他情况下，音频通信链路275可通过诸如数字光学音频电缆(例如，TOSLINK连接)或高清多媒体接口(HDMI)电缆的物理电缆。在其他实施方案中，渲染处理器210可实现在扬声器箱110内，在这种情况下，音频通信链路275可为有线连接，诸如片上和芯片到芯片的数字或电光互连的任何适当的快速组合。

渲染处理器210将接收一段声音节目内容的节目音频(例如，来自决策逻辑部件215)。该节目音频可包括多个输入音频声道，例如立体声录音的左(“L”)和右(“R”)声道。此类节目音频可为音乐作品的音频，其可能原始仅被记录为两个声道。另选地，节目音频可为多于两个输入音频声道的形式，诸如例如旨在用于家庭影院音频系统或大型公共影院环境的电影胶片或电影的5.1-环绕格式的全音频声带。在另一个实施方案中，节目音频可为单个输入音频声道的形式。在所有这些情况下，在由渲染处理器210渲染之后，驱动器120将节目音频转换成声音，渲染处理器210将输入声道变换为到扬声器阵列的换能器或驱动器的各个输入驱动信号。渲染处理器210可完全实现为编程的数字微处理器，或者实现为编程的处理器和诸如数字滤波器块和状态机的专用硬连线数字电路的组合。

渲染处理器210可包含波束形成器，波束形成器可被配置为产生用于驱动器120的各个驱动信号，以便将输入音频声道的音频内容“渲染”为由驱动器120发射的多个同时的期望的波束(波束形成扬声器阵列的部分。)波束可由波束形成器成形和操纵，并且每个波束中的音频内容可根据多个预先配置的声音渲染操作模式中的任何一者从输入音频声道调整(如稍后解释的)。

渲染处理器210可具有几个波束形成声音渲染操作模式，例如两个或更多个中间-侧边模式以及至少一个主-漫射(例如，环境-直接)模式。这些模式被视为对系统可从其选择的输入音频声道具有不同的立体声增强，基于该模式总是期望对特定房间中的收听者(并且对于正在输出的特定内容)具有最佳或最高的影响。渲染处理器210被预先配置成具有此类操作模式，并且在输出该段声音节目内容期间，其当前操作模式可由决策逻辑部件215实时地选择和改变。下面介绍有关声音渲染操作模式的更多信息。

决策逻辑部件215(决策处理器)可被实现为编程的处理器，例如，通过共享中央处理单元、应用处理器或包括渲染处理器210的片上系统，或通过不同微处理器的编程来实现。决策逻辑部件215可做出几个不同的决策和/或执行几个不同的音频处理操作。例如，决策逻辑部件215可基于某些输入执行程序，针对正在或即将输出的给定的一段声音节目内容做出关于要使用哪种声音渲染模式的决定。选定的渲染模式然后配置渲染处理器210以驱动扬声器驱动器120(在该段声音节目内容的输出期间)以在其中产生波束和音频内容的组合。基于收听者位置、房间传声效果和由决策逻辑部件215执行的内容分析中的一者或多者的变化，声音渲染模式可在输出期间自动改变(不需要来自音频系统200的用户或收听者的直接或即时输入)。

决策逻辑部件215可在输出期间基于其决策逻辑部件输入的改变自动地(即不需要来自音频系统200的用户或收听者的即时输入)选择和/或改变渲染模式选择。在一个实施方案中，决策逻辑部件输入包括传感器数据和用户界面选择中的一者或两者。传感器数据可包括由例如接近传感器、照相机或者一个或多个麦克风所进行的测量。用户界面选择可为收听者手动输入的数据，其描绘了房间的边界以及其中特定对象(例如家具)的位置。使用该信息，决策逻辑部件215可计算收听者位置和/或房间相对于扬声器箱110的声学显著的特征(例如，天花板、墙壁、地板和某些对象的位置)。传感器数据也可用于测量房间的声音反射值、吸声值或脉冲响应。决策逻辑部件215可具有评估各个扬声器驱动器120与房间之间的声学相互作用的能力，例如以确定扬声器箱110何时已经放置成靠近声学反射表面。在这种情况下，决策逻辑部件215可选择主-漫射模式，该主-漫射模式包括可以特定角度取向或导向的漫射内容方向图波束，以促进期望的立体声增强或浸入效果。例如，一个或多个漫射内容方向图可远离收听者取向并且可被允许从房间的相邻墙壁反弹以创建更漫射的声音环境。

在主-漫射模式中，渲染处理器210中的波束形成器的输出可使扬声器驱动器120产生具有以下特征的声音波束：i)主内容方向图，与ii)几个漫射内容方向图叠加。例如，图3示出了以这种模式产生的声音波束。具体而言，该附图示出了扬声器箱110的向下视图，同时其正在产生主内容方向图305(在此也称为波束)和漫射内容方向图315和310(例如，两个或更多个波束，或两个或更多个的波瓣)。尽管附图仅描绘了两个漫射内容方向图，但是在一个实施方案中，可存在多于两个的漫射内容方向图(包含漫射内容的多于两个波束或多于两个波瓣)。

在一个实施方案中，主内容方向图305和漫射内容方向图310,315全都指向不同的方向，如所示。主内容方向图305可故意指向确定的收听者位置(例如，用户指定的或自动检测到的)，而漫射内容方向图310和315在这种情况下远离所确定的收听者位置。

在另一个实施方案中，漫射内容方向图故意指向相邻墙壁、窗户或其他表面(诸如家具物品的位置)的确定位置(该位置可能已经由用户指定或者它可能已被自动检测到)，而主内容方向图远离所确定的位置(在不同的方向)。如先前所述，可由决策逻辑部件215使用包括传感器数据和用户界面选择的其输入的任何适当组合来确定相邻声学表面的确定位置或确定的收听者位置。因此，主-漫射模式的某些参数可为可变的(例如，波束宽度和角度)，这取决于音频内容、房间传声效果和扬声器布置。

主内容方向图305和漫射内容方向图(例如，310和315)可各自包含节目音频的某些部分。例如，决策逻辑部件215可例如使用时间窗口相关来分析节目音频的输入音频声道(例如，L和R)以在其中找到相关的内容和不相关的(或去相关的)内容。决策逻辑部件215可通知渲染处理器210哪些内容(例如，相关的或去相关的)应该在内容方向图中的至少一者内渲染。例如，由于在每个输入音频声道内有效出现的相关内容是真正的“干”中心图像，所以包含在输入音频声道内的相关内容可被渲染在主内容方向图305中。相反，可提取包含在输入音频声道内的去相关的内容(例如，通过执行L-R或R-L的差值计算)，然后将其置于漫射内容方向图310和315内。

渲染处理器还具有其他声音渲染模式，包括一个或多个中间-侧边模式。在每个中间-侧边模式中，渲染处理器210的输出可使扬声器驱动器120产生声音波束，该声音波束具有i)全向方向图，与ii)具有多个波瓣的定向方向图叠加。例如，图5描绘了以一种此类模式产生的声音波束。具体地讲，该附图示出了扬声器箱110的向下视图，同时其正在产生全向方向图505和定向方向图525，这里是具有四个主波瓣515a、515b、520a和520b的四极波束。尽管该图示出了高阶中间-侧边模式(四极波束)，但是渲染处理器210也可配置成具有不同阶的其他中间-侧边模式(例如，产生双极波束的较低阶中间-侧边模式)。

由决策逻辑部件215在较低阶模式和较高阶模式之间作出的选择可为以下因素或参数中的至少一者的函数，例如当前收听者位置、房间传声效果和输入音频声道的内容分析。例如，该选择可基于内容分析，其中选择较低阶或较高阶定向模式可基于输入音频声道的频谱和/或空间特性，诸如环境或漫射声音内容的量(例如混响)。应当指出的是，某些类型的漫射内容可能受益于通过较低阶中间-侧边模式输出，这加强了房间中不相关的(去相关的)内容的空间分离。已经包含强空间分离的其他类型的内容(诸如硬淘离散源)可受益于更高阶的中间-侧边模式，这可在扬声器周围产生更均匀的立体声体验。在极端情况下，最低阶中间-侧边模式可为其中基本上仅产生全向方向图505的模式，没有任何定向波束，诸如定向方向图525，在声音内容是纯单声道时这可为合适的。

类似于图3所示的主内容方向图305和漫射内容方向图310和315，全向方向图505和定向方向图525包含由决策逻辑部件215适当选择或组合的节目音频的部分。例如，决策逻辑部件215可通知渲染处理器以构成节目音频的两个或更多个输入音频声道的组合和/或差值的这些波束方向图。换句话讲，决策逻辑部件215可处理(例如，组合和/或减去)两个或更多个输入音频声道并且将结果发送到渲染处理器210，以便渲染处理器210将结果渲染在特定波束方向图中。例如，重新参考图5，在节目音频包含两个输入音频声道(例如，L和R)的情况下，全向波束方向图505(其是单声道主内容方向图)可包含相关音频内容，该相关音频内容是这两个声道的组合(例如，L+R)。另一方面，定向方向图525的波瓣包含去相关的音频内容，其从输入音频声道之间的差值得到。例如，前指向波瓣515b包含R-L内容，后指向波瓣515a包含R-L内容，右指向波瓣520b包含L-R内容，并且左指向波瓣520a包含L-R内容。定向方向图525与全向方向图505的组合或叠加因此产生音频的扇区(它们围绕扬声器箱110的中心一起跨度360度)。在图5所示的示例中，包含在全向方向图505内的相关音频内容的每个扇区的两侧是包含通过从R减去L得到的去相关的音频内容的波瓣和包含从L减去R得到的去相关的音频内容的波瓣。在一个实施方案中，在具有双极波束的较低阶中间-侧边模式中，一个波瓣包含R-L内容，而另一个波瓣包含L-R内容。

在决定使用哪个声音渲染模式时，决策逻辑部件215还可响应于警示消息在空间上回避节目音频，通过从“前景”拉出节目音频并将其移动到“背景”来改变收听者对当前由扬声器箱110输出的该段声音节目内容的感知，使收听者感觉该段节目内容正在远处(例如，在另一个房间中)输出。通过在背景中输出该段声音节目内容，输出的起源(例如，扬声器箱110)被“模糊”或者输出的起源不容易被收听者识别。在一个实施方案中，决策逻辑部件215中的模糊例程(参见图2A)在将节目音频的部分传递给渲染处理器210之前调整节目音频的该部分(例如，通过空间上回避该节目音频)(因此渲染处理器210不再直接接收节目音频，而是从决策逻辑部件215的模糊例程接收调整后的节目音频。)在另一个实施方案中，渲染处理器210可继续直接接收节目音频，并且当节目音频被空间上回避时，决策逻辑部件215可指示渲染处理器210如何执行。

空间上回避的示例应用如下。返回到图1B，在两个时间线上从左向右进行，节目音频130由扬声器箱110输出，而不被虚拟个人助理(VPA)的响应任意中断(暂停或中断)。在一个实施方案中，此时的节目音频130正在通过扬声器箱110正常输出(例如，根据渲染处理器正在操作的当前渲染模式)。接下来，收听者试图通过说出触发短语来启动VPA对话(例如，“嘿，Hal，你明白我说的吗？”)一旦检测到触发短语，就认为VPA对话开始，从而导致节目音频的一部分被扬声器箱110空间上回避。在该示例中，节目音频的该部分覆盖节目音频的连续间隙，该连续间隙的持续时间与收听者和VPA之间的对话一致。随着节目音频被空间上回避，VPA人声响应140(例如，“我怎样可以帮助你Dave？”)被渲染并通过扬声器箱110输出。一旦VPA人声响应140被输出，VPA等待(例如，延迟)特定的时间量(例如，三秒)，以便让收听者有时间向VPA发出命令(例如，问题)。在延迟期间，收听者会询问问题，例如“在日本是什么时间？”该命令由麦克风(可耦接到扬声器箱或与扬声器箱集成在一起)感测。感测到的命令然后由VPA解释，这可能需要一些时间(例如，两秒)。一旦检索到对感测到的命令的VPA人声响应145(例如，“现在是五点钟”)，它就通过扬声器箱110被渲染和输出。同样，VPA可延迟特定的时间段，以便让收听众有更多时间发出后续命令。在没有收到后续命令的情况下，VPA对话结束，节目音频的该部分的空间回避被移除或关闭，从而允许通过扬声器箱正常输出节目音频。每当收听者说出触发短语以便发起与VPA的对话时，可由音频系统200执行该过程(或该过程的至少一部分)。

为了在空间上回避一段声音节目内容的节目音频，决策逻辑部件215中的模糊例程可对由扬声器箱110发射的至少一个波束方向图内的节目音频的至少选定部分(例如，所包含的相关内容或单声道内容)执行去相关处理。在一个实施方案中，决策逻辑部件215选择可包括相关内容的节目音频的部分。例如，参见图3，当渲染处理器210使用主-漫射(环境-直接)渲染模式来渲染音频时，决策逻辑部件215可对主内容方向图305内包括相关内容的节目音频的选定部分执行去相关。相比之下，在中间-侧边模式(图5)中，决策逻辑部件215可对全向方向图505内包括相关内容的节目音频的选定部分执行去相关。下面进一步描述在不同模式下执行去相关的效果以及如何对节目音频的部分进行这种操作。

决策逻辑部件215可以不同的方式对节目音频的部分执行去相关。例如，决策逻辑部件215可通过向节目音频的一个或多个输入音频声道添加混响来做到这一点。添加的混响的量可基于房间的传声效果。例如，决策逻辑部件215可基于包含扬声器箱110的房间的测得的脉冲响应来确定要添加多少混响。使用测得的脉冲响应，决策逻辑部件可基于脉冲响应的估计峰度(例如，“尖峰度”)来评估房间的混响(例如，漫射)。峰度越大，房间漫射越小。因此，决策逻辑部件215可添加混响以减少估计的峰度，从而平滑脉冲响应，这导致房间效果的漫射性的增加。这种“混响辅助去相关”导致收听者感觉到音频“模糊”效果。随着混响的加入，波束方向图内包括相关内容的节目音频的部分因此变得去相关。对波束方向图内的节目音频部分执行的去相关过程实现了回避的“空间”(或漫射)方面，这产生节目音频的模糊印象(对收听者来说)，给人正在“背景”中输出的印象。下面结合图4进一步描述关于空间回避对收听者的影响。

在一个实施方案中，决策逻辑部件215可通过将头相关传递函数(HRTF)应用于一个或多个输入音频声道来对波束方向图中的节目音频的选定部分执行去相关。在另一个实施方案中，决策逻辑部件215可使用串扰消除器来使节目音频的选定部分去相关。在另一个实施方案中，当节目音频包括单个(例如，单声道)信号时，决策逻辑部件215可将其提高混合成多声道信号(例如，具有L和R声道)，从而在两个声道内产生去相关的内容。应当理解，决策逻辑部件215可使用任何方式来使节目音频的选定部分去相关。

除了将节目音频的各部分去相关之外，决策逻辑部件215还可在该段声音节目内容的输出期间将那些部分从一个波束方向图移动(例如，平移)到另一个波束方向图。例如，参见图3，在环境漫射模式中，决策逻辑部件215可将包含在主内容方向图305内的节目音频的部分移动并去相关到漫射内容方向图310和/或315中的一者或两者中。在图5的中间-侧边模式中，决策逻辑部件215可将当前包含在全向方向图505内的节目音频的部分移动(至少一些)和去相关到定向方向图525的一个或多个波瓣中。通过将被认为相对于输入音频声道“相关”的警示音频添加到主内容方向图305(或者全向方向图505)中，音频系统200可产生聆听体验，其中收听者感知到“前景”中添加的警示音频，而节目音频现在处于去相关的形式，并且正在通过不同的波束组输出，并且因此处于背景中。稍后将介绍有关添加警示音频以代替移动的新近去相关的音频内容的更多信息。决策逻辑部件215可指示渲染处理器210在不同的波束方向图之间移动节目音频的部分的现在去相关的内容。

在一个实施方案中，响应于将该部分去相关，节目音频的去相关的部分的移动(在波束之间)可固有地发生。为了解释，考虑决策逻辑部件215具有内容分析例程，其可使用时间窗口相关来分析其输入音频声道(例如，节目音频的L和R)以在其中找到相关的内容和去相关的内容。如果现在在决策逻辑部件215的模糊例程已经将混响添加到输入音频声道中之后执行该分析，则因为内容分析例程现在找到由于所添加的混响的去相关的内容，所以决策逻辑部件215将通知渲染处理器210该修改的输入音频应当i)当节目音频在主-漫射渲染模式中被渲染时(例如，图3)，在漫射内容方向图310和/或315中的至少一者中，或者ii)当节目音频在中间-侧边渲染模式中的一者中被渲染时(例如，图5中)，在定向方向图525的波瓣中的至少一者中被渲染。

在一个实施方案中，即使空间回避已被激活，渲染处理器210内的波束形成器也继续将其输入音频信号渲染成波束，而不改变其波束配置(例如，波束的形状和指向)。图2B示出了此类示例。具体地，该图示出了提供几个波束形成器输入信号241-243到呈现渲染处理器210内的波束形成器250的决策逻辑部件215。基于由决策逻辑部件215提供的波束配置指令，波束形成器250使用输入信号241-243来生成驱动器信号以驱动扬声器阵列120(在扬声器箱110内)产生波束方向图。如下所示，当空间回避被激活时，决策逻辑部件可只是调整所产生的波束方向图内的声音内容(通过添加混响来模糊声音)，但不会调整波束的形状或指向。

例如，在空间回避之前，渲染处理器210从决策逻辑部件215接收节目音频作为几个波束形成器输入信号241-243。决策逻辑部件215从节目音频的部分产生波束形成器输入信号。每个波束形成器输入信号可包含要在由扬声器阵列产生的特定波束方向图(例如，主内容方向图305和两个漫射内容方向图310和315)中输出的音频内容。在此类操作期间，收听者可尝试通过说出触发短语或按下按钮来启动与VPA的对话。响应于检测到触发短语或菜单按钮按下(两者都是警示音频触发事件的示例)并且检索到合适的可听响应(警示音频)，基于语音的服务230可发送指向或者包含警示音频的警示消息235到决策逻辑部件215。

响应于该警示消息，(1)决策逻辑部件的模糊例程向当前正在作为直接声音通过主内容方向图305输出的节目音频的部分(到该部分中的至少一个声道中，该部分可覆盖两个或更多个声道)添加混响，以及(2)决策逻辑部件将警示音频同相地添加到该部分，而没有混响(例如，警示音频以这种方式被添加到正在主波束305中输出的部分中的节目音频的两个或更多个声道中的全部)。如上所述，决策逻辑部件中的内容分析例程将检测对输入音频声道的这种改变，并且因此决策逻辑部件将因此保持警示音频(因为其跨多个输入声道相关)在信号241(主)内，同时提取现在去相关的节目音频并将其移动到信号242(漫射1)和信号243(漫射2)中的一者或两者中。波束形成器250未被重新配置(例如，其如图3或图5中的总体波束配置保持不变)，并且仍然没有注意到其输入信号241-243的内容的改变，并且声音输出是期望的结果：警示音频已经有效地替换了主方向图305中的节目音频，并且原始节目音频中的直接内容已经被移动到漫射内容方向图310,315中。

当节目音频被空间上回避时，决策逻辑部件215也可应用其他音频处理操作。例如，决策逻辑部件215可通过一组低通滤波器对该部分节目音频进行滤波以去除高频内容。在一个实施方案中，根据某些音频特性，决策逻辑部件215可调整低通滤波器的截止频率。例如，可根据节目音频的内容分析来调整截止频率。通过应用回避值(或动态范围压缩值)，决策逻辑部件215还可降低要移动的节目音频部分的音量水平。在一个实施方案中，回避值的应用可取决于(i)决策逻辑部件215是否正在施加低通滤波器和(ii)节目音频的当前音量水平。例如，随着在低通滤波器的施加期间去除高频内容，节目音频的感知响度可自然地减小。因此，如果节目音频已经处于低阈值，则决策逻辑部件215可不应用回避值，因为降低音量将是不必要的(由于高频内容)。在一个实施方案中，回避值的应用与节目音频的音量水平成比例。

在一个实施方案中，决策逻辑部件215可逐渐在空间上回避(例如，应用先前提到的操作到)节目音频，以便不突然地干扰输出。例如，一旦决策逻辑部件215开始去相关节目音频的一部分(例如，将混响添加到输入音频声道中)，这可导致逐渐从一个波束方向图(例如，主内容方向图305)移除该部分节目音频，并且将其逐渐添加到一个或多个其他波束方向图(例如，漫射内容方向图315和/或310)。决策逻辑部件可添加混响，直到节目音频的所有部分(或大部分)已经去相关并移动到其他波束方向图。它可能需要很短的时间(例如两秒)，以便节目音频完全被空间回避。在另一个实施方案中，节目音频可能在瞬间被空间回避。一旦音频系统200不再需要节目音频被空间上回避，节目音频的空间回避部分可以相反方式返回到其原始波束方向图(例如，主内容方向图305)。例如，随着节目音频的部分的去相关的内容变得相关(例如，基于从输入音频声道移除所添加的混响)，其可返回到其原始波束方向图。

返回到图2A，警示音频触发事件对空间回避的激活可由基于语音的服务230进行。基于语音的服务230用于允许收听者发起并进行与充当虚拟个人助理(“VPA”)的计算机程序的对话，该计算机程序在音频系统200中运行并存储在扬声器箱110的本地存储器中。通过与VPA通信，收听者能够提问(例如，通过表述命令)，并且作为响应，接收由扬声器阵列120输出的可听响应。具体地，收听者可尝试通过说出“触发短语”来发起与VPA的对话，该触发短语由音频系统200的麦克风201感测。麦克风201可将感测到的语音转换为音频信号，然后将其发送到基于语音的服务230内的触发短语检测器(自动语音识别器)，以分析该信号以便标识(例如，识别)其中的触发短语。在一个实施方案中，触发短语检测器可将识别出的语音与存储在本地存储器中的预先存储的触发短语进行比较(例如，在查找表中)，并且当找到匹配时，它可确定收听者已经说出了触发短语。一旦检测到触发短语，基于语音的服务230就可检索对触发短语的合适的人声响应(制定或从存储装置获取)。

在另一个实施方案中，警示音频触发事件可为收听者按下的按钮，其可通过在扬声器箱中运行的另一软件过程而被报告给基于语音的服务230。作为响应，基于语音的服务230可基于几个因素中的至少一者来检索合适文本响应。例如，如果事件是说出的触发短语，则该响应可基于对语音信号执行的收听者识别过程以便识别谁说出了触发短语。一旦收听者被识别，基于语音的服务230可定制对收听者的响应，例如，“我怎样可以帮助你，Dave？”，其中Dave是收听者。在一个实施方案中，该响应可基于扬声器箱110的拥有者。在另一个实施方案中，回应可能只是一般性的回应，例如，“我怎样可以帮助你？”检索到的合适响应可被提供给文本到语音(“TTS”)系统以产生其合成语音版本。另选地，音频响应可被检索为先前记录的人类说出的短语(其被认为适合作为对触发短语的响应)。在这两种情况下，音频信号，这里称为警示音频，其包括由VPA的合适的语音响应，可提供给渲染处理器210，旨在响应于特定警示音频触发事件而通过扬声器箱110的扬声器阵列120输出。

在一个实施方案中，警示音频触发事件可为来自当前正在音频系统200中执行的另一应用程序的信号，该应用程序需要输出音频内容。例如，当正在输出节目音频时，提醒应用程序可能需要在特定时间提醒收听者预定的会议。当该时间到来时，提醒应用程序可向基于语音的服务230发信号，基于语音的服务230继而向决策逻辑部件215发送指向或包含提醒应用程序期望的警示音频的警示消息(例如，合成版本的“30分钟后开球”)以通过扬声器阵列120输出。在另一个实施方案中，当节目音频正被输出时，导航应用程序可能需要向收听者提供导航指令。当操纵即将发生时，导航应用程序可向决策逻辑部件215直接提供警示消息以及其期望的警示音频(例如，合成的或人类说出的版本“1.5英里后左转”)，并且决策逻辑部件215将如上所述对此作出响应，导致节目音频在空间上被回避并被警示音频替换。一旦警示音频的输出完成，决策逻辑部件215可立即(或在短时间内-例如不超过两秒)移除空间回避，因为在这种情况下不需要与收听者的人声交互。在其他实施方案中，请求应用程序(请求输出音频警示)可与基于语音的服务230通信以便在空间上回避节目音频。例如，导航指令可指示基于语音的服务230向决策逻辑部件215提供警示消息和警示音频。

如果在正在输出节目音频时事件发生，则基于语音的服务230可提供指向或包含警示音频的警示消息235到决策逻辑部件215，该警示音频包括VPA的合适的语音(例如，人声)响应，旨在响应于该事件而输出。响应于接收到警示消息235，决策逻辑部件215在空间上回避节目音频，使得警示音频可被输出给收听者。例如，当正在输出节目音频时，基于语音的服务230可请求(通过传送警示消息)决策逻辑部件215空间上回避节目音频，以便警示音频通过由扬声器阵列120发射的波束方向图输出到收听者。决策逻辑部件215可以几种方式接收(或检索)警示音频。例如，决策逻辑部件215可从基于语音的服务(例如，其内的TTS系统)接收警示音频，决策逻辑部件215可从警示消息235自身检索警示音频，或者决策逻辑部件215可基于包含在警示消息235内的数据检索警示音频(例如，告诉决策逻辑部件215从存储器哪里检索警示音频的指针信息)。在一个实施方案中，响应于接收到警示消息235，决策逻辑部件215接收(或检索)警示音频。在另一个实施方案中，决策逻辑部件215可与警示消息235同时地接收警示音频(例如，从基于语音的服务230)。

警示消息235通知决策逻辑部件215：(i)正在输出的节目音频在空间上被回避，并且(ii)同时，警示音频将被渲染并被添加到波束方向图中的至少一者。具体地讲，当节目音频被空间上回避时，可通过替换被移动到其他波束(例如，漫射内容方向图310和315或者定向方向图510)的节目音频的部分的去相关的内容将警示音频添加到至少一个波束方向图(例如，主内容方向图305或者全向方向图505)。通过空间上回避节目音频，当警示音频输出到收听者时，这允许收听者在前景中听到警示音频，而节目音频在背景中继续输出。在某种意义上，所渲染的警示音频驱动扬声器阵列120以便用警示音频替换(例如，主内容方向图305或全向方向图505)中的节目音频的(先前相关的)部分。这样，收听者在发声触发短语以便发起在音频系统200中运行VPA之后接收来自音频系统200的即时且可理解的可听响应，而不被节目音频掩盖，因为后者继续在背景中输出。

为了确保警示音频替换节目音频的部分的新近去相关的内容，可在整个过程的不同点添加它。由于警示音频包括合适的音频响应，由TTS系统合成或者先前录制的人类说出的短语，警示音频可为单个(或单声道)音频声道。因此，在一个实施方案中，例如，警示音频可被均等地添加(例如，由决策逻辑部件215)到左输入音频声道和右输入音频声道。在一个实施方案中，警示音频被均等地添加，使得警示音频被同相地添加到左输入音频声道和右输入音频声道中，如上所述。这样，警示音频在两个输入声道中表现为相关内容，并且将由内容分析例程识别，这继而指示渲染处理器210相应地渲染它(取决于当前渲染模式)。通过均等地添加警示音频，警示音频将被识别为输入音频声道(例如，L和R)内的相关内容，从而确保警示音频被放置在通常包含相关内容的波束方向图内，而不管渲染处理器210正在使用哪种渲染模式。例如，如果正在以主-漫射渲染模式渲染节目音频，参考图4，警示音频将被渲染在主内容方向图305中，而不是渲染在远离收听者的漫射内容方向图310,315中。这可能是因为当决策逻辑部件215分析节目音频的输入音频声道的调整版本(其现在还包括警示音频)时，决策逻辑部件215发现警示音频为相关的内容，而其发现去相关的内容是来自原始节目音频。

在另一个实施方案中，当渲染处理器210处于中间-侧边模式时-参见图6-警示音频可被均等地添加到(通过决策逻辑部件)L输入音频声道和R输入音频声道两者，使得它看起来为全向方向图505中的相关内容(如L+R)，但基本上不存在于波瓣515a、515b、520a、520b(如L-R和R-L)。同时，包含在L(或R中)中的节目音频是去相关的，使得其在波瓣(渲染处理器210产生L-R和R-L内容的波瓣)中保持去相关。

一旦警示音频的全部输出到收听者，或者警示音频的输出已经完成，则决策逻辑部件215可停用空间回避，以便将节目音频的输出返回到其先前的操作条件。如前所述，节目音频的一部分的去相关的内容可以其最初被移除的相反方式返回到其原始波束方向图。例如，决策逻辑部件215可逐渐将节目音频的部分的去相关的内容恢复成相关的内容(例如，通过从输入音频声道逐渐去除所添加的混响)，并同时将其逐渐添加回到其原始波束方向图中。在一个实施方案中，如果已经在节目音频的部分上执行其他音频处理操作(例如，低通滤波器和回避值)，同时它被空间上回避，那么这些操作也可以相反的方式被移除或关闭(去激活)。将音频系统200返回到先前的操作条件可能需要很短的时间段(例如，两秒)，或者它可能基本上是立即的。

在一个实施方案中，音频系统200可在警示音频结束之后保持空间上回避较长时段(例如，五秒钟)，以允许收听者一些额外的时间给音频系统200后续命令(例如“现在是什么时间？”)。例如，麦克风201可感测命令并将其转换为音频信号。麦克风201可将转换后的音频信号发送到自动语音识别器，以便其识别其中的语音。从识别的语音中，基于语音的服务230可识别收听者所说的词语是命令(或问题)。基于语音的服务230然后可经由互联网将所识别的语音发送给数字助理服务器以分析该命令并生成对该命令的合适文本响应。在一个实施方案中，因为可假设在触发短语之后说出的词语是命令，所以基于语音的服务230可在不首先鉴定所识别的词语是否包括命令或问题的情况下将命令发送到服务器。一旦基于语音的服务230从服务器接收到对该命令的合适文本响应，则其可使TTS系统将对该命令的文本响应合成为警示音频以添加到波束方向图，该波束方向图(例如，主内容方向图305或全向方向图505)以与先前所述的添加警示音频的类似的方式投射该警示音频。

在一个实施方案中，基于语音的服务230可接收先前记录的人类说出的短语作为要被添加到波束方向图的音频，而不是接收合适文本响应。然而，如果没有接收到命令，音频系统200可返回到其先前的操作条件。在一个实施方案中，在已经完成警示音频的输出之后，决策逻辑部件215在移除空间回避之前等待至少预定的延迟时间间隔。在另一实施方案中，决策逻辑部件215一直等待直到它从基于语音的服务230接收到另一警示消息235以指示VPA和收听者之间的对话已经结束才会移除空间回避。因此，在一个实施方案中，被空间上回避(例如，移动到中间-侧边渲染模式中的定向方向图中)的节目音频的部分是音乐作品或电影胶片声带的连续间隙，该连续间隙的持续时间与收听者和虚拟个人助理之间的对话的持续时间一致。

在一个实施方案中，如由内容上下文例程所确定的(在图2A中描绘的)，决策逻辑部件215可基于由扬声器箱110当前正输出的声音节目内容的上下文来决定是否在空间上回避节目音频。例如，如果声音节目内容是音乐作品或者电影胶片或电影的音频声带(例如，5.1环绕格式)，则决策逻辑部件215可响应于接收到警示消息235而决定在空间上回避节目音频。然而，如果声音节目内容的上下文指示主要存在对话(例如，播客或有声读物)，则在输出警示音频时决策逻辑部件215可仅仅只是显著降低节目音频的音量。该决策可基于以下事实：输出警示音频(这是VPA的语音)并继续输出主要包含对话的声音节目内容可能对于收听者太混乱，因为将会有两个同时的讲话者(例如，对话和VPA的语音)同时谈论两个不同的话题。

图4和图6-7描绘了示例，示出了当扬声器箱110以不同模式渲染节目音频时所执行的空间回避的效果。将参照图2A的系统框图来描述这些图中的每者。图4示出了通过波束来输出警示音频，同时以主-漫射渲染模式被渲染的节目音频被空间上回避的效果，在该示例中波束指向收听者的位置。图4示出了两个阶段。在左侧阶段中示出了房间400，其中扬声器箱110在房间的一侧输出节目音频，而收听者415在房间400的另一侧正在收听。为了输出节目音频，扬声器箱110正在使用图3所示的主-漫射渲染模式。主内容方向图305包括节目音频的一部分的相关(或直接)音频内容(其被示出为主内容方向图305中的实心黑色圆圈)，指向收听者415。同时，存在两个漫射内容方向图310和315，其包括远离收听者415指向的节目音频的另一部分的去相关的(或漫射)音频内容。例如，主内容方向图305中的节目音频的部分可为电影场景中的对话，而漫射内容方向图310,315中的节目音频的部分可为电影场景中的环境声音(诸如鸟鸣声)。

当收听者415正在收听由房间400中的扬声器箱110输出的一段声音节目内容时，收听者415说出触发短语420“嘿，Hel！”以发起与扬声器箱110的VPA的对话(或会话)。扬声器箱110通过在空间上回避节目音频来响应该触发短语，同时输出包含对收听者说出的触发短语的合适响应的警示音频-这在图4的右侧阶段中示出。具体地讲，扬声器箱110通过去相关主内容方向图305中的节目音频的部分的相关音频内容(例如，通过向节目音频的一个或多个输入音频声道添加混响)，并将其移动到漫射内容方向图310和/或315中的至少一者中来空间上回避节目音频。新近去相关的内容被示出为包含在漫射内容方向图310和315内的空心圆。节目音频现在在房间400内以漫射方式输出，这导致收听者感知节目音频在背景中被输出。同时，如图4的右侧阶段所示，警示音频正在主内容方向图305中渲染，这导致收听者415听到人声响应425“我怎样可以帮助你，Dave？”在该示例中，黑色粗线示出向主内容方向图305添加和输出警示音频。

如前所述，扬声器箱110可首先在空间上回避节目音频，等待特定的时间量(例如，一秒)，输出警示音频，以及在移除空间回避之前等待延长的时间量(例如，三秒)以便允许收听者415说出接着的命令。在另一个实施方案中，音频系统可同时空间上回避节目音频并添加警示音频。

房间脉冲响应(RIR)的概念可用来说明空间回避的影响。如图4所示，左边阶段示出RIR如何“包含”具有对应于直接声音401、前期反射402和后期反射403的峰值的节目音频404。在左侧阶段中，这些峰值被映射到各种波束中的音频内容，例如主内容方向图305、左漫射方向图310和右漫射方向图315。在右侧阶段中，节目音频404的直接反射和至少一些前期反射被抑制，并且在它们的位置添加与由主内容方向图305发射的警示音频相关联的声音426(例如，直接反射和前期反射)。通过抑制节目音频404的直接反射和(至少一些)前期反射，收听者415能够听到来自扬声器箱110的清晰且可理解的人声响应425。如在右侧阶段中所看到的，虽然节目音频404已经在直接声音和前期反射中被抑制，但是漫射的(或空间上回避的)节目音频404仍然存在于后期反射403(或混响)中。通过添加去相关的音频内容435(在漫射内容方向图310和315内被描绘为空心圆圈)，混响403的密度已经增加，如右侧阶段所见。

上面介绍的RIR概念有助于示出空间回避对收听者415的影响，特别是声音输出的明显起源(例如，扬声器箱110)如何被“模糊”或者对收听者415来说不容易识别。例如，抑制与节目音频404相关联的直接声音和(至少一些)前期反射，同时允许保持混响403内包含的节目音频404，将听者415置于漫射环境中，移除或模糊对节目音频起源的地方的任何指示。换句话讲，该漫射环境给收听者415例如在“背景”中输出节目音频的感觉，这与例如在非常大的房间、大厅或大教堂中听音频时具有相同的效果。然后，将相关(和单声道)警示音频添加到主内容方向图305中，给收听者415以警示音频处于“前景”的印象。此外，通过从前期反射402去除至少一部分节目音频404，这允许收听者415听到与警示音频426相关联的清晰且可理解的人声响应，而在前期反射402中不存在由扬声器箱110产生的任何其他声音干扰。因此，空间回避节目音频允许收听者415发起并进行与VPA的对话，而不需要停止输出该段声音节目内容的节目音频，同时能够清楚地听到VPA。

图6示出了输出警示音频的效果，而在中间-侧边渲染模式下渲染的节目音频被空间上回避。具体地讲，图6示出了两个阶段，其中响应于从收听者接收到命令(其可包括触发短语)，扬声器箱110空间上回避正以较高阶中间-侧边渲染模式输出的节目音频。

第一(或顶部)阶段示出了房间400，其中扬声器箱110正在房间的中间输出一段声音节目内容的节目音频，而收听者415正在房间400的右侧收听。为了输出节目音频，扬声器箱110正在使用图5所示的更高阶中间-侧边渲染模式。具体地讲，扬声器箱110正在产生全向方向图505，其包括节目音频的至少一部分的相关音频内容(其在全向方向图505内以实心黑色圆圈示出)和具有四个波瓣515a-b和520a-b的定向方向图525，该四个波瓣中的每者包括节目音频的至少一部分的去相关的音频内容。如前所述，这些波束方向图可由节目音频的两个或更多个输入音频声道的组合和/或差值构成。类似于图4的扬声器箱，决策逻辑部件215可基于与先前描述的相同因素建立其使用较高阶中间-侧边渲染模式来渲染节目音频的决策(或选择)。例如，在一个实施方案中，由于决策逻辑部件215确定(例如，通过传感器数据)其处于房间400的中间(或者距离任何墙壁超过阈值距离)，因此决策逻辑部件215选择较高阶中间-侧边渲染模式。

在图6的顶部阶段中，收听者415询问扬声器箱110(具体地，在扬声器箱110的音频系统200中运行的VPA)命令(例如，问题)以引起回答，在这之前有触发短语。具体地讲，收听者415可说出短语615，“嘿，Hal，正在播放什么歌曲？”如前所述，扬声器箱(通过麦克风)通过将所说的问题的声音转换成音频信号来感测它，该音频信号可然后被反馈到基于语音的服务230的触发短语检测器(自动语音识别器)-参见图2A。可检测到触发短语“嘿，Hal”。然而，与先前示例不同，收听者415还包括带有触发短语的后续命令(例如，“正在播放什么歌曲？”)。基于语音的服务230识别在触发短语之后存在另外的语音信号，可经由因特网将另外的语音信号传输到数字助理服务器。服务器将分析另外的语音信号以识别其中的语音并且可制定回传给基于语音的服务230的合适文本响应。一旦基于语音的服务230接收到合适文本响应，则TTS系统将该文本响应合成为音频信号，该音频信号变成要被添加到波束方向图的警示音频。在另一个实施方案中，代替文本响应，基于语音的服务230可从服务器接收先前记录的人类说出的响应(其成为警示音频)，而不是文本响应。为了将警示音频添加到波束方向图中，基于语音的服务向决策逻辑部件215提供警示消息235，通知它空间上回避节目音频以便检索到的警示音频(响应于短语615)被输出。

图6中的下一个(或底部)阶段示出了扬声器箱110在空间上回避节目音频，同时输出包含VPA的命令响应的警示音频。具体地讲，扬声器箱110通过(i)去相关相关音频内容(在第一阶段中被示出为全向方向图505内的实心黑色圆圈)，并且由此(ii)将去相的关内容移除出全向方向图505并移动到定向方向图525中来空间上回避节目音频。所添加的去相关的音频内容被描绘为包含在定向波束525的波瓣内的空心圆。在一个实施方案中，基于在顶部阶段中示出的全向方向图505中的相关的音频内容(实心黑色圆圈)的位置，去相关的音频内容被添加到定向方向图525中的波瓣，去相关音频内容来源于相关音频内容。例如，扬声器箱110可将相关内容的特定部分指定到定向方向图525的相邻波瓣中。由于每个波瓣相对于扬声器箱110与每个相邻波瓣间隔90度，因此从每个波瓣的任一侧45度内的相关的音频内容导出的去相关的内容被添加到该波瓣。例如，假设前指向波瓣520a从扬声器箱以0度发射。当节目音频被空间上回避时，随后将从在45度和-45度之间并且在全向方向图505内的相关的音频内容得出的去相关的音频内容移动到前指向波瓣520a中。一旦节目音频被空间上回避，音频系统200就将该警示音频添加到全向方向图505中，以输出对“’I’drather go blind’Chicken Shack演唱”630的命令响应。一旦警示音频已被输出，并且基于语音的服务230没有感测到来自收听者415的接着的问题/命令，则扬声器箱110将移除空间回避并将相关音频内容返回到全向方向图505中。

在一个实施方案中，当处于中间-侧边渲染模式时由扬声器箱110测量的脉冲响应可与针对主-漫射渲染模式测量的脉冲响应类似，并且如图4所示。具体地讲，由于节目音频的相关的音频内容被去相关并且被移动到定向方向图525中，这可能导致节目音频声音的直接反射和前期反射被抑制，并且来自警示音频的人声响应的声音可代替它。这可具有类似于主-漫射渲染模式的结果，在主-漫射渲染模式中人声响应的声音可被收听者415感知成在前景中，而去相关的节目音频在背景中。

在一个实施方案中，扬声器箱110可执行图6中所述的过程的变型。例如，重新参考图2A，在触发短语检测器检测到触发短语“嘿，Hal”(类似于图4)之后，警示消息235可从基于语音的服务230提供给决策逻辑部件215。在该示例中，预计要添加用于响应收听者命令的警示音频(其从数字助理服务器被接收)，决策逻辑部件215可空间上回避节目音频。通过在接收到响应之前在空间上回避节目音频，收听者意识到VPA已经听到了收听者的命令并正在制定/检索适当的响应。否则，收听者可能会疑惑，VPA是否听到了触发短语和/或命令。

先前描述的示例已经示出了输出警示音频而正在由单个扬声器箱输出的节目音频在空间上被回避的效果。图7示出了一个示例，其中正在两个扬声器箱上输出的节目音频被空间上回避，以便允许警示音频在扬声器箱的至少一者上输出。具体地讲，图7示出了两个阶段，其中两个扬声器箱110和715响应于从收听者接收到命令(例如，触发短语)而在空间上回避正在以较高阶中间-侧边渲染模式输出的节目音频。

第一(或顶部)阶段示出了几个扬声器箱110和715在较高阶的中间-侧边渲染模式中输出一段声音节目内容的节目音频。具体地讲，扬声器箱110正在房间400的左上部分中输出节目音频，并且扬声器箱715正在房间400的右上部分中输出节目音频，而收听者415正在朝着房间400的左下侧的位置收听。在一个实施方案中，为了两个扬声器箱输出相同的节目音频，可在它们之间建立通信链路(例如，使用蓝牙协议或无线局域网链路)。利用建立的通信链路，两个设备可通过任何常规方式(例如，用于同步每个箱体的内部时钟的同步消息的交换)来同步它们的音频输出。在一个实施方案中，两个扬声器箱110和715每者都可具有与音频源(例如，智能电话、膝上型电脑或平板电脑)建立的通信链路，该音频源将节目音频传输到箱用于输出。

在一个实施方案中，扬声器箱110和715都可输出一段声音节目内容的相同节目音频。例如，由每个扬声器箱发射的波束方向图可包括节目音频的相同部分。这样，收听者415可完全沉浸在由扬声器箱产生的声音中。在另一个实施方案中，扬声器箱可输出节目音频的不同部分。例如，由于扬声器箱110位于房间400的左侧，所以它可被偏置成相比扬声器箱715输出节目音频的左声道的较大部分，而扬声器箱715本身可被偏置成输出节目音频的左声道的较大部分。

在顶部阶段，收听者415询问被扬声器箱110和715两者(例如，它们的麦克风)感测到的问题(例如，对VPA的问题)。具体地说，收听者415说：“嘿，Hal，现在是什么时间？”720。此时，可确定哪个扬声器箱应该承担输出警示音频(其包含VPA的响应)的责任。可基于几种因素做出这种确定。例如，使用传感器数据和用户界面选择的任何合适的组合，在扬声器箱中的一者中运行的计算过程可将该责任分配给最靠近收听者415的扬声器箱。扬声器箱可自动确定收听者相对于每个扬声器箱的距离，并且因此在这种情况下责任可被分配给扬声器箱110，因为它距收听者415的距离“r1”比扬声器箱715距收听者415的距离“r2”短。使两个箱体中的仅一者输出警示音频的决定可为由于使多个扬声器箱输出相同的VPA人声响应可能会造成混淆或破坏。例如，由于收听者415更靠近扬声器箱110，如果两个扬声器箱都要输出相同的警示音频，该警示音频作为相关内容被添加到每者的全向方向图505，收听者415可体验令人不愉快的回声。

图7中的下一个(或底部)阶段示出，尽管扬声器箱110已经被赋予输出警示音频的责任，但扬声器箱110和715两者都将在空间上回避节目音频(在警示音频输出期间)。具体而言，每个扬声器箱可以与以上结合图4和图6所描述的类似的方式在空间上回避节目音频的一部分。例如，扬声器箱110可将警示音频添加到其全向方向图中，以输出“现在是午餐时间！”的人声响应725。相比之下，由于另一扬声器箱715不输出警示音频，但将在空间上回避其节目音频，因此可只是不产生其全向方向图中的任何可听内容(示出为虚线全向方向图)。后者有效地增加了漫射声音环境，因为箱体715仍在其定向方向图中发射去相关的内容。一旦警示音频的输出完成，两个扬声器箱可返回到其正常渲染模式(如它们在触发警示音频的事件之前那样)。

本发明的实施方案可为其上存储有指令的非暂时性机器可读介质(诸如微电子存储器)，所述指令对一个或多个数据处理组件(在此统称为“处理器”)进行编程以执行上述的数字信号处理操作，包括接收、渲染、移动、触发、发起、发信号、生成、分析、比较、滤波、施加、组合和减去。在其他实施方案中，这些操作中的一些可由执行特定功能的硬连线或可编程逻辑组件执行(例如，专用数字滤波器块)。另选地，这些操作也可由可编程处理器和硬连线或可编程逻辑电路组件的任意组合来执行。

虽然已描述并且在附图中示出了某些实施方案，但应当理解，此类实施方案仅用于说明广义的发明而非对其进行限制，并且本发明并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其他修改。因此，要将描述视为示例性的而非限制性的。

Claims

1.一种用于调整通过波束形成扬声器阵列输出的音频的方法，所述方法包括：

接收要由所述扬声器阵列转换成声音的一段声音节目内容的节目音频；

驱动所述扬声器阵列产生声音波束，所述声音波束具有i)主内容方向图，与ii)多个漫射内容方向图叠加，其中所述主内容方向图和漫射内容方向图包含所述节目音频的部分并且指向不同方向；

接收与警示音频相关联的警示消息；以及

响应于接收到所述警示消息

将所述主内容方向图中的所述节目音频的部分移动到所述多个漫射内容方向图中，以及

用所述警示音频驱动所述扬声器阵列以替换所述主内容方向图中的所述节目音频的部分。

2.根据权利要求1所述的方法，所述方法还包括：

使要从所述主内容方向图移动到所述多个漫射内容方向图中的所述节目音频的部分去相关。

3.根据权利要求2所述的方法，其中所述节目音频包括多个输入音频声道，并且其中所述去相关包括

将混响添加到所述节目音频的部分。

4.根据权利要求2所述的方法，还包括降低要从所述主内容方向图移动到所述多个漫射内容方向图中的所述节目音频的部分的音量水平。

5.根据权利要求1所述的方法，还包括：

响应于所述警示音频的输出完成，将漫射内容方向图中的所述节目音频的部分移动回到所述主内容方向图中。

6.根据权利要求1所述的方法，还包括：

响应于触发短语检测器识别由收听者说出的触发短语而提供所述警示消息。

7.根据权利要求1所述的方法，其中所述警示音频包括：

来自虚拟个人助理的人声响应。

8.根据权利要求1所述的方法，还包括：

确定收听者的位置，基于所述收听者的位置，所述主内容方向图指向所述收听者的位置并且所述漫射内容方向图指向远离所述收听者的位置。

9.一种用于调整通过波束形成扬声器阵列输出的音频的方法，所述方法包括：

渲染所述节目音频以驱动所述扬声器阵列产生声音波束，所述声音波束具有i)全向方向图，与ii)具有多个波瓣的定向方向图叠加，其中所述全向方向图和所述多个波瓣包含所述节目音频的部分；

接收涉及警示音频的警示消息；以及

响应于接收到所述警示消息

将所述全向方向图中的所述节目音频的部分移动到所述多个波瓣中，以及

渲染所述警示音频以驱动所述扬声器阵列以便用所述警示音频替换所述全向方向图中的所述节目音频的部分。

10.根据权利要求9所述的方法，其中所述节目音频包括多个输入音频声道，其中所述方法还包括添加混响到所述多个输入音频声道中的一者以使从所述全向方向图移动到所述多个波瓣中的所述节目音频的部分去相关。

11.根据权利要求9所述的方法，其中所述声音节目内容是i)音乐作品或者ii)电影胶片声带，并且其中移动到定向方向图中的所述节目音频的部分覆盖所述音乐作品或所述声带的连续间隙，所述连续间隙的持续时间与收听者和虚拟个人助理之间的对话的持续时间一致。

12.一种具有存储于其中的指令的机器可读介质，当所述指令由处理器执行时

接收要由扬声器阵列转换成声音的一段声音节目内容的节目音频；

渲染所述节目音频以驱动所述扬声器阵列以产生声音波束，所述声音波束具有i)主内容方向图，与ii)多个漫射内容方向图叠加，其中所述主内容方向图和漫射内容方向图包含所述节目音频的部分并且指向不同方向；并且

接收涉及警示音频的警示消息；

响应于接收到所述警示消息

将所述主内容方向图中的所述节目音频的部分移动到所述多个漫射内容方向图中；并且

渲染所述警示音频以驱动所述扬声器阵列以便用所述警示音频替换所述主内容方向图中的所述节目音频的部分。

13.根据权利要求12所述的机器可读介质，其中所述机器可读介质还存储当由所述处理器执行时使要从所述主内容方向图移动到所述多个漫射内容方向图的所述节目音频的部分去相关的指令。

14.根据权利要求13所述的机器可读介质，其中所述节目音频包括多个输入音频声道，并且其中当由所述处理器执行时去相关的指令包括当由所述处理器执行时执行以下操作的指令：

添加混响到所述多个输入音频声道中的一者，以使要从所述主内容方向图移动到所述多个漫射内容方向图的所述节目音频的部分去相关。

15.根据权利要求13所述的机器可读介质，其中所述机器可读介质还存储当由所述处理器执行时执行以下操作的指令：

通过低通滤波器对从所述主内容方向图移动到所述多个漫射内容方向图的所述节目音频的部分进行滤波，以从所述的节目音频的所述部分去除高频内容。

16.根据权利要求15所述的机器可读介质，其中所述机器可读介质还存储当由所述处理器执行时降低要从所述主内容方向图移动到所述多个漫射内容方向图中的所述节目音频的部分的音量水平的指令。

17.一种用于调整通过扬声器阵列输出的音频的方法，所述方法包括：

接收包括多个输入音频声道的节目音频；

产生包含所述节目音频的相关内容的第一波束形成器输入信号，以及包含所述节目音频的去相关的内容的第二波束形成器输入信号；

从所述第一波束形成器输入信号和所述第二波束形成器输入信号生成驱动器信号以驱动所述扬声器阵列的多个扬声器驱动器以产生主内容波束和漫射波束，其中所述主内容波束包括所述节目音频的所述相关内容并且所述漫射波束包括所述节目音频的所述去相关的内容；

接收与警示音频相关联的警示消息；以及

响应于接收到所述警示消息

(1)添加混响到所述节目音频的所述多个输入音频声道中的一者或多者，以及(2)添加所述警示音频到所述多个输入音频声道中的全部；以及

响应于添加所述混响和所述警示音频，调整所述第一波束形成器输入信号和所述第二波束形成器输入信号，其中从经调整的第一波束形成器输入信号和第二波束形成器输入信号生成的驱动器信号i)在所述主内容波束中，产生所述警示音频信号的相关的内容，以及ii)在所述漫射波束中，产生所述节目音频的去相关的内容。

18.根据权利要求17所述的方法，还包括通过低通滤波器对所述多个输入音频声道进行滤波，以从所述节目音频去除高频内容。

19.根据权利要求17所述的方法，其中产生所述第一波束形成器输入信号和所述第二波束形成器输入信号包括

分析添加有所述混响和所述警示音频的所述多个输入音频声道，以找出相关的内容和去相关的内容。

20.根据权利要求19所述的方法，其中生成所述驱动器信号包括使用即使当已经添加了所述混响和所述警示音频时也保持不变的用于所述主内容波束和所述漫射波束的波束方向图。